Predicția structurală , sau învățarea structurală , este un termen colectiv pentru tehnicile de învățare automată supravegheată care implică anticiparea obiectelor structurale.
La fel ca tehnicile de învățare supravegheată, modelele de predicție structurală sunt antrenate pe date observate, unde valoarea reală prezisă este utilizată pentru a analiza parametrii modelului. Datorită posibilei complexități a modelului și a relației dintre variabilele prezise, procesul de predicție folosind învățarea modelului nu este adesea fezabil din punct de vedere computațional, așa că sunt utilizate inferențe aproximative .
De exemplu, problema traducerii unei propoziții în limbaj natural într-o reprezentare sintactică, cum ar fi un arbore de analiză , poate fi gândită ca o problemă de predicție structurală în care domeniul de inferență structurală este mulțimea tuturor arborilor de analiză posibili. Predicția structurală este, de asemenea, utilizată într-o gamă largă de aplicații, inclusiv bioinformatică , procesarea limbajului natural , recunoașterea vorbirii și viziunea computerizată .
Marcarea secvenței este o clasă de sarcini care sunt larg răspândite în procesarea limbajului natural . Datele de intrare în ele sunt adesea secvențe (de exemplu, propoziții din text). În unele versiuni, devine necesară marcarea unor astfel de secvențe, de exemplu, marcarea părților de vorbire și recunoașterea entităților numite . În marcarea parțială , de exemplu, fiecare cuvânt dintr-o secvență trebuie să primească o „ etichetă ” (clasa de etichetă) care exprimă „ tipul ” cuvântului:
Acest | DT |
este | GL |
A | DT |
etichetat | IP |
propoziție | IP |
Scopul principal al problemei de etichetare a secvențelor este definirea corectă a unui concept (element al unei secvențe) în prezența mai multor valori potrivite pentru acesta. De exemplu, cuvântul „propoziție” în engleză poate fi tratat atât ca substantiv, cât și ca verb. Pentru o predicție corectă, unui cuvânt trebuie să i se atribuie o etichetă de clasă („etichetă”).
La prima vedere, problema descrisă mai sus poate fi rezolvată printr-o simplă clasificare a elementelor individuale, dar această abordare nu ține cont de faptul empiric că etichetele nu apar independent. Dimpotrivă, fiecare etichetă arată o dependență condiționată puternică a față de eticheta cuvintelor anterioare. Adică, de ce etichetă este, de exemplu, cuvântul „propoziție” - un verb sau un adjectiv - depind etichetele altor cuvinte din propoziție. Acest fapt poate fi folosit în modele care prezic întreaga secvență de etichete pentru o propoziție, cum ar fi un model Markov ascuns sau un câmp aleator condiționat [1] . Pentru modelele care utilizează etichete individuale, cum ar fi algoritmul Viterbi , această metodă nu este potrivită.
Modelele probabilistice grafice formează o clasă mare de modele de predicție structurală . În special, rețelele bayesiene și câmpurile aleatoare sunt populare . Alți algoritmi și modele pentru predicția structurală includ programarea logică inductivă , raționamentul bazat pe cazuri , mașinile vectoriale de suport structural , rețelele logice Markov și modelele condiționate cu constrângeri . Tehnici de baza:
Una dintre cele mai ușoare moduri de a înțelege algoritmii generali de predicție structurală este Collins Structural Perceptron [2] . Acest algoritm combină algoritmul perceptron pentru antrenarea clasificatorilor liniari cu un algoritm de inferență (în mod clasic, algoritmul Viterbi dacă este utilizat pentru date seriale) și poate fi descris în mod abstract după cum urmează:
Definim o „funcție caracteristică comună” Φ( x , y ) care mapează elementul de antrenament x și candidatul prezis y într-un vector de lungime n. În acest caz, x și y pot avea orice structură, iar valoarea lui n depinde de sarcină, dar este fixă pentru fiecare model. Fie GEN o funcție care generează un candidat predictor. Apoi:
Fie un vector de greutăți de lungime n Pentru un număr predefinit de iterații: Pentru fiecare instanță din setul de antrenament de inferență adevărată : Făcând o predicție Actualizare , de la la : , este rata de învățare.În practică, găsirea Argmax se poate face cu un algoritm cum ar fi algoritmul Viterbi sau algoritmul sumei maxime , mai degrabă decât o căutare exhaustivă pe un set exponențial de candidați.
Ideea de a învăța este similară cu un perceptron cu multe clase .
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|