Prognoza structurală

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 30 ianuarie 2022; verificările necesită 7 modificări .

Predicția structurală , sau învățarea structurală , este un termen colectiv pentru tehnicile de învățare automată supravegheată care implică anticiparea obiectelor structurale.

La fel ca tehnicile de învățare supravegheată, modelele de predicție structurală sunt antrenate pe date observate, unde valoarea reală prezisă este utilizată pentru a analiza parametrii modelului. Datorită posibilei complexități a modelului și a relației dintre variabilele prezise, procesul de predicție folosind învățarea modelului nu este adesea fezabil din punct de vedere computațional, așa că sunt utilizate inferențe aproximative .

Aplicații

De exemplu, problema traducerii unei propoziții în limbaj natural într-o reprezentare sintactică, cum ar fi un arbore de analiză , poate fi gândită ca o problemă de predicție structurală în care domeniul de inferență structurală este mulțimea tuturor arborilor de analiză posibili. Predicția structurală este, de asemenea, utilizată într-o gamă largă de aplicații, inclusiv bioinformatică , procesarea limbajului natural , recunoașterea vorbirii și viziunea computerizată .

Exemplu: Sequence Markup

Marcarea secvenței este o clasă de sarcini care sunt larg răspândite în procesarea limbajului natural . Datele de intrare în ele sunt adesea secvențe (de exemplu, propoziții din text). În unele versiuni, devine necesară marcarea unor astfel de secvențe, de exemplu, marcarea părților de vorbire și recunoașterea entităților numite . În marcarea parțială , de exemplu, fiecare cuvânt dintr-o secvență trebuie să primească o „ etichetă ” (clasa de etichetă) care exprimă „ tipul ” cuvântului:

Acest	DT
este	GL
A	DT
etichetat	IP
propoziție	IP

Scopul principal al problemei de etichetare a secvențelor este definirea corectă a unui concept (element al unei secvențe) în prezența mai multor valori potrivite pentru acesta. De exemplu, cuvântul „propoziție” în engleză poate fi tratat atât ca substantiv, cât și ca verb. Pentru o predicție corectă, unui cuvânt trebuie să i se atribuie o etichetă de clasă („etichetă”).

La prima vedere, problema descrisă mai sus poate fi rezolvată printr-o simplă clasificare a elementelor individuale, dar această abordare nu ține cont de faptul empiric că etichetele nu apar independent. Dimpotrivă, fiecare etichetă arată o dependență condiționată puternică a față de eticheta cuvintelor anterioare. Adică, de ce etichetă este, de exemplu, cuvântul „propoziție” - un verb sau un adjectiv - depind etichetele altor cuvinte din propoziție. Acest fapt poate fi folosit în modele care prezic întreaga secvență de etichete pentru o propoziție, cum ar fi un model Markov ascuns sau un câmp aleator condiționat [1] . Pentru modelele care utilizează etichete individuale, cum ar fi algoritmul Viterbi , această metodă nu este potrivită.

Tehnici

Modelele probabilistice grafice formează o clasă mare de modele de predicție structurală . În special, rețelele bayesiene și câmpurile aleatoare sunt populare . Alți algoritmi și modele pentru predicția structurală includ programarea logică inductivă , raționamentul bazat pe cazuri , mașinile vectoriale de suport structural , rețelele logice Markov și modelele condiționate cu constrângeri . Tehnici de baza:

Câmp aleatoriu condiționat
Mașină vectorială de suport structural
Metoda structurală k-cel mai apropiat vecin
Rețeaua neuronală recurentă , în special rețeaua neuronală Elman

Perceptron structural

Una dintre cele mai ușoare moduri de a înțelege algoritmii generali de predicție structurală este Collins Structural Perceptron [2] . Acest algoritm combină algoritmul perceptron pentru antrenarea clasificatorilor liniari cu un algoritm de inferență (în mod clasic, algoritmul Viterbi dacă este utilizat pentru date seriale) și poate fi descris în mod abstract după cum urmează:

Definim o „funcție caracteristică comună” Φ( x , y ) care mapează elementul de antrenament x și candidatul prezis y într-un vector de lungime n. În acest caz, x și y pot avea orice structură, iar valoarea lui n depinde de sarcină, dar este fixă pentru fiecare model. Fie GEN o funcție care generează un candidat predictor. Apoi:

Fie un vector de greutăți de lungime n

w

Pentru un număr predefinit de iterații: Pentru fiecare instanță din setul de antrenament de inferență adevărată :

X

t

Făcând o predicție

{\hat {y}}={\operatorname {arg\,max} }\,\{{y}\in {GEN}({x})\}\,({w}^{T} \,\phi ({x}, {y}))

Actualizare , de la la : , este rata de învățare.

w

{\pălărie {y)}

t

{w}={w}+{c}(-\phi ({x},{\hat {y)))+\phi ({x}, {t}))

c

În practică, găsirea Argmax se poate face cu un algoritm cum ar fi algoritmul Viterbi sau algoritmul sumei maxime , mai degrabă decât o căutare exhaustivă pe un set exponențial de candidați. ${GEN}({x})$

Ideea de a învăța este similară cu un perceptron cu multe clase .

Note

↑ Lafferty, McCallum, Pereira, 2001 , p. 282–289.
↑ Collins, 2002 .

Literatură

Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola, SVN Vishwanathan. Predicția datelor structurate . — MIT Press, 2007.
Lafferty J., McCallum A., Pereira F. Câmpuri aleatoare condiționale: Modele probabilistice pentru segmentarea și etichetarea datelor secvențelor // Proc. A 18-a Conf. Internațională. pe Machine Learning . — 2001. Arhivat pe 7 iunie 2013 la Wayback Machine
Michael Collins. Metode de antrenament discriminativ pentru modele Markov ascunse: Teorie și experimente cu algoritmi de perceptron // Proc. EMNLP . - 2002. - V. 10. Copie de arhivă din 8 decembrie 2006 la Wayback Machine
Noah Smith, Predicția structurii lingvistice , 2011.

Link -uri

Implementarea perceptronului structurat Collins

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbarea medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG