Rețele neuronale recursive

Rețele neuronale recursive ( ing.  Rețea neuronală recursiva ; RvNN ) este un tip de rețele neuronale care lucrează cu date de lungime variabilă. Modelele de rețea recursive folosesc structuri de tipar ierarhic în antrenament. De exemplu, imagini compuse din scene care combină subscene care includ multe obiecte. Dezvăluirea structurii scenei și deconstrucția acesteia nu este o sarcină banală. În acest caz, este necesar atât identificarea obiectelor individuale, cât și a întregii structuri a scenei.

În rețelele recursive, neuronii cu aceleași greutăți sunt activați recursiv în funcție de structura rețelei. În timpul funcționării rețelei recursive, se dezvoltă un model de predicție a structurilor de dimensiune variabilă și a structurilor scalare prin activarea structurii în conformitate cu topologia. RvNN-urile au fost folosite cu succes pentru a antrena structuri secvențiale și arbori în procesarea limbajului natural , unde frazele și propozițiile sunt modelate prin reprezentări vectoriale de cuvinte . RvNN-urile au apărut inițial pentru reprezentarea distribuită a structurilor folosind predicatele logicii matematice . [1] Dezvoltarea rețelelor recursive și a primelor modele au început la mijlocul anilor 1990. [2] [3]

Arhitectură

Element de bază

În cea mai simplă arhitectură, nodurile rețelei converg către părinți printr-o matrice de greutate a stratului ascuns utilizată în mod repetat în întreaga rețea și o funcție de activare neliniară de tip tangentă hiperbolică . Dacă c 1 și c 2  sunt reprezentări n - dimensionale ale nodurilor de rețea, atunci părinții lor sunt și vectori n - dimensionali, calculati ca

Aici W  este matricea de greutate antrenată .

Această arhitectură, cu unele îmbunătățiri, este folosită pentru decodarea secvențială a scenelor de imagini naturale sau pentru structurarea propozițiilor în limbaj natural. [patru]

Corelație recursiv în cascadă (RecCC)

Corelația recursive în cascadă RecCC este o abordare a construirii rețelelor recursive care operează cu trei domenii [2] , primele aplicații de acest gen au apărut în chimie [5] , iar extensia formează un graf aciclic direcționat . [6]

Rețele recursive nesupravegheate

În 2004, a fost propus un sistem de învățare în rețea recursiv nesupravegheat . [7] [8]

Rețele tensoare

Rețelele recursive tensorului folosesc o funcție tensorală pentru toate nodurile arborescente . [9]

Antrenament

Coborâre a gradientului stocastic

Coborârea gradientului stocastic (SGD) este de obicei folosită pentru antrenament . Gradientul este definit prin cadrul de backpropagation end-to-end (BPTS), această metodă este o modificare a backpropagation-ului în serie de timp folosită pentru a antrena rețele neuronale recurente .

Caracteristici

Literatura de specialitate confirmă capacitatea de aproximare universală prin rețele recurente peste rețele de tip arbore. [10] [11]

Modele înrudite

Rețea neuronală recurentă

O rețea neuronală recurentă este o rețea recursivă cu o structură specifică - sub forma unui lanț liniar. Rețelele recursive operează pe structuri de tip general, inclusiv o ierarhie, rețelele recurente operează exclusiv pe o progresie liniară în timp, conectând punctul anterior în timp cu următorul printr-un strat neuronal ascuns.

Tree Echo State Network

Rețeaua ecou arbore este un exemplu eficient de rețele neuronale recursive [12] folosind paradigma de calcul Reservoir.

Extensii la grafice

Extinderea structurii la grafice produce o rețea neuronală grafică (GNN), [13] , o rețea neuronală pentru grafice (NN4G), [14] și rețele neuronale convoluționale mai noi pentru grafice.

Link -uri

  1. Goller, C.; Küchler, A. Learning task-dependent distribuite represents by backpropagation through structure  //  Neural Networks, 1996. IEEE : jurnal. - doi : 10.1109/ICNN.1996.548916 .
  2. ↑ 1 2 Sperduti, A.; Starita, A. Rețele neuronale supravegheate pentru clasificarea structurilor  // IEEE  Transactions on Neural Networks : jurnal. - 1997. - 1 mai ( vol. 8 , nr. 3 ). - P. 714-735 . — ISSN 1045-9227 . - doi : 10.1109/72.572108 .
  3. Frasconi, P.; Gori, M.; Sperduti, A. Un cadru general pentru procesarea adaptivă a structurilor de date  // IEEE  Transactions on Neural Networks : jurnal. - 1998. - 1 septembrie ( vol. 9 , nr. 5 ). - P. 768-786 . — ISSN 1045-9227 . - doi : 10.1109/72.712151 .
  4. Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. Parsing Natural Scenes and Natural Language with Recursive Neural Networks  (Eng.)  // A 28-a Conferință internațională privind învățarea automată (ICML 2011): jurnal.
  5. Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina. Aplicarea rețelelor de corelație în cascadă pentru structuri la chimie  (engleză)  // Applied Intelligence : journal. - 2000. - Vol. 12 , nr. 1-2 . - P. 117-147 . — ISSN 0924-669X . - doi : 10.1023/A:1008368105614 .
  6. Micheli, A.; Sona, D.; Sperduti, A. Procesarea contextuală a datelor structurate prin corelație recursivă în cascadă  // IEEE  Transactions on Neural Networks : jurnal. - 2004. - 1 noiembrie ( vol. 15 , nr. 6 ). - P. 1396-1410 . — ISSN 1045-9227 . - doi : 10.1109/TNN.2004.837783 .
  7. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickart, Marc. Modele recursive de rețele de auto-organizare  (nedefinite)  // Rețele neuronale. - 2004. - T. 17 . - S. 1061-1085 .
  8. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickart, Marc. Un cadru general pentru prelucrarea nesupravegheată a datelor structurate  //  Neurocomputing : journal. - 2004. - 1 martie ( vol. 57 ). - P. 3-35 . - doi : 10.1016/j.neucom.2004.01.008 .
  9. Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank  (engleză)  // EMNLP 2013 : jurnal.
  10. Hammer, Barbara. Învățare cu  rețele neuronale recurente . — Springer, 2007. - ISBN 9781846285677 .
  11. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro. Capacitatea universală de aproximare a corelației în cascadă pentru structuri  // Calcul  neuronal : jurnal. - 2005. - 1 mai ( vol. 17 , nr. 5 ). - P. 1109-1159 . - doi : 10.1162/0899766053491878 .
  12. Gallicchio, Claudio; Micheli, Alessio. Tree Echo State Networks  (neopr.)  // Neurocomputing. - 2013. - 4 februarie ( vol. 101 ). - S. 319-337 . - doi : 10.1016/j.neucom.2012.08.017 .
  13. Scarselli, F.; Gori, M.; Tsoi, AC; Hagenbuchner, M.; Monfardini, G. The Graph Neural Network Model  // IEEE Transactions on Neural  Networks : jurnal. - 2009. - 1 ianuarie ( vol. 20 , nr. 1 ). - P. 61-80 . — ISSN 1045-9227 . - doi : 10.1109/TNN.2008.2005605 .
  14. Micheli, A. Neural Network for Graphs: A Contextual Constructive Approach  // IEEE Transactions on Neural  Networks : jurnal. - 2009. - 1 martie ( vol. 20 , nr. 3 ). - P. 498-511 . — ISSN 1045-9227 . - doi : 10.1109/TNN.2008.2010350 .