Procesarea limbajului natural

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 23 decembrie 2019; verificările necesită 15 modificări .

Procesarea limbajului natural ( NLP ) este o zonă generală a inteligenței artificiale și a lingvisticii matematice . Studiază problemele analizei computerizate și sintezei de texte în limbi naturale . În ceea ce privește inteligența artificială, analiza înseamnă înțelegerea limbajului, iar sinteza înseamnă generarea de text alfabetizat .

Sarcini și limitări

Teoretic, construirea unei interfețe în limbaj natural pentru computere este un obiectiv foarte atractiv. Sistemele timpurii, cum ar fi SHRDLU , care lucrează cu o „lume a blocurilor” limitată și folosind un vocabular limitat, arătau extrem de bine, inspirându-și creatorii. Cu toate acestea, optimismul a dispărut rapid când aceste sisteme s-au confruntat cu complexitatea și ambiguitatea lumii reale.

Înțelegerea limbajului natural este uneori luată în considerare[ cine? ] AI este o sarcină completă, deoarece recunoașterea unei limbi vii necesită o cunoaștere uriașă a sistemului despre lumea din jurul nostru și capacitatea de a interacționa cu acesta. Însăși definiția sensului cuvântului „ înțelege ” este una dintre sarcinile principale ale inteligenței artificiale. .

Dificultăți de înțelegere

În rusă

Calitatea înțelegerii depinde de mulți factori: limba, cultura națională, interlocutorul însuși etc. Iată câteva exemple de dificultăți cu care se confruntă sistemele de înțelegere a textului.

Dificultăți în deschiderea anaforelor (recunoașterea a ceea ce se înțelege atunci când se folosesc pronume): propozițiile „Le-am dat bananele maimuțelor pentru că erau foame” și „Le-am dat bananele maimuțelor pentru că erau prea coapte” sunt similare ca structură sintactică. Într-una dintre ele , pronumele se referă la maimuțe, iar în cealaltă, la banane. Înțelegerea corectă depinde de cunoștințele computerului despre ceea ce pot fi bananele și maimuțele.
Ordinea liberă a cuvintelor poate duce la o interpretare complet diferită a frazei: „Ființa determină conștiința” - ce determină ce?
În rusă, ordinea liberă este compensată de morfologia avansată , cuvintele funcționale și semnele de punctuație , dar în cele mai multe cazuri, aceasta prezintă o problemă suplimentară pentru un computer.
Neologismele pot fi găsite în vorbire , de exemplu, verbul „Cincizeci de ruble” - adică trimiteți 50 de ruble. Sistemul ar trebui să poată distinge astfel de cazuri de greșeli de scriere și să le înțeleagă corect.
Înțelegerea corectă a omonimelor este o altă problemă. În recunoașterea vorbirii , se pune, printre altele, problema omonimelor fonetice. În expresia „Un lup cenușiu s-a întâlnit cu o vulpe roșie într-o pădure adâncă ” Cuvintele evidențiate se aud la fel și fără a ști cine este surd și cine este roșu, nu se poate face (pe lângă faptul că vulpea poate fi roșie și pădurea poate fi surdă, pădurea poate fi și roșie (caracteristică, denotă în acest caz culoarea predominantă a frunzișului din pădure), în timp ce vulpea poate fi surdă, ceea ce creează o problemă suplimentară ce decurge din cea precedentă, deși este parțial compensată de morfologie – adjectivele din această propoziție au un gen net diferit).

Clasificarea sarcinilor

Probleme populare: [1] [2] [3]

Recunoaștere a vorbirii
Analiza textului
- Extragerea informațiilor
- Recuperarea informațiilor
- Analiza propoziției
- Analiza sentimentelor de text
- Sisteme intrebare-raspuns
Generarea textului
sinteza vorbirii

Sarcini de analiză și sinteză în complex:

Traducere automată
Rezumarea automată , adnotarea sau simplificarea textului

Clasificare generala:

Clasificarea textului
Clasificarea secvenţelor de caractere
1. Recunoașterea entității numite
2. Definirea părților de vorbire a cuvintelor
Recunoașterea frazei
Extragerea de informații din text
Adnotare de sintaxă
Adnotare semantică
Generarea textului
1. Generarea de text pe baza vorbirii recunoscute
2. Traducere automată
3. Generalizarea textului

Software

AlchemyAPI
Expert System SpA
Arhitectură generală pentru ingineria textului (GATE)
Cadrul modular de recunoaștere audio
MontyLingua
Setul de instrumente pentru limbajul natural (NLTK)

Vezi și

Note

↑ Shervin Minaee, Nal Kalchbrenner, Erik Cambria, Narjes Nikzad, Meysam Chenaghlu. Clasificarea textului bazată pe învățarea profundă: o revizuire cuprinzătoare // arXiv:2004.03705 [cs, stat]. — 2020-04-05. Arhivat din original pe 24 iunie 2020.
↑ Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria. Tendințe recente în procesarea limbajului natural bazat pe învățarea profundă // arXiv:1708.02709 [cs]. — 24.11.2018. Arhivat 6 mai 2020.
↑ Prof. Jason Eisner. Curs de procesare automată a textului (engleză) ? . Preluat la 7 mai 2020. Arhivat din original la 13 mai 2020. (nedefinit)

Link -uri

Tehnologie pentru extragerea obiectelor semantice din vorbire din Yandex Yandex SpeechKit

Dicționare și enciclopedii	Mare catalană mare chinezesc Britannica (online) Universalis
În cataloagele bibliografice	J9U : 987007536703305171 LCCN : sh88002425 NDL : 00562347 NKC : ph427562

procesarea limbajului natural
Definiții generale	Corpus de texte corpus de vorbire Cuvinte oprite pungă de cuvinte Completitudine AI N-gram Cifru bigram trigramă
Analiza textului	Segmentarea textului Marcare parțială Analiza suprafeței Procesare de text compusă Extragerea colocărilor tulpina Lematizare Recunoașterea entității denumite Rezoluția coreferenței Analiza sentimentelor de text Concept Extraction analizare Rezolvarea polisemiei lexicale Extrage terminologie Extragerea informațiilor Identificarea limbii Definiția cazului
Referire	Extragerea propozițiilor Generație abstractă Referințe pentru mai multe documente Simplificarea textului
Traducere automată	automatizate Hibrid interlingvistic Bazat pe reguli Pe baza exemplelor Dicţionar bazat Bazat pe transformare neurale Statistic Sincron
Identificarea și colectarea datelor	Recunoaștere a vorbirii sinteza vorbirii Recunoaștere optică a caracterelor Generarea textului
Model tematic	Plasarea Pachinko Plasarea latentă a lui Dirichlet Analiza semantică latentă
Evaluare inter pares	Evaluarea automată a eseurilor Concordancer Introducere predictivă a textului Verificator gramatical Verificator ortografic Sintaxă Guessing
Interfață în limbaj natural	asistent virtual Interlocutor virtual Sistem de întrebări și răspunsuri Interfață vocală Literatură interactivă

Inteligenţă artificială
Poveste	Istoria inteligenței artificiale Iarna inteligenței artificiale Seminarul Dartmouth
Filozofie	Testul Turing Cameră chinezească Inteligență artificială puternică și slabă Inteligență artificială prietenoasă Etica inteligenței artificiale Problema de control
Directii	Abordarea agentului Control adaptiv Ingineria cunoașterii Model de sistem viabil Învățare automată Retea neurala logica fuzzy procesarea limbajului natural Recunoasterea formelor Inteligența roiului AI simbolic Algoritmi evolutivi Sistem expert
Aplicație	Control vocal Problema de clasificare Clasificarea documentelor Gruparea documentelor analiza grupului Căutare locală Traducere automată Recunoaștere optică a caracterelor Recunoaștere a vorbirii Scris de mana recunoscut Joc AI
Cercetători	Charles Babbage Vladimir Vapnik Joseph Weizenbaum Norbert Wiener Victor Glushkov Vladimir Gorodețki Jan LeCun Alexei Lyapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Judah Pearl Germogen Pospelov Dmitri Pospelov Frank Rosenblatt Herbert Alexander Simon Alan Turing Patrick Winston Victor Finn Serghei Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Iudkovski