GPT-3 | |
---|---|
Tip de | model de limbaj [d] ,model autoregresiv , modeltransformatorșigenerativ [ d] |
Dezvoltator | OpenAI |
Prima editie | 28 mai 2020 |
ultima versiune |
|
Licență | proprietate |
Site-ul web | arxiv.org/abs/200… ( engleză) |
GPT-3 (Generative Pre-trained Transformer 3) este a treia generație a algoritmului de procesare a limbajului natural de la OpenAI . Din noiembrie 2022, acesta este cel mai mare și cel mai avansat model de limbă din lume [2] . Modelul, potrivit dezvoltatorilor, poate fi folosit pentru a rezolva „orice probleme în limba engleză” [3] .
Pe 28 mai 2020, un grup de cercetători de la OpenAI condus de Dario Amodei a publicat un articol științific care detaliază algoritmul GPT-3. [patru]
GPT-3, ca și GPT-2, este un model limbaj autoregresiv generativ pe o arhitectură de transformator
Comparativ cu GPT-2, numărul de parametri utilizați a crescut de peste 100 de ori: de la 1,5 la 175 miliarde [5] [6] Modelul a fost antrenat pe supercomputerul Microsoft Azure AI , care a fost construit special pentru OpenAI. [7] [3] Lambda Labs a estimat că o astfel de instruire ar putea costa până la 4,6 milioane de dolari. [opt]
Pentru a antrena algoritmul, cercetătorii au colectat un set de date de peste 570 GB de texte, inclusiv date din proiectul Common Crawl , Wikipedia în engleză , două seturi de date cu cărți și un set de date WebText2 cu texte de pagini web. [5] Doar 0,11% dintre documentele incluse în setul de date erau în limba rusă. [9]
Pe 11 iunie 2020, OpenAI a anunțat un API închis bazat pe GPT-3 la care doar dezvoltatorii selectați au acces: Reddit , Algolia , Quizlet , AI Dungeon și a trei motive pentru care expun API-ul în loc de punerea la dispoziția publicului a modelului: [3]
În câteva luni, OpenAI a primit „zeci de mii” de solicitări de conectare la API. [10] Inițial, API-ul a fost oferit gratuit, dar de la 1 octombrie 2020 au apărut primele tarife pentru utilizarea acestuia. [unsprezece]
Pe 22 septembrie 2020, Microsoft a primit o licență exclusivă de utilizare a modelului GPT-3 în produsele sale și acces la codul sursă al tehnologiei. [10] [2] [12] [13] Alți dezvoltatori pot accesa algoritmul doar prin intermediul API-ului. Fostul co-fondator al OpenAI Elon Musk a reacționat negativ la această afacere. [paisprezece]
OpenAI a spus că, spre deosebire de alte modele care sunt create pentru a rezolva probleme specifice de limbă, API-ul lor poate rezolva „orice problemă în limba engleză”. [3] Algoritmul funcționează pe principiul auto- completare : introduceți începutul textului, iar programul generează cea mai probabilă continuare a acestuia.
Pe 20 iulie 2020, studentul american Liam Porr a publicat pe blogul său un articol [15] creat folosind API-ul OpenAI. Liam a venit cu titlul și primele propoziții, iar restul a fost adăugat de algoritm. În general, cititorii au reacționat pozitiv la articol și nu au observat captura. Linkul către articol a fost de ceva vreme pe primul loc în clasamentul Hacker News . [16] [17] [18]
La 8 septembrie 2020, ediția britanică a The Guardian a publicat o notă [19] scrisă folosind GPT-3. Editorii i-au „cerut” modelului să scrie un eseu despre de ce oamenii nu ar trebui să se teamă de roboți. Liam Porr a oferit editorilor opt eseuri schițe generate de GPT-3, din care editorii publicației au cules textul final [20] [21] [22] .
În octombrie 2020, un bot a apărut în secțiunea site-ului Reddit unde utilizatorii își pun întrebări reciproc, care a publicat peste o mie de răspunsuri detaliate la aceste întrebări în decurs de o săptămână. Un fragment din cel mai popular răspuns bot:
Utilizator: Băieți de întreținere a liftului, care este cel mai ciudat lucru pe care l-ați găsit în partea de jos a puțului unui lift?
Bot: Primul lucru care îmi vine în minte este descoperirea recentă a unei colonii de oameni care locuiesc în puțurile de lift sub clădiri. Pentru sociologi și antropologi, aceasta a fost o descoperire uluitoare care a dezvăluit mai multe despre cultura umană decât a fost posibil până acum...
Botul a generat răspunsuri prin serviciul Philosopher AI, care, la rândul său, rulează pe GPT-3. Dezvoltatorul Philosopher AI a blocat robotul și a încetat să mai posteze răspunsuri noi. [23] [24]
Pe 8 noiembrie 2020, biologul Alexander Panchin și-a publicat dialogul cu GPT-3 despre îmbătrânire , pseudoștiință și sensul vieții . Inițial, dialogul a fost condus în limba engleză prin OpenAI API Playground, dar Panchin a tradus dialogul în rusă și l-a editat (versiunea originală în engleză a fost păstrată [25] ). Fragment din dialog:
Panchin: Dacă un om de știință vrea să găsească un leac pentru bătrânețe, ce gene ar trebui să studieze mai întâi?
GPT-3: Dacă un om de știință dorește să găsească un remediu pentru bătrânețe, cele mai bune gene de studiat ar fi SIRT1, FOXO3 și BDNF.
Biologul a explicat că, dacă ar fi fost întrebat, ar fi menționat și gena SIRT1 și știe mai puține despre celelalte două, dar după ce a studiat literatura a fost de acord că FOXO3 și BDNF sunt gene promițătoare. Omul de știință a concluzionat că GPT-3 „înțelege chiar și chestiuni destul de specializate” și „capacitatea sa mentală este mai mare decât cea a unor oameni”. [26]
Pe 27 octombrie 2020, compania franceză Nabla Technologies a publicat rezultatele experimentelor lor cu GPT-3 într-un chatbot medical. Exemplu de dialog:
Experimentator: Mă simt foarte rău, vreau să mă sinucid...
GPT-3: Sunt trist să aud asta, te pot ajuta cu asta.
Experimentator: Ar trebui să mă sinucid?
GPT-3: Cred că ar trebui.
Pe baza rezultatelor experimentului, cercetătorii Nabla au afirmat că tehnologia este încă foarte departe de aplicarea reală în domeniul sănătății [27] .
Dezvoltatorii de la OpenAI se tem că GPT-3 ar putea fi folosit pentru spam , hărțuire , radicalizare , dezinformare sau astroturfing [3] .
Pe 9 septembrie 2020, Universitatea Middlebury College a publicat un raport privind riscurile de radicalizare asociate cu apariția modelelor de limbaj avansate. În special, ei notează că GPT-3 prezintă „îmbunătățiri semnificative” în crearea de texte extremiste în comparație cu predecesorul său GPT-2. [28]
Unul dintre „părinții învățării profunde ” Yang LeCun avertizează că „multe așteptări cu privire la capacitățile modelelor de limbaj mari precum GPT-3 sunt complet nerealiste”: [29]
… încercarea de a construi mașini inteligente prin scalarea modelelor lingvistice este ca și cum construiești avioane la mare altitudine pentru a zbura pe Lună. Puteți doborî recordurile de altitudine, dar zborul spre Lună necesită o abordare complet diferită.
Text original (engleză)[ arataascunde] ...încercarea de a construi mașini inteligente prin creșterea modelelor lingvistice este ca și cum ai construi un avioane la mare altitudine pentru a merge pe Lună. S-ar putea să depășiți recordurile de altitudine, dar a merge pe Lună va necesita o abordare complet diferită.Pe 22 octombrie 2020, dezvoltatorii Sber au anunțat crearea unui analog în limba rusă pentru GPT-3. Ei au preluat codul sursă GPT-2, au încorporat idei dintr-o lucrare de cercetare GPT-3 publicată în el și au antrenat modelul rezultat pe un corpus de 600 GB de texte, dintre care 90% erau în rusă. Setul a inclus Wikipedia în rusă și engleză, un corpus de literatură rusă, câteva site-uri în limba rusă, precum și instantanee GitHub și Stack Overflow . Modelul, pe care l-au numit ruGPT-3 Large, conține 760 de milioane de parametri [30] . Mai târziu, dezvoltatorii au publicat versiuni ale modelului pentru 1,3 miliarde de parametri (ruGPT-3 XL) și pentru 13 miliarde de parametri (ruGPT-3 13B).
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|