Un generator de text este un program de calculator care generează texte ( argo pentru o fetiță ), corect din punctul de vedere al majorității normelor lingvistice , dar, de regulă, lipsit de sens (în legătură cu care astfel de programe sunt uneori numite „delirante generatori”, „generatori de schizofazie ”).
Uneori, cititorul a generat un astfel de text de program (de exemplu, folosind un lanț Markov ) încât poate da impresia că acest text are sens, mai ales dacă are un subiect cu care cititorul nu este familiarizat. De exemplu, unii oameni nu înțeleg filozofia și consideră orice text filosofic care conține un număr mare de termeni specifici a fi un nonsens , așa că nu pot determina natura artificială a textului pseudo-filozofic scris de program.
Există diferite tipuri de generatoare de text care diferă în ceea ce privește capacitățile lor (de exemplu, unii dintre ei pot forma singuri cuvinte noi).
Jonathan Swift , în Călătoriile lui Gulliver , în timp ce parodia Ars magna a lui Raymond Lull , a descris satiric o mașinărie de la Lagado care genera texte.
Generarea de text prin compunerea din cuvinte complet aleatorii dă un rezultat nenorocit: fără sens pentru o persoană și ușor de recunoscut de analizatorii de text și, prin urmare, nu este folosit. De obicei, generarea se bazează pe fraze șablon scrise manual.
În cazurile în care sensul textului generat nu este important, acesta este compus dintr-un „mash” de propoziții din diferite texte sursă, sau din părți de propoziție. Această metodă, împreună cu șabloanele și sinonimizarea, este folosită în boții de chat și boții de comentarii în rețelele sociale și bloguri. Astfel de roboți copiază la interlocutor fraze înregistrate de pe alte chat-uri sau site-uri. Chatbot-urile mai avansate sortează expresiile după cuvinte cheie , astfel încât răspunsul lor este mai aproape de subiectul dialogului.
Adesea, generatoarele de text sunt combinate cu programe de sinonimizare care schimbă automat cuvintele în sinonime pentru a rescrie și a face expresiile unice. Cuvintele care trebuie înlocuite în șablon cu sinonime sunt înlocuite cu macrocomenzi .
Cu cât textul este mai lung, cu atât este mai vizibilă caracterul nefiresc în sinonimele autosugerate. Prin urmare, în textele „made for people” ( MDL ), sinonimizatoarele pot fi folosite doar pentru a crea texte scurte unice: titluri și ancore cu cuvinte cheie , comentarii și paragrafe. Sinonimizatorii sunt folosiți cu mai mult succes în engleză, care, spre deosebire de rusă, are o morfologie simplă .
Tipuri de sinonimizare:
Ușile „zboară” rapid din rezultatele căutării din cauza calității slabe a textelor lor. Prin urmare, lucrătorii ușilor încearcă să genereze text la minimum. Doar fraze mici sunt generate aleator în diferite elemente ale paginii, potrivite ca semnificație. Și paragrafele de text sunt analizate în întregime de pe alte site-uri ale aceluiași subiect și, eventual, sunt sinonimizate sau se folosește un „mash”.
Un număr de companii dezvoltă tehnologii mai sofisticate. Structurile sintactice sunt create de părți de vorbire și membrii în propoziții, cuvintele din dicționare sunt clasificate după semantică, cu înlocuirea lor automată ulterioară în propoziții. Cu toate acestea, din cauza complexității extreme și a volumului de muncă, a drepturilor de autor asupra acestor evoluții și a secretelor comerciale (astfel de sisteme, în principiu, fac posibilă crearea unor proiecte comerciale foarte profitabile), cu greu ne putem aștepta la apariția roboților comunicanți și a roboților de traducere. în anii următori.
La acest nivel de dezvoltare a tehnologiei informatice, nu există generatoare de text disponibile gratuit cu text relativ semnificativ. Generatoarele cu un set absurd de cuvinte sau expresii formule au o sferă îngustă.
Unul dintre generatoarele de text poate fi numit cea mai recentă noutate Yandex - Balaboba, care este capabil să completeze o anumită frază cu fraze de înaltă calitate și lizibile și chiar texte întregi.
Multe site-uri explică în detaliu cum funcționează acest serviciu.
Generatoarele de text sunt utilizate pe scară largă în dezvoltarea și optimizarea motoarelor de căutare a site-urilor : pentru a genera titluri, descrieri și conținut al site-urilor întregi folosind dorgens ( generatoare de uși ).
Există site-uri mari în limba engleză care fac bani din publicitate, pe care tot conținutul este scris nu de jurnaliști, ci de roboți - articolele sunt rescrise automat din alte surse. Exemple de astfel de site-uri: Demand Media și Associated Content [1] . Limba rusă, spre deosebire de engleză, are o morfologie complexă, așa că apariția unor astfel de roboți de rescriere în Runet este foarte complicată.
Materialele create cu ajutorul unui generator de text și utilizate pentru optimizarea motoarelor de căutare necesită o selecție atentă obligatorie în funcție de criteriul unicității.[ clarifica ] Această selecție se face folosind un software specializat care are un algoritm de verificare diferit.
Interlocutorii virtuali ( chatbots) sunt programe concepute pentru a imita comunicarea în camerele de chat . Ele sunt utilizate pe scară largă pentru a trimite spam pe rețelele sociale (spam bots), precum și autoresponders care pot răspunde la multe cuvinte cheie în diferite scenarii.
Deoarece, în același timp, persoana nu își vede interlocutorul, poate avea impresia că corespunde cu o persoană în viață. Cu toate acestea, niciun chatbot nu a trecut încă cu succes testul Turing , iar programelor care folosesc generatoare de text le este și mai dificil.
Propaganda în masă și trolling în rețelele socialeÎn legătură cu dezvoltarea propagandei pe internet și a „războaielor cibernetice”, roboții sunt folosiți în rețelele sociale pentru a imita masiv opinia publică. Când se creează roboți, numele și adresele de internet ale acestora sunt generate automat, iar atunci când răspund, textul comentariilor, de obicei conținut provocator, propagandistic sau ofensator.
Relativ larg cunoscut în internetul vorbitor de limbă rusă a fost generatorul de text Rareguest, conceput sub forma unui script php . De ceva timp a fost folosit ca parte a proiectului satiric de Internet „Gavgav Center”, iar apoi a devenit larg răspândit ca robot pentru reviste live, bloguri etc. Iată exemple de generare secvențială de mesaje de același tip de către acest robot:
Toate postările tale sunt un clișeu tipic de falsă insinuare care urmărește să discrediteze și să ridiculizeze pe oricine începe să vadă clar și să vorbească deschis despre crimele regimului criminal. Adevărul despre inumanitatea lor și esența fascistă a sângerosului regim de la Kremlin înțepă ochii nenorociților idioți ai Kremlinului! O caracteristică interesantă a acestui forum este că Putiniștii sunt implicați în principal în inundații sau discuții despre personalități, iar subiectele despre meritele problemelor Rusiei, precum aceasta, se tem ca naiba. Există suficient spațiu în mincinos în care fasciștii NKVD ca tine își pot petrece timpul, fără a fi împovărați de adevărul și analiza stalin- putinismului . De aceea cred că voi, Putiniștii, sunteți degenerați morali. La urma urmei, acest tip de „participanți la discuții” nu apar pe site-urile mincinoase „cecene” controlate de Kremlin și Yastrzhembsky. Puti-Put și zilierii lui însetați de sânge vor răspunde pentru tot.
Aceste exemple arată că chiar și un cititor care este familiarizat cu problemele în discuție poate prelua mesaje de la un robot pentru mesaje de la o persoană adevărată vie, deși oarecum exaltată. Robotul din aceste mesaje este dat doar de o structură tipică pentru construirea propozițiilor și combinarea lor.
Există cazuri în care generatoarele de text au fost utilizate cu succes pentru a detecta calitatea slabă (și uneori lipsa totală) a evaluării inter pares în reviste științifice . Programul SCIgen este cunoscut în special în acest sens .
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |