Exploatarea textului

Text mining ( IAT , text mining în limba engleză  ) este o direcție în inteligența artificială , al cărei scop este obținerea de informații din colecții de documente text , bazate pe utilizarea metodelor practice de învățare automată și procesare a limbajului natural . Denumirea „text mining” face ecou conceptului de „ data mining ” ( IAD , ing. data mining ), care exprimă asemănarea obiectivelor, abordărilor lor de prelucrare a informațiilor și domeniilor de aplicare; diferența se manifestă doar în metodele finale, dar și în faptul că IAD se ocupă de depozite și baze de date , și nu de biblioteci electronice și corpus de text .  

Grupuri de activități IAT

Grupurile cheie de sarcini IAT sunt: ​​categorizarea textului, extragerea informațiilor și regăsirea informațiilor , procesarea modificărilor în colecțiile de texte și dezvoltarea mijloacelor de prezentare a informațiilor către utilizator. [unu]

Categorizarea documentelor constă în atribuirea documentelor dintr-o colecție la una sau mai multe grupuri (clase, clustere) de texte similare (de exemplu, după subiect sau stil). Categorizarea poate avea loc cu participarea unei persoane și fără ea. În primul caz, numit clasificarea documentelor , sistemul IAT trebuie să atribuie texte unor clase deja definite (conveniente pentru acesta). În ceea ce privește învățarea automată, aceasta necesită învățare supravegheată , pentru care utilizatorul trebuie să furnizeze sistemului IAT atât un set de clase, cât și mostre de documente aparținând acestor clase.

Al doilea caz de categorizare se numește gruparea documentelor . În același timp, sistemul IAT trebuie să determine el însuși setul de clustere peste care textele pot fi distribuite - în învățarea automată, sarcina corespunzătoare se numește învățare nesupravegheată . În acest caz, utilizatorul trebuie să informeze sistemul IAT cu privire la numărul de clustere în care ar dori să împartă colecția în curs de procesare (se presupune că procedura de selectare a caracteristicilor este deja inclusă în algoritmul programului ).

Aplicație

Recent, analiza textului a atras din ce în ce mai multă atenție în diverse domenii precum securitate, comerț și știință.

Sigur

Multe pachete de analiză de text, cum ar fi Aerotext și Attensity , vizează piața aplicațiilor de securitate, în special analiza surselor de text simplu, cum ar fi site-urile de știri.

În software

Diviziile de cercetare și dezvoltare ale unor companii importante, cum ar fi IBM , Apple și Microsoft , investighează tehnologiile de analiză a textului în scopul automatizării viitoare a proceselor de analiză și extracție a datelor.

Note

  1. Berry, 2003 , p. xi.

Literatură

In rusa:

În limba engleză: