Recuperarea informațiilor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 25 martie 2019; verificările necesită 12 modificări .

Recuperarea informațiilor este procesul de căutare a informațiilor documentare nestructurate care satisfac nevoile de informații [1] și știința acestei căutări .

Istorie

Termenul „recuperare informații” a fost introdus pentru prima dată de Calvin Muers în 1948 în teza sa de doctorat, publicată și folosită în literatură încă din 1950 .

La început, sistemele IP automatizate, sau sistemele de regăsire a informațiilor (IPS), au fost folosite doar pentru a căuta informații și literatură științifică. Multe universități și biblioteci publice au început să folosească IRS pentru a oferi acces la cărți, reviste și alte documente. IPS s-a răspândit odată cu apariția Internetului și dezvoltarea World Wide Web . Printre utilizatorii vorbitori de limbă rusă, cele mai populare [2] motoare de căutare sunt Yandex , Google .

Găsirea informațiilor ca proces

Căutarea de informații este procesul de identificare într-un anumit set de documente ( texte ) a tuturor celor care sunt consacrate unui subiect (subiect) specificat, satisfac o condiție de căutare prestabilită ( cerere ) sau conțin necesar (corespunzător nevoilor de informații) fapte , informații. , date .

Procesul de căutare include o secvență de operațiuni care vizează colectarea, prelucrarea și furnizarea de informații.

În general, căutarea informațiilor constă în patru etape:

determinarea (clarificarea) nevoilor de informații și formularea unei cereri de informații;
determinarea totalității posibililor deținători de matrice (surse) informaționale;
extragerea de informații din matricele de informații identificate;
familiarizarea cu informațiile primite și evaluarea rezultatelor căutării.

Tipuri de căutare

Căutare text integral - căutați în întregul conținut al documentului. Un exemplu de căutare full-text este orice motor de căutare pe Internet, de exemplu www.yandex.ru , www.google.com . În mod obișnuit, căutările full-text folosesc indecși predefiniti pentru a accelera căutările . Cea mai comună tehnologie pentru indicii de căutare în text complet sunt indecșii inversați .

Căutarea după metadate este o căutare după anumite atribute ale documentului suportate de sistem - titlul documentului, data creării, dimensiunea, autorul etc. Un exemplu de căutare după atribute este un dialog de căutare în sistemul de fișiere (de exemplu, MS Windows ).

Căutare imagini - Căutare după conținutul imaginii. Motorul de căutare recunoaște conținutul fotografiei (încărcat de utilizator sau adăugat prin URL-ul imaginii). În rezultatele căutării, utilizatorul primește imagini similare. Așa funcționează motoarele de căutare: Polar Rose , Picollator , etc.

Metode de căutare

Căutare adrese

Procesul de căutare a documentelor pe motive pur formale specificate în cerere.
Următoarele condiții sunt necesare pentru implementare:

Documentul are o adresă exactă?
Asigurarea unei aranjamente stricte a documentelor intr-un dispozitiv de stocare sau in stocarea sistemului.

Adresele documentelor pot fi adresele serverelor web și paginilor web și elemente ale unei înregistrări bibliografice , precum și adresele de stocare a documentelor în depozit.

Căutare semantică

Procesul de căutare a documentelor după conținutul lor .

Termeni:

Traducerea conținutului documentelor și interogărilor din limbajul natural în limbajul de regăsire a informațiilor și compilarea imaginilor de căutare ale documentului și interogării.
Compilarea unei descrieri de căutare care specifică o condiție suplimentară de căutare.

Diferența fundamentală dintre căutările de adresă și căutările semantice este că în căutarea de adrese, documentul este considerat ca obiect din punct de vedere al formei, în timp ce în căutarea semantică, din punct de vedere al conținutului.

Căutarea semantică găsește o mulțime de documente fără a specifica adrese.

Aceasta este diferența fundamentală dintre cataloage și dulapuri de dosare .

Biblioteca - o colecție de înregistrări bibliografice fără adrese.

Căutare documentară

Procesul de căutare în stocarea unui sistem de regăsire a informațiilor pentru documente primare sau o bază de date de documente secundare care se potrivesc cu solicitarea utilizatorului.

Trei tipuri de căutare documentară:

Biblioteca, care vizează găsirea documentelor primare.
Bibliografice, care vizează găsirea de informații despre documentele prezentate sub formă de înregistrări bibliografice.
Căutare în arhivă [3]

Căutare faptică

Procesul de găsire a faptelor care se potrivesc cu o solicitare de informații.
Datele faptice includ informații extrase din documente, atât primare, cât și secundare, și obținute direct din sursele apariției acestora.

Există două tipuri:

Documentar-factual, constă în căutarea unor fragmente de text care conţin fapte în documente.
Factual (descrierea faptelor), care presupune crearea de noi descrieri faptice în procesul de căutare prin prelucrarea logică a informațiilor faptice găsite.

Găsirea informațiilor ca știință

Recuperarea informațiilor este un domeniu larg interdisciplinar al științei care se află la intersecția dintre psihologia cognitivă , informatica , designul informației , lingvistica , semiotica și biblioteconomia .

Căutarea informațiilor este procesul de identificare a înregistrărilor din matricea de informații care satisfac o condiție de căutare sau o interogare predeterminată.

IP ia în considerare căutarea de informații în documente , căutarea documentelor în sine, extragerea metadatelor din documente, căutarea de text, imagini, video și sunet în baze de date relaționale locale, în baze de date hipertext precum Internetul și sistemele intranet locale .

Există o oarecare confuzie în jurul conceptelor de regăsire a datelor, regăsire documente, regăsire informații și regăsire text. Cu toate acestea, fiecare dintre aceste domenii de cercetare are propriile metodologii, practici și literatură.

În prezent, IP este un domeniu al științei în dezvoltare rapidă, a cărui popularitate se datorează creșterii exponențiale a volumelor de informații, în special pe Internet . Există o literatură vastă și multe conferințe dedicate IP. Unul dintre cele mai cunoscute este TREC , organizat în 1992 de Departamentul Apărării al SUA în colaborare cu Institutul de Standarde și Tehnologie ( NIST ) cu scopul de a consolida comunitatea de cercetare și de a dezvolta metode de evaluare a calității IP.

Cerere și obiect de solicitare

Când vorbesc despre sisteme IP, ei folosesc termenii cerere și obiect de solicitare .

O cerere este o modalitate formală de exprimare a nevoilor de informații ale unui utilizator de sistem. Limbajul de interogare de căutare este folosit pentru a exprima nevoia de informații , sintaxa variază de la sistem la sistem. Pe lângă un limbaj special de interogare , motoarele de căutare moderne vă permit să introduceți o interogare în limbaj natural .

Obiectul de solicitare este o entitate de informații care este stocată în baza de date a unui sistem de căutare automată. Deși cel mai frecvent obiect de solicitare este un document text , nu există restricții fundamentale. În special, este posibil să căutați imagini, muzică și alte informații multimedia . Procesul de introducere a obiectelor de căutare în IPS se numește indexare . Departe de a fi întotdeauna, IPS stochează o copie exactă a obiectului, adesea un surogat este stocat în schimb .

Sarcini de recuperare a informațiilor

Sarcina centrală a IP-ului este de a ajuta utilizatorul să-și satisfacă nevoia de informații. Deoarece este dificil din punct de vedere tehnic să descrii nevoile de informații ale utilizatorului, acestea sunt formulate ca o interogare, care este un set de cuvinte cheie care caracterizează ceea ce caută utilizatorul.

Problema clasică a UI care a început dezvoltarea acestui domeniu este căutarea documentelor care satisfac o interogare în cadrul unei anumite colecții statice de documente. Dar lista de sarcini IP se extinde constant și include acum:

Probleme de modelare;
Clasificarea documentelor ;
filtrarea documentelor ;
Gruparea documentelor ;
Proiectarea arhitecturii motoarelor de căutare și a interfețelor utilizator ;
Extragerea de informații, în special adnotări și rezumarea documentelor;
Limbi de interogare etc.

De asemenea, unele sarcini sunt stabilite înaintea motoarelor IP pentru procesarea limbilor naturale , care include analiza morfologică , rezoluția polisemiei lexicale și așa mai departe.

Evaluări de eficiență

Există multe modalități de a evalua cât de bine se potrivesc documentele găsite de IPS cu o interogare. Din păcate, conceptul de grad de potrivire a unei interogări, sau cu alte cuvinte de relevanță , este un concept subiectiv, iar gradul de potrivire depinde de persoana specifică care evaluează rezultatele interogării.

Precizie

Este definit ca raportul dintre numărul de documente relevante găsite de IPS și numărul total de documente găsite:

{\mbox{Precizie}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{retr}}|}}

unde este setul de documente relevante din baza de date și este setul de documente găsite de sistem. $D_{{rel}}$ $D_{{retr}}$

Completitudine (rechemare)

Raportul dintre numărul de documente relevante găsite și numărul total de documente relevante din baza de date:

{\mbox{Recall}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{rel}}|}}

unde este setul de documente relevante din baza de date și este setul de documente găsite de sistem. $D_{{rel}}$ $D_{{retr}}$

Fall-out

Abandonul caracterizează probabilitatea de a găsi o resursă irelevante și este definită ca raportul dintre numărul de documente irelevante găsite și numărul total de documente irelevante din baza de date:

{\mbox{Fall-out}}={\frac {|D_{{nrel}}\cap \ D_{{retr}}|}{|D_{{nrel}}|}}

unde este setul de documente irelevante din baza de date și este setul de documente găsite de sistem. $D_{{nrel}}$ $D_{{retr}}$

Măsura F (măsura F, măsura Van Riesbergen)

Uneori este util să combinați precizia și amintirea într-o singură medie. În acest scop, media aritmetică nu este potrivită, deoarece, de exemplu, este suficient ca un motor de căutare să returneze toate documentele în general pentru a asigura o rechemare egală cu unu cu o precizie apropiată de zero, iar media aritmetică a precizia și rechemarea vor fi de cel puțin 1/2. Media armonică nu are acest dezavantaj, deoarece cu o diferență mare a valorilor medii se apropie de minimul acestora.

Prin urmare, o măsură bună pentru evaluarea în comun a preciziei și a reamintirii este măsura F , care este definită ca media armonică ponderată a preciziei P și a reamintirii R :

F={\frac {1}{\alpha {\frac {1}{P}}+(1-\alpha ){\frac {1}{R}}}},\qquad \alpha \in [0, unu].

Măsura F este de obicei scrisă ca

F={\frac {(\beta ^{2}+1)PR}{\beta ^{2}P+R)),\qquad \beta ^{2}={\frac {(1-\alpha ) }{\alpha )),\quad \beta ^{2}\in [0,\infty ].

Pentru fie , măsura F acordă aceeași pondere acurateței și reamintirii și este numită măsură echilibrată sau -măsură (se obișnuiește să se indice valoarea în indice ), expresia pentru aceasta este simplificată $\alpha =1/2$ $\beta=1$ $F_{1}$ $\beta$

F_{1}={\frac {2PR}{P+R}}.

Utilizarea unei măsuri F echilibrate nu este obligatorie: acuratețea este preferată cu mai multă greutate, iar completitudinea i se acordă mai multă pondere. $0<\beta <1$ $\beta>1$

Vezi și

Note

↑ Manning et al, 2011 , pp. 23.
↑ Tranziții - ANALYZETHIS.RU . Data accesului: 12 octombrie 2013. Arhivat din original la 14 octombrie 2013. (nedefinit)
↑ Căutați documente după detalii | Agenția Federală de Arhivă . archives.ru. Preluat la 1 decembrie 2019. Arhivat din original la 2 decembrie 2019. (nedefinit)

Literatură

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. - Addison-Wesley, 1999. - ISBN 0-201-39829-X .
Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval . - Cambridge University Press , 2008. - ISBN 0-521-86571-9 . Traducere: Manning K., Raghavan P., Schütze H. Introducere în regăsirea informațiilor. - Williams, 2011. - ISBN 978-5-8459-1623-5 .
Lande D. V., Snarsky A. A. , Bezsudnov I. V. Internet: Navigarea în rețele complexe: modele și algoritmi . — M.: Librokom (Editorial URSS), 2009. — 264 p. — ISBN 978-5-397-00497-8 .

Link -uri

ru_ir - Comunitate „Căutare informații” în „LiveJournal”
Yuri Lifshits. Curs de curs „Algoritmi pentru Internet”
Kuralenok I. E., Nekrestyanov I. S. Revista „Estimarea sistemelor de căutare a textului”

Dicționare și enciclopedii

În cataloagele bibliografice
BNE : XX535604 BNF : 122132635 GND : 4072803-1 J9U : 987007550614905171 LCCN : sh85066148 NDL : 00575010 NKC : ph163856