Recuperarea informațiilor este procesul de căutare a informațiilor documentare nestructurate care satisfac nevoile de informații [1] și știința acestei căutări .
Termenul „recuperare informații” a fost introdus pentru prima dată de Calvin Muers în 1948 în teza sa de doctorat, publicată și folosită în literatură încă din 1950 .
La început, sistemele IP automatizate, sau sistemele de regăsire a informațiilor (IPS), au fost folosite doar pentru a căuta informații și literatură științifică. Multe universități și biblioteci publice au început să folosească IRS pentru a oferi acces la cărți, reviste și alte documente. IPS s-a răspândit odată cu apariția Internetului și dezvoltarea World Wide Web . Printre utilizatorii vorbitori de limbă rusă, cele mai populare [2] motoare de căutare sunt Yandex , Google .
Căutarea de informații este procesul de identificare într-un anumit set de documente ( texte ) a tuturor celor care sunt consacrate unui subiect (subiect) specificat, satisfac o condiție de căutare prestabilită ( cerere ) sau conțin necesar (corespunzător nevoilor de informații) fapte , informații. , date .
Procesul de căutare include o secvență de operațiuni care vizează colectarea, prelucrarea și furnizarea de informații.
În general, căutarea informațiilor constă în patru etape:
Căutare text integral - căutați în întregul conținut al documentului. Un exemplu de căutare full-text este orice motor de căutare pe Internet, de exemplu www.yandex.ru , www.google.com . În mod obișnuit, căutările full-text folosesc indecși predefiniti pentru a accelera căutările . Cea mai comună tehnologie pentru indicii de căutare în text complet sunt indecșii inversați .
Căutarea după metadate este o căutare după anumite atribute ale documentului suportate de sistem - titlul documentului, data creării, dimensiunea, autorul etc. Un exemplu de căutare după atribute este un dialog de căutare în sistemul de fișiere (de exemplu, MS Windows ).
Căutare imagini - Căutare după conținutul imaginii. Motorul de căutare recunoaște conținutul fotografiei (încărcat de utilizator sau adăugat prin URL-ul imaginii). În rezultatele căutării, utilizatorul primește imagini similare. Așa funcționează motoarele de căutare: Polar Rose , Picollator , etc.
Procesul de căutare a documentelor pe motive pur formale specificate în cerere.
Următoarele condiții sunt necesare pentru implementare:
Adresele documentelor pot fi adresele serverelor web și paginilor web și elemente ale unei înregistrări bibliografice , precum și adresele de stocare a documentelor în depozit.
Procesul de căutare a documentelor după conținutul lor .
Termeni:
Diferența fundamentală dintre căutările de adresă și căutările semantice este că în căutarea de adrese, documentul este considerat ca obiect din punct de vedere al formei, în timp ce în căutarea semantică, din punct de vedere al conținutului.
Căutarea semantică găsește o mulțime de documente fără a specifica adrese.
Aceasta este diferența fundamentală dintre cataloage și dulapuri de dosare .
Biblioteca - o colecție de înregistrări bibliografice fără adrese.
Procesul de căutare în stocarea unui sistem de regăsire a informațiilor pentru documente primare sau o bază de date de documente secundare care se potrivesc cu solicitarea utilizatorului.
Trei tipuri de căutare documentară:
Procesul de găsire a faptelor care se potrivesc cu o solicitare de informații.
Datele faptice includ informații extrase din documente, atât primare, cât și secundare, și obținute direct din sursele apariției acestora.
Există două tipuri:
Recuperarea informațiilor este un domeniu larg interdisciplinar al științei care se află la intersecția dintre psihologia cognitivă , informatica , designul informației , lingvistica , semiotica și biblioteconomia .
Căutarea informațiilor este procesul de identificare a înregistrărilor din matricea de informații care satisfac o condiție de căutare sau o interogare predeterminată.
IP ia în considerare căutarea de informații în documente , căutarea documentelor în sine, extragerea metadatelor din documente, căutarea de text, imagini, video și sunet în baze de date relaționale locale, în baze de date hipertext precum Internetul și sistemele intranet locale .
Există o oarecare confuzie în jurul conceptelor de regăsire a datelor, regăsire documente, regăsire informații și regăsire text. Cu toate acestea, fiecare dintre aceste domenii de cercetare are propriile metodologii, practici și literatură.
În prezent, IP este un domeniu al științei în dezvoltare rapidă, a cărui popularitate se datorează creșterii exponențiale a volumelor de informații, în special pe Internet . Există o literatură vastă și multe conferințe dedicate IP. Unul dintre cele mai cunoscute este TREC , organizat în 1992 de Departamentul Apărării al SUA în colaborare cu Institutul de Standarde și Tehnologie ( NIST ) cu scopul de a consolida comunitatea de cercetare și de a dezvolta metode de evaluare a calității IP.
Când vorbesc despre sisteme IP, ei folosesc termenii cerere și obiect de solicitare .
O cerere este o modalitate formală de exprimare a nevoilor de informații ale unui utilizator de sistem. Limbajul de interogare de căutare este folosit pentru a exprima nevoia de informații , sintaxa variază de la sistem la sistem. Pe lângă un limbaj special de interogare , motoarele de căutare moderne vă permit să introduceți o interogare în limbaj natural .
Obiectul de solicitare este o entitate de informații care este stocată în baza de date a unui sistem de căutare automată. Deși cel mai frecvent obiect de solicitare este un document text , nu există restricții fundamentale. În special, este posibil să căutați imagini, muzică și alte informații multimedia . Procesul de introducere a obiectelor de căutare în IPS se numește indexare . Departe de a fi întotdeauna, IPS stochează o copie exactă a obiectului, adesea un surogat este stocat în schimb .
Sarcina centrală a IP-ului este de a ajuta utilizatorul să-și satisfacă nevoia de informații. Deoarece este dificil din punct de vedere tehnic să descrii nevoile de informații ale utilizatorului, acestea sunt formulate ca o interogare, care este un set de cuvinte cheie care caracterizează ceea ce caută utilizatorul.
Problema clasică a UI care a început dezvoltarea acestui domeniu este căutarea documentelor care satisfac o interogare în cadrul unei anumite colecții statice de documente. Dar lista de sarcini IP se extinde constant și include acum:
De asemenea, unele sarcini sunt stabilite înaintea motoarelor IP pentru procesarea limbilor naturale , care include analiza morfologică , rezoluția polisemiei lexicale și așa mai departe.
Există multe modalități de a evalua cât de bine se potrivesc documentele găsite de IPS cu o interogare. Din păcate, conceptul de grad de potrivire a unei interogări, sau cu alte cuvinte de relevanță , este un concept subiectiv, iar gradul de potrivire depinde de persoana specifică care evaluează rezultatele interogării.
Este definit ca raportul dintre numărul de documente relevante găsite de IPS și numărul total de documente găsite:
,unde este setul de documente relevante din baza de date și este setul de documente găsite de sistem.
Raportul dintre numărul de documente relevante găsite și numărul total de documente relevante din baza de date:
,unde este setul de documente relevante din baza de date și este setul de documente găsite de sistem.
Abandonul caracterizează probabilitatea de a găsi o resursă irelevante și este definită ca raportul dintre numărul de documente irelevante găsite și numărul total de documente irelevante din baza de date:
,unde este setul de documente irelevante din baza de date și este setul de documente găsite de sistem.
Uneori este util să combinați precizia și amintirea într-o singură medie. În acest scop, media aritmetică nu este potrivită, deoarece, de exemplu, este suficient ca un motor de căutare să returneze toate documentele în general pentru a asigura o rechemare egală cu unu cu o precizie apropiată de zero, iar media aritmetică a precizia și rechemarea vor fi de cel puțin 1/2. Media armonică nu are acest dezavantaj, deoarece cu o diferență mare a valorilor medii se apropie de minimul acestora.
Prin urmare, o măsură bună pentru evaluarea în comun a preciziei și a reamintirii este măsura F , care este definită ca media armonică ponderată a preciziei P și a reamintirii R :
Măsura F este de obicei scrisă ca
Pentru fie , măsura F acordă aceeași pondere acurateței și reamintirii și este numită măsură echilibrată sau -măsură (se obișnuiește să se indice valoarea în indice ), expresia pentru aceasta este simplificată
Utilizarea unei măsuri F echilibrate nu este obligatorie: acuratețea este preferată cu mai multă greutate, iar completitudinea i se acordă mai multă pondere.
Dicționare și enciclopedii | ||||
---|---|---|---|---|
|