ReCAPTCHA

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 17 mai 2022; verificările necesită 4 modificări .
reCAPTCHA
Tip de crowdsourcing
Autor
  • Luis von Ahn
  • Ben Maurer
  • Colin McMillen
  • Harshad Bhujbal
  • Manuel Blum
Dezvoltator Google
Prima editie 27 mai 2007  ( 27.05.2007 )
Site-ul web google.com/recaptcha
 Fișiere media la Wikimedia Commons

ReCAPTCHA este un sistem dezvoltat la Universitatea Carnegie Mellon pentru a proteja site- urile web de roboții de pe Internet și, în același timp, ajută la digitizarea textelor cărților. Este o continuare a proiectului CAPTCHA [1] . În septembrie 2009, reCAPTCHA a fost achiziționat de Google . La începutul lui 2011, reCAPTCHA digitaliza arhivele și cărțile The New York Times disponibile pe Google Căutare de cărți .

În primăvara anului 2012, Google a lansat un experiment de recunoaștere a imaginilor din Google Maps și Google Street View folosind serviciul ReCAPTCHA [2] . Din iulie 2013, serviciul ReCAPTCHA continuă să ofere fragmente de imagini din Google Street View pentru recunoaștere; de regulă, acestea sunt fragmente care arată numerele clădirilor. Astfel, motto-ul original al ReCAPTCHA - Stop Spam, Read Books - astazi are prea putin de-a face cu la ce este folosit de fapt acest sistem.

La începutul anului 2015, ReCAPTCHA a fost actualizat. Acum utilizatorului i se cere să bifeze pur și simplu caseta de selectare , după ce face clic pe caseta de selectare, utilizatorului i se poate solicita să selecteze toate imaginile care se încadrează în condiții predeterminate - de exemplu, selectați toate motocicletele .

Cum funcționează

reCAPTCHA este practic neînșelat de software-ul OCR . Al doilea cuvânt este preluat dintr-o sursă care necesită recunoaștere (de exemplu, o carte). Verificarea și trecerea „captcha” se efectuează în funcție de cuvântul cunoscut de sistem. Al doilea cuvânt necunoscut este opțional. Al doilea cuvânt introdus de utilizator este stocat în sistem și utilizat ca posibilă opțiune de recunoaștere. Recunoașterea finală a cuvântului se face prin selectarea cuvântului cel mai frecvent utilizat pentru introducere. Sistemul reCAPTCHA oferă utilizatorilor imagini pentru recunoaștere și colectează rezultatele, după care le transferă organizatorilor digitizării materialelor [1] .

Influență

Sistemul este utilizat pe scară largă de site-uri precum Facebook , TicketMaster, Twitter , StumbleUpon , Steam (10 ianuarie 2015), LiveJournal și alte aproximativ 350.000 de site-uri. Aproximativ 100 de milioane de cuvinte sunt digitalizate pe zi, ceea ce ar putea produce aproximativ 2,5 milioane de cărți pe an. Numărul persoanelor care au ajutat la digitalizarea a cel puțin un cuvânt din carte este estimat la 750 de milioane [1] . Eficiența acestei metode este destul de mare, deoarece sistemul este prevăzut cu mai multe opțiuni recunoscute.

Deoarece cuvintele sunt afișate în ordine aleatorie, inevitabil apar combinații curioase de cuvinte. Acest lucru a dat naștere memei de internet „inglip”, când oamenii fac o captură de ecran cu două cuvinte furnizate de sistemul reCAPTCHA și desenează desene amuzante [1] .

Glume precum „găsește un Viet Cong ” au apărut pe adresa versiunii grafice a reCAPTCHA (în imagine există o junglă solidă).

Critica

General

Când conectați acest serviciu la site, vi se oferă gratuit un număr limitat de solicitări. Algoritmii reCAPTCHA sunt construiți în mod deliberat astfel încât utilizatorul să facă cât mai multe solicitări, ceea ce duce la depășirea limitei gratuite și obligă proprietarul site-ului să treacă la versiunea plătită. Utilizatorii sunt forțați să introducă de două ori mai mult text decât este necesar pentru o anumită formă a testului Turing , fără a primi nicio recompensă pentru acest lucru. Venitul din textul recunoscut utilizat rămâne la Google Corporation . Necesită JavaScript pentru a funcționa , iar în cazul utilizării unui browser învechit, vizitatorul este forțat să actualizeze browserul Google .

Cu toate acestea, proprietarii de site-uri au dreptul de a-și rezerva alegerea modului de a se proteja de roboți.

Cu solicitări CAPTCH prea frecvente de la aceeași adresă IP, reCAPTCHA devine aproape imposibil de citit, ceea ce face foarte dificilă introducerea acestuia atunci când se folosește software-ul Tor (deoarece frecvența solicitărilor captcha de la nodurile de ieșire Tor este mult mai mare decât de la un IP de utilizator obișnuit) . În plus, în astfel de cazuri, ambele cuvinte oferite utilizatorului spre recunoaștere sunt verificabile, adică reCAPTCHA începe să acționeze ca orice alt sistem de protecție împotriva roboților. Cu toate acestea, după următoarea actualizare a algoritmului în reCaptcha, intrarea pe site a devenit dificilă pentru mulți utilizatori, așa că dacă o persoană intră pe site și începe să rezolve anti-bot, va fi prea lent, dar chiar și după ce va rezolva această problemă corect, sistemul anti-bot nu va număra răspunsul său, vă va cere să alegeți din nou imaginile potrivite, care din nou vor fi actualizate foarte lent, ca urmare, utilizatorul poate petrece ceva timp (de la câteva minute) rezolvând această problemă. De asemenea, a apărut blocarea accesului pentru a rezolva captcha de la o anumită adresă IP, ceea ce face imposibilă utilizarea acesteia la intrarea pe site și, deși cu o adresă ip dinamică vă puteți atribui una nouă prin reconectare, un ip static nu poate fi folosit. .

Implementări text

Utilizatorului nu i se cere să introducă ambele cuvinte. Unul dintre ele nu este bifat, este destul de ușor de recunoscut: în momente diferite, cuvântul bifat a fost „zgomotos” cu un contur dublu, linii și distorsiuni geometrice. În plus, semnele de punctuație , textul în alte limbi, formulele matematice etc. se găsesc uneori într- un cuvânt nebifat. O inversare a culorilor de fundal și a literelor este posibilă și pentru un cuvânt nebifat .

Un cuvânt complex neverificabil scos din context poate fi identificat greșit. De exemplu, căpitanul Infernet ( Louis-Antoine Infernet , participant la Bătălia de la Trafalgar ) a fost uneori identificat drept Internet [3] .

Implementări grafice

Unele imagini sunt greu de recunoscut chiar și de către o persoană. Pot exista probleme cu incertitudinea întrebării, de exemplu: este necesar să se marcheze autobuzele, dar pe imagine un troleibuz; alegerea vitrinelor poate să nu fie evidentă dacă este prezentată o intrare cu geam în clădire.

Note

  1. 1 2 3 4 Louis von Ahn: Massive Online Collaboration Arhivat 6 iunie 2012 la conferința Wayback Machine // TED , 2011
  2. Peretz Sarah. Google folosește acum ReCAPTCHA pentru a decoda adresele Street View  (  link mort) (29 martie 2012). Preluat la 14 august 2012. Arhivat din original la 18 august 2012.
  3. Revista Domnului și Cronica istorică.  (engleză) . Google Cărți . Consultat la 12 februarie 2012. Arhivat din original pe 23 mai 2013.

Link -uri