Erori de primul și al doilea fel

Eroare de primul fel ( α-eroare, concluzie fals pozitivă ) - situație în care ipoteza nulă corectă este respinsă (despre absența unei legături între fenomene sau efectul dorit).

Eroarea de al doilea fel  ( eroare β, concluzie fals negativă ) este o situație în care este acceptată o ipoteză nulă incorectă.

În statistica matematică , acestea sunt conceptele cheie ale problemelor de testare a ipotezelor statistice . Aceste concepte sunt adesea folosite în alte domenii atunci când vine vorba de a lua o decizie „binară” (da/nu) pe baza unui criteriu (test, verificare, măsurare), care, cu o oarecare probabilitate, poate da un rezultat fals.

Definiții

Să fie dat un eșantion dintr-o distribuție comună necunoscută și să fie stabilită problema binară a testării ipotezelor statistice:

unde  este ipoteza nulă și  este ipoteza alternativă . Să presupunem că este dat un test statistic

,

comparând fiecare implementare a eșantionului cu una dintre ipotezele disponibile. Atunci sunt posibile următoarele patru situații:

  1. Distribuția eșantionului corespunde ipotezei , și este determinată cu precizie de criteriul statistic, adică .
  2. Distribuția eșantionului corespunde ipotezei , dar este incorect respinsă de testul statistic, adică .
  3. Distribuția eșantionului corespunde ipotezei , și este determinată cu precizie de criteriul statistic, adică .
  4. Distribuția eșantionului corespunde ipotezei , dar este incorect respinsă de testul statistic, adică .

În al doilea și al patrulea caz, spunem că s-a produs o eroare statistică și se numește eroare de primul și respectiv al doilea fel [1] [2] .

  Ipoteza corecta
     
Rezultatul
 aplicării 
criteriului
   pe bună dreptate acceptată primit incorect 
(eroare de al doilea tip)
   respins incorect  (
eroare de tip I )
respins pe bună dreptate

Despre semnificația erorilor de primul și al doilea fel

Din definiția de mai sus se poate observa că erorile de primul și de al doilea fel sunt reciproc simetrice, adică dacă ipotezele și sunt interschimbate , atunci erorile de primul fel se vor transforma în erori de al doilea fel și invers. Cu toate acestea, în majoritatea situațiilor practice, nu există confuzie, deoarece se acceptă în general că ipoteza nulă corespunde stării „implicite” (starea naturală, cea mai așteptată) - de exemplu, că persoana examinată este sănătoasă, sau că un pasager care trece prin detectorul de metale nu are obiecte metalice interzise. În consecință, ipoteza alternativă denotă situația opusă, care este de obicei interpretată ca mai puțin probabilă, extraordinară, care necesită un fel de reacție.

Acestea fiind spuse, o eroare de tip I este adesea denumită alarmă falsă , pozitivă falsă sau pozitivă falsă . Dacă, de exemplu, un test de sânge a arătat prezența unei boli, deși de fapt persoana este sănătoasă, sau un detector de metale a dat o alarmă prin declanșarea cataramei metalice a centurii, atunci ipoteza acceptată nu este corectă și, prin urmare, un tip I. eroare a fost făcută. Cuvântul „fals pozitiv” în acest caz nu are nimic de-a face cu dezirabilitatea sau indezirabilitatea evenimentului în sine.

Termenul este utilizat pe scară largă în medicină. De exemplu, testele concepute pentru a diagnostica bolile dau uneori un rezultat pozitiv (adică, arată că un pacient are o boală) atunci când, de fapt, pacientul nu suferă de această boală. Un astfel de rezultat se numește fals pozitiv .

În alte domenii, sunt de obicei folosite expresii cu un înțeles similar, de exemplu, „fals pozitiv”, „falsă alarmă”, etc. În tehnologia informației, termenul englezesc fals pozitiv este adesea folosit fără traducere.

Din cauza posibilității de fals pozitive, nu este posibilă automatizarea completă a luptei împotriva multor tipuri de amenințări. De regulă, probabilitatea unui fals pozitiv se corelează cu probabilitatea de a rata un eveniment (eroare de al doilea fel). Adică: cu cât sistemul este mai sensibil, cu atât mai multe evenimente periculoase detectează și, prin urmare, previne. Dar odată cu creșterea sensibilității, probabilitatea unor fals pozitive crește inevitabil. Prin urmare, un sistem de apărare configurat prea sensibil (paranoic) poate degenera în opusul său și poate duce la faptul că prejudiciul colateral de la acesta va depăși beneficiul.

În consecință, o eroare de tip II este uneori denumită un eveniment ratat sau un fals negativ . Persoana este bolnavă, dar testul de sânge nu a arătat acest lucru sau pasagerul are o armă rece, dar cadrul detectorului de metale nu a detectat-o ​​(de exemplu, datorită faptului că sensibilitatea cadrului este ajustată pentru a detecta doar obiecte metalice foarte masive). Aceste exemple indică o eroare de tip II. Cuvântul „fals negativ” în acest caz nu are nimic de-a face cu dezirabilitatea sau indezirabilitatea evenimentului în sine.

Termenul este utilizat pe scară largă în medicină. De exemplu, testele menite să diagnosticheze bolile dau uneori un rezultat negativ (adică arată că pacientul nu are o boală) când de fapt pacientul are această boală. Un astfel de rezultat se numește fals negativ .

În alte domenii, de obicei sunt folosite expresii cu un înțeles similar, de exemplu, „lipsirea unui eveniment” etc.

Deoarece probabilitatea unei erori de tip I scade de obicei odată cu creșterea probabilității unei erori de tip II și invers, reglarea sistemului decizional trebuie să reprezinte un compromis. Unde se află exact punctul de echilibru obținut printr-o astfel de ajustare depinde de evaluarea consecințelor comiterii ambelor tipuri de erori.

Probabilități de eroare ( nivel de semnificație și putere)

Probabilitatea unei erori de tip I în testarea ipotezelor statistice se numește nivel de semnificație și este de obicei indicată printr-o literă grecească (de unde și eroarea numelui ).

Probabilitatea unei erori de al doilea fel nu are nicio denumire specială general acceptată, se notează printr-o literă greacă (de unde eroarea numelui ). Cu toate acestea, această valoare este strâns legată de alta, care are o mare semnificație statistică - puterea criteriului . Se calculează după formula . Astfel, cu cât puterea criteriului este mai mare, cu atât este mai puțin probabil să se facă o eroare de tip II.

Ambele caracteristici sunt de obicei calculate folosind așa-numita funcție de putere de testare . În special, probabilitatea de eroare de tip I este o funcție de putere calculată sub ipoteza nulă. Pentru testele bazate pe un eșantion de dimensiune fixă, probabilitatea unei erori de tip II este de unu minus o funcție de putere calculată presupunând că distribuția observațiilor se potrivește cu ipoteza alternativă. Pentru criteriile succesive , acest lucru este valabil și dacă criteriul se oprește cu probabilitatea unu (dată fiind distribuția din alternativă).

În testele statistice, există de obicei un compromis între un nivel acceptabil de erori de tip I și de tip II . Adesea, pentru a lua o decizie se folosește o valoare de prag, care poate varia pentru a face testul mai strict sau, dimpotrivă, mai blând. Această valoare de prag este nivelul de semnificație care este dat la testarea ipotezelor statistice . De exemplu, în cazul unui detector de metale, creșterea sensibilității dispozitivului va duce la un risc crescut de eroare de tip 1 (alarma falsă), în timp ce scăderea sensibilității va crește riscul unei erori de tip 2 (lipsirea unei erori interzise ). articol).

Exemple de utilizare

Radar

În sarcina de detectare prin radar a țintelor aeriene, în primul rând în sistemul de apărare aeriană, erorile de primul și al doilea fel, cu formularea „alarma falsă” și „ratarea țintei” sunt unul dintre elementele principale atât ale teoriei, cât și ale practicii construirea de statii radar . Acesta este probabil primul exemplu de aplicare consistentă a metodelor statistice în întregul domeniu tehnic.

Calculatoare

Conceptele de erori de tip I și tip II sunt utilizate pe scară largă în domeniul calculatoarelor și al software-ului.

Securitatea computerului

Prezența vulnerabilităților în sistemele de calcul duce la faptul că, pe de o parte, este necesar să se rezolve problema menținerii integrității datelor informatice și, pe de altă parte, să se asigure accesul normal al utilizatorilor legali la aceste date ( vezi securitatea computerului ). În acest context, sunt posibile următoarele situații nedorite [3] :

  • când utilizatorii autorizați sunt clasificați drept infractori ( erori de tip I );
  • când infractorii sunt clasificați ca utilizatori autorizați ( erori de al doilea fel ).
Filtrarea spamului

O eroare de tip 1 apare atunci când un mecanism de blocare/filtrare a spam -ului clasifică în mod eronat un mesaj de e-mail legitim drept spam și împiedică livrarea acestuia în mod normal. În timp ce majoritatea algoritmilor anti-spam sunt capabili să blocheze/filtra un procent mare de e-mailuri nedorite, este mult mai important să se minimizeze numărul de „alarme false” (blocarea eronată a mesajelor dorite).

O eroare de tip II apare atunci când un sistem anti-spam lasă în mod eronat să treacă un mesaj nedorit, clasificându-l drept „nu spam”. Nivelul scăzut al unor astfel de erori este un indicator al eficacității algoritmului anti-spam.

Până acum, nu a fost posibil să se creeze un sistem anti-spam fără o corelație între probabilitatea de erori de primul și al doilea tip. Probabilitatea de a lipsi spam-ul în sistemele moderne variază de la 1% la 30%. Probabilitatea de a respinge în mod eronat un mesaj valid este de la 0,001% la 3%. Alegerea unui sistem și setările acestuia depind de condițiile unui anumit destinatar: pentru unii destinatari, riscul de a pierde 1% din corespondența bună este evaluat ca nesemnificativ, pentru alții, pierderea chiar și de 0,1% este inacceptabilă.

Software rău intenționat

Conceptul de eroare de tip I este folosit și atunci când software-ul antivirus clasifică greșit un fișier inofensiv ca virus . Detectarea incorectă poate fi cauzată de euristică sau de o semnătură incorectă a virusului în baza de date. Probleme similare pot apărea și cu programele anti - troiene și anti- spyware .

Căutarea bazelor de date computerizate

La căutarea într-o bază de date, erorile de primul fel includ documentele care sunt emise de căutare, în ciuda irelevanței (incoerenței) lor cu interogarea de căutare. Fals-pozitivele sunt tipice pentru căutarea cu text integral , atunci când algoritmul de căutare analizează textele complete ale tuturor documentelor stocate în baza de date și încearcă să se potrivească cu unul sau mai mulți termeni specificați de utilizator în interogare.

Cele mai multe fals pozitive se datorează complexității limbilor naturale , ambiguității cuvintelor: de exemplu, „acasă” poate însemna atât „locul de reședință al unei persoane”, cât și „pagina rădăcină a unui site web”. Numărul de astfel de erori poate fi redus folosind un dicționar special . Cu toate acestea, această soluție este relativ costisitoare, deoarece un astfel de vocabular și marcare a documentelor ( indexare ) trebuie create de un expert.

Recunoaștere optică a caracterelor (OCR)

Diversi algoritmi de detectare dau adesea erori de primul fel . Software-ul OCR poate recunoaște litera „a” într-o situație în care există de fapt mai multe puncte.

Verificarea pasagerilor și a bagajelor

Erorile de tip I apar în mod regulat în fiecare zi în sistemele informatice de control al aeroporturilor. Detectoarele instalate în ele sunt concepute pentru a preveni transportul de arme la bordul aeronavei; cu toate acestea, acestea sunt adesea setate la un nivel atât de ridicat de sensibilitate încât de multe ori pe zi trag asupra obiectelor minore precum chei, catarame de curele, monede, telefoane mobile, cuie în tălpile pantofilor etc. (vezi Detectarea explozivilor)., detectoare de metale ).

Astfel, raportul dintre numărul de alarme false (identificarea unui pasager decent ca delincvent) și numărul de alarme corecte (detecția articolelor cu adevărat interzise) este foarte mare.

Biometrie

Erorile de primul și de al doilea tip reprezintă o mare problemă în sistemele de scanare biometrică care utilizează recunoașterea irisului sau a retinei ochiului, a trăsăturilor faciale etc. Astfel de sisteme de scanare pot identifica în mod eronat pe cineva cu o altă persoană „cunoscută” sistemului, informații. despre cine este stocat în baza de date (de exemplu, poate fi o persoană cu drept de autentificare sau un infractor suspectat etc.). Eroarea opusă ar fi eșecul sistemului de a recunoaște un utilizator legitim înregistrat sau de a identifica un suspect într-o infracțiune [4] .

Diagnosticare medicală de masă (screening)

În practica medicală, există o diferență semnificativă între screening și testare :

  • Screening- ul implică teste relativ ieftine care sunt efectuate pe un grup mare de persoane în absența oricăror semne clinice de boală (cum ar fi un frotiu Papanicolau ).
  • Testarea implică proceduri mult mai costisitoare , adesea invazive, care sunt efectuate numai pe cei care prezintă semne clinice ale bolii și sunt utilizate în principal pentru a confirma un diagnostic suspectat.

De exemplu, majoritatea statelor din Statele Unite solicită nou-născuților să fie testați pentru hidroxifenilcetonurie și hipotiroidism , printre alte anomalii congenitale . În ciuda ratei ridicate de erori de tip I , aceste proceduri de screening sunt considerate utile, deoarece cresc substanțial probabilitatea de a detecta aceste tulburări într-un stadiu foarte incipient [5] .

Testele de sânge simple folosite pentru a depista potenţialii donatori pentru HIV şi hepatită au un nivel semnificativ de eroare de tip I ; cu toate acestea, medicii au în arsenalul lor teste mult mai precise (și, prin urmare, costisitoare) pentru a verifica dacă o persoană este efectiv infectată cu vreunul dintre acești viruși.

Poate cea mai dezbătută este eroarea de tip I în procedurile de screening pentru cancerul de sân ( mamografie ). În Statele Unite, rata de eroare de tip I la mamografii este de până la 15%, cea mai mare din lume [6] . Cel mai scăzut nivel se observă în Olanda , 1% [7] .

Teste medicale

Erorile de tip II reprezintă o problemă semnificativă în testarea medicală . Ele dau pacientului și medicului credința falsă că boala nu este prezentă, când în realitate este. Acest lucru duce adesea la tratament inadecvat sau inadecvat. Un exemplu tipic este încrederea în rezultatele bicicletei ergometriei în detectarea aterosclerozei coronariene , deși se știe că bicicletele ergometriei relevă doar acele obstacole în fluxul sanguin în artera coronariană care sunt cauzate de stenoză .

Erorile de al doilea fel provoacă probleme grave și greu de înțeles, mai ales atunci când starea dorită este răspândită. Dacă un test cu o rată de eroare de tip II de 10% este utilizat pe o populație în care probabilitatea de cazuri „adevărate pozitive” este de 70%, atunci multe rezultate negative ale testelor vor fi false. (Vezi teorema lui Bayes ).

Erorile de tip I pot provoca, de asemenea, probleme grave și greu de înțeles. Acest lucru se întâmplă atunci când afecțiunea căutată este rară. Dacă un test are o rată de eroare de tip I de una la zece mii, dar în grupul de eșantioane (sau persoane) testate, probabilitatea de cazuri „adevărate pozitive” este în medie de unu la un milion, atunci majoritatea rezultatelor pozitive din acel test va fi fals [8] .

Investigații asupra supranaturalului

Termenul de eroare de tip I a fost inventat de cercetătorii din domeniul paranormalului și al fantomelor pentru a descrie o fotografie sau o înregistrare sau orice altă dovadă care este interpretată în mod eronat ca fiind de origine paranormală - în acest context , o eroare de tip I  este orice „dovezi media” insuportabile (imagine, video, audio etc.) care au explicația obișnuită . [9]

Vezi și

Note

  1. GOST R 50779.10-2000. "Metode statistice. Probabilitatea și bazele statisticii. Termeni și definiții". — p. 26 Arhivat 9 noiembrie 2018 la Wayback Machine
  2. Easton VJ, McColl JH Glosar de statistici: Testarea ipotezei. Arhivat pe 24 septembrie 2011 la Wayback Machine
  3. Moulton RT Network Security   // Datamation . - 1983. - Vol. 29 , iss. 7 . - P. 121-127 .
  4. Acest exemplu caracterizează doar cazul în care clasificarea erorilor va depinde de scopul sistemului: dacă scanarea biometrică este utilizată pentru admiterea angajaților ( ipoteza nulă : „persoana supusă scanării este într-adevăr un angajat”), atunci identificarea eronată va fie o eroare de al doilea fel și „nerecunoaștere” — eroare de primul fel ; dacă scanarea este utilizată pentru a identifica infractorii ( ipoteza nulă : „persoana scanată nu este un criminal”), atunci identificarea eronată va fi o eroare de tip I , iar „nerecunoașterea” va fi o eroare de tip II .
  5. În ceea ce privește screening-ul nou-născuților, studii recente au arătat că numărul erorilor de primul fel este de 12 ori mai mare decât numărul de detecții corecte (Gambrill, 2006. [1] )
  6. O consecință a acestei rate ridicate de erori de tip I în SUA este că, pe o perioadă arbitrară de 10 ani, jumătate dintre femeile americane chestionate primesc cel puțin o mamografie fals pozitivă. Aceste mamografii eronate sunt costisitoare, ducând la un cost anual de 100 de milioane de dolari în tratamente ulterioare (inutile). În plus, provoacă anxietate inutilă la femei. Ca urmare a ratei mari de erori de tip I din Statele Unite, aproximativ 90-95% dintre femeile care primesc o mamografie pozitivă cel puțin o dată în viață nu au de fapt boala.
  7. Cele mai scăzute niveluri ale acestor erori sunt observate în nordul Europei, unde filmele mamografice sunt citite de două ori și este stabilit un prag crescut pentru testarea suplimentară ( un prag ridicat reduce eficacitatea statistică a testului).
  8. Probabilitatea ca rezultatul unui test să fie o eroare de tip I poate fi calculată folosind teorema lui Bayes .
  9. Unele site-uri oferă exemple de erori de tip I, de exemplu: The Atlantic Paranormal Society (TAPS) Arhivat la 28 martie 2005.  (link descendent din 13-05-2013 [3457 zile]) și Moorestown Ghost Research Arhivat 2006-06-14 .  (link descendent din 13-05-2013 [3457 zile] - istoric ) .