Clasificare binară

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 august 2020; verificarea necesită 1 editare .

Clasificarea binară , binară sau dihotomică este sarcina de a clasifica elementele unei mulțimi date în două grupe (prevăzând cărei grupe îi aparține fiecare element al mulțimii) pe baza regulii de clasificare . Contextele în care este necesar să se decidă dacă un obiect are o proprietate calitativă , unele caracteristici specifice sau o clasificare binară tipică includ:

Clasificarea binară este o dihotomizare aplicată în scopuri practice. În multe probleme practice de clasificare binară, cele două grupuri nu sunt simetrice - în loc de acuratețea generală, proporțiile relative ale tipurilor de erori sunt importante . De exemplu, în testele de laborator, un fals pozitiv (detecția unei boli care nu există de fapt) este considerat a fi distins de un fals negativ (nu detectarea unei boli pe care pacientul o are de fapt).

Clasificare binară statistică

Clasificarea statistică este o sarcină studiată în învățarea automată . Este un tip de învățare supravegheată , o metodă de învățare automată în care categoriile sunt predefinite și utilizate pentru a selecta o categorie pentru o nouă observație probabilistică. Dacă există doar două categorii, problema este cunoscută sub numele de clasificare statistică binară.

Unele metode utilizate în mod obișnuit pentru clasificarea binară sunt:

Fiecare clasificator funcționează cel mai bine doar într-o zonă selectată, în funcție de numărul de observații, dimensiunea vectorului caracteristic , zgomotul din date și mulți alți factori. De exemplu, clasificatorii de pădure aleatorii au o performanță mai bună decât mașinile vectoriale suport pentru nori de puncte 3D [1] [2] .

Scor de clasificare binară

Există multe valori care pot fi utilizate pentru a măsura performanța unui clasificator sau predictor. Câmpurile diferite au beneficii diferite pentru anumite valori, datorită unor scopuri diferite. De exemplu, sensibilitatea și specificitatea sunt adesea folosite în medicină , în timp ce precizia și amintirea sunt favorizate regăsirea informațiilor . O diferență importantă în metrici este dacă este independentă de prevalență (cât de des apare fiecare categorie în populație) sau dependentă, iar ambele tipuri sunt utile, dar au proprietăți foarte diferite.

Având în vedere o clasificare a unui set de date, există patru combinații de bază ale unei categorii valide și ale unei categorii atribuite:

  1. clasificări pozitive corect atribuite TP
  2. clasificări negative atribuite corect TN
  3. clasificări pozitive atribuite în mod fals FP
  4. clasificări negative atribuite în mod fals FN

Ele pot fi amplasate într- un tabel de contingență cu coloane corespunzătoare valorilor reale - condițional pozitive ( ing. condiție pozitivă , CP) sau condiționat condițional ( ing. condiție negativă , CN) și rânduri corespunzătoare valorilor de clasificare - testul rezultatul este pozitiv sau negativ. Există opt rapoarte de bază care pot fi calculate din tabel, care se împart în patru perechi complementare (suma fiecărei perechi este 1). Ele sunt obținute prin împărțirea fiecăruia dintre cele patru numere la suma rândului sau coloanei, ceea ce generează opt numere care pot fi numite „rând de pozitive adevărate” sau „coloană de negative false”, deși există termeni folosiți în mod obișnuit. Există, de asemenea, două perechi de rapoarte de coloane și două perechi de rapoarte de rânduri și puteți obține patru dintre ele alegând un raport din fiecare pereche, celelalte patru numere fiind complementele lor.   

Coloana de cotă conține raportul dintre valorile pozitive adevărate ( ing.  Rata adevărată pozitivă , TPR, numită și sensibilitate sau recall , adăugarea este proporția rezultatelor fals negative , ing.  Rata fals negativă , FNR) și proporția rezultatelor negative adevărate ( ing.  Rata negativă adevărată , TNR, numită și specificitate , ( ing.  Specificitate , SPC, complement - proporția fals pozitive , ing.  Rata fals pozitivă , FPR) Sunt proporționale cu populația cu o afecțiune (respectiv, fără o afecțiune) pentru care testul este adevărat (sau testul este fals) și nu depind de prevalență.

Rândul fracției este valoarea predictivă pozitivă ( Positive Predictive Value , PPV, numită și acuratețe , complementul este proporția de respingeri false , False Discovery Rate , FDR) și valoarea predictivă negativă ( eng  Valoarea predictivă negativă , NPV, adunare - proporția de treceri false, ing. Rata de omisiuni false , FOR). Ele sunt proporționale cu populația cu un rezultat dat testului adevărat (sau rezultat fals) și depind de prevalență.    

În testele de laborator, principalele rapoarte utilizate sunt coloana proporției reale - proporția de pozitive adevărate și proporția de negative adevărate - unde acestea sunt cunoscute ca sensibilitate și specificitate . La extragerea informațiilor, relațiile principale sunt rata pozitivă adevărată (rând și coloană) - valoarea predictivă negativă și rata pozitivă adevărată - unde acestea sunt cunoscute ca precizie și reamintire .

Este posibil să se ia rapoartele perechilor complementare de rapoarte, ceea ce oferă patru rapoarte de probabilitate (două valori ale coloanei de proporții, două valori ale rândului de proporții). Acest lucru se face în primul rând pentru rapoartele coloanelor, care oferă rapoarte de probabilitate în testele de laborator . Luând raportul într-unul dintre aceste grupuri, obținem raportul de cote pentru testul de diagnostic final ( Diagnostic Odds Ratio , DOR) .  Această valoare poate fi definită direct ca . Acesta are o interpretare utilă ca un raport de cote și este independent de prevalență.

Există mai multe alte valori, dintre care cea mai simplă este Fraction Correct (FC), care măsoară proporția tuturor cazurilor care sunt clasificate corect .  Adăugarea la 1 a acestei valori este proporția de incorecte ( English Fraction Incorrect , FiC). Măsura F combină precizia și retragerea într-un singur număr prin alegerea unei greutăți, în cel mai simplu caz egală cu greutatea ca într-o măsură F echilibrată ( F1 măsură ). Unele metrici provin din coeficienții de regresie - marcați și informativi și media lor geometrică , coeficientul de corelație Matthews . Alte valori includ statistica J a lui Youden , coeficientul de incertitudine , coeficientul Phi și kappa lui Cohen.  

Conversia valorilor continue în binar

Testele ale căror rezultate sunt valori continue, cum ar fi majoritatea valorilor testelor de sânge , pot fi făcute binare artificial prin definirea unei valori limită . Rezultatul testului este definit ca pozitiv sau negativ , în funcție de rezultatele comparării valorilor rezultate și limită.

Cu toate acestea, această conversie are ca rezultat o pierdere de informații, deoarece rezultatul clasificării binare nu indică cât de mai mari sau mai mici sunt valorile limită. La conversia unei valori continue care este aproape de valoarea limită, valoarea predictivă pozitivă sau negativă rezultată este în general mai mare decât valoarea predictivă obținută direct din valoarea continuă. În astfel de cazuri, un rezultat pozitiv sau negativ al testului oferă o certitudine inacceptabil de mare, în timp ce valoarea în sine este de fapt în regiunea incertitudinii. De exemplu, concentrația de gonadotropină corionică umană (hCG) în urină are o valoare continuă. Un test de sarcină în urină cu o limită de 50 mUI / ml cu o concentrație reală de hCG de 52 mUI / ml poate arăta un „rezultat pozitiv”. Pe de altă parte, un rezultat al testului departe de limită are de obicei o valoare predictivă pozitivă sau negativă care este mai mică decât valoarea predictivă obținută dintr-o valoare continuă. De exemplu, o valoare a hCG de 200.000 mUI/mL indică un grad foarte ridicat de sarcină, dar conversia la rezultate binare dă un rezultat „pozitiv” al testului la doar 52 mIU/mL.

Vezi și

Note

  1. Zhang, Zakhor, 2014 .
  2. Lu, Rasmussen, 2012 .

Literatură