Un clasificator Bayes naiv este un clasificator probabilist simplu bazat pe aplicarea teoremei lui Bayes cu ipoteze de independență stricte (naive) .
În funcție de natura precisă a modelului probabilistic, clasificatorii Naive Bayes pot fi antrenați foarte eficient. Multe aplicații practice folosesc metoda probabilității maxime pentru a estima parametrii pentru modelele naive bayes ; cu alte cuvinte, se poate lucra cu un model bayesian naiv fără a crede în probabilitatea bayesiană și fără a folosi metode bayesiene.
În ciuda aspectului lor naiv și a termenilor, fără îndoială, foarte simpliști, clasificatorii Naive Bayes au adesea rezultate mult mai bune decât rețelele neuronale în multe situații complexe din viața reală.
Avantajul clasificatorului naiv Bayes este cantitatea mică de date necesare pentru antrenament, estimarea parametrilor și clasificarea.
Modelul probabilistic pentru clasificator este un model condiționat
peste variabilă de clasă dependentă cu puține rezultate sau clase , dependentă de puține variabile . Problema este că atunci când numărul de proprietăți este foarte mare, sau când o proprietate poate lua un număr mare de valori, atunci devine imposibil să construiești un astfel de model pe tabele de probabilitate. Prin urmare, vom reformula modelul pentru a-l face mai ușor de procesat.
Folosind teorema lui Bayes , scriem
În practică, interesează doar numărătorul acestei fracții, deoarece numitorul nu depinde de și valorile proprietăților sunt date, deci numitorul este o constantă.
Numătorul este echivalent cu probabilitatea comună a modelului
care poate fi rescris după cum urmează, folosind aplicații repetate ale definițiilor probabilității condiționate :
și așa mai departe. Acum putem folosi ipotezele „naive” ale independenței condiționate : să presupunem că fiecare proprietate este independentă condiționat de orice altă proprietate la . Inseamna:
deci modelul comun poate fi exprimat ca:
Aceasta înseamnă că, în ipoteza independenței, distribuția condiționată asupra variabilei de clasă poate fi exprimată astfel:
unde este un factor de scară care depinde numai de , adică o constantă dacă se cunosc valorile variabilelor.
Toți parametrii modelului pot fi aproximați prin frecvențe relative din setul de date de antrenament. Acestea sunt estimările de probabilitate maximă ale probabilităților. Proprietățile continue sunt de obicei evaluate prin distribuția normală. Statisticile sunt calculate ca așteptare și varianță matematică - media aritmetică și, respectiv, abaterea standard.
Dacă clasa dată și valoarea proprietății nu apar niciodată împreună în setul de antrenament, atunci scorul bazat pe probabilități va fi zero. Aceasta este o problemă, deoarece la înmulțire, o estimare zero va duce la pierderea informațiilor despre alte probabilități. Prin urmare, este de preferat să se facă mici ajustări la toate estimările de probabilitate, astfel încât nicio probabilitate să nu fie strict zero.
Un clasificator bayes naiv combină un model cu o regulă de decizie. O regulă generală este alegerea celei mai probabile ipoteze; este cunoscută ca regula deciziei a posteriori ( MAP ). Clasificatorul corespunzător este o funcție definită după cum urmează:
Să luăm în considerare un exemplu simplu de aplicare a unui clasificator Bayes naiv la problema clasificării documentelor după conținutul lor, și anume, clasificarea e- mailurilor în două clase - spam ( ) și non-spam ( ).
Vom presupune că documentele sunt selectate din mai multe clase de documente, care pot fi reprezentate printr-un set de cuvinte cu o probabilitate (independentă) ca al - i -lea cuvânt al unui document dat să apară într-un document din clasa C :
(Pentru această problemă, presupuneți că probabilitatea ca un cuvânt să apară într-un document este independentă de lungimea documentului și că toate documentele au aceeași lungime.)
Apoi probabilitatea pentru un document dat D și clasa C
Întrebarea la care vrem să răspundem este „care este probabilitatea ca un anumit document D să aparțină clasei C ?”. Cu alte cuvinte, cu ce este egal ?
Conform teoremei lui Bayes
Să presupunem că avem doar două clase: S și ¬S ( de exemplu, spam și non-spam). Apoi
Împărțind unul la altul, obținem raportul de probabilitate
sau (pentru log-probabilitate )
Probabilitatea reală poate fi calculată pe baza observației că . Pentru a face acest lucru, este necesar să se formeze un spațiu de probabilitate din funcția de probabilitate
, UndeÎn cele din urmă, documentul poate fi clasificat prin compararea log-probabilității cu un anumit prag h (ex. h=0). Avem spam dacă
.Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|