Alegerea unui model statistic
Selecția modelului este sarcina de a selecta un model statistic dintr-un set de modele candidate având în vedere datele disponibile. În cel mai simplu caz, se ia în considerare un set de date existent. Cu toate acestea, sarcina poate implica proiectarea de experimente , astfel încât colectarea datelor este legată de sarcina de selecție a modelului. Având în vedere candidați model cu aceeași putere predictivă sau explicativă, cel mai simplu model este probabil să fie cea mai bună alegere ( brizorul lui Occam ).
Konishi și Kitagawa [1] afirmă: „Majoritatea problemelor de inferență statistică pot fi considerate probleme legate de modelarea statistică”. În același timp, Cox [2] a spus: „Modul în care se realizează traducerea de la problema subiectului la modelul statistic este partea cea mai critică a analizei”.
Selecția modelului se poate referi și la sarcina de a selecta mai multe modele reprezentative dintr-un set mare de modele de calcul în scopul luării deciziilor sau al optimizării în condiții de incertitudine.
Introducere
În cele mai simple forme ale sale, selecția modelului este una dintre sarcinile fundamentale ale cercetării științifice . Definiția unui principiu care explică un set de observații este adesea legată direct de un model matematic pentru prezicerea acestor observații. De exemplu, când Galileo și-a efectuat experimentele cu un plan înclinat , el a demonstrat că mișcarea mingii urmează parabola prezisă în modelul său.
Cu numărul infinit de mecanisme și procese posibile pe care le pot oferi datele, cum poate cineva să înceapă chiar să aleagă cel mai bun model? Abordarea matematică ia de obicei o decizie între un set de candidați model. Acest set trebuie ales de cercetător. Modele simple precum polinoamele sunt adesea folosite , cel puțin la început. Burnham și Andersen [3] subliniază în cartea lor importanța alegerii modelelor bazate pe principii științifice, cum ar fi înțelegerea proceselor sau mecanismelor fenomenologice (de exemplu, reacțiile chimice) pentru date.
Odată ce un set de candidați model a fost selectat, analiza statistică permite selectarea celor mai bune dintre aceste modele. Ce înseamnă cel mai bine cuvântul este o întrebare discutabilă. O tehnică bună de selecție a modelului va echilibra între adecvarea modelului și simplitate. Modelele mai complexe pot fi capabile să se potrivească mai bine cu datele (de exemplu, un polinom de gradul cinci poate reprezenta exact șase puncte), dar parametrii suplimentari pot să nu fie utili (poate că cele șase puncte sunt de fapt distribuite aleatoriu de-a lungul unei linii drepte). Potrivirea unui model este de obicei determinată folosind , sau o aproximare a raportului de probabilitate , rezultând un test chi-pătrat . Complexitatea este în general măsurată prin numărarea numărului de parametri ai modelului
.
Tehnicile de selecție a modelului pot fi considerate ca estimări ale unei cantități fizice, cum ar fi probabilitatea ca un model să producă datele disponibile. Prejudecățile și varianța sunt indicatori importanți ai calității unui predictor. Adesea este luat în considerare și un indicator de performanță .
Un exemplu standard de selecție a modelului este potrivirea curbei , unde, având în vedere un set de puncte și alte informații generale (de exemplu, când punctele sunt rezultatul unui eșantion de variabile aleatoare independente ), trebuie să selectăm o curbă care descrie funcția care generează punctele.
Metode de selectare a unui set de candidați într-un model
Criterii
Dacă ne restrângem în prealabil să luăm în considerare doar modele autoregresive (AR), adică presupunem că procesul Xt urmează modelul AR(k) cu o ordine adevărată necunoscută k, atunci mult timp k a fost folosit pentru a determina k în astfel de situații [4]
- Akaike Information Criterion (AIC), o măsură a adecvării unui model statistic. Ulterior, s-a constatat că estimarea lui Akaike este insuportabilă și supraestimează (suprestimează) asimptotic valoarea adevărată a lui k0 cu probabilitate diferită de zero [4] .
Mai preferat este cel utilizat în mod obișnuit în prezent [4]
Ceva mai târziu s-a sugerat [4]
- Criteriul de informare Hennan-Quinn , care are o convergență mai rapidă la valoarea adevărată a lui k0 la. Cu toate acestea, pentru valori mici ale lui T, acest criteriu subestimează ordinea de autoregresie.
Folosit frecvent
De asemenea, sunt utilizate următoarele criterii
- Validare încrucișată
- Information Deviation Criteria (DIC), un alt criteriu de selecție a modelului bayesian
- Criteriu de determinare eficientă ( EDC )
- Rata fals pozitive
- Focused Information Criterion (FIC), un criteriu pentru selectarea modelelor statistice în funcție de performanța lor pentru un parametru dat
- Testul raportului de probabilitate , un test statistic utilizat pentru a testa constrângerile asupra parametrilor modelelor statistice estimate din datele eșantionului.
- Nalbii C p statistic . Se crede că pentru un model bun, această statistică ar trebui să ia valori apropiate de numărul de parametri ai modelului (inclusiv interceptarea) [5] .
- Principiul lungimii minime a descrierii ( Teoria informației algoritmice ) este o formalizare a briciului lui Occam, în care cea mai bună ipoteză (modelul și parametrii acestuia) pentru un anumit set de date este cea care duce la o mai bună comprimare a datelor.
- Mesaj de lungime minimă ( Teoria informației algoritmice )
- Minimizarea riscului structural
- Regresie în trepte . Scopul regresiei în trepte este de a selecta dintr-un număr mare de predicate un subset mic de variabile care contribuie cel mai mult la variația variabilei dependente.
- Watanabe-Akaike Information Criteria (WAIC), un criteriu de informare cu aplicare largă
Vezi și
Note
- ↑ Konishi, Kitagawa, 2008 , p. 75.
- ↑ Cox, 2006 , p. 197.
- ↑ Burnham, Anderson, 2002 .
- ↑ 1 2 3 4 Criterii de informare . Consultat la 30 decembrie 2018. Arhivat din original la 14 aprilie 2018. (nedefinit)
- ↑ Nalbe, 1973 , p. 661-675.
Literatură
- Mallows CL Câteva comentarii despre CP // Tehnometrie. - 1973. - T. 15 , nr. 4 . - doi : 10.2307/1267380 .
- Aho K., Derryberry D., Peterson T. Selecția modelului pentru ecologisti: viziuni asupra lumii ale AIC și BIC // Ecologie . - 2014. - T. 95 . — S. 631–636 . - doi : 10.1890/13-1452.1 .
- Inferența bazată pe model Anderson DR în științele vieții . — Springer, 2008.
- Ando T. Selecția modelului bayesian și modelarea statistică. — CRC Press , 2010.
- Leo Breiman . Modelarea statistică: cele două culturi // Statistical Science . - 2001. - T. 16 . — S. 199–231 . - doi : 10.1214/ss/1009213726 .
- Burnham KP, Anderson DR Selecția modelului și inferența multimodel: O abordare teoretică a informației practice. — al 2-lea. - Springer-Verlag, 2002. - ISBN 0-387-95364-7 . [carte citată de peste 38.000 de ori pe Google Scholar ]
- Chamberlin TC Metoda ipotezelor de lucru multiple // Știință . - 1890. - T. 15 . - S. 93 . - doi : 10.1126/science.ns-15.366.92 . — Cod biblic . (Reprinted 1965, Science 148: 754-759 [1] doi : 10.1126/science.148.3671.754 )
- Gerda Claeskens. Alegerea modelului statistic // Revizuirea anuală a statisticilor și a aplicării sale . - 2016. - T. 3 . — S. 233–256 . - doi : 10.1146/annurev-statistics-041715-033413 . — . (link indisponibil)
- Claeskens G., Hjort NL Model Selection and Model Average. - Cambridge University Press, 2008. - (SERIA CAMBRIDGE ÎN MATEMATICĂ STATISTICĂ ȘI PROBABILISTĂ). — ISBN 978-0-521-85225-8 .
- Principiile inferenței statistice. - Cambridge University Press, 2006. - ISBN 0-511-34858-4 .
- Konishi S., Kitagawa G. Criterii de informare și modelare statistică . - Springer, 2008. - ISBN 978-0-387-71886-6 .
- Model Selection / Lahiri P.. - Beachwood, Ohio: Institutul de Statistică Matematică , 2001. - Vol. 38. - (NOTE DE PRELEȚII-SERII MONOGRAFICE). — ISBN 0-940600-52-8 .
- Leeb H., Pötscher BM Model selection // Handbook of Financial Time Series / Torben G. Andersen, Richard A. Davis, Jens-Peter Kreiß, Thomas Mikosch. - Springer, 2009. - S. 889-925. — ISBN 978-3-540-71296-1 . - doi : 10.1007/978-3-540-71297-8_39 .
- Lukacs PM, Thompson WL, Kendall WL, Gould WR, Doherty PF Jr., Burnham KP, Anderson DR Preocupări privind un apel pentru pluralismul teoriei informațiilor și testarea ipotezelor // Journal of Applied Ecology . - 2007. - T. 44 , nr. 2 . — S. 456–460 . - doi : 10.1111/j.1365-2664.2006.01267.x .
- Allan D.R. McQuarrie, Chih-Ling Tsai. Regresia și selecția modelului serii temporale. - Singapore: World Scientific, 1998. - ISBN 981-02-3242-X .
- Massart P. Inegalitățile de concentrare și selecția modelului / Editor: Jean Picard. - Springer, 2007. - T. 1896. - (Lecture Notes in Mathematics). — ISBN 3-540-48497-3 .
- Massart P. O plimbare non-asimptotică în probabilitate și statistică // Trecut, prezent și viitor al științei statistice. - Chapman & Hall , 2014. - pp. 309-321.
- Paulo Angelo Alves Resende, Chang Chung Yu Dorea. Identificarea modelului folosind criteriul de determinare eficientă // Journal of Multivariate Analysis . - 2016. - T. 150 . — S. 229–244 . - doi : 10.1016/j.jmva.2016.06.002 .
- Shmueli G. A explica sau a prezice? // Știința statistică . - 2010. - T. 25 . — S. 289–310 . - doi : 10.1214/10-STS330 . - arXiv : 1101.0891 .
- Wit E., van den Heuvel E., Romeijn J.-W. „Toate modelele sunt greșite...”: o introducere în incertitudinea modelului // Statistica Neerlandica. - 2012. - T. 66 . — S. 217–236 . - doi : 10.1111/j.1467-9574.2012.00530.x .
- Wit E., McCullagh P. The extensibility of statistical models // Algebraic Methods in Statistics and Probability / MAG Viana, D. St. P. Richards. - 2001. - S. 327-340.
- Anna Wójtowicz, Tomasz Bigaj. Justificarea, confirmarea și problema ipotezelor care se exclud reciproc // Descoperirea faptelor și a valorilor / Adrian Kuźniar, Joanna Odrowąż-Sypniewska. - Brill Publishers , 2016. - S. 122-143. - doi : 10.1163/9789004312654_009 .