Alegerea unui model statistic

Selecția modelului este sarcina de a selecta un model statistic dintr-un set de modele candidate având în vedere datele disponibile. În cel mai simplu caz, se ia în considerare un set de date existent. Cu toate acestea, sarcina poate implica proiectarea de experimente , astfel încât colectarea datelor este legată de sarcina de selecție a modelului. Având în vedere candidați model cu aceeași putere predictivă sau explicativă, cel mai simplu model este probabil să fie cea mai bună alegere ( brizorul lui Occam ).

Konishi și Kitagawa [1] afirmă: „Majoritatea problemelor de inferență statistică pot fi considerate probleme legate de modelarea statistică”. În același timp, Cox [2] a spus: „Modul în care se realizează traducerea de la problema subiectului la modelul statistic este partea cea mai critică a analizei”.

Selecția modelului se poate referi și la sarcina de a selecta mai multe modele reprezentative dintr-un set mare de modele de calcul în scopul luării deciziilor sau al optimizării în condiții de incertitudine.

Introducere

În cele mai simple forme ale sale, selecția modelului este una dintre sarcinile fundamentale ale cercetării științifice . Definiția unui principiu care explică un set de observații este adesea legată direct de un model matematic pentru prezicerea acestor observații. De exemplu, când Galileo și-a efectuat experimentele cu un plan înclinat , el a demonstrat că mișcarea mingii urmează parabola prezisă în modelul său.

Cu numărul infinit de mecanisme și procese posibile pe care le pot oferi datele, cum poate cineva să înceapă chiar să aleagă cel mai bun model? Abordarea matematică ia de obicei o decizie între un set de candidați model. Acest set trebuie ales de cercetător. Modele simple precum polinoamele sunt adesea folosite , cel puțin la început. Burnham și Andersen [3] subliniază în cartea lor importanța alegerii modelelor bazate pe principii științifice, cum ar fi înțelegerea proceselor sau mecanismelor fenomenologice (de exemplu, reacțiile chimice) pentru date.

Odată ce un set de candidați model a fost selectat, analiza statistică permite selectarea celor mai bune dintre aceste modele. Ce înseamnă cel mai bine cuvântul este o întrebare discutabilă. O tehnică bună de selecție a modelului va echilibra între adecvarea modelului și simplitate. Modelele mai complexe pot fi capabile să se potrivească mai bine cu datele (de exemplu, un polinom de gradul cinci poate reprezenta exact șase puncte), dar parametrii suplimentari pot să nu fie utili (poate că cele șase puncte sunt de fapt distribuite aleatoriu de-a lungul unei linii drepte). Potrivirea unui model este de obicei determinată folosind , sau o aproximare a raportului de probabilitate , rezultând un test chi-pătrat . Complexitatea este în general măsurată prin numărarea numărului de parametri ai modelului .

Tehnicile de selecție a modelului pot fi considerate ca estimări ale unei cantități fizice, cum ar fi probabilitatea ca un model să producă datele disponibile. Prejudecățile și varianța sunt indicatori importanți ai calității unui predictor. Adesea este luat în considerare și un indicator de performanță .

Un exemplu standard de selecție a modelului este potrivirea curbei , unde, având în vedere un set de puncte și alte informații generale (de exemplu, când punctele sunt rezultatul unui eșantion de variabile aleatoare independente ), trebuie să selectăm o curbă care descrie funcția care generează punctele.

Metode de selectare a unui set de candidați într-un model

Criterii

Dacă ne restrângem în prealabil să luăm în considerare doar modele autoregresive (AR), adică presupunem că procesul Xt urmează modelul AR(k) cu o ordine adevărată necunoscută k, atunci mult timp k a fost folosit pentru a determina k în astfel de situații [4]

Akaike Information Criterion (AIC), o măsură a adecvării unui model statistic. Ulterior, s-a constatat că estimarea lui Akaike este insuportabilă și supraestimează (suprestimează) asimptotic valoarea adevărată a lui k0 cu probabilitate diferită de zero [4] .

Mai preferat este cel utilizat în mod obișnuit în prezent [4]

Criteriul Bayesian Informațional (BIC), cunoscut și sub numele de Criteriul Informațional Schwartz, este un criteriu de selecție a modelului statistic.

Ceva mai târziu s-a sugerat [4]

Criteriul de informare Hennan-Quinn , care are o convergență mai rapidă la valoarea adevărată a lui k0 la. Cu toate acestea, pentru valori mici ale lui T, acest criteriu subestimează ordinea de autoregresie. $T\to \infty$

Folosit frecvent

Coeficientul Bayes

De asemenea, sunt utilizate următoarele criterii

Validare încrucișată
Information Deviation Criteria (DIC), un alt criteriu de selecție a modelului bayesian
Criteriu de determinare eficientă ( EDC )
Rata fals pozitive
Focused Information Criterion (FIC), un criteriu pentru selectarea modelelor statistice în funcție de performanța lor pentru un parametru dat
Testul raportului de probabilitate , un test statistic utilizat pentru a testa constrângerile asupra parametrilor modelelor statistice estimate din datele eșantionului.
Nalbii C p statistic . Se crede că pentru un model bun, această statistică ar trebui să ia valori apropiate de numărul de parametri ai modelului (inclusiv interceptarea) [5] .
Principiul lungimii minime a descrierii ( Teoria informației algoritmice ) este o formalizare a briciului lui Occam, în care cea mai bună ipoteză (modelul și parametrii acestuia) pentru un anumit set de date este cea care duce la o mai bună comprimare a datelor.
Mesaj de lungime minimă ( Teoria informației algoritmice )
Minimizarea riscului structural
Regresie în trepte . Scopul regresiei în trepte este de a selecta dintr-un număr mare de predicate un subset mic de variabile care contribuie cel mai mult la variația variabilei dependente.
Watanabe-Akaike Information Criteria (WAIC), un criteriu de informare cu aplicare largă

Vezi și

Toate modelele sunt greșite
Analiza ipotezelor concurente
Învățare automată automată
Dilema părtinire-dispersie
Paradoxul lui Friedman
Căutare în grilă de parametri
Analiza de identificare
Analiză liniară log
Identificarea sistemului
Briciul lui Occam
Optimal Experiment Design
Problemă de selecție a parametrilor
Justificarea modelului de regresie
Modelare
Paradoxul lui Stein

Note

↑ Konishi, Kitagawa, 2008 , p. 75.
↑ Cox, 2006 , p. 197.
↑ Burnham, Anderson, 2002 .
↑ 1 2 3 4 Criterii de informare . Consultat la 30 decembrie 2018. Arhivat din original la 14 aprilie 2018. (nedefinit)
↑ Nalbe, 1973 , p. 661-675.

Literatură

Mallows CL Câteva comentarii despre CP // Tehnometrie. - 1973. - T. 15 , nr. 4 . - doi : 10.2307/1267380 .
Aho K., Derryberry D., Peterson T. Selecția modelului pentru ecologisti: viziuni asupra lumii ale AIC și BIC // Ecologie . - 2014. - T. 95 . — S. 631–636 . - doi : 10.1890/13-1452.1 .
Inferența bazată pe model Anderson DR în științele vieții . — Springer, 2008.
Ando T. Selecția modelului bayesian și modelarea statistică. — CRC Press , 2010.
Leo Breiman . Modelarea statistică: cele două culturi // Statistical Science . - 2001. - T. 16 . — S. 199–231 . - doi : 10.1214/ss/1009213726 .
Burnham KP, Anderson DR Selecția modelului și inferența multimodel: O abordare teoretică a informației practice. — al 2-lea. - Springer-Verlag, 2002. - ISBN 0-387-95364-7 . [carte citată de peste 38.000 de ori pe Google Scholar ]
Chamberlin TC Metoda ipotezelor de lucru multiple // Știință . - 1890. - T. 15 . - S. 93 . - doi : 10.1126/science.ns-15.366.92 . — Cod biblic . (Reprinted 1965, Science 148: 754-759 [1] doi : 10.1126/science.148.3671.754 )
Gerda Claeskens. Alegerea modelului statistic // Revizuirea anuală a statisticilor și a aplicării sale . - 2016. - T. 3 . — S. 233–256 . - doi : 10.1146/annurev-statistics-041715-033413 . — . (link indisponibil)
Claeskens G., Hjort NL Model Selection and Model Average. - Cambridge University Press, 2008. - (SERIA CAMBRIDGE ÎN MATEMATICĂ STATISTICĂ ȘI PROBABILISTĂ). — ISBN 978-0-521-85225-8 .
Principiile inferenței statistice. - Cambridge University Press, 2006. - ISBN 0-511-34858-4 .
Konishi S., Kitagawa G. Criterii de informare și modelare statistică . - Springer, 2008. - ISBN 978-0-387-71886-6 .
Model Selection / Lahiri P.. - Beachwood, Ohio: Institutul de Statistică Matematică , 2001. - Vol. 38. - (NOTE DE PRELEȚII-SERII MONOGRAFICE). — ISBN 0-940600-52-8 .
Leeb H., Pötscher BM Model selection // Handbook of Financial Time Series / Torben G. Andersen, Richard A. Davis, Jens-Peter Kreiß, Thomas Mikosch. - Springer, 2009. - S. 889-925. — ISBN 978-3-540-71296-1 . - doi : 10.1007/978-3-540-71297-8_39 .
Lukacs PM, Thompson WL, Kendall WL, Gould WR, Doherty PF Jr., Burnham KP, Anderson DR Preocupări privind un apel pentru pluralismul teoriei informațiilor și testarea ipotezelor // Journal of Applied Ecology . - 2007. - T. 44 , nr. 2 . — S. 456–460 . - doi : 10.1111/j.1365-2664.2006.01267.x .
Allan D.R. McQuarrie, Chih-Ling Tsai. Regresia și selecția modelului serii temporale. - Singapore: World Scientific, 1998. - ISBN 981-02-3242-X .
Massart P. Inegalitățile de concentrare și selecția modelului / Editor: Jean Picard. - Springer, 2007. - T. 1896. - (Lecture Notes in Mathematics). — ISBN 3-540-48497-3 .
Massart P. O plimbare non-asimptotică în probabilitate și statistică // Trecut, prezent și viitor al științei statistice. - Chapman & Hall , 2014. - pp. 309-321.
Paulo Angelo Alves Resende, Chang Chung Yu Dorea. Identificarea modelului folosind criteriul de determinare eficientă // Journal of Multivariate Analysis . - 2016. - T. 150 . — S. 229–244 . - doi : 10.1016/j.jmva.2016.06.002 .
Shmueli G. A explica sau a prezice? // Știința statistică . - 2010. - T. 25 . — S. 289–310 . - doi : 10.1214/10-STS330 . - arXiv : 1101.0891 .
Wit E., van den Heuvel E., Romeijn J.-W. „Toate modelele sunt greșite...”: o introducere în incertitudinea modelului // Statistica Neerlandica. - 2012. - T. 66 . — S. 217–236 . - doi : 10.1111/j.1467-9574.2012.00530.x .
Wit E., McCullagh P. The extensibility of statistical models // Algebraic Methods in Statistics and Probability / MAG Viana, D. St. P. Richards. - 2001. - S. 327-340.
Anna Wójtowicz, Tomasz Bigaj. Justificarea, confirmarea și problema ipotezelor care se exclud reciproc // Descoperirea faptelor și a valorilor / Adrian Kuźniar, Joanna Odrowąż-Sypniewska. - Brill Publishers , 2016. - S. 122-143. - doi : 10.1163/9789004312654_009 .

Cele mai mici pătrate și analiza de regresie

Statistica de calcul

Metoda celor mai mici pătrate
MNC liniar
Cele mai mici pătrate neliniare
LSM cu recalcularea iterativă a greutăților

Corelație
și dependență

Coeficientul de corelație Pearson
Corelația rangului ( Spearman
Kendall )
Corelație parțială
Factorul de distorsionare

Analiza regresiei

MNC obișnuit
Metoda celor mai mici pătrate parțiale
Cele mai mici pătrate pline
Regresia crestei

Regresia ca model
statistic

Regresie liniara	Regresia liniară simplă MNC obișnuit Cele mai mici pătrate generalizate Cele mai mici pătrate ponderate Model liniar de bază
cadru predictiv	Regresia polinomială curba de crestere Regresia segmentată Regresia locală
Regresie personalizată	neliniară Neparametric semiparametrică durabil cuantilă izotonic
Erori non-standard	Model liniar generalizat Regresie binomială Regresia Poisson Regresie logistică

Descompunerea varianței

Analiza variatiei
Analiza covarianței
Analiza multivariată a varianței

Studiu model

C p Nalbi
Regresie în trepte
Alegerea unui model statistic
Validarea modelului de regresie

Cerințe preliminare

Răspuns mediu și așteptat
Teorema Gauss-Markov
Erori și abateri
Test statistic
Echilibrul studentizat
Eroare pătratică medie minimă

Planificarea
experimentului

Metodologia suprafeței de răspuns
Design optim al experimentului
Proiectare Bayesian Experiment

Aproximație numerică

Aplicații

Aproximare folosind curbe
Curba de calibrare
Filtrul Savitsky-Golay
Identificarea sistemului
Metoda deplasării celor mai mici pătrate