Proces gaussian

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 23 august 2017; verificările necesită 28 de modificări .

În teoria probabilității și statistică , un proces gaussian este un proces stocastic (un set de variabile aleatoare indexate de un parametru, cel mai adesea timp sau coordonate), astfel încât orice set finit al acestor variabile aleatoare are o distribuție normală multivariată , adică orice combinație liniară finită dintre ele este distribuit în mod normal. Distribuția unui proces gaussian este distribuția comună a tuturor variabilelor sale aleatoare și, prin urmare, este o distribuție de funcții cu un domeniu continuu de definiție.

Dacă luăm în considerare procesul gaussian ca o modalitate de a rezolva problemele de învățare automată, atunci învățarea leneșă și o măsură de similitudine între puncte ( funcția kernel ) sunt utilizate pentru a obține o predicție a valorii unui punct invizibil din eșantionul de antrenament. Conceptul de prognoză, pe lângă estimarea punctuală în sine, include informații despre incertitudine - o distribuție gaussiană unidimensională. [unu]

Pentru a calcula predicțiile unor funcții ale nucleului, se utilizează o metodă de algebră matriceală, kriging .

Procesul gaussian este numit astfel după Carl Friedrich Gauss , deoarece se bazează pe conceptul de distribuție gaussiană (distribuție normală ). Procesul gaussian poate fi privit ca o generalizare infinit-dimensională a distribuțiilor normale multivariate. Aceste procese sunt aplicate în modelarea statistică ; în special, sunt utilizate proprietăți de normalitate. De exemplu, dacă un proces aleatoriu este modelat ca Gaussian, atunci se pot obține distribuțiile diferitelor cantități derivate, cum ar fi valoarea medie a procesului pe o anumită perioadă de timp și eroarea în estimarea acestuia folosind un eșantion de valori. explicit.

Definiție

Un proces aleatoriu cu timp continuu este gaussian dacă și numai dacă pentru orice set finit de indici din setul de indici

este o variabilă aleatoare gaussiană multidimensională . [2] La fel ca orice combinație liniară are o distribuție normală unidimensională (Gauss). Folosind funcțiile caracteristice ale variabilelor aleatoare, proprietatea gaussiană poate fi formulată astfel: - Gauss dacă și numai dacă pentru orice set finit de indici există valori reale , unde astfel încât pentru toată egalitatea

Unde este unitatea imaginară .

Numerele și sunt covarianțele și , respectiv, valorile medii ale variabilelor din procese. [3]

Funcții de covarianță

Caracteristica principală a proceselor gaussiene este că pot fi determinate complet de statisticile de ordinul doi. [4] Prin urmare, funcția de covarianță determină complet comportamentul procesului dacă așteptarea matematică a procesului gaussian este egală cu zero. Este important de menționat că caracterul nenegativ al unei funcții face posibilă descompunerea ei spectrală folosind expansiunea Karhunen-Loeve . Prin funcția de covarianță se poate determina staționaritatea , izotropia , netezimea și periodicitatea procesului. [4] [5]

Staționaritatea exprimă comportamentul procesului în raport cu distanța dintre oricare două puncte și . Dacă procesul este staționar, atunci depinde de poziția relativă a punctelor sale, de distanța dintre ele, , în caz contrar, este non-staționar, adică depinde de poziția reală a punctelor și . Un exemplu este un caz special al procesului Ornstein-Uhlenbeck, procesul mișcării browniene : este staționar.

Dacă un proces depinde numai de , distanța euclidiană (nu direcția) dintre și , atunci se spune că procesul este izotrop. Un proces staționar și izotrop se numește omogen; [6] în practică, proprietățile staționarității și izotropiei reflectă diferențele (sau, mai bine zis, absența lor) în comportamentul procesului, ținând cont de poziția observatorului.

Esența proceselor gaussiene este obținerea unor distribuții de probabilitate a priori, a căror netezime depinde de funcția de covarianță luată. [4] Dacă ne așteptăm ca pentru punctele de intrare „în apropiere” și punctele lor de ieșire corespunzătoare și , de asemenea, pentru „în apropiere”, atunci există o presupunere a continuității funcției. Dacă vrem să permitem o părtinire semnificativă, atunci trebuie să alegem o funcție de covarianță mai grosieră. Exemple de comportament extrem includ funcția de covarianță Ornstein-Uhlenbeck și funcția exponențială pătratică, unde prima nu este diferențiabilă nicăieri, iar cea de-a doua este infinit diferențiabilă.

Periodicitatea este înțeleasă ca inducerea unor modele periodice în comportamentul procesului. În mod formal, acest lucru se realizează prin maparea valorii de intrare la un vector bidimensional

Funcții de covarianță obișnuite

Există o serie de funcții comune de covarianță: [5]

Aici . Parametrul este o caracteristică a scalei de lungime a procesului (practic, „cât de aproape” trebuie să fie două puncte pentru a se influența semnificativ unul pe celălalt), este simbolul Kronecker și este abaterea standard a fluctuațiilor zgomotului. În plus, este o funcție Bessel modificată și este o funcție gamma calculată din . Este important de reținut că o funcție de covarianță complexă poate fi definită ca o combinație liniară a altor funcții de covarianță mai simple pentru a combina informații diferite despre seturile de date disponibile.

Evident, rezultatele obținute depind de valorile hiperparametrilor (de exemplu și ) care determină comportamentul modelului.

Mișcarea browniană ca o integrală a proceselor gaussiene

Procesul Wiener (așa-numita mișcare browniană) este o integrală a procesului de zgomot alb gaussian. Nu este staționar , dar are incremente staționare.

Procesul Ornstein-Uhlenbeck este un proces gaussian staționar.

Un pod brownian (similar procesului Ornstein-Uhlenbeck) este un exemplu de proces gaussian ale cărui incremente nu sunt independente .

Mișcarea browniană fracțională este un proces gaussian a cărui funcție de covarianță este o generalizare a funcției procesului Wiener.

Aplicații

Procesul gaussian poate fi folosit ca distribuție anterioară de probabilitate a funcțiilor în inferența bayesiană . [5] [8] Pentru orice set de N puncte din domeniul funcției dorit, luați o distribuție Gaussiană multivariată al cărei parametru de matrice de covarianță este determinantul Gram al N puncte luate cu un nucleu dorit și un eșantion din acea distribuție.

Derivarea valorilor continue pe baza procesului gaussian determinat de covarianțele anterioare este cunoscută sub numele de kriging (regresie bazată pe procesul gaussian). Prin urmare, procesele gaussiene sunt utile ca instrument puternic de interpolare multidimensională neliniară . Regresia procesului gaussian poate fi extinsă în continuare pentru a rezolva atât problemele de învățare supravegheată, cât și nesupravegheată ( autoînvățare ) .

Predicția sau krigingul procesului gaussian

Când vine vorba de problema de bază a regresiei bazată pe procesul gaussian ( kriging ), se presupune că pentru un proces gaussian observat în coordonate , vectorul valorii este doar unul dintre eșantioanele unei distribuții gaussiene multivariate a cărei dimensiune este egală cu numărul de coordonate observate . Prin urmare, în ipoteza distribuției zero, , unde este matricea de covarianță între toate perechile posibile pentru un set dat de hiperparametri . [5] Astfel, logaritmul probabilității marginale este egal cu:

iar maximizarea acestei probabilități marginale în raport cu oferă o caracterizare completă a procesului gaussian . Se poate observa că prima expresie depinde de incapacitatea modelului de a se potrivi cu valorile observate, iar a doua expresie este direct proporțională cu complexitatea modelului. După ce am indicat și făcut o predicție despre valorile neobservate în coordonate , rămâne să trasăm o diagramă de eșantioane din distribuția predictivă , unde estimarea medie ulterioară este definită ca

iar estimarea ulterioară a varianţei B este definită ca

unde este covarianța dintre noua estimare de coordonate și toate celelalte coordonate observate pentru vectorul hiperparametric dat și sunt definite ca mai înainte și este varianța în punctul dictat de vector . Este important de menționat că estimarea medie ulterioară („estimarea punctuală”) este o combinație liniară a observațiilor ; de asemenea, varianța este efectiv independentă de observații . Un blocaj cunoscut în predicția procesului gaussian este faptul că complexitatea computațională a predicției este cubică în numărul de puncte , adică este posibil ca calculul să nu fie posibil pentru seturi de date mari. [4] Pentru a ocoli această problemă, se lucrează la procese gaussiene rare, care se bazează de obicei pe ideea de a construi un set reprezentativ pentru un proces dat . [9] [10]

Vezi și

Note

  1. Platypus Innovation: A Simple Intro to Gaussian Processes (un instrument excelent de modelare a datelor) . Preluat la 15 ianuarie 2018. Arhivat din original la 1 mai 2018.
  2. MacKay, David, J.C. Teoria informațiilor, inferență și  algoritmi de învățare . - Cambridge University Press , 2003. - P. 540. - ISBN 9780521642989 . . — „„Distribuția de probabilitate a unei funcțiieste un proces Gaussian dacă pentru orice selecție finită de puncte, densitateaeste o Gauss””.
  3. Dudley, R.M. Real Analysis and Probability. — Wadsworth și Brooks/Cole, 1989.
  4. 1 2 3 4 Barber, David. Raționamentul bayesian și învățarea automată . - Cambridge University Press , 2012. - ISBN 978-0-521-51814-7 .
  5. 1 2 3 4 Rasmussen, CE; Williams, CKI Gaussian Processes for Machine Learning . - MIT Press , 2006. - ISBN 0-262-18253-X .
  6. Grimmett, Geoffrey; David Stirzaker. Probabilitate și procese aleatorii  . - Oxford University Press , 2001. - ISBN 0198572220 .
  7. Documentația pentru scikit-learn are, de asemenea, exemple similare Arhivate la 19 aprilie 2021 la Wayback Machine .
  8. Liu, W.; Principe, JC; Haykin, S. Kernel Adaptive Filtering: O introducere cuprinzătoare  . - John Wiley , 2010. - ISBN 0-470-44753-2 . Copie arhivată (link indisponibil) . Consultat la 15 ianuarie 2018. Arhivat din original la 4 martie 2016. 
  9. Smola, AJ; Schoellkopf, B. Sparse greedy matrix aproximation for machine learning  //  Proceedings of the Seventeenth International Conference on Machine Learning : journal. - 2000. - P. 911-918 .
  10. Csato, L.; Opper, M. Procese gaussiene rare on-line  //  Neural Computation. - 2002. - Vol. 14 . - P. 641-668 . - doi : 10.1162/089976602317250933 .

Link- uri externe

Software