Limbajul de marcare pentru modelarea predictivă
Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de
versiunea revizuită pe 6 iulie 2019; verificările necesită
3 modificări .
Predictive Model Markup Language ( PMML ) este un limbaj de marcare bazat pe XML dezvoltat de Data Mining Group (DMG) care oferă aplicațiilor o modalitate de a defini modele legate de analiza predictivă și analiza datelor și de a schimba astfel de modele între aplicații compatibile cu PMML.
PMML oferă aplicațiilor o metodă independentă de furnizor pentru definirea unui model, astfel încât problemele de proprietate și incompatibilitățile nu mai reprezintă o barieră în partajarea modelelor între aplicații. Permite utilizatorilor să dezvolte modele într-o aplicație a unui furnizor și să utilizeze aplicațiile altor furnizori pentru a vizualiza, analiza, evalua și utiliza în alt mod modelele. Anterior, acest lucru era dificil, dar cu PMML, schimbul de modele între aplicații compatibile a devenit mai ușor.
Deoarece PMML este un standard bazat pe XML, specificațiile sale sunt sub forma limbajului de marcare XML Schema .
Componente PMML
PMML conține un cadru intuitiv pentru descrierea unui model de analiză a datelor, fie că este vorba despre o rețea neuronală artificială sau regresie logistică .
Poate fi descris prin următoarea secvență de componente [1] [2] :
- Antet : conține informații generale despre documentul PMML, cum ar fi informații despre drepturile de autor pentru model, descrierea acestuia, informații despre aplicația utilizată pentru a crea modelul, cum ar fi numele și versiunea acestuia. De asemenea, conține un atribut pentru marcajul temporal utilizat pentru a determina data la care a fost creat modelul.
- Dicționar de date : conține definițiile tuturor câmpurilor posibile utilizate în model. Aici câmpul este definit ca continuu, categoric sau ordinal (atributul optype). În funcție de această definiție, se definesc apoi intervalele adecvate de valori, precum și tipul de date (de exemplu, un șir sau un tip cu precizie dublă).
- Transformări de date : Transformările vă permit să afișați date personalizate în forma necesară pentru a utiliza un model de extragere a datelor. PMML definește mai multe tipuri de transformări simple de date.
- Normalizare: mapează valorile cu numere, intrarea poate fi continuă sau discretă.
- Discretizare: Mapează valori continue cu valori discrete.
- Maparea valorii: Mapează valori discrete cu valori discrete.
- Funcții: calculează valori aplicând o funcție unuia sau mai multor parametri.
- Agregare: Folosit pentru a rezuma sau a aduna un grup de valori.
- Model (Model) : conține definiția modelului de data mining. Rețeaua neuronală artificială multistrat feedforward este cea mai comună reprezentare a rețelelor neuronale în aplicațiile moderne, având în vedere popularitatea și eficiența asociate cu algoritmul său de învățare, cunoscut sub numele de backpropagation . O astfel de rețea este reprezentată în PMML de un element „NeuralNetwork” care conține următoarele atribute:
- Numele modelului (atributul modelName)
- Numele funcției (atributul functionName)
- Nume algoritm (atribut AlgorithmName)
- Funcția de activare (atributul activationFunction)
- Numărul de straturi (atributul numberOfLayers)
Aceste informații sunt urmate de trei tipuri de straturi neuronale care definesc arhitectura modelului de rețea neuronală reprezentată de documentul PMML. Acestea sunt atributele NeuralInputs, NeuralLayer și NeuralOutputs. Pe lângă rețelele neuronale, PMML permite reprezentarea multor alte modele de data mining, inclusiv mașină vectorială de suport , reguli de asociere , clasificator bayes naiv , modele de clustering, modele text, arbori de decizie , precum și diverse modele de regresie.
- Schema de mining: Schema de mining conține o listă a tuturor câmpurilor utilizate în model. Acesta poate fi un subset al câmpurilor definite în dicționarul de date. Conține informații specifice despre fiecare câmp, cum ar fi:
- Nume (atribut nume): trebuie să se refere la un câmp din dicționarul de date
- Tip de utilizare (atribut usageType): determină modul în care este utilizat câmpul în model. Valorile implicite sunt Activ, Predictiv și Opțional. Câmpurile previzibile sunt cele ale căror valori sunt prezise de model.
- Gestionare valori aberante (atribut valori aberante): Specifică modul în care vor fi tratate valorile aberante. În PMML, valorile aberante pot fi tratate ca valori lipsă, ca valori extreme (pe baza definiției valorilor ridicate și scăzute pentru o anumită zonă) sau așa cum sunt.
- Regula de înlocuire a valorii lipsă (atributul missingValueReplacement): dacă acest atribut este specificat, atunci valoarea lipsă este înlocuită automat cu valoarea specificată.
- Tratamentul valorii lipsă (atributul missingValueTreatment): indică modul în care este înlocuită valoarea lipsă (de exemplu, valoare, medie sau mediană).
- Ținte : vă permite să postprocesați valoarea prezisă în format de scalare dacă rezultatul modelului este continuu. Țintele pot fi folosite și pentru sarcini de clasificare. În acest caz, atributul priorProbability specifică probabilitățile implicite pentru categoria țintă corespunzătoare. Este folosit atunci când logica de predicție nu produce un rezultat de la sine. Acest lucru se poate întâmpla, de exemplu, dacă o valoare de intrare lipsește și nu există altă modalitate de a determina valorile lipsă.
- Ieșire : Acest element poate fi utilizat pentru a specifica toate câmpurile de ieșire necesare așteptate de la model. Acestea sunt caracteristicile câmpului prezis, precum și, de obicei, valoarea prezisă în sine, probabilitatea, apropierea de cluster (pentru modelele de grupare), eroarea standard etc.
PMML 4.x
Versiunea PMML, 4.0, a fost lansată pe 16 iunie 2009 [3] [4] [5] .
Printre noile caracteristici:
- Capabilitati de preprocesare imbunatatite : Adaosurile la functiile incorporate includ o serie de operatii de algebra logica si operatori de ramificare .
- Modele de serie temporală : Noi modele de netezire exponențială ; precum și puncte de integrare pentru ARIMA , descompunerea tendințelor sezoniere și analiza spectrală , care sunt programate să fie incluse în viitorul apropiat.
- Explicația modelului : Salvarea indicatorilor de evaluare și performanță ai modelului în fișierul PMML propriu-zis.
- Modele multiple : Capabilități pentru compoziția modelului, ansambluri și segmentare (de exemplu, combinarea analizei de regresie și a arborilor de decizie).
- Extinderea elementelor existente : Adăugarea clasificării cu mai multe clase pentru mașinile cu vector suport , reprezentarea îmbunătățită a regulilor de asociere și includerea modelelor de hazard proporțional .
PMML 4.1 a fost lansat pe 31 decembrie 2011. [6] [7]
PMML 4.2 a fost lansat pe 28 februarie 2014. [8] [9]
PMML 4.3 a fost lansat pe 23 august 2016. [10] [11]
Printre noile caracteristici:
- Noi tipuri de modele:
- Procesul Gaussian
- Rețeaua bayesiană
- noi funcții încorporate
- clarificarea redactării și îmbunătățirea documentației
Istoricul lansărilor
Versiunea 0.7 |
iulie 1997
|
Versiunea 0.9 |
iulie 1998
|
Versiunea 1.0 |
august 1999
|
Versiunea 1.1 |
august 2000
|
Versiunea 2.0 |
august 2001
|
Versiunea 2.1 |
martie 2003
|
Versiunea 3.0 |
octombrie 2004
|
Versiunea 3.1 |
decembrie 2005
|
Versiunea 3.2 |
mai 2007
|
Versiunea 4.0 |
iunie 2009
|
Versiunea 4.1 |
decembrie 2011
|
Versiunea 4.2 |
februarie 2014
|
Versiunea 4.2.1 |
martie 2015
|
Versiunea 4.3 |
august 2016
|
Produse care acceptă PMML
Gama de produse software oferite pentru crearea și utilizarea PMML:
- Angoss KnowledgeSTUDIO : generează PMML 3.2 pentru modele de regresie (logistice și liniare), arbori de decizie, analiză de cluster , rețele neuronale și modele bazate pe reguli (utilizate pentru a reprezenta metrici).
- Angoss KnowledgeSEEKER : creează PMML 3.2 pentru arbori de decizie.
- Angoss StrategyBuilder (extensie pentru KnowledgeSEEKER și KnowledgeSTUDIO) : creează PMML 3.2 pentru arbori de decizie (folosit pentru a reprezenta arbori de strategie).
- IBM InfoSphere Warehouse : generează PMML 3.0 și 3.1 numai pentru secvențe de model. Acceptă (evaluează și redă) PMML 3.1 și mai jos.
- IBM SPSS Modeler : creează și evaluează PMML 3.2 și 4.0 pentru diverse modele.
- IBM SPSS Statistics : creează PMML 3.2 și 4.0 pentru diverse modele.
- KNIME : creează și găzduiește PMML 4.0 pentru rețele neuronale , arbori de decizie, modele de grupare, modele de regresie și mașini de suport vector . Începând cu versiunea 2.4.0, KNIME oferă suport îmbunătățit pentru preprocesarea PMML, inclusiv posibilitatea de a edita codul PMML existent.
- KXEN : creează PMML 3.2 pentru modele de regresie (inclusiv modele de data mining) și analiza cluster .
- Servicii de analiză Microsoft SQL Server 2008 : creează și găzduiește PMML 2.1 pentru arbori de decizie și analiza cluster .
- MicroStrategy : acceptă PMML 2.0, 2.1, 3.0, 3.1, 3.2 și 4.0 pentru regresie liniară , regresie logistică , arbori de decizie, analiză cluster , reguli de asociere , serii de timp , rețele neuronale și mașini vectori de suport .
- Augustus de la Open Data Group : construiește PMML 4.0 pentru copaci, clasificator bayes naiv și modele bazate pe reguli. Acceptă modele de arbore PMML 4.0, clasificator bayes naiv, modele bazate pe reguli și modele de regresie. Versiunile anterioare au creat și acceptat modele de regresie, modele de arbore și un clasificator Bayes naiv.
- Oracle Data Mining : acceptă caracteristicile de bază PMML 3.1 pentru modelele de regresie. Modelele importate devin modele Oracle Data Mining (ODM) care pot fi încărcate în Exadata.
- Pervasive DataRush : creează și adoptă PMML 3.2 pentru modele de regresie, arbori de decizie și un clasificator Naive Bayes . Creează PMML 3.2 pentru regulile de asociere și analiza clusterului (K înseamnă bazat pe centru).
- Predixion PMML Connexion : Acceptă PMML 2.0, 2.1, 3.0, 3.1, 3.2 și 4.0 pentru mai multe modele de data mining, inclusiv arbori de decizie, modele bazate pe reguli, mașină vectorială de suport , rețele neuronale , clasificator bayes naiv , regresie liniară și logistică ; și analiza clusterului .
- RapidMiner : folosește extensia gratuită PMML, mai multe tipuri de modele pot fi exportate în PMML.
- Rattle/R : folosește R (limbaj de programare) pentru a construi mai multe modele predictive. Oferă un pachet PMML pentru exportul modelelor R în PMML 3.2. Pachetul acceptă exportul de mașini vector de suport , regresie liniară, regresie logistică , arbori de decizie, pădure aleatoare , rețele neuronale , k-means și modele de clustering ierarhic, precum și reguli de asociere .
- Salford-Systems CART : Un sistem arbore de decizie care produce PMML 3.1.
- Extensia SAND CDBMS 6.1 PMML : Acceptă versiunile PMML 3.1 și 3.2 pentru mai multe modele de data mining, inclusiv regulă de asociere , clustering, regresie, rețele neuronale , clasificator bayes naiv , mașină vectorială suport , set de reguli și modele de arbori de decizie. De asemenea, acceptă elemente de preprocesare și funcții încorporate.
- SAS Enterprise Miner : creează PMML 2.1 și 3.1 pentru mai multe modele de minerit, inclusiv regresie liniară, regresie logistică , arbori de decizie, rețele neuronale , k-means și reguli de asociere .
- STATISTICA : creează PMML 2.0 și 3.0 pentru analiza regresiei liniare, regresiei logistice , arborilor de decizie, mașinilor vector suport și rețelelor neuronale
- TIBCO Spotfire Miner 8.1 : Construiește și acceptă PMML 2.0 pentru modele de regresie, arbori de decizie, rețele neuronale , analiză de cluster și clasificator Naive Bayes .
- TERADATA Warehouse Miner 5.3.1 : Acceptă PMML 2.1 până la 3.2 pentru modele de regresie, arbori de decizie, rețele neuronale , analiză de cluster și modele de data mining (tip de regresie).
- Weka (Pentaho) : adoptă PMML 3.2 pentru modele de regresie, arbori de decizie, rețele neuronale , sistem de reguli și mașină vectorială de suport .
- Zementis ADAPA : evaluarea lotului și imediată a PMML 2.0, 2.1, 3.0, 3.1, 3.2 și 4.0 pentru mai multe modele de data mining, inclusiv arbori de decizie, reguli de asociere , mașină vectorială suport , rețele neuronale , clasificator bayes naiv , sistem de reguli, liniar și regresia logistică , precum și regresia Cox (Cox) și modelele de analiză a clusterelor . ADAPA acceptă, de asemenea, toate elementele de pre- și post-procesare PMML, inclusiv transformări, funcții inline, ieșiri și ținte.
- Zementis PMML Converter : Verifică, editează și convertește versiunile PMML 2.0, 2.1, 3.0, 3.1, 3.2 și 4.0.
- Zementis Universal PMML Plug-in : Evaluare în baza de date pentru PMML 2.0, 2.1, 3.0, 3.1, 3.2 și 4.0 pentru mai multe modele de minerit. Disponibil din baza de date EMC Greenplum.
- Intersystems IRIS : Acceptă și execută modelele PMML versiunile 4.1, 4.2.
Transform Generator
PMML oferă o gamă largă de transformări de date, inclusiv maparea valorii, normalizarea și discretizarea. De asemenea, oferă mai multe funcții încorporate, precum și operații aritmetice și logice care pot fi combinate pentru a reprezenta pași complexe de preprocesare. Folosind Generatorul de transformări , puteți crea grafic o transformare și puteți obține codul PMML corespunzător.
Note
- ↑ A. Guazzelli, M. Zeller, W. Chen și G. Williams. PMML: Un standard deschis pentru partajarea modelelor . The R Journal , volumul 1/1, mai 2009.
- ↑ A. Guazzelli, W. Lin, T. Jena (2010). PMML în acțiune: dezlănțuirea puterii standardelor deschise pentru extragerea datelor și analiza predictivă . creați spațiu.
- ↑ Site-ul web al Data Mining Group | PMML 4.0 - Modificări față de PMML 3.2 Arhivat din original pe 28 iulie 2012.
- ↑ Site-ul web Zementis | PMML 4.0 este aici! (link indisponibil) . Preluat la 2 septembrie 2011. Arhivat din original la 3 octombrie 2011. (nedefinit)
- ↑ R. Pechter. Ce este PMML și ce este nou în PMML 4.0? Buletinul informativ ACM SIGKDD Explorations , volumul 11/1, iulie 2009.
- ↑ Site-ul web al Data Mining Group | PMML 4.1 - Modificări față de PMML 4.0
- ↑ Site-ul web Predictive Analytics Info | PMML 4.1 este aici!
- ↑ Site-ul web al Data Mining Group | PMML 4.2 - Modificări față de PMML 4.1 Arhivat din original pe 20 mai 2014.
- ↑ Site-ul web Predictive Analytics Info | PMML 4.2 este aici!
- ↑ Site-ul web al Data Mining Group | PMML 4.3 - Modificări față de PMML 4.2.1
- ↑ Site-ul web al produsului Predictive Model Markup Language | activitate de proiect
Link -uri