Magazin de date

Data Warehouse este o bază de date cu informații specifice domeniului  , special concepută și concepută pentru raportare și analiză de afaceri pentru a sprijini luarea deciziilor într-o organizație. Este construit pe baza sistemelor de management al bazelor de date și a sistemelor de sprijinire a deciziilor . Datele care intră într-un depozit de date sunt de obicei doar pentru citire.

Datele din sistemul OLTP sunt copiate în depozitul de date astfel încât la construirea de rapoarte și analiza OLAP , resursele sistemului tranzacțional să nu fie utilizate și stabilitatea acestuia să nu fie încălcată. Există două opțiuni pentru actualizarea datelor în stocare:

Principii de organizare a depozitării

Proiectare depozit de date

Există două direcții arhitecturale principale - depozite de date normalizate și depozite dimensionale.

În depozitele normalizate, datele sunt stocate în tabelele de formă normală a treia specifice domeniului . Stocările normalizate sunt caracterizate ca fiind ușor de creat și gestionat, dezavantajele stocărilor normalizate sunt un număr mare de tabele ca urmare a normalizării, datorită căruia, pentru a obține orice informație, este necesară selectarea din mai multe tabele în același timp. timp, ceea ce duce la o deteriorare a performanței sistemului. Pentru a rezolva această problemă, se folosesc tabele denormalizate - data marts , pe baza cărora sunt deja afișate formulare de raportare. Cu cantități uriașe de date, pot fi utilizate mai multe niveluri de „mart” / „stocare”.

Magazinele cu dimensiuni folosesc fie o schemă cu stea, fie o schemă cu fulgi de zăpadă . În acest caz, datele ( tabelul de fapte ) se află în centrul „stelei” , iar măsurătorile formează razele stelei. Diferitele tabele de fapte partajează tabele de dimensiuni, ceea ce face mult mai ușoară combinarea datelor din mai multe tabele de fapte (de exemplu, date despre vânzări și livrări de produse). Tabelele de date și dimensiunile corespunzătoare formează arhitectura „autobuz”. Dimensiunile sunt adesea create în a treia formă normală, inclusiv pentru a înregistra modificările dimensiunilor. Principalul avantaj al stocărilor cu măsurători este simplitatea și claritatea pentru dezvoltatori și utilizatori, de asemenea, datorită stocării mai eficiente a datelor și măsurătorilor formale, accesul la date este facilitat și accelerat, mai ales în analizele complexe. Principalul dezavantaj îl reprezintă procedurile mai complexe de pregătire și încărcare a datelor, precum și de gestionare și modificare a dimensiunilor datelor.

Cu o cantitate suficient de mare de date, schemele cu stele și fulgi de zăpadă implică, de asemenea, o degradare a performanței atunci când se conectează la dimensiuni.

Procese de date

Sursele de date pot fi:

  1. Sisteme tradiționale de înregistrare
  2. Documente separate
  3. Seturi de date

Operațiuni de date:

  1. Extracție - mutarea informațiilor din sursele de date într-o bază de date separată, aducându-le într-un singur format.
  2. Transformarea este pregătirea informațiilor pentru stocare într-o formă optimă pentru implementarea cererii necesare pentru luarea deciziilor.
  3. Încărcare - plasarea datelor în stocare, efectuată atomic, prin adăugarea de fapte noi sau ajustarea celor existente.
  4. Analize - OLAP , Data Mining , rapoarte de sinteză.
  5. Prezentarea rezultatelor analizei.

Toate aceste informații sunt folosite în dicționarul de metadate . Dicționarul de metadate include automat dicționare surse de date. De asemenea, descrie formatele de date pentru coordonarea lor ulterioară, frecvența completării datelor, consistența în timp. Scopul dicționarului de metadate este de a scuti dezvoltatorul de nevoia de a standardiza sursele de date. Crearea de depozite de date nu trebuie să contrazică sistemele existente de colectare și prelucrare a informațiilor. Componentele speciale ale dicționarelor ar trebui să asigure extragerea în timp util a datelor din acestea și să ofere conversia datelor într-un singur format bazat pe un dicționar de metadate.

Structura logică de date a unui depozit de date este semnificativ diferită de structura de date a surselor de date. Proiectarea unui proces de transformare eficient necesită un model de date de întreprindere bine conceput și un model de tehnologie de decizie. Este convenabil pentru utilizator să prezinte date în baze de date multidimensionale, unde timpul, prețul sau regiunea geografică pot acționa ca măsurători.

Pe lângă extragerea datelor din baza de date, procesul de extragere a cunoștințelor este important pentru luarea deciziilor, în concordanță cu nevoile de informații ale utilizatorului. Din punctul de vedere al utilizatorului, în procesul de extragere a cunoștințelor din baza de date ar trebui rezolvate următoarele transformări: date → informații → cunoștințe → soluții obținute.

Vezi și