Set de date (IBM)

Setul de date ( rus. Dataset , uneori transliterat și „Dataset” ) este termenul folosit pentru sistemul de fișiere mainframe de la IBM ; o colecție de înregistrări logice stocate ca tuplu . Un set de date poate fi comparat cu un fișier , dar, spre deosebire de un fișier, un set de date este atât un director , cât și un fișier în sistemul de fișiere și nu poate conține alte seturi.

În practică, puteți găsi adesea scrierea într-un singur cuvânt ( set de date ), care, strict vorbind, este greșită, dar acceptabilă. Această practică a apărut din faptul că cuvântul trebuie folosit în contextul denumirii setului în sine, care nu acceptă spații între caractere.

Descriere

Sistemul de fișiere mainframe se concentrează pe stocarea înregistrărilor , care sunt unități indivizibile de stocare .  Un set de înregistrări sunt combinate în grupuri, care sunt numite seturi de date. În afara oricărui set, înregistrarea nu poate fi stocată. Înregistrările din seturile de date sunt folosite de aplicații, de exemplu, ca intrare, sau o aplicație poate genera înregistrări ca un produs al muncii sale. Deci, înregistrările setului de date pot fi date textuale (de exemplu, coduri sursă de program), fișiere obiect , module încărcate, înregistrări cu variabile de configurare etc.

Se poate face referire la un set de date specificând locația exactă în care este stocat sau, dacă un nume de sistem de fișiere a fost rezervat anterior pentru set, după nume. Seturile de date cu nume unice se numesc catalogate .  Seturile de date nu se pot imbrica unul în celălalt, deci se folosește un sistem de calificare pentru nume: numele este compus din calificative de opt caractere separate între ele printr-un punct, în timp ce numele setului nu poate depăși 44 de caractere, de exemplu . Din punct de vedere fizic, seturile pot fi stocate pe diferite tipuri de suporturi (discuri magnetice sau casete cu bandă), în plus, seturile pot fi plasate în memoria virtuală . USER.MYDIR.PROJ.SOURCE

În mainframe, dispozitivele de stocare care acceptă acces direct la date folosesc termenul DASD ( Dispozitiv de stocare cu acces direct ) .  Un dispozitiv DASD este împărțit în mod logic în volume ( volume engleze ) care stochează diferite tipuri de seturi. Pentru ca sistemul să știe ce seturi sunt stocate pe un anumit dispozitiv DASD, menține un „director principal” special, sau cu alte cuvinte o listă de seturi catalogate.  

Setul de date în sine nu numai că combină înregistrările, dar definește și regulile pentru aceste înregistrări (formatul de stocare). Parametrii formatului de stocare includ dimensiunea blocului de înregistrare (tipul blocului), dimensiunea maximă a unei înregistrări stabilite. Trebuie definit și tipul setului de date în sine, de care depinde modul în care va fi prezentat logic (ca o secvență continuă de înregistrări, ca membri separați unul de celălalt ( Membrii englezi  ), etc.).

Modalități de a plasa seturi

Volumele unui singur dispozitiv DASD pot conține multe seturi de tipuri diferite. Numele seturilor trebuie să fie unice în cadrul aceluiași dispozitiv de stocare. Fiecare volum de pe dispozitiv este împărțit în piese .  În pista zero, cilindrul zero, este stocată eticheta DASD, care indică locația cuprinsului volumului VTOC (Cuprins volumului în engleză ) - un analog al MBR și GPT în același timp. VTOC stochează numele tuturor seturilor stocate în volum, numerele pieselor de la care începe fiecare set, dimensiunile și restricțiile de acces. Deoarece seturile sunt legate de volumele lor, atunci când caută un set, sistemul de operare caută mai întâi lista de volume vizibile și apoi, când este găsit volumul necesar, își accesează VTOC.  

Cea mai mică unitate a setului, așa cum sa menționat anterior, este înregistrarea logică, limitată de dimensiunea LRECL. Piesele învecinate ale unui volum care conține un set formează o întindere . De obicei, controlerul dispozitivului de stocare încearcă să aloce seturi de extensii, deoarece acest lucru face accesul la acestea mai rapid. Pentru a permite această strategie, VTOC menține înregistrări ale benzilor libere învecinate.

Sistemul de fișiere mainframe, atunci când citește un set de date, nu se bazează pe octeții datelor în sine, ci utilizează informații despre formatul setului ( RECFM). Formatul determină câți octeți de date pot fi scriși într-un singur bloc de dimensiune BLKSIZE. Mainframe-urile IBM folosesc următoarele formate:

Înregistrările seturilor care se mapează la memoria virtuală (așa-numitele seturi VSAM) sunt de asemenea stocate pe dispozitivul DASD, dar separat de seturile non-VSAM, în extensii numite Control  Intervals (CI) și sunt catalogate separat. CI este puțin mai complicat și este analog cu un bloc: este reprezentat de o zonă în care înregistrările sunt plasate una după alta, urmate de câmpurile RDF de numărul de înregistrări ( Câmpuri de definiție înregistrări  ) și un câmp CIDF ( Definiție interval de control). Câmp ) . Este posibil să existe spațiu alb între primul câmp RDF și ultima intrare. Câmpurile RDF descriu înregistrările unui set individual, în timp ce CIDF descrie intervalul de control ca întreg. VSAM-urile sunt utilizate intern de aplicații.  

Organizație de recrutare

O altă caracteristică a unui set este organizarea acestuia DSORG, care sugerează ordinea în care ar trebui să fie citit și actualizat. Există următoarele tipuri de organizații:

Pentru fiecare tip de organizație sunt aplicabile una sau mai multe dintre metodele de acces oferite de sistemul de operare. De exemplu, pentru seturile cu organizare PS, sunt aplicabile metodele de acces BSAM (Metoda de acces secvenţial de bază) şi QSAM (Metoda de acces secvenţial în coadă); Seturile PO folosesc metoda BPAM (Metoda de acces partiționat de bază), iar seturile DA folosesc metoda BDAM (Metoda de acces direct de bază).

Odată cu apariția memoriei virtuale , au existat seturi organizate special pentru aceasta, de exemplu, KSDS, LDS, RRDS etc., pentru care se utilizează propria lor metodă de acces - VSAM (Metoda de acces la stocare virtuală).

Literatură