Recuperarea în caz de dezastru (în sursele ruse, este folosit și termenul nu tocmai corect de recuperare în caz de dezastru ) include un set de politici, instrumente și proceduri care vă permit să restaurați sau să continuați funcționarea infrastructurii și sistemelor tehnologice vitale după un dezastru natural sau provocat de om. dezastru [1] . Recuperarea în caz de dezastru se concentrează pe tehnologia informației (IT) sau pe sistemele tehnologice care susțin funcții critice ale afacerii, spre deosebire de continuitatea afacerii, care implică menținerea tuturor aspectelor esențiale ale operațiunilor de afaceri în ciuda întreruperilor majore; prin urmare, poate fi considerat ca un subset al sarcinilor de continuitate a afacerii [2] [3] . Recuperarea în caz de dezastru presupune că partea principală a sistemului de informații care funcționează inițial nu poate fi restaurată pentru o perioadă de timp și este procesul de restaurare a datelor și serviciilor pe site-uri secundare supraviețuitoare, opus procesului de restaurare a sistemelor informaționale la locul lor inițial.
Planificarea continuității serviciilor IT (ITSC) [4] [5] este un subset al planificării continuității afacerii (BCP) [6] care se concentrează pe obiectivul punctului de recuperare (RPO) și obiectivul timpului de recuperare (R.T.O.). Acest proces include două tipuri de planificare; Planificarea recuperării în caz de dezastru IT și planificarea mai extinsă a rezilienței IT. În plus, include și elemente de management pentru infrastructura IT și servicii legate de comunicații, precum telefonia (voce) și date.
Planificarea include configurarea site-urilor de așteptare, fie că sunt calde, calde sau reci, precum și sprijinirea site-urilor de așteptare cu echipamentele necesare pentru a asigura continuitatea afacerii.
În 2008, British Standards Institution a publicat un standard specific legat de standardul de continuitate a afacerii BS 25999 și care îl susține, numit BS25777, special pentru alinierea continuității sistemului IT cu continuitatea activității . Acest standard a fost retras în urma publicării în martie 2011 a practicilor de securitate ISO/IEC 27031 . Îndrumări privind asigurarea pregătirii tehnologiilor informației și comunicațiilor pentru continuitatea afacerii” [7] .
ITIL definește și unii dintre acești termeni [8] .
Recovery Time Objectives (RTO) Acest termen este tradus și ca „Recovery Time Objective” [9] [10] este durata țintă și nivelul de serviciu în care un proces de afaceri trebuie restabilit după un dezastru (sau eșec) pentru a evita consecințele inacceptabile asociate cu întrerupere a activității [11] .
În conformitate cu metodologia de planificare a continuității activității, RTO este stabilit în timpul analizei impactului asupra afacerii (BIA) de către proprietarul (proprieții) procesului și include definirea unui interval de timp pentru soluții alternative sau manuale de recuperare.
În literatura de specialitate, RTO este menționată ca fiind complementară obiectivului punctului de recuperare (RPO). În schimb, ele descriu limitele performanței ITSC acceptabile sau „acceptabile”. RTO și RPO măsoară performanța ITSC în termeni de timp pierdut din cauza funcționării normale a proceselor de afaceri și a datelor pierdute sau neasigurate în perioada respectivă (RPO), respectiv [11] [12] .
O recenzie Forbes notează [9] că Recovery Time Actual (RTA) este de fapt o măsură critică pentru continuitatea afacerii și recuperarea în caz de dezastru.
Echipa de continuitate a afacerii desfășoară repetiții cu calendarul acțiunilor efectiv efectuate, timp în care RTA este determinat și ajustat dacă este necesar [9] .
Obiectivul punctului de recuperare ( Recovery Point Objective , RPO ) este perioada țintă maximă în timpul căreia datele tranzacționale sunt pierdute din serviciul IT din cauza unui incident major [11] .
De exemplu, dacă RPO este măsurat în minute (sau chiar mai multe ore), atunci în practică este necesar să se mențină în mod constant copiile de rezervă în oglindă de la distanță, deoarece backup-urile zilnice pe bandă off-site nu sunt suficiente [13] .
Relația cu obiectivul timpului de recuperareO recuperare care nu este instantanee va permite ca datele tranzacționale să fie restaurate în timp și să facă acest lucru fără riscuri sau pierderi semnificative.
RPO măsoară timpul maxim în care cele mai recente date ar putea fi pierdute iremediabil în cazul unui incident major și nu reprezintă o măsură directă a valorii unei astfel de pierderi. De exemplu, dacă BC plănuiește să restaureze datele la cea mai recentă copie de rezervă disponibilă, atunci RPO este intervalul maxim dintre astfel de copii de rezervă care au fost eliminate în siguranță din stocare.
De multe ori se înțelege greșit că RPO-ul este determinat de regimul de rezervă existent, când în realitate analiza impactului asupra afacerii determină RPO-ul pentru fiecare serviciu. Când sunt necesare date de la distanță, perioada în care datele pot fi pierdute începe adesea din momentul în care sunt pregătite copiile de siguranță, și nu din momentul în care sunt transferate în afara site-ului [12] .
Punctul de sincronizare a datelor (este, de asemenea , punctul de rezervă ) [14] este momentul în care se face backup pentru datele fizice. În cea mai simplă implementare, acesta este punctul în care procesarea cozii de actualizare a datelor în sistem se oprește în timp ce copierea disc-pe-disc este în curs. În sistemele moderne, procesarea datelor continuă, de obicei, în paralel cu backupul, care se face folosind instantanee . Backup-ul [15] va reflecta o versiune anterioară a datelor, și nu starea care a apărut atunci când datele au fost copiate pe suportul de rezervă sau transferate în locația de rezervă.
RTO și RPO trebuie să fie echilibrate cu riscul de afaceri, precum și cu toate celelalte criterii majore de proiectare a sistemului.
RPO este legat de momentul în care backup-urile sunt încărcate în afara site-ului. Copierea sincronă a datelor într-o oglindă externă depășește cele mai multe probleme neprevăzute cu disponibilitatea site-ului principal. Mutarea fizică a benzilor (sau a altor medii portabile) în afara amplasamentului asigură unele dintre nevoile de backup la un cost relativ scăzut. Recuperarea de pe astfel de copii poate fi efectuată la un site preselectat [16] .
Pentru volume mari de date tranzacționale valoroase, hardware-ul poate fi împărțit în două sau mai multe site-uri prin separare în funcție de zonă geografică, ceea ce îmbunătățește rezistența.
Pentru o planificare mai detaliată a recuperării, indicatori precum DOO - Degraded Operations Objective - încetinirea acceptabilă a execuției operațiunilor de către sistem care are loc în procesul de transfer al procesării datelor către un site de rezervă și NRO - Network Recovery Objective - lățimea de bandă minimă a rețelei. care trebuie restaurat poate fi folosit și pentru a asigura performanța minimă acceptabilă a sistemului restaurat [17] .
Recuperarea în caz de dezastru și planificarea tehnologiei informației (IT) au început să se dezvolte la mijlocul până la sfârșitul anilor 1970, când managerii centrelor de calcul au început să realizeze dependența organizațiilor lor de sistemele informatice.
La acea vreme, majoritatea sistemelor erau mainframe orientate pe loturi . Un alt mainframe la distanță poate porni de pe benzi de rezervă în timp ce așteaptă recuperarea site-ului principal; timpul de nefuncţionare a fost relativ mai puţin critic.
Industria de recuperare în caz de dezastru a apărut ca furnizor de centre de calcul de rezervă. Unul dintre primele astfel de centre a fost situat în Sri Lanka (Sungard Availability Services, 1978) [18] [19] dezvoltat pentru a oferi centre de calcul de rezervă. Unul dintre cele mai vechi astfel de centre a fost situat în Sri Lanka (Sungard Availability Services, 1978). [20] [21] .
În anii 1980 și 90, odată cu creșterea timpului partajat în cadrul corporativ, introducerea online a datelor și procesarea în timp real, a fost necesară o mai mare disponibilitate a sistemelor IT.
Continuitatea serviciilor IT este importantă pentru multe organizații atunci când implementează managementul continuității afacerii (BCM) și managementul securității informațiilor (ICM) și ca parte a implementării și gestionării securității informațiilor și managementului continuității afacerii, așa cum este specificat în ISO/IEC 27001 și , respectiv, ISO 22301 .
Creșterea cloud computing-ului din 2010 continuă această tendință: acum este și mai puțin important acolo unde serviciile de calcul sunt găzduite fizic, atâta timp cât rețeaua în sine este suficient de fiabilă (o problemă separată și nu de mare îngrijorare, deoarece rețelele moderne sunt foarte rezistente). ). de proiectare). Recovery as a Service (RaaS) este una dintre caracteristicile de securitate sau beneficiile cloud computing promovate de Cloud Security Alliance [22] .
Dezastrele pot fi clasificate în trei mari categorii de amenințări și pericole. Prima categorie include dezastrele naturale precum inundațiile, uraganele, tornadele, cutremurele și epidemiile.
A doua categorie este pericolele tehnologice, care includ accidente sau defecțiuni ale sistemelor și structurilor, cum ar fi exploziile conductelor, accidentele de transport, defecțiunile serviciului de utilități, defecțiunile barajului și degajările accidentale de materiale periculoase.
A treia categorie este amenințările provocate de om, care includ acte deliberate, cum ar fi atacuri malițioase active, atacuri chimice sau biologice, atacuri cibernetice împotriva datelor sau infrastructurii și sabotaj. Măsurile de pregătire pentru toate categoriile și tipurile de dezastre naturale se încadrează în cinci domenii de misiune: prevenire, protecție, atenuare, răspuns și recuperare [23] .
Cercetările recente susțin ideea că adoptarea unei abordări mai holistice a planificării înainte de dezastru este mai rentabilă pe termen lung. Fiecare dolar cheltuit pentru atenuarea pericolelor (cum ar fi un plan de recuperare în caz de dezastru) economisește comunitatea cu 4 USD ca răspuns și costuri de recuperare [24] .
Statisticile de recuperare în caz de dezastru din 2015 arată că o oră de oprire poate costa
Pe măsură ce sistemele IT devin din ce în ce mai critice pentru buna funcționare a unei companii și, eventual, a economiei în ansamblu, devine din ce în ce mai important să menținem rapid aceste sisteme și să le recuperăm rapid. De exemplu, 43% dintre companiile care se confruntă cu o pierdere majoră de date de afaceri nu se redeschid niciodată, iar 29% se închid în doi ani. Ca urmare, pregătirea pentru continuarea sau recuperarea sistemelor trebuie luată foarte în serios. Acest lucru necesită o investiție semnificativă de timp și bani pentru a asigura pierderi minime în cazul unui eveniment distructiv [26] .
Măsurile de control sunt acțiuni sau mecanisme care pot reduce sau elimina diverse amenințări la adresa organizațiilor. Într-un plan de recuperare în caz de dezastru (DRP) pot fi incluse diferite tipuri de măsuri.
Planificarea recuperării în caz de dezastru face parte dintr-un proces mai larg cunoscut sub numele de planificare a continuității afacerii și include planificarea pentru reluarea aplicațiilor, datelor, echipamentelor, comunicațiilor electronice (cum ar fi rețelele) și a altor infrastructuri IT. Planul de continuitate a afacerii (BCP) include planificarea pentru aspecte care nu sunt legate de IT, cum ar fi personalul cheie, facilitățile, comunicarea de criză și protecția reputației și ar trebui să se refere la un Plan de recuperare în caz de dezastru (DRP) pentru recuperarea/continuitatea infrastructurii IT.
Măsurile de gestionare a recuperării în caz de dezastru IT pot fi împărțite în următoarele trei tipuri:
Un plan de DR bun necesită ca aceste trei tipuri de controale să fie documentate și aplicate în mod regulat folosind așa-numitele „teste de recuperare în caz de dezastru”.
Înainte de a alege o strategie de recuperare în caz de dezastru, planificatorul de recuperare în caz de dezastru consultă mai întâi planul de continuitate a afacerii al organizației sale, care ar trebui să specifice valorile cheie pentru punctul de recuperare țintă și obiectivele de timp de recuperare [28] Valorile procesului de afaceri sunt apoi mapate la sistemele și infrastructura lor [ 29 ] .
Lipsa unei planificări adecvate poate crește impactul unui dezastru natural [30] . După compararea valorilor, organizația revizuiește bugetul IT; RTO-urile și RPO-urile trebuie să se potrivească cu bugetul disponibil. Analiza cost-beneficiu determină adesea care măsuri de recuperare în caz de dezastru ar trebui aplicate.
The New York Times scrie că adăugarea de backup în cloud la beneficiile arhivării pe bandă locală și offsite „adaugă un strat de protecție a datelor” [31] .
Strategiile de protecție a datelor utilizate în mod obișnuit includ:
În multe cazuri, o organizație poate alege să folosească un furnizor externalizat de recuperare în caz de dezastru pentru a oferi un site și sisteme de rezervă, în loc să-și folosească propriile site-uri la distanță, din ce în ce mai mult prin cloud computing.
Pe lângă pregătirea pentru necesitatea restabilirii sistemelor, organizațiile iau și măsuri de precauție pentru a preveni dezastrele. Acestea pot include:
Un tip de clasificare a planului de recuperare utilizat pe scară largă este clasificarea pe șapte niveluri, dezvoltată la sfârșitul anilor 1980 de Comitetul de coordonare tehnică SHARE, care a fost dezvoltat în comun cu IBM. Ei au dezvoltat o carte albă care descrie nivelurile de servicii de recuperare în caz de dezastru folosind nivelurile de la 0 la 6. De atunci, au apărut o serie de clasificări pentru a concura cu aceasta și reflectă evoluțiile ulterioare în tehnologie și în industrie în ansamblu. Diferite clasificări se concentrează pe diferite aspecte sau caracteristici tehnice ale procesului de restaurare. Astfel, clasificarea Wiboobratr și Kosavisutee se concentrează în principal pe soluțiile DRaaS . Mai jos este un tabel comparativ al unor astfel de clasificări [33] .
Nivel | SHARE/ IBM [34] [35] [36] | Hitachi [37] | Wiboonratr și Kosavisutte [38] | Roman [39] | Xiotech [40] |
---|---|---|---|---|---|
0 | Nu există un plan de recuperare în caz de dezastru. | ||||
unu | Copiile de rezervă sunt în curs de desfășurare, copiile de siguranță sunt mutate într-o clădire separată, dar nu există un site de așteptare la cald . Această metodă de rezervare este denumită Metoda de acces la camioneta (PTAM) [17] . | Copiere de rezervă pe bandă offsite . | Recuperarea la un moment dat este posibilă. | Backup pe bandă/restaurare manuală. | Nivelul 4
Backup-uri programate pe un site de backup „rece”. |
2 | Se face o copie de rezervă, există un site de backup la care se pot restaura datele dintr-o copie de rezervă [17] . Metoda este cunoscută ca PTAM+hotsite. | Se realizează o copie de rezervă pe bandă la site-ul principal sau de rezervă. | Copiile realizate pe bandă sunt livrate la un site de rezervă pregătit în prealabil. | Salvare/restaurare tradițională a imaginii de disc. | |
3 | „Depozitare electronică” (bolta electronică). În comparație cu nivelul 2, se adaugă capacitatea de a copia în mod regulat (și, în consecință, de a restaura) date de pe site-ul principal. Timpul tipic de recuperare este de 24 de ore [34] . | „Stocare electronică” - similar cu clasificarea SHARE/IBM. | Copiile de pe disc care oferă recuperare la un moment dat sunt făcute în mai multe locații | Flexibil (inclusiv per-fișier și cu opțiunea de alegere a versiunii de fișier pentru recuperare) salvarea/restaurarea unei imagini de disc. | Nivelul 3
Recuperare relativ rapidă de la copiile de rezervă efectuate asincron sau la un program pe un site de backup „cald”. |
patru | Sunt create copii care permit recuperarea la un moment dat . | O singură copie de rezervă scrisă pe disc. | Se efectuează înregistrarea de la distanță a funcționării sistemului. | Backup/restaurare bazat pe virtualizare. | |
5 | Asigură integritatea datelor tranzacționale . | Abilitatea de a recupera folosind consolidarea fișierelor din diferite imagini de disc | Creați o copie umbră a unei baze de date de producție în paralel | Redundanță bazată pe servere care rulează într-un cluster. | Nivelul 2
Recuperare rapidă de la o copie asincronă pe un site de așteptare la cald. |
6 | Pierdere de date zero sau mică după recuperare. | Disponibilitatea datelor de pe un disc partajat între sistemele primar și de rezervă. | Datele sunt copiate de la distanță. | ||
7 | Recuperare extrem de automatizată. | Oglindirea discului între sistemul primar și cel secundar. | Se realizează copierea de la distanță a datelor cu toleranță la erori. | Nivelul 1
Recuperare instantanee de la o copie sincronă pe un site de așteptare la cald. | |
opt | Dublarea completă a datelor. |
Se înțelege că fiecare nivel următor din cadrul uneia dintre clasificări îl completează sau îl înlocuiește pe cel anterior cu proprietățile sale.
Disaster Recovery as a Service (DRaaS) este un acord cu o terță parte, furnizor de servicii și/sau hardware. [41] . De obicei oferite de furnizorii de servicii ca parte a portofoliului lor de servicii. O serie de furnizori mari de echipamente oferă centre de date modulare ca parte a acestui serviciu , permițându-vă să implementați echipamentele necesare pentru recuperarea în caz de dezastru cât mai repede posibil.