Toleranta la greseli

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 2 aprilie 2020; verificările necesită 15 modificări .

Toleranța la defecțiuni este proprietatea unui sistem tehnic de a-și menține performanța după defectarea uneia sau mai multor componente ale sale [1] .

Conceptul de toleranță la erori în inginerie

Toleranța la erori este determinată de numărul de defecțiuni individuale ale părților componente (elementelor) sistemului, după apariția cărora se menține operabilitatea sistemului în ansamblu. Nivelul de bază al toleranței la erori implică protecție împotriva defecțiunii oricărui element. Prin urmare, principala modalitate de a îmbunătăți toleranța la erori este redundanța . Redundanța este implementată cel mai eficient în hardware, prin redundanță . Într-o serie de domenii ale tehnologiei, toleranța la erori prin redundanță este o cerință obligatorie impusă de autoritățile de reglementare ale statului asupra sistemelor tehnice [2] .

Pentru sistemele tehnice cu risc ridicat, un caz special de toleranță la defecțiuni este siguranța la defecțiuni - capacitatea unui sistem, în cazul defecțiunii unora dintre componentele sale, de a comuta într-un mod de funcționare care nu reprezintă un pericol pentru oameni, mediu sau proprietate. În sistemele reale, aceste două proprietăți pot fi considerate împreună.

Caracteristici de toleranță la erori

Proprietatea de toleranță la erori este asociată cu următoarele caracteristici tehnice:

factorul de disponibilitate , care arată ce proporție din durata de viață totală este sistemul în stare de funcționare;
indicatori de fiabilitate a sistemului care determină probabilitatea de funcționare fără defecțiuni sau probabilitatea anumitor tipuri de defecțiuni ale sistemului sau ale elementelor acestuia pe o anumită perioadă de timp.

Arhitectura tolerantă la erori din punct de vedere al ingineriei este o modalitate de construire a sistemelor tolerante la erori care rămân operaționale (eventual cu o scădere a eficienței) atunci când elementele defectează [3] . Termenul este adesea folosit în crearea de sisteme informatice care continuă să funcționeze cu o posibilă scădere a debitului sau creșterea timpului de răspuns în cazul defecțiunii unei părți a elementelor sistemului (probleme hardware sau software ). Arhitectura tolerantă la erori din computere este utilizată, de exemplu, în procesul de replicare .

De asemenea, structurile portante folosesc structuri care își păstrează integritatea și capacitatea portantă atunci când sunt deteriorate de coroziune sau oboseală , defecte de fabricație sau deteriorări accidentale.

Măsurile privind toleranța la erori pot fi implementate și la nivelurile elementelor sistemului. De exemplu, la o mașină proiectată să nu piardă controlul atunci când una dintre anvelope se defectează, fiecare anvelopă conține un miez de cauciuc pentru a le permite să funcționeze pentru un timp limitat și cu viteză redusă.

Redundanță

Redundanța se numește funcționalitate, care nu este necesară pentru funcționarea fără probleme a sistemului [4] .

Exemple sunt piesele de schimb care sunt puse automat în funcțiune dacă cea principală se defectează. În special, camioanele mari pot pierde o anvelopă fără consecințe grave. Au instalate o mulțime de anvelope, iar pierderea uneia nu este critică (cu excepția perechii din față, care este folosită pentru viraj). Ideea includerii unor părți redundante pentru a crește fiabilitatea sistemului a fost propusă pentru prima dată de John von Neumann în anii 1950 [5] .

Există două tipuri de redundanță [6] : spațială și temporală. Redundanța spațiului este implementată prin introducerea de componente, funcții sau date suplimentare care nu sunt necesare pentru o funcționare fără probleme. Componentele suplimentare (redundante) pot fi hardware, software și informații . Redundanța temporală este implementată prin recalcularea sau trimiterea datelor, după care rezultatul este comparat cu o copie salvată a celei precedente.

Criterii de decizie privind rezistența

Proiectarea structurilor de siguranță are un cost: creșterea greutății, a costurilor, a consumului de energie, a costurilor și a timpului petrecut pentru proiectare, verificare și testare. Pentru a determina care părți ale sistemului ar trebui proiectate să fie tolerante la erori, există o serie de criterii [7] :

Cât de important este elementul? De exemplu, într-o mașină privată, radioul nu este o parte esențială a condusului, deci nu trebuie să fie tolerant la erori.
Cât de probabil este elementul să eșueze? Unele elemente structurale, de exemplu, arborele cardanic al unei mașini, se rup extrem de rar, prin urmare, nu au nevoie de toleranță la erori.
Cât de costisitoare va fi failover-ul? De exemplu, asigurarea toleranței la erori pentru sistemele de motoare ale autoturismelor nu este justificată de costurile de creare și exploatare (dimensiune, greutate, controale, preț, verificări și inspecții în stadiul de funcționare).

Un exemplu de articol care a trecut până la capăt sunt centurile de siguranță . Metoda principală de reținere a persoanelor în orice vehicul este gravitația , dar într-o răsturnare sau în alte condiții de forță G, metoda principală de reținere poate să nu funcționeze. Un sistem secundar care ține oamenii pe loc în astfel de condiții le mărește siguranța - astfel, primul punct este confirmat. Cazurile de ejectare a persoanelor într-un accident, cum ar fi o mașină, erau frecvente înainte de introducerea centurilor de siguranță, ceea ce confirmă al doilea punct. Prețul instalării centurilor de siguranță este mic atât din punct de vedere al costurilor, cât și din punct de vedere al fabricației, ceea ce confirmă al treilea punct. Ca urmare, putem concluziona că instalarea centurilor de siguranță pe toate vehiculele este o măsură rezonabilă.

Uneori, rezistența hardware necesită ca piesele defectuoase să fie îndepărtate și înlocuite cu altele noi în timp ce sistemul continuă să funcționeze (cunoscut în lumea computerelor sub numele de hot swapping ). În astfel de sisteme, timpul mediu dintre defecțiuni trebuie să fie suficient de mare pentru a permite finalizarea reparațiilor înainte ca și partea redundantă să se defecteze.

Dezavantajele sistemelor tolerante la erori

Avantajele soluțiilor tehnice tolerante la erori sunt evidente, dar au și dezavantaje.

Dificultăți în detectarea defecțiunilor latente ale elementelor redundante. De exemplu, un șofer de mașină poate să nu observe că o anvelopă este perforată dacă este utilizat orice sistem de siguranță. Problema poate fi rezolvată prin adăugarea unui sistem special de detectare a defecțiunilor (în cazul unei anvelope, sistemul monitorizează presiunea din camere și avertizează șoferul dacă aceasta scade). O alternativă ar fi să programați inspecții și verificări pentru a detecta și a preveni defecțiunile și daunele ascunse, cum ar fi inspecțiile șoferului ale anvelopelor la fiecare oprire a vehiculului.
Dificultăți în controlul mai multor eșecuri. Toleranța la erori a unui element poate interfera cu detectarea defecțiunilor la altul. De exemplu, dacă partea B efectuează o operațiune pe baza datelor din partea A , atunci partea de lucru B poate ascunde problema care a apărut în A. Dacă ulterior partea B este înlocuită cu una mai puțin fiabilă, sistemul poate eșua brusc, în timp ce se va părea că problema constă în noua parte B. Și numai după o verificare amănunțită a sistemului va deveni clar că problema a fost în partea A.
Riscuri crescute de ignorare a eșecurilor cunoscute. Chiar dacă operatorul este conștient de prezența unei defecțiuni a elementului redundant al sistemului tolerant la erori, poate întârzia să o elimine, deoarece sistemul funcționează. Acest lucru va duce în cele din urmă la o defecțiune completă a sistemului atunci când toate elementele de redundanță eșuează.
Dificultatea verificării. Pentru unele sisteme critice de siguranță, cum ar fi un reactor nuclear , nu există o modalitate ușoară de a vă asigura că elementele redundante sunt operaționale. Un exemplu infam este accidentul de la Cernobîl , când operatorii au testat sistemul de răcire de urgență prin oprirea sistemelor principale și auxiliare. Sistemul de urgență nu a suportat asta, ceea ce a dus la supraîncălzirea reactorului și o eliberare mare de radiații.
Costuri în creștere. Măsurile din domeniul toleranței la erori cresc costul ciclului de viață al sistemului datorită creșterii costurilor de dezvoltare și testare, creșterii consumului de masă și de materiale, prețului sistemului, costurilor suplimentare de întreținere și reparații etc. De exemplu, navele spațiale cu echipaj au sisteme și elemente mai redundante, ceea ce le crește greutatea în comparație cu vehiculele fără pilot care nu necesită acest nivel de siguranță.
Risc de utilizare a elementelor de calitate scăzută. O arhitectură tolerantă la erori poate permite utilizarea componentelor de calitate scăzută care, altfel, ar face sistemul inutilizabil. În timp ce această practică poate fi folosită pentru a limita creșterile de costuri, utilizarea mai multor astfel de piese poate reduce fiabilitatea sistemului și poate cauza costuri neplanificate pe etapă.

Vezi și

Note

↑ GOST R 56111-2014 Suport logistic integrat pentru produsele militare exportate. Nomenclatorul indicatorilor caracteristicilor operaţionale şi tehnice . Standartiform (2015). Preluat la 16 mai 2020. Arhivat din original la 21 ianuarie 2022. (nedefinit)
↑ Egor Sergheevici Sogomonian. Dispozitive de autoverificare și sisteme tolerante la erori . - Radio și comunicare, 1989. - 207 p. — ISBN 9785256003081 .
↑ Johnson, BW „Fault-Tolerant Microprocessor-Based Systems”, IEEE Micro (1984), vol. 4, nr. 6, pp. 6-21
↑ Laprie, JC (1985). „Dependable Computing și Fault Tolerance: Concepts and Terminology”, Proceedings of the 15th International Symposium on Fault-Tolerant Computing (FTSC-15), pp. 2-11
↑ von Neumann, J. (1956). „Logica probabilistică și sinteza organismelor fiabile din componente nesigure”, în Studii Automate, eds. C. Shannon și J. McCarthy, Princeton University Press, pp. 43-98
↑ Avizienis, A. (1976). Fault-Tolerant Systems, IEEE Transactions on Computers, vol. 25, nr. 12, pp. 1304-1312
↑ Dubrova, E. (2013). „Design tolerant la defecte”, Springer, 2013, ISBN 978-1-4614-2112-2

Link -uri

Implementarea și evaluarea sistemelor de siguranță controlate de computer
Seminar despre sisteme de autovindecare
Interviu cu Robert Hanmer despre cartea sa Patterns for Fault Tolerant Software ( Prima parte , Partea a doua ) (Podcast)

Literatură

Dicţionar de cibernetică / Editat de academicianul V. S. Mikhalevich . - al 2-lea. - Kiev: Ediția principală a Enciclopediei sovietice ucrainene numită după M. P. Bazhan, 1989. - 751 p. - (C48). — 50.000 de exemplare. - ISBN 5-88500-008-5 .

Dicționare și enciclopedii	Un norvegian grozav