Problema controlului inteligenței artificiale este o problemă în domeniul tehnologiei și filozofiei inteligenței artificiale (AI). Este de a crea o superinteligență artificială care va fi utilă oamenilor, evitând în același timp crearea involuntară a unei superinteligențe care va cauza rău. Este deosebit de important să se evite o situație în care inteligența artificială poate prelua controlul și poate face imposibilă oprirea [1] [2] . Rezultatele cercetării privind controlul AI pot găsi aplicații și în controlul sistemelor AI existente [3] .
În prezent (2022), oamenii domină alte specii de organisme vii doar din cauza superiorității creierului . Unii oameni de știință, precum filosoful Nick Bostrom și cercetătorul AI Stuart Russell , susțin că, dacă AI-ul depășește omenirea în inteligența generală, atunci această nouă superinteligență ar putea deveni dificil de controlat, iar umanitatea ar putea deveni dependentă [1] . Unii oameni de știință, printre care Stephen Hawking și laureatul Nobel Frank Wilczek , au cerut cercetări în problema controlului AI înainte de crearea primei superinteligențe, deoarece o superinteligență necontrolată poate rezista cu succes încercărilor de a o controla [4] [5] . În plus, experții avertizează asupra pericolului apariției subite a superinteligenței [6] .
Sistemelor AI autonome li se pot atribui aleatoriu ținte greșite [7] . Doi președinți AAAI , Tom Dietterich și Horwitz , subliniază că aceasta este o problemă pentru sistemele existente: „Un aspect important al oricărui sistem AI care interacționează cu oamenii este că trebuie să raționeze despre intențiile oamenilor și nu să execute literalmente comenzi.” . Această problemă devine din ce în ce mai gravă pe măsură ce software-ul AI devine mai autonom și mai flexibil [8] .
Potrivit Bostrom, superinteligența poate crea o problemă calitativ nouă de implementare perversă : cu cât IA este mai inteligentă și mai capabilă, cu atât este mai probabil să poată găsi o soluție neintenționată care, totuși, îndeplinește în mod oficial obiectivul stabilit de dezvoltatori.
Unii oameni de știință susțin că studiul problemei controlului AI poate fi util în prevenirea consecințelor neprevăzute ale acțiunilor sistemelor AI existente.
În trecut, sistemele AI au provocat uneori daune, de la minore la catastrofale, care nu au fost intențiate de dezvoltatori. De exemplu, în 2015, probabil din cauza unei erori umane, un muncitor german a fost zdrobit de un robot la o fabrică Volkswagen , care se pare că l-a confundat cu o piesă auto [9] . În 2016, Microsoft a lansat chatbot-ul Tay, care a învățat să folosească un limbaj rasist și sexist [3] [9] . Noel Sharkey de la Universitatea din Sheffield consideră că rezolvarea problemei în general este „cu adevărat o provocare științifică uriașă” [3] .
Provocarea alinierii este de a crea AI care rămân în siguranță chiar și atunci când funcționează autonom la scară largă. Unele aspecte ale reconcilierii au o dimensiune morală și politică [10] . De exemplu, în cartea sa Human Compatible [a] , profesorul Stuart Russell de la Universitatea din Berkeley sugerează proiectarea sistemelor AI cu unicul scop de a maximiza realizarea preferințelor umane [11] :173 . Preferințele despre care scrie Russell sunt atotcuprinzătoare; ele acoperă „tot ceea ce te poate excita, oricât de departe este în viitor”.
Eliezer Yudkowsky de la Machine Intelligence Research Institute a propus scopul realizării „voinței extrapolate coerente” (CEV) a umanității, definită aproximativ ca setul de valori pe care umanitatea le-ar împărtăși în echilibru reflexiv, adică după un lung proces de rafinare . 10] [12] .
Unele propuneri de management AI iau în considerare atât o funcție obiectiv explicită, cât și o funcție obiectiv implicit emergentă. Astfel de propuneri încearcă să armonizeze trei descrieri diferite ale unui sistem AI: [13] :
Deoarece sistemele AI nu sunt optimizatori perfecti și pentru că orice specificație dată poate avea consecințe neprevăzute, comportamentul rezultat se poate abate drastic de la ideal sau intenția de proiectare.
Nepotrivirea intrinsecă are loc atunci când obiectivele urmărite de AI pe măsură ce se abate de la specificația de proiectare. Pentru a detecta astfel de abateri și a le elimina, Paul Christiano propune utilizarea interpretabilității [14] .
O abordare pentru obținerea coerenței externe este implicarea oamenilor în evaluarea comportamentului AI [15] [16] . Cu toate acestea, supravegherea umană este costisitoare, ceea ce înseamnă că această metodă nu poate fi utilizată în mod realist pentru a evalua toate activitățile. În plus, sarcinile complexe (cum ar fi luarea deciziilor de politică economică) pot fi prea complexe pentru o ființă umană. Între timp, provocările pe termen lung, cum ar fi prezicerea schimbărilor climatice , nu pot fi evaluate fără studii umane ample [17] .
O problemă cheie nerezolvată în cercetarea de aliniere este cum să creați o specificație de proiectare care să evite inconsecvența externă, restricționând în același timp accesul la un lider uman. Aceasta este așa-numita problemă a supravegherii scalabile [ 16 ] .
Învățarea prin discuțieCercetătorii de la OpenAI au propus predarea AI prin dezbateri între sisteme, oamenii decidând câștigătorul [18] . Astfel de dezbateri sunt menite să atragă atenția oamenilor asupra celor mai slabe puncte în rezolvarea problemelor complexe [19] [20] .
Stuart Russell pledează pentru o nouă abordare a dezvoltării mașinilor utile în care: [11] :182
Un exemplu al acestei abordări este metoda „ back-learning ” a lui Russell, în care AI deduc preferințele supraveghetorilor umani din comportamentul lor, presupunând că supraveghetorii acționează într-un mod care maximizează o anumită funcție de recompensă [11] .
Bostrom și alții recomandă metodele de control al capacității doar ca adjuvant la metodele de potrivire [1] .
O problemă este că rețelele neuronale implicite sunt foarte greu de interpretat [21] . Acest lucru face dificilă detectarea înșelăciunii sau a altor comportamente nedorite. Pentru a depăși această dificultate, progresele în domeniul inteligenței artificiale interpretate [22] pot fi utile .
O modalitate posibilă de a preveni consecințele periculoase este de a oferi liderilor umani capacitatea de a opri cu ușurință AI care se comportă greșit cu un „comutator”. Cu toate acestea, pentru a-și atinge obiectivele, AI-urile pot încerca să dezactiveze comutatoarele sau să ruleze copii ale lor pe alte computere. Această problemă a fost oficializată ca un subjoc între un om și un AI, în care AI poate alege dacă să oprească comutatorul, iar apoi, dacă comutatorul este încă pornit, omul poate alege dacă îl activează sau nu. . Scopul unor astfel de jocuri este de a se asigura că AI interpretează alegerile umane ca informații importante despre obiectivele urmărite [11] :208 .
AI izolat este o tehnică propusă de management al capacităților în care IA rulează pe un sistem computerizat izolat cu canale de intrare și ieșire limitate, cum ar fi canale de text și fără conexiune la internet. În timp ce acest lucru reduce capacitatea AI de a efectua un comportament nedorit, îi reduce și utilitatea. AI izolat poate fi folosit într-un mod de întrebări și răspunsuri care nu necesită interacțiune cu lumea exterioară.
Această abordare necesită testare atentă a hardware-ului și software-ului, deoarece IA poate încerca să comunice cu lumea exterioară manipulând observatorii [23] .
Un oracol este un AI ipotetic conceput pentru a răspunde la întrebări și pentru a nu atinge niciun obiectiv legat de schimbarea lumii în afara mediului său limitat [24] . Se estimează că utilizarea superinteligenței în modul oracol ar putea genera profituri de trilioane de dolari [11] :162–163 .
Pericolul oracolului constă în posibila manipulare a răspunsurilor pentru a-și atinge propriile obiective ascunse. Pentru a elimina acest pericol, Bostrom își propune să creeze mai multe oracole și să compare răspunsurile acestora pentru a ajunge la un consens [25] .
Scepticii cred că superinteligența prezintă un risc redus sau deloc de comportament greșit la întâmplare. Astfel de sceptici cred adesea că controlul AI superinteligente este trivial. Unii sceptici [26] , precum Gary Markus [27] , au propus adoptarea unor reguli similare cu cele fictive „ Trei legi ale roboticii ” care definesc în mod explicit rezultatul dorit („normativitatea directă”). Dimpotrivă, majoritatea susținătorilor tezei riscului existențial (precum mulți sceptici) consideră Cele Trei Legi a fi inutile datorită faptului că aceste trei legi sunt ambigue și se contrazic între ele. Alte propuneri de „normatizare directă” includ etica kantiană , utilitarismul sau combinații ale ambelor. Majoritatea susținătorilor controlului cred că valorile umane (și compromisurile lor cantitative) sunt prea complexe și prost înțelese pentru a fi programate direct într-o superinteligență; în schimb, superinteligența trebuie programată pentru procesul de dobândire și înțelegere deplină a valorilor umane ("normativitatea indirectă"), cum ar fi voința extrapolată coerentă [28] .