Problema controlului inteligenței artificiale

Problema controlului inteligenței artificiale  este o problemă în domeniul tehnologiei și filozofiei inteligenței artificiale (AI). Este de a crea o superinteligență artificială care va fi utilă oamenilor, evitând în același timp crearea involuntară a unei superinteligențe care va cauza rău. Este deosebit de important să se evite o situație în care inteligența artificială poate prelua controlul și poate face imposibilă oprirea [1] [2] . Rezultatele cercetării privind controlul AI pot găsi aplicații și în controlul sistemelor AI existente [3] .

Descrierea problemei

Riscul existențial

În prezent (2022), oamenii domină alte specii de organisme vii doar din cauza superiorității creierului . Unii oameni de știință, precum filosoful Nick Bostrom și cercetătorul AI Stuart Russell , susțin că, dacă AI-ul depășește omenirea în inteligența generală, atunci această nouă superinteligență ar putea deveni dificil de controlat, iar umanitatea ar putea deveni dependentă [1] . Unii oameni de știință, printre care Stephen Hawking și laureatul Nobel Frank Wilczek , au cerut cercetări în problema controlului AI înainte de crearea primei superinteligențe, deoarece o superinteligență necontrolată poate rezista cu succes încercărilor de a o controla [4] [5] . În plus, experții avertizează asupra pericolului apariției subite a superinteligenței [6] .

Problema generării aleatorii

Sistemelor AI autonome li se pot atribui aleatoriu ținte greșite [7] . Doi președinți AAAI , Tom Dietterich și Horwitz , subliniază că aceasta este o problemă pentru sistemele existente: „Un aspect important al oricărui sistem AI care interacționează cu oamenii este că trebuie să raționeze despre intențiile oamenilor și nu să execute literalmente comenzi.” . Această problemă devine din ce în ce mai gravă pe măsură ce software-ul AI devine mai autonom și mai flexibil [8] .

Potrivit Bostrom, superinteligența poate crea o problemă calitativ nouă de implementare perversă : cu cât IA este mai inteligentă și mai capabilă, cu atât este mai probabil să poată găsi o soluție neintenționată care, totuși, îndeplinește în mod oficial obiectivul stabilit de dezvoltatori.

Consecințele neprevăzute ale acțiunilor AI existente

Unii oameni de știință susțin că studiul problemei controlului AI poate fi util în prevenirea consecințelor neprevăzute ale acțiunilor sistemelor AI existente.

În trecut, sistemele AI au provocat uneori daune, de la minore la catastrofale, care nu au fost intențiate de dezvoltatori. De exemplu, în 2015, probabil din cauza unei erori umane, un muncitor german a fost zdrobit de un robot la o fabrică Volkswagen , care se pare că l-a confundat cu o piesă auto [9] . În 2016, Microsoft a lansat chatbot-ul Tay, care a învățat să folosească un limbaj rasist și sexist [3] [9] . Noel Sharkey de la Universitatea din Sheffield consideră că rezolvarea problemei în general este „cu adevărat o provocare științifică uriașă” [3] .

Armonizare

Provocarea alinierii este de a crea AI care rămân în siguranță chiar și atunci când funcționează autonom la scară largă. Unele aspecte ale reconcilierii au o dimensiune morală și politică [10] . De exemplu, în cartea sa Human Compatible [a] , profesorul Stuart Russell de la Universitatea din Berkeley sugerează proiectarea sistemelor AI cu unicul scop de a maximiza realizarea preferințelor umane [11] :173 . Preferințele despre care scrie Russell sunt atotcuprinzătoare; ele acoperă „tot ceea ce te poate excita, oricât de departe este în viitor”.

Eliezer Yudkowsky de la Machine Intelligence Research Institute a propus scopul realizării „voinței extrapolate coerente” (CEV) a umanității, definită aproximativ ca setul de valori pe care umanitatea le-ar împărtăși în echilibru reflexiv, adică după un lung proces de rafinare . 10] [12] .

Coordonare internă și externă

Unele propuneri de management AI iau în considerare atât o funcție obiectiv explicită, cât și o funcție obiectiv implicit emergentă. Astfel de propuneri încearcă să armonizeze trei descrieri diferite ale unui sistem AI: [13] :

  1. Specificație ideală: ce dorește dezvoltatorul să facă sistemul, dar care poate fi prost articulat.
  2. Specificații de proiectare: planul care este de fapt folosit pentru a crea sistemul AI. Într-un sistem de învățare prin întărire, aceasta poate fi pur și simplu funcția de recompensă a sistemului.
  3. Comportament emergent : ceea ce face de fapt AI.

Deoarece sistemele AI nu sunt optimizatori perfecti și pentru că orice specificație dată poate avea consecințe neprevăzute, comportamentul rezultat se poate abate drastic de la ideal sau intenția de proiectare.

Nepotrivirea intrinsecă are loc atunci când obiectivele urmărite de AI pe măsură ce se abate de la specificația de proiectare. Pentru a detecta astfel de abateri și a le elimina, Paul Christiano propune utilizarea interpretabilității [14] .

Supraveghere scalabilă

O abordare pentru obținerea coerenței externe este implicarea oamenilor în evaluarea comportamentului AI [15] [16] . Cu toate acestea, supravegherea umană este costisitoare, ceea ce înseamnă că această metodă nu poate fi utilizată în mod realist pentru a evalua toate activitățile. În plus, sarcinile complexe (cum ar fi luarea deciziilor de politică economică) pot fi prea complexe pentru o ființă umană. Între timp, provocările pe termen lung, cum ar fi prezicerea schimbărilor climatice , nu pot fi evaluate fără studii umane ample [17] .

O problemă cheie nerezolvată în cercetarea de aliniere este cum să creați o specificație de proiectare care să evite inconsecvența externă, restricționând în același timp accesul la un lider uman. Aceasta este așa-numita problemă a supravegherii scalabile [ 16 ] .

Învățarea prin discuție

Cercetătorii de la OpenAI au propus predarea AI prin dezbateri între sisteme, oamenii decidând câștigătorul [18] . Astfel de dezbateri sunt menite să atragă atenția oamenilor asupra celor mai slabe puncte în rezolvarea problemelor complexe [19] [20] .

Deducerea preferințelor umane din comportament

Stuart Russell pledează pentru o nouă abordare a dezvoltării mașinilor utile în care: [11] :182

  1. Singurul scop al mașinii ar trebui să fie cea mai bună realizare a preferințelor umane;
  2. Inițial, mașina nu are o idee exactă despre care sunt aceste preferințe;
  3. Cea mai sigură sursă de informații despre preferințele unei persoane este comportamentul acesteia din urmă.
Text original  (engleză)[ arataascunde]
  1. Singurul obiectiv al mașinii este de a maximiza realizarea preferințelor umane.
  2. Mașina este inițial incertă cu privire la preferințele respective.
  3. Sursa supremă de informații despre preferințele umane este comportamentul uman.

Un exemplu al acestei abordări este metoda „ back-learning ” a lui Russell, în care AI deduc preferințele supraveghetorilor umani din comportamentul lor, presupunând că supraveghetorii acționează într-un mod care maximizează o anumită funcție de recompensă [11] .

Controlul capacității

Bostrom și alții recomandă metodele de control al capacității doar ca adjuvant la metodele de potrivire [1] .

O problemă este că rețelele neuronale implicite sunt foarte greu de interpretat [21] . Acest lucru face dificilă detectarea înșelăciunii sau a altor comportamente nedorite. Pentru a depăși această dificultate, progresele în domeniul inteligenței artificiale interpretate [22] pot fi utile .

Abilitatea de a întrerupe și închide

O modalitate posibilă de a preveni consecințele periculoase este de a oferi liderilor umani capacitatea de a opri cu ușurință AI care se comportă greșit cu un „comutator”. Cu toate acestea, pentru a-și atinge obiectivele, AI-urile pot încerca să dezactiveze comutatoarele sau să ruleze copii ale lor pe alte computere. Această problemă a fost oficializată ca un subjoc între un om și un AI, în care AI poate alege dacă să oprească comutatorul, iar apoi, dacă comutatorul este încă pornit, omul poate alege dacă îl activează sau nu. . Scopul unor astfel de jocuri este de a se asigura că AI interpretează alegerile umane ca informații importante despre obiectivele urmărite [11] :208 .

Izolare

AI izolat este o tehnică propusă de management al capacităților în care IA rulează pe un sistem computerizat izolat cu canale de intrare și ieșire limitate, cum ar fi canale de text și fără conexiune la internet. În timp ce acest lucru reduce capacitatea AI de a efectua un comportament nedorit, îi reduce și utilitatea. AI izolat poate fi folosit într-un mod de întrebări și răspunsuri care nu necesită interacțiune cu lumea exterioară.

Această abordare necesită testare atentă a hardware-ului și software-ului, deoarece IA poate încerca să comunice cu lumea exterioară manipulând observatorii [23] .

Oracle

Un oracol este un AI ipotetic conceput pentru a răspunde la întrebări și pentru a nu atinge niciun obiectiv legat de schimbarea lumii în afara mediului său limitat [24] . Se estimează că utilizarea superinteligenței în modul oracol ar putea genera profituri de trilioane de dolari [11] :162–163 .

Pericolul oracolului constă în posibila manipulare a răspunsurilor pentru a-și atinge propriile obiective ascunse. Pentru a elimina acest pericol, Bostrom își propune să creeze mai multe oracole și să compare răspunsurile acestora pentru a ajunge la un consens [25] .

Scepticism cu privire la riscul AI

Scepticii cred că superinteligența prezintă un risc redus sau deloc de comportament greșit la întâmplare. Astfel de sceptici cred adesea că controlul AI superinteligente este trivial. Unii sceptici [26] , precum Gary Markus [27] , au propus adoptarea unor reguli similare cu cele fictive „ Trei legi ale roboticii ” care definesc în mod explicit rezultatul dorit („normativitatea directă”). Dimpotrivă, majoritatea susținătorilor tezei riscului existențial (precum mulți sceptici) consideră Cele Trei Legi a fi inutile datorită faptului că aceste trei legi sunt ambigue și se contrazic între ele. Alte propuneri de „normatizare directă” includ etica kantiană , utilitarismul sau combinații ale ambelor. Majoritatea susținătorilor controlului cred că valorile umane (și compromisurile lor cantitative) sunt prea complexe și prost înțelese pentru a fi programate direct într-o superinteligență; în schimb, superinteligența trebuie programată pentru procesul de dobândire și înțelegere deplină a valorilor umane ("normativitatea indirectă"), cum ar fi voința extrapolată coerentă [28] .

Note

Comentarii

  1. Traducere aproximativă a titlului: „Compatibilitate cu oamenii”

Surse

  1. 1 2 3 Bostrom, Nick. Superinteligență: căi, pericole, strategii. — În primul rând. - 2014. - ISBN 978-0199678112 .
  2. Yampolskiy, Roman (2012). „Închiderea problemei de izolare a inteligenței artificiale a singularității”. Jurnalul de Studii ale Conștiinței . 19 (1-2): 194-214.
  3. 1 2 3 Google în curs de dezvoltare kill switch pentru AI , BBC News  (8 iunie 2016). Arhivat din original pe 11 iunie 2016. Preluat la 12 iunie 2016.
  4. Stephen Hawking: „Transcendența se uită la implicațiile artificiale – dar luăm în serios inteligența AI?” , Independentul . Arhivat din original pe 25 septembrie 2015. Preluat la 14 iunie 2016.
  5. Stephen Hawking avertizează că inteligența artificială ar putea pune capăt umanității , BBC  (2 decembrie 2014). Arhivat din original pe 30 octombrie 2015. Preluat la 14 iunie 2016.
  6. Anticiparea inteligenței artificiale. natura . 532 (7600). 26 aprilie 2016. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038/532413a . PMID  27121801 .
  7. Russell, Stuart. 26.3: Etica și riscurile dezvoltării inteligenței artificiale // Inteligența artificială: o abordare modernă / Stuart Russell, Peter Norvig . - Prentice Hall, 2009. - ISBN 978-0-13-604259-4 .
  8. Dietterich, Thomas (2015). „Rise of Concerns about AI: Reflections and Directions” (PDF) . Comunicări ale ACM . 58 (10): 38&ndash, 40. DOI : 10.1145/2770869 . Arhivat (PDF) din original pe 2016-03-04 . Consultat la 14 iunie 2016 . Parametrul depreciat folosit |deadlink=( ajutor )
  9. 1 2 „Apăsați butonul roșu mare”: experții în computere vor opri comutatorul pentru a împiedica roboții să devină necinstiți , Washington Post . Arhivat din original pe 12 iunie 2016. Preluat la 12 iunie 2016.
  10. 1 2 Gabriel, Iason (1 septembrie 2020). „Inteligenta artificiala, valori si aliniere” . Minți și Mașini ]. 30 (3): 411-437. arXiv : 2001.09768 . DOI : 10.1007/s11023-020-09539-2 . ISSN  1572-8641 . Arhivat din original pe 15.02.2021 . Preluat la 7 februarie 2021 . Parametrul depreciat folosit |deadlink=( ajutor )
  11. 1 2 3 4 5 Russell, Stuart. Compatibil uman: inteligența artificială și problema controlului . — Statele Unite ale Americii : Viking, 8 octombrie 2019. — ISBN 978-0-525-55861-3 .
  12. Yudkowsky, Eliezer. Sisteme de valori complexe în IA prietenoasă // Inteligență generală artificială. - 2011. - Vol. 6830.—P. 388–393. - ISBN 978-3-642-22886-5 . - doi : 10.1007/978-3-642-22887-2_48 .
  13. Ortega. Construirea de inteligență artificială sigură : specificații, robustețe și asigurare  . Mediu (27 septembrie 2018). Preluat la 12 decembrie 2020. Arhivat din original la 12 decembrie 2020.
  14. Christiano. Convorbire cu Paul Christiano . Impactul AI . AI Impacts (11 septembrie 2019). Preluat la 6 ianuarie 2021. Arhivat din original la 19 august 2020.
  15. Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane & Amodei, Dario (13 iulie 2017), Deep Reinforcement Learning from Human Preferences, arΧiv : 1706.03741 [stat.ML]. 
  16. 1 2 Amodei, Dario; Ola, Chris; Steinhardt, Iacob; Christiano, Paul; Schulman, John & Mané, Dan (25 iulie 2016), Concrete Problems in AI Safety, arΧiv : 1606.06565 [cs.AI]. 
  17. Amodei, Dario; Christiano, Paul; Ray, Alex Învățând din preferințele umane  . OpenAI (13 iunie 2017). Preluat la 6 ianuarie 2021. Arhivat din original la 3 ianuarie 2021.
  18. Irving, Geoffrey; Christiano, Paul; Amodei, Dario & OpenAI (22 octombrie 2018), AI safety via debate, arΧiv : 1805.00899 [stat.ML]. 
  19. Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal & Legg, Shane (19 noiembrie 2018), Scalable agent alignment via reward modeling: a research direction, arΧiv : 1811.07871 [cs.LG]. 
  20. Banzhaf, Wolfgang. Teoria și practica programării genetice XVII  : [ ing. ]  / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [ și colab. ] . - Springer Nature, mai 2020. - ISBN 978-3-030-39958-0 . Arhivat pe 15 februarie 2021 la Wayback Machine
  21. Montavon, Gregoire (2018). „Metode pentru interpretarea și înțelegerea rețelelor neuronale profunde”. Procesarea semnalului digital: un jurnal de revizuire ]. 73 : 1-15. DOI : 10.1016/j.dsp.2017.10.011 . ISSN  1051-2004 .
  22. Yampolskiy, Roman V. „Unexplainability and Incomprensibility of AI”. Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277-291.
  23. Chalmers, David (2010). „Singularitatea: o analiză filosofică”. Jurnalul de Studii ale Conștiinței . 17 (9-10): 7-65.
  24. ^ Armstrong, Stuart (2012). „Gândirea în cutie: controlul și utilizarea unui Oracle AI”. Minți și Mașini . 22 (4): 299-324. DOI : 10.1007/s11023-012-9282-2 .
  25. Bostrom, Nick. Superinteligență: căi, pericole, strategii. - Oxford : Oxford University Press, 2014. - ISBN 9780199678112 .
  26. Mașini inteligente: chiar trebuie să ne temem de AI? , BBC News  (27 septembrie 2015). Arhivat 8 noiembrie 2020. Preluat la 9 februarie 2021.
  27. Marcus . Opinii | Cum să construim inteligența artificială în care putem avea încredere (publicat în 2019) , The New York Times  (6 septembrie 2019). Arhivat din original pe 22 septembrie 2020. Preluat la 9 februarie 2021.
  28. Sotala, Kaj (19 decembrie 2014). „Răspunsuri la riscul catastrofal AGI: un sondaj”. Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS...90a8001S . DOI : 10.1088/0031-8949/90/1/018001 .

Literatură

  • Gary Marcus, Ernest Davis. Inteligență artificială: reporniți. Cum să creați o inteligență automată în care să aveți cu adevărat încredere = Rebooting AI: Building Artificial Intelligence We Can Trust. - M . : Literatura intelectuală, 2021. - 304 p. — ISBN 978-5-907394-93-3 .