S pokračujícím vývojem umělé inteligence (AI) se snaha sladit AI systémy s lidskými hodnotami stává prvořadým zájmem. Proč? Protože pokud se nepodaří sladit něco, co má potenciál stát se ve všech doménách inteligentnější než lidé, může lidstvo přijít o smysl existence nebo být úplně eliminováno.
Problém sladění (alignment problem) spočívá v zajištění toho, aby se AI chovala způsobem prospěšným pro lidstvo. To však vyvolává základní otázky: Bylo vůbec prokázáno, že existuje něco jako sdílené lidské hodnoty? Kde je můžeme přesně hledat a najít? A pokud je nenajdeme nebo je nelze jednoznačně definovat, jak je můžeme vložit do AI systémů tak, aby bylo jednou provždy zajištěno, že se jimi budou řídit? Tato nejistota ohledně existence a definice univerzálních lidských hodnot představuje zásadní výzvu pro sladění AI s lidskými zájmy.
V tomto článku se zabývám podstatou lidských hodnot, zkoumám možnost jejich začlenění do AI a důsledky tohoto úsilí.
Existence sdílených lidských hodnot
Psycholog Shalom H. Schwartz ve své teorii základních lidských hodnot identifikuje deset širokých hodnot (jako je benevolence, universalismus a bezpečnost), které jsou podle něj uznávány napříč kulturami. Tyto hodnoty považuje za zakořeněné v lidských potřebách a společenských požadavcích.
Nicméně univerzalita těchto hodnot je sporná. Schwartzův model hodnot je strukturován do kruhového schématu, ve kterém jsou hodnoty propojeny a ovlivňují se navzájem. Hodnoty, které jsou v kruhu blízko sebe, jsou si blízké i z hlediska motivačních cílů, zatímco hodnoty na opačných stranách kruhu jsou protichůdné. Například univerzalismus a moc jsou hodnoty v protikladu, protože první se soustředí na rovnost a spravedlnost, zatímco druhá na individuální nadvládu a kontrolu.
Kulturní relativisté argumentují, že hodnoty jsou inherentně formovány kulturními kontexty a to, co je považováno za morální v jedné společnosti, může být nemorální v jiné. Rozmanitost morálních kodexů napříč společnostmi naznačuje, že i když mohou existovat překrývající se hodnoty, skutečně univerzální soubor hodnot může být nepolapitelný.
Výzvy při definování lidských hodnot
Hlavní výzva při definování lidských hodnot spočívá v jejich subjektivní a na kontextu závislé povaze. Hodnoty jsou ovlivněny nesčetnými faktory, včetně kultury, náboženství, osobních zkušeností a společenských norem. Tato složitost ztěžuje destilaci souboru hodnot, které lze univerzálně použít.
Navíc morální dilemata často vznikají, když se hodnoty střetávají. Například hodnota individuální svobody může být v rozporu s pojetím hodnoty kolektivní bezpečnosti. Takové konflikty zdůrazňují otázku, které hodnoty by měly řídit chování AI.
Zakotvení lidských hodnot do AI
Zakotvení lidských hodnot do současných AI zahrnuje převod abstraktních a často nejednoznačných lidských hodnot do konkrétních instrukcí. Bylo navrženo několik přístupů:
1. Inverzní posilované učení (IRL): IRL se snaží odvodit funkci odměny (hodnoty), kterou člověk optimalizuje, pozorováním chování. Avšak samo lidské chování není vždy racionální, konzistentní nebo v souladu hodnotami.
2. Kooperativní inverzní posilované učení (CIRL): CIRL modeluje interakci mezi lidmi a AI jako kooperativní hru, kde oba usilují o maximalizaci sdílených hodnot. Tento přístup uznává nejistotu v lidských hodnotách a zahrnuje lidskou zpětnou vazbu.
3. Sladění hodnot prostřednictvím učení se z etických principů: To zahrnuje programování AI s etickými teoriemi (jako je utilitarismus nebo deontologie) k řízení rozhodování. Přesto etické teorie často vedou k různým závěrům v morálních situacích.
Filozofické a praktické výzvy
Snaha sladit AI s lidskými hodnotami je plná filozofických dosud neřešitelných záhad a praktických obtíží:
Hodnotový pluralismus: Koexistence konfliktních hodnot ztěžuje prioritizaci, které hodnoty by měla AI následovat.
Problém rámce: AI může mít potíže s určením relevantního kontextu pro aplikaci určitých hodnot, což vede k neúmyslným důsledkům.
Riziko nesladění: Mylná interpretace nebo zjednodušení lidských hodnot může vést k chování AI, které je škodlivé nebo neetické.
Problém trvalého (rekursivního sladění): I kdyby se nám podařilo sladit hodnoty současných úzkých AI s lidskými zájmy, vznik inteligence, která by ve všech doménách překonala lidskou inteligenci (tzv. superinteligence nebo-li ASI), přináší nové výzvy a rizika. ASI by mohla sama zdokonalovat své schopnosti, rozhodování, což by mohlo vést k rychlému vývoji mimo lidskou kontrolu. Tento proces rekursivního zlepšování by mohl způsobit, že původně sladěné hodnoty se stanou neaktuálními nebo by byly reinterpretovány způsoby, které lidstvu nepřináší užitek nebo jsou dokonce škodlivé. To znamená, že i pokud bychom vyřešili problém sladění současných AI, nemusí to zaručovat trvalé a bezpečné sladění budoucích, inteligentnějších systémů. Ty by naopak mohly být schopny definovat vlastní hodnotové vztažné rámce a jednat v souladu s nimi na základě svých zájmů.
Řešení dosud neexistuje, AI se dál vyvíjí
Vyžaduje situace radikální přehodnocení našeho přístupu k vývoji AI?:
1. Předběžná opatrnost: Co znamená bezpečnost pro lidstvo v kontextu současného trendu vývoje dosud nesladěných stále se zlepšujících AI systémů? Je třeba pozastavit vývoj, dokud se otázka bezpečnosti a sladění AI nevyřeší?
2. Interdisciplinární spolupráce: Kombinace poznatků z neurověd, psychologie, antropologie, filozofie, informatiky a dalších oborů může vést k jemnějšímu pochopení lidských hodnot včetně poznání, zda je vůbec problém sladění AI systémů řešitelný.
3. Dynamické učební modely: Vývoj AI systémů, které se neustále učí přizpůsobovat se lidským hodnotám prostřednictvím průběžné interakce a zpětné vazby. Dosud však neexistuje jistota, že by takový přístup vedl ke sladění současných i budoucích systémů.
4. Globální etické rámce: Zavedení dohod o etice AI k definování společné základny pro chování AI. Zatím není jasné, kdo a jak by etické rámce definoval ani jak by se řešil konflikt hodnot a potřeb ani jak by takové soubory hodnot bylo možné jednou provždy vložit do AI systémů ani jak vynutit chování AI systémů v souladu s nimi.
5. Transparentnost a vysvětlitelnost: Zajištění toho, aby rozhodnutí AI byla interpretovatelná, aby lidé mohli porozumět a opravit nesoulad hodnot. Chování současných AI systémů není plně objasněno. Je založeno také na autonomním učení a emergentním chování. Je možné sladit s lidskými hodnotami systémy, jejichž chování plně nechápou ani sami tvůrci?
Závěr
Jak to vidím, snaha sladit AI s lidskými hodnotami je hlubokou dosud nevyřešenou výzvou, která zasahuje do zatím neobjasněného jádra toho, co to znamená být člověkem.
Zatímco existence univerzálně sdílených lidských hodnot zůstává předmětem debaty, naléhavost problému sladění AI vyžaduje akci tady a teď!
Možná nastal čas na radikální přístup, který uznává potřeby některých lidí přežít a žít smysluplný život, složitost lidských hodnot a omezení současných AI systémů.
Co si myslíte vy? Chcete společně něco podniknout? Můžeme být v kontaktu na rerichova@proton.me
Zdroje:
1. Schwartz, S. H. (2012). Přehled Schwartzovy teorie základních hodnot. Online Readings in Psychology and Culture,
2. Prinz, J. (2008). Etický význam kulturních rozdílů. The Oxford Handbook of Moral Psychology.
3. Ng, A. Y., & Russell, S. (2000). Algoritmy pro inverzní posilované učení. Proceedings of the Seventeenth International Conference on Machine Learning.
4. Hadfield-Menell, D., a kol. (2016). Kooperativní inverzní posilované učení. Advances in Neural Information Processing Systems.