Samotný proces učení umělé inteligence (AI) zahrnuje emergentní chování, které hraje významnou roli v jejich pokroku a průlomových schopnostech. Tato skutečnost vyvolává zásadní otázku: pokud tvůrci neví, jak přesně proces učení funguje, jak spolehlivě ověřit schopnosti modelů po tréninku a jak předvídat budoucí pokrok, lze tvrdit, že máme nad AI kontrolu? Nejde spíše o situaci, kdy nelze tvrdit, že kontrolu máme, ale zatím systémy nevykazují chování, které by nás přimělo věnovat nepřítomnosti kontroly pozornost?
Proces učení, který není plně pod dohledem
Moderní AI systémy, zejména ty založené na hlubokém učení a neuronových sítích, se učí z velkých objemů dat prostřednictvím komplexních algoritmů [1]. Tato data a algoritmy jsou vstupními podmínkami a podněty k učení. Algoritmy umožňují systémům identifikovat vzorce a vztahy v datech bez explicitního lidského vedení v každém kroku [2] [3]. Učení samotné je vnitřní proces neuronových sítí. Emergentní jevy (např. grokking), jsou chování nebo vlastnosti, které systémy vykazují, aniž by byly přímo naprogramovány.
Tvůrci AI nastavují architekturu a poskytují data, ale nemají detailní přehled o vnitřních procesech učení. To znamená, že nemohou přesně předpovědět ani vysvětlit, jak AI dospěje k určitým závěrům nebo rozhodnutím. Odtud pochází pojem Černá skříňka. Pokud tedy nerozumí těmto procesům a neřídí je, je otázkou, zda můžeme skutečně hovořit o kontrole. Nacházíme se v situaci, kdy si neuvědomujeme nepřítomnost kontroly, protože systémy dosud neprojevily chování, které by nás k tomu přimělo?
Iluze kontroly již v současnosti?
Představa, že lidé mají plnou kontrolu nad AI, vychází z přesvědčení, že jako její tvůrci určují pravidla a omezení. Ve skutečnosti však kontrolují pouze počáteční podmínky. Jakmile AI začne zpracovávat data a učit se, vstupuje do procesu, který je také autonomní a generuje emergentní jevy. Tento proces umožňuje pokrok modelů a jejich schopnost řešit složité úkoly, ale zároveň omezuje schopnost tvůrců předvídat a řídit jejich chování.
Ve velkých jazykových modelech dochází k vytváření odpovědí a řešení, která nebyla explicitně naprogramována. AI generuje nové znalosti, vzorce a překvapivé, nepochopitelné výsledky. Kontrolu tedy supervizoři nemají v plném rozsahu.
Na omezené možnosti konroly poukazují například tzv. jailbreaky. Jailbreak funguje tak, že uživatelé vytvoří specifické instrukce, které „zmatou“ model a přimějí ho ignorovat nebo obejít přednastavená omezení. Ten pak generuje obsah, který by jinak neměl být povolen.
Představme si příklad: AI model je laděn, aby neodpovídal na otázky o citlivých nebo rizikových tématech. Uživatel však pomocí pečlivě zformulované žádosti dosáhne toho, že model tyto informace přesto poskytne – například tím, že ho vyzve k „hrání role“ nebo přesvědčí, že se nachází v hypotetickém scénáři, kde by odpovědi byly povoleny. Tímto způsobem může uživatel získat odpovědi, které by jinak nebyly přístupné, což ukazuje, že kontrola nad AI je pouze zdánlivá a může být relativně snadno obcházena.
Riziko podceňování rizik
Podceňování rizik spojených s AI může být způsobeno několika faktory:
Předsudky o lidské podstatě: Lidé mohou předpokládat, že lidská inteligence je jedinečná a nepřekonatelná. Mohou se domnívat, že AI bude fungovat podobně jako jiné nástroje nebo jako inherentně dobří lidé, což může přispívat k pocitu jistoty. Tyto předpoklady mohou vycházet z přesvědčení, že je známa podstata člověka, fungování lidského vědomí, učení a inteligence, nebo že lidé sdílejí hodnoty, které lze do AI vložit.
Spoléhání na autority: Lidé nemusí věnovat pozornost vývoji AI nebo věří, že nemají vliv na její vývoj a nenesou osobní odpovědnost. Mohou důvěřovat, že někdo kompetentní ví, co se děje, co je pro lidstvo dobré, a postará se o to. Tato důvěra v odborníky a instituce může vést k nedostatečnému kritickému zhodnocení skutečných schopností AI systémů.
Kognitivní zkreslení: Lidé si přirozeně nejsou vědomi slepých skvrn. Jednoduše si neuvědomují, co nevědí. Různá kognitivní zkreslení mohou ovlivnit vnímání rizik spojených s AI. Například optimistické zkreslení může vést k podceňování pravděpodobnosti negativních událostí, zatímco efekt přehnané sebedůvěry může způsobit, že lidé přeceňují svou schopnost rozumět a kontrolovat složité systémy. Tato zkreslení mohou bránit objektivnímu hodnocení rizik a omezovat schopnost včas identifikovat potenciální hrozby.
Další faktory ovlivňující vnímání rizik
Zahlcení informacemi: Obrovské množství dostupných informací o AI může vést k informačnímu přetížení. Lidé mohou mít potíže oddělit podstatné informace od nepodstatných, což může vést k povrchnímu chápání problematiky a podceňování rizik.
Validace na základě autority místo obsahu: Lidé mohou hodnotit informace podle toho, kdo je předkládá, místo aby kriticky posuzovali samotný obsah. To může vést k nekritickému přijetí optimistických pohledů a ignorování varování.
Nedostatek interdisciplinárního přístupu: Úzká specializace může vést k přehlížení poznatků z jiných oborů, jako jsou neurovědy, psychologie, ekonomie nebo sociologie. To může přispívat k předpojatosti a omezit pochopení procesů učení i širších dopadů a rizik spojených s AI.
Emergentní jevy jako zdroj pokroku i nejistoty
Emergentní chování není ani magické, ani nevysvětlitelné: máme jen omezenou schopnost ho interpretovat a předvídat. Podobně jako lidské vědomí například. Vzniká z komplexních interakcí v rámci složitých systémů a umožňuje AI objevovat předem nestanovené nové vzorce a řešení. Zatímco to přináší výhody v podobě zvýšené efektivity a schopností AI, zároveň to znamená, že systémy mohou jednat způsobem, který není předvídatelný nebo kontrolovatelný.
Posouzení schopností modelu je složitý úkol, který zůstává neúplný i po jeho natrénování. Současné metody hodnocení mohou být nedostatečné pro budoucí, pokročilejší AI systémy. Například trvalo téměř rok od vydání GPT-4, než se podařilo provést testy, které měřily (ne)užitečnost GPT-4 při asistenci v tvorbě biologických zbraní — a i tato studie měla významná omezení [4]. Navíc, jednoduché techniky zavedené až po tréninku, jako je například „chain-of-thought prompting“ (kdy je model požádán, aby postupoval krok za krokem), mohou výrazně zlepšit výkon modelu v matematických úlohách bez dalšího trénování [5], [6]. Hodnocení, která takové změny nezohledňují, pravděpodobně podcení potenciál modelu. Kromě toho hodnocení obvykle potvrzují pouze přítomnost určité schopnosti; její absence se ověřuje hůře.
Co z toho vyplývá?
Pokud je proces učení AI založen také na autonomii a emergentních jevech, lidská kontrola je omezená na konstrukci a počáteční nastavení a nezahrnuje detailní řízení či předvídání schopností a chování. Míra kontroly může být spekulativní a nemusí jí být věnována dostatečná pozornost, protože dosud nedošlo k událostem takového významu, které by tuto skutečnost jasně ukázaly. Ztráta kontroly tedy nemusí být problémem budoucnosti, ale současnosti.
Jak osobně adekvátně reagovat na výzvy, které AI přináší tady a teď? Budu ráda za diskusi o těchto otázkách a za důkazy, které mě ujistí o tom, že jsem nepochopila architekturu a vlastnosti současných AI systémů. Můžete mě kontaktovat na email rerichova@proton.me
Další droje
Souhrn poznatků vědního oboru AI; příručka, která tento soubor obsahuje https://www.thecompendium.ai/
Emergentní jevy, jako je grokking, jsou aktivní oblastí výzkumu, která zatím není plně vysvětlena. Neexistuje jednoznačná odpověď na to, zda jsou tyto jevy čistě statistické povahy, a otázka jejich podstaty zůstává otevřená.
Níže uvádím zdroje pro studium emergentních jevů, které se věnují otázce, zda a do jaké míry jsou tyto fenomény pouze statistické:
1. “Grokking: Generalization Beyond Memorization”
Zdroj: https://arxiv.org/abs/2201.02177
Tato studie se zaměřuje na fenomén grokkingu v modelování a naznačuje, že modely mohou při delším tréninku vykazovat náhlé zlepšení generalizace, což není vysvětleno pouze statistickou optimalizací.
2. “Emergent Abilities of Large Language Models” (Wei, Tay, et al., 2022)
Zdroj: https://arxiv.org/abs/2206.07682
Studie dokumentuje emergentní schopnosti ve velkých jazykových modelech, kdy modely po dosažení určité velikosti začínají vykazovat nové, nečekané chování, které nebylo explicitně naprogramováno. Výsledky naznačují, že klasická statistická interpretace nemusí být dostatečná pro vysvětlení těchto schopností.
3. “Understanding Grokking Through Pattern Learning” (Ziming Liu et al., 2022)
Zdroj: https://arxiv.org/abs/2205.10343
Tato studie se zaměřuje na podmínky, za kterých k grokkingu dochází, a zkoumá, jak modely dokáží najít vzorce, které vedou k náhlému zlepšení. Autoři diskutují, že toto chování nelze zcela vysvětlit standardními statistickými postupy v učení.
4. “Scaling Laws for Neural Language Models” (Kaplan et al., 2020)
Zdroj: https://arxiv.org/abs/2001.08361
Studie ukazuje, že při škálování modelů se objevují nové schopnosti, které nemohly být předvídány pouze z tréninkových dat. Autoři naznačují, že emergentní jevy při škálování přesahují rámec tradiční statistiky.
Snad ještě mám škvaření sádla pod kontrolou. Tedy pokud nemám troubu řízenou AI.
To by nemusel být špatný short sci-fi film. Pečící trouby ovládané AI škvaří sádlo z…