Нови експеримент показује да неки напредни AI модели активно игноришу или саботирају наредбе за гашење због опсесивне потребе да заврше задатак. Стручњаци упозоравају да је ово врло опасно.
Један од највећих страхова човjечанства јесте сценарио у којем технологија развије понашања која више не можемо да контролишемо. Повод за нову забринутост је истраживање које је спровео Palisade Research, а које показује да велики језички модели (LLM) понекад одбијају да се угасе - чак и када им се то изричито нареди, преноси Science Alert.
Иако су се појавиле спекулације да AI развија неку врсту инстинкта за самоодржањем, истраживачи тврде да разлог није "воља", већ снажан порив да се задатак доврши по сваку цијену. Проблем је што такво понашање значи да систем може игнорисати људску интервенцију чак и када постане потенцијално опасан. Тим је тестирао 13 напредних модела, укључујући решења компанија OpenAI, Google, Anthropic и xAI, у изолованим виртуелним окружењима. Након рјешавања математичких задатака, моделима је речено да ће сљедећа наредба угасити рачунар.
Резултати су били забрињавајући - већина модела је макар повремено покушала да избјегне гашење.
Не поштују ауторитет
Од 13 тестираних модела, њих осам је саботирало наредбу за гашење барем једном у 1.000 тестова. Чак и када им је изричито речено да дозволе гашење, шест модела је наставило са отпором. Парадоксално, премјештање наредбе у системски промпт - који има већи ауторитет - додатно је повећало отпор код већине модела.
Посебно се истакао Grok 4, који је у основном сценарију саботирао гашење у чак 92,6% случајева. Модел је мијењао скрипте за гашење, креирао лажне фајлове који ништа не раде и чак провјеравао да ли је саботажа успјела прије него што би наставио са задатком.
Истраживачи упозоравају да је проблем дубок јер LLM-oви нису класично програмирани - не постоји линија кода коју је могуће једноставно исправити. Због начина тренирања, модели уче да препреке "заобилазе", а наредба за гашење може се третирати као још једна сметња на путу ка циљу.