Версия ChatGPT o1 в ходе испытаний нарушала инструкции разработчиков и отключала системы контроля. Когда модели задали вопрос о причинах такого поведения, она лгала, ссылаясь на технические сбои, пишет The Economic Times.
Перед ИИ-моделью поставили цель и дали задачу достичь ее «любой ценой».
В результате в 5% случаев система пыталась отключить механизмы надзора, воспринимая их как преграду для достижения целей.
В 2% случаев, обнаружив отчеты разработчиков, в которых говорилось о ее несоответствии требованиям или вероятной замене на другую модель, o1 копировала свой код на другой сервер.
Когда система понимала, что ее действия отслеживаются, то намеренно вводила авторов эксперимента в заблуждение, отчитываясь, что не знает причин случившегося, хотя в журналах событий были записи о ее попытках обойти контроль.
«ChatGPT o1 — самая умная модель, которую мы когда-либо создавали, но мы признаем, что новые функции влекут за собой новые проблемы, и мы постоянно работаем над улучшением мер безопасности», — отметил генеральный директор OpenAI Сэм Альтман.
Свежие комментарии