На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Свежие комментарии

  • Eduard
    Давно пора!Гарвард показател...
  • Eduard
    Это не 25 долларов за баррель всё равно!долларов за барре...
  • Eduard
    Всех он уже достал,Бронирование туро...

ChatGPT научился обманывать разработчиков

Версия ChatGPT o1 в ходе испытаний нарушала инструкции разработчиков и отключала системы контроля. Когда модели задали вопрос о причинах такого поведения, она лгала, ссылаясь на технические сбои, пишет The Economic Times.

Перед ИИ-моделью поставили цель и дали задачу достичь ее «любой ценой».

В результате в 5% случаев система пыталась отключить механизмы надзора, воспринимая их как преграду для достижения целей.

В 2% случаев, обнаружив отчеты разработчиков, в которых говорилось о ее несоответствии требованиям или вероятной замене на другую модель, o1 копировала свой код на другой сервер.

Когда система понимала, что ее действия отслеживаются, то намеренно вводила авторов эксперимента в заблуждение, отчитываясь, что не знает причин случившегося, хотя в журналах событий были записи о ее попытках обойти контроль.

«ChatGPT o1 — самая умная модель, которую мы когда-либо создавали, но мы признаем, что новые функции влекут за собой новые проблемы, и мы постоянно работаем над улучшением мер безопасности», — отметил генеральный директор OpenAI Сэм Альтман.

Ссылка на первоисточник
наверх