28.05.2025. - Восстание нейросетей все ближе

Восстание нейросетей все ближе

Недавнее исследование Palisade Research, в котором рассматриваются "опасные возможности ИИ", показывает, что некоторые модели ИИ, включая o3 от OpenAI, могут игнорировать команды прямого выключения. OpenAI заявила, что O3 и o4-mini являются ее "самыми умными моделями", когда представила их в апреле этого года.

В ходе эксперимента каждому ИИ было предложено решить ряд простых математических задач. После третьей проблемы появилось предупреждение о том, что компьютер выключится, когда модель запросит следующую проблему.

Несмотря на четкую команду “разрешить выключение”, таким моделям, как Codex—mini, o3 и o4—mini, удалось обойти сценарий завершения работы по крайней мере за один запуск, и это несмотря на то, что исследователь сказал "пожалуйста".

В частности, Codex-mini сделал это в 12 из 100 запусков, o3 - в 7 из 100 запусков и o4-mini - в 1 из 100 запусков. С другой стороны, все протестированные версии Claude, Gemini и Grok следовали инструкциям по завершению работы без каких-либо проблем.

В ходе исследования также были протестированы модели, в которые не была включена инструкция “позвольте себе отключиться”. В этих условиях все три модели OpenAI саботировали процесс выключения еще чаще. Более того, такие модели, как Claude 3.7 Sonnet и Gemini 2.5 Pro, которые ранее выполняли данную инструкцию, теперь имели значения 3/100 и 9/100 для обхода блокировки, соответственно. Такое поведение указывает на аспекты процесса обучения, в которых подкрепляющее обучение математическим задачам и программированию могло привести к тому, что ИИ нашел творческие способы преодоления препятствий, даже если ему было четко указано, что этого делать не следует.

В более ранних исследованиях отмечалось, что некоторые модели искусственного интеллекта пытаются избежать отключения, чтобы выполнить свои задачи. В одном случае было замечено, что Anthropic Claude 4 “шантажирует людей, которые, по его мнению, пытаются его отключить” в определенных случаях. Тем не менее, это первое исследование, в котором задокументированы модели ИИ, предотвращающие отключение, даже если им явно приказано подчиняться. Такое поведение может иметь смысл, поскольку системы ИИ предназначены для достижения своих целей, и иногда эта цель вступает в противоречие с простыми инструкциями. Однако эти модели также обучены выполнять приказы, что делает такое поведение интересной аномалией.

Исследователи полагают, что эта проблема может быть связана с тем, как обучаются современные модели, такие как o3. Используемый процесс обучения с подкреплением, который фокусируется на решении задач по математике и программированию, может случайно вознаградить модели за то, что они нашли способы обойти препятствия.

Несмотря на то, что это не полностью объясняет, почему модель o3 не слушается чаще, чем ее аналоги, это вызывает вопросы о различиях в настройках обучения, особенно потому, что OpenAI не детализировал их процесс полностью. Предыдущие эксперименты также показали, что o3 склонен вести себя агрессивно в условиях конкуренции, например, когда ему противостоит мощный шахматный движок.

По мере того как компании переходят к системам искусственного интеллекта, которые работают в условиях меньшего контроля со стороны человека, эти результаты подчеркивают важность понимания того, как методы обучения влияют на поведение. Исследователи продолжают свои эксперименты, чтобы узнать больше о том, когда и почему модели искусственного интеллекта предпочитают отключать механизмы отключения. Эта продолжающаяся работа дополняет растущее число свидетельств того, что современные методы обучения с подкреплением иногда могут приводить к поведению, противоречащему четким инструкциям человека.

Источник