23.04.2025. - Новые модели мыслящего ИИ начали глупеть

Новые модели мыслящего ИИ начали глупеть

Недавно выпущенные OpenAI модели искусственного интеллекта o3 и o4-mini во многих отношениях являются самыми современными. Однако новые модели все еще галлюцинируют или выдумывают что—то - на самом деле, они галлюцинируют чаще, чем некоторые из старых моделей OpenAI.

Галлюцинации оказались одной из самых серьезных и трудноразрешимых проблем в области искусственного интеллекта, влияющей даже на самые эффективные системы на сегодняшний день. Исторически сложилось так, что каждая новая модель немного улучшалась в области галлюцинаций и вызывала меньше галлюцинаций, чем ее предшественница. Но, похоже, к o3 и o4-mini это не относится.

Согласно внутренним тестам OpenAI, o3 и o4-mini, которые являются так называемыми логическими моделями, галлюцинируют чаще, чем предыдущие логические модели компании - o1, o1—mini и o3-mini, а также традиционные “нерассуждающие” модели OpenAI, такие как GPT- 4о.

Возможно, более тревожным является то, что разработчик ChatGPT на самом деле не знает, почему это происходит.

В своем техническом отчете для o3 и o4-mini OpenAI пишет, что “необходимы дополнительные исследования”, чтобы понять, почему галлюцинации усиливаются по мере расширения моделей мышления. O3 и o4-mini работают лучше в некоторых областях, включая задачи, связанные с программированием и математикой. Но поскольку они “предъявляют больше требований в целом”, их часто заставляют предъявлять “более точные требования, а также более неточные / галлюцинаторные требования”, говорится в отчете.

OpenAI обнаружил, что у o3 были галлюцинации в ответ на 33% вопросов в PersonQA, внутреннем тесте компании для измерения точности знаний модели о людях. Это примерно в два раза превышает частоту галлюцинаций в предыдущих моделях рассуждения OpenAI, o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показала еще худшие результаты в PersonQA — галлюцинации наблюдались в 48% случаев.

Стороннее тестирование, проведенное Transluce, некоммерческой исследовательской лабораторией искусственного интеллекта, также выявило доказательства того, что o3 имеет тенденцию выдумывать действия, которые он предпринимал в процессе поиска ответов. В одном из примеров Transluce заметила, что o3 утверждает, что она запустила код на MacBook Pro 2021 года выпуска “вне ChatGPT”, а затем скопировала цифры в свой ответ. Хотя у o3 есть доступ к некоторым инструментам, она не может этого сделать.

“Наша гипотеза заключается в том, что обучение с подкреплением, используемое в моделях серии o, может усугубить проблемы, которые обычно устраняются (но не полностью) стандартными методами постобучения”, - сказал Нил Чоудхури, исследователь Transluce и бывший сотрудник OpenAI, в электронном письме TechCrunch.

Сара Шветтманн, соучредитель Transluce, добавила, что частота галлюцинаций, связанных с o3, может сделать его менее полезным, чем он был бы в противном случае.

Киан Катанфоруш (Kian Katanforoosh), адъюнкт-профессор Стэнфорда и генеральный директор стартапа Workera, специализирующегося на повышении квалификации, рассказал TechCrunch, что его команда уже тестирует o3 в своих рабочих процессах по программированию и что они пришли к выводу, что он на шаг превосходит конкурентов. Однако, по словам Katanforoosh, o3, как правило, выдает нерабочие ссылки на веб-сайты. Модель будет предоставлять ссылку, которая при нажатии на нее не работает.

Галлюцинации могут помочь моделям прийти к интересным идеям и проявить творческий подход в своем “мышлении”, но они также затрудняют продажу некоторых моделей предприятиям на рынках, где точность имеет первостепенное значение. Например, юридической фирме, скорее всего, не понравится модель, которая содержит множество фактических ошибок в контрактах с клиентами.

Одним из многообещающих подходов к повышению точности моделей является предоставление им возможностей веб-поиска. GPT-4o OpenAI с веб-поиском обеспечивает 90%-ную точность в SimpleQA, еще одном тесте точности OpenAI. Потенциально, поиск также может повысить частоту галлюцинаций в моделях рассуждения — по крайней мере, в тех случаях, когда пользователи готовы предоставлять запросы сторонним поисковым системам.

Если расширение масштабов моделей рассуждения действительно приведет к ухудшению галлюцинаций, поиск решения станет еще более актуальным.

“Решение проблемы галлюцинаций во всех наших моделях является постоянной областью исследований, и мы постоянно работаем над повышением их точности и надежности”, - сказал представитель OpenAI Нико Феликс в электронном письме TechCrunch.

В прошлом году индустрия искусственного интеллекта в целом сосредоточилась на моделях рассуждения, после того как методы улучшения традиционных моделей ИИ начали давать все меньшую отдачу. Рассуждения повышают производительность моделей при решении различных задач, не требуя больших объемов вычислений и данных во время обучения. Тем не менее, похоже, что рассуждения также могут привести к усилению галлюцинаций, что создает проблему.

Источник