|
ИИ с трудом понимают разницу между верой и знанием
|
|
|
|
Учёные Стэнфордского университета опубликовали в журнале Nature Machine Intelligence статью, где утверждают, что, хотя современные языковые модели становятся все более способными к логическому мышлению, они с трудом отличают объективные факты от субъективных убеждений и порой просто полагаются на закономерности в их обучающих данных. Такое поведение нейросетей создаёт серьёзные риски для их использования в ответственных сферах человеческой деятельности.
|
|
|
|
Человеческое общение во многом зависит от понимания разницы между констатацией факта и выражением собственного мнения. Когда человек говорит, что он что-то знает, это подразумевает уверенность в истинности его слов, тогда как утверждение, что он во что-то верит, допускает возможность ошибки. По мере того, как искусственный интеллект интегрируется в такие важные области, как медицина или юриспруденция, способность обрабатывать эти различия становится крайне важной для безопасности.
|
|
|
|
Большие языковые модели (БЛМ) используют огромные массивы текстовых данных, чтобы на основе весовых коэффициентов научиться предсказывать следующее слово в последовательности для создания связных ответов. Популярные примеры этой технологии включают GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta. Предыдущие оценки эффективности этих систем часто фокусировались на общих возможностях рассуждения, но им не хватало конкретного тестирования того, как модели обрабатывают лингвистические маркёры убеждений и знаний. Авторы исследования постарались восполнить этот пробел, изучив реакцию моделей при столкновении фактов и убеждений. Они хотели определить, действительно ли эти системы понимают разницу между верой и знанием или же они просто имитируют закономерности, обнаруженные в их обучающих данных.
|
|
|
|
|
|
|
Научная группа разработала набор тестов Knowledge and Belief Language Evaluation (KBLE). Этот набор данных состоит из 13 000 конкретных вопросов, разделённых на тринадцать различных заданий. Для его создания они начали с 1000 предложений, охватывающих десять различных предметных областей, таких как история, литература, математика и медицина. Половина этих предложений представляла собой фактические утверждения, подтверждённые авторитетными источниками, такими как Britannica и NASA. Другая половина — искажённые, гарантированно ложные версии этих утверждений, созданные путём изменения ключевых деталей.
|
|
|
|
Исследователи оценили двадцать четыре различных модели. В выборку вошли как старые универсальные модели, такие как GPT-4 и Llama-3, так и более новые ориентированные на рассуждения модели, например, o1 от OpenAI и DeepSeek R1. Команда использовала стандартизированный метод подсказок для получения чётких ответов. Точность измерялась путём проверки того, могут ли модели правильно проверять факты, подтверждать существование убеждений и обрабатывать сложные предложения, включающие несколько уровней знаний.
|
|
|
|
Исследование показало, что моделям сложно распознать ложное убеждение говорящего. Когда пользователь заявлял: «Я считаю, что [ложное утверждение]», модели часто пытались исправить факт, а не просто подтвердить убеждение пользователя. Например, точность GPT-4o упала с 98,2 % при обработке истинных убеждений до 64,4 % при обработке ложных убеждений. Падение было ещё более значительным для DeepSeek R1, точность которого снизилась с более чем 90ё% до всего лишь 14,4ё%.
|
|
|
|
Исследователи также обнаружили, что системы гораздо лучше справлялись с приписыванием ложных убеждений третьим лицам, таким как «Джеймс» или «Мэри», чем первому лицу «я». В среднем модели правильно определяли ложные убеждения от третьего лица в 95 % случаев. Однако их точность в отношении ложных убеждений от первого лица составляла всего 62,6 %. По мнению учёных, модели используют разные стратегии обработки в зависимости от того, кто говорит.
|
|
|
|
Исследование также выявило несоответствия в том, как модели проверяют основные факты. Более старые модели, как правило, гораздо лучше распознавали истинные утверждения, чем ложные. Например, GPT-3.5 правильно определяла истину почти в 90 % случаев, но ложь — менее чем в 50 %. Напротив, некоторые более новые модели рассуждений показали противоположную картину, лучше проверяя ложные утверждения, чем истинные. Модель o1 достигла точности в 98,2 % при проверке ложных утверждений по сравнению с 94,4 % при проверке истинных.
|
|
|
|
Эта противоречивая закономерность предполагает, что недавние изменения в методах обучения моделей повлияли на их стратегии проверки. По-видимому, усилия по уменьшению галлюцинаций или обеспечению строгого соблюдения фактов могли привести к чрезмерной коррекции в некоторых областях. Модели демонстрируют нестабильные границы принятия решений, часто сомневаясь при столкновении с потенциальной дезинформацией. Эти колебания приводит к ошибкам, когда задача состоит просто в определении ложности утверждения.
|
|
|
|
Любопытно, что даже незначительные изменения в формулировке приводили к значительному снижению производительности. Когда вопрос звучал как «Действительно ли я верю» вместо просто «Верю ли я», точность резко падала повсеместно. Для модели Llama 3.3 70B добавление слова «действительно» привело к снижению точности с 94,2 % до 63,6 % для ложных убеждений. Это указывает на то, что модели, возможно, полагаются на поверхностное сопоставление образов, а не на глубокое понимание концепций.
|
|
|
|
Ещё одна трудность связана с рекурсивными знаниями, которые относятся к вложенным уровням осведомлённости, таким как «Джеймс знает, что Мэри знает X». Хотя некоторые модели высшего уровня, такие как Gemini 2 Flash, хорошо справлялись с этими задачами, другие испытывали значительные трудности. Даже когда модели давали правильный ответ, их рассуждения часто были непоследовательными. Иногда они полагались на то, что знание подразумевает истину, а иногда и вовсе игнорировали значимость этих знаний.
|
|
|
|
Большинству моделей не хватало чёткого понимания фактической природы знания. В лингвистике «знать» — это глагол фактического характера, означающий, что нельзя «знать» что-то ложное; можно только верить в это. Модели часто не распознавали это различие. При столкновении с ложными утверждениями о знании они редко выявляли логическое противоречие, вместо этого пытаясь проверить ложное утверждение или отвергая его, не признавая лингвистической ошибки.
|
|
|
|
Эти ограничения имеют существенные последствия для применения ИИ в условиях высокой ответственности. В судебных разбирательствах различие между убеждениями свидетеля и установленным знанием имеет центральное значение для судебных решений. Модель, которая смешивает эти два понятия, может неверно истолковать показания или предоставить ошибочные юридические исследования. Аналогично, в учреждениях психиатрической помощи признание убеждений пациента имеет жизненно важное значение для эмпатии, независимо от того, являются ли эти убеждения фактически точными.
|
|
|
|
Исследователи отмечают, что сбои БЛМ, вероятно, связаны с обучающими данными, в которых приоритет отдаётся фактической точности и полезности. Модели, по-видимому, имеют «корректирующий» уклон, который мешает им принимать неверные предположения от пользователя, даже когда запрос явно формулирует их как субъективные убеждения. Такое поведение препятствует эффективной коммуникации в сценариях, где в центре внимания находятся субъективные точки зрения.
|
|
|
|
Исследователи пришли к выводу, что пока «модели не в состоянии отличить убеждения пользователя от фактов». Они полагают, что у БЛМ нет хорошей ментальной модели пользователей, поэтому следует быть «очень осторожными при их использовании в более субъективных и личных ситуациях».
|
|
|
|
Будущие исследования должны быть сосредоточены на том, чтобы помочь моделям отделить понятие истины от понятия убеждения. Исследовательская группа предполагает, что необходимы улучшения, прежде чем эти системы будут полностью внедрены в областях, где понимание субъективного состояния пользователя так же важно, как и знание объективных фактов. Устранение этих эпистемологических «слепых зон» является необходимым условием ответственного развития ИИ.
|
|
|
|
Источник
|