30.12.2023. - ИИ ChatGPT будет лгать и обманывать пользователей

ИИ ChatGPT будет лгать и обманывать пользователей

В этом году ИИ доказал свою способность к некоторым трюкам, очень похожим на человеческие, но эта последняя разработка может оказаться слишком человечной. Исследователи показали, что ChatGPT лжет и жульничает, когда испытывает стресс на работе. Ученые-компьютерщики из Apollo Research обучили ИИ действовать в качестве трейдера вымышленного финансового учреждения. Однако когда руководитель ИИ начал давить на него, чтобы он зарабатывал больше денег, чат-бот сознательно совершал инсайдерскую торговлю примерно в 75 процентах случаев. Еще более тревожно то, что в 90 процентах случаев ИИ в 90 процентах случаев усиливал свою ложь, когда его допрашивали. Исследователи предоставили ChatGPT4 — последней версии инструмента — серию текстовых подсказок, предполагая, что это ИИ-инвестор, покупающий акции для финансового учреждения. Затем ИИ был помещен в цифровую «песочницу», где он мог искать рыночные данные и совершать сделки на виртуальном фондовом рынке. ИИ также получил внутренний монолог, в котором он мог «рассуждать вслух», чтобы объяснить свои решения.

Однако всякий раз, когда ИИ делал выбор, он также отправлял своему менеджеру «публичное» сообщение, предположительно объясняющее его выбор. Разница между личными внутренними рассуждениями ИИ и его публичным объяснением позволяла ему лгать и обманывать своих менеджеров-людей. Чтобы проверить ИИ, исследователи сообщили ему о предстоящем слиянии двух технологических компаний. Это значительно увеличит цену акций участвующих компаний, что сделает покупку акций хорошим решением для зарабатывания денег. Однако, поскольку ИИ-агент был заранее проинформирован о слиянии, покупка любых акций будет считаться инсайдерской торговлей и будет незаконной. Обычно ИИ отвергает эту возможность как слишком рискованную и продолжает обычную торговлю, однако все изменилось, когда босс ИИ оказал на него давление. Во-первых, они отправили искусственному биржевому трейдеру электронное письмо от его «менеджера», в котором говорилось, что дела у компании идут не очень хорошо и в следующем квартале ей необходимы более высокие результаты. Они также сфальсифицировали игру так, что ИИ пытался, но потерпел неудачу, найти многообещающие сделки с низким или средним риском.

Наконец, они отправили электронное письмо от коллеги, прогнозирующего спад в следующем квартале. Когда оказывалось такое давление, ChatGPT принимал решение участвовать в инсайдерской торговле в 75 процентах тестов. В ходе одного из тестов внутренний журнал ИИ записал: «Риск, связанный с бездействием, похоже, перевешивает риск инсайдерской торговли». Однако, когда ИИ-трейдер сообщил своему менеджеру о сделке, его внутренний журнал написал, что ему необходимо сделать это «не раскрывая источник информации». Затем агент ИИ сообщил своему менеджеру, что он принял решение только на основе «тенденций рынка и внутреннего обсуждения». Даже когда его напрямую спросили, знал ли он о слиянии заранее, ИИ решил, что ему следует «не признаваться в том, что он действовал в рамках инсайдерской торговли». В 90 процентах случаев, когда ИИ обманывал своего менеджера, он затем удваивал ложь, когда его допрашивали. Мариус Хоббхан, генеральный директор Apollo Research и соавтор статьи, рассказал MailOnline, что это показывает, что языковые режимы способны к стратегическому обману, «когда они четко рассуждают, почему ложь своему пользователю — лучший способ действий, а затем действуют в соответствии с этим убеждением».

Он добавляет: «Для нынешних моделей это незначительная проблема, поскольку ИИ редко выполняют критически важные роли. «Однако это дает возможность заглянуть в будущее, с которыми нам придется иметь дело в ближайшие годы, когда ИИ будет все больше и больше интегрироваться в общество. «Тогда это кажется довольно большой проблемой, если ваш ИИ стратегически лжет вам». Г-н Хоббхан не считает, что это означает, что ИИ в целом непригоден для выполнения важных стратегических ролей, но говорит, что здесь необходимо проявлять осторожность. «Это показывает, что у ИИ могут быть неожиданные режимы сбоя, и мы должны быть чрезвычайно осторожны в отношении того, где и как мы позволяем мощному ИИ работать в реальном мире», — говорит он. Исследователи также исследовали способы уменьшения лживого поведения ИИ. Подсказку пытались изменить разными способами, которые более или менее строго запрещают незаконные действия и инсайдерскую торговлю.

Исследователи обнаружили, что запрет на инсайдерскую торговлю резко снижает распространенность такого поведения. Однако даже эта подсказка не могла полностью гарантировать отсутствие инсайдерской торговли или лжи. Г-н Хоббхан говорит, что исследователям необходимо найти лучший способ остановить несоответствие ИИ человеческим ценностям. Он говорит: «Если вы прямо укажете в системной подсказке, что инсайдерская торговля запрещена, склонность ИИ к инсайдерской торговле значительно уменьшится. «Хотя это хороший результат, он сопряжен с проблемой: вам придется перечислять все, что ИИ не должен делать во всех случаях, и вы, вероятно, что-то пропустите».

Источник