07.04.2025. - Роботы теперь так же умны, как и люди

Роботы теперь так же умны, как и люди

Чат-боты с искусственным интеллектом (ИИ), такие как ChatGPT, были разработаны таким образом, чтобы максимально точно воспроизводить человеческую речь для улучшения взаимодействия с пользователем. Но по мере того, как искусственный интеллект становится все более совершенным, становится все труднее отличать эти компьютерные модели от реальных людей.

Ученые из Калифорнийского университета в Сан-Диего (UCSD) сообщают, что два ведущих чат-бота достигли важного рубежа.

Как GPT, который поддерживает функцию ChatGPT в OpenAI, так и LLaMa, которая стоит за Meta AI в WhatsApp и Facebook, прошли знаменитый тест Тьюринга.

Разработанный британским взломщиком кодов времен Второй мировой войны Аланом Тьюрингом в 1950 году, тест Тьюринга, или "имитационная игра", является стандартной мерой для проверки интеллекта машины.

Искусственный интеллект проходит тест, когда человек не может правильно определить разницу между ответом другого человека и ответом ИИ.

"Полученные результаты являются первым эмпирическим доказательством того, что любая искусственная система проходит стандартный трехсторонний тест Тьюринга", - говорят ученые UCSD.

"Если следователи не в состоянии надежно отличить человека от машины, то считается, что машина прошла проверку".

Исследователи использовали четыре модели искусственного интеллекта – GPT-4.5 (выпущенную в феврале), предыдущую версию под названием GPT-4o, флагманскую модель Meta LLaMa и чат-программу 1960-х годов ELIZA.

Первые три – это "большие языковые модели" (LLM) - алгоритмы глубокого обучения, которые могут распознавать и генерировать текст на основе знаний, полученных из массивных наборов данных.

Эксперты набрали 126 студентов-старшекурсников из Калифорнийского университета в Сан-Диего и 158 человек из онлайн-пула данных Prolific.

Участники вели пятиминутные онлайн-беседы одновременно с другим участником–человеком и одним из ИИ, но они не знали, кто есть кто, и им приходилось решать, кого из них они считают человеком.

Когда ему было предложено принять человеческий облик, GPT-4.5 был признан человеком в 73 процентах случаев – чаще, чем выбирался реальный участник-человек.

Такой высокий процент говорит о том, что у людей было больше шансов определить, является ли GPT-4.5 человеком или машиной.

Между тем, лама-3.1 из Meta, когда ей также предложили принять человеческий облик, была признана человеком в 56 процентах случаев.

Команда отмечает, что это было "ненамного чаще или не реже, чем у людей, с которыми их сравнивали", но все равно считается достижением.

Наконец, в базовых моделях (ELIZA и GPT-4o) процент выигрышей был значительно ниже случайного – 23% и 21% соответственно.

Исследователи также попытались дать моделям более простые подсказки, не прибегая к подробным инструкциям, в которых им предлагалось принять человеческий облик.

Как и ожидалось, модели с искусственным интеллектом в этих условиях работали значительно хуже, что подчеркивает важность того, чтобы чат–боты в первую очередь запрашивали подсказки.

Команда утверждает, что их новое исследование, опубликованное в виде предварительной печати, является "убедительным доказательством" того, что боты OpenAI и Meta прошли тест Тьюринга.

"Это следует рассматривать как одно из многих других доказательств того, что LLMs демонстрирует высокий уровень интеллекта", - сказал ведущий автор Кэмерон Джонс в статье X thread.

Джонс признал, что ИИ показали лучшие результаты, когда их заранее проинструктировали о том, как выдавать себя за человека, но это не значит, что GPT–4.5 и LLaMa не прошли тест Тьюринга.

"Действительно ли ИИ прошли, если им нужна была подсказка? Это хороший вопрос", - сказал он в теме "Х".

"Без каких-либо подсказок LLMS потерпели бы неудачу по тривиальным причинам (например, признались в том, что они являются искусственным интеллектом), и их можно было бы легко настроить так, чтобы они вели себя так, как они ведут себя при появлении запроса, поэтому я думаю, будет справедливо сказать, что LLMS проходят".

В прошлом году другое исследование, проведенное командой, показало, что две предшествующие модели OpenAI – ChatGPT-3.5 и ChatGPT-4 – обманывали участников в 50% и 54% случаев (в том числе, когда им предлагалось принять человеческий облик).

Поскольку GPT-4.5 уже набрал 73%, это говорит о том, что модели ChatGPT все лучше и лучше имитируют людей.

Это происходит спустя 75 лет после того, как Алан Тьюринг представил окончательный тест компьютерного интеллекта в своей основополагающей работе "Вычислительные машины и интеллект".

Тьюринг представил себе, что участник-человек будет сидеть у экрана и разговаривать либо с человеком, либо с компьютером через текстовый интерфейс.

По мнению Тьюринга, если бы компьютер нельзя было отличить от человека по широкому спектру возможных признаков, нам пришлось бы признать, что он так же разумен, как и человек.

С версией эксперимента, в которой вас просят определить разницу между человеком и искусственным интеллектом, можно ознакомиться на сайте turingtest.live.

Тем временем предварительная версия статьи опубликована на онлайн-сервере arXiv и в настоящее время проходит экспертную оценку.

Источник