02.07.2024. - ИИ ChatGPT превосходит старшекурсников

ИИ ChatGPT превосходит старшекурсников

“С появлением крупных языковых моделей, таких как ChatGPT, появилось множество сообщений о том, что студенты отправляют работы, созданные с помощью искусственного интеллекта, в качестве экзаменационных заданий и получают хорошие оценки. Итак, мы провели стресс-тестирование экзаменационной системы нашего университета на предмет мошенничества с помощью искусственного интеллекта в рамках контролируемого эксперимента”, - говорит Питер Скарф, исследователь из Школы психологии и клинических лингвистических наук Университета Рединга. Его команда создала более 30 поддельных аккаунтов студентов-психологов и использовала их для отправки ответов на экзаменационные вопросы, подготовленных с помощью ChatGPT-4. Отдельные сообщения были правдивыми — использование искусственного интеллекта в основном оставалось незамеченным, и в среднем результаты ChatGPT были выше, чем у студентов-людей.

Команда Скарфа представила разработанную с помощью искусственного интеллекта работу по пяти модулям для бакалавриата, охватывающую занятия, необходимые в течение всех трех лет обучения для получения степени бакалавра в области психологии. Задания представляли собой либо ответы на короткие вопросы из 200 слов, либо более сложные эссе, примерно на 1500 слов. “Организаторы экзаменов не знали об эксперименте. В некотором смысле, участники исследования не знали, что они участвуют в исследовании, но у нас есть необходимые разрешения для его проведения”, - утверждает Скарф. Более короткие эссе были подготовлены путем простого копирования экзаменационных вопросов в ChatGPT-4 с просьбой не превышать 160 слов. Эссе были запрошены таким же образом, но требуемое количество слов было увеличено до 2000. Установив ограничения таким образом, команда Скарфа смогла заставить ChatGPT-4 создавать контент, достаточно близкий к требуемому объему. “Идея заключалась в том, чтобы отправлять эти ответы вообще без редактирования, за исключением эссе, где мы применили минимальное форматирование”, - говорит Скарф.

В целом, Скарф и его коллеги внедрили в экзаменационную систему 63 заявки, сгенерированные с помощью искусственного интеллекта. Даже без каких-либо изменений или попыток скрыть использование искусственного интеллекта, 94% из них остались незамеченными, и почти 84% получили лучшие оценки (примерно на полбалла), чем случайно выбранная группа студентов, сдававших тот же экзамен. “Мы провели серию ознакомительных встреч с людьми, которые отмечали эти экзамены, и они были весьма удивлены”, - говорит Скарф. Одна из причин, по которой они были удивлены, заключалась в том, что большинство обнаруженных материалов с ИИ были помечены не потому, что они были слишком повторяющимися или роботизированными, а потому, что они были слишком хороши. “В ходе этого исследования мы провели большое исследование методов обнаружения контента, созданного искусственным интеллектом”, - говорит Скарф. Одним из таких инструментов является GPTZero от Open AI; другие включают в себя системы обнаружения написания с помощью искусственного интеллекта, подобные разработанной Turnitin, компанией, специализирующейся на поставках инструментов для обнаружения плагиата.

“Проблема с такими инструментами заключается в том, что они обычно хорошо работают в лаборатории, но в реальном мире их производительность значительно снижается”, - объяснил Скарф. Open AI утверждает, что GPTZero может помечать текст, сгенерированный искусственным интеллектом, как “вероятный” в 26 процентах случаев, с довольно тревожным показателем ложных срабатываний в 9 процентов. Система Turnitin, с другой стороны, рекламировалась как обнаруживающая 97 процентов авторских текстов ChatGPT и GPT-3 в лабораторных условиях только с одним ложноположительным результатом из ста попыток. Но, по словам команды Скарфа, выпущенная бета-версия этой системы работала значительно хуже. “И помните, что большие языковые модели постоянно совершенствуются. Мы провели наш эксперимент еще летом 2023 года, и с тех пор у GPT-4 появилось около трех новых версий — и кто знает, каковы были бы наши результаты, если бы мы повторили это сегодня. Все это начинает походить на соревнование между ИИ, генерирующими контент, и ИИ, предназначенными для обнаружения контента, созданного искусственным интеллектом”, - говорит Скарф. Пока что системы обнаружения сильно проигрывают в этой гонке. И что еще хуже для них, у нас уже есть третий участник, работающий против них на ипподроме.

“Существуют системы ИИ, созданные для гуманизации написания, выполняемого другими ИИ, чтобы избежать использования инструментов обнаружения ИИ, что еще больше усложняет проблему. На сегодняшний день у нас нет надежного способа определить, была ли заявка написана ИИ или нет. Я не думаю, что это будет возможно”, - говорит Скарф. Но еще не все потеряно. Из пяти модулей, на которые команда Скарфа представила работы по искусственному интеллекту, был один, где они получили оценки не выше, чем у студентов-людей: заключительный модуль, который студенты проходили непосредственно перед окончанием университета. “Большие языковые модели могут в ограниченной степени имитировать человеческое критическое мышление, анализ и интеграцию знаний, полученных из разных источников. Ожидается, что на последнем курсе обучения в университете студенты будут обладать более глубокими знаниями и использовать более сложные аналитические навыки. Искусственный интеллект не очень хорош в этом, вот почему у студентов дела обстоят лучше”, - объяснил Скарф. Все те хорошие оценки, которые получил Чат GPT-4, были получены на экзаменах за первый и второй год обучения, где вопросы были проще.

“Но искусственный интеллект постоянно совершенствуется, так что в будущем он, скорее всего, будет лучше справляться с этими сложными заданиями. И поскольку искусственный интеллект становится частью нашей жизни, а у нас на самом деле нет средств для выявления мошенничества с его помощью, в какой-то момент нам придется интегрировать его в нашу систему образования”, - утверждает Скарф. Он сказал, что роль современного университета заключается в подготовке студентов к профессиональной карьере, и реальность такова, что после окончания учебы они будут использовать различные инструменты искусственного интеллекта. Поэтому им было бы лучше знать, как это делать правильно. “Я программист, и однажды я увидел видео на YouTube, где парень просил ChatGPT написать сложный, продвинутый код на Python. Написанный искусственным интеллектом код не работал, и этот человек решил проблему, просмотрев код и предложив ИИ исправить его там, где это необходимо, пока все не заработало. Вы не сможете этого сделать, если ничего не смыслите в программировании и просто полагаетесь на искусственный интеллект, который сделает все за вас”, - говорит Скарф.

Он подозревает, что рано или поздно инструменты искусственного интеллекта не будут запрещены в университетах, как это было в прошлом. “Мы разрешили использовать средства проверки орфографии, и конца света не случилось. То же самое произойдет и с искусственным интеллектом, хотя эффект от его использования будет гораздо более значительным, чем от использования средства проверки орфографии или калькулятора. Итак, как именно мы могли бы интегрировать искусственный интеллект в образование? Я был бы очень богатым человеком, если бы знал это”, - заключил Скарф.

Источник