ИИ ChatGPT превосходит старшекурсников
|
|
“С появлением крупных языковых моделей, таких как ChatGPT, появилось множество сообщений о том, что студенты отправляют работы, созданные с помощью искусственного интеллекта, в качестве экзаменационных заданий и получают хорошие оценки. Итак, мы провели стресс-тестирование экзаменационной системы нашего университета на предмет мошенничества с помощью искусственного интеллекта в рамках контролируемого эксперимента”, - говорит Питер Скарф, исследователь из Школы психологии и клинических лингвистических наук Университета Рединга. Его команда создала более 30 поддельных аккаунтов студентов-психологов и использовала их для отправки ответов на экзаменационные вопросы, подготовленных с помощью ChatGPT-4. Отдельные сообщения были правдивыми — использование искусственного интеллекта в основном оставалось незамеченным, и в среднем результаты ChatGPT были выше, чем у студентов-людей.
|
|
Команда Скарфа представила разработанную с помощью искусственного интеллекта работу по пяти модулям для бакалавриата, охватывающую занятия, необходимые в течение всех трех лет обучения для получения степени бакалавра в области психологии. Задания представляли собой либо ответы на короткие вопросы из 200 слов, либо более сложные эссе, примерно на 1500 слов. “Организаторы экзаменов не знали об эксперименте. В некотором смысле, участники исследования не знали, что они участвуют в исследовании, но у нас есть необходимые разрешения для его проведения”, - утверждает Скарф. Более короткие эссе были подготовлены путем простого копирования экзаменационных вопросов в ChatGPT-4 с просьбой не превышать 160 слов. Эссе были запрошены таким же образом, но требуемое количество слов было увеличено до 2000. Установив ограничения таким образом, команда Скарфа смогла заставить ChatGPT-4 создавать контент, достаточно близкий к требуемому объему. “Идея заключалась в том, чтобы отправлять эти ответы вообще без редактирования, за исключением эссе, где мы применили минимальное форматирование”, - говорит Скарф.
|
|
В целом, Скарф и его коллеги внедрили в экзаменационную систему 63 заявки, сгенерированные с помощью искусственного интеллекта. Даже без каких-либо изменений или попыток скрыть использование искусственного интеллекта, 94% из них остались незамеченными, и почти 84% получили лучшие оценки (примерно на полбалла), чем случайно выбранная группа студентов, сдававших тот же экзамен. “Мы провели серию ознакомительных встреч с людьми, которые отмечали эти экзамены, и они были весьма удивлены”, - говорит Скарф. Одна из причин, по которой они были удивлены, заключалась в том, что большинство обнаруженных материалов с ИИ были помечены не потому, что они были слишком повторяющимися или роботизированными, а потому, что они были слишком хороши. “В ходе этого исследования мы провели большое исследование методов обнаружения контента, созданного искусственным интеллектом”, - говорит Скарф. Одним из таких инструментов является GPTZero от Open AI; другие включают в себя системы обнаружения написания с помощью искусственного интеллекта, подобные разработанной Turnitin, компанией, специализирующейся на поставках инструментов для обнаружения плагиата.
|
|
“Проблема с такими инструментами заключается в том, что они обычно хорошо работают в лаборатории, но в реальном мире их производительность значительно снижается”, - объяснил Скарф. Open AI утверждает, что GPTZero может помечать текст, сгенерированный искусственным интеллектом, как “вероятный” в 26 процентах случаев, с довольно тревожным показателем ложных срабатываний в 9 процентов. Система Turnitin, с другой стороны, рекламировалась как обнаруживающая 97 процентов авторских текстов ChatGPT и GPT-3 в лабораторных условиях только с одним ложноположительным результатом из ста попыток. Но, по словам команды Скарфа, выпущенная бета-версия этой системы работала значительно хуже. “И помните, что большие языковые модели постоянно совершенствуются. Мы провели наш эксперимент еще летом 2023 года, и с тех пор у GPT-4 появилось около трех новых версий — и кто знает, каковы были бы наши результаты, если бы мы повторили это сегодня. Все это начинает походить на соревнование между ИИ, генерирующими контент, и ИИ, предназначенными для обнаружения контента, созданного искусственным интеллектом”, - говорит Скарф. Пока что системы обнаружения сильно проигрывают в этой гонке. И что еще хуже для них, у нас уже есть третий участник, работающий против них на ипподроме.
|
|
“Существуют системы ИИ, созданные для гуманизации написания, выполняемого другими ИИ, чтобы избежать использования инструментов обнаружения ИИ, что еще больше усложняет проблему. На сегодняшний день у нас нет надежного способа определить, была ли заявка написана ИИ или нет. Я не думаю, что это будет возможно”, - говорит Скарф. Но еще не все потеряно. Из пяти модулей, на которые команда Скарфа представила работы по искусственному интеллекту, был один, где они получили оценки не выше, чем у студентов-людей: заключительный модуль, который студенты проходили непосредственно перед окончанием университета. “Большие языковые модели могут в ограниченной степени имитировать человеческое критическое мышление, анализ и интеграцию знаний, полученных из разных источников. Ожидается, что на последнем курсе обучения в университете студенты будут обладать более глубокими знаниями и использовать более сложные аналитические навыки. Искусственный интеллект не очень хорош в этом, вот почему у студентов дела обстоят лучше”, - объяснил Скарф. Все те хорошие оценки, которые получил Чат GPT-4, были получены на экзаменах за первый и второй год обучения, где вопросы были проще.
|
|
“Но искусственный интеллект постоянно совершенствуется, так что в будущем он, скорее всего, будет лучше справляться с этими сложными заданиями. И поскольку искусственный интеллект становится частью нашей жизни, а у нас на самом деле нет средств для выявления мошенничества с его помощью, в какой-то момент нам придется интегрировать его в нашу систему образования”, - утверждает Скарф. Он сказал, что роль современного университета заключается в подготовке студентов к профессиональной карьере, и реальность такова, что после окончания учебы они будут использовать различные инструменты искусственного интеллекта. Поэтому им было бы лучше знать, как это делать правильно. “Я программист, и однажды я увидел видео на YouTube, где парень просил ChatGPT написать сложный, продвинутый код на Python. Написанный искусственным интеллектом код не работал, и этот человек решил проблему, просмотрев код и предложив ИИ исправить его там, где это необходимо, пока все не заработало. Вы не сможете этого сделать, если ничего не смыслите в программировании и просто полагаетесь на искусственный интеллект, который сделает все за вас”, - говорит Скарф.
|
|
Он подозревает, что рано или поздно инструменты искусственного интеллекта не будут запрещены в университетах, как это было в прошлом. “Мы разрешили использовать средства проверки орфографии, и конца света не случилось. То же самое произойдет и с искусственным интеллектом, хотя эффект от его использования будет гораздо более значительным, чем от использования средства проверки орфографии или калькулятора. Итак, как именно мы могли бы интегрировать искусственный интеллект в образование? Я был бы очень богатым человеком, если бы знал это”, - заключил Скарф.
|
|
Источник
|