23.08.2024. - Когда ChatGPT используется для списывания на экзаменах

Когда ChatGPT используется для списывания на экзаменах

Поскольку использование генеративного искусственного интеллекта продолжает распространяться на все сферы образования, большая часть беспокойства, связанного с его влиянием на списывание, сосредоточена на эссе, экзаменационных вопросах и других описательных заданиях. Использование инструментов искусственного интеллекта, таких как ChatGPT, для обмана на экзаменах с множественным выбором в значительной степени осталось без внимания.

Химик из Университета штата Флорида является частью исследовательского партнерства, чья последняя работа меняет наши представления об этом типе мошенничества, и их результаты показали, как использование ChatGPT для мошенничества на экзаменах с множественным выбором по общей химии может быть обнаружено с помощью специальных статистических методов. Работа была опубликована в журнале Journal of Chemical Education.

"В то время как многие преподаватели и исследователи пытаются обнаружить мошенничество с помощью искусственного интеллекта в эссе и открытых ответах, например, с помощью Turnitin AI detection, насколько нам известно, это первый случай, когда кто-либо предложил выявлять его использование на экзаменах с множественным выбором", - сказал Кен Хэнсон, доцент из FSU Кафедра химии и биохимии. "Оценив различия в результатах между экзаменами по химии с множественным выбором, проводимыми учащимися и на основе ChatGPT, мы смогли выявить случаи ChatGPT на всех экзаменах с частотой ложных срабатываний, практически равной нулю".

Исследователи собрали предыдущие ответы студентов из Бывшего Советского Союза на экзаменах за пять семестров, ввели в ChatGPT почти 1000 вопросов и сравнили результаты. Среднего балла и необработанной статистики было недостаточно, чтобы определить поведение, подобное поведению ChatGPT, потому что есть определенные вопросы, на которые ChatGPT всегда отвечал правильно или всегда отвечал неправильно, что приводило к общему баллу, который был неотличим от результатов учащихся.

"В этом особенность ChatGPT — он может генерировать контент, но не обязательно правильный", - сказал Хэнсон. "Это просто генератор ответов. Он пытается сделать вид, что знает ответ, и для того, кто не понимает материала, это, вероятно, действительно выглядит как правильный ответ".

Используя статистику соответствия, исследователи зафиксировали параметры способностей и скорректировали результаты, обнаружив, что модель ответов ChatGPT явно отличалась от таковой у студентов.

На экзаменах учащиеся с высокой успеваемостью часто правильно отвечают на сложные и легкие вопросы, в то время как учащиеся со средней успеваемостью, как правило, правильно отвечают на некоторые сложные вопросы и на большинство простых вопросов. Учащиеся с низкой успеваемостью обычно правильно отвечают только на простые вопросы. Но при неоднократных попытках ChatGPT сдать экзамен инструмент искусственного интеллекта иногда отвечал неправильно на все простые вопросы и правильно на все сложные. Хэнсон и Соренсон использовали эти различия в поведении, чтобы определить использование ChatGPT с почти 100-процентной точностью.

Стратегия дуэта, основанная на использовании метода, известного как моделирование по методу Раша, и статистики соответствия, может быть легко применена ко всем чат-ботам с генеративным искусственным интеллектом, которые будут демонстрировать свои собственные уникальные модели, чтобы помочь преподавателям определить, как использовать этих чат-ботов при сдаче экзаменов с множественным выбором.

Это исследование является последней публикацией в рамках семилетнего сотрудничества Хэнсона и инженера по машинному обучению Бена Соренсона.

Хэнсон и Соренсон, которые впервые встретились в третьем классе, оба учились в университете штата Сент-Клауд в Миннесоте, чтобы получить степень бакалавра, и поддерживали связь после того, как начали свою карьеру. Будучи преподавателем в Бывшем университете, Хэнсон заинтересовался тем, как много знаний его студенты извлекли из лекций, курсов и лабораторных работ.

"Я рассказал об этом Бену, который отлично разбирается в статистике, информатике и обработке данных", - сказал Хэнсон, который входит в группу преподавателей Бывшего Советского университета, работающих над повышением успеваемости студентов на курсах gateway STEM, таких как общая химия и алгебра в колледже. "Он сказал, что мы могли бы использовать статистические инструменты, чтобы понять, насколько хороши мои экзамены, и в 2017 году мы начали анализировать экзамены".

Суть этой модели Раша заключается в том, что вероятность правильного ответа учащегося на любой тестовый вопрос зависит от двух факторов: от того, насколько сложным является вопрос, и от способности учащегося ответить на него. В данном случае способности студента зависят от того, каким объемом знаний он обладает и сколько необходимых компонентов требуется для ответа на поставленный вопрос. По словам исследователей, просмотр результатов экзамена таким образом позволяет получить ценную информацию.

"Сотрудничество между Кеном и мной, несмотря на дистанционное взаимодействие, было по-настоящему плавным", - сказал Соренсон. "Наша работа - отличный способ предоставить подтверждающие доказательства, когда педагоги уже могут подозревать, что имеет место мошенничество. Чего мы не ожидали, так это того, что паттерны искусственного интеллекта будет так легко идентифицировать".

Источник