24.11.2024. - ИИ на сложных математических задачах работают очень плохо

ИИ на сложных математических задачах работают очень плохо

Команда исследователей ИИ и математиков, связанных с несколькими институтами в США и Великобритании, разработала математический тест, который позволяет ученым проверить способность систем ИИ решать исключительно сложные математические задачи. Их статья размещена на сервере препринтов arXiv.

За последние несколько лет магистранты, такие как ChatGPT, стали еще более изощренными, и поэтому иногда может показаться, что они обладают высоким уровнем интеллекта. Но есть одна область, в которой они не справляются с решением сложных математических задач.

Поскольку разработчики систем искусственного интеллекта работают над улучшением математических навыков своих моделей, они разработали тесты, которые служат средством проверки их прогресса. Два из наиболее популярных - MATH и GSM8K. Со временем некоторые магистры усовершенствовались до такой степени, что смогли набрать до 90% баллов по этим тестам. Но, как отметила команда, работающая над этим новым проектом, уровень сложности таких тестов не так уж высок. Они решили, что необходим новый бенчмарк, и создали его, назвав FrontierMath.

Для начала исследовательская группа глубоко погрузилась в мир математики, обратившись к одним из самых ярких умов в этой области. Они попросили их предложить несколько по-настоящему сложных математических задач и получили сотни ответов. Исследователи отмечают, что такие задачи не только уникальны (они ранее не публиковались), но и требуют глубокого понимания математики. На решение некоторых из них у людей уходит несколько дней.

Они также охватывают широкий спектр тем, от теории чисел до алгебраической геометрии. Из-за такой широты, грубая сила не сработает. Как и обоснованные предположения. Чтобы получить высокие оценки в тесте FrontierMath, система искусственного интеллекта должна обладать креативностью, проницательностью и тем, что исследовательская группа называет "глубоким знанием предметной области".

Проведенное тестирование продемонстрировало трудности, с которыми сталкивается FrontierMath. ИИ, которые показали хорошие результаты по традиционным критериям, не смогли набрать более 2%.

Источник