ИИ оценил сложность текстов на русском языке
|
|
Ученые из Казанского федерального университета, Университета Иннополис совместно с коллегами из Национального политехнического института Мексики сравнили результаты применения машинного обучения с результатами, полученными по формулам удобочитаемости, в основе которых лежат длина предложения и длина слова. Оказалось, что машинное обучение намного лучше показывает, будет ли текст на русском языке понятен заданной целевой аудитории. Статья, посвященная работе, опубликована в Journal of Intelligent & Fuzzy Systems.
|
|
«Мы впервые предложили математически обоснованный и экспериментально доказанный метод оценки читаемости текстов на русском языке, в частности, учебных материалов. Это может помочь в повышении уровня обучения в России, в продвижении нашей страны в международном рейтинге образования», — подчеркнул один из авторов статьи, профессор Казанского федерального университета Валерий Соловьев.
|
|
Наиболее популярным методом для оценки сложности текста считается использование индексов удобочитаемости. Они помогают определить, насколько текст легко читать и понимать. Наиболее часто используемые — это индекс Флеша (FRE) и индекс Флеша–Кинкейда (FKG), изначально созданные для английского языка, но впоследствии адаптированные и для русского. Они рассчитываются по формулам читаемости, но с их помощью можно проанализировать текст не более чем по двум критериям, таким как количество слов в предложении и количество слогов в слове. Однако двух критериев недостаточно для глубокого текстового анализа: удобочитаемость текста обеспечивается десятками параметров.
|
|
Исследователи, поддержанные грантом Российского научного фонда, решили использовать современные методы, которые позволят учесть гораздо большее число критериев. Для тестирования системы ученые выбрали школьные учебники по обществознанию для 5–11 классов, так как в них было меньше всего картинок и схем. Тексты учебников разделили на группы, каждую из которых анализировали по нескольким критериям: количество слов в предложении, количество слогов в слове, частота встречаемости длинных слов, содержание различных частей речи, доля слов в именительном и родительном падеже и прочее — всего было отобрано 11 параметров, влияющих на сложность восприятия текста. Например, чем меньше в тексте слов из большого количества слогов и чем больше глаголов, тем он легче будет читаться. Анализ групп проводился с помощью нейросетей.
|
|
По результатам исследования ученые выявили наиболее эффективный метод машинного обучения и подобрали оптимальные настройки для него: лучшие результаты для самых длинных текстов получили при анализе полного набора признаков. Таким способом можно оценить академический текст по целому ряду критериев и сделать более точный вывод о соответствии учебных материалов уровню восприятия учеников, чем при использовании индексов удобочитаемости.
|
|
Исследователи провели сравнение результатов своей работы с выводами других исследований, в которых оценивалась сложность текстов. Оказалось, что в этом случае с помощью машинного обучения уровень оценить гораздо проще. Это связано с тем, что сложность текста для русскоговорящего человека определяется не столько свойствами самого текста, сколько особенностями читающего, например, его словарным запасом. В то же время иностранец, знающий язык на определенном уровне, будет нуждаться в тексте, содержащем в основном известные ему слова и грамматические конструкции.
|
|
Источник
|