18.06.2022. - Могут ли компьютеры понимать сложные слова и понятия

Могут ли компьютеры понимать сложные слова и понятия

В «Зазеркалье» Шалтай-Болтай с презрением говорит: «Когда я использую слово, оно означает именно то, что я выбираю, — ни больше, ни меньше». Алиса отвечает: «Вопрос в том, можете ли вы заставить слова означать так много разных вещей». Изучение того, что на самом деле означают слова, имеет давнюю историю. Человеческий разум должен анализировать паутину подробной, гибкой информации и использовать здравый смысл, чтобы понять их значение. Теперь возникла новая проблема, связанная со значением слов: ученые изучают, может ли искусственный интеллект имитировать человеческий разум, чтобы понимать слова так, как это делают люди. Новое исследование, проведенное учеными из Калифорнийского университета в Лос-Анджелесе, Массачусетского технологического института и Национального института здравоохранения, посвящено этому вопросу.

В статье, опубликованной в журнале Nature Human Behaviour, сообщается, что системы искусственного интеллекта действительно могут запоминать очень сложные значения слов, и ученые нашли простой прием для извлечения этих сложных знаний. Они обнаружили, что изученная ими система искусственного интеллекта представляет значения слов таким образом, который сильно коррелирует с человеческими суждениями. Система искусственного интеллекта, которую исследовали авторы, в последнее десятилетие часто использовалась для изучения значения слов. Он учится определять значения слов, «читая» астрономические объемы контента в Интернете, охватывающего десятки миллиардов слов.

Когда слова часто встречаются вместе — например, «стол» и «стул», — система узнает, что их значения связаны. И если пары слов встречаются вместе очень редко — например, «стол» и «планета», — он узнает, что они имеют очень разные значения. Такой подход кажется логичной отправной точкой, но подумайте, насколько хорошо люди понимали бы мир, если бы единственным способом понять смысл было подсчитывать, как часто слова встречаются рядом друг с другом, без какой-либо возможности взаимодействовать с другими людьми и окружающей средой. Идан Бланк, доцент кафедры психологии и лингвистики Калифорнийского университета в Лос-Анджелесе и соавтор исследования, сказал, что исследователи намеревались узнать, что система знает о словах, которые она изучает, и какой у нее «здравый смысл».

По словам Бланка, до начала исследования у системы было одно серьезное ограничение: «Что касается системы, каждые два слова имеют только одно числовое значение, которое показывает, насколько они похожи». Напротив, человеческое знание гораздо более детальное и сложное. «Подумайте о наших знаниях о дельфинах и аллигаторах», — сказал Бланк. «Когда мы сравниваем их по шкале размеров, от «маленьких» до «больших», они относительно похожи. С точки зрения их интеллекта они несколько различаются. С точки зрения опасности, которую они представляют для нас, по шкале от «безопасного» до «опасного» они сильно различаются, поэтому значение слова зависит от контекста. «Мы хотели спросить, действительно ли эта система знает об этих тонких различиях — является ли ее идея сходства гибкой, как у людей».

Чтобы это выяснить, авторы разработали технику, которую они назвали «семантической проекцией». Например, можно провести линию между представлениями модели слов «большой» и «маленький» и посмотреть, где на этой линии попадают представления различных животных. Используя этот метод, ученые изучили 52 группы слов, чтобы увидеть, сможет ли система научиться сортировать значения — например, оценивать животных по их размеру или по тому, насколько они опасны для человека, или классифицировать штаты США по погоде или общему богатству. Среди других групп слов были термины, связанные с одеждой, профессиями, спортом, мифологическими существами и именами. Каждой категории было присвоено несколько контекстов или измерений — например, размер, опасность, интеллект, возраст и скорость.

Исследователи обнаружили, что для этих многочисленных объектов и контекстов их метод оказался очень похожим на человеческую интуицию. (Чтобы провести это сравнение, исследователи также попросили группы из 25 человек дать одинаковые оценки каждой из 52 групп слов.) Примечательно, что система научилась понимать, что имена «Бетти» и «Джордж» похожи в том смысле, что они относительно «старые», но представляют разные полы. И что «тяжелая атлетика» и «фехтование» похожи в том, что оба они обычно проводятся в помещении, но различаются с точки зрения того, сколько интеллекта они требуют. «Это очень простой и интуитивно понятный метод», — сказал Бланк. «Граница между «большим» и «маленьким» подобна ментальной шкале, и мы помещаем животных на эту шкалу».

Бланк сказал, что на самом деле он не ожидал, что техника сработает, но был рад, когда она сработала. «Оказывается, эта система машинного обучения намного умнее, чем мы думали; она содержит очень сложные формы знаний, и эти знания организованы в очень интуитивно понятную структуру», — сказал он. «Просто отслеживая, какие слова сочетаются друг с другом в языке, вы можете многое узнать о мире». Соавторами исследования являются когнитивный нейробиолог Массачусетского технологического института Эвелина Федоренко, аспирант Массачусетского технологического института Габриэль Гранд и Франсиско Перейра, возглавляющий группу машинного обучения в Национальном институте психического здоровья Национального института здравоохранения.

Источник