Искусственный интеллект научили распознавать объекты по описанию
|
Инженеры из Массачусетского технологического института (MIT) создали систему машинного обучения, разбивающую картинку на сетку, из которой она вычленяет описанные предметы в реальном времени. Существующие системы распознавания речи вроде Siri требуют больших затрат. Им потребуются тысячи часов аудиозаписей, чтобы различать заложенные транскрипции. При появлении в лексиконе новых слов систему приходится тренировать заново. Для облегчения процесса обучения специалисты MIT создали новый алгоритм. |
За основу они взяли сверточную нейронную сеть (CNN), состоящую из двух частей. Первая анализировала изображения, а другая — спектрограммы (визуальный рисунок аудиозаписей). Материалы двух частей сопоставлялись с корректировкой правильного ответа. Например, картинке А соответствует звуковая подпись А — такое сравнение считается верным. Затем к картинке А подставляют подпись B и множество других ошибочных. В результате система распознает звуковые сигналы, принадлежащие конкретному изображению, и ассоциирует их с определенными словами. |
Для того чтобы искусственный интеллект научился сопоставлять отдельные слова и объекты, исследователи модернизировали обе части алгоритма, добавив библиотеку из 400 тысяч пар картинок с описанием. Теперь первая часть разделяла изображение на сетку из пикселей, а вторая разбивала спектрограмму на сегменты длиною около секунды, в которых помещалось одно или два слова. Система соотносила получившиеся ячейки из пикселей со всеми аудиосегментами одну за другой. Проблема заключалась в том, что в этот раз алгоритм не знал, какая пара правильная, но он смог обучиться самостоятельно, анализируя множество верных пар «картинка — описание». Работу искусственного интеллекта специалисты продемонстрировали на примере изображения с девочкой в голубом платье. Система верно отметила ребенка, маяк и одежду по указанному описанию. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|