24.04.2022. - ИИ научили делает речь неразборчивой

ИИ научили делает речь неразборчивой

Группа инженеров Колумбийского университета (Нью-Йорк, США) разработала технологию под названием «нейронная маскировка голоса». Алгоритм на базе искусственного интеллекта в реальном времени преобразует речь таким образом, что системы автоматического транскрибирования, то есть преобразования в текст, лишаются возможности её распознавать. Обычно искусственный интеллект обучают более тонкому пониманию естественной человеческой речи и её нюансов, и это палка о двух концах: современные гаджеты стали настолько умными, что успешно справляются с распознавание речи и, как уверены сторонники конспирологических теорий, шпионят за своими пользователями, отправляя данные на серверы техногигантов. Поэтому нью-йоркские инженеры решили создать систему обратного действия. Она в реальном времени добавляет в звучание человеческой речи шум не громче шёпота, который препятствует её автоматическому преобразованию в текст. При этом человек сохраняет способность такую речь понимать.

Работа в режиме реального времени для данной задачи является прорывом. Подобные технологии существовали и раньше, однако они основывались на постобработке уже существующих записей. Карл Вондрик (Carl Vondrick), доцент информатики и один из разработчиков технологии, уточнил, что созданная ими система препятствует транскрибированию 80 % текста — ей не нужно слушать речь до конца, и ей безразлично, какое оборудование используется для прослушивания текста. Миа Шикье (Mia Chiquier), аспирантка и глава группы, описала алгоритм как «превентивную атаку»: система анализирует предыдущие две секунды записи и прогнозирует, какие звуки будут следующими, после чего генерирует звук, способный создать помехи в предсказанной речи, или похожие по звучанию слова. Надёжный способ распознать речь с этим алгоритмом — записать звук и дать прослушать человеку, однако проект направлен только на борьбу с автоматическим транскрибированием в реальном времени. Учёные провели тестирование своей системы и заявили, что она эффективно срабатывает в реальных условиях в разных помещениях с разной геометрией. В текущей версии модель работает с англоязычной речью, и сейчас ведётся работа над поддержкой других языков.

Источник