30.12.2023. - Гарри Поттер - инструмент для понимания ИИ

Гарри Поттер - инструмент для понимания ИИ

Более чем через два десятилетия после того, как Дж.К. Роулинг познакомила мир со вселенной волшебных существ, запретных лесов и волшебника-подростка. Гарри Поттер обретает новую актуальность в совершенно другой области литературы: исследованиях искусственного интеллекта. Все большее число исследователей используют бестселлеры о Гарри Поттере для экспериментов с технологиями генеративного искусственного интеллекта, ссылаясь на непреходящее влияние этой серии на массовую культуру, а также на широкий спектр языковых данных и сложную игру слов на ее страницах. Просмотр списка исследований и научных статей, ссылающихся на Гарри Поттера, дает представление о передовых исследованиях в области искусственного интеллекта и некоторых из самых сложных вопросов, стоящих перед этой технологией.

Пожалуй, самый примечательный недавний пример: Гарри, Гермиона и Рон снялись в статье под названием «Кто такой Гарри Поттер?» это проливает свет на новую технику, помогающую большим языковым моделям выборочно забывать информацию. Это задача с высокими ставками для отрасли: крупные языковые модели, на которых работают чат-боты с искусственным интеллектом, строятся на огромных объемах онлайн-данных, включая материалы, защищенные авторским правом, и другой проблемный контент. Это привело к судебным искам и общественному контролю в отношении некоторых компаний, занимающихся искусственным интеллектом. Авторы статьи, исследователи Microsoft Марк Руссинович и Ронен Элдан, заявили, что они продемонстрировали, что модели ИИ можно изменять или редактировать, чтобы удалить любую информацию о существовании книг о Гарри Поттере, включая персонажей и сюжеты, не жертвуя при этом общим решением системы ИИ. -творческие и аналитические способности.

Дуэт сказал, что выбрал эти книги из-за их всеобщей известности. «Мы полагали, что людям в исследовательском сообществе будет легче оценить модель, полученную с помощью нашей методики, и подтвердить для себя, что контент действительно «не изучен», — сказал Руссинович, технический директор Microsoft Azure. «Почти каждый может придумать подсказки для модели, которые проверят, «знает» ли она книги. Даже люди, которые не читали книги, знают об элементах сюжета и персонажах». В другом исследовании исследователи из Вашингтонского университета в Сиэтле, Калифорнийского университета в Беркли и Института искусственного интеллекта Аллена разработали новую языковую модель под названием Silo, которая может удалять данные для снижения юридических рисков. Однако производительность модели значительно снижается, если обучаться только на текстах с низким уровнем риска, таких как книги, защищенные авторскими правами или правительственные документы, говорится в статье, опубликованной ранее в этом году.

Чтобы пойти глубже, исследователи использовали книги о Гарри Поттере, чтобы увидеть, влияют ли отдельные фрагменты текста на производительность системы искусственного интеллекта. Они создали два хранилища данных или коллекции веб-сайтов и документов. В первый вошли все опубликованные книги, кроме первой книги о Гарри Поттере; другой включал все книги серии, кроме второй, и так далее. «Когда книги о Гарри Поттере удаляются из хранилища данных, недоумение усугубляется», — говорят исследователи, имея в виду меру точности моделей ИИ. Исследования ИИ цитируют Гарри Поттера уже как минимум десять лет, но это становится все более распространенным, поскольку ученые и технологи сосредоточились на инструментах ИИ, которые могут обрабатывать естественный язык и реагировать на него соответствующими ответами. Что касается «Гарри Поттера», то «обилие сцен, диалогов, эмоциональных моментов делает его очень актуальным для конкретной области обработки естественного языка», — сказала Лейла Вебе, исследователь Карнеги-Меллона, которая в 2014 году провела серию экспериментов, собирая данные МРТ мозга у людей. чтение историй о Гарри Поттере, чтобы лучше понять механизмы языка.

В arXiv, хранилище научных исследований с открытым доступом, среди недавних статей «Машинное обучение для разработки зелий в Хогвартсе», «Большие языковые модели встречают Гарри Поттера» и «Обнаружение заклинаний в фэнтезийной литературе с помощью искусственного интеллекта на основе трансформера». Даже если Гарри Поттер не является центральным для исследования, он также является любимым литературным источником для исследователей. В одном исследовании, например, работы Роулинг использовались для проверки интеллекта систем искусственного интеллекта, таких как те, которые породили чат-бота ChatGPT, тема, которая вызвала много шума в недавних дебатах. Терренс Сейновски, руководитель лаборатории вычислительной нейробиологии в Институте биологических исследований Солка, утверждает в статье, что чат-боты просто отражают интеллект и предубеждения своих пользователей, как «Зеркало Эризед» в первой книге о Гарри Поттере, которое отражает желания человека. обратно к ним «Гарри Поттер популярен среди молодых исследователей», — сказал Вебе. «Они читали их в детстве или подростковом возрасте, думая о них при выборе письменного или устного корпуса текстов».

Источник