Возьмут ли трансформеры верх над ИИ
Представьте, что вы идете в местный хозяйственный магазин и видите на полке новый вид молотка. Вы слышали об этом молотке: Он бьет быстрее и точнее, чем другие, и за последние несколько лет он вывел из употребления многие другие молотки, по крайней мере, в большинстве случаев. И это еще не все! С помощью нескольких настроек - насадка здесь, поворот там - инструмент превращается в пилу, которая может пилить по крайней мере так же быстро и так же точно, как любой другой инструмент. На самом деле, некоторые эксперты, работающие на рубеже развития инструментов, говорят, что этот молоток может стать предвестником слияния всех инструментов в единое устройство.
Аналогичная история происходит и с инструментами искусственного интеллекта. Этот универсальный новый молоток представляет собой разновидность искусственной нейронной сети - сеть узлов, которые "учатся" выполнять определенную задачу путем обучения на имеющихся данных, - называемую трансформатором. Изначально он был разработан для работы с языком, но недавно начал влиять на другие области ИИ. Трансформер впервые появился в 2017 году в статье, в которой критически заявлялось, что "Внимание - это все, что вам нужно". В других подходах к ИИ система сначала фокусируется на локальных участках входных данных, а затем переходит к целому. Например, в языковой модели сначала группируются близлежащие слова. Трансформатор, напротив, запускает процессы таким образом, чтобы каждый элемент входных данных соединялся, или обращал внимание, с каждым другим элементом. Исследователи называют это "самовниманием". Это означает, что как только трансформатор начинает обучение, он видит следы всего набора данных.
До появления трансформаторов прогресс в решении языковых задач ИИ в значительной степени отставал от развития других областей. "В этой революции глубокого обучения, которая произошла за последние 10 лет или около того, обработка естественного языка была своего рода латеком", - говорит компьютерный ученый Анна Румшиски из Массачусетского университета в Лоуэлле. "Так что НЛП в некотором смысле отставало от компьютерного зрения. Трансформеры изменили ситуацию". Трансформеры быстро стали лидерами в таких приложениях, как распознавание слов, которые сосредоточены на анализе и прогнозировании текста. Это привело к появлению целой волны инструментов, таких как OpenAI's Generative Pre-trained Transformer 3 (GPT-3), который обучается на сотнях миллиардов слов и генерирует последовательный новый текст в тревожной степени.
Успех трансформаторов побудил толпу ИИ задаться вопросом, что еще они могут сделать. Ответ раскрывается сейчас, когда исследователи сообщают, что трансформаторы оказываются удивительно универсальными. В некоторых задачах зрения, таких как классификация изображений, нейронные сети, использующие трансформаторы, оказались быстрее и точнее, чем те, которые их не используют. Появляющиеся работы в других областях ИИ - таких как обработка нескольких видов входных данных одновременно или планирование задач - показывают, что трансформаторы могут справиться с еще большим количеством задач.
"Трансформеры, похоже, действительно могут сыграть решающую роль во многих проблемах машинного обучения, включая компьютерное зрение", - говорит Владимир Халтаков, который работает над компьютерным зрением, связанным с самодвижущимися автомобилями, в компании BMW в Мюнхене. Всего 10 лет назад разрозненные области ИИ мало что могли сказать друг другу. Но появление трансформеров говорит о возможности конвергенции. "Я думаю, что трансформер так популярен, потому что он подразумевает потенциал стать универсальным", - говорит компьютерный ученый Атлас Ванг из Техасского университета в Остине. "У нас есть все основания хотеть попробовать трансформаторы для всего спектра" задач ИИ.
От языка к зрению
Один из самых многообещающих шагов к расширению спектра трансформеров начался всего через несколько месяцев после выхода "Attention Is All You Need". Алексей Досовицкий, компьютерный ученый, работавший в то время в Google Brain Berlin, занимался компьютерным зрением, подполем ИИ, которое фокусируется на обучении компьютеров обработке и классификации изображений. Как и почти все в этой области, он работал со сверточными нейронными сетями (CNN), которые в течение многих лет обеспечивали все значительные скачки вперед в глубоком обучении и особенно в компьютерном зрении.
CNN работают путем многократного применения фильтров к пикселям изображения для создания распознавания признаков. Именно благодаря сверткам фотоприложения могут упорядочить вашу библиотеку по лицам или отличить авокадо от облака. CNN считались незаменимыми для задач зрения.
Досовицкий работал над одной из самых больших проблем в этой области, которая заключалась в масштабировании CNN для обучения на все больших наборах данных, представляющих изображения все более высокого разрешения, без увеличения времени обработки. Но затем он увидел, как трансформаторы вытеснили предыдущие инструменты почти для всех задач ИИ, связанных с языком. "Мы были явно вдохновлены происходящим", - сказал он. "Они получали все эти удивительные результаты. Мы начали думать, сможем ли мы сделать что-то подобное в области зрения". Идея имела определенный смысл - в конце концов, если трансформеры могут обрабатывать большие массивы данных слов, то почему бы им не обрабатывать изображения?
В итоге была создана сеть, получившая название Vision Transformer, или ViT, которую исследователи представили на конференции в мае 2021 года. Архитектура модели была практически идентична архитектуре первого трансформатора, предложенного в 2017 году, с незначительными изменениями, позволяющими ему анализировать изображения вместо слов. "Язык имеет тенденцию быть дискретным", - сказал Румшиски, - "поэтому многие адаптации должны дискретизировать изображение".
Команда ViT знала, что они не могут в точности имитировать языковой подход, так как самовнимание к каждому пикселю было бы непомерно дорогим с точки зрения вычислительного времени. Вместо этого они разделили большое изображение на квадратные единицы, или токены. Размер произвольный, так как токены можно сделать больше или меньше в зависимости от разрешения исходного изображения (по умолчанию это 16 пикселей на сторону). Но обрабатывая пиксели группами и применяя самовнимание к каждой из них, ViT может быстро обрабатывать огромные наборы обучающих данных, выдавая все более точные классификации.
Преобразователь классифицировал изображения с точностью более 90% - результат, намного превосходящий все ожидания Досовицкого, - что позволило ему быстро занять первое место в конкурсе классификации ImageNet - важнейшем соревновании по распознаванию изображений. Успех ViT позволил предположить, что, возможно, конволюты не так фундаментальны для компьютерного зрения, как считали исследователи.
"Я думаю, вполне вероятно, что в среднесрочной перспективе CNN будут заменены трансформаторами зрения или их производными, - сказал Нил Хоулсби из Google Brain Zurich, который работал с Досовицким над созданием ViT. По его словам, эти будущие модели могут быть чистыми трансформаторами или подходами, которые добавляют самовнимание к существующим моделям.
Дополнительные результаты подтверждают эти прогнозы. Исследователи регулярно тестируют свои модели для классификации изображений на базе данных ImageNet, и в начале 2022 года обновленная версия ViT уступала только более новому подходу, сочетающему CNN с трансформаторами. CNN без трансформаторов, давние чемпионы, едва достигли первой десятки.
Как работают трансформаторы
Результаты ImageNet показали, что трансформаторы могут конкурировать с ведущими CNN. Но Майтра Рагху, компьютерный ученый из калифорнийского офиса Google Brain в Маунтин-Вью, хотел узнать, "видят" ли они изображения так же, как CNN. Нейронные сети печально известны как неразборчивые черные ящики, но есть способы заглянуть внутрь - например, изучить вход и выход сети, слой за слоем, чтобы увидеть, как проходят обучающие данные. Группа Рагху сделала именно это, разобрав ViT на части.
Ее группа определила способы, с помощью которых самовнимание приводит к иному способу восприятия в рамках алгоритма. В конечном счете, сила трансформатора исходит из того, как он обрабатывает закодированные данные изображения. "В CNN вы начинаете с очень локального подхода и постепенно обретаете глобальную перспективу", - говорит Рагху. CNN распознает изображение пиксель за пикселем, определяя такие особенности, как углы или линии, прокладывая свой путь от локального к глобальному. Но в трансформерах, благодаря самовниманию, даже самый первый слой обработки информации устанавливает связи между удаленными друг от друга местами изображения (как и в языке). Если подход CNN похож на то, как если бы вы начали с одного пикселя и уменьшили масштаб, то трансформатор медленно приближает все размытое изображение к фокусу.
Это различие проще понять в сфере языка, где трансформаторы были впервые придуманы. Рассмотрим эти предложения: "Сова заметила белку. Она попыталась схватить ее когтями, но достала только кончик хвоста". Структура второго предложения сбивает с толку: К чему относятся эти "это"? CNN, который фокусируется только на словах, расположенных непосредственно вокруг "это", будет бороться, но трансформатор, соединяющий каждое слово с каждым другим словом, сможет определить, что сова сделала захват, а белка потеряла часть своего хвоста.
Теперь, когда стало ясно, что трансформаторы обрабатывают изображения принципиально иначе, чем конволюционные сети, исследователи только больше воодушевились. Универсальность трансформатора в преобразовании данных из одномерной строки, например, предложения, в двумерный массив, например, изображение, позволяет предположить, что такая модель может обрабатывать данные многих других типов. Ванг, например, считает, что трансформатор может стать большим шагом к достижению своего рода конвергенции архитектур нейронных сетей, что приведет к универсальному подходу к компьютерному зрению - а возможно, и к другим задачам ИИ. "Конечно, существуют ограничения для того, чтобы это действительно произошло, - сказал он, - но если существует модель, которая может быть универсальной, когда вы можете поместить все виды данных в одну машину, то, конечно, это очень фантастично".
Грядет конвергенция
Теперь исследователи хотят применить трансформаторы для решения еще более сложной задачи: изобретения новых изображений. Языковые инструменты, такие как GPT-3, могут генерировать новый текст на основе обучающих данных. В работе, представленной в прошлом году, Ванг объединил две модели трансформаторов, пытаясь сделать то же самое для изображений - гораздо более сложной задачи. Когда сеть с двойным преобразованием обучалась на лицах более 200 000 знаменитостей, она синтезировала новые изображения лиц с умеренным разрешением. Придуманные знаменитости впечатляюще реалистичны и, по крайней мере, столь же убедительны, как и те, что созданы CNN, согласно показателю inception score - стандартному способу оценки изображений, созданных нейронной сетью.
Ванг утверждает, что успех трансформатора в создании изображений еще более удивителен, чем успехи ViT в классификации изображений. "Генеративная модель должна синтезировать, должна быть способна добавлять информацию, чтобы выглядеть правдоподобно", - сказал он. И как и в случае с классификацией, трансформативный подход приходит на смену конволюционным сетям.
Рагху и Ванг видят потенциал для нового применения трансформаторов в мультимодальной обработке - модели, которая может одновременно обрабатывать несколько типов данных, таких как необработанные изображения, видео и язык. "Раньше это было сложнее сделать, - говорит Рагху, - из-за изолированного подхода, когда для каждого типа данных была своя специализированная модель. Но трансформаторы предлагают способ объединить несколько источников входных данных. "Существует целая сфера интересных приложений, объединяющих некоторые из этих различных типов данных и изображений". Например, мультимодальные сети могут работать с системой, которая читает по губам человека в дополнение к прослушиванию его голоса. "Можно получить богатое представление как языковой, так и изобразительной информации, - говорит Рагху, - причем гораздо более глубокое, чем это было возможно раньше". Эти лица были созданы сетью на основе трансформатора после обучения на наборе данных из более чем 200 000 лиц знаменитостей.
Предоставлено Атласом Вангом Появившиеся работы показывают, что трансформаторы могут найти применение и в других областях ИИ, включая обучение роботов распознаванию движений человеческого тела, обучение машин распознаванию эмоций в речи и определению уровня стресса на электрокардиограммах. Еще одна программа с трансформаторными компонентами - AlphaFold, которая в прошлом году попала в заголовки газет благодаря своей способности быстро предсказывать структуру белков - задача, которая раньше требовала десятилетия интенсивного анализа.
Компромисс
Это может стать проблемой. "Люди все больше и больше интересуются изображениями с высоким разрешением", - сказал Ванг. Эти расходы на обучение могут стать недостатком для широкого внедрения трансформаторов". Однако Рагху считает, что проблема обучения может быть достаточно просто преодолена с помощью сложных фильтров и других инструментов.
Ванг также отмечает, что, несмотря на то, что визуальные трансформаторы дали толчок новым усилиям по продвижению ИИ вперед - включая его собственные - многие из новых моделей по-прежнему включают в себя лучшие части конволюций. Это означает, что будущие модели, скорее всего, будут использовать оба метода, а не полностью откажутся от CNN, говорит он.
Это также наводит на мысль о манящей перспективе некой гибридной архитектуры, которая использует сильные стороны преобразований таким образом, который сегодняшние исследователи не могут предсказать. "Возможно, нам не стоит спешить с выводом, что трансформатор станет окончательной моделью, - говорит Ванг. Но становится все более вероятным, что трансформатор будет, по крайней мере, частью любого нового супер-инструмента, который появится в ближайшем магазине ИИ".
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

Адмирал бьёт тревогу из-за НЛО

Альберта занимает третье место по аномальным зонам

Астероид Камо'Оалева был выброшен с Луны

ВВС США следят за внеземной деятельностью

Венера дает важные уроки о потенциале жизни

Вселенная и темная материя эволюционировали совместно

Город Богов, брошенный жителями

Дневник подробной хронологии грядущих столетий

Загадочная человеческая челюсть из коллекции Boy's rock

Инопланетяне отложили Судный день

Конгрессмен обвиняет правительство в сокрытии НЛО

Модель формирования экзопланет-изгоев

Новый Нострадамус выдал партию пророчеств

Первый миллисекундный пульсар в центре галактики

Подводные НЛО представляют реальную угрозу

Правительство не хочет рассекретить документы об НЛО

Приливные силы заставили экзопланету излучать тепло

Ранние галактики эволюционировали намного быстрее

Стивен Спилберг всю жизнь был очарован инопланетянами

Трехмерная структура вспышки вокруг черной дыры

В отчете об НЛО указаны две горячие точки

Гигантское озеро лавы на Ио

Давайте поговорим о НЛО

ИИ станет умнее любого человека в 2025 году

Как гамма-всплески порождают свет

МКС стала рассадником бактерий-мутантов

На дне Балтийского моря обнаружено НЛО

НЛО нарушают все законы физики

НЛО перевозят по пустынной дороге на прицепе

Обнаружили 13 штаммов бактерий-мутантов на МКС

Обнаружили самую крупную звездную черную дыру

Очень важно раскрыть данные об НЛО

Паломники сообщили об НЛО в небе Массачусетса

Почему на Марсе выделяется метан

Программа Kona Blue для реинжиниринга НЛО

Раскрытие проекта Aqua

Стоунхендж ориентирован как на Луну, так и на Солнце

Строительным элементам жизни легче формироваться в космосе

Такер Карлсон высмеял утверждения об инопланетянах

Хью Джекман был послан инопланетянами

Матовые стеклянные перегородки - особенности, виды, как выбрать

В районе Красной поляны обнаружили два дольмена

Два охотника стали первыми жертвами болезни оленей

Должно быть место для честного расследования НЛО

Древнейший вулканизм в Солнечной системе

Жители ХМАО засняли НЛО на фоне северного сияния

Загадка странных огней в ночном небе Вены

Китаец прожил 35 лет с просветом аорты

Люди эволюционировали как жуки, а не как позвоночные

Марсоход получил изображения окаменелостей людей

Нашли экзопланету-бродягу земного типа

НЛО в небе над Сызранью

НЛО, трансформации и откровения астронавтов

Ограничение калорий замедлило биологическое старение

Первая буква фамилии студентов определяет успеваемость

Полая Земля, летающие щиты и муравьиные боги

Почему умные люди верят в теории заговора

Сбывающиеся предсказания ясновидящей Ванги

Фрагменты белков могут возникать в космосе

Человек прилетевший с небес

Шамбала и полая Земля в древнем буддизме

Георадар будет искать водные объекты на Юпитере

Дьявольская комета наконец-то стала видна

Затерянный город найден на территории Тонгатапу

ИИ и НАСА борются с изменением климата

Инопланетное существо, выброшенное на австралийский пляж

Какова масса покоящегося нейтрино

НАСА предупреждает о военном присутствии Китая в космосе

НЛО пролетел над красотами Перта

Ортоклаз из свинца - это своего рода загадка

Отчет о программе Kona Blue

Паскагула устраивает вечеринку в честь похищения

Путешественник во времени показал фото из будущего

Самая глубокая дыра в земле была закрыта

Самые странные и неповторимые дома в Огайо

Случаи похищения людей инопланетянами будут изучены

Смертоносная пещера, которая может вызвать пандемию

Такер Карлсон видел свидетельства о подводных НЛО

У человека расплавились пальцы при встрече с НЛО

Увлечение внеземной жизнью восходит к 17-му веку

Черный зверь бродил по полю британского фермера

Встреча с НЛО в школе Ариэль в Зимбабве

Город-призрак, жители которого были вынуждены бежать

Горы и лавовые озера на Ио с высоты птичьего полета

Два неизвестных объекта пролетели мимо МКС

Документальный фильм о похищении в Паскагуле

ИИ VASA1, который может заставить изображения говорить

ИИ изучает планетарный пограничный слой Земли

Инопланетяне украли мои яйцеклетки

Китай осуществляет военные программы в космосе

Книга, предсказавшая катастрофу Титаника

Компания Boston Dynamics представила нового робота

Метеорологи предупреждают о погодных войнах между странами

НЛО залетел в действующий вулкан

Подводя черту под происхождением жизни

Прыщ превратился в опухоль размером с арбуз

Скрытый потенциал РНК в развитии биоинженерии будущего

Состоят ли дюны Титана из кометной пыли

Таинственная механика полета насекомых

Тайна аномалии Балтийского моря наконец-то раскрыта

Хаббл отправляется на поиски небольших астероидов

Гелиевая звезда с самым низким содержанием металлов

Екатеринбуржец выставил на продажу летающую тарелку

Жизнь может существовать в темных водных Европы

Загадка формирования массивных горячих субкарликов

ИИ способен революционизировать кредитование

Инопланетян следует искать на фиолетовых планетах

Инопланетяне похитили яйца у женщины

Метеорит пробил крышу дома

Непрерывные фейковые новости оказывают большее влияние

НЛО влетает в действующий вулкан-портал

НЛО пилотируются духовными сущностями

Океан Энцелада может поддерживать жизнь

Перуанские мумии не являются инопланетянами

Полицейская камера сняла аварийную посадку НЛО

Полярные сияния на холодных коричневых карликах

Попытки AARO вступить в контакт с Дэвидом Грушем

Правительство США намеренно скрывает информацию об НЛО

Разгадка тайн атмосферных рек

США провели испытания управляемого ИИ истребителя

Экстремальные холода в условиях потепления климата

В один прекрасный день ИИ сможет выполнять всю нашу работу

В сеть просочился отчет о встрече ВМС США с НЛО

Давайте поговорим о неопознанных подводных объектах

Доказательства существования инопланетной жизни

Жизнь нужно искать в пурпурных мирах

Жители графства Дербишир взбешены таинственным жужжанием

Как философы воспринимали инопланетную жизнь

Метеорит, пробивший крышу дома во Флориде, прилетел с МКС

Миссия НАСА Солнечный парус готовится к запуску

На протяжении 600 лет манускрипт Войнича остается загадкой

НАСА ищет дешевый способ доставки образцов с Марса

Обнаружена самая массивная черная дыра в нашей галактике

Паранормальные корни программы Пентагона по НЛО

Подтвержден полет аппарата Dragonfly к Титану

Правительство пытается скрыть правду о НЛО

Пурпурные миры населены инопланетянами

Робот-гуманоид Ameca может имитировать человеческую речь

Тестирование технологий для полета на Марс

Человекоподобный НЛО замечен в небе Калифорнии

Я встретил лысых инопланетян–гуманоидов

В небе Калифорнии замечен странный НЛО

Великобритания разрабатывает правила для ИИ

Город богов разрушило мегаземлетрясение

Еще один механизм выживания тихоходок в космосе

Жуткое послание убийцы Зодиака

Квантовый интернет все ближе

Ковчег Завета питал Великую пирамиду Гизы

Морской офицер выражает тревогу по поводу водных НЛО

Нет доказательств существования инопланетных технологий

Новая книга дает представление о космических поисках жизни

Обнаружили близкую массивную черную дыру

Перепись ближайших окрестностей Солнца

Проект по классификации гамма-всплесков

Пурпурный, а не зеленый цвет - цвет жизни на экзопланетах

Стивен Спилберг снимет новый фильм об НЛО

Тайна объекта в форме сердца на поверхности Плутона

Тайна орбитальной нестабильности планет-гигантов

Технология передачи энергии с космических электростанций

Церера таит в себе мрачную тайну

Электричество и батарейки древних египтян

Yeezy Boost 350 v2 Black Черные. Икона Стиля и Инновации

Билл Гейтс поддерживает искусственный интеллект

В небе Калифорнии замечен таинственный объект

В пещерах на Марсе могут находиться инопланетяне

Геолог-любитель получил сильные ожоги от НЛО

Житель Лондона принял вертолет за НЛО

За НЛО отправляйтесь в маленький городок в Висконсине

Звездолеты помогут в поисках новых физических явлений

Интернет может достичь квантовой скорости

Космические силы США готовятся к первой в истории миссии

Министерство обороны публикует документы Kona Blue

Нейтронные звезды нагреваются от аннигиляции темной материи

Нострадамус предсказал войну в 2024 году

Победителем президентских выборов в 2032 году станет робот

Подводные НЛО ставят под угрозу морскую безопасность США

Подводный НЛО сняло исследовательское судно

Проклятая могила с 450 обезглавленными вампирами

Рассекреченный отчет раскрывает дематериализацию НЛО

Тайна высоких уровней энергии в звездных сверхвспышках

Уважаемый астроном не верит в теории заговора об НЛО

Ярчайший гамма-всплеск породила коллапсирующая звезда

Франшиза Pro.Travel. Предпринимательский успех Татьяны Мамаевой

Возвращение денежных средств пострадавшим от брокеров-мошенников. Путь к справедливости

Встреча с НЛО, от которой у человека расплавились пальцы

Детеныш инопланетянина найден в мексиканской пещере

Подписка на новости
Наверх