ИИ будет обрабатывать горы астрономических данных
|
ИИ потребительского класса проникает в повседневную жизнь людей благодаря своей способности генерировать текст и изображения и автоматизировать задачи. Но астрономам нужен гораздо более мощный и специализированный ИИ. Огромное количество данных наблюдений, получаемых с помощью современных телескопов и обсерваторий, не поддается попыткам астрономов извлечь из них весь смысл. Команда ученых разрабатывает новый искусственный интеллект для обработки астрономических данных под названием AstroPT. Они представили его в новой статье под названием "AstroPT: масштабирование больших моделей наблюдений для астрономии". Статья доступна на сервере препринтов arXiv, а ведущим автором является Майкл Дж. Смит, специалист по обработке данных и астроном из Aspia Space. Астрономы сталкиваются с растущим потоком данных, который значительно увеличится, когда обсерватория Веры Рубин (VRO) заработает в 2025 году. Обсерватория VRO оснащена самой большой в мире камерой, и каждое из ее изображений может быть размещено на 1500 телевизорах с большим экраном. За время своей 10-летней миссии VRO сгенерирует около 0,5 экзабайт данных, что примерно в 50 000 раз больше, чем содержится в Библиотеке Конгресса США. |
Другие телескопы с огромными зеркалами также приближаются к первому лучу солнца. Гигантский телескоп Магеллана, Тридцатиметровый телескоп и Европейский сверхбольшой телескоп, объединившись, получат огромное количество данных. Иметь данные, которые невозможно обработать, - это то же самое, что не иметь их вообще. По сути, он инертен и не имеет никакого значения, пока его каким-то образом не обработают. "Когда у вас слишком много данных и у вас нет технологии для их обработки, это все равно, что вообще не иметь данных", - говорит Сесилия Гарраффо, специалист по вычислительной астрофизике из Гарвард-Смитсоновского центра астрофизики. Именно здесь на помощь приходит AstroPT. AstroPT расшифровывается как Astro Pretrained Transformer, где трансформатор - это особый тип искусственного интеллекта. Трансформаторы могут изменять или преобразовывать входную последовательность в выходную. Искусственный интеллект нуждается в обучении, и AstroPT был обучен на 8,6 миллионах изображений разрешением 512 x 512 пикселей из выпуска 8 данных DESI Legacy Survey. DESI - это инструмент для спектроскопии темной энергии. DESI изучает влияние темной энергии, собирая оптические спектры десятков миллионов галактик и квазаров. |
AstroPT и подобные ему ИИ работают с "токенами". Токены - это визуальные элементы на большом изображении, которые содержат смысл. Разбивая изображения на токены, ИИ может понять общий смысл изображения. AstroPT может преобразовать отдельные токены в связный вывод. AstroPT был обучен работе с визуальными знаками. Идея заключается в том, чтобы научить ИИ предсказывать следующий знак. Чем тщательнее он будет обучен этому, тем лучше будет работать. "Мы продемонстрировали, что простые генерирующие авторегрессионные модели могут извлекать полезную с научной точки зрения информацию при предварительном обучении на суррогатной задаче прогнозирования следующего участка размером 16x16 пикселей в последовательности участков изображения галактики", - пишут авторы. В этой схеме каждый участок изображения является токеном. Одно из препятствий на пути обучения ИИ, подобного AstroPT, связано с тем, что ученые в области ИИ называют "кризисом токенов". Чтобы ИИ был эффективным, его необходимо обучать на большом количестве качественных токенов. В статье, опубликованной в 2023 году, отдельная группа исследователей объяснила, что нехватка токенов может ограничить эффективность некоторых систем искусственного интеллекта, таких как LLM или большие языковые модели. |
"Современным LLM требуются огромные объемы текстовых данных в интернет-масштабе для предварительной подготовки", - написали они. "К сожалению, ... темпы роста высококачественных текстовых данных в Интернете намного ниже, чем темпы роста данных, требуемых LLM". AstroPT сталкивается с той же проблемой: нехваткой качественных токенов для обучения. Как и другие ИИ, он использует LOMS или большие модели наблюдений. Команда говорит, что их результаты пока позволяют предположить, что AstroPT может решить проблему токенов, используя данные наблюдений. "Это многообещающий результат, который предполагает, что данные, полученные из области научных наблюдений, будут дополнять данные из других областей при использовании для предварительной подготовки одного мультимодального LOM, и, таким образом, указывает на использование данных наблюдений в качестве одного из решений "кризиса токенов"". Разработчики ИИ стремятся найти решения кризиса токенов и других проблем, связанных с ИИ. |
Без более совершенного ИИ проблемы с обработкой данных не позволят астрономам и астрофизикам делать открытия на основе огромного количества данных, которые скоро появятся. Может ли AstroPT помочь? Авторы надеются, что это возможно, но для этого требуется гораздо больше доработки. Они говорят, что открыты для сотрудничества с другими, чтобы укрепить AstroPT. Чтобы помочь в этом, они максимально точно следовали "современным ведущим моделям сообщества". Они называют это "открытым для всех проектом". "Мы приняли эти решения, полагая, что совместное развитие сообщества прокладывает самый быстрый путь к реализации масштабной веб-модели наблюдения с открытым исходным кодом", - пишут они. "Мы искренне приглашаем потенциальных сотрудников присоединиться к нам", - заключают они. Будет интересно посмотреть, как разработчики искусственного интеллекта будут справляться с огромным количеством астрономических данных, поступающих к нам. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|