19.06.2022. - ИИ может найти иголку в миллионе стогов сена

ИИ может найти иголку в миллионе стогов сена

Искусственный интеллект изменил способ ведения науки, позволив исследователям анализировать огромные объемы данных, генерируемых современными научными инструментами. Он может найти иголку в миллионе стогов сена с информацией и, используя глубокое обучение, может учиться на самих данных. ИИ ускоряет прогресс в поиске генов, медицине, разработке лекарств и создании органических соединений. Глубокое обучение использует алгоритмы, часто нейронные сети, обученные на больших объемах данных, для извлечения информации из новых данных. Он сильно отличается от традиционных вычислений с его пошаговыми инструкциями. Скорее, он учится на данных. Глубокое обучение гораздо менее прозрачно, чем традиционное компьютерное программирование, оставляя важные вопросы — чему научилась система, что она знает?

Как профессор химии, я люблю разрабатывать тесты, в которых есть хотя бы один сложный вопрос, расширяющий знания учащихся и определяющий, могут ли они комбинировать разные идеи и синтезировать новые идеи и концепции. Мы придумали такой вопрос для выдающегося детища защитников ИИ, AlphaFold, которая решила проблему сворачивания белков. Белки есть во всех живых организмах. Они обеспечивают клетки структурой, катализируют реакции, транспортируют небольшие молекулы, переваривают пищу и делают многое другое. Они состоят из длинных цепочек аминокислот, как бусинки на нитке. Но для того, чтобы белок выполнял свою работу в клетке, он должен изгибаться и образовывать сложную трехмерную структуру. Этот процесс называется сворачиванием белка. Неправильно свернутые белки могут привести к заболеванию.

В своей речи на вручении Нобелевской премии по химии в 1972 году Кристиан Анфинсен предположил, что трехмерную структуру белка можно рассчитать на основе последовательности его строительных блоков, аминокислот. Точно так же, как порядок и интервалы между буквами в этой статье придают ей смысл и смысл, так и порядок аминокислот определяет идентичность и форму белка, что приводит к его функции. Из-за присущей аминокислотным строительным блокам гибкости типичный белок может принимать примерно 10 в степени 300 различных форм. Это огромное число, больше, чем количество атомов во Вселенной. Тем не менее, в течение миллисекунды каждый белок в организме сворачивается в свою особую форму — самое низкое энергетическое расположение всех химических связей, составляющих белок. Замените всего одну аминокислоту из сотен аминокислот, обычно встречающихся в белке, и он может неправильно сложиться и перестать работать.

В течение 50 лет ученые-компьютерщики безуспешно пытались решить проблему сворачивания белков. Затем в 2016 году DeepMind, дочерняя компания Google Alphabet, занимающаяся искусственным интеллектом, запустила свою программу AlphaFold. В качестве обучающего набора он использовал банк данных белков, который содержит экспериментально определенные структуры более чем 150 000 белков. Менее чем за пять лет AlphaFold преодолела проблему фолдинга белков — по крайней мере, самую полезную ее часть, а именно определение структуры белка по его аминокислотной последовательности. AlphaFold не объясняет, как белки сворачиваются так быстро и точно. Это была крупная победа ИИ, потому что он не только принес огромный научный престиж, но и стал крупным научным достижением, которое могло повлиять на жизнь каждого.

Сегодня, благодаря таким программам, как AlphaFold2 и RoseTTAFold, такие исследователи, как я, могут определять трехмерную структуру белков по последовательности аминокислот, из которых состоит белок, — бесплатно — за час или два. До AlphaFold2 нам приходилось кристаллизовать белки и определять структуры с помощью рентгеновской кристаллографии, процесс, который занимал месяцы и стоил десятки тысяч долларов за структуру. Теперь у нас также есть доступ к базе данных AlphaFold Protein Structure Database, где Deepmind хранит трехмерные структуры почти всех белков, обнаруженных у людей, мышей и более чем 20 других видов. На сегодняшний день они решили более миллиона структур и планируют добавить еще 100 миллионов структур только в этом году. Знания о белках резко возросли. Структура половины всех известных белков, вероятно, будет задокументирована к концу 2022 года, среди них много новых уникальных структур, связанных с новыми полезными функциями.

AlphaFold2 не был разработан для предсказания того, как белки будут взаимодействовать друг с другом, однако он смог смоделировать, как отдельные белки объединяются в большие сложные единицы, состоящие из нескольких белков. У нас был сложный вопрос для AlphaFold: научил ли его структурный тренировочный набор чему-то химии? Может ли он сказать, будут ли аминокислоты реагировать друг с другом — редкое, но важное явление? Я вычислительный химик, интересующийся флуоресцентными белками. Это белки, обнаруженные в сотнях морских организмов, таких как медузы и кораллы. Их свечение можно использовать для освещения и изучения болезней. В банке данных белков насчитывается 578 флуоресцентных белков, из которых 10 «сломаны» и не флуоресцируют. Белки редко атакуют сами себя, этот процесс называется автокаталитической посттрансляционной модификацией, и очень сложно предсказать, какие белки будут реагировать сами с собой, а какие нет.

Только химик со значительным объемом знаний о флуоресцентных белках сможет использовать аминокислотную последовательность, чтобы найти флуоресцентные белки, которые имеют правильную аминокислотную последовательность для прохождения химических превращений, необходимых для того, чтобы сделать их флуоресцентными. Когда мы представили AlphaFold2 с последовательностями 44 флуоресцентных белков, которых нет в банке данных белков, он уложил фиксированные флуоресцентные белки иначе, чем сломанные. Результат нас ошеломил: AlphaFold2 немного выучил химию. Они выяснили, какие аминокислоты в флуоресцентных белках участвуют в химических процессах, которые заставляют их светиться. Мы подозреваем, что обучающий набор белковых данных и множественные выравнивания последовательностей позволяют AlphaFold2 «думать» как химики и искать аминокислоты, необходимые для реакции друг с другом, чтобы сделать белок флуоресцентным.

Складная программа, изучающая некоторые химические элементы из своего тренировочного набора, также имеет более широкие последствия. Что еще можно получить от других алгоритмов глубокого обучения, задавая правильные вопросы? Могут ли алгоритмы распознавания лиц найти скрытые маркеры болезней? Могут ли алгоритмы, предназначенные для прогнозирования моделей расходов среди потребителей, также обнаруживать склонность к мелкому воровству или обману? И самое главное, желательна ли эта возможность — и аналогичные скачки в возможностях других систем ИИ?

Источник