23.04.2023. - Система ИИ может генерировать новые белки

Система ИИ может генерировать новые белки

Исследователи Массачусетского технологического института используют искусственный интеллект для разработки новых белков, превосходящих существующие в природе. Они разработали алгоритмы машинного обучения, которые могут генерировать белки с определенными структурными особенностями, которые можно использовать для создания материалов с определенными механическими свойствами, такими как жесткость или эластичность. Такие биологически вдохновленные материалы потенциально могут заменить материалы, изготовленные из нефти или керамики, но с гораздо меньшим углеродным следом.

Исследователи из Массачусетского технологического института, Лаборатории ИИ Watson MIT-IBM и Университета Тафтса использовали генеративную модель, которая представляет собой тот же тип архитектуры модели машинного обучения, который используется в системах ИИ, таких как DALL-E 2. Но вместо того, чтобы использовать ее для создания реалистичных изображения из подсказок на естественном языке, как это делает DALL-E 2, они адаптировали архитектуру модели, чтобы она могла предсказывать аминокислотные последовательности белков, которые достигают определенных структурных целей.

В статье, которая будет опубликована в Chem, исследователи демонстрируют, как эти модели могут создавать реалистичные, но новые белки. Модели, которые изучают биохимические отношения, которые контролируют формирование белков, могут производить новые белки, которые могут обеспечить уникальные приложения, говорит старший автор Маркус Бюлер, профессор инженерии Джерри Макафи и профессор гражданской и экологической инженерии и машиностроения.

Например, этот инструмент можно использовать для разработки пищевых покрытий на основе белков, которые могли бы дольше сохранять продукты свежими и при этом были безопасными для употребления людьми. И модели могут генерировать миллионы белков за несколько дней, быстро предоставляя ученым портфолио новых идей для изучения, добавляет он. «Когда вы думаете о разработке белков, которых природа еще не открыла, это такое огромное пространство для проектирования, что вы не можете просто разобраться с ним с помощью карандаша и бумаги. Вы должны понять язык жизни, как аминокислоты. кодируются ДНК, а затем собираются вместе, чтобы сформировать белковые структуры. До того, как у нас появилось глубокое обучение, мы действительно не могли этого сделать», — говорит Бюлер, который также является сотрудником MIT-IBM Watson AI Lab.

К Бюлеру в работе над статьей присоединились ведущий автор Бо Ни, постдоктор Лаборатории атомной и молекулярной механики Бюлера; и Дэвид Каплан, профессор инженерии семьи Стерн и профессор биоинженерии в Тафтсе. Белки образованы цепочками аминокислот, сложенными вместе в виде трехмерных узоров. Последовательность аминокислот определяет механические свойства белка. Хотя ученые идентифицировали тысячи белков, созданных в ходе эволюции, по их оценкам, огромное количество аминокислотных последовательностей остается неоткрытым.

Чтобы упростить поиск белков, исследователи недавно разработали модели глубокого обучения, которые могут предсказывать трехмерную структуру белка для набора аминокислотных последовательностей. Но обратная задача — предсказание последовательности аминокислотных структур, соответствующих целям дизайна, — оказалась еще более сложной. Новое достижение в машинном обучении позволило Бюлеру и его коллегам решить эту непростую задачу: модели распространения на основе внимания.

По словам Бюлера, модели, основанные на внимании, могут изучать очень дальние связи, что является ключом к разработке белков, поскольку одна мутация в длинной аминокислотной последовательности может создать или разрушить весь дизайн. Диффузионная модель учится генерировать новые данные посредством процесса, который включает добавление шума к обучающим данным, а затем обучение восстановлению данных путем удаления шума. Они часто более эффективны, чем другие модели, для создания высококачественных, реалистичных данных, которые могут быть приспособлены для достижения набора целевых задач для удовлетворения требований проектирования.

Исследователи использовали эту архитектуру для создания двух моделей машинного обучения, которые могут предсказывать множество новых аминокислотных последовательностей, образующих белки, соответствующие целям структурного проектирования. «В биомедицинской промышленности вам может не понадобиться совершенно неизвестный белок, потому что тогда вы не знаете его свойств. Но в некоторых случаях вам может понадобиться совершенно новый белок, похожий на природный, но не обладающий свойствами. что-то другое. С помощью этих моделей мы можем генерировать спектр, которым мы управляем, настраивая определенные ручки», — говорит Бюлер.

Общие схемы укладки аминокислот, известные как вторичные структуры, обусловливают различные механические свойства. Например, белки со структурой альфа-спирали дают эластичные материалы, а белки со структурой бета-листов дают жесткие материалы. Комбинируя альфа-спирали и бета-листы, можно создавать эластичные и прочные материалы, такие как шелк.

Исследователи разработали две модели, одна из которых работает с общими структурными свойствами белка, а другая работает на уровне аминокислот. Обе модели работают, комбинируя эти аминокислотные структуры для создания белков. Для модели, которая работает с общими структурными свойствами, пользователь вводит желаемый процент различных структур (например, 40% альфа-спирали и 60% бета-листа). Затем модель генерирует последовательности, соответствующие этим целям. Для второй модели ученый также указывает порядок аминокислотных структур, что дает гораздо более точный контроль.

Модели связаны с алгоритмом, предсказывающим свертывание белка, который исследователи используют для определения трехмерной структуры белка. Затем они рассчитывают его результирующие свойства и проверяют их на соответствие проектным спецификациям. Они проверили свои модели, сравнив новые белки с известными белками, имеющими схожие структурные свойства. У многих было некоторое совпадение с существующими последовательностями аминокислот, в большинстве случаев от 50% до 60%, но также были и совершенно новые последовательности. Уровень сходства предполагает, что многие из созданных белков можно синтезировать, добавляет Бюлер.

Чтобы убедиться, что предсказанные белки являются разумными, исследователи попытались обмануть модели, введя физически невозможные цели дизайна. Они были впечатлены, увидев, что вместо того, чтобы производить невероятные белки, модели генерировали наиболее близкое к синтезу решение. «Алгоритм обучения может выявить скрытые взаимосвязи в природе. Это дает нам уверенность в том, что все, что получится в нашей модели, с большой долей вероятности будет реалистичным», — говорит Ни.

Затем исследователи планируют экспериментально проверить некоторые из новых конструкций белков, создав их в лаборатории. Они также хотят продолжать расширять и совершенствовать модели, чтобы разрабатывать аминокислотные последовательности, отвечающие большему количеству критериев, таких как биологические функции. «Для интересующих нас приложений, таких как устойчивое развитие, медицина, продукты питания, здоровье и дизайн материалов, нам нужно будет выйти за рамки того, что сделала природа. Вот новый инструмент проектирования, который мы можем использовать для создания потенциальных решений, которые может помочь нам решить некоторые действительно насущные социальные проблемы, с которыми мы сталкиваемся», — говорит Бюлер.

Источник