Обмен химическими знаниями между человеком и машиной
|
Исследователи из Йенского университета, Вестфальского университета прикладных наук и Химико-технологического университета Праги разработали платформу, которая использует искусственные нейронные сети для перевода химических структурных формул в машиночитаемую форму. С помощью этой платформы они создали инструмент, с помощью которого информацию из научных публикаций можно автоматически загружать в базы данных. До сих пор это приходилось делать буквально вручную и отнимало много времени. В текущем выпуске журнала Nature Communications команда под руководством профессоров Кристофа Стейнбека и профессора Ахима Зелесного представляет последнюю версию своего инструмента DECIMER.ai, который исследователи могут использовать по всему миру. |
Структурные формулы показывают, как устроены химические соединения, т. е. из каких атомов они состоят, как они расположены в пространстве и как связаны. Химики могут вывести из структурной формулы, среди прочего, какие молекулы могут реагировать друг с другом, а какие нет, как можно синтезировать сложные соединения или какие природные вещества могут оказывать терапевтический эффект, поскольку они соединяются с целевыми молекулами в клетках. Представление молекул в виде структурных формул, разработанное в XIX веке, выдержало испытание временем и до сих пор используется в каждом учебнике по химии. Но то, что делает химический мир интуитивно понятным для человека, — это всего лишь набор черно-белых пикселей для программного обеспечения. «Чтобы информацию из структурных формул можно было использовать в базах данных, в которых можно осуществлять автоматический поиск, ее необходимо перевести в машиночитаемый код», — объясняет Стейнбек, профессор аналитической химии, хеминформатики и хемометрики в Йенском университете. |
И именно это можно сделать с помощью инструмента искусственного интеллекта DECIMER, разработанного командой под руководством Стейнбека и его коллеги Зелесного из Вестфальского университета прикладных наук. DECIMER означает «глубокое обучение распознаванию химических изображений». Это платформа с открытым исходным кодом, которая свободно доступна каждому в Интернете и может использоваться в стандартном веб-браузере. Научные статьи, содержащие химические структурные формулы, можно загрузить туда простым перетаскиванием, и инструмент искусственного интеллекта немедленно приступит к работе. «Сначала выполняется поиск изображений по всему документу», — объясняет Стейнбек. Затем алгоритм идентифицирует содержащуюся в изображении информацию и классифицирует ее в зависимости от того, является ли это химической структурной формулой или каким-либо другим изображением. Наконец, распознанные структурные формулы переводятся в код химической структуры или отображаются в редакторе структур для дальнейшей обработки. «Этот шаг — суть проекта и настоящее достижение», — добавляет Стейнбек. |
Таким образом, химическая структурная формула молекулы кофеина становится машиночитаемым структурным кодом CN1C=NC2=C1C(=O)N(C(=O)N2C)C. Затем его можно загрузить непосредственно в базу данных и связать с дополнительной информацией о молекуле. Для разработки DECIMER исследователи использовали современные методы искусственного интеллекта, которые получили распространение лишь недавно и также используются, например, в моделях больших языков (таких как ChatGPT), которые в настоящее время являются предметом многочисленных дискуссий. Чтобы обучить свой инструмент искусственного интеллекта, команда сгенерировала структурные формулы из существующих машиночитаемых баз данных и использовала их в качестве обучающих данных — на сегодняшний день около 450 миллионов структурных формул. Помимо исследователей, компании также уже используют инструмент искусственного интеллекта, например, для переноса структурных формул из патентных описаний в базы данных. |
Несколько лет назад Стейнбеку и Зелесному пришла в голову идея разработать инструмент искусственного интеллекта для декодирования химических изображений. Оба химика интересовались разработкой методов искусственного интеллекта в связи с тысячелетней азиатской настольной игрой Го. В 2016 году вместе с миллионами людей по всему миру они наблюдали за зрелищным турниром между лучшим игроком в го того времени южнокорейцем Ли Седолем и компьютерной программой AlphaGo, в котором автомат выиграл со счетом 4:1. «Это была неожиданность, которая показала нам, насколько мощным может быть ИИ», — вспоминает Стейнбек. До этого считалось практически немыслимым, чтобы алгоритм мог конкурировать с человеческим творчеством и интуицией в этой игре. |
«Когда чуть позже инструмент искусственного интеллекта развил квази-сверхчеловеческую игровую силу, не подвергаясь кропотливому обучению в ходе бесчисленных сеансов человеческих игр — как это все еще было в случае с AlphaGo — а просто благодаря процессу, когда система снова и снова играет против самой себя. , и оптимизируя при этом его стиль игры, мы поняли, что эти новые методы могут также решить другие очень сложные проблемы с достаточным количеством обучающих данных. Мы хотели использовать это для нашей области исследований». С помощью DECIMER Стейнбек и его команда надеются, что в какой-то момент они смогут машинно читать всю интересующую их химическую литературу, начиная с 1950-х годов, и переводить ее в открытые базы данных. В конце концов, ключевой задачей Стейнбека, который также является координатором Национальной инфраструктуры исследовательских данных по химии в Германии, является устойчивое обеспечение существующих знаний и их доступность для мирового научного сообщества. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|