От умных чат-ботов до приложений, которые могут писать целые статьи, искусственный интеллект (ИИ) становится все более распространенной частью нашей жизни. Майкл Шон, научный сотрудник Wageningen University & Research, разрабатывает инструмент искусственного интеллекта, который может выполнять сравнение некодирующей РНК в геномах растений. Ожидается, что этот инструмент ускорит и упростит будущую разработку новых сортов растений, например, с большей устойчивостью к засухе или болезням. Белки являются строительными блоками для клеток организмов. Инструкции по созданию этих белков передаются (кодируются) РНК из генов. Наряду с этими кодирующими РНК некоторые гены могут продуцировать некодирующие РНК: другими словами, РНК, которая не содержит инструкций по созданию белка. Этот тип РНК также играет важную роль в развитии организмов, говорит Майкл Шон. "Например, они могут активировать гены или, наоборот, отключать их. Это повлияет на внешний вид растения и его свойства. Некоторые важные некодирующие РНК также определяют, достигнет ли растение зрелости вообще."
Некодирующая РНК также потенциально может объяснить, почему вид растения принадлежит к определенному семейству, но имеет разные характеристики. В предыдущем исследовании Шон идентифицировал некодирующие РНК Arabidopsis thaliana (кресс-салат талый). Это растение используется учеными-растениеводами в качестве модельного организма. "Арабидопсис относится к семейству капустных, наряду с такими важными культурами, как брокколи, цветная капуста и кольраби. Это семейство также известно как горчичное или крестоцветное. Однако трудно сравнивать некодирующие РНК арабидопсиса с РНК других растений семейства горчичных, поскольку предыдущие работы с этими видами были сосредоточены в основном на генах, кодирующих белки". Это означает, что для сравнения растений требуется отдельная аннотация гена для некодирующей РНК для каждой культуры. В рамках своего проекта Veni Шон ищет новые способы идентификации некодирующих РНК, используя знания о родственных видах.
"Для растений семейства горчичных доступно более 200 последовательностей генома. Каждый геном хранится в виде большого текстового файла, состоящего из миллионов букв, которые представляют собой основания молекулы ДНК (A, C, T и G). Поскольку некодирующие фрагменты не каталогизированы (аннотированы) должным образом в этих геномах, невозможно сравнить все некодирующие гены, разбросанные в этой горе данных. Для этого нам нужны новые стратегии и инструменты. Я пытаюсь их разработать." Первая проблема заключается в том, чтобы знать, в какой части генома искать. Один из инструментов, который разрабатывает Шон, он называет GeneSketch. Чтобы найти соответствующие части разных геномов, он использует метод под названием Minimizer Sketch. "Идея Minimizer Sketch заключается в том, что вам нужно просмотреть только небольшой фрагмент ДНК — эскиз, а не всю последовательность целиком", — говорит Шон. "Это означает, что для сравнения вам нужно обратить внимание всего на несколько тысяч символов в геноме, а не на миллионы.
Программа Minimizer Sketch ранее использовалась для построения древа эволюции приматов, включающего людей и их ближайших родственников. Оказалось, что очень точное генеалогическое древо наших предков можно составить из набросков, составленных менее чем из 1% всех геномов. Таким образом, эскиз минимизатора является очень эффективным способом оценки сходства фрагментов ДНК друг с другом, поэтому он также может быть полезен для сравнения геномов семейства горчичных". После того, как вы знаете, где искать, следующий шаг - понять, на что вы смотрите. Технология, которую Шон планирует использовать в GeneSketch, аналогична той, которая в настоящее время используется в других инструментах искусственного интеллекта, таких как ChatGPT. "Это так называемая технология "transformer", - говорит Шон. Например, вы можете попросить transformer заполнить пропущенное слово в предложении. Сначала transformer выдает вам случайное слово, потому что никогда раньше не встречал слов. Но если вы потренируете его на миллионах примеров предложений, он постепенно научится угадывать правильные слова, обращая внимание на закономерности в тексте.
"После обучения такая крупная языковая модель, как ChatGPT, становится очень хорошей для выполнения определенных задач, таких как ответы на вопросы или перевод с одного языка на другой. Трансформера можно обучить изучению не только человеческих языков, но и языка ДНК, который имеет свои собственные четкие закономерности. Я работаю над моделью, позволяющей выявлять закономерности в ДНК многих различных видов и переводить эти закономерности на язык, понятный нам, людям". Шон обучит трансформера для GeneSketch обращать внимание на то, как меняются гены у разных видов, особенно некодирующие гены. Но он ожидает, что на этом пути ему придется столкнуться с некоторыми трудностями.
"Одним из важных вопросов является надежность. Transformer - относительно новая технология, и в ней допускаются ошибки. Например, ChatGPT обучался на множестве различных источников текста, но если вы зададите ему тему, с которой он никогда не сталкивался во время обучения, ему нужно что-то придумать. Вы надеетесь, что он придумает что-то разумное на основе увиденных шаблонов, но это никогда не является гарантией. Очевидно, вы хотите избежать бессмысленного вывода. Чем больше вы тренируете трансформатора, тем меньше бессмыслицы он выдает, но обучение может стоить много времени и денег. Что лучше - обучать модель полностью с нуля или использовать существующие модели? Я пробую оба подхода".
Потенциал GeneSketch
Шон надеется получить прототип GeneSketch после первого года работы над проектом, который стартует в октябре 2023 года. Он планирует использовать его для создания аннотаций генов для всего семейства горчичных. По словам Шона, этот инструмент может быть полезен не только для исследовательского сектора, но и для сельскохозяйственной промышленности. "Он может, например, предоставить селекционерам быстрый способ изучения ДНК сельскохозяйственных культур и их диких сородичей. Узнав больше о том, как сельскохозяйственные культуры на протяжении веков приобретали уникальные свойства, селекционеры смогут принимать более обоснованные решения по улучшению свойств, например, по повышению устойчивости сельскохозяйственных культур к изменению климата. Таким образом, потенциальное воздействие может быть огромным".