Опубликована полная последовательность человеческого генома
|
Молекулярные биологи закончили собирать последовательность ДНК человека — этому посвящен специальный выпуск журнала Science. В предыдущей версии генома, которая появилась в 2001 году, около восьми процентов последовательности оставались нерасшифрованными. Это в основном некодирующие участки, центральные и концевые области хромосом. Результатам проекта посвящены сразу шесть статей. Полная версия генома позволяет точнее выявлять индивидуальные генетические особенности людей и может стать новым стандартом в генетике, несмотря на то, что в ней пока не хватает целой хромосомы. |
В 2000 году проект «Геном человека» и компания Крейга Вентера Celera genomics заявили о том, что закончили секвенировать последовательность человеческой ДНК (подробнее об этом мы рассказывали в тексте «Геном человека: двадцать лет спустя»). К 2001 году они опубликовали свои черновые версии сборки с разницей в сутки (сначала «Геном человека», потом проект Вентера), а к 2003 году объединили свои усилия и наработки, чтобы собрать единый чистовик. Он стал первым стандартом, или референсным геномом, с которым сверялись все, кто расшифровывал новые геномы человека или искал генетические причины болезней. Однако работа по чтению человеческой ДНК на этом не закончилась. |
Авторы первой версии человеческого генома не скрывали, что он далеко не полон. Например, в нем остался 341 пробел. Кроме того, в своей работе исследователи сделали ставку на эухроматин — ту фракцию ДНК, которая в клетке обычно находится в неплотно упакованном состоянии и информация с которой может быть считана. Таким образом, в первый вариант генома не вошли многие участки гетерохроматина — «скрученной» фракции ДНК. Она состоит в основном из последовательностей, которые не кодируют белки, но выполняют разные технические и структурные (и часто не до конца понятные) функции — поэтому тоже могут влиять на жизнь и работу клетки. В первом варианте генома также не до конца было ясно, какие гены и некодирующие участки за что отвечают. Выяснением этого занимается, например, проект ENCODE. Наконец, референсный геном не учитывал в полной мере генетическое разнообразие людей — несмотря на то, что его собрали из случайных количеств ДНК от нескольких десятков человек. Восполнять эти пробелы взялись другие проекты, например, «Тысяча геномов». |
С тех пор геном неоднократно уточняли, появилось несколько обновленных референсов. Последний, GRCh38.p13, был опубликован в 2019 году. Но и в нем оставалось немало белых пятен — участков, где вместо нуклеотидов значились буквы N, или где были подставлены какие-то суррогатные последовательности. Еще про полторы сотни участков не было точно известно, где именно и в каком порядке они располагаются. Суммарно эти неточности затрагивали около 8 процентов человеческого генома — что по размеру сопоставимо с целой хромосомой. Разобраться с недостающими частями в геноме взялся Консорциум «От теломеры до теломеры» (T2T-Consortium, теломера — концевой участок хромосомы). В него вошли ученые из 54 институтов и лабораторий из разных стран (в том числе России), а результатом их работы стала первая полноценная сборка генома — о которой они рассказали в шести статьях в журнале Science. |
Первая статья — это презентация новой сборки, в ней авторы рассказывают о том, какие методы они использовали, и подводят итоги своей работы. Новый геном получил имя CHM13 — по культуре клеток, которые стали донорами ДНК. Эта культура происходит из пузырного заноса — необычной опухоли человека, которая появляется, если оплодотворенная яйцеклетка по какой-то причине теряет материнские хромосомы (фактически это разновидность партеногенеза, подробнее об этом читайте в тексте «Половинка себя»). Пузырный занос удобен тем, что часто его геном состоит из удвоенного хромосомного набора, который принес с собой сперматозоид. А значит, обе копии каждой хромосомы должны быть практически идентичны (за исключением точечных мутаций и случайных поломок), и при секвенировании не нужно разбираться, на какой из копий расположен тот или иной участок. |
Сборка CHM13 отличается от предшественников и технологией секвенирования. Предыдущие варианты генома были собраны из множества коротких последовательностей — то есть ДНК сначала разбивали на маленькие участки, прочитывали каждый в отдельности, а затем накладывали друг на друга. Но для гетерохроматина этот метод не подходит, поскольку там много повторяющихся участков, в расположении и числе которых легко ошибиться (например, некоторых генов рибосомальной РНК у человека может быть по 300-400 копий). Поэтому участники Консорциума T2T использовали метод длинных чтений (long-read sequencing), то есть разбивали ДНК на длинные части и прочитывали их целиком. |
В результате в состав CHM13 вошли 3 054 815 472 пар нуклеотидов ядерной ДНК и 16 569 пар — из митохондриальной. Из них 182 миллиона пар — совершенно новые: их не было в предыдущей сборке генома 2019 года. В этом геноме, отмечают авторы работы, нет пробелов и нуклеотидов, которым не удалось найти место — он совершенно полный. Подавляющая часть новых участков — это некодирующая ДНК, в основном центромерная (то есть из середины хромосом, в том месте, где они скрепляются друг с другом в характерный крест при мейозе). Тем не менее, исследователям удалось найти и новые гены — всего 1956 штук. Из них около сотни, по их оценкам, кодируют белки (остальные могут кодировать отдельные типы РНК или не работать совсем). |
Остальные пять статей в выпуске посвящены отдельным углубленным исследованиям в рамках проекта. Например, в одной из работ рассказывается о центромерах, их разнообразии, структуре и эволюции. В другой — о повторах в геноме: авторы искали среди них ретротранспозоны (мобильные генетические элементы, которые могут перемещаться по геному или вставлять в него новые свои копии), в том числе активные. Третья посвящена сегментным дупликациям — длинным участкам с небольшим количеством копий, которые, вероятно, сыграли роль в эволюции приматов. Четвертая представляет карту метилирования новосеквенированных участков. |
Наконец, еще одна статья посвящена практическим применениям нового генома. Ее авторы проверяли, насколько удобно использовать сборку CHM13, чтобы сравнивать с ней геномы отдельных людей и искать особенные варианты последовательностей. Для этого они воспользовались базой проекта «Тысяча геномов» и, сравнивая последовательности из базы с CHM13, нашли больше миллиона генных вариантов (тех, которые не показывало сравнение со сборкой GRCh38). Поэтому участники консорциума предложили назначить CHM13 новым стандартом для генетических и геномных исследований. |
Но и на этом расшифровка человеческого генома не закончится. В CHM13 остаются свои недоделки — например, в этой сборке нет Y-хромосомы. Это связано с тем, что клетки пузырного заноса несут по две одинаковых копии каждой хромосомы, а генотип YY не жизнеспособен. Поэтому эту хромосому придется собирать отдельно. Кроме того, CHM13 — это не синтетический геном из клеток разных людей, как было с предыдущими сборками, а геном одной клеточной линии. Поэтому дальше Консорциуму предстоит собрать другие варианты геномов, чтобы их стандарт учитывал не только полную последовательность ДНК, но и разные ее варианты. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|