07 Сентября 2009

История геномики. Часть 1: геномные проекты

В этой статье я постараюсь популярно рассказать о том, как появились первые методы чтения генетических последовательностей, в чем они заключались и как геномика двигалась от чтения отдельных генов к чтению полных геномов, в том числе полных геномов конкретных людей.
Часть 2, «ДНК-технологии», будет посвящена самым современным и необычным методам секвенирования – чтения генетических последовательностей и другим технологиям, связанным с молекулами ДНК.
Александр Панчин, м.н.с. Института проблем передачи информации им. А.А. Харкевича РАН, аспирант факультета биоинженерии и биоинформатики МГУ.

Вскоре после открытия Уотсона и Крика [1] рождается геномика – наука об исследовании геномов организмов, которая включает интенсивное чтение полных последовательностей ДНК (секвенирование) и нанесение их на генетические карты. Это наука также рассматривает взаимодействия между генами и аллелями генов и их разнообразие, закономерности в эволюции и устройства геномов. Развитие этой области происходило так стремительно, что еще совсем недавно текстовые редакторы вроде Microsoft Word не знали слова «геном» и пытались исправить его на слово «гном».


Джеймс Уотсон (слева) и Френсис Крик (справа) – ученые, открывшие двойную спираль ДНК

Самым первым был прочтен ген белка оболочки РНК-вируса, бактериофага MS2, изученный в лаборатории Валтера Файерса в 1972 г. [2]. В 1976 г. была расшифрована первичная и вторичная структура гена его репликазы – фермента, отвечающего за размножение вирусных частиц [3]. Короткие молекулы РНК тогда уже читались сравнительно легко, но крупные молекулы ДНК читать толком еще не умели. К примеру, полученная в 1973 г. Вальтером Гилбертом и Алленом Максамом [4] последовательность участка гена лактозного оперона, длиной в 24 нуклеотида, рассматривалась как существенный прорыв в науке. Вот эта последовательность:

5'—TGGAATTGTGAGCGGATAACAATT 3'
3'—ACCTTAACACTCGCCTATTGTTAA 5'

Первые техники чтения ДНК были очень неэффективными и использовали радиоактивные метки для ДНК и химические методы различения нуклеотидов. Например, можно было взять ферменты, которые разрезают нуклеотидную последовательность с разной вероятностью после разных «букв». Молекула ДНК состоит из 4-х букв-нуклеотидов A, T, G и С (аденин, тимин, гуанин и цитозин), которые входят в состав двойной антипараллельной (две цепи направлены в противоположные стороны) спирали. Внутри этой спирали нуклеотиды находятся друг напротив друга в соответствии с правилом комплементарности: напротив А в другой цепи стоит T, напротив G – С и наоборот.

Гилберт и Максам использовали 4 типа ферментов. Один разрезал после А или G, но лучше после A (A>G), второй разрезал лучше после G (G>A), третий после C, а четвертый после С или T (С+T) [5]. Реакция проводилась в 4 пробирках с каждым типом ферментов, а затем продукты помещали на гель. ДНК – заряженная молекула, и при включении тока бежит от минуса к плюсу. Маленькие молекулы бегут быстрее, поэтому разрезанные молекулы ДНК выстраиваются по длине. Глядя на 4 дорожки геля, можно сказать, в какой последовательности расположены нуклеотиды.

Прорыв в области секвенирования ДНК случился, когда английский биохимик Фредерик Сенгер в 1975 г. предложил так называемый метод терминации цепи для чтения последовательностей ДНК. Но прежде чем рассказать об этом методе, необходимо разобраться в процессах, происходящих при синтезе новых молекул ДНК. Для синтеза ДНК необходим фермент – ДНК-зависимая ДНК-полимераза, которая способна достраивать одноцепочечную молекулу ДНК до двухцепочечной. Для этого ферменту необходима «затравка» – праймер, короткая последовательность ДНК, способная связаться с длинной одноцепочечной молекулой, которую мы хотим достроить до двухцепочечной. Также необходимы сами нуклеотиды в форме нуклеотидтрифосфатов и некоторые условия, такие как определенное содержание ионов магния в среде и определенная температура. Синтез всегда идет в одном направлении, от конца, называемого 5’, к концу, называемому 3’. Разумеется, для чтения ДНК необходимо большое количество матрицы – то есть копий той ДНК, которую собираются читать.

В 1975 г. Сенгер придумал следующее. Он брал специальные (терминирующие) нуклеотиды, которые, присоединившись к растущей цепи молекулы ДНК, мешали присоединению последующих нуклеотидов, то есть «обрывали» цепь. Далее он брал 4 пробирки, в каждую из которых добавлял все 4 типа нуклеотидов и один тип терминирующих нуклеотидов в небольшом количестве [6]. Таким образом, в пробирке, где находился терминирующий нуклеотид аденин, синтез каждой новой молекулы ДНК мог оборваться в любом месте, где должна была встать «А», в пробирке с терминирующим гуанином – в любом месте, где должна встать «G» и так далее. На гель наносились 4 дорожки из 4-х пробирок и снова самые короткие молекулы «убегали» вперед, а самые длинные оставались в начале, а по отличиям в полосах можно было сказать, какой нуклеотид следует за каким. Чтобы увидеть полосы, один из четырех нуклеотидов (A, T, G или C) метился, без изменения химических свойств, с использованием радиоактивных изотопов.


Метод Сенгера в классическом варианте – на геле. Показаны три серии из 4-х дорожек.

С помощью этого метода был прочитан первый геном, основанный на ДНК – геном бактериофага ϕX174, длиной 5386 нуклеотидов (геном фага MS2 длиной 3569 нуклеотидов, прочитанный ранее, состоит из РНК).

Метод Сенгера был существенно улучшен в лаборатории Лероя Худа, где в 1985 г. радиоактивную метку смогли заменить светящейся, флуоресцентной меткой [7]. Это дало возможность создать первый автоматический секвенатор: каждый отрезок ДНК теперь был окрашен разными цветами в зависимости от того, какой была последняя буква (меченый цветом нуклеотид, обрывающий цепь). Фрагменты разделялись на геле по размерам, и машина автоматически считывала спектр свечения поступающих полос, выдавая результаты на компьютер. В результате такой процедуры получается хроматограмма, по которой легко установить последовательность ДНК длиной до 1000 «букв» с очень небольшим количеством ошибок.


Пример хроматограммы на современном секвенаторе, использующем метод обрывания цепи по Сенгеру и светящуюся метку.

На многие годы улучшенный метод Сенгера станет основным методом массового секвенирования геномов и будет использован для многих проектов полных геномов, а Сенгер в 1980 г. получит вторую Нобелевскую премию по химии (первую он получил еще в 1958 г. за прочтение аминокислотной последовательности инсулина – первого секвенированного белка). Первым полным геномом клеточного организма стал геном бактерии, вызывающей некоторые формы пневмонии и менингита – Haemophilus influenzae [8] в 1995 г. Геном этой бактерии имел длину 1830137 нуклеотидов. В 1998 г. появляется первый геном многоклеточного животного, круглого червя Caenorhabditis elegans [9], с 98 миллионами нуклеотидов, а затем в 2000 г. появляется первый растительный геном – Arabidopsis thaliana [10]. Геном этого растения, родственника хрена и горчицы, имеет длину 157 миллионов нуклеотидов. Скорость и масштабы секвенирования росли с изумительной скоростью, и появляющиеся базы данных нуклеотидных последовательностей пополнялись все быстрее и быстрее.

Наконец, настал черед генома млекопитающих: мыши и человека. Когда в 1990 г. Джеймс Уотсон возглавил проект чтения полного генома человека в Национальных Институтах Здоровья (NIH) в США, многие ученые скептически относились к этой идее. Подобный проект требовал колоссальных вложений денег и времени и, учитывая ограниченные возможности существовавших машин для чтения геномов, многим казался просто невыполнимым. С другой стороны, проект обещал революционные изменения в медицине и понимании устройства человеческого организма, но и здесь были свои проблемы. Дело в том, что в тот момент не существовало какой-либо точной оценки количества генов у человека. Многие полагали, что сложность устройства человеческого организма указывает на наличие у него сотен тысяч генов, а может и несколько миллионов, а, следовательно, разобраться в таком количестве генов, даже если их последовательности удастся прочитать, будет непосильной задачей. Именно в наличии большого количества генов многие предполагали принципиальное отличие человека от других животных – представление, впоследствии опровергнутое проектом «Геном человека».

Сама идея прочитать геном человека родилась в 1986 г. по инициативе Департамента Энергии США, который впоследствии финансировал проект вместе с NIH. Стоимость проекта была оценена в 3 миллиарда долларов, а сам проект был рассчитан на 15 лет при участии в проекте целого ряда стран: Китай, Германия, Франция, Великобритания и Япония. Для чтения генома человека использовались так называемые «искусственные бактериальные хромосомы» (BAC – bacterial artificial chromosome). При этом подходе геном разрезается на множество частей длиной примерно в 150 тысяч нуклеотидов. Эти фрагменты встраивают в искусственные кольцевые хромосомы, которые встраиваются в бактерии. С помощью бактерий эти хромосомы размножаются, и ученые получают множество копий одного и того же фрагмента молекулы ДНК. Каждый такой фрагмент затем читается отдельно, а прочитанные куски по 150000 нуклеотидов наносятся на карту хромосомы. Данный метод позволяет довольно точно секвенировать геном, однако требует очень больших затрат времени.

Но проект «Геном человека» двигался крайне медленными темпами. Ученый Крейг Вентер и его компания Celera Genomics, основанная в 1998 г., сыграли примерно такую же роль в истории геномики, как Советский Союз повлиял на полет американцев на луну. Вентер заявил, что его компания закончит секвенирование генома человека раньше, чем завершится государственный проект. На проект потребуется всего 300 миллионов долларов – лишь малая часть от затрат государственного проекта, за счет использования новой технологии секвенирования «whole genome shotgun» – чтения случайных коротких фрагментов генома. Когда Френсис Коллинз, сменивший в 1993 г. Джеймса Уотсона на посту руководителя проекта по чтению генома человека, узнал о намерениях Вентера, он был шокирован. «Мы сделаем геном человека, а вы можете сделать мышку» – предложил Вентер. Научное сообщество всполошилось, и на то был ряд причин. Во-первых, Вентер обещал закончить свой проект в 2001 г., на 4 года раньше срока, намеченного для государственного проекта. Во-вторых, компания Celera Genomics собиралась заработать на проекте, создав базу данных, которая была бы платной для коммерческих фармацевтических компаний.

В 2000 г. Селера Геномикс доказала эффективность своего метода секвенирования, опубликовав геном плодовой мушки дрозофилы вместе с лабораторией генетика Джеральда Рубина [11] (ранее whole genome shotgun использовался для прочтения первого генома бактерии, но мало кто верил, что этот метод пригоден для крупных геномов). Именно такой пинок со стороны коммерческой компании стимулировал разработку улучшенных и применение более современных методов чтения геномов в проекте «Геном человека». В 2001 г. был опубликован предварительный вариант генома со стороны государственного проекта и Селеры [12, 13]. Тогда была сделана предварительная оценка количества генов в геноме человека, 30-40 тысяч. В 2004 г., почти на два года раньше, чем следовало по плану, вышла окончательная версия генома [14]. В последней статье было сказано, что количество генов у человека предположительно составляет лишь 20-25 тысяч. Это число сравнимо с другими животными, в частности с нематодой C.elegans.

Практически никто не предполагал, что количество генов, обеспечивающих работу нашего организма, может быть столь мало. Позже стали известны и другие подробности: геном человека имеет длину около трех миллиардов нуклеотидов, бОльшую часть генома составляют некодирующие последовательности, в том числе всевозможные повторы. Лишь небольшая часть генома действительно содержит гены – участки ДНК, с которых считываются функциональные молекулы РНК. Интересный факт, что по мере увеличения знаний о геноме человека число предполагаемых генов только сокращалось: многие потенциальные гены оказывались псевдогенами (неработающими генами), в других случаях несколько генов оказывались частью одного и того же гена.

Дальнейшие темпы секвенирования возрастали экспоненциально. В 2005 г. опубликован геном шимпанзе [15], который подтвердил потрясающее сходство между обезьянами и человеком, которое видели еще зоологи прошлого. К 2008 г. были полностью прочитаны геномы 32 позвоночных, включая кошку, собаку, лошадь, макаку, орангутана и слона, 3 генома беспозвоночных вторичноротых, 15 геномов насекомых, 7 геномов червей и сотни геномов бактерий.

Наконец в 2007 г. человечество приблизилась к возможности секвенирования геномов индивидуальных людей. Первым человеком, для которого прочитали полный индивидуальный геном, стал Крейг Вентер [16]. При этом геном был прочитан так, что можно было сравнить хромосомы Вентера, доставшиеся ему от обоих родителей. Так было выяснено, что между одним и другим набором хромосом внутри одного человека существует около трех миллионов однобуквенных нуклеотидных отличий, не считая огромного количества крупных варьирующих участков. Год спустя опубликован полный диплоидный геном Джеймса Уотсона [17]. Геном Уотсона содержал 3,3 миллиона однобуквенных замен по сравнению с аннотированным геномом человека, из которых более 10000 вели к изменениям в белках, которые кодируют его гены. Геном Уотсона обошелся в 1 миллион долларов, то есть цена на чтение геномов упала более чем в 3000 раз за 10 лет, но и это не предел. Сегодня перед учеными стоит задача «1 геном – $1000 – 1 день», и она уже не кажется невыполнимой с появлением новых технологий секвенирования. О них расскажет следующая часть «истории».


Джеймс Уотсон и Крейг Вентер – первые люди с индивидуальными прочитанными геномами.

Литература
1. Watson J, Crick F: A Structure for Deoxyribose Nucleic Acid. Nature 1953(171):737-738.
2. Min Jou W, Haegeman G, Ysebaert M, Fiers W: Nucleotide sequence of the gene coding for the bacteriophage MS2 coat protein. Nature 1972, 237(5350):82-88.
3. Fiers W, Contreras R, Duerinck F, Haegeman G, Iserentant D, Merregaert J, Min Jou W, Molemans F, Raeymaekers A, Van den Berghe A et al: Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene. Nature 1976, 260(5551):500-507.
4. Gilbert W, Maxam A: The nucleotide sequence of the lac operator. Proc Natl Acad Sci U S A 1973, 70(12):3581-3584.
5. Maxam AM, Gilbert W: A new method for sequencing DNA. Proc Natl Acad Sci U S A 1977, 74(2):560-564.
6. Sanger F, Nicklen S, Coulson AR: DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 1977, 74(12):5463-5467.
7. Smith LM, Sanders JZ, Kaiser RJ, Hughes P, Dodd C, Connell CR, Heiner C, Kent SB, Hood LE: Fluorescence detection in automated DNA sequence analysis. Nature 1986, 321(6071):674-679.
8. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM et al: Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 1995, 269(5223):496-512.
9. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science 1998, 282(5396):2012-2018.
10. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 2000, 408(6814):796-815.
11. Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF et al: The genome sequence of Drosophila melanogaster. Science 2000, 287(5461):2185-2195.
12. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA et al: The sequence of the human genome. Science 2001, 291(5507):1304-1351.
13. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W et al: Initial sequencing and analysis of the human genome. Nature 2001, 409(6822):860-921.
14. Finishing the euchromatic sequence of the human genome. Nature 2004, 431(7011):931-945.
15. Initial sequence of the chimpanzee genome and comparison with the human genome. Nature 2005, 437(7055):69-87.
16. Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G et al: The diploid genome sequence of an individual human. PLoS Biol 2007, 5(10):e254.
17. Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT et al: The complete genome of an individual by massively parallel DNA sequencing. Nature 2008, 452(7189):872-876

Портал «Вечная молодость» http://vechnayamolodost.ru
07.09.2009

Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме