Молекулярная биология + компьютеры = биоинформатика
Биоинформатика: молекулярная биология между пробиркой и компьютером
Мы публикуем расшифровку лекции доктора биологических наук, зам. директора Института проблем передачи информации им. А.А. Харкевича РАН, профессора Факультета биоинженерии и биоинформатики МГУ Михаила Гельфанда, прочитанной 1 апреля 2010 года в Политехническом музее в рамках проекта «Публичные лекции Полит.ру».
Добрый день. Я думаю, прежде чем мы начнем, будет правильно, если мы какое-то время помолчим и вспомним наших сограждан, жителей нашего города, которые погибли в понедельник.
Хорошо, спасибо. Я буду рассказывать про биоинформатику (1).
Константин Викторович Северинов, который рассказывал про биологию в прошлый раз, начал с совершенно феерического слайда с электронным посланием, которое он получил от кандидата военных наук, полковника в отставке, с требованием немедленно запретить преподавание эволюции. Мне такое тоже приходило, повторять уже не так интересно, а традиция начинать с какого-нибудь безумного бреда – она, по-видимому, правильная. Кроме того, в этом зале на первом этаже висит объявление о лекциях некоего доктора Чудинова, и, значит, попытки очистить это здание от этого бреда тоже не удаются. Поэтому это все, по-видимому, вполне в духе времени…
Борис Долгин. С течением времени, надеюсь, оно само исчезнет…
Михаил Гельфанд. Да, будет вытеснено лекциями «Полит.ру». Так вот, если набрать в «Гугле» фразу «академия биоинформатики», то там выскочит вот такое (2).
«Академия биоинформатики»
«Академия биоинформатики»
Раньше на слово «биоинформатика» эта страничка выскакивала одной из первых, а сейчас не так, сейчас ее надо поискать, но на «академия биоинформатики» она выскочит.
Так вот, об этом речь не пойдет (4).
А речь пойдет про нормальную содержательную молекулярную биологию, которой люди научились заниматься не только в живых существах, что называется in vivo, не только в пробирках, что называется in vitro, но и в компьютере, для чего придумали название in silico. Реально под всем этим все равно стоят какие-то экспериментальные данные, но компьютер стал важным средством их обработки.
Если мы сделаем другой поиск в «Гугле» – на фразу «расшифрован геном», – то там выйдет гораздо больше всего интересного (5).
расшифрован геном!
Выйдет примерно 600 000 англоязычных страничек, и среди них будет «геном человека», причем не просто геном человека, а его трехмерная структура (я потом, может быть, к этому вернусь на минутку), сорго, бактерия Pseudomonas, опять трехмерный геном человека, геном рака (не животного – рака, а геном раковой опухоли, тоже человеческой), собака. В русском выскакивает кукуруза, опять-таки опухоль мозга, разумеется, «геном русского человека», следом – геном свиньи, геном бактерии, которая повреждает зубы, геном неандертальца.
К сожалению, это все не совсем правда.
Еще один такой же слайд (6) – это количество доступных полных геномов бактерий. Я остановился на 2007 году, не успел новых цифр собрать, оно вот так вот вверх экспоненциально растет.
622 полных геномов бактерий (в 2010 уже больше тысячи)
Неправда тут в том, что, когда говорят «расшифрован геном», имеется в виду, что люди определили последовательность нуклеотидов, которые геном составляют. И это не есть расшифровка. Если кто помнит этот кадр (7), в руке у шефа гестапо – записка, которую отобрали у несчастного профессора Плейшнера, и представьте себе на минутку, что она была бы по-настоящему расшифрована. Штирлиц, он же Исаев никогда бы из этой комнаты не вышел, а Мюллер, соответственно, получил бы очередной орден.
Расшифрован ли геном?
Перехватить зашифрованное сообщение –
еще не значит его понять
И вот то, что называют в просторечии «расшифровкой генома», на самом деле не столько расшифровка, сколько перехват зашифрованного сообщения. Вместо молекулы ДНК, которая плавала в пробирке, у вас есть теперь последовательность нуклеотидов, которые эту молекулу составляют и которые теперь записаны в компьютере. Но смысл этого перехваченного сообщения мы иногда понимаем, а чаще не понимаем.
Чтобы понимать, о чем речь: на слайде (8) приведена одна десятая процента, один промилле, генома кишечной палочки. Это такой стандартный лабораторный объект, который, по-видимому, самое изученное живое существо на Земле. Вообще геном бактерии – чтобы понимать размер бедствия – это несколько миллионов нуклеотидов, от нескольких сотен до нескольких тысяч генов, и большая часть генома кодирует белки.
На таком же слайде (9) умещается на три порядка меньшая доля генома человека. Геном человека – это примерно 3 миллиарда нуклеотидов, примерно 20 тысяч генов, на самом деле ненамного больше, чем у большой бактерии. И большая часть генома белки не кодирует, а имеет всякие другие функции. Я про это говорить ничего не буду, потому что про это, во-первых, мало кто чего знает, а во-вторых, это будет слишком уже специально.
И когда говорят, что расшифрован геном какого-то существа, имеют в виду, что можно нарисовать вот такое – сделать, так сказать, обои с буковками. Ну, замечательно, почему бы теперь не заняться экспериментальной биологией и не начать потихонечку все это изучать, коль скоро эти данные доступны. Проблема здесь в том, что для этого не хватит возможностей. Эта картинка (10) иллюстрирует следующую катастрофу: по горизонтальной оси – годы, а по вертикальной – данные.
Рост объема данных
Обращу ваше внимание, это логарифмическая шкала, то есть между делениями разница в порядок. Красным показано количество статей, помещенных в указанном году в базе данных PubMed – это такая основная библиографическая база данных по биомедицине, в том числе по молекулярной биологии. И если присмотреться, то видно, что это чуть наклонная прямая линия в логарифмических координатах, то есть экспоненциальный рост, но очень медленный. То, что показано синим, – это количество фрагментов разных геномов в GenBank, это другая база данных, такой стандартный депозитарий, куда складываются все секвенированные фрагменты ДНК (секвенированные – это то самое, что неправильно называется «расшифрованные», секвенирование – это определение последовательности). И зеленая – это объем GenBank в нуклеотидах (элементарных единицах ДНК, для нас – просто в символах). И если условно считать, что одна статья описывает один эксперимент, сделанный с одним геном, что в первом приближении верно, а один фрагмент содержит один ген, что тоже в первом приближении верно, то видно, что примерно в 1995 году случилась катастрофа – одна линия пересекла другую, и генов стало теперь известно больше, чем мы в принципе в состоянии изучить, даже если мы ничем другим заниматься не будем.
И возникла надежда, что что-то полезное можно делать, не изучая гены экспериментально один за одним, а глядя на всю эту совокупность, используя разного рода компьютерные соображения. Это то, про что я буду рассказывать.
Еще пара слов про то, про что я рассказывать не буду (11).
Не только тексты
Есть еще другие типы данных, тоже массовые. Вообще с биологией в последние годы случилась удивительная вещь – она стала наукой, богатой данными, как астрофизика и физика высоких энергий. Конкретных фактов стало больше, чем мы в состоянии по одному анализировать. Так вот, есть данные, которые порождаются другими типами экспериментов, можно говорить о том, насколько интенсивно работают гены, т.е. можно, скажем, измерять концентрации белков в клетке. Можно массово изучать белок-белковые взаимодействия или белок-ДНКовые взаимодействия – это могут быть какие-то структурные комплексы, это могут быть какие-то регуляторные взаимодействия. Можно изучать структуру генома…
С этими данными есть вот какая проблема. Когда мы говорим про геном, мы имеем дело с вполне дискретной и вполне определенной единицей. Конечно, в разных клетках одного организма геномы чуть-чуть отличаются за счет случайных изменений, но не очень сильно, и в первом приближении этим можно пренебречь. Поэтому имеет смысл говорить о геноме конкретного человека. Можно говорить о геноме человека как вида, понимая при этом, что геномы двух индивидуальных людей, конечно, отличаются. Когда же мы говорим, скажем, про уровень работы гена или про концентрации белков – это, во-первых, данные довольно сильно зашумленные – там эксперименты не настолько хороши, а во-вторых, надо понимать, что мы все время усредняем очень большое количество индивидуальных различий – концентрации белков в разных клетках совершенно не тождественны, даже внутри одной ткани. И во всех таких данных мы имеем дело с какими-то средними – средними по тканям, средними по времени клеточного цикла и т.п. А картинка все равно получается очень красивая – это как бы еще одна беда этой науки, что там очень красивые картинки, за рисованием которых иногда теряется содержательная сторона.
На этом слайде (12) нарисован цикл развития малярийного плазмодия – двое суток примерно.
Экспрессия (уровень работы) генов
По горизонтальной оси – это время, а по вертикальной – это разные гены. Цвет показывает уровень работы этого гена: зеленый – меньше среднего, а красный – больше среднего. Грубо говоря, концентрация белка, который этот ген кодирует. И если гены выстроить в правильном порядке, то видна такая замечательная цикличность, которая как раз зависит от стадии развития малярийного плазмодия. А дальше оказывается, что если гены объединить в функциональные группы, т.е. те группы генов, которым естественно работать вместе, то эта цикличность проявляется еще ярче. И это на самом деле очень хорошее, очень полезное занятие: мы впервые имеем возможность описать работу клетки в целом, а не только каких-то ее маленьких кусочков. Вот такая же картинка (13), только про цветы – это развитие цветка резушки Таля, во вертикали опять гены, а по горизонтали разные условия, и если правильно упорядочить, образуются прямоугольники – это группы генов, которые работают вместе, в одних и тех же органах цветка.
Развитие цветка резухи Таля:
двойная кластеризация – на генах и на условиях
Последняя из красивых картинок (14) – это белок-белковые взаимодействия, отдельные точки – это белки, а линии, которые их соединяют, – это то, что эти белки физически взаимодействуют в клетке. А это то, как гены регулируют работу друг друга, здесь теперь точки – это гены, ну и одновременно кодируемые ими белки, в первом приближении для наших целей это одно и то же, а стрелки – это тот факт, что этот ген регулирует работу вот этого гена, стрелки разноцветные, потому что может быть разная регуляция. Таким образом, можно смотреть на то, как устроена клетка целиком.
и белок-ДНКовые (регуляторные) взаимодействия в дрожжах
Я уже говорил, что расшифрована трехмерная структура генома, теперь можно геном не только выписать в виде последовательности символов, но еще можно сказать, какие участки этой молекулы близки физически друг к другу. Конечно, это тоже усреднено сразу по многим клеткам. Это вот результат буквально декабрьский, на это интересно смотреть – уже получаются довольно забавные результаты.
И про все это я больше говорить не буду, хотя в таких работах биоинформатика играет одну из центральных ролей. А буду говорить про то, как заниматься расшифровкой геномов теперь уже в правильном смысле (15).
Задачи
Например, мы хотим узнать, где в этой длинной последовательности ДНК находятся гены. Я уже говорил, что 90% генома бактерии – это белок-кодирующие участки, но проблема в том, что мы заранее не знаем, какие участки бактериального генома кодируют белки, а какие – занимаются чем-то другим. Кроме того, мы хотим осуществить функциональную аннотацию, сказать про гены и белки, что они делают, то есть, какова функция белка, закодированного в данном геноме. Мы хотим узнать про регуляцию, т.е. как это работает, когда, в каких условиях эти гены включаются, в каких тканях, при каких внешних условиях. Ну и, в конечном счете, глобальная цель – это говорить что-то не про отдельные гены и отдельные белки, а про геномы и организмы в целом. И на самом деле уже сейчас часто можно сделать довольно много. Вот, скажем, для очень многих бактерий, геномные последовательности которых были определены, секвенирование (определение последовательности) – это единственный опыт, который с этой бактерией когда-нибудь делали. Оказывается, что, просто глядя на последовательность генома, мы довольно уверенно можем описать основной метаболизм бактерии. То есть можно сказать, что она может использовать в качестве питательных веществ, на каких субстратах может расти, что для нее является обязательным, а без чего она может обойтись.
Теперь я попробую рассказать два сюжета. Один довольно хорошо известный, и все основные идеи там уже реализованы, но на этом примере видны основные принципы биоинформатической работы.
Это наука про идентификацию генов. У нас есть последовательности ДНК в том виде, как я показал. Вот этот слайд (8), он был «честным», тут все буквы были одного размера, это такой чистый геном, как он вылез после секвенирования.
А этот слайд (9) на самом деле был не очень «честным», потому что некоторые буквы были строчные, а некоторые заглавные, и заглавные буквы – это те участки, которые кодируют белки. Непосредственно из машины, которая осуществляет секвенирование, эти данные не возникают, и разметка генома на участки, которые кодируют белки (то есть гены), и участки, которые белков не кодируют, – это одна из традиционных задач биоинформатики, ее поставили впервые в 1981–1982 гг. сразу несколько человек, и я про нее сейчас попробую рассказать.
Я буду много раз такого сорта картинки (16) показывать, поэтому я сейчас попробую объяснить, что здесь нарисовано. Горизонтальная ось – это координата вдоль генома, то есть просто номер нуклеотида в последовательности, а каждая стрелочка означает, что соответствующий участок кодирует белок. Мы хотим получить такую разметку: определить начала и концы генов. Отдельный вопрос – как узнать, какова функция этих генов, про это я буду говорить во втором сюжете, а пока что мы просто хотим получить стрелочки. Что у нас для этого есть?
Идентификация генов
Во-первых, есть таблица генетического кода (17), которую составили в начале 60-х годов классики молекулярной биологии. Мы знаем, какие тройки нуклеотидов (кодоны) соответствуют каким аминокислотам. Это здесь и нарисовано: вот тройка CCC кодирует пролин, CCA тоже кодирует пролин, а CTG кодирует глицин, и так далее: есть все тройки нуклеотидов, и есть 20 аминокислот, которые ими кодируются в стандартном генетическом коде.
Таблица генетического кода
Это очень удобная вещь., потому что если мы вдруг последовательность белка уже известна, то мы можем найти кодирующий его ген, просто формально перекодировав с помощью таблицы нуклеотидную последовательность в белковую. Там, где все совпадет (18), и будет закодирован наш белок. Это на самом деле не такая искусственная ситуация, как кажется, потому что когда определяют белковый состав какой-то клетки спектрометрией, то делают ровно так. Определяют, правда, не сами последовательности, а массы белковых фрагментов. А потом сравнивают эти массы с массами всевозможных фрагментов, которые могут быть закодированы в геноме. Если где-то совпадет, значит, белок этот присутствует.
Вторая задача выглядит куда более реалистической. У нас есть не ровно тот белок, который закодирован, а белок, родственный ему, т.е. близкий по последовательности. Тогда мы делаем ровно то же самое, только теперь мы уже не надеемся на точные совпадения, а надеемся на совпадения приблизительные. Вот тут (19) зеленым показаны точно совпадающие позиции, а желтым – несовпадающие, Но случайно увидеть такой уровень сходства совершенно невозможно, поэтому можно полагать, что здесь закодирован белок, родственный заданному. На всякий случай обращу внимание, при этом могут образоваться разрывы, когда аминокислоте в в одном белке не соответствует ничего в другом белке. Потому что при эволюции белков бывают не только замены аминокислот, но и вставки и выпадения.
…или родственный белок: тоже просто
Для дальнейшего здесь существенно вот что: в белок-кодирующих последовательностях в последовательности генома такие вставки и выпадения всегда будут кратны трем. Так получается, потому что тройка соответствует одной аминокислоте, если вы вдруг сделаете нуклеотидную вставку длины один или два, то у вас собьется фаза считывания, все тройки будут другие, и уже не будет закодировано никакого разумного белка.
Тут уже возникают нетривиальные вычислительные задачи. Есть нуклеотидная последовательность нового генома, и мы ее сравниваем со всеми уже известными белками, чтобы посмотреть, нет ли там какого-нибудь родственника, и картировать соответствующий ген. Но объем данных растет экспоненциально. Мощность компьютеров по закону Мура тоже растет экспоненциально, но показатель экспоненты при росте компьютерной производительности меньше, чем показатель экспоненты при росте объема геномных данных. Поэтому приходится придумывать все лучшие алгоритмы, потому что иначе любой алгоритм, вообще говоря, в какой-то момент начинает захлебываться. И тут уже есть интересная математика и computer science.
А если у нас нет родственных белков, если ген кодирует совершенно новый белок? Так тоже бывает. Тут можно использовать структуру генетического кода. В универсальном генетическом коде имеются три стоп-кодона (20), они не кодируют никакой аминокислоты, а являются признаком конца гена.
Генетический код: стоп-кодоны
Ясно, что они не могут появиться внутри белок-кодирующей области (в правильной фазе). Тем самым, мы можем просто рассмотреть возможные отрезки между правильно сфазированными стоп-кодонами. Гены могут лежать только внутри таких «открытых рамок считывания». Это хороший прием, он сильно уменьшает количество возможностей, но он не решает задачу полностью, потому что у нас получается довольно много перекрывающихся открытых рамок, и выбрать, какая из них является правильной, пока что у нас возможности нет. На картинке (21) видно, что в среднем на каждый участок приходится полторы-две открытых рамки. Т.е. потенциальных генов получается в полтора-два раза больше, чем на самом деле. Что не есть хорошо.
Открытые рамки считывания
Второе соображение, которое мы можем использовать, – что генетический код кодирует белки, а белки – это не случайные последовательности аминокислот, а в каком-то смысле биологически содержательные. Например, разные аминокислоты в белках встречаются с существенно разной частотой, и эти частоты более или менее универсальны для всех живых существ: скажем, триптофан везде редкий, а лизин и лейцин везде частые. Таким образом, тройки, которые соответствуют частым аминокислотам, будут часто встречаться в белок-кодирующих областях. А в некодирующих областях такой закономерности нет, там разные тройки встречаются в первом приближении с одинаковой частотой. И мы можем измерить неслучайность распределения троек в тех или иных областях.
Кроме того, что тройки соответствуют разным аминокислотам, частым и редким, есть еще геном-специфичные особенности. В таблице генетического кода много синонимов (22) – кодонов, которые кодируют одну и ту же аминокислоту.
Генетический код: синонимы
И оказывается, что частоты синонимичных кодонов не одинаковы – из 6 кодонов, которые кодируют лейцин, частоты самого частого и самого редкого отличаются, по-моему, на полтора порядка у кишечной палочки. Это тоже можно использовать как статистическое свойство при распознавании (23).
Codon usage (статистика употребления кодонов)
В результате получается что-то вроде вот этой картинки (24) (это из очень старой статьи, но с тех пор особенно ничего не изменилось): по горизонтальной оси – координаты вдоль генома, по вертикальной оси – значения функции, которая измеряет похожесть последовательностей на некоторый эталон с точки зрения частот кодона (на самом деле, чуть сложнее, но это не важно). А линии, которые тут кое-где проведены, – это открытые рамки считывания. И мы можем, например, задавшись какой-то длиной фрагмента, скользить, как на логарифмической линейке бегунком, вдоль последовательности и в каждом положении нашего окна вычислять значения нашей статитической функции. И если функция у нас была разумная, то над белок-кодирующими областями будут плато, а над некодирующими областями будут провалы. В первом приближении так оно и получается.
Статистические особенности
Более сложная проблема вот какая: мы не можем сделать размер нашего окна слишком маленьким, потому что иначе статистика не будет работать, будет слишком большой шум. И мы не можем из-за этого точно картировать начало гена. У гена может быть много потенциальных стартовых кодонов, и какой из них выбрать в качестве правильного начала, будет непонятно. Со стоп-кодонами такого не возникает, потому что когда вы видите стоп-кодон – значит, ген кончился, тут деваться некуда. А стартовый кодон ATG – он одновременно кодирует аминокислоту метионин и вполне может встретиться в середине гена. У бактерий еще два кодона могут быть стартовыми, а в середине гена они кодируют аминокислоты, лейцин и валин (25). И, глядя на график, мы не можем выбрать из нескольких потенциально стартовых кодонов: ген в первом приближении уже картирован, но начало мы определить не можем.
Генетический код: старт-кодоны
Оказывается, тут тоже есть за что зацепиться, потому что перед началом гена есть последовательность, которая узнается рибосомой в качестве признака этого самого начала. Рибосома – это клеточная структура, или, как Северинов нас научил говорить, наномашина (а до него Михаил Валентинович Ковальчук тоже употреблял этот термин применительно к рибосоме; в отличие, правда, от Северинова, он его употреблял бездумно, а Северинов понимал, что имеет в виду), которая отвечает за синтез белка. Так вот – рибосома связывается с этим участком, чтобы начать трансляцию. Вот несколько последовательностей (26): ATG – это начало гена, первый кодон, сам ген будет дальше, я его не привел, а перед этим есть последовательность, которая опознается рибосомой.
Начала генов Bacillus subtilis
Это одна из традиционных и первых задач биоинформатики – поиск таких функциональных мотивов. Здесь примеры подобраны хорошо, и, вообще говоря, этот мотив можно глазом увидеть. Значит, где-то на этой картинке в каждом фрагменте есть участок, который опознается рибосомой в качестве начала гена, и упражнение состоит в том, чтобы этот сигнал увидеть глазом.
Реплика из зала. AGG, наверное…
Михаил Гельфанд. Так, еще есть варианты? Я сейчас еще полсекунды подожду…
Реплика из зала. Много А?
Реплика из зала. AGG было, много А было…
Реплика из зала. GAG?
Михаил Гельфанд. GAG было. Ну, давайте, я покажу ответ (27). Я специально подобрал несколько последовательностей с отклонениями, чтобы намекнуть, что на самом деле действительность гораздо более отвратительна, чем то, что здесь нарисовано. Тем не менее, мы можем придумать какое-то формальное распознающее правило, которое будет такие участки опознавать, не только, когда они такие совершенные – AGGAGG и все замечательно, а будет распознавать и более слабые варианты. И мы будем брать тот старт, перед которым такой участок имеется. И будет нам счастье.
Участок связывания рибосом
Но может быть ситуация, когда мы ничего не знаем, известных родственников у белка нет, а бактерия новая, поэтому мы не знаем, как устроен у нее участок связывания рибосомы. Он на самом деле тоже видоспецифичен, у каких-то бактерий его не видно вообще, ну, во всяком случае, до сих пор не увидели.
При этом есть достижения последних лет, когда геномы стали приходить массово, причем мы для очень многих таксономических групп бактерий мы имеем много геномов из этой группы и можем их сравнивать. Есть замечательное наблюдение, что белок-кодирующие области эволюционируют намного медленнее, чем области между генами. Понятно почему: у нас есть все время поток случайных мутаций, просто из-за ошибок удвоения генома при делении, но, если эта мутация случается в белок-кодирующей области, она с большой вероятностью что-нибудь попортит в белке, который там закодирован. А если она случается в межгенной области, то там функционально важных позиций меньше, и там мутации, хоть и случаются с той же частотой, фиксируются чаще. Вот приведено выравнивание (28) геномов шести разных бактерий, посередине – кишечная палочка та же самая, это три сальмонеллы, это чумная бацилла.
Когда мы строим выравнивание, мы располагаем последовательности так, чтобы максимизировать сходство между ними. Предположение, которое при этом неявно делается – что мы при этом реконструируем эволюционную историю выравниваемых участков.
Зеленое – это то, как были аннотированы начала этих генов в GenBank. Для этой – это клебсиелла, возбудитель одной из атипичных пневмоний – вообще ничего не аннотировано, потому что это был неполный геном, который еще не смотрели. Теперь видно, что правильный старт, несомненно, вот этот, потому что после него идет очень консервативная область, а перед ним все совершенно разваливается.
Я говорил, что важные позиции меняются медленнее, чем неважные. У нас есть еще одна разновидность неважных позиций. Я показывал таблицу генетического кода, и в ней синонимичные кодоны часто отличаются в третьей позиции. То есть, если два кодона кодируют одну и ту же аминокислоту, то первые два нуклеотида в них будут совпадать, а третий – произвольный. Вот фрагмент того же выравнивания (29), звездочка означает, что в столбце все нуклеотиды совпадают, отсутствие звездочки – что где-то случилась замена. Мы видим, что внутри белок-кодирующей области замены встречаются преимущественно в третьих позициях кодонов
Теперь вы все знаете, чтобы сделать очередное упражнение. Это другой ген в кишечной палочке, трех сальмонеллах, и чумной бацилле, Где начинается ген (30)?
Реплики из зала.
Михаил Гельфанд. Один вариант был вот здесь. Еще? Принято… Почему не вот здесь? Потому что вслед за этим местом есть вставка в один нуклеотид. В белок-кодирующей области, мы говорили, такого быть не может. Так что правильнее действительно вот это (31).
Это иллюстрирует опасности, которые бывают при работе с единственным геномом. Выше (32) тоже есть подходящий стартовый кодон, и перед ним есть последовательность, напоминающая участок связывания рибосомы, – тут четыре буквы из шести совпадают, и тут четыре из шести совпадают. Пока у нас не было пяти родственных геномов, вычислительно мы не могли выбрать между этими возможностями, а когда геномов много – то можем.
Почему вот в некодирующей области тоже было много одинаковых букв? Потому что в межгенных областях – это будет существенно тоже для дальнейшего – располагаются регуляторные участки, от которых зависит работа генов, и они тоже функционально важны и поэтому тоже консервативны. И мы действительно увидели консервативность, но вызванную другой функциональной нагрузкой – не тем, что это белок-кодирующий участок, а тем, что это регуляторная последовательность.
Я довольно длинно это рассказывал, с большим количеством деталей, потому что, во-первых, это действительно хорошо сделанная область, во-вторых, потому что из нее следует мораль (33). Она состоит в следующем: полезно использовать много разнородных соображений, при том, что каждое из них может быть вполне слабым. Опасно опираться на что-либо одно, потому что обычно мы совсем хорошо ничего делать не умеем. Второе соображение – хорошо проводить одновременный анализ большого количества геномов, желательно находящихся друг от друга на различных эволюционных расстояниях: совсем близкие геномы полезно использовать для одних задач, а более далекие полезно использовать для других задач. И это тот вывод, который из этого раздела, я надеюсь, вытекает.
Мораль
Теперь я попробую рассказать новый результат – ну, не то чтобы совсем новый, это длящееся исследование, но окончательный результат был опубликован только в прошлом году. Это пример того, как с помощью биоинформатики, с помощью сравнительного геномного анализа удается делать что-то совсем новое, удается сообщать биологам на понятном для них языке вещи, о которых они раньше не знали и которые представляют для них интерес. Это будет история про транспортеры.
Транспортеры – это белки, которые располагаются в клеточной мембране и играют роль ворот – впускают и выпускают разные вещества. Соответственно, за счет транспортеров клетка питается – когда она закачивает внутрь что-то питательное, за счет транспортеров клетка выбрасывает какие-то отходы жизнедеятельности, и так далее. Я буду говорить про импортеры – «транспортеры внутрь».
Всякий раз, когда вы хотите что-то затащить в клетку, вы это затаскиваете по градиенту концентрации – этого вещества в клетке все равно больше, чем во внешней среде. Поэтому вы не можете сделать просто дырки в мембране, просто поры. Если бы у вас были просто поры, то вещества текли бы в обратном направлении – из места, где большая концентрация, в место, где малая концентрация. А клетке нужно наоборот. И ей, чтобы таскать что-то по градиенту, надо тратить энергию.
И клетка тратит энергию двумя основными способами, есть еще и другие. Соответственно, есть два основных класса транспортеров (34).
Транспортеры
Первый способ реализуется так называемыми АТФ-зависимыми транспортерами. Это транспортеры, которые на один акт транспорта разлагают одну молекулу АТФ (аденозинтрифосфат). При этом выделяется энергия. АТФ – это вообще основной аккумулятор энергии в клетке. АТФ-зависимый транспортер состоит из субъединиц трех типов: это, во-первых, белки, которые находятся в мембране и образуют канал; это АТФаза – белок, который осуществляет разложение АТФ на АДФ и фосфатную группу, при этом выделяется энергия; и внешний белок, субстрат-связывающий, который ловит молекулы того вещества, которое надо затащит внутрь. И на один акт (в первом приближении) разложения АТФ вы запускаете в клетку снаружи внутрь одну молекулу вашего вещества.
Второй способ – это так называемые вторичные транспортеры. Сначала вы создаете разницу концентраций, например, ионов водорода (то есть просто протонов) в клетке и снаружи. А потом, когда вы что-то затаскиваете по градиенту внутрь, вы одновременно выпускаете ион водорода, снижая разницу концентраций, то есть против градиента. Происходит обмен – это то, что называется вторичный транспорт.
Это две совершенно разные машинки. Общего у них только то, что и там, и там есть белок, который находится в мембране.
Транспортеры – это золотое дно для биоинформатиков, потому что их трудно изучать экспериментально. Про ферменты биологи довольно много всего знают, а про транспортеры – существенно меньше, потому что с ними намного труднее работать. С другой стороны, просто по последовательности транспортеры легко идентифицировать. Во-первых, они образуют большие семейства схожих белков, и иногда их можно просто опознать по сходству с уже известными транспортерами. Во-вторых, даже если это что-то новое, белок, который проходит несколько раз через мембрану, точнее, его трансмембранные участки, имеют довольно характерный аминокислотный состав, и поэтому их легко опознавать.
Что трудно делать – трудно предсказывать специфичность транспортеров. Вот вы увидели транспортер, знаете его трансмембранные сегменты, на какие транспортеры он похож – но вы никогда не можете гарантированно сказать по последовательности, какое именно субстрат он импортирует.
Я сейчас это попробую объяснить. На картинке (35) нарисовано филогенетическое дерево белков. На концах веточек – это разные транспортеры. Длина веточек, в том числе внутренних, – это уровень сходства по последовательности. Мы верим, что уровень сходства отражает степень родства. Таким образом, это просто в каком-то смысле генеалогическое дерево этих белков. А цвета означают разные субстраты: никелевые транспортеры, кобальтовый, транспортер дипептидов, опять транспортер дипептидов, опять никелевый, опять кобальтовый… Транспортеры с одинаковой функцией имеют тенденцию быть похожими друг на друга, но если бы я стер все цвета на этой картинке, а оставил бы только экспериментально определенные специфичности, то сказать что-нибудь про новые транспортеры, просто глядя на уровень сходства, не было бы никакой возможности.
Второй пример – это дерево транспортеров разных витаминов. Красные – это транспортеры НАД (никотинамидадениндинуклеотид), розовые – это транспортеры рибофлавина (витамин В2), голубые – транспортеры тиамина (витамин В1), а зеленый – это транспортер дезоксинуклеотидов. И опять имеем ту же самую мозаику вдоль дерева, родственники имеют тенденцию кластеризоваться, но хорошего правила не получается.
Эта история началась уже больше 10 лет назад, когда мы изучали путь синтеза рибофлавина (37).
Это вещество входит во многие ферменты в качестве кофактора – маленькой молекулы, которая связывается с реакционным центром фермента и участвует в катализе. Наша цель была изучать регуляцию генов, кодирующих ферменты из этого пути, а предсказание специфичности получилось как побочный продукт. Есть предшественники, которых в клетке много, и дальше есть цепочка реакций, которая приводит к рибофлавину. Мы увидели, что перед генами рибофлавинового пути встречается очень консервативная последовательность. Вот здесь (38) буквочек не видно, а цвета, я надеюсь, видно, и вот красное – это абсолютно консервативные позиции, и их много. А бактерии самые разные. Так, вообще говоря, не бывает, это экзотическая ситуация, и есть отдельная история, почему так получилось.
из очень разных бактерий
Вот человек (39), который, все это увидел, это Леша Витрещак, он тогда был моим аспирантом. Он увидел, что эти последовательности можно свернуть в такую структуру.
Когда приходит новый геном, вы видите в нем такую штуку, вы ее опознаете очень легко, тут уже не ошибешься. Вот схема регуляции (40), сейчас это не так важно, потом это стали называть РНК-переключателем, это довольно популярные объекты.
Мне существенно вот что: когда мы стали смотреть на такие структуры, мы увидели, что они совершенно встречаются перед генами рибофлавинового пути – на картинке (41) это разноцветные стрелочки, а структура – это черная стрелочка. И вот у нас есть пять генов рибофлавинового пути, и перед ними – один раз на геном обычно – встречается такая структура. Что очень разумно, если верить, что она действительно регулирует синтез рибофлавина, как оно впоследствии и оказалось. А слева на картинке – таксономия бактерий, в геномах которых мы это смотрели. И в одной группе – у грамположительных – такая структура обнаружилась еще перед одним геном, про который ничего не было известно.
Дальше естественно было задуматься, что этот ген делает, чем мы, собственно, и занялись. Вот что мы про него понимали (42).
Во-первых, мы увидели, что он кодирует белок с пятью потенциальными трансмембранными сегментами – значит, это с большой вероятностью транспортер. Дальше мы видели, что он регулируется так же, как гены синтеза рибофлавина, потому что мы увидели такой же участок. А зачем транспортеру так регулироваться? Например, он может транспортировать сам рибофлавин. Если кбактерии не хватает рибофлавина, она включает все возможности – во-первых, биосинтез (сами пытаетесь его создать, а во-вторых, транспортер, на случай, если что-то можно закачать из внешней среды. Но это мог бы быть и транспортер какого-нибудь предшественника рибофлавина, чтобы импортировать что-нибудь полезное из середины метаболического пути и сэкономить часть реакций синтеза. Когда посмотрели внимательно, оказалось, что есть две бактерии, у которых этот потенциальный транспортер есть, регулируется он рибофлавином (по предыдущей теории), а рибофлавинового пути при этом вовсе нет. И таким образом, это должен быть транспортер рибофлавина, потому что если это транспортер предшественника, то он бесполезен – у бактерии нет ферментов, которые могли бы этот предшественник перевести в окончательный продукт. Вот в этом прелесть работы с полными геномами – если вы чего-то не видите, то значит, этого действительно нет, нет возможности, что это осталось в недоделанной части. Итак, у стрептококка и энтерококка рибофлавинового пути нет, сами они рибофлавин сделать не могут, а есть вот непонятный транспортер, который регулируется рибофлавином. Ну, стало быть, это должен быть рибофлавиновый транспортер – просто не остается логических возможностей. Мы это в 1999 году предсказали, а в 2000 и в 2006 годах вышли экспериментальные статьи, и это оказалось правдой.
Дальше другая история, очень похожая, тоже про витамин, только про биотин. Мы изучали регуляцию биотинового пути (43) (красные кружочки – это потенциальные регуляторные участки в ДНК, стрелочки – это гены) и опять увидели бесхозный транспортер, и опять он регулировался точно так же, как гены биосинтеза. Тем самым, он имеет какое-то отношение к биотину. А поскольку есть геномы, где биотинового пути вовсе нет, а транспортер этот есть, то это транспортер именно биотина.
Мы еще аккуратно проверили, что эти бактерии действительно нуждаются в биотине, что у них есть биотин-зависимые ферменты, у которых биотин является кофактором. Стало быть, это биотиновый транспортер, так же, как и в «предыдущей серии». Но тут было еще другое (я сейчас начинаю ружья на стенку вешать, которые потом выстрелят). Рядом с этим биотиновым транспортером болтались два гена, которые в каких-то геномах встречались, в других не встречались, что делали – непонятно, похожи были на компоненты АТФ-зависимых транспортеров, в частности. там был АТФ-связывающий белок (такие белки хорошо узнаются, не перепутаешь). Но поскольку все это было очень хаотично, и были геномы, где таких белков не было, мы мелкими буквами в конце статьи написали, что что-то такое есть, и никак это не интерпретировали. Так оно и осталось для грядущих поколений.
Похожая история была еще про витамин B1 (тиамин); это вообще довольно однообразные истории. Здесь есть две ветки пути (44), и тут напредсказывалась куча транспортеров – на рисунке они в рамочках, а соображения все те же самые.
Вот почему мы думаем, что это тиаминовый транспортер (45)? Потому у него есть несколько предсказанных трансмембранных сегментов, он регулируется так же, как гены тиаминового пути, встречается в геномах, в которых тиаминового пути нет, а тиамин им все-таки нужен, – ну, стало быть, тиаминовый транспортер, деваться некуда.
Это более красивый случай (46), потому что это как раз транспортер промежуточного продукта. История такая же: регулируется вместе с тиаминовыми генами, но не встречается в геномах, где тиаминового пути нет, то есть он не заменяет весь этот путь. Стало быть, это не транспортер конечного продукта. Но зато в геномах, где встречается такой транспортер, может отсутствовать один из генов начальной стадии пути. То есть ясно, что этот транспортер замещает эту реакцию, стало быть, он является транспортером промежуточного продукта.
Я показывал эти слайды, чтобы приучить вас к этой логике и показать, как разные мелкие соображения одновременно могут работать. А дальше была вот какая история.
Мы изучали еще один витамин – кобаламин (B12), точно так же, метаболизм и регуляцию. Написали статью, в которой, в частности, предсказали некое количество кобальтовых транспортеров (ион кобальта входит в состав кобаламина). И к нам пришло письмо от коллег из Гумбольдтского университета в Берлине, которые нам написали очень вежливо, что статья наша совершенно замечательная, но поскольку мы, по всей видимости, не биохимики, то не понимаем того простого факта, что кобальт и никель очень похожи, и любой транспортер кобальта является одновременно и транспортером никеля, а любой транспортер никеля является одновременно и транспортером кобальта, потому что клетка не может их различить. И они как биохимики давно и успешно это изучают. Поэтому, написали они нам, надо быть осторожнее с выводами, потому что вы биоинформатики и биохимии не знаете. А мы столь же вежливо ответили, что нам, собственно, ваша биохимия по фиг. Вы можете белок заставить делать все что угодно, а мы понимаем, что клетка использует эти транспортеры именно как кобальтовые, потому что они регулируются отсутствием кобаламина (а зачем никелевый транспортер регулировать отсутствием кобаламина?), и находятся эти гены в тех же местах генома, что и гены синтеза кобаламина, а никелевым транспортерам там делать нечего. И вот мы находились некоторое время в этой приятной переписке, а потом Дима Родионов (48), который был главным автором этой работы, выиграл маленький европейский грант и сказал, что хочет позаниматься экспериментальной биологией и, раз есть такие немцы, которые готовы с нами общаться, он к ним поедет поработать в лаборатории. И он поехал к Томасу Хеббельну (48), который нам все эти письма писал, делать этот проект – систематически смотреть на кобальтовые и никелевые транспортеры.
Дмитрий Родионов -> Thomas Eitinger
Какие к этому есть соображения? (47) Первое – это колокализация: гены, которые делают одно и то же, любят в геноме бактерии быть вместе. Как отдельное наблюдение, оно слабое, но когда вы это наблюдаете систематически, то в это можно поверить. Соответственно, никелевые транспортеры живут вместе с генами никель-зависимых ферментов, а кобальтовые транспортеры живут вместе с генами синтеза кобаламина. И второе – регуляция: кобальтовые транспортеры регулируются кобаламиновым РНК-переключателем – эта структура, которая легко опознается, реагирует на недостаток кобаламина (ее-то мы и изучали в самом начале); а никелевые транспортеры регулируются никелевым репрессором – там другой мотив, но тоже можно увидеть, что они регулируются недостатком никеля, стало быть, они никелевые.
Co и Ni
И вот Дима поехал к Томасу, но экспериментальная работа как-то не пошла, а на компьютере он увидел вот это (49): клетка внутри, а в мембране у нее пять разных семейств транспортеров – никелевых и кобальтовых (кто-то из них чисто кобальтовый, кто-то и кобальтовый, и никелевый, а кто-то чисто никелевый). Снизу вторичные транспортеры, а сверху АТФ-зависимые, потому что у них есть АТФаза.
Для одного семейства вот такая была замечательная картинка (50), очень хорошее эволюционное дерево. В отличие от того, что я показывал раньше, это семейство аккуратно разваливалось на никелевую ветку и кобальтовую ветку, ничего ни с чем не путалось.
Геномные локусы тоже были устроены хорошо (51): в кобаламиновом локусе были гены транспортера, гены синтеза кобаламина, регуляторный элемент, и в никелевом локусе тоже – никель-зависимый фермент, никелевый регулятор и вот наш транспортер. Все совершенно замечательно, просто картинка из учебника, я ее студентам рассказываю.
Структура локусов
Дальше сделали эксперимент (52), поскольку лаборатория экспериментальная, и оказалось, что, действительно, транспортеры, предсказанные как кобальтовые, работают как кобальтовые, а никель не практически импортируют, а предсказанные никелевые импортирует никель, а кобальт – нет… Томас специально нарисовал картинку в увеличении, чтобы показать, что кобальтовый транспортер все-таки чуть-чуть никель импортирует, а то ему как биохимику было обидно.
Все очень хорошо. Но проблема была в следующем – тут было слишком много всего (53). Вот у нас АТФаза – замечательно, мы знаем, что у нас должна быть АТФаза. У нас есть трансмембранный белок, картинка справа – как гены в геноме расположены, а слева – как белки в мембране устроены. АТФазы и трансмембранные белки у кобальтовых и никелевых транспортеров похожи. А дальше не очень понятно. Вот, кажется, субстрат-связывающие белки, у них один трансмембранный сегмент и внешний домен, все как положено. Но зачем-то еще один трансмембранный белок, причем он везде есть, и он явно лишний, в традиционной схеме он не нужен.
Структура: слишком много компонентов
Дальше, когда посмотрели на АТФазу и трансмембранный белок, оказалось, что они очень похожи на те самые биотиновые белки, которые мы раньше видели и про которые не могли ничего сказать. Это старая картинка (54), даже две, из двух разных статей, и красным обведены ситуации, когда наш предсказанный биотиновый транспортер имел эти дополнительные белки, про которые мы ничего не знали. А зеленым обведены ситуации, когда он вполне существует один, без дополнений – стало быть, он в дополнениях не нуждается.
Дальше Дима уговорил Томаса сделать совершенно бессмысленный, на первый взгляд, эксперимент: взять нормально работающий кобальтовый транспортер и убить у него АТФазу. И довод был такой: посмотрите, биотиновый транспортер может работать без АТФазы (в некоторых геномах), а системы очень похожи, значит, этот, наверно, тоже сможет работать без АТФазы. И они это сделали. И оказалось, что, действительно, если вы берете комплекс, который выглядит как нормальный АТФ-зависимый транспортер, ну разве что с каким-то дополнительным довеском, и убиваете у него, вообще говоря, жизненно важный компонент, то, что остается, все равно работает (55). Хуже работает, но работает. А вот если вы убьете белок, который там был вроде как лишний, – то все ломается. И это на самом деле был первый пример такого транспортера, который соединяет и АТФ-зависимый, и АТФ-независимый транспорт, других таких примеров не было.
Для транспорта достаточно компонент МN
(первый пример такого АВС-транспортера)
Дальше, конечно, немедленно сделали такой же опыт с биотиновым транспортером (56), Дима с Томасом тут опять авторы, а меня тут уже нет… Вообще, в отличие от Северинова, который в прошлый раз рассказывал классические работы, я рассказываю работы, которые станут классическими лет через пятьдесят; поскольку здесь я не автор, мне легко про это говорить. Там была та же самая история. В одиночестве биотиновый транспортер работает, а если у него есть дополнительная АТФазная компонента, то он работает более интенсивно. Там просто другая кинетика.
у BioMNY более крутая кинетика
А дальше оказалось, что таких потенциальных транспортеров очень много. Это нарисовано на картинке с сайта Томасовой лаборатории (57) (он теперь сделал это практически основным предметом для изучения): есть стандартный комплекс, который у всех стандартный, – трансмембранный белок и АТФаза – и дополнительные компоненты, которые, кроме того, могут вообще работать отдельно, как в случае биотина. И вот мы, теперь зная, на что надо обращать внимание, такие гены увидели рядом с очень большим количеством других транспортеров, которые нам уже встречались – рибофлавиновый, тиаминовый, гидроксиметилпиримидиновый – я как раз про них говорил в начале этой истории.
Верхушка айсберга?
Потом Дима защитил диссертацию и поехал на постдок к Андрею Остерману в Сан-Диего (58).
Андрей – совершенно замечательный человек, он вообще-то настоящий биохимический биохимик, который полностью перекрестился в новую веру. То есть, он очень успешно продолжает заниматься биохимией, ему интересно открывать новые ферменты, это его основное занятие, но он понял, что очень мощный способ обнаружения новых ферментативных активностей – это предварительный компьютерный анализ. И он научился это делать, но регуляцию он не смотрит, он просто смотрит на то, где гены расположены, а Дима как раз к нему поехал заниматься регуляцией, которая много для этих задач дает. А дальше, когда Дима оказался в среде биохимиков и начал с ними общаться, они с Андреем обнаружили, что куча народа на самом деле такие транспортеры изучают в разных лабораториях, только не знают, что они все изучают одно и то же, потому что они все их изучали по отдельности. И вышла замечательная статья – «Новый класс модульных транспортеров» – у нее авторы из 5 разных лабораторий (4 экспериментальных и наша). Это оказалась целая вселенная. Как эти транспортеры устроены: есть такие системы, как я показывал – трансмембранный белок, АТФаза и дополнительный компонент, который определяет специфичность; трансмембранный белок и АТФаза у всех похожи, а компонент, который определяет специфичность, у всех разный, поэтому он и определяет специфичность. И вот пожалуйста (59): биотин, кобальт, никель – это то, что мы уже изучали; тиамин – то, что у нас выплывало, но экспериментально это смотрели другие люди; какие-то предшественники кобаламина, неизвестно какие; аминокислота метионин, кьюозин, это модифицированный нуклеотид, и так далее.
Дальше оказалась еще более удивительная вещь, на чем мы надеемся въехать в рай рано или поздно, – эта штука вообще может работать как отвертка со съемным жалом. Поскольку АТФаза и трансмембранный компонент специфичность не определяют, они, вообще говоря, могут быть универсальными, кодироваться в геноме в совершенно другом месте и работать с большим количеством разных компонентов, которые определяют специфичность. И тут мы видим целый учебник биохимии (60) – опять биотин; рибофлавин – тот самый рибофлавиновый транспортер, с которого я начал; фолат; опять предшественники тиамина и сам тиамин, только другие варианты транспортеров, и еще много всего. Они регулируются все по-разному…
Поскольку лаборатории были экспериментальными, они это проверили (61), оказалось, что рибофлавиновый транспортер переносит рибофлавин, предсказанный тиаминовый – тиамин, для них АТФ обязательна, они без нее не работают. А фолатный оказался такой же, как биотиновый, – он хорошо работает в присутствии АТФазы, но если АТФазу ему поломать, то, что остается, работает как вторичный транспортер.
Ну вот, как это выглядит (62): тут нарисована клетка. Есть системы, которые работают как целое – АТФаза, трансмембранный компонент и компонент, определяющий специфичность. А есть и такие, которые работают как вторичные транспортеры с разной специфичностью, и дополнительно есть универсальное «зарядное устройство», которое состоит из АТФазы и трансмембранного компонента. В комплексе со специфичным транспортером, такой комплекс повышает его эфективность.
Я подробно рассказывал эту историю, потому что это пример, когда совершенно неожиданная биология всякий раз была сначала предсказана, а потом уже экспериментально проверена.
Универсальный «энергетический комплекс»
+ компоненты, определяющие специфичность
Это была прикладная биоинформатика – это то, за что нас содержат биологи. На самом деле, очень интересно заниматься неприкладной биоинформатикой, я подробно рассказывать не буду, а просто назову области (63). Молекулярная эволюция – происхождение генов, таксономия организмов, горизонтальные переносы, т.е. то, как гены из одного организма могут попасть в другой. Интересно смотреть, как устроен отбор на молекулярном уровне, например, есть очень популярная область – определять гены, которые быстро эволюционируют на пути, который ведет к человеку. В основе этого лежит идея, что именно действие отбора на эти гены привело к тому, что мы стали людьми. Конечно, пока это область довольно спекулятивная, но там бывают вполне забавные результаты, например, оказалось, что ген, мутации в котором приводят к наследственным нарушениям речи, действительно очень быстро эволюционировал в линии, которая ведет к человеку.
«Неприкладная» биоинформатика
Интересно смотреть на клетку в целом – это модная сейчас область, которая называется системная биология. Она пока не очень оформилась, но там можно строить разные модели, пытаться что-то описывать. Эта наука набирает популярность и, видимо, постепенно станет вполне внятной.
А кроме того, интересно думать про большие задачи, т.е. не ковыряться, так сказать, с каждым семейством белков, а понимать вообще, как все получилось (64).
«Большие задачи»
Ну, самый большой вопрос, откуда все это взялось – это, по-видимому, не вопрос биологии, а вопрос химии, но можно пытаться – и это интересно – реконструировать свойства последнего общего предка всех живых организмов. Например, ясно, что генетический код у него был такой же, как у нас, потому что генетический код у всех одинаковый. У него, скорее всего, был РНКовый геном, то есть основной молекулой – носителем генетической информации у него была не ДНК, а РНК. Это следует из разных причин, в частности из-за того, что рибосомы у всех одинаковы, и другие клеточные машинки, которые работают с РНК, у всех одинаковые, а те, которые работают с ДНК, – они уже разные у бактерий и у нас. Поэтому можно думать, что у нашего общего с бактериями предка был геном на основе РНК, а ДНК – это уже более позднее изобретение.
Можно рассуждать – и это частично сделано – про происхождение эукариот (это организмы, клетки которых имеют ядро, например, мы с вами). По-видимому, это некая химера, потому что митохондрии – это на самом деле бактерии, которые научились жить внутри другой клетки. Они сильно деградировали после этого, существенную часть своих бактериальных генов они отдали в основной ядерный геном, но, тем не менее, видно, что это явные бактерии, причем даже известно, из какой таксономической группы: наши митохондрии – это ближайшие родственники риккетсий.
Женя (Евгений Викторович) Кунин пытается на основании вот такого рода соображений строить какие-то более глубокие модели. На этой картинке (65) ничего не видно – это правильно, потому что, скорее всего, там все неправильно. Тем не менее, вот примерно до середины истории (если следить по большим событиям), можно надеяться спуститься, просто сравнивая геномы ныне существующих организмов. Дальше начнется, по-видимому, рукомахание и биохимия.
Вот это люди, которых я упоминал (66). Дима Родионов, который занимался метаболизмом и поиском транспортеров, Леша Витрещак, который придумал РНК-переключатели – они были крайне важны для определения специфичности, помимо того, что это само по себе замечательное открытие. Андрей Александрович Миронов написал программы, с помощью которых мы все это делали, а кроме того, он просто-напросто центральный человек в этой компании. И это вот наши коллеги-экспериментаторы – Томас Эйтингер и Андрей Остерман.
Последний слайд (67) – это кто-то из младших Брейгелей, картина называется «Битва с падшими ангелами» – по-моему, это совершенно неправильно, потому что вот эти существа, несомненно, символизируют секвенированные геномы, и они очень разные, как можно увидеть, а вот эти вот крайне немногочисленные благородные люди в белом – это биоинформатики, которые пытаются все эти геномы изучать, и сил явно не хватает. Спасибо.
Обсуждение лекции
Борис Долгин: Что надо, чтобы сил хватало? Сейчас поясню вопрос. Нужно, чтобы больше людей пошли в эту область, нужны машины, нужно – что?
Михаил Гельфанд: Ну, во-первых, нужно, чтобы люди шли в эту область, и они на самом деле идут в эту область, она довольно популярная. Какие-то такие рутинные вещи биологи научаются делать сами. Биоинформатика – наука на самом деле не очень сложная, там большое количество мелких соображений, которые не очень трудно научиться применять в правильном порядке. И в хороших биологических группах люди просто умеют это делать сами. История про РНК-переключатели очень показательная. Их придумали одновременно (мы – чуть раньше) с биоинформатического конца и с экспериментального. Мы перестали этим заниматься, потому что эксперимента у нас не было, а те экспериментаторы, с которыми мы пытались работать, нас кинули. А экспериментальная группа в Иейле – они очень быстро научились делать примерно такую же биоинформатику, только чуть менее детальную, и прекрасно существуют, и на самом деле очень красивые работы делают. То есть, с одной стороны, должно быть больше людей, которые пытаются работать на переднем крае и развивать методы, а с другой – в сильных биологических группах биоинформатики должны быть, что называется, in situ.
Борис Долгин: Надо ли как-то сильно менять биологическое образование, чтобы люди могли воспринять?..
Михаил Гельфанд: Да в некоторой степени это происходит. Даже в Московском университете, который, в общем, достаточно консервативное место, там, помимо того что есть наш факультет биоинженерии и биоинформатики, мы еще ведем спецкурсы по биоинформатике на биологическом факультете на молекулярных кафедрах. В американских университетах программы по биоинформатике есть практически везде. Учебники есть приличные. Совсем хороших нет, но приличные есть.
Вопрос из зала: Хотелось бы услышать ваше мнение, жизнь зародилась в земном бульоне или залетела из космоса?
Михаил Гельфанд: Согласно принципу Оккама, нет никаких поводов думать, что жизнь залетела из космоса. Есть более или менее правдоподобные сценарии того, как жизнь возникала не в бульоне, а – в рамках вашей метафоры – на стенках кастрюли, т.е. в компартментах, которые образовывались в глинистых минералах. Кунинская статья, которую я упоминал, – она примерно про это. Гипотеза панспермии, во-первых, ничего не решает, а во-вторых, она непроверяемая. Доводов не видно.
Борис Долгин: Я все-таки уточню. Меня смутил бульон. Этой метафорой еще пользуются биологи или это осталось в советском прошлом?
Михаил Гельфанд: Не надо думать, что все, чем занимались приближенные к советской власти люди, является скомпрометированным самим этим фактом – сама наука от этого не очень зависит. Бульон не бульон, но какие-то вещества, относительно простые, которые должны были объединяться, чтобы образовывать относительно сложные молекулы, – они должны были существовать. Называть это сильно разбавленным бульоном или как-нибудь еще – это уже дело вкуса.
Вопрос из зала: Вопрос, который остался еще со времен «Билингвы». Чем ДНК более эффективна, чем РНК, и почему эволюция остановилась на двойной спирали и не пошла по пути утроения и так далее?
Михаил Гельфанд: Тройная, четверная ДНК и так далее практически не существуют просто по физическим причинам. Тройная ДНК бывает, но она накладывает крайне жесткие ограничения на последовательность. Вы не любую последовательность ДНК можете свернуть в тройную спираль, а в двойную – любую. ДНК лучше, чем РНК, потому что она существенно более устойчива к повреждениям. В частности, например, существование двух нитей позволяет в случае ошибки исправлять одну нить, используя данные с другой.
Вопрос из зала: Когда говорят, что расшифрована ДНК некой хромосомы высшего организма, при этом подразумевают, что эту ДНК можно полностью распутать, выделить как линейный одномерный объект, чтобы пронумеровать все нуклеотиды. А есть ли уверенность, что эту ДНК можно в принципе распутать?
Михаил Гельфанд: Ну, технически это делается не так. Технически вы сначала ее режете, потом определяете последовательность фрагментов, а потом по перекрываниям выстраиваете их в линейную молекулу. Распутать свернутый линейный объект – ну, мне неизвестно, чтобы кто-то это пробовал делать, а с другой стороны, клетка с этим справляется, потому что когда она воспроизводит ДНК в акте репликации, то все вот эти проблемы, связанные с запутанностью и всем прочим, она таким способом решает. А про то, как ДНК устроена в клетке, – вот именно хромосомы, включая всю структуру хроматина, то, как это намотано на белки и так далее, – это сейчас очень активно изучается, это как раз та часть, про которую я почти ничего не говорил, только упоминал. В частности, сейчас есть некоторые представления о том, как это устроено пространственно, какие участки хромосом (не обязательно одной и той же хромосомы) в клетке сближены в среднем – это усреднение по многим клеткам идет, клетки в этом смысле не тождественны.
Борис Долгин: Если я правильно понял вопрос и ответ, речь идет о том, что попытка рассмотреть последовательность как линейную обедняет смысл, точно так же, как пытаться рассмотреть стихи как некоторую единую строфу, игнорируя ритм и так далее, – значит обеднить понимание стиха, так и здесь…
Михаил Гельфанд: Ну, я бы метафору со стихом, с вашего позволения, проигнорировал как ничего не поясняющую. Тут два аспекта. Первый аспект – что действительно рассматривать ДНК только как текст – это, несомненно, беднее, потому что мы знаем, что ДНК устроена сложнее, там есть еще куча всего, в том числе пространственная организация, химические модификации и так далее. От этого постепенно не то чтобы отходят – все равно с геномом всегда будут работать. Но это постепенно обогащается представлениями про другие аспекты.
Борис Долгин: Насколько математики-алгоритмисты идут в эту сферу?
Михаил Гельфанд: Идут, конечно, я говорил, что там есть вполне нетривиальные математические задачи, и в нашей группе примерно пополам людей с биологическим образованием и математическим.
Борис Долгин: А понятно ли, как математиков привлекать, есть ли для них путь?
Михаил Гельфанд: Вот я по образованию математик. Путь есть: я пять раз сдавал кандидатский экзамен по молекулярной биологии.
Вопрос из зала: Скажите, немцы – люди вроде очень практичные, и, скорее всего, какое-то прикладное значение все вышеуказанное имеет?
Михаил Гельфанд: Немцы – люди не только практичные, но и романтические…
Борис Долгин: И дотошные.
Михаил Гельфанд: Да, и педантичные. В принципе биоинформатика имеет то же прикладное значение, что и биология в целом, просто это часть биологии, которая пользуется новыми возможностями. Биология практическое значение имеет, но это тема для отдельной лекции, скорее всего, не я должен ее читать. Вообще, это демагогический, конечно, будет ответ – как и вопрос…
Конкретно транспортеры… устойчивость к лекарствам против рака довольно часто определяется транспортерами – клетка научается выкидывать те противораковые препараты, которые в нее попадают, тем самым изучение транспортеров… – ну, дальше сами можете досочинить. Вот понимать, как клетка живет, само это понимание, по-видимому, практически полезно. Рибофлавиновый транспортер – вся вот эта история про рибофлавин – экспериментальное подтверждение этому было сделано на фирме, которая практически занимается производством рибофлавина. Если вы хотите заставить клетку делать рибофлавин массово, то вы должны ей запретить этим прекращать заниматься. В норме клетка, когда в ней много рибофлавина, чувствует это с помощью той самой регуляторной структуры, закрывает работу рибофлавиновых генов, ферменты соответствующего пути больше не производятся. Теперь вы хотите клетку заставить – вы хотите, чтобы рибофлавина у нее было много, а она продолжала и продолжала его делать. Первое, что вы в такой ситуации делаете, – нарушаете у нее регуляцию, отрицательную обратную связь «много рибофлавина – кончай его делать». Если вы таким образом умеете предсказывать регуляторные участки, то вы умеете на это как-то влиять. Вторая такая же история – с транспортерами. Клетка, вообще говоря, если она имеет возможность взять рибофлавин из внешней среды, то она никогда не будет его делать сама, взять из среды гораздо экономичнее. Соответственно, если вы хотите сделать штамм, который является продуцентом рибофлавина, то вы убиваете у него транспортеры. Экспериментальная работа 2006 года, где рибофлавиновый транспортер был проверен, – это работа из компании.
Вопрос из зала: Хотелось бы услышать все-таки, какие ограничения у биоинформатики, ведь кажется, что вы не так-то много можете сами по себе, глядя на данные. Например, хороший пример с предсказанием насчет транспортера, но можете ли вы сделать что-то такое более интересное, например, понять взаимодействия генов – не функцию отдельного гена или группы, а более сложные процессы? Спасибо.
Михаил Гельфанд: Мы можем обнаруживать биологические факты, которые биологам раньше были не известны, и не было даже представления о том, что эти факты могут существовать. Новый класс транспортеров – вам это кажется не очень интересным, мне это кажется достаточно интересным. Вот РНКовая структура, о которой я упоминал, но практически не рассказывал, – это на самом деле первый пример регуляторной структуры, которая умеет напрямую связывать малые молекулы. Это было предсказано, это потом оказалось правдой, и это имеет отношение к достаточно фундаментальным вещам, потому что, если представить себе РНКовый мир, когда белков еще не было, а РНК уже была, тогда были рибозимы – молекулы РНК, которые умеют работать как ферменты, – это первый пример природной РНКовой структуры, которая непосредственно взаимодействует с малыми молекулами. Мы умеем понимать, как перестраиваются регуляторные системы в эволюции, это опять слишком специальная тема для популярной лекции, но мы умеем говорить про регуляцию сразу групп генов и пытаться в каком-то смысле воспроизводить регуляторные взаимодействия между целыми группами генов. Мы умеем довольно хорошо предсказывать метаболизм бактерий (собственно, я с этого начал), опять-таки глядя на последовательности. Давайте сделаем по-другому – давайте вы скажете пример какого-нибудь факта, который показался интересным, а я скажу, можем мы это сделать или нет.
Реплика из зала: Ну да ради Бога, скажем, корреляции между какими-то определенными генами, сказать, какие у них функции – именно у какой-то произвольной группы, с которой вообще не было никаких экспериментов.
Михаил Гельфанд: Про эти транспортеры не было никаких экспериментов, пока мы не начали делать. Это вполне группа генов.
Реплика из зала: Я так понял, это какая-то очень локализованная группа.
Михаил Гельфанд: Вы неправильно поняли.
Вопрос из зала: Я хотел бы спросить про инструменты ваших исследований. Я имею в виду программы, которые вы используете. Конечно, вы не глазами пробегаете последовательности…
Михаил Гельфанд: Довольно много глазами. Но есть и программы. Скажем, когда мы хотим найти гомологи, т.е. родственные белки, есть стандартные интернет-сервисы, которые это делают. Вообще довольно многие такие инструменты реализованы в виде интернет-серверов, и можно просто положить туда вашу последовательность и получить какой-то ответ. Например, для предсказания трансмембранных сегментов люди сделали такой инструмент. Для сравнительного анализа регуляции у нас есть собственные программы, которые Андрей Александрович Миронов написал, и сейчас мы как раз пытаемся их сделать более общедоступными. Реально, по-видимому, жизнь устроена так, что группа сначала пишет программу для себя, для конкретной задачи, которую нужно сделать. Если эта программа оказывается разумной, то возникает социальное давление для того чтобы ее сделать общедоступной. Считается, что если вы что-то опубликовали, то по первому требованию вы это предоставляете всем желающим, для программ это означает, что надо к ним писать документацию. Для авторов успешных статей это оказывается большая нагрузка. И вместо того, чтобы посылать свою программу, сейчас гораздо эффективнее реализовать ее в виде интернет-сервера. И востребованные процедуры – то, что реально людям нужно, – все это фиксируется в виде интернет-серверов.
Вопрос из зала: Спрашивали, какие проблемы можно и нужно решить. Определение вторичной, третичной структуры белка по первичной последовательности входит в задачи биоинформатики?
Михаил Гельфанд: Да, это традиционная задача, ее можно решать физическими методами, можно решать такими статистическими биоинформатическими методами. Вторичная структура предсказывается довольно прилично, там нет сейчас заметного прогресса – но тут вопрос в том, что такое «решить». Если вам нужно стопроцентное предсказание во всех случаях, то нет, так не получается. Но для многих ситуаций полезные предсказания получаются. Вторичная структура по последовательности предсказывается довольно прилично, пространственная структура (третичная) предсказывается хуже – de novo, если у вас родственников нет. Но с очень большой вероятностью у вас будет родственник с уже известной структурой, и задача в том, чтобы разумным образом вписать вашу последовательность в известную структуру. Это делается довольно хорошо. Есть замечательное мероприятие – чемпионат мира по предсказыванию белковых структур. Он устроен так: группы, которые определили структуру белка экспериментально, в период между тем, как структура стала известна, и тем, как она опубликована в журнале, объявляют о том, что структура у них есть, и дальше любые желающие могут для этой последовательности предсказать структуру (последовательность известна, а вот структура – нет, то есть она еще не опубликована, но объявлено, что для этой последовательности структура вот-вот будет). Причем, как в легкой атлетике, есть разные категории – белок с родственниками, белок без родственников, предсказание вторичной структуры, пространственной, предсказание только хода главной цепи, т.е. основные свойства структуры, скажем тип укладки, или положения всех боковых групп. А дальше раз в год специальная комиссия устраивает конференцию и выдает медали. По предсказанию генов раньше тоже такое устраивали, сейчас перестали, все сделано. Долго никто не верил, что можно предсказывать пространственную структуру целиком de novo, а сейчас вот даже в этой области есть существенный прогресс.
Вопрос из зала: Я недавно вот читал в «Химии и жизни», что сделано такое открытие, когда ген кодирует не один белок, а несколько. Вы можете рассказать что-то про это?
Михаил Гельфанд: Я не знаю, что имелось в виду в «Химии и жизни», но таких историй есть сколько угодно. Например, у всех эукариот есть сплайсинг – то есть сначала транскрипция, а потом до трансляции идет вырезание незначащих участков и соединение того, что осталось, и только после этого получается матричная РНК. Так вот, сплайсинг может происходить разными путями, в результате, вообще говоря, у вас будут получаться разные белки. А у вирусов часто бывает так, что один фрагмент ДНК может кодировать сразу несколько белков в разных рамках считывания (тут вопрос в формальном определении гена, оно все время немножечко «подплывает») – вот вы сдвигаетесь на один нуклеотид, получаете совсем другую последовательность, и она тоже оказывается осмысленной. Вирусы очень экономят размер своего генома, там страшный отбор на эффективность, на скорость репликации. И из-за этого у вирусов очень часто бывают такие накладывающиеся рамки считывания, тут уже вопрос вкуса – вы хотите называть это дело одним геном или двумя.
Вопрос из зала: Вы использовали понятие «родственный белок». Под этим вы подразумевали, что они имеют сходную последовательность, или что у них действительно есть родственные отношения (т.е. один белок порождает другой, например)?
Михаил Гельфанд: Спасибо, это на самом деле замечательный вопрос, очень правильный. Формально я имею в виду, что они похожи друг на друга, потому что ничего другого я, строго говоря, проверить не могу, у меня нет машины времени, чтобы узнать, были ли они когда-то одним и тем же белком. При этом я делаю допущение, что эти белки, похожие друг на друга, действительно происходят от общего предка. Вот человек и шимпанзе происходят от общего предка, значит, похожие белки человека и шимпанзе происходят от похожего белка, который был в этом предке. Почему мы думаем, что это предположение правильное: во-первых, потому что оно просто логически естественно, а во-вторых, мы, вообще говоря, можем его проверять. Если мы возьмем новый набор похожих белков из разных организмов и начнем строить филогенетические деревья по каждому из этих белков, то в первом приближении эти деревья будут одинаковыми. Это означает, что в узлах этого дерева мы как раз реконструируем те самые предковые белки, которые были у предковых организмов. И тот факт, что эта генеалогия для разных белков оказывается устроенной одинаково, – ну, по-видимому, самый экономичный способ это объяснить – что просто эта генеалогия отражает генеалогию самих видов. Могу байку рассказать в этой связи. Люди занимаются следующей деятельностью, которая называется «молекулярная палеонтология» (только-только начали заниматься, я две-три работы знаю). Вот если мы верим, что похожие белки являются родственниками и имели общего предка, то давайте мы возьмем этого предка и реконструируем его последовательность, глядя на современные. Дальше мы можем его синтезировать, это не очень сложная генная инженерия, и давайте просто изучать его свойства. Два примера таких работ: один – когда реконструировали зрительный пигмент динозавра, чтобы просто снять спектр поглощения, а второй – когда реконструировали один из факторов трансляции общего предка всех бактерий и померили его температурный оптимум (тут базовая гипотеза, что в каждом организме температурный оптимум белков – это та температура, при которой этот организм преимущественно живет). Оказалось 60-70 градусов, термофил, но не гипертермофил.
Вопрос из зала: Если существуют последовательности нуклеотидов, которые не кодируют белки, то зачем они нужны?
Михаил Гельфанд: Они кодируют много всего другого. Во-первых, они кодируют структурные и регуляторные РНК, во-вторых, в них находятся просто регуляторные сайты. Помните, я показывал пример, где был консервативный участок, но не внутри гена, я сказал, что этот участок регулирует работу гена. Это одна сторона, есть еще много других функций, кроме как кодировать белки, например, говорить, когда этот ген включать, а когда выключать. Практически все регуляторные сайты расположены перед генами и в межгенных промежутках. У бактерий устроено так: у них межгенные промежутки короткие, примерно половина из них, по нашей оценке, находится под жестким отбором, и их функция, по-видимому, регуляторная. У нас с вами в геноме могут быть «паразиты», повторы – последовательности, которые научились копировать сами себя и вставляться в случайные места. Геном бактерии должен быстро реплицироваться, потому что она должна быстро поделиться, потому что если она будет делиться слишком медленно, то быстро делящийся соседний клон задавит. У эукариот такого отбора на компактность генома нет (особенно у многоклеточных), и геном может расти довольно сильно, а придумывать специальные механизмы чистки генома от «паразитных» фрагментов ДНК (кроме как естественный отбор) – непонятно как. А кроме того, это очень опасно, потому что как только вы начинаете геном кромсать, то это очень мощный источник всякого сорта ошибок. Канонический пример: есть единственный класс клеток человека, где действительно происходят реальные перестройки генома – это лимфоциты, клетки иммунной системы – при их созревании происходит перестройка генома. И все лимфомы и лейкозы связаны с тем, что эта перестройка случилась неправильно, образовался бессмертный клон – и отсюда белокровие и все связанные с этим радости. То есть вы не можете придумать механизм эффективной очистки генома от более или менее бесконтрольно размножающихся элементов, который не был бы вреднее самих этих элементов, когда, грубо говоря, милиция оказывается хуже, чем бандиты.
Вопрос из зала: Ведутся ли работы по созданию цифровой модели бактерии или какой-нибудь ее части, ее виртуального описания и какой-то эволюции?
Михаил Гельфанд: Да, ведутся, причем разного сорта. Есть просто модели метаболизма: люди решают задачи линейного программирования или строят системы дифференциальных уравнений и пытаются описывать метаболизм. Сейчас умеют для всей бактерии строить относительно приличные стационарные модели, имеющие разумную предсказательную силу. Для отдельных систем строят приличные кинетические модели, это как бы одна сторона. А другой подход – когда вы пытаетесь моделировать достаточно общие свойства, вы бактерию представляете в виде некоего абстрактного существа, «черного ящика» с какими-то входами и выходами, а дальше устраиваете популяцию бактерий, они могут немножко свои входы и выходы – то, что внутри черного ящика – модифицировать, и можно подсмотреть такую вот искусственную эволюцию. Такого сорта работы тоже есть, я их чуть меньше люблю, но среди них забавные тоже попадаются.
Вопрос из зала: И второй вопрос: биологические наномашины – насколько они изучены, известны ли механизмы, и если да, то есть ли удачные попытки искусственного создания какой-нибудь наномашины?
Михаил Гельфанд: Довольно хорошо изучены, это как раз материал традиционной молекулярной биологии. Есть пространственная структура рибосомы, буквально положение каждого атома, работающего в рибосоме, причем в разных состояниях – в начале трансляции, в разных стадиях самой трансляции. Для многих ферментов эти структуры тоже хорошо известны. Люди научились строить ДНК-связывающие белки, у которых специфичные последовательности, т.е. они связываются не в любом месте, а в конкретном, а связавшись с ДНК, они ее в этом месте раскусывают.
Михаил Потанин: Вы рассказывали про различные методы анализа последовательностей. Была ли попытка эти методики объединить в экспертную систему? В частности, в вашем Институте проблем передачи информации есть группы, которые занимаются экспертными системами…
Гельфанд: Спасибо, я в курсе. Хороших примеров автоматических экспертных систем в области анализа геномов я не знаю. Мне кажется, что по сравнению с врачами, с которыми имеют дело наши создатели экспертных систем, у нас просто недостаточно опыта. Хорошая экспертная система строится на выкачивании опыта и способов думать из головы эксперта, она пытается это воспроизвести. Медицинские экспертные системы примерно так и устроены. А у нас недостаточно опыта, чтобы на его основе сделать нечто разумное. Что действительно есть, и очень полезно – вспомогательные программы, комплексы, которые разного рода рутинные операции позволяют делать в разумном порядке, с удобным интерфейсом и так далее. Не экспертные системы, а скорее помощники для эксперта. И мы пытаемся такого сорта программы писать, Андрей Александрович Миронов это очень успешно делает, и другие группы такого сорта вещи делали. Вот это оказывается на самом деле действительно очень полезно. Вот такие картинки со стрелочками, которые я показывал, действительно очень упрощают работу, когда надо смотреть сразу на много геномов. А сколько-нибудь разумно автоматизировать вот это рукомахание, о котором я рассказывал, не получается. Я, когда преподаю, учу студентов каким-то фокусам, а в каком порядке правильно их применять – это достигается упражнением...
Сергей: Насколько вы уверены, что у бактерий был один общий предок? Или они могли пойти все-таки из каких-то разных точек?
Гельфанд: Если они пошли с разных точек, то они каким-то удивительным образом пришли все в одно и то же место. У них одинаковые рибосомы, одинаковый аппарат транскрипции, одни и те же аминоацил-РНК-синтетазы, одинаковые РНК-полимеразы, аппарат репликации... На самом деле все базовые механизмы у них у всех одинаковые, не говоря уже о генетическом коде. Это на самом деле самый сильный довод в пользу монофилетичности, то есть того, что был один общий предок. Потому что трудно предположить, что ровно один код мог возникнуть несколько раз. Другое дело, что общий предок всех живых существ – не обязательно клетка, это могла быть и лужица, в которой плавали молекулы (точнее, как я говорил – пора в глинистом минерале). Есть подозрение, что мембрана была изобретена независимо два раза. Эта идея – правильная или неправильная – по крайней мере, повод, чтобы задуматься. А то, что аппарат трансляции был изобретен один раз, – нет никаких оснований думать по-другому.
Портал «Вечная молодость» http://vechnayamolodost.ru
20.05.2010