Подписаться на новости
  • Сенатор
  • ООО "Ай Вао"
  • TechWeek
  • Биомолтекст2020
  • vsh25

Молекулярная биология + компьютеры = биоинформатика

Биоинформатика: молекулярная биология между пробиркой и компьютером

Мы публикуем расшифровку лекции доктора биологических наук, зам. директора Института проблем передачи информации им. А.А. Харкевича РАН, профессора Факультета биоинженерии и биоинформатики МГУ Михаила Гельфанда, прочитанной 1 апреля 2010 года в Политехническом музее в рамках проекта «Публичные лекции Полит.ру».

Добрый день. Я думаю, прежде чем мы начнем, будет правильно, если мы какое-то время помолчим и вспомним наших сограждан, жителей нашего города, которые погибли в понедельник.

Хорошо, спасибо. Я буду рассказывать про биоинформатику (1).

Константин Викторович Северинов, который рассказывал про биологию в прошлый раз, начал с совершенно феерического слайда с электронным посланием, которое он получил от кандидата военных наук, полковника в отставке, с требованием немедленно запретить преподавание эволюции. Мне такое тоже приходило, повторять уже не так интересно, а традиция начинать с какого-нибудь безумного бреда – она, по-видимому, правильная. Кроме того, в этом зале на первом этаже висит объявление о лекциях некоего доктора Чудинова, и, значит, попытки очистить это здание от этого бреда тоже не удаются. Поэтому это все, по-видимому, вполне в духе времени…

Борис Долгин. С течением времени, надеюсь, оно само исчезнет…

Михаил Гельфанд. Да, будет вытеснено лекциями «Полит.ру». Так вот, если набрать в «Гугле» фразу «академия биоинформатики», то там выскочит вот такое (2).

«Академия биоинформатики»

«Академия биоинформатики»

Раньше на слово «биоинформатика» эта страничка выскакивала одной из первых, а сейчас не так, сейчас ее надо поискать, но на «академия биоинформатики» она выскочит.

Так вот, об этом речь не пойдет (4).

А речь пойдет про нормальную содержательную молекулярную биологию, которой люди научились заниматься не только в живых существах, что называется in vivo, не только в пробирках, что называется in vitro, но и в компьютере, для чего придумали название in silico. Реально под всем этим все равно стоят какие-то экспериментальные данные, но компьютер стал важным средством их обработки.

Если мы сделаем другой поиск в «Гугле» – на фразу «расшифрован геном», – то там выйдет гораздо больше всего интересного (5).

расшифрован геном!

Выйдет примерно 600 000 англоязычных страничек, и среди них будет «геном человека», причем не просто геном человека, а его трехмерная структура (я потом, может быть, к этому вернусь на минутку), сорго, бактерия Pseudomonas, опять трехмерный геном человека, геном рака (не животного – рака, а геном раковой опухоли, тоже человеческой), собака. В русском выскакивает кукуруза, опять-таки опухоль мозга, разумеется, «геном русского человека», следом – геном свиньи, геном бактерии, которая повреждает зубы, геном неандертальца.

К сожалению, это все не совсем правда.

Еще один такой же слайд (6) – это количество доступных полных геномов бактерий. Я остановился на 2007 году, не успел новых цифр собрать, оно вот так вот вверх экспоненциально растет.

622 полных геномов бактерий (в 2010 уже больше тысячи)

Неправда тут в том, что, когда говорят «расшифрован геном», имеется в виду, что люди определили последовательность нуклеотидов, которые геном составляют. И это не есть расшифровка. Если кто помнит этот кадр (7), в руке у шефа гестапо – записка, которую отобрали у несчастного профессора Плейшнера, и представьте себе на минутку, что она была бы по-настоящему расшифрована. Штирлиц, он же Исаев никогда бы из этой комнаты не вышел, а Мюллер, соответственно, получил бы очередной орден.

Расшифрован ли геном?
Перехватить зашифрованное сообщение –
еще не значит его понять

И вот то, что называют в просторечии «расшифровкой генома», на самом деле не столько расшифровка, сколько перехват зашифрованного сообщения. Вместо молекулы ДНК, которая плавала в пробирке, у вас есть теперь последовательность нуклеотидов, которые эту молекулу составляют и которые теперь записаны в компьютере. Но смысл этого перехваченного сообщения мы иногда понимаем, а чаще не понимаем.

Чтобы понимать, о чем речь: на слайде (8) приведена одна десятая процента, один промилле, генома кишечной палочки. Это такой стандартный лабораторный объект, который, по-видимому, самое изученное живое существо на Земле. Вообще геном бактерии – чтобы понимать размер бедствия – это несколько миллионов нуклеотидов, от нескольких сотен до нескольких тысяч генов, и большая часть генома кодирует белки.

0.1% генома E. coli

На таком же слайде (9) умещается на три порядка меньшая доля генома человека. Геном человека – это примерно 3 миллиарда нуклеотидов, примерно 20 тысяч генов, на самом деле ненамного больше, чем у большой бактерии. И большая часть генома белки не кодирует, а имеет всякие другие функции. Я про это говорить ничего не буду, потому что про это, во-первых, мало кто чего знает, а во-вторых, это будет слишком уже специально.

0.0001% генома человека

И когда говорят, что расшифрован геном какого-то существа, имеют в виду, что можно нарисовать вот такое – сделать, так сказать, обои с буковками. Ну, замечательно, почему бы теперь не заняться экспериментальной биологией и не начать потихонечку все это изучать, коль скоро эти данные доступны. Проблема здесь в том, что для этого не хватит возможностей. Эта картинка (10) иллюстрирует следующую катастрофу: по горизонтальной оси – годы, а по вертикальной – данные.

Рост объема данных

Обращу ваше внимание, это логарифмическая шкала, то есть между делениями разница в порядок. Красным показано количество статей, помещенных в указанном году в базе данных PubMed – это такая основная библиографическая база данных по биомедицине, в том числе по молекулярной биологии. И если присмотреться, то видно, что это чуть наклонная прямая линия в логарифмических координатах, то есть экспоненциальный рост, но очень медленный. То, что показано синим, – это количество фрагментов разных геномов в GenBank, это другая база данных, такой стандартный депозитарий, куда складываются все секвенированные фрагменты ДНК (секвенированные – это то самое, что неправильно называется «расшифрованные», секвенирование – это определение последовательности). И зеленая – это объем GenBank в нуклеотидах (элементарных единицах ДНК, для нас – просто в символах). И если условно считать, что одна статья описывает один эксперимент, сделанный с одним геном, что в первом приближении верно, а один фрагмент содержит один ген, что тоже в первом приближении верно, то видно, что примерно в 1995 году случилась катастрофа – одна линия пересекла другую, и генов стало теперь известно больше, чем мы в принципе в состоянии изучить, даже если мы ничем другим заниматься не будем.

И возникла надежда, что что-то полезное можно делать, не изучая гены экспериментально один за одним, а глядя на всю эту совокупность, используя разного рода компьютерные соображения. Это то, про что я буду рассказывать.

Еще пара слов про то, про что я рассказывать не буду (11).

Не только тексты

Есть еще другие типы данных, тоже массовые. Вообще с биологией в последние годы случилась удивительная вещь – она стала наукой, богатой данными, как астрофизика и физика высоких энергий. Конкретных фактов стало больше, чем мы в состоянии по одному анализировать. Так вот, есть данные, которые порождаются другими типами экспериментов, можно говорить о том, насколько интенсивно работают гены, т.е. можно, скажем, измерять концентрации белков в клетке. Можно массово изучать белок-белковые взаимодействия или белок-ДНКовые взаимодействия – это могут быть какие-то структурные комплексы, это могут быть какие-то регуляторные взаимодействия. Можно изучать структуру генома…

С этими данными есть вот какая проблема. Когда мы говорим про геном, мы имеем дело с вполне дискретной и вполне определенной единицей. Конечно, в разных клетках одного организма геномы чуть-чуть отличаются за счет случайных изменений, но не очень сильно, и в первом приближении этим можно пренебречь. Поэтому имеет смысл говорить о геноме конкретного человека. Можно говорить о геноме человека как вида, понимая при этом, что геномы двух индивидуальных людей, конечно, отличаются. Когда же мы говорим, скажем, про уровень работы гена или про концентрации белков – это, во-первых, данные довольно сильно зашумленные – там эксперименты не настолько хороши, а во-вторых, надо понимать, что мы все время усредняем очень большое количество индивидуальных различий – концентрации белков в разных клетках совершенно не тождественны, даже внутри одной ткани. И во всех таких данных мы имеем дело с какими-то средними – средними по тканям, средними по времени клеточного цикла и т.п. А картинка все равно получается очень красивая – это как бы еще одна беда этой науки, что там очень красивые картинки, за рисованием которых иногда теряется содержательная сторона.

На этом слайде (12) нарисован цикл развития малярийного плазмодия – двое суток примерно.

Экспрессия (уровень работы) генов

По горизонтальной оси – это время, а по вертикальной – это разные гены. Цвет показывает уровень работы этого гена: зеленый – меньше среднего, а красный – больше среднего. Грубо говоря, концентрация белка, который этот ген кодирует. И если гены выстроить в правильном порядке, то видна такая замечательная цикличность, которая как раз зависит от стадии развития малярийного плазмодия. А дальше оказывается, что если гены объединить в функциональные группы, т.е. те группы генов, которым естественно работать вместе, то эта цикличность проявляется еще ярче. И это на самом деле очень хорошее, очень полезное занятие: мы впервые имеем возможность описать работу клетки в целом, а не только каких-то ее маленьких кусочков. Вот такая же картинка (13), только про цветы – это развитие цветка резушки Таля, во вертикали опять гены, а по горизонтали разные условия, и если правильно упорядочить, образуются прямоугольники – это группы генов, которые работают вместе, в одних и тех же органах цветка.

Развитие цветка резухи Таля:
двойная кластеризация – на генах и на условиях

Последняя из красивых картинок (14) – это белок-белковые взаимодействия, отдельные точки – это белки, а линии, которые их соединяют, – это то, что эти белки физически взаимодействуют в клетке. А это то, как гены регулируют работу друг друга, здесь теперь точки – это гены, ну и одновременно кодируемые ими белки, в первом приближении для наших целей это одно и то же, а стрелки – это тот факт, что этот ген регулирует работу вот этого гена, стрелки разноцветные, потому что может быть разная регуляция. Таким образом, можно смотреть на то, как устроена клетка целиком.

Белок-белковые (структурные, сигнальные и др.)
и белок-ДНКовые (регуляторные) взаимодействия в дрожжах

Я уже говорил, что расшифрована трехмерная структура генома, теперь можно геном не только выписать в виде последовательности символов, но еще можно сказать, какие участки этой молекулы близки физически друг к другу. Конечно, это тоже усреднено сразу по многим клеткам. Это вот результат буквально декабрьский, на это интересно смотреть – уже получаются довольно забавные результаты.

И про все это я больше говорить не буду, хотя в таких работах биоинформатика играет одну из центральных ролей. А буду говорить про то, как заниматься расшифровкой геномов теперь уже в правильном смысле (15).

Задачи

Например, мы хотим узнать, где в этой длинной последовательности ДНК находятся гены. Я уже говорил, что 90% генома бактерии – это белок-кодирующие участки, но проблема в том, что мы заранее не знаем, какие участки бактериального генома кодируют белки, а какие – занимаются чем-то другим. Кроме того, мы хотим осуществить функциональную аннотацию, сказать про гены и белки, что они делают, то есть, какова функция белка, закодированного в данном геноме. Мы хотим узнать про регуляцию, т.е. как это работает, когда, в каких условиях эти гены включаются, в каких тканях, при каких внешних условиях. Ну и, в конечном счете, глобальная цель – это говорить что-то не про отдельные гены и отдельные белки, а про геномы и организмы в целом. И на самом деле уже сейчас часто можно сделать довольно много. Вот, скажем, для очень многих бактерий, геномные последовательности которых были определены, секвенирование (определение последовательности) – это единственный опыт, который с этой бактерией когда-нибудь делали. Оказывается, что, просто глядя на последовательность генома, мы довольно уверенно можем описать основной метаболизм бактерии. То есть можно сказать, что она может использовать в качестве питательных веществ, на каких субстратах может расти, что для нее является обязательным, а без чего она может обойтись.

Теперь я попробую рассказать два сюжета. Один довольно хорошо известный, и все основные идеи там уже реализованы, но на этом примере видны основные принципы биоинформатической работы.

Это наука про идентификацию генов. У нас есть последовательности ДНК в том виде, как я показал. Вот этот слайд (8), он был «честным», тут все буквы были одного размера, это такой чистый геном, как он вылез после секвенирования.

0.1% генома E. coli

А этот слайд (9) на самом деле был не очень «честным», потому что некоторые буквы были строчные, а некоторые заглавные, и заглавные буквы – это те участки, которые кодируют белки. Непосредственно из машины, которая осуществляет секвенирование, эти данные не возникают, и разметка генома на участки, которые кодируют белки (то есть гены), и участки, которые белков не кодируют, – это одна из традиционных задач биоинформатики, ее поставили впервые в 1981–1982 гг. сразу несколько человек, и я про нее сейчас попробую рассказать.

0.0001% генома человека

Я буду много раз такого сорта картинки (16) показывать, поэтому я сейчас попробую объяснить, что здесь нарисовано. Горизонтальная ось – это координата вдоль генома, то есть просто номер нуклеотида в последовательности, а каждая стрелочка означает, что соответствующий участок кодирует белок. Мы хотим получить такую разметку: определить начала и концы генов. Отдельный вопрос – как узнать, какова функция этих генов, про это я буду говорить во втором сюжете, а пока что мы просто хотим получить стрелочки. Что у нас для этого есть?

Идентификация генов

Во-первых, есть таблица генетического кода (17), которую составили в начале 60-х годов классики