30 Октября 2015

«-Омики» и старение: от биомаркеров до системной биологии (3)

Jonas Zierer et al. Integration of ‘omics’ data in aging research: from biomarkers to systems biology

Перевод Евгении Рябцевой

(Продолжение, начало статьи – здесь.)

От «-омик» к системной биологии

Большинство упомянутых выше исследований посвящены выявлению двумерных ассоциаций возраста (или возрастных болезней) и каким-либо из типов данных «-омик». Однако как между, так и внутри различных данных «-омик» существуют выраженные взаимные зависимости (см. рис. 1).

Взаимозависимости данных «-омик»: на схеме изображены взаимные зависимости, которые можно увидеть практически в каждом массиве данных, полученных с помощью одной из «-омик». Сплошные линии указывают на биологические процессы, вызывающие зависимость, тогда как пунктирные линии символизируют выявленные ассоциации.

Корреляции можно наблюдать практически между всеми уровнями биологической организации. Принимая во внимание центральную догму молекулярной биологии, геномика, транскриптомика и протеомика коррелируют между собой по определению. Более того, концентрации метаболитов подвержены влиянию со стороны генетических вариантов (Shin et al., 2014) и эпигенетических факторов (Petersen et al., 2014), опосредуемому изменениями генной экспрессии или ферментативной активности. Уровни метилирования не только влияют на экспрессию генов (Jaenisch & Bird, 2003), но и коррелируют с вариантами генов (Bell et al., 2012) и факторами окружающей среды (Breitling et al., 2011). Авторы данного обзора недавно продемонстрировали, что даже состав микробиома частично находится по контролем генов хозяина (Goodrich et al., 2014). Аналогичным образом все уровни данных «-омик» подвергаются влиянию генетики наряду влиянием окружающей среды и старения.

Однако корреляции выявляются не только между, но и в пределах каждого из типов данных. Например, в геномике неравновесное сцепление или коррелированное присутствие снипов является повсеместным феноменом. Факторы транскрипции часто совместно регулируют экспрессию множества генов (Allocco et al., 2004), также была замечена корреляция между профилями метилирования так называемых CpG-островков (Bell et al., 2012). Метаболиты взаимосвязаны посредством сети биохимических реакций, формирующих между ними сильные корреляции (Krumsiek et al., 2011). Даже фенотипы часто формируют группы. Сочетанные заболевания или непропорционально высокая частота развития заболеваний, распространяется на многие патологии, возможно за счет вызывающих их развитие общих механизмов (Goh et al., 2007).

Эти биологические корреляции могут быть причиной несоответствий при изучении ассоциаций и тот факт является важным предметом современных исследований. Например, авторы обзора идентифицировали 153 ассоциированных с возрастом метаболита, тогда как последующий анализ показал, что только 22 из них независимо ассоциированы с возрастом (Menni et al., 2013b). Аналогичным образом, 21 из 24 оцениваемых гликанов иммуноглобулина G коррелировали с возрастом, однако только 3 из них объясняли 58% вариабельности (Kristic et al., 2013). То же самое было продемонстрировано для эпигенетических данных (Weidner et al., 2014). Использование всех доступных типов данных позволяет опровергать огромные списки ассоциаций со старением, однако интересные с биологической точки зрения причинно-следственные взаимосвязи часто теряются в этом множестве результатов. Для реконструкции процессов, вовлеченных в старение на системном уровне, необходимы подходы, одновременно учитывающие информацию, полученную на уровнях всех «-омик» (Valdes et al., 2013).

Несмотря на развитие технологий с высокой пропускной способностью и появление в доступе все большего количества данных, интеграция «-омик» остается сложной задачей. Помимо ограниченной доступности «мульти-омных» массивов данных для одних и тех же образцов, технические ограничения затрудняют процесс интеграции. Тогда как геномика и транскриптомика располагают возможностями для измерения всего многообразия вариантов, другие «-омики» (такие как протеомика и метаболомика) измеряют только небольшую фракцию всех объектов. Многие технологии с высокой пропускной способностью страдают от значительных технических вариаций и сильных групповых эффектов. Строжайший контроль качества и тщательная стандартизация данных являются критичными при проведении анализа этого типа данных. Более того, следует принимать во внимание сложность организма. Тогда как геном более-менее стабилен, все остальные уровни «-омик» различны для разных типов клеток и изменяются со временем.

Многие образцы, такие как цельная кровь, содержат смесь клеток разных типов с потенциально отличающимися эпигеномами и транскриптомами (Houseman et al., 2012; Jaffe & Irizarry, 2014). И, наконец, различные органы и клетки оказывают влияние друг на друга. Метаболом крови, например, подвержен сильному влиянию процессов, протекающих в печени и других органах, и для полного понимания этого необходимо изучение образцов, состоящих из разных тканей. Это, в свою очередь, не всегда возможно в условиях эпидемиологических исследований, так как выделение фрагментов тканей часто требует проведения инвазивных процедур. Тем не менее, интеграция данных является важным и активным направлением исследований. Первым этапом интеграции данных является интеграция и совместная интерпретация отдельных результатов. Для облегчения системного анализа старения в цифровом атласе старения (Digital Ageing Atlas) (Craig et al., 2014) собрано более 4 000 идентифицированных с помощью разных технологий возрастных изменений.

Введение в системную биологию

Целью системной биологии является понимание системы и функций как единого целого, а не как отдельных компонентов (Cassman, 2005), а конечной задачей – математическое моделирование биологических систем и симулирование их исходов. На первом этапе необходимо даль формальное описание сложных взаимодействий и зависимостей между этими компонентами, что обеспечит возможность проведения системного анализа и симуляции рассматриваемой биологической системы. Широко используемый в системной биологии прием заключается в транслировании биологических взаимодействий в математические четко очерченные системы (графические изображения).

Например, метаболиты вступают во взаимодействие в химических реакциях, формируя систему, узлы которой обозначают метаболические соединения, а линии – химические реакции. Аналогичным образом факторы транскрипции связываются с ДНК для регулирования экспрессии генов, формируя систему регуляции генов, а взаимодействующие белки – систему межбелковых взаимодействий (см. рис. 2В). Эти системы взаимодействуют друг с другом, что делает интеграцию данных важным аспектом системной биологии. Один из примеров фенотипической системы был создан Goh et al. (2007), использовавшим болезни в качестве узлов, а взаимосвязанные заболевания и общие для них факторы риска – в качестве линий (см. рис. 2А). Этим они показали, что многие заболевания имеют общие генетические варианты риска и что схожие патологии вызываются одними и теми же генами.

Топологические свойства биологических систем. (А) Фрагмент системы заболеваний человека (Goh et al., 2007). Узлы обозначают заболевания, которые связаны между собой, если ассоциированы с одним и тем же геном. Болезнь Пакинсона является связующим звеном для трех изолированных кластеров болезней (обозначены различными цветами) и, соответственно, имеет низкий коэффициент кластеризации (0%) и высокий коэффициент промежуточности (72%). (В) Демонстрация близкого окружения аполипопротеина D (ApoD) в системе межбелковых взаимодействий, взятой из базы данных STRING DB (Franceschini et al., 2013), с использованием только имеющих экспериментальное подтверждение взаимодействий. Аполипопротеин D соединяет два кластера и, несмотря на низкие уровень (2) и коэффициент кластеризации (0%), является центральным узлом (центральность по посредничеству 53%). Для сравнения, белок LEPR является центральным в голубом кластере (уровень 7, кластеризация 14%).

Графические изображения можно анализировать с помощью множества общепризнанных алгоритмов. Одной общей задачей является идентификация модулей, то есть субграфиков, в которых узлы обладают одними и теми же свойствами. В биологических системах модули соответствуют функциональным единицам, таким как механизм гликолиза в метаболической системе. Модули обычно взаимодействуют друг с другом и совместно формируют иерархическую структуру, в которой распределение уровней узлов – количество линий на узел – определяется степенной зависимостью (Barabási & Oltvai, 2004). Следовательно, бОльшая часть узлов имеют немного связей и только несколько узлов имеют много связей. Эти имеющие большое количество связей узлы называются коммутаторами (Albert et al., 2000; Jeong et al., 2001).

Для описания топологии систем и топологических характеристик узлов используется несколько других параметров. Например, коэффициент кластеризации указывает на плотность взаимосвязи между объектами окружения узла, что позволяет определить узлы, центральные для кластера (например, LEPR на рис. 2А). Еще одним параметром является центральность по посредничеству, оценивающая долю наиболее коротких парных путей, содержащих узел. Таким образом он дает количественную оценку важности узла для соединения других узлов из разных модулей (например, болезнь Паркинсона на рис. 2А и аполипопротеин D на рис. 2В). Имеющие много связей центральные узлы считаются ключевыми игроками в системе, соединяющими несколько модулей и управляющими потоками в системе. Их особая важность продемонстрирована для многих заболеваний и выживания организма (Barabási & Oltvai, 2004; Joy et al., 2005; Yu et al., 2007).

В настоящее время в открытом доступе есть много пакетов программного обеспечения для анализа графиков и визуализации. Например, для анализа и визуализации графиком можно использовать R-пакет igraph (Csardi & Nepusz, 2006) или автономную программу Cytoscape (Shannon et al., 2003). Cytoscape также предоставляет возможность легкой интеграции биологических баз данных, таких как Gene Ontology (Ashburner et al., 2000), Reactome (Croft et al., 2014), Энциклопедия генов и геномов Киото, KEGG (Kanehisa & Goto, 2000) или BioGRID (Chatr-Aryamontri et al., 2013), сторонними приложениями. Было также разработано несколько методов идентификации модулей узлов, одновременно подверженных влиянию изучаемого состояния. В качестве имеющих в свободном доступе примеров можно привести jActiveModules, являющийся плагином для Cytoscape (Ideker et al., 2002), и R-пакет BioNet (Beisser et al., 2010).

Ниже представлена подборка современных методов для конструирования и анализа биологических систем как подхода к системной биологии и их вклад в изучение старения.

Анализ представленности и топологии системы в заранее заданных системах

Популярный подход к переводу результатов исследования ассоциаций в контекст системной биологии заключается в переносе изучаемых переменных, таких как ассоциированные с возрастом гены, белки или метаболиты, в известные биологические (эталонные) системы. Окружение этих изучаемых переменных и их топологические свойства можно оценивать с помощью экспериментально заданных межбелковых взаимодействий, систем регуляции генов или метаболических систем. Вместо интерпретирования индивидуальных позиций по отдельности для идентификации модулей, одновременно подверженных изучаемым состоянием, можно использовать уже имеющуюся в наличии информацию об их взаимодействиях и общих функциях.

Несколько баз данных предлагают коллекцию экспериментальным образом идентифицированных взаимодействий, которые можно использоваться в качестве заданных заранее эталонных систем для анализа представленности и топологии. В случае межбелковых взаимодействий справочная база данных человеческих белков предоставляет информацию о более чем 40 000 справочная база данных человеческих белков (Human Protein Reference Database) предоставляет информацию о более чем 40 000 межбелковых взаимодействиях (Keshava Prasad et al., 2009), база данных взаимодействующих белков (Database of Interacting Proteins) – о более чем 7 000 взаимодействиях (Xenarios et al., 2002), а база данных взаимодействий белков млекопитающих Мюнхенского информационного центра белковых последовательностей (MIPS mammalian protein–protein database) – примерно о 1 000 проверенных вручную взаимодействий между белками человека (Pagel et al., 2005). Системы регуляции генов предоставляются ChIPBase (Yang et al., 2013), содержащей данные о зонах связывания шести миллионов факторов транскрипции, идентифицированных более чем в 300 экспериментах. KEGG, помимо прочего, предоставляет информацию о метаболических реакциях.

Анализ представленности является удобным методом внедрения имеющихся знаний, полученных из эталонных биологических систем, без непосредственного анализа топологии графика. Поэтому заранее заданные (функциональные) модули внутри эталонных систем используются для тестирования доминирования ассоциированных генов, белков или метаболитов в данных группах. При изучении геном исследователи обычно используют Онтологию генов (Gene Ontology) для разделения их на группы на основании биологических процессов, молекулярных функций или внутриклеточной локализации. Для метаболитов базы данных KEGG и Reactome предоставляют проверенную информацию о биохимических механизмах. R-пакеты GSEABase, GAGE (Luo et al., 2009) и веб-сервис MSEA (Xia & Wishart, 2010) являются лишь отдельными примерами доступных методов реализации и вариаций оригинального алгоритма анализа представленности генов (Subramanian et al., 2005).

При изучении старения анализ представленности вскрыл гиперэкспрессию генов, вовлеченных в иммунные реакции, а также в синтез лизосом и гликопротеинов, и сниженную экспрессию генов, ассоциированных с митохондриальным и окислительным фосфорилированием у пожилых людей по сравнению с более молодыми людьми (de Magalhães et al., 2009). Было установлено, что для ткани человеческого мозга гены, ассоциированные с окислительным стрессом/восстановлением ДНК представлены в группе генов, дифференциально экспрессированных у молодых и пожилых людей (Lu et al., 2004). Анализ представленности облегчает идентификацию механизмов, имеющих важное значение для процесса старения. Таким образом он помогает разобраться в отдельных ассоциациях и найти биологические интерпретации для наблюдаемых молекулярных изменений.

Для того, чтобы отказаться от заданного описания модуля и обеспечить более детальный анализ системы изучаемые переменные можно отображать непосредственно на схемах известных межбелковых взаимодействий, систем регуляции генов или систем метаболизма. После этого модули можно идентифицировать динамически на основании измеряемых данных. Более того, при этом можно оценивать дополнительные топологические свойства переменных.

Изучение систем межбелковых взаимодействий человека показало, что гомологически ассоциированные со старением имеют более высокие уровни узлов и более высокую центральность по посредничеству по сравнению с другими генами (Bell et al., 2009). Более того, ассоциированные со старением гены не распределены по всему интерактому (совокупности всех межбелковых взаимодействий), а формируют кластеры в нескольких имеющих большое количество связей модулях. Эти модули обогащены генами, вовлеченными в восстановление повреждений ДНК и стресс-реакцию (Kriete et al., 2011). Высокая степень связанности генов старения использовалась Tacutu et al. (2012) для выбора «соседей» ассоциированных с долголетием генов в системах межбелковых взаимодействий в качестве кандидатов на гены долголетия. В последующих экспериментах на червях C.elegans было выявлено 30 новых ассоциированных с долголетием генов, что продемонстрировало потенциал биологии систем в поиске генов-кандидатов.

С помощью модифицированной системы межбелковых взаимодействий Wang et al. (2009) продемонстрировали тесную взаимосвязь между генетическими причинами старения и заболеваниями. Эти результаты указывают на то, что в основе старения лежат не случайные ошибки, а организованный процесс. Еще один основанный на межбелковых взаимодействиях подход к интеграции данных был разработан West et al. (2013). Авторы объединили эпигеномные данные путем определения зон метилирования ДНК для каждого белка на схеме и последующей идентификации модулей дифференциально метилированных генов/белков в получившейся системе. Это позволило им избежать использования заданных наборов генов, что характерно для анализа представленности. Анализ выявил три дифференциально метилированных модуля, реплицированных в нескольких тканях. Два их них были представлены преимущественно генами регулирующими транскрипцию, тогда как третий содержал гены, ассоциированные с дифференцировкой стволовых клеток.

Недостатком экспериментально выделяемых межбелковых взаимодействий и систем регуляции генов является то, что подобные методы дают до 50% ложноположительных результатов, тогда как многие реальные взаимодействия не выявляются (Huang & Bader, 2009; Marbach et al., 2012). И, что еще более важно, подобные эталонные системы совершенно не учитывают пространственно-временные характеристики взаимодействий. Это ограничивает результаты до уже известных, возможно неактивных взаимодействий.

Один из методов, позволяющих обойти статическую природу систем межбелковых взаимодействий, известен как негативно-позитивные системы (Xia et al., 2006). Такие системы интегрируют систему межбелковых взаимодействий с датами транскриптомики путем ее ограничения до линий между (анти-)коррелирующими белками/генами. В таких случаях дальнейшему анализу подвергаются только активные в наблюдаемых условиях взаимодействия (т.е. линии). Xue et al. (2007) применили данный метод к упоминаемому ранее массиву данных по экспрессии генов в ткани мозга и описали два антикоррелирующих модуля, содержащих белки, ассоциированные с пролиферацией и дифференцировкой клеток. Два других модуля, состоящих из генов, ассоциированых с процессингом белков и иммунной функцией соответственно, продемонстрировали слабую корреляцию с модулем клеточной пролиферации.

Авторы более позднего исследования продвинулись на шаг дальше и ограничили систему межбелковых взаимодействий до генов, имеющих высокий уровень экспрессии на разных стадиях старения, отдельно для каждого образца, что обеспечило получение комплекса взаимосвязанных динамичных систем вместо одной системы. Даже несмотря на то, что в глобальном масштабе свойства всех этих графиков очень схожи, центральность нескольких генов коррелировала с возрастом (Faisal & Milenković, 2014).

Объединение биологических систем для проведения анализа ассоциированных с возрастом изменений продемонстрировало тесную взаимосвязь между старением и заболеваниями на молекулярном уровне. Более того, было показано, что старение оказывает влияние на центральные гены, что имеет важное значение для целостности системы (Bell et al., 2009). Тогда как анализ представленности и анализ с использованием систем межбелковых взаимодействий широко применяются для генетических и транскриптомных данных, он не применяется в изучении старения с использованием данных метаболомики. Этот подход может быть весьма перспективным для системной идентификации метаболических механизмов, совместно подверженных влиянию процесса старения.

Окончание: Анализ систем, основанных на данных «-омик»

Портал «Вечная молодость» http://vechnayamolodost.ru

30.10.2015

«-Омики» и старение: от биомаркеров до системной биологии (3)

От «-омик» к системной биологии

Статьи по теме

Мультиконференция в Новосибирске

Биоинструменты для вас

Биоинформатики изучат причины болезней сердца

Облачные вычисления для биомедицины

Медицина и математика