Подписаться на новости
  • Сенатор
  • ООО "Ай Вао"
  • Биомолтекст2020
  • vsh25
  • Vitacoin

Геномика – астрономически большая big data

Банки ДНК, а не порносайты оказались самым растущим сегментом сети


Самым динамичным и быстро растущим сегментом глобальной сети в ближайшие 10-15 лет будут не порносайты (ни в статье в PLoS One, ни в пересказе работы на сайте illinois.edu порносайты не упоминаются. Очевидно, здесь автор допустил типичную оговорку по Фрейду, по принципу «у кого что болит…» – ВМ :) видеохостинги или социальные сети, а банки геномных данных и связанные с ними порталы, заявляют ученые в статье, опубликованной в журнале PLoS One (Stephens et al., Big Data: Astronomical or Genomical? – ВМ).

«По мере дальнейшего улучшения технологий анализа ДНК и уменьшения цены этой процедуры, мы ожидаем настоящий взрыв в распространении технологий секвенирования в повседневной жизни и связанный с этим информационный "потоп". Единственная возможность пережить его – улучшить компьютерную инфраструктуру, отвечающую за обработку геномных данных», – заявил Джин Робинсон (Gene Robinson) из университета штата Иллинойс в Урбане-Шампейне (в пресс-релизе Genomics among the biggest of Big Data, experts say – ВМ).

Робинсон, генетик по профессии, и несколько математиков и программистов решили оценить масштабы этого взрыва, сравнив то, как развивались несколько самых динамичных сегментов глобальной сети в последние годы – социальные сети, видеохостинги и распределенные системы обработки научной информации.

В качестве первых двух выступали всем знакомые порталы – сервис микроблогов Twitter и видеохостинг Youtube, а в роли третьего выступал ряд проектов в астрономии, физике элементарных частиц и молекулярной биологии.

Вопреки ожиданиям ученых, больше всего за последние годы выросли объемы обрабатываемой, передаваемой и хранимой информации не в соцсетях и видеохостингах, а в геномных банках данных.

Для сравнения, первые вырабатывают примерно по 10-100 петабайт (миллионов гигабайт) «оригинального контента» каждый год, что может показаться очень большой цифрой. Геномные базы данных пополняются сопоставимым образом, однако скорость их роста в разы больше – каждые семь-восемь месяцев объем новых генетических данных удваивается.

Благодаря этому, буквально через десять лет интернет-банки геномной информации будут «толстеть» на несколько эксабайт (тысяч петабайт) в год, что породит огромное количество проблем с хранением и обработкой подобной массы данных. Большая часть из них будет усилена тем, что биологи, в отличие от физиков и астрономов, еще не выработали единых стандартов обработки, сжатия и архивирования геномной информации.

Как объясняют авторы статьи, генетики не смогли создать алгоритма, который позволил бы им «выкидывать» общие и малозначимые фрагменты человеческой ДНК. Благодаря этому хранение геномов даже членов «золотого миллиарда» потребует накопителей емкостью в несколько эксабайт, что является большой проблемой сегодня и будет затруднительно и через 10 лет.

«Очень долго люди использовали прилагательное «астрономический» для описания тех вещей, которые обладают действительно гигантскими масштабами, объемами или размерами. Раскрыв невероятную скорость прироста геномных данных, я и коллеги теперь предлагаем называть подобные вещи не «астрономическими», а «геномными», – заключает Майкл Шатц (Michael Schatz) из Лаборатории в Колд-Спринг-Харбор (США).

Портал «Вечная молодость» http://vechnayamolodost.ru
08.07.2015

Читать статьи по темам:

база данных геномика Версия для печати
Ошибка в тексте?
Выдели ее и нажми ctrl + enter
назад

Читать также:

EMC и Академический университет создают ПО для биоинформатических расчетов

Анализ данных геномики и других «-омик» – такая же big data, как социальные сети или данные Большого адронного коллайдера.

читать

Какие технологии победят рак?

В мире на рассмотрении регулирующих органов находится 2,5 тысячи лекарственных молекул с точечным эффектом. Ежегодно регистрируется 10-15 подобных препаратов. Мы стоим перед эрой полного лекарственного лечения рака.

читать

Выбор сервиса для облачной геномики

Научно-исследовательские институты и фармкомпании должны будут выбрать между двумя «облачными» сервисами хранения данных о человеческом геноме – Google Genomics и Amazon Web Services.

читать

23andMe запустит производство лекарств

Американская компания 23andMe, прославившаяся ДНК-тестами, планирует использовать свою базу генома при самостоятельной разработке лекарств от различных заболеваний.

читать

Систему менять надо!

Новые исследования, особенно в геномике, поставляют огромный объем информации, который не могут обработать современные базы данных. Поэтому необходимо задуматься о создании принципиально новой глобальной информационной системы.

читать