Подписаться на новости
  • Сенатор
  • ООО "Ай Вао"
  • medtech
  • ММИФ-2018
  • БиоМолТекст-18

Геномика в облаке

Microsoft открывает доступ к облачным инструментам для геномных исследований

Пресс-центр

Чтобы совершать открытия, ведущие к прорывам в лечении онкологических заболеваний у детей, исследователям со всего мира нужна возможность делиться геномными данными и совместно изучать их. Поэтому в 2010 году специалист по вычислительной биологии Джингуи Чжан со своей командой из Детского исследовательского госпиталя Св. Иуды (St. Jude Children’s Research Hospital) начала загружать в общедоступные репозитории анонимизированные геномы здоровых и раковых клеток своих пациентов.

«Мы понимали, что загружать данные и использовать их в исследованиях очень сложно из-за их огромных объемов, – говорит Чжан. – Поэтому наш госпиталь начал искать другие способы обмена данными с глобальным исследовательским сообществом». Это привело к сотрудничеству с группой, занимающейся геномными исследованиями в Microsoft. В то время Microsoft начинала работу над облачными вычислительными ресурсами, позволяющими сопоставлять миллиарды фрагментов необработанных геномных данных с референсными геномами, а затем определять, чем отличаются сопоставляемые и ссылочные геномы, используя аналитический метод сопоставления и определения вариантов.

В среду, 28 февраля, Microsoft объявила об открытии доступа к службе Microsoft Genomics, ставшей результатом работы Microsoft в этой важной области.

Варианты – это то, что делает индивидов уникальными. Это маркеры самых разных черт, от физических качеств до склонности к заболеваниям. Чтобы разобраться в значениях вариантов, исследователи используют метод, называемый полногеномным поиском ассоциаций. Чем больше геномных данных исследователи будут получать и анализировать, тем точнее они смогут раскладывать их на составляющие сложные биологические структуры и быстрее приближаться к нахождению методов лечения рака и других заболеваний.

Команда доктора Чжан работает над созданием конвейера для сопоставления геномов и поиска вариантов совместно с исследователями из Microsoft, с помощью безопасной облачной платформы DNAnexus, созданной на основе Microsoft Azure.

К сегодняшнему дню исследователи обработали около 500 терабайт геномных данных и сохранили их в Azure для дальнейшего анализа. Для сравнения: чтобы записать 500 терабайт, потребуется 750 000 стандартных компакт-дисков.

Геномные данные из госпиталя Св. Иуды, проанализированные с помощью конвейера и сохраненные в облаке, стали основой для платформы обмена данными, которую исследовательский госпиталь создает вместе с DNAnexus и Microsoft. Цель этого предприятия – предоставить исследователям со всего мира возможность участия в поиске методов лечения онкологических заболеваний, которые каждый год диагностируются примерно у 175 000 детей младше 15 лет.

«Возможность проводить опыты с реальными данными совместно с такими исследователями – это большая удача для нас», – говорит Джералин Миллер, руководитель группы геномных исследований Microsoft.

Легкое получение качественных данных Служба Microsoft Genomics является частью инициативы Microsoft Healthcare NExT, нацеленной на ускорение внедрения инноваций в области здравоохранения посредством искусственного интеллекта (ИИ) и облачных вычислений.

В геномике путь к достижению этих целей начинается с достоверных и точных данных. «Мы знаем, что нам нужны качественные данные, и если мы значительно облегчим получение таких данных, тогда мы сможем передавать биологическую информацию в облако для анализа и, будем надеяться, сделаем работу более продуктивной и результативной», – говорит Боб Дэвидсон, старший архитектор ПО из геномной группы Microsoft.

Дэвидсон объяснил, что служба Microsoft Genomics – важнейший элемент следующего поколения механизмов на основе искусственного интеллекта, которые помогут совершать прорывы в понимании и эффективном лечении рака и других заболеваний. Например, анализируя геномные данные опухолей и здоровых тканей пациента, врач сможет выбирать наиболее подходящее лечение, опираясь на результаты сравнения с данными о других раковых пациентах, включая методы и исходы лечения.

Миллер отмечает, что общий конвейер для обработки геномных данных помогает уменьшить шум и искажения, ухудшающие качество данных, и получить более сильный сигнал для ИИ-элементов точной медицины.

«Мы делаем этот этап общедоступным, – говорит Миллер. – Мы хотим, чтобы люди могли легко пройти его и на выходе получить согласованный набор данных».

Идеальная работа для облака Этап секвенирования, на котором выполняется сопоставление и поиск вариантов, называется вторичным анализом. Возможность сделать этот этап общедоступным стала появляться по мере снижения стоимости секвенирования одного человеческого генома. Если в 2001 году для этого требовалось 100 млн долл., то сегодня менее 1000 долл., что сопоставимо со стоимостью других распространенных медицинских тестов. Эксперты ожидают, что такое удешевление приведет к резкому увеличению спроса, и к 2025 году будет секвенировано более 100 млн человеческих геномов.

Но это создает другую проблему, которую Microsoft и DNAnexus уже готовы решить. Для хранения одного человеческого генома требуется около 100 Гб дискового пространства, а с увеличением числа секвенированных геномов гигабайты данных превратятся в петабайты и экзабайты. Ожидается, что к 2025 году для хранения данных человеческих геномов потребуется хранилище объемом 40 экзабайт. Экзабайт равен примерно 1000 петабайтам, что эквивалентно 1,5 млрд стандартных компакт-дисков.

«Геномные данные – это действительно большие данные, требующие очень интенсивных вычислений», – говорит Миллер. Обработка одного человеческого генома занимает несколько сотен часов процессорного времени. Современные ноутбуки обычно оснащены четырехъядерными процессорами, тогда как в дата-центрах доступны сотни тысяч процессоров, что делает обработку геномных данных «идеальной работой для облака».

Кроме того, с обработкой геномных данных связан целый ряд юридических и этических требований, необходимых для обеспечения конфиденциальности и безопасности данных. В распоряжении Microsoft есть сеть центров обработки данных Azure, распределенных по всему миру, и служба Microsoft Genomics в настоящее время доступна в США, Западной Европе и Юго-Восточной Азии. Microsoft Genomics прошла сертификацию ISO, подтверждающую, что эта служба соответствует определенным международным стандартам безопасности, конфиденциальности и качества. В дополнение к этому, Microsoft распространяет на эту службу деловое соглашение HIPAA, в соответствии с которым компании должны ответственно подходить к управлению персональными медицинскими данными. Применяемые принципы и правила безопасности описаны на сайте Microsoft Trust Center.

Экосистема партнеров Компания DNAnexus, управляющая геномными данными, работает с Детским исследовательским госпиталем Св. Иуды над созданием платформы для обмена данными на основе Azure. DNAnexus будет интегрировать службу Microsoft Genomics и другие средства анализа и визуализации геномных данных, предоставляя исследователям интерфейс для доступа к инструментам и наборам данных и создавая безопасную экосистему для совместной работы.

«Мы добиваемся наибольшего успеха, когда наши ученые решают научные проблемы вместе с учеными наших клиентов, а затем переносят данные на эту платформу. Они проводят определенные испытания, после чего начинается главная работа, – говорит Ричард Дэли (Richard Daly), директор DNAnexus. – В данном случае наша команда активно работает вместе с госпиталем Св. Иуды и с Microsoft над определением требований и созданием решений на их основе».

Миллер, Дэвидсон и их коллеги из группы геномных исследований Microsoft рассматривают службу Microsoft Genomics как первый из многих инструментов, которые будут включены в основанную на Azure экосистему, объединяющую всех партнеров, включая DNAnexus. Например, как отмечает Миллер, пока не решен вопрос, вставший перед исследователями из госпиталя Св. Иуды: как будет происходить обмен и совместная работа с данными разного типа, полученными разными организациями с помощью разных инструментов?

«Службу Microsoft Genomics отличает акцент на исследованиях, – говорит Миллер. – Мы имеем достаточно экспертных знаний, чтобы пробовать новое и воплощать в жизнь идеи, возникшие в лабораториях».

Портал «Вечная молодость» http://vechnayamolodost.ru


Читать статьи по темам:

геномика база данных интернет Версия для печати
Ошибка в тексте?
Выдели ее и нажми ctrl + enter
назад

Читать также:

Выбор сервиса для облачной геномики

Научно-исследовательские институты и фармкомпании должны будут выбрать между двумя «облачными» сервисами хранения данных о человеческом геноме – Google Genomics и Amazon Web Services.

читать

Общие болезни

Закономерности, обнаруженные в базе данных мутаций человеческой ДНК, оказались применимы и к генам коров и других животных.

читать

Ограбление по-итальянски

В Италии из лаборатории похищены 14 тысяч образцов ДНК, собранных для изучения секретов долголетия. Расследованием занимается итальянская прокуратура.

читать

Рецепт, записанный в ваших генах

В последние годы в Швейцарии активно разрабатываются инновационные медицинские технологии, основанные на углубленных познаниях из сферы генетики и на уникальных возможностях современных вычислительных систем.

читать

Искусственный интеллект made in China

Руководитель Пекинского института геномики Цзюнь Ван удивил научное сообщество, сложив свои полномочия в начале июля 2015 года. Теперь он объявил о своём желании сосредоточиться на исследованиях в области искусственного интеллекта.

читать

Программа развития персонализированной медицины

Используя уникальную генетическую информацию, можно определить, насколько успешным будет использование того или иного медикамента для каждого конкретного пациента и какими могут быть побочные эффекты от их применения.

читать