14 Января 2016

BRAKER1 – новый алгоритм поиска генов

Учёные предложили алгоритм, позволяющий быстрее и точнее исследовать ДНК

Пресс-служба МФТИ 

Группа учёных из Германии, Америки и России, при участии заведующего кафедрой Московского физико-технического института (МФТИ) Марка Бородовского, предложила алгоритм, который автоматизирует и делает эффективнее поиск генов. Разработка соединяет в себе преимущества наиболее продвинутых инструментов для работы с геномными данными. Новый метод позволит точнее и быстрее анализировать новые последовательности ДНК и находить полный набор генов в геноме. 

Хотя статья Hoff et al. BRAKER1: Unsupervised RNA-Seq-Based Genome Annotation with GeneMark-ET and AUGUSTUS, описывающая алгоритм, была только недавно опубликована на страницах журнала Bioinformatics, издаваемого Oxford Journals, предложенный метод успел показать и доказать свою актуальность – компьютерную программу уже скачали более 1500 различных центров и лабораторий по всему миру. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Представленная разработка относится к области биоинформатики – дисциплины «на стыке наук». 

Биоинформатика – это набор методов математики, статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК, белки. ДНК, фундаментально информационная молекула, иногда даже изображается в компьютеризованном виде, чтобы подчеркнуть её роль как молекулы биологической памяти. 



Популярность биоинформатики велика, ведь каждый новый просеквенированный геном порождает столько новых вопросов, что учёные просто не успевают на них отвечать. Время специалистов, как и сами специалисты, ценится на вес золота. Именно поэтому автоматизация процессов – залог успеха любого биоинформатика, и подобные алгоритмы очень нужны для решения различных задач.

Одной из важных задач биоинформатики является аннотация генома – определение того, с каких именно участков молекулы ДНК синтезируются РНК и белки. Такие области – гены – представляют особый научный интерес. Дело в том, что для многих исследований нужна информация не обо всей ДНК (длина которой составляет 2 метра только для одной человеческой клетки), а о её наиболее информативной части – генах. Выявление генных участков происходит на основе поиска сходства фрагментов последовательности с уже известными генами или путём обнаружения характерных для генов закономерностей чередования нуклеотидов. Этот процесс осуществляется с помощью предсказательных алгоритмов.

Найти генныe участки – нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит из-за того, что у таких клеток передача наследственной информация усложнена наличием «разрывов» в кодирующих областях (интронов) и отсутствием однозначных признаков для определения того, является ли область кодирующей или нет.

Алгоритм, предложенный учёными, определяет, какие области в ДНК являются генами, а какие – нет. Для этого можно использовать марковскую цепь (последовательность случайных событий, будущее которых зависимо от прошлого), обучаемую на уже известных генах. Состояниями цепи в данном случае являются либо нуклеотиды, либо нуклеотидные слова. Алгоритм определяет наиболее вероятное разбиение генома на кодирующие и некодирующие области, наилучшим образом классифицирующие геномные фрагменты по их способности кодировать белки или РНК. Экспериментальные данные, полученные из РНК, дают дополнительную полезную информацию, на которой можно обучить модель, используемую в алгоритме. Некоторые программы-предсказатели генов могут использовать эти данные для повышения точности нахождения генов. Однако такие алгоритмы требуют обучающую выборку, на которой будет происходить видо-специфичная тренировка модели. Например, для программы AUGUSTUS, показывающей высокую точность, необходима тренировочная выборка из генов. Такое множество можно получить с помощью другой программы – GeneMark-ET – которая относится к категории само-тренирующихся алгоритмов. Эти два алгоритма и объединил алгоритм BRAKER1, предложенный совместно авторами AUGUSTUS и GeneMark-ET.

BRAKER1 показал высокую эффективность. Разработанную программу скачали уже более 1500 различных центров и лабораторий. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Примерный хронометраж BRAKER1 на одном процессоре составляет ∼17.5 часов для обучения и предсказания генов на геноме длиной 120 миллионов пар оснований. Это хороший результат, учитывая, что время может быть значительно уменьшено за счёт использования параллельных процессоров, а значит в перспективе алгоритм может работать еще быстрее и, в целом, эффективнее. 

Подобные инструменты помогают решать множество различных задач. Точная аннотация генов в геноме чрезвычайно важна. Например, уже опубликованы первые результаты глобального проекта «1000 человеческих геномов», запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате было обнаружено большое количество последовательностей редких генных вариантов – замен в генах, некоторые из которых приводят к болезням. При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят к возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части, и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак. 

BRAKER1 позволяет эффективно работать с геномами новых организмов, ускоряя аннотацию геномов и получение критически важных знаний в науке о живой природе.

Портал «Вечная молодость» http://vechnayamolodost.ru
14.01.2015
Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме