Биоинформатика – перспективная сфера науки и стремительно развивающаяся индустрия. Применение информационных технологий в биологических исследованиях сегодня позволяет тестировать лекарственные препараты в виртуальной среде и расшифровывать последовательности ДНК за считанные часы. В этом материале мы расскажем о биоинформатике и о том, какие разработки ведутся в этой сфере в Университете ИТМО.
Что такое биоинформатика
Многие ученые сходятся в том, что биоинформатика предназначена для изучения биологических процессов с помощью современных вычислительных технологий. В самом деле, специалисты в этой области используют программы для визуализации последовательностей аминокислот, а также занимаются разработкой алгоритмов на основе теории вероятностей и математической статистики. Однако первоначальная цель биоинформатики была более общей: Полина Хогевег и Бен Хеспер в 1970 году определили ее как «изучение информационных процессов в биотических системах».
Если ориентироваться на это определение, то зарождение науки можно отнести к XIII веку, когда Фибоначчи построил первую математическую модель процесса размножения кроликов. С тех пор ученые начали применять более формальные методы для описания биологических процессов. В 1953 году произошло одно из важнейших событий в истории биоинформатики, а возможно и науки в целом: Фрэнсис Крик и Джеймс Уотсон выявили структуру ДНК, которая сегодня известна всем еще со школы.
Спустя два десятка лет были разработаны методы секвенирования ДНК – расшифровки ее последовательности, а затем был получен первый полный геном живого организма – бактериофага фХ174. Развитие технологий секвенирования позволило ускорить этот процесс, в результате чего удалось собрать последовательности геномов дрожжей и мухи-дрозофилы.
Поворотным моментом в истории биоинформатики стала сборка в 2003 году генома человека: ученые со всего мира на протяжении 13 лет по кусочкам собирали его последовательность. С этого момента начинается так называемая постгеномная эра в развитии биоинформатики. Ее главной особенностью является колоссальный объем биологических данных, которые невозможно обработать вручную. Тут в дело вступают цифровые технологии, которые позволяют не только интерпретировать молекулярные данные, будь то последовательности нуклеиновых и аминокислот или строение белка, но и организовывать их в базы данных. Так, например, в банке данных GenBank хранится более 11 миллиардов генов более чем ста тысяч организмов.
Кстати, сами исследователи не очень любят термин «расшифровка» генома: предпочитают использовать слово «сборка» или «определение последовательности генома» – это позволяет указать на то, что даже в тех областях, которые уже много лет находятся под пристальным наблюдением ученых, остаются нерешенные задачи. Например, в геноме человека до сих пор остается доля неизвестных фрагментов.
Более того, даже знание всей последовательности генома не указывает на его функции. Именно поэтому многие ученые, занятые в биоинформатике, сейчас изучают связи между уже известными генами и их влиянием на фенотип: фактически, исследователям приходится решать уже известные задачи, но быстрее и качественнее, используя новые методы и технологии.
Биоинформатика тесно переплетена с другими науками, в частности, с геномикой и протеомикой. Геномика изучает совокупность генов в организме. Имея большие базы геномов, мы можем выявлять сходство и различия генотипов живых существ, таким образом, делая выводы об особенностях отдельных видов и об эволюции в целом – этим занимается сравнительная геномика. Функции генов, а также влияние одних генов на другие изучает функциональная геномика. Благодаря методам структурной геномики создаются трехмерные модели белков, закодированных определенным геном.
Протеомика изучает совокупность продуктов экспрессии генов – белков. Особенно активно развивается область сравнительной протеомики, суть которой – в сравнении белкового состава, или протеома, живых организмов. Сравнение протеомов двух организмов позволяет выявить причины различия их фенотипов, что в свою очередь помогает понять ход эволюции. Также сравнительная протеомика дает возможность определять белки, негативно влияющие на развитие болезни, и тестировать на них лекарственные препараты.
С одной стороны, биоинформатика – междисциплинарная отрасль, которая содержит знания из молекулярной биологии, генетики, математики и компьютерных наук. С другой стороны, используя открытия в этих науках, биоинформатика также вносит весомый вклад в их развитие: частично это отражено в названиях современных технологий – деревья принятия решений, нейронные сети, генетические алгоритмы.
Разработки Университета ИТМО
На базе Университета ИТМО проводятся многочисленные исследования в области биоинформатики. В 2011 году была создана лаборатория структурной биоинформатики, где проводятся эксперименты по моделированию белков и прогнозированию белок-белковых взаимодействий. Одной из последних разработок лаборатории является метод изучения динамики белков, основанный на принципе переноса массы. Модель движений, которые проводятся на относительно больших расстояниях, вполне адекватна и исключает недостатки предыдущих моделей.
Один из руководителей НИИ биоинженерии Андрей Каява считает не менее важной задачей выявление функций белков. Случайные перестройки в структуре белков могут привести к возникновению нейродегенеративных заболеваний, таких как болезни Альцгеймера и Паркинсона. Биоинформатика позволяет изучить последовательности аминокислот и предсказать вероятное возникновение этих болезней. Метод и программа ArchCandy, разработанные научной группой Андрея Каявы, помогают решить проблему диагностики нейродегенеративных болезней на ранней стадии.
В ряде научных проектов активное участие принимали сотрудники кафедры компьютерных технологий. Началом их научно-исследовательского пути в биоинформатике стало участие в международном соревновании de novo Genome Assembly Assessment Project. Участникам удалось разработать и протестировать метод сборки генома, позволяющий устранять ошибки в чтениях – данных, которые получают из специальных машин-секвенаторов.
В другой работе молодых исследователей из Университета ИТМО описывается метод сборки контигов – длинных перекрывающихся сегментов ДНК – подразумевающий разбиение сборки на два этапа: на первом используется граф де Брюина, на втором – граф перекрытий. В более поздней работе также описан метод, где одним из этапов является микросборка: из чтений строится граф де Брюина, размер которого оказывается значительно меньше графа с первого этапа – отсюда название «микросборка». Результатом работы ученых стала программа для сборки генома ITMO Assembler, которую можно скачать по ссылке.
Продолжением этой работы стало участие сотрудников Университета ИТМО в проекте MetaFast. Суть проекта заключается в разработке программного комплекса, который позволяет сравнивать метагеномы – совокупности ДНК микроорганизмов – в различных средах. ДНК неспособных к размножению организмов, например, вирусов, сложно собрать, так как они дают лишь обрывочные данные. В базах ДНК слишком мало данных о вирусах и других бактериях, чтобы сравнивать с ними фрагменты полученных метагеномов, а на глубокий анализ уходит чересчур много времени.
Разработанная программа работает гораздо быстрее, проводя лишь частичные сбор и сравнение геномов. Кроме того, алгоритм позволяет выявлять закономерности даже в незнакомых средах. Как рассказывает сотрудник лаборатории «Компьютерные технологии» Университета ИТМО и главный разработчик алгоритма Владимир Ульянцев, такой подход помогает находить у пациентов микроорганизмы, отвечающие за склонность к конкретному заболеванию. Сравнивая микрофлору здоровых и больных людей, можно быстро выявить причину болезни и принять меры по ее устранению.
Программа MetaFast была протестирована в самых разных средах, в том числе с большим содержанием вирусов. Так, к примеру, ученые доказали безопасность микробов, обитающих под землей. Они обнаружили, что образцы, взятые в метро Нью-Йорка, по большей части принадлежат к уже известным бактериям.
Новый алгоритм также может быть полезен в изучении процессов урбанизации. Городская атмосфера негативно влияет на нашу микрофлору, а современные продукты уничтожают нужные организму бактерии. Сравнив метагеномы жителей крупных городов и отдаленных поселений, можно выяснить, что это за полезные бактерии и как их сохранить.
Сотрудники Университета ИТМО также приняли участие в международном проекте по разработке веб-сервиса для комплексного изучения работы клеток. Программа GAM (genes and metabolites), разработкой которой занимался аспирант Университета ИТМО Алексей Сергушичев, выявляет связи между генами и изменениями в метаболизме.
Например, когда необходимо изучить процесс развития опухоли, программа берет исходные данные о концентрации метаболитов – простых веществ, участвующих в метаболизме – и экспрессии генов и сравнивает их с данными в базе KEGG. После этого строится карта метаболических путей, показывающая процесс изменения веществ в результате химических реакций.
Сервис будет полезен при лечении болезней, связанных с нарушением иммунной системы, и рака. Карты изменения метаболитов помогают проследить за развитием опухоли и разработать механизмы по ее сдерживанию на ранних стадиях. С помощью разработанного алгоритма ученые уже доказали, что, если замедлить процесс метаболизма при раке легких, скорость роста опухоли снизится.
В отличие от своих аналогов, веб-сервис GAM является одновременно простым, эффективным и, что важно, бесплатным, поэтому им может воспользоваться любой желающий. Сервисом пользуются уже в нескольких десятках лабораторий и фармацевтических компаний.
Заключение: коротко для тех, кто заинтересовался биоинформатикой
Многие студенты и выпускники, в том числе программисты и математики, интересуются, как попасть в сферу биоинформатики. Для начала нужно определиться с тем, какие задачи вам интересно решать. В биоинформатике спектр задач очень широк: начиная с чистой информатики и доказательства теорем и заканчивая чистой биологией, в которой приходится активно разбираться новичкам. Ясно, что большая часть исследований находится на стыке нескольких областей.
После необходимо выяснить, в каких местах занимаются тем, что вам интересно. Для этого придется изучить статьи конкретных лабораторий и оценить, действительно ли вы хотите участвовать в их работе. Параллельно не помешает записаться на курсы в Институт биоинформатики или поискать онлайн-курсы вроде тех, что предлагает Coursera. Так можно получить представление о том, чем сейчас занимается биоинформатика и как она работает.
При этом важно понимать: поскольку биоинформатика – дисциплина, находящаяся на стыке нескольких областей, проекты в этой сфере могут быть связаны не только с использованием возможностей информатики для решения проблем биологии, но и наоборот. Яркий тому пример – составление учебного расписания с помощью ДНК-компьютеров. Не говоря уже о синтетической биологии, в которой пытаются создавать или модифицировать микроорганизмы с определенной целью: например, чтобы лучше перерабатывать биотопливо.
Эти проекты и биоинформатика в целом – яркий пример тому, что современная наука может быть захватывающей и увлекательной – причем не только на экране «большого кино», но и в реальной жизни. И для того, чтобы принять участие в таких разработках, совершенно необязательно учиться или работать за рубежом: многие интересные и значимые проекты в области биоинформатики развиваются в российских университетах, в частности – в Университете ИТМО.
Автор: Университет ИТМО