Почти год назад, летом 2017 года, на базе МФТИ состоялась традиционная летняя школа от Института биоинформатики. Основной темой школы в этом году стал интеллектуальный анализ данных. Почему? Количество получаемых данных в биологии и медицине растет с невероятной скоростью. В то же время обнаружить ранее неизвестные вещи в таком объеме информации вручную физически невозможно (да и классическими алгоритмами уже тоже сложновато), поэтому приходится использовать статистику и дополнять естественный интеллект искусственным.
Именно этим активно и занимались участники летней школы. В этом посте собрана 21 видеозапись лекций со слайдами и описанием для всех интересующихся темой анализа данных в биоинформатике. Лекции, которые можно смотреть без дополнительной подготовки, отмечены звёздочкой «*» (их больше половины).
1*. Введение в биоинформатику (Александр Предеус, Институт биоинформатики)
В лекции рассмотрены основные области, в которых работают биоинформатики в науке и индустрии, особенности биоинформатики и причины ее популярности сегодня.
2*. Введение в машинное обучение (Григорий Сапунов, Intento)
Постоянный рост количества данных способствует развитию все более и более сложных процессов обработки, поиска и извлечения информации. Один из способов решения подобных задач заключается в использовании искусственного интеллекта. Эта лекция посвящена краткому введению в основы машинного обучения. Григорий рассказал общую терминологию в этой области, а также описал виды задач, решаемых машинным обучением. Помимо этого, лекция знакомит с основными этапами машинного обучения, видами моделей и метриками качества полученных данных.
3*. Введение в Deep Learning (Григорий Сапунов, Intento)
Глубокое обучение (или deep learning) в настоящее время набирает популярность из-за возможности не прописывать конкретные алгоритмы для решения задачи, а использовать обучение представлениям. Развитию этих методов также способствует увеличение вычислительной мощности процессоров. Лекция посвящена основам нейросетей: их видам (полносвязные нейросети, автоэнкодеры, свёрточные, рекуррентные) и решаемым ими задачам. Отдельно Григорий обрисовал современное состояние и тренды.
4*. Введение в онкогеномику и анализ омиксных данных в онкологии (Михаил Пятницкий, НИИ биомедицинской химии им. В.Н.Ореховича)
Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей — все эти биологические методы в приложении к “Big Data” дали ученым большой объем ценной информации о том, что отличает человека от других животных. Эта лекция посвящена «омикам» и их практическому использованию. Отдельно Михаил затронул использование этих данных в онкологии.
5. Мультиомика в биологии: интеграция технологий (Константин Оконечников, German Cancer Research Center)
Бурное развитие экспериментальных технологий в молекулярной биологии, таких как например, секвенирование, позволили совместить в себе изучение большого спектра функциональных процессов происходящих в клетках, органах или даже целом организме. В лекции рассмотрено как правильно совмещать массивные экспериментальные данные, полученные из геномики, транксриптомики и эпигеномики для установления связей между компонентами происходящих биологических процессов. Наглядные примеры применения мультиомики выбраны из высоко востребованной области исследований раковых заболеваний с фокусом на педиатрическую онкологию.
6. Количественная генетика: история и перспективы (Юрий Аульченко, лаборатория теоретической и прикладной функциональной геномики ФЕН НГУ, группа методов генетического анализа, ИЦиГ СО РАН)
Количественная генетика — точная наука, которая основывается на небольшом числе ключевых наблюдений и базовых моделей, позволяющих дать количественное описание природных (микро)эволюционных явлений и предсказать результаты генетических экспериментов. Она использует мощный математический аппарат. Многие современные методы статистики были изначально разработаны для решения проблем количественной генетики. Прорывное развитие молекулярно-биологических технологий за последнее десятилетие позволило характеризовать сотни тысяч живых организмов по миллионам геномных и других «омиксных» параметров. Общее количество проведенных экспериментов и уже накопленных данных колоссально. Актуальная задача современной количественной генетики — разработка моделей, которые позволят описать наследования многоуровневых фенотипических высокой размерности. В своей лекции Юрий дал краткий обзор истории количественной генетики и проблем, которые стоят перед этой наукой.
7*. Технологии секвенирования (Кирилл Григорьев, Caribbean Genome Center, University of Puerto Rico)
Развитие и эволюция процессов секвенирования неразрывно связаны с эволюцией технологических возможностей. Лекция показывает историю и процесс развития технологий секвенирования от Сэнгера до наших дней. Отдельно Кирилл рассказал про преимущества и недостатки каждого из существующих в настоящее время методов, а также о характере получаемых данных и их применении в различных областях.
8. Транскриптомика: практические методы и применяемые алгоритмы (Александр Предеус, Институт биоинформатики)
Транскриптомика уверенно заняла место в списке самых популярных задач, встающих перед NGS-биоинформатиками. Дифференциальный анализ экспрессии генов, кластеризация экспрессионных данных, и интерпретация полученных данных в терминах метаболических и сигнальных каскадов позволяют получить богатейшую информацию о практически любой системе. В лекции рассмотрены лучшие пайплайны, основные проблемные места в дизайне экспериментов и обработке, а также практические случаи удачного применения транскриптомных подходов.
9. Анализ данных NGS в медицинской генетике: определение, аннотация и интерпретация генетических вариантов (Юрий Барбитов, СПбГУ, Александр Предеус, Институт биоинформатики)
Использование секвенирования нового поколения давно ушло за пределы классической науки и успешно применяется во многих других областях, в том числе в здравоохранении. Лекция посвящена ключевым аспектам анализа данных секвенирования нового поколения в медицинской генетике. Юрий показал весь путь от получения сырых ридов до постановки диагноза, с упоминанием трудностей, возникающих при определении, аннотации и интерпретации генетических вариантов. Отдельно он затронул распространенные ошибки, допускаемые на каждом из этапов обработки данных. В заключение дан краткий обзор перспективных направлений исследований, способных улучшить точность постановки диагноза с использованием методов высокопроизводительного секвенирования
10. Практическое применение ChIP-Seq и родственных методов (Александр Предеус, Институт биоинформатики)
Методы ChIP-Seq, а также «геномного футпринтинга» (ATAC-Seq, FAIRE-Seq, DNase-Seq) широко применяются для нахождения механизмов регуляции биологических процессов, в частности, для транскрипционной регуляции. Потенциальное пространство изучаемых факторов очень многомерно, однако селективный подход позволяет получить богатую информацию о регуляции в системе на основании всего нескольких экспериментов. На примере конфликтующих современных теорий, Александр показал основные сложности интерпретации регуляторной информации, и способы консолидации полученных результатов.
11*. Что можно делать с данными iScan (Татьяна Татаринова, University of La Verne )
Компания Illumina выпускает большое количество приборов под различные нужды. Чипирование позволяет быстро обнаруживать однонуклеотидные полиморфизмы (SNP) для большого количества образцов. Лекция посвящена обзору данных чипов iScan и их применению в клинической диагностике.
12. Глубокое обучение в вычислительной биологии (Дмитрий Фишман, University of Tartu)
Глубокое обучение активно используется не только для улучшения машинного перевода или распознавания речи, но и позволяет решить многие проблемы в области вычислительной биологии. Лекция посвящена применению методов глубокого обучения на конкретных биологических примерах. Дмитрий рассказал о том, что нового происходит в биологии и медицине с использованием глубокого обучения, и можно ли говорить о том, что машины революционизируют медицину и биологию.
13*. Применение методов машинного обучения для поиска потенциальных патогенных мутаций в геноме человека (Анна Ершова, МФТИ, НИИ физико-химической биологии МГУ им. М.В. Ломоносова, ФНИЦ эпидемиологии и микробиологии им. Н.Ф. Гамалеи)
Поиск патогенных мутаций стал актуальным в связи с секвенированием генома человека. Однако, вручную такую задачу решить просто невозможно. Лекция посвящена тому, как машинное обучение может помочь справиться с этой задачей.
14*. Иммуноинформатика (Вадим Назаров, НИУ ВШЭ, ИБХ РАН)
Машинное обучение уже довольно давно активно применяется в самых разных сферах жизни, но в иммунологии для него нашли место совсем недавно. В этой лекции Вадим рассказал о нескольких примерах применения машинного и глубинного обучения в иммунологии, включая задачу предсказания связывания МНС-пептид комплексов и анализа репертуаров Т-клеточных рецепторов.
15*. Изучение адаптации к хозяину и развития резистентности в вирусах ВИЧ и гепатита С с помощью методов структурной биоинформатики (Ольга Калинина, Институт информатики общества Макса Планка)
Вирус иммунодефицита человека (ВИЧ) и вирус гепатита С вызывают тяжелые заболевания, которые с трудом поддаются терапии. Как и многие другие ретро- и РНК-вирусы, эти вирусы быстро эволюционируют и, таким образом, могут приспосабливаться как к воздействию специфических антивирусных препаратов, так и к адаптивному иммунному ответу со стороны организма хозяина. В этой лекции Ольга показала, как с помощью комбинирования анализа последовательностей вирусных белков с анализом их пространственной структуры можно делать предсказания о развитии механизмов резистентности и взаимодействии вирусов с иммунной системой хозяина.
16. Предсказание эффекта мутаций (Василий Раменский, МФТИ)
Современные методы секвенирования дают огромный объем информации о полиморфизме генома, то есть отличиях индивидуальных геномов друг от друга. Эти отличия (варианты) возникают в результате мутаций при репликации ДНК и частично фиксируются в популяции. Распространенность, локализация и функциональный эффект геномных вариантов сильно различаются – от полной летальности до отсутствия какого-либо влияния на индивидуальный фенотип. В лекции рассмотрены современные подходы к предсказанию функционального эффекта вариантов, используемые в персонализированной медицине, медицинской и популяционной генетике.
17. Многомасштабное моделирование и дизайн биологических молекул (Николай Дохолян, University of North Carolina at Chapel Hill)
Жизнь биологических молекул охватывает масштабы времени и длины, соответствующие шкалам времени и длины от атомного до клеточного. Следовательно, новые подходы к молекулярному моделированию должны быть по своей сути многомасштабными. В своей лекции Николай описал несколько методологий, разработанных в его лаборатории: алгоритм быстрого дискретного молекулярного динамического моделирования, белковый дизайн и инструменты структурной доработки. Используя эти методологии, можно описать несколько приложений, которые проливают свет на молекулярную этиологию кистозного фиброза и находят новые фармацевтические стратегии для борьбы с этим заболеванием, моделируют структуру трехмерной РНК и разрабатывают новые подходы к контролю белков в живых клетках и организмах.
18. Гомологичный фолдинг белков (Павел Яковлев, BIOCAD)
В современной структурной биологии есть ряд вычислительных методов, позволяющих с высокой достоверностью характеризовать биологические молекулы, их схожесть и различия, способы взаимодействия и функции. Для построения подобных вычислений входным параметром всегда выступает пространственная структура белка, однако ее получение может быть затруднен, несмотря на полувековой прогресс в области кристаллографии. Лекция посвящена решению этой проблемы с помощью гомологичного моделирования структур белков — построения трехмерных структур из схожих фрагментов. Для примера рассмотрены вариабельные домены антител — белков, обладающих уникальным структурным разнообразием вариабельных петель.
19. Как перестать медитировать и начать моделировать (Артур Залевский, МГУ им. М. В. Ломоносова)
Большое количество данных, получаемых методом NGS, позволяет не только получать из этого биологические выводы, но и использовать их для моделирования. Построенные модели позволяют лучше понять биологические данные и получить еще больше биологического смысла из эксперимента. Лекция посвящена моделированию и начальным этапам этого процесса.
20*. Стоя на плечах гигантов, или зачем нужны консорциумы (Герман Демидов, Centre for Genomic Regulation, The Barcelona Institute of Science and Technology, Universitat Pompeu Fabra)
За последние десятилетия развитие биологии было связано с накоплением массивов данных, огромных настолько, что отдельные исследовательские группы уже не справлялись с их биоинформатическим анализом. С целью решить эту проблему начали создаваться консорциумы из десятков лабораторий, такие как Human Genome Project, 1000GP, ENCODE и другие. Благодаря таким коллаборациям, в открытом доступе есть данные разнообразных типов, полученные с помощью различных технологий. Как результат, сравнение новых экспериментальных данных с уже существующими стало стандартной частью любого исследования. Консорциумы производят не только данные, но и биоинформатические пайплайны для их обработки, и стандартные форматы, и процедуры оценки качества. На этой лекции обсуждается, как работают консорциумы, как пользоваться результатами их работы и что делать, если вы вдруг обнаружили себя членом такого консорциума и вам нужно обрабатывать терабайты данных, а потом обмениваться результатами со всеми остальными участниками.
21*. Обзор биоинформатических компаний в России и мире (Андрей Афанасьев, yRisk)
В современном мире наука и бизнес все более и более переплетаются. Не обошел этот тренд и область биоинформатики. Андрей рассказал об ожиданиях и реальности рынка, об историях успеха и историях провалов, о людях и местах, связанных с биоинформатикой.
Послесловие
Для тех, кто ничего не понял хочет развиваться в области биоинформатики — до 27 мая ещё открыт прием заявок на летнюю школу в этом 2018-м году. Сама школа пройдет 23–28 июля под Санкт-Петербургом. Есть шанс вскочить в последний вагон и гордо всем показывать пост с обзором лекций следующего года, говоря, что видели это лично.
В 2017 году школа проводилась при поддержке наших постоянных партнеров – компаний JetBrains, BIOCAD и EPAM Systems, за что им огромное спасибо.
Кстати, пост с лекциями позапрошлых школ.
Всем биоинформатики!
Автор: Николай Вяххи