«Мы разработали более совершенные технологии для подбора обуви на Amazon, чем для выбора типа лечения больных раком», — так отзывается профессор MIT Регина Барзилай (Regina Barzilay) о текущем состоянии высокотехнологичных медицинских проектов. Оценка неутешительная: зачастую «популярные» направления, такие как электронная коммерция, по уровню использующихся технологий опережают более социально важные сферы.
Однако есть и хорошие новости: решения, которые разрабатывались для условного «поиска обуви» можно использовать и для помощи больным. И спрос на такие разработки только растет: по прогнозам агентства Frost & Sullivan, объем одного только рынка медицинских разработок, использующих машинное обучение и большие данные, увеличивается на 40% ежегодно и к 2021 году составит 6,6 миллиардов долларов.
Сегодня расскажем о том, как большие данные используются в медицинских проектах и какие разработки в этом направлении ведутся в Университете ИТМО.
Фото Charles Clegg CC-BY
Диагностика заболеваний
Дата-майнинг, машинное обучение и обработка естественного языка, в частности, находят активное применение для решения проблем ранней диагностики заболеваний: от рака и диабета до шизофрении. Например, американский проект PathAI отлично справляется с выявлением рака груди на ранних стадиях. В апреле 2016 года система соревновалась с экспертом и проиграла: у него процент ошибки составил 3,5%, у системы — 7,5%. С того момента исследователям удалось увеличить объем выборки, на котором проходило обучение системы, и к ноябрю того же года PathAI превзошел эксперта по точности диагностики.
Как говорит Джоэл Дадли (Joel Dudley), разработчик системы Deep Patient из госпиталя Маунт Синай в Нью-Йорке: «Одна из важных особенностей глубокого обучения состоит в том, что при формировании прогнозов или моделей вам не нужно заранее ограничивать себя только наиболее существенной информацией». Это, касается, например, анализа всей истории болезни пациента при формировании плана лечения. Или сопоставления отдельных данных о пациенте с информацией о других случаях — алгоритм Deep Patient обращается к базе данных о 5 миллионах человек.
Моделирование работы «скорых»
Однако использование больших данных в медицине этими примерами не ограничивается. Например, в Университете ИТМО один из проектов, объединяющий большие данные и медицину, реализует Институт наукоемких компьютерных технологий. Совместно с Северо-западным федеральным медицинским центром им В.А. Алмазова там разрабатывают систему управления парком машин скорой помощи Санкт-Петербурга. Задача проекта — помочь диспетчерам организовать максимально оперативную госпитализацию.
В решении этой задачи система учитывает статистику обращений за экстренной помощью, данные о мобильности населения в течение дня, данные о загрузке транспортных сетей и приемных отделений больниц. В итоге решение позволяет, во-первых, оптимизировать маршруты скорой, а во-вторых, помогает формировать рекомендации по улучшению регламентов работы станций скорой помощи.
Развиваться разработка будет в двух направлениях: с одной стороны, система поддержки принятия решений будет аккумулировать информацию о все большем количестве заболеваний. С другой стороны, проект будет дополнен решением по автоматизации ведения медицинской документации.
Вычислительная биомедицина
Кстати, предсказательное моделирование и работа с большими данными в медицине — это не просто частный случай применения технологии, а самостоятельное научное направление. В Университете ИТМО специалистов по нему готовят на кафедре высокопроизводительных вычислений в рамках магистерской программы «Вычислительная биомедицина».
Магистранты изучают методы, алгоритмы и технологии, использующиеся в биоинформатике, геномных и эпидемиологических исследованиях, при создании лекарственных препаратов. Кроме того, в учебный курс входит изучение моделей физиологических процессов в теле человека, а также процессов работы учреждений здравоохранения и другие базовые знания, позволяющие ИТ-специалисту и аналитику по данным говорить с медиками, биологами, химиками на одном языке.
Хемоинформатика
Кстати о химии: еще одно направление для работы с большими данными в медицинском секторе — биологические и химические исследования и связанная с этим дисциплина —хемоинформатика. При создании нового соединения, например, для медицинского препарата, необходимо провести массу экспериментов и тестов. Хемоинформатика позволяет ускорить этот процесс за счет его моделирования на основе современных баз данных и алгоритмов машинного обучения.
Кстати, само развитие этой дисциплины и особенно использование больших данных серьезно изменили медицинскую индустрию в целом. Потребность в создании сверхбольших массивов данных приводит к тому, что фармацевтические компании объединяют усилия и работают вместе с независимыми научными и исследовательскими центрами — еще десять лет назад такая практика казалась маловероятной.
«Побочный эффект» работы с большими данными в этой области — возможность накопления достаточных массивов информации для изучения так называемых забытых болезней — заболеваний, распространенных среди наиболее бедных и маргинальных групп людей, проживающих преимущественно в Азии, Африке и Латинской Америке. Разработка лекарств и изучение этих болезней считаются экономически невыгодными (для фармкомпаний). Однако доступ к большим данным и, в особенности, появление открытых баз данных химических соединений и реакций позволяют серьезно удешевить процесс и дают группам энтузиастов возможность самостоятельно работать над решением таких проблем, как минимум, без первоначальной поддержки крупных фармкорпораций.
В Университете ИТМО изучить это направление и поработать над собственным проектом можно в рамках магистерской программы «Хемоинформатика и молекулярное моделирование», которая ведется совместно со Страсбургским университетом. Будущие магистры учатся использовать (и разрабатывать) методы построения и анализа баз данных химических соединений и реакций чтобы прогнозировать их химические и биологические свойства, предсказывать ход реакций и решать задачи поиска новых лекарственных препаратов.
Автор: itmo