Согласно исследованию, опубликованному исследователями IBM (1), предсказание химических реакций можно заметно улучшить, рассматривая химическую реакцию как проблему перевода.
Идея использования вычислительных машин для облегчения работы химиков далеко не нова. Уже в далеком 1969 году Кори и Випке [1] продемонстрировали, что планирование синтеза и ретросинтеза (обратная задача, когда известен продукт, но неизвестен простой и дешевый метод синтеза) могут быть выполнены машиной. (2)
С появлением новых технологий машинного обучения возможно более качественное предсказание результатов химических превращений. В последние годы широко изучались методы прогнозирования на основе шаблонов реакций. Например, Сеглер и Валлер недавно представили нейросимволический подход (3). Они извлекли правила для реакций из коммерческой базы данных Reaxys. Затем они обучили нейронную сеть «молекулярными отпечатками реакций» для определения приоритетов правил и объединили сеть с методом Монте-Карло для поиска дерева (4), чтобы преодолеть проблемы масштабируемости других методов основанных на шаблонах.
Для обхода ограничений методов основанных на шаблонах и дальнейшего развития методов машинного предсказания реакций в 2012 году появился первый подход прогнозирования без использования шаблонов реакций (5). Исследователями из IBM был использован метод не основанный на шаблонах с использованием моделей Seq2seq для прогнозирования и ретросинтезе органических реакций. Схожий подход недавно опубликован Нам и Ким (6), которые также использовали не-шаблонные seq2seq модели. Их модель была основана на модели перевода Tensorflow (v0.10.10.0) (7), из которого они взяли значения по умолчанию для большинства гиперпараметров.
Интерфейс системы «Found in Translation» (7) от исследователей в IBM Research
Язык химических формул — это язык, которым люди описывают химические превращения и процессы, происходящие в окружающем мире. Язык, изобретенный людьми, может обрабатываться с использованием алгоритмов, аналогичных алгоритмам перевода. Используя эту гипотезу, исследователи из IBM приводили химические соединения в представление SMILES и предложили новый способ токенизации, который произвольно расширяем с новой реакционной информацией. Далее систему обучали наборами данных (источник — патентная база данных реакций), содержащим 395 тысяч химических реакций с использованием нейронной сети, часто используемой в машинном переводе. В статье (1) заявляется 80% точность прогнозирования без использования вспомогательных данных, таких как шаблонов реакции. Точность на 6 пунктов лучше других прогностических моделей. Кроме того, для больших и более шумных наборов данных достигается точность в 65.4%.
Авторы надеются, что этот метод ускорит исследования, такие как разработка лекарств, и рассчитывают открыть онлайн-доступ к системе в 2018 году (8).
Интервью:
2. Corey EJ, Wipke WT. Computer-Assisted Design of Complex Organic Syntheses. Science. 1969;166(3902):178–92.
3. Segler MHS, Waller MP. Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction. Chem – Eur J. 2017 May 2;23(25):5966–71.
4. Метод Монте-Карло для поиска в дереве [Internet]. [cited 2017 Dec 14]. Available from: habrahabr.ru/post/282522
5. Kayala MA, Baldi P. ReactionPredictor: Prediction of Complex Chemical Reactions at the Mechanistic Level Using Machine Learning. J Chem Inf Model. 2012 Oct 22;52(10):2526–40.
6. Nam J, Kim J. Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions. ArXiv161209529 Cs [Internet]. 2016 Dec 29 [cited 2017 Dec 14]; Available from: arxiv.org/abs/1612.09529
7. Found in Translation: Neural Networks Predict Outcomes in Chemistry [Internet]. IBM Blog Research. 2017 [cited 2017 Dec 14]. Available from: www.ibm.comhttps://www.ibm.com/blogs/research/2017/12/neural-networks-organic-chemistry/
8. IBM Research — Zurich, Found in Translation chemistry app [Internet]. 2017 [cited 2017 Dec 14]. Available from: www.zurich.ibm.com/foundintranslation
Автор: ru1z