Запустить сервис планирует стартап Catalog. Компания разрабатывает специальную установку, которая позволит ежедневно записывать терабайт данных в 500 трлн ДНК-молекул.
Далее расскажем о подходе, используемом Catalog, и других свежих разработках на ДНК-поприще.
/ фото University of Michigan CC
Подробности проекта
Классический подход к записи данных в ДНК предполагает преобразование последовательности битов ― нулей и единиц ― в последовательность из четырех базовых оснований ДНК. Например, азотистые основания аденин (A), тимин (T), гуанин (G) и цитозин ( С) можно представить так: A = 00, T = 01, G = 10, C = 11.
Пользуясь этим подходом, в 2016 году компании Microsoft удалось «увековечить» 200 Мбайт текста и видео в синтетических молекулах ДНК (о чем мы уже писали в одном из постов). Однако такой способ плохо подходит для массовой записи данных, при этом являясь дорогостоящим.
Вместо того чтобы использовать миллионы ДНК-цепочек, исследователи из Catalog предлагают генерировать большое количество различных ДНК-молекул, состоящих не более чем из 30 пар оснований. Затем за счет ферментативных реакций эти предварительно подготовленные «кусочки» формируют особые паттерны, которые и кодируют информацию. Таким образом, вместо того чтобы представлять одно азотистое основание, биты выстраиваются в многомерные матрицы. А группы молекул отражают положение битов в этих матрицах.
Девин Лик (Devin Leake), руководитель исследовательского направления Catalog, приводит следующую аналогию: «Представьте, что у вас есть книга. Вы можете скопировать её вручную: букву за буквой. Точно также можно писать данные в ДНК ― молекулу за молекулой. Этот подход использовали в Microsoft. Мы же предлагаем создать своеобразный «печатный станок», где молекулы ДНК будут гарнитурой. Таким образом, переставляя предварительно сгенерированные молекулы, мы работаем сразу с целыми словами, расставляя их в нужном порядке».
Используя этот метод, исследователи из Catalog успешно записали и восстановили данные в ДНК. Для этого они использовали стихотворение The Road Not Taken (в одном из переводов ― «Другая дорога») Роберта Фроста. Сейчас компания решает задачу масштабирования платформы под нужды ИТ-компаний и правительственных организаций.
По словам одного из основателей Catalog Хинджана Парка (Hyunjun Park), такой подход позволит сделать терабайтные ДНК-хранилища коммерчески выгодными уже к началу 2019 года. Однако точная стоимость услуги хранения данных, которую будет предлагать стартап, пока неизвестна.
Аналогичные разработки
Как уже было отмечено, вопросами создания ДНК-хранилищ занимаются в Microsoft. И с 2016 года исследователи из компании продвинулись в своих разработках: в феврале 2018 они создали «библиотеку праймеров» для организации произвольного доступа к ДНК. Каждый из праймеров «привязан» к конкретной цепочке, потому с помощью полимеразной цепной реакции можно выбрать любую из них (и получить доступ к записанным данным).
/ фото Col Ford and Natasha de Vere CC
В компании надеются, что такой подход вкупе с новым, менее восприимчивым к ошибкам алгоритмом записи и чтения данных, в будущем поможет создать ДНК-хранилища объемом в несколько терабайт. В планах ИТ-гиганта предоставлять ДНК-хранилище as a service. Компания задалась целью осуществить задумку к 2020 году.
Взаимовыгода ДНК и AI
С записью информации на ДНК-носитель уже нет особых трудностей: компании придумали способы автоматизации. А вот процесс считывания информации по-прежнему сложен и требует много времени. Чтобы решить и эту проблему компания Lifebit планирует использовать системы ИИ. В Lifebit разрабатывают облачную платформу Deploit на базе алгоритмов МО, которая позволит автоматизировать процесс чтения информации из ДНК-носителей.
Таким образом, машинное обучение поспособствует в организации ДНК-хранилищ. Однако справедливо и обратное ― молекулы ДНК используются для создания систем искусственного интеллекта. Например, в этой сфере работают исследователи из Caltech.
Принцип работы их нейронной сети основан на химических реакциях, получивших название смещение нитей (механизм репликации ДНК, известный у некоторых вирусов), когда нить, называемая входящей, вытесняет одну из нитей оригинальной ДНК. «Интеллектуальную систему» уже научили распознавать цифры, написанные от руки.
Цифра отрисовывается на квадратной плоскости, разделенной на сто одинаковых ячеек (10x10) ― своеобразные пиксели. Каждая из этих ячеек представлена молекулой ДНК, которая «знает», есть ли на этом пикселе кусочек цифры. После все молекулы смешивают в одной пробирке, и «ДНК-сеть» дает свой ответ с помощью флуоресцентных сигналов. Пробирка начинает излучать свечение, цвет которого зависит от распознанной цифры. Например, зеленый и желтый цвета означают цифру пять, а зеленый и красный ― цифру девять.
В планах исследователей сформировать у нейронной сети некое подобие памяти, чтобы она «запоминала» обучающие векторы и использовала их для решения других задач.
O Catalog
Catalog ― это американский стартап, основанный в 2016 году, который занимается разработкой технологий хранения данных в молекулах ДНК. Штаб-квартира располагается в Бостоне, Массачусетс.
P.S. Пара дополнительных материалов из Первого блога о корпоративном IaaS:
- NetApp от А до Я: обзор технологий вендора для современных СХД
- Как протестировать дисковую систему в облаке
- Что скрывается за термином vCloud Director ― взгляд изнутри
P.P.S. Другие посты по теме из нашего блога на Хабре:
- Microsoft внедрит ДНК-хранилище в одном из своих ЦОД
- «Принцип макарон»: ученые организовали произвольный доступ к ДНК-памяти
Автор: ИТ-ГРАДовец