В 2013 году молодой специалист по вычислительной биологии, Янив Эрлих, шокировал исследовательское сообщество, показав, как можно раскрыть личности людей, перечисленных в анонимной генетической базе данных, используя только соединение с интернетом. Регуляторы отреагировали на это, ограничив доступ к наборам анонимных биомедицинских генетических данных. Представитель Национальных институтов здоровья сообщил тогда: «Шансы на то, что это случится, для большинства людей малы, хотя и не нулевые».
Перенесёмся через пять лет, и мы обнаружим, что количество информации о ДНК, хранящейся в цифровых базах, увеличился взрывообразно, и этот рост не собирается замедляться. Потребительские компании вроде 23andMe и Ancestry составили генетические профили на более 12 млн людей, согласно недавним оценкам. Пользователи, скачавшие свою информацию, могут по желанию добавить её на публичные генеалогические сайты, например, GEDmatch, приобретший в этом году дурную славу благодаря своей роли в наводке полиции на подозреваемого в деле «убийцы Золотого штата».
Эти пересекающиеся семейные деревья, объединяющие людей через части ДНК, разрослись уже так сильно, что их можно использовать для обнаружения половины населения США. Согласно новому исследованию Эрлиха, опубликованному в журнале Science в октябре 2018, более 60% американцев с европейскими корнями можно определить по их ДНК, используя открытые генеалогические базы данных, вне зависимости от того, отправляли ли они туда свою ДНК.
«В результате получается, что уже неважно, сдавали ли вы анализ или нет», — говорит Эрлих, главный научный сотрудник MyHeritage, третьей по величине потребительской генетической компании, после 23andMe и Ancestry. «Вас можно идентифицировать, поскольку базы данных уже покрывают большую часть США, особенно европейского происхождения».
Чтобы вывести эти оценки, Эрлих и его коллеги из Колумбийского университета и Еврейского университета в Иерусалиме проанализировали базу данных MyHeritage, содержащую 1,28 млн анонимных пользователей, по большей части с белой кожей, как и подавляющее большинство генетических баз данных мира. Расценивая каждого пользователя, как «цель», они подсчитали количество его родственников с большими долями совпадающей ДНК, и обнаружили, что 60% из поисковых запросов нашли по меньшей мере его троюродного родственника. Следователям для розыска «убийцы Золотого штата» и раскрытия ещё 17 дел потребовался только такой уровень родства, известный в правоохранительном деле, как «поиск дальних родственников». Для подтверждения своей находки команда Эрлиха загрузила в GEDmatch 30 генетических профилей и обнаружила сходные результаты – 76% поисковых запросов выдали родственников не дальше троюродных.
Анализ выдавал список из примерно 850 человек, в зависимости от плодотворности предков объекта. С этой отправной точки можно довольно быстро сократить базовую демографическую информацию. Общественные архивы, из которых следует место проживания человека с точностью до 160 км, сокращают набор кандидатов в два раза. Возраст с точностью до пяти лет исключает 9 из 10 человек. Пол, который можно установить на основе генетики, урезает список до порядка 16 человек. Точный год рождения может оставить вам одного-двух кандидатов.
Для демонстрации лёгкости процесса, исследователи выбрали анонимную женщину из 1000 Genomes Project – проекта с открытыми геномными кодами – бывшую замужем за мужчиной, которого Эрлих до этого идентифицировал в своей популярной работе 2013 года. Они переформатировали данные по её ДНК так, чтобы они напоминали данные типичного клиента онлайн-сервиса и загрузили их на GEDmatch. Сервис нашёл двух родственников, одного в Северной Дакоте и одного в Вайоминге. Из совпадения следовало их дальнее родство, в пределах 4-6 поколений. Через час прочёсывания общественных архивов команда обнаружила их мужа и жену. Отталкиваясь от этого, исследователи проследили родословные сотен потомков и вычислили личность их цели. Всё это заняло один день.
Эрлих считает, что недалёк тот день, когда такой поиск можно будет провести по любому человеку, оставившему где-либо свою ДНК. В исследовании обнаружилось, что когда генетическая БД покроет примерно 2% взрослого населения любой этнической популяции, совпадение не далее троюродных родственников можно будет найти практически для любого человека. В базе выборки богаче у людей, чьими предками были американцы или европейцы, и для них этот рубеж может быть достигнут уже в течение нескольких лет, если интерес к развлекательным проверкам ДНК будет поддерживаться на том же уровне. Судя по данным последней переписи США, два процента популяции составят всего четыре миллиона человек.
Подобный ресурс серьёзно увеличит количество и разновидности подозреваемых, к данным которых появится доступ у правоохранительных органов во время расследований. Базы данных нарушителей закона, в которых полиция хранит ДНК почти 17 млн человек – это приговорённые преступники, а в некоторых штатах, и просто люди, подвергшиеся аресту – в основном содержит данные по неграм и латиноамериканцам. С ранних дней тестирования ДНК технологические несовместимости разных методов создали стену между базами данных преступников и базами людей, сдающих ДНК в развлекательных или исследовательских целях. Правоохранители собирают и анализируют высоко вариативные некодирующие части генома, подсчитывая количество повторов «мусорных» частей ДНК. Это, по сути, просто последовательность чисел, и она ничего не говорит о личности человека. Однако она уникальна для каждого человека, что-то вроде штрих-кода или отпечатка пальцев. Также этот метод быстрый и дешёвый – идеально для целей полиции.
Медицинские и развлекательные же записи ДНК включают в себя полную расшифровку или массивы генотипов – набор изменений, происходящих в одном месте гена. Это однонуклеотидный полиморфизм (ОНП), и именно он в ответе за то, что у вас зелёные глаза или вьющиеся волосы, или предрасположенность к болезням сердца. Также он куда как более полезен для поиска родственников. Поскольку два этих тип баз данных не связаны друг с другом, в случае с «убийцей Золотого штата» пришлось извлечь ДНК из старых образцов, создать ОНП-профиль и загрузить его в GEDmatch. Но теперь даже это уже не обязательно.
В другой работе, опубликованной в октябре в журнале Cell, впервые продемонстрировано, как можно проводить поиск дальних родственников на основе данных из баз по преступникам. Группа Ноа Розенберга из Стенфордского университета уже показывала, что можно связать записи в двух этих базах, сопоставив ближайшие ОНП с некодирующими повторами. Работа была опубликована в прошлом году, и не привлекла особого внимания. «Тишина», — говорит Розенберг. Но его последняя работа, изучающая перекрёстную совместимость двух баз данных, получает уже новый смысл в свете дела об «убийце Золотого штата».
«Этот способ может расширить охват судебной генетики, и потенциально помочь раскрыть ещё больше старых дел, — говорит Розенберг. – Одновременно он будет раскрывать данные участников этих баз данных во время поисков, связанных с расследованием преступлений, чего те, наверное, не ожидали».
Правовые эксперты считаю большей проблемой тот факт, что из работы Розенберга следует, что в профиле ДНК, хранящемся в полицейских базах данных, содержится больше информации, чем считалось ранее. Его можно использовать для точного предсказания кодирующих участков генома – тех, что связаны с зелёными глазами, кудрявыми волосами и проблемами с сердцем. «Все решения Верховного суда по поводу того, что существующие базы данных преступников не нарушают Чётвёртую поправку, основаны на предположении, что из этой мусорной ДНК ничего нельзя извлечь», — говорит Андреа Рот, директор Центра юриспруденции и технологий Калифорнийского университета в Беркли. «И теперь всё это идёт прахом».
Розенберг не выпустил вместе с работой никакого ПО, поэтому на выполнение реальных вычислений уйдёт какое-то время. Но он говорит, что у любого человека с доступом к нескольким базам данных есть вся необходимая информация для того, чтобы начать использовать эту технологию. А значит, встроенная защита частной жизни может посыпаться довольно быстро. Работа задумана, как предупреждение, чтобы показать регуляторам возможности современных технологий, и Розенберг надеется, что она запустит давно назревшую дискуссию по поводу хранения и использования генетической информации.
Эрлих с соавторами пошли ещё дальше в выработке рекомендаций по изменениям, необходимым для того, чтобы ресурсы типа GEDmatch, предоставляющие важный сервис для людей, разыскивающих пропавших родственников, и для приёмных детей, ищущих биологических родителей, оставаться в онлайне и быть безопасными. Они призвали Министерство здравоохранения и социальных служб США пересмотреть рамки информации о здоровье, относящейся к личным данным, и включить в неё обезличенные геномы. Они описали стратегию шифрования, которая сможет создать цепочку ответственных за сохранность информации, чтобы базы данных могли отмечать пользователей, пытающихся анализировать чужие генетические данные. Но даже если затащить в эту систему абсолютно все компании, предоставляющие услуги, связанные с геномами, этого может оказаться недостаточно.
«Думаю, итог состоит в том, что теперь все люди будут ещё и под колпаком генетического наблюдения, если мы не будем регулировать возможности правительства по проведению генетических поисков», — говорит Рот. Он предлагает систему, похожую на существующее в Калифорнии регулирование более традиционных поисков родственников по базам данных преступников. Их можно использовать только для расследований насильственных преступлений – убийств, насилия – а рамки поиска ограничены, чтобы не вовлекать в него информацию о сотнях невинных людей. Существуют наблюдательные комиссии, способные предотвратить неосторожное раскрытие чувствительной информации, если, допустим, чей-то отец окажется не биологическим отцом. «В этом состоит вся ирония, — говорит Рот. – Если ваш родственник есть в базе CODIS [база преступников], у вас гораздо больше прав на генетическую приватность, чем если у вас есть родственник в GEDMatch». Но с достаточным количеством вашего ДНК уже неважно, захотите ли вы, чтобы вас нашли, или нет. Отказы больше не принимаются.
Автор: SLY_G