Мы завершаем цикл статей с практическими задачами о том, как использовать данные генетических тестов. Сегодня публикуем правильные ответы и победителей, которые решили все три задачи быстрее остальных.
Все статьи в нашей серии:
Что такое Полный геном и зачем он нужен
Задача №1. Узнайте пол и степень родства.
Задача №2. Определение популяционной структуры
Задача №3. Конвертация данных и загрузка в сторонние сервисы
Для выполнения тестовых заданий мы использовали 12 образцов из открытых данных проекта «1000 Геномов». Мы переименовали образцы, чтобы участники не могли использовать доступные данные для ответов.
Таблица соответствия оригинальных и использованных в заданиях идентификаторов.
Задача № 1. Узнайте пол и степень родства
Родословная использованных образцов представлена на Рисунке 1. Правильными считались решения, в которых были идентифицированы 3 семьи и 3 генетически не связанных с ними образца — АТ0030, АТ0090 и АТ0066. Их связь с семьей невозможно установить данным анализом, если нет образцов детей. Все 12 образцов должны присутствовать в решении. Оформление родословной также принималось во внимание (Рисунок 2). Мы писали о правилах оформления в первой задаче.
Рисунок 1. Родственные связи образцов тестового датасета по данным «1000 Геномов». Pedigree файл доступен по ссылке.
Рисунок 2. Справа отражен неправильный вариант отображения семьи с одним ребенком: изображено два брака, родственных связей нет.
Задача №2. Определение популяционной структуры
В датасете для задания мы использовали образцы двух суперпопуляций. Визуализация расположения 12 образцов по трем главным компонентам представлена на Рисунках 3 и 4. На точечных диаграммах можно заметить формирование четырех кластеров. Однако они не полностью соответствуют исходным данным о популяционной принадлежности: рисунок 5, две популяции. Мы объясняли причины подобного ярко выраженного и противоречивого обособления образцов в статье. Помимо этого, все образцы, показавшие неожиданное расщепление кластеров, принадлежат суперпопуляции AMR — Ad Mixed American. Смешанность и гетерогенность присуща ad mixed популяциям и может проявляться в наблюдаемой кластеризации.
Рисунок 3. Точечные диаграммы расположения образцов тестового датасета по парам первых трех главных компонент.
Рисунок 4. Точечная диаграмма расположения образцов тестового датасета по трем главным компонентам.
Рисунок 5. Популяционная принадлежность и родословная используемых в тестовом датасете образцов по данным «1000 Геномов». Pedigree файл доступен по ссылке.
На Рисунке 6 показано кластеризационное дерево, построенное по cluster3
файлу. Дерево можно было строить вручную или с использованием любого вида автоматизации, однако оно обязательно должно было соответствовать кластеризации, проведенной с помощью Plink. Деревья, которые не соответствуют структуре и для которых участники использовали другие PCA пакеты, не принимались. Они не отражали найденное Plink решение, поэтому не подходили для подтверждения полученных Plink кластеров.
Рисунок 6. Бинарное дерево кластеризации для тестового датасета из 12 образцов.
Задача №3. Конвертация данных и загрузка в сторонние сервисы
В этой задаче мы попросили участников подготовить данные генетического теста для загрузки в систему интерпретации Promethease и проанализировать полученные результаты. Для проверки ответов нужно было собрать таблицу с идентификаторами образцов тестового датасета, их группой крови и резус-фактором.
Таблица с идентификаторами образцов тестового датасета и обнаруженной системой интерпретации Promethease группой крови и резус-фактором.
Определение победителей
Мы писали, что вручим подарки тем, кто решит задачи быстрее остальных. Поэтому мы учитывали не только правильность ответов, но и время с момента публикации задачи до получения ответа по ней. Время по трем задачам суммировалось и таким образом мы выбрали трех самых быстрых победителей.
Таблица с результатами всех участников.
Участник с почтовым доменом ab12ab, мы не можем с вами связаться. Напишите, пожалуйста, автору статьи в личные сообщения до понедельника. Иначе мы вручим приз следующему участнику по списку.
Победители уже получили письма о выигрыше. Для остальных у нас тоже есть небольшой подарок. До Нового года на сайте Атласа действуют скидки до 50%.
Автор: asyaaam