Правильные ответы и анонс победителя

в 12:50, , рубрики: big data, биоинформатика, биоинформатические алгоритмы, Биотехнологии, Блог компании «Атлас», генетика, генетический анализ, генетический код, генетический тест, днк, Здоровье гика

Мы завершаем цикл статей с практическими задачами о том, как использовать данные генетических тестов. Сегодня публикуем правильные ответы и победителей, которые решили все три задачи быстрее остальных.

Правильные ответы и анонс победителя - 1

Все статьи в нашей серии:
Что такое Полный геном и зачем он нужен
Задача №1. Узнайте пол и степень родства.
Задача №2. Определение популяционной структуры
Задача №3. Конвертация данных и загрузка в сторонние сервисы

Для выполнения тестовых заданий мы использовали 12 образцов из открытых данных проекта «1000 Геномов». Мы переименовали образцы, чтобы участники не могли использовать доступные данные для ответов.

Правильные ответы и анонс победителя - 2
Таблица соответствия оригинальных и использованных в заданиях идентификаторов.

Задача № 1. Узнайте пол и степень родства

Родословная использованных образцов представлена на Рисунке 1. Правильными считались решения, в которых были идентифицированы 3 семьи и 3 генетически не связанных с ними образца — АТ0030, АТ0090 и АТ0066. Их связь с семьей невозможно установить данным анализом, если нет образцов детей. Все 12 образцов должны присутствовать в решении. Оформление родословной также принималось во внимание (Рисунок 2). Мы писали о правилах оформления в первой задаче.

Правильные ответы и анонс победителя - 3
Рисунок 1. Родственные связи образцов тестового датасета по данным «1000 Геномов». Pedigree файл доступен по ссылке.

Правильные ответы и анонс победителя - 4
Рисунок 2. Справа отражен неправильный вариант отображения семьи с одним ребенком: изображено два брака, родственных связей нет.

Задача №2. Определение популяционной структуры

В датасете для задания мы использовали образцы двух суперпопуляций. Визуализация расположения 12 образцов по трем главным компонентам представлена на Рисунках 3 и 4. На точечных диаграммах можно заметить формирование четырех кластеров. Однако они не полностью соответствуют исходным данным о популяционной принадлежности: рисунок 5, две популяции. Мы объясняли причины подобного ярко выраженного и противоречивого обособления образцов в статье. Помимо этого, все образцы, показавшие неожиданное расщепление кластеров, принадлежат суперпопуляции AMR — Ad Mixed American. Смешанность и гетерогенность присуща ad mixed популяциям и может проявляться в наблюдаемой кластеризации.

Правильные ответы и анонс победителя - 5
Рисунок 3. Точечные диаграммы расположения образцов тестового датасета по парам первых трех главных компонент.

Правильные ответы и анонс победителя - 6
Рисунок 4. Точечная диаграмма расположения образцов тестового датасета по трем главным компонентам.

Правильные ответы и анонс победителя - 7
Рисунок 5. Популяционная принадлежность и родословная используемых в тестовом датасете образцов по данным «1000 Геномов». Pedigree файл доступен по ссылке.

На Рисунке 6 показано кластеризационное дерево, построенное по cluster3 файлу. Дерево можно было строить вручную или с использованием любого вида автоматизации, однако оно обязательно должно было соответствовать кластеризации, проведенной с помощью Plink. Деревья, которые не соответствуют структуре и для которых участники использовали другие PCA пакеты, не принимались. Они не отражали найденное Plink решение, поэтому не подходили для подтверждения полученных Plink кластеров.

Правильные ответы и анонс победителя - 8
Рисунок 6. Бинарное дерево кластеризации для тестового датасета из 12 образцов.

Задача №3. Конвертация данных и загрузка в сторонние сервисы

В этой задаче мы попросили участников подготовить данные генетического теста для загрузки в систему интерпретации Promethease и проанализировать полученные результаты. Для проверки ответов нужно было собрать таблицу с идентификаторами образцов тестового датасета, их группой крови и резус-фактором.

Правильные ответы и анонс победителя - 9

Таблица с идентификаторами образцов тестового датасета и обнаруженной системой интерпретации Promethease группой крови и резус-фактором.

Определение победителей

Мы писали, что вручим подарки тем, кто решит задачи быстрее остальных. Поэтому мы учитывали не только правильность ответов, но и время с момента публикации задачи до получения ответа по ней. Время по трем задачам суммировалось и таким образом мы выбрали трех самых быстрых победителей.

Правильные ответы и анонс победителя - 10
Таблица с результатами всех участников.

Участник с почтовым доменом ab12ab, мы не можем с вами связаться. Напишите, пожалуйста, автору статьи в личные сообщения до понедельника. Иначе мы вручим приз следующему участнику по списку.

Победители уже получили письма о выигрыше. Для остальных у нас тоже есть небольшой подарок. До Нового года на сайте Атласа действуют скидки до 50%.

Автор: asyaaam

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js