Рубрика «data science» - 38

Пример работы системы
Это третья статья из серии про определение смайла по выражению лица.

Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Глубокое обучение в гараже — Возвращение смайлов

Так что же со смайлами?

Фух, ну наконец, детекция лиц работает, можно учить сеть распознавания смайла. Только вот на чем учить? Открытых наборов данных нет. А из того, как долго в предыдущей части я добирался до, собственно, обучения моделей вы уже должны были понять, что в глубоком обучении данные решают все. И их нужно много.
Читать полностью »

Пример работы системы
Это вторая статья из серии про определение смайла по выражению лица.

Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети

Калибрация

Итак, с классификатором, разобрались, но вы наверняка уже заметили, что заоблачные 99% как-то не очень впечатляюще выглядят во время боевого теста на детекцию. Вот и я заметил. Дополнительно видно, что в последних двух примерах очень мелкий шаг движения окон, так в жизни работать не будет. В настоящем, реальном запуске шаг ожидается больше похожим на картинку для первой сети, а там хорошо видно неприятный факт: как бы хорошо сеть не искала лица, окна будут плохо выровнены к лицам. И уменьшение шага — явно не подходящее решение этой проблемы для продакшена.
Читать полностью »

Пример работы системы
Вы тоже находите смайлы презабавнейшим феноменом?
В доисторические времена, когда я еще был школьником и только начинал постигать прелести интернета, с первых же добавленных в ICQ контактов смайлы ежедневно меня веселили: ну действительно, представьте, что ваш собеседник корчит рожу, которую шлет вам смайлом!

С тех пор утекло много воды, а я так и не повзрослел: все продолжаю иногда улыбаться присланным мне смайлам, представляя отправителя с глазами разного размера или дурацкой улыбкой на все лицо. Но не все так плохо, ведь с другой стороны я стал разработчиком и специалистом в анализе данных и машинном обучении! И вот, в прошлом году, мое внимание привлекла относительно новая, но интересная и будоражащая воображение технология глубокого обучения. Сотни умнейших ученых и крутейших инженеров планеты годами работали над его проблемами, и вот, наконец, обучать глубокие нейронные сети стало не сложнее "классических" методов, вроде обычных регрессий и деревянных ансамблей. И тут я вспомнил про смайлы!

Представьте, что чтобы отправить смайл, вы и вправду могли бы скорчить рожу, как бы было круто? Это отличное упражнение по глубокому обучению, решил я, и взялся за работу.
Читать полностью »

Это в средние века дипломатия была сплошной тайной «мадридского двора». В современном мире скрытые баталии депеш секретной почты дополнились громогласными информационными атаками: кто что разбомбил в Сирии, какая сторона не соблюдает перемирие на Украине, вернется ли формат консультаций НАТО-Россия и т.д. Новая эпоха выпячивает и новых народных героев, типа обожаемой многими (за многочисленные перлы устной дипломатии) Псаки.

Дипломатические цифровые потоки — всё на публику - 1

Логично, что новые форматы коммуникации дипломатических источников с обществом становятся предметом анализа. Приводим перевод добротной статьи по аналитике специализированных Twitter-каналов.

Читать полностью »

Привет! Видел на Хабре статьи посвященные учебным программам Udacity. Одну из таких программ я закончил и хотел бы поделиться своим опытом.

Я занимаюсь дистанционным обучением, а точнее — последние шесть лет сопровождаю корпоративный учебный портал и разрабатываю модули для него в достаточно крупной компании. Сам периодически учился на разных курсах от Coursera, edX, Udacity.

Около года назад Udacity запустило новый вид программ — Nanodegree. Хочу поделиться своим опытом обучения на одной из них. На тот момент выбор был между Front End и Data Analyst. Я выбрал второе. Тема новая, интересная и достаточно сложная. К тому же последнее время многие вещи, связанные с обработкой данных применял у себя на работе. Ну и после такого долгого периода работы с одним и тем же продуктом есть желание развиваться и пробовать себя в новой роли.
Читать полностью »

На платформе Coursera запускается специализация по анализу данных и машинному обучению от специалистов из Яндекс и МФТИ. Специализация состоит из 6 курсов, которые будут стартовать с февраля до июля. На первый можно записаться уже сейчас.

В основе обучения на курсах лежит решение реальных задач анализа данных. Но чтобы сделать специализацию максимально удобной для изучения, его создатели тоже решали задачи. И решили! В этом посте они сами рассказывают о результатах.

image

Читать полностью »

Как уменьшить количество измерений и извлечь из этого пользу - 1 Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать полностью »

Вступление

Cегодня мы вместе с анализом графов, data mining, subgroup discovery и всеми веселыми штуками взглянем на Хабр. Весь код и данные прилагаются — каждый может взглянуть на них самостоятельно, легко повторить рассчеты из статьи и найти что-то интересное самостоятельно.

Хабра-граф, -сообщества и куда же делась вся карма - 1
(это не просто картинка для привлечения внимания, а — граф связей ~45000 пользователей Хабра по тому, кто на кого подписан; размер вершины пропорционален числу подписчиков; все картинки кликабельны; подробности далее)

Обсуждаемые проблемы возникли, конечно же, далеко не вчера, но некоторые их аспекты кажутся мне достаточно новыми и поэтому достойными дискуссии, основанной на непредвзятых и репрезентативных данных. Например в комментариях этой статьи, увидел интересное утверждение:

Тут проблема в том, что на всем хабре за сегодня не насчитать больше 50-80 человек, которые вообще могут голосовать. У 90% пользователей карма просто ниже 5. Как итог оценивают комментарии и статьи только избранные. Это как жюри выходит такое.

И решил, что стоить его сформулировать в виде гипотезы и проверить:

Q1: Правда ли, что Хабр превратился в жюри-based сообщество, где два с половиной человека голосуют за статьи?

Вот в этой статье к нам вернулись "железные" Хабы и стало интересно, а как вообще представлены разные сообщества внутри Хабра? Формулируем в виде гипотезы:

Q2: Как сегментировано сообщество, или проще говоря сколько у нас здесь групп по интересам и соотвествуют ли они имеющимся хабам?

Последнее, но не менее интересное наблюдение, что активность на Хабре упала (по данным Хабра-пульса и моим субъективным наблюдениям), что даже решили ввести аккаунты "read & comment". Поэтому решил оценить активность сообщества и продумать, как информация о структуре сообщества может нам помочь:

Q3: Насколько активно сообщество и как нам может помочь структура внутренних групп?

За подробностями добро пожаловать под кат.

Структура статьи

Смирись, человек 21 века, что твой главный инструмент — это информация, данные, цифры и управление с их помощью. Сегодня мы делимся с вами очень полезным списком литературы о Data Science!

51 бесплатная книга о Data Science - 1Читать полностью »

image

Специалисты по обработке больших данных из Массачусетского технологического института описали успешный старт прототипа своей новой системы «Data Science Machine». Обучающаяся система искусственного интеллекта автоматически находит предсказуемые шаблоны в наборах данных. В конкурсе, где принимало участие более 900 команд, ИИ показал себя прекрасно, обойдя две трети участников.

Люди и ИИ принимали участие в трёх этапах конкурса. В двух из них точность выводов ИИ составила 95% от точности результата команды, занявшей первое место. В третьем – 87%. При этом у команд-участников расчёты результатов заняли несколько месяцев, а система управлялась с ними не более чем за 12 часов.

«Наша Data Science Machine – естественное дополнение для человеческого разума,- говорит Макс Кантер [Max Kanter], чья дипломная работа в MIT является одним из основных компонентов ИИ. – В мире есть столько разных данных. И сейчас они не приносят никакой пользы. Может быть, мы сможем сделать что-то, что позволит начать их обрабатывать и мы сдвинемся с мёртвой точки».
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js