Рубрика «машинное обучение» - 252

Машинное обучение — 2. Нелинейная регрессия и численная оптимизация

2015-03-10 в 9:22, admin, рубрики: mathcad, Блог компании Нерепетитор.ру, визуализация данных, конверсия сайтов, математика, машинное обучение, моделирование, модель конверсии, регрессия

Прошел месяц с появления моей первой статьи на Хабре и 20 дней с момента появления второй статьи про линейную регрессию. Статистика по просмотрам и целевым действиям аудитории копится, и именно она послужила отправной точкой для данной статьи. В ней мы коротко рассмотрим пример нелинейной регрессии (а именно, экспоненциальной) и с ее помощью построим модель конверсии, выделив среди пользователей две группы.

Когда известно, что случайная величина y зависит от чего-то (например, от времени или от другой случайной величины x) линейно, т.е. по закону y(x)= Ax+b, то применяется линейная регрессия (так в прошлой статье мы строили зависимость числа регистраций от числа просмотров). Для линейной регрессии коэффициенты A и b вычисляются по известным формулам. В случае регрессии другого вида, например, экспоненциальной, для того чтобы определить неизвестные параметры, необходимо решить соответствующую оптимизационную задачу: а именно, в рамках метода наименьших квадратов (МНК) задачу нахождения минимума суммы квадратов (y(x_i) — y_i)².

Итак, вот данные, которые будем использовать в качестве примера. Пики посещаемости (ряд Views, красный пунктир) приходятся на моменты выходя статей. Второй ряд данных (Regs, с множителем 100) показывает число читателей, выполнивших после прочтения определенное действие (регистрацию и скачивание Mathcad Express – с его помощью, к слову, вы сможете повторить все расчеты этой и предыдущих статей). Все картинки — это скриншоты Mathcad Express, а файл с расчетами вы можете взять здесь.
Машинное обучение — 2. Нелинейная регрессия и численная оптимизация - 1

Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)

2015-03-10 в 8:52, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Седьмая ежегодная Летняя школа Microsoft Research по машинному обучению и интеллекту — сотрудничество с ACM Europe

2015-03-06 в 11:57, admin, рубрики: machine learning, microsoft, Microsoft Azure, microsoft research, Алгоритмы, Блог компании Microsoft, летняя школа, машинное обучение, наука, школа

Привет!

Как мы писали ранее, 29 июля в Санкт-Петербурге в седьмой раз откроется ежегодная Летняя школа Microsoft Research по машинному обучению.
Обычно следующий за открывающим постом пост пишут, когда известны докладчики, но тут я не смог удержаться.

Седьмая ежегодная Летняя школа Microsoft Research по машинному обучению и интеллекту — сотрудничество с ACM Europe - 1

Читать полностью »

Поиск текстов, не соответствующих тематике и нахождение похожих статей

2015-03-05 в 19:49, admin, рубрики: java, Алгоритмы, детектор дубликатов, детектор спама, машинное обучение, Программирование, метки: детектор дубликатов, детектор спама, программирование

У меня есть сайт со статьями схожей тематики. На сайте было две проблемы: спамерские сообщения и дубликаты статей, причём дубликаты часто являлись не точными копиями.

Данный пост повествует о том, как я решил эти проблемы.

Дано:

общее количество статей 140 000;
количество спама: примерно 5%;
количество не чётких дубликатов: примерно 75%;

Задача: избавиться от спама и дубликатов, а так же не допустить их дальнейшего появления.

Поиск текстов, не соответствующих тематике и нахождение похожих статей - 1

Читать полностью »

Бонд. Джеймс Бонд. Роботизированная подделка почерка для маркетологов и социальных инженеров

2015-03-03 в 11:09, admin, рубрики: diy или сделай сам, информационная безопасность, каллиграфия, машинное обучение, письма, почерк, социальная инженерия, хакеры, школьное сочинение

Бонд. Джеймс Бонд. Роботизированная подделка почерка для маркетологов и социальных инженеров - 1

Маркетологи быстро выяснили, что в «системе принятия решений о доверии» есть уязвимость — люди охотнее доверяют рукописному тексту, чем печатному. Очень быстро появились рукописные шрифты и подписи в объявлениях/письмах, но они легко распознавались. Теперь же есть возможность автоматизированного написания «от руки» настоящей ручкой (даже перьевой), с учетом всех отступов, расстояний неровностей, несоблюдением пропорций, нажима и углом наклона (осталось следы от шоколадки и кофе автоматически эмулировать).

Там где баги с доверием, там и социальные инженеры тут как тут. Ныряние в мусорные корзины теперь будет приносить больше плодов. Можно будет набрать достаточный объем рукописного текста для подделки.

У сервиса Bond, который предоставляет услуги по отправке реальных писем, есть все шансы пройти «рукописный тест Тьюринга» (т.е. человек не сможет отличить, писал ли этот текст человек или робот).

Я часто говорил, что я достаточно знаю ИТ, чтобы не доверять ИТ, теперь же рухнуло и доверие к «реальным документам». Достаточно несколько школьных сочинений скормить нейронным сетям, чтобы они смогли писать за меня (и даже лучше чем я). Кстати, сервис Bond предоставляет услуги по улучшению/тьюнингу вашего почерка.

Итак, что же нам нужно, чтобы на нас оставили завещание?
Шаг первый. Создаем 3d принтер, который эмулирует письмо от руки
Шаг второй. Создаем самообучающуюся программу и скармливаем ей несколько листов рукописного текста ~~жертвы~~ клиента
Шаг третий. Profit

Под катом краткий обзор оборудования, примеры писем, знакомство с проетами Maillift (письма «от руки»), Bond (письма от руки и распознание и эмуляция почерка), Herald (как студенты свой принтер спаяли)
Бонд. Джеймс Бонд. Роботизированная подделка почерка для маркетологов и социальных инженеров - 2
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015)

2015-03-01 в 16:07, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Сделай сам: MSc Computer Science на уровне топ американских университетов из дома

2015-03-01 в 9:26, admin, рубрики: computer science, базы данных, искусственный интеллект, Компиляторы, магистратура, математика, машинное обучение, образование, Программирование, системное программирование, метки: программирование

Вступление

Давно хотел написать статью про образование в Computer Science, но руки не доходили. Решил все-таки это наконец сделать. Итак, о чем пойдет речь? Речь о том, что из себя представляет диплом MSc Computer Science топовых университетов США (во всех подробностях, включая основные курсы, книги и проекты) и как ему соответствовать.

Почему именно MSc? Это — некая развилка: с одной стороны после MSc — вы уже готовый к жизни инженер (да, речь идет о инженерной подготовке, как мне кажется это самое больное место в нашей системе образования), с другой — можно спокойно идти по пути PhD. Как известно, в PhD программу можно попасть и не особо умея программировать — особенно это касается теоретического Computer Science. С другой стороны найти работу программиста тоже дело не очень сложное, и часто не требует мощного образования. Но достигнув уровня MSc — вы получаете возможность разбираться как во всех новый идеях в Computer Science, так и возможность их воплотить в практику. То есть с одной стороны круто разобраться в каком-нибудь deep learning и сделать в нем что-то новое, а также взять и написать свою операционную систему (кто так сделал?). Причем вы не зажаты в рамки узкой специализации (если конечно продолжаете учиться). То есть вы теперь — универсальный солдат, готовый на все.

Надеюсь что эта статья будет полезна:
1. Студентам, которые хотят соответствовать высоким стандартам топ вузов США, или собирающиеся туда в аспирантуру по Computer Science
2. Профессионалам, которые хотят закрыть «дыры» и пробелы
3. Может кто-то из преподавателей возьмет на заметку для своих курсов.
4. Студентам, аспирантам американских вузов — хотелось бы тоже получить фидбэк, особенно касается последних трендов в образовании

Что же здесь будет написано? Минимум философии и общих мыслей: конкретная программа undergraduate и graduate курсов, конечно из дисциплин наиболее мне близких. Все курсы были лично прочувствованы на собственной шкуре, по этому и пишу. (Я пытался записаться на все интересные курсы, которые были, но мой основной упор — системное программирование, базы данных и искусственный интеллект. Отсюда конечно некий bias, но пытаюсь предложить более-менее универсальную программу).

Читать полностью »

Как мы готовим будущих специалистов по большим данным

2015-02-27 в 12:11, admin, рубрики: big data, BigData, data mining, data science, Hadoop, machine learning, nosql, Блог компании New Professions Lab, машинное обучение, метки: hadoop, it образование

В эту субботу стартует наша программа “Специалист по большим данным”: она получилась такой насыщенной, что, кажется, в ближайшие три месяца у слушателей не останется никакого свободного времени. В этом посте я расскажу, как именно мы будем растить специалистов по Big Data, и как будет построен процесс обучения во время первого месяца.

Как мы готовим будущих специалистов по большим данным - 1

Центральный кейс на этот период — создание DMP-системы. DMP (data management platform) анализирует интернет-логи пользователей и, исходя из их поведения в сети, присваивает этим людям различные свойства или причисляет к определенным классам. Например, правильно настроенная DMP-система может определить пол и возраст человека и узнать, является ли он гаджетоманом или, скажем, фанатом люксовых фешн-брендов. Этот кейс мы разрабатываем совместно с компанией Data-Centric Alliance, они используют большие данные для настройки рекламных кампаний.Читать полностью »

Обучение на больших данных: Spark MLlib

2015-02-26 в 13:53, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, анализ данных, Большие данные, машинное обучение, разработка

Привет!

В прошлый раз мы познакомились с инструментом Apache Spark, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, Large Scale Machine Learning. Сегодня мы рассмотрим подробнее библиотеку MlLib, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering, о котором мы говорили ранее, причем не один раз).
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 252

Машинное обучение — 2. Нелинейная регрессия и численная оптимизация

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)

Седьмая ежегодная Летняя школа Microsoft Research по машинному обучению и интеллекту — сотрудничество с ACM Europe

Поиск текстов, не соответствующих тематике и нахождение похожих статей

Бонд. Джеймс Бонд. Роботизированная подделка почерка для маркетологов и социальных инженеров

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015)

Сделай сам: MSc Computer Science на уровне топ американских университетов из дома

Вступление

Как мы готовим будущих специалистов по большим данным

Обучение на больших данных: Spark MLlib

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 252

Вступление

Новости

Актуальные темы

Архив