Рубрика «машинное обучение» - 187

Создаем Telegram бота на API.AI

2017-08-29 в 13:26, admin, рубрики: api, api.ai, Google API, telegram, telegram bots, машинное обучение

Чат боты — довольно интересная тема, которой интересуются как гики-энтузиасты,
так и компании, которые хотят организовать взаимодействие со своими клиентами
наиболее удобным для них способом

Сегодня я опишу вам простой пример создания бота Telegram с использованием
платформы для создания разговорных интерфейсов API.AI, который будет
приветствовать пользователя и отвечать на вопросы о погоде. По большей части я
следовал инструкциям с https://api.ai/docs/getting-started/basics, в реальной практике, можно не ограничиваться погодой и реализовать интерфейсы
для автоматизированной поддержки или продаж.

Читать полностью »

Текстонезависимая идентификация по голосу

2017-08-28 в 7:41, admin, рубрики: dsp, Matlab, mfcc, nnet, speaker identification, SVM, Алгоритмы, машинное обучение, Программирование

Я люблю истории про апокалипсис, про то, как нашу планету порабощают пришельцы, обезьяны или терминаторы, и с детства мечтал приблизить последний день человечества.

Однако, я не умею строить летающие тарелки или синтезировать вирусы, а потому речь пойдет про терминаторов, а точнее о том как этим трудягам помочь отыскать Джона Коннора.

Мой рукодельный терминатор будет несколько упрощён — он не сможет ходить, стрелять, говорить "I'll be back". Единственное на что он будет способен — распознать голос Коннора, ежели он его услышит (ну или, например, Черчилля, если его тоже надо будет найти).

Читать полностью »

Data Science: Про любовь, имена и не только

2017-08-25 в 11:42, admin, рубрики: big data, data mining, data science, love, sna, Большие данные, дата-майнинг, машинное обучение

Что значит имя? Роза пахнет розой,
Хоть розой назови ее, хоть нет.

Шекспир "Ромео и Джульетта" (пер. Пастернака)

Ромео и Джульетта

Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

В этой статье я расскажу о том, что несмотря на то, каким бы странным это не казалось для образованного человека, вероятность быть одинокой/одиноким зависит от имени человека. То есть, по сути, мы поговорим про любовь и отношения.

Это примерно все равно, что сказать: вероятность быть сбитым машиной, если тебя зовут Сережа, выше, чем если бы тебя звали Костя! Звучит довольно дико, не правда ли? Ну, как минимум, ненаучно. Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение.

Подробно мы рассмотрим только девушек, а про мужчин поговорим в самом конце. Более того, я не ставлю своей целью установить причину происходящего или даже выдвинуть какую-то сколько угодно серьезную гипотезу, а хочу лишь рассказать о своих наблюдениях и фактах, которые можно измерить.

Читать полностью »

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

2017-08-25 в 11:04, admin, рубрики: cnn, data mining, deep learning, image recognition, machine learning, ods, open data science, python, TensorFlow, Блог компании Open Data Science, гайд, глубокое обучение, машинное обучение, нейронные сети, обработка изображений, проект

Привет!

В последнее время машинное обучение и data science в целом приобретают все большую популярность. Постоянно появляются новые библиотеки и для тренировки моделей машинного обучения может потребоваться совсем немного кода. В такой ситуации можно забыть, что машинное обучение — не самоцель, а инструмент для решения какой-либо задачи. Мало сделать работающую модель, не менее важно качественно презентовать результаты анализа или сделать работающий продукт.

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих - 1

Я хотел бы рассказать о том, как создал проект по распознаванию рукописного ввода цифр с моделями, которые дообучаются на нарисованных пользователями цифрах. Используется две модели: простая нейронная сеть (FNN) на чистом numpy и сверточная сеть (CNN) на Tensorflow. Вы сможете узнать, как сделать практически с нуля следующее:

создать простой сайт с использованием Flask и Bootstrap;
разместить его на платформе Heroku;
реализовать сохранение и загрузку данных с помощью облака Amazon s3;
собрать собственный датасет;
натренировать модели машинного обучения (FNN и CNN);
сделать возможность дообучения этих моделей;
сделать сайт, который сможет распознавать нарисованные изображения;

Для полного понимания проекта желательно знать как работает deep learning для распознавания изображений, иметь базовые знания о Flask и немного разбираться в HTML, JS и CSS.

Читать полностью »

Как создать расистский ИИ, даже не пытаясь

2017-08-25 в 7:19, admin, рубрики: artificial intelligence, machine learning, microsoft, python, Блог компании Microsoft, искусственный интеллект, машинное обучение, Программирование

На днях, по мотивам очередной статьи, посвященной проблеме расизма в распознавании речи, я участвовала в большом споре о том, кто в этом виноват. Часть людей была уверена, что это заговор программистов. На самом деле, правда кроется в данных, которые ИИ использует для своего обучения. Я решила провести эксперимент, чтобы наглядно доказать это. Оказалось, что Роб Спир (Rob Speer) уже все сделал за меня.

Хочу поделиться с вами переводом его материала, который наглядно показывает, что даже самый дефолтный вариант ИИ будет насквозь пропитан расизмом. В первой статье мы проведем эксперимент, во второй попытаемся разобраться, как побороть то чудовище, которое мы породили.

Как создать расистский ИИ, даже не пытаясь - 1
Читать полностью »

Приглашаем на Moscow Data Science Meetup 1 сентября

2017-08-24 в 10:49, admin, рубрики: big data, BigData, data science, mail.ru, meetups, Moscow Data Science, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение

1 сентября мы рады пригласить вас на очередную встречу сообщества Moscow Data Science, где вы сможете обменяться практическим опытом решения задач анализа данных и пообщаться с единомышленниками. Для одного дня программа очень насыщенная, будет две секции докладов, а среди выступающих два докладчика из ближнего зарубежья. Также гостей митапа ждёт экскурсия по офису Mail.Ru Group и розыгрыш сувениров. Присоединяйтесь! Программа встречи под катом.
Читать полностью »

Случайный лес vs нейросети: кто лучше справится с задачей распознавания пола в речи (ч.2)

2017-08-24 в 8:41, admin, рубрики: neurodata lab, Блог компании Neurodata Lab, машинное обучение, нейронные сети

Первая часть нашего гайда была посвящена интересной задаче машинного обучения – распознаванию пола по голосу. Мы описали общий подход к большинству задач speech processing и с помощью случайного леса, обученного на статистиках акустических признаков, решили задачу с довольно большой точностью – 98,4% верно классифицированных аудиофрагментов.

Во второй части гайда мы посмотрим, справятся ли нейронные сети с этой задачей эффективнее случайного леса, а также попробуем учесть самый большой недостаток классических методов – неумение работать с последовательностями данных.

В каком-то смысле эта ступень избыточна: пол человека не меняется во время разговора (по крайней мере, на текущем этапе развития и в заданных стандартных условиях), поэтому рассчитывать на увеличение точности не стоит. Но в академических целях мы попробуем.

Читать полностью »

Машинное обучение: от Ирисов до Телекома

2017-08-23 в 14:18, admin, рубрики: big data, data mining, data science, Fisher's iris, machine learning, Peter-Service, python, telecom, Блог компании Петер-Сервис, машинное обучение

Машинное обучение: от Ирисов до Телекома - 1

Мобильные операторы, предоставляя разнообразные сервисы, накапливают огромное количество статистических данных. Я представляю отдел, реализующий систему управления трафиком абонентов, которая в процессе эксплуатации у оператора генерирует сотни гигабайт статистической информации в сутки. Меня заинтересовал вопрос: как в этих Больших Данных (Big Data) выявить максимум полезной информации? Не зря ведь одна из V в определении Big Data — это дополнительный доход.

Я взялся за эту задачу, не являясь специалистом в исследовании данных. Сразу возникла масса вопросов: какие технические средства использовать для анализа? На каком уровне достаточно знать математику, статистику? Какие методы машинного обучения надо знать и насколько глубоко? А может лучше для начала освоить специализированный язык для исследования данных R или Python?

Как показал мой опыт, для начального уровня исследования данных нужно совсем не много. Но мне для быстрого погружения не хватало простого примера, на котором наглядно был бы показан полный алгоритм исследования данных. В этой статье на примере Ирисов Фишера мы пройдем весь путь начального обучения, а далее применим полученное понимание к реальным данным оператора связи. Читатели, уже знакомые с исследованием данных, могут сразу переходить к главе, посвященной Телекому.
Читать полностью »

Kaggle Mercedes и кросс-валидация

2017-08-23 в 12:28, admin, рубрики: cross-validation, data mining, kaggle, Mercedes, Mercedes-Benz, python, scikit-learn, scipy, Блог компании Open Data Science, математика, машинное обучение

Всем привет, в этом посте я расскажу о том, как мне удалось занять 11 место в конкурсе от компании Мерседес на kaggle, который можно охарактеризовать как лидера по количеству участников и по эпичности shake-up. Здесь можно ознакомиться с моим решением, там же ссылка на github, здесь можно посмотреть презентацию моего решения в Yandex.

В этом посте пойдет речь о том, как студент консерватории попал в data science, стал призером двух подряд kaggle-соревнований, и каким образом методы математической статистики помогают не переобучиться на публичный лидерборд

Начну я с того, что немного расскажу о задаче и о том, почему я взялся ее решать. Должен сказать, что в data science я человек новый. Лет 7 назад я закончил Физический Факультет СПбГУ и с тех пор занимался тем, что получал музыкальное образование. Идея немного размять мозг и вернуться к техническим задачам впервые посетила меня примерно два года назад, на тот момент я уже работал в оркестре Московской Филармонии и учился на 3 курсе в Консерватории. Начал я с того, что вооружившись книгой Страуструпа стал осваивать C++. Далее были конечно же разные онлайн курсы и примерно год назад я стал склоняться к мысли о том, что Data Science — это пожалуй именно то, чем я хотел бы заниматься в IT. Мое “образование” в Data Science — это курс от Яндекса и Вышки на курсере, несколько курсов из специализации МФТИ на курсере и конечно же постоянное саморазвитие в соревнованиях.
Читать полностью »

Нейроаутентификация: введение в биометрическую аутентификацию

2017-08-22 в 18:57, admin, рубрики: deep learning, python, Алгоритмы, аутентификация, защита информации, информационная безопасность, искусственный интеллект, машинное обучение

Нейроаутентификация: введение в биометрическую аутентификацию - 1

Привет. Решил написать о применении нейронных сетей в совсем не традиционной для них сфере: аутентификация. Это лежит вне задач машинного обучения, и то от чего в ML пытаются избавиться — тут поощряется.

Минимум теории — максимум практики.

Заинтересовался? Тогда добро пожаловать под кат.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 187

Создаем Telegram бота на API.AI

Текстонезависимая идентификация по голосу

Data Science: Про любовь, имена и не только

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

Как создать расистский ИИ, даже не пытаясь

Приглашаем на Moscow Data Science Meetup 1 сентября

Случайный лес vs нейросети: кто лучше справится с задачей распознавания пола в речи (ч.2)

Машинное обучение: от Ирисов до Телекома

Kaggle Mercedes и кросс-валидация

Нейроаутентификация: введение в биометрическую аутентификацию

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 187

Новости

Актуальные темы

Архив