Рубрика «big data» - 51

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

2018-06-19 в 20:12, admin, рубрики: big data, data mining, kaggle, LightGBM, python, scikit-learn, машинное обучение, перевод

На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели - 1
Читать полностью »

Как мы переводим 36 млн клиентов на цифровой сервис техподдержки

2018-06-19 в 13:56, admin, рубрики: big data, service desk, Блог компании Ростелеком, Омничат, поддержка, Ростелеком, Системы обмена сообщениями, Статистика в IT

Мы в «Ростелекоме» давно задумывались о том, чтобы переводить голосовой клиентский сервис в digital-каналы текстового общения. Для небольших компаний задача выглядит несложно, но когда речь идет о службе из сотен, а в перспективе даже тысяч операторов поддержки, есть над чем задуматься. В этом посте мы расскажем, какое решение для этого нашли, что оно вообще собой представляет и позволяет делать. Спойлер: много чего.

Как мы переводим 36 млн клиентов на цифровой сервис техподдержки - 1
Читать полностью »

GNMT, epic fail или тонкости машинного перевода

2018-06-18 в 18:11, admin, рубрики: big data, data mining, ebmt, epic fail, Google API, Google Translate, nmt, искусственный интеллект, машинное обучение

После прочтения статьи "Нейронный машинный перевод Google" вспомнился курсирующий последнее время в интернет очередной epic-fail машинного перевода от Google. Кому сильно не терпится сразу мотаем в низ статьи.

Ну а для начала немного теории:

GNMT есть система нейронного машинного перевода (NMT) компании Google, которая использует нейросеть (ANN) для повышения точности и скорости перевода, и в частности для создания лучших, более естественных вариантов перевода текста в Google Translate.

В случае GNMT речь идет о так называемом методе перевода на основе примеров (EBMT), т.е. ANN, лежащая в основе метода, обучается на миллионах примеров перевода, причем в отличии от других систем этот метод позволяет выполнять так называемый zero-shot перевод, т. е. переводить с одного языка на другой, не имея явные примеры для этой пары конкретных языков в процессе обучения (в обучающей выборке).

Image 1. Zero-Shot Translation
^{Рис. 1. Zero-Shot Translation}
Читать полностью »

Нейронный машинный перевод Google

2018-06-17 в 14:21, admin, рубрики: big data, машинное обучение, машинный перевод, нейронные сети, переводчик

Отчет написан в декабре 2017.

It's not who has the best algorithm that wins. It's who has the most data. Побеждает не тот, у кого лучше алгоритм, а тот, у кого больше данных. Эндрю Нг, преподаватель курса по машинному обучению на Coursera.

If you scale up both the size of the model and the amount of data you train it with, you can learn finer distinctions or more complex features. …These models can typically take a lot more context. Jeff Dean, an engineer helping lead the research at Google. Если увеличить размер модели и дать ей больше данных для обучения, она начнет различать более тонкие и сложные особенности. …Эти модели обычно воспринимают более широкий контекст. Джеф Дин, инженер, помогающий в управлении исследованиями в Google.

Я тестировала Google Translate на одних и тех же текстах в марте и декабре 2011, январе 2016 и декабре 2017 года. Брала одни и те же отрывки на английском, русском, немецком, французском, украинском и польском языках и переводила каждый на остальные пять языков из выборки. Кроме того, в декабре 2017 дополнительно взяла новые тексты и протестировала во всех направлениях перевода. Результаты cross-verification в целом совпали с тенденциями в первоначальной выборке. В итоге получился срез работы переводчика Google за 2011 — 2017 годы, и на основе этих материалов можно сделать выводы об эволюции сервиса и прокомментировать маркетинговые заявления компании (цитаты планируется опубликовать отдельно).Читать полностью »

Великобритания потратила £6 млн на data scientist’ов

2018-06-16 в 17:34, admin, рубрики: big data, data scientist, Блог компании ИТ-ГРАД, британские ученые, Исследования и прогнозы в IT, ИТ-ГРАД

В мае 2018 года коллектив британских ученых провел тематическое исследование и выяснил, что траты на data scientist’ов (или экспертов по аналитическим данным) в Великобритании значительно увеличились. Мы решили разобраться в ситуации и дать краткий обзор.

Читать полностью »

Как мы просканировали весь интернет и что мы узнали

2018-06-14 в 7:27, admin, рубрики: big data, data mining, интернет, исследование, Исследования и прогнозы в IT

Сколько сайтов вы используете ежедневно? Пару социальных сетей, поисковик, несколько любимых издательств, около 5 рабочих сервисов. Пожалуй, вряд ли наберется более 20 сайтов.

Как мы просканировали весь интернет и что мы узнали - 1

А задумывались ли вы сколько сайтов в интернете и что с ними происходит?
Читать полностью »

Как определить объем ваших логов?

2018-06-09 в 7:12, admin, рубрики: big data, Cisco, Palo Alto, splunk, syslog, wineventlog, Блог компании TS Solution, информационная безопасность, логи, Серверное администрирование, системное администрирование

Добрый день!

Сегодня мы рассмотрим распространённый вопрос, с которым сталкиваются все, кто обрабатывает логи или собирается это делать и сейчас приценивается к различным решениям по обработке и хранению. Какой же объем логов в день/неделю/месяц мы будем получать из различных систем и какие ресурсы по хранению мы должны задействовать?
Однозначно точно сказать довольно сложно, но мы попробуем помочь вам примерно разобраться с предполагаемыми объемами, основываясь на нашем опыте.
Читать полностью »

Как создать свой датасет с Киркоровым и Фейсом на Яндекс Толоке

2018-06-07 в 11:00, admin, рубрики: big data, data mining, Блог компании Open Data Science, искусственный интеллект, краудсорсинг, машинное обучение, обработка изображений, толока

Как создать свой датасет с Киркоровым и Фейсом на Яндекс Толоке - 1
Нейронными сетями уже никого не удивишь. Практически каждый человек знает, что такое машинное обучение, линейная регрессия, random forest. Каждый год тысячи людей проходят курсы по машинному обучению на ODS и Coursera. Любой школьник за пару недель теперь может освоить keras и клепать нейроночки. Но в нейронных сетях, как и во всем машинном обучении, помимо создания хорошего алгоритма, необходимы данные, на которых алгоритм будет обучаться.

Читать полностью »

Oh, My Code: Машинное обучение и аналитика в «Одноклассниках»

2018-06-06 в 8:46, admin, рубрики: big data, data mining, machine learning, oh my code, Блог компании Одноклассники, машинное обучение, Социальные сети и сообщества

Oh, My Code: Машинное обучение и аналитика в «Одноклассниках» - 1

В чём разница между Machine Learning и анализом данных, кто сидит в «Одноклассниках» и как начать свой путь в машинном обучении — об этом мы беседуем в двенадцатом выпуске ток-шоу для программистов.

Видео на канале Технострим

Ведущий программы — технический директор медиапроектов Павел Щербинин, гость — инженер-аналитик «Одноклассников» Дмитрий Бугайченко.
Читать полностью »

Как машины анализируют большие данные: введение в алгоритмы кластеризации

2018-06-05 в 7:41, admin, рубрики: big data, Алгоритмы, Блог компании NIX Solutions, Большие данные, машинное обучение

Как машины анализируют большие данные: введение в алгоритмы кластеризации - 1

Перевод How Machines Make Sense of Big Data: an Introduction to Clustering Algorithms.

Взгляните на картинку ниже. Это коллекция насекомых (улитки не насекомые, но не будем придираться) разных форм и размеров. А теперь разделите их на несколько групп по степени похожести. Никакого подвоха. Начните с группирования пауков.

Как машины анализируют большие данные: введение в алгоритмы кластеризации - 2
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 51

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

Как мы переводим 36 млн клиентов на цифровой сервис техподдержки

GNMT, epic fail или тонкости машинного перевода

Ну а для начала немного теории:

Нейронный машинный перевод Google

Великобритания потратила £6 млн на data scientist’ов

Как мы просканировали весь интернет и что мы узнали

Как определить объем ваших логов?

Как создать свой датасет с Киркоровым и Фейсом на Яндекс Толоке

Oh, My Code: Машинное обучение и аналитика в «Одноклассниках»

Как машины анализируют большие данные: введение в алгоритмы кластеризации

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 51

Ну а для начала немного теории:

Новости

Актуальные темы

Архив