На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.
Рубрика «big data» - 51
Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели
2018-06-19 в 20:12, admin, рубрики: big data, data mining, kaggle, LightGBM, python, scikit-learn, машинное обучение, переводКак мы переводим 36 млн клиентов на цифровой сервис техподдержки
2018-06-19 в 13:56, admin, рубрики: big data, service desk, Блог компании Ростелеком, Омничат, поддержка, Ростелеком, Системы обмена сообщениями, Статистика в ITМы в «Ростелекоме» давно задумывались о том, чтобы переводить голосовой клиентский сервис в digital-каналы текстового общения. Для небольших компаний задача выглядит несложно, но когда речь идет о службе из сотен, а в перспективе даже тысяч операторов поддержки, есть над чем задуматься. В этом посте мы расскажем, какое решение для этого нашли, что оно вообще собой представляет и позволяет делать. Спойлер: много чего.
GNMT, epic fail или тонкости машинного перевода
2018-06-18 в 18:11, admin, рубрики: big data, data mining, ebmt, epic fail, Google API, Google Translate, nmt, искусственный интеллект, машинное обучениеПосле прочтения статьи "Нейронный машинный перевод Google" вспомнился курсирующий последнее время в интернет очередной epic-fail машинного перевода от Google. Кому сильно не терпится сразу мотаем в низ статьи.
Ну а для начала немного теории:
GNMT есть система нейронного машинного перевода (NMT) компании Google, которая использует нейросеть (ANN) для повышения точности и скорости перевода, и в частности для создания лучших, более естественных вариантов перевода текста в Google Translate.
В случае GNMT речь идет о так называемом методе перевода на основе примеров (EBMT), т.е. ANN, лежащая в основе метода, обучается на миллионах примеров перевода, причем в отличии от других систем этот метод позволяет выполнять так называемый zero-shot перевод, т. е. переводить с одного языка на другой, не имея явные примеры для этой пары конкретных языков в процессе обучения (в обучающей выборке).
Рис. 1. Zero-Shot Translation
Читать полностью »
Нейронный машинный перевод Google
2018-06-17 в 14:21, admin, рубрики: big data, машинное обучение, машинный перевод, нейронные сети, переводчикОтчет написан в декабре 2017.
It's not who has the best algorithm that wins. It's who has the most data. Побеждает не тот, у кого лучше алгоритм, а тот, у кого больше данных. Эндрю Нг, преподаватель курса по машинному обучению на Coursera.
If you scale up both the size of the model and the amount of data you train it with, you can learn finer distinctions or more complex features. …These models can typically take a lot more context. Jeff Dean, an engineer helping lead the research at Google. Если увеличить размер модели и дать ей больше данных для обучения, она начнет различать более тонкие и сложные особенности. …Эти модели обычно воспринимают более широкий контекст. Джеф Дин, инженер, помогающий в управлении исследованиями в Google.
Я тестировала Google Translate на одних и тех же текстах в марте и декабре 2011, январе 2016 и декабре 2017 года. Брала одни и те же отрывки на английском, русском, немецком, французском, украинском и польском языках и переводила каждый на остальные пять языков из выборки. Кроме того, в декабре 2017 дополнительно взяла новые тексты и протестировала во всех направлениях перевода. Результаты cross-verification в целом совпали с тенденциями в первоначальной выборке. В итоге получился срез работы переводчика Google за 2011 — 2017 годы, и на основе этих материалов можно сделать выводы об эволюции сервиса и прокомментировать маркетинговые заявления компании (цитаты планируется опубликовать отдельно).Читать полностью »
Великобритания потратила £6 млн на data scientist’ов
2018-06-16 в 17:34, admin, рубрики: big data, data scientist, Блог компании ИТ-ГРАД, британские ученые, Исследования и прогнозы в IT, ИТ-ГРАДВ мае 2018 года коллектив британских ученых провел тематическое исследование и выяснил, что траты на data scientist’ов (или экспертов по аналитическим данным) в Великобритании значительно увеличились. Мы решили разобраться в ситуации и дать краткий обзор.
Как мы просканировали весь интернет и что мы узнали
2018-06-14 в 7:27, admin, рубрики: big data, data mining, интернет, исследование, Исследования и прогнозы в ITСколько сайтов вы используете ежедневно? Пару социальных сетей, поисковик, несколько любимых издательств, около 5 рабочих сервисов. Пожалуй, вряд ли наберется более 20 сайтов.
А задумывались ли вы сколько сайтов в интернете и что с ними происходит?
Читать полностью »
Как определить объем ваших логов?
2018-06-09 в 7:12, admin, рубрики: big data, Cisco, Palo Alto, splunk, syslog, wineventlog, Блог компании TS Solution, информационная безопасность, логи, Серверное администрирование, системное администрированиеДобрый день!
Сегодня мы рассмотрим распространённый вопрос, с которым сталкиваются все, кто обрабатывает логи или собирается это делать и сейчас приценивается к различным решениям по обработке и хранению. Какой же объем логов в день/неделю/месяц мы будем получать из различных систем и какие ресурсы по хранению мы должны задействовать?
Однозначно точно сказать довольно сложно, но мы попробуем помочь вам примерно разобраться с предполагаемыми объемами, основываясь на нашем опыте.
Читать полностью »
Как создать свой датасет с Киркоровым и Фейсом на Яндекс Толоке
2018-06-07 в 11:00, admin, рубрики: big data, data mining, Блог компании Open Data Science, искусственный интеллект, краудсорсинг, машинное обучение, обработка изображений, толока
Нейронными сетями уже никого не удивишь. Практически каждый человек знает, что такое машинное обучение, линейная регрессия, random forest. Каждый год тысячи людей проходят курсы по машинному обучению на ODS и Coursera. Любой школьник за пару недель теперь может освоить keras и клепать нейроночки. Но в нейронных сетях, как и во всем машинном обучении, помимо создания хорошего алгоритма, необходимы данные, на которых алгоритм будет обучаться.
Oh, My Code: Машинное обучение и аналитика в «Одноклассниках»
2018-06-06 в 8:46, admin, рубрики: big data, data mining, machine learning, oh my code, Блог компании Одноклассники, машинное обучение, Социальные сети и сообщества
В чём разница между Machine Learning и анализом данных, кто сидит в «Одноклассниках» и как начать свой путь в машинном обучении — об этом мы беседуем в двенадцатом выпуске ток-шоу для программистов.
Ведущий программы — технический директор медиапроектов Павел Щербинин, гость — инженер-аналитик «Одноклассников» Дмитрий Бугайченко.
Читать полностью »
Как машины анализируют большие данные: введение в алгоритмы кластеризации
2018-06-05 в 7:41, admin, рубрики: big data, Алгоритмы, Блог компании NIX Solutions, Большие данные, машинное обучение
Перевод How Machines Make Sense of Big Data: an Introduction to Clustering Algorithms.
Взгляните на картинку ниже. Это коллекция насекомых (улитки не насекомые, но не будем придираться) разных форм и размеров. А теперь разделите их на несколько групп по степени похожести. Никакого подвоха. Начните с группирования пауков.