Рубрика «data mining» - 14

Визуализация больших графов для самых маленьких

2019-09-04 в 11:04, admin, рубрики: data mining, embeddings, graph, network, visualization, Блог компании Open Data Science, большие графы, визуализация, визуализация данных, графы, искусственный интеллект, машинное обучение

Визуализация больших графов для самых маленьких - 1
Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать полностью »

Полезная help-ссылка для работы с данными

2019-09-03 в 7:17, admin, рубрики: big data, data mining, python, R, анализ данных, Блог компании Mail.Ru Group, математика, машинное обучение, статистика

Хабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.

Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.

Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои самые полезные ссылки, самые крутые из них я добавлю к себе в файл.

Читать полностью »

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

2019-09-01 в 14:31, admin, рубрики: data mining, data science, python, анализ данных, визуализация данных, данные, зарплаты, статистика, Статистика в IT

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

Препроцессинг данных и предварительный анализ (кому интересно код тут)
Графическое представление данных. Функция плотности распределения.
Формулируем нулевую гипотезу (H0) (2)
Выбираем метрику для анализа
Используем метод bootstraping для формирования нового массива данных
Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA)

2019-08-29 в 14:28, admin, рубрики: Analysis Services, big data, data mining, Excel, Microsoft SQL Server, office, olap, olap-кубы, pivot tables, sql server, ssas, vba, кубы, макрос, надстройка, расширение, сводные таблицы

Как известно, из коробки Excel не позволяет устанавливать фильтры по списку значений для сводных таблиц, а это ведь такая нужная вещь! Как отфильтровать товары по сотне кодов, а потом по другой сотне? Есть, конечно, способы, но все это не то…

Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA) - 1 Или, например, установить для куба фильтр по измерению с датами, но не проставлять галочки на каждом дне/месяце/годе, а задать диапазон С… ПО ....

Еще достаточно часто требуются установки периодов по фиксированным шаблонам, типа текущий день/месяц/год. Для этих целей можно добавить наборы (в многомерной модели куба) или добавить специальные атрибуты в измерение (это не очень удобно, но в табличной модели куба наборов нет).

Мы запилили на VBA расширение, добавляющее на ленту панель Инструменты куба с волшебными кнопочками.
Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA) - 2
Читать полностью »

Как я построила прогнозную модель call-центра, чтобы их звонки не бесили пользователей

2019-08-28 в 11:48, admin, рубрики: data mining, автоматизация колл-центра, Алгоритмы, Блог компании Skyeng, Исследования и прогнозы в IT, Повышение конверсии, прогноз конверсии, прогноз региона, прогноз часового пояса

Ничто так не раздражает, как заставший врасплох телефонный звонок с неизвестного номера. В наш век мессенджеров и общения перепиской зловеще мерцающий на экране смартфона незнакомый номер телефона может стать причиной как минимум небольшого волнения. Вдвойне бесит, когда звонок поступает не только внезапно (вот такие они, эти звонки), но еще и в неудобное для тебя время. Например, когда ты еще толком не успел проснуться или наоборот, уже вовсю заглядываешься на такую манящую после долгого дня постель. Какие-то деловые звонки по выходным, после девяти вечера или ночью — вообще за гранью добра и зла.

Как я построила прогнозную модель call-центра, чтобы их звонки не бесили пользователей - 1

Кстати, обо мне. Меня зовут Наташа, я работаю в Skyeng на позиции Data Scientist и вовлечена в разработку различных продуктов компании. Почему я заговорила о внезапных звонках? Общение голосом с клиентам, которые только хотят начать или по какой-то причине резко прервали обучение — часть модели работы в компании. Звонки помогают вовлечь и вернуть людей в процесс изучения языка, либо напрямую узнать, что же пошло не так. Одна из моих последних задач — анализ работы нашего колл-центра. Я помогла им подобрать оптимальное время для выхода на контакт со студентами по всей России и СНГ: потому что звонки в случайное время суток никто не любит, а бесить собственных пользователей — последнее дело.

Настроение людей в ходе таких звонков для нас крайне важно, потому что оно напрямую влияет на конверсию. Так что давайте я расскажу подробнее о том, как Skyeng звонит студентам и какую прогнозную модель я построила для того, чтобы нашим клиентам было хорошо и комфортно, а мы вышли на показатели конверсии в 60-70%.
Читать полностью »

Что будет на конференции UseData Conf 2019?

2019-08-27 в 14:37, admin, рубрики: data mining, usedataconf, Алгоритмы, Блог компании Конференции Олега Бунина (Онтико), искусственный интеллект, машинное обучение, машинное обучение. нейросети

Ура! Мы завершили формирование программы конференции UseData Conf 2019! Эта конференция для тех, кто решает практические задачи с помощью методов машинного обучения. Между идеальным алгоритмом в вакууме и его применением на реальных данных часто лежит пропасть. Мы хотим, чтобы те, кто умеет преодолевать эту пропасть, встретились и смогли обменяться опытом.

Что будет на конференции UseData Conf 2019? - 1

Магия машинного обучения для управленцев, истории применения ML для анализа эффективности рекламы в телевизоре, беспилотные игрушечные машинки, нефть и автомобильные номера — это лишь часть докладов на UseData 2019. Об этих и других темах подробнее под катом.
Читать полностью »

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень

2019-08-26 в 14:38, admin, рубрики: big data, data engineering, data mining, data science, mashine learning, Блог компании Plarium, Карьера в IT-индустрии, карьера в ИТ, машинное обучение, навыки и умения, прокачка, статистическое моделирование

Перед вами перевод статьи Genevieve Hayes, Data Scientist с 15-летним опытом работы. Автор рассказывает о том, какие навыки стоит развивать, чтобы значительно увеличить шансы найти работу в Data Science. Чтобы определить эти навыки, она проанализировала 100 вакансий, размещенных работодателями из Австралии, Канады, Великобритании и США.

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень - 1 Читать полностью »

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только

2019-08-26 в 13:36, admin, рубрики: algorithms, Apache Spark, big data, data mining, data structures, graphs, Алгоритмы, Блог компании Одноклассники, машинное обучение

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только - 1

Одним из самых ценных ресурсов любой социальной сети является "граф дружб" — именно по связям в этом графе распространяется информация, к пользователям поступает интересный контент, а к авторам контента конструктивный фидбэк. При этом граф является еще и важным источником информации, позволяющим лучше понять пользователя и непрерывно совершенствовать сервис. Однако в тех случаях когда граф разрастается, технически извлекать из него информацию становится все сложнее и сложнее. В данной статье мы поговорим о некоторых трюках, используемых для обработки больших графов в OK.ru.

Читать полностью »

Напиши свою песню за 10 минут (модуль textgenrnn Python3)

2019-08-26 в 13:28, admin, рубрики: data mining, machine learning, python, python3

Напиши свою песню за 10 минут (модуль textgenrnn Python3) - 1

Сегодня попробуем обучить свою собственную нейронную сеть, чтобы писала текст для песен. Обучающей выборкой будут тексты группы "Руки Вверх". Ничто не мешает чтобы поменять данные на тексты своих любимых групп. Для извлечения данных с веб-сайтов используем Python3 (модуль BeautifulSoup).

Задача будет состоять в том, чтобы выгрузить данные(тексты) c веб-сайтов а потом на их основе обучить нейронную сеть.

На самом деле, можно разбить работу на 2 этапа:
Этап 1: выгрузить и сохранить тексты песни в удобном формате.
Этап 2: обучить свою собственную нейронную сеть.

Читать полностью »

Web scraping на R, часть 2. Ускорение процесса с помощью параллельных вычислений и использование пакета Rcrawler

2019-08-26 в 6:46, admin, рубрики: data mining, parallel programming, R, scraping, параллельное программирование

Web scraping на R, часть 2. Ускорение процесса с помощью параллельных вычислений и использование пакета Rcrawler - 1

В прошлой статье я с помощью скрэпинга-парсинга собрал с сайтов IMDB и Кинопоиск оценки фильмов и сравнил их. Репозиторий на Github.

Код неплохо справился со своей задачей, однако скрэпинг часто используют для "соскабливания" не пары-тройки страниц, а пары-тройки тысяч и для такого "большого" скрэпинга код из прошлой статьи не подходит. Точнее будет сказать не оптимален. В принципе, Вам практически ничего не мешает его использовать для задач обхода тысяч страниц. Практически, потому что столько времени у Вас просто нет Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 14

Визуализация больших графов для самых маленьких

Полезная help-ссылка для работы с данными

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

Этапы анализа

Препроцессинг данных

Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA)

Как я построила прогнозную модель call-центра, чтобы их звонки не бесили пользователей

Что будет на конференции UseData Conf 2019?

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только

Напиши свою песню за 10 минут (модуль textgenrnn Python3)

Web scraping на R, часть 2. Ускорение процесса с помощью параллельных вычислений и использование пакета Rcrawler