Рубрика «data mining» - 63

Анализируем как успешное трудоустройство и зарплата зависят от вуза, специальности и региона

2016-06-10 в 14:21, admin, рубрики: data mining, data science, ibs, анализ данных, аналитика, Блог компании IBS, визуализация, всё равно никто не читает теги, вузы, данные, образование, открытые данные, профессии, учебный процесс

Анализируем как успешное трудоустройство и зарплата зависят от вуза, специальности и региона - 1

Привет!

В 2014 году мы совместно с несколькими министерствами и ведомствами дали старт мониторингу трудоустройства российских вузов, результаты которого были опубликованы в 2015 году на портале http://graduate.edu.ru/.

Мониторинг проводился среди выпускников 2013 года (у них было достаточно времени, чтобы найти работу). Сейчас идет работа над мониторингом выпускников 2014 года и мы решили рассказать вам о целях и результатах прошлогоднего проекта. Если вам интересно узнать, как размер зарплаты и успех трудоустройства зависит от вуза, специальности и региона, добро пожаловать под кат.
Читать полностью »

Курс молодого бойца для Spark-Scala

2016-06-07 в 13:50, admin, рубрики: big data, data mining, data science, Hadoop, scala, spark, Блог компании Retail Rocket, машинное обучение

Команда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.

Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.

Читать полностью »

Как программист машину покупал

2016-06-07 в 8:57, admin, рубрики: data mining, linear regression, predictive analytics, R, R-project, машинное обучение, покупка автомобиля

Недавно я озадачился поиском б.у. автомобиля, взамен только что проданного, и, как это обычно бывает, на эту роль претендовали несколько конкурентов.

Как известно, для покупки авто на территории РФ существует несколько крупных авторитетных сайтов (auto.ru, drom.ru, avito.ru), поиску на которых я и отдал предпочтение. Моим требованиям отвечали сотни, а для некоторых моделей и тысячи, автомобилей, с перечисленных выше сайтов. Помимо того, что искать на нескольких ресурсах неудобно, так еще, прежде чем ехать смотреть авто “вживую”, я хотел бы отобрать выгодные (цена которых относительно рынка занижена) предложения по априорной информации которую предоставляет каждый из ресурсов. Я, конечно, очень хотел решить несколько переопределенных систем алгебраических уравнений (возможно и нелинейных) высокой размерности вручную, но пересилил себя, и решил этот процесс автоматизировать.
Читать полностью »

Лучшие пакеты для работы с данными в R, часть 2

2016-06-06 в 10:24, admin, рубрики: data mining, R, Блог компании Инфопульс Украина

Есть два отличных пакета для работы с данными в R — dplyr и data.table. У каждого пакета свои сильные стороны. dplyr элегантнее и похож на естественный язык, в то время как data.table лаконичный, с его помощью многое можно сделать всего в одну строку. Более того, в некоторых случаях data.table быстрее (сравнительный анализ доступен здесь), и это может определить выбор, если есть ограничения по памяти или производительности. Сравнение dplyr и data.table можно также почитать на Stack Overflow и Quora.

Здесь можно найти руководство и краткое описание data.table, а здесь — для dplyr. Также можно почитать обучающие материалы по dplyr на DataScience+.

В первой части: начало работы с данными, выбор, удаление и переименование столбцов.
Читать полностью »

Наблюдаем за пользователем – два типа timestamp

2016-06-06 в 5:55, admin, рубрики: big data, data engineering, data mining, timestamp, Администрирование баз данных, метки времени, хранение данных, метки: data engineering, timestamp, метки времени

Давным-давно, один специалист по базам данных (из тех, бородатых и уже седых) сказал мне, что метки времени (timestamp) — это самая сложная тема в базах данных. Я ему, правда, не поверил, но приколы со временем реально встречаются.

Есть стандартная проблема, которую часто вижу в чужих данных. Положим собрались вы отслеживать события/действия пользователя. Обычно у вас будет это делать некий код (JS в вебе или SDK для аппов), который будет слать данные серверу.

Каждому событию нужна метка времени. И есть выбор из двух: локальное время на клиенте или время получения события сервером. Один хороший совет что делать и загадка без ответа под катом Читать полностью »

World of Tanks: от чего же зависит винрейт танков?

2016-06-03 в 10:57, admin, рубрики: data analysis, data mining, pandas, python, world of tanks, визуализация данных, статистика

Сегодня мы поговорим об использовании Wargaming API, построим много графиков и проанализируем, от чего же зависит винрейт танков. Сразу хочу отметить, что я не гуру World of Tanks, и если я где-то ошибся, то напишите пожалуйста в комментариях.

Читать полностью »

Как использовать Python для «выпаса» ваших неструктурированных данных

2016-06-03 в 9:17, admin, рубрики: classification, data mining, python, web scraping, Блог компании Издательский дом «Питер», книги, Программирование, Профессиональная литература

Здравствуйте, уважаемые читатели.

В последнее время мы прорабатываем самые разные темы, связанные с языком Python, в том числе, проблемы извлечения и анализа данных. Например, нас заинтересовала книга «Data Wrangling with Python: Tips and Tools to Make Your Life Easier»:

Как использовать Python для «выпаса» ваших неструктурированных данных - 1

Поэтому если вы еще не знаете, что такое скрепинг, извлечение неструктурированных данных, и как привести хаос в порядок, предлагаем почитать перевод интересной статьи Пита Тамисина (Pete Tamisin), рассказывающего, как это делается на Python. Поскольку статья открывает целую серию постов автора, а мы решили пока ограничиться только ею, текст немного сокращен.

Если кто-то сам мечтает подготовить и издать книгу на эту тему — пишите, обсудим.

Читать полностью »

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

2016-05-31 в 14:17, admin, рубрики: data mining, Алгоритмы, Блог компании MeanoTek, машинное обучение, нейронные сети, обработка естественного языка, обработка текстов, Семантика, метки: Машинное обучение

Некоторое время назад к нам обратился представитель банка АО «Банк ЦентрКредит» (Казахстан) с интересной задачей. Необходимо было интегрировать в конвейер обработки данных, представляющих из себя текст на естественном языке, дополнительный инструмент обработки. Всех деталей проекта мы раскрывать не можем, так как он находится в сфере безопасности банка и разрабатывается его службой безопасности. В освещении технологических аспектов задачи и способов их реализации заказчик не был против, что собственно мы и хотим сделать в рамках данной статьи.

В целом задача, состояла в извлечении некоторых сущностей из большого массива текстов. Не сильно отличающаяся проблема от классической задачи извлечения именованных сущностей, с одной стороны. Но определения сущностей отличались от обычных и тексты были довольно специфическими, а сроку на решение проблемы было две недели.
Читать полностью »

Лучшие пакеты для работы с данными в R, часть 1

2016-05-30 в 5:03, admin, рубрики: data mining, R, Блог компании Инфопульс Украина

Здесь можно найти руководство и краткое описание data.table, а здесь — для dplyr. Также можно почитать обучающие материалы по dplyr на DataScience+.
Читать полностью »

Отпуск по-программистски, или как я не поучаствовал в конкурсе по программированию на JS. Часть первая

2016-05-28 в 3:56, admin, рубрики: data mining, javascript, JS, mining, neural networks, python, sql, Алгоритмы, Блог компании Асинхронный офлайн браузер «Мегалента»

Создание и поддержка в одиночку сложного продукта с большим зоопарком технологий и без финансовых вливаний со стороны — дело хлопотное и утомительное. Поэтому, узнав про конкурс с интересной задачей, ~~мы в Мегаленте~~ я подумал о том, чтобы устроить себе "творческий отпуск" и отвлечься ненадолго от работы над новой версией.

Задача состояла в том, чтобы написать программу на JS, которая будет определять, есть слово с словаре английских слов или нет. Вроде бы просто, но есть пара ограничений, делающих задачу заведомо невыполнимой:
– Словом считается не просто любое правильное слово английского языка, а именно слово, которое есть в предоставленном словаре из 600K+ слов.
– Словаря в момент исполнения программы нет, скачать его нельзя, а размер программы, включая данные, не должен превышать 64К. Внешние библиотеки подключать также нельзя, но файл данных может быть заархивирован.
Благодаря этим условиям вместо однозначного ответа результатом может быть только определение наибольшей вероятности присутствия слова в словаре.

Сразу скажу, что решение я так и не отправил из-за неудовлетворённостью результатом (решение, которое давало хотя бы 80%, я смог поместить только в 120-130К, а без превышения размера в 64К выжал максимум 70%).
Тем не менее опыт считаю достаточно интересным и достойным статьи. Под катом много SQL,JS,Python, нейронные сети, а также печальная правда о производительности CPU на хостинге.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 63

Анализируем как успешное трудоустройство и зарплата зависят от вуза, специальности и региона

Курс молодого бойца для Spark-Scala

Как программист машину покупал

Лучшие пакеты для работы с данными в R, часть 2

Наблюдаем за пользователем – два типа timestamp

World of Tanks: от чего же зависит винрейт танков?

Как использовать Python для «выпаса» ваших неструктурированных данных

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

Лучшие пакеты для работы с данными в R, часть 1

Отпуск по-программистски, или как я не поучаствовал в конкурсе по программированию на JS. Часть первая

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 63

Новости

Актуальные темы

Архив