В рамках реализации большой задачи по Sentiment Analysis (анализ отзывов) я решил уделить некоторое время дополнительному изучению её отдельного элемента — использованию VotingClassifier из модуля sklearn.ensemble как инструмента для построения ансамбля моделей классификации и повышению итогового качества предсказаний. Почему это важно и какие есть нюансы?
Читать полностью »
Рубрика «анализ данных» - 12
VotingClassifier в sсikit-learn: построение и оптимизация ансамбля моделей классификации
2018-11-18 в 12:50, admin, рубрики: ensemble models, python, scikit-learn, Алгоритмы, анализ данных, машинное обучениеТак устроен поиск заимствований в Антиплагиате
2018-11-14 в 6:44, admin, рубрики: Алгоритмы, алгоритмы поиска, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, обработка текстов, поисковые технологии, Семантика, шинглыМы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:
- как быстро найти абзац текста среди сотен миллионов статей;
- во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
- как формируется отчет, который почти никто не смотрит, а стоило бы;
- как проиндексировать не все, но достаточно.
Что было интереснго на DataVizDay в Минске
2018-10-17 в 7:17, admin, рубрики: data mining, dwh, анализ данных, визуализация данных, конференции, конференция, минскВ четверг 4 октября я побывал на конференции DataVizDay в Минске в качестве спикера. Поделюсь самыми интересными идеями и впечатлением от Миснка.
Ключевые идеи:
- 80% ваших усилий будет до BI и визуализации, потому что данные бывают или плохие или очень плохие и в основном вы будете тратить время на подготовку и сбор данных.
2.Тем не менее визуализация создает ценность вашего дата продукта. Без визуализации получается просто куча цифр. - К сожалению очень часто визуализация плохая, используют плохие подходы, типы графиков и гистограмм, перегружают представления деталями. В итоге часто мы видим Kill by powerpoint и обилие данные не добавляет прозрачности в аналитике.
- Эксель продолжает занимать значительную роль в процессах. И часто компании не готовы перейти на что-то продвинутое. Но даже на экселе можно построить много чего интересного, потому что хорошая аналитика скорее начинается с чистоты и подготовки данных, а не с красивых дашбордов.Читать полностью »
Дайджест Университета ИТМО: новые исследования, опыт выпускников и международные проекты
2018-10-14 в 13:03, admin, рубрики: анализ данных, Блог компании Университет ИТМО, Карьера в IT-индустрии, научные исследования, Университет ИТМО, Учебный процесс в IT, хранение данныхСегодня мы представляем вашему вниманию материалы о проектах выпускников и специалистов Университета ИТМО. Темы подборки — Computer Science, городская инфраструктура и карьера в ИТ.
Как поступить на PhD программу по машинному обучению
2018-09-28 в 11:00, admin, рубрики: artificial intelligence, big data, machine learning, open data science, PhD, анализ данных, Блог компании Open Data Science, искусственный интеллект, машинное обучение, образование в ит, образование за рубежом1. Введение
Этот текст — небольшое обобщение моего опыта подачи заявок на Computer Science PhD с уклоном в machine learning в Северной Америке. Я постарался собрать в этом гайде свои просчеты (учиться лучше на чужих ошибках) и более-менее универсальные вещи, полезные всем. Но все равно нужно понимать, что это довольно индивидуальный опыт, поэтому ваша личная стратегия может отличаться. Например, в случае выбора вузов/научных руководителей или в написании statement of purpose. Ну или вы находитесь в других стартовых условиях по сравнению со мной (оценки, статьи, рекомендации).
Имейте в виду, что основная часть гайда писалась до получения результатов, потому что мне хотелось избежать «ошибки выживших» (survivorship bias) и проанализировать свой опыт безотносительно того, поступил я или нет. В конце руководства есть мои результаты: я поступил в 2 из 11 вузов, в которые подавался. На мой взгляд, все равно стоит избегать ошибок, которые я здесь буду описывать. Ну и нужно понимать, что в процессе подачи на ML PhD очень много шума, поэтому можно сделать все хорошо и пролететь и наверное даже наоборот.
Банки все внимательнее следят за репутацией клиентов: расследование Business Insider
2018-09-18 в 10:58, admin, рубрики: анализ данных, анализ репутации, Блог компании ITI Capital, финансы, финансы в ITИзображение: Unsplash
Издание Business Insider рассказало историю одного из клиентов американского банка JPMorgan Chase. Несмотря на идеальную кредитную историю банк внезапно решил разорвать с ним отношения и закрыл все его счета.
Опрошенные журналистами эксперты заявили о том, что причиной такого решения могла стать репутация клиента — его имя мелькало в негативных новостях, когда компания, где он работал, была обвинена в нарушениях регулирующими органиами. Мы представляем вашему вниманию основные факты этой истории.Читать полностью »
«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз
2018-09-11 в 12:30, admin, рубрики: Алгоритмы, алгоритмы поиска, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, СемантикаНаступил новый учебный год. Студенты получили расписание занятий и стали задумываться о пьянках-гулянках-девушках-гитарах будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как же обмануть «Антиплагиат». В нашем случае практически все способы обмана так или иначе связаны с искажениями текста. Мы уже научили «Антиплагиат» обнаруживать текст, «искаженный » с помощью перевода с английского на русский ( мы уже писали об этом в первой статье нашего корпоративного блога). Сегодня речь пойдет о том, как обнаруживать самый эффективный, хотя и трудоемкий способ искажения текста – парафраз.
Выявление содержательных профилей в VK
2018-09-10 в 15:50, admin, рубрики: анализ данных, боты для социальных сетей, веб-аналитика, классификация, логистическая регрессия, машинное обучение, открытые данные, Социальные сети и сообществаБотов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.
MongoDB и исследование рынка ИТ-вакансий
2018-09-07 в 13:49, admin, рубрики: data mining, etl, mongodb, nosql, python, sql, анализ данных, вакансииВы когда-нибудь анализировали вакансии?
Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Месяц назад? Год назад?
Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются?
В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Поехали!
Изучаем климат городов России с помощью Python
2018-09-07 в 10:04, admin, рубрики: binary district, python, анализ данных, Блог компании Binary District, визуализация данных, климатНа Python можно работать с данными и визуализировать их. Пользуются этим не только программисты, но и ученые: биологи, физики, социологи. Сегодня мы вместе с shwars, куратором нашего курса Python jumpstart for AI, ненадолго превратимся в метеорологов и изучим климат городов России. Из библиотек для визуализации и работы с данными используем Pandas, Matplotlib и Bokeh.
Сами исследования мы проводим в Azure Notebooks — облачной версии Jupyther Notebook. Таким образом для начала работы с Python нам не потребуется ничего устанавливать себе на компьютер и работать можно будет прямо из браузера. Необходимо лишь осуществить вход со своим Microsoft Account, создать библиотеку и в ней — новый ноутбук Python 3. После чего можно брать фрагменты кода из этой статьи и экспериментировать!
Читать полностью »