Рубрика «data mining» - 88

Анализ временных рядов с помощью python

2013-12-24 в 8:01, admin, рубрики: data mining, python, метки: python

Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья.
Читать полностью »

Пример решения задачи множественной регрессии с помощью Python

2013-12-17 в 4:36, admin, рубрики: data mining, pandas, python, метки: pandas, python

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.
Читать полностью »

Классификатор изображений

2013-12-16 в 7:48, admin, рубрики: data mining, machine learning, Блог компании DM Labs, метки: machine learning

Есть битовая матрица, содержащая изображение круга, квадрата или треугольника (фигуры закрашены). Изображение может быть немного искажено или содержать помехи. Задача – написать алгоритм, который по матрице выяснит, какая фигура нарисована на изображении.
Классификатор изображений
Эта простая с первого взгляда задача встретилась мне на вступительном экзамене в DMLabs. На первом занятии мы обсудили решение, а преподаватель (Александр Шлемов; он также руководил дальнейшей реализацией) показал, почему для решения лучше использовать машинное обучение.
В процессе дискуссии мы обнаружили, что наши решения делятся на два этапа: фильтрацию помех и вычисление какой-то метрики, по которой будет проходить классификация. Тут возникает проблема нахождения границ: необходимо знать, какие значения метрики могут получаться для каждой из фигур. Можно проложить эти границы вручную “на глазок”, но лучше поручить это дело математически обоснованному алгоритму. Таким образом мы подходим к использованию методов машинного обучения (Machine Learning).
Таким образом эта учебная задачка стала для меня введением в Machine Learning, и я хотел бы поделиться с вами этим опытом.
Читать полностью »

Линейная регрессия на пальцах в распознавании

2013-12-10 в 5:06, admin, рубрики: data mining, Алгоритмы, классификация, линейная регрессия, распознавание образов, метки: классификация, линейная регрессия, распознавание образов

Линейная регрессия на пальцах В задаче распознавания ключевую роль играет выделение значимых параметров объектов и оценка их численных значений. Тем не менее, даже получив хорошие численные данные, нужно суметь правильно ими воспользоваться. Иногда кажется, что дальнейшее решение задачи тривиальное, и хочется «из общих соображений» получить из численных данных результат распознавания. Но результат в этом случае получается далеко не оптимальный. В этой статье я хочу на примере задачи распознавания показать, как можно легко применить простейшие математические модели и за счет этого существенно улучшить результаты.
Читать полностью »

Провокационно о трейдинге

2013-12-09 в 23:07, admin, рубрики: data mining, абстракции, Алгоритмы, алготрейдинг, арбитраж, инвестор, портфель, Финансы для всех, метки: абстракции, алготрейдинг, арбитраж, инвестор, портфель

Как классифицировать клиентов торговых площадок?

Примитивная классификация на быков (покупателей) и медведей (продавцов) стала классикой по причине простой ассоциации разделения любого базара на продавцов и покупателей в привычном для тысячелетней истории человечества видении.

Но чтобы не быть двухмерной блохой, посаженной на трехмерный шар (бесконечная Вселенная для блохи), требуется хотя бы немного уметь мыслить абстрактно. Например, а почему на базаре классические продавцы продают, а не покупают (деньги)?

Абстрагируясь, можно прийти к выводу, что торговли в классическом понимании нет. Есть лишь только обмен. Давайте меняться?

Читать полностью »

Gnuplot супротив 2MASS

2013-12-03 в 4:53, admin, рубрики: data mining, diy или сделай сам, Геоинформационные сервисы, жесть, метки: жесть

Данная статья повествует о пользе низкоуровневых вычислений
на примере атласа звездных объектов 2MASS.
2MASS — это ~471 млн. объектов, для которых приведены координаты,
а также сопутствующая информация, всего 60 атрибутов.
Физически — это 50Гб исходных гзипнутых текстовых файлов.
Можно ли работать с такой базой, не прибегая к «тяжелой артиллерии»?
Давайте попробуем.
Читать полностью »

Промежуточные итоги биржевого стартапа

2013-11-28 в 10:21, admin, рубрики: bitcoin, data mining, ECN, ECN/STP, алготрейдинг, арбитраж, биржа, Криптовалюты, Финансы для всех, метки: ECN, ECN/STP, алготрейдинг, арбитраж, биржа, Криптовалюты

Биржа, как стартап. Звучит довольно необычно. Сразу в голову лезет огромное количество юридических моментов, регуляторских замутов и т.д. Казалось бы, просто так не начать.

Но, как многим известно, существуют удачные попытки противостоять бюрократии финансового мира. История этого противостояния носит, конечно же, во многом виртуальную составляющую — электронные платежные системы. А как мы хорошо знаем, мир софта, пусть и виртуальный, при должном умении и упорстве вполне реально монетизируется.

Историю развития такого противостояния/дополнения можно долго расписывать. Но мы остановимся на одном из крайних событий этого фронта: криптовалюты. И даже еще сузим повествование: криптовалютные биржи.

Сразу скажу, чтобы полностью понять материал, пусть и написанный старательно общедоступным языком, все же придется потрудиться и ознакомиться с ликбезом.

Читать полностью »

Почему Excel опасен как инструмент для бизнес-анализа (business intelligence)?

2013-11-22 в 15:15, admin, рубрики: Business Intelligence, data mining, Excel, бизнес аналитика

Уверен, что с заголовком многие не согласятся, но все же оставлю как есть, потому что абсолютно в этом уверен:Читать полностью »

Уменьшение размерности задачи линейной бинарной классификации(e.g. SVM)

2013-11-21 в 2:03, admin, рубрики: data mining, SVM, Алгоритмы, математика, машинное обучение, метки: SVM, машинное обучение

Требуемые знания: знакомство с методами линейной бинарной классификации(e.g. SVM(см. SVM Tutorial)), линейная алгебра, линейное программирование

Рассмотрим линейную задачу бинарной классификации(если задача линейно неразделима, её можно свести к таковой с помощью симметричного интегрального L-2 ядра(см. SVM)). При решении такой задачи классифицируемые элементы(далее образцы) представляются в виде элементов векторного пространства размерности n. На практике в таких задачах n может быть чрезвычайно большим, например для задачи классификации генов оно может исчисляться десятками тысяч. Большая размерность влечёт, по-мимо высокого времени вычисления, потенциально высокую погрешность численных рассчётов. Кроме того использование большой размерности может требовать больших финансовых затрат(на проведение опытов). Постановка вопроса такова: можно ли и как уменьшить n отбрасыванием незначимых компонент образцов так, чтобы образцы разделялись «не хуже» в новом пространстве(эмпирическая ошибка не возросла или, что тоже самое, в новом пространстве образцы оставались линейно разделимы) или «не сильно хуже».
В своей статье я хочу для начала провести краткий обзор метода из этой статьи Gene_Selection_for_Cancer_Classification_using, после чего предложить свой метод.
Читать полностью »

Автоматическая проверка орфографии, модель Noisy Channel

2013-11-20 в 15:27, admin, рубрики: data mining, алгоритм, Алгоритмы, вероятность, искусственный интеллект, орфография, расстояние дамерау-левенштейна, расстояние Левенштейна, метки: алгоритм, вероятность, орфография, расстояние дамерау-левенштейна, расстояние Левенштейна

Автоматическая проверка орфографии, модель Noisy Channel Доброго времени суток. На днях у меня возникла задача по реализации алгоритма пост-обработки результатов оптического распознавания текста. Для решения этой проблемы не плохо подошла одна из моделей для проверки орфографии в тексте, хотя конечно слегка модифицированная под контекст задачи. Этот пост будет посвящен модели Noisy Channel, которая позволяет осуществлять автоматическую проверку орфографии, мы изучим математическую модель, напишем на c# немного кода, обучим модель на базе Питера Норвига, и под конец протестируем то что у нас получится.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 88

Анализ временных рядов с помощью python

Пример решения задачи множественной регрессии с помощью Python

Введение

Классификатор изображений

Линейная регрессия на пальцах в распознавании

Провокационно о трейдинге

Gnuplot супротив 2MASS

Промежуточные итоги биржевого стартапа

Почему Excel опасен как инструмент для бизнес-анализа (business intelligence)?

Уменьшение размерности задачи линейной бинарной классификации(e.g. SVM)

Автоматическая проверка орфографии, модель Noisy Channel

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 88

Введение

Новости

Актуальные темы

Архив