Разработана память с нелинейной аппроксимацией внутри кластеров данных. Кластеры предлагается выделять методом k-средних. Аппроксимацию проводить с помощью обучения ансамбля нейронных сетей. Кластерная память протестирована на примере адаптивного фильтра для преобразования цветов изображения. По результатам компьютерных экспериментов данный вид памяти показал хорошую селективную способность к обучению. На примере адаптивного фильтра удается обучить память к изменению всей цветовой палитры изображения.
Читать полностью »
Рубрика «кластерный анализ»
Кластерная память с аппроксимацией
2019-08-09 в 18:12, admin, рубрики: адаптивный фильтр, Алгоритмы, кластерный анализ, математика, машинное обучениеНовый метод кластерного анализа
2019-07-29 в 10:23, admin, рубрики: Алгоритмы, кластерный анализ, машинное обучение, численные методы
В работе предлагается новый метод кластерного анализа. Его преимущество в менее сложном с вычислительной точки зрения алгоритме. Метод основан на расчете голосов за то, что пара объектов находится в одном классе из информации о значении отдельных координат.
Читать полностью »
Cжатие и улучшение рукописных конспектов
2018-03-15 в 11:49, admin, рубрики: EM-алгоритм, HSV, Hue-Saturation-Value, open source, PDF, PNG, python, RGB, Алгоритмы, артефакты JPEG, бинаризация, векторное квантование, евклидово расстояние, квантование цвета, кластерный анализ, математическая статистика, метод k-средних, обработка изображений, сканирование, цветовое пространствоЯ написал программу для очистки отсканированных конспектов с одновременным уменьшением размера файла.
Исходное изображение и результат:
Слева: исходный скан на 300 DPI, 7,2 МБ PNG / 790 КБ JPG. Справа: результат с тем же разрешением, 121 КБ PNG [1]
Примечание: описанный здесь процесс более-менее совпадает с работой приложения Office Lens. Есть другие аналогичные программы. Я не утверждаю, что придумал нечто радикальное новое — это просто моя реализация полезного инструмента.
Если торопитесь, просто посмотрите репозиторий GitHub или перейдите в раздел результатов, где можно поиграться с интерактивными 3D-диаграммами цветовых кластеров.
Читать полностью »
Визуализация клонов в проекте на Python
2014-10-21 в 15:36, admin, рубрики: clonedigger, matplotlib, python, radon, scipy, snakefood, кластерный анализ, копипастинг, Совершенный код
Недавно в нашем проекте потребовалось настроить мониторинг качества кода. Качество кода — понятие субъективное, однако давным-давно придумали множество метрик, позволяющих провести мало-мальски количественный анализ. К примеру, цикломатическая сложность или индекс поддерживаемости (maintainability index). Измерение подобного рода показателей — обычное дело для языков вроде Java или C++, однако (складывается впечатление) в питоньем сообществе редко когда кто-то об этом задумывается. К счастью, существует замечательный radon с xenon-ом, который быстро и качественно вычисляет упомянутые выше метрики и даже некоторые другие. Конечно, для профессиональных enterprise инструментов маловато, но все необходимое присутствует.
Кроме вычисления метрик, бывает также полезно провести анализ зависимостей. Если в проекте задекларирована архитектура, то между отдельными частями должны существовать определенные связи. Самый частый пример: приложение построено вокруг библиотеки, предоставляющей API, и весьма нежелательно выполнять действия в обход этого API. Другими словами, нехорошо ioctl-ить в ядро когда libc есть. Для питона есть несколько пакетов, строящих граф зависимостей между модулями, и snakefood показался мне самым удачным.
Помимо анализа зависимостей, не менее полезно определять копипасту, особенно, если в проекте задействованы джуниоры или другие люди, любящие «срезать углы болгаркой». Об этом собственно и пойдет речь в статье.
Читать полностью »
Кластерный анализ (на примере сегментации потребителей) часть 1
2014-07-03 в 7:54, admin, рубрики: big data, cluster anlysis, data mining, кластерный анализМы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:
- Что такое галактика?
- И какая связь между галактиками и темой статьи (кластерный анализ)
Система персонализации News360: ранжирование кластеров информации
2013-08-28 в 9:00, admin, рубрики: data mining, искусственный интеллект, кластерный анализ, ранжирование, метки: кластерный анализ, ранжированиеКогда система рекомендаций работает с большим количеством контента, основной задачей становится не фильтрация этого контента, а его ранжирование. Если говорить о новостях — каждый день выходят сотни тысяч статей, тысячи из которых могут затрагивать интересы каждого человека, читающего новости. Но в основном пользователи не читают больше 5-10 статей в день (по данным News360). Какие статьи показать первыми?
Ответ на этот вопрос в News360 ищут уже третий год. Мы нашли уже много разных ответов, но в этом году решили отказаться от концепции, которая была основной на протяжении всех предыдущих лет.
В статье простыми словами постараюсь рассказать о том, почему в News360 сначала несколько лет работали над реализацией и развитием системы кластеризации статей по событиям и ранжирования событий, а затем выбросили этот подход и решили реализовать другой. А также немного о том, как работает News360, что под капотом и где об этом почитать.
Простейшая кластеризация изображени методом к-средних (k-means)
2013-01-08 в 15:45, admin, рубрики: c++, кластерный анализ, обработка изображений, метки: c++, кластерный анализЗачастую при поиске движущихся объектов на видео будь то методом вычитания фона, временной разности, оптического потока, в итоге мы получаем множество точек, которые после действия вышеупомянутых алгоритмов помечены как изменившие свое положение относительно предыдущего кадра и относящиеся к переднему плану.
После такой обработки встает вопрос о сегментации объектов методом кластерного анализа, о котором пойдет речь ниже и собственно его реализация на C++.
Читать полностью »
Обзор алгоритмов кластеризации числовых пространств данных
2012-12-30 в 18:34, admin, рубрики: data mining, Алгоритмы, кластерный анализ, метки: data mining, кластерный анализЗадача кластеризации – частный случай задачи обучения без учителя, которая сводится к разбиению имеющегося множества объектов данных на подмножества таким образом, что элементы одного подмножества существенно отличались по некоторому набору свойств от элементов всех других подмножеств. Объект данных обычно рассматривается как точка в многомерном метрическом пространстве, каждому измерению которого соответствует некоторое свойство (атрибут) объекта, а метрика – есть функция от значений данных свойств. От типов измерений этого пространства, которые могут быть как числовыми, так и категориальными, зависит выбор алгоритма кластеризации данных и используемая метрика. Этот выбор продиктован различиями в природе разных типов атрибутов.
В этой статье приведён краткий обзор методов кластеризации числовых пространств данных. Она будет полезна тем, кто только начинает изучать Data Mining и кластерный анализ и поможет сориентироваться в многообразии современных алгоритмов кластеризации и получить о них общее представление. Статья не претендует на полноту изложения материала, напротив, описание алгоритмов в ней максимально упрощено. Для более подробного изучения того или иного алгоритма рекомендуется использовать научную работу, в которой он был представлен (см. список литературы в конце статьи).
Читать полностью »
Нечеткий кластерный анализ на примере социально-экономических показателей крупных городов России
2012-04-02 в 2:37, admin, рубрики: data mining, Алгоритмы, города, кластерный анализ, метки: города, кластерный анализВведение
Кластерный анализ — задача разбиения определенного множества объектов на группы, называемые кластерами так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Данный анализ предполагает следующие цели:
- Понимание данных путем выявления кластерной структуры.
- Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
- Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
В данной статье будет использоваться метод нечеткой кластеризации c-means. Отличительной особенностью нечеткой кластеризации является тот факт, что каждый объект может относиться к каждому кластеру с определенной степенью принадлежности.
Для анализа будут выбраны 17 крупнейших городов России по населению, в качестве характеристик выступают социально-экономические показатели (демография, занятость населения, зарплата, преступность и т.д.). Результатом будут являться полученные кластеры городов.