Рубрика «кластеризация» - 4

Всем привет! Меня зовут Артур, я аналитик в отделе анализа данных департамента рекламных технологий Mail.Ru Group. И я попробую рассказать о том, как мы используем кластеризацию в своей работе.

Чего в этой статье не будет: я не буду рассказывать об алгоритмах кластеризации, об анализе качества или сравнении библиотек. Что будет в этой статье: я покажу на примере конкретной задачи что такое кластеризация (с картинками), как ее делать если данных действительно много (ДЕЙСТВИТЕЛЬНО много) и что получается в результате.

Как мы кластеризуем подарки в ОК
Читать полностью »

Cyclos — банковская он-лайн система с дополнительными модулями для электронной коммерции, средств связи и многих других функциональностей в данной сфере. С помощью динамической структуры Cyclos можно легко создать специализированную платежную систему простым изменением настроек.

Недавно Cyclos выпустили новую четвертую версию своего продукта, а Jelastic предоставил возможность установить её в один клик. Это можно сделать через сайт Cyclos (для этого требуется регистрация) или используя JPS виджет на нашей странице Marketplace.
jelastic and cyclosЧитать полностью »

Продолжаем разговор. В прошлый раз мы сделали первый шаг на переходе от наивного байесовского классификатора к LDA: убрали из наивного байеса необходимость в разметке тренировочного набора, сделав из него модель кластеризации, которую можно обучать ЕМ-алгоритмом. Сегодня у меня уже не осталось отговорок – придётся рассказывать про саму модель LDA и показывать, как она работает. Когда-то мы уже говорили об LDA в этом блоге, но тогда рассказ был совсем короткий и без весьма существенных подробностей. Надеюсь, что в этот раз удастся рассказать больше и понятнее.
Вероятностные модели: LDA, часть 2
Читать полностью »

Продолжаем разговор. Прошлая статья была переходной от предыдущего цикла о графических моделях вообще (часть 1, часть 2, часть 3, часть 4) к новому мини-циклу о тематическом моделировании: мы поговорили о сэмплировании как методе вывода в графических моделях. А теперь мы начинаем путь к модели латентного размещения Дирихле (latent Dirichlet allocation) и к тому, как все эти чудесные алгоритмы сэмплирования применяются на практике. Сегодня – часть первая, в которой мы поймём, куда есть смысл обобщать наивный байесовский классификатор, и заодно немного поговорим о кластеризации.

Вероятностные модели: от наивного Байеса к LDA, часть 1
Читать полностью »

Доброго времени суток.

Пост и код приведённый ниже, предназначен не столько для использования алгоритма в рабочих целях, сколько для того, чтобы понять, как алгоритм fuzzy c-means работает и возможно, дать толчок к реализации этого алгоритма на других языках либо для усовершенствования приведённого кода и его дальнейшего использования в рабочих целях.

Алгоритм нечёткой кластеризации fuzzy c means на PHP

Читать полностью »

Предисловие

Гуляя по англоязычным просторам интернета в поисках решения одной из наболевших тем на работе, наткнулся на очень интересный алгоритм под названием «Fast Threshold Clustering Algorithm». Данный алгоритм кластеризации, что примечательно, появился сравнительно недавно, а именно в ноябре этого года и автором является Дэвид Варади. Ссылка на первоисточник будет доступна в конце статьи.

Для начала, что такое кластеризатор?

image

Читать полностью »

Сразу отмечу, что многие, кто сталкивался с виртуализацией от Microsoft, ничего нового для себя не найдут — это небольшой гайд по созданию кластера на базе Hyper-V 2012 с некоторыми тонкостями, касающихся конкретной конфигурации.
Итак, что мы имеем:

  • Два сервера с внешним SAS портом и 4-х портовой сетевой картой
  • Дисковое хранилище HP P2000 G3 SAS
  • Коммутатор, а лучше два в стеке, с поддержкой LACP, в моем случае — это стек из двух Cisco 2960S

По заверениям MS, желательно иметь одинаковые контроллеры SAS, с одинаковыми драйверами и прошивками, на всех узлах кластера.

Так же нам потребуется:

  • Домен AD
  • Компьютер или ноутбук в домене с установленной ОС Windows 8 или 8.1, для управления
  • Средства удаленного администрирования сервера — RSAT для windows 8 или 8.1

Важно отметить, что для управляющего ПК, windows 7 не подойдет, т.к. некоторый функционал RSAT для win 7 не работает с серверами семейства 2012.
Читать полностью »

Статья переведена и опубликована здесь с целью дополнить ее рецептом от себя, добытом на основе личного опыта. Есть надежда, что кто-то сэкономит полдня-день гугления и массу проб и ошибок, с которыми пришлось столкнуться мне. Далее следует вольный перевод и дополнение лично от меня.

JBoss AS 7 кардинально отличается от предыдущих версий JBoss, следовательно, если вы хотите создать кластер в JBoss AS 7, вам следует знать несколько вещей, чтобы не столкнуться с проблемами.
Читать полностью »

Решение задачи кластеризации методом градиентного спускаПривет. В этой статье будет рассмотрен способ кластеризации данных, используя метод градиентного спуска. Честно говоря данный способ носит больше академический характер, нежели практический. Реализация этого метода мне понадобилась в демонстрационных целях для курса по машинному обучению, что бы показать как одинаковые задачи можно решить различными способами. Хотя конечно если вы планируете осуществить кластеризацию данных, используя дифференцируемую метрику, для которой вычислительно труднее найти центроид, нежели подсчитать градиент на некотором наборе данных, то этот метод может быть полезным. Итак если вам интересно как можно решить задачу k-means кластеризации с обобщенной метрикой используя метод градиентного спуска, прошу под кат. Код на языке R.

Читать полностью »

Всем привет!

Сегодня поговорим на тему как «профессионально сэкономить» деньги при использовании облачных сервисов Amazon Web Services при размещении веб-решений, адаптированных для России. Мы активно используем сервисы данного облачного провайдера для проектов компании почти 2 года и постоянно занимаемся оптимизацией расходов. Довольно странно, что важная тема оптимизации расходов на Amazon Web Services, очищенная от маркетингового булшита, как-то не особо представлена в сети. Постараюсь предметно поделиться опытом и обозначить явные выгоды и ошибки, которые следует учесть при проектировании веб-систем.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js