Продолжаем разговор. В прошлый раз мы сделали первый шаг на переходе от наивного байесовского классификатора к LDA: убрали из наивного байеса необходимость в разметке тренировочного набора, сделав из него модель кластеризации, которую можно обучать ЕМ-алгоритмом. Сегодня у меня уже не осталось отговорок – придётся рассказывать про саму модель LDA и показывать, как она работает. Когда-то мы уже говорили об LDA в этом блоге, но тогда рассказ был совсем короткий и без весьма существенных подробностей. Надеюсь, что в этот раз удастся рассказать больше и понятнее.
Читать полностью »
Рубрика «кластеризация» - 4
Вероятностные модели: LDA, часть 2
2014-07-16 в 15:52, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, классификация, кластеризация, математика, математическое моделирование, теория вероятностейВероятностные модели: от наивного Байеса к LDA, часть 1
2014-07-02 в 10:49, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, классификация, кластеризация, математика, математическое моделирование, теория вероятностейПродолжаем разговор. Прошлая статья была переходной от предыдущего цикла о графических моделях вообще (часть 1, часть 2, часть 3, часть 4) к новому мини-циклу о тематическом моделировании: мы поговорили о сэмплировании как методе вывода в графических моделях. А теперь мы начинаем путь к модели латентного размещения Дирихле (latent Dirichlet allocation) и к тому, как все эти чудесные алгоритмы сэмплирования применяются на практике. Сегодня – часть первая, в которой мы поймём, куда есть смысл обобщать наивный байесовский классификатор, и заодно немного поговорим о кластеризации.
Алгоритм нечёткой кластеризации fuzzy c-means на PHP
2014-01-08 в 19:44, admin, рубрики: php, Алгоритмы, кластеризация, метки: PHP, Алгоритмы, кластеризацияДоброго времени суток.
Пост и код приведённый ниже, предназначен не столько для использования алгоритма в рабочих целях, сколько для того, чтобы понять, как алгоритм fuzzy c-means работает и возможно, дать толчок к реализации этого алгоритма на других языках либо для усовершенствования приведённого кода и его дальнейшего использования в рабочих целях.
Алгоритм кластеризации данных FTCA
2013-12-21 в 16:27, admin, рубрики: Алгоритмы, кластеризация, метки: Алгоритмы, кластеризацияПредисловие
Гуляя по англоязычным просторам интернета в поисках решения одной из наболевших тем на работе, наткнулся на очень интересный алгоритм под названием «Fast Threshold Clustering Algorithm». Данный алгоритм кластеризации, что примечательно, появился сравнительно недавно, а именно в ноябре этого года и автором является Дэвид Варади. Ссылка на первоисточник будет доступна в конце статьи.
Для начала, что такое кластеризатор?
Отказоустойчивый кластер Hyper-V 2012
2013-11-12 в 10:21, admin, рубрики: failover cluster, hyper-v, windows, виртуализация, кластеризация, метки: failover cluster, hyper-v, виртуализация, кластеризация Сразу отмечу, что многие, кто сталкивался с виртуализацией от Microsoft, ничего нового для себя не найдут — это небольшой гайд по созданию кластера на базе Hyper-V 2012 с некоторыми тонкостями, касающихся конкретной конфигурации.
Итак, что мы имеем:
- Два сервера с внешним SAS портом и 4-х портовой сетевой картой
- Дисковое хранилище HP P2000 G3 SAS
- Коммутатор, а лучше два в стеке, с поддержкой LACP, в моем случае — это стек из двух Cisco 2960S
По заверениям MS, желательно иметь одинаковые контроллеры SAS, с одинаковыми драйверами и прошивками, на всех узлах кластера.
Так же нам потребуется:
- Домен AD
- Компьютер или ноутбук в домене с установленной ОС Windows 8 или 8.1, для управления
- Средства удаленного администрирования сервера — RSAT для windows 8 или 8.1
Важно отметить, что для управляющего ПК, windows 7 не подойдет, т.к. некоторый функционал RSAT для win 7 не работает с серверами семейства 2012.
Читать полностью »
Как создать кластер в JBoss AS 7.1 в автономном (standalone) режиме?
2013-08-09 в 12:44, admin, рубрики: java, javaee, jboss, высокая производительность, кластеризацияСтатья переведена и опубликована здесь с целью дополнить ее рецептом от себя, добытом на основе личного опыта. Есть надежда, что кто-то сэкономит полдня-день гугления и массу проб и ошибок, с которыми пришлось столкнуться мне. Далее следует вольный перевод и дополнение лично от меня.
JBoss AS 7 кардинально отличается от предыдущих версий JBoss, следовательно, если вы хотите создать кластер в JBoss AS 7, вам следует знать несколько вещей, чтобы не столкнуться с проблемами.
Читать полностью »
Решение задачи кластеризации методом градиентного спуска
2013-08-02 в 12:04, admin, рубрики: data mining, Алгоритмы, искусственный интеллект, кластеризация, метки: кластеризацияПривет. В этой статье будет рассмотрен способ кластеризации данных, используя метод градиентного спуска. Честно говоря данный способ носит больше академический характер, нежели практический. Реализация этого метода мне понадобилась в демонстрационных целях для курса по машинному обучению, что бы показать как одинаковые задачи можно решить различными способами. Хотя конечно если вы планируете осуществить кластеризацию данных, используя дифференцируемую метрику, для которой вычислительно труднее найти центроид, нежели подсчитать градиент на некотором наборе данных, то этот метод может быть полезным. Итак если вам интересно как можно решить задачу k-means кластеризации с обобщенной метрикой используя метод градиентного спуска, прошу под кат. Код на языке R.
Как сэкономить деньги в Amazon Web Services — выбор эффективной архитектуры
2013-03-26 в 7:22, admin, рубрики: 1С-Битрикс, Блог компании 1С-Битрикс, Веб-разработка, кластеризация, системное администрирование, метки: 1С-Битрикс, amazon, кластеризацияВсем привет!
Сегодня поговорим на тему как «профессионально сэкономить» деньги при использовании облачных сервисов Amazon Web Services при размещении веб-решений, адаптированных для России. Мы активно используем сервисы данного облачного провайдера для проектов компании почти 2 года и постоянно занимаемся оптимизацией расходов. Довольно странно, что важная тема оптимизации расходов на Amazon Web Services, очищенная от маркетингового булшита, как-то не особо представлена в сети. Постараюсь предметно поделиться опытом и обозначить явные выгоды и ошибки, которые следует учесть при проектировании веб-систем.
Основы HPC-технологий
2013-03-13 в 13:38, admin, рубрики: highload, HPC, высокая производительность, кластеризация, Песочница, метки: highload, HPC, кластеризацияОпределение высоконагруженных систем и способов их построения
Нагрузка на сервер — это важный показатель использования серверного оборудования. Хит – это запрос клиента к серверу для получения информации. Нагрузка сервера определяется как отношение количества клиентских запросов (хитов) ко времени, выражается в хитах в секунду. Согласно исследованиям Microsoft в 2010 году высоконагруженным сервером можно считать сервер с нагрузкой 100-150 хитов в секунду.
В литературе встречаются такие понятия как HPC-система, высоконагруженная система, высоконагруженный кластер, Highload-система, суперкомпьютер, которые порой используются как синонимы. Мы будем понимать сайт с нагрузкой не менее 150 хитов в секунду.
Кластер – это группа компьютеров, которые работают вместе и составляют единый унифицированный вычислительный ресурс. Каждый узел работает под управлением своей копии операционной системы, в качестве которой чаще всего используются Linux и BSD.
Чтобы понять каким образом задачи, выполняемые кластером, распределяются по его узлам необходимо дать определение масштабироемости. Масштабируемость — способность системы справляться с увеличением рабочей нагрузки (увеличивать свою производительность) при добавлении ресурсов. Система называется масштабируемой, если она способна увеличивать производительность пропорционально дополнительным ресурсам. Масштабируемость можно оценить через отношение прироста производительности системы к приросту используемых ресурсов. Чем ближе это отношение к единице, тем лучше. Также под масштабируемостью понимается возможность наращивания дополнительных ресурсов без структурных изменений центрального узла системы. Масштабирование архитектуры высоконагруженной системы может быть горизонтальным и вертикальным. Вертикальное масштабирование заключается в увеличении производительности системы за счёт увеличения мощности сервера. Главный недостаток вертикального масштабирования в том, что оно ограничено определённым пределом. Параметры железа нельзя увеличивать бесконечно. Однако на самом деле вертикальная компонента присутствует практически всегда, а универсального горизонтального масштабирования как такового не существует. Горизонтальное масштабирование заключается в увеличении производительности системы за счёт подключения дополнительных серверов. Именно горизонтальное масштабирование является сейчас фактически стандартом. Известен также такой термин, как диагональное масштабирование. Оно подразумевает одновременное использование двух подходов.
И наконец, необходимо определить основной принцип, использующийся при построении любой кластерной архитектуры. Это — трёхзвенная структура системы (рис. 1). Три звена – это фронтэнд, бэкэнд и хранилище данных. Каждое звено выполняет свои функции, отвечает за различные стадии в обработке запросов и по-разному масштабируется. Первоначально запрос приходит на фронтэнд. Фронтэнды отвечают, как правило, за отдачу статических файлов, первичную обработку запроса и передачу его дальше. Второе звено, куда приходит запрос, уже предварительно обработанный фронтэндом — это бэкэнд. Бэкэнд занимается вычислениями. На стороне бэкэнда, как правило, реализуется бизнес-логика проекта. Следующий слой, который вступает в дело обработки запроса – это хранилище данных, которые обрабатываются бэкэндом. Это может быть база данных или файловая система.Читать полностью »
Планирование архитектуры проекта
2013-01-16 в 13:47, admin, рубрики: Анализ и проектирование систем, Блог компании Селектел, Веб-разработка, кластеризация, масштабирование, проектирование архитектуры, резервированиеНеобходимость планирования
Думаю, что не ошибусь, если скажу, что соблазн переложить все свои риски на плечи сервис-провайдера, совсем забывая о собственной архитектуре проекта, всегда очень велик. Развернуть всё на одном сервере, сэкономить на инфраструктуре, потратить сэкономленный бюджет на раскрутку проекта — всё это работает до того, как проект становится посещаемым.Читать полностью »