Визуализация многомерных данных очень полезна для выявления их важных закономерностей и свойств. Для этой цели используются алгоритмы снижения размерности. Среди наиболее распространенных алгоритмов можно отметить метод главных компонент (англ. principal component analysis, PCA) и стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE). Оба этих алгоритма обладают высокой временной сложностью: $inline$O(n^3)$inline$ у PCA, $inline$O(n^2)$inline$ у t-SNE, где $inline$n$inline$ — количество объектов. К тому же у t-SNE есть по меньшей мере 3 гиперпараметра, к подбору которых он очень чувствителен. Я хочу вам рассказать о новом алгоритме полигональной системы координат (англ. polygonal coordinate system, PCS). Это алгоритм без гиперпараметров и со сложностью $inline$O(n)$inline$ от числа объектов.
Читать полностью »
Рубрика «визуализация данных» - 14
Геометрический подход к визуализации многомерных данных
2020-01-12 в 13:26, admin, рубрики: big data, dataviz, визуализация данных, машинное обучениеВизуализация границ решения классификатора на основе изображений
2020-01-12 в 11:06, admin, рубрики: lamp, визуализация данных, математика, машинное обучениеВведение
Понимание того, как классификатор разбивает исходное многомерное пространство признаков на множество целевых классов, является важным шагом для анализа любой задачи классификации и оценки решения, полученного с помощью машинного обучения.
Современные подходы к визуализации решений классификаторов в основном либо используют диаграммы рассеивания, которые могут отображать лишь проекции исходных обучающих выборок, но явно не показывают фактические границы принятия решений, либо используют внутреннее устройство классификатора (например kNN, SVM, Logistic Regression) для которых легко построить геометрическую интерпретацию. Такой способ не подойдет для визуализации, например, нейросетевого классификатора.
В статье "Image-based Visualization of Classifier Decision Boundaries" (Rodrigues et al., 2018) предлагается эффективный, красивый и достаточно простой альтернативный метод для визуализации решений классификатора, который лишен вышеописанных недостатков. А именно метод подходит для классификаторов любого вида и строит границы принятия решений с помощью изображений с произвольной частотой дискретизации.
Этот пост — краткий обзор основных идей и результатов из оригинальной статьи.
Хабра-анализ: когда лучше публиковать свой пост?
2020-01-12 в 8:11, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Социальные сети и сообщества, Статистика в IT, хабра-анализ, хабра-детектив
Вы ведь заходите на Хабр больше одного раза в день? Не чтобы прочитать что-то полезное, а просто пролистать главную в поисках "чего бы добавить в список на прочитать позже"? Когда-то замечали, что посты, опубликованные посреди ночи, собирают меньше просмотров и рейтинга, чем дневные? А что скажете о публикациях, вишедших посреди выходных?
Когда я опубликовал предыдущий пост-анализ о зависимости показателей публикации от её длины, Exosphere в комментариях сказала, что "есть некоторая связь времени выхода и показателей публикации (но также корелляция слабая)". Вы ведь понимаете, что я не мог пройти мимо?
Итак, важно ли публиковаться на Хабре с 09:00 до 18:00? Или может только во вторники? А что скажете о дне после зарплаты? Период отпусков? Ну, вы поняли. Сегодня попробуем узнать временной рецепт лучшей публикации на свете.
Хабра-анализ: важна ли длина публикации?
2020-01-05 в 8:11, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Социальные сети и сообщества, Статистика в IT, хабра-анализ, хабра-детектив
Вы ведь знаете, что Хабр — это вам не одна популярная социальная площадка с ограничением на длину публикации в 280 символов? И хотя периодически появляются посты длиной в один абзац, они достаточно редко встречают одобрение от вас, Хабра-жители.
Сегодня мы узнаем, правда ли, что длинные публикации более популярны, а короткие — наоборот. Или снова наоборот? В общем, есть ли на Хабре дискриминация по длине статьи.
Итак, 5 самых популярных хабов из раздела "Разработка". Все профильные, у всех по более чем 100 000 подписчиков. Что же они могут нам рассказать? Приступим!
Рисуем морозные узоры на SQL
2019-12-30 в 8:43, admin, рубрики: dba, postgresql, sql, sql tips and tricks, Алгоритмы, базы данных, визуализация данных, математика, ненормальное программирование, рекурсия
Немного SQL-магии под катом: математика, рекурсия, псевдографика.
Вспоминаем под Новый год формулу угла между векторами:
Читать полностью »
Сортировка «Американский флаг»
2019-12-29 в 22:58, admin, рубрики: edisonsoftware, python, Алгоритмы, Блог компании Edison, визуализация данных, Совершенный код, сортировки
Чтобы понять принцип действия этой «многополосной» сортировки проще для начала разобраться на примере флага с тремя полосами. А чтобы легко разобраться с трёхцветным флагом, лучше сначала посмотреть, как это работает на примере двухцветного. А чтобы разобраться с двухцветным...Читать полностью »
Еще один способ высокотехнологичного мошенничества
2019-12-29 в 16:16, admin, рубрики: forex, globalfx, MFC, Альфа-Банк, визуализация данных, Законодательство в IT, мошенники, мфц, торговля, финансы в ITВ уходящем году я столкнулся с довольно оригинальным и высокотехнологичным способом мошенничества. По всей видимости далеко не новым, но я раньше не встречал подробных описаний того как работают подобные схемы, так что попробую восполнить этот пробел.
Итак, в этой статье мы поговорим о мошенниках скрывающихся под видом торговых (STP) брокеров занимающихся маржинальной торговлей. Это ребята которые предоставляют услуги в покупке контрактов на акции компаний, контрактов FOREX и прочих CFD инструментов.
Хабра-детектив: они дружат с НЛО
2019-12-29 в 8:11, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Социальные сети и сообщества, Статистика в IT, хабра-анализ, хабра-детектив
Вы ведь знаете, что НЛО заботится о вас? Ну, во всяком случае, об этом регулярно напоминают в публикациях редакторского отдела Хабра — новостях на околополитические, околоскандальные и другие околотемы.
Давайте выясним, как часто редакторы используют эту стандартную "заглушку" и для каких именно публикаций? А также выполним и другие пожелания из комментариев к предыдущему Хабра-детективу о редакторах.
Итак, когда же у вас, Хабра-пользователи, возникают "противоречивые чувства", которые вы не можете сдержать и высказываете в комментариях? А самое главное — что их вызывает? Начнём наше новое расследование!
Хабра-детектив на выходных 2. Новый уровень
2019-12-27 в 8:11, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, информационная безопасность, нет места анонимности, никто не читает теги, социальные сети, Социальные сети и сообщества, хабр, хабра-детектив, хабра-теория заговора
Вы ведь помните историю про студентов? Ту самую, где за перевод технической статьи, опубликованный на Хабре, ставили зачёт. Я ведь знаю, что помните. Сам недавно видел комментарий к очередному переводу из песочницы: "Зачёт-то поставили?".
Поскольку уже прошел целый месяц с того самого, первого Хабра-детектива, я решил узнать, что же случилось с этими "подозрительными пользователями" и сколько ещё таких пришло на Хабр и опубликовало статью / перевод. А самое главное — кто эти студенты и откуда.
Итак, новое расследование и пища для ваших размышлений об отсутствии анонимности. А также, приятный бонус — старая Хабра-теория заговора в новых красках. Пока Boomburum ещё не опубликовал очередную AMA и список нововведений, на Хабре меняется favicon, а обсуждать толком нечего, добро пожаловать!
Разбор настройки ELK 7.5 для анализа логов Mikrotik
2019-12-23 в 8:26, admin, рубрики: data engineering, docker, elasticsearch, home server, kibana, logstash, mikrotik, визуализация данных, Сетевые технологии, системное администрированиеДавно была мысль посмотреть, что можно делать с ELK и подручными источниками логов и статистики. На страницах хабра планирую показать практический пример, как с помощью домашнего мини-сервера можно сделать, например, honeypot с системой анализа логов на основе ELK стека. В этой статье расскажу про простейший пример анализа логов firewall с помощью стека ELK. В дальнейшем хотелось бы описать настройку окружения для анализа Netflow трафика и pcap дампов инструментом Zeek.
Если у вас есть публичный IP-адрес и более-менее умное устройство в качестве шлюза/файрволла, вы можете организовать пассивный honeypot, настроив логирование входящих запросов на «вкусные» TCP и UDP порты. Под катом пример настройки маршрутизатора Mikrotik, но если у вас под рукой маршрутизатор другого вендора (или какая-то ещё security система), нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками, и получится тот же результат.
Disclaimer
Статья не претендует на оригинальность, здесь не рассматриваются вопросы отказоустойчивости сервисов, безопасности, лучших практик и т.д. Нужно рассматривать этот материал как академический, он подходит для ознакомления с базовым функционалом стека ELK и механизмом анализа логов сетевого устройства. Однако и не новичку может быть что-то интересно.
Проект запускается из docker-compose файла, соответственно развернуть своё подобное окружение очень просто, даже если у вас под рукой маршрутизатор другого вендора, нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками. В остальном я постарался максимально подробно описать все нюансы, связанные с конфигурированием Logstash pipelines и Elasticsearch mappings в актуальной версии ELK. Все компоненты этой системы хостятся на github, в том числе конфиги сервисов. В конце статьи я сделаю раздел Troubleshooting, в котором будут описаны шаги по диагностике популярных проблем новичков в этом деле.
Читать полностью »