Привет! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.
Рубрика «clustering»
Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров
2024-02-07 в 6:59, admin, рубрики: clustering, community detection, machine learning, ml, ozon tech, графовые алгоритмы, кластеризация, машинное обучениеКластеризация изображений с помощью нейросети CLIP
2022-01-13 в 10:45, admin, рубрики: CLIP, clustering, clusterization, data engineering, dbscan, machine learning, OpenAI, python, umap, Блог компании FunCorp, искуственный интеллект, машинное обучение, нейросети, обработка изображенийВ статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.
Иерархическая кластеризация категориальных данных в R
2019-07-29 в 13:35, admin, рубрики: big data, clustering, data science, R, segmentation, visualization, Блог компании OTUS. Онлайн-образованиеПеревод подготовлен для студентов курса «Прикладная аналитика на R».
Это была моя первая попытка выполнить кластеризацию клиентов на основе реальных данных, и она дала мне ценный опыт. В Интернете есть множество статей о кластеризации с использованием численных переменных, однако найти решения для категориальных данных, работа с которыми несколько сложнее, оказалось не так просто. Методы кластеризации категориальных данных еще только разрабатываются, и в другом посте я собираюсь попробовать еще один.
Читать полностью »
VyOS OpenSource Router
2019-01-31 в 0:58, admin, рубрики: 802.1Q, Accel-ppp, Alibaba Cloud, Amazon EC2, Ansible, BGP, BGP-peer, citrix xenserver, CloudPack, clustering, Conntrack-Sync, Debian, dell, DHCP Client, DHCP Server, DMVPN, EdgeCore, FRRouting, gateway, Google Cloud Platform, GRE, IGMP-Proxy, IP6IP6, iperf, IPIP, IPIP6, ipsec, IPSec VTI, IPSec/GRE, IPv4, IPv6, ISC-DHCP, isc-dhcp-server, junos, keepalived, kvm, l2tp, L2TPv3, L2TPv3 Router, lacp, layer 2, lldp, mDNS, mDNS-repeater, Microsoft Azure, Microsoft Hyper-V, netflow, Nutanix AHV, open source, OpenNHRP, opensource, openstack, openvpn, ospf, OSPFv3, Packet Cloud, Policy-Based Routing, powerdns, PPPoE server, PPTP, QinQ, quagga, Ravello, RHEV, rip, RIPng, saltstack, sFlow, SIT, site-to-site vpn, snmp, squid, ssh, strongswan, supermicro, syslog, tftp, TFTP Server, virtualbox, VLAN, VMWare ESXi, vpn, VPN Gateway, VPN RA, vrrp, vxlan, vyatta, vyOS, WAN load-balancing, wireguard, xL2tpd, Сетевые технологии, СофтВ этой статье я хотел поднять не стандартную для меня тему о сетевом маршрутизаторе VyOS. Впервые я познакомился с этим проектом благодаря Нилу Андерсону (Neil Anderson) который составил гайд как у себя дома развернуть мини-лабораторию с NetApp симулятором и VyOS.
Ключевые проекты
VyOS это opensource проект на базе Debian Linux, который родился как форк от проекта Vyatta Core Edition of the Vyatta Routing software. Как и любой роутер VyOS оперирует на третьем уровне OSI и маршрутизирует North-South трафик. VyOS включает в себя следующие ключевые проекты:
- Debian 8, ядро 4.19
- FRRouting (в версии 1.1 и более древних использовался Quagga)
- ISC-DHCP
- Keepalived
- StrongSwan
- OpenVPN
- PowerDNS
- Wireguard
- OpenNHRP
- Accel-ppp
- xL2tpd
- Squid
- mDNS-repeater
- IGMP-Proxy
- iPerf
- более детальный список в Release notes
IGNG — инкрементальный алгоритм растущего нейронного газа
2018-06-17 в 17:21, admin, рубрики: clustering, data mining, neural networks, self-organizing maps, Алгоритмы, кластеризация, математика, машинное обучение, нейронные сети, нейросети, обучение без учителя
При написании статьи о разработке детектора аномалий я реализовывал один из алгоритмов, который называется "Инкрементальный растущий нейронный газ".
В советской литературе российском сегменте Интернета эта тема освещена достаточно слабо, и нашлась только одна статья, да и то с прикладным применением данного алгоритма.
Итак, что же такое — алгоритм инкрементального растущего нейронного газа?
Нестандартная кластеризация 5: Growing Neural Gas
2017-10-26 в 6:07, admin, рубрики: cluster, clustering, data mining, distribution, exotic clusters, gng, growing neural gas, manifold, python, Алгоритмы, математика, машинное обучениеЧасть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)
Доброго времени суток! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для выделения кластеров нетипичной формы — расширяющемся нейронном газе (Growing Neural Gas, GNG). Особенно мало информации об этом инструменте анализа данных в рунете: статья в википедии, рассказ на Хабре о сильно изменённой версии GNG и пара статей с одним лишь перечислением шагов алгоритма — вот, пожалуй, и всё. Весьма странно, ведь мало какие анализаторы способны работать с меняющимися во времени распределениями и нормально воспринимают кластеры экзотической формы — а это как раз сильные стороны GNG. Под катом я попробую объяснить этот алгоритм сначала человеческим языком на простом примере, а затем более строго, в подробностях. Прошу под кат, если заинтриговал.
(На картинке: нейронный газ осторожно трогает кактус)
Читать полностью »
Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE
2017-10-13 в 5:56, admin, рубрики: clustering, data mining, neural networks, python, self-organizing maps, SoM, theano, Алгоритмы, математика, машинное обучениеЧасть первая — Affinity propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — SOM
Self-organizing maps (SOM, самоорганизующиеся карты Кохонена) — знакомая многим классическая конструкция. Их часто поминают на курсах машинного обучения под соусом «а ещё нейронные сети умеют вот так». SOM успели пережить взлёт в 1990-2000 годах: тогда им пророчили большое будущее и создавали новые и новые модификации. Однако, в XXI веке SOM понемногу уходят на задний план. Хоть новые разработки в сфере самоорганизующихся карт всё ещё ведутся (большей частью в Финляндии, родине Кохонена), даже на родном поле визуализации и кластеризации данных карты Кохонена всё чаще уступает t-SNE.
Давайте попробуем разобраться в тонкостях SOM'ов, и выяснить, заслуженно ли они были забыты.
Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов
2017-07-27 в 6:55, admin, рубрики: cluster, clustering, data mining, graphs, metrics, review, time series, математика, машинное обучениеПока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.
Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.
Анализ взаимосвязи навыков с помощью графов в R
2017-05-17 в 9:04, admin, рубрики: clustering, data mining, data science, dataviz, graph, R, R-projectИнтересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.
Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.