На хабре уже был рассмотрен муравьиный алгоритм, позволяющий используя простые правила решить задачу поиска оптимального маршрута. В данной статье рассмотрено применение этого алгоритма к задаче классификации.
Читать полностью »
Рубрика «data mining» - 87
Классификация с использованием муравьиного алгоритма
2014-04-29 в 18:20, admin, рубрики: data mining, классификация, муравьиные алгоритмы, метки: классификация, муравьиные алгоритмыЖивая нейросеть из данных от клиентов на iOS и Android
2014-04-02 в 7:35, admin, рубрики: android, data mining, iOS, web, Программирование, разработка под iOS, метки: android, data mining, iOS, webМы продолжаем рассказывать о разработанной нами нейросети и кластерном анализе для проекта favoraim.com. Чтобы наглядно представить, как развивается нейросеть во времени, мы попробовали интерпретировать изменения в ней в небольшое видео, которое показывает жизнь сети от ее «сотворения» до привлечения первого трафика – пользователей Хабра.
Взрыв в начале — это рождение нейросети, которая получила первую информацию при запуске. Затем система начинает обрастать нейронами – новыми смысловыми единицами и пользователями. Точки — это пользователи. Чем больше похожи их интересы, поведение, активность и введенные данные, тем ближе они расположены друг к другу. Серые линии – это пружины, которые моделируют систему, они отражают связи в нейросети.
Новый пользователь появляется в случайном положении с «натянутыми пружинами».Читать полностью »
В LA Times новость о землетрясении написал робот
2014-03-24 в 4:54, admin, рубрики: data mining, искусственный интеллект, Медиа 
Всего через три минуты после землетрясения в Калифорнии 17 марта газета LA Times опубликовала заметку на эту тему. Сообщение выглядит вполне обычным: указано точное время, сила землетрясения и его радиус. Единственный признак чего-то необычного — приписка в конце: «Пост создан алгоритмом, написанным автором». Другими словами, статью написал робот.
Читать полностью »
Предполагаемый размер базы транзакций Bitcoin
2014-03-21 в 13:14, admin, рубрики: bitcoin, data mining, биткоин, высокая производительность, децентрализация, метки: bitcoin, биткоин, децентрализация 
Мне стало интересно какого размера станет база транзакций Bitcoin на реальных объемах. Т.е. представим, что Bitcoin стал официальной валютой России.
Для примера я взяла такую статистику центрального банка России.
В целом, точные цифры неинтересны, нам важны порядки значений.
Допустим, 2013 год — 5 млрд. операций. Одну bitcoin-транзакцию сделаем минимальной — равной 1кБайт.
Итак, 5 000 000 000 * 1000 = рост базы 5ТБайт/год для одной страны.
Data Mining в музыке. Определяем музыкальный инструмент при помощи Дерьевьев Классификации
2014-03-20 в 7:38, admin, рубрики: data mining, datamining, музыка, музыкальный бизнес, Работа со звуком, Статистика в IT, статистический анализ, метки: datamining, музыка, музыкальный бизнес, статистический анализ Приветствую Вас, уважаемые читатели и писатели !
Так сложилось, что я меломан и программист – и мне однажды захотелось совместить это.
Попробую рассказать, что из этого вышло.
В данной статье будет описано, как я пытался создать алгоритм, который бы мог определять на каком инструменте сыграна мелодия.
Итак, поехали
Наши исходные данные:
- 550 записей по 5 минут для 10 инструментов – по 55 записей на инструмент.
- Музыкальные инструменты: пианино, виолончель, домбра, флейта, дудка, гитара, аккордеон, кларнет, альт, скрипка.
- 9 признаков музыкального звукового сигнала.
Cервис формирования и доставки индивидуальных предложений
2014-03-14 в 19:36, admin, рубрики: big data, data mining, метки: big data, data miningДобрый день уважаемые читатели!
Наша компания проектирует и разрабатывает OLAP и BI решения. В процессе работы над одним проектом родилась идея создания сервиса, который помог бы розничным компаниям формировать индивидуальные предложения для своих клиентов.
Мы хотим рассказать здесь, как работает этот сервис и если получится получить Ваши советы и комментарии.
Пролог
Итак, существует розничная компания (интернет магазин, сеть турагентств, сеть обувных магазинов и т.д.). Рано или поздно такому бизнесу необходимо задуматься о базе своих клиентов, содержащую контактную информацию и историю покупок.
Располагая такой базой, компания может извлечь дополнительную прибыль различными способами. Один из них формирование индивидуальных предложений (рекомендаций) для клиентов.
Например, анализируя данные продаж одного из турагентств, был выявлен следующий факт: 12 % клиентов, посетивших остров Маврикий так же посещали город Тарифа в Испании. Возможно это случайный выбор клиентов этой компании, а возможно и нет, т.к. оба места являются очень популярными у кайтеров.

Полиция Чикаго составила список из 400 предполагаемых будущих преступников
2014-02-25 в 17:23, admin, рубрики: data mining, полиция, профилирование, слежка, Социальные сети и сообщества, метки: полиция, профилирование, слежкаАмериканская полиция уже несколько лет экспериментирует с автоматической обработкой статистики о компьютерных преступлениях. Например, в 2011 году в городе Санта-Крус (Калифорния) начали использовать в экспериментальном режиме программу предсказания преступлений. Там на базе статистики преступлений за последние несколько лет вычисляется частотность каждого типа преступлений в разных районах города — и соответствующим образом составляются маршруты для полицейских патрулей с указанием «горячих точек».

Полицейский отдел Чикаго вывел дата-майнинг на новый уровень — и объединил статистику с профилированием. Например, в прошлом году местная пресса писала о том, что полиция составила список наблюдения. В него внесены около 400 граждан, которые по профилю наиболее склонны совершить преступление в ближайшем будущем.
Читать полностью »
Data Mining Camp: как мы вдохновились на год вперед
2014-02-25 в 7:20, admin, рубрики: data mining, Блог компании DM Labs, вдохновение, Учебный процесс в IT, хакатон, метки: data mining, вдохновение, ХакатонКак-то в самом начале нового года мы решили совместить приятное с полезным: дружно отдохнуть и поработать. И пригласили сотрудников, наших студентов и экспертов из компаний EMC, Rosalind, Yota, Game|Changers провести три дня зимних каникул в домике под Петербургом.
Встреча с друзьями-единомышленниками за городом хороша, чтобы поделиться идеями, написать статью или закончить работу, до которой никак не доходили руки. Для этого мы и организовали выезд на Data Mining Camp. Решили, что будет сауна, настольные игры, контактный зоопарк и – гвоздь программы – хакатон.
На хакатоне ребята при помощи экспертов работали над тремя исследованиями: модель иерархической кластеризации признаков, модель ухода слушателей онлайн-курсов, попробовали улучшить алгоритм Gradient Boosting Machines, а также поучаствовали в международном конкурсе на платформе Kaggle. О том как это было и как ребята продолжают работать над этими идеями под катом…

Facebook знает, в кого ты влюбился
2014-02-18 в 13:35, admin, рубрики: data mining, Facebook, анализ данных, любовь, Социальные сети и сообщества, метки: Facebook, анализ данных, любовь 
Специалисты по анализу данных из компании Facebook опубликовали статистику, собранную с анонимных профилей в социальной сети. Как романтично сказано в официальном блоге, статистика показывает «формирование любви» между парами.
«В течение 100 дней перед началом отношений мы наблюдаем медленное, но стабильное увеличение количества сообщений между будущей парой», — пишет автор исследования Карлос Дьюк (Carlos Diuk). Но самое интересное происходит потом: резкое уменьшение коммуникаций в социальной сети сразу после установления отношений (и нового статуса в профиле).
Читать полностью »
Алгоритм Улучшенной Самоорганизующейся Растущей Нейронной Сети (ESOINN)
2014-02-11 в 6:31, admin, рубрики: data mining, machine learning, Алгоритмы, Блог компании «Itseez», искусственные нейронные сети, искусственный интеллект, машинное обучение, метки: machine learning, Алгоритмы, искусственные нейронные сети, искусственный интеллект, машинное обучение.jpg)
Введение
В моей предыдущей статье о методах машинного обучения без учителя был рассмотрен базовый алгоритм SOINN — алгоритм построения самоорганизующихся растущих нейронных сетей. Как было отмечено, базовая модель сети SOINN имеет ряд недостатков, не позволяющих использовать её для обучения в режиме lifetime (т.е. для обучения в процессе всего срока эксплуатации сети). К таким недостаткам относилась двухслойная структура сети, требующая при незначительных изменениях в первом слое сети переобучать второй слой полностью. Также алгоритм имел много настраиваемых параметров, что затрудняло его применение при работе с реальными данными.
В этой статье будет рассмотрен алгоритм An Enhanced Self-Organizing Incremental Neural Network, являющийся расширением базовой модели SOINN и частично решающий озвученные проблемы.
Читать полностью »
