Рубрика «data mining» - 12

Machine Learning for your flat hunt. Part 3: The final push

2019-11-09 в 10:16, admin, рубрики: data mining, natural language processing, prediction, python, real estate market, yekaterinburg, машинное обучение, Программирование

Photo by Dugan Arnett on Boston GlobeAre
Photo by Dugan Arnett on Boston Globe

Are you still looking for a new flat? Ready to make the last attempt? If so - follow me and I show you how to reach the finish line.

Читать полностью »

Город засыпает, просыпаются хабровчане

2019-11-08 в 13:45, admin, рубрики: data mining, визуализация данных, сон для слабаков, статистика, юмор на хабре

Если количество комментариев под статьёй стремительным домкратом приближается к 1000, будьте уверены — независимо от заявленной автором темы внутри бушует срач: очаги возгорания политоты, окружённые диванными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и никнейму, переходы на личности, саркастические выпады, едкость которых превышает таковую у крови ксеноморфов, и, конечно же, обязательное в таких случаях блюдо — взаимные обвинения в том, что ваш визави с вами дискутирует исключительно за вознаграждение иили по долгу службы. Которая, видимо, и опасна и трудна, и на первый взгляд как будто не видна, а тридцать серебренников на дороге не валяются.
Самое забавное в такой ситуации это то,Читать полностью »

ок.tech Data Толк #3: мини-интервью спикеров

2019-11-01 в 5:46, admin, рубрики: big data, data mining, ok.ru, recommendation systems, recsys, Блог компании Одноклассники, искусственный интеллект, машинное обучение, одноклассники

ок.tech Data Толк #3: мини-интервью спикеров - 1

Проект ок.tech Data Толк родился как дискуссионная площадка для специалистов, занимающихся обработкой и аналитикой больших данных. Каждый раз мы подчеркиваем, что основная задача наших митапов – это не доклады, хотя они тоже очень важны, а открытая дискуссия аудитории со спикерами, во время которой у участников есть время обсудить любые вопросы в рамках тематики мероприятия. Мы считаем, что в сложившейся ситуации когда количество проблем и нерешенных задач в области Data Science стремительно растет, открытый диалог очень важен.

Мы провели 2 встречи, на первой обсуждали достоинства и недостатки разных подходов к хранению данных и то, как эти подходы влияют на работу разных команд, а также коснулись вопросов эволюции хранилищ данных. Вторая встреча была посвящена образованию в Data Science, на площадке встретились представители разных мнений, спикеры поговорили о важности университетского образования, разнообразии онлайн-курсов и их особенностях, а также о том, какими навыками необходимо обладать, чтобы стать крутым и востребованным датасаентистом.

В преддверии третьего митапа, который пройдет 6 ноября в Москве и будет посвящен рекомендательным системам, мы поговорили со спикерами об их пути в разработку рекомендательных систем, о том как им видится их будущее этого направления и попросили порекомендовать, что надо делать сейчас, чтобы знания и умения оставались актуальными даже через несколько лет. Также мы поинтересовались, о чем они будут рассказывать на митапе и почему стоит посетить это мероприятие.

Зарегистрироваться на Data Толк #3
Читать полностью »

Как работает FaceID в iPhone X: алгоритм на Python

2019-10-24 в 15:40, admin, рубрики: big data, data mining, Face ID, iphone X, Pyhon, python, искусственный интеллект, Программирование

Одна из самых крутых фишек iPhone X – это метод разблокировки: FaceID. В этой статье разобран принцип работы данной технологии.

Изображение лица пользователя снимается с помощью инфракрасной камеры, которая более устойчива к изменениям света и цвета окружающей среды. Используя глубокое обучение, смартфон способен распознать лицо пользователя в мельчайших деталях, тем самым “узнавая” владельца каждый раз, когда тот подхватывает свой телефон. Удивительно, но Apple заявила, что этот метод даже безопаснее, чем TouchID: частота ошибок 1:1 000 000.

В этой статье разобран принцип алгоритма, подобного FaceID, с использованием Keras. Также представлены некоторые окончательные наработки, созданные с помощью Kinect.

Читать полностью »

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла)

2019-10-22 в 7:02, admin, рубрики: data mining, анализ, Блог компании SAS, визуализация данных, женщина, исследование, контекст, красота, образ, описание, поиск, синоним, Статистика в IT, текст

Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Но можно посчитать, какие черты внешности упоминают чаще, когда говорят о красоте.

У меня была неделя на эксперименты, наши движки анализа данных,16 тысяч русских романов и повестей XIX века и 15 тысяч современных длинных произведений. И, конечно, не было никаких размеченных данных.

Основная идея была в том, чтобы выделить из этой горы текстов фрагменты с описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности.

Вот визуализация того, что получилось. Точнее, одного из распространённых вариантов.

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла) - 1
Цвет глаз, волос, платье, рост, воспитание — всё это можно выделить из корпуса текстов.

Конечно, не всё так просто и однозначно как на рисунках, но примерное представление вы уже получили. Теперь давайте расскажу про детали и последовательность действий. Читать полностью »

Оптимизация аптек: что мы сделали с помощью математики

2019-10-17 в 7:02, admin, рубрики: data mining, аптека, Блог компании SAS, заказ, лекарство, поставщик, прогнозирование, производитель, сервис, спрос, товар, управление, управление проектами, услуга

Оптимизация аптек: что мы сделали с помощью математики - 1

Оказалось, что аптечный бизнес достаточно прост в плане старта (аптека крупной франшизы открывается чуть ли не по механике «далее-далее-ок»), но достаточно сложный в управлении. При этом таким он не кажется. Сложная часть в управлении запасами, то есть в поставке лекарств, медсредств и прочего в конечную розничную точку. В реальности делают это люди руками и часто жёстко лажают.

Очень часты ситуации недозаказа товара (когда нужного ходового лекарства просто нет в аптеке), перезаказа (товар поставляется на пару ближайших лет) или неправильного распределения по сети аптек (в одной нет, а в другой — на шесть месяцев запаса). Таблетки компактные, выкладка в аптеках — хорошо, если 5 % от товарного запаса, поэтому восемь–десять миллионов рублей можно запросто спрятать даже на 15 квадратных метрах в ящиках. А потом у этих лекарств внезапно уже через год закончатся сроки годности.

Проблема — в ручном управлении запасами и в неправильном прогнозировании спроса: рынок таков, что часто в начале года подписываются обязательства на год вперёд, и производитель впихивает тонны неходового товара аптечным сетям.

Конечно же, в этой ситуации очень не хватает математической модели. Ну мы с ней и пришли. В процессе сделали ещё несколько чудесных открытий про рынок. Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за сентябрь

2019-10-15 в 15:44, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет, читатели! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за сентябрь. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за август, можете прочесть его здесь.

Итак, а теперь дайджест за сентябрь:

1. Ученые EPFL разработали мягкую искусственную кожу, которая обеспечивает тактильную обратную связь и — благодаря сложному механизму самочувствия — потенциально способна мгновенно адаптироваться к движениям пользователя.

Читать полностью »

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

2019-10-11 в 11:00, admin, рубрики: big data, computer vision, data collection, data mining, Блог компании Open Data Science, краудсорсинг, машинное обучение, обработка изображений, разметка данных, толока

Создаем датасет для распознавания счетчиков на Яндекс.Толоке - 1

Как-то два года назад, случайно включив телевизор, я увидел интересный сюжет в программе "Вести". В нём рассказывали о том, что департамент информационных технологий Москвы создает нейросеть, которая будет считывать показания счетчиков воды по фотографиям. В сюжете телеведущий попросил горожан помочь проекту и прислать снимки своих счетчиков на портал mos.ru, чтобы на них обучить нейронную сеть.

Если Вы — департамент Москвы, то выпустить ролик на федеральном канале и попросить людей прислать изображения счетчиков — не очень большая проблема. Но что делать, если Вы — маленький стартап, и сделать рекламу на телеканале не можете? Как получить 50000 изображений счетчиков в таком случае?Читать полностью »

Keyword Tree: graph analysis for semantic extraction

2019-10-06 в 11:52, admin, рубрики: data cleaning, data mining, natural language processing, nlp (natural language processing), визуализация данных, машинное обучение

This post is a small abstract of full-scaled research focused on keyword recognition. Technique of semantics extraction was initially applied in field of social media research of depressive patterns. Here I focus on NLP and math aspects without psychological interpretation. It is clear that analysis of single word frequencies is not enough. Multiple random mixing of collection does not affect the relative frequency but destroys information totally — bag of words effect. We need more accurate approach for the mining of semantics attractors.

Читать полностью »

Как технология in-memory изменила бизнес-аналитику

2019-10-04 в 10:25, admin, рубрики: BI, big data, data mining, ERP-системы, olap, python, qlik, хранилища данных

Примерно 5 миллисекунд проходит от запроса до ответа, если данные хранятся на жестком диске. SSD отвечает в 300 раз быстрее — за 150 микросекунд. Оперативной памяти требуется в 300,000 раз меньше времени — лишь 15 наносекунд.*

Как технология in-memory изменила бизнес-аналитику - 1

Можно долго рассуждать о том, как бизнес-аналитика помогает финансам или логистике. Способов применить информацию много, все время появляются новые. Но принцип работы разных аналитических решений один и заключается он в том, чтобы соединить данные из разных источников и посмотреть на них вместе — то есть целиком.

Чтобы воспользоваться информацией из нескольких источников, нужно к ним подключиться и извлечь данные. Но данные создавались разными способами, с разной периодичностью и хранятся в разных форматах. Поэтому прежде, чем визуализировать данные или передать другим системам для дальнейшей обработки, их придется объединить с помощью каких-то математических операций — трансформировать.

Технология in-memory заключается в том, что для трансформации в оперативную память единовременно загружаются все данные из разных источников. После этого трансформацию можно выполнить «на лету», без запросов к диску. Например, кликом выбрать измерение и сразу получить график, который будет отображать значения показателей в нужном разрезе. Благодаря тому, что все данные уже в оперативной памяти, аналитическому приложению не нужно делать запросы к жесткому диску для получения новой информации.

Это вступление должно помочь мне рассказать о том, как и почему менялись технологии, лежащие в основе современных аналитических решений.Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 12

Machine Learning for your flat hunt. Part 3: The final push

Город засыпает, просыпаются хабровчане

ок.tech Data Толк #3: мини-интервью спикеров

Как работает FaceID в iPhone X: алгоритм на Python

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла)

Оптимизация аптек: что мы сделали с помощью математики

Дайджест новостей машинного обучения и искусственного интеллекта за сентябрь

Создаем датасет для распознавания счетчиков на Яндекс.Толоке

Keyword Tree: graph analysis for semantic extraction

Как технология in-memory изменила бизнес-аналитику

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 12

Новости

Актуальные темы

Архив