Рубрика «big data» - 21

ок.tech Data Толк #3: мини-интервью спикеров - 1

Проект ок.tech Data Толк родился как дискуссионная площадка для специалистов, занимающихся обработкой и аналитикой больших данных. Каждый раз мы подчеркиваем, что основная задача наших митапов – это не доклады, хотя они тоже очень важны, а открытая дискуссия аудитории со спикерами, во время которой у участников есть время обсудить любые вопросы в рамках тематики мероприятия. Мы считаем, что в сложившейся ситуации когда количество проблем и нерешенных задач в области Data Science стремительно растет, открытый диалог очень важен.

Мы провели 2 встречи, на первой обсуждали достоинства и недостатки разных подходов к хранению данных и то, как эти подходы влияют на работу разных команд, а также коснулись вопросов эволюции хранилищ данных. Вторая встреча была посвящена образованию в Data Science, на площадке встретились представители разных мнений, спикеры поговорили о важности университетского образования, разнообразии онлайн-курсов и их особенностях, а также о том, какими навыками необходимо обладать, чтобы стать крутым и востребованным датасаентистом.

В преддверии третьего митапа, который пройдет 6 ноября в Москве и будет посвящен рекомендательным системам, мы поговорили со спикерами об их пути в разработку рекомендательных систем, о том как им видится их будущее этого направления и попросили порекомендовать, что надо делать сейчас, чтобы знания и умения оставались актуальными даже через несколько лет. Также мы поинтересовались, о чем они будут рассказывать на митапе и почему стоит посетить это мероприятие.

Зарегистрироваться на Data Толк #3
Читать полностью »

Привет! Меня зовут Никита Учителев. Я представляю отдел Research & Development компании Lamoda. Нас 20+ человек, и мы работаем над различными рекомендациями на сайте и в приложениях, разрабатываем поиск, определяем сортировку товаров в каталогах, обеспечиваем возможность АБ-тестирования разнообразного функционала, а также поддерживаем несколько внутренних разработок вроде системы прогнозирования эластичности спроса и оптимизации логистики доставки.

image

Одним из основных направлений развития всей компании на ближайшие годы выбрана персонализация наших продуктов и услуг. Подобные инициативы тестируются и внедряются повсеместно — начиная от составления персональных подборок товаров до выбора конкретного торгового представителя, который доставит наш товар именно вам. В рамках процесса персонализации продуктов R&D я выступаю в роли тимлида и хочу в этой статье рассказать про платформу, проектированием и разработкой которой я со своей командой занимался последний год, а также про первые персонализированные продукты R&D, которые проходят АБ-тестирование в настоящее время.

Читать полностью »

В данной статье я бы хотел поделиться опытом построения системы планирования продаж и рассказать о практических шагах по ее внедрению.

Проблема разрозненного планирования

Зачастую в компаниях складывается следующая ситуация: У каждого подразделения возникает своя, уникальная версия плана продаж. Такие планы используют в работе, например, отделы маркетинга, продаж, финансисты и логистика.

Эти планы имеют разные формат, разную степень детализации, и, что самое важное, разные и противоречащие друг другу цифры.

Возникает закономерный вопрос, как выстроить в компании систему интегрированного планирования и что для этого нужно.

Выстраивание бизнес-процесса

Думаю важно подходить к вопросу с позиции создания отлаженной бизнес-технологии.

Как правило, планирование является регулярным процессом (часто ежемесячным или еженедельным), при котором происходит согласование и корректировка плана продаж и взаимосвязанных планов (например, поставок и производства).

(Часто используют термины: S&OP — Sales and Operations Planning, IBP — Integrated Business Planning).

В процессе планирования должны быть четко определены участники и их роли, конкретные задачи и сроки. Например, продавцы предоставляют планы клиентов (или каналов). Маркетинг проверяет ассортимент и сообщает о новинках и т.д.
Читать полностью »

RabbitMQ против Kafka: отказоустойчивость и высокая доступность в кластерах - 1

Отказоустойчивость и высокая доступность — большие темы, так что посвятим RabbitMQ и Kafka отдельные статьи. Данная статья о RabbitMQ, а следующая — о Kafka, в сравнении с RabbitMQ. Статья длинная, так что устраивайтесь поудобнее.

Рассмотрим стратегии отказоустойчивости, согласованности и высокой доступности (HA), а также компромиссы, на которые приходится идти в каждой стратегии. RabbitMQ может работать на кластере узлов — и тогда классифицируется как распределенная система. Когда речь заходит о распределенных системах, мы часто говорим о согласованности и доступности.

Эти понятия описывают, как система ведет себя при сбое. Сбой сетевого соединения, сбой сервера, сбой жесткого диска, временная недоступность сервера из-за сборки мусора, потеря пакетов или замедление сетевого соединения. Все это может привести к потере данных или конфликтам. Оказывается, практически невозможно поднять систему, одновременно и полностью непротиворечивую (без потери данных, без расхождения данных), и доступную (будет принимать операции чтения и записи) для всех вариантов сбоя.
Читать полностью »

Перевод статьи подготовлен специально для студентов базового и продвинутого курсов «Математика для Data Science».

Понимаем теорему Байеса - 1


Теорема Байеса – одна из самых известных теорем в статистике и теории вероятности. Даже если вы не работаете с расчетами количественных показателей, вероятно, вам в какой-то момент пришлось познакомиться с этой теоремой во время подготовки к экзамену.

P(A|B) = P(B|A) * P(A)/P(B)

Вот так она выглядит, но что это значит и как работает? Сегодня мы это узнаем и углубимся в теорему Байеса.Читать полностью »

Успех «Нетфликса» обеспечили высокие технологии, но за ними стоит целая философия, которая сделала эту философию эффективной. Систему, которая заставляет миллионы людей одержимо кликать по красно-белым кнопкам, легко отказываясь от многолетней традиции просмотра фильмов в кино, а сериалов по ТВ.

Как работает Netflix - 1

Привет! С вами Ефим Гугнин! И сегодня мы постараемся разобраться, как работает Netflix. А для этого нам придётся немного отмотать время назад.

1997 год. Интернет только-только набирает популярность и пока связывает жалкие 10 миллионов компьютеров.

Все сериалы и фильмы люди смотрят в кино, по кабельному либо эфирному ТВ, ну или заказывают видео в прокате. В это непростое время 37-летний Рид Хастингс, бывший военный и работник Корпуса мира, а ныне компьютерный инженер и предприниматель, решается на авантюру.Читать полностью »

Настоящий disrupt случится совсем скоро – и ты можешь стать его участником! 21 ноября состоится первое мероприятие X5 Tech Future Night о больших данных и инновациях в развитии ритейла. За вариации на тему цифровизации будущего отвечает приглашенный гость из Японии, за привязку к настоящему – лучшие спикеры инновационного ритейла России. Мы обсудим концепции и уже реализованные проекты Next Generation Retail, столкнем лбами сторонников противоположных взглядов и подходов во время экспертных батлов, а также выберем лучшую корпоративную рок-группу.

БудущееVSНастоящее – на #X5TechFutureNight - 1
Читать полностью »

Одна из самых крутых фишек iPhone X – это метод разблокировки: FaceID. В этой статье разобран принцип работы данной технологии.

image

Изображение лица пользователя снимается с помощью инфракрасной камеры, которая более устойчива к изменениям света и цвета окружающей среды. Используя глубокое обучение, смартфон способен распознать лицо пользователя в мельчайших деталях, тем самым “узнавая” владельца каждый раз, когда тот подхватывает свой телефон. Удивительно, но Apple заявила, что этот метод даже безопаснее, чем TouchID: частота ошибок 1:1 000 000.

В этой статье разобран принцип алгоритма, подобного FaceID, с использованием Keras. Также представлены некоторые окончательные наработки, созданные с помощью Kinect.

imageЧитать полностью »

Picture 3

Пока в Стокгольме проходила 118-я Нобелевская неделя, в офисе разработки статического анализатора кода PVS-Studio готовился обзор кода проекта ROOT, используемого в научных исследованиях для обработки больших данных. Премию за такой код, конечно, не дашь, а вот подробный обзор интересных дефектов кода и лицензию для полной проверки проекта разработчики получат.

Введение

Picture 1

ROOT — набор утилит для работы с данными научных исследований. Он обеспечивает все функциональные возможности, необходимые для обработки больших данных, статистического анализа, визуализации и хранения. В основном написан на языке C++. Разработка началась в CERN (Европейская организация по ядерным исследованиям) для исследований по физике высоких энергий. Каждый день тысячи физиков используют ROOT-приложения для анализа своих данных или для моделирования.
Читать полностью »

Оператор фискальных данных «Платформа ОДФ» намерена поставлять рекламной платформе Segmento обезличенные данные по всем проходящим в системе чекам, сообщил «Коммерсант». Обе компании — портфельные инвестиции государственного Сбербанка, уточнила газета. Среди партнёров первой так же есть УК «Атол» и другие собственники. Совладелец второйЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js