Рубрика «big data» - 47

KDD 2018, день второй, семинары

2018-08-21 в 13:01, admin, рубрики: big data, data mining, kdd2018, machine learning, анализ временных рядов, Блог компании Mail.Ru Group, машинное обучение

Сегодня на KDD 2018 день семинаров — вместе с большой конференцией, которая начнется завтра, несколько групп собрали слушателей по некоторым специфичным темам. Побывал на двух таких тусовках.
Читать полностью »

Топ-10 инструментов Python для машинного обучения и data-science

2018-08-21 в 11:15, admin, рубрики: big data, machine learning, python, Блог компании Skillbox, инструменты, машинное обучение, подборка, Программирование

Топ-10 инструментов Python для машинного обучения и data-science - 1

Python — один из наиболее популярных языков программирования. Причина — в его универсальности, ведь это мультитул с возможностью «заточки» под самые разные нужды. Сегодня мы публикуем подборку с описанием 10 полезных для data-scientist и специалиста по ИИ инструментов.

Машинное обучение, нейросети, Big-data — всё более растущий тренд, а значит, нужно все больше специалистов. Синтаксис Python математически точный, так что его понимают не только программисты, но и все, кто связан с техническими науками, — вот почему такое количество новых инструментов создается именно на этом языке.
Читать полностью »

Анатомия рекомендательных систем. Часть первая

2018-08-21 в 8:13, admin, рубрики: big data, CleverDATA, data mining, data scientist, Алгоритмы, алгоритмы рекомендаций, Блог компании ГК ЛАНИТ, дата саентист, Ланит, машинное обучение, рекомендательные системы

Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Анатомия рекомендательных систем. Часть первая - 1

Источник
Читать полностью »

Открытый вебинар «Наивный байесовский классификатор»

2018-08-20 в 15:10, admin, рубрики: big data, data mining, data science, Байес, Блог компании Отус, классификация, машинное обучение

Всем привет!

В рамках нашего курса Data Scientist мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.

Заранее спасибо.

Читать полностью »

KDD 2018, день первый, туториалы

2018-08-20 в 8:57, admin, рубрики: big data, data mining, graph mining, kdd2018, machine learning, Privacy, машинное обучение

Сегодня в Лондоне стартовала одна из главных Data Science конференций года, постараюсь оперативно рассказывать о том, что интересного удалось услышать.
Читать полностью »

Бизнес просит право на персональные данные пользователей

2018-08-17 в 13:56, admin, рубрики: big data, Законодательство в IT, информационная безопасность, персональные данные

Бизнес просит право на персональные данные пользователей - 1

Представители бизнеса, IT-компании, банки и операторы связи предложили поправки в закон «О персональных данных». В случае их принятия компании получат больше контроля над данными пользователей. Об этом пишут «Ведомости», которые ознакомились с текстом поправок.
Читать полностью »

Теория и практика использования HBase

2018-08-17 в 9:26, admin, рубрики: big data, Hadoop, Hbase, nosql, nosql базы данных, Блог компании Сбербанк, хранилища данных

Добрый день! Меня зовут Данил Липовой, наша команда в Сбертехе начала использовать HBase в качестве хранилища оперативных данных. В ходе его изучения накопился опыт, который захотелось систематизировать и описать (надеемся, что многим будет полезно). Все приведенные ниже эксперименты проводились с версиями HBase 1.2.0-cdh5.14.2 и 2.0.0-cdh6.0.0-beta1.

Общая архитектура
Запись данных в HBASE
Чтение данных из HBASE
Кэширование данных
Пакетная обработка данных MultiGet/MultiPut
Стратегия разбивки таблиц на регионы (спилитинг)
Отказоустойчивость, компактификация и локальность данных
Настройки и производительность
Нагрузочное тестирование
Выводы

Читать полностью »

Из нагруженной MPP СУБД — бодрый Data Lake с аналитическими инструментами: делимся подробностями создания

2018-08-14 в 13:58, admin, рубрики: big data, data lake, Блог компании ВТБ, втб, машинное обучение, хранение данных, хранилища данных

Все организации, которые имеют хоть какое-то отношение к данным, рано или поздно сталкиваются с вопросом хранения реляционных и неструктурированных баз. Непросто найти одновременно удобный, эффективный и недорогой подход к этой проблеме. А еще сделать так, чтобы на данных смогли успешно работать дата-сайентисты с моделями машинного обучения. У нас получилось – и хотя пришлось повозиться, итоговый профит оказался даже больше ожидаемого. Обо всех подробностях расскажем ниже.

Из нагруженной MPP СУБД — бодрый Data Lake с аналитическими инструментами: делимся подробностями создания - 1
Читать полностью »

Ни GA, ни ЯМ. Как мы сделали собственный кликстрим

2018-08-09 в 12:48, admin, рубрики: big data, Анализ и проектирование систем, аналитика, Блог компании Avito, визуализация данных, высокая производительность, кликстрим

Мы собираем более двух миллиардов аналитических событий в сутки. Благодаря этому можем узнать кучу необходимых вещей: нажимают ли на сердечки больше, чем на звёздочки, в какие часы пишут более развёрнутые описания, в каких регионах чаще промахиваются по зелёным кнопкам.

Систему сбора и анализа событий можно обобщённо назвать кликстримом. Расскажу о технической стороне кликстрима в Авито: устройство событий, их отправка и доставка, аналитика, отчёты. Почему хочется своё, если есть Google Analytics и Яндекс.Метрика, кому портят жизнь разработчики кликстримов и почему go-кодеры не могут забыть php.

Ни GA, ни ЯМ. Как мы сделали собственный кликстрим - 1

Читать полностью »

ONETRAK — умные браслеты и не только

2018-08-09 в 8:00, admin, рубрики: big data, OneTrak, анализ данных, Блог компании ONETRAK, гаджеты, носимое устройство, пользователи, приложение, Программирование

Возможно, кто-то уже слышал о нас, но пока мы не повсеместно известные и хотим рассказать о себе. ONETRAK — это первый российский производитель умных браслетов. Мы появились в 2014 году, тогда же выпустили в продажу свои первые умные браслеты (ONETRAK Life и ONETRAK Sport).

С тех пор мы росли, делали новые гаджеты, а сейчас создаем экосистему устройств для мониторинга главных показателей здоровья (активности, питания, сна, артериального давления, пульса и т.д.) и сопутствующее программное обеспечение — приложения для Android, iOS и веба.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 47

KDD 2018, день второй, семинары

Топ-10 инструментов Python для машинного обучения и data-science

Анатомия рекомендательных систем. Часть первая

Открытый вебинар «Наивный байесовский классификатор»

KDD 2018, день первый, туториалы

Бизнес просит право на персональные данные пользователей

Теория и практика использования HBase

Из нагруженной MPP СУБД — бодрый Data Lake с аналитическими инструментами: делимся подробностями создания

Ни GA, ни ЯМ. Как мы сделали собственный кликстрим

ONETRAK — умные браслеты и не только

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 47

Новости

Актуальные темы

Архив