Рубрика «big data» - 19

Клиентоориентированный Data Lake в игровой компании - 1
Источник

Привет! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.

Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.
Читать полностью »

Привет! Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за ноябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за октябрь, можете прочесть его здесь.

Итак, а теперь дайджест за ноябрь:

1. MIT разработал новый тип робота, который может расти как растение когда ему требуется дополнительная досягаемость.

image Читать полностью »

А-Б тестирование, пайплайн и ритейл: брендированная четверть по Big Data от GeekBrains и X5 Retail Group - 1

Технологии Big Data применяются сейчас повсеместно — в промышленности, медицине, бизнесе, развлечениях. Так, без анализа больших данных не смогут нормально работать крупные ритейлеры, упадут продажи в Amazon, будут не в состоянии предсказывать погоду на многие дни, недели и месяцы наперед метеорологи. Логично, что специалисты по большим данным сейчас нарасхват, причем спрос постоянно растет.
Читать полностью »

Говорят, все аналитики больших данных идут в телеком. А что они там делают? - 1

Самые большие телеком-компании нашей страны давно перестали считать себя исключительно телеком-компаниями — теперь это одни из главных игроков ИТ-индустрии. Они вынуждены меняться потому что меняется мир. Телефоны в нем называются телефонами по традиции, и функцию звонков туда добавляют, кажется, только по привычке. День, когда выйдет телефон без возможности «позвонить голосом», никто и не заметит.

Операторы соревнуются скоростью интернета больше, чем качеством звонков. Они придумывают новые и новые виды услуг — а самое главное очень много вкладывают в исследование данных.

Маленькие стартапы, которые ищут дата-саентистов, жалуются, что предложения больших корпораций не перебить. Причем не только денежные — просто такого количества данных и масштаба задач, как у телеком-операторов, мало где еще можно найти.

В этом выпуске мы поговорили с сотрудниками отдела больших данных в МегаФоне — что они делают, какие используют инструменты и как нанимают людей. Кстати, судя по оценке на «Моём круге», сотрудники ценят МегаФон за комфортные условия труда, интересные задачи, современность используемых в работе технологий и за отличные отношения в коллективе. Читать полностью »

ок.tech: Data Толк #4 новогодний выпуск - 1

Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за декаду Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.
Читать полностью »

В современном мире сложно представить развитие продукта без A/B-тестирования. Чтобы успешно запустить продукт или новую функциональность — надо грамотно спроектировать A/B, рассчитать и интерпретировать его результаты. Иногда нам требуется тестирование более чем для двух групп. В этой статье мы рассмотрим как раз такой случай — множественное тестирование:

  • поговорим о том, когда и зачем следует проводить множественные тесты;
  • рассмотрим основные методы расчёта результатов тестов и математические принципы, на которых основаны методы;
  • приведём примеры программной реализации методов; эти примеры вы сможете использовать в своих проектах.

Итак, приступим.

Множественные эксперименты: теория и практика - 1
Читать полностью »

Эксплуатация машинного обучения в Почте Mail.ru - 1

По мотивам моих выступлений на Highload++ и DataFest Minsk 2019 г.

Для многих сегодня почта является неотъемлемой частью жизни в сети. С ее помощью мы ведем бизнес-переписку, храним всевозможную важную информацию, связанную с финансами, бронированием отелей, оформлением заказов и многим другим. В середине 2018 года мы сформулировали продуктовую стратегию развития почты. Какой же должна быть современная почта?

Почта обязана быть умной, то есть помогать пользователям ориентироваться в увеличивающемся объеме информации: фильтровать, структурировать и предоставлять ее наиболее удобным способом. Она должна быть полезной, позволяя прямо в почтовом ящике решать различные задачи, например, оплачивать штрафы (функция, которой я, к своему сожалению, пользуюсь). И при этом, разумеется, почта должна обеспечивать информационную защиту, отсекая спам и защищая от взломов, то есть быть безопасной.
Читать полностью »

Недавно Высшая школа экономики совместно с Яндексом открыла на платформе Coursera набор в англоязычную онлайн-магистратуру по data science. Помимо курсов и домашних заданий, студентов ждет работа над проектами и общение с представителями науки и индустрии. Сегодня академические руководители программы Евгений Соколов и Владимир Подольский рассказывают читателям Хабра о том, чего ждать от новой магистратуры и с какими вызовами они столкнулись во время разработки программы.

Вышка и Яндекс открыли онлайн-магистратуру по анализу данных на Coursera - 1

Как устроены онлайн-магистратуры

Онлайн-магистратуры — популярное направление в современном образовании. За последние годы этот формат стал очень востребован. Он решает ряд проблем, которые возникают у онлайн-курсов. Студенты активно вовлекаются в научную и проектную деятельность, а не предоставлены сами себе. Это полноценная учебная программа со множеством дисциплин, общением с преподавателями и дипломом международного образца.

Наша главная задача — организовать учебный процесс так, чтобы студенты чувствовали, что они учатся в университете, а не просто заплатили за курсы на Coursera и слушают их холодными зимними вечерами.
Читать полностью »

Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.

Читать полностью »

Основатель Tazeros Global Systems Артур Хачуян рассказал о сборе данных в социальных сетях и как правильно составлять анкету в профиле, чтобы познакомиться в них с миллиардерами? Студия, где записывалось интервью, находится на высоте 332 метра. Вообще, в «Башне Федерация» находятся самые высокие апартаменты в Европе. Высота башни – 374 метра, 97 этажей.

Интервью с Артуром Хачуяном: как вычислить миллиардера в социальных сетях? - 1

Disclaimer. Эта статья — расшифровка интервью Артура Хачуяна на канале Forbes. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.

Интервьюер (далее – И): – Для того, чтобы разобраться в цифрах сайтов знакомств России, мы пригласили к нам одного из главных экспертов в России по «биг дате», основателя «Тазерос Глобал Системс» Артура Хачуяна.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js