Рубрика «big data» - 20

В современном мире сложно представить развитие продукта без A/B-тестирования. Чтобы успешно запустить продукт или новую функциональность — надо грамотно спроектировать A/B, рассчитать и интерпретировать его результаты. Иногда нам требуется тестирование более чем для двух групп. В этой статье мы рассмотрим как раз такой случай — множественное тестирование:

  • поговорим о том, когда и зачем следует проводить множественные тесты;
  • рассмотрим основные методы расчёта результатов тестов и математические принципы, на которых основаны методы;
  • приведём примеры программной реализации методов; эти примеры вы сможете использовать в своих проектах.

Итак, приступим.

Множественные эксперименты: теория и практика - 1
Читать полностью »

Эксплуатация машинного обучения в Почте Mail.ru - 1

По мотивам моих выступлений на Highload++ и DataFest Minsk 2019 г.

Для многих сегодня почта является неотъемлемой частью жизни в сети. С ее помощью мы ведем бизнес-переписку, храним всевозможную важную информацию, связанную с финансами, бронированием отелей, оформлением заказов и многим другим. В середине 2018 года мы сформулировали продуктовую стратегию развития почты. Какой же должна быть современная почта?

Почта обязана быть умной, то есть помогать пользователям ориентироваться в увеличивающемся объеме информации: фильтровать, структурировать и предоставлять ее наиболее удобным способом. Она должна быть полезной, позволяя прямо в почтовом ящике решать различные задачи, например, оплачивать штрафы (функция, которой я, к своему сожалению, пользуюсь). И при этом, разумеется, почта должна обеспечивать информационную защиту, отсекая спам и защищая от взломов, то есть быть безопасной.
Читать полностью »

Недавно Высшая школа экономики совместно с Яндексом открыла на платформе Coursera набор в англоязычную онлайн-магистратуру по data science. Помимо курсов и домашних заданий, студентов ждет работа над проектами и общение с представителями науки и индустрии. Сегодня академические руководители программы Евгений Соколов и Владимир Подольский рассказывают читателям Хабра о том, чего ждать от новой магистратуры и с какими вызовами они столкнулись во время разработки программы.

Вышка и Яндекс открыли онлайн-магистратуру по анализу данных на Coursera - 1

Как устроены онлайн-магистратуры

Онлайн-магистратуры — популярное направление в современном образовании. За последние годы этот формат стал очень востребован. Он решает ряд проблем, которые возникают у онлайн-курсов. Студенты активно вовлекаются в научную и проектную деятельность, а не предоставлены сами себе. Это полноценная учебная программа со множеством дисциплин, общением с преподавателями и дипломом международного образца.

Наша главная задача — организовать учебный процесс так, чтобы студенты чувствовали, что они учатся в университете, а не просто заплатили за курсы на Coursera и слушают их холодными зимними вечерами.
Читать полностью »

Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.

Читать полностью »

Основатель Tazeros Global Systems Артур Хачуян рассказал о сборе данных в социальных сетях и как правильно составлять анкету в профиле, чтобы познакомиться в них с миллиардерами? Студия, где записывалось интервью, находится на высоте 332 метра. Вообще, в «Башне Федерация» находятся самые высокие апартаменты в Европе. Высота башни – 374 метра, 97 этажей.

Интервью с Артуром Хачуяном: как вычислить миллиардера в социальных сетях? - 1

Disclaimer. Эта статья — расшифровка интервью Артура Хачуяна на канале Forbes. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.

Интервьюер (далее – И): – Для того, чтобы разобраться в цифрах сайтов знакомств России, мы пригласили к нам одного из главных экспертов в России по «биг дате», основателя «Тазерос Глобал Системс» Артура Хачуяна.Читать полностью »

Нейронный машинные перевод (НМП, англ. Neural Machine Translation, NMT) развивается очень быстро. Сегодня, чтобы собрать свой переводчик, не нужно иметь два высших образования. Но чтобы обучить модель, нужен большой параллельный корпус (корпус, в котором предложению на исходном языке сопоставлен его перевод). На практике речь идет хотя бы об одном миллионе пар предложений. Есть даже отдельная большая область НМП, исследующая методы обучения языковых пар с малым количеством данных в электронном виде (англ. Low Resource NMT).

Мы собираем чувашско-русский корпус и параллельно смотрим, что можно сделать с имеющимся объемом данных. В этом примере использовали корпус из 90 000 пар предложений. Самый хороший результат на данный момент дал метод передачи знания (англ. Transfer Learning), о нем и пойдет речь в статье. Цель статьи — дать практический пример реализации, который легко можно было бы воспроизвести.Читать полностью »

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1Читать полностью »

Министерство связи выпустила 3 приказа-пояснения, о том, как и кто может получить господдержку внедрения российских «сквозных цифровых технологий» в субъектах РФ. Максимальный размер гранта для проектов начатых в 2019, по решению министерства, может составлять до 1 миллиарда рублей. Проекты-соискатели обязаны показать свою значимость для региона, Читать полностью »

Сейчас все говорят о новой революции, которую несет искусственный интеллект и машинное обучение. Умные алгоритмы проникают во все сферы жизни: от поисков бозона Хиггса, до выбора фильма на вечер. Самые передовые компании уже активно внедряют эти технологии в свои продукты и маркетинг. Персонализированные рекомендации, реклама, интерфейс сайта — все это не какая-то черная магия, а уже доступные технологии.

На отечественном рынке, без сомнения, самой передовой компанией, использующей мощь машин, является Яндекс. В своем докладе на #amoCONF директор по маркетингу сервисов Яндекс, Андрей Себрант, рассказал о наступившем будущем и возможностях, открывающихся каждой компании. Оптимизируйте ваш бизнес под тенденции будущего!

Disclaimer. Эта статья — расшифровка выступления Андрея Себранта. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.

Читать полностью »

Привет! Отфильтровав для вас большое количество источников и подписок, собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за октябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за сентябрь, можете прочесть его здесь.

Итак, а теперь дайджест за октябрь:

1. Фотореалистичная 3D-модель человека выступила на TED. Нейросеть динамически восстанавливает 3D-модель человека на основе распознавания движения лицевых мышц. С помощью данных с камеры нейросеть распознает и восстанавливает эмоции и действия человека.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js