Рубрика «big data» - 40

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно?

Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия).

Чем поможет машинное обучение, когда каждая минута на счету. Прогнозируем ETA в Яндекс.Такси - 1
Читать полностью »

Мне давно хотелось изложить свои впечатления об Apache Spark, и тут как раз попалась на глаза вот эта статья от сотрудника Pivotal Robert Bennett: thenewstack.io/the-good-bad-and-ugly-apache-spark-for-data-science-work, опубликованная совсем недавно, 26 июня 2018.

Это не будет перевод, а скорее все-таки мои впечатления и комментарии на тему.
Читать полностью »

1. Анализ логов Check Point: официальное приложение Check Point для Splunk - 1

Работая с шлюзами безопасности компании Check Point, очень часто возникает задача разбора логов для обнаружения и анализа инцидентов информационной безопасности. Обычно в организациях существует уже какая-либо система логирования, и стоит задача транспортировки логов с сервера управления Check Point и последующая настройка фильтров для логов, составление дашбордов, графиков и так далее. В данном курсе мы рассмотрим различные варианты анализа логов Check Point с помощью внутреннего функционала и сторонних приложений, рассмотрим какую полезную информацию мы можем извлечь, и чем она поможет в настройке межсетевого экрана.
Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

image
Читать полностью »

Пекин введёт социальный рейтинг для жителей города в 2020 году - 1
Система социального рейтинга в сериале «Чёрное зеркало»: сезон 3, эпизод 1

Власти Китая ранее заявляли о планах ввести социальный рейтинг для всех 1,3 миллиарда граждан страны в 2020 году. Очевидно, этим планам не суждено воплотиться в жизнь, и реализация программы в глобальном масштабе займёт гораздо больше времени. Тем не менее, киберпанковская система социального ранжирования граждан с компьютерным вычислением ценности каждого гражданина для общества в зависимости от его социального поведения становится всё ближе.

Недавно стало известно, что столица страны Пекин собирается внедрить программу пожизненных баллов до конца 2020 года. Каждому из 21,7 млн жителей мегаполиса будет присвоен социальный рейтинг. Официальный план 中共北京市委 北京市人民政府关于印发《北京市进一步优化营商环境行动计划(2018年—2020年)》的通知 опубликован 18 июля 2018 года на веб-сайте муниципального правительства Пекина.
Читать полностью »

Всем добрый день!

И у нас снова открыт новый поток на доработанный курса «Data scientist»: ещё один отличный преподаватель, чуть доработанная исходя из обновлений программа. Ну и как обычно интересные открытые уроки и подборки интересных материалов. Сегодня мы начнём разбор seq2seq моделей от Tensor Flow.

Поехали.

Как уже обсуждалось в туториале RNN (рекомендуем ознакомиться с ним перед чтением этой статьи), рекуррентные нейронные сети можно научить моделировать язык. И возникает интересный вопрос: возможно ли обучение сети на определенных данных для генерации осмысленного ответа? Например, можем ли мы научить нейронную сеть переводить с английского языка на французский? Оказывается, что можем.

Это руководство покажет вам, как создать и обучить такую систему end-to-end. Скопируйте основной репозиторий Tensor Flow и репозиторий моделей TensorFlow с GitHub. Затем, можно начать с запуска программы перевода:

cd models/tutorials/rnn/translate
python translate.py --data_dir [your_data_directory]

Модели Sequence-to-Sequence Ч.1 - 1Читать полностью »

Data Engineering и не только: видеозаписи и слайды с митапа - 1

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »

Splunk. Легкий Troubleshooting работы приложений - 1

Как часто вы используете уже созданные надстройки со Splukbase, вместо того, чтобы написать собственные? Всегда ли в них есть то, что вы хотели бы увидеть? Все ли в них работает нормально, даже если устанавливалось точно по инструкции? Сегодня мы поговорим об особенностях работы с приложениями Splunk.

А именно, научимся разбираться в том, как формируются запросы в приложениях, чтобы в дальнейшем на их основе сделать что-то конкретное под свою задачу. А также рассмотрим несколько причин, из-за которых зачастую приложения начинают работать криво или не работают совсем.
Читать полностью »

Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения таких задач примерно одинаковы. И грабли, на которые можно наступить, тоже во многом похожи.

Для решения подобного класса задач R подходит как нельзя лучше. Но, чтобы не разводить разочарованно руками, что R может и хорош, но о-о-очень медленный, важно обращать внимание на производительность выбираемых методов обработки данных.

Является продолжением предыдущих публикаций.Читать полностью »

Посекундный биллинг, маркетплейс и песочницы для Big Data: что могут тестовые среды в облаке - 1

Любой компании, разрабатывающей софт, нужны тестовые среды, приближенные к продакшн-окружению. Особенно это актуально для коробочного ПО, у которого длинный цикл релизов.
Многие проблемы построения тестовых сред решает их размещение в облаке. Мы расскажем про возможности тестирования на нашей облачной платформе Mail.Ru Cloud Solutions (MCS). Но часть из того, что мы расскажем, верна для любого облака.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js