Рубрика «big data» - 38

Пишем XGBoost с нуля — часть 1: деревья решений - 1

Привет!

После многочисленных поисков качественных руководств о решающих деревьях и ансамблевых алгоритмах (бустинг, решающий лес и пр.) с их непосредственной реализацией на языках программирования, и так ничего не найдя (кто найдёт — напишите в комментах, может, что-то новое почерпну), я решил сделать своё собственное руководство, каким бы я хотел его видеть. Задача на словах простая, но, как известно, дьявол кроется в мелочах, коих в алгоритмах с деревьями очень много.

Так как тема достаточно обширная, то очень сложно будет уместить всё в одну статью, поэтому будет две публикации: первая посвящена деревьям, а вторая часть будет посвящена реализации алгоритма градиентного бустинга. Весь изложенный здесь материал собран и оформлен на основе открытых источников, моего кода, кода коллег и друзей. Сразу предупреждаю, кода будет много.

Пишем XGBoost с нуля — часть 1: деревья решений - 2
Читать полностью »

Краткая история одной «умной ленты» - 1

Социальные сети — это один из наиболее востребованных на сегодняшний день интернет-продуктов и один из основных источников данных для анализа. Внутри же самих социальных сетей самой сложной и интересной задачей в сфере data science по праву считается формирование ленты новостей. Ведь для удовлетворения всё возрастающих требований пользователя к качеству и релевантности контента необходимо научиться собирать информацию из многих источников, вычислять прогноз реакции пользователя и балансировать между десятками конкурирующих метрик в А/Б-тесте. А большие объемы данных, высокие нагрузки и жесткие требования к скорости ответа делают задачу ещё интереснее.
Читать полностью »

Apache Kafka и RabbitMQ: семантика и гарантия доставки сообщений - 1

Подготовили перевод следующей части многосерийной статьи, где сравнивается функциональность Apache Kafka и RabbitMQ. В этой публикации речь идёт о семантике и гарантии доставки сообщений. Обращаем ваше внимание, что автор учитывал Кафку до версии 0.10 включительно, а в версии 0.11 появился exactly-once. Тем не менее, статья остаётся актуальной и полна полезных с практической точки зрения моментов.
Предыдущие части: первая, вторая.

Читать полностью »

Такая разная онлайн-реклама. Три топора vs. AI, Ad Tech и DOOH - 1

«Лучшие умы поколения заняты тем, как заставить людей кликать мышью по рекламным объявлениям, — сказал мне Джефф Хаммербахер, ранее инженер Facebook. — Ужас…», — Илон Маск (Tesla, SpaceX и дорога в будущее).

Наши умы в IPONWEB заняты тем же.

И вот вроде у нас умная бизнес-логика, принимающая решение о том, какую рекламу показать пользователю, мощные кластеры для анализа больших данных, сложного склеивания и матчинга на лету, обучающийся алгоритм, предсказывающий клики, конверсии и даже потенциальную цену, сложный алгоритм подсчета бюджета, который умеет оптимизировать ставки в режиме реального времени, … а представление о рекламных технологиях в Рунете все равно формирует Азино 777. Не надо так, подумали мы, и решили начать рассказывать на Хабре о настоящих рекламных технологиях.
Читать полностью »

Успех новых продуктов у аудитории можно предсказать с помощью машинного обучения. Такой метод прогноза в последние годы стали использовать и в кинобизнесе. О том, как узнать с помощью ИИ, стоит ли выпускать новый фильм и как его рекламировать, — в обзоре Binary District.

Камера, мотор, Big Data: как киностудии ищут новые фильмы с помощью ИИ - 1
Читать полностью »

Распознавание рентгеновских снимков: precision=0.84, recall=0.96. А нужны ли нам еще врачи? - 1

В последнее время все чаще обсуждается применение AI в медицине. И, конечно, область медицины, которая прямо напрашивается для такого применения это областей диагностики.

Кажется, и раньше можно было применять экспертные системы и алгоритмы классификации к задачам постановки диагноза. Однако, есть одна область AI, которая добилась наибольших успехов в последние годы, а именно область распознавания изображений и сверточные нейронные сети. На некоторых тестах алгоритмы AI в распознавании картинок превзошли человека. Вот два примера: Large Scale Visual Recognition Challenge и German Traffic Sign Recognition Benchmark.

Соответственно, возникла идея применить AI к области распознавания изображений там, где и врачи занимаются распознаванием изображений, а именно к анализу снимков и, для начала, рентгеновских снимков.Читать полностью »

image

В прошлых статьях я попытался рассказать про основы ценообразования и построения дерева принятия решений покупателя для классического ритейла. В данной статье расскажу про очень нестандартный кейс и постараюсь убедить вас, что использовать машинное обучение не так сложно, как кажется. Статья менее техничная и скорее призвана показать, что можно начать с малого и это уже принесет ощутимую пользу для бизнеса.

Читать полностью »

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

  • умение писать код (Python);
  • способность визуализировать свои результаты;
  • понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Data Science: книги для начального уровня - 1Читать полностью »

В середине 2018 года была опубликована работа по электрофизиологии головного мозга крыс, совместно с которой был выложен в открытый доступ один уникальный набор данных. Уникальность датасета состоит в том, что в нем присутствуют одновременные записи локального полевого потенциала с помощью нового высокоплотного электрода Neuropixels (проба, или probe) и патч-электрода от клетки, находящейся вблизи пробы. Интерес к подобным записям не только фундаментальный, но и прикладной, потому что позволяет валидировать модели для анализа нейрональной активности, зарегистрированной современными пробами. А это, в свою очередь, непосредственно касается разработки новых нейропротезов. В чем принципиальная новизна, и почему этот датасет такой важный, — я расскажу под катом.

Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать - 1
КДПВ: результат моделирования внеклеточного потенциала вблизи одного нейрона при генерации потенциала действия (источник). Цветом обозначена амплитуда потенциала. Данная иллюстрация будет важна для дальнейшего понимания.
Читать полностью »

Роботизация может вести к диктатуре - 1

Предыдущая статья на тему замены человека роботом получила большое количество комментариев. Получается, тема живая не только в наших головах.

Поскольку мы сами вносим вклад в роботизацию как в контексте обучения в нашей Школе, так и в контексте проектов, которые мы делаем, то невольно нам приходится задумываться на предмет того, куда в пределе этот процесс может вести и как избежать сопутствующих ему угроз.

В этой публикации мы решили отчасти ответить на комментарии из предыдущей статьи, отчасти немного дальше развить тему. Если кто-то не читал изначальную публикацию — предлагаем это сделать, а также комментарии к ней.

Итак, давайте временно не будем спорить о том, случится так, что роботы смогут заменить человека или нет. Не случится — ок. Но, вот если случится, то дальнейшее нам видится так:Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js