Рубрика «Блог компании Open Data Science» - 3

Машинное обучение на языке R с использованием пакета mlr3

2020-04-07 в 11:59, admin, рубрики: mlr3, R, tidyverse, Блог компании Open Data Science, машинное обучение

Машинное обучение на языке R с использованием пакета mlr3 - 1

Источник: https://mlr3book.mlr-org.com/

Привет!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:

Читать полностью »

Распространение сферического коня в вакууме по территории РФ

2020-03-30 в 8:29, admin, рубрики: data mining, dataScience, ods, open source, python, Блог компании Open Data Science, визуализация, Здоровье гика

Распространение сферического коня в вакууме по территории РФ - 1

Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.

Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:

любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы пониманием язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.

Под катом — результаты нашего марш-броска на датасет.

Читать полностью »

Рубрика «Читаем статьи за вас». Январь — Февраль 2020

2020-03-20 в 12:15, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Рубрика «Читаем статьи за вас». Январь — Февраль 2020 - 1

Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Представлены обзоры 11 статей по Computer Vision, Natural Language Processing, Reinforcement learning и другим темам.

Читать полностью »

Настройка функции потерь для нейронной сети на данных сейсморазведки

2020-02-18 в 10:19, admin, рубрики: analysis, cnn, data interpretation, deep learning, loss, machine learning, maritime, ods, python, seismic, unet, Блог компании Open Data Science, Геоинформационные сервисы, искусственный интеллект, машинное обучение

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Настройка функции потерь для нейронной сети на данных сейсморазведки - 1
Читать полностью »

Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

2020-02-06 в 11:00, admin, рубрики: course, deep learning, deeppavlov, DL, machine learning, natural language processing, nlp, ods, ods.ai, open data science, python, Блог компании Open Data Science, искусственный интеллект, машинное обучение

Всем привет!

Вступление

Меня зовут Алексей Клоков, я хочу рассказать о запуске классного курса по обработке естественного языка (Natural Language Processing), который очередной раз запускают физтехи из проекта DeepPavlov – открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Благодарю их и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге. Итак, поехали!

Читать полностью »

Рубрика «Читаем статьи за вас». Октябрь — Декабрь 2019

2020-01-29 в 11:00, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Рубрика «Читаем статьи за вас». Октябрь — Декабрь 2019 - 1

Статьи на сегодня:

Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring (Facebook, 2019)
Implicit Discriminator in Variational Autoencoder (Indian Institute of Technology Ropar, 2019)
Self-training with Noisy Student improves ImageNet classification (Google Research, Carnegie Mellon University, 2019)
Momentum Contrast for Unsupervised Visual Representation Learning (Facebook, 2019)
Benchmarking Neural Network Robustness to Common Corruptions and Perturbations (University of California, Oregon State University, 2019)
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (Hugging Face, 2019)
Plug and Play Language Models: A Simple Approach To Controlled Text Generation (Uber AI, Caltech, HKUST, 2019)
Deep Salience Representation for F0 Estimation in Polyphonic Music ( New York University, USA, 2017)
Analyzing and Improving the Image Quality of StyleGAN (NVIDIA, 2019)

Читать полностью »

SVM. Объяснение с нуля, имплементация и подробный разбор

2020-01-23 в 11:00, admin, рубрики: classification, data mining, loss function, machine learning, margin, ods, ods.ai, open data science, python, support vectors, SVM, Алгоритмы, Блог компании Open Data Science, машинное обучение, опорные вектора

Привет всем, кто выбрал путь ML-самурая!

Введение:

В данной статье рассмотрим метод опорных векторов (англ. SVM, Support Vector Machine) для задачи классификации. Будет представлена основная идея алгоритма, вывод настройки его весов и разобрана простая реализация своими руками. На примере датасета $Iris$ будет продемонстрирована работа написанного алгоритма с линейно разделимыми/неразделимыми данными в пространстве $R^2$ и визуализация обучения/прогноза. Дополнительно будут озвучены плюсы и минусы алгоритма, его модификации.

Рисунок 1. Фото цветка ириса из открытых источников

Читать полностью »

TensorRT 6.x.x.x — высокопроизводительный инференс для моделей глубокого обучения (Object Detection и Segmentation)

2020-01-20 в 12:17, admin, рубрики: aurorai.ru, devops, docker, machine learning, object detection, ods.ai, python, pytorch, segmentation, tensorrt, Блог компании Open Data Science, машинное обучение, обработка изображений

Больно только в первый раз!

Всем привет! Дорогие друзья, в этой статье я хочу поделиться своим опытом использования TensorRT, RetinaNet на базе репозитория github.com/aidonchuk/retinanet-examples (это форк официальной репы от nvidia, который позволит начать использовать в продакшен оптимизированные модели в кратчайшие сроки). Пролистывая сообщения в каналах сообщества ods.ai, я сталкиваюсь с вопросами по использованию TensorRT, и в основном вопросы повторяются, поэтому я решил написать как можно более полное руководство по использованию быстрого инференса на основе TensorRT, RetinaNet, Unet и docker.
Читать полностью »

Проект Lacmus: как компьютерное зрение помогает спасать потерявшихся людей

2020-01-16 в 11:02, admin, рубрики: liza alert, Блог компании Open Data Science, будущее здесь, искусственный интеллект, Компьютерное зрение, машинное обучение, нейросети, обработка изображений, поиск людей, спасатели

Всем привет!

Возможно, вы уже знаете про инициативу Machine Learning for Social Good (#ml4sg) сообщества Open Data Science. В её рамках энтузиасты на бесплатной основе применяют методы машинного обучения для решения социально-значимых проблем. Мы, команда проекта Lacmus (#proj_rescuer_la), занимаемся внедрением современных Deep Learning-решений для поиска людей, потерявшихся вне населённой местности: в лесу, поле и т.д.
Проект Lacmus: как компьютерное зрение помогает спасать потерявшихся людей - 1
Читать полностью »

Эксперименты с нейронными сетями на данных сейсморазведки

2020-01-10 в 7:06, admin, рубрики: analysis, cnn, data interpretation, deep lealning, machine lerning, maritime, ods, python, seismic, unet, Блог компании Open Data Science, Геоинформационные сервисы, искусственный интеллект, машинное обучение

Сложность интерпретации данных сейсмической разведки связана с тем, что к каждой задаче необходимо искать индивидуальный подход, поскольку каждый набор таких данных уникален. Ручная обработка требует значительных трудозатрат, а результат часто содержит ошибки, связанные с человеческим фактором. Использование нейронных сетей для интерпретации может существенно сократить ручной труд, но уникальность данных накладывает ограничения на автоматизацию этой работы.

Данная статья описывает эксперимент по анализу применимости нейронных сетей для автоматизации выделения геологических слоев на 2D-изображениях на примере полностью размеченных данных из акватории Северного моря.
Проведение акваториальной сейсморазведки
Рисунок 1. Проведение акваториальной сейсморазведки (источник)
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Блог компании Open Data Science» - 3

Машинное обучение на языке R с использованием пакета mlr3

Содержание:

Распространение сферического коня в вакууме по территории РФ

Рубрика «Читаем статьи за вас». Январь — Февраль 2020

Настройка функции потерь для нейронной сети на данных сейсморазведки

Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

Рубрика «Читаем статьи за вас». Октябрь — Декабрь 2019

SVM. Объяснение с нуля, имплементация и подробный разбор

TensorRT 6.x.x.x — высокопроизводительный инференс для моделей глубокого обучения (Object Detection и Segmentation)

Проект Lacmus: как компьютерное зрение помогает спасать потерявшихся людей

Эксперименты с нейронными сетями на данных сейсморазведки

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Блог компании Open Data Science» - 3

Содержание:

Новости

Актуальные темы

Архив