Рубрика «машинное обучение» - 90

XLNet против BERT - 1

В конце июня коллектив из Carnegie Mellon University показал нам XLNet, сразу выложив публикацию, код и готовую модель (XLNet-Large, Cased: 24-layer, 1024-hidden, 16-heads). Это предобученная модель для решения разных задач обработки естественного языка.

В публикации они сразу же обозначили сравнение своей модели с гугловым BERT-ом. Они пишут, что XLNet превосходит BERT в большом количестве задач. И показывает в 18 задачах state-of-the-art результаты.
Читать полностью »

Введение

Некоторое время назад мне потребовалось решить задачу сегментации точек в Point Cloud (облака точек — данные, полученные с лидаров).

Пример данных и решаемой задачи:
пример данных

Поиски общего обзора существующих методов оказались неуспешными, поэтому пришлось собирать информацию самостоятельно. Результат вы можете видеть: здесь собраны наиболее важные и интересные (по моему мнению) статьи за последние несколько лет. Все рассмотренные модели решают задачу сегментации облака точек (к какому классу принадлежит каждая точка).

Эта статья будет полезна тем, кто хорошо знаком с нейронными сетями и хочет понять, как применять их к неструктурированным данным (к примеру графам).

Читать полностью »

В MIT представили интерактивный инструмент, который дает понять, почему интеллектуальная система принимает то или иное решение. В этом материале — о том, как он работает.

Заглянуть в черный ящик — новая система от MIT покажет, как работают алгоритмы машинного обучения - 1Читать полностью »

О статьях по искусственному интеллекту на русском языке

Не смотря на то что механизм Attention описан в англоязычной литературе, в русскоязычном секторе достойного описание данной технологии я до сих пор не встречал. На нашем языке есть много статей по Искусственному Интеллекту (ИИ). Тем не менее, те статьи, которые удалось найти, раскрывают только самые простые модели ИИ, например, свёрточные сети, генеративные сети. Однако, по передовым новейшим разработками в области ИИ статей в русскоязычном секторе крайне мало.

Читать полностью »

Предложения относительно уязвимостей и защиты моделей машинного обучения - 1

В последнее время эксперты все чаще затрагивают вопрос безопасности моделей машинного обучения и предлагают различные способы защиты. Самое время детально изучить потенциальные уязвимости и средства защиты в контексте популярных традиционных систем моделирования, таких как линейные и древовидные модели, обучаемые на статических датасетах. Хотя автор статьи не эксперт по безопасности, он очень внимательно следит за такими темами, как отладка (debugging), объяснение (explanations), объективность (fairness), интерпретируемость (interpretability) и конфиденциальность (privacy) в машинном обучении.

В этой статье приведем несколько вероятных векторов атак на типичную систему машинного обучения в типичной организации, предложим ориентировочные решения для защиты и рассмотрим некоторые общие проблемы и наиболее перспективные практики.
Читать полностью »

Хабр, привет.

Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта. Всем приятного чтения!

1. Проекты искусственного интеллекта, с которыми можно поиграться уже сегодня. Что вы знаете про искусственный интеллект и машинное обучение? Современный тренд или потенциально мощная сила, способная убивать людей? Эти модные понятия всё чаще на слуху, но далеко не все знают, что же это на самом деле. Пришло время изучить эти технологии с помощью простого и интересного подхода — попробовать искусственный интеллект и нейросети самостоятельно на практике.

image

Подробнее

2. Изучение ИИ, если ты ничего не понимаешь в математике. Может быть, вы хотели бы копать глубже и запустить программу распознавания изображений в TensorFlow или Theano? Возможно, вы офигительный разработчик или системный архитектор и вы очень хорошо знаете компьютеры, но есть только одна маленькая проблема: Вы не понимаете в математике.

image

Подробнее

3. Как построить систему модерации сообщений. Системы автоматической модерации обычно встроены в веб-сервисы и приложения, где должно обрабатываться большое количество пользовательских сообщений. Такие системы могут снизить затраты на ручную модерацию и ускорить модерацию, обрабатывая все пользовательские сообщения в режиме реального времени. В этой статье будет обсуждаться разработка системы автоматической модерации с использованием алгоритмов машинного обучения.

image

Подробнее Читать полностью »

В реальном внедрении ML само обучение занимает от силы четверть усилий. Остальные три четверти — подготовка данных через боль и бюрократию, сложный деплой часто в закрытом контуре без доступа в интернет, настройка инфраструктуры, тестирование и мониторинг. Документы на сотни листов, ручной режим, конфликты версий моделей, open source и суровый enterprise — все это ждет data scientist’а. Но такие «скучные» вопросы эксплуатации ему не интересны, он хочет разработать алгоритм, добиться высокого качества, отдать и больше не вспоминать.

Возможно, где-то ML внедряется легче, проще, быстрее и одной кнопкой, но мы таких примеров не видели. Все, что выше — опыт компании Front Tier в финтехе и телекоме. О нем на HighLoad++ рассказал Сергей Виноградов — эксперт в архитектуре высоконагруженных систем, в больших хранилищах и тяжелом анализе данных.

Жизненный цикл ML в боевых условиях - 1
Читать полностью »

Мы привыкли к тому, что специалисты по машинному обучению огромную часть своего рабочего времени сидят над анализом табличных данных или обучают нейросеть для раскладывания фотографий кошек и собак на две аккуратные кучки. Ибо такова воля бизнеса — чаще всего нужно давать прогнозы, классифицировать данные и строить модели.

Сегодня мы проветрим мозги и разомнем дряблеющие от скуки синапсы с помощью кое-чего интересного — OpenAI Gym.

Мелкая питонячая радость #6: OpenAI Gym — играем в игры и управляем роботами - 1

Читать полностью »

Меня зовут Стас Кириллов, я ведущий разработчик в группе ML-платформ в Яндексе. Мы занимаемся разработкой инструментов машинного обучения, поддержкой и развитием инфраструктуры для них. Ниже — мой недавний доклад о том, как устроена библиотека CatBoost. В докладе я рассказал о входных точках и особенностях кода для тех, кто хочет его понять или стать нашим контрибьютором.

— CatBoost у нас живет на GitHub под лицензией Apache 2.0, то есть открыт и бесплатен для всех. Проект активно развивается, сейчас у нашего репозитория больше четырех тысяч звездочек. CatBoost написан на C++, это библиотека для градиентного бустинга на деревьях решений. В ней поддержано несколько видов деревьев, в том числе так называемые «симметричные» деревья, которые используются в библиотеке по умолчанию.

Читать полностью »

image

Древние египтяне знали толк в вивисекции и могли на ощупь отличить печень от почки. Пеленая с утра до вечера мумии и занимаясь врачеванием (от трепанации до удаления опухолей), поневоле научишься разбираться в анатомии.

Богатство анатомических подробностей с лихвой компенсировалось неразберихой с пониманием функции органов. Жрецы, врачи и простой люд смело помещали разум в сердце, а мозгу отводили роль производителя слизи для носа.

Спустя 4 тыс. лет трудно позволить себе смеяться над феллахами и фараонами — наши компьютеры и алгоритмы сбора данных выглядят круче, чем папирусные свитки, а мозг все так же загадочно производит не пойми что.

Вот и в данной статье предполагалось рассказать о том, что алгоритмы распознавания эмоций достигли скорости зеркальных нейронов в интерпретации сигналов собеседника, как вдруг выяснилось, что нервные клетки стали не тем, чем кажутся.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js