Рубрика «машинное обучение» - 140

Топ-10 инструментов Python для машинного обучения и data-science - 1

Python — один из наиболее популярных языков программирования. Причина — в его универсальности, ведь это мультитул с возможностью «заточки» под самые разные нужды. Сегодня мы публикуем подборку с описанием 10 полезных для data-scientist и специалиста по ИИ инструментов.

Машинное обучение, нейросети, Big-data — всё более растущий тренд, а значит, нужно все больше специалистов. Синтаксис Python математически точный, так что его понимают не только программисты, но и все, кто связан с техническими науками, — вот почему такое количество новых инструментов создается именно на этом языке.
Читать полностью »

Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Анатомия рекомендательных систем. Часть первая - 1

Источник
Читать полностью »

Реконструкция изображения: 1 км оптоволокна, искусственная нейронная сеть и глубокое обучения - 1

В наше время оптические волокна стали неотъемлемой частью самых разных сфер жизни человека: от домашнего интернета до эндоскопии. Использование оптических волокон обусловлено целым рядом преимуществ: скорость передачи, физическая прочность, пропускная способность, информационная безопасность и т.д.

Дабы увеличить пропускную способность было создано многомодовое оптоволокно (MMF), когда информация передается по нескольким параллельным каналам. Несмотря на все свои достоинства, MMF имеет и ряд недостатков, один из которых исследователи решили ликвидировать, дабы усовершенствовать процесс передачи изображений. Суть такова: когда образец проецируется на проксимальную сторону MMF, изображение, которое мы получаем на дистальной стороне, представляет собой спекл, поскольку его входящие данные распределяются по множеству мод с разной степенью распространения вдоль длины волокна. Ученые предлагают использовать комбинацию многомодового волокна и глубокое обучение для искусственных нейронных сетей, чтобы получать точные изображения, в том числе и при использовании эндоскопии. Давайте покопаемся в отчете исследователей и попробуем понять как это работает и какие дает результаты. Поехали.Читать полностью »

AI, практический курс. Базовая модель распознавания эмоций на изображениях - 1

В этой статье мы займемся построением базовой модели сверточной нейросети, которая способна выполнять распознавание эмоций на изображениях. Распознавание эмоций в нашем случаем представляет собой задачу двоичной классификации, целью которой является разделение изображений на позитивные и негативные.

Весь код, документы в формате notebook и прочие материалы, включая Dockerfile, можно найти здесь.
Читать полностью »

Всем привет!

В рамках нашего курса Data Scientist мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.

Заранее спасибо.

Читать полностью »

image

Сегодня в Лондоне стартовала одна из главных Data Science конференций года, постараюсь оперативно рассказывать о том, что интересного удалось услышать.
Читать полностью »

предыдущие главы

20 Систематические и случайные: Два основных источника ошибок

Предположим, ваша тренировочная, валидационная и тестовая выборки имеют одно и то же распределение. Тогда нужно брать больше данных для обучения, это только улучшит качество работы алгоритма, верно ли это?

Несмотря на то, что получение большего количества данных не может повредить работе, к сожалению, новые данные не всегда помогают настолько, насколько можно ожидать. В некоторых случаях работа по получению дополнительных данных может оказаться пустой тратой усилий. Как принять решение — в каких случаях добавлять данные, а когда не стоит об этом беспокоиться.

В машинном обучении присутствуют два главных источника ошибок: систематические и случайные (Variance) (дисперсионные). Понимание того, что они из себя представляют поможет вам решить — нужно ли добавлять еще данные, так же поможет выбрать тактику по улучшению качества работы классификатора.

замечание переводчика Variance переводится, как дисперсия или отклонение. Но я буду использовать не «дисперсию» или «дисперсионную ошибку», а более свойственное русскоязычной технической литературе определение «случайной ошибки». К тому же дисперсия в теории вероятностей и статистике имеет очень конкретный математический смысл и формальное выражение, которое еще дальше от значения, вкладываемого в это понятие автором.

Предположим, вы надеетесь построить кошачий распознователь, имеющий 5% ошибок. На текущий момент ошибка вашего классификатора на тренировочной выборке 15%, на валидационной выборке 16%. В таком случае добавление тренировочных данных вряд ли поможет существенно увеличить качество. Вы должны сконцентрироваться на других изменениях системы. В действительности, добавление большего количества примеров в вашу тренировочную выборку только усложнит для вашего алгоритма получение хорошего результата на этой выборке (почему так получается будет объяснено в следующих главах).

Читать полностью »

Успех в проектах по машинному обучению обычно связан не только с умением применять разные библиотеки, но и с пониманием той области, откуда взяты данные. Отличной иллюстрацией этого тезиса стало решение, предложенное командой Алексея Каюченко, Сергея Белова, Александра Дроботова и Алексея Смирнова в конкурсе PIK Digital Day. Они заняли второе место, а спустя пару недель рассказали о своём участии и построенных моделях на очередной ML-тренировке Яндекса.

Алексей Каюченко:
— Добрый день! Мы расскажем о соревновании PIK Digital Day, в котором мы участвовали. Немного о команде. Нас было четыре человека. Все с абсолютно разным бэкграундом, из разных областей. На самом деле, мы на финале познакомились. Команда сформировалась буквально за день до финала. Я расскажу про ход конкурса, организацию работы. Потом выйдет Сережа, он расскажет про данные, а Саша расскажет уже про сабмишен, про финальный ход работы и про то, как мы двигались по лидерборду.

Читать полностью »

Когда-либо слышали о «deepfakes»? ИИ, который накладывает лицо одного человека на тело другого, использовали для замены Харрисона Форда на Николаса Кейджа в бесчисленных видеоклипах, а также и для более гнусных целей: знаменитости без их ведома появились в порно и пропаганде. Теперь, к лучшему или худшему, исследователи из Университета Carnegie Mellon разработали новую, более мощную и универсальную систему.

Читать полностью »

Магическое мышление по поводу машинного обучения не приблизит появление реального ИИ - 1

«Любая достаточно развитая технология», — писал серый кардинал научной фантастики Артур Кларк, — «неотличима от магии». Эта цитата, которую без устали цитируют продвигающие технологию фанаты, пожалуй, стала самым разрушительным высказыванием из всех, что сделал Кларк, поскольку она поощряет наше гипнотическое изумление перед технологиями и отключает критическое мышление. Поскольку, когда речь идёт о «магии», это по определению будет что-то необъяснимое. Нет смысла задавать вопросы об этом; просто принимайте его, как оно есть, расслабьтесь и приглушите недоверие.

Сейчас больше всего магического мышления притягивает к себе искусственный интеллект (ИИ). Энтузиасты описывают его так, будто это самое важное изобретение со времён колеса. Пессимисты рассматривают его как экзистенциальную угрозу человечеству: первая «сверхумная» машина, которую мы создадим, станет началом конца человечества; единственный вопрос, будут ли машины содержать нас в качестве домашних животных.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js