Я бы хотел получить такое письмо три года назад, когда только начинал изучать Data Science (DS). Чтобы там были необходимые ссылки на полезные материалы. Статья не претендует на полноту охвата необъятной области DS. Однако для начинающего специалиста будет полезна.
Рубрика «deep learning» - 6
Письмо начинающему изучать Data Science
2020-01-01 в 20:10, admin, рубрики: Anaconda Python, data science, deep learning, machine learning, python, глубокое обучение, искусственные нейронные сети, искусственный интеллект, машинное обучение, нейросети, обработка изображений, Программирование, распознавание изображенийДжедайская техника уменьшения сверточных сетей — pruning
2019-12-27 в 7:10, admin, рубрики: cnn, convolutional neural network, CUDA, deep learning, eco, gpu, keras, machine learning, neural networks, Nvidia, optimization, pruning, python, speedup, TensorFlow, tensorrt, yolo, высокая производительность, искусственный интеллект, Исследования и прогнозы в IT, машинное обучениеПеред тобой снова задача детектирования объектов. Приоритет — скорость работы при приемлемой точности. Берешь архитектуру YOLOv3 и дообучаешь. Точность(mAp75) больше 0.95. Но скорость прогона всё еще низкая. Черт.
Сегодня обойдём стороной квантизацию. А под катом рассмотрим Model Pruning — обрезание избыточных частей сети для ускорения Inference без потери точности. Наглядно — откуда, сколько и как можно вырезать. Разберем, как сделать это вручную и где можно автоматизировать. В конце — репозиторий на keras.
7 лет хайпа нейросетей в графиках и вдохновляющие перспективы Deep Learning 2020-х
2019-12-25 в 7:01, admin, рубрики: alexnet, AutoML, Batch Normalization, big data, cnn, computer science, data science, deep learning, Deepfake, deeplab, DenseNet, dropout, GAN, hardware acceleration, pytorch, resnet, TensorFlow, vgg, искусственный интеллект, машинное обучение, Научно-популярное, нейросети, скорость прогресса, Статистика в ITНовый год все ближе, скоро закончатся 2010-е годы, подарившие миру нашумевший ренессанс нейросетей. Мне не давала покоя и лишала сна простая мысль: «Как можно ретроспективно прикинуть скорость развития нейросетей?» Ибо «Тот, кто знает прошлое — тот знает и будущее». Как быстро «взлетали» разные алгоритмы? Как вообще можно оценить скорость прогресса в этой области и прикинуть скорость прогресса в следующем десятилетии?
Понятно, что можно примерно посчитать количество статей по разным областям. Метод не идеальный, нужно учитывать подобласти, но в целом можно пробовать. Дарю идею, по Google Scholar (BatchNorm) это вполне реально! Можно считать новые датасеты, можно новые курсы. Ваш же покорный слуга, перебрав несколько вариантов, остановился на Google Trends (BatchNorm).
Мы с коллегами взяли запросы основных технологий ML/DL, например, Batch Normalization, как на картинке выше, точкой добавили дату публикации статьи и получили вполне себе график взлета популярности темы. Но не у всех тем путь усыпан розами взлет такой явный и красивый, как у батчнорма. Некоторые термины, например регуляризацию или skip connections, вообще не получилось построить из-за зашумленности данных. Но в целом тренды собрать удалось.
Кому интересно, что получилось — добро пожаловать под кат!
Читать полностью »
Как подружить PyTorch и C++. Используем TorchScript
2019-12-17 в 11:02, admin, рубрики: c++, computer vision, data science, deep learning, machine learning, python, pytorch, TorchScript, Блог компании Open Data Science, машинное обучение, обработка изображений, ПрограммированиеОколо года назад разработчики PyTorch представили сообществу TorchScript — инструмент, который позволяет с помощью пары строк кода и нескольких щелчков мыши сделать из пайплайна на питоне отчуждаемое решение, которое можно встроить в систему на C++. Ниже я делюсь опытом его использования и постараюсь описать встречающиеся на этом пути подводные камни. Особенное внимание уделю реализации проекта на Windows, поскольку, хотя исследования в ML обычно делаются на Ubuntu, конечное решение часто (внезапно!) требуется под "окошками".
Примеры кода для экспорта модели и проекта на C++, использующего модель, можно найти в репозиториии на GitHub.
52 датасета для тренировочных проектов
2019-12-16 в 13:18, admin, рубрики: data science, dataset, deep learning, edisonsoftware, machine learning, python, Блог компании Edison, машинное обучение, Программирование, Учебный процесс в IT- Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
- Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
- MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
- The Boston Housing DatasetЧитать полностью »
14 open-source проектов для прокачки Data Science мастерства (easy, normal, hard)
2019-12-15 в 18:39, admin, рубрики: data science, deep learning, edisonsoftware, open source, python, Блог компании Edison, машинное обучение, Программирование, Учебный процесс в ITData Science для начинающих
1. Sentiment Analysis (Анализ настроений через текст)
Посмотрите полную реализацию проекта Data Science с использованием исходного кода — Sentiment Analysis Project в R.
Sentiment Analysis — это анализ слов для определения настроений и мнений, которые могут быть положительными или отрицательными. Это тип классификации, при котором классы могут быть двоичными (положительными и отрицательными) или множественными (счастливыми, злыми, грустными, противными ...). Мы реализуем этот Data Science проект на языке R и будем использовать набор данных в пакете «janeaustenR». Мы будем использовать словари общего назначения, такие как AFINN, bing и loughran, выполнять внутреннее соединение, и в конце мы создадим облако слов, чтобы отобразить результат.
Язык: R
Набор данных/Пакет: janeaustenR
Читать полностью »
Эксплуатация машинного обучения в Почте Mail.ru
2019-11-21 в 11:54, admin, рубрики: big data, deep learning, machine learning, mail, Блог компании Mail.Ru Group, искусственный интеллект, машинное обучениеПо мотивам моих выступлений на Highload++ и DataFest Minsk 2019 г.
Для многих сегодня почта является неотъемлемой частью жизни в сети. С ее помощью мы ведем бизнес-переписку, храним всевозможную важную информацию, связанную с финансами, бронированием отелей, оформлением заказов и многим другим. В середине 2018 года мы сформулировали продуктовую стратегию развития почты. Какой же должна быть современная почта?
Почта обязана быть умной, то есть помогать пользователям ориентироваться в увеличивающемся объеме информации: фильтровать, структурировать и предоставлять ее наиболее удобным способом. Она должна быть полезной, позволяя прямо в почтовом ящике решать различные задачи, например, оплачивать штрафы (функция, которой я, к своему сожалению, пользуюсь). И при этом, разумеется, почта должна обеспечивать информационную защиту, отсекая спам и защищая от взломов, то есть быть безопасной.
Читать полностью »
DeepPavlov для разработчиков: #2 настройка и деплоймент
2019-11-20 в 17:28, admin, рубрики: deep learning, deeppavlov, devops, ipavlov, nlp (natural language processing), open source, python, Блог компании Московский физико-технический институт (МФТИ), искусственный интеллект, лаборатория нейронных систем мфти, машинное обучение, МФТИ, нейросети, физтехВсем привет! В первой статье из нашего цикла мы узнали, что такое DeepPavlov, какие модели библиотеки готовы к использованию без предварительного обучения и как запустить REST серверы с ними. Перед тем, как приступить к обучению моделей, мы расскажем о различных возможностях деплоймента моделей DeepPavlov и некоторых особенностях настройки библиотеки.
Договоримся, что все скрипты запуска библиотеки выполняются в environment Python с установленной библиотекой DeepPavlov (про установку см. первую статью, про virtualenv можно прочитать здесь). Примеры из этой статьи не требуют знания синтаксиса Python.
Что ты такое? Как мы spoof от human отличали — да еще и победили
2019-11-12 в 9:01, admin, рубрики: AI, deep learning, machine learning, python, spoofing, звук, искусственный интеллект, машинное обучение, нейросети, обработка звука, Соревнования по машинному обучениюНедавно прошел ID R&D Voice Antispoofing Challenge, главной задачей которого было создать алгоритм, способный отличить человеческий голос (human) от синтезированной записи (spoof). Я — ML Researcher в Dasha AI и много работаю над распознаванием речи, поэтому и решил поучаствовать. Вместе с командой мы заняли первое место. Под катом я расскажу о новых крутых подходах к обработке звука, а также о сложностях и странностях, с которыми нам пришлось столкнуться.

«Глубокое обучение с подкреплением. AlphaGo и другие технологии»: анонс книги
2019-11-02 в 11:13, admin, рубрики: deep learning, DeepMind, python, reinforcement learning, Блог компании Издательский дом «Питер», искусственный интеллект, книги, математика, машинное обучение, Профессиональная литератураВсем привет!
У нас доступна для предзаказа одна из лучших книг по обучению с подкреплением, в оригинале именуемая "Deep Reinforcement Learning Hands-on" под авторством Максима Лапаня. Вот как будет выглядеть обложка русского перевода:
Чтобы вы могли оценить краткое содержание книги, предлагаем вам перевод обзора, написанного автором к выходу оригинала.
Читать полностью »