Рубрика «машинное обучение» - 75

При первом знакомстве с квазиньютоновскими методами можно удивиться дважды. Во-первых, после беглого взгляда на формулы охватывают сомнения, что это вообще может работать. Однако же они работают. Дальше кажется сомнительным, что они будут работать хорошо. И тем удивительнее видеть то, насколько они превосходят по скорости разнообразные вариации градиентного спуска, причем не на специально построенных задачах, а на самых настоящих, взятых из практики. И если после этого еще остаются сомнения вперемешку с интересом — то нужно разбираться в том, почему вообще работает это нечто.
Читать полностью »

Обзор методов отбора признаков - 1

Правильный отбор признаков для анализа данных позволяет:

  • повысить качество моделей машинного обучения с учителем и без, 
  • уменьшить время обучения и снизить требуемые вычислительные мощности,
  • а в случае входных данных высокой размерности позволяет ослабить «проклятие размерности».

Оценка важности признаков необходима для интерпретации результатов модели.

Мы рассмотрим существующие методы отбора признаков для задач обучения с учителем и без. Каждый метод проиллюстрирован open source-реализацией на Python, чтобы вы могли быстро протестировать предложенные алгоритмы. Однако это не полная подборка: за последние 20 лет было создано множество алгоритмов, и здесь вы найдёте самые основные из них. Для более глубокого исследования ознакомьтесь с этим обзором.
Читать полностью »

Как приобщать детей к IT и как работать с ML в .NET: интервью с Дмитрием Сошниковым (Microsoft) - 1

Многие дотнетчики знают Дмитрия shwars Сошникова (Microsoft) по его докладам, связанным с машинным обучением. А сейчас миры ML и .NET сближаются благодаря технологии ML.NET, так что очень пригодился бы новый доклад — и на DotNext он как раз будет (даже два, от Дмитрия и от Джеффа Просайза).

Но деятельность Дмитрия не ограничивается докладами — например, ещё он популяризует технологии разработки среди новичков, включая собственную дочь. И это не менее интересная тема: наверняка среди аудитории Хабра есть родители, которые думают, как правильнее приобщать детей к IT.

Поэтому в ожидании DotNext мы взяли интервью, где начали с биографии Дмитрия, потом подробно поговорили о детском IT-образовании — а в конце затронули машинное обучение и новые доклады о нём.
Читать полностью »

Не смотря на все прелести интернета, у него есть много минусов, и один из самых ужасных – это введения людей в заблуждение. Кликбейт, монтаж фотографий, ложные новости – все эти инструменты активно используются для обмана обычных пользователей в мировой сети, но в последние годы набирает обороты новый потенциально опасный инструмент, известный как DeepFake.

Меня данная технология заинтересовала недавно. Впервые о ней я узнал из доклада одного из спикеров на “AI Conference 2018”. Там демонстрировалось видео, в котором по аудиозаписи алгоритм сгенерировал видео с обращением Барака Обамы. Ссылка на подборку видео созданных с помощью этой технологии. Результаты меня сильно вдохновили, и мною было принято решение лучше разобраться с данной технологией, чтобы в будущем противодействовать ей. Для этого я решил написать DeepFake на языке C#. В итоге получил такой результат.

image

Приятного чтения!
Читать полностью »

image

This post is a small abstract of full-scaled research focused on keyword recognition. Technique of semantics extraction was initially applied in field of social media research of depressive patterns. Here I focus on NLP and math aspects without psychological interpretation. It is clear that analysis of single word frequencies is not enough. Multiple random mixing of collection does not affect the relative frequency but destroys information totally — bag of words effect. We need more accurate approach for the mining of semantics attractors.

Читать полностью »

Алгоритм Левенберга-Марквардта прост. Алгоритм Левенберга-Марквардта эффективен.

А еще о нем говорят, что он где-то посередине между градиентным спуском и методом Ньютона, что бы это не значило. Ну, с методом Ньютоном и его связью с градиентным спуском вроде как разобрались. Но что имеют ввиду когда произносят эту глубокомысленную фразу? Попробуем слегка подразобраться.
Читать полностью »

Особенности национального распознавания образов - 1

«Когда я слышу про распознавание образов, я никогда не спрашиваю, хорошие там алгоритмы или плохие. Я спрашиваю только, отличают ли они мотоцикл от трактора.» ©

Читать полностью »

Привет.

Эта статья будет в немного «пятничном» формате, сегодня мы займемся NLP. Не тем NLP, про который продают книжки в подземных переходах, а тем, который Natural Language Processing — обработка естественных языков. В качестве примера такой обработки будет использоваться генерация текста с помощью нейронной сети. Создавать тексты мы сможем на любом языке, от русского или английского, до С++. Результаты получаются весьма интересными, по картинке уже наверно можно догадаться.

Бредогенератор: создаем тексты на любом языке с помощью нейронной сети - 1

Для тех, кому интересно что получается, результаты и исходники под катом.
Читать полностью »

Microsoft выпустила ИИ DeepCom, который пишет комментарии для новостных статей - 1

Microsoft создала бота, который может генерировать комментарии под новостными статьями. ИИ, известный как DeepCom, был разработан группой инженеров из Microsoft и Бэйханского университета в Китае.

«Автоматическое создание комментариев к новостям полезно для реальных приложений, но пока не привлекло достаточного внимания со стороны исследовательского сообщества», — сообщали авторы бота в статье, опубликованной на arXiv в конце прошлого месяца.

Генерация комментариев под статьями может заинтересовать реальных читателей, утверждалось в статье. Авторы проекта также считают, что «открытый диалог позволяет людям обсуждать свое мнение и делиться новой информацией. Это хорошо и для издателей, поскольку комментарии также повышают внимание читателей к написанной информации и стимулируют просмотр страниц», приводит слова авторов DeepCom The Register.
Читать полностью »

О методах численной оптимизации написано много. Это и понятно, особенно на фоне тех успехов, которые в последнее время демонстрируют глубокие нейронные сети. И очень отрадно, что хотя бы часть энтузиастов интересуется не только тем, как забомбить свою нейросеточку на набравшей в этих ваших интернетах популярность фреймворках, но и тем, как и почему все это вообще работает. Однако мне в последнее время пришлось отметить, что при изложении вопросов, связанных с обучением нейросетей (и не только с обучением, и не только сетей), в том числе на Хабре, все чаще впроброс используется ряд “хорошо известных” утверждений, справедливость которых, мягко говоря, сомнительна. Среди таких сомнительных утверждений:

  1. Методы второго и более порядков плохо работают в задачах обучения нейросетей. Потомучто.
  2. Метод Ньютона требует положительной определенности матрицы Гессе (вторых производных) и поэтому плохо работает.
  3. Метод Левенберга-Марквардта — компромисс между градиентным спуском и методом Ньютона и вообще эвристичекий.

и т.д. Чем продолжать этот список, лучше перейдем к делу. В этом посте рассмотрим второе утверждение, поскольку его я только на Хабре встречал как минимум дважды. Первый вопрос затрону только в той части, что касается метода Ньютона, поскольку он куда более обширен. Третий и остальные оставим до лучших времен.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js