Рубрика «машинное обучение» - 95

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR

2019-06-06 в 12:30, admin, рубрики: ABBYY, ocr, Анализ и проектирование систем, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, обработка изображений, обучение, распознавание текста

В последнее время мы в группе распознавания компании ABBYY всё больше применяем нейронные сети в различных задачах. Очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности. В прошлых постах мы рассказывали о том, как мы используем нейронные сети для распознавания японской, китайской и корейской письменности.

Пост про распознавания японских и китайских иероглифов
Пост про распознавание корейских символов

В обоих случаях мы использовали нейронные сети с целью полной замены метода классификации отдельного символа. Во всех подходах фигурировало множество различных сетей, и в задачи некоторых из них входила необходимость адекватно работать на изображениях, которые не являются символами. Модель в этих ситуациях должна как-то сигнализировать о том, что перед нами не символ. Сегодня мы как раз расскажем о том, зачем это в принципе может быть нужно, и о подходах, с помощью которых можно добиться желаемого эффекта.

Мотивация

А в чём вообще проблема? Зачем нужно работать на изображениях, которые не являются отдельными символами? Казалось бы, можно разделить фрагмент строки на символы, классифицировать их все и собрать из этого результат, как, например, на картинке ниже.

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR - 3

Да, конкретно в данном случае так действительно можно сделать. Но, увы, реальный мир устроен куда более сложно, и на практике при распознавании приходится иметь дело с геометрическими искажениями, смазом, пятнами кофе и прочими трудностями.
Читать полностью »

Всё, что вы знали о word2vec, неправда

2019-06-05 в 11:35, admin, рубрики: gensim, glove, Skip-gram, word2vec, Алгоритмы, машинное обучение, случайная инициализация

Классическое объяснение word2vec как архитектуры Skip-gram с отрицательной выборкой в оригинальной научной статье и бесчисленных блог-постах выглядит так:

while(1) {
   1. vf = vector of focus word
   2. vc = vector of focus word
   3. train such that (vc . vf = 1)
   4. for(0 <= i <= negative samples):
           vneg = vector of word *not* in context
           train such that (vf . vneg = 0)
}

Действительно, если погуглить [word2vec skipgram], что мы видим:

Но все эти реализации ошибочны.
Читать полностью »

Архитектура нейронной сети для реализации алгоритма RL с возможностью задания одновременно выполняющихся действий

2019-06-05 в 9:58, admin, рубрики: machine learning, reinforcement learning, машинное обучение

Одна из классических схем нейронной сети для реализации алгоритма RL выглядит следующим образом:

Архитектура нейронной сети для реализации алгоритма RL с возможностью задания одновременно выполняющихся действий - 1

Где: inputs – входы в нейронную сеть; FC – (fully connected) архитектура скрытых слоев или CNN — FC – архитектура архитектура скрытых слоев (в зависимости о того, что подается на входы); outputs – выходы сети. Часто выходы сети это softmax слой, который выдает вероятность выполнения одного из действий из набора всех возможных действий.

Недостаток данной архитектуры, в том, что сложно реализовать выбор сразу нескольких одновременно выполняемых действий.

Для решения этой проблемы предлагается архитектура с слоем маски. Предлагаемая архитектура выглядит следующим образом:

Архитектура нейронной сети для реализации алгоритма RL с возможностью задания одновременно выполняющихся действий - 2

Эта архитектура полностью соответствует классической архитектуре, но также включает слой маски действий. Выход у данной архитектуры один – это значение ценности действия (группы одновременно выполняемых действий). Слой маски действий может быть реализован в соответствии с псевдокодом ниже:
Читать полностью »

Samsung открывает бесплатный онлайн-курс по нейросетям в задачах компьютерного зрения

2019-06-05 в 9:29, admin, рубрики: python, pytorch, Samsung, Блог компании Samsung, глубокое обучение, искусственный интеллект, Компьютерное зрение, машинное обучение, нейросети, обработка изображений, онлайн-курсы

Вы пока не разбираетесь, почему ReLU лучше сигмоиды, чем отличается Rprop от RMSprop, чем нормализованный сигнал лучше ненормализованного и почему сигналы вообще стоит пробрасывать? И зачем нейронной сети нужен граф, и какую он совершил ошибку, что она распространяется обратно? У вас есть проект, в котором требуется компьютерное зрение, но вы хотите его реализовать при помощи OpenCV? Вы делаете межгалактического робота для борьбы с грязными тарелками, и хотите, чтобы он мог сам решать, отмывать или и так сойдет? Или вы видели предложения по зарплатам для специалистов ML на hh.ru и все еще под впечатлением?

Мы запускаем открытый курс «Нейронные сети и компьютерное зрение», который адресован тем, кто в этой области делает первые шаги. В чем преимущества нашего курса?

авторы курса знают, о чем говорят: это инженеры московского Центра искусственного интеллекта Samsung, Михаил Романов и Игорь Слинько;
есть как теория (с опциональными математическими задачами для улучшения понимания), так и практика на PyTorch
приступаем к практике сразу после освоения минимальных теоретических знаний.
есть котейки
и самое главное: лучшие студенты будут приглашены на собеседование в Samsung Research Russia!

Samsung открывает бесплатный онлайн-курс по нейросетям в задачах компьютерного зрения - 1
Читать полностью »

Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем

2019-06-04 в 17:32, admin, рубрики: LightGBM, python, tinkoff, машинное обучение, рекомендательные системы

Всем привет. Моя команда в Тинькофф занимается построением рекомендательных систем. Если вы довольны вашим ежемесячным кэшбэком, то это наших рук дело. Также мы построили рекомендательную систему спецпредложений от партнеров и занимается индивидуальными подборками Stories в приложении Tinkoff. А еще мы любим участвовать в соревнованиях по машинному обучению чтобы держать себя в тонусе.

На Boosters.pro в течении двух месяцев с 18 февраля по 18 апреля проходило соревнование по построению рекомендательной системы на реальных данных одного из крупнейших российских онлайн-кинотеатров Okko. Организаторы преследовали цель улучшить существующую рекомендательную систему. На данный момент соревнование доступно в режиме песочницы, в которой вы можете проверить свои подходы и отточить навыки в построении рекомендательных систем.

alt_text

Читать полностью »

Книга «Машинное обучение: алгоритмы для бизнеса»

2019-06-04 в 14:31, admin, рубрики: Алгоритмы, бизнес-модели, Блог компании Издательский дом «Питер», книги, машинное обучение, Профессиональная литература

Привет, Хаброжители! Маркос Лопез де Прадо делится тем, что обычно скрывают, — самыми прибыльными алгоритмами машинного обучения, которые он использовал на протяжении двух десятилетий, чтобы управлять большими пулами средств самых требовательных инвесторов.

Машинное обучение меняет практически каждый аспект нашей жизни, алгоритмы МО выполняют задачи, которые до недавнего времени доверяли только проверенным экспертам. В ближайшем будущем машинное обучение будет доминировать в финансах, гадание на кофейной гуще уйдет в прошлое, а инвестиции перестанут быть синонимом азартных игр.

Воспользуйтесь шансом поучаствовать в «машинной революции», для этого достаточно познакомиться с первой книгой, в которой приведен полный и систематический анализ методов машинного обучения применительно к финансам: начиная со структур финансовых данных, маркировки финансового ряда, взвешиванию выборки, дифференцированию временного ряда… и заканчивая целой частью, посвященной правильному бэктестированию инвестиционных стратегий.
Читать полностью »

Рекомендации в Okko: как заработать сотни миллионов, перемножив пару матриц

2019-06-03 в 8:37, admin, рубрики: luigi, Okko, pikachu, python, splunk, xgboost, Yota, Алгоритмы, Блог компании Okko, внутренняя империя, искусственный интеллект, машинное обучение, рекомендательные системы

Rekko — персональные рекомендации в онлайн-кинотеатре Okko

Знакома ли вам ситуация, когда на выбор фильма вы тратите гигантское количество времени, сопоставимое со временем самого просмотра? Для пользователей онлайн-кинотеатров это частая проблема, а для самих кинотеатров — упущенная прибыль.

К счастью, у нас есть Rekko — система персональных рекомендаций, которая уже год успешно помогает пользователям Okko выбирать фильмы и сериалы из более чем десяти тысяч единиц контента. В статье я расскажу вам как она устроена с алгоритмической и технической точек зрения, как мы подходим к её разработке и как оцениваем результаты. Ну и про сами результаты годового A/B теста тоже расскажу.

Читать полностью »

Artificial neural networks explained in simple words

2019-06-02 в 13:01, admin, рубрики: artifical intelligence, neural networks, simple science, tutorial, искусственный интеллект, машинное обучение, мозг, Научно-популярное

When I used to start a conversation about neural networks over a bottle of beer, people were casting glances at me of what seemed to be fear; they grew sad, sometimes with their eyelid twitching. In rare cases, they were even eager to take refuge under the table. Why? These networks are simple and instinctive, actually. Yes, believe me, they are! Just let me prove this is true!

Suppose there are two things I’m aware of about the girl: she looks pretty to my taste or not, and I have lots to talk about with her or I haven’t. True and false will be one and zero respectively. We’ll take similar principle for appearance. The question is: “What girl I’ll fall in love with, and why?”

We also can think it straight and uncompromisingly: “If she looks pretty and there’s plenty to talk about, then I will fall in love. If neither is true, then I quit”.

Читать полностью »

Горький урок отрасли ИИ

2019-06-02 в 12:13, admin, рубрики: hmm, глубокий поиск, искусственный интеллект, Компьютерное зрение, логические игры, машинное обучение, скрытые марковские модели

По итогу 70-ти лет исследований в области ИИ главный урок заключается в том, что общие вычислительные методы в конечном счёте наиболее эффективны. И с большим отрывом. Конечно, причина в законе Мура, точнее, в экспоненциальном падении стоимости вычислений.

Большинство исследований ИИ предполагали, что агенту доступны постоянные вычислительные ресурсы. В этом случае практически единственный способ повышения производительности — использование человеческих знаний. Но типичный исследовательский проект слишком краткосрочен, а через несколько лет производительность компьютеров неизбежно возрастает.

Стремясь к улучшению в краткосрочной перспективе, исследователи пытаются применить человеческие знания в предметной области, но в долгосрочной перспективе имеет значение только мощность вычислений. Эти две тенденции не должны противоречить друг другу, но на практике противоречат. Время, потраченное на одно направление, — это время, потерянное для другого. Есть психологические обязательства инвестировать в тот или иной подход. И внедрение знаний в предметной области имеет тенденцию усложнять систему таким образом, что она хуже подходит для использования общих вычислительных методов. Было много примеров, когда исследователи слишком поздно усваивали этот горький урок, и полезно рассмотреть некоторые из самых известных.
Читать полностью »

PHDays 9: разбор заданий AI CTF

2019-06-01 в 11:27, admin, рубрики: adversarial machine learning, computer security, ctf, machine learning, Блог компании Positive Technologies, информационная безопасность, машинное обучение

Тема безопасности машинного обучения довольно хайповая последнее время и хотелось затронуть именно практическую ее сторону. А тут повод крутой — PHDays, где собираются самые разные специалисты из мира ИБ и есть возможность привлечь внимание к этой теме.

В общем-то мы сделали task-based CTF, с заданиями затрагивающих часть рисков безопасности применения техник машинного обучения.

PHDays 9: разбор заданий AI CTF - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 95

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR

Мотивация

Всё, что вы знали о word2vec, неправда

Архитектура нейронной сети для реализации алгоритма RL с возможностью задания одновременно выполняющихся действий

Samsung открывает бесплатный онлайн-курс по нейросетям в задачах компьютерного зрения

Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем

Книга «Машинное обучение: алгоритмы для бизнеса»

Рекомендации в Okko: как заработать сотни миллионов, перемножив пару матриц

Artificial neural networks explained in simple words

Горький урок отрасли ИИ

PHDays 9: разбор заданий AI CTF

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 95

Мотивация

Новости

Актуальные темы

Архив