Привет! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать полностью »
Рубрика «machine learning» - 22
Как научить машину понимать инвойсы и извлекать из них данные
2019-02-19 в 12:44, admin, рубрики: ABBYY, data augmentation, LSTM, machine learning, ner, ocr, Блог компании ABBYY, высокая производительность, документы, извлечение данных, инвойсы, искусственный интеллект, машинное обучение, нейронные сети, технологииRekko Challenge
2019-02-18 в 14:16, admin, рубрики: big data, boosters, competitive programming, data mining, machine learning, movies, Okko, recommender systems, Блог компании Okko, машинное обучение, Спортивное программирование
Сегодня мы запускаем Rekko Challenge 2019 — соревнование по машинному обучению от онлайн-кинотеатра Okko.
Мы предлагаем вам построить рекомендательную систему на реальных данных одного из крупнейших российских онлайн-кинотеатров. Уверены, что эта задача будет интересна и новичкам, и опытным специалистам. Мы постарались сохранить максимальный простор для творчества, при этом не перегружая вас гигабайтными датасетами с сотнями предварительно посчитанных признаков.
Подробнее про Okko, задачу, данные, призы и правила — ниже.
Видео докладов с FunTech ML-meetup
2019-02-13 в 12:17, admin, рубрики: conundrum, funcorp, FunTechMeetups, machine learning, mail.ru group, meetup, ML-meetup, vk.com, Yandex.Taxi, Блог компании FunCorp, конференции, машинное обучение, Программирование
В прошлую субботу мы провели бэкенд митап по машинному обучению. В программе было 5 докладов от спикеров из ВКонтакте, Yandex.Taxi, Conundrum, FunCorp и Mail.ru Group. Под катом видео выступлений и ссылки на презентации.Читать полностью »
Делаем нейронную сеть: как не сломать мозг
2019-02-05 в 16:00, admin, рубрики: deep learning, keras, machine learning, neural networks, python, TensorFlow, машинное обучениеПривет!
В этой небольшой заметке расскажу о двух подводных камнях, с которыми как легко столкнуться, так и легко о них разбиться.
Речь пойдет о создании тривиальной нейронной сети на Keras, с помощью которой будем предсказывать среднее арифметическое двух чисел.
Казалось бы, что может быть проще. И действительно, ничего сложного, но есть нюансы.
Кому тема интересна, добро пожаловать под кат, здесь не будет долгих занудных описаний, просто короткий код и комментарии к нему.
Читать полностью »
Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?
2019-02-05 в 11:51, admin, рубрики: ABBYY, cpu, end-to-end, gpu, kmeans, lenet, machine learning, mnist, SqueezeNet, WideResNet, алфавит, Блог компании ABBYY, иероглифы, искусственный интеллект, машинное обучение, нейросети, сверточные нейронные сетиВ прошлых статьях уже писали о том, как у нас устроены технологии распознавания текста:
Примерно так же до 2018 года было устроено распознавание японских и китайских символов: в первую очередь с использованием растровых и признаковых классификаторов. Но с распознаванием иероглифов есть свои трудности:
1). Огромное количество классов, которое нужно различать.
2). Более сложное устройство символа в целом.
Сказать однозначно, сколько символов насчитывает китайская письменность, так же сложно, как точно посчитать, сколько слов в русском языке. Но наиболее часто в китайской письменности используются ~10 000 символов. Ими мы и ограничили число классов, используемых при распознавании.
Обе описанные выше проблемы также приводят и к тому, что для достижения высокого качества приходится использовать большое количество признаков и сами эти признаки вычисляются на изображениях символов дольше.
Чтобы эти проблемы не приводили к сильнейшим замедлениям во всей системе распознавания, приходилось использовать множество эвристик, в первую очередь направленных на то, чтобы быстро отсечь значительное количество иероглифов, на которые эта картинка точно не похожа. Это всё равно не до конца помогало, а нам хотелось вывести наши технологии на качественно новый уровень.
Мы стали исследовать применимость свёрточных нейронных сетей, чтобы поднять как качество, так и скорость распознавания иероглифов. Хотелось заменить весь блок распознавания отдельного символа для этих языков с помощью нейронных сетей. В этой статье мы расскажем, как нам в итоге это удалось.
Читать полностью »
Открытый курс «Deep Learning на пальцах»
2019-02-05 в 8:05, admin, рубрики: computer vision, deep learning, machine learning, MOOC, nlp, opendatascience, reinforcement learning, Блог компании Open Data Science, машинное обучение, обработка изображенийПосле 18-го февраля начнется открытый и бесплатный курс "Deep Learning на пальцах".
Курс предназначен для того, чтобы разобраться с современным deep learning с нуля, и не требует знаний ни нейросетей, ни machine learning вообще. Лекции стримами на Youtube, задания на Питоне, обсуждения и помощь в лучших русскоязычных чат-сообществах — ODS.ai и ClosedCircles.
После него вы не станете экспертом, но поймете про что все это, сможете применять DL на практике и будете способны разбираться дальше сами. Ну, в лучшем случае.
Одновременно и в том же объеме курс будет читаться для магистрантов Новосибирского Государственного Университета, а также студентов CS центра Новосибирска.
Выглядеть объяснение на пальцах будет примерно так:
Главная ссылка — dlcourse.ai. Подробности ниже.
Захват сигнала мышечной активности в систему машинного обучения
2019-01-28 в 17:19, admin, рубрики: android, machine learning, TensorFlow, wearable, машинное обучение, Носимая электроникаОколо года назад ко мне пришла идея создания открытого фреймворка для нейроинтерфейсов.
Безопасность алгоритмов машинного обучения. Атаки с использованием Python
2019-01-24 в 7:00, admin, рубрики: digital security, machine learning, python, security, Блог компании «Digital Security», информационная безопасность, машинное обучение
Машинное обучение активно применяется во многих областях нашей жизни. Алгоритмы помогают распознавать знаки дорожного движения, фильтровать спам, распознавать лица наших друзей на facebook, даже помогают торговать на фондовых биржах. Алгоритм принимает важные решения, поэтому необходимо быть уверенным, что его нельзя обмануть.
В этой статье, которая является первой из цикла, мы познакомим вас с проблемой безопасности алгоритмов машинного обучения. Это не требует от читателя высокого уровня знаний машинного обучения, достаточно иметь общее представление о данной области.
NLP. Основы. Техники. Саморазвитие. Часть 1
2019-01-23 в 13:05, admin, рубрики: ABBYY, machine learning, natural language processing, ner, nlp (natural language processing), RNN, Блог компании ABBYY, машинное обучение, нейронные сети, нейросети, саммаризацияПривет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.
Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.