Рубрика «machine learning» - 22

Анализ данных на Scala — суровая необходимость или приятная возможность?

2019-03-06 в 13:03, admin, рубрики: big data, data mining, machine learning, scala, spark, Блог компании Mail.Ru Group, Блог компании Одноклассники, машинное обучение

Анализ данных на Scala — суровая необходимость или приятная возможность? - 1

Традиционными инструментами в сфере Data Science являются такие языки, как R и Python — расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые работающие решения. Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. В этом случае специалисту приходится, скрепя сердце, обращаться к помощи "темной стороны" и подключать инструменты на "промышленных" языках программирования: Scala, Java и C++.

Но так ли уж темна эта сторона? За годы развития инструменты "промышленного" Data Science прошли большой путь и сегодня достаточно сильно отличаются от своих же версий 2-3 летней давности. Давайте попробуем на примере задачи SNA Hackathon 2019 разобраться, насколько экосистема Scala+Spark может соответствовать Python Data Science.

Читать полностью »

Машинное обучение в Додо. Как запустить новое направление, если ты разработчик

2019-03-06 в 5:57, admin, рубрики: data mining, dodopizza, dodopizzaengineering, machine learning, Алгоритмы, Блог компании Dodo Pizza Engineering, додо, Додо Пицца, ИТ в Додо Пицце, ИТ в пиццерии, машинное обучение

По катом история о том, как в Додо появилось направление машинного обучения. Спойлер: это я его запустил. Хардкорных технических подробностей тут не будет, обязательно посвящу им отдельную статью. Сегодня больше про мотивацию и поддержку коллег.
Машинное обучение в Додо. Как запустить новое направление, если ты разработчик - 1

Читать полностью »

Kaggle: не можем ходить — будем бегать

2019-03-06 в 5:22, admin, рубрики: cnn, data mining, gru, kaggle, keras, LightGBM, LSTM, machine learning, RNN, scikit-learn, Блог компании Singularis, искусственный интеллект, машинное обучение, рекуррентная нейронная сеть, финансы в IT

Насколько сложна тема машинного обучения? Если Вы неплохо математически подкованы, но объем знаний о машинном обучении стремится к нулю, как далеко Вы сможете зайти в серьезном конкурсе на платформе Kaggle?

Kaggle: не можем ходить — будем бегать - 1
Читать полностью »

Формула для корейского, или распознаем хангыль быстро, легко и без ошибок

2019-03-04 в 12:11, admin, рубрики: ABBYY, machine learning, алфавит, Блог компании ABBYY, высокая производительность, искусственный интеллект, корейский язык, машинное обучение, нейросети, обработка изображений, сверточные нейронные сети, хангыль

Формула для корейского, или распознаем хангыль быстро, легко и без ошибок - 1 На сегодняшний день сделать распознавание корейских символов может любой студент, прослушавший курс по нейросетям. Дайте ему выборку и компьютер с видеокартой, и через некоторое время он принесёт вам сеть, которая будет распознавать корейские символы почти без ошибок.

Но такое решение будет обладать рядом недостатков:

Во-первых, большое количество необходимых вычислений, что влияет на время работы или требуемую энергию (что очень актуально для мобильных устройств). Действительно, если мы хотим распознавать хотя бы 3000 символов, то это будет размер последнего слоя сети. А если вход этого слоя равен хотя бы 512-ти, то получаем 512 * 3000 умножений. Многовато.

Во-вторых, размер. Тот же самый последний слой из предыдущего примера будет весить 512 * 3001 * 4 байт, то есть около 6-ти мегабайт. Это только один слой, вся сеть будет весить десятки мегабайт. Понятно, для настольного компьютера это проблема небольшая, но на смартфоне не все будут готовы хранить столько данных для распознавания одного языка.

В-третьих, такая сеть будет давать непредсказуемый результат на изображениях, которые не являются корейскими символами, но тем не менее используются в корейских текстах. В лабораторных условиях это не трудно, но для практического применения технологии этот вопрос придётся как-то решать.

И в-четвёртых, проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты. Обучить сеть на большее количество символов будет сложно: она будет не только более медленной, но и возникнет проблема со сбором обучающей выборки, так как частота символов падает приблизительно экспоненциально. Конечно, можно доставать изображения из шрифтов и аугментировать их, но для обучения хорошей сети этого недостаточно.

И сегодня я расскажу, как нам удалось решить эти проблемы.
Читать полностью »

Интуитивный RL (Reinforcement Learning): введение в Advantage-Actor-Critic (A2C)

2019-03-04 в 9:58, admin, рубрики: data science, deep learning, machine learning, reinforcement learning, искусственный интеллект, машинное обучение, переводы

Это вольный перевод статьи Rudy Gilman и Katherine Wang Intuitive RL: Intro to Advantage-Actor-Critic (A2C).

Интуитивный RL (Reinforcement Learning): введение в Advantage-Actor-Critic (A2C) - 1

Специалисты по обучению с подкреплением (RL) подготовили множество отличных учебных пособий. Большинство, однако, описывают RL в терминах математических уравнений и абстрактных диаграмм. Нам нравится думать о предмете с другой точки зрения. Сама RL вдохновлена тем, как учатся животные, так почему бы не перевести лежащий в основе этого механизм RL обратно в природные явления, которые он призван имитировать? Люди учатся лучше всего через истории.

Это история о модели Actor Advantage Critic (A2C). Модель «Действующее лицо-критик» — это популярная форма модели Policy Gradient, которая сама по себе является традиционным алгоритмом RL. Если вы понимаете A2C, вы понимаете глубокий RL.

Читать полностью »

Гадание на нейросетях: отметился ли в комментариях к посту сам автор

2019-02-26 в 19:23, admin, рубрики: machine learning, python, машинное обучение, нейросети, обработка текста

Гадание на нейросетях: отметился ли в комментариях к посту сам автор - 1

Поделюсь рассказом о небольшом проекте: как найти в комментариях ответы автора, заведомо не зная кто автор поста.

Свой проект я начинал с минимальными знаниями по машинному обучению и думаю для специалистов тут не будет ничего нового. Этот материал в некотором смысле компиляция разных статей, в нем расскажу, как подходил к задаче, в коде можно найти полезные мелочи и приемы с обработкой естественного языка.
Читать полностью »

Как мы решали задачу продолжения плейлистов на RecSys Challenge и заняли 3 место

2019-02-20 в 12:44, admin, рубрики: machine learning, python, recommender systems, Алгоритмы, математика, машинное обучение

В 2018 наша команда традиционно приняла участие в RecSys Challenge. Это ежегодный конкурс по рекомендательным системам, проводимый в рамках конференции RecSys. Он не такой масштабный, как конкурсы на Kaggle, но считается одним из самых престижных соревнований по рекомендательным системам. В этот раз задача была музыкальной — нужно было построить систему автоматического продолжения плейлистов. В этом посте я подробно рассказываю о нашем решении. Приглашаю под кат.

Как мы решали задачу продолжения плейлистов на RecSys Challenge и заняли 3 место - 1

Читать полностью »

Полцарства за ИИ: сколько банки экономят на машинном обучении, нейросетях и чат-ботах

2019-02-19 в 13:40, admin, рубрики: AI, machine learning, Алгоритмы, Блог компании Binary District, искусственный интеллект, машинное обучение

Оценка кредитоспособности по профилю клиента в фейсбуке, роботы для взыскания долгов и финансовых советов инвесторам, борьба с мошенниками и битва с рутиной — искусственный интеллект в банках нужен почти во всех областях. О том, как ИИ помогает Сбербанку, ВТБ, Тинькофф-банку и другим финансовым организациям экономить миллиарды рублей — в обзоре Binary District.

Полцарства за ИИ: сколько банки экономят на машинном обучении, нейросетях и чат-ботах - 1
Читать полностью »

Как научить машину понимать инвойсы и извлекать из них данные

2019-02-19 в 12:44, admin, рубрики: ABBYY, data augmentation, LSTM, machine learning, ner, ocr, Блог компании ABBYY, высокая производительность, документы, извлечение данных, инвойсы, искусственный интеллект, машинное обучение, нейронные сети, технологии

Как научить машину понимать инвойсы и извлекать из них данные - 1 Привет! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать полностью »

Rekko Challenge

2019-02-18 в 14:16, admin, рубрики: big data, boosters, competitive programming, data mining, machine learning, movies, Okko, recommender systems, Блог компании Okko, машинное обучение, Спортивное программирование

Rekko challenge

Сегодня мы запускаем Rekko Challenge 2019 — соревнование по машинному обучению от онлайн-кинотеатра Okko.

Мы предлагаем вам построить рекомендательную систему на реальных данных одного из крупнейших российских онлайн-кинотеатров. Уверены, что эта задача будет интересна и новичкам, и опытным специалистам. Мы постарались сохранить максимальный простор для творчества, при этом не перегружая вас гигабайтными датасетами с сотнями предварительно посчитанных признаков.

Подробнее про Okko, задачу, данные, призы и правила — ниже.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «machine learning» - 22

Анализ данных на Scala — суровая необходимость или приятная возможность?

Машинное обучение в Додо. Как запустить новое направление, если ты разработчик

Kaggle: не можем ходить — будем бегать

Формула для корейского, или распознаем хангыль быстро, легко и без ошибок

Интуитивный RL (Reinforcement Learning): введение в Advantage-Actor-Critic (A2C)

Гадание на нейросетях: отметился ли в комментариях к посту сам автор

Как мы решали задачу продолжения плейлистов на RecSys Challenge и заняли 3 место

Полцарства за ИИ: сколько банки экономят на машинном обучении, нейросетях и чат-ботах

Как научить машину понимать инвойсы и извлекать из них данные

Rekko Challenge

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «machine learning» - 22

Новости

Актуальные темы

Архив