Рубрика «машинное обучение» - 38

Как ни странно современная мировая робототехника на данный момент развивается на таком феномене как ROS и open-source. Да, по каким то причинам это в России непонято и малоизвестно. Но мы — русскоязычное сообщество ROS, — пытаемся это изменить и поддержать тех энтузиастов-робототехников, которые пишут открытый код для роботов. В этой статье хотелось бы раскрыть работу над таким начинанием в виде конкурса ROS пакетов, который идет сейчас.

Приглашаем на конкурс разработки open-source пакетов на Robot Operating System - 1
Читать полностью »

В один из будничных дней, под вечер, от моего начальника прилетела интересная задачка. Прилетает ссылка с текстом: «хочу отсюда получить все, но есть нюанс». Через 2 часа расскажешь, какие есть мысли по решению задачи. Время 16:00.

Как раз об этом нюансе и будет эта статья.

Я как обычно запускаю selenium, и после первого перехода по ссылке, где лежит искомая таблица с результатами выборов Республики Татарстан, вылетает оно

image

Как вы поняли, нюанс заключается в том, что после каждого перехода по ссылке появляется капча.

Проанализировав структуру сайта, было выяснено, что количество ссылок достигает порядка 30 тысяч.

Мне ничего не оставалось делать, как поискать на просторах интернета способы распознавания капчи. Нашел один сервис

+ Капчу распознают 100%, так же, как человек
— Среднее время распознавания 9 сек, что очень долго, так как у нас порядка 30 тысяч различных ссылок, по которым нам надо перейти и распознать капчу.

Я сразу же отказался от этой идеи. После нескольких попыток получить капчу, заметил, что она особо не меняется, все те же черные цифры на зеленом фоне.

А так как я давно хотел потрогать «компьютер вижн» руками, решил, что мне выпал отличный шанс попробовать всеми любимую задачу MNIST самому.

На часах уже было 17:00, и я начал искать предобученные модели по распознаванию чисел. После проверки их на данной капче точность меня не удовлетворила — ну что ж, пора собирать картинки и обучать свою нейросетку.

Для начала нужно собрать обучающую выборку.

Открываю вебдрайвер Хрома и скриню 1000 капчей себе в папку.
Читать полностью »

Это пост-вопрос, в нем я попробовал сформулировать основные проблемы нейросетей, решение которых может сделать прорыв в технологии ИИ. В основном речь о сетях, что работают с текстом (GPT, BERT, ELMO и т.п.). Как известно, хорошая формулировка задачи — половина ее решения. Но сам я эти решения найти не могу. Надеюсь на «помощь зала», так как тут много тех, кто сталкивается с такими же проблемами и возможно «видит» их решение.

Итак.

1. Самое казалось бы простое, но нейросеть не учитывает факты. Нейросеть выучивается на частных фактах, но как бы не знает о них. На когнитивном языке NN обладает семантической, а не эпизодической памятью грубо говоря. Сеть учат выдавать наиболее релевантные ответы, но их база всегда не полна (покрытие никогда не приблизится к 100%).
Читать полностью »

3 августа в наших соцсетях выступал Сергей Ширкин, специалист по ML и искусственному интеллекту.

Сергей занимался автоматизацией финансовых технологий и базами данных в «Сбербанке» и «Росбанке», построением финансовых моделей на основе машинного обучения и аналитической деятельностью в компании Equifax. Прогнозирует телесмотрение с применением методов искусственного интеллекта в Dentsu Aegis Network Russia. Приглашённый преподаватель ВШЭ (магистерская программа «Коммуникации, основанные на данных»).

Также Сергей исследует квантовые вычисления в приложении к ИИ и машинному обучению. Он стоит у истоков факультетов Искусственного интеллекта, Аналитики Big Data и Data Engineering онлайн-университета Geek University, на которых работает деканом и преподавателем.

Делимся с вами расшифровкой эфира и записью.

***

Меня зовут Сергей Ширкин, сегодня мы поговорим об искусственном интеллекте. Обсудим начальные пути – как попасть в искусственный интеллект, как обучиться необходимым предметам, какие курсы пройти, какую литературу читать, как начать карьеру. Также про различные направления.

Сегодняшние темы могут быть интересны не только новичкам, но и опытным программистам – например, как перейти из сферы программирования в сферу машинного обучения, искусственного интеллекта, нейронных сетей. В зависимости от того, в какой технологии человек занимается и какие языки изучает, практичный переход в эту сферу может проходить по-разному. Специальностей в ИИ очень много.
Читать полностью »

Это подборка текстовых материалов и тематических подкастов с участием представителей Университета ИТМО — студентов, аспирантов, научных сотрудников и преподавателей. Мы обсуждаем научные статьи, делимся личным опытом разработки проектов различного уровня и говорим о возможностях для развития, которыми располагает «первый неклассический».

Квантовый хакинг, вычисления, алгоритмы и машинное обучение на практике — дайджест Университета ИТМО - 1Читать полностью »

Data Fest пройдет в этом году в онлайн формате 19 и 20 сентября 2020. Фестиваль организован сообществом Open Data Science и как обычно соберет исследователей, инженеров и разработчиков в области анализа данных, искусственного интеллекта и машинного обучения.

Регистрация. Ну а дальше к деталям.

Data Fest 2020 — полностью в Online уже завтра - 1Читать полностью »

Мы опубликовали современные STT модели сравнимые по качеству с Google - 1

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

  • Английский;
  • Немецкий;
  • Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

PyTorch ONNX TensorFlow Качество Colab
Английский (en_v1) ссылка Открыть в Colab
Немецкий (de_v1) ссылка Открыть в Colab
Испанский (es_v1) ссылка Открыть в Colab

Читать полностью »

Когда за три недели до окончания съемок «Гладиатора» умер Оливер Рид – актер, игравший роль тренера гладиаторов Антония Проксимо, – создателям фильма пришлось срочно переписывать сценарий так, чтобы Проксимо погиб по ходу действия, а недостающие сцены создавать с помощью дублера и компьютерных эффектов. Тогда, 21 год назад, 160 секунд киноленты с участием «цифрового Рида» обошлись в 3,2$ млн. А сейчас благодаря развитию технологий, по нашим оценкам, можно было сократить бюджет раз в тридцать, и за эти деньги не просто сделать цифрового двойника актера (digital double) для нескольких сцен, а создать его полную гиперреалистичную 3D-модель и дальше снимать с ней кино без ограничений во времени и пространстве. Наша команда как раз и работает над созданием таких аватаров. В этом посте я расскажу, зачем они нужны помимо кино и что любопытного мы узнали во время собственных экспериментов.

Мой новый коллега – цифровой аватар. Как и зачем компании создают фотореалистичные 3D-модели людей - 1

Читать полностью »

В Сколтехе предсказали сверхтвердые материалы с помощью ИИ - 1

Ученые из Сколтеха создали модель нейронной сети, вычисляющую сверхтвердые материалы. Обнаружено, что помимо алмазов возможно существование и других сверхтвердых веществ.

Сверхтвердые материалы интересны ученым, поскольку применимы во многих отраслях: добыча нефти, металлообработка, ювелирное дело, станкостроение, микроэлектроника, производство высоких технологий. Их используют при бурении, резке, полировании, шлифовании. Поэтому важно обнаружение новых соединений, обладающих свойствами сверхтвердых материалов.
Читать полностью »

Стагнация машинного обучения. Многие задачи не будут решены никогда? - 1

Последние годы глубокого обучения — сплошная череда достижений: от победы над людьми в игре Го до мирового лидерства в распознавании изображений, голоса, переводе текста и других задачах. Но этот прогресс сопровождается ненасытным ростом аппетита к вычислительной мощности. Группа ученых из MIT, Университета Ёнсе (Корея) и Университета Бразилиа опубликовала метаанализ 1058 научных работ по машинному обучению. Он явно показывает, что прогресс в области машинного обучения (ML) — это производная от вычислительной мощности системы. Производительность компьютеров всегда ограничивала функциональность ML, но сейчас потребности новых моделей ML растут гораздо быстрее, чем производительность компьютеров.

Исследование демонстрирует, что достижения машинного обучения по сути — немногим более чем следствие закона Мура. И по этой причине многие задачи ML не будут решены никогда в силу физических ограничений вычислителя.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js