Рубрика «машинное обучение» - 60

image

Исследователи Массачусетского технологического института обучили нейронную сеть находить скрытые геологические структуры на основе данных о сотнях сгенерированных землетрясений, сообщается на сайте МТИ. В результате нейросеть смогла моделировать физику распространения волн в земной коре и исследовать внутреннюю структуру Земли. Читать полностью »

Новый подкаст Университета ИТМО — обсуждаем работу начинающих ученых в сфере машинного обучения - 1В первом выпуске с нами беседует Андрей Фильченков, кандидат физико-математических наук, доцент факультета «Информационных технологий и программирования» и руководитель группы машинного обучения международной научной лаборатории «Компьютерные технологии».

Андрей победил в конкурсе грантов Российского фонда фундаментальных исследований, опубликовал десятки научных статей и неоднократно принимал участие в тематических международных конференциях. В интервью мы говорим о тех сложностях, которые ждут начинающих ученых в сфере машинного обучения.
Читать полностью »

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования
Топ из публичного голосования

Читать полностью »

Машинное обучение продолжает проникать в самые разные сферы человеческой деятельности, и такая технологичная область, как разработка ПО, конечно, не могла стать исключением. По прогнозу специалиста по ИИ и машинному обучению Сергея Маркова, озвученному в лекции «Итоги ИИ-2019», в 2020-м году появится большое количество инструментов разработки, использующих машинное обучение. Это навело меня на мысль, что какие-то из этих инструментов  должны быть доступны на рынке уже сейчас — могут ли они в таком случае помочь «в быту» обычному веб-девелоперу, пишущему на Java, Python и JS? 

Забегая вперед, скажу, что, к моему сожалению, решений, способных генерировать хоть сколько-нибудь «боевой» код, в открытом доступе сейчас нет. Ближе всего к этому подошли Bayou и DeepCoder, но и эти проекты всё еще слишком сырые. Больший прогресс наблюдается в смежных направлениях — таких как автокомплит, статический анализ, генерация тестов. Об этом я и расскажу в статье.

ML в помощь: инструменты для разработчика с использованием ИИ - 1

Читать полностью »

Меня зовут Павел Пархоменко, я ML-разработчик. В этой статье я хотел бы рассказать об устройстве сервиса Яндекс.Дзен и поделиться техническими улучшениями, внедрение которых позволило увеличить качество рекомендаций. Из поста вы узнаете, как всего за несколько миллисекунд находить среди миллионов документов наиболее релевантные для пользователя; как делать непрерывное разложение большой матрицы (состоящей из миллионов столбцов и десятков миллионов строк), чтобы новые документы получали свой вектор за десятки минут; как переиспользовать разложение матрицы пользователь-статья, чтобы получить хорошее векторное представление для видео.

Как мы работаем над качеством и скоростью подбора рекомендаций - 1
Читать полностью »

Сотрудники Google рассказали о том, какие новые технологии внедряются в Gmail для защиты входящей почты от спама, попыток фишинга и вредоносных программ. По их заявлениям существующие модели машинного обучения высоко эффективны, и (в сочетании с другими средствами защиты) они помогают блокировать более 99,9% угроз, попадающих во входящие почтовые ящики Gmail.

Google использует Deep learning для улучшения обнаружения вредоносных документов в Gmail - 1

Читать полностью »

Медицинская маска больше не спасает от распознавания лица - 1

Если вы думали, что медицинская маска обманет камеры распознавания лиц, то для вас есть две плохие новости. Во-первых, исследователям удалось значительно усовершенствовать системы машинного зрения, так что теперь распознавание достаточно надёжно выполняется по половине лица или по области глаз (по половине лица уровень успешного распознавания составляет 90%).

Вторая плохая новость, что вспышка коронавируса подтолкнула китайских производителей SenseTime, FaceGo, Minivision внедрять технологии распознавания частично закрытых лиц в коммерческие модели видеокамер. Из-за вспышки Covid-19 много граждан стали выходить на улицы в масках — поэтому приходится модернизировать системы видеонаблюдения.
Читать полностью »

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Как сжать модель fastText в 100 раз - 1

Читать полностью »

В поисках «Годзиллы». Нейросети и прогнозирование котировок на основе биржевых и «внешних» данных - 1

Эта работа вдохновлена статьей «Мечтают ли нейросети об электроденьгах?», где автор без преувеличения талантливо в своей доходчивости объясняет, почему использование искусственных нейросетей на голых биржевых данных не приводит к успеху. Вот особенно, на мой взгляд, удачный отрывок:

«Цена не формирует сама себя… Если рынок выразить как метафоричное озеро, то биржевой график это лишь рябь на воде. Может быть это ветер подул, может камень в воду бросили, может рыбы плеснула, может Годзилла прыгает в 200 километрах на батуте. Мы видим лишь рябь.»

Действительно, пытаться предсказать поведение ряби на следующий день, имея в распоряжении только лишь данные о поведении ряби в прошлом, видится, как минимум, самонадеянным. Не тот масштаб модели. Поведение водной глади формируется за счет множества внешних и внутренних по отношению к водоему факторов. И вот на этом моменте мое любопытство не позволило мне пройти мимо. А что если все-таки поработать с этими факторами? Что получиться, если учесть их в модели данных, предназначенных для «кормежки» нейросети?

«Но как же учесть миллионы, если не миллиарды возможных факторов влияющих на наш метафорический водоем?» — спросите вы. А я отвечу, что нас не интересуют ни движение мальков, ни случайно упавший с близлежащей скалы камушек, ни мерное покачивание удочки Дяди Вити-рыбака. Нас интересует Годзилла.

Читать полностью »

Создать мощный курс Machine Learning: миссия выполнена - 1


У нас было 2 неудачных запуска, 169 студентов, 8 сердитых отзывов, 3 смены названий, слишком много теории и мало реальной практики. Не то чтобы это было полным провалом, но если начал обучать Data Science, надо сделать это идеально. Сегодня вы услышите историю о том, как мы развивали в OTUS направление анализа данных и какие на этом пути допустили, а потом исправили ошибки.


Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js