Рубрика «машинное обучение» - 60

В МТИ нейросеть научили находить скрытые геологические структуры по сейсмическим колебаниям

2020-03-02 в 11:51, admin, рубрики: искусственный интеллект, машинное обучение, МТИ, нейросети

Исследователи Массачусетского технологического института обучили нейронную сеть находить скрытые геологические структуры на основе данных о сотнях сгенерированных землетрясений, сообщается на сайте МТИ. В результате нейросеть смогла моделировать физику распространения волн в земной коре и исследовать внутреннюю структуру Земли. Читать полностью »

Новый подкаст Университета ИТМО — обсуждаем работу начинающих ученых в сфере машинного обучения

2020-03-01 в 12:35, admin, рубрики: open source, Андрей Фильченков, Блог компании Университет ИТМО, Исследования и прогнозы в IT, машинное обучение, научные статьи, подкаст, трансфер технологий, Университет ИТМО, Учебный процесс в IT

В первом выпуске с нами беседует Андрей Фильченков, кандидат физико-математических наук, доцент факультета «Информационных технологий и программирования» и руководитель группы машинного обучения международной научной лаборатории «Компьютерные технологии».

Андрей победил в конкурсе грантов Российского фонда фундаментальных исследований, опубликовал десятки научных статей и неоднократно принимал участие в тематических международных конференциях. В интервью мы говорим о тех сложностях, которые ждут начинающих ученых в сфере машинного обучения.
Читать полностью »

Новостной агрегатор за две недели

2020-02-28 в 15:49, admin, рубрики: c++, natural language processing, nlp, python, telegram, word2vec, кластеризация данных, машинное обучение, новостной агрегатор

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования

Читать полностью »

ML в помощь: инструменты для разработчика с использованием ИИ

2020-02-27 в 16:45, admin, рубрики: autocomplete, codota, DeepCode, diffblue, Kite, linter, tabnine, Блог компании Plesk, искусственный интеллект, машинное обучение

Машинное обучение продолжает проникать в самые разные сферы человеческой деятельности, и такая технологичная область, как разработка ПО, конечно, не могла стать исключением. По прогнозу специалиста по ИИ и машинному обучению Сергея Маркова, озвученному в лекции «Итоги ИИ-2019», в 2020-м году появится большое количество инструментов разработки, использующих машинное обучение. Это навело меня на мысль, что какие-то из этих инструментов должны быть доступны на рынке уже сейчас — могут ли они в таком случае помочь «в быту» обычному веб-девелоперу, пишущему на Java, Python и JS?

Забегая вперед, скажу, что, к моему сожалению, решений, способных генерировать хоть сколько-нибудь «боевой» код, в открытом доступе сейчас нет. Ближе всего к этому подошли Bayou и DeepCoder, но и эти проекты всё еще слишком сырые. Больший прогресс наблюдается в смежных направлениях — таких как автокомплит, статический анализ, генерация тестов. Об этом я и расскажу в статье.

ML в помощь: инструменты для разработчика с использованием ИИ - 1

Читать полностью »

Как мы работаем над качеством и скоростью подбора рекомендаций

2020-02-27 в 8:59, admin, рубрики: als, Алгоритмы, Блог компании Яндекс, дзен, коллаборативная фильтрация, машинное обучение, отбор кандидатов, распределенные системы, рекомендательные системы

Меня зовут Павел Пархоменко, я ML-разработчик. В этой статье я хотел бы рассказать об устройстве сервиса Яндекс.Дзен и поделиться техническими улучшениями, внедрение которых позволило увеличить качество рекомендаций. Из поста вы узнаете, как всего за несколько миллисекунд находить среди миллионов документов наиболее релевантные для пользователя; как делать непрерывное разложение большой матрицы (состоящей из миллионов столбцов и десятков миллионов строк), чтобы новые документы получали свой вектор за десятки минут; как переиспользовать разложение матрицы пользователь-статья, чтобы получить хорошее векторное представление для видео.

Как мы работаем над качеством и скоростью подбора рекомендаций - 1
Читать полностью »

Google использует Deep learning для улучшения обнаружения вредоносных документов в Gmail

2020-02-26 в 11:44, admin, рубрики: gmail, Google, TensorFlow, TensorFlow Extended, TFX, информационная безопасность, машинное обучение

Сотрудники Google рассказали о том, какие новые технологии внедряются в Gmail для защиты входящей почты от спама, попыток фишинга и вредоносных программ. По их заявлениям существующие модели машинного обучения высоко эффективны, и (в сочетании с другими средствами защиты) они помогают блокировать более 99,9% угроз, попадающих во входящие почтовые ящики Gmail.

Google использует Deep learning для улучшения обнаружения вредоносных документов в Gmail - 1

Читать полностью »

Медицинская маска больше не спасает от распознавания лица

2020-02-25 в 16:29, admin, рубрики: FaceGo, Minivision, SenseTime, Блог компании GlobalSign, информационная безопасность, искусственный интеллект, камеры наблюдения, машинное обучение, обработка изображений, распознавание лиц

Медицинская маска больше не спасает от распознавания лица - 1

Если вы думали, что медицинская маска обманет камеры распознавания лиц, то для вас есть две плохие новости. Во-первых, исследователям удалось значительно усовершенствовать системы машинного зрения, так что теперь распознавание достаточно надёжно выполняется по половине лица или по области глаз (по половине лица уровень успешного распознавания составляет 90%).

Вторая плохая новость, что вспышка коронавируса подтолкнула китайских производителей SenseTime, FaceGo, Minivision внедрять технологии распознавания частично закрытых лиц в коммерческие модели видеокамер. Из-за вспышки Covid-19 много граждан стали выходить на улицы в масках — поэтому приходится модернизировать системы видеонаблюдения.
Читать полностью »

Как сжать модель fastText в 100 раз

2020-02-24 в 6:56, admin, рубрики: compression, data mining, FastText, gensim, machine learning, natural language processing, python, word embeddings, word2vec, Алгоритмы, машинное обучение, эмбеддинги

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Как сжать модель fastText в 100 раз - 1

Читать полностью »

В поисках «Годзиллы». Нейросети и прогнозирование котировок на основе биржевых и «внешних» данных

2020-02-23 в 8:48, admin, рубрики: годзилла, Исследования и прогнозы в IT, Криптовалюты, машинное обучение, нейросети, предсказание цен, прогноз котировок

В поисках «Годзиллы». Нейросети и прогнозирование котировок на основе биржевых и «внешних» данных - 1

Эта работа вдохновлена статьей «Мечтают ли нейросети об электроденьгах?», где автор без преувеличения талантливо в своей доходчивости объясняет, почему использование искусственных нейросетей на голых биржевых данных не приводит к успеху. Вот особенно, на мой взгляд, удачный отрывок:

«Цена не формирует сама себя… Если рынок выразить как метафоричное озеро, то биржевой график это лишь рябь на воде. Может быть это ветер подул, может камень в воду бросили, может рыбы плеснула, может Годзилла прыгает в 200 километрах на батуте. Мы видим лишь рябь.»

Действительно, пытаться предсказать поведение ряби на следующий день, имея в распоряжении только лишь данные о поведении ряби в прошлом, видится, как минимум, самонадеянным. Не тот масштаб модели. Поведение водной глади формируется за счет множества внешних и внутренних по отношению к водоему факторов. И вот на этом моменте мое любопытство не позволило мне пройти мимо. А что если все-таки поработать с этими факторами? Что получиться, если учесть их в модели данных, предназначенных для «кормежки» нейросети?

«Но как же учесть миллионы, если не миллиарды возможных факторов влияющих на наш метафорический водоем?» — спросите вы. А я отвечу, что нас не интересуют ни движение мальков, ни случайно упавший с близлежащей скалы камушек, ни мерное покачивание удочки Дяди Вити-рыбака. Нас интересует Годзилла.

Читать полностью »

Создать мощный курс Machine Learning: миссия выполнена

2020-02-21 в 12:28, admin, рубрики: big data, data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, курсы, машинное обучение, образование онлайн

Создать мощный курс Machine Learning: миссия выполнена - 1

У нас было 2 неудачных запуска, 169 студентов, 8 сердитых отзывов, 3 смены названий, слишком много теории и мало реальной практики. Не то чтобы это было полным провалом, но если начал обучать Data Science, надо сделать это идеально. Сегодня вы услышите историю о том, как мы развивали в OTUS направление анализа данных и какие на этом пути допустили, а потом исправили ошибки.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 60

В МТИ нейросеть научили находить скрытые геологические структуры по сейсмическим колебаниям

Новый подкаст Университета ИТМО — обсуждаем работу начинающих ученых в сфере машинного обучения

Новостной агрегатор за две недели

ML в помощь: инструменты для разработчика с использованием ИИ

Как мы работаем над качеством и скоростью подбора рекомендаций

Google использует Deep learning для улучшения обнаружения вредоносных документов в Gmail

Медицинская маска больше не спасает от распознавания лица

Как сжать модель fastText в 100 раз

В поисках «Годзиллы». Нейросети и прогнозирование котировок на основе биржевых и «внешних» данных

Создать мощный курс Machine Learning: миссия выполнена

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 60

Новости

Актуальные темы

Архив