Рубрика «машинное обучение» - 176

image
Осенью Физтех запустил цикл семинаров по искусственному интеллекту. В ходе обсуждений рассматриваются различные темы мира машинного обучения и технологического предпринимательства: как и почему интеллектуальные системы станут доминирующей частью нашей жизни и экономики в ближайшие годы, какие инициативы и проекты развиваются за рубежом, тренды рынка и как их создавать, что можно разрабатывать вместе с командами лабораторий МФТИ уже сейчас и как втянуться в союз и сотрудничество с «умными» машинами. Материалы курса доступны в Telegram-канале и группе AI@MIPT Вконтакте.

Третья встреча на тему: «Проект iPavlov. Как на Физтехе разрабатывают разговорный искусственный интеллект» состоится 13 ноября в 18:30 в 107 Биокорпуса МФТИ. Для очного участия в семинаре необходимо предварительно зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха Вконтакте.
Читать полностью »

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи множество причин для отказов. Для прогресса необходимо принять их наличие и предпринять шаги по решению этих проблем. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Задача распознавания речи пока не решена - 1

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.
Читать полностью »

Главнокоммивояжер Аристарх стоял у окна и с лёгкой грустью во взгляде провожал стаю улетающих на юг комаров. Осень. Конец сезона. Пора дубинки, полюбившиеся жителям города Н в качестве средства самозащиты от кровососов и предмета статуса (известно, некусаный горожанин — милее надкушенного), забирать из оружейных лавок и завозить на их место рогатины от снежных троллей.

image

В рознице падение спроса на сезонные товары приводит к смене ассортимента на полках и возвратам невостребованных остатков на склады поставщиков. Кутерьма та еще. Не все могут похвастаться сбалансированным портфелем продуктов. Конец сезона может привести к кассовому разрыву и поставщики всячески стараются уменьшить потери. Незадача коммивояжера, как она есть.

Лето жаркое выдалось, потому сезон затянулся — мысль поселилась в голове Аристарха — годовой ритм миграции крылатых определенно укладывался в какие-то предопределённые природой рамки. А что если между продажами и погодой есть эта, как её, корреляция?

Покажи мне корреляцию погоды и продаж дубинок от комаров, вот тебе гигабайт сводных таблиц в экселе — так началось мое знакомство с возвратами сезонных продуктов. Читать полностью »

В эту субботу, 11 ноября, мы приглашаем читателей Хабра на однодневную конференцию по Data Science, Machine Learning и AI. Это мероприятие завершит Sberbank Data Science Journey, ежегодные соревнования по интеллектуальному анализу данных с применением передовых математических методов и алгоритмов. В этом году состязание проводилось на первом в своем роде русскоязычном наборе данных.

Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.

Подробная программа и ссылка на регистрацию — под катом.

Приглашаем на Sberbank Data Science Day 11 ноября - 1

Читать полностью »

Теоретическая Нейробиология. Часть вторая. Сингулярность? - 1

В первой части мы пришли к тому, что мозг имеет наборы триггеров и сигнальную систему для передачи сигналов между удаленными наборами. При поступлении внешних раздражителей происходит активация набора соответствующего раздражителям, что приводит к производству соответствующего набора гормонов. Гормоны раздражают другие наборы триггеров, имеющих сходный набор гормонов для активации. Что порождает цепную реакцию. То есть наше сознание есть не что иное как поиск равновесия между двумя системами, системой триггеров и сигнальной системой. При этом есть внешние раздражители, которые выводят систему из равновесия. Можно предположить что такая система никогда не достигнет равновесия.

Попробуем рассмотреть это более детально.
Читать полностью »

Наборами данных в миллионы экземпляров в задачах машинного обучения уже давным давно никого не удивишь. Однако мало кто задаётся вопросом, как качественно визуализировать эти титанические пласты информации. Когда размер датасета превышает миллион, становится довольно грустно использовать стандартный t-SNE; остаётся играться с даунсэмплированием или вовсе ограничиваться грубыми статистическими инструментами. Но на каждую задачу найдётся свой инструмент. В своей статье я бы хотел рассмотреть два алгоритма, которые преодолевают барьер квадратичной сложности: уже хорошо известный Barnes-Hut t-SNE и новый претендент на звание «золотого молотка infovis'a» LargeVis.

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных - 1

(Это не картина художника-абстракциониста, а визуализация LiveJournal-датасета с высоты птичьего полёта)
Читать полностью »

Количество данных, которые получает наш мониторинг выросло настолько, что для их обработки мощности только человеческого разума уже не хватает. Поэтому мы надрессировали искусственный интеллект помогать нам искать аномалии в полученных данных. И теперь у нас есть Кибер-Оракул.

Кибер-оракул, очевидно

Читать полностью »

image
 
unCAPTCHA – автоматизированная система, разработанная экспертами Мэрилендского университета, способная обойти reCAPTCHA от Google с точностью до 85 %. Им это удалось благодаря распознаванию аудио-версии подсказки для людей с ограниченными возможностями.
Читать полностью »

Обзор конференции Highload fwdays’17 - 1

14 октября в Киеве прошла конференция Highload fwdays, посвященная высоконагруженным проектам, работе с базами данных и архитектурой, в частности, микросервисами, машинному обучению и Big Data. DataArt был спонсором конференции. А наши коллеги Игорь Мастерной (лидер Java-сообщества DataArt Киев) и Анна Колот (.NET, SharePoint Developer) рассказали о докладах, на которых они побывали.

Детально с программой конференции можете ознакомиться тут.

Начнем обзор с доклада Дмитрия Охонько из Facebook про Log Device. “Yet another log storage”, — подумаете вы. Вы бы были правы, но этот Log Storage на общем фоне выделяется своими создателями. Заявленная пропускная способность у Facebook — 1TB/s. И узнать, как они справляются с обработкой такого объема данных, было интересно.Читать полностью »

10 уроков рекомендательной системы Quora - 1

Привет! Как директор по аналитике Retail Rocket, я периодически посещаю различные профильные мероприятия, и в сентябре 2016 года мне посчастливилось побывать на конференции RecSys, посвященной рекомендательным системам, в Бостоне. Было очень много интересных докладов, но мы решили сделать перевод одного из них Lessons Learned from Building Real­-Life Recommender Systems. Он очень интересен с позиции того, как Machine Learning применять в production системах. Про сам ML написано множество статей: алгоритмы, практика применения, конкурсы Kaggle. Но вывод алгоритмов в production — это отдельная и большая работа. Скажу по секрету, разработка алгоритма занимает всего 10%-20% времени, а вывод его в бой все 80-90%. Здесь появляется множество ограничений: какие данные где обрабатывать (в онлайне или оффлайне), время обучения модели, время применения модели на серверах в онлайне и т.д. Критически важным аспектом также является выбор оффлайн/онлайн метрик и их корреляция. На этой же конференции мы делали похожий доклад Hypothesis Testing: How to Eliminate Ideas as Soon as Possible, но выбрали вышеупомянутый учебный доклад от Quora, т.к. он менее специфичный и его можно применять за пределами рекомендательных систем.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js