На сегодняшний день мне неизвестны доступные и легко понятные для непосвященного читателя книги по машинному обучению на русском языке. По теме написано много хороших трудов на английском, но по каким-то причинам они не переведены. Данной серией статей я преследую цель сдвинуть вектор ситуации в лучшую сторону. Если читатели положительно воспримет статью, я, по мере сил, постараюсь сделать замкнутый цикл статей по машинному обучению. Целевая аудитория — люди, желающие ознакомиться с основными задачами и методами машинного обучения, и в дальнейшем, возможно, углубить свои знания самостоятельно. Идеальный читатель знаком с основами языка программирования Python и библиотеки NumPy или желает в них разобраться. Я постараюсь свести количество математики и простыней из формул к минимуму без ущерба для качества преподносимого материала. Заинтересованный читатель всегда может узнать математическую поднаготную каждого метода в википедии, на machinelearning.ru или в соответствующей литературе.
Читать полностью »
Рубрика «машинное обучение» - 257
Машинное обучение для самых маленьких
2013-08-06 в 11:58, admin, рубрики: big data, искусственный интеллект, классификация, машинное обучение, метки: искусственный интеллект, классификация, машинное обучениеПредобучение ограниченными машинами Больцмана для распознавания реальных изображений
2013-07-11 в 16:49, admin, рубрики: data mining, machine learning, restricted boltzmann machine, искусственный интеллект, машина Больцмана, машинное обучение, нейронные сети, ограниченная машина больцмана, метки: machine learning, restricted boltzmann machine, машина Больцмана, машинное обучение, нейронные сети, ограниченная машина больцмана
Доброго времени суток. Этот топик рассчитан на тех, кто имеет представление об ограниченных машинах Больцмана (restricted Boltzmann machine, RBM) и их использовании для предобучения нейронных сетей. В нем мы рассмотрим особенности применения ограниченных машин Больцмана для работы с изображениями, взятыми из реального мира, поймем, почему стандартные типы нейронов плохо подходят для этой задачи и как их улучшить, а также немного пораспознаем выражения эмоций на человеческих лицах в качестве эксперимента. Те, кто представления o RBM не имеет, могут его получить, в частности, отсюда:
Реализация Restricted Boltzmann machine на c#,
Предобучение нейронной сети с использованием ограниченной машины Больцмана
Читать полностью »
Дилемма заключенных: you are (not) alone
2013-04-30 в 20:34, admin, рубрики: game development, искусственный интеллект, исскуственный интеллект, математика, машинное обучение, теория игр, метки: исскуственный интеллект, машинное обучение, теория игр
Недавно прочитал пост о диллемме заключенных, который заинтересовал сообщество. Я согласен с написанным и считаю, что это хорошая работа, особенно учитывая, что автор школьник.
В данном посте хочу показать взгляд на эту проблему со стороны теории игр, на основе опыта полученного после обучения на онлайн курсах ИИ университета в Беркли. После применения данного аппарата проблема становится понятной и разрешимой.
Читать полностью »
Завершилось соревнование по дата-майнингу Heritage Health Prize
2013-04-10 в 20:06, admin, рубрики: big data, data mining, машинное обучение, Спортивное программирование, метки: data mining, машинное обучение
Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифма ошибки) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.
Читать полностью »
Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #3)
2013-04-09 в 8:52, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжированияСегодня мы завершаем серию публикаций о фреймворке FML, в которых рассказываем о том, как и для чего автоматизировали в Яндексе применение технологий машинного обучения. В сегодняшнем посте мы расскажем:
- почему нужно следить за качеством факторов и как мы это делаем;
- как FML помогает в задачах распределённых вычислений над поисковым индексом;
- каким образом и для чего наши технологии машинного обучения уже применяются и могут быть применены как в Яндексе, так и вне его;
- какую литературу можно посоветовать для более глубокого погружения в затронутую проблематику.
Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)
2013-04-03 в 11:23, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжированияМы продолжаем серию публикаций о нашем фреймворке FML, который автоматизировал работу с машинным обучением и позволил разработчикам Яндекса использовать его в своих задачах проще и чаще. Предыдущий пост рассказывал о том, что такое функция ранжирования и как мы научились строить её, имея на входе лишь достаточно большое число оценок от асессоров и достаточно разнообразный набор признаков (факторов) документов по большому количеству запросов.
Из этого поста вы узнаете:
- почему нам нужно подбирать новую формулу ранжирования очень часто, и как именно нам в этом помогает FML;
- как мы разрабатываем новые факторы и оцениваем их эффективность.
Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)
2013-03-26 в 9:06, admin, рубрики: big data, data mining, FML, learning to rank, machine learning, Блог компании Яндекс, машинное обучение, обучение ранжированию, факторы ранжирования, метки: FML, learning to rank, machine learning, машинное обучение, обучение ранжированию, факторы ранжирования Сегодня мы начинаем публиковать серию постов о том, как в Яндексе построена работа над улучшением так волнующей всех формулой релевантности, и более широко — качеством ранжирования. Мы сосредоточимся на наших инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Почти вся работа в этой области связана с машинным обучением, поэтому о его месте в Яндексе мы тоже немного расскажем.
Читать полностью »
DARPA намерено совершить революцию в машинном обучении
2013-03-25 в 15:23, admin, рубрики: Darpa, skynet, Алгоритмы, искусственный интеллект, машинное обучение, Программирование, метки: Darpa, skynet, искусственный интеллект, машинное обучениеПрактически каждая новость от DARPA, связанная с роботами и искусственным интеллектом, неизбежно сопровождается набившими оскомину комментариями про Скайнет. Но на этот раз они будут на удивление уместны. Новая исследовательская программа Агентства посвящена вероятностному программированию для решения продвинутых задач машинного обучения (Probabilistic Programming for Advanced Machine Learning или PPAML). По словам руководителя программы Кэтлин Фишер, DARPA намерено ни много ни мало «Сделать для машинного обучения то, что появление языков высокого уровня 50 лет назад сделало для программирования в целом».
Алгоритмы машинного обучения уже широко используются в потребительских технологиях — борьбе со спамом, распознавании речи, автомобилях-роботах и для анализа гигантских объёмов данных в медицине или финансах. Естественно, перспективы машинного обучения интересны и военным. При этом пока не существует общепринятых универсальных инструментов для создания интеллектуальных систем. Из-за этого приходится постоянно изобретать велосипеды, раз за разом реализовывать похожие как две капли воды алгоритмы, строить с нуля архитектуру.
Читать полностью »
Об искусственном интеллекте в покере
2013-03-18 в 13:26, admin, рубрики: искусственный интеллект, искуственный интеллект, машинное обучение, Песочница, покер, метки: искуственный интеллект, машинное обучение, покер
Покер давно привлекает исследователей самых различных мастей от любителей до серьезных ученых. И, не секрет, что столь пристальное внимание к покеру коррелирует с ростом популярности онлайн гэмблинга, который бурно развивался в 00-х годах. На сегодняшний день человек уже уступил лимитный хедс-ап Техасский Холдем машине, в то время как в безлимитных и многоместных покерных дисциплинах человек все еще берет верх. Наибольший вклад в проблему построения сильного компьютерного покерного интеллекта, вне всякого сомнения, внесла исследовательская группа из университета Альберты, а предложенное ими семейство алгоритмов поиска равновесных стратегий является на сегодняшний день самым модным и часто используемым средством при построении покерных агентов. Но обо всем по порядку.
Читать полностью »
Построение системы оптического распознавания структурной информации на примере Imago OCR
2013-03-13 в 19:04, admin, рубрики: open source, opencv, Алгоритмы, бинаризация, векторизация, машинное обучение, обработка изображений, распознавание символов, химия, метки: opencv, бинаризация, векторизация, машинное обучение, распознавание символов, химия В настоящей заметке я расскажу о том, как можно построить систему оптического распознавания структурной информации, опираясь на алгоритмы, применяющиеся в обработке изображений и их реализации в рамках библиотеки OpenCV. За описанием системы стоит активно развивающийся open source проект Imago OCR, который может быть непосредственно полезен в распознавании химических структур, однако в заметке я не буду говорить о химии, а затрону более общие вопросы, решение которых поможет в распознавании структурированной информации различного рода, например таблицы или графики.
Читать полностью »