В качестве практического приложения к предыдущей статье, хочу предоставить крошечную JavaScript библиотеку для построения деревьев и леса принятия решений.
Рубрика «машинное обучение» - 256
Деревья принятия решений на JavaScript
2014-01-29 в 17:46, admin, рубрики: data mining, javascript, машинное обучение, Программирование, метки: машинное обучениеИзвлечение «знаний» или классификация в один if
2014-01-13 в 10:46, admin, рубрики: python, Алгоритмы, извлечение знаний, индуктивная логика, искусственный интеллект, машинное обучение, медицина, нейрон, теорема Байеса, метки: извлечение знаний, индуктивная логика, машинное обучение, Медицина, нейрон, теорема Байеса
В статье мы постараемся классифицировать злокачественную опухоль груди от доброкачественной основываясь на наборе данных взятом отсюда. Как бы странно не звучало, но точность не будет главным приоритетом в этот раз, так как уже есть довольно хорошие решения с упором именно на точность, что и понятно, ведь от данных тестов зависит жизнь человека. Например в 2012 году Бриттани Венгер победила в конкурсе Google Science Fair с проектом cloud4cancer.appspot.com, который был обучен именно по выше указанному набору.
Читать полностью »
Вычисление фрактальной размерности Минковского для плоского изображения
2014-01-08 в 15:23, admin, рубрики: Алгоритмы, Компьютерное зрение, математика, машинное обучение, фрактал, метки: Компьютерное зрение, машинное обучение, фракталДоброго времени суток читатель. Сегодняшний пост будет посвящен вычислению приближенного значения фрактальной размерности плоского изображения, которая тесно связано с размерности Минковского. Это интересно как минимум по двум причинам. Во-первых оказывается, что размерность ограниченного множества в метрическом пространстве может быть не только целым числом, но и любым не отрицательным. Во-вторых значение размерности контура изображения (а это ограниченное множество в метрическом пространстве) является хорошим признаком. В рамках сегодняшнего поста не предусмотрено исследование робастности этого признака, но давайте рассмотрим показательный пример. Множество различных характеристик клеток опухолей молочной железы, полученное в результате анализа снимков тонкоигольной пункционной биопсии. Множество данных состоит из 30 признаков (поля таблицы) с пометкой злокачественная или доброкачественная опухоль, и одним из признаков является как раз фрактальная размерность ядер клеток опухоли. Под катом вас ждет объяснение смысла фрактальной размерности множества, по возможности доступным языком, алгоритм вычисления приближенного значения этой размерности, его реализация на c# и ряд примеров с картинками. Возможно вы открыли этот пост только из-за картинки справа, это изображение я позаимствовал из инстаграмма Jennifer Selter, и в конце мы вычислим фрактальную размерность, так сказать филейной части Дженифер. Хочется кстати вас попросить ответить на пару вопросов в конце поста.
Восстановление логической функции
2014-01-06 в 10:51, admin, рубрики: python, Алгоритмы, индуктивная логика, искусственный интеллект, машинное обучение, нейрон, теорема Байеса, метки: индуктивная логика, машинное обучение, нейрон, теорема БайесаВ данной статье Вы сможете найти готовую реализацию и описание алгоритма предназначенного для реконструкции логических функций методом чёрного ящика. Под логической функцией я подразумеваю такую функцию, которая принимает в качестве аргументов множество булевых значений и соответственно возвращает одно. Пример:
def customlogic(params):
return params[0] and params[1] and not params[5] and params[11] or params[2] and not params[3] or params[0] and params[5] and not params[6] or params[7] and not params[8]
В конце статьи алгоритм проверяется на данных полученных из реального мира.
Читать полностью »
Машинное обучение и анализ данных. Лекция для Малого ШАДа Яндекса
2013-12-14 в 12:29, admin, рубрики: Алгоритмы, Блог компании Яндекс, Малый ШАД, машинное обучение, Учебный процесс в IT, ШАД, метки: Малый ШАД, машинное обучение, шадВсе чаще и чаще мы сталкиваемся с необходимостью выявлять внутренние закономерности больших объёмов данных. Например, для распознавания спама необходимо уметь находить закономерности в содержании электронных писем, а для прогнозирования стоимости акций — закономерности в финансовых данных. К сожалению, выявить их «вручную» часто невозможно, и тогда на помощь приходят методы машинного обучения. Они позволяют строить алгоритмы, которые помогают находить новые, ещё не описанные закономерности. Мы поговорим о том, что такое машинное обучение, где его стоит применять и какие сложности могут при этом возникнуть. Принципы работы нескольких популярных методов машинного обучения будут рассмотрены на реальных примерах.
Лекция предназначена для старшеклассников — студентов Малого ШАДа, но и взрослые с ее помощью смогут составить представление об основах машинного обучения.
Основная идея машинного обучения заключается в том, что имея обучающуюся программу и примеры данных с закономерностями, мы можем построить некоторую модель закономерности и находить закономерности в новых данных.
Читать полностью »
Уменьшение размерности задачи линейной бинарной классификации(e.g. SVM)
2013-11-21 в 2:03, admin, рубрики: data mining, SVM, Алгоритмы, математика, машинное обучение, метки: SVM, машинное обучениеТребуемые знания: знакомство с методами линейной бинарной классификации(e.g. SVM(см. SVM Tutorial)), линейная алгебра, линейное программирование
Рассмотрим линейную задачу бинарной классификации(если задача линейно неразделима, её можно свести к таковой с помощью симметричного интегрального L-2 ядра(см. SVM)). При решении такой задачи классифицируемые элементы(далее образцы) представляются в виде элементов векторного пространства размерности n. На практике в таких задачах n может быть чрезвычайно большим, например для задачи классификации генов оно может исчисляться десятками тысяч. Большая размерность влечёт, по-мимо высокого времени вычисления, потенциально высокую погрешность численных рассчётов. Кроме того использование большой размерности может требовать больших финансовых затрат(на проведение опытов). Постановка вопроса такова: можно ли и как уменьшить n отбрасыванием незначимых компонент образцов так, чтобы образцы разделялись «не хуже» в новом пространстве(эмпирическая ошибка не возросла или, что тоже самое, в новом пространстве образцы оставались линейно разделимы) или «не сильно хуже».
В своей статье я хочу для начала провести краткий обзор метода из этой статьи Gene_Selection_for_Cancer_Classification_using, после чего предложить свой метод.
Читать полностью »
Экстрактор контента из веб-документов
2013-11-04 в 1:47, admin, рубрики: boilerplate, data mining, python, Qt Software, выделение содержания, машинное обучение, метки: boilerplate, выделение содержания, машинное обучение
Здравствуй!
Это мой первый пост, в котором я хочу поделиться своей наработкой в решении такой задачки, как выделение контента на странице. Собственно, задачка давно висела в голове в фоновом режиме. Но так сложилось, что именно сейчас мне самому понадобился инструмент, кроме того наткнулся на статейку на хабре: habrahabr.ru/company/mailru/blog/200394 и решил — пора. Ладно, поехали.
Читать полностью »
Стэнфордская нейросеть определяет тональность текста с точностью 85%, код отдадут в Open Source
2013-10-16 в 20:56, admin, рубрики: open source, sentiment analysis, Алгоритмы, искусственный интеллект, Компьютерная лингвистика, машинное обучение, метки: sentiment analysis, Компьютерная лингвистика, машинное обучениеSentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением эмоциональной окраски текстов, подробнее см. в статье Irokez’а. Это очень важное направление машинного обучения: анализ тональности нужен для лучшего «понимания» текстов, перевода с одного языка на другой.
Сложность задачи заключается в непростых лингвистических конструкциях, которые часто используют люди. Даже человек иногда не сразу определит тональность (положительную или отрицательную) фраз вроде «В книге хороша только обложка». Как обучить этой задаче компьютер?
Точность определения эмоций у лучших компьютерных программ до сегодняшнего дня составляла не более 80%. Группе учёных из Стэнфорда при участии небезызвестного Эндрю Нг удалось довести её до 85%, а при дальнейшем обучении рекуррентной нейросети точность вполне может повыситься до 95%, говорит один из авторов исследования. Заметим, что 95% — это будет абсолютно феноменальный результат, не все люди способы распознавать сарказм и определять тональность слов с такой точностью.
Читать полностью »
Алгоритм Self-Organizing Incremental Neural Network (SOINN)
2013-09-08 в 21:18, admin, рубрики: machine learning, SOINN, Алгоритмы, искусственный интеллект, машинное обучение, обучение без учителя, метки: machine learning, SOINN, машинное обучение, обучение без учителяВведение
Одной из задач обучения без учителя является задача нахождения топологической структуры, которая наиболее точно отражает топологию распределения входных данных. Существует несколько подходов решения этой задачи. Например, алгоритм Самоорганизующихся Карт Кохонена является методом проецирования многомерного пространства в пространство с более низкой размерностью (как правило, двумерное) с предопределенной структурой. В связи с понижением размерности исходной задачи, и предопределенной структурой сети, возникают дефекты проецирование, анализ которых является сложной задачей. В качестве одной из альтернатив данному подходу, сочетание конкурентного обучения Хебба и нейронного газа является более эффективным в построении топологической структуры. Но практическому применению данного подхода препятствует ряд проблем: необходимы априорные знания о необходимом размере сети и сложность применения методов адаптации скорости обучения к данной сети, излишняя адаптация приводит к снижению эффективности при обучении новым данным, а слишком медленная скорость адаптации вызывает высокую чувствительность к зашумленным данным.
Для задач онлайн обучения или длительного обучения, перечисленные выше методы не подходят. Фундаментальной проблемой для таких задач — это как система может приспособиться к новой информации без повреждения или уничтожения уже известной.
В данной статье рассматривается алгоритм SOINN, который частично решает озвученные выше проблемы.
Читать полностью »
Google Research: Быстрое, точное выявление 100 000 категорий объектов на одной машине
2013-08-18 в 8:53, admin, рубрики: Google, Алгоритмы, искусственный интеллект, Компьютерное зрение, машинное обучение, обработка изображений, распознавание образовЛюди могут различать примерно 10 000 визуальных категорий высокого уровня, но мы можем различать гораздо больший спектр визуальных импульсов, называемых особыми признаками. Эти признаки могут соответствовать частям объекта, конечностям животного, архитектурным деталям, Читать полностью »