Рубрика «машинное обучение» - 258

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают
Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать полностью »

Из предыдущих статей цикла мы уже познакомились с основными терминами машинного обучения и классическими задачами. Настало время разобрать методы решения одной из них — задачи классификации. Сегодня мы разберем метод ближайших соседей.

Конечно, мы помним, что задача классификации формулируется следующим образом:

Нам дано некоторое множество объектов X и конечное множество номеров классов Y. Определено отображение ƒ*:X→Y. Причем известно, что некоторым элементам x∈X соответствуют некие классы из множества C. Задача классификации заключается в нахождении функции ƒ, аппроксимирующей ƒ* на всех элементах из X.

Читать полностью »

В прошлой статье мы рассмотрели общую идею машинного обучения и определили обучение с учителем и без него. Теперь мы введем еще несколько новых понятий и рассмотрим классические задачи машинного обучения.

Введем несколько новых определений.

Модель в машинном обучении это класс алгоритмов, решающих поставленную задачу.

Переобучение это явление, при котором алгоритм слишком приспособлен для данных, на которых он обучался. Переобучение имеет место при выборе слишком сложных моделей.

Недообучение это явление, обратное переобучению, при котором алгоритм не полностью использует предоставленные ему для обучения данные. Недообучение имеет место при выборе недостаточно сложных моделей.
Читать полностью »

Кратчайшая история искусственного интеллекта

Искусственный интеллект, как научная область активно развивается с начала XIX века. Наибольшая активность в области происходила в 60-х и 70-х годах. В то время казалось, что ИИ это близкое будущее, что, в общем, не удивительно, т.к направление прогрессировало невероятно быстро. Компьютеры все чаще обыгрывали лучших шахматистов, а на исследования в области ИИ выделялись огромные деньги. Однако, к 1973 году стало понятно, что не все так хорошо, как кажется. В этом году был опубликован так называемый отчет Лайтхилла — документ «Искусственный интеллект: Общий обзор», дающий крайне пессимистические прогнозы для основных направлений отрасли. Документ предвещал наступление т.н. «зимы искусственного интеллекта».

Основными причинами «Зимы ИИ» стали:

  1. Проблема комбинаторного взрыва (Резкий рост временной сложности алгоритма при увеличении размера входных данных).
  2. Низкая производительность компьютеров (Более высокая производительность могла бы частично решить первую проблему).
  3. Проблема представлений знаний «здравого мысла» (Например, задача формализации процесса распознавания речи человеком не решена до сих пор).
  4. Парадокс Моравеца (Для компьютера многие задачи, очевидные с человеческой точки зрения, становятся сложными и наоборот).

Однако, уже имеющиеся достижения в области искусственного интеллекта не могли просто пропасть или заморозиться в ожидании лучших времен. Потеря перспективности ИИ положила начало развитию многих смежных областей, таких, как машинное обучение, компьютерное зрение, обработка естественных языков и т.д.

К своему удивлению, я не обнаружил на хабре статей по машинному обучению. Поэтому, в данном цикле статей я постараюсь исправить это недоразумение.
Читать полностью »

При решении задач с применением методов машинного обучения, как правило, мы выбираем наиболее подходящий алгоритм в контексте задачи, а также способ настройки его параметров.

Давайте рассмотрим несколько иной подход: вместо того, чтобы самостоятельно выбирать алгоритм, разработаем программу, которая способна автоматически генерировать алгоритмы для решения задач.

Читать полностью »

Рэй Курцвейл стал техническим директором GoogleРэй Курцвейл — один из самых именитых футурологов и специалистов по искусственному интеллекту. Он занимается технологиями распознавания речи с 70-х годов прошлого века. Он создал несколько успешных компаний, основанных не технологиях искусственного интеллекта, а в 90-е увлёкся футурологией и написал несколько книг, ставших бестселлерами — «Эпоха мыслящих машин», «Эпоха духовных машин», «Сингулярность уже близка». Курцвейл активно занимается обоснованием наступления технологической сингулярности.
Читать полностью »

Прогресс в разработке нейросетей для машинного обученияВ пятничном номере NY Times опубликована статья о значительных успехах, который демонстрируют в последние годы разработчики алгоритмов для самообучаемых нейросетей. В глубоких структурах есть несколько скрытых слоёв, которые традиционно тяжело было обучать. Но всё изменилось с использованием стека из машин Больцмана (RBM) для предварительной тренировки. После этого можно удобно перенастраивать веса, применяя метод обратного распространения ошибки (backpropagation). Плюс появление быстрых GPU — всё это привело к существенному прогрессу, который мы наблюдаем в последние годы.

Сами разработчики не делают громких заявлений, чтобы не поднимать ажотаж вокруг нейросетей — такой, как в 1960-е годы поднялся вокруг кибернетики. Тем не менее, можно говорить о возрождении интереса к исследованиям в этой области.
Читать полностью »

Потапов, А. С. «Искусственный интеллект и универсальное мышление».

image

Людям, не слишком глубоко знакомым с проблемами искусственного интеллекта, но интересующимся ими, приходится знакомиться с достижениями в этой области через журнальные статьи, полные преувеличений и недостоверной информации. В результате, многие знают о невообразимых возможностях уже работающих квантовых компьютеров, искусственных нейронных сетях или цифровой эволюции, где вот-вот возникнет уже первый искусственный интеллект. За всем этим стоят реальные научный открытия, но их пересказ людьми, стремящимися к сенсациям, оказывается не более чем вымыслом. Настоящие открытия, составляющие саму суть прогресса в некоторой научной области, описываются в специальной литературе, понятной только профессионалам. Крайне трудно их изложить в ясной и интересной для неспециалиста форме. Однако именно это удалось сделать автору в представленной книге. В ней не только в доступном виде представлены базовые сведения из области ИИ, но также развенчаны многие мифы, широко распространенные в научно-популярной среде, и даже намечены вполне реальные, а вовсе не фантастичные, пути, которые могут привести к созданию настоящего искусственного интеллекта.Читать полностью »

В июне 2012 года группа исследователей из Google запустила нейросеть на кластере 1000 компьютеров (16 тыс. процессорных ядер; 1 млрд связей между нейронами). Эксперимент стал одним из самых масштабных в области искусственного интеллекта, причём систему изначально создавали для решения практических задач.

Самообучаемая нейросеть — достаточно универсальный инструмент, который можно использовать на разных массивах данных. В компании Google её применили для улучшения точности распознавания речи: «Мы получили улучшение от 20% до 25% по показателю неправильно распознанных слов, — говорит Винсент Ванхоук (Vincent Vanhoucke), руководитель отдела распознавания речи в Google. — Это значит, что многие люди получат безошибочный результат». Нейросеть оптимизировала алгоритмы для английского языка, но Ванхоук говорит, что аналогичные улучшения могут быть достигнуты и для других языков и диалектов.
Читать полностью »

При выполнении расчетов в системах распределенных вычислений, в том числе с архитектурой MapReduce, часто возникают задачи, которые выполняются медленно или с опозданием на отдельно взятом узле (stragglers). Причиной появления таких задач может стать неоднородность кластера, hardware или software проблемы. Из-за таких запозданий падает быстродействие всей системы в целом. Создатели Hadoop стараются бороться с этим, дублируя запуски медленных задач на других узлах кластера (speculative execution), однако этот подход не позволяет определять медленные задачи своевременно.

20 сентября в московском офисе Яндекса пройдет научно-технический семинар, на котором выступит Эдуард Бортников, главный инженер исследовательского центра Yahoo!.. В первой половине своего доклада он расскажет, как решать проблему «узких мест» систем MapReduce с помощью машинного обучения. Этот метод, в отличие от технологии Hadoop, позволяет предсказывать замедление выполнения задач на конкретном узле. Предсказатель можно интегрировать с существующей системой MapReduce, таким образом увеличив эффективность системы.

Вторая часть доклада будет посвящена Sailfish – новой реализации модели MapReduce от Yahoo!.. В основе новинки лежит принцип объединения промежуточных данных и пакетная обработка операций дискового ввода-вывода. Система Sailfish блестяще прошла эксперимент на реальных данных и задачах в Yahoo!, показав поистине чемпионские результаты – эффективность выполнения задач увеличилась до 400% по сравнению с Hadoop. Кроме того, Sailfish позволяет делать автоматическую настройку параметров задачи при изменении объемов или распределения данных. Система Sailfish проще в использовании, чем Hadoop, где каждый запуск требует кропотливой, ручной настройки параметров.
Семинар пройдет на русском языке, начало в 19:00.

Для участия в семинаре необходима регистрация.

Для тех, кто не сможет прийти на семинар, будет организована видеотрансляция.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js