Рубрика «машинное обучение» - 180

Не бойтесь машин – технологии ИИ пока ещё не готовы к тому, чтобы думать самостоятельно

Забудьте про Илона – прогноз для бизнеса на основе искусственного интеллекта не такой уж и страшный - 1

Несмотря на предупреждения Илона Маска, сделанные им этим летом, у нас есть не так уж много причин терять сон, беспокоясь по поводу Skynet и терминаторов. Искусственный интеллект (ИИ) ещё далёк от того, чтобы превратиться во вредоносную и всезнающую силу. Единственный апокалипсис, который нам светит – слишком сильная надежда людей на машинное обучение и экспертные системы, что доказали владельцы Tesla, снявшие руки с руля.

Примеры того, что сегодня пытаются выдать за ИИ – такие технологии, как экспертные системы и машинное обучение – прекрасны для создания софта, способного помочь в областях распознавания последовательностей, автоматического принятия решений и общения человека с компьютером. Эти технологии существуют уже несколько десятилетий, и качество их работы зависит от качества входных данных. Поэтому маловероятно, что в ближайшее время ИИ заменит суждения людей по важным вопросам, в которых требуется более сложный ответ, чем «да» или «нет».
Читать полностью »

Часть первая — Affinity propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — SOM

Self-organizing maps (SOM, самоорганизующиеся карты Кохонена) — знакомая многим классическая конструкция. Их часто поминают на курсах машинного обучения под соусом «а ещё нейронные сети умеют вот так». SOM успели пережить взлёт в 1990-2000 годах: тогда им пророчили большое будущее и создавали новые и новые модификации. Однако, в XXI веке SOM понемногу уходят на задний план. Хоть новые разработки в сфере самоорганизующихся карт всё ещё ведутся (большей частью в Финляндии, родине Кохонена), даже на родном поле визуализации и кластеризации данных карты Кохонена всё чаще уступает t-SNE.

Давайте попробуем разобраться в тонкостях SOM'ов, и выяснить, заслуженно ли они были забыты.

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE - 1

Читать полностью »

Цифровой банкинг стал не просто очень популярным, но во многих случаях и единственным связующим звеном между банками и их клиентами.

image

Согласно отчету от мая 2016 года о роли планшета в мобильном банкинге, половина взрослого населения США теперь пользуется банковскими услугами через смартфоны и планшеты (что на 29 млн человек больше, чем годом ранее). Благодаря предоставлению финансовых услуг по цифровым каналам потребители могут с удобством пользоваться банковскими сервисами в любое время и в любом месте, но какова же цена этого удобства? И оправдывают ли банки ожидания своих клиентов?

Одна из основных проблем, стоящих перед финансовой отраслью, — это риск ухудшения отношений с клиентами по мере перехода на цифровое взаимодействие. Посмотрим правде в глаза: сайты онлайн-банкинга довольно безличны. В течение многих лет нормой были личные отношения, ведь клиенты могли строить отношения с сотрудником банка, который знал об их финансовом положении и помогал им достичь своих финансовых целей. Сейчас традиционными филиалами банков пользуются всего 32% клиентов, что означает значительное снижение возможностей для создания личных отношений с клиентами.
Читать полностью »

Привет! Продолжаем рассказывать о прошедшем 12-14 сентября форуме Data Science Week 2017, и на очереди обзор второго и третьего дня, где были затронуты вопросы построения рекомендательных систем, анализа данных в Bitcoin и построения успешной карьеры в области работы с данными.

Data Science Week 2017. Обзор второго и третьего дня - 1
Читать полностью »

Недавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и словарях ABBYY.

Мне очень хотелось избавить генератор от подобных ограничений. Для этого нужно было построить собственный морфологический анализатор. Сначала я делал его частью генератора, но в итоге он вылился в отдельный проект, который, очевидно, может быть использован не только для генерации стихов.

Вместо морфологического движка ABBYY я использовал широко известный pymorphy2. Что в итоге получилось? Спойлер — получилось неплохо.

Читать полностью »

В этой статье я расскажу о конференции O’Reilly Strata Artificial Intelligence, которую мне довелось посетить этим летом в Нью-Йорке.

Strata AI – одна из главных конференций, посвященных искусственному интеллекту, проходит примерно раз в полгода. Конференцию не стоит путать с другим известным мероприятием Strata + Hadoop World – его также проводит O’Reilly, но то посвящено исключительно большим данным и по тематике они мало пересекаются.

О конференции Strata AI: будущее искусственного интеллекта - 1
Читать полностью »

Хотите внедрить или доработать функцию поиска? Вам сюда.

Что должен знать о поиске каждый разработчик - 1
Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».

Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.

Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.

Цель статьи

Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).

Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.

Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.

Переведено в Alconost
Читать полностью »

image

Когда я сдавал экзамены в универе, я всегда садился готовиться на ближайшую к преподу парту и никогда не шел первым, а пропускал вперед 8-10 человек. Тем самым я успевал «подслушать» дополнительные вопросы и, частично, ответы на них.

И тут у меня возникла идея, как сделать подсказки по олимпиаде для тех старшеклассников, которые читают Хабр (что говорит о том, что у них действительно продвинутые мозги). Я нашел тех ребят, которые показали отличные результаты на предыдущих олимпиадах НТИ и поспрашивал их, какие дополнительные материалы могут помочь разобраться в теме лучше и дадут дополнительные преимущества на завершающем практическом этапе.

Прием заявок на олимпиаду идет до 22 октября, а там есть еще время подготовиться.
Читать полностью »

Диалоговые системы, они же чат-боты, сегодня размножились до неприличия. Но уровень их «интеллекта» часто удручающий. Популярные чат-боты работают либо с помощью шаблонов, либо используя модель «намерение+сущности». С простыми задачами они справляются отлично (поставить будильник, напоминание, найти ответ на часто задаваемый вопрос), но узость и ограниченность их «мышления» легко выявляется даже при поверхностном опросе. Могут ли нейросети помочь создать нечто более совершенное, возможно приближающееся к действительно разумному?
Читать полностью »

Я понимаю, что странно начинать блог с негатива, но за последние несколько дней поднялась волна дискуссий, которая хорошо соотносится с некоторыми темами, над которыми я думал в последнее время. Всё началось с поста Джеффа Лика в блоге Simply Stats с предостережением об использовании глубинного обучения на малом размере выборки. Он утверждает, что при малом размере выборки (что часто наблюдается в биологии), линейные модели с небольшим количеством параметров работают эффективнее, чем нейросети даже с минимумом слоёв и скрытых блоков.

Далее он показывает, что очень простой линейный предиктор с десятью самыми информативными признаками работает эффективнее простой нейросети в задаче классификации нулей и единиц в наборе данных MNIST, при использовании всего около 80 образцов. Эта статья сподвигла Эндрю Бима написать опровержение, в котором правильно обученная нейросеть сумела превзойти простую линейную модель, даже на очень малом количестве образцов.

Такие споры идут на фоне того, что всё больше и больше исследователей в области биомедицинской информатики применяют глубинное обучение на различных задачах. Оправдан ли ажиотаж, или нам достаточно линейных моделей? Как всегда, здесь нет однозначного ответа. В этой статье я хочу рассмотреть случаи применения машинного обучения, где использование глубоких нейросетей вообще не имеет смысла. А также поговорить о распространённых предрассудках, которые, на мой взгляд, мешают действительно эффективно применять глубинное обучение, особенно у новичков.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js