И всё же сегодня пятница (хоть и не конец трудовой недели). Дабы скрасить этот факт, предлагаем вам пройти небольшой тест по Data Science. Некоторые любители каверзных математических задач уже оценили его на Data Fest'е — крупнейшей отечественной конференции для всех, кто зарабатывает на хлеб с маслом (или просто увлекается) анализом и обработкой данных, машинным обучением и разработкой на базе ИИ. Под катом – небольшой рассказ о наших активностях на мероприятии и, конечно же, сам DeSерт.
Рубрика «машинное обучение» - 151
Узнай, кто ты в мире Machine Learning
2018-06-08 в 14:59, admin, рубрики: datafest, Блог компании Инфосистемы Джет, конференции, машинное обучение, тестВероятностное программирование и байесовский метод для хакеров
2018-06-08 в 14:42, admin, рубрики: bayes, ipython, numpy, python, Алгоритмы, Блог компании Издательский дом «Питер», математика, машинное обучениеЗдравствуйте, коллеги. Сегодня хотели поинтересоваться, насколько востребованной вам кажется слегка устаревшая книга "Bayesian Methods for Hackers", опубликованная в оригинале в 2015 году, но пока не переведенная на русский язык.
Книга позиционируется как прикладная, максимально избавленная от математики и неустаревающая.
Под катом — немного сокращенный перевод обзора этой книги, выложенного автором на Github.
Поучаствуйте пожалуйста в голосовании
Читать полностью »
Простой регулятор на базе нечеткой логики. Создание и настройка
2018-06-07 в 14:21, admin, рубрики: Алгоритмы, Анализ и проектирование систем, математика, математическое моделирование, машинное обучение, нечеткая логика, система управленияНечеткая логика для управления
Текст подготовлен на основе материалов книги Гостева В.В. «Нечеткие регуляторы в системах автоматического моделирования». Как все серьезные публикации по теме, данная книга перегружена математическими выкладками и тяжела для неподготовленного читателя. Между тем, сами по себе принципы создания и использования нечеткой логики достаточно просты и наглядны. Данный текст – попытка перевести пример из книги с математического языка на инженерный.
Показана возможную последовательность проектирования регулятора на базе нечеткой логики, путем последовательного усложнения логических правил и подбором параметров методами оптимизации.
Постановка задачи
Рассмотрим синтез цифрового ПИД-регулятора и нечеткого регулятора для системы управления ракетой по углу атаки. Методом математического моделирования определим процессы в системе и дадим сравнительную оценку качества системы при использовании синтезированных регуляторов.
Читать полностью »
Как создать свой датасет с Киркоровым и Фейсом на Яндекс Толоке
2018-06-07 в 11:00, admin, рубрики: big data, data mining, Блог компании Open Data Science, искусственный интеллект, краудсорсинг, машинное обучение, обработка изображений, толока
Нейронными сетями уже никого не удивишь. Практически каждый человек знает, что такое машинное обучение, линейная регрессия, random forest. Каждый год тысячи людей проходят курсы по машинному обучению на ODS и Coursera. Любой школьник за пару недель теперь может освоить keras и клепать нейроночки. Но в нейронных сетях, как и во всем машинном обучении, помимо создания хорошего алгоритма, необходимы данные, на которых алгоритм будет обучаться.
Теория большой свалки: ищем научные документы на просторах интернета
2018-06-06 в 10:34, admin, рубрики: анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, поисковые технологии, Семантика, тематическое моделированиеСистема «Антиплагиат» – это специализированный поисковик. Как и положено поисковику, с собственным движком и поисковыми индексами. Самый большой наш индекс по количеству источников – конечно же, у русскоязычного интернета. Довольно давно мы решили, что будем помещать в этот индекс все, что является именно текстом (а не картинкой, музыкой или видео), написано на русском языке, имеет размер больше 1 кб и не является «почти-дубликатом» чего-то, что уже есть в индексе.
Такой подход хорош тем, что он не требует сложных предварительных обработок и минимизирует риски «выплеснуть с водой ребенка» – пропустить документ, из которого потенциально может быть заимствован текст. С другой стороны, в результате мы мало знаем, какие именно документы находятся в итоге в индексе.
По мере роста интернет-индекса – а сейчас, на секундочку, это уже более 300 млн документов только лишь на русском языке – возникает вполне естественный вопрос: а много ли в этой свалке действительно полезных документов.
И раз уж мы (yury_chekhovich и Andrey_Khazov) занялись такой рефлексией, то почему бы нам заодно не ответить еще на несколько вопросов. Сколько проиндексировано научных документов, а сколько ненаучных? Какую долю среди научных статей занимают дипломы, статьи, авторефераты? Каково распределение документов по тематикам?
Так как речь идет о сотнях миллионов документов, то необходимо использовать средства автоматического анализа данных, в частности, технологии машинного обучения. Конечно, в большинстве случаев качество экспертной оценки превосходит машинные методы, но привлекать человеческие ресурсы для решения столь обширной задачи оказалось бы слишком дорогим удовольствием.
Читать полностью »
Oh, My Code: Машинное обучение и аналитика в «Одноклассниках»
2018-06-06 в 8:46, admin, рубрики: big data, data mining, machine learning, oh my code, Блог компании Одноклассники, машинное обучение, Социальные сети и сообщества
В чём разница между Machine Learning и анализом данных, кто сидит в «Одноклассниках» и как начать свой путь в машинном обучении — об этом мы беседуем в двенадцатом выпуске ток-шоу для программистов.
Ведущий программы — технический директор медиапроектов Павел Щербинин, гость — инженер-аналитик «Одноклассников» Дмитрий Бугайченко.
Читать полностью »
Как машины анализируют большие данные: введение в алгоритмы кластеризации
2018-06-05 в 7:41, admin, рубрики: big data, Алгоритмы, Блог компании NIX Solutions, Большие данные, машинное обучение
Перевод How Machines Make Sense of Big Data: an Introduction to Clustering Algorithms.
Взгляните на картинку ниже. Это коллекция насекомых (улитки не насекомые, но не будем придираться) разных форм и размеров. А теперь разделите их на несколько групп по степени похожести. Никакого подвоха. Начните с группирования пауков.
Сборка Caffe в Google Colaboratory: бесплатная видеокарта в облаке
2018-06-04 в 17:20, admin, рубрики: caffe, Google Colaboratory, python, глубокое обучение, машинное обучение, нейронные сети, Облачные вычисления, облачные сервисыGoogle Colaboratory — это не так давно появившийся облачный сервис, направленный на упрощение исследований в области машинного и глубокого обучения. Используя Colaboratory, можно получить удаленный доступ к машине с подключенной видеокартой, причем совершенно бесплатно, что сильно упрощает жизнь, когда приходится обучать глубокие нейросети. Можно сказать, что она является некоторым аналогом гугл-документов для Jupyter Notebook.
В Colaboratory предустановлены Tensorflow и практически все необходимые для работы Python-библиотеки. Если какой-то пакет отсутствует, он с легкостью устанавливается на ходу через pip
или apt-get
. Но что если необходимо собрать проект из исходников и подключиться к GPU? Оказывается, это может быть не настолько просто, что я выяснил в ходе сборки SSD-Caffe. В этой публикации я дам краткое описание Colaboratory, опишу встреченные трудности и способы их решения, а также приведу несколько полезных приемов.
Весь код доступен в моем Colaboratory Notebook.
Insider Dev Tour: прямая трансляция
2018-06-04 в 6:51, admin, рубрики: Conference, event, microsoft, ml, MR, windows, Windows 10, Блог компании Microsoft, конференции, машинное обучение, Разработка веб-сайтов, разработка под windowsВсем привет! Сегодня в 10:00 мы начинаем прямую трансляцию конференции Insider Dev Tour. Для вас выступят наши коллеги из Редмонда и расскажут о самых новых технологиях компании в областях разработки под Windows, веб-разработки, машинного обучения и смешанной реальности. Присоединяйтесь к Live под катом!
Человек машине помощник
2018-06-03 в 19:05, admin, рубрики: data mining, deeplearning, machine learning, ocr, Блог компании Recognitor, Компьютерное зрение, машинное обучение, распознавание текстаЭтот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем прежде. Добро пожаловать под кат!