Праздники все закончились и вот у нас в дайджесте много интересных материалов – про успех ролла «Калифорния», правильную анимацию, борьбу с Siri внутри Apple, кроссплатформенную разработку, джуниоров и мидлов.
Рубрика «машинное обучение» - 166
Дайджест интересных материалов для мобильного разработчика #245 (12 марта— 18 марта)
2018-03-18 в 12:30, admin, рубрики: apple, Google Play, ios 11, kotlin, sketch, swift, unity, ux дизайн, Блог компании Everyday Tools, искусственный интеллект, макретинг мобильных приложений, машинное обучение, разработка игр, разработка мобильных приложений, Разработка под android, разработка под iOSСрыв масштабной хакерской атаки на пользователей Windows в России
2018-03-16 в 19:58, admin, рубрики: Dofoil, windows, Windows Defender, антивирусная защита, Блог компании Microsoft, информационная безопасность, кибератаки, машинное обучение, разработка под windows, уязвимости6 марта Windows Defender заблокировал более 80 000 экземпляров нескольких сложных троянов, которые использовали изощренные приемы внедрения вредоносного кода в адресное пространство процессов и не менее изощренные механизмы обеспечения устойчивости и уклонения от обнаружения. Выявить новую волну попыток заражения удалось благодаря сигналам от систем поведенческого анализа в сочетании с облачными моделями машинного обучения.
CSS ScaleFlux, или как ускорить базы данных в два-три раза простой заменой NVMe
2018-03-14 в 14:30, admin, рубрики: big data, ScaleFlux, Блог компании GlobalDots, высокая производительность, данные, машинное обучение, производительностьБазы данных, сети дистрибуции контента, big data, искусственный интеллект, машинное обучение — все эти data-driven сценарии требуют высокой производительности всей ИТ-инфраструктуры. Для подсистемы хранения все решается просто — установка скоростных NVMe и SSD вместо SAS и SATA. С вычислительной частью все сложнее — центральные процессоры не успевают за множеством операций, очень чувствительных ко времени. Для устранения этого «бутылочного горлышка» компания ScaleFlux разработала новые типы носителей. Внутри них бок о бок с 3D NAND памятью работают FPGA-компоненты, которые берут на себя множество типовых операций с данными. В этом посте мы подробно расскажем о решении ScaleFlux.
Наташа — библиотека для извлечения структурированной информации из текстов на русском языке
2018-03-14 в 13:12, admin, рубрики: big data, data mining, ner, nlp, python, yargy, машинное обучение, наташаЕсть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:
Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.
Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Питоном. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.
Год назад Дима Веселов начал проект Наташа. С тех пор код был значительно доработан. Наташа была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.
Наташа — это аналог Томита-парсера для Питона (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.
В статье показано, как использовать готовые правила Наташи и, самое главное, как добавлять свои с помощью Yargy-парсера.
Читать полностью »
Как быстро написать и выкатить в продакшн алгоритм машинного обучения
2018-03-13 в 10:06, admin, рубрики: big data, data mining, data science, kaggle, machine learning, python, машинное обучениеСейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.
Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.
Читать полностью »
Познаём Нирвану – универсальную вычислительную платформу Яндекса
2018-03-12 в 16:14, admin, рубрики: Блог компании Яндекс, машинное обучение, нирвана, Облачные вычисления, яндексМашинное обучение превратилось в модный термин, но при работе с большими объёмами данных оно уже много лет является жизненной необходимостью. Яндекс обрабатывает более 200 миллионов запросов ежедневно! Когда-то в интернете было так мало сайтов, что наилучшие из них помещались в каталог, а теперь за релевантность ссылок на страницы в выдаче отвечают сложные формулы, обучающиеся на новых и новых данных. Задача ложится на так называемые конвейеры, регулярные процессы, обучающие и контролирующие эти формулы.
Сегодня хотим поделиться с сообществом Хабра нашим опытом создания вычислительной платформы Нирвана, которая, среди прочего, применяется для задач машинного обучения.
Нирвана — неспециализированная облачная платформа для управления вычислительными процессами, где приложения запускаются в порядке, указанном пользователем. В Нирване хранятся нужные процессам описания, ссылки, блоки процессов и связанные с ними данные. Процессы оформлены в виде асинхронных графов.
Нирваной для решения вычислительных задач пользуются разработчики, аналитики и менеджеры разных департаментов Яндекса — потому что далеко не всё можно посчитать на своем ноутбуке (а почему ещё — мы расскажем в конце статьи, когда перейдем к примерам применения Нирваны).
Мы расскажем, с какими проблемами столкнулись при использовании предыдущего решения, опишем ключевые компоненты Нирваны и объясним, почему для платформы было выбрано именно такое название. А потом посмотрим на скриншот и перейдем к задачам, для которых полезна платформа.
Читать полностью »
Google открыла код для машинного поиска экзопланет по данным с «Кеплера»
2018-03-12 в 15:30, admin, рубрики: Google, open source, TensorFlow, астрономия, искусственный интеллект, машинное обучение, Научно-популярное, нейросеть, экзопланеты
Фрагмент Солнечной системы (слева) в сравнении с восьмипланетной системой Kepler 90 (справа). Обнаруженная нейросетью Google экзопланета Kepler 90i с периодом обращения 14 дней отмечена оранжевым цветом
Исследователи находят всё новые применения нейросетям для обработки изображений. Теоретически возможности машинного обучения с подкреплением (DL) поистине безграничны, но когда смотришь на реальные достижения этих программ — среди них не так уж много действительно полезных на практике. Чаще всего нейросети достигают успеха в какой-нибудь игре, выдавая в качестве положительного стимула количественный результат в очках. Но какой смысл, что ваш ИИ научился отлично играть в Counter-Strike, если он не способен реализовать свои знания на практике и обезвредить настоящих террористов?
Но в отдельных случаях DL всё-таки используют не только для изучения самого DL, но и для решения практических задач, важных для человечества. Например, они используются в здравоохранении, квантовой химии и ядерной физике (везде даны ссылки на исследования Google). Теперь к этому списку присоединилась астрофизика. Инженеры из подразделения Google Brain нашли две новые экзопланеты, обучив нейросеть анализировать данные с космического телескопа «Кеплер». Хотя это всего лишь предварительные результаты после обработки 670 звёздных систем, но они доказывают применимость машинного обучения в данной области.
8 марта 2018 года разработчики Google выложили на GitHub исходный код программы для обработки данных с «Кеплера», программ обучения нейросети и выдачи прогнозов по самым перспективным звёздным системам.
Читать полностью »
Первые шаги в Машинном обучении
2018-03-12 в 13:16, admin, рубрики: machine learning, python, python 3, машинное обучениеПривет дорогой друг, ты всегда хотел попробовать машинное обучение, но область выглядела загадочно и сложно? Я хотел бы поделиться с тобой моей историей как я сделал первые шаги в машинном обучении, при нулевом знании Python и высшей математики на небольшом примере.
Читать полностью »
Мульти-классификация Google-запросов с использованием нейросети на Python
2018-03-11 в 13:45, admin, рубрики: keras, NLTK, numpy, pandas, python, ИИ, классификация, математика, машинное обучение, СемантикаПрошло уже достаточно времени с момента публикации моей первой статьи на тему обработки естественного языка. Я продолжал активно исследовать данную тему, каждый день открывая для себя что-то новое.
Сегодня я бы хотел поговорить об одном из способов классификации поисковых запросов, по отдельным категориям с помощью нейронной сети на Keras. Предметной областью запросов была выбрана сфера автомобилей.
За основу был взят датасет размером ~32000 поисковых запросов, размеченных по 14ти классам: Автоистория, Автострахование, ВУ (водительское удостоверение), Жалобы, Запись в ГИБДД, Запись в МАДИ, Запись на медкомиссию, Нарушения и штрафы, Обращения в МАДИ и АМПП, ПТС, Регистрация, Статус регистрации, Такси, Эвакуация.Читать полностью »
Эффективные методы сжатия данных при тренировке нейросетей. Лекция в Яндексе
2018-03-11 в 12:37, admin, рубрики: alexnet, CNTK, cpu, DNN, fragmentation, gist, gpu, gzip, lcp, LSTM, memory management, mxnet, pool, reinforcement learning, relu, resnet, TensorFlow, Блог компании Яндекс, глубокие сети, машинное обучение, сжатие данныхНе так давно в Яндекс приезжал Геннадий Пехименко — профессор Университета Торонто и PhD Университета Карнеги-Меллон. Он прочитал лекцию об алгоритмах кодирования, которые позволяют обходить проблему ограничения памяти GPU при обучении глубоких нейронных сетей.
— Я вхожу в несколько групп Университета Торонто. Одна из них — Computer Systems and Networking Group. Есть еще моя собственная группа — EcoSystem Group. Как видно из названий групп, я не специалист непосредственно в машинном обучении. Но нейронные сети сейчас достаточно популярны, и людям, которые занимаются компьютерной архитектурой и сетями, компьютерными системами, приходится сталкиваться с этими приложениями на постоянной основе. Поэтому последние полтора-два года этой темой я тоже плотно занимаюсь.
Читать полностью »