Привет! Мы уже говорили про Theano и Tensorflow (а также много про что еще), а сегодня сегодня пришло время поговорить про Keras.
Изначально Keras вырос как удобная надстройка над Theano. Отсюда и его греческое имя — κέρας, что значит "рог" по-гречески, что, в свою очередь, является отсылкой к Одиссее Гомера. Хотя, с тех пор утекло много воды, и Keras стал сначала поддерживать Tensorflow, а потом и вовсе стал его частью. Впрочем, наш рассказ будет посвящен не сложной судьбе этого фреймворка, а его возможностям. Если вам интересно, добро пожаловать под кат.
Рубрика «data mining» - 50
Библиотеки для глубокого обучения: Keras
2017-04-20 в 11:09, admin, рубрики: data mining, deep learning, keras, machine learning, neural network, ods, open data science, python, TensorFlow, theano, Блог компании Open Data Science, математика, машинное обучениеКак мы делали ML Boot Camp III
2017-04-19 в 14:30, admin, рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение
19 марта закончился третий чемпионат по машинному обучению на платформе ML Boot Camp. 614 человек прислали решения и поборолись за главный приз ー MacBook Air. Для нас это важный проект: мы хотим расширить сообщество ML-специалистов России. Поэтому в наших задачах сможет разобраться даже новичок. Теоретически… Профи же соревнуются благодаря сложности метрик и большому ряду параметров задачи.
Со второго контеста многое изменилось. Мы увеличили количество участников вдвое, прикрутили к серверу новую метрику, пофиксили баги и создали ML-комьюнити в Телеграме. Рассказываем, как проводили третий контест.
Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit
2017-04-17 в 11:02, admin, рубрики: data mining, machine learning, mlcourse_open, ods, open data science, python, sgd, vowpal wabbit, Алгоритмы, Блог компании Open Data Science, машинное обучениеВсем привет!
Вот мы постепенно и дошли до продвинутых методов машинного обучения, сегодня обсудим, как вообще подступиться к обучению модели, если данных гигабайты и десятки гигабайт. Обсудим приемы, позволяющие это делать: стохастический градиентный спуск (SGD) и хэширование признаков, посмотрим на примеры применения библиотеки Vowpal Wabbit. Домашнее задание будет как на реализацию SGD-алгоритмов, так и на обучение классификатора вопросов на StackOverflow по выборке в 10 Гб.
Поехали!
Data science и качественный код
2017-04-17 в 9:53, admin, рубрики: big data, data mining, data science, machine learning, python, машинное обучениеОбычно модели машинного обучения строят в jupyter-ноутбуках, код которых выглядит, мягко говоря, не очень — длинные простыни из лапши выражений и вызовов "на коленке" написанных функций. Понятно, что такой код почти невозможно поддерживать, поэтому каждый проект переписывается чуть ли не с нуля. А о внедрении этого кода в production даже подумать страшно.
Поэтому сегодня представляем на ваш строгий суд превью библиотеки по работе с датасетами и data science моделями. С ее помощью ваш код может выглядеть так:
my_dataset.
load('/some/path').
normalize().
resize(shape=(256, 256, 256)).
random_rotate(angle=(-30, 30))
random_crop(shape=(64, 64, 64))
for i in range(MAX_ITER):
batch = my_dataset.next_batch(BATCH_SIZE, shuffle=True)
# обучаем модель, подавая ей батчи с данными
В этой статье вы узнаете об основных классах и методах, которые помогут сделать ваш код простым, понятным и удобным.
Быстрая загрузка данных из файлов в R
2017-04-16 в 13:05, admin, рубрики: big data, data mining, R, высокая производительность, производительностьНедавно мы писали приложение на Shiny, где нужно было использовать очень большой блок данных (dataframe). Это непосредственно влияло на время запуска приложения, поэтому пришлось рассмотреть ряд способов чтения данных из файлов в R (в нашем случае это были csv-файлы, предоставленные заказчиком) и определить лучший.
Цель этой заметки — сравнить:
read.csv
изutils
— стандартный способ чтения csv-файлов в Rread_csv
изreadr
, который в RStudio заменил предыдущий методload
иreadRDS
изbase
, иread_feather
изfeather
иfread
изdata.table
.
RStudio Connect — «фейслифтинг» Shiny для корпоративного применения
2017-04-11 в 14:30, admin, рубрики: big data, data mining, data science, RПрошло достаточно времени с упоминания в предыдущей публикации об использовании RStudio Connect в боевых условиях для того, чтобы поделиться результатами. Краткое резюме — «дайте два!». И подумайте про оптимизацию отдела «аналитиков». Ниже приведены подробности.
В качестве дополнительного чтения рекомендую взглянуть детальную публикацию «Data at GDS (Government Digital Service). Reproducible Analytical Pipeline» в блоге аналитической службы гос.органов UK по аналогичной теме.
Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация
2017-04-10 в 11:01, admin, рубрики: clusterization, data mining, k-means, machine learning, mlcourse_open, ods, open data science, PCA, python, Алгоритмы, Блог компании Open Data Science, машинное обучениеПривет всем! Приглашаем изучить седьмую тему нашего открытого курса машинного обучения!
Данное занятие мы посвятим методам обучения без учителя (unsupervised learning), в частности методу главных компонент (PCA — principal component analysis) и кластеризации. Вы узнаете, зачем снижать размерность в данных, как это делать и какие есть способы группирования схожих наблюдений в данных.Читать полностью »
Быстрый старт: обзор основных Deep Learning фреймворков
2017-04-06 в 11:02, admin, рубрики: big data, caffe, data mining, deep learning, keras, microsoft CNTK, paddle, TensorFlow, theano, torch, Блог компании New Professions Lab, машинное обучениеПривет! Предлагаем вам перевод поста “Getting Started with Deep Learning” от Мэтью Рубашкина из Silicon Valley Data Science о преимуществах и недостатках существующих Deep Learning технологий и о том, какой фреймворк выбрать, учитывая специфику задачи и способности команды.
О линейной регрессии: байесовский подход к курсу рубля
2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные ряды
Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).
Школа данных: Москва, Питер… онлайн
2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных
Привет,
Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…
Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.
Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »