В данной статье я хотел бы рассмотреть на практике вариант построения простейшей рекомендательной системы основанной на схожести изображений товаров. Этот материал предназначен для тех, кто хотел бы попробовать применить Deep Learning, а именно свёрточные нейронные сети, в простом, интересном и практически применимом проекте, но не знает с чего начать.
Читать полностью »
Рубрика «data science» - 35
Рекомендации на основе изображений товаров
2016-11-09 в 7:01, admin, рубрики: big data, cnn, data mining, data science, machine learning, python, Алгоритмы, машинное обучение, распознавание изображений, рекомендательные системыПрименение R для подготовки и передачи «живой» аналитики другим бизнес-подразделениям
2016-10-13 в 16:23, admin, рубрики: big data, data mining, data science, RВ этой краткой заметке хочу поделиться еще одним вариантом использования R в повседневных бизнес задачах. Этот «use-case» актуален почти для всех компаний, вне зависимости от их размера. Речь идет о подготовке различных оперативных отчетов и аналитических срезов.
«Любое техническое изменение должно отвечать на вопрос «зачем?» — Одноклассники о Java и не только
2016-10-13 в 12:04, admin, рубрики: data mining, data science, highload, java, smart data, unsafe, Блог компании JUG.ru Group, Блог компании Одноклассники, высокая производительность, одноклассники
Как в Одноклассниках использование sun.misc.Unsafe сочетается с повышенными требованиями к надёжности? Почему там дорабатывали систему мониторинга Cacti? Как работа в ОК пересекается с научной деятельностью? Если соцсеть называется «Одноклассники», то состоит ли весь её Java-код из одного класса?
Ответы на эти и другие вопросы — в нашем посте. В преддверии Joker, где сразу трое сотрудников ОК будут спикерами, а ещё один участвует в программном комитете, мы расспросили всех четверых — и не только их. На наши вопросы ответили:
- Олег Анастасьев, ведущий разработчик (участник программного комитета Joker 2016)
- Андрей Паньгин, ведущий разработчик (спикер Joker 2016)
- Виталий Худобахшов, ведущий аналитик (спикер Joker 2016)
- Дмитрий Бугайченко, инженер-аналитик (спикер Joker 2016)
- Андрей Губа, заместитель технического директора
- Кристина Штейнберга, руководитель отдела персонала
Запрягаем R на службу бизнесу на «1-2-3»
2016-10-03 в 14:07, admin, рубрики: big data, data mining, data science, RНастоящий пост является является, фактически, резюме, подводящим итоги предыдущих «технологических» публикаций [1, 2, 3, 4, 5] и возникших дискуссий и обсуждений. Последние показали, что задач в которых применение R могло бы оказать хорошую помощь бизнесу очень и очень много. Однако, даже в тех случаях, когда R используется, далеко не всегда для этого применяются современные возможности R.Читать полностью »
Видеозапись вебинара «Инструменты для работы Data Scientist»
2016-09-29 в 10:24, admin, рубрики: algorithms, big data, data mining, data science, deep learning, FlyElephant, Hadoop, HPC, spark, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение, Облачные вычисления
Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.
Читать полностью »
Data Science Week 2016. Обзор первого и второго дня
2016-09-26 в 11:18, admin, рубрики: big data, data mining, data science, data science week, Блог компании New Professions Lab, машинное обучение, метки: data science weekПубликуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.
Из физиков в Data Science (Из двигателей науки в офисный планктон). Вторая часть
2016-09-23 в 2:51, admin, рубрики: data science, кремниевая долина, работа в it, стартап, Учебный процесс в IT
Примерно год назад я написал текст о том как у меня происходил процесс перехода из академической среды в популярную ныне профессию Data Scientist. На удивление я получил достаточно много сообщений от людей, которые оказались в похожей ситуации, то есть мой пост нашел свою аудиторию и кому-то оказался полезен. Теперь пришла пара написать продолжение.
(Заранее извиняюсь за обилие английских слов, какие-то из них я не знаю как перевести, а какие-то мне переводить не хочется)
Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»
2016-09-15 в 14:40, admin, рубрики: big data, data mining, data science, RПродолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем»,
«Экосистема R как инструмент для автоматизации бизнес-задач» и Джентельменский набор пакетов R для автоматизации бизнес-задач. Настоящая публикация преследует 2 цели:
-
Взглянуть на типичные задачи, которые встречаются в бизнесе, под немного другим углом.
- Попробовать их решить, частично или полностью, с использованием средств, предоставляемых R.
Читать полностью »
Джентельменский набор пакетов R для автоматизации бизнес-задач
2016-09-07 в 11:55, admin, рубрики: big data, data mining, data science, RПродолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции» и
«Экосистема R как инструмент для автоматизации бизнес-задач».
Настоящая статья является ответом на возникшие вопросы по пакетам R, которые полезны для реализации описанных подходов. Я ее рассматриваю исключительно как справочную информацию, и отправную точку для последующего детального изучения заинтересовавшимися, поскольку за каждым пакетом скрывается огромное пространство со своей философией и идеологией, математикой и путями развития.
Как правило, все пакеты (9109 штук на 07.09.2016) находятся в репозитории CRAN. Те, что по тем или иным причинам, пока не опубликованы в репозиторий, могут быть найдены на GitHub. Итак, кратким списком:Читать полностью »
Экосистема R как инструмент для автоматизации бизнес-задач
2016-09-06 в 14:03, admin, рубрики: big data, data mining, data science, RНастоящая статья является продолжением предыдущей публикации «Инструменты DataScience как альтернатива классической интеграции». Основная цель — заострить внимание как разработчиков, так и руководителей среднего звена, на широком спектре возможностей, которые предоставляют современные инструменты из сферы Data Science за рамками классических задач статистических вычислений и модной нынче темы машинного обучения. В частности, возможности экосистемы R по состоянию на август 2016 года и применение этих возможностей на примере двух задач: одной из прикладной науки, другой – из среднего бизнеса.
Читать полностью »