Рубрика «big data» - 22

Привет!

Недавно пообщался с коллегами о вариационном автоэнкодере и выяснилось что многие даже работающие в Deep Learning знают о вариационном выводе (Variational Inference) и в частности Нижней вариационной границе только по наслышке и не до конца понимают что это такое.
В этой статье я хочу подробно разобрать эти вопросы. Кому интересено, прошу под кат — будет очень интересно.
Читать полностью »

Тема нейросетей будоражит сердца разработчиков, учёных и маркетологов уже не первый год, а кого-то даже не первое десятилетие. Но все мы знаем, что частенько под проектами на основе нейронок прячется простая биг дата и маркетинговый булшит, раздутый на фоне кликбейтного заголовка. Мы постарались избежать такой истории и разработали проект нейропиццы, основанный на исследовании молекулярной сочетаемости ингредиентов, анализе 300 тыс. рецептов и чистого творчества. Под катом вы можете узнать детали и найти ссылку с открытым кодом на GitHub.

AI-пицца: как мы использовали две рекуррентные нейросети - 1

Может ли машина придумать что-то новое или она ограничена тем, что знает? Пока что никто не знает ответа на этот вопрос. Но уже сейчас искусственный интеллект отлично решает задачи анализа больших нестандартных данных.

Однажды в Dodo Pizza решили провести эксперимент: систематизировать и структурно описать то, что во всём мире считается хаотичным и субъективным – вкус. Искусственный интеллект, помог найти самые сумасшедшие сочетания ингредиентов, которые, несмотря на свою необычность, оказались вкусными для большинства людей.

Я и мой коллега выступили в качестве специалистов по нейросетям от МФТИ и Сколтеха в этом необычном проекте. Мы разработали и обучили нейросеть, способную решать задачу генерации кухонных рецептов. В ходе работы было проанализировано более 300 000 рецептов, а также результаты научных исследований на тему молекулярной сочетаемости ингредиентов. На основе этого ИИ научился находить неочевидные связи между ингредиентами и понимать, как они сочетаются между собой и как наличие каждого из них влияет на сочетаемость всех остальных.
Читать полностью »

Привет, читатели! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за сентябрь. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за август, можете прочесть его здесь.

Итак, а теперь дайджест за сентябрь:

1. Ученые EPFL разработали мягкую искусственную кожу, которая обеспечивает тактильную обратную связь и — благодаря сложному механизму самочувствия — потенциально способна мгновенно адаптироваться к движениям пользователя.

Читать полностью »

О том, что такое база KDB+, язык программирования Q, какие у них есть сильные и слабые стороны, можно прочитать в моей предыдущей статье и кратко во введении. В статье же мы реализуем на Q сервис, который будет обрабатывать входящий поток данных и высчитывать поминутно различные агрегирующие функции в режиме “реального времени” (т.е. будет успевать все посчитать до следующей порции данных). Главная особенность Q состоит в том, что это векторный язык, позволяющий оперировать не единичными объектами, а их массивами, массивами массивов и другими сложносоставными объектами. Такие языки как Q и родственные ему K, J, APL знамениты своей краткостью. Нередко программу, занимающую несколько экранов кода на привычном языке типа Java, можно записать на них в несколько строк. Именно это я и хочу продемонстрировать в этой статье.

Возможности языка Q и KDB+ на примере сервиса реального времени - 1Читать полностью »

Создаем датасет для распознавания счетчиков на Яндекс.Толоке - 1

Как-то два года назад, случайно включив телевизор, я увидел интересный сюжет в программе "Вести". В нём рассказывали о том, что департамент информационных технологий Москвы создает нейросеть, которая будет считывать показания счетчиков воды по фотографиям. В сюжете телеведущий попросил горожан помочь проекту и прислать снимки своих счетчиков на портал mos.ru, чтобы на них обучить нейронную сеть. 

Если Вы — департамент Москвы, то выпустить ролик на федеральном канале и попросить людей прислать изображения счетчиков — не очень большая проблема. Но что делать, если Вы — маленький стартап, и сделать рекламу на телеканале не можете? Как получить 50000 изображений счетчиков в таком случае?Читать полностью »

Сколько может рассказать о человеке профиль в соцсети? Фотографии, посты, комментарии, подписки – непаханное поле для анализа. Сегодня поговорим о том, как мы определяем интересы пользователей на основе их подписок в сети Instagram.

image

Источник
Читать полностью »

Сайзинг Elasticsearch - 1

— How big a cluster do I need?
— Well, it depends… (злобное хихиканье)

Elasticsearch — сердце Elastic Stack, в котором происходит вся магия с документами: выдача, приём, обработка и хранение. От правильного количества нод и архитектуры решения зависит его производительность. И цена, кстати, тоже, если ваша подписка Gold или Platinum.

Основные характеристики аппаратного обеспечения — это диск (storage), память (memory), процессоры (compute) и сеть (network). Каждый из этих компонентов в ответе за действие, которое Elasticsearch выполняет над документами, это, соответственно, хранение, чтение, вычисления и приём/передача. Поговорим об общих принципах сайзинга и раскроем то самое «it depends». А в конце статьи ссылки на вебинары и статьи по теме. Поехали!
Читать полностью »

Встретив на одном из информационных порталов видео с заголовком примерного содержания «Скорость доступа к интернету на Мадагаскаре выше нежели во Франции, Канаде и Великобритании», чего скрывать я был искренне удивлен. Стоит лишь напомнить что островное государство Мадагаскар, в отличии от вышеупомянутых северных стран, географически находится на самом отшибе не слишком благополучного континента — Африка. В тоже время экономическая ситуация в стране ставит антирекорды, что также не дает объяснения столь интригующему утверждению о высоких достижении африканской республики в стандартах доступа к сети.

Родина тех самых «мемных» лемуров, чуть ли не единственное место в мире где до сих пор безуспешно борются с пандемией легочной чумы, страна удивительных баобабов, беспросветной нищеты и скоростного интернета? Верно ли это утверждение, или мы стали свидетелями еще одного примера «фейк ньюз». Далее в статье и попробуем разобраться как же обстоят дела с интернетом в островном Мадагаскаре.

Мадагаскар — остров контрастов - 1
Читать полностью »

Особенности национального распознавания образов - 1

«Когда я слышу про распознавание образов, я никогда не спрашиваю, хорошие там алгоритмы или плохие. Я спрашиваю только, отличают ли они мотоцикл от трактора.» ©

Читать полностью »

Примерно 5 миллисекунд проходит от запроса до ответа, если данные хранятся на жестком диске. SSD отвечает в 300 раз быстрее — за 150 микросекунд. Оперативной памяти требуется в 300,000 раз меньше времени — лишь 15 наносекунд.*

Как технология in-memory изменила бизнес-аналитику - 1

Можно долго рассуждать о том, как бизнес-аналитика помогает финансам или логистике. Способов применить информацию много, все время появляются новые. Но принцип работы разных аналитических решений один и заключается он в том, чтобы соединить данные из разных источников и посмотреть на них вместе — то есть целиком.

Чтобы воспользоваться информацией из нескольких источников, нужно к ним подключиться и извлечь данные. Но данные создавались разными способами, с разной периодичностью и хранятся в разных форматах. Поэтому прежде, чем визуализировать данные или передать другим системам для дальнейшей обработки, их придется объединить с помощью каких-то математических операций — трансформировать.

Технология in-memory заключается в том, что для трансформации в оперативную память единовременно загружаются все данные из разных источников. После этого трансформацию можно выполнить «на лету», без запросов к диску. Например, кликом выбрать измерение и сразу получить график, который будет отображать значения показателей в нужном разрезе. Благодаря тому, что все данные уже в оперативной памяти, аналитическому приложению не нужно делать запросы к жесткому диску для получения новой информации.

Это вступление должно помочь мне рассказать о том, как и почему менялись технологии, лежащие в основе современных аналитических решений.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js