Рубрика «big data» - 23

Создаем датасет для распознавания счетчиков на Яндекс.Толоке - 1

Как-то два года назад, случайно включив телевизор, я увидел интересный сюжет в программе "Вести". В нём рассказывали о том, что департамент информационных технологий Москвы создает нейросеть, которая будет считывать показания счетчиков воды по фотографиям. В сюжете телеведущий попросил горожан помочь проекту и прислать снимки своих счетчиков на портал mos.ru, чтобы на них обучить нейронную сеть. 

Если Вы — департамент Москвы, то выпустить ролик на федеральном канале и попросить людей прислать изображения счетчиков — не очень большая проблема. Но что делать, если Вы — маленький стартап, и сделать рекламу на телеканале не можете? Как получить 50000 изображений счетчиков в таком случае?Читать полностью »

Сколько может рассказать о человеке профиль в соцсети? Фотографии, посты, комментарии, подписки – непаханное поле для анализа. Сегодня поговорим о том, как мы определяем интересы пользователей на основе их подписок в сети Instagram.

image

Источник
Читать полностью »

Сайзинг Elasticsearch - 1

— How big a cluster do I need?
— Well, it depends… (злобное хихиканье)

Elasticsearch — сердце Elastic Stack, в котором происходит вся магия с документами: выдача, приём, обработка и хранение. От правильного количества нод и архитектуры решения зависит его производительность. И цена, кстати, тоже, если ваша подписка Gold или Platinum.

Основные характеристики аппаратного обеспечения — это диск (storage), память (memory), процессоры (compute) и сеть (network). Каждый из этих компонентов в ответе за действие, которое Elasticsearch выполняет над документами, это, соответственно, хранение, чтение, вычисления и приём/передача. Поговорим об общих принципах сайзинга и раскроем то самое «it depends». А в конце статьи ссылки на вебинары и статьи по теме. Поехали!
Читать полностью »

Встретив на одном из информационных порталов видео с заголовком примерного содержания «Скорость доступа к интернету на Мадагаскаре выше нежели во Франции, Канаде и Великобритании», чего скрывать я был искренне удивлен. Стоит лишь напомнить что островное государство Мадагаскар, в отличии от вышеупомянутых северных стран, географически находится на самом отшибе не слишком благополучного континента — Африка. В тоже время экономическая ситуация в стране ставит антирекорды, что также не дает объяснения столь интригующему утверждению о высоких достижении африканской республики в стандартах доступа к сети.

Родина тех самых «мемных» лемуров, чуть ли не единственное место в мире где до сих пор безуспешно борются с пандемией легочной чумы, страна удивительных баобабов, беспросветной нищеты и скоростного интернета? Верно ли это утверждение, или мы стали свидетелями еще одного примера «фейк ньюз». Далее в статье и попробуем разобраться как же обстоят дела с интернетом в островном Мадагаскаре.

Мадагаскар — остров контрастов - 1
Читать полностью »

Особенности национального распознавания образов - 1

«Когда я слышу про распознавание образов, я никогда не спрашиваю, хорошие там алгоритмы или плохие. Я спрашиваю только, отличают ли они мотоцикл от трактора.» ©

Читать полностью »

Примерно 5 миллисекунд проходит от запроса до ответа, если данные хранятся на жестком диске. SSD отвечает в 300 раз быстрее — за 150 микросекунд. Оперативной памяти требуется в 300,000 раз меньше времени — лишь 15 наносекунд.*

Как технология in-memory изменила бизнес-аналитику - 1

Можно долго рассуждать о том, как бизнес-аналитика помогает финансам или логистике. Способов применить информацию много, все время появляются новые. Но принцип работы разных аналитических решений один и заключается он в том, чтобы соединить данные из разных источников и посмотреть на них вместе — то есть целиком.

Чтобы воспользоваться информацией из нескольких источников, нужно к ним подключиться и извлечь данные. Но данные создавались разными способами, с разной периодичностью и хранятся в разных форматах. Поэтому прежде, чем визуализировать данные или передать другим системам для дальнейшей обработки, их придется объединить с помощью каких-то математических операций — трансформировать.

Технология in-memory заключается в том, что для трансформации в оперативную память единовременно загружаются все данные из разных источников. После этого трансформацию можно выполнить «на лету», без запросов к диску. Например, кликом выбрать измерение и сразу получить график, который будет отображать значения показателей в нужном разрезе. Благодаря тому, что все данные уже в оперативной памяти, аналитическому приложению не нужно делать запросы к жесткому диску для получения новой информации.

Это вступление должно помочь мне рассказать о том, как и почему менялись технологии, лежащие в основе современных аналитических решений.Читать полностью »

В какой-то момент у профессионала возникает точка, когда он уже много чего знает и умеет и хочет этим поделиться с другими. Начинает преподавать. Однако, оказывается, что преподавание – это не так уж просто: чтобы сделать хорошее занятие, нужны какие-то знания и навыки. В нашей компании есть специальный документ, который содержит в себе массу советов о том, как новичку в преподавании сразу сделать достаточно качественное занятие. Мы подумали, а почему бы этим документом не поделиться со всем сообществом. Ведь никому хуже не станет от того, что у нас в разных местах будут преподавать лучше и интереснее.

Ниже сам документ.Читать полностью »

Я Data Scientist в команде Data Lake Platform в Райффайзенбанке. Три года назад в банке не было направления Big Data, а сейчас у нас есть отдельная платформа для работы с большими данными и активно развивающееся сообщество. По мере развития data driven культуры мы сталкиваемся с множеством вопросов: техническими, коммуникационными и не только.

В статье хочу рассказать, как наше сообщество Raiffeisen Data University помогает решать часть из них.

Strong «caffe» на завтрак и выездные хакатоны: почему это важно для развития Data Science сообщества - 1
Читать полностью »

image

Вчера 30 сентября Google объявил о выходе финального релиза TensorFlow 2.0.

«TensorFlow 2.0 является ПО с открытым исходным кодом и поддерживается сообществом, которое говорит, что им нужна простая в использовании платформа, гибкая и мощная, которая поддерживает развертывание на любой платформе. TensorFlow 2.0 предоставляет обширную экосистему инструментов для разработчиков, предприятий и исследователей, которые хотят использовать новейшие технологии машинного обучения и создавать масштабируемые приложения на базе ML.» — говорится в блоге Tensorflow на платформе Medium.

Читать полностью »

Кажется, что сфера интернет-рекламы должна быть максимально технологичной и автоматизированной. Ещё бы, ведь там работают такие гиганты и эксперты в своём деле, как Яндекс, Mail.Ru, Google и Facebook. Но, как оказалось, нет предела совершенству и всегда есть что автоматизировать.

image
Источник

Коммуникационная группа Dentsu Aegis Network Russia — крупнейший игрок на рекламном digital рынке и активно инвестирует в технологии, пытаясь в оптимизировать и автоматизировать свои бизнес-процессы. Одной из нерешенных задач рынка интернет-рекламы стала задача сбора статистики по рекламным кампаниям с разных интернет-площадок. Решение этой задачи в итоге вылилось в создание продукта D1.Digital (читать как ДиВан), о разработке которого мы и хотим рассказать.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js