Рубрика «big data» - 97

Приглашаем на конференцию по искусственному интеллекту и большим данным AI&BigData Lab 4 июня

2016-04-27 в 6:38, admin, рубрики: artificial intelligence, big data, data mining, FlyElephant, Алгоритмы, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение

Приглашаем на конференцию по искусственному интеллекту и большим данным AI&BigData Lab 4 июня - 1

4 июня в Одессе, наша команда FlyElephant совместно с GeeksLab будет проводить третью ежегодную техническую конференцию по искусственному интеллекту и большим данным — AI&BigData Lab.

На конференции разработчики обсудят вопросы реализации и применения различных алгоритмов, инструментов и новых технологий для работы с большими данными и искусственным интеллектом. Будут представлены воплощенные в жизнь проекты, рассказано о функционале и принципах их работы.

Программа конференции AI&BigData Lab уже частично сформирована. Среди принятых докладов можно отметить:
Читать полностью »

Производительность Apache Parquet

2016-04-26 в 23:47, admin, рубрики: apache hadoop, Apache Spark, avro, big data, csv, data mining, file format, parquet, performance tests, scala, кто читает теги?, сжатие данных, хранение данных

Плохой пример хорошего теста

Примечание переводчика:
Изначально статья задумывалась как вольный перевод текста Дона Дрейка (@dondrake) для Cloudera Engineering Blog об опыте сравнения Apache Avro и Apache Parquet при использовании Apache Spark. Однако в процессе перевода я углубился в детали и нашел в тестах массу спорных моментов. Я добавил к статье подзаголовок, а текст снабдил комментариями со злорадным указанием неточностей.

В последнее время в курилках часто возникали дискуссии на тему сравнения производительности различных форматов хранения данных в Apache Hadoop — включая CSV, JSON, Apache Avro и Apache Parquet. Большинство участников сразу отметают текстовые форматы как очевидных аутсайдеров, оставляя главную интригу состязанию между Avro и Parquet.

Господствующие мнения представляли собой неподтвержденные слухи о том, что один формат выглядит "лучше" при работе со всем датасетом, а второй "лучше" справляется с запросами к подмножеству столбцов.

Как любой уважающий себя инженер, я подумал, что было бы неплохо провести полноценные performance-тесты, чтобы наконец проверить, на чьей стороне правда. Результат сравнения — под катом.

Apache Parquet Logo Читать полностью »

Какие факторы влияют на производительность систем хранения и как?

2016-04-26 в 9:40, admin, рубрики: big data, IOPS, IT-стандарты, raid, Блог компании ua-hosting.company, ит-инфраструктура, производительность, пропускная способность, размер блока, размер кластера, системы хранения, хостинг

Системы хранения данных для подавляющего большинства веб-проектов (и не только) играют ключевую роль. Ведь зачастую задача сводится не только к хранению определенного типа контента, но и к обеспечению его отдачи посетителям, а также обработки, что накладывает определенные требования к производительности.

В то время, как при производстве накопителей используется множество других метрик, чтоб описать и гарантировать должную производительность, на рынке систем хранения и дисковых накопителей, принято использовать IOPS, как сравнительную метрику, с целью «удобства» сравнения. Однако производительность систем хранения, измеряемая в IOPS (Input Output Operations per Second), операциях ввода / вывода (записи / чтения), подвержена влиянию большого множества факторов.

В этой статье я хотел бы рассмотреть эти факторы, чтобы сделать меру производительности, выраженную в IOPS, более понятной.

Начнем с того, что IOPS вовсе не IOPS и даже совсем не IOPS, так как существует множество переменных, которые определяют сколько IOPS мы получим в одних и других случаях. Также следует принять во внимание, что системы хранения используют функции чтения и записи и обеспечивают различное количество IOPS для этих функций в зависимости от архитектуры и типа приложения, в особенности в случаях, когда операции ввода / вывода происходят в одно и тоже время. Различные рабочие нагрузки предъявляют различные требования к операциям ввода / вывода (I/O). Таким образом, системы хранения, которые на первый взгляд должны были бы обеспечивать должную производительность, в действительности могут не справится с поставленной задачей. Читать полностью »

Иллюзия больших данных

2016-04-25 в 7:04, admin, рубрики: big data, Большие данные, добыча данных, интеллект бизнеса, Исследования и прогнозы в IT, управление информацией, управление проектами

Действительно ли big data – это объективная насущная проблема для бизнеса?
Может быть это лишь красивый маркетинговый ход разработчиков мощных компьютеров и продуктов по хранению и обработке цифровых данных.
Может быть это лишь привлекательная реклама консультантов по исследованию рынков и поведенческих моделей клиентов.
А может это всего лишь модный тренд в сфере тотального наблюдения за субъектами рынка и прогнозирования их реакций.

Возможно и нет никаких «больших» данных, а есть большая иллюзия о том, что удастся каким-то образом собрать настолько огромный массив цифровой информации, обработать его неким волшебным образом и получить ответы на все вопросы, волнующие бизнесмена.

Иллюзия больших данных - 1
_{Кадр из к/ф «Особое мнение» (Minority Report) Стивена Спилберга по повести Филипа Дика (2002 — 20th Century Fox, DreamWorks SKG).}
Читать полностью »

«Яндекс» проверит подлинность фото в дейтингах и онлайн-магазинах

2016-04-25 в 6:32, admin, рубрики: big data, Yandex Data Factory, Текучка, фотография, яндекс, метки: big data, Yandex Data Factory, Текучка, фотография, яндекс

Yandex Data Factory разработала сервис автоматической модерации изображений с использованием компьютерного зрения и искусственного интеллекта. На основе анализа фотографии можно оценить, соответствует ли изображение правилам сервиса, а также найти его копии в интернете, говорят в компании. Об этом пишет «Коммерсантъ».

Читать полностью »

Flume — управляем потоками данных. Часть 2

2016-04-21 в 9:20, admin, рубрики: big data, flume, Hadoop, Анализ и проектирование систем, Блог компании DCA (Data-Centric Alliance), разработка, хранение данных

Привет! Мы продолжаем цикл статей, посвященный Apache Flume. В предыдущей части мы поверхностно рассмотрели этот инструмент, разобрались с тем, как его настраивать и запускать. В этот раз статья будет посвящена ключевым компонентам Flume, с помощью которых не страшно манипулировать уже настоящими данными.

Flume — управляем потоками данных. Часть 2 - 1

Читать полностью »

Как выиграть в игру с неизвестными правилами?

2016-04-18 в 13:36, admin, рубрики: artificial intelligence, big data, black box, challenge, kaggle, machine learning, Блог компании DCA (Data-Centric Alliance), искусственный интеллект, машинное обучение, Спортивное программирование, метки: black box

Привет! Если кратко, приглашаем всех поучаствовать в необычном конкурсе по машинному обучению Black Box Challenge, который проходит при поддержке DCA.

Как выиграть в игру с неизвестными правилами? - 1

Условия просты: нужно написать бота, который умеет играть в игру с неизвестными правилами. Победители получат ценные призы: от Xbox One до 300 тыс. рублей за первое место и возможность попасть в крутые компании на позицию специалиста по машинному обучению.

Ниже мы расскажем о соревновании в формате вопрос-ответ.
Читать полностью »

Этого не будет в BI (Купив BI tool, вы этого не получите)

2016-04-18 в 6:12, admin, рубрики: BI, big data, business analisys, Business Intelligence, data transfer, data view, Excel, reporting, Анализ и проектирование систем, визуализация данных, Промышленное программирование, Разработка систем передачи данных

Введение:

На мой взгляд, одна из основных проблем между бизнес аналитиками и пограммистами баз данных – это их взаимодействие. Многие современные BI решения предлагают, по сути, перенести работу аналитиков на программистов. Либо поднять технический уровень аналитиков, приблизив их к программистам. Вместо этого, я предлагаю рассмотреть решение, которое берет информацию у программистов БД и отдаёт её бизнес-аналитикам. Это решение позволит каждому заниматься своим делом, а не становиться программистом и бизнес аналитиком в одном лице.

Читать полностью »

Предсказание оттока игроков из World of Tanks от Yandex Data Factory. Лекция для Малого ШАДа

2016-04-17 в 14:58, admin, рубрики: big data, wargaming, Yandex Data Factory, ydf, Алгоритмы, Блог компании Яндекс, Большие данные, математика, Промышленное программирование

Важнейшая экспертиза Яндекса — машинное обучение. Она выросла из потребностей поиска, для ранжирования в котором нами была разработана известная сейчас многим технология Матрикснет. В 2014 году Яндекс стал использовать свои знания в области ML вне собственных сервисов — появилась Yandex Data Factory. Это международное направление, которое решает сложные математические задачи для других компаний.

Один из его проектов — прогноз оттока игроков World of Tanks. Илья Трофимов рассказал слушателям Малого ШАДа не только о проекте с Wargaming, но и о том, что вообще такое машинное обучение и в каких задачах оно может помогать бизнесу. Слушатели — старшеклассники, интересующиеся математикой и компьютерными науками.

Сам Илья в 2007 году окончил физический факультет МГУ по специализации «теоретическая физика». В 2011 — Школу анализа данных по специальности «анализ данных». В Яндексе занимался применением машинного обучения для оптимизации показов рекламы, сейчас решает задачи по анализу больших объёмов данных в Yandex Data Factory. Читает лекции в ШАДе по теме «Машинное обучение на больших данных».

Читать полностью »

Интернет вещей (IoT) – вызовы новой реальности

2016-04-15 в 7:10, admin, рубрики: big data, ddos, dos, internet of things, scada, атомная энергетика, безопасность, безопасность в сети, безопасность данных, Блог компании Gemalto Russia, веб-камера, Интернет вещей, информационная безопасность, Разработка для интернета вещей, транспорт, фишинг, хакер

В основе концепции IoT лежит повсеместное распространение интернета, мобильных технологий и социальных медиа, при этом сама идея поддерживается нашим стремлением сделать мир удобнее, проще, продуктивнее и безопаснее в самом широком смысле.

Интернет вещей (IoT) – вызовы новой реальности - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 97

Приглашаем на конференцию по искусственному интеллекту и большим данным AI&BigData Lab 4 июня

Производительность Apache Parquet

Плохой пример хорошего теста

Какие факторы влияют на производительность систем хранения и как?

Иллюзия больших данных

«Яндекс» проверит подлинность фото в дейтингах и онлайн-магазинах

Flume — управляем потоками данных. Часть 2

Как выиграть в игру с неизвестными правилами?

Этого не будет в BI (Купив BI tool, вы этого не получите)

Введение:

Предсказание оттока игроков из World of Tanks от Yandex Data Factory. Лекция для Малого ШАДа

Интернет вещей (IoT) – вызовы новой реальности

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 97

Плохой пример хорошего теста

Введение:

Новости

Актуальные темы

Архив