Рубрика «big data» - 103

alt

Команда FlyElephant подготовила для Вас новый дайджест, включающий в себя подборку ссылок на интересные материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления.
Читать полностью »

Здравствуйте, уважаемые читатели!

Мы наконец-то приступаем к переводу серьезной книги о фреймворке Spark:

Знакомство с Apache Spark - 1

Сегодня мы предлагаем вашему вниманию перевод обзорной статьи о возможностях Spark, которую, полагаем, можно с полным правом назвать слегка потрясающей.

Читать полностью »

Всем привет!

Сегодня мы расскажем о том, как с помощью потоковой обработки данных можно увеличить качество рекомендаций и снизить время отклика всей рекомендательной системы в 5 раз. Речь пойдет об одном из наших клиентов – сервисе потокового видео Rutube.

Рекомендации на потоке - 1
Читать полностью »

Как уменьшить количество измерений и извлечь из этого пользу - 1 Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать полностью »

Сегодня все чаще встречается широкое использование порталов SharePoint в масштабах организации. SharePoint используют не только как средство для совместной работы и редактирования документов, но и как средство хранения данных, что зачастую подменяет собой функцию файлового сервера.
Читать полностью »

На обиженных воду возят. Любая состоявшаяся индустрия умеет смеяться над собой. Вот социологи — не умеют. И SMM'щики обижаются постоянно. А уж журналистов и их потомков — PR'щиков — 2000 лет бросает в маковый цвет при любом косом взгляде.

Кстати, именно журналисты и PR'щики раздули из маленького слоненка (Hadoop) большую свинью, которую подложили технарям под видом красивого названия Big Data. Теперь каждая уважающая себя школа имеет свой портал в интернете, с 10 BigData базами на Pentium, а уж если у компании данных на 2 сервера, то она обязана открыть «Центр обработки Big Data» и пригласить 25 ученых для поиска смысла жизни.

Приглашаем оценить английский технологический BigData-юмор и посчитать, сколько из 12 success story применимы к вашей компании.

12 невероятных историй успеха Big Data, которые случатся в 2016 году - 1

Читать полностью »

Вступление

Cегодня мы вместе с анализом графов, data mining, subgroup discovery и всеми веселыми штуками взглянем на Хабр. Весь код и данные прилагаются — каждый может взглянуть на них самостоятельно, легко повторить рассчеты из статьи и найти что-то интересное самостоятельно.

Хабра-граф, -сообщества и куда же делась вся карма - 1
(это не просто картинка для привлечения внимания, а — граф связей ~45000 пользователей Хабра по тому, кто на кого подписан; размер вершины пропорционален числу подписчиков; все картинки кликабельны; подробности далее)

Обсуждаемые проблемы возникли, конечно же, далеко не вчера, но некоторые их аспекты кажутся мне достаточно новыми и поэтому достойными дискуссии, основанной на непредвзятых и репрезентативных данных. Например в комментариях этой статьи, увидел интересное утверждение:

Тут проблема в том, что на всем хабре за сегодня не насчитать больше 50-80 человек, которые вообще могут голосовать. У 90% пользователей карма просто ниже 5. Как итог оценивают комментарии и статьи только избранные. Это как жюри выходит такое.

И решил, что стоить его сформулировать в виде гипотезы и проверить:

Q1: Правда ли, что Хабр превратился в жюри-based сообщество, где два с половиной человека голосуют за статьи?

Вот в этой статье к нам вернулись "железные" Хабы и стало интересно, а как вообще представлены разные сообщества внутри Хабра? Формулируем в виде гипотезы:

Q2: Как сегментировано сообщество, или проще говоря сколько у нас здесь групп по интересам и соотвествуют ли они имеющимся хабам?

Последнее, но не менее интересное наблюдение, что активность на Хабре упала (по данным Хабра-пульса и моим субъективным наблюдениям), что даже решили ввести аккаунты "read & comment". Поэтому решил оценить активность сообщества и продумать, как информация о структуре сообщества может нам помочь:

Q3: Насколько активно сообщество и как нам может помочь структура внутренних групп?

За подробностями добро пожаловать под кат.

Структура статьи

Дозиметр в интернете вещей: составляем карту радиоактивных зон для себя и всего мира - 1

На днях в Минске состоится выставка новых устройств, созданных в рамках белорусских железячных стартапов — Party Hard! 2016. Мы решили рассказать об одном из самых интересных экспонатов этой выставки — умном дозиметре ZIVE, который синхронизируется со смартфоном и собирает данные для глобальной карты радиационного загрязнения.
Читать полностью »

Все погодные аномалии 2015 года за 8 минут - 1

Привет читатели и почитатели !

На днях Европейская организация по эксплуатации метеорологических спутников (EUMETSAT) совместно с коллегами из метеорологических агентств Японии и США опубликовала видео, которое вобрало все данные наблюдений за погодой в течение ушедшего 2015 год.

Два полушария, 12 месяцев и 8 минут отличной визуализации данных ждут Вас под катом!
Читать полностью »

Глава столичного дептранса, вице-мэр Максим Ликсутов рассказал «Газете.Ru» о встречах с представителями Uber. Сервис вызова такси, с одной строны и сервис рассылки заказов по водителям, с другой — пока не подписал никаких соглашений с Московской властью.

«У нас была встреча с представителями Uber, Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js