Рубрика «big data» - 127

Победу сборной Германии обеспечил анализ больших данных

Когда в 2006 году в Германии проходил Чемпионат мира по футболу, вратарю Йенсу Леманну пришлось перед самым четвертьфиналом изучать помятые, исписанные от руки бумажные памятки, чтобы понять, как лучше противодействовать аргентинским пенальтистам. Спустя восемь лет команды Германии и Аргентины снова встретились но Чемпионате. Но в этот раз немцы использовали качественно новый инструмент, чтобы изучить будущего противника и заранее подготовить тактику борьбы.
Читать полностью »

Трансляция из морских глубин: 800 километровый канал NEPTUNE проводит интернет на дно океана
Вашему домашнему Ethernet кабелю на рабочем столе не приходится иметь дело c разными обитателями океанов, такими, например, как эта морская звезда.

Тектоническая плита Хуан де Фука — на сегодня одна из самых малых по размерам на Земле. Она находится в нескольких сотнях километров от Орегона, Вашингтон и побережья Британской Колумбии. Однако недостатки в размерах Хуан де Фука окупаются ее коммуникабельностью. Она стала домом для уникальной, высокоскоростной оптической кабельной сети, которая нашла свою дорогу через глубокое дно Тихого океана еще в конце 2009 года.

Этот канал прозвали NEPTUNE — the North-East Pacific Time-Series Underwater Networked Experiment (Северо-восточная тихоокеанская подводная экспериментальная сеть без временных перебоев — прим. переводчика). Его протяженность — более 800 километров, что сопоставимо с длиной 40 000 вагонов метро, сцепленных в один, длинный поезд.
Читать полностью »

Конфиденциальность в офисе: где черта, которую не стоит пересекать

Скажем прямо: посещение не относящихся к работе сайтов со своего рабочего места — явление обыденное. Как минимум, для тех, кто не лишен возможности это делать. Но в курсе ли вы, что начальство может следить за вашими похождениями?

С одной стороны современные инструменты анализа Big Data помогают крупным компаниям быть более продуктивными, ежедневно предоставляя сотрудникам данные полезные в их работе. С другой стороны, работодатели, почти наверняка, испытывают искушение собрать некоторые данные и о самих сотрудниках. В эпоху бурного цифрового преобразования такие компании могут отслеживать не только привычки клиентов, но и поведение собственного персонала.

Такова текущая реальность. Компании, наделенные инструментами обработки Big Data все чаще направляют свой взор внутрь. Переходят ли они при этом границу конфиденциальности на рабочем месте? — Вам решать.

Читать полностью »

Продолжаем тестировать Hazelcast. В предыдущем посте мы познакомились с его очередями. А в этом мы более внимательно взглянем на его возможность распределенного выполнения задач.

Работать с данными гораздо эффективнее как можно ближе к ним, а не выкачивать «к себе», потом считать иили изменять и отправлять обратно в распределенное хранилище. Именно такую возможность нам предоставляет Hazelcast в виде распределенной реализации ExecutorService. Можно управлять и тем, на каких серверах хранить данные, группируя их по общему ключу, и запускать задачи на нужных серверах, используя тот-же ключ.

Мы попытаемся выяснить — так ли это и есть ли какие подводные камни?

Читать полностью »

Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.
Читать полностью »

Итак, у Вас есть какой-то поток данных. Большой такой поток. Или уже готовый набор. И хочется определить какие-то его характеристики. Алгоритм определения минимального и максимального значения могут придумать даже не программисты. Вычисление среднего уже чуть сложнее, но тоже не представляет никаких трудностей — знай подсчитывай себе сумму да инкрементируй счетчик на каждое новое значение. Среднеквадратичное отклонение — все то же самое, только числа другие. А как насчет медианы?

Для тех, кто забыл, что это такое, напоминаю — медиана (50-й перцентиль) выборки данных — это такое значение, которое делит эту выборку пополам — данные из одной половины имеют значение не меньше медианы, а из второй — не больше. Ценность её заключается в том, что её значение не зависит от величины случайных всплесков, которые могут очень сильно повлиять на среднее.

Строго говоря, из определения следует, что для вычисления точного значения медианы нам нужно хранить всю выборку, иначе нет никаких гарантий, что мы насчитали именно то, что хотели. Но для непрерывных и больших потоков данных точное значение все равно не имеет большого смысла — сейчас оно одно, а через новых 100 отсчетов — уже другое. Поэтому эффективный метод оценки медианы, который не будет требовать много памяти и ресурсов CPU, и будет давать точность порядка одного процента или лучше — как раз то что нужно.
Читать полностью »

На днях Openstat втихаря выкатил новую функцию, которая официально называется «Группировка счетчиков».

Скажу сразу, я был несколько против такого названия, но прогнулся под аргументами других участников этой разработки. Меж тем, внутри компании мы по-прежнему продолжаем называть этот инструмент «мета-счетчиком», поэтому позвольте мне иногда использовать в своей заметке и такое название.

Теперь к сути… что такое мета-счетчик? В нашем случае это статистика и аналитика, получаемая на основе данных, поступающих не с одного, а сразу с нескольких счетчиков.

Читать полностью »

Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:

  1. Что такое галактика?
  2. И какая связь между галактиками и темой статьи (кластерный анализ)

image
Читать полностью »

Многие из нас слышали о Hazelcast. Это удобный продукт, который реализует различные распределенные объекты. В частности: key-value хранилища, очереди, блокировки и т.д. К нему в целом применяются утверждения о распределенности, масштабируемости, отказоустойчивости и другие положительные свойства.

Так ли это применительно к его реализации очередей? Где границы их использования? Это мы и попытаемся выяснить.
Читать полностью »

Итак, наверное, я продолжу свою серию ежегодных постов по магистерским программам.
В этом посте будет тонны ссылок для всех, кому лень искать себе образование.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js