
21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.
О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:
Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.
Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат. Читать полностью »