Всем привет.
4 января вышла новая версия Apache Spark 1.6 с bug fix новыми возможностями обработки больших данных. На Хабре написано немало статей по использованию этого инструмента от введения до опыта использования в проектах. Spark работает на большинстве операционных систем и его можно запускать в локальном режиме даже на обычном ноутбуке. Используя простоту настройки Spark в этом случае грех не воспользоваться основными функциям. В этой статье мы посмотрим как на ноутбуке быстро настроить обработку большого файла (больше оперативной памяти компьютера) с помощью обычных SQL-запросов. Это позволит делать запросы даже неподготовленному пользователю. Дополнительное подключение iPython (Jupyter) notebook позволит составлять полноценные отчеты. В статье разобран простой пример обработки файла, другие примеры на Python есть тут.
Читать полностью »
Рубрика «Apache Spark» - 3
Spark local mode: обработка больших файлов на обычном ноутбуке
2016-01-08 в 17:20, admin, рубрики: Apache Spark, api, big data, sqlIBM продолжает работу с Apache Spark: корпорация запускает Spark-as-a-service
2016-01-05 в 22:03, admin, рубрики: Apache Spark, IBM, Spark IBM, Блог компании IBM, высокая производительность, Облачные вычисления, метки: Apache Spark
На конференции IBM Insight 2015 было сделано сразу несколько интересных анонсов. Основное — это продолжение развития идеи поддержки проекта Apache Spark. IBM запускает IBM Analytics on Apache Spark, при этом облачной платформой служит Bluemix. Напомним, что в июне корпорация IBM заявила о намерении инвестировать в проект более 300 миллионов долларов за несколько лет. Кроме того, ранее стало известно, что Apache Spark для Linux будет поддерживаться z Systems.
Такая поддержка будет осуществляться в рамках проекта «аналитика на мейнфреймах». Благодаря этому специалисты по дата-майнингу смогут использовать Apache Spark на мощных мейнфреймах z Systems.
Читать полностью »