Apache Spark – универсальный инструмент для процессинга больших данных, с которым можно писать в Hadoop с различных СУБД, стримить всякие источники в реальном времени, параллельно делать с данными какую-нибудь сложную обработку, и все это не при помощи каких-то батчей, скриптов и SQL-запросов, а при помощи функционального подхода.
Про Spark ходит несколько мифов:
- Spark’y нужен Hadoop: не нужен!
- Spark’у нужна Scala: не обязательно!
Почему? Смотрите под катом.
Читать полностью »