Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и возможность использования из-под Python. При этом все сходятся на том, что в рамках стандартного API производительность кода на Python и Scala/Java сопоставима, но касательно пользовательских функций (User Defined Function, UDF) единой точки зрения нет. Попробуем разобраться в том, насколько увеличиваются накладные расходы в этом случае, на примере задачи проверки решения SNA Hackathon 2019.
Рубрика «scala» - 6
Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом
2019-03-13 в 7:42, admin, рубрики: big data, data mining, python, scala, spark, Блог компании Mail.Ru Group, Блог компании ОдноклассникиАнализ данных на Scala — суровая необходимость или приятная возможность?
2019-03-06 в 13:03, admin, рубрики: big data, data mining, machine learning, scala, spark, Блог компании Mail.Ru Group, Блог компании Одноклассники, машинное обучениеТрадиционными инструментами в сфере Data Science являются такие языки, как R и Python — расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые работающие решения. Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. В этом случае специалисту приходится, скрепя сердце, обращаться к помощи "темной стороны" и подключать инструменты на "промышленных" языках программирования: Scala, Java и C++.
Но так ли уж темна эта сторона? За годы развития инструменты "промышленного" Data Science прошли большой путь и сегодня достаточно сильно отличаются от своих же версий 2-3 летней давности. Давайте попробуем на примере задачи SNA Hackathon 2019 разобраться, насколько экосистема Scala+Spark может соответствовать Python Data Science.
«Не вижу ни одного резона использовать Python для работы со Spark, кроме лени»
2019-03-06 в 12:48, admin, рубрики: big data, java, production, python, scala, spark, Блог компании New Professions Lab, машинное обучениеНа днях мы решили пообщаться c Дмитрием Бугайченко (dmitrybugaychenko), одним из наших преподавателей программы "Анализ данных на Scala", и обсудить с ним актуальные вопросы использования Scala в задачах Data Science и Data Engineering. Дмитрий является инженером-аналитиком в "Одноклассниках".
Scala + MXNet = Микросервис с нейронкой в проде
2019-02-13 в 13:36, admin, рубрики: docker, mxnet, scala, Блог компании Mail.Ru Group, машинное обучение, микросервисы, нейросеть
В интернете есть огромное количество руководств и примеров, на основе которых вы, дорогие читатели, сможете «без особого труда» и с «минимальными» временными затратами написать код, способный на фото отличать кошечек от собачек. И зачем тогда тратить время на эту статью?
Основной, на мой взгляд, недостаток всех этих примеров — ограниченность возможностей. Вы взяли пример, — пусть даже с базовой нейронной сетью, которую предлагает автор, — запустили его, возможно, он даже заработал, а что дальше? Как сделать так, чтобы этот незамысловатый код начал работать на production-сервере? Как его обновлять и поддерживать? Вот тут и начинается самое интересное. Мне не удалось найти полного описания процесса от момента «ну вот, ML-инженер обучил нейронную сеть» до «наконец-то мы выкатили это в production». И я решил закрыть этот пробел.
Читать полностью »
Почему вы должны думать о функциональном программировании
2019-01-31 в 20:26, admin, рубрики: java, scala, программная инженерия, функциональное программированиеПривет! Представляю вашему вниманию перевод своей статьи «Why you should think about functional programming», посвященной функциональному программированию.
Почему вы должны думать о функциональном программировании? Давайте ответим на следующие вопросы:
- всегда ли ваши проекты выполняются в определенные сроки?
- Были ли у пользователей какие-либо жалобы?
- Поддержка проекта никогда не занимала много времени?
- Новый функционал всегда удачно вписывается в существующую архитектуру?
Если ответы на все вышеупомянутые вопросы положительные, вам не нужно ничего менять, ваша команда — редкий пример гармоничного персонала, методологии и инструментов. В противном случае вы должны быть открыты для новых подходов к решению ваших проблем, включая критический взгляд на используемые технические средства и языки программирования.
Читать полностью »
Субъективное видение идеального языка программирования
2019-01-07 в 14:51, admin, рубрики: c++, cortege, functional programming, kotlin, python, scala, union type, дизайн языков программирования, ненормальное программирование, ПрограммированиеДальнейший текст — моя точка зрения. Возможно, она позволит кому-то по-новому взглянуть на дизайн языков программирования или увидеть какие-то преимущества и недостатки конкретных фич. Я не буду лезть в частные подробности типа "в языке должна быть конструкция while", а просто опишу общие подходы. P.S. У меня когда-то была идея создать свой язык программирования, но это оказалось довольно сложным процессом, который я пока не осилил.
Влияние предыдущего опыта
На написание статьи меня вдохновила вот эта статья. Автор придумал свой язык программирования, и этот язык своим синтаксисом и особенностями оказался подозрительно похожим на Free Pascal, на котором и была написана реализация ВМ для языка. И это не совпадение. Языки программирования, на которых мы раньше писали, загоняют мышление в рамки языка. Мы сами можем не замечать этого, но сторонний наблюдатель с иным опытом может посоветовать что-то неожиданное или сам научиться чему-то новому.
Рамки мышления немного раздвигаются после освоения нескольких языков. Тогда в языке А вам может захотеться иметь фичу из Б и наоборот, а ещё появится осознание сильных и слабых стороны каждого языка.
Например, когда я пробовал придумать и создать свой язык, мои размышления кардинально отличались от тех, что были описаны в статье выше. Я думал о совершенно иных вещах в рамках совершенно иных терминов. Ниже я опишу фичи языка, которые я хотел бы видеть в "идеальном" языке программирования.
Мой опыт: когда-то я начинал с паскаля, впоследствии познакомился с Java, Kotlin, C++, Python, Scheme, а основными языком считаю Scala. Как и в вышеописанном случае, мой "идеальный" язык имеет много общего со Scala. По крайней мере, я отдаю себе отчёт в этом сходстве)
Как обрабатывать ошибки на JVM быстрее
2018-12-06 в 15:03, admin, рубрики: Either, exception, exception handling, functional programming, java, scala, throw, validation, Программирование, функциональное программированиеСуществуют различные способы обработки ошибок в языках программирования:
- стандартные для многих языков исключения (Java, Scala и прочий JVM, python и многие другие)
- коды статуса или флаги (Go, bash)
- различные алгебраические структуры данных, значениями которых могут быть как успешные результаты так и описания ошибок (Scala, haskell и другие функциональные языки)
Исключения используются очень широко, с другой стороны о них часто говорят, что они медленные. Но и противники функционального подхода часто апеллируют к производительности.
Последнее время я работаю со Scala, где в равной мере я могу использовать как исключения так и различные типы данных для обработки ошибок, поэтому интересно какой из подходов будет удобнее и быстрее.
Сразу отбросим использование кодов и флагов, так как этот подход не принят в JVM языках и по моему мнению слишком подвержен ошибкам (прошу прощения за каламбур). Поэтому будем сравнивать исключения и разные виды АТД. Кроме того АТД можно рассматривать как использование кодов ошибок в функциональном стиле.
UPDATE: к сравнению добавлены исключения без стек-трейсов
Читаете ли вы Scaladoc для «очевидных» методов коллекций? Или почему лениться не всегда хорошо
2018-11-28 в 10:38, admin, рубрики: filterKeys, mapValues, scala, scaladoc, view, WAT, Блог компании ИНФОРИОН, коллекции, неочевидноЕсли вы не знаете, чем отличаются
someMap.map{ case (k, v) => k -> foo(v)}
и
someMap.mapValues(foo)
кроме синтаксиса или сомневаетесь/не знаете, к каким плохим последствиям это отличие может привести и причем тут identity
, то это статья для вас.
В противном случае — поучаствуйте в опросе, расположенном в конце статьи.
Программистом к ирландским букмекерам
2018-11-15 в 9:36, admin, рубрики: gambling, it-эмиграция, scala, software engineering, Дублин, Ирландия, Карьера в IT-индустрии, переезд, эмиграцияПривет!
Около года назад мне предложили работу в Ирландии, на которую я согласился. Переехали мы (с супругой) чуть более полугода назад, и можно считать что с тех пор обустроились, хотя многое ещё впереди. Процессы подготовки к переезду, собственно переезда и адаптации после совсем не быстрые, с большим количеством подводных камней (и не обо всех из них предупреждают рекрутеры и кадровики), поэтому я решил поделиться своим опытом.
В хабе IT-эмиграция в последнее время публикуют всё больше и больше статей про переезд в разные страны, но довольно мало про Ирландию — решил восполнить этот пробел. Надеюсь, кому-то будет полезно.
Я работаю разработчиком программного обеспечения в международной букмекерской компании со штаб-квартирой в Дублине. Если чуть точнее, пишу на Scala/Akka, хотя планирую не ограничивать себя только этим. Разрабатываем кластерные отказоустойчивые высоконагруженные приложения.
Подробности ниже.