Разработка расширений Apache Spark в Scala: Создание пользовательских суперсил для вашего движка обработки данных

Разработка расширений Apache Spark в Scala: Создание пользовательских суперсил для вашего движка обработки данных

Если вы когда-нибудь смотрели на Apache Spark и думали: «Это потрясающе, но хотелось бы добавить сюда кое-что ещё», то вам повезло. Сегодня мы погрузимся в искусство создания расширений Spark на Scala — по сути, создания собственных суперспособностей для вашего движка обработки данных. Независимо от того, оптимизируете ли вы под конкретные случаи использования, интегрируете с проприетарными системами или просто создаёте следующего единорога в области больших данных, расширения — ваше секретное оружие....

29 октября 2025 14:00 · 5 минут · 879 слов · Maxim Zhirnov

Apache Beam против Apache Spark: Окончательное решение для пакетной и потоковой обработки

Представьте: вы стоите в отделе больших данных своего любимого магазина техники (да, это вполне реально в моём воображении) и выбираете между двумя блестящими фреймворками, которые обещают решить все ваши проблемы с обработкой данных. В левом углу — Apache Spark — чемпион тяжёлого веса, который демонстрирует свои возможности обработки данных в памяти с 2014 года. В правом углу — Apache Beam — новый дипломатический игрок с 2016 года, который ладит со всеми и обещает «напиши один раз, запускай где угодно»....

10 августа 2025 14:01 · 6 минут · 1079 слов · Maxim Zhirnov
Apache Spark против Hadoop: решающее противостояние в обработке больших объемов данных

Apache Spark против Hadoop: решающее противостояние в обработке больших объемов данных

Когда речь заходит о мире больших данных, часто вспоминают два имени: Apache Hadoop и Apache Spark. Эти гиганты в области распределённых вычислений стали основным решением для обработки огромных наборов данных. Однако они отличаются друг от друга, как день и ночь. В этой статье мы рассмотрим особенности каждого из них, сравним их архитектуры, варианты использования и уникальные преимущества. Hadoop-экосистема Apache Hadoop — ветеран мира больших данных. Он разработан Apache Software Foundation для работы с огромными объёмами данных путём распределения обработки между кластером узлов....

21 октября 2024 10:00 · 4 минуты · 1 слово · Maxim Zhirnov