Apache Storm 1.0 — крупный релиз Open Source-платформы для вычислений в реальном времени
На прошлой неделе состоялся крупный релиз свободной распределённой платформы для вычислений в реальном времени — Apache Storm 1.0.
Storm является отказоустойчивой системой, позволяющей выполнять вычисления с предоставлением гарантий по обработке данных. Авторы позиционируют сравнивают свой проект с Hadoop, только для обработки данных в реальном времени (вместо пакетного режима). Проект доступен для использования практически на любых языках программирования и находит применение в аналитике в реальном времени, машинном обучении в онлайне, непрерывных вычислениях, распределённых RPC, ETL. Производительность Storm позволяет обрабатывать более миллиона кортежей за секунду на одном узле.
Последний релиз Apache Storm ознаменовал существенную веху в эволюции проекта и принёс платформе множество новых функций и улучшений. Среди значимых изменений можно отметить следующие:
- качественный рост производительности (до 16 раз по сравнению с предыдущими релизами);
- интеграция опционального heartbeat-демона Pacemaker;
- API для распределенного кэша (Distributed Cache API);
- поддержка HA Nimbus для высокой доступности кластера;
- Native Streaming Window API для потоковой обработки данных;
- Stateful Bolt API с автоматической проверкой состояния;
- возможность динамического изменения уровней логирования;
- механизм автоматического «противодавления» (Backpressure) для уменьшения пропускной способности при превышении настраиваемых порогов;
- планировщик RAS Scheduler, учитывающий доступные в кластере ресурсы (оперативная память, процессор);
- функция распределённого поиска по журналам (Distributed Log Search) в пользовательском интерфейсе Storm.