Volga: новый open-source движок на Rust для real-time AI/ML бросает вызов Apache Spark и Flink
На арену обработки данных для искусственного интеллекта выходит новый игрок. Volga — это open-source движок, написанный на Rust, который позиционируется как прямая альтернатива гигантам индустрии Apache Spark и Apache Flink. Его ключевая задача — решить специфические проблемы real-time ML-систем, где традиционные движки часто демонстрируют недостатки.
Проект фокусируется на критически важных для машинного обучения операциях: обеспечении консистентности вычисления фич между онлайн и офлайн режимами, выполнении point-in-time корректных агрегаций и работе с длинными скользящими окнами. Кроме того, Volga предлагает встроенные ML-ориентированные функции, такие как top-k и категориальные агрегации, что отличает его от более универсальных решений. В основе архитектуры лежат компоненты экосистемы Arrow и DataFusion.
Появление Volga сигнализирует о растущем давлении на устоявшийся стек технологий для data-intensive приложений. Проект вступает в конкуренцию не только с универсальными стриминговыми движками (Flink, Spark, Arroyo), но и с более узкоспециализированными ML-платформами, такими как Chronon и OpenMLDB. Его развитие на Rust может привлечь внимание команд, ищущих высокую производительность и безопасность памяти для своих AI/ML пайплайнов, создавая новую точку напряжения в экосистеме data engineering.