Apache Spark

big-data framework

Motor de procesamiento de big data distribuido

Lenguajes soportados

Python Scala Java

Conceptos clave

RDDDataFrameSparkSessiontransformationsactions

Ventajas y Desventajas

Ventajas

+ Procesamiento distribuido
+ APIs para SQL, ML, streaming
+ In-memory muy rápido
+ Ecosistema maduro

Desventajas

- Requiere cluster
- Debugging distribuido complejo
- Overhead para datos pequeños

Casos de Uso

ETL a gran escala
Analytics distribuido
ML sobre big data
Stream processing

Tecnologías Relacionadas

Alternativas