Apache Spark
big-data framework
Motor de procesamiento de big data distribuido
Conceptos clave
RDDDataFrameSparkSessiontransformationsactions
Ventajas y Desventajas
Ventajas
- + Procesamiento distribuido
- + APIs para SQL, ML, streaming
- + In-memory muy rápido
- + Ecosistema maduro
Desventajas
- - Requiere cluster
- - Debugging distribuido complejo
- - Overhead para datos pequeños
Casos de Uso
- ETL a gran escala
- Analytics distribuido
- ML sobre big data
- Stream processing