Stack Explorer

Apache Spark

big-data framework

Motor de procesamiento de big data distribuido

Sitio oficial

Lenguajes soportados

Conceptos clave

RDDDataFrameSparkSessiontransformationsactions

Ventajas y Desventajas

Ventajas

  • + Procesamiento distribuido
  • + APIs para SQL, ML, streaming
  • + In-memory muy rápido
  • + Ecosistema maduro

Desventajas

  • - Requiere cluster
  • - Debugging distribuido complejo
  • - Overhead para datos pequeños

Casos de Uso

  • ETL a gran escala
  • Analytics distribuido
  • ML sobre big data
  • Stream processing