Stack Explorer

Dask

data-processing library

Librería para computación paralela en Python

Sitio oficial

Lenguajes soportados

Ventajas y Desventajas

Ventajas

  • + Paralelización fácil
  • + API familiar (pandas/numpy)
  • + Escala a clusters
  • + Lazy evaluation
  • + API compatible con pandas, NumPy y scikit-learn
  • + Escala desde laptop hasta clusters
  • + Lazy evaluation para optimizacion
  • + Dashboard para monitoreo
  • + Integracion con ecosistema PyData
  • + Soporta datos mayores que memoria

Desventajas

  • - Overhead
  • - Debugging complejo
  • - Overhead para datasets pequenos
  • - Debugging distribuido complejo
  • - No todas las funciones de pandas soportadas
  • - Configuracion de cluster puede ser dificil
  • - Rendimiento variable segun operacion

Casos de Uso

  • Big data processing
  • Computación paralela
  • ETL
  • ML distribuido
  • Procesamiento de datos mayores que RAM
  • Paralelizacion de workflows pandas
  • ETL distribuido
  • Feature engineering a escala
  • Analisis exploratorio de big data
  • Machine learning distribuido

Tecnologías Relacionadas