Dask
data-processing library
Librería para computación paralela en Python
Lenguajes soportados
Ventajas y Desventajas
Ventajas
- + Paralelización fácil
- + API familiar (pandas/numpy)
- + Escala a clusters
- + Lazy evaluation
- + API compatible con pandas, NumPy y scikit-learn
- + Escala desde laptop hasta clusters
- + Lazy evaluation para optimizacion
- + Dashboard para monitoreo
- + Integracion con ecosistema PyData
- + Soporta datos mayores que memoria
Desventajas
- - Overhead
- - Debugging complejo
- - Overhead para datasets pequenos
- - Debugging distribuido complejo
- - No todas las funciones de pandas soportadas
- - Configuracion de cluster puede ser dificil
- - Rendimiento variable segun operacion
Casos de Uso
- Big data processing
- Computación paralela
- ETL
- ML distribuido
- Procesamiento de datos mayores que RAM
- Paralelizacion de workflows pandas
- ETL distribuido
- Feature engineering a escala
- Analisis exploratorio de big data
- Machine learning distribuido