Dask

data-processing library

Librería para computación paralela en Python

Lenguajes soportados

Ventajas y Desventajas

Ventajas

+ Paralelización fácil
+ API familiar (pandas/numpy)
+ Escala a clusters
+ Lazy evaluation
+ API compatible con pandas, NumPy y scikit-learn
+ Escala desde laptop hasta clusters
+ Lazy evaluation para optimizacion
+ Dashboard para monitoreo
+ Integracion con ecosistema PyData
+ Soporta datos mayores que memoria

Desventajas

- Overhead
- Debugging complejo
- Overhead para datasets pequenos
- Debugging distribuido complejo
- No todas las funciones de pandas soportadas
- Configuracion de cluster puede ser dificil
- Rendimiento variable segun operacion

Casos de Uso

Big data processing
Computación paralela
ETL
ML distribuido
Procesamiento de datos mayores que RAM
Paralelizacion de workflows pandas
ETL distribuido
Feature engineering a escala
Analisis exploratorio de big data
Machine learning distribuido

Tecnologías Relacionadas

Alternativas

Apache Spark Ray Polars Vaex