NVIDIA Triton Inference Server

ml-serving server

Servidor de inferencia de NVIDIA para desplegar modelos de ML en producción

Ventajas y Desventajas

Ventajas

+ Alto rendimiento
+ Soporte multi-framework
+ Batching dinámico
+ Optimizado para GPUs

Desventajas

- Complejidad de configuración
- Principalmente para GPUs NVIDIA

Casos de Uso

Inferencia en producción
Serving de múltiples modelos
Pipelines de ML

Tecnologías Relacionadas

Alternativas

Text Generation Inference TorchServe