vLLM
inference tool
Motor de inferencia de LLMs de alto rendimiento
Lenguajes soportados
Ventajas y Desventajas
Ventajas
- + Muy rápido
- + Paged Attention
- + Batching continuo
- + OpenAI compatible
Desventajas
- - Solo inferencia
- - GPU requerida
Casos de Uso
- Serving de LLMs
- Inferencia a escala
- APIs de modelos
- Producción