vLLM

inference tool

Motor de inferencia de LLMs de alto rendimiento

Lenguajes soportados

Ventajas y Desventajas

Ventajas

+ Muy rápido
+ Paged Attention
+ Batching continuo
+ OpenAI compatible

Desventajas

- Solo inferencia
- GPU requerida

Casos de Uso

Serving de LLMs
Inferencia a escala
APIs de modelos
Producción

Tecnologías Relacionadas

Alternativas

Text Generation Inference Ollama