llama.cpp

llm library

Inferencia de LLMs en CPU puro con C++

Lenguajes soportados

llama.cpp es una implementación en C/C++ para inferencia de modelos Llama y compatibles. Permite ejecutar LLMs en CPU puro sin necesidad de GPU, con soporte para cuantización agresiva y optimizaciones específicas por arquitectura de procesador.

Conceptos clave

gguf-formatquantizationcpu-optimizationsimdmemory-mappingbatched-inference

Ventajas y Desventajas

Ventajas

+ Funciona sin GPU
+ Extremadamente eficiente en CPU
+ Cuantización hasta 2-bit
+ Multiplataforma (Linux, Mac, Windows)
+ Soporte para Apple Silicon optimizado
+ Base de muchas herramientas populares

Desventajas

- Más lento que inferencia en GPU
- Requiere conversión de modelos a GGUF
- API de bajo nivel
- No para entrenamiento, solo inferencia

Casos de Uso

LLMs en laptops sin GPU
Deployment en servidores CPU
Aplicaciones desktop locales
Desarrollo y testing de modelos
Edge computing con modelos de lenguaje