llama.cpp
llm library
Inferencia de LLMs en CPU puro con C++
llama.cpp es una implementación en C/C++ para inferencia de modelos Llama y compatibles. Permite ejecutar LLMs en CPU puro sin necesidad de GPU, con soporte para cuantización agresiva y optimizaciones específicas por arquitectura de procesador.
Conceptos clave
gguf-formatquantizationcpu-optimizationsimdmemory-mappingbatched-inference
Ventajas y Desventajas
Ventajas
- + Funciona sin GPU
- + Extremadamente eficiente en CPU
- + Cuantización hasta 2-bit
- + Multiplataforma (Linux, Mac, Windows)
- + Soporte para Apple Silicon optimizado
- + Base de muchas herramientas populares
Desventajas
- - Más lento que inferencia en GPU
- - Requiere conversión de modelos a GGUF
- - API de bajo nivel
- - No para entrenamiento, solo inferencia
Casos de Uso
- LLMs en laptops sin GPU
- Deployment en servidores CPU
- Aplicaciones desktop locales
- Desarrollo y testing de modelos
- Edge computing con modelos de lenguaje