Stack Explorer

llama.cpp

llm library

Inferencia de LLMs en CPU puro con C++

Sitio oficial

Lenguajes soportados

llama.cpp es una implementación en C/C++ para inferencia de modelos Llama y compatibles. Permite ejecutar LLMs en CPU puro sin necesidad de GPU, con soporte para cuantización agresiva y optimizaciones específicas por arquitectura de procesador.

Conceptos clave

gguf-formatquantizationcpu-optimizationsimdmemory-mappingbatched-inference

Ventajas y Desventajas

Ventajas

  • + Funciona sin GPU
  • + Extremadamente eficiente en CPU
  • + Cuantización hasta 2-bit
  • + Multiplataforma (Linux, Mac, Windows)
  • + Soporte para Apple Silicon optimizado
  • + Base de muchas herramientas populares

Desventajas

  • - Más lento que inferencia en GPU
  • - Requiere conversión de modelos a GGUF
  • - API de bajo nivel
  • - No para entrenamiento, solo inferencia

Casos de Uso

  • LLMs en laptops sin GPU
  • Deployment en servidores CPU
  • Aplicaciones desktop locales
  • Desarrollo y testing de modelos
  • Edge computing con modelos de lenguaje

Tecnologías Relacionadas