Stack Explorer

Knowledge Distillation

technique technique

Transferir conocimiento de modelos grandes a pequeños

Sitio oficial

Lenguajes soportados

Knowledge Distillation es una técnica de compresión de modelos donde un modelo pequeño (estudiante) aprende a imitar el comportamiento de un modelo grande (maestro). Permite crear modelos eficientes que mantienen gran parte del rendimiento de modelos mucho más grandes.

Conceptos clave

teacher-student-learningsoft-labelstemperature-scalinglogit-matchingfeature-matchingcompression-ratio

Ventajas y Desventajas

Ventajas

  • + Modelos pequeños con rendimiento de modelos grandes
  • + Reducción drástica de costos de inferencia
  • + Habilita deployment en edge y móvil
  • + Menor latencia en producción
  • + Preserva capacidades específicas del maestro
  • + Técnica bien establecida y documentada

Desventajas

  • - Requiere acceso al modelo maestro
  • - Proceso de entrenamiento complejo
  • - No transfiere todo el conocimiento
  • - Necesita datasets grandes para buena transferencia
  • - El estudiante nunca supera al maestro

Casos de Uso

  • Crear versiones ligeras de LLMs para producción
  • Modelos para dispositivos móviles e IoT
  • Reducción de costos de API
  • Specialización de modelos generales
  • Creación de modelos específicos de dominio