Knowledge Distillation

technique technique

Transferir conocimiento de modelos grandes a pequeños

Lenguajes soportados

Knowledge Distillation es una técnica de compresión de modelos donde un modelo pequeño (estudiante) aprende a imitar el comportamiento de un modelo grande (maestro). Permite crear modelos eficientes que mantienen gran parte del rendimiento de modelos mucho más grandes.

Conceptos clave

teacher-student-learningsoft-labelstemperature-scalinglogit-matchingfeature-matchingcompression-ratio

Ventajas y Desventajas

Ventajas

+ Modelos pequeños con rendimiento de modelos grandes
+ Reducción drástica de costos de inferencia
+ Habilita deployment en edge y móvil
+ Menor latencia en producción
+ Preserva capacidades específicas del maestro
+ Técnica bien establecida y documentada

Desventajas

- Requiere acceso al modelo maestro
- Proceso de entrenamiento complejo
- No transfiere todo el conocimiento
- Necesita datasets grandes para buena transferencia
- El estudiante nunca supera al maestro

Casos de Uso

Crear versiones ligeras de LLMs para producción
Modelos para dispositivos móviles e IoT
Reducción de costos de API
Specialización de modelos generales
Creación de modelos específicos de dominio