Knowledge Distillation
technique technique
Transferir conocimiento de modelos grandes a pequeños
Lenguajes soportados
Knowledge Distillation es una técnica de compresión de modelos donde un modelo pequeño (estudiante) aprende a imitar el comportamiento de un modelo grande (maestro). Permite crear modelos eficientes que mantienen gran parte del rendimiento de modelos mucho más grandes.
Conceptos clave
teacher-student-learningsoft-labelstemperature-scalinglogit-matchingfeature-matchingcompression-ratio
Ventajas y Desventajas
Ventajas
- + Modelos pequeños con rendimiento de modelos grandes
- + Reducción drástica de costos de inferencia
- + Habilita deployment en edge y móvil
- + Menor latencia en producción
- + Preserva capacidades específicas del maestro
- + Técnica bien establecida y documentada
Desventajas
- - Requiere acceso al modelo maestro
- - Proceso de entrenamiento complejo
- - No transfiere todo el conocimiento
- - Necesita datasets grandes para buena transferencia
- - El estudiante nunca supera al maestro
Casos de Uso
- Crear versiones ligeras de LLMs para producción
- Modelos para dispositivos móviles e IoT
- Reducción de costos de API
- Specialización de modelos generales
- Creación de modelos específicos de dominio