TRL
training library
Librería de HuggingFace para entrenamiento con refuerzo de LLMs
Lenguajes soportados
Ventajas y Desventajas
Ventajas
- + Integración con transformers
- + Soporte para PPO, DPO, ORPO
- + Bien documentado
- + Activamente mantenido
Desventajas
- - Específico para HuggingFace
- - Curva de aprendizaje para RL
Casos de Uso
- RLHF training
- DPO training
- Alineación de modelos