TRL

training library

Librería de HuggingFace para entrenamiento con refuerzo de LLMs

Lenguajes soportados

Ventajas y Desventajas

Ventajas

+ Integración con transformers
+ Soporte para PPO, DPO, ORPO
+ Bien documentado
+ Activamente mantenido

Desventajas

- Específico para HuggingFace
- Curva de aprendizaje para RL

Casos de Uso

RLHF training
DPO training
Alineación de modelos