Stack Explorer

TRL

training library

Librería de HuggingFace para entrenamiento con refuerzo de LLMs

Sitio oficial

Lenguajes soportados

Ventajas y Desventajas

Ventajas

  • + Integración con transformers
  • + Soporte para PPO, DPO, ORPO
  • + Bien documentado
  • + Activamente mantenido

Desventajas

  • - Específico para HuggingFace
  • - Curva de aprendizaje para RL

Casos de Uso

  • RLHF training
  • DPO training
  • Alineación de modelos