E5 (EmbEddings from bidirEctional Encoder rEpresentations)
embedding model
Modelos de embedding de Microsoft Research
Lenguajes soportados
E5 es una familia de modelos de embedding desarrollados por Microsoft Research, entrenados con técnicas de aprendizaje contrastivo sobre datos masivos de texto. Destacan por su versatilidad y rendimiento consistente en múltiples tareas de recuperación de información.
Conceptos clave
contrastive-learningquery-document-pairsweakly-supervisedprefix-instructionbi-encoder
Ventajas y Desventajas
Ventajas
- + Excelente rendimiento generalizado
- + Múltiples tamaños (small, base, large)
- + Versión Instruct para instrucciones específicas
- + Open source con licencia MIT
- + Muy buenos en zero-shot
- + Bajo consumo de recursos en versiones pequeñas
Desventajas
- - Menos conocido que BGE o OpenAI
- - Documentación limitada
- - Requiere prefijo de query específico
- - Modelo large requiere GPU significativa
Casos de Uso
- Búsqueda semántica de documentos
- Sistemas de Q&A
- Clasificación de texto
- Clustering semántico
- Cross-lingual retrieval