LoPE: agregar texto latino aleatorio al inicio mejora el razonamiento de los LLM (artículo de arXiv)
Resumen clave
LoPE es una técnica que inserta Lorem ipsum dolor sit amet ... al inicio del prompt durante el entrenamiento con RL. Resuelve el problema de "zero-advantage", en el que la señal de aprendizaje se vuelve 0 cuando todas las muestras fallan en problemas difíciles.
Resultados clave:
- Promedio de +4.62 puntos en benchmarks de matemáticas con Qwen3-4B
- Mejora relativa de rendimiento del 22% en AMC 2023
- Fue el único método que logró superar 50 problemas difíciles en los que todos los métodos previos habían fallado
Puntos para leer
Resulta interesante por qué el "texto que parece lenguaje, pero no tiene significado", basado en latín, es efectivo, y el mecanismo por el cual altera la trayectoria base de razonamiento del modelo para asegurar mayor diversidad de exploración.
Aún no hay comentarios.