LoPE: ¡anteponer texto latino aleatorio mejora el razonamiento de los LLM! (artículo de arXiv)
(dev.to)LoPE es una técnica que inserta Lorem ipsum dolor sit amet ... al inicio del prompt durante el entrenamiento con RL. Resuelve el problema de "zero-advantage", en el que la señal de aprendizaje se vuelve 0 cuando todas las muestras fallan en problemas difíciles.
Resultados clave:
- En Qwen3-4B, +4.62 puntos en promedio en benchmarks de matemáticas
- En AMC 2023, mejora relativa del 22% en rendimiento
- Fue el único método que logró superar 50 problemas difíciles en los que todos los métodos existentes habían fallado
Puntos para leer
Es interesante tanto la razón por la que funciona un "texto sin sentido que parece lenguaje" basado en latín como el mecanismo por el cual altera la trayectoria base de razonamiento del modelo para asegurar diversidad en la exploración.
13 comentarios
“Búho 158, ¿puede hacerlo?”
“… instructor, para mí es demasiado…”
“¡Lorem ipsum! ¿Puede hacerlo?”
“¡¡¡Ah!!! ¡Sí puedo!”
Ajajajajajajajajaja
jajajaja
🤣🤣🤣🤣 me estallé de risa
Está interesante. La idea es usar oraciones que el modelo puede ignorar como una especie de seed al muestrear, para ampliar el espacio de exploración.
Así es. Resulta divertido e interesante que, al presentar una perspectiva nueva e inesperada, además se haya mejorado el rendimiento real.
Tal vez también podría interpretarse como que los modelos actuales están sobreajustados y, por lo tanto, aún hay margen para reducir más la capacidad del modelo.
Así que no era solo una sensación eso de que el rendimiento mejora cuando escribes prompts con errores a lo bestia.
Jajajaja, ¿por qué todos están tan graciosos?
El principio tiene sentido, pero igual me parece curioso. ¿Por qué no bajó el rendimiento y más bien subió?
Creo que, si lo comparas con una persona, quizá sea algo parecido a cuando intentas resolver un problema difícil, primero te "aclaras la mente" y luego vuelves a pensarlo desde el principio, y ahí logra salir. Es solo una opinión personal jaja
Tengo curiosidad: si usamos eso, ¿también podría dar resultados significativos en el entrenamiento general?? Qué emoción..
A mí también me dan ganas de probarlo. ^^
Antes también hubo un estudio que decía que, si metías el mismo prompt dos veces repetido (aunque no tuviera sentido), el resultado salía mejor. Es como dar una misma cantaleta una vez más.. Ya lo comenté en la publicación de aliverornot, pero creo que esto cumple la función de reactivar el pensamiento. Incluso se parece un poco a cuando los matemáticos se topan con un problema difícil, dejan el lápiz un momento y se van a dar una caminata.. jaja