16 puntos por taekim34 2026-05-12 | 13 comentarios | Compartir por WhatsApp

LoPE es una técnica que inserta Lorem ipsum dolor sit amet ... al inicio del prompt durante el entrenamiento con RL. Resuelve el problema de "zero-advantage", en el que la señal de aprendizaje se vuelve 0 cuando todas las muestras fallan en problemas difíciles.

Resultados clave:

  • En Qwen3-4B, +4.62 puntos en promedio en benchmarks de matemáticas
  • En AMC 2023, mejora relativa del 22% en rendimiento
  • Fue el único método que logró superar 50 problemas difíciles en los que todos los métodos existentes habían fallado

Puntos para leer

Es interesante tanto la razón por la que funciona un "texto sin sentido que parece lenguaje" basado en latín como el mecanismo por el cual altera la trayectoria base de razonamiento del modelo para asegurar diversidad en la exploración.

13 comentarios

 
gooksangom6394 2026-05-12

“Búho 158, ¿puede hacerlo?”
“… instructor, para mí es demasiado…”
“¡Lorem ipsum! ¿Puede hacerlo?”
“¡¡¡Ah!!! ¡Sí puedo!”

 
sonic0987 2026-05-12

Ajajajajajajajajaja

 
epics 2026-05-12

jajajaja

 
taekim34 2026-05-12

🤣🤣🤣🤣 me estallé de risa

 
mammal 2026-05-12

Está interesante. La idea es usar oraciones que el modelo puede ignorar como una especie de seed al muestrear, para ampliar el espacio de exploración.

 
taekim34 2026-05-12

Así es. Resulta divertido e interesante que, al presentar una perspectiva nueva e inesperada, además se haya mejorado el rendimiento real.

 
ide127 2026-05-21

Tal vez también podría interpretarse como que los modelos actuales están sobreajustados y, por lo tanto, aún hay margen para reducir más la capacidad del modelo.

 
happing94 2026-05-12

Así que no era solo una sensación eso de que el rendimiento mejora cuando escribes prompts con errores a lo bestia.

 
taekim34 2026-05-13

Jajajaja, ¿por qué todos están tan graciosos?

 
aliveornot 2026-05-12

El principio tiene sentido, pero igual me parece curioso. ¿Por qué no bajó el rendimiento y más bien subió?

 
taekim34 2026-05-12

Creo que, si lo comparas con una persona, quizá sea algo parecido a cuando intentas resolver un problema difícil, primero te "aclaras la mente" y luego vuelves a pensarlo desde el principio, y ahí logra salir. Es solo una opinión personal jaja

 
somang04 2026-05-12

Tengo curiosidad: si usamos eso, ¿también podría dar resultados significativos en el entrenamiento general?? Qué emoción..

 
taekim34 2026-05-12

A mí también me dan ganas de probarlo. ^^
Antes también hubo un estudio que decía que, si metías el mismo prompt dos veces repetido (aunque no tuviera sentido), el resultado salía mejor. Es como dar una misma cantaleta una vez más.. Ya lo comenté en la publicación de aliverornot, pero creo que esto cumple la función de reactivar el pensamiento. Incluso se parece un poco a cuando los matemáticos se topan con un problema difícil, dejan el lápiz un momento y se van a dar una caminata.. jaja