1 puntos por flamehaven01 2026-01-08 | 2 comentarios | Compartir por WhatsApp

TL;DR

  • HRPO es una técnica de razonamiento basada en aprendizaje por refuerzo que mezcla razonamiento latente + tokens de razonamiento discretos
  • La formulación del paper en sí es simple, pero en una implementación real aparecen de inmediato inestabilidad, oscilación y fallas en entornos distribuidos
  • HRPO-X es una implementación independiente enfocada no tanto en la fidelidad al paper, sino en responder a modos de falla operativos

Motivo de su creación

  • La investigación existente sobre razonamiento en LLM depende en exceso del Chain-of-Thought generado como salida
  • En entornos de servicio reales:
    • No es necesario exponer el proceso de razonamiento
    • En algunos casos, exponerlo incluso puede convertirse en un riesgo
  • HRPO:
    • Mantiene como base el latent reasoning
    • Usa discrete reasoning tokens solo cuando hace falta
  • Problema:
    • La implementación del paper asume solo condiciones ideales
    • Tiende a colapsar fácilmente al inicio del entrenamiento, en entornos distribuidos y al cambiar de tarea
    • “Implementarlo tal como está en el paper” lleva directamente a un estado no apto para operación.

Resumen de los puntos clave del paper de HRPO

1. Definición del problema

  • Redefine el razonamiento no como “generación de tokens de salida”, sino como
  • una acción seleccionada por la política (policy)

2. Estructura de Hybrid Reasoning

  • En cada posición de token:
    • ruta latente (hidden state)
    • ruta discreta (explicit token)
  • La mezcla se decide con una probabilidad de gating

3. Método de entrenamiento

  • Optimización de política basada en REINFORCE
  • Prevención del colapso de la política mediante KL divergence
  • Progressive incorporation:
    • Al inicio: acciones basadas principalmente en embeddings
    • Más adelante: aumenta la proporción de razonamiento con hidden state

Lo que realmente incluye HRPO-X

1. Estabilización de cold-start

  • Eliminación del schedule fijo de epsilon
  • Aplicación de epsilon adaptativo basado en el estado del entrenamiento
  • Prevención del policy collapse al inicio

2. Supresión de oscilación de r_min

  • Responde al problema de oscilación en el parámetro de proporción latent/discrete
  • Usa suavizado basado en momentum en lugar de un simple clamp

3. Ghost-mode Validation

  • Resuelve el problema de confiabilidad de la validación con pocas muestras
  • Estimación de distribución de fallas basada en bootstrap
  • Evalúa la confiabilidad estadística, en lugar de solo “verse bien”

4. Respuesta a particiones en entornos distribuidos

  • Particiones de red
  • Inconsistencia de parámetros entre workers
  • replay buffer drift

5. Adaptación a task-shift

  • Responde al problema de hiperparámetros fijos cuando cambia la distribución de tareas
  • Aplicación de task-aware r_min blending

Lo incluido en el repositorio

  • Implementación mínima del core de HRPO
  • Módulos de parches de estabilidad
  • Código de pruebas basado en pytest
  • Script de demo de ejecución única
  • Documentación de arquitectura y diseño

¿Para quién es útil?

  • Investigadores interesados en latent reasoning / razonamiento sin exponer CoT
  • Ingenieros de ML que exploran estructuras posteriores a RLHF / PPO
  • Desarrolladores que quieren validar ideas de papers con código directamente ejecutable
  • Ingenieros que trabajan con entornos distribuidos de entrenamiento RL
  • Quienes quieren comprobar la diferencia entre una “implementación de paper” y una “implementación operable”

Enlaces


  • Si este trabajo puede servirle a alguien como una pequeña referencia, con eso basta ❤️
  • También puede ser útil verlo comparándolo con pipelines existentes de RLHF / PPO
  • Si dejan en GitHub Issues observaciones del proceso de reproducción, casos de falla o ideas de mejora, será de gran ayuda 💪

2 comentarios

 
nordica 2026-01-08

Entré por si acaso, pero como era de esperarse, jajaja, es un repo de AI slop hecho de pura alucinación

 
flamehaven01 2026-01-08

Gracias por el feedback sincero.
Tras revisarlo, tal como mencionaste, ese repositorio efectivamente era un “repo de AI slop” que dependía en gran medida de alucinaciones de IA.

Había problemas como declaraciones sin implementación, exceso de empaque documental y terminológico, y una estructura sobredimensionada en comparación con el algoritmo,
y actualmente ya completé la eliminación de documentación exagerada y términos de marketing, la limpieza de código vacío,
y la eliminación decidida de estructuras que no funcionaban.

Aunque fue un comentario breve de una sola línea, para mí fue de muchísima ayuda.


En realidad, estoy investigando y desarrollando una arquitectura para convertir papers en “código listo para producción”,
y este caso fue un fracaso que salió a la luz durante ese proceso.

A través de la observación que me hiciste,
llegué a reconocer con claridad la necesidad de una lógica que defina y verifique estructuralmente el AI slop,
y actualmente estoy trabajando en esa dirección.

Más que afirmar que este intento es perfecto,
espero que se convierta en un proceso para comprobar
cómo se puede eliminar y detectar el exceso y la pretensión,
y si es posible una implementación de código con IA más realista.

Aunque fue solo una línea de opinión, te lo agradezco sinceramente,
y vuelvo a agradecerte profundamente por haberte tomado el tiempo de escribirla.