HRPO-X v1.0.1 - Implementación de un framework híbrido de optimización de razonamiento

flamehaven01 · 2026-01-08T00:22:24+09:00

TL;DR HRPO es una técnica de razonamiento basada en aprendizaje por refuerzo que mezcla razonamiento latente + tokens de razonamiento discretos La formulación del paper en sí es simple, pero en una implementación real aparecen de inmediato inestabilidad, oscilación y fallas en entornos distribuidos HRPO-X es una implementación independiente enfocada no tanto en la fidelidad al paper, sino en responder a modos de falla operativos Motivo de su creación La investigación existente sobre razonamiento en LLM depende en exceso del Chain-of-Thought generado como salida En entornos de servicio reales: No es necesario exponer el proceso de razonamiento En algunos casos, exponerlo incluso puede convertirse en un riesgo HRPO: Mantiene como base el latent reasoning Usa discrete reasoning tokens solo cuando hace falta Problema: La implementación del paper asume solo condiciones ideales Tiende a colapsar fácilmente al inicio del entrenamiento, en entornos distribuidos y al cambiar de tarea “Implementarlo tal como está en el paper” lleva directamente a un estado no apto para operación. Resumen de los puntos clave del paper de HRPO 1. Definición del problema Redefine el razonamiento no como “generación de tokens de salida”, sino como una acción seleccionada por la política (policy) 2. Estructura de Hybrid Reasoning En cada posición de token: ruta latente (hidden state) ruta discreta (explicit token) La mezcla se decide con una probabilidad de gating 3. Método de entrenamiento Optimización de política basada en REINFORCE Prevención del colapso de la política mediante KL divergence Progressive incorporation: Al inicio: acciones basadas principalmente en embeddings Más adelante: aumenta la proporción de razonamiento con hidden state Lo que realmente incluye HRPO-X 1. Estabilización de cold-start Eliminación del schedule fijo de epsilon Aplicación de epsilon adaptativo basado en el estado del entrenamiento Prevención del policy collapse al inicio 2. Supresión de oscilación de r_min Responde al problema de oscilación en el parámetro de proporción latent/discrete Usa suavizado basado en momentum en lugar de un simple clamp 3. Ghost-mode Validation Resuelve el problema de confiabilidad de la validación con pocas muestras Estimación de distribución de fallas basada en bootstrap Evalúa la confiabilidad estadística, en lugar de solo “verse bien” 4. Respuesta a particiones en entornos distribuidos Particiones de red Inconsistencia de parámetros entre workers replay buffer drift 5. Adaptación a task-shift Responde al problema de hiperparámetros fijos cuando cambia la distribución de tareas Aplicación de task-aware r_min blending Lo incluido en el repositorio Implementación mínima del core de HRPO Módulos de parches de estabilidad Código de pruebas basado en pytest Script de demo de ejecución única Documentación de arquitectura y diseño ¿Para quién es útil? Investigadores interesados en latent reasoning / razonamiento sin exponer CoT Ingenieros de ML que exploran estructuras posteriores a RLHF / PPO Desarrolladores que quieren validar ideas de papers con código directamente ejecutable Ingenieros que trabajan con entornos distribuidos de entrenamiento RL Quienes quieren comprobar la diferencia entre una “implementación de paper” y una “implementación operable” Enlaces GitHub (HRPO-X): https://github.com/flamehaven01/HRPO-X Paper de HRPO (arXiv): https://arxiv.org/abs/2505.18454 Implementación del autor original: https://github.com/Yueeeeeeee/HRPO Si este trabajo puede servirle a alguien como una pequeña referencia, con eso basta ❤️ También puede ser útil verlo comparándolo con pipelines existentes de RLHF / PPO Si dejan en GitHub Issues observaciones del proceso de reproducción, casos de falla o ideas de mejora, será de gran ayuda 💪

TL;DR

HRPO es una técnica de razonamiento basada en aprendizaje por refuerzo que mezcla razonamiento latente + tokens de razonamiento discretos
La formulación del paper en sí es simple, pero en una implementación real aparecen de inmediato inestabilidad, oscilación y fallas en entornos distribuidos
HRPO-X es una implementación independiente enfocada no tanto en la fidelidad al paper, sino en responder a modos de falla operativos

Motivo de su creación

La investigación existente sobre razonamiento en LLM depende en exceso del Chain-of-Thought generado como salida
En entornos de servicio reales:
- No es necesario exponer el proceso de razonamiento
- En algunos casos, exponerlo incluso puede convertirse en un riesgo
HRPO:
- Mantiene como base el latent reasoning
- Usa discrete reasoning tokens solo cuando hace falta
Problema:
- La implementación del paper asume solo condiciones ideales
- Tiende a colapsar fácilmente al inicio del entrenamiento, en entornos distribuidos y al cambiar de tarea
- “Implementarlo tal como está en el paper” lleva directamente a un estado no apto para operación.

Resumen de los puntos clave del paper de HRPO

1. Definición del problema

Redefine el razonamiento no como “generación de tokens de salida”, sino como
una acción seleccionada por la política (policy)

2. Estructura de Hybrid Reasoning

En cada posición de token:
- ruta latente (hidden state)
- ruta discreta (explicit token)
La mezcla se decide con una probabilidad de gating

3. Método de entrenamiento

Optimización de política basada en REINFORCE
Prevención del colapso de la política mediante KL divergence
Progressive incorporation:
- Al inicio: acciones basadas principalmente en embeddings
- Más adelante: aumenta la proporción de razonamiento con hidden state

Lo que realmente incluye HRPO-X

1. Estabilización de cold-start

Eliminación del schedule fijo de epsilon
Aplicación de epsilon adaptativo basado en el estado del entrenamiento
Prevención del policy collapse al inicio

2. Supresión de oscilación de r_min

Responde al problema de oscilación en el parámetro de proporción latent/discrete
Usa suavizado basado en momentum en lugar de un simple clamp

3. Ghost-mode Validation

Resuelve el problema de confiabilidad de la validación con pocas muestras
Estimación de distribución de fallas basada en bootstrap
Evalúa la confiabilidad estadística, en lugar de solo “verse bien”

4. Respuesta a particiones en entornos distribuidos

Particiones de red
Inconsistencia de parámetros entre workers
replay buffer drift

5. Adaptación a task-shift

Responde al problema de hiperparámetros fijos cuando cambia la distribución de tareas
Aplicación de task-aware r_min blending

Lo incluido en el repositorio

Implementación mínima del core de HRPO
Módulos de parches de estabilidad
Código de pruebas basado en pytest
Script de demo de ejecución única
Documentación de arquitectura y diseño

¿Para quién es útil?

Investigadores interesados en latent reasoning / razonamiento sin exponer CoT
Ingenieros de ML que exploran estructuras posteriores a RLHF / PPO
Desarrolladores que quieren validar ideas de papers con código directamente ejecutable
Ingenieros que trabajan con entornos distribuidos de entrenamiento RL
Quienes quieren comprobar la diferencia entre una “implementación de paper” y una “implementación operable”

Enlaces

GitHub (HRPO-X):
https://github.com/flamehaven01/HRPO-X
Paper de HRPO (arXiv):
https://arxiv.org/abs/2505.18454
Implementación del autor original:
https://github.com/Yueeeeeeee/HRPO

Si este trabajo puede servirle a alguien como una pequeña referencia, con eso basta ❤️
También puede ser útil verlo comparándolo con pipelines existentes de RLHF / PPO
Si dejan en GitHub Issues observaciones del proceso de reproducción, casos de falla o ideas de mejora, será de gran ayuda 💪