VibeThinker-3B: un modelo de 3B que supera el rendimiento de razonamiento de Opus 4.5 con SFT+GRPO

(arxiv.org)

2 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp

VibeThinker-3B es un modelo denso pequeño que explora hasta dónde puede comprimirse el razonamiento verificable con solo 3 mil millones de parámetros
El pipeline de entrenamiento combina postentrenamiento Spectrum-to-Signal con ajuste fino supervisado guiado por currículo, aprendizaje por refuerzo multidominio y autodestilación offline
Logró 94.3 en AIME26 y 97.1 al aplicar CLR; también se reportan 80.2 Pass@1 en LiveCodeBench v6 y 96.1% de tasa de aceptación en concursos recientes no publicados de LeetCode
Aunque es mucho más pequeño, entra en una franja de rendimiento similar o superior a la de modelos insignia mucho más grandes como DeepSeek V3.2, GLM-5 y Gemini 3 Pro, mientras mantiene control estricto de instrucciones con 93.4 en IFEval
La Hipótesis de Compresión-Cobertura Paramétrica plantea que el razonamiento verificable puede comprimirse en un pequeño núcleo de razonamiento, pero que el conocimiento abierto y las capacidades generales requieren una cobertura paramétrica más amplia

Un experimento que llevó al límite el razonamiento verificable con un modelo de 3B

VibeThinker-3B es un modelo denso pequeño de 3 mil millones de parámetros
El objetivo es comprobar hasta qué punto puede elevarse el rendimiento en razonamiento verificable incluso bajo un régimen estricto de modelo pequeño
El postentrenamiento se construyó sobre el paradigma Spectrum-to-Signal
- ajuste fino supervisado basado en currículo
- aprendizaje por refuerzo multidominio
- autodestilación offline
Estos resultados amplían la línea de trabajo previa sobre modelos de 1.5B

El rango de rendimiento observado en las evaluaciones

Mostró rendimiento de nivel frontier en evaluaciones de matemáticas, programación y seguimiento de instrucciones
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- concursos recientes no publicados de LeetCode: 96.1% de tasa de aceptación
- IFEval: 93.4
CLR significa Claim-Level Reliability Assessment y es una estrategia de escalado en tiempo de prueba a nivel de afirmación
Entre los modelos comparados en la Figura 1 están Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 y Claude Opus 4.5
Según los resultados reportados, VibeThinker-3B puede ubicarse en una franja de rendimiento igual o superior a la de modelos insignia mucho más grandes como DeepSeek V3.2, GLM-5 y Gemini 3 Pro
En la comparación por escala de parámetros, VibeThinker-3B aparece con 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
La Hipótesis de Compresión-Cobertura Paramétrica considera a los modelos compactos no como un simple sustituto eficiente para despliegue, sino como una vía complementaria para alcanzar rendimiento de nivel frontier dentro de una región de capacidad densamente empaquetada en parámetros

1 comentarios

GN⁺ 5 시간 전

Opiniones en Hacker News

Me pregunto si esto se puede ver simplemente como un modelo pequeño entrenado para razonar bien y nada más
Se siente como una persona inteligente que no sabe de un tema específico, pero si le das herramientas investiga con ganas
Se vería realmente bien si, en vez de hacer que el modelo aprenda todo el conocimiento, se le entrenara solo en cómo aprender, para que con un dispositivo pequeño como una Pi Zero y conexión a internet pueda arreglárselas por su cuenta
- Llevo tiempo soñando con algo así
  En vez de codificar todo el conocimiento en los parámetros, me preguntaba qué pasaría si hiciéramos un modelo del mismo tamaño que usara la mayor parte para razonar
  Bastaría con darle capacidad de navegar por internet y hacer que consulte especificaciones del lenguaje, documentación y buenas prácticas
  No entiendo por qué mi agente de programación tendría que saber la población de New York, la receta de cheesecake o la esperanza de vida de un avestruz
  Podría darle solo el conocimiento mínimo necesario para pensar y razonar, y que el resto lo averigüe por sí mismo
  Lo frustrante es que los grandes modelos de lenguaje actuales al final son predicción de tokens, así que no funcionan de esa manera
- Yo diría más bien lo contrario
  El razonamiento es un subproducto emergente del entrenamiento con todo ese conocimiento, y aun en esta forma el modelo no “sabe” nada, solo genera tokens
  Si no lo entrenas con un gran dataset lleno de muchas palabras y conexiones plausibles entre ellas, no puede formar conexiones adecuadas entre palabras y oraciones, así que tampoco puede razonar
  Si entrenas un modelo pequeño con un dataset muy pequeño, verás una salida incoherente
  Sería interesante optimizar un dataset para extraer la máxima generación con el mínimo de datos, pero si una empresa quiere construir un modelo de nivel state of the art, económicamente le conviene mucho más agregar unas cuantas GPUs que hacer ese esfuerzo
- Sí se puede entrenar al modelo para manejar bastante bien lógica booleana, lógica modal y matemáticas, pero hay una gran distancia entre eso y llegar a “pensar sobre objetos”
  Por ejemplo, incluso una pregunta muy básica como meter una pelota en una taza, poner la taza boca abajo sobre la mesa, levantar la taza y meterla en una caja requiere conocimiento que no está explícito en el problema, en particular sobre la gravedad
  Si intentas definir todos los términos con rigor, enseguida caes en un pantano de complejidad
  Para entender instrucciones hace falta conocimiento básico sobre los objetos, y si solo sabes razonar, no tienes claro qué es lo que debes lograr
  Parece haber una ruptura bastante clara entre el enorme depósito de texto con el que se entrenan los modelos y la capacidad de considerar un tema de forma sólida
  También me pregunto si se puede guiar esa trayectoria con el orden del entrenamiento
  Por ejemplo, si primero aprende alfabetización básica con TinyStories, luego textos de matemáticas y filosofía, después textos de psicología y sociología, y al final una gran cantidad de datos que incluya conversaciones, textos de enojo, código y novelas, ¿sería muy distinto de un modelo entrenado primero con actuación, escritura creativa y fantasía, y luego con el mismo dataset final masivo?
  También me pregunto cuánto influye la capacidad actual del modelo al contextualizar nuevos datos de entrenamiento
- En realidad es al revés
  Fue entrenado para resolver problemas generando una cadena de pensamiento (CoT) larga, y eso lo hace bien, pero casi no tiene capacidad de usar herramientas ni de manejar más de 1 o 2 mensajes
  Basta ver la advertencia al inicio de https://huggingface.co/WeiboAI/VibeThinker-3B
- Llevo un tiempo obsesionado con esta idea, y la familia Qwen destilada a partir del razonamiento de Opus también funciona bastante bien
  Creo que el siguiente frente será optimizar modelos para que sean más capaces con menos hardware
  Se vuelve aún más interesante si además llegan a permitir aprendizaje en tiempo real
Con estos avances en modelos pequeños pero potentes, parece que están superando la pura potencia de capital de los proveedores de modelos más avanzados
Quiero apoyar a los pequeños, pero todavía siento que es pronto para afirmarlo
Visto de otra forma, quizá los benchmarks actuales simplemente no son lo bastante eficientes para capturar el éxito en flujos de trabajo reales de desarrolladores
- Creo que la gente va a seguir sorprendiéndose con la capacidad de los modelos pequeños
  Eso sí, si haces que este modelo converse, probablemente falle y pierda consistencia
  En cambio, su capacidad para razonar y resolver problemas matemáticos sí es realmente buena
- Hace unos días empecé a correr qwen3.6:35b en mi Framework Desktop y me ha impresionado bastante
  Va muy bien y me recuerda al primer modelo de Claude que probé
  Es el primer modelo local para agentes de programación que he probado que de verdad funciona de forma útil, así que estoy muy emocionado
- A veces siento que la optimización apenas está comenzando
Para que cualquier modelo sea útil, incluso en tareas acotadas, necesita cierto nivel base de inteligencia
¿Podrías enseñarle a manejar a un niño de 5 años? ¿Y a uno de 10? ¿De 12?
Para manejar hay que poder leer, evaluar condiciones como hielo o lluvia, y anticipar a un niño que sale corriendo detrás de una pelota
Los humanos adquieren este conocimiento básico hacia mediados de la adolescencia
Incluso un modelo pequeño necesita cierto conocimiento general para rendir suficientemente bien, aunque sea en un dominio aparentemente estrecho
Tal vez no necesite todo el conocimiento raro de los modelos frontier, pero es muy posible que la línea base sea más alta de lo que se pensaba al principio
- Eso de que “para manejar hay que saber leer” no es cierto en absoluto
  Puede que necesites saber leer para aprobar el examen de conducir, pero en todo el mundo hay muchas personas analfabetas que manejan bien
  Hay una razón por la que las señales de tránsito comunes están diseñadas para reconocerse por su forma y color
- Resulta bastante extraño ver cómo reducen este tipo de comportamiento humano básico a una especie de videojuego de computadora solo de texto
  Manejar en sí depende principalmente de la memoria muscular para controlar el auto, y por eso la gente que maneja mucho puede moverse casi en piloto automático durante trayectos largos mientras piensa en otra cosa completamente distinta
  Eso también es una forma de conocimiento, pero solo se adquiere mediante repetición
  Claro, para manejar en medio del tráfico hace falta mucho más, como una comprensión básica de las normas viales, pero la mayor parte de manejar es memoria muscular, comprensión del vehículo y predicción de lo que va a pasar
  Los simios son buenos en esto porque evolucionaron durante millones de años usando el cuerpo y viendo los resultados
  Incluso había un GIF de un orangután manejando un carrito de golf, aunque no está claro qué tan real era
  Puede ser más útil ver a los modelos no como futuros humanos replicados, sino como herramientas con capacidades específicas para dominios específicos
  Así como no tendría sentido pedirle a Opus 4.8 que conduzca un auto, tampoco tiene sentido esperar que un pequeño modelo de imágenes para dispositivos edge escriba una novela
  Hay que verlo como una herramienta hecha para un uso específico
- Este tema parece interesante como investigación formal
  Creo que los verdaderos obstáculos son a) el juicio, y b) los reflejos físicos y el nivel de fuerza
  De niño ya sabía lo que eran el hielo, la nieve y la lluvia
  Andaba en bicicleta en las cuatro estaciones, y tenía poca confianza en mi capacidad de controlar la bici sobre nieve o terreno mojado, sobre todo cuando cambiaba la temporada
  Esa experiencia luego se trasladó al aprendizaje de manejo en invierno en el norte de Canadá, y apliqué las mismas lecciones al conducir
  En entornos sin consecuencias, he visto a niños manipular simuladores reales o simulaciones de conducción en videojuegos con una precisión sorprendente
  A veces niños de 9 a 11 años usaban simulaciones y juegos con mucha más confianza que conductores adultos
  Los niños saben que en una simulación no hay consecuencias, y si no se les da una motivación aparte, actúan en consecuencia
  En cambio, en adultos que manejan con frecuencia, incluso al jugar un videojuego la memoria muscular y las ideas preconcebidas dominan la toma de decisiones
  Me pregunto cuánta práctica y exposición hace falta para que los niños superen ese estado en el que no perciben los límites reales ni las consecuencias de manejar y equivocarse, y a la inversa, cuánto hace falta para que una persona experta al volante pero novata en juegos deje de aplicar su experiencia real a una simulación sin consecuencias
- A los 10 años definitivamente sí, y a los 5 también podría ser por muy poco, aunque no es realista
  No hace falta saber leer para conducir un auto
  Pero conducir en la vía pública junto con otras personas es una historia completamente distinta
- Para manejar bien también hace falta equilibrar exploración y explotación
  Es muy probable que un niño de tres años intente explorar demasiado en situaciones donde equivocarse es peligroso
  Aquí no solo hace falta conocimiento, sino también un sistema de control que se desarrolla junto con la corteza prefrontal
  Los modelos grandes de lenguaje todavía no son muy buenos en ese tipo de control
Hay que tener en cuenta que este resultado es solo para Python
En otros lenguajes no le irá tan bien
Da gusto ver que estén saliendo más modelos pequeños de lenguaje especializados por dominio
Un modelo mixture-of-experts (MoE) especializado en programación podría funcionar bien en varios lenguajes
- Si escribe Python funcional sin hacerse pasar por programador Java y llenar el código de clases y accessors, ya es mejor que Opus
- Hay mucha confusión sobre en qué está realmente enfocado este modelo
  Este modelo es un experto barato para tareas de razonamiento verificables en un mundo cerrado, como matemáticas o problemas de programación autocontenidos
  “Mundo cerrado” significa que la información necesaria ya está en el contexto
  No es un agente con uso de herramientas que descubra el contexto faltante
  “Verificable” significa que es difícil generar la respuesta, pero fácil comprobarla
  Por eso no sirve para investigación abierta, tareas de agente sobre repositorios completos, preguntas y respuestas factuales ni generación de SVG
  Se parece más a un pequeño módulo de razonamiento para problemas bien delimitados
Lo interesante de un modelo tan pequeño es que parece que podría correr en un solo chip de Taalas
HC1 ya ejecuta el modelo Llama 3.1 8B
Ya estamos en un punto donde se puede ejecutar razonamiento más o menos decente en un ASIC, y además a velocidades enormes
- Si Taalas pudiera ejecutar un modelo de 8B realmente fuerte para mejorar salidas mediante razonamiento a 16K tokens por segundo, sería una locura
Probé este modelo como sustituto de GPT-5 nano en revisiones de seguridad de código fuente, y hasta ahora ha tenido cierto éxito
Lo estoy ejecutando con vLLM en una RTX 3090 con 24 GB de VRAM
Como dice la model card, no es bueno con salidas estructuradas, pero lo estoy sorteando en mi test harness
- ¿No se puede forzar una salida estructurada mediante generación con restricciones?
- Me da curiosidad cómo lo estás sorteando
Intenté generar el clásico pelícano en SVG, pero fracasó miserablemente y solo mostró rectángulos y círculos negros.
- Parece un resultado predecible.
  El punto clave parece ser que redujeron conocimientos como “los pelícanos tienen alas”, pero preservaron la capacidad central de razonamiento.
  “Este hallazgo respalda la hipótesis de compresión-cobertura de parámetros. Esta hipótesis sostiene que el razonamiento verificable puede comprimirse en un pequeño núcleo de razonamiento, pero que el conocimiento de dominio abierto y las capacidades generales requieren una amplia cobertura de parámetros sobre hechos, conceptos y escenarios de cola larga.”
- Inténtalo de nuevo, pero explicando con cuidado qué es una bicicleta y qué es un pelícano, y cómo se sienta un pelícano sobre una bicicleta.
  Luego dale las etiquetas SVG y las referencias de documentación que quieres que use.
  El resultado que obtuve está aquí: https://9ol.es/tmp/pelican.png
  El prompt está en https://9ol.es/tmp/prompt_pelican.txt
  El modelo usado es prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M.
- ¿Pero este no es un modelo para razonamiento y no para generar arte?
Todavía no se puede confiar en las evaluaciones ni en los benchmarks.
¿Cómo se puede demostrar que el dataset de prueba realmente contenía ejemplos no publicados?
Creo que la única forma de demostrar que estos modelos son tan buenos como afirman es esperar a ver si realmente se adoptan.
- Para demostrar eso, al final habría que resolver el problema de la caja negra, es decir, acercarse al objetivo de transparencia.
  Si hubiera que implementar algo como un motor de razonamiento, habría que diseñar e implementar la mejor arquitectura posible para eso, y luego probarla.
Da mucho gusto ver aparecer modelos de lenguaje pequeños tan capaces.
Pero en Hugging Face dice esto:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Así que no se puede simplemente conectarlo a un harness de programación como pi.dev.
¿Razona mejor que Opus 4.5?
Prompt: “Si A va hacia B, y luego B va hacia C, ¿puede A enviarle algo a C?”
La respuesta fue esta:
“Debe interpretarse de la manera más adecuada. Esta frase podría ser un acertijo sobre relaciones y sobre el concepto de enviar algo, por ejemplo pasar una pelota.
Escenario: A le da algo a B, y B luego se lo pasa a C.
Pregunta: ¿A también puede darle eso mismo a C?
Respuesta: solo si A puede obtener una segunda copia. Por ejemplo, si el objeto fue duplicado. De lo contrario, después de entregárselo a B, A ya no lo tiene, así que no puede ‘enviarlo’ sin una copia.”
Además venía con un montón de explicaciones y “escenarios” innecesarios que tenían todavía menos sentido.
- Probé con la misma consulta, y aunque la salida es larguísima, parece estar resolviendo la ambigüedad de la frase mediante razonamiento.
  Aun así, da la respuesta correcta.
  Además, si comparas la cantidad de operaciones de punto flotante que usó para llegar a la respuesta con Opus, yo diría que sigue siendo ganancia neta.
  Mi intuición es que un modelo del tamaño de Opus tiene codificado internamente un atajo para manejar estos casos ambiguos, mientras que este modelo parece haber aprendido un programa para razonar sobre casos límite al vuelo.
  Se parece más a la diferencia entre inteligencia cristalizada e inteligencia fluida.
  Los modelos frontier parecen recordar probabilidades, mientras que VibeThinker da la impresión de calcularlas en el momento.
- En la explicación de control de calidad aparece esto:
  “Control de calidad multinivel.”
  “Filtrado de calidad de consultas basado en grandes modelos de lenguaje. Usamos grandes modelos de lenguaje de alto rendimiento para evaluar la calidad de las consultas y filtrar muestras donde la explicación es incompleta, las condiciones son poco razonables, la lógica es incorrecta o no se pueden evaluar eficazmente los puntos de conocimiento objetivo.”
- Yo, como humano, tampoco sé cómo debería interpretarse este prompt.
- Si A va hacia B y luego B va hacia C, ¿C conoce a A?

VibeThinker-3B: un modelo de 3B que supera el rendimiento de razonamiento de Opus 4.5 con SFT+GRPO

Un experimento que llevó al límite el razonamiento verificable con un modelo de 3B

El rango de rendimiento observado en las evaluaciones

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News