VibeThinker-3B: un modelo de 3B que supera el rendimiento de razonamiento de Opus 4.5 con SFT+GRPO
(arxiv.org)- VibeThinker-3B es un modelo denso pequeño que explora hasta dónde puede comprimirse el razonamiento verificable con solo 3 mil millones de parámetros
- El pipeline de entrenamiento combina postentrenamiento Spectrum-to-Signal con ajuste fino supervisado guiado por currículo, aprendizaje por refuerzo multidominio y autodestilación offline
- Logró 94.3 en AIME26 y 97.1 al aplicar CLR; también se reportan 80.2 Pass@1 en LiveCodeBench v6 y 96.1% de tasa de aceptación en concursos recientes no publicados de LeetCode
- Aunque es mucho más pequeño, entra en una franja de rendimiento similar o superior a la de modelos insignia mucho más grandes como DeepSeek V3.2, GLM-5 y Gemini 3 Pro, mientras mantiene control estricto de instrucciones con 93.4 en IFEval
- La Hipótesis de Compresión-Cobertura Paramétrica plantea que el razonamiento verificable puede comprimirse en un pequeño núcleo de razonamiento, pero que el conocimiento abierto y las capacidades generales requieren una cobertura paramétrica más amplia
Un experimento que llevó al límite el razonamiento verificable con un modelo de 3B
- VibeThinker-3B es un modelo denso pequeño de 3 mil millones de parámetros
- El objetivo es comprobar hasta qué punto puede elevarse el rendimiento en razonamiento verificable incluso bajo un régimen estricto de modelo pequeño
- El postentrenamiento se construyó sobre el paradigma Spectrum-to-Signal
- ajuste fino supervisado basado en currículo
- aprendizaje por refuerzo multidominio
- autodestilación offline
- Estos resultados amplían la línea de trabajo previa sobre modelos de 1.5B
El rango de rendimiento observado en las evaluaciones
- Mostró rendimiento de nivel frontier en evaluaciones de matemáticas, programación y seguimiento de instrucciones
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- concursos recientes no publicados de LeetCode: 96.1% de tasa de aceptación
- IFEval: 93.4
- CLR significa Claim-Level Reliability Assessment y es una estrategia de escalado en tiempo de prueba a nivel de afirmación
- Entre los modelos comparados en la Figura 1 están Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 y Claude Opus 4.5
- Según los resultados reportados, VibeThinker-3B puede ubicarse en una franja de rendimiento igual o superior a la de modelos insignia mucho más grandes como DeepSeek V3.2, GLM-5 y Gemini 3 Pro
- En la comparación por escala de parámetros, VibeThinker-3B aparece con 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- La Hipótesis de Compresión-Cobertura Paramétrica considera a los modelos compactos no como un simple sustituto eficiente para despliegue, sino como una vía complementaria para alcanzar rendimiento de nivel frontier dentro de una región de capacidad densamente empaquetada en parámetros
1 comentarios
Opiniones en Hacker News
Me pregunto si esto se puede ver simplemente como un modelo pequeño entrenado para razonar bien y nada más
Se siente como una persona inteligente que no sabe de un tema específico, pero si le das herramientas investiga con ganas
Se vería realmente bien si, en vez de hacer que el modelo aprenda todo el conocimiento, se le entrenara solo en cómo aprender, para que con un dispositivo pequeño como una Pi Zero y conexión a internet pueda arreglárselas por su cuenta
En vez de codificar todo el conocimiento en los parámetros, me preguntaba qué pasaría si hiciéramos un modelo del mismo tamaño que usara la mayor parte para razonar
Bastaría con darle capacidad de navegar por internet y hacer que consulte especificaciones del lenguaje, documentación y buenas prácticas
No entiendo por qué mi agente de programación tendría que saber la población de New York, la receta de cheesecake o la esperanza de vida de un avestruz
Podría darle solo el conocimiento mínimo necesario para pensar y razonar, y que el resto lo averigüe por sí mismo
Lo frustrante es que los grandes modelos de lenguaje actuales al final son predicción de tokens, así que no funcionan de esa manera
El razonamiento es un subproducto emergente del entrenamiento con todo ese conocimiento, y aun en esta forma el modelo no “sabe” nada, solo genera tokens
Si no lo entrenas con un gran dataset lleno de muchas palabras y conexiones plausibles entre ellas, no puede formar conexiones adecuadas entre palabras y oraciones, así que tampoco puede razonar
Si entrenas un modelo pequeño con un dataset muy pequeño, verás una salida incoherente
Sería interesante optimizar un dataset para extraer la máxima generación con el mínimo de datos, pero si una empresa quiere construir un modelo de nivel state of the art, económicamente le conviene mucho más agregar unas cuantas GPUs que hacer ese esfuerzo
Por ejemplo, incluso una pregunta muy básica como meter una pelota en una taza, poner la taza boca abajo sobre la mesa, levantar la taza y meterla en una caja requiere conocimiento que no está explícito en el problema, en particular sobre la gravedad
Si intentas definir todos los términos con rigor, enseguida caes en un pantano de complejidad
Para entender instrucciones hace falta conocimiento básico sobre los objetos, y si solo sabes razonar, no tienes claro qué es lo que debes lograr
Parece haber una ruptura bastante clara entre el enorme depósito de texto con el que se entrenan los modelos y la capacidad de considerar un tema de forma sólida
También me pregunto si se puede guiar esa trayectoria con el orden del entrenamiento
Por ejemplo, si primero aprende alfabetización básica con TinyStories, luego textos de matemáticas y filosofía, después textos de psicología y sociología, y al final una gran cantidad de datos que incluya conversaciones, textos de enojo, código y novelas, ¿sería muy distinto de un modelo entrenado primero con actuación, escritura creativa y fantasía, y luego con el mismo dataset final masivo?
También me pregunto cuánto influye la capacidad actual del modelo al contextualizar nuevos datos de entrenamiento
Fue entrenado para resolver problemas generando una cadena de pensamiento (CoT) larga, y eso lo hace bien, pero casi no tiene capacidad de usar herramientas ni de manejar más de 1 o 2 mensajes
Basta ver la advertencia al inicio de https://huggingface.co/WeiboAI/VibeThinker-3B
Creo que el siguiente frente será optimizar modelos para que sean más capaces con menos hardware
Se vuelve aún más interesante si además llegan a permitir aprendizaje en tiempo real
Con estos avances en modelos pequeños pero potentes, parece que están superando la pura potencia de capital de los proveedores de modelos más avanzados
Quiero apoyar a los pequeños, pero todavía siento que es pronto para afirmarlo
Visto de otra forma, quizá los benchmarks actuales simplemente no son lo bastante eficientes para capturar el éxito en flujos de trabajo reales de desarrolladores
Eso sí, si haces que este modelo converse, probablemente falle y pierda consistencia
En cambio, su capacidad para razonar y resolver problemas matemáticos sí es realmente buena
Va muy bien y me recuerda al primer modelo de Claude que probé
Es el primer modelo local para agentes de programación que he probado que de verdad funciona de forma útil, así que estoy muy emocionado
Para que cualquier modelo sea útil, incluso en tareas acotadas, necesita cierto nivel base de inteligencia
¿Podrías enseñarle a manejar a un niño de 5 años? ¿Y a uno de 10? ¿De 12?
Para manejar hay que poder leer, evaluar condiciones como hielo o lluvia, y anticipar a un niño que sale corriendo detrás de una pelota
Los humanos adquieren este conocimiento básico hacia mediados de la adolescencia
Incluso un modelo pequeño necesita cierto conocimiento general para rendir suficientemente bien, aunque sea en un dominio aparentemente estrecho
Tal vez no necesite todo el conocimiento raro de los modelos frontier, pero es muy posible que la línea base sea más alta de lo que se pensaba al principio
Puede que necesites saber leer para aprobar el examen de conducir, pero en todo el mundo hay muchas personas analfabetas que manejan bien
Hay una razón por la que las señales de tránsito comunes están diseñadas para reconocerse por su forma y color
Manejar en sí depende principalmente de la memoria muscular para controlar el auto, y por eso la gente que maneja mucho puede moverse casi en piloto automático durante trayectos largos mientras piensa en otra cosa completamente distinta
Eso también es una forma de conocimiento, pero solo se adquiere mediante repetición
Claro, para manejar en medio del tráfico hace falta mucho más, como una comprensión básica de las normas viales, pero la mayor parte de manejar es memoria muscular, comprensión del vehículo y predicción de lo que va a pasar
Los simios son buenos en esto porque evolucionaron durante millones de años usando el cuerpo y viendo los resultados
Incluso había un GIF de un orangután manejando un carrito de golf, aunque no está claro qué tan real era
Puede ser más útil ver a los modelos no como futuros humanos replicados, sino como herramientas con capacidades específicas para dominios específicos
Así como no tendría sentido pedirle a Opus 4.8 que conduzca un auto, tampoco tiene sentido esperar que un pequeño modelo de imágenes para dispositivos edge escriba una novela
Hay que verlo como una herramienta hecha para un uso específico
Creo que los verdaderos obstáculos son a) el juicio, y b) los reflejos físicos y el nivel de fuerza
De niño ya sabía lo que eran el hielo, la nieve y la lluvia
Andaba en bicicleta en las cuatro estaciones, y tenía poca confianza en mi capacidad de controlar la bici sobre nieve o terreno mojado, sobre todo cuando cambiaba la temporada
Esa experiencia luego se trasladó al aprendizaje de manejo en invierno en el norte de Canadá, y apliqué las mismas lecciones al conducir
En entornos sin consecuencias, he visto a niños manipular simuladores reales o simulaciones de conducción en videojuegos con una precisión sorprendente
A veces niños de 9 a 11 años usaban simulaciones y juegos con mucha más confianza que conductores adultos
Los niños saben que en una simulación no hay consecuencias, y si no se les da una motivación aparte, actúan en consecuencia
En cambio, en adultos que manejan con frecuencia, incluso al jugar un videojuego la memoria muscular y las ideas preconcebidas dominan la toma de decisiones
Me pregunto cuánta práctica y exposición hace falta para que los niños superen ese estado en el que no perciben los límites reales ni las consecuencias de manejar y equivocarse, y a la inversa, cuánto hace falta para que una persona experta al volante pero novata en juegos deje de aplicar su experiencia real a una simulación sin consecuencias
No hace falta saber leer para conducir un auto
Pero conducir en la vía pública junto con otras personas es una historia completamente distinta
Es muy probable que un niño de tres años intente explorar demasiado en situaciones donde equivocarse es peligroso
Aquí no solo hace falta conocimiento, sino también un sistema de control que se desarrolla junto con la corteza prefrontal
Los modelos grandes de lenguaje todavía no son muy buenos en ese tipo de control
Hay que tener en cuenta que este resultado es solo para Python
En otros lenguajes no le irá tan bien
Da gusto ver que estén saliendo más modelos pequeños de lenguaje especializados por dominio
Un modelo mixture-of-experts (MoE) especializado en programación podría funcionar bien en varios lenguajes
Este modelo es un experto barato para tareas de razonamiento verificables en un mundo cerrado, como matemáticas o problemas de programación autocontenidos
“Mundo cerrado” significa que la información necesaria ya está en el contexto
No es un agente con uso de herramientas que descubra el contexto faltante
“Verificable” significa que es difícil generar la respuesta, pero fácil comprobarla
Por eso no sirve para investigación abierta, tareas de agente sobre repositorios completos, preguntas y respuestas factuales ni generación de SVG
Se parece más a un pequeño módulo de razonamiento para problemas bien delimitados
Lo interesante de un modelo tan pequeño es que parece que podría correr en un solo chip de Taalas
HC1 ya ejecuta el modelo Llama 3.1 8B
Ya estamos en un punto donde se puede ejecutar razonamiento más o menos decente en un ASIC, y además a velocidades enormes
Probé este modelo como sustituto de GPT-5 nano en revisiones de seguridad de código fuente, y hasta ahora ha tenido cierto éxito
Lo estoy ejecutando con vLLM en una RTX 3090 con 24 GB de VRAM
Como dice la model card, no es bueno con salidas estructuradas, pero lo estoy sorteando en mi test harness
Intenté generar el clásico pelícano en SVG, pero fracasó miserablemente y solo mostró rectángulos y círculos negros.
El punto clave parece ser que redujeron conocimientos como “los pelícanos tienen alas”, pero preservaron la capacidad central de razonamiento.
“Este hallazgo respalda la hipótesis de compresión-cobertura de parámetros. Esta hipótesis sostiene que el razonamiento verificable puede comprimirse en un pequeño núcleo de razonamiento, pero que el conocimiento de dominio abierto y las capacidades generales requieren una amplia cobertura de parámetros sobre hechos, conceptos y escenarios de cola larga.”
Luego dale las etiquetas SVG y las referencias de documentación que quieres que use.
El resultado que obtuve está aquí: https://9ol.es/tmp/pelican.png
El prompt está en https://9ol.es/tmp/prompt_pelican.txt
El modelo usado es prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M.
Todavía no se puede confiar en las evaluaciones ni en los benchmarks.
¿Cómo se puede demostrar que el dataset de prueba realmente contenía ejemplos no publicados?
Creo que la única forma de demostrar que estos modelos son tan buenos como afirman es esperar a ver si realmente se adoptan.
Si hubiera que implementar algo como un motor de razonamiento, habría que diseñar e implementar la mejor arquitectura posible para eso, y luego probarla.
Da mucho gusto ver aparecer modelos de lenguaje pequeños tan capaces.
Pero en Hugging Face dice esto:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Así que no se puede simplemente conectarlo a un harness de programación como pi.dev.
¿Razona mejor que Opus 4.5?
Prompt: “Si A va hacia B, y luego B va hacia C, ¿puede A enviarle algo a C?”
La respuesta fue esta:
“Debe interpretarse de la manera más adecuada. Esta frase podría ser un acertijo sobre relaciones y sobre el concepto de enviar algo, por ejemplo pasar una pelota.
Escenario: A le da algo a B, y B luego se lo pasa a C.
Pregunta: ¿A también puede darle eso mismo a C?
Respuesta: solo si A puede obtener una segunda copia. Por ejemplo, si el objeto fue duplicado. De lo contrario, después de entregárselo a B, A ya no lo tiene, así que no puede ‘enviarlo’ sin una copia.”
Además venía con un montón de explicaciones y “escenarios” innecesarios que tenían todavía menos sentido.
Aun así, da la respuesta correcta.
Además, si comparas la cantidad de operaciones de punto flotante que usó para llegar a la respuesta con Opus, yo diría que sigue siendo ganancia neta.
Mi intuición es que un modelo del tamaño de Opus tiene codificado internamente un atajo para manejar estos casos ambiguos, mientras que este modelo parece haber aprendido un programa para razonar sobre casos límite al vuelo.
Se parece más a la diferencia entre inteligencia cristalizada e inteligencia fluida.
Los modelos frontier parecen recordar probabilidades, mientras que VibeThinker da la impresión de calcularlas en el momento.
“Control de calidad multinivel.”
“Filtrado de calidad de consultas basado en grandes modelos de lenguaje. Usamos grandes modelos de lenguaje de alto rendimiento para evaluar la calidad de las consultas y filtrar muestras donde la explicación es incompleta, las condiciones son poco razonables, la lógica es incorrecta o no se pueden evaluar eficazmente los puntos de conocimiento objetivo.”