Lanzamiento de DeepSeekMath-V2: hacia el razonamiento matemático autoverificable

(huggingface.co)

5 puntos por GN⁺ 2025-12-02 | 1 comentarios | Compartir por WhatsApp

Con el objetivo de mejorar la capacidad de razonamiento matemático de los grandes modelos de lenguaje, se diseñó un modelo que fortalece la verificabilidad del proceso de razonamiento, más allá de la simple exactitud de la respuesta correcta.
Se mejoró la limitación de los enfoques basados en aprendizaje por refuerzo centrados en la recompensa de la respuesta final, incorporando un mecanismo de autoverificación (self-verification).
En problemas que requieren una secuencia lógica paso a paso, como la prueba de teoremas (theorem proving), se diseñó para que el modelo generador encuentre y corrija sus propios errores.
Se utiliza un verificador (verifier) como modelo de recompensa y se amplía el cómputo de verificación para etiquetar automáticamente datos de pruebas difíciles, logrando una mejora de rendimiento continua.
Obtuvo puntajes de máximo nivel en IMO 2025, CMO 2024, Putnam 2024 y otros, demostrando la viabilidad de la IA matemática con autoverificación.

1. Introducción (Introduction)

Los modelos de lenguaje de gran escala (LLM) han logrado grandes avances en razonamiento matemático y desempeñan un papel central en la investigación de IA.
- A través del aprendizaje por refuerzo, aplicando aprendizaje basado en recompensas de respuesta correcta, alcanzaron en un año un rendimiento de élite en concursos como AIME y HMMT.
Sin embargo, aumentar solo la precisión de la respuesta final tiene límites.
- Aunque la respuesta sea correcta, no se garantiza la validez del proceso de razonamiento, y esto no aplica a problemas que requieren desarrollo lógico paso a paso, como la demostración de teoremas.
Para abordar esto se introdujo el concepto de autoverificación (self-verification), diseñado para evaluar la exhaustividad y rigurosidad del razonamiento.
- Esencialmente, se presenta como un componente clave para expandir el cálculo de evaluación en problemas abiertos (open problems) donde la respuesta no es conocida.
El equipo entrena un verificador (verifier) de LLM preciso y confiable, y lo usa como modelo de recompensa para entrenar un generador de pruebas (generator).
- Esto impulsa al generador a encontrar y corregir sus propios errores dentro de una prueba.
A medida que mejora el rendimiento del generador, también aumenta la dificultad de la verificación, por lo que se escaló el cómputo de verificación (scale verification compute) para etiquetar automáticamente nuevas pruebas más difíciles.
- Así, se mejora de forma continua el rendimiento del verificador.
El modelo resultante, DeepSeekMath-V2, obtuvo puntajes de nivel oro en IMO 2025 y CMO 2024 y 118/120 puntos en Putnam 2024.
- Estos resultados muestran que el razonamiento matemático con autoverificación es una dirección de investigación viable.

2. Resultados de evaluación (Evaluation Results)

Para la evaluación se usó IMO-ProofBench, desarrollado por el equipo IMO-Gold de DeepThink de DeepMind, junto con concursos matemáticos recientes (IMO 2025, CMO 2024, Putnam 2024).
- Las cifras concretas o resultados detallados no se especifican en el texto.

3. Arquitectura del modelo y fundamentos (Model Architecture)

DeepSeekMath-V2 se construyó sobre el modelo DeepSeek-V3.2-Exp-Base.
- Para soporte relacionado con la inferencia (inference), consulte el repositorio de GitHub de DeepSeek-V3.2-Exp.

4. Licencia (License)

El modelo y sus pesos se distribuyen bajo la Apache License 2.0.

5. Citación (Citation)

Se especifican los autores del estudio y la información del paper, cuyo título es
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Información adicional (Additional Information)

El número de descargas en el último mes fue de 4,434.
Al construir el árbol del modelo, el modelo base se marcó como no generable porque forma un bucle de autorreferencia.

1 comentarios

GN⁺ 2025-12-02

Opiniones en Hacker News

El modelo publicado esta vez liberó sus pesos como open source bajo licencia Apache 2.0
Los modelos ganadores de medalla de oro de la IMO de OpenAI y DeepMind siguen siendo cerrados
- Creo que, así como las empresas de IA manejan los derechos de autor de los datos de entrenamiento, nosotros también deberíamos tratar así los derechos de autor de los pesos
- Pero si solo publican los pesos y no el código de entrenamiento ni los datos, sigue siendo un modelo cerrado
La discusión anterior está en este enlace
- Se me había pasado ese enlace, gracias por compartirlo
Impresiona cómo los modelos de pesos abiertos se están poniendo al día rápidamente en áreas especializadas como matemáticas o razonamiento
Me pregunto si alguien también lo ha probado en tests de lógica compleja o de programación. Los modelos que rinden bien en matemáticas a menudo también son fuertes en debugging o en generación de algoritmos
- Es algo natural, porque los modelos especializados en dominios concretos tienen menos valor comercial, y el entrenamiento de LLM a gran escala prefiere la generalidad
- kimi-k2 es bastante decente para programación, pero no llega al nivel de los modelos SOTA de Anthropic, OpenAI o Google
Creo que también hace falta una mirada escéptica sobre los resultados de este modelo
Indican claramente que entrenaron directamente con problemas recopilados de internet, pero no mencionan la eliminación de contaminación de benchmarks ni si excluyeron problemas de 2024/2025
OpenAI y Google probaron sus modelos experimentales sin haber tenido acceso previo a los problemas de 2025
Me pregunto por qué el modelo medallista de OpenAI todavía no se ha publicado
- Eso fue simplemente publicidad. Piensan incorporar lo aprendido ahí en el próximo modelo de propósito general
Es importante que este modelo no es un modelo de propósito general. Los modelos de Google y OpenAI usaron modelos de propósito general
- En realidad, tanto OpenAI como Google usaron modelos de investigación especializados para la IMO
  - OpenAI adelantó el lanzamiento de GPT-5 en este tuit y dijo que el modelo de la IMO es experimental, así que no planean publicarlo por ahora
  - DeepMind explicó en su blog oficial que entrenó a Gemini con razonamiento multietapa basado en aprendizaje por refuerzo y datos de demostración de teoremas
- También se compartió la publicación oficial de DeepSeek
Me pregunto cómo habría que hacer para correr un modelo así en casa
La duda es si sería posible con CPU y alrededor de 1 TB de RAM
- Solo la descarga ocupa 690 GB, así que probablemente se necesite 1 TB de RAM. Ni con mis dos máquinas Strix Halo sería posible
- Con ik_llama.cpp, suficiente RAM y una GPU se puede ejecutar aunque sea lento. El llama.cpp normal también sirve, pero el fork de ik es más eficiente
- Dicen que también se puede con dos Mac Studio de 512 GB conectadas por Thunderbolt 5
Sospecho si este modelo no habrá sido destilado (distill) directamente a partir de salidas de OpenAI o Google
Me pregunto si hay planes de subir este modelo a OpenRouter
Si OpenAI mete anuncios en ChatGPT, ¿la gente no se iría enseguida a otros modelos?
- Más bien creo que sería deseable que varios proveedores sacaran modelos de propósito general que compitan a precio de mercado
- Con o sin anuncios, no confío en OpenAI. Me costará creerles hasta que le cambien el nombre a CloseAI
- ChatGPT es solo un sitio web. No tiene nada de raro que un sitio web tenga anuncios. Instagram también los tiene
- Ya tienen una estructura de ingresos mediante centros de datos GPU y APIs. Aunque aparezca competencia, por un tiempo seguirá siendo la primera opción
- Google también ha tenido anuncios durante décadas, y nadie se cambió a otro buscador

Lanzamiento de DeepSeekMath-V2: hacia el razonamiento matemático autoverificable

1. Introducción (Introduction)

2. Resultados de evaluación (Evaluation Results)

3. Arquitectura del modelo y fundamentos (Model Architecture)

4. Licencia (License)

5. Citación (Citation)

6. Información adicional (Additional Information)

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News