- Con el objetivo de mejorar la capacidad de razonamiento matemático de los grandes modelos de lenguaje, se diseñó un modelo que fortalece la verificabilidad del proceso de razonamiento, más allá de la simple exactitud de la respuesta correcta.
- Se mejoró la limitación de los enfoques basados en aprendizaje por refuerzo centrados en la recompensa de la respuesta final, incorporando un mecanismo de autoverificación (self-verification).
- En problemas que requieren una secuencia lógica paso a paso, como la prueba de teoremas (theorem proving), se diseñó para que el modelo generador encuentre y corrija sus propios errores.
- Se utiliza un verificador (verifier) como modelo de recompensa y se amplía el cómputo de verificación para etiquetar automáticamente datos de pruebas difíciles, logrando una mejora de rendimiento continua.
- Obtuvo puntajes de máximo nivel en IMO 2025, CMO 2024, Putnam 2024 y otros, demostrando la viabilidad de la IA matemática con autoverificación.
1. Introducción (Introduction)
- Los modelos de lenguaje de gran escala (LLM) han logrado grandes avances en razonamiento matemático y desempeñan un papel central en la investigación de IA.
- A través del aprendizaje por refuerzo, aplicando aprendizaje basado en recompensas de respuesta correcta, alcanzaron en un año un rendimiento de élite en concursos como AIME y HMMT.
- Sin embargo, aumentar solo la precisión de la respuesta final tiene límites.
- Aunque la respuesta sea correcta, no se garantiza la validez del proceso de razonamiento, y esto no aplica a problemas que requieren desarrollo lógico paso a paso, como la demostración de teoremas.
- Para abordar esto se introdujo el concepto de autoverificación (self-verification), diseñado para evaluar la exhaustividad y rigurosidad del razonamiento.
- Esencialmente, se presenta como un componente clave para expandir el cálculo de evaluación en problemas abiertos (open problems) donde la respuesta no es conocida.
- El equipo entrena un verificador (verifier) de LLM preciso y confiable, y lo usa como modelo de recompensa para entrenar un generador de pruebas (generator).
- Esto impulsa al generador a encontrar y corregir sus propios errores dentro de una prueba.
- A medida que mejora el rendimiento del generador, también aumenta la dificultad de la verificación, por lo que se escaló el cómputo de verificación (scale verification compute) para etiquetar automáticamente nuevas pruebas más difíciles.
- Así, se mejora de forma continua el rendimiento del verificador.
- El modelo resultante, DeepSeekMath-V2, obtuvo puntajes de nivel oro en IMO 2025 y CMO 2024 y 118/120 puntos en Putnam 2024.
- Estos resultados muestran que el razonamiento matemático con autoverificación es una dirección de investigación viable.
2. Resultados de evaluación (Evaluation Results)
- Para la evaluación se usó IMO-ProofBench, desarrollado por el equipo IMO-Gold de DeepThink de DeepMind, junto con concursos matemáticos recientes (IMO 2025, CMO 2024, Putnam 2024).
- Las cifras concretas o resultados detallados no se especifican en el texto.
3. Arquitectura del modelo y fundamentos (Model Architecture)
- DeepSeekMath-V2 se construyó sobre el modelo DeepSeek-V3.2-Exp-Base.
- Para soporte relacionado con la inferencia (inference), consulte el repositorio de GitHub de DeepSeek-V3.2-Exp.
4. Licencia (License)
- El modelo y sus pesos se distribuyen bajo la Apache License 2.0.
5. Citación (Citation)
- Se especifican los autores del estudio y la información del paper, cuyo título es
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. Información adicional (Additional Information)
- El número de descargas en el último mes fue de 4,434.
- Al construir el árbol del modelo, el modelo base se marcó como no generable porque forma un bucle de autorreferencia.
1 comentarios
Opiniones en Hacker News
El modelo publicado esta vez liberó sus pesos como open source bajo licencia Apache 2.0
Los modelos ganadores de medalla de oro de la IMO de OpenAI y DeepMind siguen siendo cerrados
La discusión anterior está en este enlace
Impresiona cómo los modelos de pesos abiertos se están poniendo al día rápidamente en áreas especializadas como matemáticas o razonamiento
Me pregunto si alguien también lo ha probado en tests de lógica compleja o de programación. Los modelos que rinden bien en matemáticas a menudo también son fuertes en debugging o en generación de algoritmos
Creo que también hace falta una mirada escéptica sobre los resultados de este modelo
Indican claramente que entrenaron directamente con problemas recopilados de internet, pero no mencionan la eliminación de contaminación de benchmarks ni si excluyeron problemas de 2024/2025
OpenAI y Google probaron sus modelos experimentales sin haber tenido acceso previo a los problemas de 2025
Me pregunto por qué el modelo medallista de OpenAI todavía no se ha publicado
Es importante que este modelo no es un modelo de propósito general. Los modelos de Google y OpenAI usaron modelos de propósito general
Me pregunto cómo habría que hacer para correr un modelo así en casa
La duda es si sería posible con CPU y alrededor de 1 TB de RAM
Sospecho si este modelo no habrá sido destilado (distill) directamente a partir de salidas de OpenAI o Google
Me pregunto si hay planes de subir este modelo a OpenRouter
Si OpenAI mete anuncios en ChatGPT, ¿la gente no se iría enseguida a otros modelos?