- Gemini 3 Deep Think, el modelo de IA de Google orientado a resolver problemas de ciencia, investigación e ingeniería, recibió una gran actualización
- La nueva versión fue diseñada mediante colaboración con científicos e investigadores para abordar problemas complejos con datos incompletos o sin una respuesta claramente definida
- Alcanzó un rendimiento de nivel medalla de oro en diversas olimpiadas internacionales y benchmarks de matemáticas, programación, física y química
- Da soporte a investigación real y aplicaciones de ingeniería, y ofrece funciones prácticas como la generación de modelos imprimibles en 3D a partir de bocetos
- Está disponible para suscriptores de Google AI Ultra y mediante el programa de acceso anticipado de Gemini API, con expansión prevista para investigadores y empresas
Resumen principal de Gemini 3 Deep Think
- Gemini 3 Deep Think es un modo de razonamiento especializado diseñado para resolver desafíos modernos en ciencia, investigación e ingeniería
- Google trabajó de cerca con científicos e investigadores para reforzar su capacidad de abordar problemas sin una respuesta clara o con datos incompletos
- Combina conocimiento teórico y utilidad práctica en ingeniería para evolucionar hacia un modelo centrado en aplicaciones reales
- Esta actualización se ofrece a los suscriptores de Google AI Ultra a través de la app de Gemini, y Gemini API permite que investigadores, ingenieros y empresas soliciten acceso anticipado
Casos de uso iniciales
- Lisa Carbone, matemática de Rutgers University, utilizó Deep Think para revisar un artículo matemático relacionado con física de altas energías y encontró errores lógicos que habían pasado la revisión humana
- Wang Lab de Duke University optimizó un complejo proceso de crecimiento cristalino para explorar materiales semiconductores y diseñó una receta de crecimiento de película delgada de más de 100 μm
- Anupam Pathak, de la división Platforms & Devices de Google, probó Deep Think para acelerar el diseño de componentes físicos
Mejora en la precisión matemática y algorítmica
- Deep Think registró resultados de nivel medalla de oro en la Olimpiada Internacional de Matemáticas y en la Competencia Internacional Universitaria de Programación
- La versión más reciente logró los siguientes máximos en benchmarks académicos
- Humanity’s Last Exam: 48.4% (sin uso de herramientas)
- ARC-AGI-2: 84.6% (verificado por ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: rendimiento de nivel medalla de oro
- Deep Think también se utiliza para desarrollar agentes especializados que realizan exploración matemática
Exploración de dominios científicos complejos
- Más allá de matemáticas y programación, también mejoró su desempeño en química, física y otras áreas científicas
- En la sección escrita de las Olimpiadas Internacionales de Física y Química 2025, logró resultados de nivel medalla de oro
- Obtuvo 50.5% en el benchmark de física teórica CMT-Benchmark
- Este rendimiento demuestra la expansión de la capacidad de razonamiento científico de Deep Think
Aceleración de la ingeniería en el mundo real
- Deep Think ayuda con la interpretación de datos complejos y el modelado de sistemas físicos, con el objetivo de apoyar el trabajo práctico de investigadores e ingenieros
- A través de Gemini API, se está ampliando su accesibilidad en entornos de investigación reales
- Por ejemplo, los usuarios pueden ingresar un boceto para generar un modelo imprimible en 3D, y Deep Think se encarga del análisis, modelado y generación del archivo
Acceso y disponibilidad
- Los suscriptores de Google AI Ultra ya pueden usar Deep Think de inmediato en la app de Gemini
- Investigadores, ingenieros y empresas pueden solicitar participar en el programa de acceso anticipado a través de Gemini API
- Google espera que Deep Think impulse nuevos descubrimientos científicos y más casos de uso aplicados
1 comentarios
Opiniones de Hacker News
Sorprende que la puntuación de Arc-AGI-2 sea 84.6%
En la publicación oficial del blog están los detalles de Gemini 3 Deep Think
Pudo ganar Balatro (ante 8) solo con una descripción en texto. Para un humano no es tan difícil, pero sorprende que un LLM lo haya logrado sin entrenamiento específico
Lo probaron en Balatro Bench, y Deepseek no puede jugar este juego en absoluto
Yo bromeo con que la G de ARC-AGI significa ‘graphical’. Hasta ahora los modelos eran débiles en razonamiento espacial (spatial reasoning), y parece que esta vez resolvieron eso
Espero que en ARC-AGI 3 agreguen tareas tipo juego basadas en prueba y error
Siendo realistas, probablemente tengan que pasar entre 5 y 10 años más para que el costo de ejecución llegue a un nivel razonable
Aun así, me pregunto si el modelo no estará sobreajustado (fitting) al benchmark
Siento que la velocidad de lanzamiento de modelos se está volviendo anormalmente rápida
Solo hoy salieron Gemini 3 Deep Think y GPT 5.3 Codex Spark, y hace unos días estuvieron Opus 4.6, GLM5 y MiniMax M2.5
Los laboratorios chinos suelen lanzar modelos en esta época, y los laboratorios de EE. UU. parecen apurarse a publicar modelos más potentes para evitar el impacto de algo como DeepSeek R1 (20 de enero de 2025)
Gemini 3 Deep Think parece más una versión de Gemini 3 Pro con una función de razonamiento (subagent) encima que un modelo completamente nuevo
Como también puede conectarse a frameworks externos de agentes como OpenClaw, la discusión sobre los “agent workflows” parece exagerada
Google está totalmente tomando la delantera
La gente pensaba que se estaba quedando atrás, pero eso terminó siendo la mejor estrategia
Usé Gemini web/CLI durante dos meses y pierde el contexto en medio de la conversación; si le preguntas por mejorar la calidad del aire, te da una lista de purificadores sin contexto
Incluso cita sitios de propaganda rusa o cambia al chino a mitad de una frase
No me convence pagar 20 euros al mes por una calidad así
Los que decían que ARC-AGI-2 era el límite de los LLM ahora volverán a mover la vara
Parece que la mayor parte del esfuerzo humano se va a dedicar a demostrar que “la IA todavía no es AGI”
Gemini 3 Pro sigue teniendo muchos problemas
Estoy usando Gemini 3 Pro para un proyecto de digitalización de documentos históricos
Escaneo actas manuscritas en alemán de 1885 a 1974 y las transcribo y traduzco una página a la vez
Ya procesé unas 2,370 páginas, con 95% de precisión y un costo de API de alrededor de $50
Hace falta revisión manual, pero el ahorro de tiempo es enorme
Intuitivamente, creo que los modelos están en tres espectros
sin pensamiento, con pensamiento y tipo best-of-N (Deep Think, GPT Pro)
En cada caso, la complejidad computacional crece más o menos de forma lineal, cuadrática y cúbica
Los de pensamiento pueden resolver problemas que requieren escribir un scratchpad
Un modelo gerente recibe el prompt, crea varios subagentes para probar en paralelo, y luego evalúa y redistribuye resultados
Google desde la versión 2.5 maneja contextos largos de manera realmente útil
El concepto de pass@N también es interesante y sirve para trabajos de búsqueda donde el tiempo se convierte en dinero, como búsqueda de vulnerabilidades de seguridad o problemas de optimización
En esta imagen, Opus 4.6 muestra alto rendimiento incluso sin pensar
El PDF con la metodología de evaluación de todos los benchmarks está aquí
La puntuación de 84.6% en ARC-AGI-2 corresponde al conjunto semi-privado,
y si supera 85% en el conjunto privado, se considera “solved” y se entrega un premio de $700K
Ver la guía de ARC Prize
Últimamente los modelos están mejorando demasiado rápido, y me hace pensar que mi trabajo podría desaparecer en 3 a 5 años
Parece que los LLM ya entraron en una etapa en la que empiezan a mejorarse a sí mismos
Qué pena que no esté en OpenRouter
Últimamente los modelos Deep Think de gama alta están bloqueados para usarse solo en sus propias plataformas
Ver la documentación de litellm
Gemini siempre me ha parecido un modelo con mucho conocimiento pero poca flexibilidad
Se derrumba fácilmente ante pedidos fuera del guion
Como llevo mucho tiempo usando modelos de Google, a mí los de OpenAI me parecieron bastante peores
Y al revés, los usuarios de OpenAI probablemente sienten que su modelo es el mejor por la misma razón
Todavía no lo he probado, pero puede que haya mejorado en seguir instrucciones
Sorprende lo rápido que avanzan los modelos
Pensé que ya se iban a topar con una pared, pero los nuevos modelos destrozan por completo los benchmarks anteriores