Presentación de Gemini 3 Deep Think

(blog.google)

7 puntos por GN⁺ 2026-02-13 | 1 comentarios | Compartir por WhatsApp

Gemini 3 Deep Think, el modelo de IA de Google orientado a resolver problemas de ciencia, investigación e ingeniería, recibió una gran actualización
La nueva versión fue diseñada mediante colaboración con científicos e investigadores para abordar problemas complejos con datos incompletos o sin una respuesta claramente definida
Alcanzó un rendimiento de nivel medalla de oro en diversas olimpiadas internacionales y benchmarks de matemáticas, programación, física y química
Da soporte a investigación real y aplicaciones de ingeniería, y ofrece funciones prácticas como la generación de modelos imprimibles en 3D a partir de bocetos
Está disponible para suscriptores de Google AI Ultra y mediante el programa de acceso anticipado de Gemini API, con expansión prevista para investigadores y empresas

Resumen principal de Gemini 3 Deep Think

Gemini 3 Deep Think es un modo de razonamiento especializado diseñado para resolver desafíos modernos en ciencia, investigación e ingeniería
- Google trabajó de cerca con científicos e investigadores para reforzar su capacidad de abordar problemas sin una respuesta clara o con datos incompletos
- Combina conocimiento teórico y utilidad práctica en ingeniería para evolucionar hacia un modelo centrado en aplicaciones reales
Esta actualización se ofrece a los suscriptores de Google AI Ultra a través de la app de Gemini, y Gemini API permite que investigadores, ingenieros y empresas soliciten acceso anticipado

Casos de uso iniciales

Lisa Carbone, matemática de Rutgers University, utilizó Deep Think para revisar un artículo matemático relacionado con física de altas energías y encontró errores lógicos que habían pasado la revisión humana
Wang Lab de Duke University optimizó un complejo proceso de crecimiento cristalino para explorar materiales semiconductores y diseñó una receta de crecimiento de película delgada de más de 100 μm
Anupam Pathak, de la división Platforms & Devices de Google, probó Deep Think para acelerar el diseño de componentes físicos

Mejora en la precisión matemática y algorítmica

Deep Think registró resultados de nivel medalla de oro en la Olimpiada Internacional de Matemáticas y en la Competencia Internacional Universitaria de Programación
La versión más reciente logró los siguientes máximos en benchmarks académicos
- Humanity’s Last Exam: 48.4% (sin uso de herramientas)
- ARC-AGI-2: 84.6% (verificado por ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: rendimiento de nivel medalla de oro
Deep Think también se utiliza para desarrollar agentes especializados que realizan exploración matemática

Exploración de dominios científicos complejos

Más allá de matemáticas y programación, también mejoró su desempeño en química, física y otras áreas científicas
- En la sección escrita de las Olimpiadas Internacionales de Física y Química 2025, logró resultados de nivel medalla de oro
- Obtuvo 50.5% en el benchmark de física teórica CMT-Benchmark
Este rendimiento demuestra la expansión de la capacidad de razonamiento científico de Deep Think

Aceleración de la ingeniería en el mundo real

Deep Think ayuda con la interpretación de datos complejos y el modelado de sistemas físicos, con el objetivo de apoyar el trabajo práctico de investigadores e ingenieros
A través de Gemini API, se está ampliando su accesibilidad en entornos de investigación reales
Por ejemplo, los usuarios pueden ingresar un boceto para generar un modelo imprimible en 3D, y Deep Think se encarga del análisis, modelado y generación del archivo

Acceso y disponibilidad

Los suscriptores de Google AI Ultra ya pueden usar Deep Think de inmediato en la app de Gemini
Investigadores, ingenieros y empresas pueden solicitar participar en el programa de acceso anticipado a través de Gemini API
Google espera que Deep Think impulse nuevos descubrimientos científicos y más casos de uso aplicados

1 comentarios

GN⁺ 2026-02-13

Opiniones de Hacker News

Sorprende que la puntuación de Arc-AGI-2 sea 84.6%
En la publicación oficial del blog están los detalles de Gemini 3 Deep Think
- Desde antes ya me daba la impresión de que Gemini 3 era increíblemente generalista (general)
  Pudo ganar Balatro (ante 8) solo con una descripción en texto. Para un humano no es tan difícil, pero sorprende que un LLM lo haya logrado sin entrenamiento específico
  Lo probaron en Balatro Bench, y Deepseek no puede jugar este juego en absoluto
- Hace apenas un año, en este benchmark estaba en el rango de 1~10%, y ahora cuesta creer que haya subido hasta casi poder llamarse nivel AGI
- El aumento en la puntuación de ARC-AGI es interesante, pero verlo como un salto en la “inteligencia general” es exagerado
  Yo bromeo con que la G de ARC-AGI significa ‘graphical’. Hasta ahora los modelos eran débiles en razonamiento espacial (spatial reasoning), y parece que esta vez resolvieron eso
  Espero que en ARC-AGI 3 agreguen tareas tipo juego basadas en prueba y error
- Si miras el leaderboard de ARC Prize, actualmente cuesta alrededor de $13.62 por tarea
  Siendo realistas, probablemente tengan que pasar entre 5 y 10 años más para que el costo de ejecución llegue a un nivel razonable
  Aun así, me pregunto si el modelo no estará sobreajustado (fitting) al benchmark
- Para hacer una comparación justa habría que compararlo con un modelo del mismo nivel, como GPT-5.x Pro
Siento que la velocidad de lanzamiento de modelos se está volviendo anormalmente rápida
Solo hoy salieron Gemini 3 Deep Think y GPT 5.3 Codex Spark, y hace unos días estuvieron Opus 4.6, GLM5 y MiniMax M2.5
- Parece que influyó la temporada del Año Nuevo chino
  Los laboratorios chinos suelen lanzar modelos en esta época, y los laboratorios de EE. UU. parecen apurarse a publicar modelos más potentes para evitar el impacto de algo como DeepSeek R1 (20 de enero de 2025)
- Últimamente hay tantos tipos de modelos que ya cuesta incluso distinguirlos
  Gemini 3 Deep Think parece más una versión de Gemini 3 Pro con una función de razonamiento (subagent) encima que un modelo completamente nuevo
  Como también puede conectarse a frameworks externos de agentes como OpenClaw, la discusión sobre los “agent workflows” parece exagerada
- Estas últimas semanas realmente han sido un ciclo de lanzamientos explosivo
- Si tuviera que resumirlo en una frase: Fast takeoff
Google está totalmente tomando la delantera
La gente pensaba que se estaba quedando atrás, pero eso terminó siendo la mejor estrategia
- El modelo es impresionante, pero la calidad del producto es pésima
  Usé Gemini web/CLI durante dos meses y pierde el contexto en medio de la conversación; si le preguntas por mejorar la calidad del aire, te da una lista de purificadores sin contexto
  Incluso cita sitios de propaganda rusa o cambia al chino a mitad de una frase
  No me convence pagar 20 euros al mes por una calidad así
- El Google de tiempos normales es lento y burocrático, pero el Google en modo guerra trabaja a una velocidad sorprendente
- OpenAI seguramente sacará algo más unas horas después, así que la competencia está divertida
  Los que decían que ARC-AGI-2 era el límite de los LLM ahora volverán a mover la vara
  Parece que la mayor parte del esfuerzo humano se va a dedicar a demostrar que “la IA todavía no es AGI”
- Aun así, en utilidad real en el mundo Google todavía va atrás
  Gemini 3 Pro sigue teniendo muchos problemas
Estoy usando Gemini 3 Pro para un proyecto de digitalización de documentos históricos
Escaneo actas manuscritas en alemán de 1885 a 1974 y las transcribo y traduzco una página a la vez
Ya procesé unas 2,370 páginas, con 95% de precisión y un costo de API de alrededor de $50
Hace falta revisión manual, pero el ahorro de tiempo es enorme
- Puede que una sola pasada ya sea suficiente, así que habría que reevaluar la eficiencia total después de revisar
Intuitivamente, creo que los modelos están en tres espectros
sin pensamiento, con pensamiento y tipo best-of-N (Deep Think, GPT Pro)
En cada caso, la complejidad computacional crece más o menos de forma lineal, cuadrática y cúbica
Los de pensamiento pueden resolver problemas que requieren escribir un scratchpad
- Creo que el siguiente paso será un enjambre de agentes (agent swarm)
  Un modelo gerente recibe el prompt, crea varios subagentes para probar en paralelo, y luego evalúa y redistribuye resultados
- En los modelos best-of-N, lo clave es el uso de contexto largo
  Google desde la versión 2.5 maneja contextos largos de manera realmente útil
  El concepto de pass@N también es interesante y sirve para trabajos de búsqueda donde el tiempo se convierte en dinero, como búsqueda de vulnerabilidades de seguridad o problemas de optimización
- Sobre si un modelo grande sin pensamiento puede rendir igual que uno pequeño con pensamiento, los modelos de Anthropic son un buen ejemplo
  En esta imagen, Opus 4.6 muestra alto rendimiento incluso sin pensar
El PDF con la metodología de evaluación de todos los benchmarks está aquí
La puntuación de 84.6% en ARC-AGI-2 corresponde al conjunto semi-privado,
y si supera 85% en el conjunto privado, se considera “solved” y se entrega un premio de $700K
Ver la guía de ARC Prize
- Viendo que el título del documento dice “Gemini 3.1 Pro”, parece que pronto saldrá una nueva versión
- Pero creo que será difícil superar 85% en el conjunto privado. Eso podría significar filtración de datos
Últimamente los modelos están mejorando demasiado rápido, y me hace pensar que mi trabajo podría desaparecer en 3 a 5 años
Parece que los LLM ya entraron en una etapa en la que empiezan a mejorarse a sí mismos
Qué pena que no esté en OpenRouter
Últimamente los modelos Deep Think de gama alta están bloqueados para usarse solo en sus propias plataformas
- OpenRouter también está bien, pero litellm se ve más limpio porque es una simple librería de Python
  Ver la documentación de litellm
- Pero ya da la impresión de que la edad dorada (golden age) terminó
Gemini siempre me ha parecido un modelo con mucho conocimiento pero poca flexibilidad
Se derrumba fácilmente ante pedidos fuera del guion
- En realidad, esa experiencia también podría ser un tema de adaptación del usuario
  Como llevo mucho tiempo usando modelos de Google, a mí los de OpenAI me parecieron bastante peores
  Y al revés, los usuarios de OpenAI probablemente sienten que su modelo es el mejor por la misma razón
- En cierto sentido, Gemini parece un modelo que piensa a su manera
  Todavía no lo he probado, pero puede que haya mejorado en seguir instrucciones
Sorprende lo rápido que avanzan los modelos
Pensé que ya se iban a topar con una pared, pero los nuevos modelos destrozan por completo los benchmarks anteriores
- Pero como las empresas están enfocándose en optimizar la puntuación de benchmarks, la correlación con el rendimiento real cada vez es menor

Presentación de Gemini 3 Deep Think

Resumen principal de Gemini 3 Deep Think

Casos de uso iniciales

Mejora en la precisión matemática y algorítmica

Exploración de dominios científicos complejos

Aceleración de la ingeniería en el mundo real

Acceso y disponibilidad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News