7 puntos por GN⁺ 2026-02-13 | 1 comentarios | Compartir por WhatsApp
  • Gemini 3 Deep Think, el modelo de IA de Google orientado a resolver problemas de ciencia, investigación e ingeniería, recibió una gran actualización
  • La nueva versión fue diseñada mediante colaboración con científicos e investigadores para abordar problemas complejos con datos incompletos o sin una respuesta claramente definida
  • Alcanzó un rendimiento de nivel medalla de oro en diversas olimpiadas internacionales y benchmarks de matemáticas, programación, física y química
  • Da soporte a investigación real y aplicaciones de ingeniería, y ofrece funciones prácticas como la generación de modelos imprimibles en 3D a partir de bocetos
  • Está disponible para suscriptores de Google AI Ultra y mediante el programa de acceso anticipado de Gemini API, con expansión prevista para investigadores y empresas

Resumen principal de Gemini 3 Deep Think

  • Gemini 3 Deep Think es un modo de razonamiento especializado diseñado para resolver desafíos modernos en ciencia, investigación e ingeniería
    • Google trabajó de cerca con científicos e investigadores para reforzar su capacidad de abordar problemas sin una respuesta clara o con datos incompletos
    • Combina conocimiento teórico y utilidad práctica en ingeniería para evolucionar hacia un modelo centrado en aplicaciones reales
  • Esta actualización se ofrece a los suscriptores de Google AI Ultra a través de la app de Gemini, y Gemini API permite que investigadores, ingenieros y empresas soliciten acceso anticipado

Casos de uso iniciales

  • Lisa Carbone, matemática de Rutgers University, utilizó Deep Think para revisar un artículo matemático relacionado con física de altas energías y encontró errores lógicos que habían pasado la revisión humana
  • Wang Lab de Duke University optimizó un complejo proceso de crecimiento cristalino para explorar materiales semiconductores y diseñó una receta de crecimiento de película delgada de más de 100 μm
  • Anupam Pathak, de la división Platforms & Devices de Google, probó Deep Think para acelerar el diseño de componentes físicos

Mejora en la precisión matemática y algorítmica

  • Deep Think registró resultados de nivel medalla de oro en la Olimpiada Internacional de Matemáticas y en la Competencia Internacional Universitaria de Programación
  • La versión más reciente logró los siguientes máximos en benchmarks académicos
    • Humanity’s Last Exam: 48.4% (sin uso de herramientas)
    • ARC-AGI-2: 84.6% (verificado por ARC Prize Foundation)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: rendimiento de nivel medalla de oro
  • Deep Think también se utiliza para desarrollar agentes especializados que realizan exploración matemática

Exploración de dominios científicos complejos

  • Más allá de matemáticas y programación, también mejoró su desempeño en química, física y otras áreas científicas
    • En la sección escrita de las Olimpiadas Internacionales de Física y Química 2025, logró resultados de nivel medalla de oro
    • Obtuvo 50.5% en el benchmark de física teórica CMT-Benchmark
  • Este rendimiento demuestra la expansión de la capacidad de razonamiento científico de Deep Think

Aceleración de la ingeniería en el mundo real

  • Deep Think ayuda con la interpretación de datos complejos y el modelado de sistemas físicos, con el objetivo de apoyar el trabajo práctico de investigadores e ingenieros
  • A través de Gemini API, se está ampliando su accesibilidad en entornos de investigación reales
  • Por ejemplo, los usuarios pueden ingresar un boceto para generar un modelo imprimible en 3D, y Deep Think se encarga del análisis, modelado y generación del archivo

Acceso y disponibilidad

  • Los suscriptores de Google AI Ultra ya pueden usar Deep Think de inmediato en la app de Gemini
  • Investigadores, ingenieros y empresas pueden solicitar participar en el programa de acceso anticipado a través de Gemini API
  • Google espera que Deep Think impulse nuevos descubrimientos científicos y más casos de uso aplicados

1 comentarios

 
GN⁺ 2026-02-13
Opiniones de Hacker News
  • Sorprende que la puntuación de Arc-AGI-2 sea 84.6%
    En la publicación oficial del blog están los detalles de Gemini 3 Deep Think

    • Desde antes ya me daba la impresión de que Gemini 3 era increíblemente generalista (general)
      Pudo ganar Balatro (ante 8) solo con una descripción en texto. Para un humano no es tan difícil, pero sorprende que un LLM lo haya logrado sin entrenamiento específico
      Lo probaron en Balatro Bench, y Deepseek no puede jugar este juego en absoluto
    • Hace apenas un año, en este benchmark estaba en el rango de 1~10%, y ahora cuesta creer que haya subido hasta casi poder llamarse nivel AGI
    • El aumento en la puntuación de ARC-AGI es interesante, pero verlo como un salto en la “inteligencia general” es exagerado
      Yo bromeo con que la G de ARC-AGI significa ‘graphical’. Hasta ahora los modelos eran débiles en razonamiento espacial (spatial reasoning), y parece que esta vez resolvieron eso
      Espero que en ARC-AGI 3 agreguen tareas tipo juego basadas en prueba y error
    • Si miras el leaderboard de ARC Prize, actualmente cuesta alrededor de $13.62 por tarea
      Siendo realistas, probablemente tengan que pasar entre 5 y 10 años más para que el costo de ejecución llegue a un nivel razonable
      Aun así, me pregunto si el modelo no estará sobreajustado (fitting) al benchmark
    • Para hacer una comparación justa habría que compararlo con un modelo del mismo nivel, como GPT-5.x Pro
  • Siento que la velocidad de lanzamiento de modelos se está volviendo anormalmente rápida
    Solo hoy salieron Gemini 3 Deep Think y GPT 5.3 Codex Spark, y hace unos días estuvieron Opus 4.6, GLM5 y MiniMax M2.5

    • Parece que influyó la temporada del Año Nuevo chino
      Los laboratorios chinos suelen lanzar modelos en esta época, y los laboratorios de EE. UU. parecen apurarse a publicar modelos más potentes para evitar el impacto de algo como DeepSeek R1 (20 de enero de 2025)
    • Últimamente hay tantos tipos de modelos que ya cuesta incluso distinguirlos
      Gemini 3 Deep Think parece más una versión de Gemini 3 Pro con una función de razonamiento (subagent) encima que un modelo completamente nuevo
      Como también puede conectarse a frameworks externos de agentes como OpenClaw, la discusión sobre los “agent workflows” parece exagerada
    • Estas últimas semanas realmente han sido un ciclo de lanzamientos explosivo
    • Si tuviera que resumirlo en una frase: Fast takeoff
  • Google está totalmente tomando la delantera
    La gente pensaba que se estaba quedando atrás, pero eso terminó siendo la mejor estrategia

    • El modelo es impresionante, pero la calidad del producto es pésima
      Usé Gemini web/CLI durante dos meses y pierde el contexto en medio de la conversación; si le preguntas por mejorar la calidad del aire, te da una lista de purificadores sin contexto
      Incluso cita sitios de propaganda rusa o cambia al chino a mitad de una frase
      No me convence pagar 20 euros al mes por una calidad así
    • El Google de tiempos normales es lento y burocrático, pero el Google en modo guerra trabaja a una velocidad sorprendente
    • OpenAI seguramente sacará algo más unas horas después, así que la competencia está divertida
      Los que decían que ARC-AGI-2 era el límite de los LLM ahora volverán a mover la vara
      Parece que la mayor parte del esfuerzo humano se va a dedicar a demostrar que “la IA todavía no es AGI”
    • Aun así, en utilidad real en el mundo Google todavía va atrás
      Gemini 3 Pro sigue teniendo muchos problemas
  • Estoy usando Gemini 3 Pro para un proyecto de digitalización de documentos históricos
    Escaneo actas manuscritas en alemán de 1885 a 1974 y las transcribo y traduzco una página a la vez
    Ya procesé unas 2,370 páginas, con 95% de precisión y un costo de API de alrededor de $50
    Hace falta revisión manual, pero el ahorro de tiempo es enorme

    • Puede que una sola pasada ya sea suficiente, así que habría que reevaluar la eficiencia total después de revisar
  • Intuitivamente, creo que los modelos están en tres espectros
    sin pensamiento, con pensamiento y tipo best-of-N (Deep Think, GPT Pro)
    En cada caso, la complejidad computacional crece más o menos de forma lineal, cuadrática y cúbica
    Los de pensamiento pueden resolver problemas que requieren escribir un scratchpad

    • Creo que el siguiente paso será un enjambre de agentes (agent swarm)
      Un modelo gerente recibe el prompt, crea varios subagentes para probar en paralelo, y luego evalúa y redistribuye resultados
    • En los modelos best-of-N, lo clave es el uso de contexto largo
      Google desde la versión 2.5 maneja contextos largos de manera realmente útil
      El concepto de pass@N también es interesante y sirve para trabajos de búsqueda donde el tiempo se convierte en dinero, como búsqueda de vulnerabilidades de seguridad o problemas de optimización
    • Sobre si un modelo grande sin pensamiento puede rendir igual que uno pequeño con pensamiento, los modelos de Anthropic son un buen ejemplo
      En esta imagen, Opus 4.6 muestra alto rendimiento incluso sin pensar
  • El PDF con la metodología de evaluación de todos los benchmarks está aquí
    La puntuación de 84.6% en ARC-AGI-2 corresponde al conjunto semi-privado,
    y si supera 85% en el conjunto privado, se considera “solved” y se entrega un premio de $700K
    Ver la guía de ARC Prize

    • Viendo que el título del documento dice “Gemini 3.1 Pro”, parece que pronto saldrá una nueva versión
    • Pero creo que será difícil superar 85% en el conjunto privado. Eso podría significar filtración de datos
  • Últimamente los modelos están mejorando demasiado rápido, y me hace pensar que mi trabajo podría desaparecer en 3 a 5 años
    Parece que los LLM ya entraron en una etapa en la que empiezan a mejorarse a sí mismos

  • Qué pena que no esté en OpenRouter
    Últimamente los modelos Deep Think de gama alta están bloqueados para usarse solo en sus propias plataformas

    • OpenRouter también está bien, pero litellm se ve más limpio porque es una simple librería de Python
      Ver la documentación de litellm
    • Pero ya da la impresión de que la edad dorada (golden age) terminó
  • Gemini siempre me ha parecido un modelo con mucho conocimiento pero poca flexibilidad
    Se derrumba fácilmente ante pedidos fuera del guion

    • En realidad, esa experiencia también podría ser un tema de adaptación del usuario
      Como llevo mucho tiempo usando modelos de Google, a mí los de OpenAI me parecieron bastante peores
      Y al revés, los usuarios de OpenAI probablemente sienten que su modelo es el mejor por la misma razón
    • En cierto sentido, Gemini parece un modelo que piensa a su manera
      Todavía no lo he probado, pero puede que haya mejorado en seguir instrucciones
  • Sorprende lo rápido que avanzan los modelos
    Pensé que ya se iban a topar con una pared, pero los nuevos modelos destrozan por completo los benchmarks anteriores

    • Pero como las empresas están enfocándose en optimizar la puntuación de benchmarks, la correlación con el rendimiento real cada vez es menor