2 puntos por GN⁺ 2025-08-02 | 1 comentarios | Compartir por WhatsApp
  • Gemini 2.5 Deep Think ya está disponible para suscriptores de Google AI Ultra en la app de Gemini
  • Se incorporaron una nueva técnica de pensamiento paralelo (parallel thinking) y resultados de investigación, mejorando un modelo con desempeño de nivel de oro en la IMO para hacerlo aún más útil en el uso real
  • Muestra desempeño sobresaliente en diversas tareas complejas como la resolución creativa de problemas, el razonamiento matemático y científico y el desarrollo de algoritmos
  • Para mejorar el desempeño, se amplía el tiempo de razonamiento (Thinking Time) para explorar ideas y soluciones simultáneamente, lo que permite generar un pensamiento más profundo y resultados más creativos
  • Se aplican evaluaciones y medidas reforzadas para el desarrollo seguro y responsable de la IA, y se anuncia la expansión futura para API y uso empresarial

Lanzamiento de Gemini 2.5 Deep Think

  • La funcionalidad Gemini 2.5 Deep Think se ofrece en la app de Gemini para suscriptores de Google AI Ultra
  • Versión basada en comentarios de testers y equipos de investigación confiables, y en resultados de investigación recientes
  • Basado en un modelo de nivel oro de la reciente Olimpiada Internacional de Matemáticas (IMO), mejoró la velocidad y la practicidad para alinearse con la experiencia real del usuario
  • Con este lanzamiento, se amplía el potencial de uso como herramienta de resolución creativa de problemas y se planea perfeccionar la función con la retroalimentación de matemáticos e investigadores

Cómo funciona Deep Think

  • Se introdujo una técnica de pensamiento paralelo para que Gemini explore y compare/combina ideas y soluciones de forma simultánea en problemas complejos
  • Se incrementa el tiempo de razonamiento (Thinking Time) del modelo para investigar varias hipótesis en profundidad y encontrar soluciones más creativas
  • Mediante aprendizaje por refuerzo, el modelo entrena para aprovechar activamente estas rutas de razonamiento ampliadas, fortaleciendo una capacidad de resolución de problemas más intuitiva y profunda

Principales rendimientos y campos de aplicación de Deep Think

  • Desarrollo y diseño iterativo: muestra alto rendimiento en trabajos que requieren evolucionar sistemas o diseños complejos de forma gradual
  • Descubrimiento científico y matemático: destaca en la investigación creativa de alta dificultad, como el razonamiento matemático y la interpretación de papers científicos
  • Desarrollo de algoritmos y código: logra rendimiento de vanguardia en problemas de programación complejos donde hay que estructurar el problema y considerar complejidad temporal y compromisos
  • En benchmarks recientes (por ejemplo, LiveCodeBench V6, Humanity’s Last Exam) se ha demostrado rendimiento de punta en código, conocimiento y razonamiento frente a modelos anteriores

Desarrollo responsable y seguridad de Gemini

  • Gemini 2.5 Deep Think muestra mejor seguridad de contenido y un tono más objetivo que el modelo Pro anterior en evaluaciones de seguridad
  • A medida que crece la complejidad, también se evalúa la peligrosidad; se fortalecen las evaluaciones de Frontier Safety y las acciones de mitigación necesarias
  • Los resultados detallados de seguridad se pueden consultar en la model card

Cómo usar Deep Think

  • Los suscriptores de Google AI Ultra pueden utilizarlo en la app de Gemini seleccionando 2.5 Pro en el desplegable de modelos y luego activando el interruptor Deep Think en la barra de prompts, con un número fijo de usos diarios
  • Se integra de forma automática con herramientas como ejecución de código y Google Search, y permite generar respuestas mucho más largas
  • Pronto también se realizarán pruebas adicionales para Gemini API y para empresas

1 comentarios

 
GN⁺ 2025-08-02
Opiniones en Hacker News
  • Probé el nuevo agente Deep Think, pero apenas después de cinco prompts ya llegué al límite diario de uso. Pagar $250 al mes por un servicio así se siente bastante decepcionante. En comparación con o3-pro o Grok 4 Heavy, su competitividad en precio queda muy por debajo. En la comunidad de IA, esta función había llamado la atención como prácticamente lo único que podía justificar el precio de la suscripción Google Ultra. Pero Google ofrece su mejor modelo gratis en AI Studio, mientras que a los suscriptores Ultra que sí pagan les aplica una política así, y la verdad no se entiende. En cuanto al rendimiento, le metí un escenario empresarial de alta complejidad y me dio una solución clara y convincente, alineada con lo que salió en nuestras reuniones internas. Aun así, al final o3 llegó a una conclusión parecida por mucho menos dinero. Eso sí, el reporte de o3 se sentía algo menos ordenado. Habrá que usarlo más para saber bien

    • No parece algo totalmente listo u optimizado para producción, pero podría ser una estrategia para lanzarlo antes de la entrada en vigor de la Ley de IA de la Unión Europea (EU AI Act) del 2 de agosto y luego tener dos años para alinearse con los requisitos. Por eso, creo que es muy probable que lo hayan liberado primero con límites de uso fuertes para un grupo reducido de usuarios
    • Me da curiosidad el rendimiento de Deep Think en tareas que necesitan contextos muy grandes. El parallel thinking puede ser muy útil para ciertos tipos de problemas, así que me gustaría probar si puede manejar más contexto que el chain of thought tradicional no alcanza a cubrir
    • Hace años, una forma de medir la habilidad para programar era poder resolver sin buscar en internet, o subir una pregunta bien planteada a sitios como StackOverflow y luego contestártela tú mismo. A veces llegaban comentarios como “llevaba 3 días atorado y esta respuesta me salvó la vida”, y eso se sentía genial. Esta semana he estado resolviendo un problema difícil, pero los modelos tipo Copilot casi no ayudan. La habilidad en programación se siente justamente cuando nadie te puede ayudar, ni siquiera la IA, y tienes que generalizar, sintetizar y sacar ideas creativas por tu cuenta. (Así que me consuelo pensando que todavía falta algo de tiempo para que los agentes de código con IA me reemplacen por completo)
    • He usado tanto Grok 4 como 4 Heavy y, en mi experiencia, ambos son realmente malos. No importa cuántas consultas te dejen meter; si las respuestas son pésimas, no sirve de nada. Ha sido el peor gasto que hice este año en LLMs. He invertido bastante en distintas IAs, pero lo que pagué por Grok es lo que más me pesa
    • Muchas veces sorprende ver que Google ofrezca gratis sus modelos top en AI Studio mientras a los clientes reales les da beneficios mínimos. Pero al mismo tiempo no sorprende nada. Probablemente Google no gane mucho margen con los clientes de AI Ultra, y valore más los datos masivos de usuarios que obtiene del free tier de AI Studio. Si deja abierto gratis el mejor modelo, puede capturar fácilmente cuota de mercado entre los usuarios más exigentes. Y después, más adelante, puede aplicar políticas de cobro sobre ellos; además es una buena estrategia para aprovechar los servidores ociosos que Google tiene ahora mismo
  • Gente, le puse a Gemini Deep Think el prompt “haz una imagen SVG de un pelícano montando una bicicleta” y esto fue lo que salió https://www.svgviewer.dev/s/5R5iTexQ ¡Lo hice antes que Simon Willison!

    • Todo lo que se vuelve meme en HN está destinado a entrar en los datos de entrenamiento. Da risa imaginar a un interno en cada empresa de IA sudando mientras intenta dibujar un SVG chido de un pelícano
    • Acabo de ver el resultado y me sorprendió que sí parece claramente un pelícano, está bastante bien
    • Estos benchmarks meme (como los dibujos de fresas, etc.) son graciosos, pero hoy en día están tan metidos en el entrenamiento de los modelos que son una forma fácil de engañar cualquier medición
    • Es de esas cosas que de verdad hacen sentir que vivimos en el futuro
    • Honestamente, es la primera vez que siento que podría decir “sí, eso sí es un pelícano montando una bicicleta” incluso viendo solo el SVG sin el prompt. También me impresionó el caso de la torre vocal. Me parece un logro bastante importante en percepción visual/espacial
  • Si quieren probarlo por su cuenta, pueden usar el LLM CLI de simonw y el plugin llm-consortiumVentaja 1: puedes combinar libremente varios modelos. Puedes armar la combinación que quieras sin importar el laboratorioVentaja 2: usando el plugin llm-model-gateway, puedes conectarlo de una vez por API local a tu app o a tus herramientas de colaboración para programar https://x.com/karpathy/status/1870692546969735361
    Incluyó directamente la instalación y comandos de ejemplo, además de un ejemplo de que incluso se puede crear un consortium of consortium.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Me pregunto por qué a esto le llaman una versión local de Gemini Deep Think. Siento que una arquitectura multiagente se puede implementar de muchas maneras. Además, por la covariance entre múltiples modelos, los errores se pueden sincronizar, así que para optimizar rendimiento me parece importante bajar la correlación de errores mediante combinaciones estructurales diversas sin perder la precisión individual. Me gustaría probar esto en benchmarks donde existan múltiples soluciones
    • Me pregunto si la Unión Europea (EU) es un consortium of consortiums
    • Pide que le avisen si alguien sabe de algún plugin de OpenWebUI que soporte algo así
    • Menciona que no aparece el comando llm serve
  • No es exactamente el modelo que ganó la medalla de oro en la IMO (Olimpiada Internacional de Matemáticas) hace unas semanas, pero es una variante muy cercana https://x.com/OfficialLoganK/status/1951262261512659430Todavía no está disponible por API

  • Este enfoque se parece a Grok 4 Heavy: correr varios agentes de “razonamiento” en paralelo, comparar sus respuestas y volver con la mejor; tarda más o menos 30 minutos. Los resultados son excelentes, pero en realidad lo justo sería compararlo en benchmarks contra Grok 4 Heavy, no contra Grok 4 (agente único y modelo más rápido)

    • Si distribuyes la misma potencia de cómputo de razonamiento entre varios agentes, salen mejores resultados. Incluso el problema de “si piensa demasiado, responde peor” se puede superar haciendo varias ramas de pensamiento cortas en paralelo
    • En el artículo se dice que Deep Think llega a una solución final generando, considerando, integrando y revisando múltiples ideas al mismo tiempo mediante pensamiento paralelo. Con esa descripción no queda claro si realmente usa múltiples agentes, así que creo que deja espacio para varias interpretaciones
    • Grok-4 heavy usa herramientas para resolver fácilmente muchos de los problemas que salen en los benchmarks, así que tiene limitaciones como comparación directa
    • Me pregunto en qué se diferencia el método de Google de Mixture of Experts. En MoE, cada experto aprende pesos distintos desde el entrenamiento, mientras que aquí la diversidad de pensamiento se obtiene solo ajustando la temperature. Me gustaría saber si hay papers que comparen con precisión qué funciona mejor: correr varias veces el mismo modelo para obtener diversidad de ideas, o correr al mismo tiempo varios modelos con arquitecturas/pesos distintos
    • Sorprende que todavía no exista una app que ponga a competir a los principales LLMs en un mismo lugar y elija la respuesta final
  • OpenAI subió a $200, Anthropic a $100 y $200, Gemini a $250, y Grok hasta $300. OpenAI es la única que habla de “prácticamente ilimitado”, y en la práctica nunca he llegado al límite en el plan ChatGPT Pro. En Claude Max sí me topé varias veces con el límite. Entonces me pregunto por qué estas empresas no publican claramente cuáles son esos límites

    • El objetivo es cobrar doble. Si el precio fuera justo, mostrarían el cobro por tokens por consulta y uno pagaría solo por lo que usa. Pero las empresas quieren ingresos fijos recurrentes y al mismo tiempo minimizar el uso real, así que lo venden como si fuera ilimitado por mes o por año. Al final es una estructura diseñada para que termines pagando más de lo que realmente consumes
    • La verdadera razón por la que no anuncian el límite de antemano es que necesitan poder ajustarlo dinámicamente según las condiciones del mercado o la carga de infraestructura. Como pasó con la fiebre de generación de imágenes de ChatGPT estilo Ghibli, cuando de repente entra muchísimo tráfico ponen límites, y cuando hay holgura, como ahora, los aflojan
    • Si hicieran transparentes los límites, los usuarios empezarían a buscar trucos para exprimirlos al máximo, y eso al final haría que el límite bajara para todos. Así que no publicarlos es, en términos prácticos, una mejor decisión para la mayoría
  • En los últimos meses, usando Gemini, siento que más bien ha ido empeorando. Alucina demasiado seguido y, aunque se lo señales, la IA se pone terca. Cada vez cuesta más confiar en ella

    • En mi experiencia, Flash ha ido mejorando. Aunque pago por Pro, termino usando más Flash. Me decepciona que Pro casi no busca información reciente y muchas veces solo repite datos viejos de entrenamiento, pero Flash casi no tiene ese problema. Para programación sí uso Pro en Gemini CLI, y muestra una capacidad impresionante no solo para escribir código, sino para redactar documentos de diseño, descomponer tareas semanales y llevar la gestión del calendario. Si le das una estructura organizada, parece que incluso mantiene su propio contexto bastante bien
    • Yo también he tenido una experiencia parecida. Ya no uso Gemini Pro. Es demasiado verboso y además se contradice. Claude Sonnet 4 responde bien. Últimamente siento que Sonnet ha cerrado mucho la brecha con Opus. Desde que metieron el nuevo sistema de cuotas, empiezo usando Sonnet primero. Ahora resuelve bastante bien la mayoría de los problemas difíciles o complejos, incluso comparado con Opus. Hace apenas unos meses no sentía eso tan claramente
    • Yo también siento que Gemini va peor con el tiempo. Pero en benchmarks como fiction.livebench es difícil cuantificar esa diferencia. Me pregunto si estarán aplicando una aggressive quantizing excesiva al modelo, con la pérdida de rendimiento que eso implica, o si simplemente nuestras expectativas siguen subiendo
    • Quisiera preguntar si el problema es más bien con la integración de herramientas, y si lo usan en AI Studio o vía API. En lo que yo he visto, muchas veces inventa herramientas que no existen y además muestra demasiada confianza en sus resultados
  • Informan que, si eres suscriptor de Google AI Ultra, desde hoy puedes usar la función Deep Think (con una cantidad fija de prompts) en la app de Gemini. Pero me gustaría saber con más precisión si “conjunto fijo” significa un número fijo de prompts o si se refiere a que solo ciertos tipos de prompt están permitidos

    • El límite es de 10 solicitudes al día. Como dedica unos 30 minutos a pensar por prompt, está más orientado a investigación o problemas compuestos de varias capas que a programación común o escribir fanfiction
  • Cuando uso Gemini CLI para planear agendas, aunque le indique claramente varias veces que no haga movimientos inesperados y aunque intervenga, sigue intentando cambiar cosas por su cuenta y termina desordenando el plan

    • Este tipo de agentes más bien suele causar confusión. Claude Code (Anthropic) es popular porque saca el máximo del rendimiento del modelo. En cambio, Gemini CLI más bien degrada el rendimiento original de Gemini Pro 2.5. Por eso ya abandoné Gemini CLI por completo, incluso siendo gratis. Aun así, para tareas centradas en prompts sigue siendo muy potente y lo uso regularmente
    • A mí me pasa igual. Si le sueltas a Gemini CLI una tarea grande y abstracta sin más, se equivoca una y otra vez. Pero si le das un poco de estructura clara, separando por etapas la generación de contexto, logra resultados realmente sorprendentes. En la primera etapa le digo que solo lea el código y redacte un documento de definición de requisitos. Después le pido que, con base en eso, documente por etapas una especificación detallada, el diseño de la API y pseudocódigo para la lógica tricky. Al final le hago descomponer todo el desarrollo en un plan de trabajo por semana, día y hora, y ya con suficiente información le pido escribir el código final. Si se automatizara por completo quizá podría hacerse con scripts, pero en la práctica funciona mejor con una persona revisando, dando feedback y repitiendo el brainstorming. Como genera por sí solo más del 90% del contexto, últimamente, trabajando así, casi no comete errores en la mayoría de los casos