Gemini 3 - Google presenta su más reciente modelo de IA Gemini

(blog.google)

19 puntos por GN⁺ 2025-11-19 | 3 comentarios | Compartir por WhatsApp

Google presentó Gemini 3, su modelo de IA más inteligente, con mejor razonamiento y comprensión multimodal
Gemini 3 Pro logra el mejor desempeño en todos los benchmarks principales frente a la generación anterior y procesa entradas como texto, imágenes, video y código
El modo Deep Think agrega capacidades avanzadas de razonamiento para resolver problemas complejos y se ofrecerá gradualmente a suscriptores Ultra
Gemini 3 respalda aprendizaje, desarrollo y planificación en general, y está disponible en Google Search, la app de Gemini, AI Studio, Vertex AI y más
Google acelera con Gemini 3 la transición hacia una era de agentes inteligentes e IA personalizada

Resumen de Gemini 3

Gemini 3 es el modelo de IA más inteligente desarrollado por Google, diseñado para ayudar a los usuarios a convertir cualquier idea en realidad
Combina comprensión multimodal y codificación agéntica (Agentic Coding) para procesar de forma integrada entradas de texto, imágenes, video, audio y código
Gemini 3 Pro puede usarse en todo el ecosistema de Google, incluyendo AI Studio, Vertex AI, la app de Gemini y la plataforma Google Antigravity
El modo Deep Think ofrece capacidades de razonamiento mejoradas para resolver problemas complejos y estará disponible para suscriptores de Google AI Ultra

Mensaje del CEO

Sundar Pichai mencionó que, en los 2 años desde el inicio del proyecto Gemini, se lograron hitos como 2 mil millones de usuarios mensuales de AI Overviews, 650 millones de usuarios de la app Gemini y más de 130 mil desarrolladores participando
La estructura de innovación de IA full-stack de Google (infraestructura–investigación–modelos–productos) permite una rápida difusión tecnológica
Gemini 3 integra en un solo modelo las capacidades de multimodalidad, razonamiento y agentes de la generación anterior, comprendiendo con mayor precisión la intención y el contexto del usuario
Gemini 3 se lanza al mismo tiempo en AI Mode de Search, la app Gemini, AI Studio, Vertex AI y Google Antigravity

Rendimiento de Gemini 3 Pro

Gemini 3 Pro registró un rendimiento superior al de 2.5 Pro en todos los benchmarks principales de IA
- Alcanzó 1501 Elo en la tabla de LMArena, 37.5% en Humanity’s Last Exam, 91.9% en GPQA Diamond y 23.4% en MathArena Apex
- También obtuvo 81% en el benchmark multimodal MMMU-Pro, 87.6% en Video-MMMU y 72.1% en SimpleQA Verified
Ofrece respuestas precisas y concisas, y puede utilizarse para visualizar conceptos científicos o concretar ideas creativas
Como ejemplo, puede generar código para visualizar el flujo de plasma en un tokamak y escribir un poema sobre física de fusión nuclear

Gemini 3 Deep Think

El modo Deep Think fortalece aún más las capacidades de razonamiento y comprensión multimodal de Gemini 3
- Logró resultados de primer nivel con 41.0% en Humanity’s Last Exam, 93.8% en GPQA Diamond y 45.1% en ARC-AGI-2
Demuestra capacidades avanzadas de razonamiento para resolver problemas complejos y enfrentar nuevos desafíos

Aprender (Learn anything)

Gemini 3 respalda el aprendizaje con una ventana de contexto de 1 millón de tokens y razonamiento multimodal
- Traducción de recetas escritas a mano y creación de un recetario digital
- Resumen de clases largas y artículos académicos, y generación de flashcards interactivas o código de visualización
- Generación de planes de entrenamiento personalizados mediante análisis de video deportivo
El AI Mode de Google Search, basado en Gemini 3, genera en tiempo real diseños visuales inmersivos y herramientas interactivas

Desarrollo (Build anything)

Gemini 3 destaca en generación zero-shot y manejo de prompts complejos, logrando 1487 Elo en WebDev Arena
- Mejoró el rendimiento en uso de herramientas y agentes de codificación con 54.2% en Terminal-Bench 2.0 y 76.2% en SWE-bench Verified
Se puede desarrollar con Google AI Studio, Vertex AI, Gemini CLI y Google Antigravity
También cuenta con soporte en plataformas de terceros como Cursor, GitHub, JetBrains, Manus y Replit

Google Antigravity: entorno de desarrollo centrado en agentes

Google Antigravity es una plataforma de desarrollo agéntico basada en Gemini 3, donde los desarrolladores pueden colaborar con IA a nivel de tareas orientadas al trabajo
Los agentes pueden acceder directamente al editor, la terminal y el navegador para escribir, ejecutar y verificar código automáticamente
Integra Gemini 3 Pro junto con el modelo Gemini 2.5 Computer Use y el modelo de edición de imágenes Nano Banana
Como ejemplo, implementa un flujo de trabajo donde el agente diseña, programa y verifica por sí mismo una app de seguimiento de vuelos

Planificación (Plan anything)

Gemini 3 refuerza la capacidad de planificación a largo plazo y alcanzó el primer lugar en la tabla de Vending-Bench 2
- Mantuvo decisiones estables durante un año en la operación de un negocio simulado de máquinas expendedoras
Permite automatizar tareas complejas de varios pasos, como organizar correos o hacer reservas de servicios
Los suscriptores Ultra pueden probarlo directamente en la app Gemini mediante la función Gemini Agent

Desarrollo responsable

Gemini 3 es el modelo más seguro entre las IA de Google, con mayor resistencia a prompt injection y mejor defensa ante ciberataques
Se realizaron pruebas internas y evaluaciones de expertos externos conforme al Frontier Safety Framework
- Participaron organizaciones como UK AISI, Apollo, Vaultis y Dreadnode
Los resultados detallados de las evaluaciones de seguridad se publican en la model card de Gemini 3

Comienza la era de Gemini 3

Gemini 3 empieza a desplegarse por las siguientes vías
- La app Gemini y el AI Mode de Search
- Acceso para desarrolladores mediante AI Studio, Google Antigravity y Gemini CLI
- Implementación empresarial mediante Vertex AI y Gemini Enterprise
El modo Deep Think se ofrecerá a suscriptores Ultra tras verificaciones adicionales de seguridad
Más adelante se presentarán modelos adicionales de la serie Gemini 3, con planes de expansión basados en la retroalimentación de los usuarios

3 comentarios

t7vonn 2025-11-19

Gemini está increíble, wow.

GN⁺ 2025-11-19

Opiniones en Hacker News

Metí una antigua app de calculadora basada en XML en Gemini y en menos de un minuto me hizo una webapp completa
Yo mismo había creado durante años un compilador para convertir XML personalizado en apps de Android/Swing, y Gemini lo logró sin siquiera una descripción del formato
Cuando lo intenté con Lovable, la app no funcionó bien y solo desperdicié créditos, pero esta vez fue otro nivel por completo
Enlace al resultado
Le di a Gemini el problema más reciente de Project Euler (#970). Era muy probable que no estuviera en los datos de entrenamiento, pero tras pensar 5 minutos 10 segundos me dio código en Python con la respuesta correcta
Los tiempos de resolución de los 3 mejores humanos fueron 14 minutos, 20 minutos y 1 hora 14 minutos, respectivamente
Esperaba que este tipo de problema estuviera dentro de un área afinada con RL para el modelo, pero aun así sorprende que resolviera en minutos algo que tomaría días
- Yo también intenté resolver el mismo problema con Gemini 3 Pro Preview; dio un resultado en 4 minutos 31 segundos, pero era incorrecto
  Aunque le prohibí hacer búsquedas web, devolvió 8 “fuentes” como stackexchange, youtube, etc.
  Aun así, la mayor parte de la intuición era correcta y es una herramienta bastante útil
  Enlace al prompt
- Volví a intentar el problema low de Kattis, que llevo tiempo usando para pruebas, y por primera vez un LLM lo pasó
  Desde ChatGPT, ningún modelo había podido resolverlo, pero Gemini 3 por fin lo consiguió
- El alto puntaje Elo del modelo podría deberse simplemente a la velocidad
  Pero viendo estos resultados, parece que dentro de 10 años podría haber una IA nivel Stockfish para rompecabezas
- Como referencia, el problema más reciente en este momento es Project Euler #970
- Lo probé con gpt-5.1 thinking y simplemente buscó la respuesta en internet 😅
Puse en Gemini 3 Pro Preview el prompt de un widget de reloj analógico con el que antes experimentaba en Flash 2.5, y obtuve un resultado que funcionó perfectamente a la primera
Enlace al resultado
- Flash 2.5 tampoco estuvo mal. Me hizo un reloj UNIX métrico que expresaba los segundos en kilosegundos (kiloseconds)
  Un día son 86.4ks, y ahora mismo estamos aproximadamente en el instante AUNIX de 1.76 gigasegundos. Algún día quiero hacer un reloj físico de 20 pies
- No puedo creer que no aparezca la animación de “wiggle” cuando el segundero toca las 12 😂
- Es muy probable que este proyecto estuviera en los datos de entrenamiento, porque es un ejemplo incluido en el curso 30 Days of JavaScript de Wes Bos
- Yo le añadí algunas mejoras, pero solo logró el sonido de tic en el segundo intento
  Enlace a la versión mejorada
- El prompt que usó otra persona era mucho más simple. El que yo usaba originalmente solo generaba HTML/CSS con la variable ${time}, y Gemini lo arruinó por completo
  Enlace al ejemplo fallido
Organicé mis registros sobre el benchmark de Pelican y la nueva versión de alta dificultad
Post del blog
- Ahora parece que cada laboratorio va a tener a su propio “encargado del pelícano”. Seguro están entrenando día y noche para dibujar mejor ese pelícano en bicicleta en SVG
- Llevaron meses entrenando con pelícanos, y justo cuando cambié el benchmark, la meta también cambió 😂
- Es muy probable que “pelícano en bicicleta” ya estuviera incluido en los datos de entrenamiento
- Decían que no había problema de saturación, pero viendo los resultados, parece que los laboratorios importantes estaban escalando en secreto la colina de los pelícanos
- Es una lástima que el knowledge cutoff de Gemini 3 sea enero de 2025, igual que en 2.5
  Quizá usen el mismo modelo base y solo hayan mejorado el ajuste con RL
Gemini 3 Pro Preview falló por completo en mi benchmark básico de Python
Gemini 2.5 Pro estuvo un poco más cerca, pero seguía estando mal
En cambio, gpt-5.1-thinking, Claude Sonnet 4.5 y Opus 4.1 sí lo pasaron
Esto me volvió a recordar que los benchmarks no son un criterio absoluto
- Decir que “los benchmarks no significan nada” es una exageración. Tienen limitaciones, pero siguen siendo indicadores útiles
  Me da curiosidad saber qué tipo de problema “básico” de Python hizo fallar a GPT-5 thinking
- Es difícil confiar en una conclusión basada en un solo benchmark personal. Si lo compartes, todos podrían revisarlo juntos
- Yo suelo probar “crear un juego de Pac-Man en una sola página HTML”. Gemini 3 también falló de forma parecida a 2.5
- El significado de un benchmark depende de la calidad de su diseño. No se puede juzgar solo por si es público o no
- En el puntaje de SWEBench publicado por Google, Gemini 3 Pro quedó por debajo de Claude Sonnet 4.5. También me pregunto si Opus 4.5 lo haría mejor
Mientras trabajaba en un problema relacionado con medicina, Gemini 2.5 Pro acertó solo la mitad, pero Gemini 3.0 lo resolvió perfectamente
Incluso organizó de forma lógica las regulaciones, investigaciones y procedimientos de aprobación relacionados, así que realmente ayudó en la toma de decisiones
Siento que modelos así de verdad van a cambiar la vida de la gente
Me dio mucha risa que en la publicación de Google hubiera un botón que decía “Leer resumen generado por IA”
El siguiente paso será algo como “deja que nuestra IA lea el resumen de tu IA”
Al final, hasta la fe podría automatizarse, como en el Electric Monk de Douglas Adams
- Yo también quise ponerle Electric Monk a un proyecto de IA en la empresa, pero era demasiado polémico, así que lo cambié a Electric Mentor
- Relacionado con eso, este cómic de SMBC viene muy al caso
- Ojalá ahora la IA también automatice la resolución de caídas en la nube
- Parece que no falta mucho para que la IA reemplace no solo a los desarrolladores, sino incluso el rol de los managers
Mi benchmark favorito es resumir archivos largos de audio de reuniones e identificar a los hablantes
Gemini 2.5 hacía resúmenes aceptables, pero identificaba muy mal a los hablantes; 3.0 en cambio lo acertó perfectamente
- Yo hice pruebas con un podcast de 90 minutos, pero Gemini 3 inventó citas alucinadas y todos los timestamps estaban mal
  Sigue teniendo limitaciones con audio largo
- Si usas modelos de audio dedicados como ElevenLabs o Soniox, la precisión es mucho mayor
- Me da curiosidad saber qué prompt estás usando
- Yo también estoy creando un proyecto de identificación de hablantes en podcasts, y está funcionando bastante bien
- Parakeet TDT v3 parece muy adecuado para este tipo de tarea
Gemini 3 también falló en mi prueba de una foto de un perro con 5 patas
Aun así, a diferencia de otros modelos, sí reconoció la quinta pata, pero la confundió con otra parte del cuerpo
La percepción visual sigue siendo un gran desafío
- La percepción (perception) es un área que la evolución refinó durante miles de millones de años, así que computacionalmente es un problema mucho más difícil
- También es posible que ese error de interpretación se deba a un punto ciego del filtro de seguridad

nullptr 2025-11-19

Actualmente se puede usar gratis en Antigravity ( https://antigravity.google/pricing ), el fork OSS de VSCode que lanzó Google.
Aparte de eso, parece que en gemini-cli por ahora solo se puede usar AI Ultra (360 mil wones al mes).