Gemini 3.1 Pro

(blog.google)

4 puntos por GN⁺ 2026-02-20 | 4 comentarios | Compartir por WhatsApp

Modelo de IA multimodal avanzado para manejar tareas complejas, orientado a resolver problemas más allá de dar respuestas simples
En el benchmark ARC-AGI-2 registró una puntuación de validación de 77.1%, logrando más del doble del rendimiento de razonamiento frente al 3 Pro anterior
Muestra una capacidad de razonamiento mejorada en tareas de alta dificultad como integración de datos, explicaciones visuales y programación creativa
Procesa diversos tipos de entrada como texto, audio, imágenes, video y repositorios de código, y admite hasta 1 millón de tokens de contexto y una salida de 64K tokens
Google está usando esta preview para mejorar los flujos de trabajo agénticos y validarla de cara a su futura disponibilidad general

Resumen de Gemini 3.1 Pro

Gemini 3.1 Pro es un modelo de IA multimodal avanzado para manejar tareas complejas, orientado a resolver problemas más allá de dar respuestas simples
- Google lo presenta como la mejora central de inteligencia que hizo posibles los resultados de Gemini 3 Deep Think
- Procesa entradas multimodales como texto, audio, imágenes, video y repositorios de código
- Admite una ventana de contexto de hasta 1 millón de tokens y una salida de 64K tokens
- Esta versión se está desplegando de forma gradual en productos para consumidores, desarrolladores y empresas
Las vías de despliegue son las siguientes
- Desarrolladores: Gemini API en Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Empresas: Vertex AI, Gemini Enterprise
- Consumidores: app de Gemini, NotebookLM

Rendimiento y benchmarks

Gemini 3.1 Pro está optimizado para resolver problemas complejos mediante mejoras centradas en la capacidad de razonamiento (reasoning)
- En el benchmark ARC-AGI-2 registró una puntuación de validación de 77.1%, más del doble del rendimiento frente al 3 Pro anterior
- Principales resultados comparativos (frente a Gemini 3 Pro):
  - ARC-AGI-2: 77.1% (vs 31.1%)
  - GPQA Diamond: 94.3% (vs 91.9%)
  - Terminal-Bench 2.0: 68.5% (vs 56.9%)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85.9% (vs 59.2%)
- Estos benchmarks evalúan la capacidad del modelo para resolver patrones lógicos completamente nuevos
Google lo define como un “modelo base más inteligente y capaz”, y lo presenta como la base para resolver problemas complejos

Casos de uso reales

Gemini 3.1 Pro muestra varias posibilidades de aplicación al llevar el razonamiento avanzado a usos prácticos
- Generación de explicaciones visuales: capacidad para explicar temas complejos de forma clara y visual
- Integración de datos: sintetiza múltiples datos en una sola vista integrada
- Implementación de proyectos creativos: lleva ideas artísticas y de diseño al código
Ejemplos concretos
- Animación basada en código: genera animaciones SVG para sitios web a partir de prompts de texto, minimizando el tamaño del archivo sin perder resolución
- Integración de sistemas complejos: construcción de un dashboard que visualiza en tiempo real la órbita de la Estación Espacial Internacional (ISS)
- Diseño interactivo: programación de una simulación 3D de una bandada de estorninos con seguimiento de manos e interfaz reactiva a la música
- Programación creativa: diseño de un sitio web de portafolio moderno que refleja la atmósfera literaria de Wuthering Heights

Despliegue y acceso

Gemini 3.1 Pro fue lanzado en formato preview, mientras se recopila retroalimentación de usuarios
- Los usuarios de los planes Google AI Pro y Ultra pueden acceder a límites de uso más altos en la app de Gemini
- En NotebookLM, está disponible en exclusiva para usuarios Pro y Ultra
- Desarrolladores y empresas pueden acceder mediante AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI y Android Studio

Próximos planes

Google mantiene un ritmo rápido de mejoras desde el lanzamiento de Gemini 3 Pro, y con esta preview de 3.1 Pro está impulsando la validación de actualizaciones y la expansión de flujos de trabajo agénticos
La disponibilidad general (GA) llegará una vez concluida la validación, y Google señaló que “espera ver qué construirán y descubrirán los usuarios con este modelo”

4 comentarios

jwh926 2026-02-20

Ojalá pronto alcance a claude opus en rendimiento de programación.

ifmkl 2026-02-20

Sí. El primer día que lo usé, cuando subieron el modelo preview 3.0 al CLI, me encantó tanto que hasta escribí una entrada en el blog con mis impresiones, pero luego decayó rápidamente... Gracias a eso, ahora estoy usando principalmente Codex y Claude Code. Aunque Claude también está medio... Voy a ver si Opus o Sonnet 4.6 salen buenos; si no, creo que voy a dejar Codex para código y Gemini para otras tareas en general.

GN⁺ 2026-02-20

Opiniones de Hacker News

Gemini 3.1 Pro realmente promete mucho
Hasta ahora casi siempre me he inclinado por Claude, pero Claude Opus destaca especialmente en programación
Gemini también es casi excelente, pero todavía no está al nivel de Claude
Cada mes voy alternando entre ChatGPT Plus ↔ Gemini Pro ↔ Claude para no perderme las ventajas de cada modelo
Como ex-Googler, espero que Gemini 3.1 Pro sea mejor que 3.0
Pero para desarrollo, Gemini fue el modelo más frustrante que usé
Claude Opus en VS Code Copilot mantiene bien el equilibrio entre flujo de pensamiento y respuesta, mientras que Gemini solo consume thinking tokens y no explica el resultado
A menudo cae en bucles, usa mal las herramientas y modifica archivos que no debe
Por eso usaba la estrategia de “plan con Gemini, ejecución con Claude”, pero al final terminé usando solo Claude
Mientras Anthropic parece pulir sus modelos pensando en proyectos reales, da la impresión de que a Google le falta más prueba en uso real
- Mi proyecto tiene mucha matemática de espacios de color, y Gemini 3 Pro comete con frecuencia errores de tipos básicos
  Confunde int8 con float o se olvida de si algo está normalizado o no
  Se siente como alguien con mala memoria
  Aun así, ayuda bastante en discusiones de diseño de arquitectura
- Cuando usé Gemini 3 en Openclaw, me costó entre 10 y 20 dólares por hora y entre 1.5 y 3 dólares por prompt
  Fue el colmo de la ineficiencia
- Al final, el desempeño del modelo depende de ajuste fino e integración con herramientas
  Claude da la impresión de haber aprendido el propio “proceso de programar”, y parece que Anthropic incorporó feedback de usuarios en el ajuste
  Como Google apunta a un modelo generalista, da la impresión de que “hace un poco de todo, pero no hace nada perfecto”
- Gemini 3.0 para mí estaba en un nivel inutilizable
  Claude o Codex explican cómo abordan el problema, pero Gemini simplemente se lanza a ejecutar
  Ignora solicitudes de corrección y contamina el espacio de trabajo
  Aunque se puede usar gratis, casi no lo uso
  Parece que Anthropic entendió desde temprano que “el usuario debe poder tener el control”
- Gemini es débil en tareas agentic
  OpenAI ya alcanzó un nivel parecido al de Claude, pero Google todavía está lejos
La gente subestima la eficiencia en costos de Google
Cuesta la mitad que Opus y aun así el rendimiento es bastante bueno
Según las métricas de Artificial Analysis, 3.1 es 40% más barato y 30% más rápido que Opus
- Pero también está la idea de que “más vale una gran respuesta de 2 centavos que una respuesta mediocre de 1 centavo”
  Para desarrollo, incluso 300 dólares al mes valen la pena si usas el mejor modelo
  En IA para consumo masivo, ese cálculo será distinto
- Claro, si no hace bien el trabajo, que cueste la mitad no significa mucho
  Aun así, si el rendimiento se pone a la altura, la competitividad en precio resulta atractiva
- Si Opus produce código 20% mejor, en proyectos reales esa diferencia pesa mucho
  Pero si el rendimiento es parecido, ahorrar 50% en costos es una gran ventaja
- Gemini también sale bien en benchmarks, y los ingenieros de DeepMind son excelentes
  En lo personal, me funciona bien tanto para trabajo como para programar por hobby
  Aun así, me sorprende que en la comunidad reciba tantas críticas
- Deepseek cuesta 2% de lo que cuesta Opus, pero aun así la mayoría no lo usa para programar
Los modelos de hoy son demasiado potentes
Ahora se puede crear software completo en muchísimo menos tiempo que antes
Pero las diferencias de comportamiento entre versiones son tan grandes que se siente como gestionar un equipo nuevo cada mes
Como pueden cambiar el modelo sin aviso o modificarlo sutilmente, se siente como una base inestable
- Opus 4.6 resolvió un problema que antes o4-mini no había podido resolver
  Se puede ver en este issue de sqlite-chronicle
  Después de eso destrabó varios puntos bloqueados en otros proyectos
- He usado modelos de Anthropic, Google y OpenAI, pero todavía les falta para construir un producto completamente terminado
  Aun así, alcanzan de sobra para sacar ideas y arrancar una base de código
- La app hecha con GPT 5.1 codex max sigue funcionando bien
  Incluso con el mismo código, parece haber una especie de autoconsistencia: al modelo que lo creó le resulta más fácil volver a trabajarlo
- En la práctica, se siente como gestionar a “un ingeniero brillante pero raro”
  Aun así, sigue siendo una tecnología asombrosa
- También salió la broma de “contratar por un mes a un ingeniero genio por el precio de una comida de sushi”, y alguien respondió: “¿y para eso va a hacer una calculadora?”
El precio de Gemini 3.1 Pro no cambia
Entrada $2/M, salida $12/M, como figura en la documentación oficial
El knowledge cutoff es de enero de 2025 y se agregó un nuevo modo “medium thinking”
La diferencia de precio frente a los $5/$25 de Opus 4.6 es grande
- Para usar un agente CLI empresarial, el problema es el proceso enredado de Google
  Uno se traba configurando reglas de IAM, facturación, identificando nombres de productos, etc.
  OpenAI y Anthropic son mucho más simples
  Aun así, la tarifa mensual termina siendo parecida
- Si en Vendor-Bench 2 no mejora el razonamiento de largo plazo, no pienso moverme desde CC
  Anthropic va adelante gracias a una optimización full-stack
- Sigue sin haber minimal reasoning
  Todavía no existe algo como Opus 4.6, que sea rápido e inteligente incluso con thinking desactivado
- Se ve interesante porque parece más barato que Codex
- El knowledge cutoff en enero de 2025 se siente un poco viejo
Gemini 3 sigue todavía en preview, y 2.5 está por ser retirado
En el calendario oficial de deprecación, algunos modelos terminan incluso sin modelo de reemplazo
Da para preguntarse cuándo va a lanzar Google un modelo realmente listo para producción
- Yo también estoy de acuerdo. Depender de modelos retirados o no lanzados todavía es riesgoso
  Tengo sistemas en operación real y eso me genera mucha inquietud
- Creo que leíste mal el enlace. Solo se retira 2.5-preview; la versión estable 2.5 se mantiene hasta otoño de 2026
- Google no irá a retirar nunca software del que depende tanta gente, ¿verdad?
  Si uno mira Killed by Google, queda claro lo vacío que suena eso
- Justo este tipo de situación hace pensar: “ah, sí, esto es totalmente Google”
- Aún no hay aviso de retiro para 2.5
  Si 3.0 sigue en preview, 2.5 probablemente se mantenga por al menos un año
  La documentación oficial también dice que “la fecha exacta de finalización se anunciará con aviso previo”
Gemini resolvió de una sola vez un problema de race condition entre UI y sincronización de datos
Incluso Opus 4.6 lo resolvió recién al tercer intento, así que me sorprendió
Ahora es menos verboso y va más directo al punto
De ahora en adelante probablemente use la estrategia de Gemini para I+D y Opus/Sonnet 4.6 para cerrar el trabajo
- Mi combinación es Opus 4.6 para investigación de código, GPT 5.3 codex para escribir código, Gemini para algoritmos científicos y matemáticos, y Grok para consultas de seguridad
  Si usas un wrapper unificado que soporte varios modelos, te preocupas menos por cuál elegir
  Al final, lo importante es “qué modelo se adapta mejor a mi problema”
Gemini respondió perfectamente a la pregunta del autolavado
Dio una respuesta lógica del tipo: “si vas caminando, no tendrás un coche para lavar, así que debes ir manejando”
- Puede que la pregunta haya estado en los datos de entrenamiento, así que la cambié por la pregunta del autolavado del elefante
  Gemini explicó lógicamente que “hay que llevar al elefante”, y además dio razones detalladas
  Fue una capacidad de razonamiento bastante impresionante
- GPT-OSS-120b también respondió correctamente a la misma pregunta
  Eso sí, el comentario de Gemini sobre “pronóstico de lavado con lluvia” fue simpático, pero también se sintió como exceso de confianza
- Lo importante no es solo haber acertado la respuesta, sino si realmente razonó bien la causa
- En realidad, Gemini 3 Pro y Flash ya habían acertado esta pregunta antes
- Pero la respuesta es demasiado larga, y termina cansando
Gemini dio un buen resultado en la prueba de “SVG de un pelícano andando en bicicleta”
Ver el enlace con el resultado
Parece que su capacidad de generación visual mejoró, quizá gracias a la subida en el benchmark ARC-AGI
- El SVG animado ya viene incluido como ejemplo básico
  El benchmark en sí perdió sentido, y ahora parece más bien una cuestión de gusto
  Hace falta un nuevo benchmark tipo “vibe check”
- El resultado que me dio a mí tenía un estilo más 3D que de pelícano
  Es un cambio interesante
- Pero todavía falla en mi benchmark personal de SVG, que es una sección transversal de un corazón humano
  Al final sigue haciendo falta la mano de un diseñador humano
- Si el modelo sigue mejorando, tal vez sea posible crear UI en tiempo real o medios interactivos basados en SVG
- En cambio, otros formatos vectoriales como PostScript casi no muestran avances
  Probablemente sea porque Google optimizó específicamente para SVG
El SVG del pelícano publicado en el blog de Simon Willison estaba bastante bien, pero tardó más de 5 minutos en generarse
Parece un problema de rendimiento del lanzamiento inicial
- El problema de Gemini siempre ha sido esa actitud de “querer ayudar demasiado”
  Yo solo quería un pelícano y una bicicleta, pero agregó nubes, sol y hasta un sombrero
  En programación pasa igual: no deja de hacer refactors no pedidos y agregar comentarios
- Lo gracioso es que, gracias a estas pruebas, Google de verdad terminó invirtiendo mucho esfuerzo en generación de SVG de animales + vehículos
  El tweet de Jeff Dean también lo insinúa
- Me da curiosidad por qué los LLM son tan buenos con SVG
  Son flojos en otras tareas de comprensión espacial, pero sobresalen en generar formas precisas
- No falta mucho para que los modelos empiecen a competir en benchmarks de “generar SVG de un pelícano en bicicleta”
- Si uno ve el post oficial del blog de Google, la generación de SVG aparece mencionada como caso de uso principal
  O sea, es posible que esto no sea una mejora general de capacidad, sino el resultado de un entrenamiento explícito

clumsily 2026-02-20

Probablemente en no mucho tiempo le bajen el rendimiento de forma silenciosa, y creo que lo más importante será cuánto lo terminen recortando. (Siento que a la mayoría de los modelos de IA se les va "apagando el foco" con el tiempo, pero con Google se nota especialmente).
También recuerdo que 3 Pro estaba muy bien justo cuando salió, pero como una semana después de repente se volvió más tonto y al final terminé dejando de usarlo.