- Modelo de IA multimodal avanzado para manejar tareas complejas, orientado a resolver problemas más allá de dar respuestas simples
- En el benchmark ARC-AGI-2 registró una puntuación de validación de 77.1%, logrando más del doble del rendimiento de razonamiento frente al 3 Pro anterior
- Muestra una capacidad de razonamiento mejorada en tareas de alta dificultad como integración de datos, explicaciones visuales y programación creativa
- Procesa diversos tipos de entrada como texto, audio, imágenes, video y repositorios de código, y admite hasta 1 millón de tokens de contexto y una salida de 64K tokens
- Google está usando esta preview para mejorar los flujos de trabajo agénticos y validarla de cara a su futura disponibilidad general
Resumen de Gemini 3.1 Pro
- Gemini 3.1 Pro es un modelo de IA multimodal avanzado para manejar tareas complejas, orientado a resolver problemas más allá de dar respuestas simples
- Google lo presenta como la mejora central de inteligencia que hizo posibles los resultados de Gemini 3 Deep Think
- Procesa entradas multimodales como texto, audio, imágenes, video y repositorios de código
- Admite una ventana de contexto de hasta 1 millón de tokens y una salida de 64K tokens
- Esta versión se está desplegando de forma gradual en productos para consumidores, desarrolladores y empresas
- Las vías de despliegue son las siguientes
Rendimiento y benchmarks
- Gemini 3.1 Pro está optimizado para resolver problemas complejos mediante mejoras centradas en la capacidad de razonamiento (reasoning)
- En el benchmark ARC-AGI-2 registró una puntuación de validación de 77.1%, más del doble del rendimiento frente al 3 Pro anterior
- Principales resultados comparativos (frente a Gemini 3 Pro):
- ARC-AGI-2: 77.1% (vs 31.1%)
- GPQA Diamond: 94.3% (vs 91.9%)
- Terminal-Bench 2.0: 68.5% (vs 56.9%)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85.9% (vs 59.2%)
- Estos benchmarks evalúan la capacidad del modelo para resolver patrones lógicos completamente nuevos
- Google lo define como un “modelo base más inteligente y capaz”, y lo presenta como la base para resolver problemas complejos
Casos de uso reales
- Gemini 3.1 Pro muestra varias posibilidades de aplicación al llevar el razonamiento avanzado a usos prácticos
- Generación de explicaciones visuales: capacidad para explicar temas complejos de forma clara y visual
- Integración de datos: sintetiza múltiples datos en una sola vista integrada
- Implementación de proyectos creativos: lleva ideas artísticas y de diseño al código
- Ejemplos concretos
- Animación basada en código: genera animaciones SVG para sitios web a partir de prompts de texto, minimizando el tamaño del archivo sin perder resolución
- Integración de sistemas complejos: construcción de un dashboard que visualiza en tiempo real la órbita de la Estación Espacial Internacional (ISS)
- Diseño interactivo: programación de una simulación 3D de una bandada de estorninos con seguimiento de manos e interfaz reactiva a la música
- Programación creativa: diseño de un sitio web de portafolio moderno que refleja la atmósfera literaria de
Wuthering Heights
Despliegue y acceso
- Gemini 3.1 Pro fue lanzado en formato preview, mientras se recopila retroalimentación de usuarios
- Los usuarios de los planes Google AI Pro y Ultra pueden acceder a límites de uso más altos en la app de Gemini
- En NotebookLM, está disponible en exclusiva para usuarios Pro y Ultra
- Desarrolladores y empresas pueden acceder mediante AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI y Android Studio
Próximos planes
- Google mantiene un ritmo rápido de mejoras desde el lanzamiento de Gemini 3 Pro, y con esta preview de 3.1 Pro está impulsando la validación de actualizaciones y la expansión de flujos de trabajo agénticos
- La disponibilidad general (GA) llegará una vez concluida la validación, y Google señaló que “espera ver qué construirán y descubrirán los usuarios con este modelo”
4 comentarios
Ojalá pronto alcance a
claude opusen rendimiento de programación.Sí. El primer día que lo usé, cuando subieron el modelo preview 3.0 al CLI, me encantó tanto que hasta escribí una entrada en el blog con mis impresiones, pero luego decayó rápidamente... Gracias a eso, ahora estoy usando principalmente Codex y Claude Code. Aunque Claude también está medio... Voy a ver si Opus o Sonnet 4.6 salen buenos; si no, creo que voy a dejar Codex para código y Gemini para otras tareas en general.
Opiniones de Hacker News
Gemini 3.1 Pro realmente promete mucho
Hasta ahora casi siempre me he inclinado por Claude, pero Claude Opus destaca especialmente en programación
Gemini también es casi excelente, pero todavía no está al nivel de Claude
Cada mes voy alternando entre ChatGPT Plus ↔ Gemini Pro ↔ Claude para no perderme las ventajas de cada modelo
Como ex-Googler, espero que Gemini 3.1 Pro sea mejor que 3.0
Pero para desarrollo, Gemini fue el modelo más frustrante que usé
Claude Opus en VS Code Copilot mantiene bien el equilibrio entre flujo de pensamiento y respuesta, mientras que Gemini solo consume thinking tokens y no explica el resultado
A menudo cae en bucles, usa mal las herramientas y modifica archivos que no debe
Por eso usaba la estrategia de “plan con Gemini, ejecución con Claude”, pero al final terminé usando solo Claude
Mientras Anthropic parece pulir sus modelos pensando en proyectos reales, da la impresión de que a Google le falta más prueba en uso real
Confunde
int8confloato se olvida de si algo está normalizado o noSe siente como alguien con mala memoria
Aun así, ayuda bastante en discusiones de diseño de arquitectura
Fue el colmo de la ineficiencia
Claude da la impresión de haber aprendido el propio “proceso de programar”, y parece que Anthropic incorporó feedback de usuarios en el ajuste
Como Google apunta a un modelo generalista, da la impresión de que “hace un poco de todo, pero no hace nada perfecto”
Claude o Codex explican cómo abordan el problema, pero Gemini simplemente se lanza a ejecutar
Ignora solicitudes de corrección y contamina el espacio de trabajo
Aunque se puede usar gratis, casi no lo uso
Parece que Anthropic entendió desde temprano que “el usuario debe poder tener el control”
OpenAI ya alcanzó un nivel parecido al de Claude, pero Google todavía está lejos
La gente subestima la eficiencia en costos de Google
Cuesta la mitad que Opus y aun así el rendimiento es bastante bueno
Según las métricas de Artificial Analysis, 3.1 es 40% más barato y 30% más rápido que Opus
Para desarrollo, incluso 300 dólares al mes valen la pena si usas el mejor modelo
En IA para consumo masivo, ese cálculo será distinto
Aun así, si el rendimiento se pone a la altura, la competitividad en precio resulta atractiva
Pero si el rendimiento es parecido, ahorrar 50% en costos es una gran ventaja
En lo personal, me funciona bien tanto para trabajo como para programar por hobby
Aun así, me sorprende que en la comunidad reciba tantas críticas
Los modelos de hoy son demasiado potentes
Ahora se puede crear software completo en muchísimo menos tiempo que antes
Pero las diferencias de comportamiento entre versiones son tan grandes que se siente como gestionar un equipo nuevo cada mes
Como pueden cambiar el modelo sin aviso o modificarlo sutilmente, se siente como una base inestable
Se puede ver en este issue de sqlite-chronicle
Después de eso destrabó varios puntos bloqueados en otros proyectos
Aun así, alcanzan de sobra para sacar ideas y arrancar una base de código
Incluso con el mismo código, parece haber una especie de autoconsistencia: al modelo que lo creó le resulta más fácil volver a trabajarlo
Aun así, sigue siendo una tecnología asombrosa
El precio de Gemini 3.1 Pro no cambia
Entrada $2/M, salida $12/M, como figura en la documentación oficial
El knowledge cutoff es de enero de 2025 y se agregó un nuevo modo “medium thinking”
La diferencia de precio frente a los $5/$25 de Opus 4.6 es grande
Uno se traba configurando reglas de IAM, facturación, identificando nombres de productos, etc.
OpenAI y Anthropic son mucho más simples
Aun así, la tarifa mensual termina siendo parecida
Anthropic va adelante gracias a una optimización full-stack
Todavía no existe algo como Opus 4.6, que sea rápido e inteligente incluso con thinking desactivado
Gemini 3 sigue todavía en preview, y 2.5 está por ser retirado
En el calendario oficial de deprecación, algunos modelos terminan incluso sin modelo de reemplazo
Da para preguntarse cuándo va a lanzar Google un modelo realmente listo para producción
Tengo sistemas en operación real y eso me genera mucha inquietud
Si uno mira Killed by Google, queda claro lo vacío que suena eso
Si 3.0 sigue en preview, 2.5 probablemente se mantenga por al menos un año
La documentación oficial también dice que “la fecha exacta de finalización se anunciará con aviso previo”
Gemini resolvió de una sola vez un problema de race condition entre UI y sincronización de datos
Incluso Opus 4.6 lo resolvió recién al tercer intento, así que me sorprendió
Ahora es menos verboso y va más directo al punto
De ahora en adelante probablemente use la estrategia de Gemini para I+D y Opus/Sonnet 4.6 para cerrar el trabajo
Si usas un wrapper unificado que soporte varios modelos, te preocupas menos por cuál elegir
Al final, lo importante es “qué modelo se adapta mejor a mi problema”
Gemini respondió perfectamente a la pregunta del autolavado
Dio una respuesta lógica del tipo: “si vas caminando, no tendrás un coche para lavar, así que debes ir manejando”
Gemini explicó lógicamente que “hay que llevar al elefante”, y además dio razones detalladas
Fue una capacidad de razonamiento bastante impresionante
Eso sí, el comentario de Gemini sobre “pronóstico de lavado con lluvia” fue simpático, pero también se sintió como exceso de confianza
Gemini dio un buen resultado en la prueba de “SVG de un pelícano andando en bicicleta”
Ver el enlace con el resultado
Parece que su capacidad de generación visual mejoró, quizá gracias a la subida en el benchmark ARC-AGI
El benchmark en sí perdió sentido, y ahora parece más bien una cuestión de gusto
Hace falta un nuevo benchmark tipo “vibe check”
Es un cambio interesante
Al final sigue haciendo falta la mano de un diseñador humano
Probablemente sea porque Google optimizó específicamente para SVG
El SVG del pelícano publicado en el blog de Simon Willison estaba bastante bien, pero tardó más de 5 minutos en generarse
Parece un problema de rendimiento del lanzamiento inicial
Yo solo quería un pelícano y una bicicleta, pero agregó nubes, sol y hasta un sombrero
En programación pasa igual: no deja de hacer refactors no pedidos y agregar comentarios
El tweet de Jeff Dean también lo insinúa
Son flojos en otras tareas de comprensión espacial, pero sobresalen en generar formas precisas
O sea, es posible que esto no sea una mejora general de capacidad, sino el resultado de un entrenamiento explícito
Probablemente en no mucho tiempo le bajen el rendimiento de forma silenciosa, y creo que lo más importante será cuánto lo terminen recortando. (Siento que a la mayoría de los modelos de IA se les va "apagando el foco" con el tiempo, pero con Google se nota especialmente).
También recuerdo que 3 Pro estaba muy bien justo cuando salió, pero como una semana después de repente se volvió más tonto y al final terminé dejando de usarlo.