4 puntos por GN⁺ 2026-02-20 | 4 comentarios | Compartir por WhatsApp
  • Modelo de IA multimodal avanzado para manejar tareas complejas, orientado a resolver problemas más allá de dar respuestas simples
  • En el benchmark ARC-AGI-2 registró una puntuación de validación de 77.1%, logrando más del doble del rendimiento de razonamiento frente al 3 Pro anterior
  • Muestra una capacidad de razonamiento mejorada en tareas de alta dificultad como integración de datos, explicaciones visuales y programación creativa
  • Procesa diversos tipos de entrada como texto, audio, imágenes, video y repositorios de código, y admite hasta 1 millón de tokens de contexto y una salida de 64K tokens
  • Google está usando esta preview para mejorar los flujos de trabajo agénticos y validarla de cara a su futura disponibilidad general

Resumen de Gemini 3.1 Pro

  • Gemini 3.1 Pro es un modelo de IA multimodal avanzado para manejar tareas complejas, orientado a resolver problemas más allá de dar respuestas simples
    • Google lo presenta como la mejora central de inteligencia que hizo posibles los resultados de Gemini 3 Deep Think
    • Procesa entradas multimodales como texto, audio, imágenes, video y repositorios de código
    • Admite una ventana de contexto de hasta 1 millón de tokens y una salida de 64K tokens
    • Esta versión se está desplegando de forma gradual en productos para consumidores, desarrolladores y empresas
  • Las vías de despliegue son las siguientes

Rendimiento y benchmarks

  • Gemini 3.1 Pro está optimizado para resolver problemas complejos mediante mejoras centradas en la capacidad de razonamiento (reasoning)
    • En el benchmark ARC-AGI-2 registró una puntuación de validación de 77.1%, más del doble del rendimiento frente al 3 Pro anterior
    • Principales resultados comparativos (frente a Gemini 3 Pro):
      • ARC-AGI-2: 77.1% (vs 31.1%)
      • GPQA Diamond: 94.3% (vs 91.9%)
      • Terminal-Bench 2.0: 68.5% (vs 56.9%)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: 85.9% (vs 59.2%)
    • Estos benchmarks evalúan la capacidad del modelo para resolver patrones lógicos completamente nuevos
  • Google lo define como un “modelo base más inteligente y capaz”, y lo presenta como la base para resolver problemas complejos

Casos de uso reales

  • Gemini 3.1 Pro muestra varias posibilidades de aplicación al llevar el razonamiento avanzado a usos prácticos
    • Generación de explicaciones visuales: capacidad para explicar temas complejos de forma clara y visual
    • Integración de datos: sintetiza múltiples datos en una sola vista integrada
    • Implementación de proyectos creativos: lleva ideas artísticas y de diseño al código
  • Ejemplos concretos
    • Animación basada en código: genera animaciones SVG para sitios web a partir de prompts de texto, minimizando el tamaño del archivo sin perder resolución
    • Integración de sistemas complejos: construcción de un dashboard que visualiza en tiempo real la órbita de la Estación Espacial Internacional (ISS)
    • Diseño interactivo: programación de una simulación 3D de una bandada de estorninos con seguimiento de manos e interfaz reactiva a la música
    • Programación creativa: diseño de un sitio web de portafolio moderno que refleja la atmósfera literaria de Wuthering Heights

Despliegue y acceso

  • Gemini 3.1 Pro fue lanzado en formato preview, mientras se recopila retroalimentación de usuarios
    • Los usuarios de los planes Google AI Pro y Ultra pueden acceder a límites de uso más altos en la app de Gemini
    • En NotebookLM, está disponible en exclusiva para usuarios Pro y Ultra
    • Desarrolladores y empresas pueden acceder mediante AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI y Android Studio

Próximos planes

  • Google mantiene un ritmo rápido de mejoras desde el lanzamiento de Gemini 3 Pro, y con esta preview de 3.1 Pro está impulsando la validación de actualizaciones y la expansión de flujos de trabajo agénticos
  • La disponibilidad general (GA) llegará una vez concluida la validación, y Google señaló que “espera ver qué construirán y descubrirán los usuarios con este modelo

4 comentarios

 
jwh926 2026-02-20

Ojalá pronto alcance a claude opus en rendimiento de programación.

 
ifmkl 2026-02-20

Sí. El primer día que lo usé, cuando subieron el modelo preview 3.0 al CLI, me encantó tanto que hasta escribí una entrada en el blog con mis impresiones, pero luego decayó rápidamente... Gracias a eso, ahora estoy usando principalmente Codex y Claude Code. Aunque Claude también está medio... Voy a ver si Opus o Sonnet 4.6 salen buenos; si no, creo que voy a dejar Codex para código y Gemini para otras tareas en general.

 
GN⁺ 2026-02-20
Opiniones de Hacker News
  • Gemini 3.1 Pro realmente promete mucho
    Hasta ahora casi siempre me he inclinado por Claude, pero Claude Opus destaca especialmente en programación
    Gemini también es casi excelente, pero todavía no está al nivel de Claude
    Cada mes voy alternando entre ChatGPT Plus ↔ Gemini Pro ↔ Claude para no perderme las ventajas de cada modelo

  • Como ex-Googler, espero que Gemini 3.1 Pro sea mejor que 3.0
    Pero para desarrollo, Gemini fue el modelo más frustrante que usé
    Claude Opus en VS Code Copilot mantiene bien el equilibrio entre flujo de pensamiento y respuesta, mientras que Gemini solo consume thinking tokens y no explica el resultado
    A menudo cae en bucles, usa mal las herramientas y modifica archivos que no debe
    Por eso usaba la estrategia de “plan con Gemini, ejecución con Claude”, pero al final terminé usando solo Claude
    Mientras Anthropic parece pulir sus modelos pensando en proyectos reales, da la impresión de que a Google le falta más prueba en uso real

    • Mi proyecto tiene mucha matemática de espacios de color, y Gemini 3 Pro comete con frecuencia errores de tipos básicos
      Confunde int8 con float o se olvida de si algo está normalizado o no
      Se siente como alguien con mala memoria
      Aun así, ayuda bastante en discusiones de diseño de arquitectura
    • Cuando usé Gemini 3 en Openclaw, me costó entre 10 y 20 dólares por hora y entre 1.5 y 3 dólares por prompt
      Fue el colmo de la ineficiencia
    • Al final, el desempeño del modelo depende de ajuste fino e integración con herramientas
      Claude da la impresión de haber aprendido el propio “proceso de programar”, y parece que Anthropic incorporó feedback de usuarios en el ajuste
      Como Google apunta a un modelo generalista, da la impresión de que “hace un poco de todo, pero no hace nada perfecto”
    • Gemini 3.0 para mí estaba en un nivel inutilizable
      Claude o Codex explican cómo abordan el problema, pero Gemini simplemente se lanza a ejecutar
      Ignora solicitudes de corrección y contamina el espacio de trabajo
      Aunque se puede usar gratis, casi no lo uso
      Parece que Anthropic entendió desde temprano que “el usuario debe poder tener el control”
    • Gemini es débil en tareas agentic
      OpenAI ya alcanzó un nivel parecido al de Claude, pero Google todavía está lejos
  • La gente subestima la eficiencia en costos de Google
    Cuesta la mitad que Opus y aun así el rendimiento es bastante bueno
    Según las métricas de Artificial Analysis, 3.1 es 40% más barato y 30% más rápido que Opus

    • Pero también está la idea de que “más vale una gran respuesta de 2 centavos que una respuesta mediocre de 1 centavo”
      Para desarrollo, incluso 300 dólares al mes valen la pena si usas el mejor modelo
      En IA para consumo masivo, ese cálculo será distinto
    • Claro, si no hace bien el trabajo, que cueste la mitad no significa mucho
      Aun así, si el rendimiento se pone a la altura, la competitividad en precio resulta atractiva
    • Si Opus produce código 20% mejor, en proyectos reales esa diferencia pesa mucho
      Pero si el rendimiento es parecido, ahorrar 50% en costos es una gran ventaja
    • Gemini también sale bien en benchmarks, y los ingenieros de DeepMind son excelentes
      En lo personal, me funciona bien tanto para trabajo como para programar por hobby
      Aun así, me sorprende que en la comunidad reciba tantas críticas
    • Deepseek cuesta 2% de lo que cuesta Opus, pero aun así la mayoría no lo usa para programar
  • Los modelos de hoy son demasiado potentes
    Ahora se puede crear software completo en muchísimo menos tiempo que antes
    Pero las diferencias de comportamiento entre versiones son tan grandes que se siente como gestionar un equipo nuevo cada mes
    Como pueden cambiar el modelo sin aviso o modificarlo sutilmente, se siente como una base inestable

    • Opus 4.6 resolvió un problema que antes o4-mini no había podido resolver
      Se puede ver en este issue de sqlite-chronicle
      Después de eso destrabó varios puntos bloqueados en otros proyectos
    • He usado modelos de Anthropic, Google y OpenAI, pero todavía les falta para construir un producto completamente terminado
      Aun así, alcanzan de sobra para sacar ideas y arrancar una base de código
    • La app hecha con GPT 5.1 codex max sigue funcionando bien
      Incluso con el mismo código, parece haber una especie de autoconsistencia: al modelo que lo creó le resulta más fácil volver a trabajarlo
    • En la práctica, se siente como gestionar a “un ingeniero brillante pero raro”
      Aun así, sigue siendo una tecnología asombrosa
    • También salió la broma de “contratar por un mes a un ingeniero genio por el precio de una comida de sushi”, y alguien respondió: “¿y para eso va a hacer una calculadora?”
  • El precio de Gemini 3.1 Pro no cambia
    Entrada $2/M, salida $12/M, como figura en la documentación oficial
    El knowledge cutoff es de enero de 2025 y se agregó un nuevo modo “medium thinking”
    La diferencia de precio frente a los $5/$25 de Opus 4.6 es grande

    • Para usar un agente CLI empresarial, el problema es el proceso enredado de Google
      Uno se traba configurando reglas de IAM, facturación, identificando nombres de productos, etc.
      OpenAI y Anthropic son mucho más simples
      Aun así, la tarifa mensual termina siendo parecida
    • Si en Vendor-Bench 2 no mejora el razonamiento de largo plazo, no pienso moverme desde CC
      Anthropic va adelante gracias a una optimización full-stack
    • Sigue sin haber minimal reasoning
      Todavía no existe algo como Opus 4.6, que sea rápido e inteligente incluso con thinking desactivado
    • Se ve interesante porque parece más barato que Codex
    • El knowledge cutoff en enero de 2025 se siente un poco viejo
  • Gemini 3 sigue todavía en preview, y 2.5 está por ser retirado
    En el calendario oficial de deprecación, algunos modelos terminan incluso sin modelo de reemplazo
    Da para preguntarse cuándo va a lanzar Google un modelo realmente listo para producción

    • Yo también estoy de acuerdo. Depender de modelos retirados o no lanzados todavía es riesgoso
      Tengo sistemas en operación real y eso me genera mucha inquietud
    • Creo que leíste mal el enlace. Solo se retira 2.5-preview; la versión estable 2.5 se mantiene hasta otoño de 2026
    • Google no irá a retirar nunca software del que depende tanta gente, ¿verdad?
      Si uno mira Killed by Google, queda claro lo vacío que suena eso
    • Justo este tipo de situación hace pensar: “ah, sí, esto es totalmente Google”
    • Aún no hay aviso de retiro para 2.5
      Si 3.0 sigue en preview, 2.5 probablemente se mantenga por al menos un año
      La documentación oficial también dice que “la fecha exacta de finalización se anunciará con aviso previo”
  • Gemini resolvió de una sola vez un problema de race condition entre UI y sincronización de datos
    Incluso Opus 4.6 lo resolvió recién al tercer intento, así que me sorprendió
    Ahora es menos verboso y va más directo al punto
    De ahora en adelante probablemente use la estrategia de Gemini para I+D y Opus/Sonnet 4.6 para cerrar el trabajo

    • Mi combinación es Opus 4.6 para investigación de código, GPT 5.3 codex para escribir código, Gemini para algoritmos científicos y matemáticos, y Grok para consultas de seguridad
      Si usas un wrapper unificado que soporte varios modelos, te preocupas menos por cuál elegir
      Al final, lo importante es “qué modelo se adapta mejor a mi problema”
  • Gemini respondió perfectamente a la pregunta del autolavado
    Dio una respuesta lógica del tipo: “si vas caminando, no tendrás un coche para lavar, así que debes ir manejando”

    • Puede que la pregunta haya estado en los datos de entrenamiento, así que la cambié por la pregunta del autolavado del elefante
      Gemini explicó lógicamente que “hay que llevar al elefante”, y además dio razones detalladas
      Fue una capacidad de razonamiento bastante impresionante
    • GPT-OSS-120b también respondió correctamente a la misma pregunta
      Eso sí, el comentario de Gemini sobre “pronóstico de lavado con lluvia” fue simpático, pero también se sintió como exceso de confianza
    • Lo importante no es solo haber acertado la respuesta, sino si realmente razonó bien la causa
    • En realidad, Gemini 3 Pro y Flash ya habían acertado esta pregunta antes
    • Pero la respuesta es demasiado larga, y termina cansando
  • Gemini dio un buen resultado en la prueba de “SVG de un pelícano andando en bicicleta
    Ver el enlace con el resultado
    Parece que su capacidad de generación visual mejoró, quizá gracias a la subida en el benchmark ARC-AGI

    • El SVG animado ya viene incluido como ejemplo básico
      El benchmark en sí perdió sentido, y ahora parece más bien una cuestión de gusto
      Hace falta un nuevo benchmark tipo “vibe check”
    • El resultado que me dio a mí tenía un estilo más 3D que de pelícano
      Es un cambio interesante
    • Pero todavía falla en mi benchmark personal de SVG, que es una sección transversal de un corazón humano
      Al final sigue haciendo falta la mano de un diseñador humano
    • Si el modelo sigue mejorando, tal vez sea posible crear UI en tiempo real o medios interactivos basados en SVG
    • En cambio, otros formatos vectoriales como PostScript casi no muestran avances
      Probablemente sea porque Google optimizó específicamente para SVG
  • El SVG del pelícano publicado en el blog de Simon Willison estaba bastante bien, pero tardó más de 5 minutos en generarse
    Parece un problema de rendimiento del lanzamiento inicial

    • El problema de Gemini siempre ha sido esa actitud de “querer ayudar demasiado”
      Yo solo quería un pelícano y una bicicleta, pero agregó nubes, sol y hasta un sombrero
      En programación pasa igual: no deja de hacer refactors no pedidos y agregar comentarios
    • Lo gracioso es que, gracias a estas pruebas, Google de verdad terminó invirtiendo mucho esfuerzo en generación de SVG de animales + vehículos
      El tweet de Jeff Dean también lo insinúa
    • Me da curiosidad por qué los LLM son tan buenos con SVG
      Son flojos en otras tareas de comprensión espacial, pero sobresalen en generar formas precisas
    • No falta mucho para que los modelos empiecen a competir en benchmarks de “generar SVG de un pelícano en bicicleta”
    • Si uno ve el post oficial del blog de Google, la generación de SVG aparece mencionada como caso de uso principal
      O sea, es posible que esto no sea una mejora general de capacidad, sino el resultado de un entrenamiento explícito
 
clumsily 2026-02-20

Probablemente en no mucho tiempo le bajen el rendimiento de forma silenciosa, y creo que lo más importante será cuánto lo terminen recortando. (Siento que a la mayoría de los modelos de IA se les va "apagando el foco" con el tiempo, pero con Google se nota especialmente).
También recuerdo que 3 Pro estaba muy bien justo cuando salió, pero como una semana después de repente se volvió más tonto y al final terminé dejando de usarlo.