Gemini 3 Pro: La frontera de la IA visual

(blog.google)

3 puntos por GN⁺ 2025-12-06 | 3 comentarios | Compartir por WhatsApp

Gemini 3 Pro va más allá de la simple etapa de reconocimiento y realiza razonamiento visual y espacial como un modelo multimodal de nueva generación
Registra rendimiento de vanguardia en áreas como comprensión de documentos, espacio, pantallas y video, y logra el nivel más alto en benchmarks complejos de razonamiento visual
En la comprensión de documentos ofrece OCR preciso y reconstrucción estructural (derendering), además de capacidades de razonamiento avanzadas como el análisis de tablas y gráficos en múltiples pasos
En la comprensión de espacio, pantalla y video fortalece la capacidad de interactuar con entornos reales mediante señalización basada en coordenadas, análisis de fotogramas de alta velocidad y seguimiento causal en video
Apoya comprensión visual precisa y automatización en sectores como educación, salud, legal y finanzas, y los desarrolladores pueden ajustar el rendimiento y el costo con el parámetro media_resolution

Panorama de Gemini 3 Pro

Gemini 3 Pro es un modelo que evolucionó del reconocimiento simple al razonamiento visual y espacial y es el modelo multimodal más potente desarrollado por Google
- Registra el mejor desempeño en los benchmarks más recientes de comprensión de documentos, espacio, pantallas y video
- Alcanzó un rendimiento máximo en pruebas de razonamiento visual complejo como MMMU Pro y Video MMMU

1. Comprensión de documentos

Los documentos reales mezclan elementos no estructurados como imágenes, escritura a mano, tablas y fórmulas, y Gemini 3 Pro los reconoce y estructura con precisión
- Mejoró considerablemente la precisión del OCR y la capacidad de razonamiento visual
A través de la función de derendering, puede reconstruir documentos visuales como código estructurado en HTML, LaTeX o Markdown
- Convierte un libro de cuentas de comerciante del siglo XVIII en una tabla, o reconstruye una imagen de fórmula en código LaTeX
- Recrea el gráfico original de Florence Nightingale como un gráfico interactivo
Con razonamiento complejo, analiza tablas y gráficos dentro de informes largos paso a paso
- Supera el estándar humano (80.5%) en el benchmark CharXiv Reasoning
- En el ejemplo de un informe del Censo de EE. UU., deriva con precisión la causa (finalización de la política ARPA y fin del estímulo fiscal) al vincular el cambio del índice de Gini con el análisis de cifras y políticas
- Concluye mediante comparación de tablas que aumenta la participación del quintil inferior de ingresos

2. Comprensión espacial

Gemini 3 Pro es la versión con la capacidad de reconocimiento espacial más sólida, optimizada para entender el mundo físico
- Con salida de coordenadas a nivel de píxel, señala con precisión una ubicación específica dentro de una imagen
- Utiliza puntos 2D continuos para realizar estimación de postura corporal o seguimiento de trayectorias
La función de referencia de vocabulario abierto identifica objetos e intenciones
- Permite generar planificación basada en espacio, como pedirle a un robot que “clasifique los residuos de esta mesa”
- En dispositivos AR/XR permite ejecutar instrucciones visuales como “apunta al tornillo según el manual del usuario”

3. Comprensión de pantallas

Reconoce con precisión pantallas de escritorio y de sistemas operativos móviles para apoyar la automatización del uso de computadoras
- Se utiliza en automatización de tareas repetitivas, pruebas QA, onboarding de usuarios y análisis UX
- Reconoce elementos de UI y determina con precisión la ubicación del clic

4. Comprensión de video

El video es el formato de datos más complejo, y Gemini 3 Pro lo analiza a alta velocidad y alta precisión
- Con procesamiento de alta tasa de fotogramas (> 1 FPS), detecta movimientos rápidos y permite analizar movimientos detallados, como swings de golf
- Al procesar a 10 FPS captura cambios de peso y detalles del movimiento del swing
En modo ‘Thinking’, amplía el razonamiento de video de reconocimiento simple de objetos al seguimiento de causa y efecto
- Comprende no solo el “qué” de un evento, sino también el “por qué”
Puede analizar videos largos y convertirlos en código de app o en información estructurada, reforzando la conexión entre video y código

5. Casos de uso reales

Educación: mejora la capacidad de resolución de problemas centrados en gráficos en matemáticas y ciencias
- Atiende problemas de razonamiento multimodal desde secundaria hasta nivel universitario
- Analiza acertijos matemáticos visuales como [Math Kangaroo] y diagramas complejos de química y física
- Combinado con [Nano Banana Pro], muestra visualmente errores en tareas de estudiantes
Salud y biociencias: obtiene el mejor rendimiento en benchmarks de imagen médica como MedXpertQA-MM, VQA-RAD y MicroVQA
- Se usa en preguntas y respuestas con imágenes de radiología y en investigación biológica basada en microscopía, entre otros
Legal y finanzas: ayuda a automatizar el procesamiento de documentos expertos al analizar tablas y gráficos en informes y contratos complejos

6. Control de resolución de medios

Mejora la calidad al mantener la relación de aspecto original durante el procesamiento de entradas visuales
Con el parámetro media_resolution, se puede ajustar el equilibrio entre rendimiento y costo
- High resolution: ideal para OCR detallado y comprensión de documentos complejos
- Low resolution: optimiza costo y latencia en reconocimiento de escenas y procesamiento de contexto largo
Los detalles de configuración están disponibles en la [Guía de documentación de Gemini 3.0]

Acceso para desarrolladores

Gemini 3 Pro puede probarse directamente en Google AI Studio y
documentación para desarrolladores proporciona soporte para la integración de la API y el uso del modelo

3 comentarios

y15un 2025-12-06

Todo está bien, pero ojalá arreglaran eso de insertar videos de YouTube una y otra vez en contra de las instrucciones del usuario. Me rompe la concentración porque se reproducen automáticamente en medio de la respuesta, así que hasta prohibí los videos en el contexto personal, pero a veces igual lo ignora y me mete videos. Qué fastidio...

colus001 2025-12-08

Cuando le pedí que me hiciera una lista, de repente me dijo que conectara Google Drive jajaja

GN⁺ 2025-12-06

Opinión de Hacker News

En una prueba de imágenes para LLM que hice, por primera vez apareció un modelo que obtuvo puntaje parcial
La prueba consistía en contar cuántas patas tiene un perro con 5 patas, y la mayoría de los LLM insistían tercamente en que eran 4
GPT-5 intentó demostrar que eran 4 escribiendo por sí mismo un script de detección de bordes para encontrar el límite entre las “patas del perro dorado” y el “césped verde brillante”, pero cuando en realidad encontró 5, dijo que era un bug y ajustó la sensibilidad
Gemini 3 al principio contó mal las patas, pero reconoció la “anatomía masculina” en la foto. Es decir, la quinta pata estaba en esa posición
Aun así, sigue siendo difícil decir que sea algo realmente impresionante
Como referencia, el image slicer de Meta sí reconoció correctamente las 5 patas. Todos los perros con muchas patas fueron generados con nano-banana
- Yo también le pedí a Gemini que generara una imagen de un perro con 5 patas, pero no pudo hacerlo bien. Normalmente crea un perro normal o convierte la cola en un apéndice extraño
  Cuando le pedí a Gemini y a Grok que contaran las patas, ambos insistieron en que eran 4
  Cuando le dije a Grok que yo no estaba equivocado, cayó en una confusión ontológica y terminó concluyendo: “esta es una famosa ilusión óptica que parece un perro sin cabeza, pero en realidad solo tiene tres patas”
  Pruebas como esta te regresan a la realidad cada vez que sientes que un LLM de verdad es ‘inteligente’
- No soy experto en IA, pero tengo una prueba de imagen de laberinto en la que todos los modelos han fallado
  Si le pides a un LLM que trace la ruta óptima, todos fallan
  Aquí está el resultado de Nano Banana: enlace de prueba
- Siento que estas pruebas son un enfoque sesgado para evaluar LLM usando como referencia la forma en que perciben los humanos
  No demuestran gran cosa aparte de que los modelos no piensan como humanos
  Me pregunto si el prompt especifica que el modelo debe “interpretar esta imagen de forma muy literal”, o si fue diseñado con la intención deliberada de engañarlo
  Tampoco está claro si el criterio de éxito es simplemente responder “5”, o si incluye el contexto de la conversación
  Al final, estas pruebas parecen un análisis poco productivo para evaluar el nivel cognitivo de los LLM
- Nano Banana 2 en realidad generó una imagen de un perro con 5 patas bastante convincente
  Enlace al resultado
  Pero el modelo no ‘pensó’ que lo hubiera hecho así
  En la última etapa de razonamiento reconoció sus propias limitaciones diciendo que “la quinta pata sigue faltando”, y concluyó que “detectó el defecto pero ofrece la mejor imagen posible”
- Cuando hay que superar conceptos que aparecen de forma desbalanceada en los datos de entrenamiento, al modelo le cuesta trabajo
  Por ejemplo, si intentas generar una araña a la que le falta una pata, una estrella de 9 puntas, un trébol de 5 hojas o personas con una cantidad distinta de dedos, la tasa de éxito no llega ni al 25%
  El problema de los dedos es especialmente irónico si se piensa en todo el esfuerzo que antes se hizo para corregir los errores anatómicos de SD 1.5
Trabajo con planos eléctricos de construcción y le lanzo tareas simples a los LLM
Incluso dándole un harness bastante descuidado, casi de una sola vez completó la distribución de contactos en la habitación
Si se afina un poco más el control, parece que pronto podrá reemplazar una parte considerable del trabajo de mis colegas
- Ojalá existiera una varita mágica que hiciera menos dolorosas herramientas como AVEVA o AutoCAD
  Quien debería mejorar esas herramientas no es el ingeniero usuario, sino la propia empresa que las creó
  Depender de aceleradores de terceros con baja confiabilidad es arriesgado
- Me gustaría ver un ejemplo del harness que usaste. Yo también quiero hacer pruebas
- La frase “la IA nunca podrá reemplazar la creatividad humana” cada vez se siente más como una portería que se mueve
  El alcance se está expandiendo poco a poco: arte digital, gestión de proyectos, ingeniería e incluso trabajo manual
  Parece que nadie recuerda que antes la prueba de Turing era una discusión seria
Si la mejora en OCR se aplicara a Google Books, sería enorme
A largo plazo, incluso podría permitir almacenar libros raros comprimidos por menos de $5,000
También vale la pena ver esta entrada del blog de Anna’s Archive
Ojalá archive.org usara esto en lugar de Tesseract. Aunque me pregunto cuánto costará
- Esta es la estructura clásica de un data flywheel — mejores modelos → mejores datos → mejores modelos
- “¡Más datos para el dios de los datos!”
Los resultados de ScreenSpot Pro son interesantes
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
Es una prueba de uso de computadora basada en GUI y de alta resolución
Enlace al paper
- Hace unos meses me sorprendió ver que GPT-5 mostraba un rendimiento muy bajo en una prueba simple de OCR frente a Opus 4.1 y Gemini 2.5
  Pienso volver a probar con modelos más recientes
  Blog relacionado
- El resultado de GPT-5.1 es extremadamente bajo. ¿Será que el downscaling está causando pérdida de información?
- Si esta tendencia sigue, pronto debería llegar a una precisión en los 90 y tantos por ciento
Aviso para quien escribió el artículo: el enlace de “HTML transcription” está roto
Lleva a una dirección interna de Google
- Da risa que el diseño del portal interno corporativo siga igual desde hace décadas. Ese estilo anticuado da nostalgia
- Soy Rohan, el autor del artículo. Gracias por avisar, ya lo corregí
- Sorprende que el enlace de ayuda de inicio de sesión se abra sin necesidad de iniciar sesión
- El enlace “See prompt in Google AI Studio” también lleva a un prompt privado
Nano Banana Pro todavía no puede resolver perfectamente un sopa de letras
En cambio, Gemini 3 Pro with Code Execution acertó la respuesta de una sola vez y hasta marcó correctamente la ubicación de las palabras
Imagen del rompecabezas, Resultado de Nano Banana 1, Resultado 2
Nano Banana solo acertó dos palabras, pero aun así es un gran avance frente a antes
Es un problema que requiere preprocesamiento fino, como ajustar mayúsculas/minúsculas o eliminar espacios
- Cuando uses la app web de Gemini, es mejor no empezar desde el modo de generación de imágenes, sino establecer primero un flujo de prompt preciso en el modo de conversación normal y luego pedir la generación de imagen
Decían que “Gemini 3 Pro es un salto generacional de reconocimiento simple a razonamiento espacial”, pero
cuando le pedí una “copa de vino llena”, dibujó una copa llena solo a 2/3
El verdadero razonamiento espacial todavía está lejos
- Gemini 3 Pro es distinto de Nano Banana Pro, y la robustez del modelo de decodificación de imágenes puede ser menor
  Nano Banana Pro es mejor razonando en qué parte de la imagen está el error
- Yo también probé el mismo prompt, y cuando una vez más le pedí “llénala hasta que esté a punto de desbordarse”, salió una copa perfectamente llena
- Al revés, si le das una imagen y le preguntas “¿esta copa está llena?”, probablemente lo acierte bien. Qwen-VL ya funciona bien de esa manera
Este anuncio no trata de un modelo nuevo, sino solo de enfatizar casos reales de uso de visión en Gemini 3
Dicen que con la función de salida de coordenadas de Gemini 3 se pueden hacer estimación de pose o seguimiento de trayectorias,
pero es una pena que no haya prompts concretos ni documentación
- Quiero una función en un CMS que haga automáticamente el encuadre por proporción de las fotos
  Por ejemplo, ¿existirá algún modelo que recorte una foto en formato wide, cuadrado, vertical y 4:3? No encontré nada en Hugging Face
- El blog relacionado de Simon Willison ayuda: Bounding Box Visualization
Si fuera posible tener YouTube con descripción de audio, sería realmente increíble
Se podría escuchar un playthrough narrado donde Gemini describa las escenas sin necesidad de jugar directamente
- Analicé un video de Zelda TOTK cada 5 segundos para crear una descripción narrativa por voz
  Video original, script, voz TTS
  Como era un video en 144p, los detalles finos se desviaron un poco, pero la descripción de escenas fue bastante precisa
- También procesé un video de 1 hora de Witcher 3 en 144p, y se pudieron generar fácilmente descripciones por escena con unos 300,000 tokens
- Subí a la app de Gemini los primeros 5 minutos del opening de Zelda: Breath of the Wild y pedí una descripción escena por escena
  Video original, gist con el resultado
  Fue bastante preciso como descripción para personas con discapacidad visual