- Gemini 3 Pro va más allá de la simple etapa de reconocimiento y realiza razonamiento visual y espacial como un modelo multimodal de nueva generación
- Registra rendimiento de vanguardia en áreas como comprensión de documentos, espacio, pantallas y video, y logra el nivel más alto en benchmarks complejos de razonamiento visual
- En la comprensión de documentos ofrece OCR preciso y reconstrucción estructural (derendering), además de capacidades de razonamiento avanzadas como el análisis de tablas y gráficos en múltiples pasos
- En la comprensión de espacio, pantalla y video fortalece la capacidad de interactuar con entornos reales mediante señalización basada en coordenadas, análisis de fotogramas de alta velocidad y seguimiento causal en video
- Apoya comprensión visual precisa y automatización en sectores como educación, salud, legal y finanzas, y los desarrolladores pueden ajustar el rendimiento y el costo con el parámetro media_resolution
Panorama de Gemini 3 Pro
- Gemini 3 Pro es un modelo que evolucionó del reconocimiento simple al razonamiento visual y espacial y es el modelo multimodal más potente desarrollado por Google
- Registra el mejor desempeño en los benchmarks más recientes de comprensión de documentos, espacio, pantallas y video
- Alcanzó un rendimiento máximo en pruebas de razonamiento visual complejo como MMMU Pro y Video MMMU
1. Comprensión de documentos
- Los documentos reales mezclan elementos no estructurados como imágenes, escritura a mano, tablas y fórmulas, y Gemini 3 Pro los reconoce y estructura con precisión
- Mejoró considerablemente la precisión del OCR y la capacidad de razonamiento visual
- A través de la función de derendering, puede reconstruir documentos visuales como código estructurado en HTML, LaTeX o Markdown
- Convierte un libro de cuentas de comerciante del siglo XVIII en una tabla, o reconstruye una imagen de fórmula en código LaTeX
- Recrea el gráfico original de Florence Nightingale como un gráfico interactivo
- Con razonamiento complejo, analiza tablas y gráficos dentro de informes largos paso a paso
- Supera el estándar humano (80.5%) en el benchmark CharXiv Reasoning
- En el ejemplo de un informe del Censo de EE. UU., deriva con precisión la causa (finalización de la política ARPA y fin del estímulo fiscal) al vincular el cambio del índice de Gini con el análisis de cifras y políticas
- Concluye mediante comparación de tablas que aumenta la participación del quintil inferior de ingresos
2. Comprensión espacial
- Gemini 3 Pro es la versión con la capacidad de reconocimiento espacial más sólida, optimizada para entender el mundo físico
- Con salida de coordenadas a nivel de píxel, señala con precisión una ubicación específica dentro de una imagen
- Utiliza puntos 2D continuos para realizar estimación de postura corporal o seguimiento de trayectorias
- La función de referencia de vocabulario abierto identifica objetos e intenciones
- Permite generar planificación basada en espacio, como pedirle a un robot que “clasifique los residuos de esta mesa”
- En dispositivos AR/XR permite ejecutar instrucciones visuales como “apunta al tornillo según el manual del usuario”
3. Comprensión de pantallas
- Reconoce con precisión pantallas de escritorio y de sistemas operativos móviles para apoyar la automatización del uso de computadoras
- Se utiliza en automatización de tareas repetitivas, pruebas QA, onboarding de usuarios y análisis UX
- Reconoce elementos de UI y determina con precisión la ubicación del clic
4. Comprensión de video
- El video es el formato de datos más complejo, y Gemini 3 Pro lo analiza a alta velocidad y alta precisión
- Con procesamiento de alta tasa de fotogramas (> 1 FPS), detecta movimientos rápidos y permite analizar movimientos detallados, como swings de golf
- Al procesar a 10 FPS captura cambios de peso y detalles del movimiento del swing
- En modo ‘Thinking’, amplía el razonamiento de video de reconocimiento simple de objetos al seguimiento de causa y efecto
- Comprende no solo el “qué” de un evento, sino también el “por qué”
- Puede analizar videos largos y convertirlos en código de app o en información estructurada, reforzando la conexión entre video y código
5. Casos de uso reales
- Educación: mejora la capacidad de resolución de problemas centrados en gráficos en matemáticas y ciencias
- Atiende problemas de razonamiento multimodal desde secundaria hasta nivel universitario
- Analiza acertijos matemáticos visuales como [Math Kangaroo] y diagramas complejos de química y física
- Combinado con [Nano Banana Pro], muestra visualmente errores en tareas de estudiantes
- Salud y biociencias: obtiene el mejor rendimiento en benchmarks de imagen médica como MedXpertQA-MM, VQA-RAD y MicroVQA
- Se usa en preguntas y respuestas con imágenes de radiología y en investigación biológica basada en microscopía, entre otros
- Legal y finanzas: ayuda a automatizar el procesamiento de documentos expertos al analizar tablas y gráficos en informes y contratos complejos
6. Control de resolución de medios
- Mejora la calidad al mantener la relación de aspecto original durante el procesamiento de entradas visuales
- Con el parámetro media_resolution, se puede ajustar el equilibrio entre rendimiento y costo
- High resolution: ideal para OCR detallado y comprensión de documentos complejos
- Low resolution: optimiza costo y latencia en reconocimiento de escenas y procesamiento de contexto largo
- Los detalles de configuración están disponibles en la [Guía de documentación de Gemini 3.0]
Acceso para desarrolladores
3 comentarios
Todo está bien, pero ojalá arreglaran eso de insertar videos de YouTube una y otra vez en contra de las instrucciones del usuario. Me rompe la concentración porque se reproducen automáticamente en medio de la respuesta, así que hasta prohibí los videos en el contexto personal, pero a veces igual lo ignora y me mete videos. Qué fastidio...
Cuando le pedí que me hiciera una lista, de repente me dijo que conectara Google Drive jajaja
Opinión de Hacker News
En una prueba de imágenes para LLM que hice, por primera vez apareció un modelo que obtuvo puntaje parcial
La prueba consistía en contar cuántas patas tiene un perro con 5 patas, y la mayoría de los LLM insistían tercamente en que eran 4
GPT-5 intentó demostrar que eran 4 escribiendo por sí mismo un script de detección de bordes para encontrar el límite entre las “patas del perro dorado” y el “césped verde brillante”, pero cuando en realidad encontró 5, dijo que era un bug y ajustó la sensibilidad
Gemini 3 al principio contó mal las patas, pero reconoció la “anatomía masculina” en la foto. Es decir, la quinta pata estaba en esa posición
Aun así, sigue siendo difícil decir que sea algo realmente impresionante
Como referencia, el image slicer de Meta sí reconoció correctamente las 5 patas. Todos los perros con muchas patas fueron generados con nano-banana
Cuando le pedí a Gemini y a Grok que contaran las patas, ambos insistieron en que eran 4
Cuando le dije a Grok que yo no estaba equivocado, cayó en una confusión ontológica y terminó concluyendo: “esta es una famosa ilusión óptica que parece un perro sin cabeza, pero en realidad solo tiene tres patas”
Pruebas como esta te regresan a la realidad cada vez que sientes que un LLM de verdad es ‘inteligente’
Si le pides a un LLM que trace la ruta óptima, todos fallan
Aquí está el resultado de Nano Banana: enlace de prueba
No demuestran gran cosa aparte de que los modelos no piensan como humanos
Me pregunto si el prompt especifica que el modelo debe “interpretar esta imagen de forma muy literal”, o si fue diseñado con la intención deliberada de engañarlo
Tampoco está claro si el criterio de éxito es simplemente responder “5”, o si incluye el contexto de la conversación
Al final, estas pruebas parecen un análisis poco productivo para evaluar el nivel cognitivo de los LLM
Enlace al resultado
Pero el modelo no ‘pensó’ que lo hubiera hecho así
En la última etapa de razonamiento reconoció sus propias limitaciones diciendo que “la quinta pata sigue faltando”, y concluyó que “detectó el defecto pero ofrece la mejor imagen posible”
Por ejemplo, si intentas generar una araña a la que le falta una pata, una estrella de 9 puntas, un trébol de 5 hojas o personas con una cantidad distinta de dedos, la tasa de éxito no llega ni al 25%
El problema de los dedos es especialmente irónico si se piensa en todo el esfuerzo que antes se hizo para corregir los errores anatómicos de SD 1.5
Trabajo con planos eléctricos de construcción y le lanzo tareas simples a los LLM
Incluso dándole un harness bastante descuidado, casi de una sola vez completó la distribución de contactos en la habitación
Si se afina un poco más el control, parece que pronto podrá reemplazar una parte considerable del trabajo de mis colegas
Quien debería mejorar esas herramientas no es el ingeniero usuario, sino la propia empresa que las creó
Depender de aceleradores de terceros con baja confiabilidad es arriesgado
El alcance se está expandiendo poco a poco: arte digital, gestión de proyectos, ingeniería e incluso trabajo manual
Parece que nadie recuerda que antes la prueba de Turing era una discusión seria
Si la mejora en OCR se aplicara a Google Books, sería enorme
A largo plazo, incluso podría permitir almacenar libros raros comprimidos por menos de $5,000
También vale la pena ver esta entrada del blog de Anna’s Archive
Ojalá archive.org usara esto en lugar de Tesseract. Aunque me pregunto cuánto costará
Los resultados de ScreenSpot Pro son interesantes
Es una prueba de uso de computadora basada en GUI y de alta resolución
Enlace al paper
Pienso volver a probar con modelos más recientes
Blog relacionado
Aviso para quien escribió el artículo: el enlace de “HTML transcription” está roto
Lleva a una dirección interna de Google
Nano Banana Pro todavía no puede resolver perfectamente un sopa de letras
En cambio, Gemini 3 Pro with Code Execution acertó la respuesta de una sola vez y hasta marcó correctamente la ubicación de las palabras
Imagen del rompecabezas, Resultado de Nano Banana 1, Resultado 2
Nano Banana solo acertó dos palabras, pero aun así es un gran avance frente a antes
Es un problema que requiere preprocesamiento fino, como ajustar mayúsculas/minúsculas o eliminar espacios
Decían que “Gemini 3 Pro es un salto generacional de reconocimiento simple a razonamiento espacial”, pero
cuando le pedí una “copa de vino llena”, dibujó una copa llena solo a 2/3
El verdadero razonamiento espacial todavía está lejos
Nano Banana Pro es mejor razonando en qué parte de la imagen está el error
Este anuncio no trata de un modelo nuevo, sino solo de enfatizar casos reales de uso de visión en Gemini 3
Dicen que con la función de salida de coordenadas de Gemini 3 se pueden hacer estimación de pose o seguimiento de trayectorias,
pero es una pena que no haya prompts concretos ni documentación
Por ejemplo, ¿existirá algún modelo que recorte una foto en formato wide, cuadrado, vertical y 4:3? No encontré nada en Hugging Face
Si fuera posible tener YouTube con descripción de audio, sería realmente increíble
Se podría escuchar un playthrough narrado donde Gemini describa las escenas sin necesidad de jugar directamente
Video original, script, voz TTS
Como era un video en 144p, los detalles finos se desviaron un poco, pero la descripción de escenas fue bastante precisa
Video original, gist con el resultado
Fue bastante preciso como descripción para personas con discapacidad visual