3 puntos por GN⁺ 2025-12-06 | 3 comentarios | Compartir por WhatsApp
  • Gemini 3 Pro va más allá de la simple etapa de reconocimiento y realiza razonamiento visual y espacial como un modelo multimodal de nueva generación
  • Registra rendimiento de vanguardia en áreas como comprensión de documentos, espacio, pantallas y video, y logra el nivel más alto en benchmarks complejos de razonamiento visual
  • En la comprensión de documentos ofrece OCR preciso y reconstrucción estructural (derendering), además de capacidades de razonamiento avanzadas como el análisis de tablas y gráficos en múltiples pasos
  • En la comprensión de espacio, pantalla y video fortalece la capacidad de interactuar con entornos reales mediante señalización basada en coordenadas, análisis de fotogramas de alta velocidad y seguimiento causal en video
  • Apoya comprensión visual precisa y automatización en sectores como educación, salud, legal y finanzas, y los desarrolladores pueden ajustar el rendimiento y el costo con el parámetro media_resolution

Panorama de Gemini 3 Pro

  • Gemini 3 Pro es un modelo que evolucionó del reconocimiento simple al razonamiento visual y espacial y es el modelo multimodal más potente desarrollado por Google
    • Registra el mejor desempeño en los benchmarks más recientes de comprensión de documentos, espacio, pantallas y video
    • Alcanzó un rendimiento máximo en pruebas de razonamiento visual complejo como MMMU Pro y Video MMMU

1. Comprensión de documentos

  • Los documentos reales mezclan elementos no estructurados como imágenes, escritura a mano, tablas y fórmulas, y Gemini 3 Pro los reconoce y estructura con precisión
    • Mejoró considerablemente la precisión del OCR y la capacidad de razonamiento visual
  • A través de la función de derendering, puede reconstruir documentos visuales como código estructurado en HTML, LaTeX o Markdown
    • Convierte un libro de cuentas de comerciante del siglo XVIII en una tabla, o reconstruye una imagen de fórmula en código LaTeX
    • Recrea el gráfico original de Florence Nightingale como un gráfico interactivo
  • Con razonamiento complejo, analiza tablas y gráficos dentro de informes largos paso a paso
    • Supera el estándar humano (80.5%) en el benchmark CharXiv Reasoning
    • En el ejemplo de un informe del Censo de EE. UU., deriva con precisión la causa (finalización de la política ARPA y fin del estímulo fiscal) al vincular el cambio del índice de Gini con el análisis de cifras y políticas
    • Concluye mediante comparación de tablas que aumenta la participación del quintil inferior de ingresos

2. Comprensión espacial

  • Gemini 3 Pro es la versión con la capacidad de reconocimiento espacial más sólida, optimizada para entender el mundo físico
    • Con salida de coordenadas a nivel de píxel, señala con precisión una ubicación específica dentro de una imagen
    • Utiliza puntos 2D continuos para realizar estimación de postura corporal o seguimiento de trayectorias
  • La función de referencia de vocabulario abierto identifica objetos e intenciones
    • Permite generar planificación basada en espacio, como pedirle a un robot que “clasifique los residuos de esta mesa”
    • En dispositivos AR/XR permite ejecutar instrucciones visuales como “apunta al tornillo según el manual del usuario”

3. Comprensión de pantallas

  • Reconoce con precisión pantallas de escritorio y de sistemas operativos móviles para apoyar la automatización del uso de computadoras
    • Se utiliza en automatización de tareas repetitivas, pruebas QA, onboarding de usuarios y análisis UX
    • Reconoce elementos de UI y determina con precisión la ubicación del clic

4. Comprensión de video

  • El video es el formato de datos más complejo, y Gemini 3 Pro lo analiza a alta velocidad y alta precisión
    • Con procesamiento de alta tasa de fotogramas (> 1 FPS), detecta movimientos rápidos y permite analizar movimientos detallados, como swings de golf
    • Al procesar a 10 FPS captura cambios de peso y detalles del movimiento del swing
  • En modo ‘Thinking’, amplía el razonamiento de video de reconocimiento simple de objetos al seguimiento de causa y efecto
    • Comprende no solo el “qué” de un evento, sino también el “por qué”
  • Puede analizar videos largos y convertirlos en código de app o en información estructurada, reforzando la conexión entre video y código

5. Casos de uso reales

  • Educación: mejora la capacidad de resolución de problemas centrados en gráficos en matemáticas y ciencias
    • Atiende problemas de razonamiento multimodal desde secundaria hasta nivel universitario
    • Analiza acertijos matemáticos visuales como [Math Kangaroo] y diagramas complejos de química y física
    • Combinado con [Nano Banana Pro], muestra visualmente errores en tareas de estudiantes
  • Salud y biociencias: obtiene el mejor rendimiento en benchmarks de imagen médica como MedXpertQA-MM, VQA-RAD y MicroVQA
    • Se usa en preguntas y respuestas con imágenes de radiología y en investigación biológica basada en microscopía, entre otros
  • Legal y finanzas: ayuda a automatizar el procesamiento de documentos expertos al analizar tablas y gráficos en informes y contratos complejos

6. Control de resolución de medios

  • Mejora la calidad al mantener la relación de aspecto original durante el procesamiento de entradas visuales
  • Con el parámetro media_resolution, se puede ajustar el equilibrio entre rendimiento y costo
    • High resolution: ideal para OCR detallado y comprensión de documentos complejos
    • Low resolution: optimiza costo y latencia en reconocimiento de escenas y procesamiento de contexto largo
  • Los detalles de configuración están disponibles en la [Guía de documentación de Gemini 3.0]

Acceso para desarrolladores

3 comentarios

 
y15un 2025-12-06

Todo está bien, pero ojalá arreglaran eso de insertar videos de YouTube una y otra vez en contra de las instrucciones del usuario. Me rompe la concentración porque se reproducen automáticamente en medio de la respuesta, así que hasta prohibí los videos en el contexto personal, pero a veces igual lo ignora y me mete videos. Qué fastidio...

 
colus001 2025-12-08

Cuando le pedí que me hiciera una lista, de repente me dijo que conectara Google Drive jajaja

 
GN⁺ 2025-12-06
Opinión de Hacker News
  • En una prueba de imágenes para LLM que hice, por primera vez apareció un modelo que obtuvo puntaje parcial
    La prueba consistía en contar cuántas patas tiene un perro con 5 patas, y la mayoría de los LLM insistían tercamente en que eran 4
    GPT-5 intentó demostrar que eran 4 escribiendo por sí mismo un script de detección de bordes para encontrar el límite entre las “patas del perro dorado” y el “césped verde brillante”, pero cuando en realidad encontró 5, dijo que era un bug y ajustó la sensibilidad
    Gemini 3 al principio contó mal las patas, pero reconoció la “anatomía masculina” en la foto. Es decir, la quinta pata estaba en esa posición
    Aun así, sigue siendo difícil decir que sea algo realmente impresionante
    Como referencia, el image slicer de Meta sí reconoció correctamente las 5 patas. Todos los perros con muchas patas fueron generados con nano-banana

    • Yo también le pedí a Gemini que generara una imagen de un perro con 5 patas, pero no pudo hacerlo bien. Normalmente crea un perro normal o convierte la cola en un apéndice extraño
      Cuando le pedí a Gemini y a Grok que contaran las patas, ambos insistieron en que eran 4
      Cuando le dije a Grok que yo no estaba equivocado, cayó en una confusión ontológica y terminó concluyendo: “esta es una famosa ilusión óptica que parece un perro sin cabeza, pero en realidad solo tiene tres patas”
      Pruebas como esta te regresan a la realidad cada vez que sientes que un LLM de verdad es ‘inteligente’
    • No soy experto en IA, pero tengo una prueba de imagen de laberinto en la que todos los modelos han fallado
      Si le pides a un LLM que trace la ruta óptima, todos fallan
      Aquí está el resultado de Nano Banana: enlace de prueba
    • Siento que estas pruebas son un enfoque sesgado para evaluar LLM usando como referencia la forma en que perciben los humanos
      No demuestran gran cosa aparte de que los modelos no piensan como humanos
      Me pregunto si el prompt especifica que el modelo debe “interpretar esta imagen de forma muy literal”, o si fue diseñado con la intención deliberada de engañarlo
      Tampoco está claro si el criterio de éxito es simplemente responder “5”, o si incluye el contexto de la conversación
      Al final, estas pruebas parecen un análisis poco productivo para evaluar el nivel cognitivo de los LLM
    • Nano Banana 2 en realidad generó una imagen de un perro con 5 patas bastante convincente
      Enlace al resultado
      Pero el modelo no ‘pensó’ que lo hubiera hecho así
      En la última etapa de razonamiento reconoció sus propias limitaciones diciendo que “la quinta pata sigue faltando”, y concluyó que “detectó el defecto pero ofrece la mejor imagen posible”
    • Cuando hay que superar conceptos que aparecen de forma desbalanceada en los datos de entrenamiento, al modelo le cuesta trabajo
      Por ejemplo, si intentas generar una araña a la que le falta una pata, una estrella de 9 puntas, un trébol de 5 hojas o personas con una cantidad distinta de dedos, la tasa de éxito no llega ni al 25%
      El problema de los dedos es especialmente irónico si se piensa en todo el esfuerzo que antes se hizo para corregir los errores anatómicos de SD 1.5
  • Trabajo con planos eléctricos de construcción y le lanzo tareas simples a los LLM
    Incluso dándole un harness bastante descuidado, casi de una sola vez completó la distribución de contactos en la habitación
    Si se afina un poco más el control, parece que pronto podrá reemplazar una parte considerable del trabajo de mis colegas

    • Ojalá existiera una varita mágica que hiciera menos dolorosas herramientas como AVEVA o AutoCAD
      Quien debería mejorar esas herramientas no es el ingeniero usuario, sino la propia empresa que las creó
      Depender de aceleradores de terceros con baja confiabilidad es arriesgado
    • Me gustaría ver un ejemplo del harness que usaste. Yo también quiero hacer pruebas
    • La frase “la IA nunca podrá reemplazar la creatividad humana” cada vez se siente más como una portería que se mueve
      El alcance se está expandiendo poco a poco: arte digital, gestión de proyectos, ingeniería e incluso trabajo manual
      Parece que nadie recuerda que antes la prueba de Turing era una discusión seria
  • Si la mejora en OCR se aplicara a Google Books, sería enorme
    A largo plazo, incluso podría permitir almacenar libros raros comprimidos por menos de $5,000
    También vale la pena ver esta entrada del blog de Anna’s Archive
    Ojalá archive.org usara esto en lugar de Tesseract. Aunque me pregunto cuánto costará

    • Esta es la estructura clásica de un data flywheel — mejores modelos → mejores datos → mejores modelos
    • “¡Más datos para el dios de los datos!”
  • Los resultados de ScreenSpot Pro son interesantes

    72.7% Gemini 3 Pro
    11.4% Gemini 2.5 Pro
    49.9% Claude Opus 4.5
    3.50% GPT-5.1
    

    Es una prueba de uso de computadora basada en GUI y de alta resolución
    Enlace al paper

    • Hace unos meses me sorprendió ver que GPT-5 mostraba un rendimiento muy bajo en una prueba simple de OCR frente a Opus 4.1 y Gemini 2.5
      Pienso volver a probar con modelos más recientes
      Blog relacionado
    • El resultado de GPT-5.1 es extremadamente bajo. ¿Será que el downscaling está causando pérdida de información?
    • Si esta tendencia sigue, pronto debería llegar a una precisión en los 90 y tantos por ciento
  • Aviso para quien escribió el artículo: el enlace de “HTML transcription” está roto
    Lleva a una dirección interna de Google

    • Da risa que el diseño del portal interno corporativo siga igual desde hace décadas. Ese estilo anticuado da nostalgia
    • Soy Rohan, el autor del artículo. Gracias por avisar, ya lo corregí
    • Sorprende que el enlace de ayuda de inicio de sesión se abra sin necesidad de iniciar sesión
    • El enlace “See prompt in Google AI Studio” también lleva a un prompt privado
  • Nano Banana Pro todavía no puede resolver perfectamente un sopa de letras
    En cambio, Gemini 3 Pro with Code Execution acertó la respuesta de una sola vez y hasta marcó correctamente la ubicación de las palabras
    Imagen del rompecabezas, Resultado de Nano Banana 1, Resultado 2
    Nano Banana solo acertó dos palabras, pero aun así es un gran avance frente a antes
    Es un problema que requiere preprocesamiento fino, como ajustar mayúsculas/minúsculas o eliminar espacios

    • Cuando uses la app web de Gemini, es mejor no empezar desde el modo de generación de imágenes, sino establecer primero un flujo de prompt preciso en el modo de conversación normal y luego pedir la generación de imagen
  • Decían que “Gemini 3 Pro es un salto generacional de reconocimiento simple a razonamiento espacial”, pero
    cuando le pedí una “copa de vino llena”, dibujó una copa llena solo a 2/3
    El verdadero razonamiento espacial todavía está lejos

    • Gemini 3 Pro es distinto de Nano Banana Pro, y la robustez del modelo de decodificación de imágenes puede ser menor
      Nano Banana Pro es mejor razonando en qué parte de la imagen está el error
    • Yo también probé el mismo prompt, y cuando una vez más le pedí “llénala hasta que esté a punto de desbordarse”, salió una copa perfectamente llena
    • Al revés, si le das una imagen y le preguntas “¿esta copa está llena?”, probablemente lo acierte bien. Qwen-VL ya funciona bien de esa manera
  • Este anuncio no trata de un modelo nuevo, sino solo de enfatizar casos reales de uso de visión en Gemini 3

  • Dicen que con la función de salida de coordenadas de Gemini 3 se pueden hacer estimación de pose o seguimiento de trayectorias,
    pero es una pena que no haya prompts concretos ni documentación

    • Quiero una función en un CMS que haga automáticamente el encuadre por proporción de las fotos
      Por ejemplo, ¿existirá algún modelo que recorte una foto en formato wide, cuadrado, vertical y 4:3? No encontré nada en Hugging Face
    • El blog relacionado de Simon Willison ayuda: Bounding Box Visualization
  • Si fuera posible tener YouTube con descripción de audio, sería realmente increíble
    Se podría escuchar un playthrough narrado donde Gemini describa las escenas sin necesidad de jugar directamente

    • Analicé un video de Zelda TOTK cada 5 segundos para crear una descripción narrativa por voz
      Video original, script, voz TTS
      Como era un video en 144p, los detalles finos se desviaron un poco, pero la descripción de escenas fue bastante precisa
    • También procesé un video de 1 hora de Witcher 3 en 144p, y se pudieron generar fácilmente descripciones por escena con unos 300,000 tokens
    • Subí a la app de Gemini los primeros 5 minutos del opening de Zelda: Breath of the Wild y pedí una descripción escena por escena
      Video original, gist con el resultado
      Fue bastante preciso como descripción para personas con discapacidad visual