Presentan el modelo Gemini 2.5 Computer Use: IA para agentes que manipulan la UI directamente

(blog.google)

4 puntos por GN⁺ 2025-10-08 | 2 comentarios | Compartir por WhatsApp

Google presentó el modelo Computer Use basado en Gemini 2.5 Pro, para ayudar a los desarrolladores a crear agentes que manipulan directamente interfaces de usuario
En benchmarks de control web y móvil, muestra un rendimiento más rápido y preciso que los modelos competidores, y está disponible en vista previa en Google AI Studio y Vertex AI
El modelo toma como entrada capturas de pantalla, solicitudes del usuario e historial de acciones para generar automáticamente comandos de manipulación de UI como clics, escritura y desplazamiento
Para garantizar la seguridad, incluye Per-step Safety Service y procedimientos de confirmación del usuario para prevenir uso indebido y amenazas de seguridad
Ya se aplica en Project Mariner, Firebase Testing Agent y AI Mode in Search, entre otros, demostrando automatización a nivel de producción y mejoras en la eficiencia de pruebas

Resumen general

Google DeepMind lanzó el modelo Gemini 2.5 Computer Use
- Es un modelo para agentes capaz de controlar directamente interfaces web y móviles, basado en las capacidades de comprensión visual y razonamiento de Gemini 2.5 Pro
- Va un paso más allá de la automatización tradicional basada en API al realizar interacciones con interfaces gráficas como llenar formularios, desplazarse y gestionar inicios de sesión
- Se ofrece en formato de vista previa a través de Google AI Studio y Vertex AI

Cómo funciona

Opera en una estructura de bucle iterativo mediante la nueva herramienta computer_use
- Entrada: solicitud del usuario, captura de pantalla de la UI actual e historial reciente de acciones
- Salida: llamadas a funciones de acciones de UI como clic, escritura y arrastre
- Algunas tareas de alto riesgo, como pagos, requieren un procedimiento de confirmación del usuario
Después de cada acción, una nueva captura de pantalla y la URL se vuelven a enviar al modelo para ejecutar el siguiente paso
Aunque está optimizado principalmente para entornos de navegador web, también muestra alto rendimiento en control de UI móvil

Rendimiento

En evaluaciones de Browserbase y de Google, registró exactitud y latencia de nivel líder en la industria
- En benchmarks como Online-Mind2Web, mostró una respuesta más de 50% más rápida que los modelos competidores
- También mejoró la precisión para comprender el contexto en pantallas complejas, con un aumento de rendimiento de 18% reportado
También incluye funciones para recuperarse automáticamente de fallos durante tareas de control de UI, lo que lo hace útil para la automatización de pruebas

Diseño de seguridad

El modelo incluye funciones de seguridad integradas para evitar el uso indebido por parte de agentes
- Per-step Safety Service: valida las acciones propuestas por el modelo antes de ejecutarlas
- System Instructions: permite configurar reglas de confirmación del usuario o rechazo para ciertas tareas, como seguridad, medicina o CAPTCHA
La guía para desarrolladores también ofrece recomendaciones adicionales de seguridad y aconseja realizar pruebas exhaustivas antes de usarlo en servicios reales

Casos de uso iniciales

Equipos internos de Google lo adoptaron para automatización de pruebas de UI, reduciendo la tasa de fallos en 25%
Ya se usa en entornos de producción reales como Project Mariner, Firebase Testing Agent y AI Mode in Search
Evaluaciones de usuarios externos tempranos también reportaron mejoras en la confiabilidad del parsing de datos y en la velocidad de ejecución
- Ejemplo: Autotab mejoró en 18% la precisión al manejar contextos complejos
- La plataforma de pagos de Google logró recuperación automática en 60% de las pruebas fallidas

Primeros pasos

El modelo está disponible como vista previa pública y se puede acceder a él desde los siguientes canales
- Google AI Studio
- Vertex AI
- Se puede probar en tiempo real en el entorno demo de Browserbase
Los desarrolladores pueden usar la referencia en GitHub y la documentación para configurar el bucle del agente en Playwright o en entornos de VM en la nube
La retroalimentación se está recopilando en el Developer Forum

2 comentarios

GN⁺ 2025-10-08

Opiniones de Hacker News

Hace tiempo, mientras esperaba en una carretera de dos carriles con semáforo, pensé que si no había autos en la vía principal se podría cambiar la luz más rápido con un sistema de cámaras de visión por computadora
Pero en ese momento la visión por computadora no estaba lo suficientemente madura, y luego descubrí que se podían detectar autos con sensores magnéticos
Era un problema que se podía resolver fácilmente con hardware y software mucho más simples, y el método que imaginé era una solución demasiado compleja y cara
Al usar computadoras, yo también creía que el ML/AI debía optimizarse para datos estructurados
Pero el mundo se volvió más complejo y las computadoras son más rápidas, así que ahora es más realista que la AI vea la pantalla, mueva el mouse y haga clic
- Ahora las cámaras de visión por computadora se usan de forma generalizada
  Como los sensores magnéticos no detectan bien a quienes van en bicicleta, hoy en día suelen preferirse las cámaras
  Desde la perspectiva del área de tránsito de la ciudad, las cámaras también pueden usarse como herramienta para monitorear la congestión, así que cada vez son más populares
- En mi zona implementaron de noche un sistema simple con un sensor de luz en el semáforo, de modo que si enciendes las luces altas al acercarte, la señal cambia
  Si no, la vía principal se quedaba con luz verde toda la noche
  La idea era que la luz solo cambiara cuando un auto llegara al cruce y emitiera la señal de luces altas o fuera detectado por flujo magnético
- Ando mucho en bicicleta, y cuando estoy afuera me resulta muy útil escuchar podcasts y decir "Hey Google, retrocede 30 segundos" para volver a oír algo o saltarme anuncios
  En interiores, normalmente veo programas de TV o videos de YouTube por casting
  A veces quiero cambiar el video de YouTube, pero por voz YouTube apenas funciona y los resultados son malos
  Con otros servicios, los comandos de voz son casi imposibles
  En un mundo ideal, Google ofrecería una gran API para este tipo de integración y todas las apps la aprovecharían bien
  Si se pudiera saltar todo ese proceso y aun así obtener excelentes resultados, para mí sería una experiencia muy valiosa
  Puede que sea un caso de uso que solo me importe a mí, pero es una parte que realmente me entusiasma
- El uso de la computadora es el benchmark más importante para predecir el impacto de la AI en el mercado laboral
  Hay muchas mejores formas para que el ML/AI realice eficientemente distintas tareas en la computadora
  Pero todos esos métodos tienen que diseñarse individualmente para cada tipo de trabajo
  Un enfoque generalizado es, justamente, el camino más escalable
- Como referencia, este tipo de cámaras de tráfico ya se usa comúnmente
  https://www.milesight.com/company/blog/types-of-traffic-cameras
Durante mucho tiempo me enfoqué en la idea de "convertir todo en objetos de base de datos" para automatizar trabajo manual repetitivo
Veía que una computadora podía hacer muchísimas cosas con mínima intervención humana
También dediqué mucho esfuerzo al machine learning
Pero la verdad es que nunca se me ocurrió que se pudiera hacer que la computadora trabajara como un humano usando directamente datos semiestructurados del mundo humano, como el buffer de pantalla, y operando con mouse y teclado
Claro que apoyo totalmente esta idea
Creo que dentro de 10 años podría llegar una época en la que una computadora abra Chrome, converse en videollamadas y haga trabajo sin que la otra parte note en absoluto que está hablando con una computadora
- La razón por la que la AI tiene éxito frente a métodos "teóricamente mejores" es que resuelve un problema fundamentalmente "social"
  El ecosistema de cómputo es más competitivo y defensivo que cooperativo
  La propia estructura está diseñada para impedir la automatización de la mayor parte del trabajo manual aburrido, y ese diseño es clave para ganar dinero en internet
  Si la gente pudiera automatizar y así evitar estímulos de compra o exposición a anuncios, los ingresos caerían
- Hubo un debate parecido en robótica
  "¿Por qué insistir en construir robots con forma humana, si podrían existir formas más eficientes?" era una duda muy común
  Pero al final, para que una herramienta sea adoptada masivamente, aunque sea ineficiente tiene que estar diseñada para encajar en entornos centrados en humanos
  Las aplicaciones orientadas al rendimiento requieren diseño a medida y optimización, pero para una difusión masiva hace falta adaptarse al ser humano
- Esta mañana estaba pensando en apps de citas y me vino a la mente ese último punto
  Si "mi chatgpt" pudiera representarme lo bastante bien, creo que sería posible hacer matching en apps de citas mediante una especie de reunión previa entre el chatgpt de una persona y el de la otra
  Hace poco escuché hablar de "digital twins" en un keynote empresarial, y siento que esto corresponde a esa idea
  Todavía es muy pronto para sacar conclusiones sobre esta parte, pero me da curiosidad hasta dónde puede llegar
- Me pregunto si de verdad te parece un buen resultado que una computadora abra Chrome, haga videollamadas y realice tareas como una persona sin que la otra parte note que es una computadora
  Técnicamente sería un logro enorme e impresionante, pero deja una sensación rara
Llevo un tiempo usando Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) y logré automatizar el navegador con Gemini CLI
Por eso creo que este modelo probablemente muestre un mejor rendimiento
- Tengo curiosidad por saber qué tareas de automatización lograste completar con éxito usando MCP
- Este enfoque no tiene absolutamente nada que ver con el modelo necesario para uso de computadora
  Solo usa herramientas predefinidas que Google ofrece en el servidor MCP; no es un modelo de propósito general aplicable a cualquier software
Si alguien tiene un caso de uso real más rápido que UX, me gustaría conocerlo
No termino de imaginar bien cómo debería usarse esto
Viendo toda la inversión que se está haciendo, claramente debe haber algo que yo no estoy viendo
La tecnología y la capacidad en sí son impresionantes, pero tengo curiosidad por ejemplos concretos de uso
Si le pides a un bot de navegador que resuelva el Wordle de hoy, puede pasar que no logre adivinar la respuesta porque no puede ver el feedback del color de las letras (verde, amarillo, gris)
Puede escribir palabras, pero dicen que no puede interpretar ese feedback
- Me pregunto si estará navegando la web en blanco y negro
Gemini logró pasar con éxito el captcha en https://www.google.com/recaptcha/api2/demo
- Edición del post: en realidad yo había entendido mal, y quien resolvió el Google CAPTCHA no fue Gemini sino Browserbase
  Más detalles aquí
- La automatización corre sobre Browserbase, y Browserbase incluye un captcha solver
  No está claro si es automático o si interviene una persona
- Puede que haya pasado porque el intento se hizo desde una IP de la propia red de Google
(Solo probé el demo de Browserbase)
Saber que algo es posible en teoría y verlo realmente iniciar sesión en un sitio, hacer scroll y publicar algo con una instrucción corta son experiencias totalmente distintas
Hoy en Wordle yo también cometí exactamente el mismo error en el segundo intento y terminé empatando
Me dio un poco de pena que no se pudiera conversar mientras estaba trabajando
Este tipo de funcionalidad necesariamente necesita hooks/callbacks o algo por el estilo para governance en sistemas enterprise
En sistemas basados en UI, el manejo de hooks/eventos de agente es mucho más difícil
Ver enlaces relacionados: documentación de hooks de claude code, documentación de callbacks de google adk
- Sabiendo con qué frecuencia Claude Code ignora los hooks, termina el cómputo y no usa el resultado, creo que la idea de "gobernanza" es casi imposible
  Los LLM son más impredecibles y mucho más difíciles de controlar de lo que la gente cree
  He visto que siguen adelante aunque una prueba fallida diga claramente "no continuar"
  Al final, lo único que de verdad puede bloquearlos con certeza es un hook teóricamente realmente peligroso tipo "claude-killing"
- Trabajo en el producto de identidad de Browserbase
  Últimamente he estado pensando en cómo introducir RBAC (control de acceso basado en roles) en toda la web
  Me pregunto si los callbacks podrían ayudar con ese enfoque
Al ver la frase "el control a nivel de OS aún no está optimizado", pensé que AGI todavía no ha llegado
Si existiera este nivel de control del OS y además el costo de usar LLM fuera razonable, creo que podríamos empezar a acercarnos a algo parecido a AGI
- Curiosamente, la mayoría de las personas tampoco maneja bien una computadora
  Me da la impresión de que es realmente imposible definir qué significa "inteligencia"
- Me gustaría saber por qué piensas que el control completo del OS sería un punto de inflexión hacia AGI (inteligencia artificial general)
Irónicamente, la mayoría de las empresas tecnológicas gana dinero obligando a los usuarios a pasar por información inútil
Por ejemplo, si pudieras navegar internet libremente sin anuncios, o si en Twitter pudieras ver solo el contenido que quieres sin algoritmos inútiles, ¿quién no lo usaría?

2025-10-09

[Este comentario fue ocultado.]

Presentan el modelo Gemini 2.5 Computer Use: IA para agentes que manipulan la UI directamente

Resumen general

Cómo funciona

Rendimiento

Diseño de seguridad

Casos de uso iniciales

Primeros pasos

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News