- Google presentó el modelo Computer Use basado en Gemini 2.5 Pro, para ayudar a los desarrolladores a crear agentes que manipulan directamente interfaces de usuario
- En benchmarks de control web y móvil, muestra un rendimiento más rápido y preciso que los modelos competidores, y está disponible en vista previa en Google AI Studio y Vertex AI
- El modelo toma como entrada capturas de pantalla, solicitudes del usuario e historial de acciones para generar automáticamente comandos de manipulación de UI como clics, escritura y desplazamiento
- Para garantizar la seguridad, incluye Per-step Safety Service y procedimientos de confirmación del usuario para prevenir uso indebido y amenazas de seguridad
- Ya se aplica en Project Mariner, Firebase Testing Agent y AI Mode in Search, entre otros, demostrando automatización a nivel de producción y mejoras en la eficiencia de pruebas
Resumen general
- Google DeepMind lanzó el modelo Gemini 2.5 Computer Use
- Es un modelo para agentes capaz de controlar directamente interfaces web y móviles, basado en las capacidades de comprensión visual y razonamiento de Gemini 2.5 Pro
- Va un paso más allá de la automatización tradicional basada en API al realizar interacciones con interfaces gráficas como llenar formularios, desplazarse y gestionar inicios de sesión
- Se ofrece en formato de vista previa a través de Google AI Studio y Vertex AI
Cómo funciona
- Opera en una estructura de bucle iterativo mediante la nueva herramienta
computer_use
- Entrada: solicitud del usuario, captura de pantalla de la UI actual e historial reciente de acciones
- Salida: llamadas a funciones de acciones de UI como clic, escritura y arrastre
- Algunas tareas de alto riesgo, como pagos, requieren un procedimiento de confirmación del usuario
- Después de cada acción, una nueva captura de pantalla y la URL se vuelven a enviar al modelo para ejecutar el siguiente paso
- Aunque está optimizado principalmente para entornos de navegador web, también muestra alto rendimiento en control de UI móvil
Rendimiento
- En evaluaciones de Browserbase y de Google, registró exactitud y latencia de nivel líder en la industria
- En benchmarks como Online-Mind2Web, mostró una respuesta más de 50% más rápida que los modelos competidores
- También mejoró la precisión para comprender el contexto en pantallas complejas, con un aumento de rendimiento de 18% reportado
- También incluye funciones para recuperarse automáticamente de fallos durante tareas de control de UI, lo que lo hace útil para la automatización de pruebas
Diseño de seguridad
- El modelo incluye funciones de seguridad integradas para evitar el uso indebido por parte de agentes
- Per-step Safety Service: valida las acciones propuestas por el modelo antes de ejecutarlas
- System Instructions: permite configurar reglas de confirmación del usuario o rechazo para ciertas tareas, como seguridad, medicina o CAPTCHA
- La guía para desarrolladores también ofrece recomendaciones adicionales de seguridad y aconseja realizar pruebas exhaustivas antes de usarlo en servicios reales
Casos de uso iniciales
- Equipos internos de Google lo adoptaron para automatización de pruebas de UI, reduciendo la tasa de fallos en 25%
- Ya se usa en entornos de producción reales como Project Mariner, Firebase Testing Agent y AI Mode in Search
- Evaluaciones de usuarios externos tempranos también reportaron mejoras en la confiabilidad del parsing de datos y en la velocidad de ejecución
- Ejemplo: Autotab mejoró en 18% la precisión al manejar contextos complejos
- La plataforma de pagos de Google logró recuperación automática en 60% de las pruebas fallidas
Primeros pasos
- El modelo está disponible como vista previa pública y se puede acceder a él desde los siguientes canales
- Los desarrolladores pueden usar la referencia en GitHub y la documentación para configurar el bucle del agente en Playwright o en entornos de VM en la nube
- La retroalimentación se está recopilando en el Developer Forum
2 comentarios
Opiniones de Hacker News
Hace tiempo, mientras esperaba en una carretera de dos carriles con semáforo, pensé que si no había autos en la vía principal se podría cambiar la luz más rápido con un sistema de cámaras de visión por computadora
Pero en ese momento la visión por computadora no estaba lo suficientemente madura, y luego descubrí que se podían detectar autos con sensores magnéticos
Era un problema que se podía resolver fácilmente con hardware y software mucho más simples, y el método que imaginé era una solución demasiado compleja y cara
Al usar computadoras, yo también creía que el ML/AI debía optimizarse para datos estructurados
Pero el mundo se volvió más complejo y las computadoras son más rápidas, así que ahora es más realista que la AI vea la pantalla, mueva el mouse y haga clic
Ahora las cámaras de visión por computadora se usan de forma generalizada
Como los sensores magnéticos no detectan bien a quienes van en bicicleta, hoy en día suelen preferirse las cámaras
Desde la perspectiva del área de tránsito de la ciudad, las cámaras también pueden usarse como herramienta para monitorear la congestión, así que cada vez son más populares
En mi zona implementaron de noche un sistema simple con un sensor de luz en el semáforo, de modo que si enciendes las luces altas al acercarte, la señal cambia
Si no, la vía principal se quedaba con luz verde toda la noche
La idea era que la luz solo cambiara cuando un auto llegara al cruce y emitiera la señal de luces altas o fuera detectado por flujo magnético
Ando mucho en bicicleta, y cuando estoy afuera me resulta muy útil escuchar podcasts y decir "Hey Google, retrocede 30 segundos" para volver a oír algo o saltarme anuncios
En interiores, normalmente veo programas de TV o videos de YouTube por casting
A veces quiero cambiar el video de YouTube, pero por voz YouTube apenas funciona y los resultados son malos
Con otros servicios, los comandos de voz son casi imposibles
En un mundo ideal, Google ofrecería una gran API para este tipo de integración y todas las apps la aprovecharían bien
Si se pudiera saltar todo ese proceso y aun así obtener excelentes resultados, para mí sería una experiencia muy valiosa
Puede que sea un caso de uso que solo me importe a mí, pero es una parte que realmente me entusiasma
El uso de la computadora es el benchmark más importante para predecir el impacto de la AI en el mercado laboral
Hay muchas mejores formas para que el ML/AI realice eficientemente distintas tareas en la computadora
Pero todos esos métodos tienen que diseñarse individualmente para cada tipo de trabajo
Un enfoque generalizado es, justamente, el camino más escalable
Como referencia, este tipo de cámaras de tráfico ya se usa comúnmente
https://www.milesight.com/company/blog/types-of-traffic-cameras
Durante mucho tiempo me enfoqué en la idea de "convertir todo en objetos de base de datos" para automatizar trabajo manual repetitivo
Veía que una computadora podía hacer muchísimas cosas con mínima intervención humana
También dediqué mucho esfuerzo al machine learning
Pero la verdad es que nunca se me ocurrió que se pudiera hacer que la computadora trabajara como un humano usando directamente datos semiestructurados del mundo humano, como el buffer de pantalla, y operando con mouse y teclado
Claro que apoyo totalmente esta idea
Creo que dentro de 10 años podría llegar una época en la que una computadora abra Chrome, converse en videollamadas y haga trabajo sin que la otra parte note en absoluto que está hablando con una computadora
La razón por la que la AI tiene éxito frente a métodos "teóricamente mejores" es que resuelve un problema fundamentalmente "social"
El ecosistema de cómputo es más competitivo y defensivo que cooperativo
La propia estructura está diseñada para impedir la automatización de la mayor parte del trabajo manual aburrido, y ese diseño es clave para ganar dinero en internet
Si la gente pudiera automatizar y así evitar estímulos de compra o exposición a anuncios, los ingresos caerían
Hubo un debate parecido en robótica
"¿Por qué insistir en construir robots con forma humana, si podrían existir formas más eficientes?" era una duda muy común
Pero al final, para que una herramienta sea adoptada masivamente, aunque sea ineficiente tiene que estar diseñada para encajar en entornos centrados en humanos
Las aplicaciones orientadas al rendimiento requieren diseño a medida y optimización, pero para una difusión masiva hace falta adaptarse al ser humano
Esta mañana estaba pensando en apps de citas y me vino a la mente ese último punto
Si "mi chatgpt" pudiera representarme lo bastante bien, creo que sería posible hacer matching en apps de citas mediante una especie de reunión previa entre el chatgpt de una persona y el de la otra
Hace poco escuché hablar de "digital twins" en un keynote empresarial, y siento que esto corresponde a esa idea
Todavía es muy pronto para sacar conclusiones sobre esta parte, pero me da curiosidad hasta dónde puede llegar
Me pregunto si de verdad te parece un buen resultado que una computadora abra Chrome, haga videollamadas y realice tareas como una persona sin que la otra parte note que es una computadora
Técnicamente sería un logro enorme e impresionante, pero deja una sensación rara
Llevo un tiempo usando Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) y logré automatizar el navegador con Gemini CLI
Por eso creo que este modelo probablemente muestre un mejor rendimiento
Tengo curiosidad por saber qué tareas de automatización lograste completar con éxito usando MCP
Este enfoque no tiene absolutamente nada que ver con el modelo necesario para uso de computadora
Solo usa herramientas predefinidas que Google ofrece en el servidor MCP; no es un modelo de propósito general aplicable a cualquier software
Si alguien tiene un caso de uso real más rápido que UX, me gustaría conocerlo
No termino de imaginar bien cómo debería usarse esto
Viendo toda la inversión que se está haciendo, claramente debe haber algo que yo no estoy viendo
La tecnología y la capacidad en sí son impresionantes, pero tengo curiosidad por ejemplos concretos de uso
Si le pides a un bot de navegador que resuelva el Wordle de hoy, puede pasar que no logre adivinar la respuesta porque no puede ver el feedback del color de las letras (verde, amarillo, gris)
Puede escribir palabras, pero dicen que no puede interpretar ese feedback
Gemini logró pasar con éxito el captcha en https://www.google.com/recaptcha/api2/demo
Edición del post: en realidad yo había entendido mal, y quien resolvió el Google CAPTCHA no fue Gemini sino Browserbase
Más detalles aquí
La automatización corre sobre Browserbase, y Browserbase incluye un captcha solver
No está claro si es automático o si interviene una persona
Puede que haya pasado porque el intento se hizo desde una IP de la propia red de Google
(Solo probé el demo de Browserbase)
Saber que algo es posible en teoría y verlo realmente iniciar sesión en un sitio, hacer scroll y publicar algo con una instrucción corta son experiencias totalmente distintas
Hoy en Wordle yo también cometí exactamente el mismo error en el segundo intento y terminé empatando
Me dio un poco de pena que no se pudiera conversar mientras estaba trabajando
Este tipo de funcionalidad necesariamente necesita hooks/callbacks o algo por el estilo para governance en sistemas enterprise
En sistemas basados en UI, el manejo de hooks/eventos de agente es mucho más difícil
Ver enlaces relacionados: documentación de hooks de claude code, documentación de callbacks de google adk
Sabiendo con qué frecuencia Claude Code ignora los hooks, termina el cómputo y no usa el resultado, creo que la idea de "gobernanza" es casi imposible
Los LLM son más impredecibles y mucho más difíciles de controlar de lo que la gente cree
He visto que siguen adelante aunque una prueba fallida diga claramente "no continuar"
Al final, lo único que de verdad puede bloquearlos con certeza es un hook teóricamente realmente peligroso tipo "claude-killing"
Trabajo en el producto de identidad de Browserbase
Últimamente he estado pensando en cómo introducir RBAC (control de acceso basado en roles) en toda la web
Me pregunto si los callbacks podrían ayudar con ese enfoque
Al ver la frase "el control a nivel de OS aún no está optimizado", pensé que AGI todavía no ha llegado
Si existiera este nivel de control del OS y además el costo de usar LLM fuera razonable, creo que podríamos empezar a acercarnos a algo parecido a AGI
Curiosamente, la mayoría de las personas tampoco maneja bien una computadora
Me da la impresión de que es realmente imposible definir qué significa "inteligencia"
Me gustaría saber por qué piensas que el control completo del OS sería un punto de inflexión hacia AGI (inteligencia artificial general)
Irónicamente, la mayoría de las empresas tecnológicas gana dinero obligando a los usuarios a pasar por información inútil
Por ejemplo, si pudieras navegar internet libremente sin anuncios, o si en Twitter pudieras ver solo el contenido que quieres sin algoritmos inútiles, ¿quién no lo usaría?