4 puntos por GN⁺ 2025-10-08 | 2 comentarios | Compartir por WhatsApp
  • Google presentó el modelo Computer Use basado en Gemini 2.5 Pro, para ayudar a los desarrolladores a crear agentes que manipulan directamente interfaces de usuario
  • En benchmarks de control web y móvil, muestra un rendimiento más rápido y preciso que los modelos competidores, y está disponible en vista previa en Google AI Studio y Vertex AI
  • El modelo toma como entrada capturas de pantalla, solicitudes del usuario e historial de acciones para generar automáticamente comandos de manipulación de UI como clics, escritura y desplazamiento
  • Para garantizar la seguridad, incluye Per-step Safety Service y procedimientos de confirmación del usuario para prevenir uso indebido y amenazas de seguridad
  • Ya se aplica en Project Mariner, Firebase Testing Agent y AI Mode in Search, entre otros, demostrando automatización a nivel de producción y mejoras en la eficiencia de pruebas

Resumen general

  • Google DeepMind lanzó el modelo Gemini 2.5 Computer Use
    • Es un modelo para agentes capaz de controlar directamente interfaces web y móviles, basado en las capacidades de comprensión visual y razonamiento de Gemini 2.5 Pro
    • Va un paso más allá de la automatización tradicional basada en API al realizar interacciones con interfaces gráficas como llenar formularios, desplazarse y gestionar inicios de sesión
    • Se ofrece en formato de vista previa a través de Google AI Studio y Vertex AI

Cómo funciona

  • Opera en una estructura de bucle iterativo mediante la nueva herramienta computer_use
    • Entrada: solicitud del usuario, captura de pantalla de la UI actual e historial reciente de acciones
    • Salida: llamadas a funciones de acciones de UI como clic, escritura y arrastre
    • Algunas tareas de alto riesgo, como pagos, requieren un procedimiento de confirmación del usuario
  • Después de cada acción, una nueva captura de pantalla y la URL se vuelven a enviar al modelo para ejecutar el siguiente paso
  • Aunque está optimizado principalmente para entornos de navegador web, también muestra alto rendimiento en control de UI móvil

Rendimiento

  • En evaluaciones de Browserbase y de Google, registró exactitud y latencia de nivel líder en la industria
    • En benchmarks como Online-Mind2Web, mostró una respuesta más de 50% más rápida que los modelos competidores
    • También mejoró la precisión para comprender el contexto en pantallas complejas, con un aumento de rendimiento de 18% reportado
  • También incluye funciones para recuperarse automáticamente de fallos durante tareas de control de UI, lo que lo hace útil para la automatización de pruebas

Diseño de seguridad

  • El modelo incluye funciones de seguridad integradas para evitar el uso indebido por parte de agentes
    • Per-step Safety Service: valida las acciones propuestas por el modelo antes de ejecutarlas
    • System Instructions: permite configurar reglas de confirmación del usuario o rechazo para ciertas tareas, como seguridad, medicina o CAPTCHA
  • La guía para desarrolladores también ofrece recomendaciones adicionales de seguridad y aconseja realizar pruebas exhaustivas antes de usarlo en servicios reales

Casos de uso iniciales

  • Equipos internos de Google lo adoptaron para automatización de pruebas de UI, reduciendo la tasa de fallos en 25%
  • Ya se usa en entornos de producción reales como Project Mariner, Firebase Testing Agent y AI Mode in Search
  • Evaluaciones de usuarios externos tempranos también reportaron mejoras en la confiabilidad del parsing de datos y en la velocidad de ejecución
    • Ejemplo: Autotab mejoró en 18% la precisión al manejar contextos complejos
    • La plataforma de pagos de Google logró recuperación automática en 60% de las pruebas fallidas

Primeros pasos

2 comentarios

 
GN⁺ 2025-10-08
Opiniones de Hacker News
  • Hace tiempo, mientras esperaba en una carretera de dos carriles con semáforo, pensé que si no había autos en la vía principal se podría cambiar la luz más rápido con un sistema de cámaras de visión por computadora
    Pero en ese momento la visión por computadora no estaba lo suficientemente madura, y luego descubrí que se podían detectar autos con sensores magnéticos
    Era un problema que se podía resolver fácilmente con hardware y software mucho más simples, y el método que imaginé era una solución demasiado compleja y cara
    Al usar computadoras, yo también creía que el ML/AI debía optimizarse para datos estructurados
    Pero el mundo se volvió más complejo y las computadoras son más rápidas, así que ahora es más realista que la AI vea la pantalla, mueva el mouse y haga clic

    • Ahora las cámaras de visión por computadora se usan de forma generalizada
      Como los sensores magnéticos no detectan bien a quienes van en bicicleta, hoy en día suelen preferirse las cámaras
      Desde la perspectiva del área de tránsito de la ciudad, las cámaras también pueden usarse como herramienta para monitorear la congestión, así que cada vez son más populares

    • En mi zona implementaron de noche un sistema simple con un sensor de luz en el semáforo, de modo que si enciendes las luces altas al acercarte, la señal cambia
      Si no, la vía principal se quedaba con luz verde toda la noche
      La idea era que la luz solo cambiara cuando un auto llegara al cruce y emitiera la señal de luces altas o fuera detectado por flujo magnético

    • Ando mucho en bicicleta, y cuando estoy afuera me resulta muy útil escuchar podcasts y decir "Hey Google, retrocede 30 segundos" para volver a oír algo o saltarme anuncios
      En interiores, normalmente veo programas de TV o videos de YouTube por casting
      A veces quiero cambiar el video de YouTube, pero por voz YouTube apenas funciona y los resultados son malos
      Con otros servicios, los comandos de voz son casi imposibles
      En un mundo ideal, Google ofrecería una gran API para este tipo de integración y todas las apps la aprovecharían bien
      Si se pudiera saltar todo ese proceso y aun así obtener excelentes resultados, para mí sería una experiencia muy valiosa
      Puede que sea un caso de uso que solo me importe a mí, pero es una parte que realmente me entusiasma

    • El uso de la computadora es el benchmark más importante para predecir el impacto de la AI en el mercado laboral
      Hay muchas mejores formas para que el ML/AI realice eficientemente distintas tareas en la computadora
      Pero todos esos métodos tienen que diseñarse individualmente para cada tipo de trabajo
      Un enfoque generalizado es, justamente, el camino más escalable

    • Como referencia, este tipo de cámaras de tráfico ya se usa comúnmente
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • Durante mucho tiempo me enfoqué en la idea de "convertir todo en objetos de base de datos" para automatizar trabajo manual repetitivo
    Veía que una computadora podía hacer muchísimas cosas con mínima intervención humana
    También dediqué mucho esfuerzo al machine learning
    Pero la verdad es que nunca se me ocurrió que se pudiera hacer que la computadora trabajara como un humano usando directamente datos semiestructurados del mundo humano, como el buffer de pantalla, y operando con mouse y teclado
    Claro que apoyo totalmente esta idea
    Creo que dentro de 10 años podría llegar una época en la que una computadora abra Chrome, converse en videollamadas y haga trabajo sin que la otra parte note en absoluto que está hablando con una computadora

    • La razón por la que la AI tiene éxito frente a métodos "teóricamente mejores" es que resuelve un problema fundamentalmente "social"
      El ecosistema de cómputo es más competitivo y defensivo que cooperativo
      La propia estructura está diseñada para impedir la automatización de la mayor parte del trabajo manual aburrido, y ese diseño es clave para ganar dinero en internet
      Si la gente pudiera automatizar y así evitar estímulos de compra o exposición a anuncios, los ingresos caerían

    • Hubo un debate parecido en robótica
      "¿Por qué insistir en construir robots con forma humana, si podrían existir formas más eficientes?" era una duda muy común
      Pero al final, para que una herramienta sea adoptada masivamente, aunque sea ineficiente tiene que estar diseñada para encajar en entornos centrados en humanos
      Las aplicaciones orientadas al rendimiento requieren diseño a medida y optimización, pero para una difusión masiva hace falta adaptarse al ser humano

    • Esta mañana estaba pensando en apps de citas y me vino a la mente ese último punto
      Si "mi chatgpt" pudiera representarme lo bastante bien, creo que sería posible hacer matching en apps de citas mediante una especie de reunión previa entre el chatgpt de una persona y el de la otra
      Hace poco escuché hablar de "digital twins" en un keynote empresarial, y siento que esto corresponde a esa idea
      Todavía es muy pronto para sacar conclusiones sobre esta parte, pero me da curiosidad hasta dónde puede llegar

    • Me pregunto si de verdad te parece un buen resultado que una computadora abra Chrome, haga videollamadas y realice tareas como una persona sin que la otra parte note que es una computadora
      Técnicamente sería un logro enorme e impresionante, pero deja una sensación rara

  • Llevo un tiempo usando Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) y logré automatizar el navegador con Gemini CLI
    Por eso creo que este modelo probablemente muestre un mejor rendimiento

    • Tengo curiosidad por saber qué tareas de automatización lograste completar con éxito usando MCP

    • Este enfoque no tiene absolutamente nada que ver con el modelo necesario para uso de computadora
      Solo usa herramientas predefinidas que Google ofrece en el servidor MCP; no es un modelo de propósito general aplicable a cualquier software

  • Si alguien tiene un caso de uso real más rápido que UX, me gustaría conocerlo
    No termino de imaginar bien cómo debería usarse esto
    Viendo toda la inversión que se está haciendo, claramente debe haber algo que yo no estoy viendo
    La tecnología y la capacidad en sí son impresionantes, pero tengo curiosidad por ejemplos concretos de uso

  • Si le pides a un bot de navegador que resuelva el Wordle de hoy, puede pasar que no logre adivinar la respuesta porque no puede ver el feedback del color de las letras (verde, amarillo, gris)
    Puede escribir palabras, pero dicen que no puede interpretar ese feedback

    • Me pregunto si estará navegando la web en blanco y negro
  • Gemini logró pasar con éxito el captcha en https://www.google.com/recaptcha/api2/demo

    • Edición del post: en realidad yo había entendido mal, y quien resolvió el Google CAPTCHA no fue Gemini sino Browserbase
      Más detalles aquí

    • La automatización corre sobre Browserbase, y Browserbase incluye un captcha solver
      No está claro si es automático o si interviene una persona

    • Puede que haya pasado porque el intento se hizo desde una IP de la propia red de Google

  • (Solo probé el demo de Browserbase)
    Saber que algo es posible en teoría y verlo realmente iniciar sesión en un sitio, hacer scroll y publicar algo con una instrucción corta son experiencias totalmente distintas
    Hoy en Wordle yo también cometí exactamente el mismo error en el segundo intento y terminé empatando
    Me dio un poco de pena que no se pudiera conversar mientras estaba trabajando

  • Este tipo de funcionalidad necesariamente necesita hooks/callbacks o algo por el estilo para governance en sistemas enterprise
    En sistemas basados en UI, el manejo de hooks/eventos de agente es mucho más difícil
    Ver enlaces relacionados: documentación de hooks de claude code, documentación de callbacks de google adk

    • Sabiendo con qué frecuencia Claude Code ignora los hooks, termina el cómputo y no usa el resultado, creo que la idea de "gobernanza" es casi imposible
      Los LLM son más impredecibles y mucho más difíciles de controlar de lo que la gente cree
      He visto que siguen adelante aunque una prueba fallida diga claramente "no continuar"
      Al final, lo único que de verdad puede bloquearlos con certeza es un hook teóricamente realmente peligroso tipo "claude-killing"

    • Trabajo en el producto de identidad de Browserbase
      Últimamente he estado pensando en cómo introducir RBAC (control de acceso basado en roles) en toda la web
      Me pregunto si los callbacks podrían ayudar con ese enfoque

  • Al ver la frase "el control a nivel de OS aún no está optimizado", pensé que AGI todavía no ha llegado
    Si existiera este nivel de control del OS y además el costo de usar LLM fuera razonable, creo que podríamos empezar a acercarnos a algo parecido a AGI

    • Curiosamente, la mayoría de las personas tampoco maneja bien una computadora
      Me da la impresión de que es realmente imposible definir qué significa "inteligencia"

    • Me gustaría saber por qué piensas que el control completo del OS sería un punto de inflexión hacia AGI (inteligencia artificial general)

  • Irónicamente, la mayoría de las empresas tecnológicas gana dinero obligando a los usuarios a pasar por información inútil
    Por ejemplo, si pudieras navegar internet libremente sin anuncios, o si en Twitter pudieras ver solo el contenido que quieres sin algoritmos inútiles, ¿quién no lo usaría?

 
[Este comentario fue ocultado.]