6 puntos por GN⁺ 2025-01-24 | 1 comentarios | Compartir por WhatsApp
  • Operator, presentado recientemente por OpenAI, es un agente de IA que puede navegar por la web y realizar tareas de forma independiente
    • Usa su propio navegador para ver páginas web e interactuar mediante escritura, clics y desplazamiento
  • Está en etapa de vista previa de investigación, por lo que todavía tiene limitaciones y se espera que evolucione con la retroalimentación de los usuarios
  • Es una de las primeras IA capaces de realizar tareas de manera autónoma: el usuario le indica una tarea y esta la ejecuta
  • Busca ahorrar tiempo al encargarse de tareas repetitivas en el navegador, como llenar formularios, pedir comestibles o crear memes
  • Por ahora se está lanzando primero para usuarios Pro que residen en Estados Unidos, y más adelante podría llegar a las versiones Plus, Team y Enterprise, además de integrarse en ChatGPT

Cómo funciona Operator

  • Se basa en un nuevo modelo llamado Computer-Using Agent (CUA)
  • Combina las capacidades de visión de GPT-4o con un razonamiento avanzado basado en aprendizaje por refuerzo para poder interactuar con interfaces gráficas (botones, menús, campos de texto, etc.)
  • Puede "ver" la pantalla del navegador mediante capturas y realizar tareas manipulando mouse y teclado
  • Si encuentra errores o dificultades durante una tarea, usa razonamiento de autocorrección o, si hace falta, adopta un enfoque colaborativo cediendo el control al usuario
  • Está mostrando un alto rendimiento en benchmarks de uso del navegador como WebArena y WebVoyager; más detalles están disponibles en el blog de investigación

Cómo usarlo

  • Basta con describir brevemente la tarea deseada para que Operator la realice automáticamente
  • En cualquier momento, el usuario puede retomar el control del navegador de forma manual
  • En pasos sensibles como iniciar sesión, ingresar información de pago o resolver CAPTCHAs, Operator no actúa directamente y el usuario debe hacerlo por su cuenta
  • Es posible reflejar gustos o preferencias del usuario mediante configuraciones por sitio o globales
  • Se pueden guardar prompts favoritos para ejecutar rápidamente tareas frecuentes, como volver a pedir comestibles en Instacart
  • Puede manejar varias tareas al mismo tiempo, como si fueran múltiples pestañas, y permite separar sesiones de conversación para trabajar en distintas tareas en paralelo

Ecosistema y usuarios

  • Operator lleva a la IA más allá de ser una simple herramienta, convirtiéndola en un participante activo del ecosistema digital
  • OpenAI está colaborando con DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack y Uber, entre otros, para reflejar necesidades reales de los usuarios y estándares de la industria
  • También se está evaluando su aplicación en el sector público para mejorar la eficiencia y la accesibilidad, por ejemplo explorando usos en servicios administrativos de la ciudad con la City of Stockton
  • Daniel Danker, Chief Product Officer de Instacart, expresó una valoración positiva sobre la facilidad del proceso de compra mediante Operator

Seguridad y privacidad

  • Operator prioriza la seguridad y cuenta con tres capas de protección
    • Control guiado por el usuario: cuando se requiere ingresar información sensible (inicio de sesión, pago, etc.), Operator solicita takeover para que el usuario introduzca los datos directamente
    • Confirmación antes de acciones importantes: antes de acciones críticas como enviar un pedido o mandar un correo electrónico, solicita aprobación del usuario
    • Restricción de tareas: Operator fue entrenado para rechazar tareas de alta sensibilidad, como trámites bancarios o decisiones relacionadas con empleo
    • Al acceder a sitios sensibles, el usuario puede monitorear directamente el comportamiento de Operator mediante el modo Watch
  • Ofrece funciones de gestión de privacidad de datos
    • Si se desactiva "Improve the model for everyone", los datos de Operator tampoco se usan para entrenar el modelo
    • En la sección Privacy de la configuración se puede borrar fácilmente el historial de navegación, cerrar sesión en todos los sitios y eliminar el historial de conversaciones, entre otras acciones
  • También se aplican mecanismos de defensa para proteger a Operator frente a sitios web maliciosos
    • Está diseñado para detectar e ignorar prompts ocultos, código malicioso e intentos de phishing
    • Un modelo monitor dedicado vigila en tiempo real comportamientos sospechosos y puede detener la tarea cuando sea necesario
    • Mediante automatización y revisión humana, las protecciones se actualizan rápidamente al detectarse nuevas amenazas
  • Para evitar el uso indebido de la tecnología con fines dañinos, Operator rechaza ciertas solicitudes, y si las infracciones de políticas se repiten, pueden aplicarse advertencias o bloqueo de acceso
  • Como todavía está en etapa de vista previa de investigación, no es perfecto y seguirá mejorando con la retroalimentación del uso en el mundo real

Limitaciones

  • Operator todavía se encuentra en una etapa inicial y puede tener dificultades con tareas de interfaces complejas, como crear presentaciones o administrar calendarios
  • La retroalimentación de los usuarios se aprovechará como un recurso clave para mejorar precisión, estabilidad y seguridad

Próximos planes

  • Se planea ofrecer una API de CUA para que los desarrolladores tengan una base sobre la cual construir sus propios agentes
  • Se reforzará la capacidad de procesar tareas largas y flujos de trabajo complejos para seguir mejorando las funciones de Operator
  • Además de los usuarios Pro, se ampliará gradualmente a Plus, Team y Enterprise, y a largo plazo se planea integrar estas funciones en ChatGPT para soportar ejecución de tareas tanto en tiempo real como de forma asíncrona

1 comentarios

 
GN⁺ 2025-01-24
Opiniones en Hacker News
  • Muchas personas creen que empresas como OpenAI no están gastando dinero para ofrecer asistentes personales, sino para entrenar IA y así reducir costos laborales más adelante

    • Cuando la IA llegue a ser útil como asistente personal, esa función se lanzará a un precio que la persona promedio no podrá pagar
  • Las opiniones sobre el lanzamiento de OpenAI Operator están divididas

    • Hay posturas escépticas sobre sus funciones actuales, costo y posible sobreexpansión, pero también visiones positivas sobre la automatización de tareas y su potencial de mejora con el tiempo
    • También se discuten problemas éticos, privacidad e impacto en la industria
    • En general, hay un optimismo cauteloso, reconociendo tanto los desafíos como las posibles mejoras
  • Operator es similar a la demo de Computer Use de Claude de hace unos meses, y tiene una arquitectura que requiere ejecutar una VM además de una tendencia a ser inexacto

    • La implementación de Computer Use de Claude no generó un gran impacto en la industria de agentes de IA después de su anuncio
  • En una diapositiva sobre los riesgos de seguridad y mitigaciones de Operator aparece la expresión "el usuario está desalineado"

    • Hay quienes quieren ver más ejemplos de lo que OpenAI considera un usuario "desalineado"
  • Hay opiniones críticas sobre invertir 50 mil millones de dólares en tareas como crear memes

    • Se expresa decepción por no invertir en hacer de la Tierra un lugar mejor para vivir para la próxima generación
  • CogAgent: una alternativa de código abierto de China

    • Se proporcionan enlaces al paper, código y modelo
  • Existe la expectativa de que, si en el futuro los productos y modelos mejoran considerablemente, se podrá hablar con ChatGPT para que se encargue de tareas tediosas en la web, como reservar la cena, vuelos o comprar comestibles

    • Hay mucho entusiasmo por este tipo de funciones
  • Hay quienes opinan que empresas como Instacart o Doordash podrían abrir una nueva dirección de UI mediante optimización de marketing para LLM

    • Por ejemplo, si se le pide encontrar huevos nutritivos, el agente podría consultar la tabla nutricional para tomar una decisión
  • Hay opiniones de que resulta extraño que un "agente" use mouse y teclado para mirar píxeles

    • Se imagina un estándar en el que las apps y servicios expongan un conjunto de acciones preaprobadas que puedan realizar en nombre del usuario
    • Se propone el concepto de una "app store" que permita agregar o revocar permisos de usuario
  • Existe una fuerte creencia en la necesidad de usar Open APIs para agentes

    • Se argumenta que OpenAPI es el estándar de especificación perfecto para hacer posible un mundo abierto e internet para agentes
    • Cuando OpenAI lanzó GPT por primera vez, estaba basado en Open APIs, pero se ha ido alejando cada vez más
    • Esto parece un intento de controlar el mercado y de no basarse en estándares abiertos
    • Se considera algo muy lamentable