- Operator, presentado recientemente por OpenAI, es un agente de IA que puede navegar por la web y realizar tareas de forma independiente
- Usa su propio navegador para ver páginas web e interactuar mediante escritura, clics y desplazamiento
- Está en etapa de vista previa de investigación, por lo que todavía tiene limitaciones y se espera que evolucione con la retroalimentación de los usuarios
- Es una de las primeras IA capaces de realizar tareas de manera autónoma: el usuario le indica una tarea y esta la ejecuta
- Busca ahorrar tiempo al encargarse de tareas repetitivas en el navegador, como llenar formularios, pedir comestibles o crear memes
- Por ahora se está lanzando primero para usuarios Pro que residen en Estados Unidos, y más adelante podría llegar a las versiones Plus, Team y Enterprise, además de integrarse en ChatGPT
Cómo funciona Operator
- Se basa en un nuevo modelo llamado Computer-Using Agent (CUA)
- Combina las capacidades de visión de GPT-4o con un razonamiento avanzado basado en aprendizaje por refuerzo para poder interactuar con interfaces gráficas (botones, menús, campos de texto, etc.)
- Puede "ver" la pantalla del navegador mediante capturas y realizar tareas manipulando mouse y teclado
- Si encuentra errores o dificultades durante una tarea, usa razonamiento de autocorrección o, si hace falta, adopta un enfoque colaborativo cediendo el control al usuario
- Está mostrando un alto rendimiento en benchmarks de uso del navegador como WebArena y WebVoyager; más detalles están disponibles en el blog de investigación
Cómo usarlo
- Basta con describir brevemente la tarea deseada para que Operator la realice automáticamente
- En cualquier momento, el usuario puede retomar el control del navegador de forma manual
- En pasos sensibles como iniciar sesión, ingresar información de pago o resolver CAPTCHAs, Operator no actúa directamente y el usuario debe hacerlo por su cuenta
- Es posible reflejar gustos o preferencias del usuario mediante configuraciones por sitio o globales
- Se pueden guardar prompts favoritos para ejecutar rápidamente tareas frecuentes, como volver a pedir comestibles en Instacart
- Puede manejar varias tareas al mismo tiempo, como si fueran múltiples pestañas, y permite separar sesiones de conversación para trabajar en distintas tareas en paralelo
Ecosistema y usuarios
- Operator lleva a la IA más allá de ser una simple herramienta, convirtiéndola en un participante activo del ecosistema digital
- OpenAI está colaborando con DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack y Uber, entre otros, para reflejar necesidades reales de los usuarios y estándares de la industria
- También se está evaluando su aplicación en el sector público para mejorar la eficiencia y la accesibilidad, por ejemplo explorando usos en servicios administrativos de la ciudad con la City of Stockton
- Daniel Danker, Chief Product Officer de Instacart, expresó una valoración positiva sobre la facilidad del proceso de compra mediante Operator
Seguridad y privacidad
- Operator prioriza la seguridad y cuenta con tres capas de protección
- Control guiado por el usuario: cuando se requiere ingresar información sensible (inicio de sesión, pago, etc.), Operator solicita takeover para que el usuario introduzca los datos directamente
- Confirmación antes de acciones importantes: antes de acciones críticas como enviar un pedido o mandar un correo electrónico, solicita aprobación del usuario
- Restricción de tareas: Operator fue entrenado para rechazar tareas de alta sensibilidad, como trámites bancarios o decisiones relacionadas con empleo
- Al acceder a sitios sensibles, el usuario puede monitorear directamente el comportamiento de Operator mediante el modo Watch
- Ofrece funciones de gestión de privacidad de datos
- Si se desactiva "Improve the model for everyone", los datos de Operator tampoco se usan para entrenar el modelo
- En la sección Privacy de la configuración se puede borrar fácilmente el historial de navegación, cerrar sesión en todos los sitios y eliminar el historial de conversaciones, entre otras acciones
- También se aplican mecanismos de defensa para proteger a Operator frente a sitios web maliciosos
- Está diseñado para detectar e ignorar prompts ocultos, código malicioso e intentos de phishing
- Un modelo monitor dedicado vigila en tiempo real comportamientos sospechosos y puede detener la tarea cuando sea necesario
- Mediante automatización y revisión humana, las protecciones se actualizan rápidamente al detectarse nuevas amenazas
- Para evitar el uso indebido de la tecnología con fines dañinos, Operator rechaza ciertas solicitudes, y si las infracciones de políticas se repiten, pueden aplicarse advertencias o bloqueo de acceso
- Como todavía está en etapa de vista previa de investigación, no es perfecto y seguirá mejorando con la retroalimentación del uso en el mundo real
Limitaciones
- Operator todavía se encuentra en una etapa inicial y puede tener dificultades con tareas de interfaces complejas, como crear presentaciones o administrar calendarios
- La retroalimentación de los usuarios se aprovechará como un recurso clave para mejorar precisión, estabilidad y seguridad
Próximos planes
- Se planea ofrecer una API de CUA para que los desarrolladores tengan una base sobre la cual construir sus propios agentes
- Se reforzará la capacidad de procesar tareas largas y flujos de trabajo complejos para seguir mejorando las funciones de Operator
- Además de los usuarios Pro, se ampliará gradualmente a Plus, Team y Enterprise, y a largo plazo se planea integrar estas funciones en ChatGPT para soportar ejecución de tareas tanto en tiempo real como de forma asíncrona
1 comentarios
Opiniones en Hacker News
Muchas personas creen que empresas como OpenAI no están gastando dinero para ofrecer asistentes personales, sino para entrenar IA y así reducir costos laborales más adelante
Las opiniones sobre el lanzamiento de OpenAI Operator están divididas
Operator es similar a la demo de Computer Use de Claude de hace unos meses, y tiene una arquitectura que requiere ejecutar una VM además de una tendencia a ser inexacto
En una diapositiva sobre los riesgos de seguridad y mitigaciones de Operator aparece la expresión "el usuario está desalineado"
Hay opiniones críticas sobre invertir 50 mil millones de dólares en tareas como crear memes
CogAgent: una alternativa de código abierto de China
Existe la expectativa de que, si en el futuro los productos y modelos mejoran considerablemente, se podrá hablar con ChatGPT para que se encargue de tareas tediosas en la web, como reservar la cena, vuelos o comprar comestibles
Hay quienes opinan que empresas como Instacart o Doordash podrían abrir una nueva dirección de UI mediante optimización de marketing para LLM
Hay opiniones de que resulta extraño que un "agente" use mouse y teclado para mirar píxeles
Existe una fuerte creencia en la necesidad de usar Open APIs para agentes