OpenAI presenta el servicio de agentes "Operator"

(openai.com)

6 puntos por GN⁺ 2025-01-24 | 1 comentarios | Compartir por WhatsApp

Operator, presentado recientemente por OpenAI, es un agente de IA que puede navegar por la web y realizar tareas de forma independiente
- Usa su propio navegador para ver páginas web e interactuar mediante escritura, clics y desplazamiento
Está en etapa de vista previa de investigación, por lo que todavía tiene limitaciones y se espera que evolucione con la retroalimentación de los usuarios
Es una de las primeras IA capaces de realizar tareas de manera autónoma: el usuario le indica una tarea y esta la ejecuta
Busca ahorrar tiempo al encargarse de tareas repetitivas en el navegador, como llenar formularios, pedir comestibles o crear memes
Por ahora se está lanzando primero para usuarios Pro que residen en Estados Unidos, y más adelante podría llegar a las versiones Plus, Team y Enterprise, además de integrarse en ChatGPT

Cómo funciona Operator

Se basa en un nuevo modelo llamado Computer-Using Agent (CUA)
Combina las capacidades de visión de GPT-4o con un razonamiento avanzado basado en aprendizaje por refuerzo para poder interactuar con interfaces gráficas (botones, menús, campos de texto, etc.)
Puede "ver" la pantalla del navegador mediante capturas y realizar tareas manipulando mouse y teclado
Si encuentra errores o dificultades durante una tarea, usa razonamiento de autocorrección o, si hace falta, adopta un enfoque colaborativo cediendo el control al usuario
Está mostrando un alto rendimiento en benchmarks de uso del navegador como WebArena y WebVoyager; más detalles están disponibles en el blog de investigación

Cómo usarlo

Basta con describir brevemente la tarea deseada para que Operator la realice automáticamente
En cualquier momento, el usuario puede retomar el control del navegador de forma manual
En pasos sensibles como iniciar sesión, ingresar información de pago o resolver CAPTCHAs, Operator no actúa directamente y el usuario debe hacerlo por su cuenta
Es posible reflejar gustos o preferencias del usuario mediante configuraciones por sitio o globales
Se pueden guardar prompts favoritos para ejecutar rápidamente tareas frecuentes, como volver a pedir comestibles en Instacart
Puede manejar varias tareas al mismo tiempo, como si fueran múltiples pestañas, y permite separar sesiones de conversación para trabajar en distintas tareas en paralelo

Ecosistema y usuarios

Operator lleva a la IA más allá de ser una simple herramienta, convirtiéndola en un participante activo del ecosistema digital
OpenAI está colaborando con DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack y Uber, entre otros, para reflejar necesidades reales de los usuarios y estándares de la industria
También se está evaluando su aplicación en el sector público para mejorar la eficiencia y la accesibilidad, por ejemplo explorando usos en servicios administrativos de la ciudad con la City of Stockton
Daniel Danker, Chief Product Officer de Instacart, expresó una valoración positiva sobre la facilidad del proceso de compra mediante Operator

Seguridad y privacidad

Operator prioriza la seguridad y cuenta con tres capas de protección
- Control guiado por el usuario: cuando se requiere ingresar información sensible (inicio de sesión, pago, etc.), Operator solicita takeover para que el usuario introduzca los datos directamente
- Confirmación antes de acciones importantes: antes de acciones críticas como enviar un pedido o mandar un correo electrónico, solicita aprobación del usuario
- Restricción de tareas: Operator fue entrenado para rechazar tareas de alta sensibilidad, como trámites bancarios o decisiones relacionadas con empleo
- Al acceder a sitios sensibles, el usuario puede monitorear directamente el comportamiento de Operator mediante el modo Watch
Ofrece funciones de gestión de privacidad de datos
- Si se desactiva "Improve the model for everyone", los datos de Operator tampoco se usan para entrenar el modelo
- En la sección Privacy de la configuración se puede borrar fácilmente el historial de navegación, cerrar sesión en todos los sitios y eliminar el historial de conversaciones, entre otras acciones
También se aplican mecanismos de defensa para proteger a Operator frente a sitios web maliciosos
- Está diseñado para detectar e ignorar prompts ocultos, código malicioso e intentos de phishing
- Un modelo monitor dedicado vigila en tiempo real comportamientos sospechosos y puede detener la tarea cuando sea necesario
- Mediante automatización y revisión humana, las protecciones se actualizan rápidamente al detectarse nuevas amenazas
Para evitar el uso indebido de la tecnología con fines dañinos, Operator rechaza ciertas solicitudes, y si las infracciones de políticas se repiten, pueden aplicarse advertencias o bloqueo de acceso
Como todavía está en etapa de vista previa de investigación, no es perfecto y seguirá mejorando con la retroalimentación del uso en el mundo real

Limitaciones

Operator todavía se encuentra en una etapa inicial y puede tener dificultades con tareas de interfaces complejas, como crear presentaciones o administrar calendarios
La retroalimentación de los usuarios se aprovechará como un recurso clave para mejorar precisión, estabilidad y seguridad

Próximos planes

Se planea ofrecer una API de CUA para que los desarrolladores tengan una base sobre la cual construir sus propios agentes
Se reforzará la capacidad de procesar tareas largas y flujos de trabajo complejos para seguir mejorando las funciones de Operator
Además de los usuarios Pro, se ampliará gradualmente a Plus, Team y Enterprise, y a largo plazo se planea integrar estas funciones en ChatGPT para soportar ejecución de tareas tanto en tiempo real como de forma asíncrona

1 comentarios

GN⁺ 2025-01-24

Opiniones en Hacker News

Muchas personas creen que empresas como OpenAI no están gastando dinero para ofrecer asistentes personales, sino para entrenar IA y así reducir costos laborales más adelante
- Cuando la IA llegue a ser útil como asistente personal, esa función se lanzará a un precio que la persona promedio no podrá pagar
Las opiniones sobre el lanzamiento de OpenAI Operator están divididas
- Hay posturas escépticas sobre sus funciones actuales, costo y posible sobreexpansión, pero también visiones positivas sobre la automatización de tareas y su potencial de mejora con el tiempo
- También se discuten problemas éticos, privacidad e impacto en la industria
- En general, hay un optimismo cauteloso, reconociendo tanto los desafíos como las posibles mejoras
Operator es similar a la demo de Computer Use de Claude de hace unos meses, y tiene una arquitectura que requiere ejecutar una VM además de una tendencia a ser inexacto
- La implementación de Computer Use de Claude no generó un gran impacto en la industria de agentes de IA después de su anuncio
En una diapositiva sobre los riesgos de seguridad y mitigaciones de Operator aparece la expresión "el usuario está desalineado"
- Hay quienes quieren ver más ejemplos de lo que OpenAI considera un usuario "desalineado"
Hay opiniones críticas sobre invertir 50 mil millones de dólares en tareas como crear memes
- Se expresa decepción por no invertir en hacer de la Tierra un lugar mejor para vivir para la próxima generación
CogAgent: una alternativa de código abierto de China
- Se proporcionan enlaces al paper, código y modelo
Existe la expectativa de que, si en el futuro los productos y modelos mejoran considerablemente, se podrá hablar con ChatGPT para que se encargue de tareas tediosas en la web, como reservar la cena, vuelos o comprar comestibles
- Hay mucho entusiasmo por este tipo de funciones
Hay quienes opinan que empresas como Instacart o Doordash podrían abrir una nueva dirección de UI mediante optimización de marketing para LLM
- Por ejemplo, si se le pide encontrar huevos nutritivos, el agente podría consultar la tabla nutricional para tomar una decisión
Hay opiniones de que resulta extraño que un "agente" use mouse y teclado para mirar píxeles
- Se imagina un estándar en el que las apps y servicios expongan un conjunto de acciones preaprobadas que puedan realizar en nombre del usuario
- Se propone el concepto de una "app store" que permita agregar o revocar permisos de usuario
Existe una fuerte creencia en la necesidad de usar Open APIs para agentes
- Se argumenta que OpenAPI es el estándar de especificación perfecto para hacer posible un mundo abierto e internet para agentes
- Cuando OpenAI lanzó GPT por primera vez, estaba basado en Open APIs, pero se ha ido alejando cada vez más
- Esto parece un intento de controlar el mercado y de no basarse en estándares abiertos
- Se considera algo muy lamentable

OpenAI presenta el servicio de agentes "Operator"

Cómo funciona Operator

Cómo usarlo

Ecosistema y usuarios

Seguridad y privacidad

Limitaciones

Próximos planes

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News