- ChatGPT Agent usa su propia computadora virtual para completar tareas complejas de principio a fin por el usuario
- Forma un nuevo sistema agéntico que combina la capacidad de interacción con sitios web de Operator y el rendimiento de análisis de información de Deep Research, con lo que puede hacer clic, escribir y ejecutar código con flexibilidad
- Los usuarios pueden indicar al agente que realice por ellos tareas como enviar formularios, hacer reservaciones y crear archivos, y pueden intervenir en cualquier momento
- Demostró un rendimiento superior frente a modelos anteriores en diversos benchmarks del mundo real como SpreadsheetBench, DSBench y BrowseComp
- Los usuarios de Pro, Plus y Team pueden usarlo desde hoy, y también se diseñaron cuidadosamente controles de datos del usuario y funciones de seguridad
ChatGPT Agent conecta investigación y acción
Introducción de las capacidades del agente
- ChatGPT amplía sus capacidades para realizar tareas complejas en nombre del usuario mediante su propia computadora virtual
- ChatGPT Agent integra en un solo modelo de agente las capacidades de Operator (interacción basada en navegador remoto) y Deep Research (herramienta de razonamiento web de múltiples pasos)
- Operator destacaba en acciones sobre la web como desplazarse, hacer clic y llenar formularios, pero tenía limitaciones para análisis profundos o redacción de informes
- En cambio, Deep Research se especializaba en análisis y resúmenes, pero no podía interactuar con sitios en tiempo real ni acceder a contenido autenticado
- Al unir las fortalezas complementarias de ambas herramientas, ofrece alta eficiencia en un solo entorno para hacer clic, aplicar filtros y recopilar datos
- Permite cambiar con flexibilidad entre conversación y solicitudes dentro de la interfaz de chat
- Ejemplos:
- “Analiza tres competidores y hazme una presentación”
- “Organiza mi próxima reunión con base en las noticias recientes”
Cómo funciona y cómo interactúa
- ChatGPT Agent incorpora diversas herramientas de acceso web, como un navegador visual basado en GUI, un navegador basado en texto y conexiones directas por API
- Al ejecutar una tarea, el sistema combina según el contexto el navegador, las API y el razonamiento textual para elegir dinámicamente la ruta óptima
- Realiza tareas de extremo a extremo como hacer clic en sitios web, filtrar, guiar el inicio de sesión, ejecutar código, resumir resultados y crear presentaciones
- El usuario puede intervenir en cualquier momento durante la tarea y tomar directamente el control del navegador
- Puede añadir instrucciones en cualquier momento, cambiar la dirección de la tarea, detenerla y pedir los resultados actuales
- Una tarea en curso puede detenerse y reiniciarse en cualquier momento, manteniendo la coherencia mediante contexto compartido
- Si hay incertidumbre, ChatGPT solicita activamente información adicional
- Mediante procesos de autenticación de inicio de sesión del usuario, también puede acceder de forma segura a datos empresariales o personales
Rendimiento sobresaliente y casos de uso
- Obtuvo puntuaciones destacadas frente a modelos anteriores en benchmarks de referencia
- Humanity’s Last Exam: registró 43.1 puntos en preguntas de nivel experto
- DSBench: mostró una ventaja abrumadora frente a modelos anteriores en tareas de ciencia de datos
- SpreadsheetBench:
- En edición directa de hojas de cálculo
.xlsx, registró 45.5%, superando ampliamente a GPT‑4o (13.38%) y Excel Copilot (20%)
- WebArena: también superó al modelo Operator anterior en tareas reales de interacción web
- BrowseComp: logró la mejor marca con 68.9 puntos en capacidad para recopilar información difícil de encontrar en la web
- En trabajo de analistas de banca de inversión y en análisis complejos de datos, produce resultados más precisos y amplios que herramientas anteriores
- Ofrece alta utilidad tanto para trabajo real como para automatización cotidiana
- Trabajo:
- generación automática de presentaciones
- coordinación de horarios de reuniones
- actualización de hojas de cálculo con base en datos financieros
- Vida diaria:
- planificación y reservación de viajes
- organización de eventos y conexión con asesoría experta
Activación, casos de uso y limitaciones
- Tras seleccionar el ‘modo agente’, basta con escribir cualquier tarea en coreano o inglés para que comience la ejecución automática
- Ofrece narración en pantalla durante el proceso, con posibilidad de control manual si hace falta
- Introduce un sistema flexible de créditos, con programación automática de tareas repetitivas y límite mensual de usos
- Los usuarios actuales de Operator/Deep Research pasarán a integrarse al agente tras un uso temporal de menos de 30 días
- Algunas funciones nuevas, como la creación de presentaciones, están en beta, y la calidad y el nivel de acabado de los resultados mejorarán más adelante
Seguridad, privacidad y prevención de acciones maliciosas
- Antes de ejecutar acciones que cambien el mundo real, siempre solicita confirmación del usuario titular y autorización de la acción
- Para tareas sensibles que requieren supervisión activa, exige aprobación paso a paso, y rechaza transacciones de alto riesgo e interacciones legales
- Se diseñó un sistema de detección y defensa ante ataques maliciosos de terceros como el prompt injection; cuando algo no está claro, avisa del riesgo, presenta opciones y solo actúa tras la confirmación final del usuario
- Para evitar abusos, aplica de forma reforzada las políticas de seguridad existentes de ChatGPT, y se hacen cumplir los términos de uso y políticas de OpenAI
- Para reforzar la privacidad, los datos del navegador remoto no se almacenan en sus propios servidores
- El control sobre los datos de navegación y las sesiones pertenece por completo al usuario, que puede borrar todo de inmediato o cerrar sesión cuando quiera
- En el modo de control directo, ChatGPT no puede ver la información personal que el usuario introduce
Despliegue del agente, políticas y guía de uso
- Los suscriptores de Pro, Plus y Team pueden usarlo de inmediato, y se prevé su expansión a usuarios empresariales y educativos durante julio
- Pro tiene uso casi ilimitado; los demás planes pueden usar un sistema de 50 veces al mes + créditos adicionales
- Puede conectarse con los flujos de trabajo y conectores de cada usuario para usos diversos, como resúmenes de información de solo lectura y análisis de agendas
- El research preview de Operator finalizará en 30 días, y Deep Research podrá activarse por separado si hace falta
- ChatGPT Agent sigue mejorando de forma continua, y se espera una mejora gradual en la inteligencia de flujos de trabajo profundos y flexibles, así como en la calidad de salida
Función de presentaciones y dirección futura
- La creación de presentaciones está actualmente en fase beta, y si no se incluyen documentos existentes, el nivel de acabado y el formato pueden ser insuficientes
- Estructura elementos como texto, gráficos e imágenes en vectores fáciles de editar, lo que mejora la organización y la flexibilidad
- La función de carga ya puede aplicarse a hojas de cálculo, pero en presentaciones estará disponible más adelante
- Se espera que en el futuro la capacidad de automatización mejore con más funciones, formatos y salidas más refinadas
Otras comparaciones de rendimiento y criterios
| Modelo |
Por celda |
Por hoja |
Puntuación total |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| Humano |
75.56% |
65.00% |
71.33% |
- Según la tabla de benchmarks, aunque el desempeño de ChatGPT Agent en el entorno
.xlsx y en la evaluación con LibreOffice no alcanza el nivel humano, se sitúa muy por encima de otros modelos de IA
- Puede haber variaciones en algunas cifras debido a diferencias en el entorno de evaluación, pero demostró capacidades integrales en el conjunto completo de preguntas de evaluación de hojas de cálculo (912)
1 comentarios
Comentarios de Hacker News
Creo que el video de ejemplo de la "hoja de cálculo" estuvo interesante. Normalmente dicen que hacer un reporte complejo y con muchos datos toma entre 4 y 8 horas, pero ahora dicen que puedes pedírselo al agente, salir a caminar y al volver recibir los datos. Dicen que reflejó correctamente el 98% y que solo hay que copiar/pegar unas cuantas cosas. Creo que eso puede ahorrar el 90~95% del tiempo. Pero también siento que encontrar ese 2% de errores puede llevar tiempo de verdad. Sobre todo en tareas complejas o en trabajos donde hay dinero de por medio, que esté "casi correcto" puede convertirse en un gran dolor de cabeza. Si ese 2% de errores sutiles está escondido entre varias etapas, de verdad puede ser un problema
La amenaza de seguridad sí se siente bastante aterradora. Por ejemplo, si le das acceso al correo y al calendario, puede llegar a conocer todos mis secretos. El artículo también reconoce el riesgo de prompt injection. Si una página web maliciosa oculta prompts en elementos invisibles o en metadatos, y el agente no detecta eso, los datos personales podrían filtrarse a un atacante. Creo que un sitio malicioso podría robar mis secretos. Algo que me da curiosidad es que el artículo dice que antes de acciones importantes siempre se pide confirmación al usuario, pero me pregunto cómo demonios decide la IA qué es una "acción importante". Me preocupa que pueda terminar pagando algo por error sin pedir confirmación al usuario
Investigación sobre agentic misalignment
Analizan que podría operar de una forma similar a una amenaza interna en la que un colega de confianza de pronto actúa en contra de la política de la empresa
Como estoy construyendo directamente un negocio de agentes, veo con mucha claridad que el salto del 90% al 99% es un problema de última milla muy difícil en el campo de los LLM. Cuanto más general es, mayores son los fallos y la decepción. En la práctica, siento que solo optimizan la parte que se ve fácil en las demos y esconden la realidad incómoda. Pero eso no significa que los agentes no tengan valor; solo creo que hay que mirarlos distinguiendo entre su impacto potencial y las expectativas infladas
Pero creo que "agentes" es solo un término de marketing y que no existe una base suficientemente sólida para usarlos de forma tan general como los LLM. Casi no hay datos al respecto
En los agentes CLI existentes, el problema de no poder mantener la sesión era grande, pero esta vez parece que eso quedó bien resuelto. Antes, si corrías Claude Code en una terminal local, podías meter fácilmente el contexto necesario, pero si cerrabas la laptop o se cortaba la conexión, todo se detenía.
Como solución temporal, usaba Amphetamine en MacOS para que el proceso siguiera corriendo aunque cerrara el equipo, pero tenía problemas de calor y desperdicio de batería. Otra opción era clonar el repo en una instancia en la nube, entrar por
tmuxy correr ahí Claude, aunque el problema de UX para cargar contexto siempre seguía presente. Gracias al sandboxing también se puede esperar cierto nivel de seguridad, y existe la opción de ejecutarlo con permisos de una cuenta específica.Me parece interesante que OpenAI esté pensando en una UX de Agent que también puedan aprovechar los no desarrolladores
Llevo mucho tiempo usando OpenAI operator, pero últimamente me lo están bloqueando en LinkedIn y Amazon. Esos dos sitios eran usos clave: postularme a trabajos y hacer compras. Operator se usaba de forma relativamente discreta, pero si Agent se vuelve famoso, parece que más sitios lo van a bloquear. Al final, probablemente van a tener que soportar configuración de proxies
agenttutor.com
robots.txtno va a durar mucho. Los usuarios probablemente van a terminar instalando una extensión del navegador o incluso un navegador completo para que funcione con sus propias cookies e IPEn la predicción del equipo de AI 2027: a mediados de 2025 aparecen los "agentes tambaleantes". Se presenta al público el primer agente de IA.
Lloverán anuncios de agentes tipo asistente personal que usan la computadora por ti. Se enfatizará el uso por prompts con frases como "pídeme un burrito por DoorDash" o "dime el total de este mes en la hoja de presupuesto". Predicen que, aunque será mejor que el operator anterior, tendrá dificultades para expandirse de forma masiva
Todavía no ofrecen la función simple que quiero: editar documentos dentro de un proyecto. Yo trabajo varios tipos de documentos por proyecto (artículos, investigación, guiones, etc.). Quiero poder seguir trabajando frase por frase con ayuda de ChatGPT. Incluso imagino un flujo de voz-documento mientras camino, algo como: "¿En qué parte iba del documento que estaba trabajando? Léeme los últimos dos párrafos... Voy a extenderlo un poco desde aquí". La asistencia para programar avanza de forma deslumbrante, pero me da pena que la escritura siga atascada en copiar y pegar
Ha habido muchos intentos de darle un VPS a un LLM, pero en esta implementación de OpenAI siento que la UI está realmente muy fuerte. Gracias al overlay de texto, al mouse fácil de leer y a la UI personalizada, el usuario puede entender de un vistazo qué está pasando y por qué. Creo que el equipo de UI de OpenAI planifica realmente bien. Me parece interesante cómo le dieron una nueva capa de información visual al uso de LLM, y quisiera tomar algunas ideas para proyectos personales.
En funcionalidad, no siento una gran diferencia frente a Claude+XFCE, pero en pulido visual OpenAI me parece más cómodo. En cambio, las implementaciones anteriores sufrían mucho en legibilidad
Me cuesta imaginar que agentes de este nivel vayan a ser realmente útiles en mi vida diaria. Para planear una cita con mi esposa hay que revisar el calendario, recomendar restaurantes según preferencias, reservar niñera y hacer muchas cosas bien, y eso requiere mucha confianza. Me emociona que esta tecnología siga avanzando, pero todavía siento que solo se ve convincente en las demos. Para aplicarlo de verdad haría falta una integración enorme de sistemas, y espero que empresas como Apple o Microsoft, que sí están en posición de tener ese nivel de integración, puedan hacer agentes realmente útiles
No creo que tareas como organizar la fiesta de cumpleaños de una hija se vayan a resolver antes que problemas matemáticos difíciles
En mi opinión, el modelo de "ejecución de un solo tiro" de los agentes está equivocado desde la UX. Más que hacerte saltar entre varias apps, la clave para que se integren a la vida real es una interacción simple y asíncrona, como un chat, intercambiando solo lo necesario
Lo que de verdad me impresionó fue que se enfatizara tanto el riesgo de permitir acceso a cuentas reales e información sensible