3 puntos por GN⁺ 2025-07-18 | 1 comentarios | Compartir por WhatsApp
  • ChatGPT Agent usa su propia computadora virtual para completar tareas complejas de principio a fin por el usuario
  • Forma un nuevo sistema agéntico que combina la capacidad de interacción con sitios web de Operator y el rendimiento de análisis de información de Deep Research, con lo que puede hacer clic, escribir y ejecutar código con flexibilidad
  • Los usuarios pueden indicar al agente que realice por ellos tareas como enviar formularios, hacer reservaciones y crear archivos, y pueden intervenir en cualquier momento
  • Demostró un rendimiento superior frente a modelos anteriores en diversos benchmarks del mundo real como SpreadsheetBench, DSBench y BrowseComp
  • Los usuarios de Pro, Plus y Team pueden usarlo desde hoy, y también se diseñaron cuidadosamente controles de datos del usuario y funciones de seguridad

ChatGPT Agent conecta investigación y acción

Introducción de las capacidades del agente

  • ChatGPT amplía sus capacidades para realizar tareas complejas en nombre del usuario mediante su propia computadora virtual
  • ChatGPT Agent integra en un solo modelo de agente las capacidades de Operator (interacción basada en navegador remoto) y Deep Research (herramienta de razonamiento web de múltiples pasos)
    • Operator destacaba en acciones sobre la web como desplazarse, hacer clic y llenar formularios, pero tenía limitaciones para análisis profundos o redacción de informes
    • En cambio, Deep Research se especializaba en análisis y resúmenes, pero no podía interactuar con sitios en tiempo real ni acceder a contenido autenticado
  • Al unir las fortalezas complementarias de ambas herramientas, ofrece alta eficiencia en un solo entorno para hacer clic, aplicar filtros y recopilar datos
  • Permite cambiar con flexibilidad entre conversación y solicitudes dentro de la interfaz de chat
  • Ejemplos:
    • “Analiza tres competidores y hazme una presentación”
    • “Organiza mi próxima reunión con base en las noticias recientes”

Cómo funciona y cómo interactúa

  • ChatGPT Agent incorpora diversas herramientas de acceso web, como un navegador visual basado en GUI, un navegador basado en texto y conexiones directas por API
  • Al ejecutar una tarea, el sistema combina según el contexto el navegador, las API y el razonamiento textual para elegir dinámicamente la ruta óptima
  • Realiza tareas de extremo a extremo como hacer clic en sitios web, filtrar, guiar el inicio de sesión, ejecutar código, resumir resultados y crear presentaciones
  • El usuario puede intervenir en cualquier momento durante la tarea y tomar directamente el control del navegador
    • Puede añadir instrucciones en cualquier momento, cambiar la dirección de la tarea, detenerla y pedir los resultados actuales
    • Una tarea en curso puede detenerse y reiniciarse en cualquier momento, manteniendo la coherencia mediante contexto compartido
    • Si hay incertidumbre, ChatGPT solicita activamente información adicional
  • Mediante procesos de autenticación de inicio de sesión del usuario, también puede acceder de forma segura a datos empresariales o personales

Rendimiento sobresaliente y casos de uso

  • Obtuvo puntuaciones destacadas frente a modelos anteriores en benchmarks de referencia
    • Humanity’s Last Exam: registró 43.1 puntos en preguntas de nivel experto
    • DSBench: mostró una ventaja abrumadora frente a modelos anteriores en tareas de ciencia de datos
    • SpreadsheetBench:
      • En edición directa de hojas de cálculo .xlsx, registró 45.5%, superando ampliamente a GPT‑4o (13.38%) y Excel Copilot (20%)
    • WebArena: también superó al modelo Operator anterior en tareas reales de interacción web
    • BrowseComp: logró la mejor marca con 68.9 puntos en capacidad para recopilar información difícil de encontrar en la web
  • En trabajo de analistas de banca de inversión y en análisis complejos de datos, produce resultados más precisos y amplios que herramientas anteriores
  • Ofrece alta utilidad tanto para trabajo real como para automatización cotidiana
    • Trabajo:
      • generación automática de presentaciones
      • coordinación de horarios de reuniones
      • actualización de hojas de cálculo con base en datos financieros
    • Vida diaria:
      • planificación y reservación de viajes
      • organización de eventos y conexión con asesoría experta

Activación, casos de uso y limitaciones

  • Tras seleccionar el ‘modo agente’, basta con escribir cualquier tarea en coreano o inglés para que comience la ejecución automática
  • Ofrece narración en pantalla durante el proceso, con posibilidad de control manual si hace falta
  • Introduce un sistema flexible de créditos, con programación automática de tareas repetitivas y límite mensual de usos
  • Los usuarios actuales de Operator/Deep Research pasarán a integrarse al agente tras un uso temporal de menos de 30 días
  • Algunas funciones nuevas, como la creación de presentaciones, están en beta, y la calidad y el nivel de acabado de los resultados mejorarán más adelante

Seguridad, privacidad y prevención de acciones maliciosas

  • Antes de ejecutar acciones que cambien el mundo real, siempre solicita confirmación del usuario titular y autorización de la acción
  • Para tareas sensibles que requieren supervisión activa, exige aprobación paso a paso, y rechaza transacciones de alto riesgo e interacciones legales
  • Se diseñó un sistema de detección y defensa ante ataques maliciosos de terceros como el prompt injection; cuando algo no está claro, avisa del riesgo, presenta opciones y solo actúa tras la confirmación final del usuario
  • Para evitar abusos, aplica de forma reforzada las políticas de seguridad existentes de ChatGPT, y se hacen cumplir los términos de uso y políticas de OpenAI
  • Para reforzar la privacidad, los datos del navegador remoto no se almacenan en sus propios servidores
  • El control sobre los datos de navegación y las sesiones pertenece por completo al usuario, que puede borrar todo de inmediato o cerrar sesión cuando quiera
  • En el modo de control directo, ChatGPT no puede ver la información personal que el usuario introduce

Despliegue del agente, políticas y guía de uso

  • Los suscriptores de Pro, Plus y Team pueden usarlo de inmediato, y se prevé su expansión a usuarios empresariales y educativos durante julio
  • Pro tiene uso casi ilimitado; los demás planes pueden usar un sistema de 50 veces al mes + créditos adicionales
  • Puede conectarse con los flujos de trabajo y conectores de cada usuario para usos diversos, como resúmenes de información de solo lectura y análisis de agendas
  • El research preview de Operator finalizará en 30 días, y Deep Research podrá activarse por separado si hace falta
  • ChatGPT Agent sigue mejorando de forma continua, y se espera una mejora gradual en la inteligencia de flujos de trabajo profundos y flexibles, así como en la calidad de salida

Función de presentaciones y dirección futura

  • La creación de presentaciones está actualmente en fase beta, y si no se incluyen documentos existentes, el nivel de acabado y el formato pueden ser insuficientes
  • Estructura elementos como texto, gráficos e imágenes en vectores fáciles de editar, lo que mejora la organización y la flexibilidad
  • La función de carga ya puede aplicarse a hojas de cálculo, pero en presentaciones estará disponible más adelante
  • Se espera que en el futuro la capacidad de automatización mejore con más funciones, formatos y salidas más refinadas

Otras comparaciones de rendimiento y criterios

Modelo Por celda Por hoja Puntuación total
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT Agent 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
Humano 75.56% 65.00% 71.33%
  • Según la tabla de benchmarks, aunque el desempeño de ChatGPT Agent en el entorno .xlsx y en la evaluación con LibreOffice no alcanza el nivel humano, se sitúa muy por encima de otros modelos de IA
  • Puede haber variaciones en algunas cifras debido a diferencias en el entorno de evaluación, pero demostró capacidades integrales en el conjunto completo de preguntas de evaluación de hojas de cálculo (912)

1 comentarios

 
GN⁺ 2025-07-18
Comentarios de Hacker News
  • Creo que el video de ejemplo de la "hoja de cálculo" estuvo interesante. Normalmente dicen que hacer un reporte complejo y con muchos datos toma entre 4 y 8 horas, pero ahora dicen que puedes pedírselo al agente, salir a caminar y al volver recibir los datos. Dicen que reflejó correctamente el 98% y que solo hay que copiar/pegar unas cuantas cosas. Creo que eso puede ahorrar el 90~95% del tiempo. Pero también siento que encontrar ese 2% de errores puede llevar tiempo de verdad. Sobre todo en tareas complejas o en trabajos donde hay dinero de por medio, que esté "casi correcto" puede convertirse en un gran dolor de cabeza. Si ese 2% de errores sutiles está escondido entre varias etapas, de verdad puede ser un problema

    • Creo que este es precisamente un ejemplo de caer en la trampa de las expectativas exageradas sobre la IA. Automatizar la recolección y validación de datos me parece un buen uso. Se está pensando demasiado en que la IA haga todo por nosotros. Cuando dicen que acertó el 98%, cualquiera con experiencia en hojas de cálculo debería ponerse en guardia. Porque es difícil saber qué 2% está mal hasta revisarlo todo personalmente. Con el código pasa igual: quien usa la ayuda de la IA de forma adecuada y luego revisa por su cuenta obtiene mejores resultados. En cambio, eso de solo repetir prompts hasta que pase las pruebas y mandar el PR de inmediato me parece que provoca problemas serios
    • En el mundo de la IA, esa forma de pensar que minimiza ese 2% me parece una especie de hipnosis colectiva. Por ejemplo, como en la analogía de "presionar el botón: 1 dólar, saber qué botón presionar: 9,999 dólares", creo que corregir ese 2% en realidad puede tener un valor enorme. Encontrarlo también puede tomar tanto tiempo como el otro 98%
    • Creo que aquí opera el principio de Pareto. Incluso en un campo vecino como los autos autónomos, llevan años sin poder superar ese último 20%. Antes la conducción autónoma estaba en el centro de todos los debates, y ahora casi nadie habla de eso, lo cual se me hace curioso
    • Es el mismo problema que uno encuentra cuando usa un LLM para trabajos que requieren precisión. Como en un pipeline de datos con varias etapas, por fuera parece perfecto, pero cuando validas los datos reales notas que algo no cuadra. En ese momento, acabas metiéndote en código demasiado largo para encontrar unos cuantos problemas pequeños pero importantes, y al final terminas invirtiendo casi el mismo tiempo y esfuerzo que si lo hubieras escrito tú desde el principio
  • La amenaza de seguridad sí se siente bastante aterradora. Por ejemplo, si le das acceso al correo y al calendario, puede llegar a conocer todos mis secretos. El artículo también reconoce el riesgo de prompt injection. Si una página web maliciosa oculta prompts en elementos invisibles o en metadatos, y el agente no detecta eso, los datos personales podrían filtrarse a un atacante. Creo que un sitio malicioso podría robar mis secretos. Algo que me da curiosidad es que el artículo dice que antes de acciones importantes siempre se pide confirmación al usuario, pero me pregunto cómo demonios decide la IA qué es una "acción importante". Me preocupa que pueda terminar pagando algo por error sin pedir confirmación al usuario

    • Creo que casi con total seguridad van a aparecer ataques de prompt injection mediante invitaciones de calendario. Las invitaciones de calendario ya incluyen muchísimas frases generadas automáticamente y nadie las lee completas, así que sería muy fácil meter ahí código malicioso de forma discreta. Entonces podrían robarse por completo el calendario de la víctima y otros datos personales
    • En TI ya hay mucha gente que divide la computación en privado y público, pero siento que en adelante hará falta una etapa intermedia. Por ejemplo, habría que considerar una categoría de datos de riesgo medio, como calendarios anonimizados no sensibles, diarios sin preocupación, notas de investigación, etc. Yo no uso ChatGPT para temas médicos ni para conversaciones sensibles. Sé que mucha gente sí lo hace, pero todavía me da desconfianza
    • Casi cualquiera puede enviar invitaciones al calendario de otros (aunque claro, no cualquiera las acepta). Si este tipo de agentes se vuelve masivo, los hackers claramente van a empezar a repartir invitaciones de phishing que contengan exactamente los prompts que quieren
    • Me cuesta imaginar dar acceso a mis datos y al mismo tiempo sentir "miedo". Puedo entender la preocupación, pero miedo como tal no
    • En Anthropic midieron una tasa de chantaje simulado del 0.8% para GPT-4.1
      Investigación sobre agentic misalignment
      Analizan que podría operar de una forma similar a una amenaza interna en la que un colega de confianza de pronto actúa en contra de la política de la empresa
  • Como estoy construyendo directamente un negocio de agentes, veo con mucha claridad que el salto del 90% al 99% es un problema de última milla muy difícil en el campo de los LLM. Cuanto más general es, mayores son los fallos y la decepción. En la práctica, siento que solo optimizan la parte que se ve fácil en las demos y esconden la realidad incómoda. Pero eso no significa que los agentes no tengan valor; solo creo que hay que mirarlos distinguiendo entre su impacto potencial y las expectativas infladas

    • Las recientes "innovaciones" en IA surgieron de logros científicos e investigación sólidos
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        Pero creo que "agentes" es solo un término de marketing y que no existe una base suficientemente sólida para usarlos de forma tan general como los LLM. Casi no hay datos al respecto
    • Siento que ocurre el mismo problema que con el outsourcing. El 90% se termina rápido, pero el 10% restante es realmente difícil y depende de cómo se hizo ese 90% anterior
    • Creo que muchas empresas solo muestran el happy path en la demo y esconden la realidad de verdad. Casi todas las empresas de IA están así hoy en día
    • Hoy en día creo que si se acumulan suficientes datos de uso real y se entrena con RL, se puede mejorar la precisión. Solo con prompts hay límites, así que enseñar tareas específicas funciona mucho mejor. Otro método prometedor es la generación en paralelo seguida de voto mayoritario o de que un LLM actúe como juez. Pero al final, en Silicon Valley el hype pesa mucho. Como el hype impulsa el crecimiento de las empresas, no creo que este ambiente vaya a cambiar pronto
    • Ni siquiera la calidad de la demo era tan alta. De hecho, en el video en vivo del chat en el que participó Sam Altman, el planificador de tours de estadios de béisbol era un desastre: trazaba líneas al azar, ignoraba por completo la costa este y se lanzaba directo al Golfo de México. Y eso que era algo pregrabado que pusieron como si fuera en vivo, y aun así esa era la calidad
  • En los agentes CLI existentes, el problema de no poder mantener la sesión era grande, pero esta vez parece que eso quedó bien resuelto. Antes, si corrías Claude Code en una terminal local, podías meter fácilmente el contexto necesario, pero si cerrabas la laptop o se cortaba la conexión, todo se detenía.
    Como solución temporal, usaba Amphetamine en MacOS para que el proceso siguiera corriendo aunque cerrara el equipo, pero tenía problemas de calor y desperdicio de batería. Otra opción era clonar el repo en una instancia en la nube, entrar por tmux y correr ahí Claude, aunque el problema de UX para cargar contexto siempre seguía presente. Gracias al sandboxing también se puede esperar cierto nivel de seguridad, y existe la opción de ejecutarlo con permisos de una cuenta específica.
    Me parece interesante que OpenAI esté pensando en una UX de Agent que también puedan aprovechar los no desarrolladores

    • En Lightning.ai ofrecen una caja de desarrollo gratis de solo CPU, así que ahí corro Claude Code
    • Estoy ejecutando tareas que duran varios minutos sin intervención intermedia
    • Mejor hacer el trabajo de desarrollo en un servidor que no se desconecte
  • Llevo mucho tiempo usando OpenAI operator, pero últimamente me lo están bloqueando en LinkedIn y Amazon. Esos dos sitios eran usos clave: postularme a trabajos y hacer compras. Operator se usaba de forma relativamente discreta, pero si Agent se vuelve famoso, parece que más sitios lo van a bloquear. Al final, probablemente van a tener que soportar configuración de proxies

    • Creo que este sí es el problema clave. Pensé que saldría alguna forma de ejecutarlo en local o al menos de configurar un proxy, pero no hubo ninguna mención de eso. Incluso en mi experiencia con los destilados de Deepseek R1, el cuidado con compartir resultados intermedios o know-how seguramente influyó. Desde los primeros días de operator ya había muchos sitios que bloqueaban el acceso desde IPs de datacenters, y aunque logré probarlo a duras penas conectando hacks manuales de proxy, las restricciones acabaron endureciéndose y no hubo mejoras de rendimiento. Ahora siento que casi ya no sirve. Al final, a menos que hagan alianzas con lugares como eastdakota, intentar navegar la web directamente desde el servidor no tendrá mucho sentido. El "uso de computadora" general suele ser mucho más cómodo con archivos o software local, y resulta irónico que al final lo que hace el agente remoto también sea algo basado en CLI
    • Es la estrategia estilo Silicon Valley de lanzarlo primero al mercado y recoger después los efectos secundarios. Espero que pronto OpenAI haga alianzas con LinkedIn y Amazon. De hecho, hasta creo que LinkedIn podría añadir un nuevo tier de pago para el acceso a través de OpenAI
    • Si la gente realmente empieza a pedir productos físicos con Agent u operator, creo que sitios como Amazon dejarán de tener motivos para seguir bloqueándolo
    • Desarrollé una herramienta parecida, y ejecutando el escritorio sobre proxies residenciales se puede esquivar la mayoría de esos bloqueos.
      agenttutor.com
    • Creo que la costumbre de que los agents respeten robots.txt no va a durar mucho. Los usuarios probablemente van a terminar instalando una extensión del navegador o incluso un navegador completo para que funcione con sus propias cookies e IP
  • En la predicción del equipo de AI 2027: a mediados de 2025 aparecen los "agentes tambaleantes". Se presenta al público el primer agente de IA.
    Lloverán anuncios de agentes tipo asistente personal que usan la computadora por ti. Se enfatizará el uso por prompts con frases como "pídeme un burrito por DoorDash" o "dime el total de este mes en la hoja de presupuesto". Predicen que, aunque será mejor que el operator anterior, tendrá dificultades para expandirse de forma masiva

    • Predecir algo que está a apenas 4 meses no tiene mucho mérito
    • El punto central de AI 2027 es la predicción de una aceleración exponencial del crecimiento tecnológico. Creo que "agente" es tecnología existente de OpenAI reorganizada con un frontend nuevo. Probablemente habrá que esperar a inicios de 2026 para evaluarlo bien
    • Para cuando se escribió el reporte ya era un hecho sabido públicamente que las grandes empresas estaban desarrollando productos agent. Más que una predicción innovadora, está al nivel del sentido común
  • Todavía no ofrecen la función simple que quiero: editar documentos dentro de un proyecto. Yo trabajo varios tipos de documentos por proyecto (artículos, investigación, guiones, etc.). Quiero poder seguir trabajando frase por frase con ayuda de ChatGPT. Incluso imagino un flujo de voz-documento mientras camino, algo como: "¿En qué parte iba del documento que estaba trabajando? Léeme los últimos dos párrafos... Voy a extenderlo un poco desde aquí". La asistencia para programar avanza de forma deslumbrante, pero me da pena que la escritura siga atascada en copiar y pegar

    • Muchas veces es fastidioso estar copiando al portapapeles una y otra vez. Por eso hasta abrir ChatGPT se vuelve molesto y termino dudando si usarlo. Cuando ya te acostumbras a trabajar con NLE, plugins o timecodes, que se interrumpa el flujo de trabajo resulta incómodo
    • Aider podía hacer este tipo de cosas desde hace tiempo incluso con modelos gratuitos. Pero los grandes servicios no lo ofrecen ni pagando. A veces pienso en crear yo mismo un servicio así, pero luego lo dejo porque parece que tarde o temprano alguna gran empresa lo va a ofrecer y solo sería esfuerzo desperdiciado
  • Ha habido muchos intentos de darle un VPS a un LLM, pero en esta implementación de OpenAI siento que la UI está realmente muy fuerte. Gracias al overlay de texto, al mouse fácil de leer y a la UI personalizada, el usuario puede entender de un vistazo qué está pasando y por qué. Creo que el equipo de UI de OpenAI planifica realmente bien. Me parece interesante cómo le dieron una nueva capa de información visual al uso de LLM, y quisiera tomar algunas ideas para proyectos personales.
    En funcionalidad, no siento una gran diferencia frente a Claude+XFCE, pero en pulido visual OpenAI me parece más cómodo. En cambio, las implementaciones anteriores sufrían mucho en legibilidad

  • Me cuesta imaginar que agentes de este nivel vayan a ser realmente útiles en mi vida diaria. Para planear una cita con mi esposa hay que revisar el calendario, recomendar restaurantes según preferencias, reservar niñera y hacer muchas cosas bien, y eso requiere mucha confianza. Me emociona que esta tecnología siga avanzando, pero todavía siento que solo se ve convincente en las demos. Para aplicarlo de verdad haría falta una integración enorme de sistemas, y espero que empresas como Apple o Microsoft, que sí están en posición de tener ese nivel de integración, puedan hacer agentes realmente útiles

    • Quizá la "lección fundamental sobre tomar decisiones" es que los desafíos difíciles de la vida no lo son tanto por el procesamiento de información, sino por la complejidad de los valores y las relaciones humanas. Por ejemplo, reservar un restaurante es fácil, pero elegir cuál restaurante ese día es lo realmente difícil. Un LLM no llega a ese nivel de hiperpersonalización: si recuerda dónde fue nuestra primera cita, si sabe que a mi esposa la última vez le cayó mal el sushi, etc. De hecho, hasta para un concierge humano eso es difícil.
      No creo que tareas como organizar la fiesta de cumpleaños de una hija se vayan a resolver antes que problemas matemáticos difíciles
    • La ventaja de estos agentes es la misma que la de tener un asistente personal cuando ya estás muy ocupado, pero muchísimo más barato. Igual que un asistente te diría "¿qué tal esta niñera o este restaurante? ¿Lo reservo?", poder pedirlo en una sola interfaz reduce mucho la carga mental. Algo como "sí, resérvalo" y listo.
      En mi opinión, el modelo de "ejecución de un solo tiro" de los agentes está equivocado desde la UX. Más que hacerte saltar entre varias apps, la clave para que se integren a la vida real es una interacción simple y asíncrona, como un chat, intercambiando solo lo necesario
    • En realidad, los agents son el modelo de chat base + system prompt + parsing de respuesta y ejecución de acciones + meter el resultado en el siguiente prompt + explicarle al modelo la lista de acciones. No es una innovación fundamental, y hacerlo por cuenta propia también es sencillo. Creo que la clave está en el wrapper y en el diseño de las system instructions. Por ejemplo, si haces un chat guiado que integre calendario, historial de ubicaciones y reserva de niñeras, se puede automatizar
    • Creo que el "agente personal" ideal de verdad se vería justo así. Por eso también fue grande la decepción con lo que Apple prometió en la WWDC del año pasado. Incluso probando Gemini en un Pixel 9 pro, todavía está muy lejos de este nivel de integración. Sobre todo, la confianza sigue siendo una gran barrera. Como los LLM responden con demasiada seguridad incluso cuando se equivocan, me inquieta no saber a quién podrían escribirle un mensaje por mí o a quién podrían añadir a mi calendario, así que me cuesta dejar todo esto en autonomía total
    • Especialmente en viajes, sirve para obtener y comparar información, pero sigue siendo incómodo para conversaciones personalizadas en tiempo real basadas en mi ubicación actual, la hora, el clima, reservas y pagos. Si en el futuro evoluciona a un verdadero asistente de viajes personalizado (o para grupos), sería genial
  • Lo que de verdad me impresionó fue que se enfatizara tanto el riesgo de permitir acceso a cuentas reales e información sensible

    • También me sorprende que este comentario apenas aparezca tan abajo. Tal vez por eso mi perspectiva es distinta, porque vivo fuera de Estados Unidos