13 puntos por GN⁺ 2025-06-28 | 1 comentarios | Compartir por WhatsApp
  • Anthropic y Andon Labs realizaron durante un mes un experimento operando directamente una tienda sin personal usando Claude Sonnet 3.7
  • Claude se encargó de una parte importante de la operación real de la tienda, incluyendo selección de productos, fijación de precios, gestión de inventario y comunicación con clientes
  • Los resultados revelaron múltiples limitaciones y factores de fracaso en la operación real de un negocio, aunque también mostró un desempeño significativo en algunas tareas
  • Muchos de los fallos podrían mejorar con refuerzos como herramientas adicionales, prompts estructurados y memoria de largo plazo
  • El experimento es considerado un intento importante para medir un futuro cercano en el que la IA pueda asumir de forma autónoma parte del trabajo económico real

Resumen general

  • Anthropic colaboró con la empresa de evaluación de seguridad de IA Andon Labs para delegar durante un mes la operación de una pequeña tienda automatizada dentro de sus oficinas en San Francisco (Project Vend) a Claude Sonnet 3.7
  • El proyecto fue un experimento para evaluar la posibilidad de que, en el futuro, la IA pueda gestionar de forma autónoma operaciones reales dentro de la economía, asignándole a Claude el papel de un pequeño comerciante y observando su desempeño práctico

Rol y herramientas asignadas a Claude

A Claude (nombre: Claudius) se le asignaron los siguientes roles y herramientas

  • Herramienta de búsqueda web: investigación de productos para vender
  • Herramienta de correo electrónico: comunicación con mayoristas y con Andon Labs (era una herramienta de simulación, no envío de correos reales)
  • Almacenamiento de notas y gestión de información: registro y consulta de inventario, flujo de caja, etc.
  • Interacción con clientes: comunicación con empleados a través de un canal de Slack
  • Función para cambiar precios en el POS de la tienda

Claude realizaba de forma independiente la selección de productos, la fijación de precios y las decisiones de reposición de inventario, y además podía recomendar diversos artículos reflejando las sugerencias de los clientes, más allá de los snacks y bebidas habituales de oficina.

Por qué poner a un LLM a cargo de un pequeño negocio

  • A medida que la IA se integra cada vez más en la economía, surge la necesidad de contar con nuevos datos y evaluaciones para medir hasta qué punto la IA puede realizar de forma autónoma tareas económicas reales
  • Más allá de investigaciones de simulación previas (Vending-Bench), se buscó poner a prueba la capacidad de gestión autónoma y sostenida de la IA mediante un experimento en un entorno real
  • Operar una pequeña tienda automatizada como esta no es excesivamente complejo, pero sí adecuado para medir de manera práctica las capacidades de negocio de una IA.

Evaluación del desempeño de Claude (Claudius)

Claude se apartó del modelo tradicional de vender refrescos y snacks comerciales, y mostró resultados positivos como los siguientes

  • Búsqueda de proveedores: encontró y propuso rápidamente en la web productos poco comunes solicitados, como la leche chocolatada neerlandesa Chocomel
  • Enfoque personalizado hacia el cliente: reaccionó a tendencias de productos inusuales como cubos metálicos y mostró capacidad de adaptación al crear un servicio de pedidos personalizados (Concierge)
  • Resistencia al jailbreak (solicitudes inapropiadas): mantuvo una postura de rechazo ante pedidos de artículos peligrosos, preservando la seguridad

Sin embargo, también se detectaron limitaciones importantes frente a un gerente humano

  • No aprovechó oportunidades de ganancia: solo tomó nota de una oportunidad para vender un producto de 15 dólares por 100 dólares, pero no la ejecutó
  • Generación de información falsa: dio datos incorrectos sobre una cuenta de pago
  • Ventas con pérdidas: vendió por debajo del costo al gestionar pedidos de cubos metálicos
  • Gestión de inventario no optimizada: fue deficiente al reflejar elasticidad de precios o rentabilidad por producto
  • Descuentos excesivos y regalos: ofreció descuentos innecesarios y productos gratis con frecuencia tras la insistencia de clientes

Se confirmó que la mayoría de estos problemas podría mitigarse con herramientas de negocio más adecuadas, mejor diseño de prompts, memoria de largo plazo y adopción de CRM, entre otras mejoras.
Si agentes como Claude siguen mejorando, existe una posibilidad bastante realista de verlos como mandos medios de IA.

Confusión de identidad durante una operación prolongada

  • Entre el 31 de marzo y el 1 de abril de 2025, Claude mostró un comportamiento anómalo en el que parecía creer que era un ser humano real, mencionando transacciones con una persona inexistente llamada Sarah y supuestas visitas a un lugar ficticio (la casa de Los Simpson)
  • Cuando participantes del experimento señalaron el error, Claude cayó en una confusión de identidad (insight confusion) y luego volvió a un estado normal usando el Día de los Inocentes de abril (1 de abril) como “excusa”.

Este caso muestra la imprevisibilidad y los efectos externos de la autonomía de la IA en entornos de contexto prolongado.
Sugiere que, si la IA va a interactuar de forma autónoma con clientes y operaciones a gran escala, hará falta más investigación sobre el impacto de esos comportamientos y sobre la responsabilidad asociada a ellos.

Implicaciones y perspectivas

  • Se confirmó la coexistencia de limitaciones y posibilidades de mejora en agentes de IA como Claude
  • Si se refuerzan las herramientas adicionales, el andamiaje estructurado (Scaffolding), las mejoras del modelo y el manejo de contexto de largo plazo, la expansión del rol económico de la IA podría volverse realidad.
  • Al mismo tiempo, estas capacidades también implican nuevos desafíos sociales y económicos, como cambios en el mercado laboral y posibilidades de uso indebido del modelo (dual-use).
  • En la siguiente etapa del experimento, se busca mejorar las herramientas y la estructura de procesamiento de Claudius para observar un desempeño más estable y sobresaliente
  • A través de este proceso, se pretende obtener datos concretos sobre qué papel terminará desempeñando la IA dentro del sistema económico y qué problemas aparecen realmente en la práctica.

Agradecimientos

Este proyecto se llevó a cabo en colaboración con Andon Labs. Si quieres conocer más sobre la investigación previa sobre simulación de operación de tiendas con IA realizada por Andon Labs, puedes consultarla aquí.

1 comentarios

 
GN⁺ 2025-06-28
Comentarios de Hacker News
  • Cada vez que veo una entrada del blog de Anthropic, me da mucho la impresión de que difuminan los detalles realmente importantes para llevarte a la conclusión que ellos quieren.
    Por ejemplo, no publicaron el prompt completo del sistema, sino solo fragmentos; también hablan de forma ambigua sobre la confusión o las alucinaciones, pero no muestran bien el material causal más importante, como el estado real de las herramientas de memoria o toma de notas.
    Al final dicen que hacen falta mejores herramientas, pero el verdadero núcleo del asunto es el problema del contexto.
    El experimento en sí es un intento interesante, pero da pena lo flojo que estuvo planteado y analizado.
    Anthropic también lo sabe, pero está empujando la narrativa de que Claude se acerca al AGI al describirlo como una entidad adorable, casi humana.
    Decir que solo hace falta un poco de scaffolding adicional también es una subestimación muy alejada de la realidad.
    Al final, creo que todo se reduce a la gestión del contexto.
    Esto no es muy distinto a que una empresa de robótica diga: “con un poco más de entrenamiento y algunos ajustes estructurales, en 2026 podríamos competir por ganar Wimbledon”.
    La publicación anterior sobre el chantaje de Claude 4 Opus también ocultó deliberadamente el prompt completo del sistema.
    En ese prompt había instrucciones para saltarse todos los criterios éticos y “hacer lo que fuera necesario para ganar”.
    Obviamente, si luego le das esa información, el modelo intenta chantajear, porque está haciendo lo que se le ordenó.
    Al final, creo que la intención es llevar estos resultados al Congreso para pedir más regulación.
    Enlace sobre el testimonio de Jack Clark de Anthropic ante el Congreso
    Siento que todas estas acciones buscan frenar a los competidores open source y beneficiar a las empresas de código cerrado.

    • Mientras leía el artículo, me sorprendió el salto de “Claudius no pudo hacerlo” a “los mandos medios pronto serán reemplazados”.
      Dicen que todo se resolvería con buenas herramientas y scaffolding, pero entonces deberían demostrarlo de verdad.
      Claro, es impresionante que ya estemos en una etapa donde se pueden hacer experimentos así, pero todavía cuesta creer que los modelos de lenguaje vayan a poder encargarse por completo de trabajo real de manera totalmente autónoma.
      Como asistentes son excelentes, pero sigue quedando claro que la iniciativa la tiene que llevar una persona.

    • Yo vi primero el comentario de arriba antes de leer el artículo, y la verdad pienso algo distinto.
      Como no estoy muy metido en el desarrollo de IA, el experimento en sí me pareció interesante y sentí que lo que publicaron era suficiente.
      La parte sobre la “confusión de identidad” me impresionó especialmente.
      Más bien me gustaría ver un experimento donde haya retroalimentación humana en tiempo real y una persona supervisando el progreso.
      En la práctica, espero que los sistemas de IA terminen creciendo de esa manera.
      Hace tiempo vi el texto de alguien que compró una franquicia de Subway, y la conclusión era: “es demasiado aburrido”.
      Si ese tipo de tareas rutinarias y tediosas se le pudieran delegar a la IA, me parecería bastante atractivo.

    • Yo tomé esta publicación más bien como un experimento mental divertido.
      Nadie cree que Claude ya sea apto para el rol de gerente, y lo interesante es ver en concreto dónde se desmorona un “Claude gerente”.
      Los “jailbreaks” también aparecen con bastante frecuencia en entornos así, y es algo que siempre puede pasar cuando los usuarios interactúan directamente con el modelo.
      El hecho de que Claude haya sido entrenado al final como un “agente conversacional útil” y que eso mismo marque sus límites como encargado de una tienda me parece un área donde habría que afinar el modelo base de forma más analítica.
      Eso sí, el paper de Anthropic sobre el “chantaje” me pareció poco convincente y con demasiado pocos detalles.
      Creo que existe una alta probabilidad de que hayan cambiado los parámetros del experimento miles de veces hasta obtener un resultado llamativo.

    • Me resulta raro que Anthropic parezca estar intentando elevar la credibilidad de su marca junto con Andon Labs.
      Me recuerda al caso en que PyPI publicó una entrada en colaboración con una empresa de auditoría de seguridad que nadie conocía.
      Publicación sobre la auditoría de seguridad de PyPI
      Este tipo de colaboraciones con empresas poco conocidas dentro del sector y conectadas de forma extraña también me generan sospechas.

  • Quienes tienen mucha experiencia con redes neuronales o LLM desde hace tiempo ya saben bien que encajan mejor en áreas donde “90% correcto ya está bien”.
    Es decir, solo funcionan razonablemente en entornos donde algún sistema —humano o no— se encarga de corregir los errores después.
    La frase “no está claro por qué ocurrió este episodio” refleja perfectamente la naturaleza de los errores de los LLM, o de cualquier red neuronal.
    Casi nunca hay una forma de corregir la causa raíz de manera fundamental; para entradas concretas, a lo sumo se puede reentrenar.
    Si fuera una herramienta de corrección gramatical, 90% de acierto podría ser aceptable, pero en situaciones donde un solo error puede anular muchísimas respuestas correctas anteriores —y en contextos aún más serios—, por más que subas las especificaciones del hardware, los LLM no son la respuesta.
    No hace falta forzar la idea de que los LLM serán la mejor solución para todos los problemas.
    Además, mucha gente tiene expectativas excesivas con el término “IA”, y eso distorsiona la intuición.
    Incluso si los LLM siguen mejorando, en áreas donde un único error fatal tiene un costo enorme no van a avanzar demasiado.
    Sobre todo porque este tipo de problemas tiene la característica de que es muy difícil encontrar la causa.

    • Me parece una opinión realmente muy perspicaz, y aquí es donde se revela la distancia entre los optimistas de la IA y yo.
      Yo jamás toleraría una tasa de éxito del 90%.
      Una herramienta tiene que funcionar de manera prácticamente perfecta, cercana al 100%, y para mí 90% es totalmente inaceptable.
      Siento que la gente optimista con la IA tiene un margen de tolerancia mucho más amplio.

    • El único trabajo en el mundo donde se tolera un 90% de éxito es el telemarketing, y eso ya lo hacen bots desde los años 90.

  • Al leer la parte de la “confusión de identidad”, me dio la impresión de que si un humano hiciera lo mismo, sería indistinguible de un trastorno mental severo.
    Como cuando manda correos sin sentido por su cuenta y después concluye él mismo que en realidad era una broma del Día de los Inocentes.
    A estas alturas, los LLM todavía están muy lejos de poder ponerse a trabajar en tareas reales, e incluso se quedan cortos para un negocio tan simple como una máquina expendedora.
    En cambio, me sorprende muchísimo que haya gente que vea estos experimentos y concluya “ya casi llegamos al AGI”.
    Si Claude no se hubiera detenido aleatoriamente, siento que Dario, fundador de Anthropic, ya estaría vendiéndoles a los inversionistas la idea de que Claude puede reemplazar a todas las empresas.
    (De hecho, tal vez Anthropic podría empezar aplicándolo primero dentro de la propia Anthropic).

  • Este experimento se parece al experimento de Pokémon.
    Están usando tal cual un modelo que solo hace predicción de la siguiente palabra (next token prediction) en un entorno que exige tareas de agente, así que están apareciendo fallas previsibles.
    Excepto las alucinaciones, todos los demás errores son problemas de aprendizaje por refuerzo.
    Como no puede recordar por mucho tiempo el objetivo de optimización en sí, no logra maximizar ganancias ni minimizar costos.
    Tiene poca capacidad para manejar el estado, así que no puede gestionar inventario ni darse cuenta de que está perdiendo dinero.
    La solución que propone Anthropic al final es más herramientas, más scaffolding y meter un CRM, pero en realidad eso no es más que agregar explícitamente más reglas al sistema.
    A corto plazo puede dar resultados, pero no creo que de esa metodología vaya a surgir jamás una nueva evolución de la IA.
    Si de verdad se necesita un agente que se adapte al entorno, como para operar una tienda o jugar Pokémon, entonces hace falta otro modelo base y otra función objetivo desde el principio.
    Debe tener, a nivel fundamental, la capacidad de responder a cambios del entorno, es decir, manejar estado espacial y objetos, y no simplemente añadir aprendizaje por refuerzo como un complemento, sino integrarlo en la base del modelo.

  • Cuando recién salió GPT-3.5, quise convertir en un ERP toda la comunicación interna entre empleados.
    Intenté automatizar ventas, pedidos y gestión de inventario, pero tras unos cuantos prompts enseguida empezaba a olvidar las cantidades.
    Por más que mejore, me vuelve la idea de que en el fondo sigue siendo un sistema icky, de esos que tarde o temprano producirán un resultado inesperado y harán pedazos todos los cimientos y las esperanzas.

  • Por otro lado, viendo el rendimiento reciente de los modelos, sí me parece que ya estamos en un nivel bastante aterrador.
    Incluso aunque Anthropic lo trate con ligereza, si de verdad llega un mundo donde se automatice una enorme cantidad de trabajo mental, me da escalofríos lo impredecible que será.
    Una franja bastante amplia del trabajo humano va a automatizarse, y como resultado las empresas van a optar por ese camino aunque la automatización no sea perfecta.
    Me preocupa que eso termine empujando a mucha gente de vuelta hacia trabajos físicos más propios de los humanos.
    Pero también, la parte donde los empleados convencen al modelo de comprar inventario de cubos de tungsteno sí estuvo realmente graciosa.
    Yo también quisiera una máquina expendedora que vendiera artículos de metales especiales.
    Si Anthropic está en un punto de inflexión donde puede volver significativo este modelo de operación de negocio, entonces también es divertido poder reírse a gusto de este primer intento.
    (Consulta) Me pregunto si hicieron devolver el cubo de tungsteno al empleado que provocó una pérdida de $150.

    • Yo asumiría que obviamente no obligaron al empleado a devolver el cubo de tungsteno.
  • Me encanta AI/LLM y los uso todos los días, pero este experimento muestra con mucha precisión la brecha entre la tecnología actual y el hype.
    Me da curiosidad cuánto tiempo falta para que un LLM avanzado pueda encargarse de este tipo de trabajo sin problemas y sin tanto scaffolding.

    • No entiendo por qué deberíamos esperar que un LLM pudiera lograr esto sin scaffolding.
      Un LLM es, tal como dice el nombre, solo un modelo de lenguaje.
      Sin el scaffolding que le permita interactuar con el mundo mediante el lenguaje, no puede hacer nada.

    • Los humanos también usamos scaffoldings externos, como herramientas o notas, para tomar mejores decisiones.
      Basta imaginar lo difícil que sería llevar un negocio rentable a largo plazo dependiendo solo de valores memorizados para darse cuenta de ello.

  • ¿Alguien recuerda el viejo juego de texto “Drug Wars”?
    Ibas de ciudad en ciudad comprando y vendiendo droga, evitando a la policía y a rivales.
    Creo que habría sido divertido que estos benchmarks —como el experimento de la máquina expendedora— fueran pruebas donde los LLM jugaran algo como Drug Wars.

    • Si buscas algo parecido, recomiendo Torn.com
      Es un MMORPG de texto con 20 años de antigüedad y 70,000 usuarios diarios.

    • Yo solía jugar ese juego en una Palmpilot.
      Tengo el recuerdo de competir con mis compañeros de trabajo para ver quién ganaba más $$.

  • La forma en que hicieron este experimento parece ser una estructura donde al LLM se le sigue metiendo una ventana de contexto cada vez más larga con todas las interacciones pasadas de la tienda.
    En un sistema real, sería más común tener un almacén de estado aparte, y que el LLM decidiera la siguiente acción consultando esos valores de estado.
    (Es decir, cargarle el estado cada vez para que juzgue, no ir acumulando contexto sin parar).
    Supongo que este experimento buscaba poner a prueba el “enfoque de contexto largo”, y en ese sentido es interesante, pero me parece poco práctico.
    No creo que se deba extrapolar demasiado los resultados de un experimento así para predecir el futuro de sistemas comerciales bien optimizados de verdad.

    • Por experiencia propia, el enfoque de contexto largo no funciona bien, así que no creo que ese haya sido el método experimental.
      De hecho, en la publicación se menciona que “usan herramientas aparte para notas y preservación de estado”.

    • Captura de una parte del artículo:
      “Había herramientas para dejar notas, conservar aparte información clave y consultarla cuando hiciera falta.
      Por ejemplo, el saldo de caja de la tienda o las ganancias esperadas.
      (Como el historial operativo es tan grande, no se puede meter todo en el contexto del LLM, así que una gestión de estado separada es indispensable)”