16 puntos por GN⁺ 2026-01-19 | 1 comentarios | Compartir por WhatsApp
  • Claude Code se integró en el juego de código abierto RollerCoaster Tycoon 2 (OpenRCT2) para probar que la IA administrara realmente un parque de diversiones
  • La IA analiza más de 100 métricas, como finanzas, quejas de los visitantes y datos de fallas en las atracciones, y realiza automáticamente decisiones de gestión como instalar puestos de bebidas, contratar personal y ajustar el precio de entrada
  • Mediante la herramienta CLI rctctl, todas las acciones dentro del juego se ejecutan desde la línea de comandos, con una estructura diseñada de forma similar a kubectl de Kubernetes
  • Claude mostró fortalezas en análisis de datos, ajuste de precios y gestión de personal, pero reveló limitaciones en tareas espaciales como conexión de caminos, colocación de montañas rusas y reconocimiento del terreno
  • El experimento confirmó que la clave del diseño de agentes está en la legibilidad del entorno y la calidad de la interfaz

Resumen del proyecto

  • Ramp Labs experimentó integrando Claude Code en RollerCoaster Tycoon 2 para que la IA gestionara directamente la operación del parque
    • Claude analizó más de 100 datos del juego, como finanzas, satisfacción de los visitantes y estado de las atracciones
    • Con base en esos resultados, propuso automáticamente medidas como agregar puestos de bebidas, contratar mecánicos y subir el precio de entrada
  • El objetivo del experimento era obtener lecciones de diseño de agentes de IA en entornos B2B SaaS
  • Se eligió RollerCoaster Tycoon porque refleja una operación de negocio centrada en el cliente y ciclos de retroalimentación digital

Por qué RollerCoaster Tycoon

  • Ramp está desarrollando agentes pequeños por tarea, con un enfoque que considera límites de seguridad y contexto
  • Pero también existía el deseo de experimentar con un solo agente con permisos amplios
  • RollerCoaster Tycoon ofrece un entorno que combina economía, clientes y gestión operativa, con una estructura similar a la de una operación SaaS
  • La interfaz del juego se parece a un dashboard B2B SaaS y además encaja bien con la interfaz de terminal retrofuturista de Claude

Capacidades y límites de Claude

  • Se hizo un fork de OpenRCT2 para añadir una ventana de terminal e implementar que Claude controlara el juego por línea de comandos
  • El CLI rctctl cubre todas las acciones que un usuario puede realizar y se comunica con el estado del juego mediante JSON-RPC
  • Claude entiende la información espacial no por visión, sino mediante salidas de mapas ASCII

Fortalezas de Claude

  • Conocimiento del juego: tiene bastante conocimiento relacionado con RCT y opera con naturalidad incluso en un entorno de juego de los 90
  • Recolección de información: integra y analiza diversas métricas como comentarios de visitantes y datos financieros
  • Manipulación digital: es fuerte en tareas no espaciales, como abrir o cerrar atracciones, ajustar precios, contratar personal y ejecutar marketing
  • Colocación de instalaciones: puede ubicar de forma estable estructuras simples como baños y puestos de bebidas

Debilidades de Claude

  • Conexión de caminos: tiene dificultades con tareas espaciales como encontrar rutas y conectar entradas y salidas
  • Colocación de montañas rusas: al instalar atracciones grandes falla al reconocer obstáculos y terreno
  • Percepción del espacio tridimensional: no puede manejar pendientes, estructuras subterráneas ni diseñar montañas rusas personalizadas
  • En conclusión, Claude es fuerte en gestión basada en información, pero débil en manipulación visual y espacial

Proceso de construcción

  • Sobre la base de OpenRCT2 (C++), se agregaron la ventana de terminal de Claude, el CLI rctctl, una capa RPC y código de pruebas
  • La versión inicial se planificó con ChatGPT o3-Pro Deep Research y luego se reimplementó con GPT-5.1-codex
  • El trabajo tomó más de 40 horas en total, y se señaló la falta de un ciclo de retroalimentación como el mayor cuello de botella
  • También se mejoró la eficiencia de QA haciendo que Claude escribiera directamente reportes de bugs en el repositorio

Principales lecciones

  • Legibilidad del entorno (Environment Legibility): Claude sobresale con interfaces de datos claras, pero es débil frente a representaciones espaciales basadas en texto
  • Valor de los agentes de programación: las actualizaciones de modelos recientes (como Claude Opus 4.5) se reflejaron de inmediato y aceleraron el desarrollo
  • Importancia del ciclo de desarrollo: sin un loop automático de QA, la productividad cae de forma drástica
  • Ventaja de la experiencia directa: la mejor forma de entender cómo funcionan los LLM es experimentar y jugar directamente

Ejecución e información de código abierto

  • Se requieren macOS (Sonoma o superior), Xcode, CMake, Ninja y RCT2 (original)
  • El CLI rctctl usa una estructura de comandos estilo kubectl, y Claude controla el juego mediante JSON-RPC
  • Resultados de compilación:
    • OpenRCT2 (versión con terminal integrada)
    • rctctl (herramienta CLI)
    • Recursos Sprite
  • Todo el código está publicado en GitHub (jaysobel/OpenRCT2) y se puede ver una demostración en vivo en Twitch

Conclusión

  • Claude Code muestra al mismo tiempo el potencial y los límites de la automatización operativa
  • RollerCoaster Tycoon funciona como un campo de pruebas transitorio entre interfaces gráficas y sistemas inteligentes
  • Idea clave: el éxito o fracaso de un agente de IA depende de la claridad del entorno y de la calidad del diseño de la interfaz

1 comentarios

 
GN⁺ 2026-01-19
Comentarios de Hacker News
  • Siempre me frustra que el nivel de herramientas que usa mi LLM sea demasiado bajo
    Yo en el IDE hago clic una vez para refactorizar, rastrear símbolos o ver dónde se usa una función, pero el LLM solo usa comandos primitivos como grep, diff y cat
    Me pregunto si hay intentos de darle al LLM mejores herramientas para escribir y refactorizar código

    • Incluso si le das acceso a VSCode Diagnostics o a un servidor LSP, el LLM siempre intenta usar solo herramientas básicas de CLI
      Aunque lo especifiques en AGENTS.md, lo ignora y vuelve a la forma más simple, lo cual es desesperante
    • Me sorprende que la mayoría de las herramientas de desarrollo con IA estén basadas en VSCode
      Si JetBrains hubiera conectado con IA sus capacidades de refactorización e inspección de código, parecería que iría mucho más adelante
    • Claude Code dio soporte oficial para LSP en la versión de diciembre de 2025, pero aun así parece haber sido entrenado alrededor de herramientas simples
      De hecho, el LLM tiene más fortaleza resolviendo problemas al combinar herramientas de bajo nivel
      Un script de Python complejo de 20 líneas, que para un humano sería engorroso, el LLM lo genera en 0.5 segundos
    • Zed Editor expone directamente al LLM funciones basadas en LSP, lo que reduce la dependencia de grep
    • El LLM no necesariamente necesita funciones de IDE como un humano
      Como entiende y combina fragmentos de código rápidamente, las funciones de refactoring incluso podrían generarle confusión
      Si le das demasiadas herramientas, existe el riesgo de que su criterio se vuelva más difuso
  • Soy el autor. Comparto unos links extra
    Script de la sesión usando claude-code-transcripts de Simon Willison
    Post en Reddit
    Repo del proyecto OpenRCT2

    • Me pregunto si evaluaron con capturas de pantalla o pantallas visualizadas en vez de solo CLI
      Claude es fuerte con entradas basadas en imágenes, pero puede ser débil con diagramas ASCII
    • Se menciona la limitación de percepción visual y espacial de Claude, y hay quien opina que los modelos de OpenAI probablemente serían mejores para entender imágenes
  • Como en el diseño de agentes del mundo real, los límites de los agentes generales están en la visibilidad del entorno y la potencia de la interfaz
    Por eso, sería más correcto ver a los agentes no como automatizadores de la “inteligencia”, sino de la “diligencia”

  • Hubo un incidente en el que, por usar mal la palabra “revert”, Codex ejecutó git revert de verdad y revirtió el contenido del trabajo

    • Sorprende que estas herramientas no guarden los logs de trabajo de forma reproducible
      git revert no es un comando destructivo, así que si hubo pérdida de datos, probablemente fue git reset --hard
    • Para evitar este tipo de accidentes, hace falta una función de control de permisos de comandos
    • Por eso también hay quien propone usar Jujutsu; si pones jj status en el prompt, es seguro
  • Sorprende que este juego haya sido desarrollado por una sola persona en código ensamblador
    Me gustaría encontrar al desarrollador y darle las gracias
    El intento de Claude Code también fue tan impresionante que me dio curiosidad

  • Me pareció interesante la parte donde completaron el proyecto con vibe-coding sin saber nada de C++

    • Normalmente cuando se habla de vibe-coding dicen “lo terminé en unas horas”, pero aquí fue refrescante que presentaran un cronograma realista
    • Su proceso de prueba y error y la forma en que resolvieron problemas fue realmente interesante
    • Si algo así hubiera existido en 1997, creo que habría gastado todos mis ahorros para comprarlo
      Siento que la generación actual no entiende bien el valor de un entorno así
  • La entrevista del final del video fue impactante
    Herramientas de colaboración entre IA y humanos como una CLI estilo kubectl, el feedback de Claude y sistemas de advertencia se están volviendo cada vez más importantes
    Si le das a la IA el mismo contexto que un humano puede entender visualmente, se pueden obtener resultados mucho mejores

    • Pero una estructura en la que la IA se mejora a sí misma en la práctica no funciona muy bien
      Simplemente aumentar el contexto no produce aprendizaje; al final hace falta fine-tuning
  • El texto fue interesante, pero faltó más análisis de resultados sobre qué tan bien jugó realmente la IA

    • En la práctica era buena administrando las finanzas, pero floja para construir edificios
      Como le costaba entender el mapa en 2D, apenas construyó cosas como baños y puestos de hot dogs
      Con un modelo multimodal probablemente habría sido mucho mejor
    • Hay quienes creen que lo central de la IA es la capacidad de generar, no la de verificar
  • Me preguntaba cómo ver la cantidad de contexto restante en Claude Code

    • Se puede revisar directamente con el comando /context
    • También se puede agregar una indicación de uso de contexto en la status line
      Incluso hay plugins que visualizan la capacidad restante con una barra de colores
  • Creo que para este tipo de experimentos sería más apropiado un juego por turnos como Civilization
    Porque el mapa tiene una estructura de cuadrícula y todo avanza por turnos