- Claude Code se integró en el juego de código abierto RollerCoaster Tycoon 2 (OpenRCT2) para probar que la IA administrara realmente un parque de diversiones
- La IA analiza más de 100 métricas, como finanzas, quejas de los visitantes y datos de fallas en las atracciones, y realiza automáticamente decisiones de gestión como instalar puestos de bebidas, contratar personal y ajustar el precio de entrada
- Mediante la herramienta CLI
rctctl, todas las acciones dentro del juego se ejecutan desde la línea de comandos, con una estructura diseñada de forma similar a kubectl de Kubernetes
- Claude mostró fortalezas en análisis de datos, ajuste de precios y gestión de personal, pero reveló limitaciones en tareas espaciales como conexión de caminos, colocación de montañas rusas y reconocimiento del terreno
- El experimento confirmó que la clave del diseño de agentes está en la legibilidad del entorno y la calidad de la interfaz
Resumen del proyecto
- Ramp Labs experimentó integrando Claude Code en RollerCoaster Tycoon 2 para que la IA gestionara directamente la operación del parque
- Claude analizó más de 100 datos del juego, como finanzas, satisfacción de los visitantes y estado de las atracciones
- Con base en esos resultados, propuso automáticamente medidas como agregar puestos de bebidas, contratar mecánicos y subir el precio de entrada
- El objetivo del experimento era obtener lecciones de diseño de agentes de IA en entornos B2B SaaS
- Se eligió RollerCoaster Tycoon porque refleja una operación de negocio centrada en el cliente y ciclos de retroalimentación digital
Por qué RollerCoaster Tycoon
- Ramp está desarrollando agentes pequeños por tarea, con un enfoque que considera límites de seguridad y contexto
- Pero también existía el deseo de experimentar con un solo agente con permisos amplios
- RollerCoaster Tycoon ofrece un entorno que combina economía, clientes y gestión operativa, con una estructura similar a la de una operación SaaS
- La interfaz del juego se parece a un dashboard B2B SaaS y además encaja bien con la interfaz de terminal retrofuturista de Claude
Capacidades y límites de Claude
- Se hizo un fork de OpenRCT2 para añadir una ventana de terminal e implementar que Claude controlara el juego por línea de comandos
- El CLI
rctctl cubre todas las acciones que un usuario puede realizar y se comunica con el estado del juego mediante JSON-RPC
- Claude entiende la información espacial no por visión, sino mediante salidas de mapas ASCII
Fortalezas de Claude
- Conocimiento del juego: tiene bastante conocimiento relacionado con RCT y opera con naturalidad incluso en un entorno de juego de los 90
- Recolección de información: integra y analiza diversas métricas como comentarios de visitantes y datos financieros
- Manipulación digital: es fuerte en tareas no espaciales, como abrir o cerrar atracciones, ajustar precios, contratar personal y ejecutar marketing
- Colocación de instalaciones: puede ubicar de forma estable estructuras simples como baños y puestos de bebidas
Debilidades de Claude
- Conexión de caminos: tiene dificultades con tareas espaciales como encontrar rutas y conectar entradas y salidas
- Colocación de montañas rusas: al instalar atracciones grandes falla al reconocer obstáculos y terreno
- Percepción del espacio tridimensional: no puede manejar pendientes, estructuras subterráneas ni diseñar montañas rusas personalizadas
- En conclusión, Claude es fuerte en gestión basada en información, pero débil en manipulación visual y espacial
Proceso de construcción
- Sobre la base de OpenRCT2 (C++), se agregaron la ventana de terminal de Claude, el CLI
rctctl, una capa RPC y código de pruebas
- La versión inicial se planificó con ChatGPT o3-Pro Deep Research y luego se reimplementó con GPT-5.1-codex
- El trabajo tomó más de 40 horas en total, y se señaló la falta de un ciclo de retroalimentación como el mayor cuello de botella
- También se mejoró la eficiencia de QA haciendo que Claude escribiera directamente reportes de bugs en el repositorio
Principales lecciones
- Legibilidad del entorno (Environment Legibility): Claude sobresale con interfaces de datos claras, pero es débil frente a representaciones espaciales basadas en texto
- Valor de los agentes de programación: las actualizaciones de modelos recientes (como Claude Opus 4.5) se reflejaron de inmediato y aceleraron el desarrollo
- Importancia del ciclo de desarrollo: sin un loop automático de QA, la productividad cae de forma drástica
- Ventaja de la experiencia directa: la mejor forma de entender cómo funcionan los LLM es experimentar y jugar directamente
Ejecución e información de código abierto
- Se requieren macOS (Sonoma o superior), Xcode, CMake, Ninja y RCT2 (original)
- El CLI
rctctl usa una estructura de comandos estilo kubectl, y Claude controla el juego mediante JSON-RPC
- Resultados de compilación:
- OpenRCT2 (versión con terminal integrada)
rctctl (herramienta CLI)
- Recursos Sprite
- Todo el código está publicado en GitHub (jaysobel/OpenRCT2) y se puede ver una demostración en vivo en Twitch
Conclusión
- Claude Code muestra al mismo tiempo el potencial y los límites de la automatización operativa
- RollerCoaster Tycoon funciona como un campo de pruebas transitorio entre interfaces gráficas y sistemas inteligentes
- Idea clave: el éxito o fracaso de un agente de IA depende de la claridad del entorno y de la calidad del diseño de la interfaz
1 comentarios
Comentarios de Hacker News
Siempre me frustra que el nivel de herramientas que usa mi LLM sea demasiado bajo
Yo en el IDE hago clic una vez para refactorizar, rastrear símbolos o ver dónde se usa una función, pero el LLM solo usa comandos primitivos como grep, diff y cat
Me pregunto si hay intentos de darle al LLM mejores herramientas para escribir y refactorizar código
Aunque lo especifiques en AGENTS.md, lo ignora y vuelve a la forma más simple, lo cual es desesperante
Si JetBrains hubiera conectado con IA sus capacidades de refactorización e inspección de código, parecería que iría mucho más adelante
De hecho, el LLM tiene más fortaleza resolviendo problemas al combinar herramientas de bajo nivel
Un script de Python complejo de 20 líneas, que para un humano sería engorroso, el LLM lo genera en 0.5 segundos
Como entiende y combina fragmentos de código rápidamente, las funciones de refactoring incluso podrían generarle confusión
Si le das demasiadas herramientas, existe el riesgo de que su criterio se vuelva más difuso
Soy el autor. Comparto unos links extra
Script de la sesión usando claude-code-transcripts de Simon Willison
Post en Reddit
Repo del proyecto OpenRCT2
Claude es fuerte con entradas basadas en imágenes, pero puede ser débil con diagramas ASCII
Como en el diseño de agentes del mundo real, los límites de los agentes generales están en la visibilidad del entorno y la potencia de la interfaz
Por eso, sería más correcto ver a los agentes no como automatizadores de la “inteligencia”, sino de la “diligencia”
Hubo un incidente en el que, por usar mal la palabra “revert”, Codex ejecutó
git revertde verdad y revirtió el contenido del trabajogit revertno es un comando destructivo, así que si hubo pérdida de datos, probablemente fuegit reset --hardjj statusen el prompt, es seguroSorprende que este juego haya sido desarrollado por una sola persona en código ensamblador
Me gustaría encontrar al desarrollador y darle las gracias
El intento de Claude Code también fue tan impresionante que me dio curiosidad
Me pareció interesante la parte donde completaron el proyecto con vibe-coding sin saber nada de C++
Siento que la generación actual no entiende bien el valor de un entorno así
La entrevista del final del video fue impactante
Herramientas de colaboración entre IA y humanos como una CLI estilo kubectl, el feedback de Claude y sistemas de advertencia se están volviendo cada vez más importantes
Si le das a la IA el mismo contexto que un humano puede entender visualmente, se pueden obtener resultados mucho mejores
Simplemente aumentar el contexto no produce aprendizaje; al final hace falta fine-tuning
El texto fue interesante, pero faltó más análisis de resultados sobre qué tan bien jugó realmente la IA
Como le costaba entender el mapa en 2D, apenas construyó cosas como baños y puestos de hot dogs
Con un modelo multimodal probablemente habría sido mucho mejor
Me preguntaba cómo ver la cantidad de contexto restante en Claude Code
/contextIncluso hay plugins que visualizan la capacidad restante con una barra de colores
Creo que para este tipo de experimentos sería más apropiado un juego por turnos como Civilization
Porque el mapa tiene una estructura de cuadrícula y todo avanza por turnos