Probé jugar RollerCoaster Tycoon con Claude Code

(labs.ramp.com)

16 puntos por GN⁺ 2026-01-19 | 1 comentarios | Compartir por WhatsApp

Claude Code se integró en el juego de código abierto RollerCoaster Tycoon 2 (OpenRCT2) para probar que la IA administrara realmente un parque de diversiones
La IA analiza más de 100 métricas, como finanzas, quejas de los visitantes y datos de fallas en las atracciones, y realiza automáticamente decisiones de gestión como instalar puestos de bebidas, contratar personal y ajustar el precio de entrada
Mediante la herramienta CLI rctctl, todas las acciones dentro del juego se ejecutan desde la línea de comandos, con una estructura diseñada de forma similar a kubectl de Kubernetes
Claude mostró fortalezas en análisis de datos, ajuste de precios y gestión de personal, pero reveló limitaciones en tareas espaciales como conexión de caminos, colocación de montañas rusas y reconocimiento del terreno
El experimento confirmó que la clave del diseño de agentes está en la legibilidad del entorno y la calidad de la interfaz

Resumen del proyecto

Ramp Labs experimentó integrando Claude Code en RollerCoaster Tycoon 2 para que la IA gestionara directamente la operación del parque
- Claude analizó más de 100 datos del juego, como finanzas, satisfacción de los visitantes y estado de las atracciones
- Con base en esos resultados, propuso automáticamente medidas como agregar puestos de bebidas, contratar mecánicos y subir el precio de entrada
El objetivo del experimento era obtener lecciones de diseño de agentes de IA en entornos B2B SaaS
Se eligió RollerCoaster Tycoon porque refleja una operación de negocio centrada en el cliente y ciclos de retroalimentación digital

Por qué RollerCoaster Tycoon

Ramp está desarrollando agentes pequeños por tarea, con un enfoque que considera límites de seguridad y contexto
Pero también existía el deseo de experimentar con un solo agente con permisos amplios
RollerCoaster Tycoon ofrece un entorno que combina economía, clientes y gestión operativa, con una estructura similar a la de una operación SaaS
La interfaz del juego se parece a un dashboard B2B SaaS y además encaja bien con la interfaz de terminal retrofuturista de Claude

Capacidades y límites de Claude

Se hizo un fork de OpenRCT2 para añadir una ventana de terminal e implementar que Claude controlara el juego por línea de comandos
El CLI rctctl cubre todas las acciones que un usuario puede realizar y se comunica con el estado del juego mediante JSON-RPC
Claude entiende la información espacial no por visión, sino mediante salidas de mapas ASCII

Fortalezas de Claude

Conocimiento del juego: tiene bastante conocimiento relacionado con RCT y opera con naturalidad incluso en un entorno de juego de los 90
Recolección de información: integra y analiza diversas métricas como comentarios de visitantes y datos financieros
Manipulación digital: es fuerte en tareas no espaciales, como abrir o cerrar atracciones, ajustar precios, contratar personal y ejecutar marketing
Colocación de instalaciones: puede ubicar de forma estable estructuras simples como baños y puestos de bebidas

Debilidades de Claude

Conexión de caminos: tiene dificultades con tareas espaciales como encontrar rutas y conectar entradas y salidas
Colocación de montañas rusas: al instalar atracciones grandes falla al reconocer obstáculos y terreno
Percepción del espacio tridimensional: no puede manejar pendientes, estructuras subterráneas ni diseñar montañas rusas personalizadas
En conclusión, Claude es fuerte en gestión basada en información, pero débil en manipulación visual y espacial

Proceso de construcción

Sobre la base de OpenRCT2 (C++), se agregaron la ventana de terminal de Claude, el CLI rctctl, una capa RPC y código de pruebas
La versión inicial se planificó con ChatGPT o3-Pro Deep Research y luego se reimplementó con GPT-5.1-codex
El trabajo tomó más de 40 horas en total, y se señaló la falta de un ciclo de retroalimentación como el mayor cuello de botella
También se mejoró la eficiencia de QA haciendo que Claude escribiera directamente reportes de bugs en el repositorio

Principales lecciones

Legibilidad del entorno (Environment Legibility): Claude sobresale con interfaces de datos claras, pero es débil frente a representaciones espaciales basadas en texto
Valor de los agentes de programación: las actualizaciones de modelos recientes (como Claude Opus 4.5) se reflejaron de inmediato y aceleraron el desarrollo
Importancia del ciclo de desarrollo: sin un loop automático de QA, la productividad cae de forma drástica
Ventaja de la experiencia directa: la mejor forma de entender cómo funcionan los LLM es experimentar y jugar directamente

Ejecución e información de código abierto

Se requieren macOS (Sonoma o superior), Xcode, CMake, Ninja y RCT2 (original)
El CLI rctctl usa una estructura de comandos estilo kubectl, y Claude controla el juego mediante JSON-RPC
Resultados de compilación:
- OpenRCT2 (versión con terminal integrada)
- rctctl (herramienta CLI)
- Recursos Sprite
Todo el código está publicado en GitHub (jaysobel/OpenRCT2) y se puede ver una demostración en vivo en Twitch

Conclusión

Claude Code muestra al mismo tiempo el potencial y los límites de la automatización operativa
RollerCoaster Tycoon funciona como un campo de pruebas transitorio entre interfaces gráficas y sistemas inteligentes
Idea clave: el éxito o fracaso de un agente de IA depende de la claridad del entorno y de la calidad del diseño de la interfaz

1 comentarios

GN⁺ 2026-01-19

Comentarios de Hacker News

Siempre me frustra que el nivel de herramientas que usa mi LLM sea demasiado bajo
Yo en el IDE hago clic una vez para refactorizar, rastrear símbolos o ver dónde se usa una función, pero el LLM solo usa comandos primitivos como grep, diff y cat
Me pregunto si hay intentos de darle al LLM mejores herramientas para escribir y refactorizar código
- Incluso si le das acceso a VSCode Diagnostics o a un servidor LSP, el LLM siempre intenta usar solo herramientas básicas de CLI
  Aunque lo especifiques en AGENTS.md, lo ignora y vuelve a la forma más simple, lo cual es desesperante
- Me sorprende que la mayoría de las herramientas de desarrollo con IA estén basadas en VSCode
  Si JetBrains hubiera conectado con IA sus capacidades de refactorización e inspección de código, parecería que iría mucho más adelante
- Claude Code dio soporte oficial para LSP en la versión de diciembre de 2025, pero aun así parece haber sido entrenado alrededor de herramientas simples
  De hecho, el LLM tiene más fortaleza resolviendo problemas al combinar herramientas de bajo nivel
  Un script de Python complejo de 20 líneas, que para un humano sería engorroso, el LLM lo genera en 0.5 segundos
- Zed Editor expone directamente al LLM funciones basadas en LSP, lo que reduce la dependencia de grep
- El LLM no necesariamente necesita funciones de IDE como un humano
  Como entiende y combina fragmentos de código rápidamente, las funciones de refactoring incluso podrían generarle confusión
  Si le das demasiadas herramientas, existe el riesgo de que su criterio se vuelva más difuso
Soy el autor. Comparto unos links extra
Script de la sesión usando claude-code-transcripts de Simon Willison
Post en Reddit
Repo del proyecto OpenRCT2
- Me pregunto si evaluaron con capturas de pantalla o pantallas visualizadas en vez de solo CLI
  Claude es fuerte con entradas basadas en imágenes, pero puede ser débil con diagramas ASCII
- Se menciona la limitación de percepción visual y espacial de Claude, y hay quien opina que los modelos de OpenAI probablemente serían mejores para entender imágenes
Como en el diseño de agentes del mundo real, los límites de los agentes generales están en la visibilidad del entorno y la potencia de la interfaz
Por eso, sería más correcto ver a los agentes no como automatizadores de la “inteligencia”, sino de la “diligencia”
Hubo un incidente en el que, por usar mal la palabra “revert”, Codex ejecutó git revert de verdad y revirtió el contenido del trabajo
- Sorprende que estas herramientas no guarden los logs de trabajo de forma reproducible
  git revert no es un comando destructivo, así que si hubo pérdida de datos, probablemente fue git reset --hard
- Para evitar este tipo de accidentes, hace falta una función de control de permisos de comandos
- Por eso también hay quien propone usar Jujutsu; si pones jj status en el prompt, es seguro
Sorprende que este juego haya sido desarrollado por una sola persona en código ensamblador
Me gustaría encontrar al desarrollador y darle las gracias
El intento de Claude Code también fue tan impresionante que me dio curiosidad
Me pareció interesante la parte donde completaron el proyecto con vibe-coding sin saber nada de C++
- Normalmente cuando se habla de vibe-coding dicen “lo terminé en unas horas”, pero aquí fue refrescante que presentaran un cronograma realista
- Su proceso de prueba y error y la forma en que resolvieron problemas fue realmente interesante
- Si algo así hubiera existido en 1997, creo que habría gastado todos mis ahorros para comprarlo
  Siento que la generación actual no entiende bien el valor de un entorno así
La entrevista del final del video fue impactante
Herramientas de colaboración entre IA y humanos como una CLI estilo kubectl, el feedback de Claude y sistemas de advertencia se están volviendo cada vez más importantes
Si le das a la IA el mismo contexto que un humano puede entender visualmente, se pueden obtener resultados mucho mejores
- Pero una estructura en la que la IA se mejora a sí misma en la práctica no funciona muy bien
  Simplemente aumentar el contexto no produce aprendizaje; al final hace falta fine-tuning
El texto fue interesante, pero faltó más análisis de resultados sobre qué tan bien jugó realmente la IA
- En la práctica era buena administrando las finanzas, pero floja para construir edificios
  Como le costaba entender el mapa en 2D, apenas construyó cosas como baños y puestos de hot dogs
  Con un modelo multimodal probablemente habría sido mucho mejor
- Hay quienes creen que lo central de la IA es la capacidad de generar, no la de verificar
Me preguntaba cómo ver la cantidad de contexto restante en Claude Code
- Se puede revisar directamente con el comando /context
- También se puede agregar una indicación de uso de contexto en la status line
  Incluso hay plugins que visualizan la capacidad restante con una barra de colores
Creo que para este tipo de experimentos sería más apropiado un juego por turnos como Civilization
Porque el mapa tiene una estructura de cuadrícula y todo avanza por turnos

Probé jugar RollerCoaster Tycoon con Claude Code

Resumen del proyecto

Por qué RollerCoaster Tycoon

Capacidades y límites de Claude

Fortalezas de Claude

Debilidades de Claude

Proceso de construcción

Principales lecciones

Ejecución e información de código abierto

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News