Ouroboros, un proyecto open source de un desarrollador coreano, supera a Claude Plan Mode y logra el primer lugar en un benchmark de modelado y simulación

(github.com/Q00)

2 puntos por shaun0927 1 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

El proyecto open source Ouroboros, creado por un desarrollador coreano,
obtuvo recientemente el primer lugar general en el benchmark "AI-assisted discrete-event simulation".

Lo especialmente significativo es que, aunque se ejecutó en el mismo entorno de Claude Max, logró mejores resultados que el propio plan mode de Claude.

Este benchmark no era una prueba simple de capacidad de programación, sino una tarea de alta dificultad para evaluar qué tan bien un agente de IA puede comprender un sistema real,
modelarlo y producir hasta resultados de simulación ejecutables.

La tarea se centró en un sistema de transporte minero y exigía, a grandes rasgos, capacidades como las siguientes.

Comprender la estructura del sistema, incluyendo camiones mineros, puntos de carga, puntos de descarga, rutas y colas
Abstraer procesos complejos del mundo real en un modelo de discrete-event simulation
Diseñar qué eventos ocurren, qué estados cambian y qué métricas se deben medir
Implementar código de simulación realmente ejecutable
Interpretar resultados como cuellos de botella, throughput y tiempo de espera
Generar entregables fáciles de entender para las personas, como topology diagram y animation

Ouroboros se ejecutó dentro de Claude Code con el workflow ooo,
y la entrega incluyó no solo la implementación del código, sino también una animación de camiones mineros transportando mineral y un topology diagram.

Algo interesante es que, aunque el MCP server falló durante la ejecución,
Ouroboros hizo fallback con un enfoque basado en skills y aun así obtuvo un buen resultado.
Personalmente, considero que esta parte es especialmente significativa.
Como en entornos reales los workflows de IA no siempre funcionan de forma ideal,
es importante tener la capacidad de recuperarse de una falla y seguir avanzando por otra ruta.

La dirección a la que apunta Ouroboros no es simplemente “hacer que la IA escriba código”.

Construye un workflow en el que la IA define con claridad el problema, planifica, ejecuta, se recupera de fallas, evalúa resultados
y, cuando hace falta, vuelve a mejorar.

Creo que este benchmark es una buena validación de que ese enfoque también tiene valor en la resolución de problemas complejos del mundo real.

Otro punto interesante fue que simplemente agregar muchas instrucciones o skills grandes no siempre produjo mejores resultados.
En estos resultados, algunos enfoques basados en fat skills (por ejemplo, superpowers) mostraron un rendimiento incluso inferior al plan mode básico,
mientras que un workflow estructurado como el de Ouroboros, que organiza definición del problema, planificación, ejecución, evaluación y recuperación, obtuvo mejores resultados.

En lo personal, me hace sentir orgullo que un workflow open source de IA creado por un desarrollador coreano
haya superado el plan mode base de Anthropic.
Pero, más importante aún, esto parece ser un pequeño experimento sobre qué tipo de estructura deberían tener los agentes de IA para resolver problemas reales en el futuro.

Ouroboros GitHub: https://github.com/Q00/ouroboros
Benchmark: https://lnkd.in/dhGMsGVD

Ouroboros, un proyecto open source de un desarrollador coreano, supera a Claude Plan Mode y logra el primer lugar en un benchmark de modelado y simulación

Lecturas relacionadas

Aún no hay comentarios.