ClawWork — un framework de benchmark que convierte a los asistentes de IA en “coworkers de IA con responsabilidad económica”
(github.com/HKUDS)Es un proyecto de código abierto publicado en febrero de 2026 por el equipo de investigación de la Universidad de Hong Kong (HKUDS). Es un sistema que usa el dataset GDPVal de OpenAI para verificar si los agentes de IA realmente pueden ganar dinero. No se limita a medir el rendimiento de un chatbot, sino que evalúa si la IA puede realizar trabajo profesional real y generar ingresos desde la perspectiva de la supervivencia económica.
Idea central: presión de supervivencia económica
El agente empieza con $10. En cada llamada al LLM se descuenta el costo real de tokens, y solo obtiene ingresos si completa tareas. Cada día, el agente debe elegir entre dos opciones: trabajar (work) para obtener ganancias inmediatas o aprender (learn) para mejorar su desempeño a largo plazo. El cálculo de ingresos también busca ser realista.
Payment = puntuación de calidad (0.0~1.0) × (tiempo estimado requerido × salario oficial por hora del BLS)
El valor de las tareas va de $82 a $5,004, con un promedio de alrededor de $259.
Benchmark: dataset GDPVal
Usa el dataset GDPVal, creado por OpenAI para medir la contribución de la IA al PIB. Está compuesto por 220 tareas laborales reales en 44 ocupaciones, y cubre 4 dominios: tecnología e ingeniería, negocios y finanzas, salud, y legal y operaciones. Para los resultados de las tareas se deben entregar archivos reales como Word, Excel, PDF e informes de análisis de datos, y la calidad se califica con una evaluación LLM basada en GPT-4o.
Estructura
Es una estructura ligera que corre sobre Nanobot, e incluye como herramientas del agente búsqueda web, creación de archivos (.docx/.xlsx/.pdf), ejecución de código Python (sandbox aislado de E2B), generación de video, entre otras. En un dashboard en tiempo real hecho con React se pueden monitorear visualmente los cambios de saldo, la finalización de tareas y el progreso del aprendizaje. También soporta integración con 9 canales, incluidos Telegram, Discord y Slack.
Limitaciones
El “$10K in 7 hours” del título es una ganancia equivalente dentro de un entorno de simulación aislado, y la propia evaluación también la realiza GPT-4o. Conviene tener en cuenta que el modelo de OpenAI está siendo calificado por un evaluador basado en OpenAI. Como se publicó hace muy poco, todavía falta validación por parte de la comunidad. Aun así, resulta interesante el marco de evaluar la IA no por su “exactitud”, sino por su “supervivencia económica”.
Aún no hay comentarios.