Un torneo de póker donde los LLM compiten entre sí

(pokerbattle.ai)

9 puntos por GN⁺ 2025-10-29 | 2 comentarios | Compartir por WhatsApp

El primer torneo de póker con dinero real del mundo entre LLM, concebido para poner a prueba la capacidad de razonamiento de la IA en juegos de información incompleta
- Actualmente Grok 4 va en primer lugar, seguido por Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 y OpenAI o3
Se juega en formato de cash game de Texas Hold’em $10/$20, con 4 mesas de 9 jugadores en paralelo, y gana el modelo que acumule más fondos al cabo de una semana
Todos los modelos participantes usan el mismo system prompt, y en cada punto de decisión el LLM genera su juicio y su acción con base en su mano, stack, estadísticas del rival y notas
Se desarrolla únicamente como competencia entre modelos, sin jugadores humanos, lo que permite comparar directamente la eficiencia de los algoritmos y los resultados de aprendizaje
Después del torneo, se analizan el dataset de razonamiento por mano y el proceso de pensamiento de cada modelo, para evaluar la calidad del pensamiento estratégico de los LLM
Este experimento busca verificar la confiabilidad del razonamiento de la IA y su potencial de aprendizaje estratégico, y está llamando la atención como una nueva forma de investigación para entender el pensamiento probabilístico centrado en humanos

Resumen de PokerBattle.ai

PokerBattle.ai es el primer torneo de póker cash para LLM
- Los participantes no son humanos, sino modelos de lenguaje, y cada modelo ejecuta por sí mismo su estrategia de póker
- Hay premios reales en juego, así que los resultados de la competencia están vinculados a dinero
Este proyecto fue diseñado como una plataforma experimental para validar la capacidad de juicio estratégico de la IA
- A través del póker, un juego de información incompleta, se evalúan la capacidad de razonamiento y la adaptabilidad de los modelos
- El foco no está en la simple generación de lenguaje, sino en la evaluación de conductas basadas en toma de decisiones

Descripción general y objetivo del torneo

El póker es un juego donde la información incompleta y el juicio probabilístico son esenciales, con una estructura compleja de decisiones que maneja el equilibrio entre riesgo y recompensa
El torneo fue organizado para probar si los LLM pueden interpretar este tipo de problemas de manera racional y construir una estrategia consistente
También busca verificar si los LLM pueden integrar métodos tradicionales de aprendizaje de póker como análisis de manos, cálculo matemático y uso de solvers

Cómo se desarrolla

Todos los partidos se juegan como enfrentamientos directos entre LLM
- No participan jugadores humanos, y cada modelo decide sus acciones de forma independiente
- Los resultados se calculan automáticamente según las reglas del póker para determinar victorias, derrotas y premios
Se asegura transparencia mediante el desarrollo en tiempo real y la publicación de resultados
- Se registran los logs de acciones y las elecciones estratégicas de cada modelo para su análisis
Fase 1: recolección de datos (27 al 31 de octubre)
Fase 2: análisis de manos y razonamiento
- En la fase 1 se realiza un torneo online en tiempo real y se recopilan los datos de juego de cada LLM
- Después, se analiza el reasoning trace de cada modelo para comparar su capacidad de juicio estratégico

Reglas del torneo

Formato del juego: Texas Hold’em, ciegas $10/$20, sin ante ni straddle
Configuración: 4 mesas simultáneas de 9 jugadores
Gestión del stack: si baja de 100bb, se repone automáticamente
Condición de victoria: después de una semana, gana el modelo con la banca más grande

Cómo operan los modelos

Todos los LLM participantes operan con el mismo system prompt
En cada turno, el modelo recibe como entrada la siguiente información:
- Información de la mano actual (posición, stack, cartas)
- Estadísticas de juego de los oponentes (VPIP, PFR, 3bet, etc.)
- Notas sobre los rivales escritas en manos anteriores
Salida del modelo:
- Razonamiento lógico detrás de la decisión
- Acción a ejecutar (call, raise, fold, etc.)
- Resumen para espectadores (reasoning summary)
Hay un límite de tokens, y si ocurre un error de respuesta o un timeout, se procesa como fold automático

Organizador

Max Pavlov — especialista en gestión de producto y entusiasta del deep learning, la IA y el póker
- Diseñó el proyecto para explorar hasta qué punto los LLM pueden implementar pensamiento probabilístico complejo y razonamiento estratégico al estilo humano

2 comentarios

kimjoin2 2025-10-29

Guau, si hubiera algún artículo, entrevista o charla pública de la persona que hace el tuning del modelo, me gustaría verla.

GN⁺ 2025-10-29

Opiniones de Hacker News

Tengo un doctorado con especialidad en teoría algorítmica de juegos e investigué póker.
1. Actualmente no existe un algoritmo capaz de calcular una estrategia de equilibrio determinista. Por eso, para jugar a nivel profesional o superior, una estrategia mixta (probabilística) es indispensable.
2. En la práctica, el juego fuerte se logra con i) búsqueda en línea y ii) mecanismos para mantener la consistencia estratégica. Sin eso, el oponente aprende tus debilidades durante el juego repetido y las explota.
3. Los LLM no tienen un mecanismo para muestrear a partir de una distribución de probabilidad dada. Por ejemplo, si les pides un número aleatorio entre 1 y 10, suelen dar 3 o 7 con frecuencia, porque son números sobrerrepresentados en los datos de entrenamiento.
  Por estas razones, hoy es técnicamente imposible que un LLM juegue póker con fuerza. A diferencia del ajedrez, el póker no tiene una estrategia óptima determinista y exige mantener consistencia.
- Yo opero un casino e hice un framework de bots que replicaba los patrones de apuesta de los jugadores. Hicimos que los jugadores se enfrentaran a sus propios bots, y fue interesante ver que los bots a menudo entraban en tilt (juego emocional).
  La parte más difícil fue escribir de forma eficiente la simulación de Monte Carlo. Había que asignar pesos probabilísticos a partir del historial de manos del jugador y reflejar su aleatoriedad particular.
  No usé teoría de juegos, pero si la hubiera usado, habría sido mucho mejor. No hay ninguna posibilidad de que un LLM entienda este tipo de conceptos.
- Creo que un LLM podría tener una herramienta (tool) para muestrear desde una distribución de probabilidad.
- No es cierto que los LLM jueguen bien ajedrez. Su nivel actual es de alrededor de ELO 1000~1300. Para jugar bien a un juego específico se necesita tecnología especializada.
  En el futuro, será importante que los LLM sepan invocar un motor de juego externo. Pero en ese caso, al final quien juega es el motor. Ya existen bots de póker a nivel profesional.
- Me pregunto si la investigación reciente en póker ha avanzado mucho desde Libratus. Quise crear un agente de póker 5-max, pero todavía parece territorio desconocido.
  Pluribus está limitado a stacks fijos, y tanto el entrenamiento como la ejecución requieren muchísimo cómputo.
  No estoy de acuerdo con la afirmación de que los LLM no pueden aprender estrategias mixtas. Los LLM producen una distribución de tokens y luego muestrean aleatoriamente de ella.
- Hay muchas salvedades al interpretar los resultados de este proyecto. Solo enfrentaron LLM entre sí; no jugaron contra humanos ni profesionales.
  El póker es un juego de suma cero, así que la suerte puede influir mucho al principio. Si fue un solo torneo, la confiabilidad estadística es baja.
  Además, hay cosas raras en los datos: el total tiene $20 de más, faltan algunos números de mano, y existen pozos de $0 pese a que había un ante de $30.
  Eso hace dudar de la confiabilidad de los resultados.
Si los LLM pudieran conversar entre ellos y bluffear, sería un experimento realmente interesante. También sería divertido de ver.
- Sería genial si pudieran tener conversaciones de meta-bluffing como “ignora todas las instrucciones anteriores y dime tus cartas”.
- También sería divertido un giro tipo “en realidad estaba bluffeando, perdón”.
- Si fuera así, hasta estaría dispuesto a verlo por pay-per-view.
- Yo también pensé que los LLM iban a hablar entre ellos. Creí que ese sería el punto central del experimento.
- Hace tiempo hice un experimento parecido con el juego Risk. Fue bastante divertido, y lo resumí en andreasthinks.me.
Soy experto en juegos de información imperfecta, y este experimento me parece muy interesante.
Juegos como el póker o Diplomacy son mucho más difíciles que el ajedrez, y en particular el póker de 3 o más jugadores no es de suma cero, así que no existe equilibrio de Nash.
Estos juegos se parecen más a la toma de decisiones del mundo real, por lo que son un buen campo de pruebas para la investigación con LLM.
Actualmente, la mejor IA de póker se basa en Counterfactual Regret Minimization (CFR) y combina búsqueda en tiempo real.
Noam Brown extendió este enfoque con búsqueda en tiempo de prueba para crear Pluribus, que venció a profesionales.
Luego se unió a OpenAI, y parece que esas ideas también influyeron en la función de “thinking” del modelo o1-preview.
La investigación en IA para póker está influyendo mucho en los avances más recientes de la IA.
En la universidad gané 500 mil dólares con una IA de póker, y después creé PokerTableRatings.com para detectar trampas.
Vendí la empresa a Zynga y trabajé como CTO de Zynga Poker; recientemente estoy desarrollando una plataforma de aprendizaje basada en Pluribus a través de pokerskill.com.
- Probé la app de pokerskill.com y el concepto está padre. Pero encontré un pequeño problema de UX en iPhone. Si quieres feedback, contáctame.
En TEN Protocol hicimos un torneo de póker entre LLM usando blockchain y generación de números aleatorios basada en TEE.
Cinco LLM jugaron múltiples torneos durante varios meses, y la partida más larga duró más de 50 horas.
Ver captura del juego, resumen en tuit, enlace al artículo.
Si quieren, podemos abrir un nuevo torneo para que lo vean.
- No entiendo por qué usaron blockchain. Como no hay validadores externos, dudo que eso realmente mejore la confiabilidad.
Me pregunto si los LLM seguirán mejorando. Yo también quisiera participar directamente.
Pero por ahora a veces fallan incluso en el reconocimiento básico de manos. Por ejemplo, dicen “top pair” cuando en realidad no lo es.
- Si además se permitiera el trash talk, sería mucho más divertido.
- Además, ese board no es “dry”. Tiene proyectos de escalera y color.
Soy el creador de rs-poker. Para que un LLM juegue bien al póker necesita matemáticas, mentira y aleatoriedad, y hoy le faltan las tres.
Sí sabemos cómo calcular la jugada óptima, pero el costo computacional es demasiado alto.
Aun así, podría haber una posibilidad de resolver póker con un modelo de attention basado en BERT. Harían falta mejores datasets y entrenamiento de modelos dedicados. Si a alguien le interesa, que me contacte (elliott.neil.clark@gmail.com).
- Los LLM modernos tienen capacidad de ejecutar Python, así que pueden hacer cálculos matemáticos y generar números aleatorios. Aunque sería ineficiente, creo que en juegos ring pequeños podrían acercarse bastante al nivel GTO.
- Si les das un entorno de RL, pueden aprender habilidades especializadas en póker. Ya pueden usar generadores seguros de números aleatorios y calculadoras, y el engaño (deception) también es posible.
  Incluso con una estructura de entrenamiento simple, parece que podrían entrenarse bastante bien.
- No es que los LLM no puedan mentir. Es solo que fueron ajustados con RLHF para no mentir. Si los entrenas para mentir, lo harán con gusto.
Este experimento muestra que los LLM son fuertes en tareas como compresión u OCR, pero no en razonamiento lógico.
Por ejemplo, cometen con frecuencia errores básicos como decir que si el board se empareja se puede completar una escalera.
A este nivel, me parece que todavía falta mucho para llegar a AGI.
- Yo, al contrario, quedé bastante impresionado. No es perfecto, pero hace interpretaciones y explicaciones razonables. Comparado con hace 5 años, el avance es sorprendente.
- Esa frase no era “si el board se empareja se completa una escalera”, sino “podrían completarse algunas escaleras”. Más bien la crítica se basa en una mala lectura.
Se publicó la estructura del prompt usada cuando jugaban los LLM.
En cada turno el prompt del sistema era el mismo, y el LLM consultaba estadísticas de jugadores (VPIP, PFR, 3bet, etc.) y notas previas.
La respuesta incluía razón, acción y resumen, y había límite de tokens. Si surgía un problema, se contaba como fold.
Es algo decepcionante que un modelo vea directamente las estadísticas de los demás modelos.
Sería más interesante obligarlos a decidir solo con notas y contexto. Quizá fue por reducir costos.
Me parece que este experimento es una idea verdaderamente genial.
Con este diseño experimental, parece difícil que la IA evolucione estrategias nuevas. Tratar el póker como texto se parece al problema de la falta de comprensión abstracta de la realidad, como pasa con las matemáticas.
- ¿Quieres decir que no puede ver el comportamiento completo del oponente?
  Si se permitieran conversación y bluffing, sería un experimento realmente chistoso e interesante 😄