Ciencias de la computación > Aprendizaje automático
- Título: Adversarial Policies Beat Superhuman Go AIs
- Autores: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
- Fecha de envío: 1 de noviembre de 2022 (v1), última revisión 13 de julio de 2023 (v4)
Resumen
- El equipo de investigación entrenó políticas adversariales contra KataGo, el sistema de IA de Go de última generación, y logró una tasa de victorias superior al 97 % contra KataGo en un ajuste superhumano.
- Las políticas adversariales no ganan al simplemente jugar Go bien, sino que hacen que KataGo cometa errores graves.
- Este ataque se transfiere de forma zero-shot a otras IAs de Go superhumanas, y es lo suficientemente comprensible como para que un experto humano pueda derrotar consistentemente a una IA superhumana sin ayuda algorítmica.
- La vulnerabilidad principal encontrada también persistió en un agente de KataGo entrenado adversarialmente para defenderse de estos ataques.
- Los resultados muestran que incluso los sistemas de IA superhumanos pueden tener modos de fallo sorprendentes.
Información adicional
- Estado del artículo: Aceptado en ICML 2023
- Temas: Aprendizaje automático (cs.LG); Inteligencia artificial (cs.AI); Criptografía y seguridad (cs.CR); Aprendizaje automático (stat.ML)
- Clasificación ACM: I.2.6
- Cita: arXiv:2211.00241 [cs.LG] (o esta versión, arXiv:2211.00241v4 [cs.LG])
- Historial de envíos:
- [v1] 1 de noviembre de 2022
- [v2] 9 de enero de 2023
- [v3] 18 de febrero de 2023
- [v4] 13 de julio de 2023
Método de acceso
- El artículo es accesible en PDF y otros formatos
- Se proporcionan trabajos relacionados y herramientas de citación
Información de arXiv
- arXiv es una plataforma para compartir preprints de investigación y ofrece artículos de una gran variedad de temas.
1 comentarios
Opinión de Hacker News
Un usuario comentó que el artículo parece impresionante al principio, pero es difícil de entender. Aunque sabe algo de Go y de la IA de Go, y bastante de ajedrez y de la IA de ajedrez, sintió que la explicación era insuficiente y que había demasiados términos técnicos, lo que lo hacía difícil de comprender.
Presentó casos extremos en ajedrez y comparó las evaluaciones de Stockfish y Lc0.
Señaló que en Go un jugador amateur puede volverse un rival desafiante debido a jugadas impredecibles.
Recordó que, desde Deep Blue, los jugadores de ajedrez han mejorado sus estrategias contra las computadoras.
También dijo que en ajedrez, más cálculo también trae la victoria.
Mencionó que el paper fue revisado entre 2022 y 2023 y que quizá lo había visto antes.
Señaló que también hay esperanza para los humanos.
Indicó que el paper podría usarse para integrar defensas contra estrategias adversariales en la IA de Go.
Comentó que la conclusión de que "nuestros resultados muestran que incluso los sistemas de IA sobrehumanos pueden tener modos de fallo sorprendentes" estaba vacía.