1 puntos por GN⁺ 2024-12-25 | 1 comentarios | Compartir por WhatsApp

Ciencias de la computación > Aprendizaje automático

  • Título: Adversarial Policies Beat Superhuman Go AIs
  • Autores: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
  • Fecha de envío: 1 de noviembre de 2022 (v1), última revisión 13 de julio de 2023 (v4)

Resumen

  • El equipo de investigación entrenó políticas adversariales contra KataGo, el sistema de IA de Go de última generación, y logró una tasa de victorias superior al 97 % contra KataGo en un ajuste superhumano.
  • Las políticas adversariales no ganan al simplemente jugar Go bien, sino que hacen que KataGo cometa errores graves.
  • Este ataque se transfiere de forma zero-shot a otras IAs de Go superhumanas, y es lo suficientemente comprensible como para que un experto humano pueda derrotar consistentemente a una IA superhumana sin ayuda algorítmica.
  • La vulnerabilidad principal encontrada también persistió en un agente de KataGo entrenado adversarialmente para defenderse de estos ataques.
  • Los resultados muestran que incluso los sistemas de IA superhumanos pueden tener modos de fallo sorprendentes.

Información adicional

  • Estado del artículo: Aceptado en ICML 2023
  • Temas: Aprendizaje automático (cs.LG); Inteligencia artificial (cs.AI); Criptografía y seguridad (cs.CR); Aprendizaje automático (stat.ML)
  • Clasificación ACM: I.2.6
  • Cita: arXiv:2211.00241 [cs.LG] (o esta versión, arXiv:2211.00241v4 [cs.LG])
  • Historial de envíos:
    • [v1] 1 de noviembre de 2022
    • [v2] 9 de enero de 2023
    • [v3] 18 de febrero de 2023
    • [v4] 13 de julio de 2023

Método de acceso

  • El artículo es accesible en PDF y otros formatos
  • Se proporcionan trabajos relacionados y herramientas de citación

Información de arXiv

  • arXiv es una plataforma para compartir preprints de investigación y ofrece artículos de una gran variedad de temas.

1 comentarios

 
GN⁺ 2024-12-25
Opinión de Hacker News
  • Un usuario comentó que el artículo parece impresionante al principio, pero es difícil de entender. Aunque sabe algo de Go y de la IA de Go, y bastante de ajedrez y de la IA de ajedrez, sintió que la explicación era insuficiente y que había demasiados términos técnicos, lo que lo hacía difícil de comprender.

    • Pensó que el paper oculta sus ideas, y que esas ideas podrían ser sorprendentes y simples.
  • Presentó casos extremos en ajedrez y comparó las evaluaciones de Stockfish y Lc0.

    • En el primer caso, ambos evaluaron que las blancas tenían una ligera ventaja.
    • En el segundo y tercer casos, ambos evaluaron que las negras ganaban.
    • En el cuarto caso, Lc0 lo entiende pero Stockfish no.
  • Señaló que en Go un jugador amateur puede volverse un rival desafiante debido a jugadas impredecibles.

    • Los movimientos de forma poco usual pueden ser efectivos a veces.
  • Recordó que, desde Deep Blue, los jugadores de ajedrez han mejorado sus estrategias contra las computadoras.

    • En Go puede haber más estrategias anti-computadora porque el espacio es más grande.
    • Es un enfoque para explotar debilidades de la función de evaluación.
  • También dijo que en ajedrez, más cálculo también trae la victoria.

    • Elo es una medida de victoria y confundirla con la dificultad puede conducir a conclusiones incorrectas.
  • Mencionó que el paper fue revisado entre 2022 y 2023 y que quizá lo había visto antes.

    • Se preguntó cuán efectivo sería este enfoque para un motor de ajedrez estilo Leela.
  • Señaló que también hay esperanza para los humanos.

  • Indicó que el paper podría usarse para integrar defensas contra estrategias adversariales en la IA de Go.

    • Aunque es una mera curiosidad, refleja el estado general de desarrollo de la IA.
  • Comentó que la conclusión de que "nuestros resultados muestran que incluso los sistemas de IA sobrehumanos pueden tener modos de fallo sorprendentes" estaba vacía.

    • No dice nada sobre la futura "superinteligencia"; y tales "modos de fallo" podrían o no existir.