1 puntos por GN⁺ 2024-06-16 | 1 comentarios | Compartir por WhatsApp

Los límites de Leela Chess Zero

  • Leela Chess Zero se convirtió en campeón mundial tras entrenar miles de millones de veces mediante autojuego
  • Pero fue derrotado de forma aplastante por Stockfish
  • Incluso al entrenar una red más grande, no pudo vencer a Stockfish
  • Stockfish usó un modelo mucho más pequeño que Leela, pero ganó gracias a una mejor capacidad de búsqueda

Más reflexiones sobre la victoria de Stockfish

  • Leela perdió su lugar como campeón mundial porque no buscaba bien
  • Agregar capacidad de búsqueda a los LLM está cerca, pero no está recibiendo atención
  • Los modelos fundacionales como GPT-4 no tienen capacidad de búsqueda
  • Predomina la suposición de que se necesitan modelos más grandes para hacer posible la búsqueda, pero existen contraejemplos
  • Según una investigación de DeepMind, el comportamiento de búsqueda emerge de forma natural en algoritmos de ajedrez
  • Existen algoritmos de búsqueda eficientes, así que no hace falta esperar a que una búsqueda previa ineficiente emerja por accidente en modelos grandes
  • Los modelos actuales ya son lo suficientemente grandes para hacer posible la búsqueda, e incluso podrían ser innecesariamente grandes

La búsqueda permite asignar recursos computacionales al dominio objetivo

  • Supongamos que una farmacéutica quiere investigar nuevos medicamentos usando IA
  • En un mundo donde la búsqueda con IA es posible, hay dos opciones
    1. Esperar hasta 2030 a que OpenAI lance un modelo 4 órdenes de magnitud mayor, o
    2. Usar desde hoy 4 órdenes de magnitud más recursos de cómputo para inferencia
  • La farmacéutica preferiría la segunda opción
  • A través de la búsqueda, sería posible aprovechar desde ahora capacidades de nivel ASI de 2030

Escenario de avance de la IA basado en búsqueda

  • Se descubre que la búsqueda funciona en los modelos existentes
  • Gobiernos o grandes laboratorios reconocen que pueden aplicar de inmediato la búsqueda a la investigación en IA o a la recopilación de información en el extranjero
  • Como los recursos de cómputo para inferencia son limitados, su uso se restringe a seguridad o investigación en IA por parte de gobiernos o grandes laboratorios
  • El avance de la IA impulsado por búsqueda lleva al descubrimiento de algoritmos de exploración y arquitecturas de modelo más eficientes
  • La búsqueda no requiere más datos de entrenamiento, por lo que resuelve el problema de la "barrera de datos"
  • La explosión de inteligencia comienza el próximo año, no en 2030

Posibilidad de aplicar búsqueda a la investigación de la propia IA

  • Si la IA avanza lo suficiente como para poder investigarse a sí misma, se espera una dinámica de progreso acelerado
  • Así como una farmacéutica podría investigar nuevos medicamentos sin esperar a GPT-8, los laboratorios de IA también podrían investigar IA sin esperar modelos más grandes
  • Para reemplazar a investigadores humanos de IA, podría hacer falta eliminar más restricciones
  • Pero se espera que incluso un chatbot simple con inteligencia de nivel GPT-8 sea suficiente para acelerar el avance de la IA

1 comentarios

 
GN⁺ 2024-06-16
Opinión de Hacker News

Resumen de comentarios de Hacker News

  • La efectividad de la búsqueda está estrechamente relacionada con la calidad de la función de valor: las funciones de valor actuales están muy especializadas en dominios específicos, y hay poca evidencia de que se pueda crear una función de valor que generalice a dominios nuevos.
  • Investigación de Yann LeCun: Yann LeCun está estudiando el papel de la búsqueda para crear AGI, y busca construir un modelo del mundo robusto mediante JEPA.
  • Límites de los modelos de lenguaje: hay dudas sobre si los LLM actuales pueden simular un modelo del mundo lo suficientemente rico, y el video es importante porque los humanos pueden extraer modelos del mundo útiles a partir de secuencias de imágenes.
  • Ambigüedad del artículo: la publicación empieza con una premisa interesante, pero no define la búsqueda en el contexto de los LLM ni explica la afirmación de que "Pfizer podría usar hoy las capacidades de GPT-8".
  • La búsqueda en motores de ajedrez: la búsqueda en motores de ajedrez es posible porque existe una función objetiva, pero se cuestiona si hay una métrica equivalente para los LLM.
  • Necesidad de la búsqueda: la búsqueda casi con certeza es necesaria, y es importante encontrar una forma en que clústeres de bajo costo puedan vencer a clústeres de alto costo.
  • Diferencia entre el ajedrez y otros juegos: el ajedrez tiene pocos factores de poda, lo que permite un enfoque amplio, pero las situaciones del mundo real tienen muchos más factores de poda.
  • Generalización de la búsqueda: la búsqueda es una generalización de "generar y probar" y del muestreo por rechazo, y la velocidad depende de la generación de candidatos y del tiempo de prueba.
  • Problema del sitio web: cierto sitio web interfiere con funciones básicas del navegador, lo que causa molestias.
  • Árbol de juego de Leela Chess Zero: Leela modela una partida de ajedrez como un árbol de juego y usa algoritmos de búsqueda.
  • Posibilidad de búsqueda en los LLM: no está claro cuál es el espacio de posibilidades en el que los LLM podrían buscar.
  • Límites de los LLM: como los LLM no pueden hacer ni evaluar un cheesecake, hace falta moderar las expectativas sobre la AGI.
  • Problema de teoría de la información: el hecho de que el entrenamiento de LLM requiera demasiados datos indica problemas de generalización y de falta de modelado interno del mundo.