Búsqueda en IA: una lección más amarga

(yellow-apartment-148.notion.site)

1 puntos por GN⁺ 2024-06-16 | 1 comentarios | Compartir por WhatsApp

Si a los modelos base se les suma la capacidad de búsqueda (search) para dedicar más tiempo de razonamiento, podría abrirse una vía de avance de la IA distinta a esperar el lanzamiento de modelos más grandes
Leela Chess Zero derrotó a Stockfish con autojuego y deep learning, pero Stockfish recuperó la ventaja combinando una red neuronal más pequeña con un potente pipeline de búsqueda
Aquí, búsqueda no significa cómputo de entrenamiento, sino la capacidad de mejorar el desempeño en la resolución de problemas usando más cómputo de inferencia, y no se refiere solo a MCTS o AlphaBeta al estilo ajedrez
La búsqueda permite concentrar el cómputo solo en las áreas necesarias, lo que podría dar a empresas como Pfizer la opción de pagar directamente el costo de inferencia sin esperar modelos más grandes de OpenAI
Si la búsqueda se aplica primero a la investigación en IA, podría usarse para encontrar algoritmos de búsqueda y arquitecturas de modelos más eficientes, por lo que la IA con auto-mejora podría estar más cerca de lo esperado

Leela y Stockfish muestran una “lección más amarga”

Leela Chess Zero es un motor de ajedrez que empezó conociendo solo las reglas y aprendió mediante miles de millones de partidas contra sí mismo
- Sin codificar directamente el conocimiento ajedrecístico humano, hizo jugadas que desafiaban la teoría establecida del ajedrez humano de una forma aprendida por sí mismo
- Mostró sacrificios de largo plazo y jugadas creativas, y ganó el campeonato mundial
La fortaleza de Leela era el deep learning, y mostró bien el poder del aprendizaje y el cómputo a gran escala del que habla The Bitter Lesson
- Está en línea con la tendencia de que las representaciones aprendidas por sí mismas pueden volverse más poderosas que el conocimiento diseñado por humanos
En 2018, el equipo de Leela observó que las redes más grandes eran consistentemente más fuertes que las más pequeñas
- Las redes más grandes mostraban propiedades emergentes, como si vieran varias jugadas por adelantado incluso sin búsqueda explícita
En 2020, el equipo de Leela reunió cómputo de donantes corporativos y de GTX 1070 de conocidos, entre otros recursos, para entrenar una red más grande; preparó su modelo más grande justo antes del campeonato mundial, pero perdió

La remontada de Stockfish: modelo pequeño y búsqueda potente

Stockfish fue el programa de ajedrez dominante de la década de 2010 y, en 2019, se parecía más a una IA de la vieja escuela en la que humanos incorporaban conocimiento del juego al código mediante técnicas matemáticas
Leela derrotó a Stockfish en 2019 con deep learning y un enfoque tabula rasa, pero luego Stockfish tomó las técnicas de deep learning de Leela y entrenó un modelo mucho más pequeño
- Ese modelo era cientos de veces más pequeño que los mejores modelos de Leela
- Stockfish insertó este modelo pequeño en su pipeline de búsqueda existente y pronto superó ampliamente a Leela
Esta victoria parece ir en contra de las leyes de escalado que impulsan la búsqueda de modelos más grandes
- Porque, aunque el modelo era más pequeño, el algoritmo de búsqueda era más eficiente, aprovechaba mejor el hardware y podía mirar más lejos
La “lección más amarga” es que, incluso en la llamativa era del deep learning, no debemos subestimar el poder de la búsqueda en IA

Definición de búsqueda en modelos base y límites actuales

A los modelos base como GPT-4 les falta búsqueda en el sentido que plantea este texto
- Actualmente no es posible pedirle a GPT-4 que piense un problema durante un mes y esperar una respuesta mejor
- Pedirle que “piense paso a paso” puede mejorar el desempeño, pero los retornos disminuyen rápidamente
La búsqueda en modelos base es la capacidad de resolver mejor problemas usando más cómputo de inferencia, no cómputo de entrenamiento
- No se refiere solo a búsquedas tipo MCTS o AlphaBeta del ajedrez
- El pensamiento introspectivo humano y la colaboración también entran en esta definición
Investigadores de IA, economistas y CEOs podrían estar subestimando qué tan cerca e importante es dotar de búsqueda a los modelos base
La importancia de la búsqueda se resume en tres razones
- Implementarla no necesariamente requiere escalar a modelos más grandes
- Permite concentrar cómputo solo donde se necesita
- Puede acelerar la automatización de la investigación en IA

La escala quizá no sea un prerrequisito para la búsqueda

Una suposición extendida es que, para hacer posible la búsqueda en LLMs, se necesitan modelos más grandes
- Sholto Douglas dice que para manejar pensamiento de largo plazo se necesitan más “nines” de confiabilidad en los LLMs
- Leopold Aschenbrenner considera que el preentrenamiento quizá ya contenga los ingredientes necesarios para la búsqueda, y que hace falta “un poco más de escalado” y tokens adicionales
Pero el caso del ajedrez cuestiona la idea de que la escala sea un prerrequisito para la búsqueda
- DeepMind estudió, en un algoritmo de ajedrez sin búsqueda, cómo el comportamiento de mirar hacia adelante aparece naturalmente sin andamiaje externo
- El argumento es que, como en ajedrez ya existen algoritmos de búsqueda, hay pocas razones para esperar a que en modelos grandes aparezca por casualidad una capacidad ineficiente de anticipación
Scaling Scaling Laws with Board Games mostró que por cada aumento de 10× en el cómputo durante el entrenamiento, el cómputo en test puede reducirse aproximadamente 15×
- Este resultado se observó incluso al bajar hasta modelos de una sola neurona
- Se conecta con el caso en que Stockfish ganó con un modelo tres órdenes de magnitud más pequeño que el de Leela
Los modelos actuales podrían ya ser lo suficientemente grandes para permitir la búsqueda, y quizá incluso más grandes de lo necesario

Economía de la búsqueda y posibilidad de automatizar la investigación en IA

La búsqueda permite intercambiar cómputo entre el momento del entrenamiento y el momento de la inferencia, y gastar solo en dominios específicos
El ejemplo de Pfizer muestra cómo la búsqueda puede llevar a un gasto de cómputo por dominio
- Si Pfizer quiere investigar un nuevo medicamento, puede esperar hasta 2030 a que OpenAI lance un modelo cuatro órdenes de magnitud más grande
- O puede intentar obtener una capacidad similar usando ahora cuatro órdenes de magnitud más de cómputo de inferencia
Si suponemos que Pfizer gasta 100.000 dólares al año en GPT-4, para acceder en 2030 a capacidades de nivel ASI tendría que aumentar cuatro órdenes de magnitud su presupuesto de IA, hasta 1.000 millones de dólares al año
- El presupuesto de I+D de Pfizer ya es de 12.000 millones de dólares
- Se considera que entrenar un modelo con la misma capacidad podría costarle a OpenAI billones de dólares
La ruta hacia ASI en 2030 de Leopold Aschenbrenner pasa por grandes clústeres, aumento de ingresos, grandes préstamos corporativos y la construcción de clústeres aún mayores por parte del gobierno, hasta que los modelos sean lo bastante grandes como para hacer investigación en IA por sí mismos
- En un mundo sin búsqueda, esta ruta parece plausible
En un mundo donde la búsqueda funciona, otra ruta es posible
- La búsqueda funciona sobre los modelos existentes
- Grandes laboratorios y gobiernos aplican inmediatamente la búsqueda a la investigación en IA o a inteligencia exterior
- El cómputo de inferencia queda limitado, por lo que gobiernos o grandes laboratorios restringen su uso a seguridad o investigación en IA
- El avance de IA basado en búsqueda descubre algoritmos de búsqueda y arquitecturas de modelos más eficientes
- Como la búsqueda no exige más datos de entrenamiento, el problema de las barreras de datos se debilita
- Esto lleva a la perspectiva de que una explosión de inteligencia podría comenzar no en 2030, sino el año siguiente
Si se usa búsqueda en investigación en IA, a diferencia del descubrimiento de nuevos medicamentos, los resultados pueden contribuir directamente a crear mejor IA
- Los primeros modelos reforzados con búsqueda quizá no tengan una agencia de tipo humano para usar herramientas o ejecutar pruebas
- Aun así, se considera que podrían impulsar avances algorítmicos como “teóricos de sillón” sobrehumanos
- Si GPT-4 usara 1 billón de tokens y 15 millones de dólares para encontrar un algoritmo que reduzca 3% los costos de entrenamiento o aumente 10% la eficiencia de búsqueda, el cálculo indica que podría recuperar el costo
Esta predicción se apoya en dos premisas
- Existe un algoritmo de búsqueda para modelos base que permite mejoras de desempeño similares a las vistas en sistemas de RL
- La búsqueda convierte el capital existente en inteligencia de manera más eficiente que el escalado de modelos
A diferencia de las leyes de escalado de la década de 2020, aún falta buena evidencia sobre el desempeño y la economía de la búsqueda; queda una extrapolación basada en la experiencia con aprendizaje por refuerzo en juegos

1 comentarios

GN⁺ 2024-06-16

Opiniones de Hacker News

La eficacia de la búsqueda va de la mano con la calidad de la función de valor. Pero las funciones de valor actuales dependen demasiado de características específicas de cada dominio, y parece haber poca o ninguna evidencia de que se pueda crear una función de valor que generalice bien a dominios nuevos
Este artículo, en la práctica, da un salto conceptual desde “el ajedrez tiene una buena función de valor” hasta “podemos crear una buena función de valor que haga posible la búsqueda para la investigación en IA”
Claro, si eso fuera posible sería algo grandioso, casi como el santo grial, pero queda la duda de si realmente lo es. Además, si al ejecutar un LLM el costo en tiempo de inferencia aumenta 1000 o 10000 veces, el costo se vuelve absurdamente alto
- Hasta cierto punto ya existen funciones de valor generalizadas, es decir, los benchmarks de LLM. El problema es que no hay una aproximación lo bastante barata como para hacer búsqueda en árbol en tiempo de inferencia
  En ajedrez funciona porque la ventaja material es una aproximación bastante buena de la victoria y además es muy fácil de calcular
- Me pregunto si realmente creen que llegará un avance hacia la “IA general”. Siento que lo dicho aquí expresa bien por qué soy escéptico con los investigadores de IA que creen que “ya casi llegamos”
  Para empezar, ni siquiera parece estar bien definido qué es exactamente la IA general
- En algunos dominios, la autoevaluación por sí sola podría ser suficiente. Entonces la IA intentaría varias veces encontrar respuestas que obtengan mejor puntaje según sus propios criterios, evaluándose a sí misma de forma iterativa
- Lo único que hace falta para una buena función de valor es una simulación de alta calidad de la tarea en cuestión
  En algunos dominios esto funciona mejor. Por ejemplo, un demostrador de teoremas en matemáticas puede indicar con precisión si tuvo éxito o no
  Como efecto colateral, podría añadirse a Lean una función parecida a la búsqueda para ayudar a investigadores humanos, y eso también podría impulsar el progreso de la IA en matemáticas
- Stockfish tiene un número limitado de jugadas legales en una posición dada y, aun así, aunque puede podar con fuerza las ramas perdedoras desde temprano, probablemente evalúe millones de posiciones al mirar 40 jugadas hacia adelante
  Cuesta incluso imaginar el costo de evaluar millones de posibles continuaciones de texto de un LLM solo para elegir una respuesta óptima
  Donde la búsqueda en árbol podría tener más sentido para los LLM no es a nivel de alternativas palabra por palabra, sino en el razonamiento que explore rutas más gruesas del tipo “qué pasaría si pensara así”. Aun así, el costo de generar, evaluar y podar puede volverse fácilmente inmanejable, y este enfoque tan sesgado ni siquiera parece alinearse con la lección amarga, sino que en cierto modo va directamente en contra
Este es un problema realmente difícil de resolver en general, y hasta investigadores brillantes como Yann LeCun están tratando de encontrar cuál es el papel de la búsqueda en la construcción de AGI
La apuesta actual de Yann parece ir en la dirección de usar Joint Embedding Predictive Architectures, o JEPA, para el aprendizaje de representaciones, construir un modelo del mundo robusto y permitir que el agente pruebe distintas acciones para poner a prueba sus teorías
Este paper [0] resume bien su posible visión, aunque por supuesto es mucho más difícil que simplemente búsqueda + transformadores
Hay una suposición de fondo: que el lenguaje representa el mundo lo bastante bien como para que un agente pueda explorarlo de manera efectiva y producir ideas nuevas y útiles. Se siente como una pregunta abierta. ¿Qué saben los LLM? ¿Realmente saben algo? Eso es algo que los investigadores tienen que averiguar
Si los LLM actuales pueden simular un modelo del mundo lo bastante rico, entonces la búsqueda sí podría ser útil; pero si solo están imitando, entonces no sería más que explorar sobre creencias poco confiables
Por eso el video es importante. Porque es evidencia de que los humanos pueden extraer modelos del mundo útiles a partir de una secuencia de imágenes
El lenguaje y el ajedrez tienen espacios de acción esencialmente discretos, así que es posible entrenar modelos generativos que reconstruyan toda la entrada para calcular la pérdida. Al pasar al video, los transformadores tienen que escalar sobre distribuciones continuas, así que se vuelve mucho más difícil construir modelos predictivos del mundo que sean útiles
[0]: https://arxiv.org/abs/2306.02572
- Siento que la propia idea de que la AGI es posible surge de una imaginación profunda y extendida que ve al cerebro humano como una computadora. Pero el cerebro humano no es una computadora
  Por más complejo que sea el programa, sigue siendo una máquina de Turing, y los humanos, en lo fundamental, no lo son
  https://aeon.co/essays/your-brain-does-not-process-informati...
  La metáfora del procesamiento de información sobre la inteligencia humana hoy domina nuestra forma de pensar, tanto en la vida cotidiana como en la ciencia. Pero al final no deja de ser otra metáfora creada para tratar de entender algo que en realidad no comprendemos, y algún día será reemplazada por otra metáfora o por conocimiento real
  Aunque dos personas escuchen la Quinta de Beethoven en el mismo concierto, los cambios que ocurren en mi cerebro y en el de la otra persona casi con seguridad son completamente distintos. Porque esos cambios ocurren sobre una estructura neuronal moldeada por las experiencias únicas de cada uno
  Por eso, aunque dos personas escuchen la misma historia, no la repetirán de manera idéntica, y con el tiempo esas repeticiones divergirán todavía más. No se crea una “copia” de la historia; lo que ocurre es que cada persona cambia en cierta medida al escucharla
- A la pregunta “¿realmente saben algo?”, yo diría que sí. Pero también creo que “saben” cosas completamente falsas
  La característica más notable que he observado en los LLM es que no manejan bien la lógica y las matemáticas. A veces sería mejor que respondieran “no lo sé”, pero aun así entregan con confianza información que es claramente falsa. Me parece muy poco probable que eso haya sido una decisión de diseño intencional
El texto parte de una premisa interesante, pero se queda corto porque no define qué es la búsqueda en el contexto de los LLM ni explica la frase “Pfizer podría acercarse hoy a las capacidades de GPT-8 con más cómputo de inferencia”
Incluso siendo alguien que trabaja con IA, fue difícil seguirlo. Hace falta alguien que explique mejor qué quiere decir el texto original
La búsqueda en motores de ajedrez, es decir, la forma de ver varias jugadas hacia adelante, parece posible porque existe una función objetivo que permite ordenar los resultados. Hay una métrica para juzgar si una jugada potencial es “mejor”, y eso suele parecerse más a una característica propia del aprendizaje por refuerzo. Me pregunto si los LLM tienen una métrica así
- Este punto también me confunde muchísimo
  Si tuviera que adivinar, podría significar ejecutar algunos tokens hacia adelante para cada uno de los tokens de mayor probabilidad que predice el modelo, seguir qué rama funciona mejor frente a los datos de entrenamiento y luego usar esa información para entrenar
  Pero la búsqueda debería mejorar la eficiencia en el momento de la inferencia, y este método no lo hace
- Probablemente vaya por ahí, y yo diría que esa métrica no existe. La gente intentará hacer evaluación adversaria, pero al final parece muy probable que converja hacia una predicción promedio
  Además, la inferencia de los LLM no es barata. El equilibrio entre costo de inferencia y costo de entrenamiento varía muchísimo según la aplicación. Puede haber dominios donde tenga sentido aceptar un costo de inferencia 100 o 1000 veces mayor a cambio de reducir 10 veces el costo de entrenamiento
Charlie Steiner ya lo señaló en Less Wrong hace 5 años
Si entrenas a GPT-3 con un conjunto de libros de texto de medicina y le pides que diga una cura para el Alzheimer, no dirá una cura, sino lo que los humanos han dicho sobre la cura del Alzheimer
La idea es que sería menos un oráculo lógico y más un oráculo intuitivo que cuenta una historia plausible basada en asociaciones dentro de los datos de entrenamiento
Lo que implica el hecho de que curar el Alzheimer sea difícil es que falta algo en ese diseño, y eso es la búsqueda. No significa que una red neuronal no pueda producir directamente una cura, pero parecería requerir que ya existiera una dimensión de “cura para el Alzheimer” dentro del modelo entrenado
Si todavía no se conoce la cura, la forma realista es avanzar lentamente por el espacio lógico mediante varios pasos de razonamiento, reduciendo poco a poco las posibilidades hasta encontrar algo que cumpla las condiciones. Es decir, resolver un problema de búsqueda
Si una IA puede decir una cura para el Alzheimer, es muy probable que esté buscando explícitamente la cura, o que su estado interno esté realizando la búsqueda de manera implícita
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Me pregunto si, generalizando esto y no limitándolo a GPT, podría decirse así
  “Si entrenas una máquina lógica con un conjunto de libros de texto de medicina y le pides que diga una cura para el Alzheimer, dirá no una cura, sino lo que esos libros dicen sobre la cura del Alzheimer”
  Probablemente no. GPT parece estar en gran medida limitado a repetir y recombinar lo que leyó, pero otros algoritmos con mejor capacidad de razonamiento podrían hacer, en la práctica, meta-investigación. Es decir, podrían tomar todos los resultados experimentales sobre el Alzheimer hasta ahora y reducirlos a un espacio de soluciones más estrecho del que alcanzaron los humanos
  Puede que los humanos no tengan margen para abarcar todos los resultados relevantes al mismo tiempo, pero una computadora sí podría
  Si le dices a GPT “piensa paso a paso”, su rendimiento mejora, así que claramente tiene alguna forma del razonamiento necesario. También hace bien tareas del tipo “aquí están los datos, transfórmalos”
  El límite está en la calidad del razonamiento y en el tamaño de la ventana disponible para realizar esa transformación. Aun así, los datos recordados durante el entrenamiento pueden ser muchos más que la ventana de tokens de entrada, así que eso podría servir como una evasión parcial
  Si tiene ambas capacidades, no parece fácil afirmar que no puede escalar. No sé si se puede descartar que una versión evolucionada de GPT encuentre una cura para el Alzheimer dentro de los datos existentes, y si se tratara de un sistema más adecuado para esta tarea, quizá ni siquiera haría falta AGI
  Claro, los componentes necesarios para la solución tendrían que estar en los datos. Pero la cita parece excluir la posibilidad misma de identificar una cura, incluso si toda la información necesaria estuviera en los datos y solo faltara la solución final ya armada
Casi con certeza se necesita búsqueda, y quienes hablan de clústeres de un billón de dólares ahora deberían ir a hablar con la gente que construyó motores de ajedrez superhumanos que hoy corren hasta en un smartphone
Porque alguien podría encontrar la forma de vencer un clúster de un millón de dólares, o 500 mil clústeres de un millón de dólares, con un clúster de un billón de dólares
Mi conclusión sobre el ajedrez es que su factor de ramificación no llega a ser tan grande como para volver imposible un enfoque en anchura. El factor de ramificación mediano, es decir, la cantidad de jugadas legales, tiene un máximo de unas 40 y normalmente se queda cerca de 30
La mayor cantidad de jugadas que vi en una posición real de partida fue 147, pero en ese momento casi todas eran jaque mate
La razón por la que durante mucho tiempo fue difícil volver superhumanos a los motores de Go es que su factor de ramificación era mucho mayor que el del ajedrez
Tiene sentido que MCTS, al ser menos exhaustivo, pueda tener debilidades que una búsqueda completa encuentre y explote. La cuestión es si ese enfoque en anchura puede aplicarse a juegos y situaciones más grandes, y yo diría que claramente no
El factor de ramificación de las situaciones del mundo real, a diferencia del ajedrez, tiene varios órdenes de magnitud más
Pero, a diferencia del ajedrez, en el mundo real la mayoría de las decisiones pequeñas no importan mucho. Si quieres ir de Nueva York a Los Ángeles, decidir si manejar, volar o caminar es muy importante. Pero al salir por la puerta, si das primero el paso con el pie izquierdo o con el derecho, o si parpadeas ahora o en 2 segundos, por lo general no importa
- Yo diría que el factor de ramificación de un LLM, medido por la cantidad de tokens posibles siguientes, ronda los 50 mil
El texto parece bastante etéreo y algo confiado de más al hacer predicciones sobre el futuro, pero aun así parece valer la pena intentarlo
La “búsqueda” es una generalización de “generar y probar” y del muestreo por rechazo. Es IA clásica
Cuando tomé un curso introductorio de IA antes de la era puntocom, aprendí a escribir programas de búsqueda en Prolog
La velocidad depende del tiempo que toma generar un candidato, del tiempo que toma probarlo y de cuántos candidatos hay que intentar. Si esos pasos son lentos, todo lo demás también lo será
Un ejemplo de muestreo por rechazo con humanos en el bucle es usar un generador de imágenes e ir probando distintos prompts hasta que salga una imagen que guste. Pero el bucle es lento porque generar cada imagen nueva toma tiempo
Si la generación de imágenes funcionara tan rápido como Google Images, realmente podría convertirse en algo significativo
La demostración de teoremas y el fuzzing de programas parecen buenos candidatos para combinar LLM con búsqueda, porque están automatizados, son rápidos y tienen buenas funciones de evaluación
Parece que Google publicó un fuzzer [1] que puede conectarse al LLM que uno quiera; me pregunto si alguien ya lo probó
[1] https://github.com/google/oss-fuzz-gen
- Los procedimientos de búsqueda y las “funciones de evaluación” conocidos en demostración de teoremas o planificación ya están cerca, en teoría, de sus límites óptimos
  Así que lo que hace falta no es una nueva evaluación ni un nuevo procedimiento de búsqueda, sino nuevas matemáticas que garanticen que vale la pena intentarlo en primer lugar
  Tomando como ejemplo la demostración de teoremas, SLD-Resolution es un procedimiento automático de demostración de teoremas sólido y completo para razonamiento inductivo. Una implementación eficiente en espacio puede usar búsqueda en profundidad, pero puede caer en bucles con recursión por la izquierda; una implementación eficiente en tiempo puede usar búsqueda en anchura con memoización, pero la complejidad espacial crece exponencialmente
  Aquí no aplica una “función de evaluación”. La propia Resolution ya es una especie de función para evaluar la verdad, o la certeza del valor de verdad, de enunciados de lógica formal
  Y eso es sólido y completo, y semidecidible para una lógica bien definida. Mientras no se viole Church-Turing, eso es lo mejor que hay
  Se puede mejorar la eficiencia con búsqueda heurística. Por ejemplo, se intentó hacer eso para evitar la NP-dificultad de la relación de inclusión, que es una parte importante de la SLD-Resolution práctica, y ahí entra una función de costo heurística en un sentido más amplio
  Pero hay dos problemas. a) usar búsqueda heurística significa sacrificar completitud, y b) en planificación ya existe un método bastante sólido para relajar el problema de planificación y derivar de ahí una función heurística
  La lección es: elige solo dos entre solidez, completitud y eficiencia. Los enfoques estadísticos de aprendizaje automático como los LLM solo pueden elegir un par distinto del que ya eligen las técnicas existentes
  Básicamente, en el límite general de desempeño de la IA basada en búsqueda, ya llegamos a un punto donde solo se pueden obtener ganancias marginales. Seguiremos ahí hasta que alguien aporte mejores matemáticas
- El famoso matemático y firme defensor de la demostración asistida por computadora de teoremas, Terence Tao, cree que el aprendizaje automático abrirá nuevos caminos en el área de los demostradores de teoremas
Creo que entiendo el espacio de juego que exploran Leela y el Stockfish actual. Pero no sé qué espacio de posibilidades cree el autor que exploran los LLM
1. las palabras utilizadas, 2) modelos de matemáticas, aprendizaje por refuerzo y ciencia de materiales, 3) espacios más pequeños y formalizados como el espacio de juego del ajedrez, ¿todo eso, o algo más? No me queda claro. No sé si lo aclaró en algún punto y se me pasó
- Parece querer que el propio algoritmo de búsqueda busque cómo encontrar un mejor algoritmo de búsqueda. O sea, auto-mejora. Entonces algunas restricciones de dominio más estrechas podrían desaparecer
Antes de que un LLM descubra una cura contra el cáncer, propongo hacer que primero descubra un problema más manejable: el “cheesecake de Dios”
Un cheesecake tan delicioso que 100 chefs imparciales lo juzguen como el más rico que hayan probado en su vida
El LLM solo tendría que explorar de forma inteligente el mucho más restringido “espacio del cheesecake” y encontrar una receta lo más deliciosa posible
Pero un LLM no puede hornear un cheesecake y, aunque pudiera, no puede evaluar su sabor
Hasta que la IA resuelva el problema del “cheesecake de Dios”, sería mejor que todos nos calmáramos un poco con eso de la AGI
- Estas galletas estaban muy ricas, pero no al nivel divino. Con algo de inversión y técnicas más modernas, creo que se puede crear una receta bastante buena, quizá incluso mejor que la de cualquier humano
  Sí me parece posible que una IA cree una receta que gane una competencia de repostería muy reñida. Pero vencer a los 100 jueces me parece imposible para cualquiera
  https://static.googleusercontent.com/media/research.google.c...
- Me pregunto qué opinaríamos si la respuesta fuera: “para dar una respuesta significativa hacen falta 2 semanas y 5000 dólares”
- Incluso dentro de las limitaciones de un LLM que corre puramente en una computadora, si un LLM realmente pudiera escribir un cuento corto extraordinario o un buen texto publicitario, eso cambiaría el mundo
- TikTok es la versión digital de este problema
- Me pregunto si realmente hay alguien que crea que, usando un programa asistido por LLM para hacer prueba y error con recetas de cheesecake y hacer que un panel de jueces las evalúe, no se terminaría obteniendo el mejor cheesecake de la historia
  La parte de hornear entra en robótica, así que la comparación es menos justa, pero hasta cierto punto ya es posible
El mayor problema que el autor no notó aquí es cuán enorme es el cómputo necesario
Este texto es como decir que si le das suficiente tiempo a un mono, escribirá a Shakespeare. Claro, es cierto, pero el espacio de búsqueda es tan grande que no se puede manejar y, aunque en algún lugar exista una respuesta, no la encontrarás dentro de ese caos
Llevo más de un año construyendo a tiempo completo sistemas de LLM evolutivos y con poda
He probado a crear varios algoritmos de “búsqueda” o “exploración”. El problema es que, después de varias etapas, el agente al que originalmente se le pidió investigar o trabajar en biología termina hablando de historias de acorazados. Este es un ejemplo real de trabajo previo
La única situación en la que la función de búsqueda realmente funciona casi siempre es en un solo paso. Los agentes de múltiples pasos hacen que las posibilidades exploten muy rápido hacia el infinito
Incluso un solo paso tiene problemas. Por ejemplo, ejecutar 1000 veces una pregunta zero-shot para resolver un problema de programación puede ayudar a encontrar una mejor solución, pero eso solo es posible porque se trata de un espacio de búsqueda limitado. Esa limitación es algo bueno
Hace poco hice una prueba en varios modelos LLM donde tomé un solo prompt de entrada y lo puse a inferir 10 mil veces cambiando solo la configuración de entrada. Un prompt individual no tiene posibilidades infinitas de respuesta. Está acotado. Por eso los LLM pueden funcionar hoy
El hecho de que los agentes no funcionen bien es un ejemplo de este problema. El espacio de búsqueda de un solo paso ya es enorme, pero crece exponencialmente cada vez que el agente da un paso
Estoy construyendo herramientas y sistemas para resolver este problema, pero la búsqueda a gran escala parece tan lejana como decir “esto se arregla si hacemos el modelo de IA 100 veces más grande”
Autonomía no es lo mismo que inteligencia o razonamiento
La frase “Leela Chess Zero se llamaba zero porque empezó conociendo solo las reglas” es común, pero es incorrecta
Leela y su familia tienen otro conocimiento específico de ajedrez que es esencial para su rendimiento: un modelo del mundo del juego que representa una partida de ajedrez como un árbol de juego. Es una estructura dividida en un ply por turno de cada jugador
Ese árbol de juego es explorado por algoritmos de búsqueda adversarial como minimax o Monte Carlo Tree Search. Según entiendo, Leela eligió MCTS
Las formas de modelar los juegos con mayor precisión como árboles de juego se aplican no solo al ajedrez, sino también a muchos otros juegos. Pero el árbol de juego específico que usan los motores de ajedrez está hecho para juegos de tablero de información completa, suma cero y dos jugadores, similares al ajedrez
Otros tipos de juegos requieren otros modelos y otros algoritmos de búsqueda. Por ejemplo, se puede ver Poker y Libratus [1]
Estos árboles de juego, es decir, los modelos del mundo del juego, no se pueden eliminar por ahora si el objetivo es un alto rendimiento. El texto menciona algoritmos sin búsqueda y toca brevemente su limitación central, es decir, “¿por qué?”
Ese también es el problema que tengo con respecto a la lección amarga. Porque se elige de forma arbitraria qué considerar conocimiento del dominio, es decir, un “modelo” como teoría
Como dijeron Rodney Brooks [2] y otros, las redes neuronales convolucionales dominaron la clasificación de imágenes gracias a que usaron capas convolucionales para establecer la invariancia de posición. Ese es un modelo de visión mecánica inventado por humanos
Igual que el árbol de juego es un modelo de juego inventado por humanos, lo mismo ocurre con la mayor parte de lo que hemos hecho hasta ahora en IA y aprendizaje automático. Los humanos crean modelos del mundo, del entorno, del dominio y de los procesos, y la computadora calcula sobre esos modelos, produciendo a veces resultados que superan a los humanos o que al menos no se pueden igualar con soluciones hechas a mano, como en ajedrez o Go
La lección que deberíamos aprender es otra. Modelos humanos + cálculo de máquinas han resuelto todos los problemas difíciles de la IA durante los últimos 80 años. Y no sabemos en absoluto cómo hacer algo siquiera un poco diferente
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Aún no he visto un algoritmo que construya un modelo del mundo solo a partir de observación. He visto indicios, pero no algo al nivel humano
  Algún día llegará. Vivimos en tiempos interesantes

Búsqueda en IA: una lección más amarga

Leela y Stockfish muestran una “lección más amarga”

La remontada de Stockfish: modelo pequeño y búsqueda potente

Definición de búsqueda en modelos base y límites actuales

La escala quizá no sea un prerrequisito para la búsqueda

Economía de la búsqueda y posibilidad de automatizar la investigación en IA

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News