2 puntos por GN⁺ 2024-04-08 | 1 comentarios | Compartir por WhatsApp

Solo hacen falta más agentes

  • Se descubrió que el rendimiento de los modelos de lenguaje de gran escala (LLMs) puede escalar según la cantidad de agentes instanciados.
  • Mediante métodos de muestreo y votación, es posible mejorar los LLMs de forma independiente de los métodos complejos existentes, y el grado de mejora está relacionado con la dificultad de la tarea.
  • Se realizaron experimentos extensivos en diversos benchmarks de LLM para confirmar la existencia de estos hallazgos y estudiar las propiedades que pueden favorecer su aparición.
  • El código utilizado en la investigación está disponible públicamente.

Opinión de GN⁺

  • Este estudio puede hacer una contribución importante al campo de la inteligencia artificial al proponer un nuevo enfoque para mejorar el rendimiento de los modelos de lenguaje de gran escala.
  • El hallazgo de que aumentar la cantidad de agentes tiene un impacto directo en la mejora del rendimiento ofrece una nueva perspectiva sobre la escalabilidad de recursos y la eficiencia.
  • Se necesita investigación adicional sobre cómo los resultados experimentales pueden aplicarse a aplicaciones reales.
  • El hecho de que la mejora del rendimiento esté relacionada con la dificultad de la tarea puede ayudar a establecer estrategias de optimización de modelos de lenguaje para tareas específicas.
  • A través del código publicado, otros investigadores pueden contribuir a reproducir y ampliar este estudio, lo que promueve la transparencia científica y la colaboración.

1 comentarios

 
GN⁺ 2024-04-08
Opiniones de Hacker News
  • Resumen del primer comentario:

    • Este artículo cuestiona toda la idea de las configuraciones multiagente (por ejemplo, Chain-of-thought, LLM-Debate).
    • Como método alternativo, se ejecuta la misma consulta varias veces sobre el mismo LLM y se usa un algoritmo de similitud entre respuestas para elegir la respuesta más frecuente.
    • Este algoritmo simple muestra un rendimiento sobresaliente incluso en comparación con otros algoritmos multiagente.
    • Esto sugiere que los esquemas multiagente no están haciendo nada especial, y que los mejores resultados provienen principalmente de ejecutar el LLM varias veces y de prompts que piden seleccionar la mejor respuesta.
  • Resumen del segundo comentario:

    • Desde hace 16 meses viene sosteniendo que hace falta estructurar agentes por capas, en lugar de enfocarse en que un solo agente haga todo correctamente.
    • Le parece interesante que el retorno por tarea disminuya rápidamente, de forma similar al tamaño ideal de una reunión humana.
    • Se pregunta si ajustar con más detalle la cantidad de agentes coincidiría aún más con el tamaño ideal de una reunión.
    • Le gustaría ver qué mejora de rendimiento se puede obtener cuando cada agente se ajusta finamente con objetivos ligeramente distintos.
  • Resumen del tercer comentario:

    • Está relacionado con algo que trató recientemente el profesor Edward Chang, del Departamento de Ciencias de la Computación de la Universidad de Stanford, en un episodio del pódcast ACM ByteCast.
    • Se usa un enfoque en el que varios LLM conversan entre sí sobre un tema de debate y un humano actúa como moderador.
    • La respuesta final a la que llegan varios LLM mediante la conversación mejora de forma importante tanto en exactitud como en precisión.
  • Resumen del cuarto comentario:

    • La frustración que siente con la investigación sobre mezcla de expertos es que existe una inferencia probabilística básica: consultar varias veces a un LLM y elegir el resultado por mayoría suele rendir mejor que consultarlo una sola vez y quedarse con ese resultado.
    • Parece que la ganancia podría mejorarse todavía más encontrando mejores combinaciones de distintos LLM o mejores formas de dividir una tarea en subtareas.
  • Resumen del quinto comentario:

    • Al mirar el gráfico, parece que con 10 agentes se obtiene la mayor parte de la ganancia, con 20 un poco más, y a partir de ahí los retornos disminuyen.
  • Resumen del sexto comentario:

    • Una reflexión en tono de broma sobre el modelo de negocio de las empresas que ofrecen servicios de LLM: un servicio de transporte que solo te lleva al destino si lo llamas varias veces, o un detergente que deja la ropa "tal vez" limpia solo después de varias aplicaciones.
    • Si una empresa ofrece "inteligencia artificial", tendría sentido pagar solo por las respuestas correctas.
  • Resumen del séptimo comentario:

    • Opina que esto podría ser muy caro e insostenible, y coincide en que MoE parece ser la dirección a seguir, ya que los modelos nuevos probablemente mostrarán retornos decrecientes.
    • El cómputo para un solo prompt aumentará entre 7 y 15 veces.
  • Resumen del octavo comentario:

    • El repositorio publicado y los prompts usados en los benchmarks le parecen muy interesantes.
    • Le gustaría ver benchmarking de agentes basados en LLM usando un conjunto de herramientas.
  • Resumen del noveno comentario:

    • Si sumas todas las veces que se dice que "x es todo lo que hace falta", terminarás dándote cuenta de que en realidad hacen falta muchas cosas.
  • Resumen del décimo comentario:

    • Un ensamble de cualquier cantidad de agentes GPT 3.5 es menos preciso que una sola llamada a GPT-4.