1 puntos por GN⁺ 2024-03-26 | 1 comentarios | Compartir por WhatsApp

¿Qué tan rápido aprenden habilidades inesperadas los modelos de lenguaje grandes?

  • Una nueva investigación sobre las capacidades de los modelos de lenguaje grandes (Large Language Models, LLMs) sugiere que las llamadas 'capacidades de aceleración repentina' en realidad se desarrollan de forma gradual y predecible.
  • Los investigadores describieron estas capacidades como un comportamiento de 'aceleración repentina', comparándolo con una transición de fase en física, similar a cuando un líquido se convierte en hielo.
  • Sin embargo, un equipo de investigación de la Universidad de Stanford sostiene que la aparición repentina de estas capacidades es solo el resultado de la manera en que los investigadores miden el desempeño de los LLM.

Medición del desempeño de los modelos de lenguaje grandes

  • Los modelos de lenguaje grandes analizan enormes conjuntos de datos de texto para encontrar conexiones entre palabras que aparecen juntas con frecuencia.
  • El tamaño del modelo se mide por la cantidad de parámetros, y mientras más parámetros tenga, más conexiones puede encontrar un LLM.
  • GPT-2 tenía 1,500 millones de parámetros, GPT-3.5 350,000 millones y GPT-4 utiliza 1.75 billones de parámetros.

Desarrollo gradual de capacidades inesperadas

  • El equipo de Stanford afirma que las capacidades de los LLM no aparecen de forma súbita e impredecible, sino gradual y predeciblemente.
  • Por ejemplo, en la suma de números de tres cifras, GPT-3 y LaMDA fallaban al calcular correctamente cuando tenían menos parámetros, pero a medida que aumentaban los parámetros, de pronto parecían poder hacer sumas.
  • En lugar de evaluar los LLM solo por exactitud, los investigadores usaron una medición que otorga puntaje parcial y descubrieron que los LLM iban prediciendo gradualmente el orden correcto de los números.

Opiniones de otros científicos

  • Otros científicos señalan que este estudio no resuelve por completo el concepto de 'aceleración repentina'.
  • Sigue siendo incierto qué criterios de medición usar o cómo predecir cuándo el desempeño de un LLM mejorará bruscamente.
  • Algunos científicos sostienen que los reportes previos sobre 'aceleración repentina' eran correctos y subrayan que, para capacidades como la aritmética, la respuesta correcta lo es todo.

Opinión de GN⁺

  • Este estudio podría tener implicaciones importantes para el debate sobre la seguridad y los riesgos potenciales de la inteligencia artificial. Si las capacidades de los LLM se desarrollan de manera predecible, eso podría convertirse en un indicador importante para el desarrollo y la gestión segura de la IA.
  • Cuando estos resultados se apliquen al desarrollo real de IA, será necesario que los desarrolladores reconozcan la importancia de cómo se mide el desempeño y diseñen métodos de evaluación más sofisticados.
  • Este artículo puede ayudar a entender los cambios y avances que ocurren en la frontera de la investigación en IA, especialmente al ofrecer una nueva perspectiva sobre cómo se evalúa el desempeño de los modelos de IA.
  • Desde una mirada crítica, hay que reconocer que los resultados no explican todas las mejoras de desempeño de los LLM y que, en modelos más grandes y complejos, el fenómeno de la 'aceleración repentina' todavía podría ocurrir.
  • En relación con esta tecnología, la serie GPT de OpenAI ya se usa ampliamente en el mercado, y este estudio podría inspirar el desarrollo de otros LLM similares a GPT.

1 comentarios

 
GN⁺ 2024-03-26
Opiniones de Hacker News
  • Algunos problemas relacionados con el estudio

    • El método de evaluación usado en el estudio podría no reflejar adecuadamente la capacidad técnica.
    • A pesar de los criterios de medición de los autores, aparecen algunas capacidades potenciales.
    • Es fácil predecir resultados con base en datos pasados, pero lo importante es que en la práctica surgieron resultados inesperados.
    • Este artículo tiene valor, pero no se deben extrapolar demasiado sus conclusiones.
  • La dificultad de predecir el futuro

    • Predecir el futuro solo se vuelve fácil después de que ya ocurrió.
    • Las capacidades de alto nivel dependen de varias subcapacidades y son difíciles de predecir.
    • Para predecir, hay que identificar de antemano los componentes básicos necesarios y simular a qué nivel deben llegar.
    • El tipo y la calidad de los datos también importan, y puede haber cambios bruscos entre versiones del modelo.
  • Cómo cambian los resultados al modificar el criterio de medición

    • Si se usa otro criterio de medición, el fenómeno observado puede desaparecer.
    • Si se observan las moléculas de agua individualmente, en lugar de un bloque de hielo que aparece de repente se puede ver una formación gradual de estructura cristalina.
  • Título del artículo: "Are Emergent Abilities of Large Language Models a Mirage?"

  • Observaciones sobre cambios abruptos en las capacidades

    • Otros estudios también encontraron saltos repentinos en las capacidades.
    • El modelo podría estar volviéndose gradualmente más inteligente, y este progreso podría pasarse por alto debido a métricas que no otorgan puntaje por respuestas parciales.
  • Enfoque de puntaje parcial y entrenamiento del modelo

    • Dar puntaje parcial está bien, pero entrenar para obtener la respuesta correcta sigue siendo importante.
    • Cuanto más grande es el modelo, más fácil es que llegue a la convergencia.
    • A medida que aumenta el tamaño del modelo, puede parecer que las capacidades aparecen de repente.
  • Aparición gradual de las capacidades

    • No hace falta un salto abrupto ni imprevisibilidad para que aparezcan capacidades.
    • Las nuevas capacidades pueden surgir de manera gradual.
  • Limitaciones de los modelos de lenguaje grandes (Large Language Models, LLMs)

    • Los LLMs son motores de evaluación de probabilidades.
    • Simplemente escalar el tamaño de los LLMs no generará inteligencia artificial general (Artificial General Intelligence, AGI).
  • Confusión sobre el criterio de medición

    • El método de medición con distancia de edición (edit distance) podría no ser adecuado.
    • Parece una forma extraña de probar si el modelo entiende aritmética.
    • Podría ser mejor considerar la diferencia entre el valor real y el esperado.
    • Enlace al artículo: arXiv:2206.07682