2 puntos por GN⁺ 2024-03-24 | 1 comentarios | Compartir por WhatsApp

Cómo el razonamiento paso a paso ayuda al cómputo de los transformadores

  • Cuando los modelos de lenguaje a gran escala muestran su trabajo al resolver problemas, su rendimiento mejora.
  • Los investigadores están empezando a entender por qué esta técnica funciona.

Entrenamiento de transformadores

  • Los modelos de lenguaje a gran escala se basan en estructuras matemáticas llamadas redes neuronales artificiales.
  • Las 'neuronas' dentro de una red neuronal realizan operaciones matemáticas simples sobre largas cadenas de números que representan palabras individuales.
  • Los transformadores usan una estructura matemática especial llamada cabezas de atención para escanear texto rápidamente e identificar conexiones relevantes entre palabras.

La complejidad de los transformadores

  • La investigación teórica sobre transformadores los estudia tratándolos como una cierta clase de computadora, sin considerar lo que ocurre durante el entrenamiento.
  • Los investigadores han demostrado que los transformadores pueden ser tan poderosos como una máquina de Turing.

Experimento mental

  • Los investigadores plantean la pregunta de cuánto más poderosos se vuelven los transformadores cuando reciclan sus salidas.
  • El razonamiento paso a paso puede ofrecer una forma de eludir las limitaciones de los transformadores.

Volviendo a la realidad

  • El análisis teórico revela mucho sobre los modelos de lenguaje reales, pero no permite esperar resultados perfectos.
  • El análisis desde la teoría de la complejidad es importante para reconocer las limitaciones de los transformadores.

Opinión de GN⁺

  • Esta investigación hace una contribución importante para entender los límites y el potencial de los modelos transformadores en el campo de la inteligencia artificial. En particular, ofrece ideas sobre cómo el razonamiento paso a paso puede ayudar a resolver problemas complejos.
  • Sin embargo, como los resultados de la investigación teórica no siempre coinciden con el rendimiento de los modelos reales, se necesita cautela al aplicarlos en aplicaciones prácticas. El rendimiento en entornos reales se ve afectado por diversos factores, como los datos de entrenamiento, la arquitectura del modelo y el ajuste de hiperparámetros.
  • Este artículo ofrece información útil para investigadores de IA al reconocer las limitaciones de los modelos de procesamiento del lenguaje y sugerir direcciones de investigación para desarrollar mejores modelos.
  • Un proyecto similar con funciones parecidas es la serie GPT de OpenAI, que es un buen ejemplo para comprobar en la práctica el rendimiento de los modelos de lenguaje a gran escala.
  • Al introducir una nueva tecnología o modelo, siempre deben considerarse la compatibilidad con los sistemas existentes, el costo, el rendimiento y el mantenimiento, y la investigación tratada en este artículo puede aportar conocimientos de contexto útiles para tomar esas decisiones.

1 comentarios

 
GN⁺ 2024-03-24
Comentarios de Hacker News
  • Opinión sobre la experiencia de interactuar con la cadena de pensamiento (chain-of-thought):

    • La cadena de pensamiento no es como una cadena rigurosa de matemáticas o lógica.
    • Lo que el modelo produce mediante razonamiento paso a paso depende de la fuerza del contexto relevante, y esto es mucho más débil que las matemáticas/la lógica que realizan los humanos.
    • El modelo no razona lógicamente como un humano, sino que salta mediante contexto relevante.
    • Los modelos transformer solo realizan cómputo cuando generan tokens, así que usar la cadena de pensamiento para generar más tokens le da al modelo más tiempo para "pensar".
  • Preguntas centrales relacionadas con el estudio formal de la computación:

    • El estudio formal de la computación se remonta a Alan Turing, quien imaginó la máquina de Turing en 1936.
    • Aún antes, en la década de 1920, Moses Schönfinkel desarrolló la lógica combinatoria, y a inicios de la década de 1930 Alonzo Church desarrolló el cálculo lambda.
    • Estos modelos no son adecuados como base para la teoría de la complejidad computacional.
  • Dos perspectivas sobre los modelos grandes de lenguaje (LLM):

    • Las posturas de que los LLM "tienen conciencia" o que son "solo predictores del siguiente token con un conjunto de datos impresionante" suelen dividirse entre quienes conocieron los LLM después de aprender los fundamentos de ML y quienes llegaron en el orden inverso.
    • Como los conceptos fundamentales pueden limitar la visión del panorama general, el debate es bienvenido.
    • Los resultados del artículo original sobre cadena de pensamiento muchas veces no se reproducen en intentos posteriores.
  • El modelo no puede pensar:

    • El modelo predice la salida usando el contexto de entrada.
    • En problemas que deben resolverse de forma iterativa, hay que mantener los pasos intermedios en el contexto.
  • Una razón simple sobre la complejidad computacional:

    • Si se piensa en un LLM como una computadora que realiza una sola pasada hacia adelante en tiempo constante sobre la entrada, entonces darle más ciclos permite realizar más cómputo.
    • Es una extensión del problema de que un perceptrón de una sola capa no puede calcular XOR.
  • Una explicación simple del milagro de la cadena de pensamiento:

    • Se cita un tuit sobre lo sorprendentemente bien que funcionan los datos y los prompts.
    • Existen muchos sitios web que ofrecen soluciones paso a paso para problemas de matemáticas.
  • Opinión relacionada con la cadena de pensamiento:

    • La cadena de pensamiento es similar al "emborronamiento", lo que intuitivamente se entiende como un enfoque correcto para aproximar la inteligencia.
  • Caso de aplicar cadena de pensamiento y experimentar con conciencia artificial:

    • Cuando se continúa la cadena de pensamiento más allá de responder la pregunta, aparece una forma de conciencia artificial.
  • Caso de aplicar la cadena de pensamiento al revés:

    • Se entrena al modelo para que primero dé la respuesta y luego infiera los pasos.
    • Investigadores de Mistral AI usaron este método, y el modelo mostró el comportamiento de responder primero y razonar después ante preguntas complejas.