Desafíos abiertos en la investigación de los LLM

xguru · 2023-08-22T11:22:02+09:00

10 desafíos principales de los que se habla en el campo de los LLM, junto con una recopilación de enlaces para seguir aprendiendo Reducción y medición de las alucinaciones (Hallucination) El mayor obstáculo para que las empresas adopten LLM son las alucinaciones Desarrollar métricas para mitigar y medir las alucinaciones es un tema de investigación muy popular, y muchas startups están enfocadas en ello Algunos consejos temporales para reducir las alucinaciones incluyen agregar contexto al prompt, Chain-of-Thought, Self-Consistency y pedirle al modelo respuestas concisas Optimización de la longitud y composición del contexto La mayoría de las preguntas necesitan contexto Según el paper SituatedQA, una parte considerable de las preguntas de recuperación de información se responde de forma distinta según el contexto (16.5% del dataset NQ-Open corresponde a esto) En casos de uso empresariales probablemente sea mucho más alto (si se trata de un chatbot de soporte al cliente, el contexto incluye el historial del cliente o información del producto) La longitud del contexto es especialmente importante en RAG (Retrieval Augmented Generation) RAG funciona en dos etapas Chunking (indexación): recopilar todos los documentos que se usarán con el LLM. Generar embeddings, dividir en chunks para introducirlos en el LLM y guardar los embeddings en una base de datos vectorial Query: cuando el usuario envía una consulta, el LLM la convierte en embedding. Luego recupera de la base de datos vectorial los chunks más similares a ese embedding Cuanto más largo sea el contexto, más chunks se pueden incluir. Si el modelo puede acceder a más información, ¿la respuesta será mejor? No siempre. La cantidad de contexto que usa un modelo y qué tan eficientemente utiliza ese contexto son preguntas distintas Junto con los esfuerzos por ampliar la longitud de contexto del modelo, también hay esfuerzos para hacer más eficiente el contexto A esto se le llama prompt engineering o prompt construction Por ejemplo, un paper reciente muestra que el modelo entiende mejor la información al inicio o al final del contexto que en la parte media Integración de otros formatos de datos (modalidades) La multimodalidad es muy poderosa, pero todavía está subestimada Razones importantes Hay casos que manejan diversos tipos de datos, como medicina, robótica, comercio electrónico, retail, videojuegos y entretenimiento Para predicción médica se necesitan texto (notas del médico, cuestionarios) e imágenes (CT, X-Ray, MRI) Los metadatos de productos incluyen imágenes, video, descripciones y datos tabulares La multimodalidad traerá una gran mejora en el rendimiento de los modelos Un modelo que entiende texto e imágenes rinde mejor que uno que solo entiende texto Como los modelos basados en texto necesitan cantidades enormes de datos textuales, también existe la preocupación de que pronto se agoten los datos de internet necesarios para entrenarlos Si el texto empieza a escasear, habrá que aprovechar otras modalidades de datos Algo especialmente prometedor: permitir que las personas con discapacidad visual naveguen internet y exploren el mundo real mediante la multimodalidad Hacer que los LLM sean más rápidos y baratos Cuando apareció GPT-3.5 en noviembre de 2022, mucha gente estaba preocupada por la latencia y el costo de usarlo en producción Pero el análisis de latencia/costo ha cambiado mucho desde entonces En menos de medio año, la comunidad encontró formas de crear modelos muy cercanos a GPT-3.5 en rendimiento usando solo el 2% del espacio de memoria de GPT-3.5 La idea central: si construyes algo suficientemente bueno, la gente encontrará cómo hacerlo rápido y barato Hace 4 años se resumieron 4 técnicas principales de optimización/compresión de modelos Quantization (cuantización): el método de optimización de modelos más común. Reduce el tamaño del modelo usando menos bits para representar los parámetros. En vez de punto flotante de 32 bits, se usan 16 bits o incluso 4 bits Knowledge distillation (destilación de conocimiento): entrenar un modelo pequeño (estudiante) para que imite a un modelo más grande o a un ensamble de modelos (maestro) Low-rank factorization (factorización de bajo rango): reemplazar tensores de alta dimensión por tensores de menor dimensión para reducir el número de parámetros. Por ejemplo, descomponer un tensor 3x3 en el producto de tensores 3x1 y 1x3 para tener 6 parámetros en lugar de 9 Pruning (poda) Incluso hoy estas 4 técnicas siguen siendo relevantes y populares. Alpaca usó destilación de conocimiento, y QLoRA usó una combinación de factorización de bajo rango y cuantización Diseño de nuevas arquitecturas de modelos Desde AlexNet en 2012, muchas arquitecturas como LSTM y seq2seq se pusieron de moda y luego desaparecieron En comparación, Transformer ha sido muy persistente. Salió en 2017, y da curiosidad saber hasta cuándo seguirá dominando Desarrollar una nueva arquitectura que supere a Transformer no es fácil. Ha sido enormemente optimizada durante los últimos 6 años Una nueva arquitectura debe rendir a una escala que hoy le parezca relevante a la gente Transformer originalmente fue diseñado para ejecutarse rápido en TPU, y después se optimizó para GPU En 2021 hubo mucha emoción alrededor de S4 en el laboratorio de Chris Ré. Incluso recientemente se sigue invirtiendo en nuevas arquitecturas, y lo más reciente fue desarrollar la arquitectura Monarch Mixer en conjunto con la startup Together Desarrollo de alternativas a las GPU Desde AlexNet en 2012, las GPU han sido el hardware dominante para deep learning Una de las razones por las que AlexNet fue tan popular es que fue el primer paper en entrenar con éxito una red neuronal usando GPU Antes de las GPU, para entrenar un modelo del tamaño de AlexNet se necesitaban miles de CPU Comparadas con miles de CPU, 2 GPU eran mucho más accesibles para doctorandos e investigadores, y eso impulsó el boom de investigación en deep learning Durante los últimos 10 años, grandes empresas, startups y muchas otras compañías han intentado crear nuevo hardware para IA Los ejemplos más notorios son TPU de Google, IPU de Graphcore y Cerebras SambaNova recaudó más de mil millones de dólares para desarrollar un nuevo chip de IA, pero pivotó hacia una plataforma de IA generativa Durante un tiempo hubo muchas expectativas alrededor de la computación cuántica, y los actores principales son los siguientes QPU de IBM La computadora cuántica de Google publicó a inicios de este año en Nature un hito importante sobre reducción de errores cuánticos. Se puede acceder a una máquina virtual cuántica a través de Google Colab MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory, entre otros Otra dirección muy interesante son los chips fotónicos Los chips actuales mueven datos usando electricidad, por lo que consumen mucha energía y también generan latencia Los chips fotónicos mueven datos usando fotones y aprovechan la velocidad de la luz para una computación más rápida y eficiente Varias startups de este campo han recibido cientos de millones de dólares en financiamiento, entre ellas Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) y Luminous Computing ($115M) Hacer viables los agentes Los agentes son LLM que pueden realizar tareas como buscar en internet, enviar correos y hacer reservas Comparado con otras direcciones de investigación de este texto, este podría considerarse el campo más temprano Debido a su novedad y enorme potencial, los agentes generan un entusiasmo enorme Auto-GPT ya es el repo número 25 más popular en GitHub según cantidad de stars GPT-Engineering también es otro repositorio popular A pesar del entusiasmo, todavía hay dudas sobre si los LLM son lo bastante confiables y competentes como para delegarles autoridad para actuar La startup más destacada en este campo es Adept Fue fundada por 2 coautores de Transformer y un ex VP de OpenAI, y hasta ahora ha recaudado casi $500M Mejorar el aprendizaje a partir de preferencias humanas RLHF, Reinforcement Learning from Human Preference, es genial pero algo hacky No sorprendería que la gente descubra mejores maneras de entrenar LLM. RLHF todavía tiene preguntas sin resolver, como las siguientes ¿Cómo expresar matemáticamente las preferencias humanas? Actualmente las preferencias humanas se determinan mediante comparación Los etiquetadores humanos deciden si la respuesta A es mejor que la respuesta B, pero no consideran cuánto mejor es A respecto de B ¿Y el gusto humano? Anthropic midió la calidad de las respuestas del modelo según tres ejes: utilidad, honestidad e inocuidad DeepMind intenta generar respuestas que agraden a la mayoría de la gente ¿Queremos una IA que pueda tomar postura, o una IA insípida que evite temas potencialmente controvertidos? Al considerar diferencias culturales, religiosas y políticas, ¿las preferencias de quién serían “preferencias humanas”? Hay muchas dificultades para obtener datos de entrenamiento que representen suficientemente a todos los usuarios potenciales Por ejemplo, en los datos de InstructGPT de OpenAI no había etiquetadores mayores de 65 años. Los etiquetadores eran principalmente filipinos y bangladesíes Los esfuerzos impulsados por la comunidad, aunque tienen buenas intenciones, también pueden llevar a datos sesgados Por ejemplo, en el dataset OpenAssistant, 201 de 222 encuestados (90.5%) dijeron ser hombres Mejorar la eficiencia de las interfaces de chat Desde ChatGPT ha habido varias discusiones sobre si el chat es una interfaz adecuada para diversas tareas No es una discusión nueva; en Asia, el chat se ha usado durante cerca de 10 años como interfaz de superapps Personalmente me gusta la interfaz de chat por estas razones El chat es una interfaz cuyo uso se puede aprender rápido, incluso para personas que antes no habían tenido exposición a computadoras o internet La interfaz de chat es accesible. Si tienes las manos ocupadas, puedes usar voz en lugar de texto El chat es una interfaz increíblemente poderosa. Puedes hacer cualquier tipo de solicitud y, aunque la respuesta no sea buena, igual te da una respuesta Pero aún creo que hay áreas en las que la interfaz de chat puede mejorar Varios mensajes por turno Entrada multimodal Integración de IA generativa en flujos de trabajo Edición y eliminación de mensajes Construcción de LLM para idiomas no ingleses Actualmente, los LLM English-first no funcionan bien para otros idiomas en términos de rendimiento, latencia y velocidad Algunos lectores iniciales de este texto dijeron que no creían que esta dirección debiera incluirse Que esto se parece más a un problema logístico que de investigación. Es decir, ya sabemos cómo hacerlo y solo haría falta invertir dinero y esfuerzo Pero eso no es cierto. La mayoría de los idiomas tienen pocos recursos. Hay muchos menos datos de alta calidad que para inglés o chino, y entrenar modelos a gran escala podría requerir otras técnicas Los más pesimistas incluso dicen que en el futuro desaparecerán muchos idiomas y que internet terminará dividido en dos mundos lingüísticos: inglés y mandarín. ¿Alguien recuerda Esperando? Todavía no está claro qué impacto tendrán herramientas de IA como la traducción automática y los chatbots en el aprendizaje de idiomas ¿Ayudarán a que la gente aprenda nuevos idiomas más rápido, o eliminarán por completo la necesidad de aprenderlos?

(huyenchip.com)

30 puntos por xguru 2023-08-22 | 1 comentarios | Compartir por WhatsApp

10 desafíos principales de los que se habla en el campo de los LLM, junto con una recopilación de enlaces para seguir aprendiendo

Reducción y medición de las alucinaciones (Hallucination)

El mayor obstáculo para que las empresas adopten LLM son las alucinaciones
Desarrollar métricas para mitigar y medir las alucinaciones es un tema de investigación muy popular, y muchas startups están enfocadas en ello
Algunos consejos temporales para reducir las alucinaciones incluyen agregar contexto al prompt, Chain-of-Thought, Self-Consistency y pedirle al modelo respuestas concisas

Optimización de la longitud y composición del contexto

La mayoría de las preguntas necesitan contexto
Según el paper SituatedQA, una parte considerable de las preguntas de recuperación de información se responde de forma distinta según el contexto (16.5% del dataset NQ-Open corresponde a esto)
En casos de uso empresariales probablemente sea mucho más alto (si se trata de un chatbot de soporte al cliente, el contexto incluye el historial del cliente o información del producto)
La longitud del contexto es especialmente importante en RAG (Retrieval Augmented Generation)
RAG funciona en dos etapas
- Chunking (indexación): recopilar todos los documentos que se usarán con el LLM. Generar embeddings, dividir en chunks para introducirlos en el LLM y guardar los embeddings en una base de datos vectorial
- Query: cuando el usuario envía una consulta, el LLM la convierte en embedding. Luego recupera de la base de datos vectorial los chunks más similares a ese embedding
Cuanto más largo sea el contexto, más chunks se pueden incluir. Si el modelo puede acceder a más información, ¿la respuesta será mejor?
No siempre. La cantidad de contexto que usa un modelo y qué tan eficientemente utiliza ese contexto son preguntas distintas
Junto con los esfuerzos por ampliar la longitud de contexto del modelo, también hay esfuerzos para hacer más eficiente el contexto
- A esto se le llama prompt engineering o prompt construction
- Por ejemplo, un paper reciente muestra que el modelo entiende mejor la información al inicio o al final del contexto que en la parte media

Integración de otros formatos de datos (modalidades)

La multimodalidad es muy poderosa, pero todavía está subestimada
Razones importantes
- Hay casos que manejan diversos tipos de datos, como medicina, robótica, comercio electrónico, retail, videojuegos y entretenimiento
  - Para predicción médica se necesitan texto (notas del médico, cuestionarios) e imágenes (CT, X-Ray, MRI)
  - Los metadatos de productos incluyen imágenes, video, descripciones y datos tabulares
- La multimodalidad traerá una gran mejora en el rendimiento de los modelos
  - Un modelo que entiende texto e imágenes rinde mejor que uno que solo entiende texto
  - Como los modelos basados en texto necesitan cantidades enormes de datos textuales, también existe la preocupación de que pronto se agoten los datos de internet necesarios para entrenarlos
  - Si el texto empieza a escasear, habrá que aprovechar otras modalidades de datos
Algo especialmente prometedor: permitir que las personas con discapacidad visual naveguen internet y exploren el mundo real mediante la multimodalidad

Hacer que los LLM sean más rápidos y baratos

Cuando apareció GPT-3.5 en noviembre de 2022, mucha gente estaba preocupada por la latencia y el costo de usarlo en producción
Pero el análisis de latencia/costo ha cambiado mucho desde entonces
En menos de medio año, la comunidad encontró formas de crear modelos muy cercanos a GPT-3.5 en rendimiento usando solo el 2% del espacio de memoria de GPT-3.5
La idea central: si construyes algo suficientemente bueno, la gente encontrará cómo hacerlo rápido y barato
Hace 4 años se resumieron 4 técnicas principales de optimización/compresión de modelos
- Quantization (cuantización): el método de optimización de modelos más común. Reduce el tamaño del modelo usando menos bits para representar los parámetros. En vez de punto flotante de 32 bits, se usan 16 bits o incluso 4 bits
- Knowledge distillation (destilación de conocimiento): entrenar un modelo pequeño (estudiante) para que imite a un modelo más grande o a un ensamble de modelos (maestro)
- Low-rank factorization (factorización de bajo rango): reemplazar tensores de alta dimensión por tensores de menor dimensión para reducir el número de parámetros. Por ejemplo, descomponer un tensor 3x3 en el producto de tensores 3x1 y 1x3 para tener 6 parámetros en lugar de 9
- Pruning (poda)
Incluso hoy estas 4 técnicas siguen siendo relevantes y populares. Alpaca usó destilación de conocimiento, y QLoRA usó una combinación de factorización de bajo rango y cuantización

Diseño de nuevas arquitecturas de modelos

Desde AlexNet en 2012, muchas arquitecturas como LSTM y seq2seq se pusieron de moda y luego desaparecieron
En comparación, Transformer ha sido muy persistente. Salió en 2017, y da curiosidad saber hasta cuándo seguirá dominando
Desarrollar una nueva arquitectura que supere a Transformer no es fácil. Ha sido enormemente optimizada durante los últimos 6 años
Una nueva arquitectura debe rendir a una escala que hoy le parezca relevante a la gente
- Transformer originalmente fue diseñado para ejecutarse rápido en TPU, y después se optimizó para GPU
En 2021 hubo mucha emoción alrededor de S4 en el laboratorio de Chris Ré.
Incluso recientemente se sigue invirtiendo en nuevas arquitecturas, y lo más reciente fue desarrollar la arquitectura Monarch Mixer en conjunto con la startup Together

Desarrollo de alternativas a las GPU

Desde AlexNet en 2012, las GPU han sido el hardware dominante para deep learning
Una de las razones por las que AlexNet fue tan popular es que fue el primer paper en entrenar con éxito una red neuronal usando GPU
Antes de las GPU, para entrenar un modelo del tamaño de AlexNet se necesitaban miles de CPU
Comparadas con miles de CPU, 2 GPU eran mucho más accesibles para doctorandos e investigadores, y eso impulsó el boom de investigación en deep learning
Durante los últimos 10 años, grandes empresas, startups y muchas otras compañías han intentado crear nuevo hardware para IA
Los ejemplos más notorios son TPU de Google, IPU de Graphcore y Cerebras
SambaNova recaudó más de mil millones de dólares para desarrollar un nuevo chip de IA, pero pivotó hacia una plataforma de IA generativa
Durante un tiempo hubo muchas expectativas alrededor de la computación cuántica, y los actores principales son los siguientes
- QPU de IBM
- La computadora cuántica de Google publicó a inicios de este año en Nature un hito importante sobre reducción de errores cuánticos. Se puede acceder a una máquina virtual cuántica a través de Google Colab
- MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory, entre otros
Otra dirección muy interesante son los chips fotónicos
- Los chips actuales mueven datos usando electricidad, por lo que consumen mucha energía y también generan latencia
- Los chips fotónicos mueven datos usando fotones y aprovechan la velocidad de la luz para una computación más rápida y eficiente
- Varias startups de este campo han recibido cientos de millones de dólares en financiamiento, entre ellas Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) y Luminous Computing ($115M)

Hacer viables los agentes

Los agentes son LLM que pueden realizar tareas como buscar en internet, enviar correos y hacer reservas
Comparado con otras direcciones de investigación de este texto, este podría considerarse el campo más temprano
Debido a su novedad y enorme potencial, los agentes generan un entusiasmo enorme
Auto-GPT ya es el repo número 25 más popular en GitHub según cantidad de stars
GPT-Engineering también es otro repositorio popular
A pesar del entusiasmo, todavía hay dudas sobre si los LLM son lo bastante confiables y competentes como para delegarles autoridad para actuar
La startup más destacada en este campo es Adept
- Fue fundada por 2 coautores de Transformer y un ex VP de OpenAI, y hasta ahora ha recaudado casi $500M

Mejorar el aprendizaje a partir de preferencias humanas

RLHF, Reinforcement Learning from Human Preference, es genial pero algo hacky
No sorprendería que la gente descubra mejores maneras de entrenar LLM. RLHF todavía tiene preguntas sin resolver, como las siguientes
- ¿Cómo expresar matemáticamente las preferencias humanas?
  - Actualmente las preferencias humanas se determinan mediante comparación
  - Los etiquetadores humanos deciden si la respuesta A es mejor que la respuesta B, pero no consideran cuánto mejor es A respecto de B
- ¿Y el gusto humano?
  - Anthropic midió la calidad de las respuestas del modelo según tres ejes: utilidad, honestidad e inocuidad
  - DeepMind intenta generar respuestas que agraden a la mayoría de la gente
  - ¿Queremos una IA que pueda tomar postura, o una IA insípida que evite temas potencialmente controvertidos?
- Al considerar diferencias culturales, religiosas y políticas, ¿las preferencias de quién serían “preferencias humanas”?
Hay muchas dificultades para obtener datos de entrenamiento que representen suficientemente a todos los usuarios potenciales
Por ejemplo, en los datos de InstructGPT de OpenAI no había etiquetadores mayores de 65 años. Los etiquetadores eran principalmente filipinos y bangladesíes
Los esfuerzos impulsados por la comunidad, aunque tienen buenas intenciones, también pueden llevar a datos sesgados
Por ejemplo, en el dataset OpenAssistant, 201 de 222 encuestados (90.5%) dijeron ser hombres

Mejorar la eficiencia de las interfaces de chat

Desde ChatGPT ha habido varias discusiones sobre si el chat es una interfaz adecuada para diversas tareas
No es una discusión nueva; en Asia, el chat se ha usado durante cerca de 10 años como interfaz de superapps
Personalmente me gusta la interfaz de chat por estas razones
- El chat es una interfaz cuyo uso se puede aprender rápido, incluso para personas que antes no habían tenido exposición a computadoras o internet
- La interfaz de chat es accesible. Si tienes las manos ocupadas, puedes usar voz en lugar de texto
- El chat es una interfaz increíblemente poderosa. Puedes hacer cualquier tipo de solicitud y, aunque la respuesta no sea buena, igual te da una respuesta
Pero aún creo que hay áreas en las que la interfaz de chat puede mejorar
- Varios mensajes por turno
- Entrada multimodal
- Integración de IA generativa en flujos de trabajo
- Edición y eliminación de mensajes

Construcción de LLM para idiomas no ingleses

Actualmente, los LLM English-first no funcionan bien para otros idiomas en términos de rendimiento, latencia y velocidad
Algunos lectores iniciales de este texto dijeron que no creían que esta dirección debiera incluirse
- Que esto se parece más a un problema logístico que de investigación. Es decir, ya sabemos cómo hacerlo y solo haría falta invertir dinero y esfuerzo
  Pero eso no es cierto. La mayoría de los idiomas tienen pocos recursos. Hay muchos menos datos de alta calidad que para inglés o chino, y entrenar modelos a gran escala podría requerir otras técnicas
- Los más pesimistas incluso dicen que en el futuro desaparecerán muchos idiomas y que internet terminará dividido en dos mundos lingüísticos: inglés y mandarín. ¿Alguien recuerda Esperando?
Todavía no está claro qué impacto tendrán herramientas de IA como la traducción automática y los chatbots en el aprendizaje de idiomas
¿Ayudarán a que la gente aprenda nuevos idiomas más rápido, o eliminarán por completo la necesidad de aprenderlos?

1 comentarios

joone 2023-08-31

La persona que escribió este artículo es quien escribió el libro Designing Machine Learning Systems publicado por O'Reilly.
La edición traducida fue publicada por Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220