30 puntos por xguru 2023-08-22 | 1 comentarios | Compartir por WhatsApp
  • 10 desafíos principales de los que se habla en el campo de los LLM, junto con una recopilación de enlaces para seguir aprendiendo

Reducción y medición de las alucinaciones (Hallucination)

  • El mayor obstáculo para que las empresas adopten LLM son las alucinaciones
  • Desarrollar métricas para mitigar y medir las alucinaciones es un tema de investigación muy popular, y muchas startups están enfocadas en ello
  • Algunos consejos temporales para reducir las alucinaciones incluyen agregar contexto al prompt, Chain-of-Thought, Self-Consistency y pedirle al modelo respuestas concisas

Optimización de la longitud y composición del contexto

  • La mayoría de las preguntas necesitan contexto
  • Según el paper SituatedQA, una parte considerable de las preguntas de recuperación de información se responde de forma distinta según el contexto (16.5% del dataset NQ-Open corresponde a esto)
  • En casos de uso empresariales probablemente sea mucho más alto (si se trata de un chatbot de soporte al cliente, el contexto incluye el historial del cliente o información del producto)
  • La longitud del contexto es especialmente importante en RAG (Retrieval Augmented Generation)
  • RAG funciona en dos etapas
    • Chunking (indexación): recopilar todos los documentos que se usarán con el LLM. Generar embeddings, dividir en chunks para introducirlos en el LLM y guardar los embeddings en una base de datos vectorial
    • Query: cuando el usuario envía una consulta, el LLM la convierte en embedding. Luego recupera de la base de datos vectorial los chunks más similares a ese embedding
  • Cuanto más largo sea el contexto, más chunks se pueden incluir. Si el modelo puede acceder a más información, ¿la respuesta será mejor?
  • No siempre. La cantidad de contexto que usa un modelo y qué tan eficientemente utiliza ese contexto son preguntas distintas
  • Junto con los esfuerzos por ampliar la longitud de contexto del modelo, también hay esfuerzos para hacer más eficiente el contexto
    • A esto se le llama prompt engineering o prompt construction
    • Por ejemplo, un paper reciente muestra que el modelo entiende mejor la información al inicio o al final del contexto que en la parte media

Integración de otros formatos de datos (modalidades)

  • La multimodalidad es muy poderosa, pero todavía está subestimada
  • Razones importantes
    • Hay casos que manejan diversos tipos de datos, como medicina, robótica, comercio electrónico, retail, videojuegos y entretenimiento
      • Para predicción médica se necesitan texto (notas del médico, cuestionarios) e imágenes (CT, X-Ray, MRI)
      • Los metadatos de productos incluyen imágenes, video, descripciones y datos tabulares
    • La multimodalidad traerá una gran mejora en el rendimiento de los modelos
      • Un modelo que entiende texto e imágenes rinde mejor que uno que solo entiende texto
      • Como los modelos basados en texto necesitan cantidades enormes de datos textuales, también existe la preocupación de que pronto se agoten los datos de internet necesarios para entrenarlos
      • Si el texto empieza a escasear, habrá que aprovechar otras modalidades de datos
  • Algo especialmente prometedor: permitir que las personas con discapacidad visual naveguen internet y exploren el mundo real mediante la multimodalidad

Hacer que los LLM sean más rápidos y baratos

  • Cuando apareció GPT-3.5 en noviembre de 2022, mucha gente estaba preocupada por la latencia y el costo de usarlo en producción
  • Pero el análisis de latencia/costo ha cambiado mucho desde entonces
  • En menos de medio año, la comunidad encontró formas de crear modelos muy cercanos a GPT-3.5 en rendimiento usando solo el 2% del espacio de memoria de GPT-3.5
  • La idea central: si construyes algo suficientemente bueno, la gente encontrará cómo hacerlo rápido y barato
  • Hace 4 años se resumieron 4 técnicas principales de optimización/compresión de modelos
    • Quantization (cuantización): el método de optimización de modelos más común. Reduce el tamaño del modelo usando menos bits para representar los parámetros. En vez de punto flotante de 32 bits, se usan 16 bits o incluso 4 bits
    • Knowledge distillation (destilación de conocimiento): entrenar un modelo pequeño (estudiante) para que imite a un modelo más grande o a un ensamble de modelos (maestro)
    • Low-rank factorization (factorización de bajo rango): reemplazar tensores de alta dimensión por tensores de menor dimensión para reducir el número de parámetros. Por ejemplo, descomponer un tensor 3x3 en el producto de tensores 3x1 y 1x3 para tener 6 parámetros en lugar de 9
    • Pruning (poda)
  • Incluso hoy estas 4 técnicas siguen siendo relevantes y populares. Alpaca usó destilación de conocimiento, y QLoRA usó una combinación de factorización de bajo rango y cuantización

Diseño de nuevas arquitecturas de modelos

  • Desde AlexNet en 2012, muchas arquitecturas como LSTM y seq2seq se pusieron de moda y luego desaparecieron
  • En comparación, Transformer ha sido muy persistente. Salió en 2017, y da curiosidad saber hasta cuándo seguirá dominando
  • Desarrollar una nueva arquitectura que supere a Transformer no es fácil. Ha sido enormemente optimizada durante los últimos 6 años
  • Una nueva arquitectura debe rendir a una escala que hoy le parezca relevante a la gente
    • Transformer originalmente fue diseñado para ejecutarse rápido en TPU, y después se optimizó para GPU
  • En 2021 hubo mucha emoción alrededor de S4 en el laboratorio de Chris Ré.
    Incluso recientemente se sigue invirtiendo en nuevas arquitecturas, y lo más reciente fue desarrollar la arquitectura Monarch Mixer en conjunto con la startup Together

Desarrollo de alternativas a las GPU

  • Desde AlexNet en 2012, las GPU han sido el hardware dominante para deep learning
  • Una de las razones por las que AlexNet fue tan popular es que fue el primer paper en entrenar con éxito una red neuronal usando GPU
    Antes de las GPU, para entrenar un modelo del tamaño de AlexNet se necesitaban miles de CPU
    Comparadas con miles de CPU, 2 GPU eran mucho más accesibles para doctorandos e investigadores, y eso impulsó el boom de investigación en deep learning
  • Durante los últimos 10 años, grandes empresas, startups y muchas otras compañías han intentado crear nuevo hardware para IA
  • Los ejemplos más notorios son TPU de Google, IPU de Graphcore y Cerebras
  • SambaNova recaudó más de mil millones de dólares para desarrollar un nuevo chip de IA, pero pivotó hacia una plataforma de IA generativa
  • Durante un tiempo hubo muchas expectativas alrededor de la computación cuántica, y los actores principales son los siguientes
    • QPU de IBM
    • La computadora cuántica de Google publicó a inicios de este año en Nature un hito importante sobre reducción de errores cuánticos. Se puede acceder a una máquina virtual cuántica a través de Google Colab
    • MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory, entre otros
  • Otra dirección muy interesante son los chips fotónicos
    • Los chips actuales mueven datos usando electricidad, por lo que consumen mucha energía y también generan latencia
    • Los chips fotónicos mueven datos usando fotones y aprovechan la velocidad de la luz para una computación más rápida y eficiente
    • Varias startups de este campo han recibido cientos de millones de dólares en financiamiento, entre ellas Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) y Luminous Computing ($115M)

Hacer viables los agentes

  • Los agentes son LLM que pueden realizar tareas como buscar en internet, enviar correos y hacer reservas
  • Comparado con otras direcciones de investigación de este texto, este podría considerarse el campo más temprano
  • Debido a su novedad y enorme potencial, los agentes generan un entusiasmo enorme
  • Auto-GPT ya es el repo número 25 más popular en GitHub según cantidad de stars
  • GPT-Engineering también es otro repositorio popular
  • A pesar del entusiasmo, todavía hay dudas sobre si los LLM son lo bastante confiables y competentes como para delegarles autoridad para actuar
  • La startup más destacada en este campo es Adept
    • Fue fundada por 2 coautores de Transformer y un ex VP de OpenAI, y hasta ahora ha recaudado casi $500M

Mejorar el aprendizaje a partir de preferencias humanas

  • RLHF, Reinforcement Learning from Human Preference, es genial pero algo hacky
    No sorprendería que la gente descubra mejores maneras de entrenar LLM. RLHF todavía tiene preguntas sin resolver, como las siguientes
    • ¿Cómo expresar matemáticamente las preferencias humanas?
      • Actualmente las preferencias humanas se determinan mediante comparación
      • Los etiquetadores humanos deciden si la respuesta A es mejor que la respuesta B, pero no consideran cuánto mejor es A respecto de B
    • ¿Y el gusto humano?
      • Anthropic midió la calidad de las respuestas del modelo según tres ejes: utilidad, honestidad e inocuidad
      • DeepMind intenta generar respuestas que agraden a la mayoría de la gente
      • ¿Queremos una IA que pueda tomar postura, o una IA insípida que evite temas potencialmente controvertidos?
    • Al considerar diferencias culturales, religiosas y políticas, ¿las preferencias de quién serían “preferencias humanas”?
  • Hay muchas dificultades para obtener datos de entrenamiento que representen suficientemente a todos los usuarios potenciales
    Por ejemplo, en los datos de InstructGPT de OpenAI no había etiquetadores mayores de 65 años. Los etiquetadores eran principalmente filipinos y bangladesíes
  • Los esfuerzos impulsados por la comunidad, aunque tienen buenas intenciones, también pueden llevar a datos sesgados
    Por ejemplo, en el dataset OpenAssistant, 201 de 222 encuestados (90.5%) dijeron ser hombres

Mejorar la eficiencia de las interfaces de chat

  • Desde ChatGPT ha habido varias discusiones sobre si el chat es una interfaz adecuada para diversas tareas
  • No es una discusión nueva; en Asia, el chat se ha usado durante cerca de 10 años como interfaz de superapps
  • Personalmente me gusta la interfaz de chat por estas razones
    • El chat es una interfaz cuyo uso se puede aprender rápido, incluso para personas que antes no habían tenido exposición a computadoras o internet
    • La interfaz de chat es accesible. Si tienes las manos ocupadas, puedes usar voz en lugar de texto
    • El chat es una interfaz increíblemente poderosa. Puedes hacer cualquier tipo de solicitud y, aunque la respuesta no sea buena, igual te da una respuesta
  • Pero aún creo que hay áreas en las que la interfaz de chat puede mejorar
    • Varios mensajes por turno
    • Entrada multimodal
    • Integración de IA generativa en flujos de trabajo
    • Edición y eliminación de mensajes

Construcción de LLM para idiomas no ingleses

  • Actualmente, los LLM English-first no funcionan bien para otros idiomas en términos de rendimiento, latencia y velocidad
  • Algunos lectores iniciales de este texto dijeron que no creían que esta dirección debiera incluirse
    • Que esto se parece más a un problema logístico que de investigación. Es decir, ya sabemos cómo hacerlo y solo haría falta invertir dinero y esfuerzo
      Pero eso no es cierto. La mayoría de los idiomas tienen pocos recursos. Hay muchos menos datos de alta calidad que para inglés o chino, y entrenar modelos a gran escala podría requerir otras técnicas
    • Los más pesimistas incluso dicen que en el futuro desaparecerán muchos idiomas y que internet terminará dividido en dos mundos lingüísticos: inglés y mandarín. ¿Alguien recuerda Esperando?
  • Todavía no está claro qué impacto tendrán herramientas de IA como la traducción automática y los chatbots en el aprendizaje de idiomas
    ¿Ayudarán a que la gente aprenda nuevos idiomas más rápido, o eliminarán por completo la necesidad de aprenderlos?

1 comentarios

 
joone 2023-08-31

La persona que escribió este artículo es quien escribió el libro Designing Machine Learning Systems publicado por O'Reilly.
La edición traducida fue publicada por Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220