1 puntos por GN⁺ 2023-12-22 | 1 comentarios | Compartir por WhatsApp

Colección de lecturas de artículos sobre NLP

  • La colección de lecturas de artículos sobre procesamiento de lenguaje natural (NLP) está compuesta por 22 elementos.
  • Esta colección fue actualizada recientemente y es útil para identificar las últimas tendencias de investigación en el campo de NLP.
  • NLP es una tecnología que permite a las computadoras comprender y procesar el lenguaje humano, y tiene diversas aplicaciones como traducción automática, análisis de sentimientos y sistemas de preguntas y respuestas.

Opinión de GN⁺

  • Esta colección es un recurso que permite ver de un vistazo las investigaciones más recientes del campo de NLP, por lo que será muy útil para investigadores o desarrolladores interesados en NLP.
  • NLP es un área que avanza especialmente rápido dentro de las tecnologías de IA, y esta colección permite conocer las tendencias más recientes y las ideas innovadoras.
  • La tecnología de procesamiento de lenguaje natural está profundamente integrada en nuestra vida cotidiana, y esta colección permite vislumbrar la dirección de su desarrollo y sus posibilidades futuras.

1 comentarios

 
GN⁺ 2023-12-22
Opiniones de Hacker News
  • Me tomó un tiempo entender este artículo, porque se basa en las técnicas del paper "Deja Vu" y trata métodos complejos que aprovechan la dispersión:

    • El paper "Deja Vu" observa que los modelos con baja dispersión de pesos tienen una alta "dispersión contextual". Es decir, la multiplicación de matrices genera vectores que contienen muchos 0 en distintas posiciones según la entrada.
    • El paper señala que esta dispersión puede aprovecharse para no cargar algunas filas de la matriz.
    • Pero para obtener una buena mejora de rendimiento, hay que poder predecir de antemano qué filas se van a omitir. Esto es posible con una matriz de baja dimensión.
    • El paper de Apple sugiere que este hallazgo no solo mejora el rendimiento de carga desde RAM, sino que también permite cargar desde memoria flash sin sacrificar ancho de banda:
      • Cabe destacar que el paper menciona que la matriz de attention es liviana, y que lo importante es cargar de forma dispersa la red feedforward (FFN).
      • El paper indica que predecir la salida de la capa ReLU permite obtener una dispersión mucho mejor que predecir la entrada de la FFN. Es decir, "si después del matmul se puede predecir que este slot del vector tendrá un valor negativo antes de ReLU, se puede no cargar esa columna de la matriz y producir 0".
      • El paper propone que no es necesario cargar en absoluto la mayoría de las filas de la FFN, y que se puede mantener un caché de las filas de FFN usadas recientemente para cada FFN y actualizarlo desde la memoria flash según sea necesario.
    • El paper también habla de la carga por chunks y de la correlación entre capas de proyección, pero la idea principal es la parte mencionada arriba.
  • Esperaba encontrar en la conclusión del paper una sección sobre cómo se ofrecería esta función al usuario, pero tal vez esa discusión queda fuera del alcance.

    • Me pregunto si este tipo de función se expondrá al usuario mediante llamadas de API y configuraciones de CoreML, por ejemplo con un flag use_flash, o si será una optimización de runtime transparente para el usuario. Me gustaría saber si hay alguna buena charla o presentación donde Apple hable de la hoja de ruta de desarrollo de CoreML, Metal, etc.
  • Me pregunto qué tanta parte del modelo se puede dejar sin cargar antes de empezar a ver una diferencia real en el rendimiento.

    • Por ejemplo, si uno quisiera mantener el 90% del rendimiento en RAM, la pregunta sería si bastaría con usar solo la mitad de la memoria, o si aún se necesitaría 90% o 95%.
    • También tengo curiosidad por saber qué tan rápido cae el rendimiento respecto del máximo al reducir la RAM. La gráfica compara el algoritmo base cuando se usa menos RAM, pero esa es otra pregunta distinta (¡aunque buena!).
    • Si se pudiera obtener buen rendimiento sin cargar completo en la memoria del teléfono un modelo de 8 GB, eso sin duda sería muy útil.
  • Vale la pena notar que los dispositivos de Apple tienen muy poca RAM en comparación con dispositivos similares de la competencia.

    • Esto también se debe a que el equipo de software de Apple usa lenguajes más eficientes como Objective-C, y a que las aplicaciones de iOS no apuntan a una variedad tan grande de resoluciones de pantalla, por lo que es menos común cargar texturas de alta resolución para luego reducirlas.
    • Además, comprar RAM a la escala de Apple no hace que el precio de la RAM baje tanto, así que aumentar la RAM afecta más el margen que agregar otras funciones.
    • Pero todo esto se vuelve un problema al usar modelos de lenguaje grandes (LLM), porque por naturaleza consumen mucha RAM. Y cualquier técnica de ahorro de memoria también podría ser usada por un competidor con más RAM para implementar modelos más grandes y mejores.
  • Tengo una comprensión limitada del tema, pero me pregunto si esta técnica permitiría ejecutar un LLM en modo offline en un teléfono móvil.

    • Si fuera posible, podría dar lugar a muchas aplicaciones interesantes, como moderación de contenido asistida por IA sin enviar datos confidenciales al exterior.
  • Aprecio que los artículos recientes mencionen "LLM" en lugar de "AI".

    • Eso deja claro que se trata de una tecnología concreta y no de puro hype de marketing.
  • Es un poco sorprendente que este paper no mencione FlashAttention.

    • Como ambos trabajos aprovechan la memoria flash, parecería que al menos debería haberlo mencionado.
  • ¿Apple adquirió una empresa iraní?

  • Por ejemplo, se dice que el modelo OPT 6.7B muestra una dispersión del 97% dentro de las capas FFN.

    • Me pregunto si alguien sabe qué significa exactamente la métrica mencionada aquí. La pregunta es si significa que la capa tiene 97% de valores en 0, o si significa que su tamaño puede comprimirse al 3%.
  • Espero que esta técnica se integre en llama.cpp y candle.

    • Estos avances son realmente sorprendentes, y ojalá algún día también lleguen a estas librerías.