47 puntos por GN⁺ 2023-12-04 | 1 comentarios | Compartir por WhatsApp
  • Una guía que explica visualmente cómo funcionan los modelos de lenguaje grandes como GPT-2, nano-gpt y GPT-3
  • Índice: introducción y conocimientos previos, embeddings, normalización de capa, self-attention, proyección, MLP, transformer, Softmax, salida

Resumen de toda la introducción

  • En el caso de nano-gpt, tiene 85,000 parámetros
  • El objetivo es ordenar alfabéticamente una cadena dada de seis letras
  • Se puede usar como ejemplo el proceso de tomar la cadena C B A B B C y ordenarla como ABBBCC.
  • A cada letra de la cadena se le llama un token, y el vocabulario del modelo está compuesto por varios tokens
  • A cada token se le asigna un índice numérico, y eso se introduce en el modelo
  • Cada número se convierte en un vector de 48 elementos, lo que se llama un embedding
  • Los embeddings pasan por una serie de capas llamadas transformer.
  • Finalmente, el modelo predice la probabilidad del siguiente token de la secuencia dada
  • El token predicho se vuelve a introducir en la parte superior del modelo y todo el proceso se repite

1 comentarios

 
GN⁺ 2023-12-04
Opiniones de Hacker News
  • Es una herramienta muy útil para entender los LLM a un nivel fundamental

    • Se considera una excelente herramienta para comprender en profundidad cómo funcionan realmente los LLM.
    • Si no entiendes por qué hay 48 elementos en el primer arreglo, se recomienda consultar model.py de minGPT.
    • Se comenta que sería bueno mencionarlo en el artículo, ya que este tipo de decisiones estructurales puede confundir a quienes no conocen bien el contexto.
  • Sorprende ver la complejidad algorítmica representada claramente en un espacio 3D

    • Se expresa admiración por ver la complejidad del algoritmo representada claramente en 3D.
    • También se expresa el deseo personal de tener suficiente conocimiento para entender plenamente qué tan precisa es.
  • Esta visualización es realmente asombrosa

    • Desde hace mucho quería profundizar en esto, y el modelo 3D es sorprendente como herramienta educativa.
  • Es el tipo de visualización que llevaba meses buscando

    • Hay mucha satisfacción por haber encontrado una forma de visualización que se había buscado durante tanto tiempo.
    • Se agradece que este material esté disponible de forma gratuita.
  • Hasta podría titularse "diseccionando la magia en multiplicación de matrices y producto punto"

    • Sorprende aún más el hecho de que los LLM funcionen tan bien.
  • El modelo 3D es sorprendente desde el punto de vista educativo

    • Se comenta que el modelo 3D es muy impresionante como herramienta educativa.
    • Se le considera un excelente recurso para un aprendizaje profundo.
  • Sorprende aún más cómo los LLM logran funcionar tan bien

    • Se valora positivamente el análisis de los principios de funcionamiento de los LLM a un nivel básico.
    • Se expresa aún más asombro por lo bien que funcionan los LLM.
  • A menudo falta una explicación sobre el poder de la self-attention

    • A diferencia de las redes neuronales tradicionales, las capas de self-attention ponderan de forma adaptativa las conexiones entre entradas según el contexto.
    • Gracias a esto, los transformers pueden realizar en una sola capa tareas para las que las redes tradicionales necesitarían varias capas.
  • En el hilo de Twitter del autor se comparte más contexto sobre este trabajo

    • El autor compartió antecedentes adicionales sobre este trabajo a través de un hilo de Twitter.
  • Si quieres una versión de baja dimensionalidad para tu propio modelo, recomiendan la biblioteca Netron

    • Se hace una valoración positiva y una recomendación de la biblioteca Netron para visualizar arquitecturas de modelos.
  • No es solo un modelo 3D simple, sino un trabajo profundo

    • Al principio parecía un modelo 3D simple, pero se expresa admiración por la profundidad del contenido acompañado de animaciones.
  • Esta visualización es realmente asombrosa

    • Si hubiera visto esto cuando intentaba entender los transformers, habría sido mucho más fácil.
  • Esta es la razón por la que amo Hacker News

    • Se muestra una reacción positiva a que recursos tan buenos se compartan en Hacker News.