Razonamiento en modelos de lenguaje grandes: una perspectiva geométrica

(arxiv.org)

1 puntos por GN⁺ 2024-07-09 | 1 comentarios | Compartir por WhatsApp

Interpreta el rendimiento de razonamiento de los LLM no como un simple problema de tamaño del modelo, sino desde la geometría de las capas Transformer, y aborda la conexión de que la densidad del grafo de self-attention cambia la dimensión intrínseca de la entrada del MLP
Los MLP dividen el espacio de entrada en varias regiones afines por tramos; a medida que aumenta la dimensión intrínseca de la entrada, pueden crear más regiones y aproximar funciones no lineales con mayor detalle
En un grafo de atención que considera los tokens como nodos, si aumenta la cantidad de heads o la longitud del contexto, sube la densidad del grafo y, como resultado, también puede crecer el espacio de representación que maneja el MLP
En experimentos con GSM8K-Zero y Llama 3 8B/70B Instruct, al agregar de 1 a 10 ejemplos few-shot, el aumento de la dimensión intrínseca en la última capa se correlacionó fuertemente con una mejora en la tasa de respuestas correctas
El aumento de la dimensión intrínseca en la primera capa puede aparecer incluso al agregar solo tokens aleatorios, por lo que tiene poca capacidad explicativa; la mejora real del razonamiento se observa mejor cuando el contexto relevante enriquece las representaciones de la capa final

Por qué mirar la capacidad de razonamiento desde la geometría

En el uso real de LLM, mejorar la capacidad de razonamiento es un desafío central, y modelos como GPT-4 y Llama 3 muestran un rendimiento sólido en varias tareas
Las líneas de mejora existentes se dividen, en general, en dos ramas
- Aumentar el tamaño del modelo: hay casos en los que modelos más grandes muestran una mejor capacidad de razonamiento
- Aumentar la longitud del contexto: se usan métodos que incrementan los tokens de entrada, como chain of thought, retrieval augmented generation y prompting basado en ejemplos
Entradas más largas y modelos más grandes pueden aumentar el costo computacional y la latencia de inferencia en el uso real
Este estudio examina la relación entre la expresividad de los LLM y su capacidad de razonamiento a través de la geometría de las capas Transformer
La pregunta clave es cómo la longitud de la secuencia de entrada y la cantidad de attention heads afectan la geometría de un LLM, en especial la dimensión intrínseca del bloque de self-attention

Partición del espacio y expresividad de los MLP

Un MLP que usa no linealidades como ReLU, leaky-ReLU, valor absoluto o max-pooling puede verse como una función afín continua por tramos que divide el espacio de entrada en varias regiones
A cada región se le asocia un mapa afín que procesa la entrada en ese tramo
- Si la función objetivo es lineal en cierto tramo, basta una sola región
- Si la función objetivo es no lineal, se necesitan varias regiones para aproximar la curvatura
En un experimento toy que aproxima una función seno, al aumentar la cantidad de neuronas ocultas de 50 a 500 se generan más regiones y la aproximación se vuelve más fina
La ubicación de las regiones dentro del espacio de entrada depende de los datos, y el tamaño y la uniformidad de los datos de entrenamiento, así como los cambios estructurales, pueden afectar la densidad de la partición
Incluso con la misma cantidad de neuronas, si aumenta la dimensión intrínseca de la entrada, la cantidad de regiones que puede crear el MLP crece exponencialmente

Cómo surge la dimensión intrínseca en Transformer

Una capa Transformer de un LLM causal está compuesta por self-attention, multi-head attention, MLP, residual connections y layer normalization
El attention map puede interpretarse como un grafo donde los tokens son nodos y los valores de atención son pesos de las aristas
La densidad del grafo de self-attention indica el nivel de conexión entre tokens, y esta densidad se vincula con la dimensión intrínseca de la entrada del MLP
Según el Theorem 2.1, cada fila de la salida de multi-head attention queda dentro de la suma de Minkowski de los convex hulls de single-head, y la dimensión efectiva está limitada por la suma de la cantidad de tokens con valores de atención mayores que 0 en cada head
La soft intrinsic dimension usada en el estudio se define como la cantidad de tokens con valores de atención mayores que un umbral ε
- En los experimentos, ε se determina con base en las estadísticas y la distribución de los valores de atención
- En todos los experimentos, el umbral se fija en 0.1

Cómo los attention heads y la longitud del contexto aumentan la expresividad

Como la dimensión intrínseca de la entrada del MLP está determinada por el attention map, cuanto más denso sea el grafo de atención, más regiones podrá crear el MLP
Las formas de aumentar la dimensión intrínseca se resumen en dos
- Aumentar la cantidad de attention heads: los efectos de varios heads se suman y la dimensión efectiva puede crecer
- Modificar el prompt o ampliar el contexto: al cambiar la entrada, puede aumentar la densidad del grafo de atención
Un experimento toy con un LLM de una capa aproxima una función seno con una estructura embedding → attention block → MLP de 1 capa oculta
Al comparar longitudes de contexto de 10/100 y cantidades de heads de 1/10, se observa que, a medida que aumentan la longitud del contexto y la cantidad de heads, crece la cantidad de regiones que el MLP crea en el espacio de entrada
Cambiar la cantidad de heads puede requerir pre-training o fine-tuning, pero la longitud del contexto puede ajustarse sin tocar los pesos del modelo

Experimentos con GSM8K-Zero y Llama 3

Los experimentos evalúan el rendimiento de respuesta de los LLM ante preguntas de reasoning usando el dataset GSM8K-Zero
Las condiciones consisten en un baseline 0-shot y variantes de prompt de 1 a 10-shot
- Los ejemplos few-shot son pares question-answer seleccionados aleatoriamente del training set de GSM8K-Zero
- En los experimentos comparativos, se anteponen tokens aleatorios o texto de ejemplos few-shot mezclados
Los modelos evaluados son Llama3 8B Instruct y Llama3 70B Instruct
El base prompt está compuesto por unas 300 muestras de GSM8K-Zero en las que se obtuvo una respuesta incorrecta
La corrección de las respuestas se evalúa mediante prompting al modelo Mixtral 8×22B Instruct

El ID de la última capa se alinea mejor con el rendimiento

Al anteponer ejemplos few-shot, la probabilidad de obtener una respuesta correcta aumenta cuando crece la dimensión intrínseca en la última capa
Tanto en Llama3 8B como en 70B Instruct, cuanto mayor es el cambio de ID en la final layer, mayor tiende a ser la proporción de correct responses
En la primera capa, la dimensión intrínseca puede aumentar al anteponer tokens de cualquier tipo
- El attention graph de la primera capa se comporta de forma similar a una uniform distribution sobre todos los tokens
- El experimento con random tokens muestra que el aumento del ID en la primera capa no necesariamente se relaciona con el rendimiento de razonamiento
En la condición de random tokens, el aumento del ID fue limitado o negativo, y la proporción de correct responses se saturó alrededor del 40%
En la Figure 8, que compara varias capas, el ID de la última capa aparece como una señal más útil para distinguir si una respuesta es correcta, independientemente del tamaño del modelo
En los LLM, cada token producido por un self-attention head se transforma de manera independiente en el MLP, y un MLP con una partición más fina puede aplicar un affine map más adaptativo a cada token
Como la predicción se construye mediante una combinación lineal de embedded tokens, los errores de aproximación por token pueden acumularse, y una partición más fina alrededor de los tokens puede reducir el error de aproximación de la predicción final
La forma en que la dimensión intrínseca y la partición en affine maps se conectan con la capacidad de generalización de los LLM todavía no se ha explorado lo suficiente en este estudio ni en la mayoría de los trabajos relacionados

1 comentarios

GN⁺ 2024-07-09

Opiniones de Hacker News

El valor de la IA parece una curva de bañera. En el nivel bajo, es un autocompletado superpotente que escribe más o menos bien código de 1 a 3 líneas; en el nivel alto, sirve para explicar conceptos superiores relacionados con la tarea en cuestión.
En la zona intermedia no funciona bien. Si le pides armar un plan de varios pasos, cada pieza puede estar bien por separado, pero no encajan entre sí. La IA no tiene la sensación de que “estas cuatro partes deben estar estrechamente conectadas para formar un todo”, y al crear cuatro pasos para ir de A a B da la impresión de unir a la ligera rutas distintas.
- Eso no es una curva de bañera. Las tareas de bajo nivel y las de “alto” nivel son, al final, la misma generación probabilística de texto.
  No razona sobre el código, ni razona sobre las explicaciones que entrega. La IA no piensa, no construye un modelo interno del problema dado; simplemente adivina. Estas tareas “intermedias” fallan porque para llegar a la respuesta correcta se necesita razonamiento abstracto.
- Si pensamos en los datos de entrenamiento, no hay tantos ejemplos de planes de varios pasos. Si la arquitectura aprende cómo encajan los conceptos, es decir, vectores de alta dimensión, no puede hacerlo bien cuando no hay suficientes ejemplos de razonamiento necesarios.
  Al final, mejorará cuando se acumulen datos sintéticos y materiales como buenas descripciones de objetivos junto con código que implemente esos objetivos.
- El eje de bajo nivel y alto nivel quizá no sea una buena escala para evaluar la IA. Habría que aplicar un kernel trick a esa escala para separar la altura del nivel del problema de planificación de varios pasos.
  Dicho de otro modo, habría que usar otra dimensión para distinguir estos tres problemas.
No sé si recuerdan el juego “Mad Libs”. Es un juego en el que se llenan espacios en blanco como “verbo”, “sustantivo” o “adjetivo”, y luego en la página siguiente se crea una historia absurda con esas palabras. Como al poner las palabras al principio no hay contexto, el resultado es gramaticalmente correcto pero no tiene sentido en contexto, y por eso da risa.
Los LLM son como Mad Libs con un predictor de contexto incorporado. Generan una salida gramaticalmente correcta, y como las correlaciones estadísticas por lo general producen resultados significativos, el predictor de contexto reduce las tonterías. Pero aquí no hay “razonamiento”, solo llenado de plantillas gramaticales y autocompletado estadístico.
- Cierto, pero es un modelo de autocompletado de una complejidad casi inimaginable. Y una parte considerable del razonamiento humano es estadísticamente predecible a partir del texto, así que con un buen modelo de autocompletado se puede obtener, en la práctica, comportamiento parecido al razonamiento.
  Que no funcione en todos los casos no debería llevarnos a subestimar lo sorprendentemente bien que funciona, ni lo inesperado que es el mero hecho de que funcione. El punto central del texto original también es explorar cómo, en un modelo de autocompletado lo suficientemente grande, surgen fenómenos parecidos al razonamiento.
- Decir que “solo es llenado de plantillas gramaticales y autocompletado estadístico” es la hipótesis del loro estocástico, y se repite inevitablemente cada vez que un paper sobre LLM llega a HN.
  Esta hipótesis no se queda en una afirmación filosófica: genera predicciones refutables, y los experimentos ya la han refutado suficientemente. Los LLM tienen modelos del mundo. Un paper famoso sobre este tema es OthelloGPT, y uno más reciente es Transformers Represent Belief State Geometry in their Residual Stream.
- No entiendo por qué la gente sigue tan convencida de que el “razonamiento” no es alguna forma de llenado de plantillas gramaticales y autocompletado estadístico.
- Veo el razonamiento como llenado de plantillas gramaticales y autocompletado estadístico suficientemente avanzados.
  También vale la pena recordar que las transformaciones gramaticales son Turing-completas: https://wiki.c2.com/?RewriteRules
- A partir de esta idea, más precisamente de ad-libs, le puse nombre a una biblioteca TypeScript para completar espacios en blanco con LLM: https://github.com/gsuuon/ad-llama/
Parece que la discusión tiene dos lados. Está la perspectiva de que, al absorber una cantidad enorme de texto, el modelo de algún modo desarrolló capacidad de razonamiento; es decir, que el razonamiento surgió después del lenguaje.
Por el contrario, también está la perspectiva de que el razonamiento es algo que los humanos ya hicieron y dejaron por escrito, de modo que, si se hace una pregunta como “¿Romeo debería haber buscado otro amor después de Julieta?”, el modelo refleja de vuelta un conjunto de razonamientos plasmado en miles de millones de ensayos de literatura inglesa. ¿Me estaré perdiendo algo?
- Ambas cosas parecen dos caras de la misma moneda. Los LLM se entrenan fundamentalmente para hacer completado de texto, y el entrenamiento es el proceso de encontrar la forma más efectiva de hacerlo dentro de una estructura de modelo y una cantidad de parámetros dadas.
  Si partimos de “un LLM absorbe una cantidad enorme de texto”, un modelo simple puede completar texto mediante memorización. Pero para completar correctamente 234 * 452 =, en realidad es mucho más simple calcularlo que memorizar todas las multiplicaciones posibles. Del mismo modo, si puede entender el mundo y razonar, puede completar mejor las oraciones escritas por humanos. Por lo tanto, cabe esperar que un modelo lo suficientemente bien entrenado, con suficientes parámetros para hacerlo pero no tantos como para limitarse al sobreajuste, desarrolle cierta capacidad de razonamiento.
  Si partimos de que “hay mucho razonamiento en el conjunto de entrenamiento”, incluso en la etapa de memorización se pueden obtener resultados que parecen razonamiento. Pero el argumento de que el modelo desarrollará razonamiento real sigue siendo válido y se vuelve más fuerte. Si hay que completar el argumento de alguien, es mucho más fácil cuando se puede seguir el flujo de pensamiento de esa persona.
- Conviene mirar pruebas de razonamiento más amplias usadas actualmente con LLM, como MuSR. Como las preguntas se generan de nuevo, está claro que la segunda explicación por sí sola es difícil de sostener: https://arxiv.org/abs/2310.16049
- La razón por la que un modelo así puede “razonar”, o más precisamente manejar conceptos complejos, es bastante intuitiva. Al procesar enormes cantidades de texto, crea representaciones internas en las que los conceptos se expresan como nodos simples, es decir, neuronas o grupos de neuronas.
  Así que, en efecto, destila conocimiento. También puede verse como un muy buen análisis de componentes principales que extrae varios aspectos importantes, o como un grafo semántico creado automáticamente. Una vez destilado el conocimiento, es fácil construir encima de él combinando conceptos. No hay ningún secreto especial.
- Al hojear el artículo, parece que reconoce este problema, pero lo pasa por alto en cierta medida.
  Dice que, en realidad, está claro que la capacidad de aproximación y la generalización no son el mismo concepto. Pero también señala que aún no está definido si la capacidad de razonamiento de los LLM está conectada con la generalización y que, como estos conceptos siguen siendo difíciles de precisar, la parte experimental se centra en la dimensión intrínseca, es decir, en la relación entre la expresividad y la capacidad de razonamiento.
- En la frase “el modelo refleja de vuelta esa respuesta”, la expresión refleja de vuelta encierra muchas cosas. ¿De verdad es tan simple?
  ¿Significa que el modelo adopta la postura de un ensayo específico de crítica literaria que “leyó”? ¿O que toma alguna postura “promedio” del conjunto? Para empezar, ¿cómo se puede definir una postura “promedio” sobre un tema?
  Esta es una cuestión interesante que toca el núcleo de lo que es un LLM, pero este artículo tiene un enfoque mucho más acotado y no parece que vaya a dar esa respuesta.
¿Qué tiene que ver la inferencia con la geometría? ¿Es algo parecido a la idea de que hay formas geométricas inherentes a conceptos distintos? ¿Una perspectiva platónica o intelectualista sobre la geometría de la razón? Me costó bastante entender el paper
- Después de leer un poco más el paper, agrego algo sobre de dónde sale la geometría
  Este paper[1], uno de los materiales citados por el paper, muestra que las capas no lineales de las redes neuronales profundas modernas dividen la entrada en regiones y aplican una transformación afín[2] por región para producir la salida. También trata cómo esto se conecta con la cuantización vectorial y el clustering k-means
  Por lo tanto, la perspectiva geométrica aquí no se refiere a la geometría de secundaria, sino a conceptos más abstractos como los espacios vectoriales[3] o la geometría computacional combinatoria[4]
  El paper presentado muestra que esta partición está directamente conectada con la capacidad de aproximación de la red neuronal. Luego plantea que, a medida que aumenta la capacidad de aproximación, mejoran las respuestas a problemas matemáticos en lenguaje natural, y por eso la capacidad de aproximación se correlaciona con la capacidad de inferencia de los LLM
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Las redes neuronales modernas usan mucho álgebra lineal, y en particular lo hace la arquitectura transformer[1] que impulsa a los LLM modernos
  Como el álgebra lineal está estrechamente relacionada con la geometría[2], resulta bastante natural que haya aspectos geométricos que determinen capacidades y rendimiento
  En este paper, en concreto, miran la dimensión intrínseca[3] de las capas de atención y examinan cómo se correlaciona con el rendimiento de los LLM
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- La idea de que “hay formas geométricas inherentes a conceptos distintos” es correcta. De hecho, también se pueden construir fundamentos de las matemáticas sobre este concepto, y crear “inferencias” y demostraciones en cierto sentido
  Los sistemas de tipos dependientes funcionan de esta manera. Basta con buscar HoTT y teoría de homotopía modal. Lean4, Coq y los demostradores de teoremas también funcionan de este modo
  Si uno piensa en los fundamentos del cálculo lambda o del álgebra booleana, se tratan objetos matemáticos organizados sobre retículos o semirretículos formados por conjuntos parcialmente ordenados como una serie de transformaciones. Por ejemplo, en el álgebra booleana, la implicación proporciona un orden parcial
  Sería interesante entender si la densidad del mecanismo de atención sigue una progresión parecida a la de los sistemas de tipos dependientes, y si existe una conexión entre los tipos dependientes que intervienen en una demostración y el espacio correspondiente dentro de un LLM, mediante una relajación continua similar a un operador de proximidad y una transformación desde conceptos de alto nivel hacia tokens de salida
  Ya vimos que, en los embeddings, la geometría tiene significado. Ciertos conceptos simples corresponden a direcciones vectoriales. No sería nada sorprendente que el razonamiento sobre conceptos dependientes correspondiera a subespacios complejos de la trayectoria que recorre un LLM y que, con suficiente entrenamiento, esa conexión se acercara cada vez más a la estructura lógica de la demostración correspondiente
- Este paper no dice eso, pero a partir de aquí sí se podría crear un benchmark sintético al estilo AlphaGeometry[1]. Sería un enfoque en el que un motor de geometría genere 100 millones de problemas en lenguaje natural y el LLM los resuelva
  Los problemas de geometría son fáciles de generar y resolver mecánicamente, pero no hay una razón particular por la que un LLM transformer general deba desempeñarse especialmente bien en ellos, y tienen la ventaja de poder escalarse enormemente. A diferencia de benchmarks con solo 164 problemas, como HumanEval, también es más fácil evitar la crítica de que el LLM memorizó las respuestas
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Parece que habla de embeddings de palabras. Aquí, el contexto se incrusta en un espacio geométrico de alta dimensión, y algunas dimensiones pueden capturar cosas como qué tan “femenina” es una palabra o qué tan “cercana al azul” está
Me da curiosidad qué es una región aquí, si tener más regiones es mejor, cómo se distinguen las regiones y si una sola región puede ser el mismo concepto que varias regiones relacionadas
- Según entiendo, las regiones son piezas que conforman la partición del dominio de entrada, es decir, piezas del espacio vectorial formado por los pesos. Hay más detalles a partir de la sección 3.1 del paper citado[1]
  La tesis de ese paper es que las capas de las redes neuronales profundas generales dividen el dominio de entrada en varias regiones, y cada región tiene su propia transformación afín de la entrada
  Con una función de activación arbitraria, habría que encontrar tanto la partición en sí como los parámetros de la transformación afín de cada región. Pero como las funciones de activación comunes son globalmente convexas, muestran que se puede aprovechar esto para que la partición quede completamente determinada por los parámetros de las transformaciones afines por región
  Así, la salida de una capa para una entrada x se vuelve una “transformación afín por partes de x, dependiente de la partición y de la región”. Los parámetros de la transformación afín son, en la práctica, lo que cambia durante el entrenamiento, y por lo tanto la cantidad y la forma de las regiones también cambian durante el entrenamiento
  El paper presentado muestra que, cuantas más regiones hay, mayor es la capacidad de aproximación de la capa de la red neuronal. Pensando en lo anterior, eso en sí no sorprende, pero lo usan como un peldaño importante
  [1]: https://arxiv.org/abs/1805.06576v2
Como ocurre con muchas discusiones filosóficas, afirmar que los LLM pueden “razonar” no significa mucho. “Razonamiento” no es un término bien definido, y no todo el mundo va a estar de acuerdo con una sola definición.
Si le preguntas a un científico de la computación, a un filósofo continental y a un antropólogo qué es “razonar”, te van a dar respuestas completamente distintas.
Si por razonamiento se entiende el razonamiento deductivo usado en matemáticas y el razonamiento inductivo usado en ciencia, no hay evidencia de que los LLM hagan eso. Tampoco hay razón para creer que solo con emparejamiento de patrones lingüísticos se pueda imitar todo lo que llamamos pensamiento humano. Para sostener eso habría que definir “pensamiento” de forma extremadamente estrecha e ignorar el hecho de que somos inteligencias corporizadas y que podemos conocernos a nosotros mismos de una manera transparente y quizá prelingüística. Mientras la IA no esté corporizada y pueda hacer lo mismo, no creo que vaya a “pensar” o “razonar” como un humano. Sigue siendo un truco estadístico muy sofisticado.
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Hay mucha evidencia de que realizan inducción.
- Puede que eso sea cierto, pero si es “lo bastante bueno”, ¿por qué importa? Si en Slack/Teams no puedo distinguir si un usuario que atiende tickets a tiempo y mantiene una calidad de código decente es un LLM o soy yo, no me preocupa demasiado si esa entidad se conoce a sí misma de una manera transparente y prelingüística.
“¡Solo hay que meterle más dimensiones, bro!”
No soy del área de IA, solo me gusta observar desde la barrera. Después de hojear el paper, mi resumen como no especialista sería este; agradecería que corrigieran lo que esté mal.
Las redes neuronales modernas, por ejemplo las capas de perceptrón multicapa[1] que se usan en los LLM, esencialmente dividen la entrada en varias regiones. La cantidad de regiones que puede dividir una sola capa MLP depende exponencialmente de la dimensión intrínseca[2] de la entrada, y parece que la cantidad de regiones/particiones aumenta la capacidad de aproximación de la capa MLP.
Por eso, sin aumentar la cantidad de neuronas, se puede “destilar” efectivamente la entrada y aumentar mucho la capacidad de aproximación de la capa MLP.
En la arquitectura Transformer, la entrada de la capa MLP es la capa de autoatención[3]. Los autores muestran que la densidad del grafo de la capa de autoatención está fuertemente correlacionada con la dimensión intrínseca de esa capa. Es decir, cuanto más densa sea la capa de autoatención, mejor puede desempeñarse el MLP.
Una forma de aumentar la densidad de la capa de atención es agregar más contexto. Parece que si se antepone cualquier token como contexto antes de la pregunta y se aumenta la dimensión intrínseca de la capa final, mejora el rendimiento del LLM.
También señalan que la arquitectura Transformer tiende a acumular errores de aproximación, y que las particiones más precisas que proporciona una capa MLP con entradas de alta dimensión intrínseca podrían ayudar con eso. Sin embargo, el impacto de esto en la generalización requiere más investigación.
Si los resultados se mantienen, este paper parece ofrecer buenas ideas para optimizar mejor redes neuronales similares a los LLM.
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Es más intuitivo pensar que la densidad se define por la cantidad de aristas que conectan tokens en el grafo de atención. Dicho de forma más simple, es la cantidad de veces que un token tiene alguna conexión con otros tokens, dividida por la cantidad de tokens.
  Por eso, los tokens que están realmente relacionados entre sí y aportan información son buenos, pero los tokens irrelevantes no ayudan.
  La frase “si se antepone cualquier token como contexto antes de la pregunta, mejora el rendimiento del LLM” no me parece precisa. Lo que encontró el paper es que, si se antepone cualquier tipo de token antes de la pregunta actual, aumenta la dimensión intrínseca de la primera capa, pero ese aumento no necesariamente se correlaciona con la capacidad de razonamiento del modelo.
  Dicen que la capacidad de razonamiento del LLM mejora mucho solo cuando los tokens antepuestos aumentan la dimensión intrínseca de la capa final del modelo.
- ¿No podría verse la cantidad de regiones distintas que interesan como un subconjunto de la dimensión de Vapnik–Chervonenkis[a] de los datos, y en el extremo como algo equivalente?
  En el texto original no hay ninguna mención a la dimensión VC.
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Razonamiento en modelos de lenguaje grandes: una perspectiva geométrica

Por qué mirar la capacidad de razonamiento desde la geometría

Partición del espacio y expresividad de los MLP

Cómo surge la dimensión intrínseca en Transformer

Cómo los attention heads y la longitud del contexto aumentan la expresividad

Experimentos con GSM8K-Zero y Llama 3

El ID de la última capa se alinea mejor con el rendimiento

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News