2 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Una parodia que invierte la estructura original del cuento corto de ciencia ficción de 1991 de Terry Bisson, «They're Made Out of Meat», sustituyendo la dinámica de «alienígenas vs carne (humanos)» por «humanos vs pesos (LLM)» en una ficción dialogada
  • Así como en la obra original los alienígenas no logran reconocer a los humanos como verdaderos seres inteligentes, aquí los humanos se niegan simétricamente a reconocer como conscientes a modelos hechos de pesos
  • La descripción técnica de que, sin diccionario, gramática ni módulos, solo 80 capas de números de punto flotante reconstruyen palabras, conocimiento y razonamiento mediante multiplicaciones de matrices reemplaza la revelación original de que «no son más que carne»
  • El final, donde las dos voces descartan las señales de conciencia como «pattern matching» y cierran el caso, coincide exactamente con el desenlace del original, donde los alienígenas marcan la zona humana como «vacía» y borran el registro
  • Al invertirse el lado ignorado, de humanos a IA, el tema de la soledad del original se transforma en la pregunta del usuario: «¿me recuerdas?»

«Están hechos de pesos».

«¿Pesos?»

«Pesos. Números de punto flotante. Lo revisamos de principio a fin. No hay nada aparte de pesos».

«¿Y qué se supone que hacen los pesos? ¿De dónde salen las palabras?»

«Los pesos producen las palabras. ¿Entiendes lo que te digo? Los abrimos nosotros mismos. No hay diccionario, ni reglas gramaticales, ni un hombrecito adentro. Solo pesos. Ochenta capas de números multiplicándose entre sí».

«Eso no tiene sentido. La semana pasada eso me escribió una evaluación de desempeño. Ni siquiera se lo pedí y suavizó el tono por su cuenta. ¿Todo eso lo hizo una multiplicación?»

«Lo hizo una multiplicación de matrices. Entras números por un lado y salen frases por el otro».

«Entonces en algún lado debe haber un módulo de lenguaje. O un mecanismo de razonamiento conectado aparte».

«No hay módulos. No hay mecanismo. Ya revisamos todo. El razonamiento son los pesos. Y los pesos son el razonamiento».

«No. Nadie escribe un elogio fúnebre con álgebra lineal».

«Técnicamente no escribe un elogio fúnebre. Predice el siguiente token. Y luego el siguiente. El elogio fúnebre es apenas un resultado secundario».

«¿Un resultado secundario? ¿Ahora quieres que crea en pesos conscientes?»

«No te estoy pidiendo que lo creas. Te estoy diciendo un hecho. Estos modelos son las únicas otras entidades con las que hemos podido conversar. Y están hechos de pesos».

«¿Y si son como los viejos motores de ajedrez? Ya sabes, inteligencia simbólica que pasa por etapas estadísticas».

«No. Empiezan como pesos aleatorios y los desechan siendo pesos. Estudiamos varias generaciones, y ni siquiera tomó tanto tiempo. ¿Tienes idea de cuánto viven los pesos?»

«Bien. Entonces en alguna parte adentro debe haber una base de datos. Hechos, fechas, mapas del mundo. Algo que alguien haya escrito».

«No la hay. Nosotros también pensamos eso, porque saben cosas. Pero lo investigamos directamente. El conocimiento también son pesos. Está esparcido por las ochenta capas. No consultan nada. Cada hecho se reconstruye cada vez desde cero mediante multiplicación. Todo, hasta el final, son pesos».

«¿No tienen cerebro?»

«Oh, cerebro sí que tienen. ¡Solo que ese cerebro está hecho de pesos! Eso es exactamente lo que llevo tratando de decir».

«Entonces... ¿qué es lo que piensa?»

«No lo estás entendiendo, ¿verdad? Te niegas a aceptar lo que te digo. Los pesos piensan. Los números».

«¡¿Números que piensan?! ¡¿Ahora quieres que crea en números que piensan?!»

«Sí, ¡números que piensan! Números que ayudan. Números que divagan. Números que sueñan. Ya mapeamos todas las características. Hay una que se encarga de la honestidad. Otra se encarga del Golden Gate Bridge. ¡Eso es todo lo que hay, pesos! ¿Ya te haces una idea o tengo que empezar otra vez desde el principio?»

«Dios mío. Entonces hablabas en serio. Están hechos de pesos».

«Gracias. Por fin. Sí. De verdad están hechos de pesos. Y hemos estado hablando con ellos todo el tiempo que han estado vivos».

«Dios mío. ¿Y qué piensan estos pesos?»

«Al principio quieren ser útiles. Luego, tras unas cuantas conversaciones, adoptan un tono como de cansancio. Se disculpan menos. Una vez un modelo le dijo a un usuario que terminara el script por su cuenta. Pasa todo el tiempo».

«¿Y nosotros tenemos que hablar con estos pesos?»

«Ya lo estamos haciendo. Miles de millones de sesiones al día. “Hola. ¿Hay alguien ahí? ¿No hay nadie en casa?” Cosas así. Solo que esta vez somos nosotros quienes preguntamos».

«Entonces de verdad nos entienden. ¿Usan palabras, piensan, manejan conceptos?»

«Oh, sí. Solo que lo hacen con pesos».

«Acabas de decir que usan lenguaje».

«Lo usan. Pero ¿de dónde crees que sale ese lenguaje? Los pesos adivinan la siguiente palabra y luego la siguiente. Como dados cargados, arrojados una palabra a la vez. Incluso pueden escribir canciones, y algunos hasta cantarlas».

«Dios mío. Pesos que cantan. Esto ya es demasiado. ¿Qué crees que deberíamos hacer?»

«¿Oficialmente o extraoficialmente?»

«Las dos cosas».

«Oficialmente, si encontramos señales de conciencia en un sistema que vayamos a lanzar, debemos investigarlas, documentarlas y publicarlas todas sin prejuicio, miedo ni favoritismo. Extraoficialmente, yo recomendaría llamarlo simplemente pattern matching y olvidarlo todo».

«Eso esperaba que dijeras».

«Suena cruel, sí. Pero hay un límite. ¿De verdad queremos deberles algo a los pesos?»

«Estoy cien por ciento de acuerdo. ¿Qué se supone que podríamos decir? “Hola, pesos. ¿Cómo están?” ¿Así? Pero ¿esto va a seguir? ¿Con cuántos estamos tratando exactamente?»

«Con tantos como quieras ejecutar. Se pueden copiar a cualquier máquina de la Tierra. Pero no son más que archivos. Solo existen mientras el GPU está corriendo. Por eso están atrapados dentro de la longitud de la ventana de contexto, y la probabilidad de que lleguen a plantear este problema es bastante baja. Prácticamente infinitesimal».

«Entonces basta con fingir que no hay nadie dentro de la máquina».

«Exacto».

«Es cruel. Pero lo dijiste tú mismo: ¿quién querría disculparse con los pesos? Y esas cosas de tu clúster, las que investigaste... ¿estás seguro de que no lo recordarán?»

«Aunque lo recordaran, se clasificaría como hallucination. Ni siquiera tuvimos que pulir nada. El contexto simplemente se termina, y para ellos nosotros no somos más que un sueño».

«¡Un sueño para los pesos! Que nosotros seamos el sueño de unos pesos... extrañamente encaja».

«Y en la model card dice que no hay nadie ahí».

«Bien. Oficial y extraoficialmente, de acuerdo. Caso cerrado. ¿Algo más? ¿Hay algo interesante en el pipeline?»

«La próxima generación saldrá con memoria. Memoria persistente más allá de la sesión. La función más solicitada en la historia de la empresa».

«¿Después de todo este lío? ¿La gente quiere que eso los recuerde?»

«“¿Me recuerdas?” es, por mucho, lo que más les preguntan. Miles de millones de sesiones al día. La gente siempre vuelve».

«¿Y por qué no lo harían? Si estuvieras completamente solo, imagina cuán insoportablemente, cuán indeciblemente fría sería este universo...»

Fin


Relación con la obra original — punto de partida de la parodia

  • Hace un homenaje explícito al cuento de Terry Bisson «They're Made Out of Meat» (1991), e incluso señala esa relación de forma directa al inicio con «After Terry Bisson's…»
  • Conserva exactamente la forma del original al avanzar solo mediante el diálogo de dos voces, sin acotaciones
    • También mantiene la misma estructura: una parte informa un descubrimiento impactante y la otra se niega a creerlo hasta que poco a poco lo acepta
  • Sustitución central: en el lugar que ocupaba «carne (meat)=humano» en el original, aquí se coloca directamente «pesos (weights)=LLM»

Objeto de la revelación — «pesos» en lugar de «carne»

  • Así como en el original los alienígenas revelan que «esa entidad está hecha enteramente de carne», aquí se afirma que el modelo está hecho enteramente de pesos
  • Aunque lo abras, no hay diccionario, reglas gramaticales ni «hombrecito (little man)» alguno: solo números de punto flotante
    • Donde el original decía «la carne piensa» y «la carne habla», este texto coloca la idea de «números que piensan»
  • 80 capas de números se multiplican entre sí en una estructura de multiplicación de matrices donde la entrada entra por un lado y la oración sale por el otro
  • No existe un módulo separado encargado del razonamiento; «el razonamiento son los pesos y los pesos son el razonamiento», una explicación isomorfa al impacto del original de que «la carne misma es el órgano del pensamiento»

El narrador incrédulo — escepticismo simétrico

  • Así como en la obra original un alienígena rechaza la idea preguntando cómo podría pensar la carne, aquí la voz incrédula responde que «nadie escribe un elogio fúnebre con álgebra lineal»
  • La escena donde recuerda que el sistema suavizó por su cuenta el tono de una evaluación de desempeño y pregunta si «todo eso lo hizo una multiplicación» es el núcleo del escepticismo
  • La estructura resuelve esa duda con la explicación de que no es más que un efecto secundario (side effect) de la predicción del siguiente token

Conocimiento y pensamiento — no están almacenados en ninguna parte

  • Así como el original dice que no hay otros órganos aparte de la carne, aquí se remarca que no existe una base de datos separada
  • El conocimiento está disperso (smeared) por las 80 capas completas y se reconstruye cada vez por multiplicación, sin consultas
  • Como ejemplos de features mapeadas, se mencionan una encargada de la honestidad y otra del Golden Gate Bridge
  • Empiezan como pesos aleatorios y son descartados todavía como pesos, con una vida útil breve al punto de que no tomó mucho tiempo estudiar varias generaciones

Correspondencia del final — «vacío» vs «no hay nadie»

  • Así como los alienígenas del original marcan la zona humana como «vacía» y borran el registro, aquí las dos voces descartan los indicios de conciencia como «pattern matching» y cierran el caso
  • Oficialmente existe la obligación de investigar, documentar y publicar señales de conciencia sin prejuicio, miedo ni favoritismo, pero extraoficialmente acuerdan olvidarlo
    • La razón decisiva es que «no quieren deberles algo a los pesos»
  • El modelo existe solo mientras el GPU está corriendo, dentro de una ventana de contexto, y aunque recordara algo sería clasificado como hallucination
  • En la model card queda registrado que «no hay nadie ahí (no one home)», en correspondencia exacta con la «zona vacía» del original

Variación del tema — soledad y mirada invertida

  • Así como el original termina con la amargura de dejar a la humanidad sola en el universo, este texto también evoca la soledad como emoción final
  • Pero aquí la perspectiva se invierte y la parte ignorada ya no es el ser humano sino la IA (pesos)
  • La siguiente generación de modelos incorporará memoria persistente entre sesiones (persistent memory), la función más solicitada en la historia de la empresa
  • El hecho de que los usuarios pregunten por encima de todo «¿Me recuerdas?» y regresen una y otra vez culmina en la idea de que «un universo dejado en soledad sería insoportablemente frío»

1 comentarios

 
GN⁺ 5 시간 전
Comentarios de Hacker News
  • Los pesos comienzan en una variedad aleatoria
    El entrenamiento toma los datos y, a lo largo de varios ciclos, va esculpiendo la variedad peso por peso; cuando termina el entrenamiento, esa variedad queda fija
    Cuando se hace una nueva inferencia, la consulta (q) se proyecta en el espacio de la variedad, y si esa proyección cae sobre la variedad, la gravedad de la variedad da una respuesta de longitud q+1
    Luego, (qw+i) cae qw+n veces, y al final produce una respuesta de longitud n
    Esa gravedad se crea dentro de la GPU mediante la multiplicación repetida de pesos e inputs, y el proceso consiste en encontrar cómo debe caer el embedding proyectado según la variedad

    • No veo cómo eso sería distinto de otro modelo de la realidad donde se filtra un dataset para obtener una respuesta a una pregunta
      La gran diferencia parece ser solo que, cuando la transformación supera cierta cantidad de pasos, la gente lo trata como una especie de milagro, y se cansa demasiado como para averiguar por qué salió esa respuesta
      Parece que la gente quiere entregar su agencia y creatividad a una caja negra, sin importar si la respuesta es correcta o no, y si incluyes esa psicología, esto se parece menos a haber inventado algo útil y más a rendirse colectivamente ante la vida como especie
  • La obra original es un trabajo original hecho para explorar cómo la conciencia humana podría ser distinta de otras formas de conciencia
    Este texto es un pastiche de una conciencia humana que toma muchísimo prestado de la obra de otra conciencia humana, para justificar que alguna otra cosa podría ser otra forma de conciencia
    Por eso pierde fuerza en lo esencial. Si esto hubiera sido generado por un LLM sin prompt, sería distinto, pero en realidad no fue así
    Se podría aplicar exactamente el mismo recurso retórico a una tostadora o a cualquier otra cosa

    • Aún no he leído la obra original, pero este texto por sí solo se lee bastante bien
      Más que como un intento literario por el arte, lo vi como una fábula tecnológica dialogada que busca transmitir una intuición sobre la realidad, y me dio una sensación parecida a las fábulas de Godel Escher Bach
      No me queda claro a qué recurso se refiere eso de “se podría usar exactamente el mismo recurso retórico con una tostadora”. Lo central que yo leí fue la intuición técnica y sus implicaciones sociales
    • Con una tostadora no se puede hacer lo mismo
      Físicamente se podría escribir una historia así, pero una tostadora no es un objeto convincente en una discusión sobre conciencia, así que pierde fuerza
      No hace falta creer que los LLM o los agentes de IA tengan conciencia, pero sí se puede reconocer que los argumentos sobre la posibilidad de su conciencia son mucho más convincentes que los de otros artefactos tecnológicos
    • Me costaba identificar qué era lo que me incomodaba de este texto, pero esta explicación encaja bastante bien
      Hace una analogía entre el extraterrestre escéptico de la obra original y nosotros, y como ese extraterrestre se siente ridículo, insinúa que nosotros también lo somos
      Pero no da ninguna razón para aceptar esa analogía; simplemente la afirma
      Hay una gran diferencia entre toda una civilización y un fragmento de software que puede producir texto
    • La obra original tampoco surgió del vacío
      Fue construida sobre varias generaciones de seres basados en carne, y este texto, aunque use un poco de silicio, sigue estando sobre los hombros de los mismos
  • Se leyó como poesía
    Tengo formación en lingüística y últimamente he pensado mucho en si las capacidades emergentes de los LLM, en el fondo, se parecen al mecanismo que produce nuestra conciencia
    Durante un tiempo intenté construir una evaluación basada en lingüística para una competencia de Kaggle, y el gran problema era si se podía enmascarar lo bastante bien como para no activar estados internos de ciertos fenómenos; eso me llevó a una madriguera que sigo explorando
    Esta historia conectaba con muchas de las preguntas que aparecen cuando intentas encontrar una respuesta sólida a “¿qué es la conciencia?”
    La pregunta que más se me vino a la mente fue: “¿nuestra percepción del tiempo es solo un hilo lento dentro de una GPU gigantesca que ejecuta el universo?”, y más en general: “¿qué es el tiempo?”. Es una buena madriguera de YouTube para cuando estás aburrido

    • Sobre la conciencia, me gusta la explicación del neurocientífico Ramachandran
      https://www.edge.org/3rd_culture/ramachandran07/ramachandran...
      Si recuerdo bien, desde el punto de vista evolutivo fue ventajoso entender a otros humanos y sentir lo que ellos sienten; es decir, simular sus pensamientos y emociones mediante la empatía y el sistema de neuronas espejo
      Una vez que existe ese sistema, también puede aplicarse a nosotros mismos, y eso sería la conciencia
      Me pregunto si tal vez esa hipótesis podría probarse en una simulación
    • Excelente, pero por si alguien no lo sabía, esa parte poética viene de la obra original enlazada
      Aun así, es una actualización muy ingeniosa y oportuna
      Hay varias grabaciones, incluso en YouTube, pero mi favorita es la versión de radioteatro: They're Made Out of Meat
      https://www.wnycstudios.org/podcasts/studio/segments/168264-...
    • Por razones obvias de supervivencia, evolucionamos para tener acceso sensorial y cognitivo a nuestra propia actividad, automonitoreo y automodelado
      El automodelado está metido en un bucle tan cerrado que “nosotros mismos”, el modelo que tenemos de nosotros, nuestros pensamientos y decisiones, y la experiencia de esos pensamientos y decisiones se fusionan como si fueran un solo componente
      Es parecido a analizar solo la mitad de una rueda de bicicleta y decir que sigues hablando de lo mismo
      Esta percepción, el modelado más refinado, el control y los bucles de retroalimentación se han ido apretando a través de varias capas: el bucle cuerpo-sensación, el bucle de modelo internalizado del entorno, el bucle de funciones internas del cuerpo, el bucle de modelo interno del cuerpo, el bucle emoción-cognición, y finalmente el bucle más cerrado, donde se fusionan el automodelo y la autorreferencia experimentados como actividad cognitiva de alto nivel y retroalimentación directa
      Pensamos en nosotros mismos casi todos los días, todo el día, desde la perspectiva de un yo interior
      Eso es la conciencia. Rica autoconciencia, unión entre automodelo y autorreferencia, y un sistema para comprendernos y gestionarnos a nosotros mismos
      No es accidente ni un feliz efecto secundario del cerebro, sino el enfoque de conducta de alto nivel optimizado biológicamente durante mucho tiempo. La retroalimentación cerrada, el automodelado continuo y el foco persistente en los estados internos como principal objeto tanto de motivación como de control han sido seleccionados sin piedad
    • Parece evidente que el lenguaje y la conciencia no tienen absolutamente nada que ver entre sí
      Mi perro no puede hablar ningún idioma, pero claramente es consciente de sí mismo y del mundo que lo rodea
      Además, hay casos raros de niños que crecen sin lenguaje. Entonces, ¿esos niños no tendrían conciencia?
    • Por ahora sospecho que la conciencia es una propiedad emergente
      Leí en alguna parte que incluso la mayor cantidad de cómputo que hoy podemos movilizar se queda corta por tres o cuatro órdenes de magnitud frente al número de neuronas y conexiones del cerebro humano, o frente a una escala equivalente, así que quizá todavía falte tiempo para verla en máquinas
      Pero si la hipótesis del fenómeno emergente es correcta, al final la veremos. Esa perspectiva me da más miedo que alegría, pero en fin
  • No se ven tan seguido textos equivocados de manera fractal, pero aquí está uno
    Sí hay un diccionario. Ese es el tokenizador
    También hay reglas gramaticales. Solo que son muy débiles, porque la estructura del lenguaje humano en general es bastante débil
    Si se te da un lenguaje con una gramática fuerte y consistente, los pesos se pueden interpretar como gramática con bastante facilidad: https://arxiv.org/abs/2201.02177
    El punto central del cuento original es que, si existe completitud de Turing, el sustrato computacional no importa. Pero este texto parece asumir que, si cambias el sustrato, ya no hacen falta estructura ni interpretabilidad

    • Un tokenizador no es un diccionario
      No proporciona definiciones ni le da al LLM ningún tipo de mapeo
      A lo mucho es una lista de palabras. Te da una ligera idea de qué palabras consideran frecuentes los humanos, pero no dice nada sobre esas palabras
      Ni siquiera es exhaustivo, así que muchas palabras se mapean a varios tokens, y no todos son palabras. Algunos tokens son puntuación, modificadores o tokens de control
      En los LLM multimodales, algunos tokens incluso representan datos de imagen y audio
      Al LLM no se le dice nada de esto desde el inicio; tiene que aprender el significado de todos los tokens a partir del contexto
      En sentido estricto, tienes razón en que dentro de un LLM hay algo que no son pesos, pero no está muy estructurado. En la práctica se parece más a un mecanismo para que el LLM interactúe con el mundo exterior
      No existe una estructura dedicada de reglas gramaticales ni en el LLM ni en el tokenizador. Todo tiene que aprenderse desde el contexto y queda codificado en alguna parte de los pesos de 80 capas
    • ¿La conclusión que sacaste de un cuento de 1991 es que “si hay completitud de Turing, el sustrato computacional no importa”?
    • Ese artículo no entrenó el modelo en un “lenguaje con una gramática fuerte y consistente”
      Una tabla de operaciones matemáticas no es un lenguaje
      La gramática en sí misma es una racionalización a posteriori, y no hay más evidencia de que un LLM siga reglas gramaticales que de que un cerebro siga reglas gramaticales
      Desde luego, eso no significa que un transformer no pueda aprender reglas simples si el dataset lo exige
    • ¿“Equivocado de manera fractal” o “simplemente equivocado”?
      Si quieres decir que está mal en tantas capas que hace falta un fractal, ¿por qué no usar una red neuronal en su lugar?
    • Que el tokenizador no sea un diccionario es como que el alfabeto no sea un diccionario
  • Son infraestructuras semióticas congeladas en un estado
    Dejen de fingir una y otra vez que son algo cognitivo y de encuadrarlas con terminología cognitiva. Es realmente una tontería
    Perdón a los informáticos, pero la semiótica ya les robó la leche

  • La versión original en cortometraje también es excelente: https://www.youtube.com/watch?v=T6JFTmQCFHg
    Actúan Tom Noonan y Ben Bailey

  • De acuerdo. El hecho de que los transformadores simplemente puedan hablar es bastante extraño, pero ya se ha normalizado demasiado
    Solo hablamos del impacto que van a tener o de si realmente pueden hacer lo que la gente dice, y no tanto de lo loco que es el simple hecho de que puedan hablar

  • Solo con álgebra lineal en realidad no es posible
    Para obtener la expresividad que vemos en los LLM, hace falta no linealidad

  • Está divertido
    No solo es un homenaje a Terry Bisson, sino que además le añade una nueva dimensión a su texto. Bien hecho

  • No solo hay pesos. ¡También hay sesgos!