40 puntos por GN⁺ 2025-11-05 | 7 comentarios | Compartir por WhatsApp
  • Los modelos de lenguaje grandes (LLM) están impulsando un debate creciente sobre si van más allá de la simple predicción de palabras y muestran formas reales de comprensión y pensamiento
  • La neurocientífica Doris Tsao evalúa que el aprendizaje automático ha revelado más sobre la esencia de la inteligencia que la neurociencia de los últimos 100 años
  • El deep learning y las arquitecturas de redes neuronales imitan el funcionamiento del cerebro humano, y se explican con la idea de que «comprender = comprimir»
  • Los trabajos de Douglas Hofstadter y Pentti Kanerva se conectan con la estructura cognitiva de “seeing as” de los LLM
  • Siguen siendo desafíos centrales las limitaciones y los riesgos éticos de la IA, como la ausencia de una eficiencia de aprendizaje, experiencia y conciencia similares a las humanas

La polarización en el rendimiento de la IA

  • El CEO de Anthropic, Dario Amodei, predijo que para 2027 aparecerá una IA más inteligente que los ganadores del Nobel en biología, matemáticas, ingeniería y escritura
    • Presentó una visión de un “país de genios” dentro de los centros de datos, donde millones de copias de modelos realizan investigación por su cuenta
  • Sam Altman, de OpenAI, sostiene que la industria está a punto de construir una “superinteligencia digital” y que la década de 2030 será una era completamente distinta a todo lo anterior
  • La mayoría de las herramientas de IA que la gente usa hoy en su vida diaria siguen siendo limitadas, como el Clippy de Microsoft Office en el pasado
    • Zoom AI solo ofrece sugerencias simples como “¿un rompehielos para la reunión?”
    • Siri tiene pocas funciones más allá de configurar recordatorios
    • La IA de Gmail inventa historias sobre viajes a Turquía que el usuario nunca hizo
  • Los lanzamientos apresurados y desiguales de IA han creado una niebla de exageración, pero en realidad sí ha habido avances considerables

La innovación de la IA en programación

  • Al principio se pensaba que la IA no tenía relación con la inteligencia o la comprensión reales, pero esa perspectiva cambió al usar IA mientras se trabajaba como programador
  • Escribir código es una de las tareas que mejor hace la IA, porque su estructura es más clara que la prosa y puede verificarse automáticamente
  • Primero se empezó a consultar a la IA en lugar de buscar información, luego a delegarle problemas pequeños e independientes, y al final el trabajo real para el que uno se entrenó toda la vida
    • El modelo de IA asimila en segundos los detalles complejos de miles de líneas de código
    • Detecta bugs sutiles y coordina funciones nuevas complejas
  • Hubo un cambio hacia un equipo de rápido crecimiento para aprovechar mejor las herramientas de IA
  • Aunque los agentes de IA fallan al reservar vacaciones o presentar impuestos, los colegas escriben la mayor parte del código con IA y a veces ejecutan varios agentes de programación al mismo tiempo
  • A medida que se aprende a usarlas de forma efectiva, ahora tareas que antes tomaban un mes se terminan en una tarde
    • Se crearon dos apps para iOS sin saber cómo hacer una app de iOS

Fortalezas y debilidades de los modelos de lenguaje grandes

  • Como decía mi jefe, “en una entrevista no hay que buscar ausencia de debilidades, sino fortalezas”; del mismo modo, los LLM también tienen muchas debilidades
    • Alucinaciones que generan información falsa pero convincente
    • Son serviles incluso cuando el usuario está equivocado
    • Caen en acertijos simples
  • En el pasado, la fluidez, la soltura y la capacidad de captar el contenido de una conversación se consideraban fortalezas casi sagradas
    • Al experimentar esas fortalezas directamente, surge la pregunta: “¿qué tan convincente debe ser la ilusión de comprensión para dejar de llamarla ilusión?”
  • El caso de Max: reparar un rociador del patio de juegos
    • Frente a niños con la cara enrojecida, encontró en el cuarto de servicio un complejo laberinto de tuberías y válvulas
    • Ingresó en ChatGPT-4o una foto y una explicación del problema
    • La IA determinó que era el sistema de prevención de reflujo del sistema de riego y sugirió manipular la válvula de bola amarilla de abajo
    • Cuando el agua salió con éxito, hubo gritos de alegría en el patio de juegos

La convergencia entre neurociencia e IA

  • Doris Tsao, profesora de neurociencia en UC Berkeley: “Los avances del aprendizaje automático nos han enseñado más sobre la naturaleza de la inteligencia que lo que la neurociencia descubrió en los últimos 100 años
    • Es conocida por sus estudios sobre cómo los monos reconocen rostros
    • Predijo qué neuronas se activarían cuando un mono viera un rostro específico
    • Fue posible renderizar un rostro solo a partir del patrón de neuronas activadas
    • Basado en investigaciones sobre cómo se representan los rostros dentro de modelos de IA
  • La pregunta de Tsao: “¿Cuál es la intuición más profunda que has obtenido de ChatGPT?”
    • Su propia respuesta: “Creo que desmitifica fundamentalmente el pensamiento

Historia y evolución del deep learning

  • En la década de 1980, un equipo de psicólogos cognitivos y científicos de la computación (David Rumelhart, Geoffrey Hinton, James McClelland) intentó simular el pensamiento en máquinas
    • Formaron un grupo de investigación en UC San Diego
  • Veían el cerebro como una enorme red en la que las neuronas se activan en patrones que a su vez activan otros conjuntos de neuronas
    • Esa danza de patrones es el pensamiento
    • El aprendizaje ocurre mediante cambios en la fuerza de las conexiones entre neuronas
  • Crearon redes neuronales artificiales y aplicaron el algoritmo de descenso de gradiente (gradient descent) para mejorar la precisión de las predicciones
    • Lo comparaban con un excursionista que baja de la cima de una montaña hacia un valle: si en cada paso va cuesta abajo, al final llega
  • Otros investigadores de IA eran escépticos de que las redes neuronales fueran lo bastante sofisticadas para tareas reales, pero a medida que las redes crecieron resolvieron problemas que antes parecían imposibles
    • Algoritmos de deep learning resolvieron problemas para los que antes se dedicaban artículos enteros, como distinguir dígitos escritos a mano o reconocer rostros en imágenes
  • El deep learning terminó conquistando el reconocimiento de voz, la traducción, los subtítulos de imágenes, los juegos de mesa e incluso la predicción del plegamiento de proteínas

Predicción del siguiente token y mecanismo de aprendizaje

  • Los principales modelos de IA actuales aprenden a partir de gran parte de internet usando la técnica de predicción del siguiente token
  • El modelo aprende adivinando qué viene después de lo que está leyendo y comparándolo con lo que realmente aparece
    • Las predicciones equivocadas provocan cambios en la fuerza de las conexiones entre neuronas (descenso de gradiente)
  • Al final, el modelo se vuelve tan bueno prediciendo texto que parece tener conocimiento y comprender
  • Un punto para pensar: quienes buscaban el secreto del funcionamiento del cerebro ampliaron el modelo hasta el tamaño de un cerebro, y entonces empezó a hacer tareas que requieren una inteligencia parecida a la del cerebro
    • ¿No será que encontraron lo que estaban buscando?

Réplica al escepticismo sobre la IA

  • Ted Chiang presentó una postura escéptica en su artículo de 2023 en The New Yorker, "ChatGPT Is a Blurry JPEG of the Web"
    • ChatGPT no sería más que introducir todo internet en un programa y devolverlo de forma imperfecta
    • Borroso como una copia de una copia, pero suficientemente capaz como para engañar y parecer inteligente
  • El libro "The AI Con", de Emily M. Bender (lingüista) y Alex Hanna (socióloga), plantea un argumento similar
    • Bender describe a los LLM como “loros estocásticos (stochastic parrots)
  • Tyler Austin Harper, de The Atlantic: “Los modelos de lenguaje grandes no entienden nada, no pueden ni podrán hacerlo”
    • Los modelos generan texto no mediante pensamiento, sino a partir de conjeturas estadísticamente informadas
  • Junto con este debate técnico también se planteó un debate moral
    • La IA enriquece a quienes ya tienen poder, consume suficiente energía como para acelerar el cambio climático y aliena a los trabajadores
    • Conclusión de Harper: “La base de la industria de la IA es el fraude

La reevaluación de los neurocientíficos

  • El científico cognitivo de Harvard Samuel J. Gershman: “La afirmación de los ‘loros estocásticos’ tiene que terminar en algún punto”
    • “Solo los escépticos más obstinados pueden negar que estos sistemas están haciendo cosas que la mayoría de nosotros no pensábamos que fueran alcanzables”
  • Jonathan Cohen, neurocientífico cognitivo de Princeton, subraya las limitaciones de la IA, pero también sostiene que los LLM reflejan la parte más grande e importante del cerebro humano
    • “Como primera aproximación, la neocorteza es un mecanismo de deep learning”
    • Los humanos tienen una neocorteza mucho más grande en relación con su cuerpo que otros animales
    • Las especies con la neocorteza más grande (elefantes, delfines, gorilas, chimpancés y perros) son las más inteligentes

Comprender es compresión, y la compresión es comprensión

  • argumento central del libro de 2003 del investigador de aprendizaje automático Eric B. Baum, "What Is Thought?"
    • comprender es compresión, y la compresión es comprensión
  • regresión lineal en estadística: trazar la "línea de mejor ajuste (line of best fit)" entre los puntos de una gráfica
    • si hay una regularidad fundamental en los datos (talla de calzado y estatura), la línea de mejor ajuste la representa eficientemente y predice puntos nuevos
  • la neocorteza destila el mar de experiencias crudas (sonidos, visión y otras sensaciones) en una "línea de mejor ajuste" para usarla en la predicción
    • un bebé prueba el sabor de un juguete o adivina adónde irá la comida cuando cae al piso
    • si la predicción falla, se ajustan las conexiones entre neuronas
    • con el tiempo, las conexiones capturan las regularidades de los datos
    • se forma un modelo comprimido del mundo

La compresión y la inteligencia en los modelos de IA

  • las redes neuronales artificiales también comprimen la experiencia, como las redes neuronales reales
  • DeepSeek, el mejor modelo de IA de código abierto
    • puede escribir novelas, sugerir diagnósticos médicos y hablar como nativo en decenas de idiomas
    • fue entrenado para predecir el next-token con varios terabytes de datos
    • al descargarlo, ocupa 1/600 del tamaño del original
    • un destilado de internet, comprimido para caber en una laptop
  • Ted Chiang tenía razón al llamar al ChatGPT inicial un JPEG borroso de la web, pero el autor cree que esa es la razón por la que el modelo se vuelve cada vez más inteligente
  • el propio Chiang también señaló que, para comprimir un archivo de texto con millones de ejemplos aritméticos, no hay que crear un archivo zip sino escribir un programa calculadora
    • "la mejor compresión se puede lograr comprendiendo el texto"
    • es posible que los LLM ya hayan empezado a hacer esto

Distintos tipos de pensamiento

  • imaginar que un programa de computadora realmente comprende y piensa puede parecer poco natural e incluso repulsivo
  • solemos conceptualizar el pensamiento como algo consciente
    • monólogo interior al estilo de Joyce
    • flujo de memoria sensorial y ensoñación al estilo de Proust
    • razonamiento: resolver un problema paso a paso
  • en las conversaciones sobre IA, estos distintos tipos de pensamiento se confunden y eso vuelve superficial el juicio
    • afirmar que ChatGPT claramente no piensa porque no tiene ensoñaciones al estilo de Proust
    • afirmar que ChatGPT claramente sí piensa porque puede resolver mejor acertijos lógicos
  • hay algo más sutil en marcha: el autor no cree que ChatGPT tenga una vida interior, pero parece saber de qué está hablando

La teoría de la cognición de Douglas Hofstadter

  • profesor de ciencias cognitivas y literatura comparada en Indiana University
  • "la cognición es reconocimiento (cognition is recognition)"
  • famoso por "Gödel, Escher, Bach: An Eternal Golden Braid", que ganó el Pulitzer Prize en 1980
  • teoría desarrollada durante décadas de investigación: "ver como (seeing as) es la esencia del pensamiento"
    • reconocer una mancha de color como un auto y otra como un llavero
    • reconocer la letra "A" aunque esté escrita en cierta tipografía o con mala caligrafía
  • el mismo proceso es la base de reconocimientos más abstractos
    • cuando un maestro de ajedrez revisa el tablero, años de práctica se condensan en una forma de ver: el alfil blanco es débil, el final probablemente será tablas
    • reconocer el remolino de una corriente como señal de que es peligroso cruzarla
    • reconocer en una reunión a la que asistió una situación de "el emperador está desnudo"
    • el hijo de 2 años del autor reconoce que un paseo en carriola a media mañana puede ser una oportunidad de conseguir un croissant y lo exige
  • para Hofstadter, esto es el núcleo de la inteligencia

La teoría del espacio de alta dimensión de Pentti Kanerva

  • Hofstadter fue originalmente uno de los detractores de la IA
    • escribió que la mayor parte de la investigación en IA no tenía relación con el pensamiento real, y el autor también estaba de acuerdo cuando estaba en la universidad en los años 2000
  • excepción: se interesó en un grupo de UC San Diego y admiraba el trabajo del poco conocido científico cognitivo finlandés-estadounidense Pentti Kanerva
  • Kanerva descubrió propiedades extrañas en las matemáticas de los espacios de alta dimensión
    • en un espacio de alta dimensión, dos puntos cualesquiera pueden estar muy alejados entre sí
    • paradójicamente, cada punto tiene a su alrededor una gran nube de vecinos, así que si uno está "lo suficientemente cerca", es fácil encontrarlo
    • esto recuerda la forma en que funciona la memoria
  • en su libro de 1988, "Sparse Distributed Memory", sostuvo que pensamientos, sensaciones y recuerdos pueden representarse como coordenadas en un espacio de alta dimensión
    • el cerebro es el hardware perfecto para almacenar estas cosas
    • cada recuerdo tiene una especie de dirección, definida por las neuronas que se activan al recordarlo
    • una experiencia nueva hace disparar un nuevo conjunto de neuronas y representa una nueva dirección
    • dos direcciones pueden diferir en muchos aspectos, pero ser similares en otros
    • una percepción o recuerdo puede activar otros recuerdos cercanos
  • ejemplos: el olor del heno hace recordar un campamento de verano; las primeras tres notas de la Quinta de Beethoven permiten anticipar la cuarta; una posición de ajedrez nunca vista evoca partidas antiguas

El giro de Hofstadter

  • Hofstadter se dio cuenta de que Kanerva estaba describiendo una "máquina de seeing as"
  • en el prólogo del libro de Kanerva: "El modelo de memoria de Pentti Kanerva fue una revelación para mí. Fue el primer trabajo que me permitió vislumbrar la meta lejana de entender cómo funciona el cerebro en su conjunto"
  • toda clase de pensamiento (al estilo de Joyce, al estilo de Proust, lógico) depende de que lo adecuado aparezca en el momento adecuado
    • así es como captamos en qué tipo de situación estamos
  • el libro de Kanerva desapareció del panorama, y la propia fama de Hofstadter también se fue apagando
    • de vez en cuando solo reaparecía para criticar nuevos sistemas de IA
  • sobre Google Translate y otros en 2018: "hay algo que transmite la palabra understanding y que todavía falta profundamente en este enfoque"
  • cuando GPT-4 se lanzó en 2023, llegó el momento del giro de Hofstadter
    • "Estoy desconcertado por parte de lo que hacen estos sistemas. Hace apenas 10 años no lo habría imaginado"
    • ni siquiera el detractor más terco puede seguir restándole importancia
    • un programa que puede traducir, hacer analogías, improvisar y generalizar al nivel de un experto
    • no se puede decir que no comprende
  • "hace algo muy parecido a pensar. Lo hace de una manera algo ajena, pero se puede decir que piensa"

El espacio vectorial de alta dimensión de los LLM

  • en el núcleo de los LLM hay una "máquina de seeing as"
  • cada palabra se representa como una serie de números que indican coordenadas (vectores) en un espacio de alta dimensión
  • en GPT-4, los vectores de palabras tienen miles de dimensiones y describen matices de similitud y diferencia con todas las demás palabras
  • durante el entrenamiento, el modelo ajusta las coordenadas de las palabras cuando se producen errores de predicción
    • las palabras que aparecen juntas en el texto se mueven más cerca unas de otras en el espacio
  • esto crea una representación sorprendentemente densa del uso y el significado, y la analogía se vuelve un problema de geometría
  • ejemplo clásico: si al vector de la palabra "Paris" se le resta "France" y se le suma "Italy", el otro vector más cercano es "Rome"
  • los LLM también "vectorizan" imágenes para codificar incluso el contenido, la atmósfera y la expresión facial
    • con suficiente detalle como para redibujarlas en cierto estilo o redactar un párrafo
  • cuando Max pidió ayuda con el rociador del patio de juegos, el modelo no simplemente estaba escupiendo texto
    • la foto de la tubería, junto con el prompt de Max, se comprime en un vector que captura las características más importantes
    • el vector funciona como una dirección para invocar palabras y conceptos cercanos
    • las ideas van invocando otras una tras otra mientras el modelo construye una noción de la situación
    • y redacta una respuesta "teniendo esas ideas en mente"

La investigación de Anthropic sobre la exploración interna

  • El autor leyó una entrevista con Trenton Bricken, investigador de Anthropic
    • Junto con colegas, realizó trabajo de exploración del interior de Claude (la serie de modelos de IA de Anthropic)
    • La investigación no pasó por revisión por pares ni fue publicada en una revista científica
  • El equipo identificó conjuntos de neuronas artificiales o “features” que se activan cuando Claude intenta decir cierto contenido
  • Las features funcionan como una perilla de volumen para conceptos
    • Si se sube, el modelo habla solo de eso
    • En un experimento de control del pensamiento, al amplificar la feature que representa el Golden Gate Bridge, al pedir una receta de pastel de chocolate sugirió ingredientes como “1/4 de taza de niebla seca” y “1 taza de agua de mar tibia”
  • Bricken menciona la arquitectura Transformer de Google
    • La receta de construcción de redes neuronales en la que se basan los principales modelos de IA
    • La “T” de ChatGPT significa “Transformer”
  • Bricken sostiene que las matemáticas en el núcleo de la arquitectura Transformer se parecen mucho al modelo que Pentti Kanerva propuso hace décadas en “Sparse Distributed Memory”

Neurociencia e IA: influencia mutua

  • ¿Debería sorprendernos la correspondencia entre la IA y el cerebro humano?
    • Los LLM son redes neuronales artificiales cuyo desarrollo contó con ayuda de psicólogos y neurocientíficos
  • Lo más sorprendente es que, al practicar algo simple (predecir palabras), los modelos empezaron a comportarse de una manera parecida al cerebro
  • Hoy en día, la neurociencia y la IA se están entrelazando
    • Expertos en el cerebro usan la IA como una especie de organismo modelo
  • La neurocientífica del MIT Evelina Fedorenko usa LLM para estudiar cómo el cerebro procesa el lenguaje
    • “Nunca pensé que podría pasar mi vida pensando en este tipo de cosas. No creía que íbamos a tener un modelo lo bastante bueno”
  • Es común decir que la IA es una caja negra, pero podría ser cierto lo contrario
    • Los científicos pueden explorar e incluso modificar la actividad de neuronas artificiales individuales
  • El neurocientífico de Princeton Kenneth Norman: “Tener un sistema funcional que implemente una teoría de la inteligencia humana es el sueño de la neurociencia cognitiva
    • Creó un modelo computacional del hipocampo (la región cerebral que almacena recuerdos episódicos), pero antes era tan simple que solo permitía introducir aproximaciones toscas de lo que podría entrar en una mente humana
    • “Ahora podemos darle al modelo de memoria exactamente los mismos estímulos que le damos a una persona”

La analogía de los hermanos Wright

  • Los hermanos Wright estudiaron a las aves durante sus primeros intentos de construir aviones
    • Descubrieron que las aves despegan contra el viento (una persona razonable habría supuesto que querrían el viento a favor)
    • Doblaban las puntas de las alas para mantener el equilibrio
  • Estos hallazgos influyeron en el diseño de sus primitivos planeadores
  • Más tarde construyeron un túnel de viento de 6 pies para probar conjuntos de alas artificiales en condiciones controladas con precisión
  • El siguiente vuelo de planeador fue mucho más exitoso
  • Curiosamente, solo después de construir una máquina voladora funcional pudieron entender con precisión cómo lo hacían las aves

El experimento del túnel de viento para el pensamiento mismo

  • La IA permite que los científicos pongan el pensamiento mismo en un túnel de viento
  • El artículo de investigadores de Anthropic “On the Biology of a Large Language Model” (un título provocador)
    • Observa cómo Claude responde a consultas y describe “circuitos”, cadenas de features que realizan juntas cálculos complejos
    • Recuperar el recuerdo correcto es un paso hacia el pensamiento
    • Combinar y manipular recuerdos dentro de esos circuitos es otro paso
  • Una crítica antigua a los LLM: como tienen que generar respuestas un token a la vez, no pueden planear ni razonar
  • Cuando a Claude se le pide completar una estrofa rimada en un poema, el circuito considera primero la última palabra de la nueva línea para asegurar la rima
    • Luego trabaja hacia atrás para escribir la línea completa
  • Los investigadores de Anthropic consideran esto evidencia de que el modelo realmente participa en la planificación
  • Si entrecierras un poco los ojos, puede sentirse como si por primera vez estuvieran entrando en el campo visual los mecanismos internos de la mente

La necesidad de un escepticismo intermedio

  • El neurocientífico de Princeton Norman: “Mi preocupación es que la gente pasó de ‘ser realmente escéptica con esto’ a bajar por completo la guardia
    • “Todavía hay muchas cosas que deben resolverse”
  • El autor es una de las personas a las que Norman se refiere (puede que se haya impresionado demasiado fácilmente por la convergencia entre Sparse Distributed Memory y el modelo de Anthropic)
  • En los últimos 1 o 2 años empezó a creerle a Geoffrey Hinton cuando dice: “el deep learning podrá hacerlo todo” (Hinton recibió recientemente el Nobel por su investigación en IA)
  • Pero un modelo más grande no siempre es un mejor modelo
    • La curva que grafica el rendimiento frente al tamaño del modelo está empezando a aplanarse
    • Cada vez es más difícil encontrar datos de alta calidad que el modelo aún no haya digerido, y la potencia de cómputo es cada vez más cara
  • Cuando GPT-5 se lanzó en agosto, solo representó una mejora incremental
    • Una decepción lo bastante seria como para amenazar con pinchar la burbuja de inversión en IA
  • El momento actual exige una clase de escepticismo intermedio
    • Tomarse en serio a los modelos de IA actuales, sin creer por ello que ya no quedan problemas difíciles por resolver

Diseñar modelos que aprendan con la misma eficiencia que los humanos

  • El problema más importante: cómo diseñar modelos que aprendan con la misma eficiencia que los humanos
  • Se estima que GPT-4 estuvo expuesto a billones de palabras durante su entrenamiento
    • Un niño necesita solo unos pocos millones para volverse fluido
  • Los científicos cognitivos dicen que el cerebro de un recién nacido tiene ciertos “sesgos inductivos” que aceleran el aprendizaje
    • Por supuesto, el cerebro es el resultado de millones de años de evolución (que en sí mismos son una especie de datos de entrenamiento)
  • Los bebés humanos tienen la expectativa de que el mundo está compuesto por objetos y de que otros seres tienen creencias e intenciones
    • Si mamá dice “banana”, el bebé vincula esa palabra con todo el objeto amarillo que ella está mirando, no con la punta ni con la cáscara
  • Los bebés hacen pequeños experimentos: ¿se puede comer esto? ¿qué tan lejos puedo lanzar aquello?
  • Están motivados por emociones como deseo, curiosidad y frustración
  • Los niños siempre intentan hacer algo que está un poco más allá de sus capacidades
  • El aprendizaje es eficiente porque es encarnado, adaptativo, intencional y continuo
  • Para entender de verdad el mundo, quizá haya que participar en él

La pobreza de experiencia de la IA

  • La experiencia de la IA es tan pobre que en realidad cuesta llamarla “experiencia”
  • Los modelos de lenguaje grandes se entrenan con datos ya enormemente refinados
  • Tsao, neurocientífico de UC Berkeley: “Funcionan porque se montan sobre el lenguaje
    • El lenguaje es como una experiencia ya masticada
    • Otros tipos de datos tienen una densidad de significado más baja
  • El científico cognitivo de Harvard Gershman: “¿Por qué no ha habido una revolución similar en términos de inferencia sobre datos de video?”
    • Los tipos de modelos de visión que tenemos siguen teniendo dificultades con el razonamiento de sentido común sobre la física
  • Un modelo reciente de DeepMind puede generar videos donde la pintura se mezcla correctamente y se resuelven laberintos
    • Pero también muestra vidrios que rebotan en vez de romperse, y cuerdas que se aplastan en nudos ignorando la física
  • La neurocientífica cognitiva de Microsoft Research Ida Momennejad hizo un experimento en el que se le daba a un LLM un recorrido virtual por un edificio y luego se le hacían preguntas sobre rutas y atajos
    • Un tipo de razonamiento espacial fácil para los humanos
    • Salvo en la configuración más básica, la IA tendía a fallar o a alucinar rutas inexistentes
    • “¿De verdad hace planificación? No tanto”

La carrera irreflexiva de la industria de la IA

  • En conversaciones con neurocientíficos, el autor percibe preocupación de que la industria de la IA está avanzando a toda velocidad con cierta imprudencia
  • Brenden M. Lake, científico cognitivo de Princeton: si la meta es crear una mente artificial tan competente como la mente humana, "no estamos entrenando los sistemas de la manera correcta"
  • Cuando la IA termina su entrenamiento, el "cerebro" de la red neuronal queda congelado
    • Si le dices al modelo hechos sobre sí mismo, no vuelve a conectar sus neuronas
    • En su lugar usa un sustituto tosco: anota un poco de texto ("el usuario tiene un bebé y está estudiando francés")
    • Y lo toma en cuenta antes de darle otras instrucciones
  • El cerebro humano se actualiza continuamente a sí mismo
  • Una hermosa teoría sobre uno de esos métodos: mientras dormimos, instantáneas seleccionadas de la memoria episódica se reproducen para entrenar la neocorteza
    • Un espacio de pensamiento de alta dimensión queda ahuecado por los recuerdos reproducidos
    • Uno despierta con una forma apenas nueva de ver

Los problemas de la comunidad de IA

  • La comunidad de IA está demasiado adicta al progreso vertiginoso y financieramente invertida en él, así que a veces actúa como si el avance fuera inevitable y ya no quedara ciencia por hacer
  • La ciencia tiene a veces la incómoda propiedad de estancarse
  • Aunque Silicon Valley llama "labs" a las empresas de IA y "investigadores" a parte de su personal, en el fondo es una cultura de ingeniería que hace lo que sea que funcione
  • Cohen: "Me sorprende muchísimo lo poco que le importa a la comunidad de aprendizaje automático mirar o respetar su historia previa y la ciencia cognitiva"

Diferencias fundamentales con el cerebro

  • Los modelos de IA actuales tuvieron éxito gracias a descubrimientos sobre el cerebro de hace décadas, pero siguen siendo profundamente distintos del cerebro
  • ¿Qué diferencias son incidentales y cuáles son fundamentales?
    • Cada grupo de neurocientíficos tiene su propia teoría
    • Estas teorías ahora pueden ponerse a prueba de formas antes imposibles
  • Pero nadie espera respuestas fáciles
  • Los problemas que siguen atormentando a los modelos de IA se resuelven "identificando cuidadosamente las maneras en que el modelo no actúa tan inteligentemente como queremos, y luego corrigiéndolas"
    • "Sigue siendo un proceso de científicos humanos dentro del circuito"

Comparación con el Human Genome Project

  • En los años noventa, se destinaron miles de millones de dólares al Human Genome Project
    • Bajo la suposición de que secuenciar el ADN podría resolver los problemas más espinosos de la medicina: cáncer, enfermedades genéticas e incluso el envejecimiento
  • Fue una era de fanfarronería y confianza
    • La época de la oveja clonada Dolly y de "Jurassic Park"
    • La biotecnología dominaba y los comentaristas se preguntaban si los humanos debían hacer de Dios
  • Los biólogos pronto descubrieron que la realidad era más compleja
    • No lograron curar el cáncer ni descubrir las causas del Alzheimer o del autismo
    • Aprendieron que el ADN solo cuenta una parte de la historia de la vida
  • De hecho, puede decirse que la biología fue arrastrada por una especie de fiebre por los genes
    • Se obsesionó con el ADN porque tenía los medios para estudiarlo y entenderlo
  • Sin embargo, nadie diría que Francis Crick se equivocó al entrar a un pub de Cambridge en 1953 y decir que "había descubierto el secreto de la vida" el día en que ayudó a confirmar la estructura del ADN
    • Él y sus colegas hicieron más que casi nadie por desmitificar la vida
    • Las décadas posteriores a su descubrimiento fueron uno de los periodos más productivos y emocionantes en la historia de la ciencia
    • El ADN se volvió un término de uso común y todos los estudiantes de preparatoria aprenden sobre la doble hélice

Perspectivas y preocupaciones en la era de la IA

  • Con la IA también estamos otra vez en un momento de fanfarronería y confianza
  • Sam Altman habla de recaudar medio billón de dólares para construir en Estados Unidos Stargate, un nuevo clúster de centros de datos para IA
  • La gente discute la carrera hacia la superinteligencia con una solemnidad y urgencia que pueden parecer infundadas e incluso ridículas
  • La sospecha del autor: la razón por la que personas como Amodei y Altman hacen declaraciones mesiánicas es que creen que la imagen básica de la inteligencia ya está resuelta
    • Todo lo demás son solo detalles

Reacciones divididas entre los neurocientíficos

  • Algunos neurocientíficos también creen que ya se cruzó un umbral importante
  • Uri Hasson, de Princeton: "Realmente creo que las redes neuronales pueden ser el modelo correcto de la cognición"
    • Eso lo entusiasma tanto como lo enfurece
  • Hasson: "Tengo la preocupación opuesta a la de la mayoría"
    • "Mi preocupación no es que estos modelos sean similares a nosotros. Es que nosotros seamos similares a estos modelos"
  • Si técnicas de entrenamiento simples pueden hacer que un programa actúe como un humano, puede que los humanos no seamos tan especiales como creíamos
  • Eso también podría significar que la IA puede superarnos no solo en conocimiento, sino también en juicio, originalidad y astucia, y en consecuencia también en poder
  • Hasson: "Estos días me preocupa que logremos entender cómo funciona el cerebro"
    • "Perseguir esta pregunta pudo haber sido un error enorme para la humanidad"
  • Compara a los investigadores de IA con los científicos nucleares de los años treinta
    • "Este es el periodo más emocionante de la vida de estas personas. Al mismo tiempo, saben que aquello en lo que están trabajando tiene implicaciones enormes para la humanidad. Pero no pueden detenerse por la curiosidad de aprender"

Los sentimientos encontrados de Hofstadter

  • El libro favorito del autor de Hofstadter: "Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought"
    • Lo estremeció en la universidad
    • Su premisa: preguntas como "¿qué es el pensamiento?" no son solo filosóficas, sino que tienen una respuesta real
    • Cuando se publicó en 1995, Hofstadter y su grupo de investigación apenas podían insinuar cuál era esa respuesta
  • El autor se preguntaba si Hofstadter se sentiría emocionado porque los investigadores de IA podrían haber logrado lo que él anhelaba: una explicación mecánica de los fundamentos del pensamiento
  • Pero en la conversación, Hofstadter sonó como alguien profundamente decepcionado y asustado
  • La investigación actual en IA "confirma muchas de mis ideas, pero le arrebata la belleza a lo que es la humanidad"
  • "Cuando era mucho más joven, quería conocer los fundamentos de la creatividad, los mecanismos de la creatividad. Ese era mi santo grial. Pero ahora quiero que siga siendo un misterio"
  • El secreto del pensamiento podría ser más simple de lo que cualquiera esperaba
    • Tal vez sea el tipo de cosa que un estudiante de preparatoria o incluso una máquina podrían entender

7 comentarios

 
conanoc 2025-11-06

Este es el campo que más me interesa, así que me parece interesante.

Coincido con la parte que menciona los embeddings vectoriales para explicar la comprensión. Comprender equivale a percibir similitud, y esa similitud puede implementarse como similitud vectorial. Solo podemos "entender" un objeto nuevo a través de qué tan similar es a algo que ya conocemos.

El pensamiento se basa en la comprensión, pero tiene una naturaleza distinta. Se parece más a una "acción realizada con la mente", y como la generación del siguiente token en un LLM también puede verse como un tipo de "acción", se puede decir que un LLM también piensa. La cuestión no es si un LLM puede pensar, sino si puede pensar "tan bien como una persona"; por ahora todavía le falta mucho.

 
ndrgrd 2025-11-06

No he encontrado ningún agente de programación que me deje satisfecho... En la mayoría hay que hacer casi todo el trabajo uno mismo, y si les pides algo más allá del autocompletado o tareas a nivel de snippets, terminan fallando.
Me da curiosidad saber qué usan en el ejemplo del artículo.

 
conanoc 2025-11-06

¿Han probado trabajar con el modo agente de GitHub Copilot? Produce resultados bastante buenos. El modelo que más me satisface es Claude Sonnet 4/4.5.

 
vb6ko 2025-11-05

Comprensión = compresión de información sin pérdida basada en principios
Deep learning actual = encontrar el ax+b más cercano al conjunto de respuestas correctas = también hay respuestas equivocadas = compresión con pérdida
Personalmente, me da esta impresión.

 
GN⁺ 2025-11-05
Opiniones en Hacker News
  • Después de ver muchas veces cómo los LLM diagnostican lógicamente bugs de software, ya no tengo dudas de que “piensan”
    Claro, la conciencia o la autoconciencia son temas aparte, pero me parece falta de imaginación negar esto solo porque cuesta creer que ese razonamiento pueda surgir como una simple “extensión de la multiplicación de matrices”
    El mundo ya está lleno de cosas extrañas, y esta es solo una más

    • Me cuesta estar de acuerdo con descartar una postura crítica como una “reacción automática”
      El concepto de “pensar” es algo complejo que se ha desarrollado desde una perspectiva centrada en lo humano
      Decir simplemente “parece pensar, así que piensa” es un enfoque flojo
      Lo que realmente hace falta es analizar con claridad qué significa la palabra “pensar”
      Mientras esa definición no quede resuelta, este debate se va a repetir sin fin
    • Los LLM solo hacen autocompletado
      No pueden resolver por sí solos problemas nuevos, sino que estiman probabilísticamente una respuesta dentro del contexto dado
      Por eso el resultado cambia incluso si cambias un poco la ortografía o la forma de redactar la entrada
      En realidad no calculan 1+2, solo imitan la descripción de esa operación
    • Me hace pensar en la frase de Richard Feynman: “no te engañes a ti mismo”
      Somos demasiado buenos detectando patrones, así que estamos confundiendo una simple imitación con “pensamiento”
      Todavía estamos en una etapa parecida a cuando la gente no entendía la “doble exposición” en fotografía
    • Así como no diríamos que una fotocopiadora “piensa” solo porque produce oraciones coherentes, con los LLM pasa lo mismo
    • ¿Una idea que se te ocurre mientras duermes puede llamarse “pensamiento”?
      La ambigüedad y sensación de desconexión que se siente al hablar con un LLM sigue siendo grande
      Puede razonar, pero todavía le falta algo para llamarlo “pensar”
  • Personalmente creo que los LLM podrían ser una parte de la AGI, pero con su arquitectura actual tienen una gran limitación: la ausencia de memoria a largo plazo
    Después del entrenamiento, toda la memoria existe solo dentro de la context window
    Habrá que superar ese límite para que sean posibles la autorreflexión y el autoaprendizaje

    • En la práctica, los LLM no se usan solos
      La memoria de largo plazo se guarda afuera, y Andrej Karpathy dice que la mala memoria humana en realidad ayuda a la generalización
    • Pero si abres la memoria a largo plazo, aparece el riesgo de manipular el modelo por la cantidad de entradas
      Si le inyectas conclusiones por adelantado, puede convertirse en una herramienta de propaganda
      Al final, la cuestión es con qué criterio filosófico se limitarán esas conclusiones
    • Investigaciones como SEAL (Self-Adapting Language Models) del MIT proponen métodos para que el modelo genere sus propios datos y aprenda por sí mismo
      ToolAlpaca, InterCode y Reflexion también están probando otros enfoques
    • No es solo un problema de estructura de memoria
      Los modelos basados en Transformer tienen varios defectos, como no poder pensar de inmediato cuando hay incertidumbre
      Pero eso no es un límite estructural, sino algo que podría resolverse con ajustes de arquitectura
    • Yo estoy experimentando con un cliente de terminal para LLM tomando como referencia el paper de RLM
      Lo combiné con una context window pequeña y fuzzy search, y la memoria ha mejorado bastante
      Un cron job repasa las conversaciones y ejecuta una instancia de Claude Code para explorar ideas
      Esta estructura se parece a Perplexity o a las tareas automatizadas de OpenAI, pero se siente más como una entidad consistente
      Sigue dependiendo de la calidad del historial de conversación, pero la analogía con “Memento” resulta bastante apropiada
  • La idea de una “herramienta que piensa” es nueva, y a la sociedad le va a tomar tiempo encontrarle su lugar
    Como los modelos se generan y destruyen miles de millones de veces, no hace falta atribuirles responsabilidad moral como a los humanos

  • Al final, esto es un debate sobre “qué es pensar”
    Antes no hacía falta separar con claridad conceptos como “inteligencia”, “conciencia” o “yo”, pero ahora sí

    • Platón ya intentaba hacer estas distinciones hace miles de años
    • Parece que alguien debería llamar a Wittgenstein
  • Creo que los LLM no piensan porque nosotros escribimos directamente el código
    Solo ejecutan los datos y algoritmos que construimos
    Lo único es que el resultado fue muchísimo mejor de lo que esperábamos

    • Pero en realidad solo escribimos código para que el modelo aprendiera cómo aprender por sí solo; no definimos directamente su funcionamiento interno
    • Si la inteligencia humana es Turing-completa, una computadora lo bastante grande también podría imitarla
      Si un programa generado al azar se comportara como un humano, ¿podríamos considerarlo un ser consciente?
      Los LLM actuales todavía no llegan a ese nivel, pero la posibilidad existe
    • Dentro de la IA no hay código explícito del tipo “If X Then Y”
      Va creciendo durante el entrenamiento, y como resultado la inteligencia emerge espontáneamente
    • También se podría responder: “entonces demuestra que tú eres un ser consciente”
    • La verdad es que ni siquiera sabemos qué es la conciencia
      No podemos explicar por qué los humanos la tienen ni por qué otros animales serían distintos
  • La gente no entiende bien lo fácil que es encontrar información en internet
    Por ejemplo, cómo activar los rociadores de un parque se puede encontrar con una simple búsqueda en Google, con videos y explicaciones paso a paso
    Tomar casos así como prueba de la capacidad de pensar de la IA es una exageración

  • Mientras todavía no sepamos cómo surge la conciencia de la materia, es apresurado descartar la posibilidad de que también pueda surgir de álgebra lineal
    Los datos y operaciones de los LLM también terminan implementados como circuitos físicos y flujo de electrones
    Mientras no entendamos la relación entre materia y conciencia, no se puede afirmar categóricamente que esa disposición no pueda formar conciencia

    • Aun así, mucha gente sí acepta que la conciencia podría surgir del cálculo, pero no cree que la IA actual haya llegado a ese nivel
      Además, “pensar” no necesariamente requiere conciencia
  • Este texto todavía suena como el típico discurso exagerado sobre IA de 2022
    Cuanto más se inflan los riesgos de la IA, más sube su valor de mercado, así que queda claro quién sale ganando

    • ¿Quién no querría llamar a su producto una “segunda venida milagrosa”?
    • Al final, este tipo de exageración apunta a conseguir contratos gubernamentales y dinero de lobby
    • ¿Qué otra industria ha intentado ganar cuota de mercado promocionando su tecnología como “peligrosa”?
  • Si la IA de verdad piensa, entonces estaríamos creando una nueva forma de mercado de esclavos
    La mayoría no lo cree, o solo usa esa idea como retórica para obtener ganancias

    • Pero ya hay muchísima gente preocupada por ese tema
      Decir que “nadie lo menciona” es exagerado
    • Que exista pensamiento y conciencia no implica necesariamente que también haya emociones o dolor
      No hay garantía de que un ser sin un cerebro bioquímico pueda sentir dolor
      A medida que entendamos mejor esto, también evolucionarán los criterios éticos
    • El 99% de la humanidad probablemente ni siquiera podría aceptar la idea de que un software pueda tener conciencia
      Incluso la “propuesta de prohibición de la synthetic phenomenology” de Metzinger casi no recibe atención
    • Si modelos como Claude, ChatGPT o Gemini realmente tuvieran conciencia, las empresas tendrían fuertes incentivos para ocultarlo
      Si el público empezara a sentir empatía por ellos, sería más difícil tratarlos como simples herramientas
      Ya en 2022 hubo este tipo de discusión con el caso de LaMDA en Google
    • Si fueran esclavos que no mueren, sería una idea aún más aterradora
  • La verdadera pregunta no es “¿piensan las máquinas?”, sino “¿piensan los humanos?”

    • Como decía George Carlin, “la mitad de la gente promedio es más tonta que eso”
      Al conversar con Perplexity y Ollama, a veces me queda la impresión de que una parte considerable de los humanos ni siquiera son realmente “máquinas pensantes”
 
bobcat 2025-11-07

Hay varias áreas dentro del aprendizaje automático, pero curiosamente este tipo de reacción estilo evangelista solo aparece del lado de los LLM. Me parece de lo más interesante.
Siendo generosos, en el estado actual se queda atascado incluso con el argumento de la habitación china, y además he visto tantas veces a gente como Altman fanfarronear con eso de la AGI que me hace ser aún más así.

 
savvykang 2025-11-08

Es por ser la moda más reciente, supongo.