El argumento de que la IA “piensa”

(newyorker.com)

40 puntos por GN⁺ 2025-11-05 | 7 comentarios | Compartir por WhatsApp

Los modelos de lenguaje grandes (LLM) están impulsando un debate creciente sobre si van más allá de la simple predicción de palabras y muestran formas reales de comprensión y pensamiento
La neurocientífica Doris Tsao evalúa que el aprendizaje automático ha revelado más sobre la esencia de la inteligencia que la neurociencia de los últimos 100 años
El deep learning y las arquitecturas de redes neuronales imitan el funcionamiento del cerebro humano, y se explican con la idea de que «comprender = comprimir»
Los trabajos de Douglas Hofstadter y Pentti Kanerva se conectan con la estructura cognitiva de “seeing as” de los LLM
Siguen siendo desafíos centrales las limitaciones y los riesgos éticos de la IA, como la ausencia de una eficiencia de aprendizaje, experiencia y conciencia similares a las humanas

La polarización en el rendimiento de la IA

El CEO de Anthropic, Dario Amodei, predijo que para 2027 aparecerá una IA más inteligente que los ganadores del Nobel en biología, matemáticas, ingeniería y escritura
- Presentó una visión de un “país de genios” dentro de los centros de datos, donde millones de copias de modelos realizan investigación por su cuenta
Sam Altman, de OpenAI, sostiene que la industria está a punto de construir una “superinteligencia digital” y que la década de 2030 será una era completamente distinta a todo lo anterior
La mayoría de las herramientas de IA que la gente usa hoy en su vida diaria siguen siendo limitadas, como el Clippy de Microsoft Office en el pasado
- Zoom AI solo ofrece sugerencias simples como “¿un rompehielos para la reunión?”
- Siri tiene pocas funciones más allá de configurar recordatorios
- La IA de Gmail inventa historias sobre viajes a Turquía que el usuario nunca hizo
Los lanzamientos apresurados y desiguales de IA han creado una niebla de exageración, pero en realidad sí ha habido avances considerables

La innovación de la IA en programación

Al principio se pensaba que la IA no tenía relación con la inteligencia o la comprensión reales, pero esa perspectiva cambió al usar IA mientras se trabajaba como programador
Escribir código es una de las tareas que mejor hace la IA, porque su estructura es más clara que la prosa y puede verificarse automáticamente
Primero se empezó a consultar a la IA en lugar de buscar información, luego a delegarle problemas pequeños e independientes, y al final el trabajo real para el que uno se entrenó toda la vida
- El modelo de IA asimila en segundos los detalles complejos de miles de líneas de código
- Detecta bugs sutiles y coordina funciones nuevas complejas
Hubo un cambio hacia un equipo de rápido crecimiento para aprovechar mejor las herramientas de IA
Aunque los agentes de IA fallan al reservar vacaciones o presentar impuestos, los colegas escriben la mayor parte del código con IA y a veces ejecutan varios agentes de programación al mismo tiempo
A medida que se aprende a usarlas de forma efectiva, ahora tareas que antes tomaban un mes se terminan en una tarde
- Se crearon dos apps para iOS sin saber cómo hacer una app de iOS

Fortalezas y debilidades de los modelos de lenguaje grandes

Como decía mi jefe, “en una entrevista no hay que buscar ausencia de debilidades, sino fortalezas”; del mismo modo, los LLM también tienen muchas debilidades
- Alucinaciones que generan información falsa pero convincente
- Son serviles incluso cuando el usuario está equivocado
- Caen en acertijos simples
En el pasado, la fluidez, la soltura y la capacidad de captar el contenido de una conversación se consideraban fortalezas casi sagradas
- Al experimentar esas fortalezas directamente, surge la pregunta: “¿qué tan convincente debe ser la ilusión de comprensión para dejar de llamarla ilusión?”
El caso de Max: reparar un rociador del patio de juegos
- Frente a niños con la cara enrojecida, encontró en el cuarto de servicio un complejo laberinto de tuberías y válvulas
- Ingresó en ChatGPT-4o una foto y una explicación del problema
- La IA determinó que era el sistema de prevención de reflujo del sistema de riego y sugirió manipular la válvula de bola amarilla de abajo
- Cuando el agua salió con éxito, hubo gritos de alegría en el patio de juegos

La convergencia entre neurociencia e IA

Doris Tsao, profesora de neurociencia en UC Berkeley: “Los avances del aprendizaje automático nos han enseñado más sobre la naturaleza de la inteligencia que lo que la neurociencia descubrió en los últimos 100 años”
- Es conocida por sus estudios sobre cómo los monos reconocen rostros
- Predijo qué neuronas se activarían cuando un mono viera un rostro específico
- Fue posible renderizar un rostro solo a partir del patrón de neuronas activadas
- Basado en investigaciones sobre cómo se representan los rostros dentro de modelos de IA
La pregunta de Tsao: “¿Cuál es la intuición más profunda que has obtenido de ChatGPT?”
- Su propia respuesta: “Creo que desmitifica fundamentalmente el pensamiento”

Historia y evolución del deep learning

En la década de 1980, un equipo de psicólogos cognitivos y científicos de la computación (David Rumelhart, Geoffrey Hinton, James McClelland) intentó simular el pensamiento en máquinas
- Formaron un grupo de investigación en UC San Diego
Veían el cerebro como una enorme red en la que las neuronas se activan en patrones que a su vez activan otros conjuntos de neuronas
- Esa danza de patrones es el pensamiento
- El aprendizaje ocurre mediante cambios en la fuerza de las conexiones entre neuronas
Crearon redes neuronales artificiales y aplicaron el algoritmo de descenso de gradiente (gradient descent) para mejorar la precisión de las predicciones
- Lo comparaban con un excursionista que baja de la cima de una montaña hacia un valle: si en cada paso va cuesta abajo, al final llega
Otros investigadores de IA eran escépticos de que las redes neuronales fueran lo bastante sofisticadas para tareas reales, pero a medida que las redes crecieron resolvieron problemas que antes parecían imposibles
- Algoritmos de deep learning resolvieron problemas para los que antes se dedicaban artículos enteros, como distinguir dígitos escritos a mano o reconocer rostros en imágenes
El deep learning terminó conquistando el reconocimiento de voz, la traducción, los subtítulos de imágenes, los juegos de mesa e incluso la predicción del plegamiento de proteínas

Predicción del siguiente token y mecanismo de aprendizaje

Los principales modelos de IA actuales aprenden a partir de gran parte de internet usando la técnica de predicción del siguiente token
El modelo aprende adivinando qué viene después de lo que está leyendo y comparándolo con lo que realmente aparece
- Las predicciones equivocadas provocan cambios en la fuerza de las conexiones entre neuronas (descenso de gradiente)
Al final, el modelo se vuelve tan bueno prediciendo texto que parece tener conocimiento y comprender
Un punto para pensar: quienes buscaban el secreto del funcionamiento del cerebro ampliaron el modelo hasta el tamaño de un cerebro, y entonces empezó a hacer tareas que requieren una inteligencia parecida a la del cerebro
- ¿No será que encontraron lo que estaban buscando?

Réplica al escepticismo sobre la IA

Ted Chiang presentó una postura escéptica en su artículo de 2023 en The New Yorker, "ChatGPT Is a Blurry JPEG of the Web"
- ChatGPT no sería más que introducir todo internet en un programa y devolverlo de forma imperfecta
- Borroso como una copia de una copia, pero suficientemente capaz como para engañar y parecer inteligente
El libro "The AI Con", de Emily M. Bender (lingüista) y Alex Hanna (socióloga), plantea un argumento similar
- Bender describe a los LLM como “loros estocásticos (stochastic parrots)”
Tyler Austin Harper, de The Atlantic: “Los modelos de lenguaje grandes no entienden nada, no pueden ni podrán hacerlo”
- Los modelos generan texto no mediante pensamiento, sino a partir de conjeturas estadísticamente informadas
Junto con este debate técnico también se planteó un debate moral
- La IA enriquece a quienes ya tienen poder, consume suficiente energía como para acelerar el cambio climático y aliena a los trabajadores
- Conclusión de Harper: “La base de la industria de la IA es el fraude”

La reevaluación de los neurocientíficos

El científico cognitivo de Harvard Samuel J. Gershman: “La afirmación de los ‘loros estocásticos’ tiene que terminar en algún punto”
- “Solo los escépticos más obstinados pueden negar que estos sistemas están haciendo cosas que la mayoría de nosotros no pensábamos que fueran alcanzables”
Jonathan Cohen, neurocientífico cognitivo de Princeton, subraya las limitaciones de la IA, pero también sostiene que los LLM reflejan la parte más grande e importante del cerebro humano
- “Como primera aproximación, la neocorteza es un mecanismo de deep learning”
- Los humanos tienen una neocorteza mucho más grande en relación con su cuerpo que otros animales
- Las especies con la neocorteza más grande (elefantes, delfines, gorilas, chimpancés y perros) son las más inteligentes

Comprender es compresión, y la compresión es comprensión

argumento central del libro de 2003 del investigador de aprendizaje automático Eric B. Baum, "What Is Thought?"
- comprender es compresión, y la compresión es comprensión
regresión lineal en estadística: trazar la "línea de mejor ajuste (line of best fit)" entre los puntos de una gráfica
- si hay una regularidad fundamental en los datos (talla de calzado y estatura), la línea de mejor ajuste la representa eficientemente y predice puntos nuevos
la neocorteza destila el mar de experiencias crudas (sonidos, visión y otras sensaciones) en una "línea de mejor ajuste" para usarla en la predicción
- un bebé prueba el sabor de un juguete o adivina adónde irá la comida cuando cae al piso
- si la predicción falla, se ajustan las conexiones entre neuronas
- con el tiempo, las conexiones capturan las regularidades de los datos
- se forma un modelo comprimido del mundo

La compresión y la inteligencia en los modelos de IA

las redes neuronales artificiales también comprimen la experiencia, como las redes neuronales reales
DeepSeek, el mejor modelo de IA de código abierto
- puede escribir novelas, sugerir diagnósticos médicos y hablar como nativo en decenas de idiomas
- fue entrenado para predecir el next-token con varios terabytes de datos
- al descargarlo, ocupa 1/600 del tamaño del original
- un destilado de internet, comprimido para caber en una laptop
Ted Chiang tenía razón al llamar al ChatGPT inicial un JPEG borroso de la web, pero el autor cree que esa es la razón por la que el modelo se vuelve cada vez más inteligente
el propio Chiang también señaló que, para comprimir un archivo de texto con millones de ejemplos aritméticos, no hay que crear un archivo zip sino escribir un programa calculadora
- "la mejor compresión se puede lograr comprendiendo el texto"
- es posible que los LLM ya hayan empezado a hacer esto

Distintos tipos de pensamiento

imaginar que un programa de computadora realmente comprende y piensa puede parecer poco natural e incluso repulsivo
solemos conceptualizar el pensamiento como algo consciente
- monólogo interior al estilo de Joyce
- flujo de memoria sensorial y ensoñación al estilo de Proust
- razonamiento: resolver un problema paso a paso
en las conversaciones sobre IA, estos distintos tipos de pensamiento se confunden y eso vuelve superficial el juicio
- afirmar que ChatGPT claramente no piensa porque no tiene ensoñaciones al estilo de Proust
- afirmar que ChatGPT claramente sí piensa porque puede resolver mejor acertijos lógicos
hay algo más sutil en marcha: el autor no cree que ChatGPT tenga una vida interior, pero parece saber de qué está hablando

La teoría de la cognición de Douglas Hofstadter

profesor de ciencias cognitivas y literatura comparada en Indiana University
"la cognición es reconocimiento (cognition is recognition)"
famoso por "Gödel, Escher, Bach: An Eternal Golden Braid", que ganó el Pulitzer Prize en 1980
teoría desarrollada durante décadas de investigación: "ver como (seeing as) es la esencia del pensamiento"
- reconocer una mancha de color como un auto y otra como un llavero
- reconocer la letra "A" aunque esté escrita en cierta tipografía o con mala caligrafía
el mismo proceso es la base de reconocimientos más abstractos
- cuando un maestro de ajedrez revisa el tablero, años de práctica se condensan en una forma de ver: el alfil blanco es débil, el final probablemente será tablas
- reconocer el remolino de una corriente como señal de que es peligroso cruzarla
- reconocer en una reunión a la que asistió una situación de "el emperador está desnudo"
- el hijo de 2 años del autor reconoce que un paseo en carriola a media mañana puede ser una oportunidad de conseguir un croissant y lo exige
para Hofstadter, esto es el núcleo de la inteligencia

La teoría del espacio de alta dimensión de Pentti Kanerva

Hofstadter fue originalmente uno de los detractores de la IA
- escribió que la mayor parte de la investigación en IA no tenía relación con el pensamiento real, y el autor también estaba de acuerdo cuando estaba en la universidad en los años 2000
excepción: se interesó en un grupo de UC San Diego y admiraba el trabajo del poco conocido científico cognitivo finlandés-estadounidense Pentti Kanerva
Kanerva descubrió propiedades extrañas en las matemáticas de los espacios de alta dimensión
- en un espacio de alta dimensión, dos puntos cualesquiera pueden estar muy alejados entre sí
- paradójicamente, cada punto tiene a su alrededor una gran nube de vecinos, así que si uno está "lo suficientemente cerca", es fácil encontrarlo
- esto recuerda la forma en que funciona la memoria
en su libro de 1988, "Sparse Distributed Memory", sostuvo que pensamientos, sensaciones y recuerdos pueden representarse como coordenadas en un espacio de alta dimensión
- el cerebro es el hardware perfecto para almacenar estas cosas
- cada recuerdo tiene una especie de dirección, definida por las neuronas que se activan al recordarlo
- una experiencia nueva hace disparar un nuevo conjunto de neuronas y representa una nueva dirección
- dos direcciones pueden diferir en muchos aspectos, pero ser similares en otros
- una percepción o recuerdo puede activar otros recuerdos cercanos
ejemplos: el olor del heno hace recordar un campamento de verano; las primeras tres notas de la Quinta de Beethoven permiten anticipar la cuarta; una posición de ajedrez nunca vista evoca partidas antiguas

El giro de Hofstadter

Hofstadter se dio cuenta de que Kanerva estaba describiendo una "máquina de seeing as"
en el prólogo del libro de Kanerva: "El modelo de memoria de Pentti Kanerva fue una revelación para mí. Fue el primer trabajo que me permitió vislumbrar la meta lejana de entender cómo funciona el cerebro en su conjunto"
toda clase de pensamiento (al estilo de Joyce, al estilo de Proust, lógico) depende de que lo adecuado aparezca en el momento adecuado
- así es como captamos en qué tipo de situación estamos
el libro de Kanerva desapareció del panorama, y la propia fama de Hofstadter también se fue apagando
- de vez en cuando solo reaparecía para criticar nuevos sistemas de IA
sobre Google Translate y otros en 2018: "hay algo que transmite la palabra understanding y que todavía falta profundamente en este enfoque"
cuando GPT-4 se lanzó en 2023, llegó el momento del giro de Hofstadter
- "Estoy desconcertado por parte de lo que hacen estos sistemas. Hace apenas 10 años no lo habría imaginado"
- ni siquiera el detractor más terco puede seguir restándole importancia
- un programa que puede traducir, hacer analogías, improvisar y generalizar al nivel de un experto
- no se puede decir que no comprende
"hace algo muy parecido a pensar. Lo hace de una manera algo ajena, pero se puede decir que piensa"

El espacio vectorial de alta dimensión de los LLM

en el núcleo de los LLM hay una "máquina de seeing as"
cada palabra se representa como una serie de números que indican coordenadas (vectores) en un espacio de alta dimensión
en GPT-4, los vectores de palabras tienen miles de dimensiones y describen matices de similitud y diferencia con todas las demás palabras
durante el entrenamiento, el modelo ajusta las coordenadas de las palabras cuando se producen errores de predicción
- las palabras que aparecen juntas en el texto se mueven más cerca unas de otras en el espacio
esto crea una representación sorprendentemente densa del uso y el significado, y la analogía se vuelve un problema de geometría
ejemplo clásico: si al vector de la palabra "Paris" se le resta "France" y se le suma "Italy", el otro vector más cercano es "Rome"
los LLM también "vectorizan" imágenes para codificar incluso el contenido, la atmósfera y la expresión facial
- con suficiente detalle como para redibujarlas en cierto estilo o redactar un párrafo
cuando Max pidió ayuda con el rociador del patio de juegos, el modelo no simplemente estaba escupiendo texto
- la foto de la tubería, junto con el prompt de Max, se comprime en un vector que captura las características más importantes
- el vector funciona como una dirección para invocar palabras y conceptos cercanos
- las ideas van invocando otras una tras otra mientras el modelo construye una noción de la situación
- y redacta una respuesta "teniendo esas ideas en mente"

La investigación de Anthropic sobre la exploración interna

El autor leyó una entrevista con Trenton Bricken, investigador de Anthropic
- Junto con colegas, realizó trabajo de exploración del interior de Claude (la serie de modelos de IA de Anthropic)
- La investigación no pasó por revisión por pares ni fue publicada en una revista científica
El equipo identificó conjuntos de neuronas artificiales o “features” que se activan cuando Claude intenta decir cierto contenido
Las features funcionan como una perilla de volumen para conceptos
- Si se sube, el modelo habla solo de eso
- En un experimento de control del pensamiento, al amplificar la feature que representa el Golden Gate Bridge, al pedir una receta de pastel de chocolate sugirió ingredientes como “1/4 de taza de niebla seca” y “1 taza de agua de mar tibia”
Bricken menciona la arquitectura Transformer de Google
- La receta de construcción de redes neuronales en la que se basan los principales modelos de IA
- La “T” de ChatGPT significa “Transformer”
Bricken sostiene que las matemáticas en el núcleo de la arquitectura Transformer se parecen mucho al modelo que Pentti Kanerva propuso hace décadas en “Sparse Distributed Memory”

Neurociencia e IA: influencia mutua

¿Debería sorprendernos la correspondencia entre la IA y el cerebro humano?
- Los LLM son redes neuronales artificiales cuyo desarrollo contó con ayuda de psicólogos y neurocientíficos
Lo más sorprendente es que, al practicar algo simple (predecir palabras), los modelos empezaron a comportarse de una manera parecida al cerebro
Hoy en día, la neurociencia y la IA se están entrelazando
- Expertos en el cerebro usan la IA como una especie de organismo modelo
La neurocientífica del MIT Evelina Fedorenko usa LLM para estudiar cómo el cerebro procesa el lenguaje
- “Nunca pensé que podría pasar mi vida pensando en este tipo de cosas. No creía que íbamos a tener un modelo lo bastante bueno”
Es común decir que la IA es una caja negra, pero podría ser cierto lo contrario
- Los científicos pueden explorar e incluso modificar la actividad de neuronas artificiales individuales
El neurocientífico de Princeton Kenneth Norman: “Tener un sistema funcional que implemente una teoría de la inteligencia humana es el sueño de la neurociencia cognitiva”
- Creó un modelo computacional del hipocampo (la región cerebral que almacena recuerdos episódicos), pero antes era tan simple que solo permitía introducir aproximaciones toscas de lo que podría entrar en una mente humana
- “Ahora podemos darle al modelo de memoria exactamente los mismos estímulos que le damos a una persona”

La analogía de los hermanos Wright

Los hermanos Wright estudiaron a las aves durante sus primeros intentos de construir aviones
- Descubrieron que las aves despegan contra el viento (una persona razonable habría supuesto que querrían el viento a favor)
- Doblaban las puntas de las alas para mantener el equilibrio
Estos hallazgos influyeron en el diseño de sus primitivos planeadores
Más tarde construyeron un túnel de viento de 6 pies para probar conjuntos de alas artificiales en condiciones controladas con precisión
El siguiente vuelo de planeador fue mucho más exitoso
Curiosamente, solo después de construir una máquina voladora funcional pudieron entender con precisión cómo lo hacían las aves

El experimento del túnel de viento para el pensamiento mismo

La IA permite que los científicos pongan el pensamiento mismo en un túnel de viento
El artículo de investigadores de Anthropic “On the Biology of a Large Language Model” (un título provocador)
- Observa cómo Claude responde a consultas y describe “circuitos”, cadenas de features que realizan juntas cálculos complejos
- Recuperar el recuerdo correcto es un paso hacia el pensamiento
- Combinar y manipular recuerdos dentro de esos circuitos es otro paso
Una crítica antigua a los LLM: como tienen que generar respuestas un token a la vez, no pueden planear ni razonar
Cuando a Claude se le pide completar una estrofa rimada en un poema, el circuito considera primero la última palabra de la nueva línea para asegurar la rima
- Luego trabaja hacia atrás para escribir la línea completa
Los investigadores de Anthropic consideran esto evidencia de que el modelo realmente participa en la planificación
Si entrecierras un poco los ojos, puede sentirse como si por primera vez estuvieran entrando en el campo visual los mecanismos internos de la mente

La necesidad de un escepticismo intermedio

El neurocientífico de Princeton Norman: “Mi preocupación es que la gente pasó de ‘ser realmente escéptica con esto’ a bajar por completo la guardia”
- “Todavía hay muchas cosas que deben resolverse”
El autor es una de las personas a las que Norman se refiere (puede que se haya impresionado demasiado fácilmente por la convergencia entre Sparse Distributed Memory y el modelo de Anthropic)
En los últimos 1 o 2 años empezó a creerle a Geoffrey Hinton cuando dice: “el deep learning podrá hacerlo todo” (Hinton recibió recientemente el Nobel por su investigación en IA)
Pero un modelo más grande no siempre es un mejor modelo
- La curva que grafica el rendimiento frente al tamaño del modelo está empezando a aplanarse
- Cada vez es más difícil encontrar datos de alta calidad que el modelo aún no haya digerido, y la potencia de cómputo es cada vez más cara
Cuando GPT-5 se lanzó en agosto, solo representó una mejora incremental
- Una decepción lo bastante seria como para amenazar con pinchar la burbuja de inversión en IA
El momento actual exige una clase de escepticismo intermedio
- Tomarse en serio a los modelos de IA actuales, sin creer por ello que ya no quedan problemas difíciles por resolver

Diseñar modelos que aprendan con la misma eficiencia que los humanos

El problema más importante: cómo diseñar modelos que aprendan con la misma eficiencia que los humanos
Se estima que GPT-4 estuvo expuesto a billones de palabras durante su entrenamiento
- Un niño necesita solo unos pocos millones para volverse fluido
Los científicos cognitivos dicen que el cerebro de un recién nacido tiene ciertos “sesgos inductivos” que aceleran el aprendizaje
- Por supuesto, el cerebro es el resultado de millones de años de evolución (que en sí mismos son una especie de datos de entrenamiento)
Los bebés humanos tienen la expectativa de que el mundo está compuesto por objetos y de que otros seres tienen creencias e intenciones
- Si mamá dice “banana”, el bebé vincula esa palabra con todo el objeto amarillo que ella está mirando, no con la punta ni con la cáscara
Los bebés hacen pequeños experimentos: ¿se puede comer esto? ¿qué tan lejos puedo lanzar aquello?
Están motivados por emociones como deseo, curiosidad y frustración
Los niños siempre intentan hacer algo que está un poco más allá de sus capacidades
El aprendizaje es eficiente porque es encarnado, adaptativo, intencional y continuo
Para entender de verdad el mundo, quizá haya que participar en él

La pobreza de experiencia de la IA

La experiencia de la IA es tan pobre que en realidad cuesta llamarla “experiencia”
Los modelos de lenguaje grandes se entrenan con datos ya enormemente refinados
Tsao, neurocientífico de UC Berkeley: “Funcionan porque se montan sobre el lenguaje”
- El lenguaje es como una experiencia ya masticada
- Otros tipos de datos tienen una densidad de significado más baja
El científico cognitivo de Harvard Gershman: “¿Por qué no ha habido una revolución similar en términos de inferencia sobre datos de video?”
- Los tipos de modelos de visión que tenemos siguen teniendo dificultades con el razonamiento de sentido común sobre la física
Un modelo reciente de DeepMind puede generar videos donde la pintura se mezcla correctamente y se resuelven laberintos
- Pero también muestra vidrios que rebotan en vez de romperse, y cuerdas que se aplastan en nudos ignorando la física
La neurocientífica cognitiva de Microsoft Research Ida Momennejad hizo un experimento en el que se le daba a un LLM un recorrido virtual por un edificio y luego se le hacían preguntas sobre rutas y atajos
- Un tipo de razonamiento espacial fácil para los humanos
- Salvo en la configuración más básica, la IA tendía a fallar o a alucinar rutas inexistentes
- “¿De verdad hace planificación? No tanto”

La carrera irreflexiva de la industria de la IA

En conversaciones con neurocientíficos, el autor percibe preocupación de que la industria de la IA está avanzando a toda velocidad con cierta imprudencia
Brenden M. Lake, científico cognitivo de Princeton: si la meta es crear una mente artificial tan competente como la mente humana, "no estamos entrenando los sistemas de la manera correcta"
Cuando la IA termina su entrenamiento, el "cerebro" de la red neuronal queda congelado
- Si le dices al modelo hechos sobre sí mismo, no vuelve a conectar sus neuronas
- En su lugar usa un sustituto tosco: anota un poco de texto ("el usuario tiene un bebé y está estudiando francés")
- Y lo toma en cuenta antes de darle otras instrucciones
El cerebro humano se actualiza continuamente a sí mismo
Una hermosa teoría sobre uno de esos métodos: mientras dormimos, instantáneas seleccionadas de la memoria episódica se reproducen para entrenar la neocorteza
- Un espacio de pensamiento de alta dimensión queda ahuecado por los recuerdos reproducidos
- Uno despierta con una forma apenas nueva de ver

Los problemas de la comunidad de IA

La comunidad de IA está demasiado adicta al progreso vertiginoso y financieramente invertida en él, así que a veces actúa como si el avance fuera inevitable y ya no quedara ciencia por hacer
La ciencia tiene a veces la incómoda propiedad de estancarse
Aunque Silicon Valley llama "labs" a las empresas de IA y "investigadores" a parte de su personal, en el fondo es una cultura de ingeniería que hace lo que sea que funcione
Cohen: "Me sorprende muchísimo lo poco que le importa a la comunidad de aprendizaje automático mirar o respetar su historia previa y la ciencia cognitiva"

Diferencias fundamentales con el cerebro

Los modelos de IA actuales tuvieron éxito gracias a descubrimientos sobre el cerebro de hace décadas, pero siguen siendo profundamente distintos del cerebro
¿Qué diferencias son incidentales y cuáles son fundamentales?
- Cada grupo de neurocientíficos tiene su propia teoría
- Estas teorías ahora pueden ponerse a prueba de formas antes imposibles
Pero nadie espera respuestas fáciles
Los problemas que siguen atormentando a los modelos de IA se resuelven "identificando cuidadosamente las maneras en que el modelo no actúa tan inteligentemente como queremos, y luego corrigiéndolas"
- "Sigue siendo un proceso de científicos humanos dentro del circuito"

Comparación con el Human Genome Project

En los años noventa, se destinaron miles de millones de dólares al Human Genome Project
- Bajo la suposición de que secuenciar el ADN podría resolver los problemas más espinosos de la medicina: cáncer, enfermedades genéticas e incluso el envejecimiento
Fue una era de fanfarronería y confianza
- La época de la oveja clonada Dolly y de "Jurassic Park"
- La biotecnología dominaba y los comentaristas se preguntaban si los humanos debían hacer de Dios
Los biólogos pronto descubrieron que la realidad era más compleja
- No lograron curar el cáncer ni descubrir las causas del Alzheimer o del autismo
- Aprendieron que el ADN solo cuenta una parte de la historia de la vida
De hecho, puede decirse que la biología fue arrastrada por una especie de fiebre por los genes
- Se obsesionó con el ADN porque tenía los medios para estudiarlo y entenderlo
Sin embargo, nadie diría que Francis Crick se equivocó al entrar a un pub de Cambridge en 1953 y decir que "había descubierto el secreto de la vida" el día en que ayudó a confirmar la estructura del ADN
- Él y sus colegas hicieron más que casi nadie por desmitificar la vida
- Las décadas posteriores a su descubrimiento fueron uno de los periodos más productivos y emocionantes en la historia de la ciencia
- El ADN se volvió un término de uso común y todos los estudiantes de preparatoria aprenden sobre la doble hélice

Perspectivas y preocupaciones en la era de la IA

Con la IA también estamos otra vez en un momento de fanfarronería y confianza
Sam Altman habla de recaudar medio billón de dólares para construir en Estados Unidos Stargate, un nuevo clúster de centros de datos para IA
La gente discute la carrera hacia la superinteligencia con una solemnidad y urgencia que pueden parecer infundadas e incluso ridículas
La sospecha del autor: la razón por la que personas como Amodei y Altman hacen declaraciones mesiánicas es que creen que la imagen básica de la inteligencia ya está resuelta
- Todo lo demás son solo detalles

Reacciones divididas entre los neurocientíficos

Algunos neurocientíficos también creen que ya se cruzó un umbral importante
Uri Hasson, de Princeton: "Realmente creo que las redes neuronales pueden ser el modelo correcto de la cognición"
- Eso lo entusiasma tanto como lo enfurece
Hasson: "Tengo la preocupación opuesta a la de la mayoría"
- "Mi preocupación no es que estos modelos sean similares a nosotros. Es que nosotros seamos similares a estos modelos"
Si técnicas de entrenamiento simples pueden hacer que un programa actúe como un humano, puede que los humanos no seamos tan especiales como creíamos
Eso también podría significar que la IA puede superarnos no solo en conocimiento, sino también en juicio, originalidad y astucia, y en consecuencia también en poder
Hasson: "Estos días me preocupa que logremos entender cómo funciona el cerebro"
- "Perseguir esta pregunta pudo haber sido un error enorme para la humanidad"
Compara a los investigadores de IA con los científicos nucleares de los años treinta
- "Este es el periodo más emocionante de la vida de estas personas. Al mismo tiempo, saben que aquello en lo que están trabajando tiene implicaciones enormes para la humanidad. Pero no pueden detenerse por la curiosidad de aprender"

Los sentimientos encontrados de Hofstadter

El libro favorito del autor de Hofstadter: "Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought"
- Lo estremeció en la universidad
- Su premisa: preguntas como "¿qué es el pensamiento?" no son solo filosóficas, sino que tienen una respuesta real
- Cuando se publicó en 1995, Hofstadter y su grupo de investigación apenas podían insinuar cuál era esa respuesta
El autor se preguntaba si Hofstadter se sentiría emocionado porque los investigadores de IA podrían haber logrado lo que él anhelaba: una explicación mecánica de los fundamentos del pensamiento
Pero en la conversación, Hofstadter sonó como alguien profundamente decepcionado y asustado
La investigación actual en IA "confirma muchas de mis ideas, pero le arrebata la belleza a lo que es la humanidad"
"Cuando era mucho más joven, quería conocer los fundamentos de la creatividad, los mecanismos de la creatividad. Ese era mi santo grial. Pero ahora quiero que siga siendo un misterio"
El secreto del pensamiento podría ser más simple de lo que cualquiera esperaba
- Tal vez sea el tipo de cosa que un estudiante de preparatoria o incluso una máquina podrían entender

7 comentarios

bobcat 2025-11-07

Hay varias áreas dentro del aprendizaje automático, pero curiosamente este tipo de reacción estilo evangelista solo aparece del lado de los LLM. Me parece de lo más interesante.
Siendo generosos, en el estado actual se queda atascado incluso con el argumento de la habitación china, y además he visto tantas veces a gente como Altman fanfarronear con eso de la AGI que me hace ser aún más así.

savvykang 2025-11-08

Es por ser la moda más reciente, supongo.

conanoc 2025-11-06

Este es el campo que más me interesa, así que me parece interesante.

Coincido con la parte que menciona los embeddings vectoriales para explicar la comprensión. Comprender equivale a percibir similitud, y esa similitud puede implementarse como similitud vectorial. Solo podemos "entender" un objeto nuevo a través de qué tan similar es a algo que ya conocemos.

El pensamiento se basa en la comprensión, pero tiene una naturaleza distinta. Se parece más a una "acción realizada con la mente", y como la generación del siguiente token en un LLM también puede verse como un tipo de "acción", se puede decir que un LLM también piensa. La cuestión no es si un LLM puede pensar, sino si puede pensar "tan bien como una persona"; por ahora todavía le falta mucho.

ndrgrd 2025-11-06

No he encontrado ningún agente de programación que me deje satisfecho... En la mayoría hay que hacer casi todo el trabajo uno mismo, y si les pides algo más allá del autocompletado o tareas a nivel de snippets, terminan fallando.
Me da curiosidad saber qué usan en el ejemplo del artículo.