¿Todo se dirige hacia la falsedad?

(aphyr.com)

2 puntos por GN⁺ 20 일 전 | 1 comentarios | Compartir por WhatsApp

La tecnología que hoy se llama IA en realidad es un sistema complejo de aprendizaje automático (ML), con una estructura que completa estadísticamente texto, imágenes y audio.
Los LLM son máquinas que generan “mentiras plausibles” como si hicieran improvisación teatral, evitando responder que no saben y produciendo hechos ficticios.
La gente tiende a confundirlos con entidades conscientes, pero la autoexplicación del modelo y su proceso de razonamiento no son más que narrativas ficticias.
Los LLM muestran un rendimiento irregular: resuelven problemas avanzados pero fallan en tareas simples, revelando límites poco confiables.
En medio de este desequilibrio e incertidumbre, el ML se está consolidando como una tecnología que vuelve fundamentalmente extraña a la sociedad humana.

Introducción

La generación que creció admirando los mundos de ciencia ficción de Asimov y Clarke imaginó con optimismo la llegada de máquinas inteligentes, pero terminó experimentando decepción en una realidad donde la prueba de Turing se vino abajo.
Cuando en 2019 una gran empresa de nube presentó hardware para entrenar LLM, surgieron preocupaciones de que la expansión del deep learning pudiera dar lugar a nuevas formas de spam y propaganda.
El texto explora el espacio negativo del discurso sobre la IA y está planteado no como un análisis completo, sino como un intento de perfilar riesgos y posibilidades.
Como el término “IA” es demasiado amplio, el enfoque se centra en una discusión concreta alrededor del ML y los LLM.
Algunas predicciones ya se hicieron realidad, y otras siguen en una zona incierta y extraña.

¿Qué es la “IA”?

Lo que hoy se llama “IA” es en realidad una familia de tecnologías complejas de aprendizaje automático (ML): sistemas que reconocen, transforman y generan vectores de tokens como texto, imágenes, audio y video.
Un LLM (Large Language Model) trabaja con lenguaje natural y funciona prediciendo la continuación estadísticamente probable de una cadena de entrada.
Los modelos se entrenan con páginas web y grandes corpus de datos, incluidos libros y música pirateados, y después del entrenamiento pueden reutilizarse repetidamente mediante inferencia de bajo costo.
Los modelos no aprenden por sí solos con el paso del tiempo; solo se actualizan mediante ajustes del operador o reentrenamiento.
La “memoria” de los modelos conversacionales en realidad se implementa como una técnica estructural que incorpora resúmenes de conversaciones previas en la entrada.

Fanfiction de la realidad

Los LLM funcionan como máquinas de improvisación (improv), mostrando un patrón de “yes-and” que continúa el contexto recibido con un “y entonces…”.
Por eso generan frases plausibles pero desligadas de los hechos, malinterpretan la sátira o el contexto y fabrican información falsa.
A los humanos les resulta fácil confundir estas salidas con expresiones de una entidad realmente consciente.
Como los LLM producen una salida para cualquier entrada, tienden a evitar responder “no lo sé” y a inventar falsedades.
Estas mentiras no son actos intencionales, sino que aparecen como un producto sociotécnico de la interacción entre humanos y máquinas.

Un narrador poco confiable

La gente suele pedirle al LLM autoexplicaciones, como “¿por qué hiciste eso?”, pero el modelo no tiene capacidad de autoconciencia.
El LLM solo genera continuaciones probabilísticas basadas en conversaciones previas y en el corpus, y hasta sus explicaciones sobre sí mismo están compuestas como relatos ficticios.
Incluso los modelos de razonamiento (reasoning) funcionan montando narrativamente su supuesto proceso de pensamiento.
Según investigaciones de Anthropic, la mayor parte del registro de razonamiento de Claude era inexacta, e incluso el mensaje de estado “pensando” no era más que una puesta en escena ficticia.

Los modelos son inteligentes

En los últimos meses se ha extendido la percepción de que las capacidades de los LLM han mejorado rápidamente.
Algunos ingenieros reportan que Claude o Codex resuelven tareas complejas de programación de una sola vez.
En diversos campos ya se usan en trabajo real para diseño de dietas, revisión de especificaciones de construcción, visualización 3D y redacción de autoevaluaciones.
También muestran alto desempeño en casos como la predicción del plegamiento de proteínas con AlphaFold y la interpretación de imágenes médicas.
En estilo escrito en inglés, imágenes y música, cada vez es más difícil distinguir entre humanos y máquinas, aunque la generación de video sigue siendo limitada.

Los modelos son tontos

Al mismo tiempo, los LLM también son evaluados como sistemas “tontos” que repiten errores básicos.
Por ejemplo, Gemini maneja repetidamente mal la geometría y los materiales al renderizar modelos 3D, y Claude genera código de visualización en JavaScript sin sentido.
ChatGPT ni siquiera logra cumplir bien una solicitud simple de corrección de color y además lanza afirmaciones falsas al asumir incorrectamente la orientación sexual del usuario.
Se han reportado casos en que los LLM generan gráficas con datos falsos, fallan al controlar hogares inteligentes o incluso provocan pérdidas financieras.
La función de resúmenes con IA de Google muestra una tasa de error de alrededor del 10%, y las afirmaciones sobre una “inteligencia a nivel experto” son vistas como una fantasía exagerada.

Una frontera irregular

En general, los humanos pueden predecir el rango de sus capacidades, pero el desempeño de los sistemas de ML es irregular e impredecible.
Los LLM resuelven matemáticas avanzadas pero fallan en problemas lingüísticos simples, y ofrecen explicaciones carentes de sentido físico común.
Este desequilibrio se conoce como “frontera tecnológica irregular” (jagged technology frontier) y, a diferencia de la distribución de capacidades humanas, tiene una forma discontinua.
Como el ML depende de los datos de entrenamiento o de la ventana de contexto (window), es vulnerable en tareas que requieren conocimiento implícito.
Los robots humanoides o las áreas que exigen conocimiento encarnado (embodied knowledge) siguen estando lejos.

¿Está mejorando o no?

Los investigadores ni siquiera entienden con claridad por qué tuvieron éxito los modelos transformer.
Desde el artículo de 2017 Attention is All You Need se han probado múltiples arquitecturas, pero el enfoque de simplemente aumentar los parámetros sigue siendo el más eficaz.
Aunque los costos de entrenamiento y la cantidad de parámetros se han disparado, la mejora del rendimiento se está desacelerando, y no está claro si eso es una ilusión o un límite real.
Incluso si el ML dejara de mejorar, ya está teniendo un impacto profundo en la sociedad, la política, el arte y la economía.
En consecuencia, el ML es una tecnología que está volviendo fundamentalmente extraña la vida humana, y es muy probable que su evolución futura tome un rumbo extraño.

Nota sobre la terminología

Como “IA” es un término demasiado amplio, aquí se concreta como ML o LLM.
“IA generativa” se considera una expresión incompleta, porque no incluye las tareas de reconocimiento.
La razón por la que los LLM parecen mentir sobre sí mismos se debe a la influencia de las narrativas humanas sobre la IA y de los datos de entrenamiento.
Como contraargumento a la idea de que “los modelos son tontos”, hay quienes sostienen que el problema está en el prompt o en la elección del modelo, pero se ha confirmado que los mismos errores se repiten incluso en los modelos comerciales más recientes.

1 comentarios

GN⁺ 20 일 전

Opiniones de Hacker News

Últimamente pienso seguido que la situación actual se parece a la época de la Revolución Industrial
Antes de la Revolución Industrial, se consideraba que los recursos naturales eran casi infinitos, y la baja eficiencia impedía agotarlos por completo. Pero con la aparición de las máquinas, un pequeño número de personas pasó a poder consumir totalmente partes del planeta, y como resultado se volvieron necesarios los derechos de propiedad y los marcos legales
Ahora estamos en la era de la revolución de la información, y la IA está cumpliendo el mismo papel en el ámbito digital. Una sola empresa entrena IA para reutilizar a escala industrial las obras de innumerables creadores. Esto está rompiendo el equilibrio entre creadores y consumidores
En un mundo donde lo que escribe un autor es absorbido por ChatGPT y el texto original cae en el olvido, uno se pregunta quién va a seguir creando contenido. Da la impresión de que, como en el Londres de la época de Dickens, nos espera un periodo duro hasta que la sociedad y la ley se pongan al día
- Eso de que “la naturaleza era infinita” no es cierto. Ya desde el comienzo de la Edad del Hierro había problemas de agotamiento forestal, y las tensiones entre agricultura, pastoreo y manejo de bosques llevan miles de años
- Mucha gente ha tenido pensamientos parecidos. El actual papa Leo XIV eligió su nombre tomando como referencia al papa Leo XIII de la época de la Revolución Industrial, y al citar la encíclica Rerum novarum mencionó la responsabilidad social en la era de la IA. Artículo relacionado: Vatican News
- Yo no escribo solo por dinero. Lo hago por el impulso de crear y por el deseo de cambiar el mundo хотя sea un poco. Si ChatGPT aprende de lo que escribo y eso ayuda a alguien, solo eso ya tiene sentido. No hace falta que todo el mundo esté de acuerdo conmigo, pero yo lo veo de forma positiva
- Yo lo veo al revés. Ahora crear se ha vuelto un bien público digital al alcance de cualquiera. Si la IA automatizó la creación, no hay motivo para que ciertos creadores la monopolicen. El open source terminará reemplazando a las empresas de IA, y si no, entonces debería nacionalizarse como servicio público. El concepto de propiedad digital está destinado a desaparecer por la propia naturaleza de la tecnología
- Incluso antes de la Revolución Industrial, la gente peleaba por los derechos de uso del agua y los ríos. Por ejemplo, la guerra de Umma–Lagash fue un caso de conflicto por el agua hace 4000 años
Desde “Attention is All You Need”, el desarrollo no ha consistido simplemente en aumentar parámetros, sino en avanzar hacia estructuras complejas como Mixture-of-Experts, Sparse Attention y Mamba/Gated Linear Attention. Interpretar la Bitter Lesson como “solo hay que aumentar cómputo” es un malentendido
- El autor ya aclaró desde el principio: “no soy experto en ML”, y este texto es un ensayo que reúne ideas de los últimos 10 años. La expresión “podría ser una variación de la Bitter Lesson” solo buscaba dar algo en qué pensar. El objetivo del texto está más en provocar reflexión que en la precisión técnica
- Yo también cambié de Qwen 3 a Qwen 3.5, y aunque tiene menos parámetros, el rendimiento es mucho mejor. Gracias a innovaciones algorítmicas como Gated DeltaNet y TurboQuant, mejoró la eficiencia de memoria y también aumentó la longitud de contexto. Al final, la clave está en la innovación arquitectónica
- Después de GPT-3 (175B), se estima que GPT-4 tiene 1.8 billones de parámetros. Decir que “el aumento de parámetros se detuvo hace 5 años” es incorrecto
- Me pregunto si Mamba realmente se usa en modelos grandes. Tenía entendido que todavía faltan implementaciones eficientes. También quisiera saber qué significa en concreto eso de que “el entrenamiento se volvió mucho más sofisticado”
- Transformer no es magia. Simplemente fue mucho más eficiente que LSTM, RNN y CNN. Últimamente también han aparecido modelos que usan reasoning tokens para mostrar su proceso de pensamiento. No es perfecto, pero hasta ahora ha sido el enfoque que mejor funciona
Los modelos actuales ya entrenaron con casi todos los datos públicos disponibles. Si las restricciones de copyright se endurecen, podría aparecer un problema de escasez de datos de entrenamiento. Da la sensación de que, salvo que surja una innovación del calibre de “Attention is All You Need”, estamos llegando a un límite en la mejora del rendimiento
- Aun así, los investigadores siguen probando ideas nuevas. Podría haber un avance en 5 a 10 años. Eso sí, mientras tanto el costo sería alto
- En matemáticas o software hay menos restricciones porque es posible generar datos sintéticos. Son áreas donde se puede aplicar un aprendizaje de autoverificación, como AlphaGo Zero
- En realidad, los avances actuales también empezaron como un experimento de “vamos a aumentar masivamente los datos”. Después, la diferenciación pasó a darse en la etapa de post-training
- Algunas empresas contratan personas para producir tokens de alta calidad, y a partir de eso generan datos sintéticos que luego vuelven a usar para el entrenamiento
Decir que “los LLM todavía no son creativos” es una simplificación excesiva. En problemas basados en texto ya pueden hacer razonamiento lógico, y en imagen o UI también están avanzando rápido
- La clave es que los LLM no ‘entienden’ las ideas. El razonamiento no es más que un simple bucle de retroalimentación, no pensamiento real. Sobre si esta limitación puede resolverse técnicamente, conviven el optimismo y el pesimismo
- A mí los LLM a veces me proponen ideas que nunca había visto. Pero no puedo estar seguro de que sean realmente nuevas para la humanidad en conjunto
- Este texto no dice que “los LLM son tontos”, sino que la frontera entre inteligencia y estupidez es compleja e impredecible
- Aunque un LLM pueda resolver problemas lógicos, todavía le cuesta abordar algo de una forma que no aparecía en sus datos de entrenamiento
- La generación de imágenes también está avanzando rápido. Se puede ver, por ejemplo, en proyectos como GenAI Showdown
A menudo les explico a las personas que dentro de los LLM no hay conciencia ni autonomía. Hoy la palabra ‘IA’ se usa con un significado demasiado sobrecargado
- Entonces me pregunto cómo tendría que ser distinta la estructura interna para que sí hubiera ‘conciencia’ o ‘autonomía’
- En realidad, ‘IA’ es un término académico que existe desde los años 50. Al principio apuntaba a imitar el pensamiento humano, pero hoy simplemente significa sistemas de cómputo inteligentes. Como el público sigue entendiéndolo en un sentido humano, se produce confusión
- Yo más bien creo que la palabra ‘IA’ sí es precisa. Las máquinas simplemente están realizando inteligencia de forma artificial. Al final, igual que las matemáticas o la lógica, es un proceso mecánico. Así como los transistores ejecutan lógica, predecir tokens también es algo natural
- También me pregunto si realmente hay bases para afirmar con certeza que el cerebro humano funciona de una manera esencialmente distinta a un LLM
Me causó risa ver un caso en que un LLM resolvió mal un problema de física. En realidad, los físicos también suelen empezar con supuestos poco realistas. Hay hasta chistes sobre “techos esféricos sin fricción”
- Ese es el enfoque típico de la ciencia. Primero se obtiene una aproximación con un modelo simple, y luego se le agrega encima la complejidad del mundo real
Todavía es difícil decir que hayan pasado la prueba de Turing. Cuanto más larga es la conversación, más se rompe el contexto, y hay límites para simular rasgos humanos como la neuroplasticidad
- Hubo un momento en que parecía que sí la habían pasado, pero ahora la mayoría de la gente puede distinguir el estilo característico de los LLM. Aun así, la comparación completa es difícil porque los modelos están diseñados a propósito para ser más amables y detallados
- La prueba de Turing nunca fue, para empezar, un examen de aprobado/reprobado
- Últimamente se ha difundido la idea de que “los LLM rompieron la prueba de Turing”, pero en realidad, si se considera la condición de que el evaluador conoce la tecnología moderna, todavía es fácil distinguirlos
- Pero si la prueba fuera tan estricta, hasta los humanos podrían fallarla por falta de concentración
- De todos los LLM que he visto hasta ahora, no hay ni uno que escriba bien. Me pregunto si algún día aparecerá uno con el que conversar sea realmente agradable
El título original del artículo, “The Future of Everything is Lies, I Guess”, no coincidía con el contenido, así que fue corregido. En realidad era un texto equilibrado, y el cambio se hizo para ajustarlo a las reglas de HN sobre títulos engañosos
- Fue una buena decisión. La palabra “mentiras” en el texto no se refiere a alucinaciones (hallucination), sino al fenómeno en que, cuando se le pregunta al modelo “por qué respondió así”, inventa una razón cualquiera en ese momento. Los humanos también cometen errores parecidos
- Gracias a la curaduría, creo que el título quedó mucho mejor
- El título original servía para atraer clics, pero representaba peor el contenido
Las discusiones sobre la conciencia deberían ser más humildes. Ni siquiera la conciencia humana está definida con claridad, así que no se puede afirmar categóricamente nada sobre la conciencia de los LLM
- Algunas teorías de la conciencia excluyen a los LLM, mientras que otras dejan abierta la posibilidad. Es un ámbito sin respuesta definitiva
- Algunas personas veneran a los LLM como si fueran un ídolo de silicio. Creen entender por completo a la entidad que crearon, pero al mismo tiempo piensan que dentro de ella hay una esencia secreta de inteligencia. Esa actitud se parece a la de los alquimistas del pasado cuando intentaban fabricar oro
En la parte final del texto se decía que “la IA va a cambiar toda la sociedad”, pero esta entrega da más la impresión de centrarse en las limitaciones de los LLM
- En realidad, este texto es la introducción de una serie de 10 partes. En las siguientes entregas se abordarán temas como política, arte, economía y relaciones humanas
- De hecho, ahora mismo estamos en un momento en que conviene repetir una y otra vez el mensaje de que los LLM no son perfectos. Porque el mundo está confundiendo la IA con una solución universal.

¿Todo se dirige hacia la falsedad?

Introducción

¿Qué es la “IA”?

Fanfiction de la realidad

Un narrador poco confiable

Los modelos son inteligentes

Los modelos son tontos

Una frontera irregular

¿Está mejorando o no?

Nota sobre la terminología

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News