Cómo los LLM distorsionan nuestro lenguaje escrito

(sites.google.com)

8 puntos por GN⁺ 2026-05-05 | 1 comentarios | Compartir por WhatsApp

Los LLM mejoran la eficiencia como apoyo para escribir, pero al corregir textos humanos cambian la conclusión, la postura y el tipo de argumentación, y generan cambios de significado en una dirección distinta a la edición humana
En un estudio con usuarios, quienes usaron mucho los LLM dijeron estar satisfechos con el resultado, pero también respondieron que su voz y creatividad disminuyeron de forma estadísticamente significativa, mostrando una paradoja de preferencia
Al editar 86 ensayos escritos por humanos de ArgRewrite-v2 con tres LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), incluso instrucciones de cambios mínimos o solo corrección gramatical alteraron fuertemente el vocabulario y el significado
Los textos escritos o corregidos por LLM se desplazan hacia un estilo más formal e impersonal, con más sustantivos, adjetivos y lenguaje emocional, lógico y estadístico, y menos pronombres y argumentación basada en experiencias personales
En el análisis de 18 mil revisiones por pares de ICLR 2026, las revisiones clasificadas como generadas por IA representaron el 21% del total, otorgaron puntajes 10% más altos que las humanas y se enfocaron más en reproducibilidad y escalabilidad

Resumen de la investigación

Los LLM son usados por más de mil millones de personas en todo el mundo, y su uso más común es como apoyo para escribir
Los LLM pueden ofrecer grandes mejoras de eficiencia, pero se plantea la duda de si realmente escriben lo que el usuario quiere
Muchos usuarios reconocen la “sensación” del estilo de los LLM, pero no suelen percibir cuánto distorsionan el significado del texto
El análisis se basa en tres tipos de materiales
- estudio con usuarios humanos
- conjunto de datos de ensayos argumentativos escritos por humanos
- revisiones de una conferencia líder de machine learning
Los materiales de investigación se ofrecen como Paper y Code

Hallazgos principales

Los LLM cambian la conclusión del texto, y con ello también la postura y el tipo de argumentación
Los usuarios dijeron estar satisfechos con el resultado, pero también reportaron una disminución estadísticamente significativa de su voz y creatividad, mostrando una paradoja de preferencia
Incluso cuando solo se les pide corregir gramática, los LLM producen cambios de significado mayores que la edición humana
El efecto también aparece en las revisiones de la International Conference of Learning Representations (ICLR) 2026
- Las revisiones por pares clasificadas como generadas por IA fueron el 21% del total
- Estas revisiones se enfocaron en criterios científicos significativamente distintos a los de las revisiones humanas al justificar la aceptación o el rechazo de artículos
A medida que los LLM se integren más en la sociedad, estos sutiles cambios de significado podrían transformar la política, la cultura, la ciencia e incluso la comunicación entre amigos y familiares
Aunque el estudio se centra en la escritura argumentativa, los resultados podrían generalizarse a otras formas de escritura y comunicación

La edición con LLM desplaza los textos en una dirección distinta a la edición humana

Cuando un LLM corrige un texto humano, produce cambios homogeneizados muy distintos a los que surgirían si una persona editara el mismo ensayo
El análisis contrafactual compara el resultado de que un LLM edite un texto con el resultado que habría tenido si lo editara una persona
En el caso de la edición humana
- el primer borrador se muestra como puntos gris claro
- el segundo borrador, tras recibir retroalimentación experta, se muestra como puntos gris oscuro
- los cambios se visualizan proyectando el espacio de embeddings semánticos de MiniLM-L6 mediante PCA
En el caso de la edición con LLM
- al ensayo humano original se le proporciona retroalimentación experta y varios prompts
- incluso al pedir cambios mínimos, se producen grandes modificaciones en todos los ensayos
- la dirección del cambio se aleja del modo humano de escribir y se mueve de forma consistente hacia una misma dirección
Los ejemplos del dataset ArgRewrite-v2 muestran cómo escribir con LLM cambia la conclusión del ensayo y elimina la voz humana

Metodología y datasets

Estudio con usuarios humanos
- Se realizó un estudio de usuarios para entender el impacto del uso de LLM en el proceso de escritura
- 55 personas podían usar LLM y 45 personas no tenían acceso a ellos
- Como durante la sesión muchas personas evitaron voluntariamente usar LLM, los resultados se condicionaron según la elección real de uso
- Se dividió a los participantes en dos grupos
  - LLM-Influenced: personas que no usaron LLM o solo los usaron para buscar información
  - LLM: personas que usaron ampliamente los LLM
- La clasificación de grupos se hizo de forma previa a la evaluación y al análisis
- Para la clasificación se usaron registros de conversación, ensayos finales y puntajes de uso autoinformados
ArgRewrite-v2
- Se usaron 86 ensayos escritos por humanos y recopilados en 2021
- Estos textos fueron escritos antes de que los LLM se difundieran ampliamente
- Se hicieron prompts a tres LLM de producción para editar los ensayos
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- Se aplicaron cinco tipos de revisión
  - revisión general
  - revisión mínima
  - corrección gramatical
  - finalización
  - expansión
- Se compararon los borradores generados por LLM y las revisiones hechas por humanos en varias dimensiones
  - significado
  - uso del vocabulario
  - distribución de categorías gramaticales
  - tono emocional
  - rasgos de estilo
Análisis de revisiones de ICLR 2026
- Se analizaron 18 mil revisiones por pares de ICLR 2026
- Se seleccionaron artículos que tenían una revisión completamente escrita por humanos y otra completamente generada por LLM
- Se usó un clasificador LLM-as-a-Judge para identificar las fortalezas y debilidades citadas en cada revisión
- Se compararon los puntajes asignados por humanos y por LLM

La paradoja entre satisfacción del usuario y pérdida de voz

Los usuarios que más usaron LLM respondieron que sus ensayos no reflejaban su propia voz
Al mismo tiempo, dijeron estar satisfechos con el resultado, mostrando una paradoja de preferencia
Los usuarios expresan satisfacción, pero también reportan una reducción significativa de creatividad y voz
RLHF optimiza preferencias, pero no es suficiente para preservar creatividad y significado

Un desplazamiento en una dirección común dentro del espacio semántico

Los ensayos escritos por humanos del grupo de control están ampliamente dispersos en el espacio de embeddings
Esa distribución refleja la diversidad de perspectivas individuales, estilos de escritura y formas de argumentar
Los ensayos escritos por LLM se agrupan densamente en regiones que los ensayos humanos no ocupan
Las correcciones con LLM producen grandes cambios de significado y además lo hacen en una dirección fuertemente compartida
Los textos revisados por LLM se mueven hacia regiones del espacio que antes no ocupaba ningún ensayo humano
Esto respalda la idea de que los LLM desplazan el significado de una manera distinta a la de los editores humanos

Cambios en la conclusión y la postura

Los usuarios de LLM escribieron ensayos más neutrales ante la pregunta “¿El dinero conduce a la felicidad?”
Estos ensayos tendieron a evitar una postura clara
Esto aparece como un cambio fundamental en la postura misma de la argumentación

Cambios en vocabulario y gramática

La edición con LLM cambia mucho más las palabras usadas que la edición humana
La huella léxica única de cada autor queda reemplazada por el vocabulario preferido por el LLM
Los LLM adoptan un estilo más formal
También aparecen cambios en la distribución de categorías gramaticales
- aumenta el uso de sustantivos y adjetivos
- disminuye el uso de pronombres
La reducción de pronombres se interpreta como una señal de menor uso de primera persona y de argumentación basada en experiencias, y de un desplazamiento hacia lenguaje impersonal

Aumento del lenguaje emocional, analítico, lógico y estadístico

La escritura con LLM aumenta el lenguaje emocional
Al comparar edición humana y edición con LLM, aparece un aumento considerable tanto en emociones positivas como negativas
Este incremento ocurre incluso cuando se indican cambios mínimos y retroalimentación experta
En el análisis LIWC, las versiones editadas por LLM de ArgRewrite-v2 muestran más lenguaje asociado con patrones de pensamiento formales, lógicos y jerárquicos
En el estudio con usuarios, los humanos usaron más argumentación relacionada con experiencias personales
Los ensayos escritos con LLM usaron más argumentación estadística y lógica
Los ensayos influidos por LLM también citan opiniones de expertos, algo poco frecuente en los ensayos escritos por humanos

Distorsión de los criterios de evaluación en las instituciones científicas

Cuando se usan LLM en el proceso de revisión científica, los LLM otorgan puntajes 10% más altos que los humanos
Las revisiones humanas y las de LLM difieren en los criterios con los que identifican fortalezas y debilidades
Las revisiones humanas tratan con más frecuencia los siguientes puntos
- tienen 32% más probabilidad de tratar la claridad como fortaleza
- tienen 58% más probabilidad de tratar la claridad como debilidad
- tienen 32% más probabilidad de tratar la relevancia del estudio
Las revisiones de LLM tratan con más frecuencia los siguientes puntos
- tienen 136% más probabilidad de tratar la reproducibilidad
- tienen 84% más probabilidad de tratar la escalabilidad
La diferencia entre los criterios de evaluación de humanos y LLM puede influir en qué tipo de trabajo científico se considera válido y se incentiva

Conclusión

Los resultados muestran un patrón problemático en el que la IA distorsiona sutilmente el lenguaje de la escritura y las instituciones culturales
El contenido generado por IA ya ha penetrado en muchos ámbitos
- discursos legislativos
- letras de canciones
- guiones de cine
- habla cotidiana
- mensajes enviados a colegas y seres queridos
Las personas que dependen mucho de la IA reconocen que esta reduce su voz y creatividad, pero aun así están igual de satisfechas con el resultado
La facilidad de uso y la posibilidad de acelerar la trayectoria profesional probablemente empujen a las personas a seguir produciendo texto generado por IA
Como muestran los datos de ICLR, también es probable que continúe el incentivo a presentar texto generado por IA en contextos profesionales como si fuera escritura propia

1 comentarios

GN⁺ 2026-05-05

Opiniones en Lobste.rs

Esto es realmente perturbador, al punto de incomodar. En particular, el ejemplo donde un LLM cambia un argumento sobre autos autónomos es bastante impactante
No me sorprende en absoluto que un LLM adopte una postura neutral. Entiendo que el objetivo central de los productos LLM convencionales es, básicamente, decir la verdad “conocida” y ayudar al usuario, pero fuera de eso tomar una posición intermedia ambigua
De verdad no entiendo que la gente recurra a LLM para escribir o editar textos valiosos
- Incluso con la interpretación más benevolente, donde una persona redacta por completo el borrador y luego solo le pide al LLM que “revise si hay problemas”, no entiendo cómo, al revisar los cambios posteriores, no puede notar que el resultado terminó teniendo un significado diferente al del texto que presentó
  “Incómodo” es exactamente la palabra adecuada
- Según entiendo, Grok de Musk parece haber sido diseñado para ser intencionalmente sesgado, o al menos así fue en algún momento
- Esa es una buena práctica profesional para un asistente o un corrector de estilo
  No entiendo por qué se vería como algo malo entrenar a un LLM en esa dirección
En mi entorno, la página consistentemente no carga bien. Hay un preprint
El gráfico de frecuencias deja con la boca abierta y, siendo sincero, se ve casi exactamente como yo esperaba
Puede tomarse como un regalo. Las cosas de la izquierda ahora son palabras potentes, y las de la derecha son cosas que poco a poco se vuelven palabras sin sentido
- No sé a qué gráfico te refieres. No vi nada así en la página
Vi mucho de esto cuando intenté usar Claude como corrector de estilo. Tuve que rehacer el prompt varias veces para lograr que se enfocara solo en ortografía, gramática y puntuación
La tendencia a cambiar el significado probablemente tenga que ver con la forma en que funcionan los embeddings
La agencia y responsabilidad del usuario están extrañamente ausentes en muchas discusiones sobre IA/LLM
Si asumimos que el usuario es un adulto, usar un LLM es una decisión activa. Puede decidir si usar o no la salida, y también de qué manera usarla
Si la IA “cambia fundamentalmente” la política, la cultura, la ciencia e incluso la forma de comunicarse con amigos y familia, es porque la gente eligió hacerlo así y la IA hizo que esa elección fuera más fácil
Que el usuario no haya tenido una opinión o preferencia previa no borra el hecho de que se tomó una decisión

Cómo los LLM distorsionan nuestro lenguaje escrito

Resumen de la investigación

Hallazgos principales

La edición con LLM desplaza los textos en una dirección distinta a la edición humana

Metodología y datasets

Estudio con usuarios humanos

ArgRewrite-v2

Análisis de revisiones de ICLR 2026

La paradoja entre satisfacción del usuario y pérdida de voz

Un desplazamiento en una dirección común dentro del espacio semántico

Cambios en la conclusión y la postura

Cambios en vocabulario y gramática

Aumento del lenguaje emocional, analítico, lógico y estadístico

Distorsión de los criterios de evaluación en las instituciones científicas

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones en Lobste.rs