1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Los LLM mejoran la eficiencia como apoyo para escribir, pero al corregir textos humanos cambian la conclusión, la postura y el tipo de argumentación, y generan cambios de significado en una dirección distinta a la edición humana
  • En un estudio con usuarios, quienes usaron mucho los LLM dijeron estar satisfechos con el resultado, pero también respondieron que su voz y creatividad disminuyeron de forma estadísticamente significativa, mostrando una paradoja de preferencia
  • Al editar 86 ensayos escritos por humanos de ArgRewrite-v2 con tres LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), incluso instrucciones de cambios mínimos o solo corrección gramatical alteraron fuertemente el vocabulario y el significado
  • Los textos escritos o corregidos por LLM se desplazan hacia un estilo más formal e impersonal, con más sustantivos, adjetivos y lenguaje emocional, lógico y estadístico, y menos pronombres y argumentación basada en experiencias personales
  • En el análisis de 18 mil revisiones por pares de ICLR 2026, las revisiones clasificadas como generadas por IA representaron el 21% del total, otorgaron puntajes 10% más altos que las humanas y se enfocaron más en reproducibilidad y escalabilidad

Resumen de la investigación

  • Los LLM son usados por más de mil millones de personas en todo el mundo, y su uso más común es como apoyo para escribir
  • Los LLM pueden ofrecer grandes mejoras de eficiencia, pero se plantea la duda de si realmente escriben lo que el usuario quiere
  • Muchos usuarios reconocen la “sensación” del estilo de los LLM, pero no suelen percibir cuánto distorsionan el significado del texto
  • El análisis se basa en tres tipos de materiales
    • estudio con usuarios humanos
    • conjunto de datos de ensayos argumentativos escritos por humanos
    • revisiones de una conferencia líder de machine learning
  • Los materiales de investigación se ofrecen como Paper y Code

Hallazgos principales

  • Los LLM cambian la conclusión del texto, y con ello también la postura y el tipo de argumentación
  • Los usuarios dijeron estar satisfechos con el resultado, pero también reportaron una disminución estadísticamente significativa de su voz y creatividad, mostrando una paradoja de preferencia
  • Incluso cuando solo se les pide corregir gramática, los LLM producen cambios de significado mayores que la edición humana
  • El efecto también aparece en las revisiones de la International Conference of Learning Representations (ICLR) 2026
    • Las revisiones por pares clasificadas como generadas por IA fueron el 21% del total
    • Estas revisiones se enfocaron en criterios científicos significativamente distintos a los de las revisiones humanas al justificar la aceptación o el rechazo de artículos
  • A medida que los LLM se integren más en la sociedad, estos sutiles cambios de significado podrían transformar la política, la cultura, la ciencia e incluso la comunicación entre amigos y familiares
  • Aunque el estudio se centra en la escritura argumentativa, los resultados podrían generalizarse a otras formas de escritura y comunicación

La edición con LLM desplaza los textos en una dirección distinta a la edición humana

  • Cuando un LLM corrige un texto humano, produce cambios homogeneizados muy distintos a los que surgirían si una persona editara el mismo ensayo
  • El análisis contrafactual compara el resultado de que un LLM edite un texto con el resultado que habría tenido si lo editara una persona
  • En el caso de la edición humana
    • el primer borrador se muestra como puntos gris claro
    • el segundo borrador, tras recibir retroalimentación experta, se muestra como puntos gris oscuro
    • los cambios se visualizan proyectando el espacio de embeddings semánticos de MiniLM-L6 mediante PCA
  • En el caso de la edición con LLM
    • al ensayo humano original se le proporciona retroalimentación experta y varios prompts
    • incluso al pedir cambios mínimos, se producen grandes modificaciones en todos los ensayos
    • la dirección del cambio se aleja del modo humano de escribir y se mueve de forma consistente hacia una misma dirección
  • Los ejemplos del dataset ArgRewrite-v2 muestran cómo escribir con LLM cambia la conclusión del ensayo y elimina la voz humana

Metodología y datasets

  • Estudio con usuarios humanos

    • Se realizó un estudio de usuarios para entender el impacto del uso de LLM en el proceso de escritura
    • 55 personas podían usar LLM y 45 personas no tenían acceso a ellos
    • Como durante la sesión muchas personas evitaron voluntariamente usar LLM, los resultados se condicionaron según la elección real de uso
    • Se dividió a los participantes en dos grupos
      • LLM-Influenced: personas que no usaron LLM o solo los usaron para buscar información
      • LLM: personas que usaron ampliamente los LLM
    • La clasificación de grupos se hizo de forma previa a la evaluación y al análisis
    • Para la clasificación se usaron registros de conversación, ensayos finales y puntajes de uso autoinformados
  • ArgRewrite-v2

    • Se usaron 86 ensayos escritos por humanos y recopilados en 2021
    • Estos textos fueron escritos antes de que los LLM se difundieran ampliamente
    • Se hicieron prompts a tres LLM de producción para editar los ensayos
      • gpt-5-mini
      • gemini-2.5-flash
      • claude-haiku
    • Se aplicaron cinco tipos de revisión
      • revisión general
      • revisión mínima
      • corrección gramatical
      • finalización
      • expansión
    • Se compararon los borradores generados por LLM y las revisiones hechas por humanos en varias dimensiones
      • significado
      • uso del vocabulario
      • distribución de categorías gramaticales
      • tono emocional
      • rasgos de estilo
  • Análisis de revisiones de ICLR 2026

    • Se analizaron 18 mil revisiones por pares de ICLR 2026
    • Se seleccionaron artículos que tenían una revisión completamente escrita por humanos y otra completamente generada por LLM
    • Se usó un clasificador LLM-as-a-Judge para identificar las fortalezas y debilidades citadas en cada revisión
    • Se compararon los puntajes asignados por humanos y por LLM

La paradoja entre satisfacción del usuario y pérdida de voz

  • Los usuarios que más usaron LLM respondieron que sus ensayos no reflejaban su propia voz
  • Al mismo tiempo, dijeron estar satisfechos con el resultado, mostrando una paradoja de preferencia
  • Los usuarios expresan satisfacción, pero también reportan una reducción significativa de creatividad y voz
  • RLHF optimiza preferencias, pero no es suficiente para preservar creatividad y significado

Un desplazamiento en una dirección común dentro del espacio semántico

  • Los ensayos escritos por humanos del grupo de control están ampliamente dispersos en el espacio de embeddings
  • Esa distribución refleja la diversidad de perspectivas individuales, estilos de escritura y formas de argumentar
  • Los ensayos escritos por LLM se agrupan densamente en regiones que los ensayos humanos no ocupan
  • Las correcciones con LLM producen grandes cambios de significado y además lo hacen en una dirección fuertemente compartida
  • Los textos revisados por LLM se mueven hacia regiones del espacio que antes no ocupaba ningún ensayo humano
  • Esto respalda la idea de que los LLM desplazan el significado de una manera distinta a la de los editores humanos

Cambios en la conclusión y la postura

  • Los usuarios de LLM escribieron ensayos más neutrales ante la pregunta “¿El dinero conduce a la felicidad?”
  • Estos ensayos tendieron a evitar una postura clara
  • Esto aparece como un cambio fundamental en la postura misma de la argumentación

Cambios en vocabulario y gramática

  • La edición con LLM cambia mucho más las palabras usadas que la edición humana
  • La huella léxica única de cada autor queda reemplazada por el vocabulario preferido por el LLM
  • Los LLM adoptan un estilo más formal
  • También aparecen cambios en la distribución de categorías gramaticales
    • aumenta el uso de sustantivos y adjetivos
    • disminuye el uso de pronombres
  • La reducción de pronombres se interpreta como una señal de menor uso de primera persona y de argumentación basada en experiencias, y de un desplazamiento hacia lenguaje impersonal

Aumento del lenguaje emocional, analítico, lógico y estadístico

  • La escritura con LLM aumenta el lenguaje emocional
  • Al comparar edición humana y edición con LLM, aparece un aumento considerable tanto en emociones positivas como negativas
  • Este incremento ocurre incluso cuando se indican cambios mínimos y retroalimentación experta
  • En el análisis LIWC, las versiones editadas por LLM de ArgRewrite-v2 muestran más lenguaje asociado con patrones de pensamiento formales, lógicos y jerárquicos
  • En el estudio con usuarios, los humanos usaron más argumentación relacionada con experiencias personales
  • Los ensayos escritos con LLM usaron más argumentación estadística y lógica
  • Los ensayos influidos por LLM también citan opiniones de expertos, algo poco frecuente en los ensayos escritos por humanos

Distorsión de los criterios de evaluación en las instituciones científicas

  • Cuando se usan LLM en el proceso de revisión científica, los LLM otorgan puntajes 10% más altos que los humanos
  • Las revisiones humanas y las de LLM difieren en los criterios con los que identifican fortalezas y debilidades
  • Las revisiones humanas tratan con más frecuencia los siguientes puntos
    • tienen 32% más probabilidad de tratar la claridad como fortaleza
    • tienen 58% más probabilidad de tratar la claridad como debilidad
    • tienen 32% más probabilidad de tratar la relevancia del estudio
  • Las revisiones de LLM tratan con más frecuencia los siguientes puntos
    • tienen 136% más probabilidad de tratar la reproducibilidad
    • tienen 84% más probabilidad de tratar la escalabilidad
  • La diferencia entre los criterios de evaluación de humanos y LLM puede influir en qué tipo de trabajo científico se considera válido y se incentiva

Conclusión

  • Los resultados muestran un patrón problemático en el que la IA distorsiona sutilmente el lenguaje de la escritura y las instituciones culturales
  • El contenido generado por IA ya ha penetrado en muchos ámbitos
    • discursos legislativos
    • letras de canciones
    • guiones de cine
    • habla cotidiana
    • mensajes enviados a colegas y seres queridos
  • Las personas que dependen mucho de la IA reconocen que esta reduce su voz y creatividad, pero aun así están igual de satisfechas con el resultado
  • La facilidad de uso y la posibilidad de acelerar la trayectoria profesional probablemente empujen a las personas a seguir produciendo texto generado por IA
  • Como muestran los datos de ICLR, también es probable que continúe el incentivo a presentar texto generado por IA en contextos profesionales como si fuera escritura propia

1 comentarios

 
GN⁺ 2 시간 전
Opiniones en Lobste.rs
  • Esto es realmente perturbador, al punto de incomodar. En particular, el ejemplo donde un LLM cambia un argumento sobre autos autónomos es bastante impactante
    No me sorprende en absoluto que un LLM adopte una postura neutral. Entiendo que el objetivo central de los productos LLM convencionales es, básicamente, decir la verdad “conocida” y ayudar al usuario, pero fuera de eso tomar una posición intermedia ambigua
    De verdad no entiendo que la gente recurra a LLM para escribir o editar textos valiosos

    • Incluso con la interpretación más benevolente, donde una persona redacta por completo el borrador y luego solo le pide al LLM que “revise si hay problemas”, no entiendo cómo, al revisar los cambios posteriores, no puede notar que el resultado terminó teniendo un significado diferente al del texto que presentó
      “Incómodo” es exactamente la palabra adecuada
    • Según entiendo, Grok de Musk parece haber sido diseñado para ser intencionalmente sesgado, o al menos así fue en algún momento
    • Esa es una buena práctica profesional para un asistente o un corrector de estilo
      No entiendo por qué se vería como algo malo entrenar a un LLM en esa dirección
  • En mi entorno, la página consistentemente no carga bien. Hay un preprint

  • El gráfico de frecuencias deja con la boca abierta y, siendo sincero, se ve casi exactamente como yo esperaba
    Puede tomarse como un regalo. Las cosas de la izquierda ahora son palabras potentes, y las de la derecha son cosas que poco a poco se vuelven palabras sin sentido

    • No sé a qué gráfico te refieres. No vi nada así en la página
  • Vi mucho de esto cuando intenté usar Claude como corrector de estilo. Tuve que rehacer el prompt varias veces para lograr que se enfocara solo en ortografía, gramática y puntuación
    La tendencia a cambiar el significado probablemente tenga que ver con la forma en que funcionan los embeddings

  • La agencia y responsabilidad del usuario están extrañamente ausentes en muchas discusiones sobre IA/LLM
    Si asumimos que el usuario es un adulto, usar un LLM es una decisión activa. Puede decidir si usar o no la salida, y también de qué manera usarla
    Si la IA “cambia fundamentalmente” la política, la cultura, la ciencia e incluso la forma de comunicarse con amigos y familia, es porque la gente eligió hacerlo así y la IA hizo que esa elección fuera más fácil
    Que el usuario no haya tenido una opinión o preferencia previa no borra el hecho de que se tomó una decisión