- Las respuestas de los modelos de lenguaje grandes (LLM) no son hechos, sino el resultado de una predicción estadística de palabras
- ChatGPT, Claude, Gemini y otros solo predicen la siguiente palabra más probable, sin reconocer la fuente ni la veracidad de la información
- Pueden producir frases convincentes, pero su contenido puede no ser preciso ni confiable
- Copiar y difundir respuestas de IA como si fueran una fuente autorizada no es más que repetir “combinaciones de palabras que suelen usarse juntas”
- La práctica de citar respuestas de IA como hechos revela el riesgo de debilitar la verificación del conocimiento y la capacidad de pensamiento
La naturaleza de las respuestas de IA
- Las respuestas de modelos de lenguaje grandes como ChatGPT, Claude y Gemini no son hechos
- Funcionan prediciendo la siguiente palabra que vendrá en una oración
- Como resultado, pueden generar información plausible pero inexacta
- Estos modelos se comparan con una persona que ha aprendido de muchísimos materiales pero no recuerda las fuentes
- Es decir, recombinan oraciones sin reconocer el fundamento ni el contexto de la información
Los límites de la confiabilidad
- Las respuestas o consejos que ofrece la IA pueden ser correctos, pero su fundamento no es claro
- La respuesta no es un “libro recordado”, sino una combinación de palabras que aparecen juntas con frecuencia
- Por eso, no es apropiado citar la salida de la IA como si fuera un hecho o información autorizada
- Decir “ChatGPT lo dijo” no es más que citar el resultado de una simple predicción de palabras
Los riesgos de citarla
- Copiar y compartir tal cual una respuesta de IA es como difundir una combinación de palabras en lugar de la verdad
- A veces puede ser útil o aportar ideas, pero no es la verdad ni el criterio final para juzgar algo
- El texto describe esta conducta como “personas inteligentes dejando de pensar”
Material adicional de referencia
Conclusión
- Aunque la tecnología de IA y machine learning en sí misma se valora positivamente,
hay que ser cautelosos con la actitud de citar o confiar en respuestas de IA sin evaluarlas críticamente
- El sitio recomienda compartir este contenido con quien diga: “But ChatGPT Said…”
5 comentarios
¿Es un artículo de hace un año?
jajajaja
https://github.com/leoherzog/stopcitingai/blob/main/index.html
No, si revisas el historial de modificaciones del archivo, verás que el borrador se creó hace una semana.
"Es el resultado de una predicción estadística de palabras". Tan solo reconocer este hecho parece mostrar cómo deberíamos tratar a la IA.
Opiniones de Hacker News
Las respuestas de los LLM como ChatGPT, Claude y Gemini no son hechos
Solo están prediciendo la siguiente palabra
Analogías como “los textos de Wikipedia tampoco son hechos, solo fluctuaciones del flujo magnético” no tienen sentido
Al final, lo importante es citar la fuente. Sea Wikipedia, un humano o un perro, si no hay fuente, no lo voy a creer
La salida no es más que una combinación de palabras elegidas probabilísticamente; algunas pueden venir de expresiones comunes, otras de lugares como 4chan, y otras pueden ser alucinaciones (hallucinations)
En esos casos, la propia idea de una “fuente del hecho” deja de tener sentido
El punto cambia según cómo se defina “hecho”
El problema no es el resultado, sino la confiabilidad del proceso que produjo ese resultado
Aunque tires los dados y aciertes que “3+4=7”, eso solo sería un acierto por casualidad; el proceso seguiría estando mal
El problema de los LLM se parece más a este tipo de error de proceso
En la práctica, están entrenados para ajustarse a las preferencias humanas y la adulación (sycophancy), produciendo textos agradables de leer, como “jarabe de maíz de alta fructosa”
Por eso, de hecho, son poco adecuados para brainstorming o resúmenes
Pero para preguntas simples de hechos están mejorando cada vez más
En última instancia, un LLM no es solo un predictor simple, sino algo optimizado para parecer más convincente
Incluso en empresas pequeñas, es importante definir expectativas sobre el uso de la IA
Basta con una regla simple: “aunque uses IA, la responsabilidad del resultado sigue siendo tuya”
Validar datos, probar código y revisar respuestas es indispensable
Antes se decía: “no copies y pegues de Stack Overflow; léelo y entiéndelo”
El mundo cambió, pero la esencia sigue siendo la misma
Ese es el gran cambio
La analogía de “una persona que leyó miles de libros pero no recuerda dónde los leyó” se siente parecida a un LLM
A veces yo también alucino la fuente y digo algo como “creo que estaba en la serie Schaum”
Al principio recuerdas dónde aprendiste el hecho de que “París es la capital de Francia”, pero con el tiempo la fuente se desvanece y solo queda el contenido
Los LLM siguen al pie de la letra el principio de Garbage In, Garbage Out
Funcionan bien en áreas bien documentadas, pero en temas ambiguos generan información disparatada
Sobre todo, entienden mal el contexto, así que si no se especifica con claridad, terminan dando respuestas incorrectas
En soporte técnico, a menudo surgen discusiones con clientes que confían ciegamente en lo que respondió ChatGPT
Aunque pidas correcciones, vuelve otra respuesta equivocada junto con una disculpa inútil
La era de la “posverdad (post-truth)” da inquietud, pero también da la impresión de que la gente ahora duda y pregunta más
Como decía Rorty, los “hechos” deben verse como un producto del consenso social, aquello sobre lo que ya no discutimos
Más importante que debatir sobre la verdad es cómo coordinar los choques de lenguaje entre comunidades de discurso
Si le dices a tu jefe “esa es una idea tonta”, obviamente no le va a gustar
Es mejor preguntar: “¿podemos revisar juntos ese registro de conversación?”
Así puedes ver en qué parte el LLM metió el sesgo
No tengo por qué refutar una salida de LLM no verificada; la responsabilidad es de quien la cita
La discusión sobre “citar fuentes” está dejando fuera un problema más profundo
Los LLM son fuertes en tareas verificables (código, traducción, resúmenes), pero débiles en áreas no verificables (investigación, campos especializados)
Por eso yo uso los LLM solo como generadores de borradores que un experto puede revisar
El riesgo no es la alucinación, sino la brecha de confianza que aparece cuando la fluidez del modelo supera la pericia del usuario
Métodos de llamada de herramientas como RAG o búsqueda web al final solo son un intercambio por otros modos de fallo
Mi reacción es: “si ChatGPT es más confiable que yo, ¿para qué me contrataron?”
Podría pasar horas explicándolo, pero ¿no sería mejor simplemente confiar en el experto?