IA generativa y edición en Wikipedia: lo que aprendimos en 2025

(wikiedu.org)

2 puntos por GN⁺ 2026-02-02 | 1 comentarios | Compartir por WhatsApp

Wiki Education investigó de forma sistemática durante 2025 el impacto de la IA generativa (como ChatGPT) en la edición de Wikipedia
Al analizar 3,078 artículos escritos desde 2022 con la herramienta de detección de IA Pangram, se encontró que 178 artículos eran sospechosos de haber sido escritos por IA, y más de dos tercios de ellos reprobaron la verificación
En respuesta, se reforzó la capacitación de los participantes y se introdujeron lineamientos para el uso de IA y un sistema de detección en tiempo real para bloquear el copiado y pegado directo de texto generado por IA
La IA no es adecuada para redactar borradores de artículos, pero puede ser útil en la etapa de investigación, por ejemplo para explorar materiales, encontrar fuentes e identificar vacíos de contenido
Wiki Education enfatiza que automatizar la detección de IA y ampliar la capacitación de editores es clave para mantener la confiabilidad de Wikipedia

La relación entre la IA generativa y Wikipedia

Wiki Education representa alrededor del 19% de los nuevos editores activos de la Wikipedia en inglés y analizó el impacto y los riesgos de la IA generativa
- A medida que chatbots como ChatGPT, Gemini y Claude se volvieron cotidianos, también aumentaron los intentos de usarlos en la edición de Wikipedia
- La organización evaluó cómo usan la IA sus participantes y publicó los resultados
Como conclusión, estableció el principio de que no se debe copiar y pegar directamente en Wikipedia la salida de la IA

Resultados de detección y verificación de IA

Entre los artículos escritos desde el lanzamiento de ChatGPT en 2022, 178 fueron detectados por Pangram como redactados con IA
- Antes de 2022 no había rastros de uso de IA, y después fue aumentando gradualmente
Solo el 7% usó fuentes falsas; el resto citó fuentes reales, pero más de 2/3 reprobaron la verificación
- La información citada no estaba presente en las fuentes mencionadas, por lo que no era posible confirmar su veracidad
Wiki Education destinó una cantidad considerable de trabajo a limpiar artículos que no pasaron la verificación
- Algunos artículos se marcaron como stub, otros recibieron una propuesta de borrado (PROD) y otros se consideraron irrecuperables

Mejoras del programa y sistema de detección de IA

Con apoyo de Pangram, se construyó un sistema para analizar en tiempo real las ediciones de los participantes
- A través de su propia plataforma Dashboard, operan funciones de seguimiento de ediciones y alertas automáticas
Se introdujo el nuevo módulo de capacitación “Using generative AI tools with Wikipedia”
- Se diferenciaron claramente las áreas donde se permite el uso de IA y las que están prohibidas
- El mensaje central enfatiza: “No copiar ni pegar texto de IA”
En la segunda mitad de 2025, de 1,406 advertencias por ediciones con IA, solo el 22% ocurrió en el espacio real de artículos
- La mayoría se detectó en la etapa de sandbox de práctica
Pangram mostró algunos falsos positivos (false positive) en texto no oracional, como formatos o listas, pero mantuvo alta precisión al analizar oraciones del cuerpo principal

Patrones de uso de IA y efecto de la capacitación

En el semestre de otoño de 2025, de 6,357 personas, solo el 5% fue detectado usando IA en artículos reales, y la mayoría de esos casos se revirtió de forma manual o automática
- Participantes, docentes y especialistas en Wikipedia colaboraron para eliminar texto generado por IA
Los docentes evaluaron el trabajo estudiantil con foco en la verificabilidad (verifiability)
- Confirmaron que las oraciones generadas por IA no son aptas para Wikipedia porque no pueden verificarse de manera factual
La intervención temprana basada en Pangram redujo la tasa de uso de IA del 25% estimado al 5%

Posibilidades de uso positivo de la IA

La IA es útil en la etapa de investigación para identificar vacíos en artículos, explorar fuentes y sugerir rutas de acceso a materiales
- En 7 cursos, de 102 reportes de uso, el 87% respondió que fue útil
- La herramienta más utilizada fue ChatGPT, seguida por Grammarly
Los estudiantes usaron la IA para corregir redacción, sugerir categorías y evaluar borradores
- Sin embargo, no hubo casos de redacción del cuerpo principal con IA
Se enfatiza que solo ayuda cuando los resultados de la IA se revisan críticamente, y que el juicio humano es indispensable

Conclusiones de Wiki Education y planes a futuro

En su estado actual, la IA generativa produce texto no verificable, por lo que no es adecuada para redactar el cuerpo principal de Wikipedia
- Verificar oraciones generadas por IA toma más tiempo que escribirlas directamente
Aun así, puede usarse como herramienta de apoyo para buscar materiales y generar ideas
Está previsto mantener y mejorar el sistema de detección Pangram también en 2026
Se confirmó la falta de alfabetización en IA entre los participantes, y se ofrecerá además un módulo de capacitación sobre modelos de lenguaje grandes (LLM)
En colaboración con Princeton y otras instituciones, se está investigando cómo cambian las ediciones estudiantiles antes y después de introducir IA
- También se confirmó que Pangram identificó correctamente como 100% humanas las ediciones de 2015 a 2022

Implicaciones para Wikipedia en general

El 10% de los adultos en el mundo usa ChatGPT, y una proporción considerable lo utiliza para redactar texto
- Existe el riesgo de que editores principiantes agreguen contenido generado por IA sin verificarlo
Herramientas de detección automática como Pangram son esenciales para mantener la calidad de Wikipedia
- Por ahora solo es posible mostrar banners manuales, pero se necesita un sistema de detección automatizado
Se propone reforzar las advertencias sobre el uso de IA y la capacitación en edición centrada en fuentes para nuevos editores
- El software de apoyo a la edición de la Fundación Wikimedia también debería priorizar métodos de resumen centrados en humanos
Para que Wikipedia se adapte a los cambios tecnológicos y mantenga su confiabilidad, es importante desarrollar políticas y herramientas acordes con la era de la IA

1 comentarios

GN⁺ 2026-02-02

Comentarios en Hacker News

En Wikipedia desde hace mucho ha sido común el problema de la falta de verificación de fuentes
Es difícil encontrar evidencia de que su frecuencia haya aumentado recientemente
Parece que la mayoría de quienes escriben ponen lo que saben y luego agregan al final unas citas mínimas que suenan plausibles
Da la impresión de que la confiabilidad varía según el nivel de especialización de la página o qué tan de nicho sea el tema
- Hubo un caso así en tiempo real en un episodio reciente del pódcast Changelog
  Los conductores descubrieron que estaban mal descritos como “extrabajadores de GitHub”, y el invitado corrigió la cita en Wikipedia mientras grababan
- Los problemas que he visto son dos. Uno son las citas falsas, y el otro es cuando la cita es real pero la fuente viene de alguien no confiable
  Cuando uno señala estos problemas, algunos editores insisten en que “Wikipedia es confiable”
  Mientras esa percepción no cambie, parece difícil que haya mejoras
- Los LLM pueden agregar conclusiones sin fundamento con una frecuencia mucho mayor que los humanos
- De hecho, este tipo de verificación de citas quizá podría usarse para que la IA lo detecte automáticamente y lo marque para revisión humana
- Muchos artículos casi no tienen citas, o tienen citas erróneas que distorsionan la conclusión
  Por ejemplo, como en casos donde se interpreta mal el comportamiento de las moléculas de agua
El artículo enfatiza tres veces que no hay que copiar y pegar la salida de la IA generativa
Yo tuve una experiencia parecida. Al principio parece sorprendentemente convincente, pero pronto te das cuenta de que hay mucho humo y ruido
Aun así, es bastante útil para generar ideas o hacer brainstorming
Elegí el título para resaltar el punto central del artículo
Me impactó especialmente la frase: “más de dos tercios de los artículos marcados no pasaron la verificación”
- En los artículos de política este problema ha sido común desde hace mucho
  Si verificas directamente las citas, encuentras muchas fuentes absurdas
  La IA puede empeorar el problema, pero las ediciones malintencionadas hechas por humanos siguen ahí
- El título enviado originalmente era “La mayoría de los artículos marcados no pasó la verificación”
  Creo que esa expresión captaba bien la idea central
- La gente también escribe cosas sin fundamento, pero los LLM son mucho más rápidos en velocidad y escala
  Me gustaría ver datos comparativos sobre cuál era la tasa de errores de citas antes de la IA
Este artículo no trata sobre toda Wikipedia, sino solo de las ediciones hechas a través del programa Wiki Edu
Es decir, habla de artículos escritos por universitarios como tarea de clase
- Si obligas a estudiantes a editar Wikipedia, es natural que salgan resultados de baja calidad hechos sin entusiasmo
  Al final, el problema parece estar más cerca de los hábitos de uso de IA en la universidad que de Wikipedia misma
- Esto también se parece al hábito de los estudiantes de buscar citas que suenen plausibles y pegarlas al escribir trabajos
  Da pena ver que incluso estudiantes de doctorado a veces escriben así
- Entre los artículos editados en Wiki Edu había algunos que parecían más bien tareas de escritura creativa
  Al leer las fuentes, a menudo se veía que malinterpretaban el sentido o resumían mal de forma extraña
  Los LLM son la herramienta perfecta para este tipo de “escritura para sacar puntos” de los estudiantes
Más allá del problema de Wikipedia, el tema más grave es que millones de personas en todo el mundo generan texto con LLM y una parte de eso se consume como si fuera verdad
Los LLM no tienen ninguna obligación con la verdad y solo son fieles a la coherencia gramatical
- En realidad, ni siquiera a la coherencia gramatical, sino más bien a ajustarse a un estilo de redacción socialmente aceptado
  A veces eso coincide con la realidad por casualidad, pero siempre es inestable
Incluso viendo solo algunos artículos, podría ser que la proporción de texto escrito por bots haya sido detectada por debajo de la real
Es decir, puede que solo se hayan detectado los artículos que no pasaron la verificación
- Pangram es una red neuronal de clasificación de texto entrenada comparando texto escrito por humanos con texto escrito por varios LLM
  Más detalles están en el PDF del artículo
Desde la perspectiva de los proveedores de LLM, esto parece una tragedia del tipo contaminación de un recurso compartido
Wikipedia representa una gran parte de los datos de entrenamiento, así que cuesta entender por qué la contaminarían ellos mismos
Sería interesante ver una política que prohibiera el uso de IA en Wikipedia
- Pero los responsables no son los proveedores de IA sino los usuarios
  En GitHub está pasando lo mismo
- De todos modos, estos errores de citas existían desde antes de los LLM
  No solo en Wikipedia: en otros lados también son comunes las citas cuyas fuentes no respaldan la afirmación
- Al final, quienes provocan este tipo de problemas son los usuarios individuales
Una función realmente útil sería un chatbot al que se le pudieran preguntar las guías de edición
Ahora mismo, incluso editores con experiencia interpretan las reglas como se les da la gana en las páginas de discusión
La cultura de “primero revertir y luego poner la razón” se vuelve una barrera enorme para los principiantes
En ese tipo de cosas, un bot podría refutar de inmediato
Otro problema son las wikis basadas en IA como Grokipedia
A simple vista se ven más elegantes y amigables para móvil que Wikipedia, pero contienen información distorsionada de forma intencional
Puede que algunas grandes empresas o fuerzas políticas busquen debilitar las fuentes de información democráticas
Hay que tener cuidado de que Wikipedia no se vuelva blanco de este tipo de ataques
Es cierto que el spam de IA baja la calidad, pero en el fondo esto es un problema de control de calidad en Wikipedia
El proceso de revisión es lento, y tampoco garantiza que la información nueva sea correcta
Aunque desaparezca el spam de IA, si no mejora el control de calidad no servirá de mucho
Wikipedia debería reconstruir su sistema de control de calidad para explicar las cosas con claridad, ajustándose al nivel del lector promedio

IA generativa y edición en Wikipedia: lo que aprendimos en 2025

La relación entre la IA generativa y Wikipedia

Resultados de detección y verificación de IA

Mejoras del programa y sistema de detección de IA

Patrones de uso de IA y efecto de la capacitación

Posibilidades de uso positivo de la IA

Conclusiones de Wiki Education y planes a futuro

Implicaciones para Wikipedia en general

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News