¿Funcionan los detectores de IA? Estudiantes enfrentan acusaciones injustas de hacer trampa

(bloomberg.com)

1 puntos por GN⁺ 2024-10-21 | 1 comentarios | Compartir por WhatsApp

A medida que las herramientas de detección de IA se usan para evaluar tareas, si un texto de un estudiante es clasificado como contenido generado por IA, esto puede afectar de inmediato su calificación y la evaluación de una posible deshonestidad académica
Moira Olmsted dice que en 2023 recibió un 0 en una tarea entregada en un curso en línea de Central Methodist University después de que se determinara que podría haber sido generada por IA
Se informa que el profesor citó los resultados de una herramienta de detección y respondió que el texto de Olmsted ya había sido marcado al menos una vez antes
Olmsted había comenzado un programa de formación docente mientras compaginaba un empleo de tiempo completo y la crianza, tras reunir el dinero para un programa remoto y autodirigido
Si cerca de dos tercios de los docentes usan con regularidad herramientas para detectar contenido generado por IA, incluso una tasa de error pequeña puede terminar teniendo grandes consecuencias para muchos estudiantes

Caso de una estudiante que recibió 0 por una herramienta de detección de IA

Moira Olmsted dejó la universidad al inicio de la pandemia, formó una familia y luego intentó volver a estudiar
Mientras trabajaba a tiempo completo y cuidaba a sus hijos pequeños, ahorró durante varios meses para pagar un programa autodirigido que le permitiera estudiar a distancia
En 2023, cuando tenía siete meses de embarazo de su segundo hijo, se inscribió en un curso en línea de Central Methodist University para comenzar sus estudios y convertirse en maestra

El veredicto después de entregar la tarea

Unas semanas después del inicio del semestre de otoño, Olmsted entregó una tarea de redacción en una clase obligatoria
Esa tarea era uno de los tres resúmenes de lectura semanales que debía hacer
La calificación que recibió después fue 0
Cuando Olmsted le preguntó al profesor, este le respondió, según se informa, que una herramienta de detección de IA había determinado que el texto probablemente fue generado por inteligencia artificial
También se dice que el profesor afirmó que el texto de Olmsted ya había sido marcado al menos una vez antes

Herramientas de detección ampliamente usadas y el costo de los errores

Cerca de dos tercios de los docentes dicen usar regularmente herramientas para detectar contenido generado por IA
A medida que aumenta la escala de uso, incluso una tasa de error muy pequeña puede acumularse rápidamente
Si los resultados de detección derivan en calificaciones de tareas y acusaciones de deshonestidad académica, una evaluación equivocada puede convertirse en una gran carga para cada estudiante

1 comentarios

GN⁺ 2024-10-21

Opiniones de Hacker News

Enseñé matemáticas en educación superior durante 30 años y estoy por jubilarme; hay una cantidad enorme de trampas en las tareas calificadas que no se supervisan en el aula.
Cosas como bloquear el navegador no lo impiden. La única solución es exigir exámenes presenciales supervisados y no permitir el uso de ninguna tecnología durante el examen, pero si se hiciera eso no habría estudiantes que se inscribieran en ese curso. Lo único que se me ocurre es que la Higher Learning Commission lo exija para todas las clases.
El problema más grande es que los estudiantes no están acostumbrados a hacer el trabajo necesario para aprender, sino solo el trabajo necesario para aprobar. Y cada vez más, ese trabajo consiste en hacer trampa. Incluso entre estudiantes de cálculo hay quienes no pueden manejar fracciones. Si creáramos un sistema que realmente impidiera las trampas, quedaría al descubierto que un porcentaje muy alto de los universitarios actuales no está preparado para recibir una verdadera educación universitaria. K-12 también tiene que cambiar.
- Creo que hicimos que el costo de fracasar fuera demasiado alto y que hacer trampa fuera demasiado fácil.
  Desde la perspectiva del estudiante, lo que suele mirar la siguiente institución es, en ese orden: calificaciones, universidad y carrera. Si el costo de no sacar una A es quedar excluido de oportunidades futuras, los estudiantes van a evitar esa exclusión tomando clases más fáciles o haciendo trampa.
  Estudié física, tomé las clases difíciles que quería tomar y no hice trampa, y me gradué con un promedio de 2.7; ese tipo de decisiones tiene consecuencias reales. Creo que la solución es depender menos de evaluaciones vulnerables a las trampas o de evaluaciones que en el mundo real se resolverían con una computadora.
- En Alemania todos los exámenes son así. Las tareas son solo un requisito para poder rendir el examen, o las tareas/proyectos dan apenas una pequeña cantidad de puntos extra, y la calificación la determina el examen.
  Las materias obligatorias son necesarias para obtener el título, así que si el plan de estudios incluye álgebra lineal, no existe la opción de “no inscribirse”. Si repruebas 3 veces, te expulsan.
  Es porque las universidades en Alemania y en la mayor parte de Europa se financian con impuestos. En EE. UU., a las universidades les conviene retener a estudiantes que pagan bien, así que seguirán por el camino que acabas de describir. Es un servicio, una estructura de clientes que compran un título.
- Totalmente cierto, y no es algo limitado a EE. UU.
  Tomé una clase de gráficos por computadora en la universidad, y en los conjuntos de problemas literalmente todos sacaban más de 100% gracias a las preguntas de bonificación, mientras que la mediana del examen parcial fue inferior al 50%. Recuerdo que en una sesión de preparación para el examen, cuando el profesor aceptó preguntas, un estudiante pidió con toda seriedad que le volvieran a explicar todo el concepto de las matrices.
  Como referencia, era una materia de nivel 400, en una de las universidades más reconocidas de Canadá. Fue hace más de 20 años, así que de algún modo ahora debe de estar peor.
- Recuerdo que en una clase de matemáticas de la universidad el profesor tenía una forma peculiar de lidiar con las trampas. Permitía usar el libro, los apuntes y “cualquier función de calculadora” de la TI-84.
  Su lógica era que, de todos modos, los estudiantes intentarían usar esos trucos, así que mejor permitirlos y cambiar el examen para que fuera inmune a esa ventaja. Antes de cada examen decía que se podían usar herramientas, pero que “estudien; el libro, los apuntes y la calculadora no los van a salvar”.
  A largo plazo, creo que la educación irá más hacia cambiar los planes de estudio para que las herramientas de IA no den una gran ventaja, en vez de intentar impedir su uso.
- Estar acostumbrados a hacer “lo necesario para aprobar” también se aplica a las entrevistas de trabajo.
  En contrataciones de ingenieros de software hice cientos de entrevistas técnicas como entrevistador, y aún ahora ayudo a empresas con contrataciones como entrevistador independiente; hay una cantidad enorme de trampas. En empresas comunes, creo que al menos el 30% hace trampa; en FAANG, más del 50%.
  Mucha gente comparte ejercicios técnicos en grupos y foros privados, y recibe ayuda de algún tipo durante la entrevista. Una y otra vez veo problemas diseñados intencionalmente para ser complejos resolverse en pocos minutos de la mejor manera posible.
Ahora, evaluar qué tan profundamente entiende un estudiante un tema solo con ensayos escritos ya no es eficaz.
La IA llegó para quedarse, y se necesitan nuevas formas de evaluar el desempeño de los estudiantes. Recuerdo que en la escuela me decían que no podíamos usar calculadoras durante los exámenes. Los maestros decían: “No puedes confiar en que siempre tendrás una calculadora cuando más la necesites”, pero hoy la ironía es que tenemos una “calculadora” en el bolsillo las 24 horas.
Hay que aceptar que el mundo cambió. Solo espero que podamos decidir juntos cómo responderá la sociedad a ese cambio, y que no nos veamos empujados a la fuerza.
- Evaluar con ensayos escritos no es eficaz ahora, y tampoco lo era antes. Era una medida de ahorro que se usaba porque las instituciones ni siquiera podían imaginar el costo de asignar 30 minutos de evaluación presencial por estudiante y por clase.
  Vale la pena pensarlo cada vez que uno ve un préstamo estudiantil. Ni siquiera con ese dinero se compraban 30 minutos individuales de evaluación con el profesor por cada clase; en cambio, se hacía que los estudiantes dedicaran aún más tiempo a trabajos escritos y luego se le pasaba la corrección a un ayudante que cobraba salario mínimo.
- Medir una comprensión profunda solo con ensayos escritos nunca fue eficaz, y la IA solo lo volvió más ineficiente.
  El ejemplo típico son los ensayos de admisión universitaria. Algunos estudiantes pueden recibir de sus padres experiencias que se ven bien en un ensayo, y también pueden contratar tutores para “apoyarlos” en su redacción. Viajes educativos a África, clases de dos instrumentos, coaching individual de golf, cosas así.
  La IA solo hizo que esa parte del tutor fuera accesible y costeable para un grupo más amplio. Sería ingenuo pensar que antes de la IA no existía un mercado gris de coaching para ensayos y un mercado oscuro de servicios de escritura por encargo. En muchos casos, ese mercado sigue funcionando mejor que la IA.
- Decidir juntos cómo responderá la sociedad al cambio casi nunca ocurre en la práctica; el resultado se define mediante alguna forma de lucha.
  Normalmente es una lucha pacífica que se da en tribunales, congresos y mercados, pero sigue siendo una lucha.
  Los estudiantes están siendo evaluados ahora, así que si se necesita un nuevo método de evaluación, se necesita una respuesta ahora. Podríamos volver a los antiguos exámenes orales, que todavía se usan en los doctorados. Pero no escalan en absoluto. Quizás haya que racionar agresivamente la educación superior según el tiempo limitado disponible para evaluaciones persona a persona.
  Personalmente, veo todo esto como impredecible e inestable. Si los defensores de la IA tienen razón —aunque no creo que la tengan—, desaparecerá la mayor parte de los trabajos de oficina y campos académicos para los que se entrena y evalúa a los estudiantes.
- Creo que la política de no permitir calculadoras en los exámenes era excelente; lo que era pésimo era la explicación.
  El argumento de que no podrías conseguir una calculadora no tenía sentido ni siquiera entonces, pero la observación de que depender de una calculadora te quitaba el entrenamiento mental que se buscaba sí era correcta. El problema era que era difícil explicarles a chicos de 12 años que las matemáticas son realmente bellas, y que sus principios sistemáticos cambian de manera fundamental la forma de ver el mundo.
  Con los ensayos pasa lo mismo. Yo odiaba escribir ensayos y racionalizaba de muchas formas que nunca tendría que escribirlos en el futuro, pero después vi que lo que los ensayos imponían era pensamiento estructurado. El ensayo no era una herramienta para evaluar la capacidad en una materia, sino una herramienta para aprender; el acto mismo de escribir era parte del aprendizaje.
  Eso es lo que se pierde cuando se dice que “los niños no necesitan calcular mentalmente”. La capacidad de calcular era solo una parte; aprender que uno puede aprender ese cálculo era al menos igual de importante.
- En Francia, escribíamos los ensayos durante la clase, sin celular ni libros, solo con papel y pluma y la cabeza. Sigue siendo una forma 100% posible.
Lo irritante es que los estudiantes no parecen tener derecho a que les digan por qué la IA marcó su tarea.
En cualquier procedimiento en el que una computadora juzgue a una persona, debería haber una regla que obligue a poder explicar exactamente por qué el algoritmo la marcó.
Esto prácticamente mataría las soluciones actuales basadas en IA. No hay forma de explicar ni entender por qué decidieron que un trabajo es plagio o no, pero eso está bien.
- Iría un paso más allá: creo que no se debería permitir que una IA evalúe a personas en ningún contexto. Porque ya se demostró que no funciona, y seguirá siendo así.
  Si quieren saber más, recomiendo el libro reciente de Arvind Narayanan y Sayash Kapoor, AI Snake Oil. Es crítico pero equilibrado, y ayuda a ver con más claridad la fiebre por la IA.
  https://press.princeton.edu/books/hardcover/9780691249131/ai...
- “Su trabajo fue marcado como plagio, así que tiene 0.” “Lo escribí 100% yo. ¿Qué se supone que plagié?” “Eso no aparece, pero de todos modos tiene 0.”
  ¿En qué mundo eso es justo? Al menos los tribunales no funcionan sobre esa premisa.
- Es parecido al problema de los sistemas automáticos de detección de fraude que bloquean cuentas en grandes empresas como Google sin decir el motivo.
  Creo que debería haber leyes que exijan una explicación clara cuando pasan estas cosas.
- Los chicos de hoy de verdad deben sentirse desmoralizados. Si usan IA, les dicen que es hacer trampa y que es moralmente malo. Si no la usan, de todos modos terminan acusándolos de haberla usado, o se quedan atrás frente a quienes sí la usan.
  En la secundaria ya era bastante difícil descubrir quién era uno; en ese entonces Kafka era solo una lectura asignada.
- Este tipo de exigencia es una parte importante del GDPR.
Soy consultor en un gran hospital universitario y soy neerlandés. Hace unos años recibí el comentario de que mi tesis doctoral “debería haber sido revisada por un hablante nativo”.
Así que ahora reviso mi inglés con ChatGPT. Escribo yo mismo lo que quiero decir y luego le pido que lo corrija para que sea “más conciso, más profesional y no demasiado estadounidense”. Porque, por defecto, suena excesivamente entusiasta, como mesero estadounidense.
9 de cada 10 veces expresa lo que quiero decir mejor que yo, con menos palabras y mejor inglés. No diría que me reduce el tiempo de redacción de informes, pero el resultado es mucho mejor de lo que podría haber producido solo.
Puede que un detector de IA se active, pero eso es tan inútil como un detector de correctores ortográficos. Es un modelo grande de lenguaje, no un modelo grande de hechos. Si eres docente, ¿no deberías ser bueno detectando tonterías?
Si revisara informes de estudiantes, creo que daría esta retroalimentación: por favor revisen el lenguaje con ChatGPT, pero por favor verifiquen los hechos de otra manera.
- En segundo año de preparatoria, mi profesor de inglés avanzado también daba Inglés AP, y todos los de segundo teníamos que escribir un trabajo final del semestre. El profesor hizo que los de tercer año del grupo AP leyeran por encima nuestros borradores y nos dieran comentarios.
  Para ambos grupos fue una clase prácticamente gratis, y ayudó muchísimo. Al año siguiente yo hice lo mismo. También recuerdo que en esa época las computadoras eran relativamente raras y mecanografiar era una habilidad que se aprendía aparte, así que la mayoría de los borradores estaban escritos a mano.
  Desde hace mucho existe el dicho de que, si de verdad quieres aprender un tema, intentes enseñarlo. Este tipo de intercambio funciona bien, y así es, en general, como opera el resto de la sociedad. Usar IA sería bastante parecido, pero creo que otra persona es mejor. La IA no te detiene en el pasillo para decirte: “oye, me perdí por completo en la parte central de tu trabajo, ¿qué rayos es esto?”, y a veces ese tipo de comentario ayuda mucho.
- Los LLM son muy útiles para mejorar el flujo y la estructura de un argumento, no solo para hablantes no nativos, sino también para hablantes nativos de inglés.
  Hacer que un texto sea más accesible mediante un lenguaje claro y una argumentación bien estructurada es un servicio valioso para el lector, y veo con buenos ojos a quienes usan LLM para eso. Yo también lo hago.
- Por diseño, no son modelos grandes de hechos, pero el corpus de entrenamiento inevitablemente contiene muchos “hechos”. Más precisamente, afirmaciones hechas por los autores originales.
  Un modelo que intenta producir no ficción sobre un tema determinado en realidad habrá visto más patrones de afirmaciones que por casualidad eran verdaderas, o al menos que tienen la misma forma que afirmaciones verdaderas y no presentan señales evidentes de lo contrario.
  Claro, de vez en cuando se sale de la vía y produce alucinaciones. Cuando eso ocurre, mala suerte para el estudiante que no verifica la salida. Y si una de las motivaciones para hacer trampa es no conocer el contenido lo suficiente como para verificarlo bien, debe haber bastantes estudiantes así.
La escuela de mi hijo instaló un nuevo detector de armas por el que tienen que pasar al entrar, y dicen que está basado en “IA”. La escuela confía bastante en esa IA.
Pero la IA identifica las laptops Lenovo entregadas por la escuela como armas. Así que marcó a todos los niños. En vez de dejar de usar una herramienta tan tonta, les hacen sacar la laptop antes de pasar por el escáner.
Parece que personas que no son lo suficientemente listas compran productos de “IA” y creen que harán lo que quieren, pero en realidad no funcionan.
- Leer esto suena como vivir dentro de una pesadilla distópica.
- Este es exactamente el tipo de ámbito donde se necesita regulación de IA. La precisión debería publicarse en un formato estándar, como una etiqueta de información nutricional.
  Se debería obligar a quienes compran sistemas con presupuesto público a definir un buen plan para manejar los falsos positivos y falsos negativos esperados, con base en la precisión y el recall anunciados.
- Entonces parece que un estudiante también podría vaciar una laptop por dentro y meter un arma escondida.
- ¿Era Evolv? https://www.theverge.com/2024/4/2/24119275/evolv-technologie...
- A veces se usan herramientas subóptimas para evitar demandas.
Es bastante demente que los adultos hayan pasado, en uno o dos años, a creer en cualquier algoritmo. No saben cómo funciona, no pueden explicarlo, no les importa, simplemente dan por hecho que funciona. Es magia, básicamente. Si dice que fue trampa, entonces fue trampa, y no puedes hacer nada.
Lo que quiero subrayar es que no se trata solo de creer en la magia, sino de que hoy la gente hace cosas absurdas con demasiada tranquilidad y sin asumir responsabilidad. En la escuela, alguna vez hice en serio una tarea de una clase por primera vez porque me interesó, y me sospecharon de “hacer trampa”. Fue insultante escuchar que era imposible que yo la hubiera hecho, pero aun así me dieron la calificación. Si no podían probarlo, no importaba lo que pensara el profesor: básicamente firmar y largarse; esa fue la última tarea que hice para esa clase.
En cambio, si lo que dice este artículo es correcto, ahora los docentes no necesitan probar nada. El hecho de que la moneda haya caído en cara se trata como prueba suficiente. Parece que todos lo aceptan como “la escuela tiene ese sistema, qué se le va a hacer”. Es una locura.
- Hubo una buena observación sobre el problema de las redes neuronales y la salida generativa: son programas que corren en una computadora.
  Durante más de 30 años hemos entrenado a la gente para creer que las computadoras producen salidas precisas, exactas y reproducibles. Pero las empresas de redes neuronales crearon generadores aleatorios de símbolos y ocultan activamente el hecho de que hay aleatoriedad programada dentro de esos programas.
  Hace poco hubo otro caso en un tribunal de EE. UU. con texto generado, y esta vez no parecía haber mala fe. El punto es que el demandante le pidió a una red neuronal cálculos financieros históricos sobre el valor de una propiedad y, “como era una computadora”, lo creyó de inmediato. Las computadoras siempre tienen razón, y las redes neuronales corren en computadoras, así que siempre tienen razón. Pronto esta forma de pensar se extenderá a todos los hogares del mundo. Para entonces quizá extrañemos la deshonestidad y la propaganda de los medios. Al menos antes se podía distinguir, hasta cierto punto, si una fuente mentía deliberadamente.
- No es sorprendente. Lo que acabas de describir es el enfoque de más del 95% de la población hacia la tecnología en general.
  Rara vez sienten incomodidad ante esa ignorancia, y casi no tienen deseo de aprender ni lo básico. Hay personas que necesariamente deberían saberlo, y para mí eso es muy difícil de entender.
- La gente cree en los sistemas porque otras personas creen en ellos.
  Da igual si el sistema es una inquisición buscando brujas, una máquina o el Gulag soviético. El sistema dijo que era culpable, y el sistema no puede equivocarse.
  Kafka se revolcaría en su tumba.
- No es un bug, es una feature.
  Con este método, cada quien puede moldear la sociedad a su gusto desde su posición. Si el hermano de un estudiante era problemático, se puede decir “esa familia debe ser así, vamos a molestarlo”. Si no te gusta la raza, el género o la orientación sexual del estudiante, “chatGPT” te da un medio fácil para hacerle más difícil la vida escolar.
- Las empresas de IA deberían haber previsto y orientado sobre el caos que se les venía encima a los educadores.
Mi hija entregó un ensayo en su escuela en línea y la acusaron de que era un texto escrito por IA solo porque el software de la escuela dijo que sí. Su mamá la vio escribirlo.
Yo pensaba que era de sentido común que es imposible determinar si un texto fue generado por IA, pero parece que el proveedor del software es ignorante o miente, y los administradores de la escuela se lo creen.
- Una pista: no son ignorantes.
- Siento que pronto habrá disputas legales por cosas como esta. Como dijo otra persona, basta con pasar ensayos anteriores a ChatGPT por el software de detección de IA para ver su precisión.
  También está el problema de que los ensayos de estudiantes en el espectro autista son marcados de forma desproporcionada, así que podría convertirse en una especie de violación de derechos civiles.
- Creo que es casi de sentido común que es imposible identificar texto generado por IA. Pero el sueño de los educadores con los detectores de IA es tan fuerte que siguen queriendo creer que “esta empresa resolvió el problema”.
  Hacen una prueba sencilla por su cuenta y, si en general parece funcionar, concluyen que las afirmaciones de la empresa son ciertas. El problema es que esas pruebas casi siempre van en la dirección de hacer pasar trabajos escritos por IA como si fueran humanos, y no al revés.
  Como estas herramientas tienen una tasa de falsos positivos distinta de cero, inevitablemente habrá algún pobre estudiante que pasó semanas trabajando en un trabajo final de 20 páginas y termine acusado de usar IA. Para ese chico no habrá reparación ni apelación, porque la escuela gastó mucho dinero en el detector de IA y creerá que tiene razón.
- Me hace imaginar cuánto sentido común quedará una o dos generaciones después de que la gente decida que la capacidad general de razonar ya no es necesaria.
  Tal como ya decidieron que las calculadoras eliminan la necesidad de preocuparse por la aritmética.
- Al final, algún componente o proveedor en lo profundo del stack dará una respuesta, y la organización podrá señalar fácilmente al “sistema”, quedando lo bastante protegida de una decisión difícil.
  En Estados Unidos esto pasa todo el tiempo. La retroalimentación de los sistemas de validación de direcciones se acepta sin autorización del titular de la cuenta, y la dirección se cambia arbitrariamente. Llamas a atención al cliente y te dicen: “el sistema dijo que la dirección no era correcta”. Como si el sistema supiera mejor que yo, el DMV o la escritura de mi casa dónde he vivido durante 5 años. Si la tasa de error es lo bastante baja, en Estados Unidos la gente simplemente lo acepta.
  Luego empeora. Puede que la tasa de error no sea baja, sino alta para ciertos subgrupos. Ahí ves tu lugar en la sociedad. Basta con preguntarles a las personas de piel morena qué tan divertido fue volar en avión entre 2003 y 2006. En Nueva York, si la combinación de apellido y código postal no coincide bien, ni siquiera puedes alquilar una Citibike operada en terrenos públicos.
  Esto será igual. A menos que algo como una gran demanda de la ACLU lo exponga, es probable que el daño continúe hasta que se resuelva. Probablemente se usen como disparadores rasgos sutiles del estilo lingüístico, quizá sin intención. Las personas del “grupo interno” que no se ven afectadas dirán que es un sistema justo, y los demás tendrán que defenderse contra una caja negra cargando con la responsabilidad de probar su inocencia.
Uno de los maestros de mi hijo envió a los estudiantes una advertencia de que revisaría todos los ensayos con software de detección de IA y les indicó qué castigo recibirían si los atrapaban.
Un compañero puso la advertencia de ese maestro en el detector de IA y dio positivo como generada por IA.
- El tono por defecto de ChatGPT y el tono por defecto de la escritura escolar o académica no son exactamente iguales, pero en el enorme espacio vectorial de esas cosas están muy cerca.
  Los LLM seguramente ya consumieron una cantidad enorme de este tipo de textos. No sorprende que un reporte formal, ya sea de secundaria o universidad, que encaja exactamente con los requisitos y que en general debería sacar buena nota, tenga alta probabilidad de parecer generado con tecnología tipo GPT.
  Los LLM también habrán entrenado con muchos programas de curso y documentos básicos para docentes, y las comunicaciones breves entre maestro y padres o entre maestro y alumno difícilmente escapan de la misma región atractora de escritura que usan los LLM.
- Falta la parte más importante. ¿Qué pasó después? ¿Ganó la razón?
  Lo pregunto porque este problema de generación de textos con “IA” no es un problema técnico, sino un problema 101% humano.
- Espero que este alboroto histórico termine rápido y que nos adaptemos alejándonos de las tareas calificadas.
  Una tasa de falsos positivos del 4% es absurdamente alta si puede significar reprobar o ser expulsado. Más aún cuando un tramposo serio puede evadirlo en 2 minutos con un prompt previo como “escribe al estilo de fulano”.
- No creo que haya que preocuparse por ese hecho en sí.
  Es parecido a: “El maestro advirtió que compararía todos los ensayos con los de otros estudiantes para ver si eran iguales y que habría castigo si alguien era atrapado. Un alumno hizo una búsqueda en Google y vio que la pregunta del ensayo aparecía como ejemplo en un libro”.
  Una cosa es totalmente válida y la otra no. Claro que hay zonas grises. Usar ChatGPT para ciertos fines no es copiar, y también se podría decir que los chicos están aprendiendo a usar herramientas. Pero si le encargas el 95% del ensayo, eso sí es copiar.
Para cualquiera que corrija trabajos de estudiantes o lea solicitudes de empleo, se volvió muy fácil reconocer rápidamente el texto generado por IA.
Parece que los textos usan el mismo marco general y solo cambian las palabras. También está el fenómeno que llamo “la palabra de la semana”: algún motor de IA se obsesiona con cierta palabra en inglés, normalmente una palabra poco común, y la usa en cada oportunidad. No toma mucho darse cuenta de que el dicho de que esto es autocompletado con esteroides es cierto.
Pero programar una computadora para que haga esto no es fácil. En un trabajo anterior lidié con detectores de plagio, y pronto me di cuenta de lo basura que eran esas herramientas. También descubrí lo fácil que era engañarlas, pero eso es otro tema. Como el personal docente también se daba cuenta rápido de que la herramienta era un desastre, cuando un estudiante acusado de plagio lo refutaba, la acusación solía retirarse discretamente.
- En ingeniería tuve que cursar comunicación técnica como materia obligatoria. El profesor entendía que alguien que eligió ingeniería no necesariamente aprecia las sutilezas de la gran literatura, así que las tareas eran muy mecánicas.
  Eran cosas como: “escribe sobre un tema técnico, no importa cuál, 1500 palabras; aquí está la rúbrica”. La rúbrica incluía puntos como “usa una oración que introduzca el tema del párrafo”, y el resultado era una prosa extremadamente formularia.
  No sé si eso podía convertir a alguien en un gran comunicador, pero creo que funcionaba muy bien para llevar a quienes se comunicaban muy mal hasta un mínimo básico. También servía para otros trabajos de escritura, en parte porque mientras más formal fuera, más le gustaba al estudiante de doctorado sobrecargado que calificaba.
  Un estudiante lo bastante disciplinado puede terminar sonando como ChatGPT, y el costo de una acusación falsa es muy alto.
- Me pregunto cuándo llegará el momento en que un estudiante demande al personal docente por difamación debido a una acusación falsa de plagio con IA.
- ¿No significa eso que se puede detectar fácilmente a quienes ni siquiera hacen mucho esfuerzo por no ser descubiertos?
  También podría meter mi corpus de textos en ChatGPT y pedirle que escriba con mi estilo.
- Los humanos también hacen eso. Mucha gente tiene expresiones favoritas o palabras que usa con mucha más frecuencia que otras personas.
- Mi cónyuge no es hablante nativa de inglés. Habla con fluidez, pero desde que salió ChatGPT le resulta muy útil pegar párrafos y recibir una versión mejorada. Ya no tiene que pedirme que se los reescriba como antes.
  Aun así, a menudo me envía alguna oración y he tenido 100% de acierto al adivinar si antes pasó por IA. Una vez que te acostumbras a la forma en que estructura las oraciones, es muy fácil reconocerlo. Si estás en una posición de autoridad, como un docente, probablemente la parte más difícil sea demostrarlo.
Me cuesta entender la mayoría de los comentarios aquí.
En la secundaria no podía usar el celular durante clase, así que no podía hacer trampa. Lo mismo aplicaba a hojas de actividades y cuestionarios, y también a exámenes de opción múltiple, orales y de ensayo.
Pero los hilos superiores hablan como si hubiera que rediseñar todo el sistema escolar, y mucha gente propone depender de exámenes orales y exámenes supervisados. No sé qué problema resuelven exactamente más que un simple examen OMR en el aula donde el docente verifica que los estudiantes no usen el celular.
- Un examen en el que el docente verifica que no se use el celular: eso es precisamente un examen supervisado.
- ¿En tu secundaria no había ninguna tarea para evaluación sumativa?
  En muchos lugares, especialmente en Estados Unidos, casi no hay exámenes supervisados y una parte bastante grande de la calificación total consiste en trabajos de curso. A eso se suma la digitalización irreversible de la educación, y así llegamos a la situación actual.
  En el nivel universitario también hay proyectos, como ensayos o informes finales, que toman demasiado tiempo para completarse dentro del aula. Estos proyectos desde hace tiempo eran vulnerables a la redacción por encargo más que al plagio, y te sorprendería saber lo común que es incluso en universidades prestigiosas. Los LLM solo bajaron la barrera y lo hicieron más común.
  Este es un problema real, y la gente hace trampa de formas mucho más sofisticadas de lo que uno piensa al principio.
- Antes también se metían apuntes en calculadoras gráficas o se escondían cosas en la manga.
  El celular no es el único medio para hacer trampa; de hecho, puede ser más difícil usarlo a escondidas que algunos métodos antiguos.
- Vi a cientos de universitarios hacer trampa con éxito usando el celular durante clase.

¿Funcionan los detectores de IA? Estudiantes enfrentan acusaciones injustas de hacer trampa

Caso de una estudiante que recibió 0 por una herramienta de detección de IA

El veredicto después de entregar la tarea

Herramientas de detección ampliamente usadas y el costo de los errores

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News