Las publicaciones generadas por LLM deberían prohibirse

(lobste.rs)

1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp

Aunque hay mucho debate sobre cómo manejar los textos generados por LLM cuando se publican en el sitio, parece no haber una política clara que defina si se permiten o no
La postura es que los usuarios que publiquen textos generados por LLM de forma regular deberían ser bloqueados del sitio
Surgió la propuesta de mostrar en la página de envío un aviso que diga: “Los textos generados por LLM no están permitidos aquí”
Una política clara y ese aviso pueden reducir las discusiones sobre si los textos generados por LLM deben marcarse o responderse en los comentarios
La idea central es establecer un criterio explícito de que no se permiten envíos generados por LLM para simplificar la respuesta de la comunidad

1 comentarios

GN⁺ 3 시간 전

Opiniones de Lobste.rs

Parece bien tolerar que de vez en cuando se cuele algún texto de baja calidad. Si se establece explícitamente una prohibición del contenido generado por LLM, idealmente sin excepciones discutibles en los comentarios, habría menos basura en la portada y una base clara para bloquear a quienes reinciden
En general, estoy de acuerdo. Si es un texto que ni siquiera se tomaron el trabajo de escribir por sí mismos, no me interesa leerlo
Aun así, no sé cómo identificar perfectamente una redacción generada por LLM, y no me gusta la idea de que se bloquee a una persona o una fuente solo porque su publicación podría haber sido generada. A veces incluso me han sospechado de usar un LLM solo por usar em dash, cuando llevo más de 25 años escribiendo así
- Los falsos positivos ocasionales no me parecen un gran problema, siempre que no haya una política de tolerancia cero. Entiendo que la propuesta original apunta a dejarlo a criterio de moderación y a bloquear según el patrón de publicar repetidamente textos de baja calidad
  No se puede renunciar a una política solo porque detectar textos de baja calidad no sea perfecto. Habrá errores de vez en cuando, pero hay que poner resistencia sí o sí a la basura generada por LLM que está cubriendo la web y desplazando lo escrito por personas
De acuerdo
Normalmente suele ser bastante evidente cuando se trata de un texto generado por LLM, y también he visto casos donde, aunque no lo dicen en la publicación, el autor sí menciona en otra parte de su sitio que usa LLM. Eso hace más fácil decidir
Además, el instinto de la comunidad para detectar contenido de baja calidad parece bastante acertado. No recuerdo casos en los que una gran cadena de comentarios acusara equivocadamente a alguien de haber usado un LLM cuando no era así. Si nadie puede distinguirlo, entonces simplemente no se puede distinguir
En los casos realmente ambiguos, está bien asumir buena fe. El problema casi siempre son los textos demasiado obvios, no una situación en la que alguien esté intentando engañar a lobsters para colar la mayor cantidad posible de textos generados por LLM sin que nadie los detecte
Realmente odio los artículos generados por LLM y ojalá desaparecieran. Estos casos extremos probablemente son claros y fáciles de identificar, y creo que casi nadie se opondría a eliminarlos
Pero ¿qué pasa si alguien envía software que incorporó parcialmente commits generados por LLM? ¿O si hizo todo con LLM, pero documentó el proceso en un artículo de análisis? Estas objeciones son un poco de abogado del diablo, pero está claro que incluso dentro de lobsters hay un espectro sobre lo que se considera aceptable
No creo que sea viable prohibir todo contenido que haya sido tocado aunque sea un poco por un LLM. La respuesta más aceptable para la mayoría probablemente sería una marca sin penalización de karma. Algo como dejarle a quien venga después la señal de “para mí esto es generado, ojo”. En la práctica, los grandes hilos de comentarios ya están cumpliendo esa función, y podrían reducir peleas en los comentarios mientras también dan una señal sobre la visibilidad del contenido
- Los otros escenarios que planteaste son otra categoría y la diferencia es bastante clara. Si quieres tratarlos distinto a esto, puedes abrir otro hilo
Suena razonable. Si alguien no se toma el tiempo de ordenar sus propias ideas, me cuesta ver por qué yo tendría que dedicar tiempo a leerlas
Usar un chatbot como rubber duck para pulir una postura o revisar la gramática me parece bien. No creo que haga falta detección especial; bastan las expectativas de la comunidad y borrar los casos evidentes
Es facilísimo gritar de inmediato “¡texto basura de LLM!” cuando aparece algo que no te gusta. ¿Y entonces qué? Quiero ver textos pertinentes con los que estoy de acuerdo y también con los que no, y eso es sano
No estoy seguro de cómo se debería evaluar un texto como “de baja calidad”. Hay ejemplos obvios, pero también ambiguos. Es posible que una publicación legítima parezca floja simplemente porque su autor usa por casualidad cierto estilo que los LLM suelen imitar mucho
En los envíos “authored by”, mirar la flojera general del remitente podría ser justo. Si alguien publica constantemente textos claramente malos, se le puede marcar como alguien descuidado y, si moderación le dice “ya basta” y no se detiene, entonces sí bloquearlo
No sé si un “texto flojo” enviado por otra persona debería contar igual. Si una persona envía una y otra vez software cuyos textos parecen de baja calidad, quizás se le podría enfriar temporalmente la capacidad de publicar, pero no suena bien un sistema donde se bloquee a todos los remitentes si no pueden defender la fuente del texto
- No todas las reglas son una pendiente resbaladiza. Existen textos de baja calidad generados por LLM que son claramente evidentes, y eso por sí solo basta para justificar moderación
  Creo que estás subestimando lo antisocial que es publicar basura de baja calidad hecha con LLM. Incluso ahora, hay ejemplos obvios de eso flotando durante días en la portada porque gente subida a la ola de la IA los publica
- Hay que combatir fuego con fuego y usar un detector de textos basura de LLM
Publicación relacionada: https://lobste.rs/s/wee21u/this_is_written_by_llm_comments_should_be
Ejemplos:
https://lobste.rs/s/ojvhq9/coding_is_thinking_why_i_still_write_code
https://lobste.rs/s/eaxtmb/claude_for_legal_suite_plugins_for_legal
https://lobste.rs/s/fvqkke/new_claude_code_programmatic_usage
Estoy de acuerdo en que el texto generado por LLM debería poder filtrarse o llevar una marca
El problema es que, si un texto generado por LLM en realidad sí es pertinente, etiquetarlo como “fuera de tema” se vuelve un uso contradictorio. Ya antes se discutió una nueva opción de marca. Por ejemplo: https://lobste.rs/s/po97lh/new_tag_suggestion_genai_assisted
Sigo pensando que una nueva opción de marca es mejor que abusar de la marca de “fuera de tema”, como se discutió en https://lobste.rs/s/rkjpob/proposal_add_ai_generated_as_flag_reason
- Tomo el punto. La redacción fue mala. Debería estar prohibido
  Que se pueda filtrar o marcar no me parece tan importante. Quienes suben eso deberían ser expulsados del sitio. Las marcas o etiquetas son una pérdida de tiempo si no llevan a una acción real
Parece que solo se están escogiendo ejemplos sin valor, pero el texto generado por LLM en https://lobste.rs/s/hfnps5/osmand_s_faster_offline_navigation, aunque en general sea basura, sí contiene contenido original pertinente
- No. Lo que digo es que, dentro de lo posible, no quiero ver ningún texto generado por LLM publicado. Basta con ver a quienes lo votaron como spam. Si yo lo hubiera visto, habría sido uno de ellos
A partir de ahora, todas las formas de guion son ilegales
- No entiendo por qué la gente trata el em dash como si fuera una prueba definitiva. Por ejemplo, la salida HTML de Pandoc genera em dash a partir de -- en Markdown
La preocupación es que no es fácil saber con total precisión si un texto fue generado por LLM. Aun así, en la mayoría de los casos es evidente
A veces puede haber un texto generado por LLM que, de una forma u otra, sea “importante” o “digno de atención”. Por ejemplo, el informe CopyFail
Propuesta: el contenido generado por LLM debería prohibirse salvo en situaciones excepcionales, como vulnerabilidades de seguridad de gran impacto. Al decidir si un texto fue generado por LLM, conviene ser conservadores y, en los casos límite, dar el beneficio de la duda. Esas “situaciones excepcionales” podrían quedar a criterio de moderación o, a medida que evolucione la política, definirse como una lista de condiciones e ir mejorándola de forma iterativa

Las publicaciones generadas por LLM deberían prohibirse

Lecturas relacionadas

1 comentarios

Opiniones de Lobste.rs