Construir una web de confianza para enfrentar el spam de LLM

(blog.tangled.org)

1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp

Tangled incluye de forma nativa una función de vouching que permite a los usuarios avalar o denunciar a otros usuarios con los que han interactuado, y la usa como una señal de confianza para responder al aumento de envíos basados en LLM
Los usuarios avalados muestran un ícono de escudo verde junto a su foto de perfil, mientras que los usuarios denunciados muestran un ícono de escudo rojo, lo que sirve como pista para decidir si interactuar con ellos
A medida que las herramientas basadas en LLM reducen la barrera para enviar código a los proyectos, pueden aumentar los envíos de estilo “valle inquietante” que parecen correctos a simple vista pero son sutilmente erróneos, y los mantenedores pueden avalar o denunciar a contribuyentes que abusan de estas herramientas y generan carga de mantenimiento
Los avales y denuncias incluyen un campo de motivo basado en texto y aplican atenuación, por lo que los usuarios solo pueden ver los juicios emitidos por ellos mismos y por su círculo
Al avalar o denunciar en Tangled, se crea un registro público en el PDS del usuario, y el appview lo agrega para mostrar un “sombrero” de aval sobre los perfiles en issues, comentarios, pull requests y comentarios de pull requests

Señales de confianza en Tangled

Tangled incluye de forma nativa una función de vouching que permite a los usuarios avalar o denunciar a otros usuarios con los que han interactuado
Los usuarios avalados muestran un ícono de escudo verde junto a su foto de perfil, y los usuarios denunciados muestran un ícono de escudo rojo
Los usuarios también pueden ver los juicios de aval o denuncia emitidos por su círculo, y usarlos como señal para decidir si interactuar o no
A medida que las herramientas basadas en LLM reducen la barrera para enviar código a los proyectos, pueden aumentar los envíos de estilo “valle inquietante” que parecen correctos a simple vista pero son sutilmente erróneos
Los mantenedores de la red Tangled pueden avalar o denunciar a contribuyentes que abusan de estas herramientas y generan carga de mantenimiento

Cómo funciona y limitaciones de diseño

Diseño cuidadoso
- Los avales y denuncias incluyen un campo de motivo basado en texto
- Se aplica atenuación, por lo que los usuarios solo pueden ver los juicios emitidos por ellos mismos y por su círculo
- Actualmente, los usuarios denunciados no son bloqueados del proyecto; solo se muestra una etiqueta roja de advertencia en partes de la UI
Funciones adicionales previstas
- Como con el tiempo los mantenedores y contribuyentes pueden dejar un proyecto, los avales se debilitan con el paso del tiempo y deben renovarse ocasionalmente
- Podría añadirse una función de seguimiento de evidencia en la que, si se avala a un usuario justo después de fusionar un PR, ese PR se agrega como evidencia al registro de aval
Registros públicos y dónde se muestran
- Cuando alguien es avalado o denunciado en Tangled, se crea un registro público en el PDS del usuario
- Ese registro incluye si se trata de un aval o una denuncia, junto con un motivo opcional
- El appview de Tangled agrega los datos de aval de toda la red y muestra un “sombrero” de aval sobre los perfiles en los puntos de interacción
- Los lugares donde se muestra son issues, comentarios de issues, pull requests y comentarios de pull requests
Visibilidad basada en círculos
- El sombrero solo se muestra sobre un usuario si fue avalado o denunciado directamente por el usuario, o si fue avalado o denunciado por alguien a quien el usuario avaló
- Al hacer clic en el sombrero, se puede ver quién dentro de su círculo avaló o denunció a ese usuario
- Por ahora, el único resultado de una denuncia es la visualización del sombrero; en el futuro eso podría cambiar, pero por ahora se usa como una señal para ayudar a juzgar

1 comentarios

GN⁺ 1 시간 전

Opiniones en Lobste.rs

Una forma mejor y más simple sería crear una política fuerte anti-LLM y hacerla cumplir bien. También habría que alejarse de plataformas que fomentan el uso de LLM o tienen una postura pro-AI, como GitHub
No sería 100% efectivo, pero incluso cuando alguien intenta ocultar que usó un LLM, por lo general termina notándose, y ahí se le puede bloquear de inmediato. Si una empresa empuja spam con LLM, se puede bloquear a toda la empresa y, si usas una forja autoalojada, incluso bloquear en el firewall la red de esa compañía
Los sistemas improvisados tipo prueba de trabajo perjudican a quienes contribuyen por primera vez y a quienes pasan de vez en cuando, y al final los avales de confianza también son una forma de prueba de trabajo. Es más efectivo golpear rápido a los actores maliciosos que fastidiar a la gente más débil
- El objetivo de Tangled parece estar más cerca de evitar el spam que de evitar los LLM en sí
  Incluso en la cita dice que esto sirve para avalar o criticar a personas que abusan de esta herramienta y generan carga de mantenimiento
- Para eso haría falta una plataforma totalmente nueva, y tampoco parece que fuera a tener mucho impacto. Muchos proyectos aceptan envíos hechos con LLM, y a muchas personas desarrolladoras les parece bien cambiar de criterio según el proyecto
  Hacer que la gente acepte una prohibición a nivel de plataforma solo porque alguien se pone a hacer una cacería de brujas contra los LLM sería contraproducente. Incluso aquí o en HN a veces aparecen sospechas equivocadas de que un texto fue escrito con LLM; si hubiera que lidiar con eso en los PR, sería realmente agotador
- El objetivo que se declara aquí no es “LLM”, sino spam
  Este sistema busca evitar a quienes usan mal las herramientas y generan carga de mantenimiento, y también podría servir con personas que generan esa carga de la manera tradicional. Se parece más a un modelo más avanzado de permisos de commit
- Esto no trata de qué política concreta se violó, sino que se parece más a una respuesta para usar cuando alguien viola una política
  Si tienes una política anti-LLM, esto podría servir para aplicarla; si tienes una política contra el acoso, también podría servir para eso
Si no está conectado directamente con la posibilidad de enviar PR, en el mejor de los casos esto parece inútil y, en el peor, un sistema de moderación dañino. Alguien va a empezar a criticar en masa a usuarios que alguna vez usaron LLM, y después podrían empezar ataques colectivos por otros motivos
La web de confianza en sí suena genial, pero este proyecto solo trata la parte técnica y no la social. Si vas a construir un sistema de moderación y no tienes una sección grande donde se refleje en el diseño del sistema “cómo escalar esto sin abusos”, entonces se vienen sorpresas
- Los avales están diseñados para que solo puedas ver lo que hice yo o lo que hicieron cuentas que yo avalé, así que la crítica masiva contra personas desconocidas no debería ser visible
- Me preocupa que eso pueda pasar, pero en realidad creo que solo lo sabremos con certeza cuando llegue el primer caso famoso de cancelación
- El hecho de que incluya el concepto de decaimiento va en la dirección correcta. Por ahora ni siquiera controla directamente la política
  Es un experimento bastante interesante porque primero le agrega un incentivo social para intentar resolver un problema social, y el diseño se ve ingenioso
Si “los usuarios criticados no sufren ninguna consecuencia; solo reciben sombreros”, entonces, ¿qué sentido tiene? Al final igual hay que seguir procesando los PR
- Es un punto de partida para ver cómo funciona el sistema, y parece probable que después se agreguen funciones como bloqueo según nivel de confianza
- Puede que se agregue después. Al principio quiero probar lo que dijo @yorickpeterse, y luego me gustaría dejar que cada persona usuaria elija qué “reacción” tener frente a usuarios criticados
  Por ejemplo, cosas como bloquearlos o bajarles la prioridad
¿Hay algún mecanismo que impida crear varios dominios y en cada uno generar un millón de usuarios que se avalen entre sí? Así otras personas podrían comprarme paquetes de reputación difíciles de distinguir de los reales
En comparación, el modelo de árbol de invitaciones de lobste.rs parece mejor. Si alguien empieza a abusar, es fácil cortar todo el subárbol, y además crece más lento, lo cual incluso puede ser una ventaja
- Me gusta el modelo de human.json: https://codeberg.org/robida/human.json sobre todo la forma en que se visualiza en la extensión. Encuentra la ruta más corta hacia un sitio de confianza, marca la distancia con colores y también muestra la ruta
  En human.json, probablemente nadie avalaría nodos de una red así, o tendrían tan pocas conexiones entrantes que la distancia saldría muy grande. Eso no significa que no se pueda meter un sitio en la red, pero los avales y la desconfianza podrían expulsarlo rápido. Todavía falta ver cómo funcionaría en la práctica
- El etiquetado es por usuario. Si yo solo avalo a personas que no van a avalar millones de cuentas aleatorias, entonces la actividad tipo ataque sybil no afecta en absoluto mis avales
  Estaría bueno tener una capa de UI parecida a petnames, donde se pueda ver en línea o al pasar el mouse algo como “avalado por X, Y, Z”
- Sería interesante un modelo que puntúe los distintos grados de aval. Usando un árbol de invitaciones al estilo lobste.rs, si 100 personas avalan algo pero todas comparten el mismo ancestro, y en otro caso 5 personas lo avalan desde rutas muy distintas, entonces esas 5 deberían contar más
  Me pregunto cuánto ayudaría eso a frenar la “granja de reputación”
- A lo mucho, los bots podrían formar su propio círculo de avales entre ellos. El resto de la red no vería las decisiones de ese círculo, a menos que empezara a avalar esas cuentas bot
  Al final todos los datos son públicos, así que alguien podría crear tangled2.org y armar un grafo global, pero la UI está diseñada deliberadamente para que los avales se debiliten fuera de tu propio círculo
La idea está buena, pero me pregunto si no sería mejor simplemente comunicarse de forma natural. Hasta la comunicación más trivial está demasiado ordenada y demasiado consistente
Dejar errores de dedo en lo que uno escribe deja una especie de huella más humana
Me gusta esta idea. Me recuerda al tree of trust que usa lobste.rs
- O también está human.json. En mi sitio estoy pensando cambiarle el nombre a meat.json
Se siente como si estuviéramos recreando rápidamente la investigación sobre métricas de confianza que se hizo casi al mismo tiempo que nació el open source. Me pregunto qué opinaría @raph de esto
- Qué gusto ver un nombre de los de antes. El sistema de meta-moderación triple de Slashdot también merece reconocimiento
  No era perfecto, pero sin duda era mucho mejor que no tener nada
Siento que ya existen como seis cosas de este tipo, así que ¿por qué no unirse a una de las ya existentes en vez de hacer otra más?
- https://xkcd.com/927/

Construir una web de confianza para enfrentar el spam de LLM

Señales de confianza en Tangled

Cómo funciona y limitaciones de diseño

Diseño cuidadoso

Funciones adicionales previstas

Registros públicos y dónde se muestran

Visibilidad basada en círculos

Lecturas relacionadas

1 comentarios

Opiniones en Lobste.rs