- El sitio Low-background Steel reúne materiales no contaminados por contenido generado por IA
- Este proyecto se enfoca en materiales de texto, imagen y video creados antes de la expansión masiva del contenido de IA en 2022
- Presenta fuentes de referencia destacadas como Wikipedia, Arctic Code Vault y Project Gutenberg
- Los visitantes del sitio también pueden enviar nuevos materiales no contaminados
- Inspirada en el concepto de metal limpio anterior a las pruebas nucleares, esta idea se centra en mantener la confiabilidad y la originalidad
Introducción
- Low-background Steel es un sitio web que recopila recursos en línea no contaminados por contenido creado por IA
- El nombre del sitio se inspira en el Low-background Steel (y el plomo), metales fabricados antes de las pruebas nucleares y no contaminados por radiación
- Los metales extraídos de barcos hundidos antes de las pruebas nucleares (Trinity Test) son valiosos porque casi no tienen contaminación radiactiva
- A partir de esa idea, el proyecto busca preservar y señalar contenido digital puro producido antes del aumento explosivo de material generado por IA
Objetivos y contexto
- Se enfoca en asegurar diversas fuentes originales como texto, imágenes y video anteriores a la aparición del contenido generado masivamente con IA en 2022
- Entre estos materiales se incluyen bases de datos abiertas representativas y confiables como el volcado completo de Wikipedia, Arctic Code Vault y Project Gutenberg
- Los usuarios del sitio pueden agregar directamente nuevos materiales no contaminados mediante un formulario de envío
Importancia del sitio
- En una era de rápido aumento del contenido generado por IA, se vuelve importante preservar la originalidad y asegurar información confiable
- Low-background Steel busca ofrecer una referencia de datos limpios que pueda usarse sin preocuparse por la contaminación informativa
Cómo contribuir
- Cualquiera puede proponer nuevas fuentes de contenido no contaminado usando la función de envío del sitio
Referencia
- Incluye un enlace a la explicación de Wikipedia sobre Low-background Steel, que refleja bien la intención del sitio
- El proyecto fue abierto en marzo de 2023 y actualmente cumple el papel de hub experimental para la preservación de contenido en línea
1 comentarios
Opiniones de Hacker News
Le parece interesante la idea de añadir un nuevo "plane" a Unicode para duplicar como en un espejo todos los caracteres útiles y distinguirlos con bits de estado adicionales
Por ejemplo, imagina una zona de “resultado escrito directamente por humanos” donde usar texto generado por IA implique castigo inmediato; un área de “solo visible para humanos” donde incluso se prohíba que la IA aprenda o acceda; y un rango de “reconoce que fue generado por IA” donde toda salida de IA deba procesarse obligatoriamente con ese conjunto de caracteres
Claro, esos caracteres serían difíciles de distinguir visualmente y solo podrían diferenciarse pasando por software, así que funcionarían como un canal sutil
Aunque se copie y pegue el texto, la información original viajaría junto con la pequeña diferencia de codificación de caracteres
Casi lo dice en broma, pero le parece interesante un sistema así
Como con los alimentos orgánicos, cree que se formaría un valor premium para el contenido “orgánico” 100% escrito por personas
Siente que el criterio de “texto generado por IA” es ambiguo, así que da ejemplos concretos
En Unicode ya existían caracteres de etiqueta para marcar áreas de idioma, pero fueron descartados por quedar desplazados por markup de nivel superior (HTML, etc.)
Si esta ley entrara en vigor, en 12 milisegundos aparecerían en India “fábricas de tipeo” donde humanos copiarían resultados de IA para lavar los datos
Por ejemplo, si alguien escribe un texto en otro idioma y luego le pide a ChatGPT que lo traduzca al inglés, se pregunta si eso contaría como generado por IA
Afirma que los resultados de IA tienen intrínsecamente una tendencia a la reversión a la media
Lo ve como información que los humanos también podrían preguntar y obtener por sí mismos
Bastaría con ponerle a todo resultado de IA una etiqueta de <AI generated content>, y fuera de eso lo ve más cercano a contaminación que a bien público
Siguiendo esa lógica, la conclusión sería que ni siquiera haría falta escribir nada
Esa intuición alguna vez tuvo algo de respaldo experimental
El propio proceso de verificación y curaduría asociado al nombre de un experto humano también tiene mucho valor
Se pregunta si un texto editado por IA o con estilo modificado por IA sigue pudiendo considerarse escrito por una persona
Le parece un sinsentido
Cree que los términos usados en este texto fueron elegidos con mucha habilidad para minimizar la preocupación
Desde el fin de las pruebas nucleares, el nivel de radiación se ha acercado mucho al natural, ha disminuido la necesidad de nuevo acero de ultra bajo fondo radiactivo, y el acero nuevo también tiene una señal radiactiva lo bastante baja para la mayoría de usos
Por un lado, no cree que se necesiten necesariamente datos “no contaminados”
Es cierto que el fondo radiactivo bajó precisamente porque dejamos de hacer pruebas nucleares
Cree que este asunto no será tan grave como espera el público
A largo plazo, sostiene que la IA aprenderá de experiencias reales, lo que permitiría datos de entrenamiento infinitos no basados en obras y evitaría el problema de la contaminación por IA
En la práctica, las alucinaciones de la IA suelen citarse y terminar asentándose como si fueran verdad
Los datos de experiencia real, como la reparación de autos, son costosos y riesgosos de generar
En YouTube sobra material de experiencia real sobre reparación de autos, pero hay problemas de copyright
Se pregunta si de verdad hará falta AGI a largo plazo
Predice que, antes de que aparezcan robots humanoides con inteligencia general, no existirá un sistema de IA capaz de reparar autos en el mundo real
Por ahora no hay evidencia de que la “contaminación por IA” esté causando problemas reales en el entrenamiento de IA
Una IA entrenada con datos públicos previos a 2022 no muestra una ventaja de rendimiento notable frente a otra entrenada con datos posteriores a 2022
Incluso a veces los datos recientes salen un poco mejor
La forma de pensar detrás de la analogía de “low background steel” es que, si se entrena repetidamente con datos sintéticos, llegará un “model collapse” en el que el modelo se vuelve completamente inútil
Esa afirmación de arriba no le parece razonable por varias razones
Todavía no ha llegado de lleno el aluvión de “basurita” de contaminación por IA, pero espera que aumente rápidamente en adelante
A algunos no les molesta tanto el contenido de IA y consideran que la analogía con low-background steel es una idea brillantísima
A esa persona tampoco le molesta mucho el contenido de IA, y de hecho hasta creó un sitio relacionado
Personalmente, más que una fobia a la IA, le importa evitar el fenómeno de que la IA vuelva a entrenarse con sus propios resultados
Siente que un pensamiento suyo de hoy resultó tener una capacidad predictiva casi inquietante
Mi comentario anterior
Dice haber visto este caso ya hace al menos un año, o incluso antes, en Hacker News
Ha sido una analogía de uso común desde el lanzamiento de ChatGPT
También ya había visto el encuadre de contenido “sin contaminación de IA”, pero le parece bastante original haberlo comparado específicamente con “low background steel”
No está de acuerdo
Coincide en que la analogía con low-background es interesante
Duda que esta analogía sea realmente convincente
El low-background steel es algo que en la práctica es casi imposible volver a fabricar, mientras que el contenido libre de IA solo requiere no usar IA, así que la dificultad es mucho menor
En la práctica es casi imposible demostrar objetivamente que un resultado es AI-free, así que nadie salvo su autor puede estar realmente seguro
Se pregunta quién, por qué motivo y con qué dinero produciría contenido AI-free
Le parece solo un título pensado para atraer clics
Tomando como punto de partida que el nombre de este sitio viene de Y combinator, menciona encontrar el fixed point de una función como requisito para los modelos de inferencia
Aunque aumente la generación de datos sesgados por IA, espera que incluso si el entrenamiento mezcla contenido humano original, contenido derivado y derivaciones de esas derivaciones en varias capas, todavía será posible seguir extrayendo las características esenciales