1 puntos por GN⁺ 2025-06-11 | 1 comentarios | Compartir por WhatsApp
  • El sitio Low-background Steel reúne materiales no contaminados por contenido generado por IA
  • Este proyecto se enfoca en materiales de texto, imagen y video creados antes de la expansión masiva del contenido de IA en 2022
  • Presenta fuentes de referencia destacadas como Wikipedia, Arctic Code Vault y Project Gutenberg
  • Los visitantes del sitio también pueden enviar nuevos materiales no contaminados
  • Inspirada en el concepto de metal limpio anterior a las pruebas nucleares, esta idea se centra en mantener la confiabilidad y la originalidad

Introducción

  • Low-background Steel es un sitio web que recopila recursos en línea no contaminados por contenido creado por IA
  • El nombre del sitio se inspira en el Low-background Steel (y el plomo), metales fabricados antes de las pruebas nucleares y no contaminados por radiación
  • Los metales extraídos de barcos hundidos antes de las pruebas nucleares (Trinity Test) son valiosos porque casi no tienen contaminación radiactiva
  • A partir de esa idea, el proyecto busca preservar y señalar contenido digital puro producido antes del aumento explosivo de material generado por IA

Objetivos y contexto

  • Se enfoca en asegurar diversas fuentes originales como texto, imágenes y video anteriores a la aparición del contenido generado masivamente con IA en 2022
  • Entre estos materiales se incluyen bases de datos abiertas representativas y confiables como el volcado completo de Wikipedia, Arctic Code Vault y Project Gutenberg
  • Los usuarios del sitio pueden agregar directamente nuevos materiales no contaminados mediante un formulario de envío

Importancia del sitio

  • En una era de rápido aumento del contenido generado por IA, se vuelve importante preservar la originalidad y asegurar información confiable
  • Low-background Steel busca ofrecer una referencia de datos limpios que pueda usarse sin preocuparse por la contaminación informativa

Cómo contribuir

  • Cualquiera puede proponer nuevas fuentes de contenido no contaminado usando la función de envío del sitio

Referencia

  • Incluye un enlace a la explicación de Wikipedia sobre Low-background Steel, que refleja bien la intención del sitio
  • El proyecto fue abierto en marzo de 2023 y actualmente cumple el papel de hub experimental para la preservación de contenido en línea

1 comentarios

 
GN⁺ 2025-06-11
Opiniones de Hacker News
  • Le parece interesante la idea de añadir un nuevo "plane" a Unicode para duplicar como en un espejo todos los caracteres útiles y distinguirlos con bits de estado adicionales

    • Por ejemplo, imagina una zona de “resultado escrito directamente por humanos” donde usar texto generado por IA implique castigo inmediato; un área de “solo visible para humanos” donde incluso se prohíba que la IA aprenda o acceda; y un rango de “reconoce que fue generado por IA” donde toda salida de IA deba procesarse obligatoriamente con ese conjunto de caracteres

    • Claro, esos caracteres serían difíciles de distinguir visualmente y solo podrían diferenciarse pasando por software, así que funcionarían como un canal sutil

    • Aunque se copie y pegue el texto, la información original viajaría junto con la pequeña diferencia de codificación de caracteres

    • Casi lo dice en broma, pero le parece interesante un sistema así

    • Como con los alimentos orgánicos, cree que se formaría un valor premium para el contenido “orgánico” 100% escrito por personas

      • Pero, igual que en la industria alimentaria, decidir qué está permitido y hasta dónde algo es orgánico sería una pesadilla
      • La certificación dependería de redes de confianza y, al final, el resultado de IA podría seguir vendiéndose más caro aun estando contaminado
    • Siente que el criterio de “texto generado por IA” es ambiguo, así que da ejemplos concretos

        1. Un estudiante lo escribe a mano por sí mismo
        1. Consultó una enciclopedia en línea, pero esa enciclopedia usa IA internamente
        1. Le pidió a una IA que armara la estructura, los puntos clave y la conclusión de un ensayo, y luego lo escribió él mismo
        1. Tomó algo que él escribió y solo dejó a la IA corregir ortografía, frases y estilo
        1. La IA redactó todo el texto
        1. Escribió varias piezas él mismo y luego le pidió a la IA que eligiera la mejor
      • El primero y el último son claros, pero con los demás no está claro hasta dónde deberían considerarse resultados de IA
    • En Unicode ya existían caracteres de etiqueta para marcar áreas de idioma, pero fueron descartados por quedar desplazados por markup de nivel superior (HTML, etc.)

      • Esos caracteres no se ven y, al mover el cursor, varios se tratan como si fueran un solo carácter
      • Corresponden a ASCII, así que permiten insertar JSON o datos arbitrarios
      • Podrían usarse para marcar áreas generadas por LLM, aunque sería incómodo porque podría verse como datos ocultos o un uso no recomendado
      • Enlace relacionado: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Si esta ley entrara en vigor, en 12 milisegundos aparecerían en India “fábricas de tipeo” donde humanos copiarían resultados de IA para lavar los datos

    • Por ejemplo, si alguien escribe un texto en otro idioma y luego le pide a ChatGPT que lo traduzca al inglés, se pregunta si eso contaría como generado por IA

      • ¿Y si primero se escribe a mano, luego se hace OCR con un LLM y además se le da a la IA un esquema muy detallado con verificación estricta de hechos?
      • ¿Y si la IA solo se usa para revisar gramática o pulir la expresión científica?
      • Según su criterio, todos esos casos serían “no”
  • Afirma que los resultados de IA tienen intrínsecamente una tendencia a la reversión a la media

    • Lo ve como información que los humanos también podrían preguntar y obtener por sí mismos

    • Bastaría con ponerle a todo resultado de IA una etiqueta de <AI generated content>, y fuera de eso lo ve más cercano a contaminación que a bien público

    • Siguiendo esa lógica, la conclusión sería que ni siquiera haría falta escribir nada

      • Shakespeare, las demostraciones matemáticas, todas las novelas y noticias no serían más que combinaciones posibles de palabras
      • Cree que algo tiene suficiente valor no solo porque “puede producirse”, sino porque fue hecho para un propósito, una situación y un público concretos
    • Esa intuición alguna vez tuvo algo de respaldo experimental

      • Pero los resultados recientes de IA bien curados han logrado avances innovadores, así que ya no queda claro que esa afirmación siga siendo cierta
    • El propio proceso de verificación y curaduría asociado al nombre de un experto humano también tiene mucho valor

      • En la práctica, la mayor parte del contenido de internet ya era de baja calidad y hecho por gente no experta y mal pagada, así que no cree que la IA lo esté empeorando necesariamente
    • Se pregunta si un texto editado por IA o con estilo modificado por IA sigue pudiendo considerarse escrito por una persona

      • En su caso, dicta entradas de blog en sus notas por voz y luego las pule con CGPT o Claude para ajustar tono y ritmo
    • Le parece un sinsentido

      • Si alguien ha usado de verdad herramientas de deep research, entiende que los humanos también producen mucho contenido sin valor
      • Pide no caer en malentendidos utópicos
  • Cree que los términos usados en este texto fueron elegidos con mucha habilidad para minimizar la preocupación

    • Desde el fin de las pruebas nucleares, el nivel de radiación se ha acercado mucho al natural, ha disminuido la necesidad de nuevo acero de ultra bajo fondo radiactivo, y el acero nuevo también tiene una señal radiactiva lo bastante baja para la mayoría de usos

    • Por un lado, no cree que se necesiten necesariamente datos “no contaminados”

      • Le da la impresión de que los datos de LLM son mucho mejores que los comentarios promedio de reddit
      • Cree que todavía es fácil encontrar datos “puros” en archive.org, Gutenberg y similares
      • Y que es inevitable que la salida de LLM termine impregnándolo todo
    • Es cierto que el fondo radiactivo bajó precisamente porque dejamos de hacer pruebas nucleares

  • Cree que este asunto no será tan grave como espera el público

    • A largo plazo, sostiene que la IA aprenderá de experiencias reales, lo que permitiría datos de entrenamiento infinitos no basados en obras y evitaría el problema de la contaminación por IA

    • En la práctica, las alucinaciones de la IA suelen citarse y terminar asentándose como si fueran verdad

      • Ejemplo: al preguntar varias veces a una IA “¿cuál era el programa de productividad integrado de connect four para MS-DOS?”, siempre devuelve respuestas distintas, pero todas incorrectas
      • Esa información errónea vuelve a citarse en la web, y luego la IA aprende otra vez ese dato incorrecto, formando un círculo vicioso
      • En una situación así, se vuelve difícil saber cuál es la verdad
    • Los datos de experiencia real, como la reparación de autos, son costosos y riesgosos de generar

      • Igual que un mecánico humano, una IA tendría que partir de manuales y de un programa de formación explícito
      • Si aprendiera solo de datos de ejecución real, terminaría dañando autos por ensayo y error, y aun así requeriría intervención humana
      • Incluso con RL off-policy, esos datos también podrían provenir de modelos de generaciones anteriores, es decir, de cosas hechas por IA, por lo que no serían completamente “libres de contaminación por IA”
      • Por eso, solo con experiencia real no se resuelven por completo los límites de oferta, el costo ni el problema de contaminación por IA
    • En YouTube sobra material de experiencia real sobre reparación de autos, pero hay problemas de copyright

      • Se discute si las empresas de IA deberían obtener licencias antes de usar ese contenido
    • Se pregunta si de verdad hará falta AGI a largo plazo

      • Le genera dudas la idea de que, una vez llegue la AGI, también mejorará la calidad del contenido spam
      • Remite a este xkcd: https://xkcd.com/810/
    • Predice que, antes de que aparezcan robots humanoides con inteligencia general, no existirá un sistema de IA capaz de reparar autos en el mundo real

      • Lo mismo aplica a una mucama de IA en un hotel de cinco estrellas
      • Por eso considera algo poco realista la idea de que el problema de contaminación de bases de datos lingüísticas se resolverá solo con el tiempo
  • Por ahora no hay evidencia de que la “contaminación por IA” esté causando problemas reales en el entrenamiento de IA

    • Una IA entrenada con datos públicos previos a 2022 no muestra una ventaja de rendimiento notable frente a otra entrenada con datos posteriores a 2022

    • Incluso a veces los datos recientes salen un poco mejor

    • La forma de pensar detrás de la analogía de “low background steel” es que, si se entrena repetidamente con datos sintéticos, llegará un “model collapse” en el que el modelo se vuelve completamente inútil

      • En la práctica, eso no ha ocurrido, y tampoco parece que las empresas de IA estén operando filtros internos para separar y excluir datos de IA
      • Más bien cree que, si los humanos se exponen demasiado a datos de IA, el colapso del modelo podría manifestarse en los humanos
      • Aclara que eso es solo su experiencia e intuición
    • Esa afirmación de arriba no le parece razonable por varias razones

        1. Desde 2022 las técnicas de entrenamiento de LLM han mejorado muchísimo, así que puede que el impacto negativo de la “basurita” de IA en los datos no sea lo bastante grande como para notarse
        1. La evaluación del rendimiento es ambigua y solo se deja ver en diferencias pequeñas entre modelos de la misma generación, como Gemini 2.5 vs Claude 4
      • Efectos tan pequeños son difíciles de demostrar con datos, y justo por eso cree importante un enfoque de principios
      • En principio, sería preferible evitar entrenar con resultados generados por IA
    • Todavía no ha llegado de lleno el aluvión de “basurita” de contaminación por IA, pero espera que aumente rápidamente en adelante

  • A algunos no les molesta tanto el contenido de IA y consideran que la analogía con low-background steel es una idea brillantísima

    • A esa persona tampoco le molesta mucho el contenido de IA, y de hecho hasta creó un sitio relacionado

      • El propósito es registrar materiales que se sabe con certeza que fueron hechos por humanos
    • Personalmente, más que una fobia a la IA, le importa evitar el fenómeno de que la IA vuelva a entrenarse con sus propios resultados

      • El contenido de la era “pre-AI” es una rareza que ya no puede producirse de nuevo y cuya escasez solo aumenta
      • Si en 2015 se le hubiera puesto timestamp criptográfico a todos los datos, habría sido mejor, pero cree que incluso ahora toca cuidar lo que queda
  • Siente que un pensamiento suyo de hoy resultó tener una capacidad predictiva casi inquietante

    • Mi comentario anterior

    • Dice haber visto este caso ya hace al menos un año, o incluso antes, en Hacker News

    • Ha sido una analogía de uso común desde el lanzamiento de ChatGPT

    • También ya había visto el encuadre de contenido “sin contaminación de IA”, pero le parece bastante original haberlo comparado específicamente con “low background steel”

    • No está de acuerdo

      • Cree que vamos a anotar el contenido y los datos sintéticos, y que las máquinas usarán eso para que las salidas futuras mejoren gradualmente
      • Aunque en los LLM ese efecto no sea tan marcado, en modelos de imagen y video sí se ve con claridad
      • Al seleccionar solo las mejores salidas visuales, los resultados van mejorando poco a poco, y en ese proceso la “curaduría según preferencias” también juega un papel importante
      • Igual que en genética y biología se aplica a distintos nichos ecológicos, estamos haciendo evolucionar rápidamente las reglas del juego con máquinas sintéticas
  • Coincide en que la analogía con low-background es interesante

  • Duda que esta analogía sea realmente convincente

    • El low-background steel es algo que en la práctica es casi imposible volver a fabricar, mientras que el contenido libre de IA solo requiere no usar IA, así que la dificultad es mucho menor

    • En la práctica es casi imposible demostrar objetivamente que un resultado es AI-free, así que nadie salvo su autor puede estar realmente seguro

    • Se pregunta quién, por qué motivo y con qué dinero produciría contenido AI-free

    • Le parece solo un título pensado para atraer clics

  • Tomando como punto de partida que el nombre de este sitio viene de Y combinator, menciona encontrar el fixed point de una función como requisito para los modelos de inferencia

    • Mantiene una actitud optimista de que un contenido se transformará a sí mismo, tomará ese resultado como nueva entrada y seguirá extrayendo patrones esenciales
  • Aunque aumente la generación de datos sesgados por IA, espera que incluso si el entrenamiento mezcla contenido humano original, contenido derivado y derivaciones de esas derivaciones en varias capas, todavía será posible seguir extrayendo las características esenciales