Low-background Steel para contenido no contaminado por IA

(blog.jgc.org)

1 puntos por GN⁺ 2025-06-11 | 1 comentarios | Compartir por WhatsApp

lowbackgroundsteel.ai se creó en marzo de 2023 para encontrar material de antes de que el contenido generado por IA se mezclara masivamente en la web
El nombre es una metáfora tomada del acero y plomo de bajo fondo radiactivo, no contaminados por isótopos radiactivos de las pruebas nucleares
El low-background steel y el plomo reales suelen referirse a metales recuperados de barcos hundidos antes de la Trinity Test de 1945
El sitio se enfoca en reunir fuentes de texto, imágenes y video creadas antes del aumento explosivo del contenido generado por IA en 2022
Enlaza a materiales como los dumps de Wikipedia previos al lanzamiento de ChatGPT, Arctic Code Vault y Project Gutenberg, y también recibe envíos de otras fuentes no contaminadas

Un hub para reunir material de antes de la IA

lowbackgroundsteel.ai es un hub de recursos creado para reunir material en línea no mezclado con contenido generado por IA
Se lanzó en marzo de 2023 y cumple la función de organizar recursos en línea de antes de la expansión del contenido generado por IA

La metáfora detrás del nombre

Low-background Steel se refiere a metal no contaminado por isótopos radiactivos producidos en pruebas nucleares
Este acero y plomo suelen recuperarse de barcos hundidos antes de la Trinity Test de 1945
El sitio aplica este concepto al contenido y llama Low-background Steel a materiales no contaminados por contenido generado por IA

Qué reúne y algunos ejemplos

Reúne fuentes de texto, imágenes y video creadas antes de que el contenido generado por IA aumentara bruscamente en 2022
Algunos ejemplos enlazados actualmente son los siguientes
- dumps de Wikipedia previos al lanzamiento de ChatGPT
- Arctic Code Vault
- Project Gutenberg
  - otras fuentes de material adicionales

Envío de materiales

Si conoces otras fuentes no contaminadas por contenido generado por IA, puedes enviarlas a través de la página de envío

1 comentarios

GN⁺ 2025-06-11

Comentarios de Hacker News

Creo que bastaría con agregar un nuevo plano (plane) a Unicode, duplicar todos los caracteres necesarios para la comunicación y añadir un bit de estado extra
Con rangos como claramente escrito por humanos, solo para ojos humanos y se admite que fue generado por IA, y si violas eso, te mandan a la cárcel
Claro, todos los rangos serían homoglifos visualmente indistinguibles, así que terminaría siendo un canal semiescondido mediado por software para una divulgación justa
Aunque copies y pegues desde varias fuentes, la información de origen te seguiría por sutiles diferencias en la codificación de caracteres, y estoy bromeando solo en una proporción cercana a 1
- Igual que con la comida, el contenido completamente orgánico también tendría valor de mercado
  Es decir, contenido escrito, dibujado, compuesto, editado y curado por humanos
  Pero, igual que con los alimentos, definir los límites permitidos sería una pesadilla, demostrar que algo es orgánico sería difícil, la certificación dependería de una red de confianza, en la práctica se contaminaría con justo aquello que intentaba evitar y hasta podría venderse más caro incluso si hubiera evidencia de que es peor
- En Unicode ya existe un rango de Tag Characters que originalmente se creó para marcar que parte del texto provenía de otro idioma
  Ese uso quedó obsoleto al ser reemplazado por anotaciones de nivel superior como etiquetas HTML, pero los caracteres siguen existiendo
  Son invisibles, y tiene la peculiaridad de que una secuencia de caracteres de etiqueta se comporta como un solo carácter al mover el cursor
  Como reflejan ASCII, puedes codificar ahí JSON arbitrario u otros datos, así que si no te molesta fastidiar a la gente con datos ocultos o usos obsoletos, también sirven bastante bien para marcar tramos generados por LLM
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- El problema es cómo definir generado por IA
  Tomando la tarea escolar como ejemplo, es claro cuando un estudiante lo escribe todo a mano con pluma y papel y cuando hace que la IA lo escriba todo, pero se vuelve ambiguo si investigó en una enciclopedia en línea y esa enciclopedia responde con IA, si solo le pidió a la IA la estructura, los puntos clave y la conclusión del texto, o si escribió todo por su cuenta y luego solo le dejó a la IA la corrección de errores, gramática y estilo
  Además, también está el caso de escribir uno mismo textos sobre varios temas y luego pedirle a la IA que elija el mejor
- 12 milisegundos después de que entre en vigor una ley así, aparecerían fábricas de tipeo en India, con trabajadores humanos copiando a mano texto proveniente de IA para “lavar los datos”
- Si le pides a ChatGPT que traduzca al inglés un texto escrito en una lengua extranjera, ¿eso cuenta como contenido generado por IA?
  ¿Y si haces OCR con un LLM a un texto escrito en papel?
  ¿Y si le das un esquema muy detallado y le haces reescribirlo una y otra vez, eliminando sin piedad cualquier dato dudoso?
  ¿Y si usas IA solo para corregir la gramática y convertir un inglés torpe en un estilo científico apropiado?
  Incluso si en todos esos casos el resultado final se copia y pega desde un LLM, para mí la respuesta claramente es “no”
El contenido generado por IA es esencialmente una regresión hacia la media, y es perjudicial tanto para el aprendizaje como para la utilidad humana
No hay ventaja en publicar algo que la IA ya puede generar; basta con preguntárselo directamente
El contenido de IA puede publicarse con etiquetas, pero fuera de eso, en muchos más casos se parece a contaminación que a beneficio público
- Si sigues esa lógica, entonces para empezar, ¿por qué escribir cualquier cosa?
  Los sonetos de Shakespeare también son arreglos de palabras que ya existían, y toda prueba matemática, novela o pieza de periodismo no es más que una configuración dentro del espacio de arreglos posibles de símbolos
  El hecho de que algo pudiera generarse no niega el valor que tiene cuando se genera para un propósito, contexto y lector específicos
- Hasta hace unos años, era una creencia intuitivamente plausible y con evidencia experimental limitada a su favor
  Pero después, con varios avances de capacidades surgidos de material generado por IA bien curado, creo que esa idea quedó refutada de forma decisiva
- ¿Cómo habría que considerar el contenido que la IA corrige o edita?
  Hoy en día, los posts de blog se dictan como notas de voz, luego se transcriben y después se meten en CGPT o Claude para pulir el tono y el ritmo
- Si solo preguntas directamente, falta la etapa en la que un experto humano revisa el contenido, pone su nombre y lo respalda
  Esa curaduría y garantía tienen valor
  Claro, uno puede pensar de inmediato “¿de verdad esa gente hace eso?”, y estoy de acuerdo, pero incluso antes de la IA por lo general eso tampoco pasaba
  La mayoría del contenido en internet ya era texto de baja calidad producido a toda prisa por redactores mal pagados y sin especialización, y la IA no cambia eso
- No tiene sentido
  ¿Has usado herramientas de deep research?
  No hay que caer en la falacia utópica
  Los humanos también publican basura
No estoy seguro de que esto vaya a ser un problema tan grande como la gente cree.
A largo plazo, el objetivo probablemente sería que la IA aprenda de la experiencia real, por ejemplo reparando autos de verdad en vez de leer manuales de reparación.
Entonces podría obtener una cantidad ilimitada de datos de entrenamiento sin copyright y además evitar de forma natural el problema de los datos de entrenamiento contaminados por IA.
- El problema es que las alucinaciones se citan y al final terminan teniendo fuentes como si fueran hechos.
  Por ejemplo, basta con preguntar: “¿Qué programa de productividad para MS-DOS incluía Connect Four?”.
  Hay emuladores de MSDOS y también se conoce la respuesta correcta, pero como es una pregunta algo obscure, cada IA da una respuesta distinta cada vez y nunca he visto que den la correcta.
  Si les vuelves a preguntar si están seguras, cambian de opinión.
  Esas respuestas se citan en línea, y cuando otra IA vuelve a entrenarse usando esa referencia circular como fuente, para entonces la verdad ya desapareció.
  Si pruebas de verdad esa pregunta, es un gran ejemplo de cómo la IA repite con autoridad una respuesta completamente inventada.
- Generar datos directamente a partir de experiencia real puede significar que es muy caro y que adquirir esos datos implica riesgos operativos reales.
  Waymo obtiene experiencia poniendo autos en las calles reales, pero el límite de datos que puede obtener por unidad de tiempo depende de la escala de su flota, y antes tiene que alcanzar un nivel de capacidad que sea seguro para operar en el mundo real.
  Si intentaras reparar autos empezando sin más conocimiento que un rollout on-policy, pasarías bastante tiempo aprendiendo a base de descomponer muchos autos, y también tendrías que pagarles a los humanos que le digan al robot cuándo falló.
  Hay una razón por la que queremos que los mecánicos estudien manuales y reciban entrenamiento explícito, y esa lógica de costos aplica igual, tanto si el mecánico es humano como si es una IA.
  Incluso si usas aprendizaje por refuerzo off-policy, si esos datos son demostraciones de una generación anterior del modelo, siguen siendo datos de entrenamiento contaminados por IA.
- En YouTube hay una enorme cantidad de datos de entrenamiento con experiencia real en reparación de autos, pero todo eso tiene copyright.
  Sigue en debate si las empresas de IA deberían licenciar ese contenido antes de entrenar.
- Creo que no habrá sistemas de IA que reparen autos antes de que existan robots humanoides capaces de inteligencia general.
  Antes de que existan esos robots, tampoco habrá mucamas de hotel cinco estrellas impulsadas por IA.
  No significa que la idea original esté equivocada, pero la distancia entre hoy y ese momento es tan inmensa que decir “no te preocupes por la basura de IA contaminando una base de datos lingüística de frecuencias de palabras, algún día se resolverá” se siente un poco fuera de lugar.
- Entonces, ¿a largo plazo lo que se quiere es AGI?
  ¿La idea es que cuando llegue la AGI también mejorará el spam?
  https://xkcd.com/810/
Me gusta cómo eligieron los términos de una forma tan ingeniosa para hacer que la preocupación parezca irrelevante.
Es parecido a explicar que, desde el fin de las pruebas nucleares atmosféricas, la radiación de fondo volvió a acercarse a niveles naturales, así que incluso el acero nuevo tiene una señal radiactiva lo bastante baja como para que, en la mayoría de los usos sensibles a la radiación, ya no haga falta acero especial de bajo fondo.
Pero no parece que haga falta datos “no contaminados”, ni que sea difícil encontrarlos, ni tampoco que la salida de los LLM vaya a infectarlo todo de todos modos.
Los datos de LLM quizá hasta sean un poco mejores que el fondo natural de comentarios de Reddit, y además existen archive.org o Gutenberg.
- Pero los datos recientes no contaminados sí son difíciles de encontrar.
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Mmm... la radiación de fondo bajó porque dejamos de hacer pruebas nucleares.
Por ahora no hay razón para creer que la contaminación por IA sea un problema real en las corridas de entrenamiento de IA.
Las IAs entrenadas con datos de rastreo público anteriores a 2022 no son claramente mejores que las entrenadas con datos rastreados después de 2022.
En algunos casos incluso pasa lo contrario: por alguna razón, los datos de rastreo más recientes rinden un poco mejor por token.
- Detrás de la idea del “acero de bajo fondo” está la noción de que entrenar IA con datos sintéticos podría llevar al colapso del modelo, donde la IA termina completamente desquiciada e inútil.
  O eso no ha pasado, o todas las empresas de IA tienen internamente filtros funcionales para eliminar datos generados por IA.
  Yo apostaría por lo primero.
  Aun así, sí creo que es posible que a los humanos nos pase algo parecido a un colapso de modelo si estamos demasiado expuestos a datos generados por IA, pero eso se parece más a una observación anecdótica y a una intuición.
- Este razonamiento es bastante malo por varias razones.
  El entrenamiento de LLM después de 2022 ha mejorado muchísimo, y que el daño causado por la basura de IA en los datos de entrenamiento no supere las ganancias de tener más parámetros y mejores técnicas de entrenamiento no significa que no exista ese daño.
  Además, “rinde mejor” es una expresión muy laxa, y todavía no hay una buena respuesta sobre cómo medir eso de forma significativa.
  Podemos saber que Gemini 2.5 es mejor que GPT-4o, pero distinguir entre Gemini 2.5 y Claude 4 ya es más complicado.
  Es muy probable que, en esta etapa, el tamaño del efecto de los datos basura esté al nivel de pequeñas diferencias entre modelos de la misma generación.
  Si estamos buscando un efecto tan pequeño que es difícil demostrarlo con datos, entonces en este caso tiene sentido partir de primeros principios, y los primeros principios dicen claramente que es mejor no entrenar con contenido generado por IA.
- La gente todavía no ha empezado a generar contenido basura de forma seria, y creo que eso va a aumentar muchísimo.
No es que yo tenga una alergia tan fuerte al contenido de IA, pero la analogía con el acero de bajo fondo es admirable.
Excelente.
- Yo tampoco soy alérgico al contenido de IA.
  La razón por la que hice este sitio fue para seguirle la pista a las cosas que sé que fueron hechas por humanos.
- Esto parece menos una fobia y más un intento de evitar entrenar a la IA con sus propias salidas.
  Últimamente también lo he estado hablando con colegas.
  El contenido previo a la IA solo puede volverse más escaso en el futuro, porque ya no se puede producir más.
  Idealmente, deberíamos haber puesto marcas de tiempo criptográficas a todos los datos disponibles alrededor de 2015, pero ahora toca hacer lo que se pueda con la situación actual.
Hoy me siento extrañamente como si me hubiera vuelto profeta
https://news.ycombinator.com/item?id=44217676
- He escuchado este ejemplo en Hacker News desde hace al menos 1 año, probablemente desde hace más tiempo
  También hay una publicación de hace 2 años: https://news.ycombinator.com/item?id=34085194
- Esta analogía fue común después del lanzamiento de ChatGPT
- Creo que esa idea está realmente equivocada
  El proceso de anotar contenido y datos sintéticos convertirá la salida de la IA en una pendiente que hará mejores las salidas futuras
  Puede ser menos evidente en la salida de los LLM, pero debería ser muy claro en los modelos de imagen y video
  En el proceso de seleccionar las mejores salidas visuales del sistema, los pequeños errores introducidos y la curaduría basada en preferencias llevarán al sistema a un mejor rendimiento y a una mayor generalidad
  Si vemos el genoma como una máquina de síntesis y la física como una pendiente probabilística, no es distinto de cómo la vida y la herencia se adaptan a todos los nichos ecológicos
  Básicamente estamos haciendo lo mismo, pero más rápido
- Bien hecho
  Siento que ya había escuchado antes este encuadre del contenido sin “contaminación” de IA, y creo que era una idea que ya andaba circulando
  Pero sí se puede afirmar con tranquilidad que la analogía del acero de bajo fondo fue una predicción acertada
Los libros de papel usados, especialmente los ejemplares viejos pero útiles que llaman “reading copies” o “ex-library”, se están vendiendo por casi nada en el mercado de segunda mano
Recomiendo armar tu propia biblioteca física, incluyendo obras de referencia básicas, y apoyar a las bibliotecas públicas locales y universitarias
También conviene tener copias en papel de artículos de tu especialidad y de tus áreas de interés
La idea es seguir el método de nuestros antepasados
La IA me ha mentido descaradamente sobre hechos, y me alegró tener una biblioteca física donde podía verificar por mí mismo que yo tenía razón, aunque no lograra convencer a la IA en todos los casos
¿De verdad encaja bien esta analogía?
Producir acero nuevo de bajo fondo es extremadamente difícil porque hay partículas radiactivas por todas partes, pero crear contenido sin IA no es difícil
Simplemente no lo escribas con IA
- Aunque no sea imposible, demostrar que una obra no tiene IA es totalmente poco realista
  Por eso, salvo uno mismo, nadie puede estar seguro
- Hacer acero nuevo de bajo fondo no es difícil
  Es solo que recuperarlo y reutilizarlo sale más barato
- ¿Quién, por qué motivo y con qué dinero va a crear ese contenido sin IA?
- No es más que un título clickbait
El nombre de este sitio mismo viene de Y combinator
Dejando de lado un poco de gesto filosófico, una de las capacidades que deberíamos exigirle a un modelo de razonamiento es la de encontrar el punto fijo de una función que toma contenido como entrada, produce contenido como salida y luego vuelve a consumir ese contenido
Incluso si aprende recursivamente de datos mezclados entre contenido originalmente humano, contenido derivado del original y contenido derivado otra vez de ese contenido derivado, soy optimista en que podrá extraer las características y patrones sobresalientes del sistema subyacente

Low-background Steel para contenido no contaminado por IA

Un hub para reunir material de antes de la IA

La metáfora detrás del nombre

Qué reúne y algunos ejemplos

Arctic Code Vault

Project Gutenberg

Envío de materiales

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News