1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • La IA toma contenidos para entrenarse sin importar si el autor original dio su consentimiento, y vende los resultados sin compensar al autor original
  • Los clientes de las empresas de IA (y las herramientas de IA) también revenden a otros clientes los resultados procesados con prompts, obteniendo ganancias a partir de material copiado de todo internet
  • Sus tutoriales sobre comercio electrónico fueron escritos con investigación propia, pero algunos sitios web hicieron que ChatGPT copiara varios tutoriales exitosos y luego los publicaron como si fueran suyos
  • Los artículos copiados aparecen mejor posicionados que el original en los resultados de búsqueda de Google
  • En los artículos copiados seguían quedando enlaces al sitio web original con exactamente el mismo texto de enlace, y esos enlaces no eliminados confirmaron la copia
  • Google está mostrando sitios web que copiaron el original por encima de la fuente original, creando una estructura en la que el contenido copiado sin autorización es recompensado en las búsquedas

1 comentarios

 
GN⁺ 1 시간 전
Opiniones de Hacker News
  • Hay una falacia que se usa mucho para justificar esto: “si algo está bien o es despreciable a pequeña escala, entonces también lo está a gran escala”.
    Ganar dinero a partir de aprender de una sola página web está bien, pero ¿por qué sería un problema que una computadora aprenda todo de todos para ganar dinero? Arrancar una flor en Golden Gate Park no es lo mismo que construir una máquina que corte automáticamente todas las flores del parque para venderlas. Un cambio cuantitativo produce un cambio cualitativo en la actividad, y aunque sus efectos no siempre sean malos, vale la pena no ignorarlo y examinarlo

    • En ese ejemplo, tanto a pequeña como a gran escala son conductas inaceptables desde el inicio. En cambio, aprender de otras personas no solo es socialmente aceptado a pequeña escala, sino que es la base del progreso.
      El punto clave no es simplemente la escala, sino más bien que una conducta deseable en humanos no está socialmente permitida cuando la realiza una máquina
    • En la web temprana pasaba algo parecido. Había documentos “públicos” que cualquiera podía ver si iba al tribunal del condado, pero su naturaleza cambió cuando cualquier persona del país pudo encontrarlos con solo escribir un nombre en el navegador
    • Las flores son objetos físicos, así que si las mueves desaparecen del lugar original, pero si un LLM aprende algo de una página web, la página sigue ahí.
      La sensación de “robo” aquí es completamente una interpretación mental; porque alguien copie algo no significa que le hayan quitado el original a nadie
    • Esto cae en la falacia de composición
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • Antes de internet, la brecha de información y conocimiento podía generar dinero y poder.
      Después de internet y antes de los LLM, en teoría la brecha de información se redujo mucho, pero por barreras de comprensión la mayoría no podía entenderla ni aprovecharla. Después de los LLM, esa barrera se está derrumbando, así que hay que pensar cómo usar de otra manera la información y el conocimiento para generar dinero y poder
  • Queda un problema mayor: que la fuente original no recibe crédito de una forma que la compense.
    Los operadores de sitios web pagan el costo de alojar contenido, dejan que lleguen arañas web a rastrearlo e indexarlo para IA, pero con suerte reciben una cita; como proveedores del contenido casi no obtienen compensación. Va empeorando cada vez más, y terminamos en “si todo está en la IA, ¿para qué ver el sitio web?”. Al final quizá haya que bloquear a los rastreadores y poner todo detrás de inicio de sesión

    • Peor aún, el scraping de IA continuo solo genera costos adicionales para los proveedores de contenido sin ninguna compensación.
      Al menos el scraping de Google/Bing/Yahoo se usaba para ofrecer enlaces de regreso al texto original
    • Hace como un año OpenAI rastreó la empresa donde trabajo a un nivel de DDoS. Lo bloqueamos con robots.txt y hasta le pusimos reCAPTCHA de emergencia, pero no sirvió.
      Confirmamos que nuestros datos aparecían en la salida del modelo, pero uno se queda pensando qué puede hacer realmente
    • Cuesta dinero y tiempo de verdad. Un amigo administrador de sistemas universitarios me dijo que tiene que lidiar constantemente con rastreadores de IA que golpean los servidores como si fuera un DDoS, y que Anthropic está entre los peores.
      Estas empresas de IA son casi un ejemplo repugnante del lema de “socializar los costos y privatizar las ganancias”
    • En el caso de Google, eso hasta parece ser el objetivo. No se mueve para ser un letrero que apunta en la dirección correcta, sino un oráculo que tiene todas las respuestas.
      O sea, quiere ser el destino y no la puerta de entrada
    • Me pregunto si hay alguna forma de alojar un sitio web para que no pueda encontrarse con motores de búsqueda y, por tanto, tampoco rastrearse.
      Sé que eso afecta la capacidad de descubrimiento, pero si eso no importara, me pregunto cómo se podría evitar el rastreo
  • Este problema no es tan simple como decir que el “uso justo” puede cubrir el 99% del scraping de datos.
    Si no se usa para reproducir el original, sino para estimar la distribución de probabilidad de los tokens en el preentrenamiento, entonces es más ambiguo. No se debería poder sacar un libro palabra por palabra con un LLM

    • La afirmación de que “no se puede sacar un libro palabra por palabra con un LLM” casi choca de frente con la tesis central de la demanda del New York Times contra OpenAI.
      Por ejemplo, Bing Chat copió todo salvo dos palabras de las primeras 396 palabras del artículo de 2023 “The Secrets Hamas knew about Israel’s Military”, y en los materiales del juicio se mostraron 100 casos en los que el GPT de OpenAI había aprendido, memorizado y copiado artículos del Times palabra por palabra
      https://www.hollywoodreporter.com/business/business-news/cou...
    • Cuando iba a la escuela, “lo escribí con mis propias palabras” no era excusa para no citar la fuente.
      Me tomó un tiempo entenderlo, pero lo que hay que citar no es la copia literal de una oración, sino la fuente de la información
    • Se podría decir lo mismo de un codificador MP3, pero no creo que eso vaya a convencer a un juez
    • https://arxiv.org/html/2510.25941v1
      Se puede hacer que reproduzca contenido, pero es un juego del gato y el ratón. Si no estuviera alineado para evitar la reproducción directa, pasaría mucho más seguido. RECAP fue consistentemente mejor que todos los demás métodos; por ejemplo, extrajo unos 3,000 pasajes del primer libro de “Harry Potter” en Claude-3.7, mientras que la mejor línea base apenas llegó a 75 pasajes
    • Basta con pedirle a Claude que haga un reemplazo drop-in de una librería existente y que verifique la funcionalidad con el conjunto de pruebas de esa librería.
      Prácticamente plagia la librería completa de memoria, solo que sin los comentarios
  • Si de la IA sale algo bueno, podría ser arruinar para siempre el derecho de autor.
    Nadie debería poder “poseer” ideas. Apoyo aparte las regalías por uso comercial, pero la piratería no comercial y el fanart no autorizado, tal como los conocemos, deberían ser 100% legales

    • Entonces simplemente hay que abolir el derecho de autor para todos. En cambio, ahora estamos atrapados en un sistema peor donde megacorporaciones plagian felizmente lo de todos, pero al que pirateó una película le mandan un equipo SWAT para matarlo
    • El derecho de autor nunca protegió “ideas”, y sigue sin hacerlo. Lo que protege es la expresión
    • Por ejemplo, una canción es mucho más que una idea. Además de la idea, hay trabajo de arreglo, producción, interpretación, etc.
      A diferencia del sistema actual, parece bastante razonable la lógica de permitir poseer una obra por un tiempo y de manera limitada
    • El problema más grande no es la comercialización rota, sino la atribución rota.
      Si haces arte, deberías recibir reconocimiento. El arte es una forma importante en que los seres humanos se expresan
    • El derecho de autor no se va a romper; como siempre, se va a doblar selectivamente hacia la gravedad de la riqueza.
      No podrás “descargar” libros descatalogados desde anna's archive, pero las corporaciones sí estarán encantadas de cobrar suscripciones por entrenar con todos esos datos y sacar resúmenes
  • No entiendo por qué esto sorprende. Todos sabemos que las empresas de IA robaron cantidades masivas de datos para entrenar sus modelos, así que ¿por qué pensar que se detendrían? ¿Alguna vez han pagado de verdad por el robo masivo de datos con copyright?
    Nosotros no podemos robar esos datos ni lucrar con ellos, pero ellas por alguna razón sí. Supongo que porque están mejorando el mundo y haciendo avanzar a la humanidad

    • Esos datos no fueron robados. Siguen ahí
    • La razón para parar es que las fuentes ahora ya están contaminadas por IA. Eso al menos sí da una razón para dejar de scrapear
    • La razón es simple. Si Microsoft roba tu trabajo, sube el PIB; si tú robas el trabajo de Microsoft, baja el PIB.
      La gente que hace y aplica las leyes quiere que el PIB suba. Para ellos, la moral y los derechos son solo una máscara delgada que se desecha fácilmente cuando se vuelve incómoda
    • La razón es el capitalismo de compadres. Ojalá supiera cuál es la solución
    • Cada vez que aparece una situación mala o injusta, siempre llega un nihilista cínico con una respuesta tipo “¿y por qué te sorprende?”, y de verdad ya cansa.
      Ese tipo de comentario no aporta ideas, ni ayuda, ni da en qué pensar. Solo contribuye a que lo malo siga siendo malo
  • ¿“Propiedad intelectual”? Es un espejismo fascinante.
    https://www.gnu.org/philosophy/not-ipr.html

    • Con tal de que ese espejismo se aplique igual a Oracle, Microsoft, Meta y Google, y también al desarrollador de código abierto del barrio que trabaja de más sin paga.
      Un modelo de pesos abiertos entrenado con el repositorio interno completo de Oracle sin atribución sí sería justo
  • No entiendo muy bien qué tendría de malo la parte de “hay un enlace a mi sitio web real en sus textos, y el texto del enlace es exactamente el mismo”.
    A menos que el texto del enlace sea larguísimo, ¿por qué alguien tendría que usar palabras distintas al enlazar tu publicación?

    • Sí. Eso es citar y enlazar la fuente
    • A veces el enlace tiene forma .../post/{id}/{extra-text}. Ahí extra-text no se usa para hacer coincidir la publicación en absoluto.
      Antes los enlaces de Amazon funcionaban así: el nombre del producto iba al final del enlace, pero aunque lo quitaras o lo cambiaras, igual te llevaba al producto. Tal vez le sorprendió que el LLM reprodujera incluso esa parte irrelevante del enlace
    • Probablemente el título de una sección enlazaba a su propia página web o algo parecido. No fue una diatriba muy bien escrita
    • Parece que usa la URL de su propio sitio como ejemplo en tutoriales, y que otros tutoriales la copiaron tal cual
    • Imagina que hay dos páginas web. Una tiene una receta de buñuelos de manzana y la otra una lista de clasificación de manzanas por sabor.
      Supón que la receta enlaza a la lista de clasificación. Después alguien copia tu receta sin atribución, pero mantiene el enlace a la lista con el mismo texto. Te robaron el texto y aun así ellos obtienen más visibilidad en Google y más ingresos por anuncios. Ese es el problema
  • Parece que se están mezclando dos cosas.
    Primero, la tecnología LLM/transformer es realmente asombrosa y revolucionaria. Segundo, al final estas cosas funcionan como una base de datos gigantesca y efectiva que contiene la mayor parte del conocimiento humano. La 1 hace que la 2 se vea menos clara. Si alguien hubiera metido toda la producción digital existente en una base de datos SQL y la entregara gratis bajo pedido, no habría ninguna ambigüedad sobre su legalidad. Pero procesos como la destilación ocultan esa relación y hacen que parezca algo distinto a una simple consulta. Y es cierto que realmente es más que eso

  • Soy abogado de propiedad intelectual y trabajo con este tema en la práctica.
    No es asesoría legal, pero si creas contenido en línea, desde código en repositorios públicos, blogs, podcasts, YouTube o publicaciones, incluso si es un blog de hobby, lo más inteligente es hacer el registro de copyright en EE. UU.. Anthropic pagó 1,500 millones de dólares en un acuerdo colectivo con autores por la piratería de obras con copyright. Si el trabajo de la comunidad de HN hubiera estado protegido, podría haber daños legales enormes por todo el scraping de LLM. Trabajo con cientos de autores y editoriales, y estoy formando una coalición para proteger y licenciar lo que crean

    • Anthropic no perdió por scrapear obras con copyright, es decir, por leerlas. Perdió por distribuir directamente obras con copyright vía torrent.
      No son lo mismo
    • Siempre había escuchado que el copyright surge automáticamente. ¿Registrar el copyright cuesta dinero? ¿Hay que hacerlo por cada post del blog? ¿Por cada gist?
      Si es algo necesario para tener de verdad el copyright que esperaba tener, hasta podría hacer un script para eso
    • ¿No se obtiene el copyright simplemente por publicar una obra original en línea?
    • No entiendo qué significa “registrar el copyright”. Todas las explicaciones que había visto decían que uno posee automáticamente el copyright de su obra y que, salvo que renuncies mediante una licencia, por defecto es “todos los derechos reservados”.
      ¿Eso ya no es así? ¿Por qué cambió de repente? ¿Cuándo cambió?
    • Nadie va a hacer esto, o no lo va a hacer suficiente gente, así que ¿cuál es el plan B?
  • Técnicamente, si es o no infracción de copyright no es mi principal problema.
    El problema mayor es que la capacidad de extraer rentas del contenido de todo el mundo se concentra en manos de unas pocas empresas que pueden construir centros de datos a gran escala. Es un problema enorme. Si mi página web, los sitios de noticias, las revistas en línea y el arte comercial van a ser absorbidos por el modelo y me van a excluir de los incentivos, ¿para qué crear? Si hoy legalmente eso no es infracción de copyright, entonces necesitamos un nuevo marco legal, porque es una tragedia absoluta para la creatividad humana y los pequeños negocios

    • Con Google pasó exactamente el mismo proceso. Una vez que se convirtió en la única vía por la que la gente encontraba sitios web, se decía que Google no hacía más que extraer renta económica injustamente