- La IA toma contenidos para entrenarse sin importar si el autor original dio su consentimiento, y vende los resultados sin compensar al autor original
- Los clientes de las empresas de IA (y las herramientas de IA) también revenden a otros clientes los resultados procesados con prompts, obteniendo ganancias a partir de material copiado de todo internet
- Sus tutoriales sobre comercio electrónico fueron escritos con investigación propia, pero algunos sitios web hicieron que ChatGPT copiara varios tutoriales exitosos y luego los publicaron como si fueran suyos
- Los artículos copiados aparecen mejor posicionados que el original en los resultados de búsqueda de Google
- En los artículos copiados seguían quedando enlaces al sitio web original con exactamente el mismo texto de enlace, y esos enlaces no eliminados confirmaron la copia
- Google está mostrando sitios web que copiaron el original por encima de la fuente original, creando una estructura en la que el contenido copiado sin autorización es recompensado en las búsquedas
1 comentarios
Opiniones de Hacker News
Hay una falacia que se usa mucho para justificar esto: “si algo está bien o es despreciable a pequeña escala, entonces también lo está a gran escala”.
Ganar dinero a partir de aprender de una sola página web está bien, pero ¿por qué sería un problema que una computadora aprenda todo de todos para ganar dinero? Arrancar una flor en Golden Gate Park no es lo mismo que construir una máquina que corte automáticamente todas las flores del parque para venderlas. Un cambio cuantitativo produce un cambio cualitativo en la actividad, y aunque sus efectos no siempre sean malos, vale la pena no ignorarlo y examinarlo
El punto clave no es simplemente la escala, sino más bien que una conducta deseable en humanos no está socialmente permitida cuando la realiza una máquina
La sensación de “robo” aquí es completamente una interpretación mental; porque alguien copie algo no significa que le hayan quitado el original a nadie
https://en.wikipedia.org/wiki/Fallacy_of_composition
Después de internet y antes de los LLM, en teoría la brecha de información se redujo mucho, pero por barreras de comprensión la mayoría no podía entenderla ni aprovecharla. Después de los LLM, esa barrera se está derrumbando, así que hay que pensar cómo usar de otra manera la información y el conocimiento para generar dinero y poder
Queda un problema mayor: que la fuente original no recibe crédito de una forma que la compense.
Los operadores de sitios web pagan el costo de alojar contenido, dejan que lleguen arañas web a rastrearlo e indexarlo para IA, pero con suerte reciben una cita; como proveedores del contenido casi no obtienen compensación. Va empeorando cada vez más, y terminamos en “si todo está en la IA, ¿para qué ver el sitio web?”. Al final quizá haya que bloquear a los rastreadores y poner todo detrás de inicio de sesión
Al menos el scraping de Google/Bing/Yahoo se usaba para ofrecer enlaces de regreso al texto original
Confirmamos que nuestros datos aparecían en la salida del modelo, pero uno se queda pensando qué puede hacer realmente
Estas empresas de IA son casi un ejemplo repugnante del lema de “socializar los costos y privatizar las ganancias”
O sea, quiere ser el destino y no la puerta de entrada
Sé que eso afecta la capacidad de descubrimiento, pero si eso no importara, me pregunto cómo se podría evitar el rastreo
Este problema no es tan simple como decir que el “uso justo” puede cubrir el 99% del scraping de datos.
Si no se usa para reproducir el original, sino para estimar la distribución de probabilidad de los tokens en el preentrenamiento, entonces es más ambiguo. No se debería poder sacar un libro palabra por palabra con un LLM
Por ejemplo, Bing Chat copió todo salvo dos palabras de las primeras 396 palabras del artículo de 2023 “The Secrets Hamas knew about Israel’s Military”, y en los materiales del juicio se mostraron 100 casos en los que el GPT de OpenAI había aprendido, memorizado y copiado artículos del Times palabra por palabra
https://www.hollywoodreporter.com/business/business-news/cou...
Me tomó un tiempo entenderlo, pero lo que hay que citar no es la copia literal de una oración, sino la fuente de la información
Se puede hacer que reproduzca contenido, pero es un juego del gato y el ratón. Si no estuviera alineado para evitar la reproducción directa, pasaría mucho más seguido. RECAP fue consistentemente mejor que todos los demás métodos; por ejemplo, extrajo unos 3,000 pasajes del primer libro de “Harry Potter” en Claude-3.7, mientras que la mejor línea base apenas llegó a 75 pasajes
Prácticamente plagia la librería completa de memoria, solo que sin los comentarios
Si de la IA sale algo bueno, podría ser arruinar para siempre el derecho de autor.
Nadie debería poder “poseer” ideas. Apoyo aparte las regalías por uso comercial, pero la piratería no comercial y el fanart no autorizado, tal como los conocemos, deberían ser 100% legales
A diferencia del sistema actual, parece bastante razonable la lógica de permitir poseer una obra por un tiempo y de manera limitada
Si haces arte, deberías recibir reconocimiento. El arte es una forma importante en que los seres humanos se expresan
No podrás “descargar” libros descatalogados desde anna's archive, pero las corporaciones sí estarán encantadas de cobrar suscripciones por entrenar con todos esos datos y sacar resúmenes
No entiendo por qué esto sorprende. Todos sabemos que las empresas de IA robaron cantidades masivas de datos para entrenar sus modelos, así que ¿por qué pensar que se detendrían? ¿Alguna vez han pagado de verdad por el robo masivo de datos con copyright?
Nosotros no podemos robar esos datos ni lucrar con ellos, pero ellas por alguna razón sí. Supongo que porque están mejorando el mundo y haciendo avanzar a la humanidad
La gente que hace y aplica las leyes quiere que el PIB suba. Para ellos, la moral y los derechos son solo una máscara delgada que se desecha fácilmente cuando se vuelve incómoda
Ese tipo de comentario no aporta ideas, ni ayuda, ni da en qué pensar. Solo contribuye a que lo malo siga siendo malo
¿“Propiedad intelectual”? Es un espejismo fascinante.
https://www.gnu.org/philosophy/not-ipr.html
Un modelo de pesos abiertos entrenado con el repositorio interno completo de Oracle sin atribución sí sería justo
No entiendo muy bien qué tendría de malo la parte de “hay un enlace a mi sitio web real en sus textos, y el texto del enlace es exactamente el mismo”.
A menos que el texto del enlace sea larguísimo, ¿por qué alguien tendría que usar palabras distintas al enlazar tu publicación?
.../post/{id}/{extra-text}. Ahíextra-textno se usa para hacer coincidir la publicación en absoluto.Antes los enlaces de Amazon funcionaban así: el nombre del producto iba al final del enlace, pero aunque lo quitaras o lo cambiaras, igual te llevaba al producto. Tal vez le sorprendió que el LLM reprodujera incluso esa parte irrelevante del enlace
Supón que la receta enlaza a la lista de clasificación. Después alguien copia tu receta sin atribución, pero mantiene el enlace a la lista con el mismo texto. Te robaron el texto y aun así ellos obtienen más visibilidad en Google y más ingresos por anuncios. Ese es el problema
Parece que se están mezclando dos cosas.
Primero, la tecnología LLM/transformer es realmente asombrosa y revolucionaria. Segundo, al final estas cosas funcionan como una base de datos gigantesca y efectiva que contiene la mayor parte del conocimiento humano. La 1 hace que la 2 se vea menos clara. Si alguien hubiera metido toda la producción digital existente en una base de datos SQL y la entregara gratis bajo pedido, no habría ninguna ambigüedad sobre su legalidad. Pero procesos como la destilación ocultan esa relación y hacen que parezca algo distinto a una simple consulta. Y es cierto que realmente es más que eso
Soy abogado de propiedad intelectual y trabajo con este tema en la práctica.
No es asesoría legal, pero si creas contenido en línea, desde código en repositorios públicos, blogs, podcasts, YouTube o publicaciones, incluso si es un blog de hobby, lo más inteligente es hacer el registro de copyright en EE. UU.. Anthropic pagó 1,500 millones de dólares en un acuerdo colectivo con autores por la piratería de obras con copyright. Si el trabajo de la comunidad de HN hubiera estado protegido, podría haber daños legales enormes por todo el scraping de LLM. Trabajo con cientos de autores y editoriales, y estoy formando una coalición para proteger y licenciar lo que crean
No son lo mismo
Si es algo necesario para tener de verdad el copyright que esperaba tener, hasta podría hacer un script para eso
¿Eso ya no es así? ¿Por qué cambió de repente? ¿Cuándo cambió?
Técnicamente, si es o no infracción de copyright no es mi principal problema.
El problema mayor es que la capacidad de extraer rentas del contenido de todo el mundo se concentra en manos de unas pocas empresas que pueden construir centros de datos a gran escala. Es un problema enorme. Si mi página web, los sitios de noticias, las revistas en línea y el arte comercial van a ser absorbidos por el modelo y me van a excluir de los incentivos, ¿para qué crear? Si hoy legalmente eso no es infracción de copyright, entonces necesitamos un nuevo marco legal, porque es una tragedia absoluta para la creatividad humana y los pequeños negocios