Mi voz robada por la IA

(jeffgeerling.com)

1 puntos por GN⁺ 2024-09-23 | 1 comentarios | Compartir por WhatsApp

Jeff Geerling descubrió una narración muy parecida a su voz en un tutorial promocional de Elecrow en YouTube, pero nunca dijo personalmente esas frases
La voz en cuestión parece haberse usado en varias series de videos sobre ESP32 y RP2040, y Jeff sospecha que sus videos de YouTube pudieron haber sido utilizados para una herramienta de clonación de voz por IA
Como Jeff había reseñado antes la CrowPi 2 de Elecrow y la empresa fabrica accesorios para Raspberry Pi y productos electrónicos, el contexto de la relación es más complejo que una simple disputa con un proveedor externo
Aunque no está claro el precedente legal sobre la clonación de voz por IA sin autorización, el problema de usar la voz de otra persona sin consentimiento en trabajos comerciales se relaciona con el caso Midler vs. Ford
Antes que pedir la eliminación por vías formales o tomar acciones legales, Jeff envió un correo a Elecrow para pedir explicaciones y que retiraran los videos; considera que las empresas deberían resolver esto contratando actores de voz o colaborando formalmente con creadores

Una voz similar a la de Jeff Geerling en videos de Elecrow

Jeff Geerling escuchó un clip de YouTube de Elecrow y concluyó que la narración le sonaba bastante familiar, muy parecida a su propia voz
El video no era del canal de Jeff Geerling, sino de Elecrow, y Jeff afirma que nunca pronunció las frases que aparecen allí
Alguien le envió por correo el enlace del video de Elecrow para decirle que el audio sonaba extraño, y Jeff cree que, como su canal trata temas similares, algunos espectadores pudieron pensar que él había aceptado participar con su voz en el video de Elecrow
Elecrow es una empresa que fabrica productos electrónicos y accesorios para Raspberry Pi, y Jeff ya había reseñado antes la CrowPi 2 de Elecrow
No había tenido una mala relación con Elecrow anteriormente, por lo que Jeff todavía no está 100% seguro de que esto haya sido intencional
En la versión en video de esta publicación se puede comparar directamente el clip de Elecrow con la voz natural de Jeff

Sospecha de clonación de voz con IA y respuesta

Jeff considera, aunque admite que es difícil demostrarlo, que es muy probable que Elecrow haya metido sus videos de YouTube en alguna herramienta de clonación de voz por IA y luego usara esa voz para narrar varios tutoriales promocionales
- Como ejemplo menciona la serie de ESP32 y la serie de RP2040
Después del caso en que OpenAI supuestamente replicó de facto la voz de Scarlett Johansson, Jeff esperaba que las empresas fueran más cuidadosas con las voces de IA usadas en demos de producto o tutoriales, pero este caso contradice esa expectativa
Hasta donde Jeff sabe, no existe un precedente legal claro sobre la clonación de voz con IA sin autorización, pero menciona Midler vs. Ford como precedente de que no se debe usar la voz de otra persona sin consentimiento en trabajos comerciales
Actuar por medio de abogados cuesta dinero, y tampoco está claro si la clonación de voz sin consentimiento viola los términos de servicio de YouTube
Las exigencias de Jeff son claras
- No se debe robar la voz ni la imagen de otras personas para pegarlas a productos o videos
- Las marcas deberían contratar actores de voz o pagar a los creadores de contenido para colaborar formalmente
Jeff envió un correo a Elecrow pidiendo que bajaran al menos 2 series que contienen una voz de IA parecida a la suya
- Preguntó si esa voz fue creada intencionalmente para sonar como él
- También pidió confirmar si entrenaron la voz con sus videos o con su contenido de audio
Antes de pedir que YouTube eliminara los videos o de iniciar acciones legales, quiso comenzar por correo electrónico, y dado que no habían tenido problemas antes, deja abierta la posibilidad de que haya sido un error honesto
Aun así, está claro que Elecrow conocía el canal de Jeff
- Desde 2020 hasta hoy ha intercambiado más de 43 correos con 5 personas del equipo de marketing de Elecrow
- De esos, 22 correos son de este año
- El 2 de abril de 2024, una persona de marketing de Elecrow le envió un correo diciendo que quería hablar sobre una alianza pagada
En la actualización del 23 de septiembre, el CEO de Elecrow respondió, y Jeff publicó una entrada posterior con esa respuesta y sus reflexiones sobre la clonación de voz por IA

1 comentarios

GN⁺ 2024-09-23

Opiniones de Hacker News

Cada quien tendrá sus propios miedos sobre la IA, pero algo especialmente aterrador es cuando se falsifica con IA que alguien dijo algo blasfemo
En mi país, incluso algo que apenas parezca un insulto menor, sea real o imaginado, ya puede provocar una turba de linchamiento por blasfemia. Llegan en masa, linchan a la persona y queman el cuerpo; luego, mientras la familia se esconde y publica un video negando a la víctima y perdonando a la turba, los atacantes se reparten dulces
Esto ya pasaba incluso antes de que la IA fuera fácilmente accesible. Se podría decir que es “cosa de países atrasados”, pero no se va a quedar ahí: se va a propagar. No se puede ponerle un cuchillo en la mano a un bebé y luego culparlo por apuñalar
Independientemente de la reputación, la seguridad o los derechos de autor, esto puede hacer que maten a personas, y no hay herramientas para controlarlo
https://x.com/search?q=blasphemy
Me da miedo el futuro
- Aunque parezca contraintuitivo, creo que la respuesta es hacer que estas herramientas de IA sean más abiertas y accesibles
  Si siguen restringidas, reguladas o siendo difíciles de acceder, la gente seguirá pensando que los videos y las grabaciones no se pueden manipular. Pero si una app de 1 dólar vuelve la clonación de voz una broma fácil y divertida, y dejamos que los adolescentes hagan llamadas de broma, pronto quedará instalado en la conciencia pública
  La semana pasada mi madre de 70 años me preguntó si debía borrar el saludo de su buzón de voz. Decía que alguien podría robarle la voz con eso; me sorprendió, probablemente lo escuchó en algún lugar como Fox
  Serán unos años difíciles, pero espero que pasen rápido
- En ese caso, el problema no es la IA, sino ese país
- Por la idea de “¿y si falsifican con IA que alguien dijo algo blasfemo?”, he estado pensando en escribirle una carta abierta a Dang para pedirle que borre mi cuenta
  Hoy, si un usuario tiene bastantes comentarios, probablemente sea posible desanonimizarlo mediante análisis de correlación. Aunque no sea 100% preciso, pueden robarle el estilo. Quizá sea paranoia, pero no hay garantía de que no entremos en un bosque oscuro, y también hay razones para pensar que vamos en esa dirección
  Al mismo tiempo, también me pregunto si no retirarse a las sombras es una forma de no rendirse
- Lo mejor, a nivel personal, parece ser evitar este tipo de cosas durante los primeros 5 años más o menos, y después esperar a que se vuelva tan extendido y fácil que todo el mundo empiece a desconfiar de los videos que ve
  Es parecido a lo que pasó en redes sociales como Reddit, donde durante años hubo “cacerías de culpables” o “doxing”, hasta que los moderadores se dieron cuenta de que las multitudes en línea se equivocan con frecuencia y por lo general lo prohibieron
  Pero hasta que se aprueben leyes o se vuelva sentido común la idea de que es más probable que un video sea falso que real, muchas personas saldrán perjudicadas. Puede tardar más de 5 años, y otro problema es que las leyes suelen crearse solo después de que se demuestra que alguien ya fue dañado
- Entonces quizá no quede otra que crear con IA videos en los que toda la dirigencia de la turba de linchamiento cometa blasfemia, y dejar que lo resuelvan internamente
No veo por qué usar IA permitiría esquivar el precedente de Midler vs. Ford
De hecho, si no hicieron que otra actriz de voz imitara la voz, sino que la clonaron con IA, la defensa parece aún más débil
- Ese precedente solo aplica en los estados bajo jurisdicción del Noveno Circuito de Apelaciones
  En muchos otros estados, las leyes y precedentes sobre el llamado derecho de publicidad están dispersos y varían. Está lejos de haber un consenso universal entre los estados sobre si se debe reconocer ese concepto, cómo delimitarlo o incluso si corresponde hacerlo
- En ese caso, el tribunal limitó explícitamente su decisión a la voz de una cantante profesional
  “...esta observación se aplica al canto, especialmente al canto de una cantante famosa. Una cantante se manifiesta a sí misma en su canto. Suplantar su voz es piratear su identidad...”
  “No necesitamos decidir, y no decidimos, que toda imitación de voz para publicitar productos sea susceptible de demanda. Solo sostenemos que, cuando se imita deliberadamente la voz distintiva de una cantante profesional ampliamente conocida para vender un producto, el vendedor se ha apropiado de algo que no le pertenece...”
- La verdadera solución es excluirlos desde el principio, sin volver a contratar actores de voz
Gracias por señalar el precedente, pero los precedentes son solo el punto de partida; al final hay que establecer principios que vayan más allá de la jurisprudencia
Cuando la tecnología trae capacidades sin precedentes, la sociedad tiene que trazar límites para que funcione a favor de las personas y no en su contra, o dejar que nos acerquemos más a un mundo en el que los poderosos hacen lo que quieren y los débiles, o quienes apenas pueden mantener un Camry, tienen que aguantarse
- California puso en vigor hace poco legislación relacionada, y es un punto de partida. El Congreso también está trabajando en la “No Artificial Intelligence Fake Replicas And Unauthorized Duplications Act”
  Todavía está en desarrollo en la Cámara de Representantes, pero cuenta con apoyo bipartidista. Puedes contactar a tu representante de distrito y pedirle que la copatrocine o que vote a favor
  https://www.cbsnews.com/losangeles/news/california-bills-pro...
  https://salazar.house.gov/media/press-releases/salazar-intro...
  https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
- No creo que sea agradable ni fácil convertirse en parte de una demanda que siente precedente
  Hay que encontrar una organización política sin fines de lucro como la ACLU que financie los costos de sucesivas apelaciones, y mientras tanto soportar cobertura negativa de prensa y atención pública
  Estoy totalmente de acuerdo en que la clase Camry necesita defensores, pero uno de los principios centrales de la práctica moderna es que hay que dejar que cada persona elija el nivel de contribución que puede permitirse. Hay que alentar, impulsar y dar ánimo, pero no avergonzar
  En cualquier caso, creo que esta entrada de blog por sí sola ya podría ser suficiente. Casi nadie se pone del lado de quienes roban la voz de una persona, y, a diferencia de recolectar como datos de entrenamiento los archivos del NYT o de deviantart, esto provoca una incomodidad intuitiva mucho mayor. La humillación pública no logrará una gran indemnización por daños, pero tampoco parece que eso fuera lo que buscaba
Si los grandes modelos de lenguaje son la máquina definitiva de remix, me pregunto si cualquiera con generación aumentada por recuperación (RAG) es un DJ digital.
En la información digital, ya es difícil incluso saber qué es robar. Como falta jurisprudencia, se siente como el Viejo Oeste de la propiedad intelectual y las leyes de copyright.
Si incluso una superestrella como Scarlett Johansson no puede hacer más que escribir una carta dolorosa por lo que hizo OpenAI al intentar imitar la personalidad de “Her”, ¿qué puede hacer un nerd de nicho relativamente común?
Probablemente algo como Geerling: estar igual de triste, enojado y frustrado, y aun así decir “por favor, respeten de buena fe las reglas de honor”.
- Este tipo de abuso solo se vuelve interesante si hay fama que valga la pena robar.
  En esos casos, esa fama también puede usarse como represalia. Por ejemplo, es difícil imaginar que esto termine siendo bueno para la reputación de Elecrow. La próxima vez que vea el nombre de esta empresa, pensaré: “Ah, la empresa que engaña a la gente”, y eso no les conviene.
  Lo que más preocupa es que se use para eliminar a alguien que no te cae bien. Por ejemplo, puedo imaginar una situación en la que un profesor universitario no hizo nada malo, pero un estudiante inconforme con su calificación usa clonación de voz para hacer parecer que el profesor dijo algo por lo que podrían despedirlo. Si la clonación de voz se vuelve muy buena, ¿cómo podría defenderse alguien así? Sería difícil hasta que esas grabaciones se vuelvan tan comunes que ya no se confíe en ellas.
- No hay robo; solo hay patentes de corso que permiten saquear a quienes no pagan por usar memes y complejos de memes que alguien reclamó primero.
  Para que haya robo tendría que cumplirse la condición de que la víctima pierda el beneficio del objeto robado. Copiar y pegar simplemente derrumba un castillo de naipes que amenaza con cárcel y pobreza a la gente si usa memes reclamados y no paga.
  Si fuera jurado en un caso de infracción de copyright donde el acusado fuera una persona y no una empresa, votaría siempre por la nulidad del jurado.
- Parece que esto no es solo un problema digital.
  ¿Eric Schmidt no dijo recientemente que, si tienes éxito, dejes que los abogados lo arreglen después y robes primero?[0,1]
  [0] https://x.com/alexeheath/status/1823873344133062680
  [1] Técnicamente quiso decir robar de forma legal, pero no sé qué significa eso.
- Parece que el copyright siempre tiene algún tipo de Viejo Oeste.
  Si el mundo sigue saltando y pateando desde abajo para tirarte, tal vez estás parado en el lugar equivocado.
- La frase “qué es robar” fue arrastrada por varias etapas, pero eso no es más que una proyección de la voluntad.
  En un objeto que tiene la interfaz .copy(), el robo no está definido. Aun así, si uno mira con atención, sigue existiendo.
  La gente debería ajustar sus expectativas, no la ley. Las computadoras reemplazaron a los cajeros, y ahora la actuación de voz reemplaza a los actores de voz. La popularidad en realidad no significa mucho, y si solo las personas populares pueden conservar su trabajo, ¿no es eso también injusto?
Incluso dejando de lado la parte de la IA, me parece que distorsionaron gravemente la opinión de Jeff o usaron su imagen sin permiso.
Al usar su voz, generan una garantía implícita y manipulada sobre el producto, y se siente como algo muy incorrecto. Creo que ya existían leyes para tratar casos así mucho antes de que existiera la IA.
- Últimamente he pensado algo parecido.
  Desde hace mucho existen personas que pueden imitar muy bien voces, y por lo general usaban esa habilidad para comedia o sátira, no para tergiversar las opiniones de otros. No soy abogado, pero creo que esto está sobre una base legal bastante sólida y que representar falsamente a una persona podría tratarse de manera relativamente sencilla por la vía legal.
  La diferencia es la democratización. Pasamos de una situación en la que solo muy pocas personas tenían esta capacidad a otra en la que casi cualquiera con una computadora puede hacer algo similar. Por eso la aplicación de la ley se vuelve mucho más difícil y, si resolverlo requiere acciones legales, es muy posible que para alguien como Jeff Geerling sea imposible costearlo.
Puede que yo sea el raro, pero no creo que esa voz se parezca tanto a la suya.
Se parece un poco, pero es distinta: el tono es algo más alto, más nasal y la entonación también es un poco diferente.
- Desde la perspectiva de alguien que nunca lo había escuchado antes, basta oír los primeros segundos de este video para que suene lo suficientemente parecido como para considerarlo una voz clonada por IA imperfecta.
  https://www.youtube.com/watch?v=UMofZIT9FcQ
- Como alguien que ha visto todos sus videos y transmisiones en vivo, creo que se parece muchísimo.
- Claramente fue entrenada con su voz.
  Las diferencias de entonación y tono que mencionas se deben simplemente a que es una voz generada por IA, no habla humana.
- He visto cientos de sus videos y de verdad suena muy, muy parecido a él.
- Las herramientas que conozco permiten agregar varios tipos de clips de voz que quieres mezclar, y luego los combinan hasta un punto en el que no puedes conocer ni controlar todos los elementos internos, además de sumar la aleatoriedad del sistema.
  Probablemente su argumento sería que mezclaron voces más agradables para crear suficiente diferenciación.
  El problema es quién decide qué tan diferente debe ser para no caer en apropiación de semejanza de imagen o voz. El “rey de la voz nerd genérica” alegará una similitud excesiva, y la parte sospechosa no revelará todo el proceso.
  Pronto también será posible ajustar voces de IA de oído, así que pedir quedar excluido del entrenamiento por ser una voz representativa de cierto sector tampoco te mantendrá a salvo. Algo como una autoridad de voces suena sombrío.
Como YouTuber pequeño de tecnología, también he tenido contacto con Elecrow.
Según entiendo, empleados de varias empresas, no solo Elecrow, reciben recompensas, ascensos o comisiones si logran cerrar colaboraciones de video o alianzas de largo plazo con YouTubers. Alguien pudo haber pensado que, como el canal de Jeff es bastante conocido en este campo, clonar la voz de Jeff sería una jugada inteligente.
Desde el punto de vista de Elecrow, definitivamente no es buena publicidad, y también me da curiosidad si admitirán que fue intencional.
La idea de que el tono de una voz robada vaya a ser importante es una de las partes más cortoplacistas de la inversión en AI. Está impulsada por la mentalidad hollywoodense de “no creemos nada nuevo jamás”
En unos 5 años, las voces de AI serán personalizadas y más agradables de escuchar que las de humanos reales. No estarán limitadas por la fatiga de las cuerdas vocales, se podrán cambiar a voluntad y se podrán ajustar fácilmente investigando la participación de los usuarios
En adelante, la clave será afinar la salida de voz y observar la participación
- Lo que se robó aquí no fue tanto la voz en sí, sino la semejanza con el autor, la reputación que construyó en el ámbito tecnológico de YouTube y la confianza en productos comerciales que ya había reseñado
  Esa es precisamente la razón por la que eligieron su voz
  Una voz de AI puede ser estéticamente indistinguible o incluso preferida, pero no puede contener reputación ni autenticidad. Esas cosas tienen valor porque son esencialmente escasas. De hecho, en un mar de contenido basura genérico y mercantilizado, es probable que la demanda por personas con valor de marca único no baje, sino que suba. Por eso los influencers ganan tanto dinero en la publicidad hoy en día
- “Esta llamada puede ser monitoreada o grabada con fines de garantía de calidad y capacitación”
  “Capacitación”, claro
- No estoy seguro de que haga falta esperar hasta 5 años. ¿Probaste elevenlabs?
  Ya ofrece varias técnicas de clonación de voz que parten de una muestra de 30 segundos. La de 30 segundos se parece en cierta medida a la voz objetivo, pero no es idéntica; si le das varias horas de audio, suena como una persona real. Además, puedes ajustar la voz con algunos parámetros o crear una nueva solo definiendo parámetros
  Por la calidad, la voz del video podría ser una voz de “clonación instantánea” hecha con una entrada de apenas unos segundos. Para una clonación más avanzada, necesitas demostrar que es tu propia voz
  [1] https://elevenlabs.io
- Estoy apostando a largo plazo por los humanos, y creo que, como reacción a la sobreabundancia de contenido generado por AI, mucha gente empezará a preferir la imperfección
- En nuestro país hay mucho doblaje, y hay actores de doblaje con cuyas voces millones de personas crecieron escuchándolas en anime y otras obras
  En ese contexto, las empresas podrían querer comprar sus voces. No es solo una cuestión de que suenen bien, sino de que la familiaridad tiene mucho valor. Por ejemplo, ElevenLabs incluso compró a familiares los derechos de voz de personas fallecidas
  Pero salvo por estos contextos especiales cargados de nostalgia, no veo por qué no crear voces sintéticas desde el principio
Todos lo tomarán como diversión hasta que alguien genere una grabación en la que otra persona parezca admitir un delito y eso se use en un tribunal
Eso es exactamente lo que odio de la AI
- Durante algunos años será malo, pero ¿no llegará un momento en que sea tan fácil manipularlo que sea inadmisible como prueba judicial?
  Pero si las pruebas de video y audio se vuelven inadmisibles, ¿qué se supone que hagamos?
- Es peor que eso. La gente empezará a afirmar que grabaciones de audio reales que la perjudican son falsas
  Aunque en ambos casos parece más importante en el tribunal de la opinión pública que en los tribunales reales
- Si no es que también odias los editores de imágenes, no entiendo bien este argumento
  Al evaluar una tecnología nueva y útil, preservar los formatos de prueba difícilmente parece ser la preocupación principal
Como hay cientos de herramientas de clonación de voz, es inevitable que aparezca contenido con voces clonadas
Es parecido al uso no autorizado de la imagen de alguien. Las plataformas y los equipos de operaciones ya tienen procesos para denunciarlo y eliminarlo. Parece que se necesita algo similar para la voz

Mi voz robada por la IA

Una voz similar a la de Jeff Geerling en videos de Elecrow

Sospecha de clonación de voz con IA y respuesta

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News