Mi voz robada por la IA
(jeffgeerling.com)- Jeff Geerling descubrió una narración muy parecida a su voz en un tutorial promocional de Elecrow en YouTube, pero nunca dijo personalmente esas frases
- La voz en cuestión parece haberse usado en varias series de videos sobre ESP32 y RP2040, y Jeff sospecha que sus videos de YouTube pudieron haber sido utilizados para una herramienta de clonación de voz por IA
- Como Jeff había reseñado antes la CrowPi 2 de Elecrow y la empresa fabrica accesorios para Raspberry Pi y productos electrónicos, el contexto de la relación es más complejo que una simple disputa con un proveedor externo
- Aunque no está claro el precedente legal sobre la clonación de voz por IA sin autorización, el problema de usar la voz de otra persona sin consentimiento en trabajos comerciales se relaciona con el caso Midler vs. Ford
- Antes que pedir la eliminación por vías formales o tomar acciones legales, Jeff envió un correo a Elecrow para pedir explicaciones y que retiraran los videos; considera que las empresas deberían resolver esto contratando actores de voz o colaborando formalmente con creadores
Una voz similar a la de Jeff Geerling en videos de Elecrow
- Jeff Geerling escuchó un clip de YouTube de Elecrow y concluyó que la narración le sonaba bastante familiar, muy parecida a su propia voz
- El video no era del canal de Jeff Geerling, sino de Elecrow, y Jeff afirma que nunca pronunció las frases que aparecen allí
- Alguien le envió por correo el enlace del video de Elecrow para decirle que el audio sonaba extraño, y Jeff cree que, como su canal trata temas similares, algunos espectadores pudieron pensar que él había aceptado participar con su voz en el video de Elecrow
- Elecrow es una empresa que fabrica productos electrónicos y accesorios para Raspberry Pi, y Jeff ya había reseñado antes la CrowPi 2 de Elecrow
- No había tenido una mala relación con Elecrow anteriormente, por lo que Jeff todavía no está 100% seguro de que esto haya sido intencional
- En la versión en video de esta publicación se puede comparar directamente el clip de Elecrow con la voz natural de Jeff
Sospecha de clonación de voz con IA y respuesta
- Jeff considera, aunque admite que es difícil demostrarlo, que es muy probable que Elecrow haya metido sus videos de YouTube en alguna herramienta de clonación de voz por IA y luego usara esa voz para narrar varios tutoriales promocionales
- Como ejemplo menciona la serie de ESP32 y la serie de RP2040
- Después del caso en que OpenAI supuestamente replicó de facto la voz de Scarlett Johansson, Jeff esperaba que las empresas fueran más cuidadosas con las voces de IA usadas en demos de producto o tutoriales, pero este caso contradice esa expectativa
- Hasta donde Jeff sabe, no existe un precedente legal claro sobre la clonación de voz con IA sin autorización, pero menciona Midler vs. Ford como precedente de que no se debe usar la voz de otra persona sin consentimiento en trabajos comerciales
- Actuar por medio de abogados cuesta dinero, y tampoco está claro si la clonación de voz sin consentimiento viola los términos de servicio de YouTube
- Las exigencias de Jeff son claras
- No se debe robar la voz ni la imagen de otras personas para pegarlas a productos o videos
- Las marcas deberían contratar actores de voz o pagar a los creadores de contenido para colaborar formalmente
- Jeff envió un correo a Elecrow pidiendo que bajaran al menos 2 series que contienen una voz de IA parecida a la suya
- Preguntó si esa voz fue creada intencionalmente para sonar como él
- También pidió confirmar si entrenaron la voz con sus videos o con su contenido de audio
- Antes de pedir que YouTube eliminara los videos o de iniciar acciones legales, quiso comenzar por correo electrónico, y dado que no habían tenido problemas antes, deja abierta la posibilidad de que haya sido un error honesto
- Aun así, está claro que Elecrow conocía el canal de Jeff
- Desde 2020 hasta hoy ha intercambiado más de 43 correos con 5 personas del equipo de marketing de Elecrow
- De esos, 22 correos son de este año
- El 2 de abril de 2024, una persona de marketing de Elecrow le envió un correo diciendo que quería hablar sobre una alianza pagada
- En la actualización del 23 de septiembre, el CEO de Elecrow respondió, y Jeff publicó una entrada posterior con esa respuesta y sus reflexiones sobre la clonación de voz por IA
1 comentarios
Opiniones de Hacker News
Cada quien tendrá sus propios miedos sobre la IA, pero algo especialmente aterrador es cuando se falsifica con IA que alguien dijo algo blasfemo
En mi país, incluso algo que apenas parezca un insulto menor, sea real o imaginado, ya puede provocar una turba de linchamiento por blasfemia. Llegan en masa, linchan a la persona y queman el cuerpo; luego, mientras la familia se esconde y publica un video negando a la víctima y perdonando a la turba, los atacantes se reparten dulces
Esto ya pasaba incluso antes de que la IA fuera fácilmente accesible. Se podría decir que es “cosa de países atrasados”, pero no se va a quedar ahí: se va a propagar. No se puede ponerle un cuchillo en la mano a un bebé y luego culparlo por apuñalar
Independientemente de la reputación, la seguridad o los derechos de autor, esto puede hacer que maten a personas, y no hay herramientas para controlarlo
https://x.com/search?q=blasphemy
Me da miedo el futuro
Si siguen restringidas, reguladas o siendo difíciles de acceder, la gente seguirá pensando que los videos y las grabaciones no se pueden manipular. Pero si una app de 1 dólar vuelve la clonación de voz una broma fácil y divertida, y dejamos que los adolescentes hagan llamadas de broma, pronto quedará instalado en la conciencia pública
La semana pasada mi madre de 70 años me preguntó si debía borrar el saludo de su buzón de voz. Decía que alguien podría robarle la voz con eso; me sorprendió, probablemente lo escuchó en algún lugar como Fox
Serán unos años difíciles, pero espero que pasen rápido
Hoy, si un usuario tiene bastantes comentarios, probablemente sea posible desanonimizarlo mediante análisis de correlación. Aunque no sea 100% preciso, pueden robarle el estilo. Quizá sea paranoia, pero no hay garantía de que no entremos en un bosque oscuro, y también hay razones para pensar que vamos en esa dirección
Al mismo tiempo, también me pregunto si no retirarse a las sombras es una forma de no rendirse
Es parecido a lo que pasó en redes sociales como Reddit, donde durante años hubo “cacerías de culpables” o “doxing”, hasta que los moderadores se dieron cuenta de que las multitudes en línea se equivocan con frecuencia y por lo general lo prohibieron
Pero hasta que se aprueben leyes o se vuelva sentido común la idea de que es más probable que un video sea falso que real, muchas personas saldrán perjudicadas. Puede tardar más de 5 años, y otro problema es que las leyes suelen crearse solo después de que se demuestra que alguien ya fue dañado
No veo por qué usar IA permitiría esquivar el precedente de Midler vs. Ford
De hecho, si no hicieron que otra actriz de voz imitara la voz, sino que la clonaron con IA, la defensa parece aún más débil
En muchos otros estados, las leyes y precedentes sobre el llamado derecho de publicidad están dispersos y varían. Está lejos de haber un consenso universal entre los estados sobre si se debe reconocer ese concepto, cómo delimitarlo o incluso si corresponde hacerlo
“...esta observación se aplica al canto, especialmente al canto de una cantante famosa. Una cantante se manifiesta a sí misma en su canto. Suplantar su voz es piratear su identidad...”
“No necesitamos decidir, y no decidimos, que toda imitación de voz para publicitar productos sea susceptible de demanda. Solo sostenemos que, cuando se imita deliberadamente la voz distintiva de una cantante profesional ampliamente conocida para vender un producto, el vendedor se ha apropiado de algo que no le pertenece...”
Gracias por señalar el precedente, pero los precedentes son solo el punto de partida; al final hay que establecer principios que vayan más allá de la jurisprudencia
Cuando la tecnología trae capacidades sin precedentes, la sociedad tiene que trazar límites para que funcione a favor de las personas y no en su contra, o dejar que nos acerquemos más a un mundo en el que los poderosos hacen lo que quieren y los débiles, o quienes apenas pueden mantener un Camry, tienen que aguantarse
Todavía está en desarrollo en la Cámara de Representantes, pero cuenta con apoyo bipartidista. Puedes contactar a tu representante de distrito y pedirle que la copatrocine o que vote a favor
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
Hay que encontrar una organización política sin fines de lucro como la ACLU que financie los costos de sucesivas apelaciones, y mientras tanto soportar cobertura negativa de prensa y atención pública
Estoy totalmente de acuerdo en que la clase Camry necesita defensores, pero uno de los principios centrales de la práctica moderna es que hay que dejar que cada persona elija el nivel de contribución que puede permitirse. Hay que alentar, impulsar y dar ánimo, pero no avergonzar
En cualquier caso, creo que esta entrada de blog por sí sola ya podría ser suficiente. Casi nadie se pone del lado de quienes roban la voz de una persona, y, a diferencia de recolectar como datos de entrenamiento los archivos del NYT o de deviantart, esto provoca una incomodidad intuitiva mucho mayor. La humillación pública no logrará una gran indemnización por daños, pero tampoco parece que eso fuera lo que buscaba
Si los grandes modelos de lenguaje son la máquina definitiva de remix, me pregunto si cualquiera con generación aumentada por recuperación (RAG) es un DJ digital.
En la información digital, ya es difícil incluso saber qué es robar. Como falta jurisprudencia, se siente como el Viejo Oeste de la propiedad intelectual y las leyes de copyright.
Si incluso una superestrella como Scarlett Johansson no puede hacer más que escribir una carta dolorosa por lo que hizo OpenAI al intentar imitar la personalidad de “Her”, ¿qué puede hacer un nerd de nicho relativamente común?
Probablemente algo como Geerling: estar igual de triste, enojado y frustrado, y aun así decir “por favor, respeten de buena fe las reglas de honor”.
En esos casos, esa fama también puede usarse como represalia. Por ejemplo, es difícil imaginar que esto termine siendo bueno para la reputación de Elecrow. La próxima vez que vea el nombre de esta empresa, pensaré: “Ah, la empresa que engaña a la gente”, y eso no les conviene.
Lo que más preocupa es que se use para eliminar a alguien que no te cae bien. Por ejemplo, puedo imaginar una situación en la que un profesor universitario no hizo nada malo, pero un estudiante inconforme con su calificación usa clonación de voz para hacer parecer que el profesor dijo algo por lo que podrían despedirlo. Si la clonación de voz se vuelve muy buena, ¿cómo podría defenderse alguien así? Sería difícil hasta que esas grabaciones se vuelvan tan comunes que ya no se confíe en ellas.
Para que haya robo tendría que cumplirse la condición de que la víctima pierda el beneficio del objeto robado. Copiar y pegar simplemente derrumba un castillo de naipes que amenaza con cárcel y pobreza a la gente si usa memes reclamados y no paga.
Si fuera jurado en un caso de infracción de copyright donde el acusado fuera una persona y no una empresa, votaría siempre por la nulidad del jurado.
¿Eric Schmidt no dijo recientemente que, si tienes éxito, dejes que los abogados lo arreglen después y robes primero?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] Técnicamente quiso decir robar de forma legal, pero no sé qué significa eso.
Si el mundo sigue saltando y pateando desde abajo para tirarte, tal vez estás parado en el lugar equivocado.
En un objeto que tiene la interfaz
.copy(), el robo no está definido. Aun así, si uno mira con atención, sigue existiendo.La gente debería ajustar sus expectativas, no la ley. Las computadoras reemplazaron a los cajeros, y ahora la actuación de voz reemplaza a los actores de voz. La popularidad en realidad no significa mucho, y si solo las personas populares pueden conservar su trabajo, ¿no es eso también injusto?
Incluso dejando de lado la parte de la IA, me parece que distorsionaron gravemente la opinión de Jeff o usaron su imagen sin permiso.
Al usar su voz, generan una garantía implícita y manipulada sobre el producto, y se siente como algo muy incorrecto. Creo que ya existían leyes para tratar casos así mucho antes de que existiera la IA.
Desde hace mucho existen personas que pueden imitar muy bien voces, y por lo general usaban esa habilidad para comedia o sátira, no para tergiversar las opiniones de otros. No soy abogado, pero creo que esto está sobre una base legal bastante sólida y que representar falsamente a una persona podría tratarse de manera relativamente sencilla por la vía legal.
La diferencia es la democratización. Pasamos de una situación en la que solo muy pocas personas tenían esta capacidad a otra en la que casi cualquiera con una computadora puede hacer algo similar. Por eso la aplicación de la ley se vuelve mucho más difícil y, si resolverlo requiere acciones legales, es muy posible que para alguien como Jeff Geerling sea imposible costearlo.
Puede que yo sea el raro, pero no creo que esa voz se parezca tanto a la suya.
Se parece un poco, pero es distinta: el tono es algo más alto, más nasal y la entonación también es un poco diferente.
https://www.youtube.com/watch?v=UMofZIT9FcQ
Las diferencias de entonación y tono que mencionas se deben simplemente a que es una voz generada por IA, no habla humana.
Probablemente su argumento sería que mezclaron voces más agradables para crear suficiente diferenciación.
El problema es quién decide qué tan diferente debe ser para no caer en apropiación de semejanza de imagen o voz. El “rey de la voz nerd genérica” alegará una similitud excesiva, y la parte sospechosa no revelará todo el proceso.
Pronto también será posible ajustar voces de IA de oído, así que pedir quedar excluido del entrenamiento por ser una voz representativa de cierto sector tampoco te mantendrá a salvo. Algo como una autoridad de voces suena sombrío.
Como YouTuber pequeño de tecnología, también he tenido contacto con Elecrow.
Según entiendo, empleados de varias empresas, no solo Elecrow, reciben recompensas, ascensos o comisiones si logran cerrar colaboraciones de video o alianzas de largo plazo con YouTubers. Alguien pudo haber pensado que, como el canal de Jeff es bastante conocido en este campo, clonar la voz de Jeff sería una jugada inteligente.
Desde el punto de vista de Elecrow, definitivamente no es buena publicidad, y también me da curiosidad si admitirán que fue intencional.
La idea de que el tono de una voz robada vaya a ser importante es una de las partes más cortoplacistas de la inversión en AI. Está impulsada por la mentalidad hollywoodense de “no creemos nada nuevo jamás”
En unos 5 años, las voces de AI serán personalizadas y más agradables de escuchar que las de humanos reales. No estarán limitadas por la fatiga de las cuerdas vocales, se podrán cambiar a voluntad y se podrán ajustar fácilmente investigando la participación de los usuarios
En adelante, la clave será afinar la salida de voz y observar la participación
Esa es precisamente la razón por la que eligieron su voz
Una voz de AI puede ser estéticamente indistinguible o incluso preferida, pero no puede contener reputación ni autenticidad. Esas cosas tienen valor porque son esencialmente escasas. De hecho, en un mar de contenido basura genérico y mercantilizado, es probable que la demanda por personas con valor de marca único no baje, sino que suba. Por eso los influencers ganan tanto dinero en la publicidad hoy en día
“Capacitación”, claro
Ya ofrece varias técnicas de clonación de voz que parten de una muestra de 30 segundos. La de 30 segundos se parece en cierta medida a la voz objetivo, pero no es idéntica; si le das varias horas de audio, suena como una persona real. Además, puedes ajustar la voz con algunos parámetros o crear una nueva solo definiendo parámetros
Por la calidad, la voz del video podría ser una voz de “clonación instantánea” hecha con una entrada de apenas unos segundos. Para una clonación más avanzada, necesitas demostrar que es tu propia voz
[1] https://elevenlabs.io
En ese contexto, las empresas podrían querer comprar sus voces. No es solo una cuestión de que suenen bien, sino de que la familiaridad tiene mucho valor. Por ejemplo, ElevenLabs incluso compró a familiares los derechos de voz de personas fallecidas
Pero salvo por estos contextos especiales cargados de nostalgia, no veo por qué no crear voces sintéticas desde el principio
Todos lo tomarán como diversión hasta que alguien genere una grabación en la que otra persona parezca admitir un delito y eso se use en un tribunal
Eso es exactamente lo que odio de la AI
Pero si las pruebas de video y audio se vuelven inadmisibles, ¿qué se supone que hagamos?
Aunque en ambos casos parece más importante en el tribunal de la opinión pública que en los tribunales reales
Al evaluar una tecnología nueva y útil, preservar los formatos de prueba difícilmente parece ser la preocupación principal
Como hay cientos de herramientas de clonación de voz, es inevitable que aparezca contenido con voces clonadas
Es parecido al uso no autorizado de la imagen de alguien. Las plataformas y los equipos de operaciones ya tienen procesos para denunciarlo y eliminarlo. Parece que se necesita algo similar para la voz