- Se produjo una filtración masiva en la que la biometría de voz y documentos de identidad emitidos por el gobierno quedaron vinculados en una sola línea de datos, e incluye a más de 40 mil contratistas de IA según el índice de muestras filtradas
- Hay grabaciones limpias de 2 a 5 minutos en promedio por contratista, muy por encima del umbral para la clonación de voz, que puede lograrse con solo unos 15 segundos de audio de referencia
- Los datos filtrados combinan clones de voz con identidades verificadas, lo que puede facilitar eludir autenticación por voz bancaria, vishing dirigido al lugar de trabajo, videollamadas deepfake, fraude en reclamos de seguros y llamadas de emergencia haciéndose pasar por familiares
- Si subiste muestras de voz a Mercor o a otros intermediarios de entrenamiento de IA que operaron hasta 2025, debes tratarlas como una contraseña filtrada; es necesario borrar voz pública, establecer palabras clave, volver a registrar la huella de voz y desactivarla
- Las voces sospechosas deben someterse a análisis forense para revisar inconsistencias de códec, patrones de respiración, microjitter, trayectorias de formantes, consistencia acústica del entorno, prosodia y velocidad de habla; esto también expone con mayor claridad la fragilidad general de la autenticación por voz
Resumen de la brecha
- El 4 de abril de 2026, Lapsus$ publicó a Mercor en su sitio de filtraciones, y se informó que el volumen de datos expuestos fue de aproximadamente 4 TB
- El archivo filtrado vinculaba biometría de voz con documentos de identidad emitidos por el gobierno de la misma persona, e incluía a más de 40 mil contratistas según el índice de muestras filtradas
- Las personas afectadas eran contratistas registrados para etiquetado de datos de entrenamiento de IA, grabación de frases leídas en voz alta y realización de llamadas de verificación
- Dentro de los 10 días posteriores a la publicación, se presentaron 5 demandas de contratistas, alegando que se recopilaron huellas de voz como "datos de entrenamiento" sin dejar claro que se trataba de identificadores biométricos permanentes
Por qué esta filtración es diferente
- Durante la última década, las filtraciones de voz se dividieron en general entre grabaciones de llamadas difíciles de vincular con una identidad o filtraciones de documentos de identidad y selfis sin audio
- El proceso de registro de Mercor combinaba en una sola línea de datos el escaneo de pasaporte o licencia de conducir, una selfi por webcam y una grabación de voz leyendo un guion en un entorno silencioso
- Esa combinación coincide exactamente con el formato que requieren como entrada los servicios de clonación de voz sintética
- Según un reporte de febrero de 2026 del Wall Street Journal, las herramientas comerciales solo necesitan unos 15 segundos de audio limpio de referencia para producir una clonación de voz de alta calidad
- Se informó que las grabaciones de Mercor contenían en promedio 2 a 5 minutos de voz con calidad de estudio por contratista, superando con mucho ese umbral de clonación
- Al combinarse además con documentos de identidad verificados, los atacantes obtienen al mismo tiempo un clon de voz y las credenciales necesarias para usarlo en ataques reales
Ataques posibles con los datos de voz robados
-
Eludir autenticación bancaria
- Muchos bancos de EE. UU. y Reino Unido todavía tratan la coincidencia de huella de voz como uno de dos factores
- Si un clon de voz del titular de la cuenta lee la frase de desafío, puede pasar la barrera de audio, y lo único que quedaría serían preguntas basadas en conocimiento que podrían salir del mismo conjunto de datos filtrado
-
Vishing dirigido al trabajo
- Se puede llamar a RR. HH. o al área de finanzas fingiendo ser un empleado para intentar cambiar datos de pago de nómina, solicitar transferencias o desbloquear una estación de trabajo
- El archivo de Krebs on Security acumula más de 24 casos confirmados desde 2023
-
Videollamadas deepfake
- En 2024, en Arup, una videollamada deepfake con múltiples personas llevó a que un responsable financiero transfiriera alrededor de 25 millones de dólares
- En ese caso, la voz y el rostro se generaron a partir de videos públicos, pero la filtración de Mercor incluye audio de estudio y documentos de identidad verificados, mejores que un video público
-
Fraude en reclamos de seguros
- Pindrop registró que durante todo 2025 los ataques con voz sintética contra call centers de aseguradoras crecieron 475% frente al año anterior
- Los principales objetivos son reclamos de automóviles, vida e incapacidad gestionados por teléfono
-
Estafas de llamadas de emergencia haciéndose pasar por familiares
- El Centro de Quejas de Delitos en Internet del FBI calculó pérdidas de 2.3 mil millones de dólares para víctimas mayores de 60 años en 2026
- La categoría de mayor crecimiento fue la de llamadas urgentes de suplantación en las que se afirmaba que un familiar estaba en peligro
Cómo verificar abuso de voz y responder de inmediato
- Si alguna vez subiste muestras de voz a Mercor o a otros intermediarios de entrenamiento de IA que operaron hasta 2025, debes tratarlas como una contraseña expuesta
- La voz en sí no puede reemplazarse, pero sí pueden cambiarse los mecanismos de autenticación que esa voz puede abrir
-
Revisar rastros de audio público
- Conviene buscar muestras de voz indexadas públicamente en YouTube, directorios de podcasts y grabaciones antiguas de Zoom
- Es preferible eliminar toda voz pública que sea posible retirar
- Cuanto menos audio de referencia público haya, menos robusto será el clon del atacante
-
Establecer palabras clave verbales con familiares y contactos financieros
- Debe elegirse una frase que nunca haya sido grabada ni escrita en chats
- Conviene compartirla por adelantado con las personas que pueden mover fondos en tu nombre
- En llamadas que pidan transferencias, es más seguro exigir la palabra clave como paso obligatorio
-
Volver a registrar donde se use huella de voz
- Es posible borrar y reemplazar registros de Google Voice Match, Amazon Alexa Voice ID, Apple personal voice y huellas de voz bancarias
- Lo ideal es volver a registrarse con una nueva grabación hecha en un entorno acústico diferente al de las muestras filtradas
-
Desactivar la autenticación bancaria por huella de voz
- Se puede solicitar por escrito que la huella de voz sea retirada como factor de autenticación
- Es mejor pedir autenticación multifactor con tokens de app o llaves de hardware combinadas con factores basados en conocimiento
- Muchos bancos ofrecen la opción de excluir la voz como factor principal de autenticación, aunque no lo difunden ampliamente
-
Análisis forense de grabaciones sospechosas
- Si recibes un archivo de audio o mensaje de voz de alguien que afirma conocerte y pide dinero, acceso o una respuesta urgente, es mejor no actuar de inmediato y pasarlo por un detector de deepfakes
- ORAVYS ofrece análisis gratuitos para las primeras 3 muestras enviadas por personas afectadas por la brecha
- Run a forensic check →
Lista de verificación para análisis forense
- El análisis forense comienza buscando primero errores comunes de la voz sintética
- Las inconsistencias de códec se detectan cuando la firma espectral de un audio que supuestamente proviene de una llamada telefónica no coincide con los códecs telefónicos conocidos
- Los patrones de respiración se desalinean porque, a diferencia de un hablante real que inhala según la longitud de la frase y la capacidad pulmonar, la voz sintética omite respiraciones o las inserta en límites silábicos incorrectos
- El microjitter se refiere a las pequeñas irregularidades naturales en la vibración de las cuerdas vocales, mientras que el audio generado suele ser demasiado limpio a nivel de milisegundos
- Las trayectorias de formantes siguen en una voz real la transición vocálica creada por los órganos articulatorios, pero una voz clonada puede saltar entre formantes de maneras físicamente imposibles
- La consistencia acústica del entorno exige que las características de reverberación se mantengan iguales de principio a fin del archivo, pero en audio generado puede haber una voz seca con contexto ambiental pegado que sí tiene reverberación
- El aplanamiento prosódico aparece cuando la voz sintética muestra menos variación de tono y energía que un hablante real
- La estabilidad de la velocidad de habla se nota porque, a diferencia de las aceleraciones y desaceleraciones humanas, la voz generada mantiene durante tramos largos un ritmo constante como metrónomo
Cómo realiza ORAVYS sus análisis
- Para cada muestra enviada, ejecuta en paralelo más de 3,000 motores forenses, abarcando señal, prosodia, articulación, códec y origen
- La detección de marca de agua AudioSeal puede señalar archivos generados por los principales modelos comerciales de voz cuando la marca de agua sigue presente, y si existe, ofrece un resultado positivo concluyente
- El módulo anti-spoofing fue entrenado con base en el benchmark público ASVspoof y puntúa la probabilidad de que la muestra haya sido sintetizada en lugar de grabada
- Aplica procesamiento de biometría conforme al RGPD, no usa audio para entrenar modelos comerciales sin consentimiento explícito y elimina los datos según un calendario de retención definido
- Si eres contratista de Mercor y tu voz ya podría estar circulando, analizan gratis tus primeras 3 muestras sospechosas
- El informe gratuito incluye detección de marca de agua, puntaje anti-spoofing y la lista de artefactos anterior
- Afirman que no se necesita información de tarjeta ni hay barreras por límites de uso
Fuentes y limitaciones
- Como fuentes se citan el índice del sitio de filtraciones de Lapsus$, el Wall Street Journal de febrero de 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026 y el archivo de Krebs on Security
- ORAVYS no aloja ni redistribuye el conjunto de datos filtrado, y tampoco lo acepta como entrada
1 comentarios
Comentarios en Hacker News
La ironía es enorme. Para reducir el daño de que mi voz termine en manos de una empresa de IA, resulta que tengo que enviarle mi voz a otra empresa de IA; es absurdo
Mercor probablemente también dejó una salida legal al incluir el consentimiento explícito en los términos y condiciones
Había que entregar una grabación de voz con calidad de estudio y un escaneo de identificación, pero para el trabajo real de etiquetado de datos no hacía falta ninguna de las dos cosas; el consentimiento estaba enterrado en lo profundo de los términos y la gente, por necesidad de cobrar, no tenía más opción que hacer clic
Ahora 40 mil personas aprendieron que la información biométrica no es una contraseña, y también quedó claro que la voz no se puede reemplazar
En un mundo ideal, la ley debería ser un medio accesible para resolver disputas en vez de recurrir a la violencia, pero hoy con más frecuencia se usa como un sistema kafkiano para mantener el poder corporativo por encima del individuo
En la práctica, está más cerca de bloquear casi por completo los recursos legales, mientras que otras formas de respuesta implican costos enormes y constantes, como mantener varias residencias o contratar seguridad
No se trata de defender la violencia, sino de que hace falta un sistema legal más horizontal y accesible
Mucha gente, en la práctica, terminó espiándose a sí misma y hasta a su propia empresa
Incluso si los contratistas de Mercor alegan una recolección excesiva de datos mediante Insightful, desde la perspectiva de la empresa es una estructura bastante astuta. Si se quejan demasiado, no solo pueden perder su trabajo principal, sino además cargar con el miedo de asumir responsabilidad ilimitada por una supuesta conducta intencionalmente ilícita
https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
Soy el autor. Escribí esto después de ver el archivo de Mercor que Lapsus$ publicó en su sitio de filtraciones a principios de este mes
Lo que más me llamó la atención fue la combinación de muestras de voz y escaneos de identificación. Normalmente las filtraciones incluyen una u otra, pero en este caso fue como entregar el kit completo listo para usar en deepfakes
Quise resumir de forma práctica qué puede hacer realmente un atacante con esa combinación, por ejemplo evadir la autenticación por voz en bancos, hacerse pasar por alguien en videollamadas al estilo Arup, cometer fraude de seguros, y además incluir una lista de verificación de 5 pasos para los contratistas afectados por la filtración
También se puede hablar del lado de la detección forense. El watermark de AudioSeal, el antisuplantación de AASIST, y cómo cambia el panorama de la detección cuando la biometría de voz empieza a filtrarse a gran escala también son temas importantes
Una publicación en redes sociales puede no ser un anuncio oficial, pero encontré esta muestra de notificación de filtración presentada en California
Habrá que ver si esta vez nuestros legisladores se toman en serio la privacidad de los datos
https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
Incluso en dispositivos Apple no uso biometría; solo un PIN de 6 dígitos
Siempre me pareció una idea tonta desde el principio
Se repite el mismo patrón: cuando hay que elegir entre conveniencia y seguridad, tratan de paranoico al que no elige conveniencia; y cuando finalmente ocurre un incidente real, siguen tratándolo de paranoico, solo que por otra razón
Solo los datos que no existen no pueden ser robados ni filtrados. Es una lección dolorosa tanto para usuarios como para empresas
En alemán incluso existe la palabra Datensparsamkeit para esta idea. Se acerca a algo así como usar los datos con moderación
En la Alemania de los años 70 hubo un gran debate sobre la privacidad y el almacenamiento de datos, y se usaban expresiones como Datenschatten
Esa tradición probablemente viene de la reflexión posterior a la Segunda Guerra Mundial y del cuestionamiento de los sistemas administrativos
Ahora todo el mundo intenta recolectar más de todo como datos para IA
Pueden copiarse o borrarse, y a veces ambas cosas suceden al mismo tiempo
Solo puede decirse que los datos realmente desaparecieron cuando se borró hasta la última copia
En el modelo de amenazas empresarial también entran sus propios usuarios, y su manera de operar consiste en seguir acumulando toda la información posible sobre esa amenaza
Por ejemplo, el dataset Common Voice de Mozilla no es el tipo de cosa que alguien pueda robarse
Ayer en Houston estuve cerca de exagentes y ex GS15, y escuché una explicación de que el sector israelí de ciberseguridad se metió en algún punto de la cadena de suministro del buzón de voz durante los últimos 20 años y se llevó el voicemail de todo el mundo
Hoy en día da miedo la cantidad de formas en que se pueden aprovechar los datos de audio
Entonces, ¿ahora todos simplemente tenemos que cambiarnos la voz?
Es broma, pero la mayoría de la gente común que conozco entrega su biometría simplemente porque es más fácil
Habría que vender la biometría como una especie de contraseña permanente, para que la gente entienda exactamente qué está entregando cuando la usa para entrar a su cuenta bancaria o a Disney World
Las huellas, el ADN, el iris o la forma de caminar son identificadores permanentes que casi no se pueden cambiar, y están expuestos al mundo de forma continua, como una dirección de correo
Además, en la legislación de EE. UU. la policía puede obligarte a mostrar tu huella, pero una contraseña está protegida por la Quinta Enmienda
Vive bastante bien dentro de la confianza social y la negación plausible, y mientras no sienta que fue su culpa, no suele preocuparse demasiado por lo que pase
No ve como lo mismo exponerse a un riesgo y cargar con la responsabilidad
En cierto sentido hasta da un poco de envidia. Es como vivir bajo la premisa de que el mundo debería funcionar así
Quería decir que el cliente no las olvidaba y que requerían menos soporte, así que mucha gente podría interpretar esa expresión como algo bueno
Es realmente grave que Mercor haya engañado a 40 mil contratistas y además haya manejado tan mal la seguridad de los datos
En algo así debería haber una responsabilidad mucho más fuerte
Por eso hasta parece posible que el resultado de todo este escándalo termine trayéndole más negocio a Mercor
Ya vimos algo parecido con Crowdstrike
Si un atacante tiene 30 segundos de audio de lectura clara de alguien y un escaneo de su licencia de conducir, puede hacer bastantes cosas
Solo viendo mi banco y mi casa de bolsa, ambos usan ID por voz
Hasta parece que el propósito mismo de esta empresa fuera extraer ese tipo de datos
Recolectan en masa todo tipo de cosas, como video, voz y más
Si esto es cierto, el problema más grande quizá ni siquiera sea la filtración en sí
Estamos entrando silenciosamente en un mundo donde con solo voz + identificación se puede suplantar por completo a una persona, y la mayoría de los sistemas todavía no están diseñados bajo esa realidad
Aquí también hay un desagradable problema laboral
Quienes etiquetan y entrenan estos sistemas son justamente quienes quedan menos protegidos cuando el pipeline de datos se convierte en superficie de ataque