Filtración de 4 TB de muestras de voz de 40 mil contratistas de IA en Mercor

(app.oravys.com)

1 puntos por GN⁺ 2026-04-28 | 1 comentarios | Compartir por WhatsApp

Se produjo una filtración masiva en la que la biometría de voz y documentos de identidad emitidos por el gobierno quedaron vinculados en una sola línea de datos, e incluye a más de 40 mil contratistas de IA según el índice de muestras filtradas
Hay grabaciones limpias de 2 a 5 minutos en promedio por contratista, muy por encima del umbral para la clonación de voz, que puede lograrse con solo unos 15 segundos de audio de referencia
Los datos filtrados combinan clones de voz con identidades verificadas, lo que puede facilitar eludir autenticación por voz bancaria, vishing dirigido al lugar de trabajo, videollamadas deepfake, fraude en reclamos de seguros y llamadas de emergencia haciéndose pasar por familiares
Si subiste muestras de voz a Mercor o a otros intermediarios de entrenamiento de IA que operaron hasta 2025, debes tratarlas como una contraseña filtrada; es necesario borrar voz pública, establecer palabras clave, volver a registrar la huella de voz y desactivarla
Las voces sospechosas deben someterse a análisis forense para revisar inconsistencias de códec, patrones de respiración, microjitter, trayectorias de formantes, consistencia acústica del entorno, prosodia y velocidad de habla; esto también expone con mayor claridad la fragilidad general de la autenticación por voz

Resumen de la brecha

El 4 de abril de 2026, Lapsus$ publicó a Mercor en su sitio de filtraciones, y se informó que el volumen de datos expuestos fue de aproximadamente 4 TB
El archivo filtrado vinculaba biometría de voz con documentos de identidad emitidos por el gobierno de la misma persona, e incluía a más de 40 mil contratistas según el índice de muestras filtradas
Las personas afectadas eran contratistas registrados para etiquetado de datos de entrenamiento de IA, grabación de frases leídas en voz alta y realización de llamadas de verificación
Dentro de los 10 días posteriores a la publicación, se presentaron 5 demandas de contratistas, alegando que se recopilaron huellas de voz como "datos de entrenamiento" sin dejar claro que se trataba de identificadores biométricos permanentes

Por qué esta filtración es diferente

Durante la última década, las filtraciones de voz se dividieron en general entre grabaciones de llamadas difíciles de vincular con una identidad o filtraciones de documentos de identidad y selfis sin audio
El proceso de registro de Mercor combinaba en una sola línea de datos el escaneo de pasaporte o licencia de conducir, una selfi por webcam y una grabación de voz leyendo un guion en un entorno silencioso
Esa combinación coincide exactamente con el formato que requieren como entrada los servicios de clonación de voz sintética
Según un reporte de febrero de 2026 del Wall Street Journal, las herramientas comerciales solo necesitan unos 15 segundos de audio limpio de referencia para producir una clonación de voz de alta calidad
Se informó que las grabaciones de Mercor contenían en promedio 2 a 5 minutos de voz con calidad de estudio por contratista, superando con mucho ese umbral de clonación
Al combinarse además con documentos de identidad verificados, los atacantes obtienen al mismo tiempo un clon de voz y las credenciales necesarias para usarlo en ataques reales

Ataques posibles con los datos de voz robados

Eludir autenticación bancaria
- Muchos bancos de EE. UU. y Reino Unido todavía tratan la coincidencia de huella de voz como uno de dos factores
- Si un clon de voz del titular de la cuenta lee la frase de desafío, puede pasar la barrera de audio, y lo único que quedaría serían preguntas basadas en conocimiento que podrían salir del mismo conjunto de datos filtrado
Vishing dirigido al trabajo
- Se puede llamar a RR. HH. o al área de finanzas fingiendo ser un empleado para intentar cambiar datos de pago de nómina, solicitar transferencias o desbloquear una estación de trabajo
- El archivo de Krebs on Security acumula más de 24 casos confirmados desde 2023
Videollamadas deepfake
- En 2024, en Arup, una videollamada deepfake con múltiples personas llevó a que un responsable financiero transfiriera alrededor de 25 millones de dólares
- En ese caso, la voz y el rostro se generaron a partir de videos públicos, pero la filtración de Mercor incluye audio de estudio y documentos de identidad verificados, mejores que un video público
Fraude en reclamos de seguros
- Pindrop registró que durante todo 2025 los ataques con voz sintética contra call centers de aseguradoras crecieron 475% frente al año anterior
- Los principales objetivos son reclamos de automóviles, vida e incapacidad gestionados por teléfono
Estafas de llamadas de emergencia haciéndose pasar por familiares
- El Centro de Quejas de Delitos en Internet del FBI calculó pérdidas de 2.3 mil millones de dólares para víctimas mayores de 60 años en 2026
- La categoría de mayor crecimiento fue la de llamadas urgentes de suplantación en las que se afirmaba que un familiar estaba en peligro

Cómo verificar abuso de voz y responder de inmediato

Si alguna vez subiste muestras de voz a Mercor o a otros intermediarios de entrenamiento de IA que operaron hasta 2025, debes tratarlas como una contraseña expuesta
La voz en sí no puede reemplazarse, pero sí pueden cambiarse los mecanismos de autenticación que esa voz puede abrir
Revisar rastros de audio público
- Conviene buscar muestras de voz indexadas públicamente en YouTube, directorios de podcasts y grabaciones antiguas de Zoom
- Es preferible eliminar toda voz pública que sea posible retirar
- Cuanto menos audio de referencia público haya, menos robusto será el clon del atacante
Establecer palabras clave verbales con familiares y contactos financieros
- Debe elegirse una frase que nunca haya sido grabada ni escrita en chats
- Conviene compartirla por adelantado con las personas que pueden mover fondos en tu nombre
- En llamadas que pidan transferencias, es más seguro exigir la palabra clave como paso obligatorio
Volver a registrar donde se use huella de voz
- Es posible borrar y reemplazar registros de Google Voice Match, Amazon Alexa Voice ID, Apple personal voice y huellas de voz bancarias
- Lo ideal es volver a registrarse con una nueva grabación hecha en un entorno acústico diferente al de las muestras filtradas
Desactivar la autenticación bancaria por huella de voz
- Se puede solicitar por escrito que la huella de voz sea retirada como factor de autenticación
- Es mejor pedir autenticación multifactor con tokens de app o llaves de hardware combinadas con factores basados en conocimiento
- Muchos bancos ofrecen la opción de excluir la voz como factor principal de autenticación, aunque no lo difunden ampliamente
Análisis forense de grabaciones sospechosas
- Si recibes un archivo de audio o mensaje de voz de alguien que afirma conocerte y pide dinero, acceso o una respuesta urgente, es mejor no actuar de inmediato y pasarlo por un detector de deepfakes
- ORAVYS ofrece análisis gratuitos para las primeras 3 muestras enviadas por personas afectadas por la brecha
- Run a forensic check →

Lista de verificación para análisis forense

El análisis forense comienza buscando primero errores comunes de la voz sintética
Las inconsistencias de códec se detectan cuando la firma espectral de un audio que supuestamente proviene de una llamada telefónica no coincide con los códecs telefónicos conocidos
Los patrones de respiración se desalinean porque, a diferencia de un hablante real que inhala según la longitud de la frase y la capacidad pulmonar, la voz sintética omite respiraciones o las inserta en límites silábicos incorrectos
El microjitter se refiere a las pequeñas irregularidades naturales en la vibración de las cuerdas vocales, mientras que el audio generado suele ser demasiado limpio a nivel de milisegundos
Las trayectorias de formantes siguen en una voz real la transición vocálica creada por los órganos articulatorios, pero una voz clonada puede saltar entre formantes de maneras físicamente imposibles
La consistencia acústica del entorno exige que las características de reverberación se mantengan iguales de principio a fin del archivo, pero en audio generado puede haber una voz seca con contexto ambiental pegado que sí tiene reverberación
El aplanamiento prosódico aparece cuando la voz sintética muestra menos variación de tono y energía que un hablante real
La estabilidad de la velocidad de habla se nota porque, a diferencia de las aceleraciones y desaceleraciones humanas, la voz generada mantiene durante tramos largos un ritmo constante como metrónomo

Cómo realiza ORAVYS sus análisis

Para cada muestra enviada, ejecuta en paralelo más de 3,000 motores forenses, abarcando señal, prosodia, articulación, códec y origen
La detección de marca de agua AudioSeal puede señalar archivos generados por los principales modelos comerciales de voz cuando la marca de agua sigue presente, y si existe, ofrece un resultado positivo concluyente
El módulo anti-spoofing fue entrenado con base en el benchmark público ASVspoof y puntúa la probabilidad de que la muestra haya sido sintetizada en lugar de grabada
Aplica procesamiento de biometría conforme al RGPD, no usa audio para entrenar modelos comerciales sin consentimiento explícito y elimina los datos según un calendario de retención definido
Si eres contratista de Mercor y tu voz ya podría estar circulando, analizan gratis tus primeras 3 muestras sospechosas
El informe gratuito incluye detección de marca de agua, puntaje anti-spoofing y la lista de artefactos anterior
Afirman que no se necesita información de tarjeta ni hay barreras por límites de uso

Fuentes y limitaciones

Como fuentes se citan el índice del sitio de filtraciones de Lapsus$, el Wall Street Journal de febrero de 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026 y el archivo de Krebs on Security
ORAVYS no aloja ni redistribuye el conjunto de datos filtrado, y tampoco lo acepta como entrada

1 comentarios

GN⁺ 2026-04-28

Comentarios en Hacker News

La ironía es enorme. Para reducir el daño de que mi voz termine en manos de una empresa de IA, resulta que tengo que enviarle mi voz a otra empresa de IA; es absurdo
Mercor probablemente también dejó una salida legal al incluir el consentimiento explícito en los términos y condiciones
- Más amargo que la oferta de análisis gratis es que, desde el principio, la propia estructura del contrato de Mercor seguía exactamente ese patrón
  Había que entregar una grabación de voz con calidad de estudio y un escaneo de identificación, pero para el trabajo real de etiquetado de datos no hacía falta ninguna de las dos cosas; el consentimiento estaba enterrado en lo profundo de los términos y la gente, por necesidad de cobrar, no tenía más opción que hacer clic
  Ahora 40 mil personas aprendieron que la información biométrica no es una contraseña, y también quedó claro que la voz no se puede reemplazar
- La expresión CYA parece una forma demasiado ligera de maquillar la realidad
  En un mundo ideal, la ley debería ser un medio accesible para resolver disputas en vez de recurrir a la violencia, pero hoy con más frecuencia se usa como un sistema kafkiano para mantener el poder corporativo por encima del individuo
  En la práctica, está más cerca de bloquear casi por completo los recursos legales, mientras que otras formas de respuesta implican costos enormes y constantes, como mantener varias residencias o contratar seguridad
  No se trata de defender la violencia, sino de que hace falta un sistema legal más horizontal y accesible
- Según el artículo del WSJ de la semana pasada, Mercor parece estar apuntando a zonas grises del contrato. No era solo un tema de voz
  Mucha gente, en la práctica, terminó espiándose a sí misma y hasta a su propia empresa
  Incluso si los contratistas de Mercor alegan una recolección excesiva de datos mediante Insightful, desde la perspectiva de la empresa es una estructura bastante astuta. Si se quejan demasiado, no solo pueden perder su trabajo principal, sino además cargar con el miedo de asumir responsabilidad ilimitada por una supuesta conducta intencionalmente ilícita
  https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
- Cuando intenté borrar mi cuenta de Airbnb me pidieron escaneos del frente y reverso de una identificación, así que simplemente lo dejé ahí; desde entonces no he vuelto a usar esa empresa
- Suena parecido a esas situaciones en las que, para cobrar una compensación por robo de identidad, primero tienes que verificar tu identidad
Soy el autor. Escribí esto después de ver el archivo de Mercor que Lapsus$ publicó en su sitio de filtraciones a principios de este mes
Lo que más me llamó la atención fue la combinación de muestras de voz y escaneos de identificación. Normalmente las filtraciones incluyen una u otra, pero en este caso fue como entregar el kit completo listo para usar en deepfakes
Quise resumir de forma práctica qué puede hacer realmente un atacante con esa combinación, por ejemplo evadir la autenticación por voz en bancos, hacerse pasar por alguien en videollamadas al estilo Arup, cometer fraude de seguros, y además incluir una lista de verificación de 5 pasos para los contratistas afectados por la filtración
También se puede hablar del lado de la detección forense. El watermark de AudioSeal, el antisuplantación de AASIST, y cómo cambia el panorama de la detección cuando la biometría de voz empieza a filtrarse a gran escala también son temas importantes
- Fue un material interesante. Mercor casi no emitió una postura pública después del incidente
  Una publicación en redes sociales puede no ser un anuncio oficial, pero encontré esta muestra de notificación de filtración presentada en California
  Habrá que ver si esta vez nuestros legisladores se toman en serio la privacidad de los datos
  https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
- Cuando HSBC me propuso hace unos años la autenticación por voz, la rechacé de inmediato
  Incluso en dispositivos Apple no uso biometría; solo un PIN de 6 dígitos
  Siempre me pareció una idea tonta desde el principio
  Se repite el mismo patrón: cuando hay que elegir entre conveniencia y seguridad, tratan de paranoico al que no elige conveniencia; y cuando finalmente ocurre un incidente real, siguen tratándolo de paranoico, solo que por otra razón
Solo los datos que no existen no pueden ser robados ni filtrados. Es una lección dolorosa tanto para usuarios como para empresas
En alemán incluso existe la palabra Datensparsamkeit para esta idea. Se acerca a algo así como usar los datos con moderación
- Que exista una palabra así en alemán también tiene un contexto histórico
  En la Alemania de los años 70 hubo un gran debate sobre la privacidad y el almacenamiento de datos, y se usaban expresiones como Datenschatten
  Esa tradición probablemente viene de la reflexión posterior a la Segunda Guerra Mundial y del cuestionamiento de los sistemas administrativos
- Antes de los LLM, se podía argumentar perfectamente que los datos innecesarios solo aumentaban la responsabilidad y el riesgo
  Ahora todo el mundo intenta recolectar más de todo como datos para IA
- Los datos no son objetos físicos, así que, en sentido estricto, no son algo que se robe
  Pueden copiarse o borrarse, y a veces ambas cosas suceden al mismo tiempo
  Solo puede decirse que los datos realmente desaparecieron cuando se borró hasta la última copia
- Pero las empresas casi nunca aprenden esa lección
  En el modelo de amenazas empresarial también entran sus propios usuarios, y su manera de operar consiste en seguir acumulando toda la información posible sobre esa amenaza
- Si los datos ya son públicos, es difícil que aplique la idea de filtración o robo
  Por ejemplo, el dataset Common Voice de Mozilla no es el tipo de cosa que alguien pueda robarse
Ayer en Houston estuve cerca de exagentes y ex GS15, y escuché una explicación de que el sector israelí de ciberseguridad se metió en algún punto de la cadena de suministro del buzón de voz durante los últimos 20 años y se llevó el voicemail de todo el mundo
Hoy en día da miedo la cantidad de formas en que se pueden aprovechar los datos de audio
Entonces, ¿ahora todos simplemente tenemos que cambiarnos la voz?
Es broma, pero la mayoría de la gente común que conozco entrega su biometría simplemente porque es más fácil
Habría que vender la biometría como una especie de contraseña permanente, para que la gente entienda exactamente qué está entregando cuando la usa para entrar a su cuenta bancaria o a Disney World
- Funcionalmente, la biometría se parece más a un nombre de usuario que a una contraseña
  Las huellas, el ADN, el iris o la forma de caminar son identificadores permanentes que casi no se pueden cambiar, y están expuestos al mundo de forma continua, como una dirección de correo
  Además, en la legislación de EE. UU. la policía puede obligarte a mostrar tu huella, pero una contraseña está protegida por la Quinta Enmienda
- La gente que dice porque es más fácil tiene una forma de pensar distinta
  Vive bastante bien dentro de la confianza social y la negación plausible, y mientras no sienta que fue su culpa, no suele preocuparse demasiado por lo que pase
  No ve como lo mismo exponerse a un riesgo y cargar con la responsabilidad
  En cierto sentido hasta da un poco de envidia. Es como vivir bajo la premisa de que el mundo debería funcionar así
- Cuando trabajaba en un banco, la expresión forever passwords se usaba más bien en sentido positivo
  Quería decir que el cliente no las olvidaba y que requerían menos soporte, así que mucha gente podría interpretar esa expresión como algo bueno
Es realmente grave que Mercor haya engañado a 40 mil contratistas y además haya manejado tan mal la seguridad de los datos
En algo así debería haber una responsabilidad mucho más fuerte
- Lo que está pasando ahora es que CTOs desinformados que antes ni conocían esta empresa ahora sí van a conocer su nombre
  Por eso hasta parece posible que el resultado de todo este escándalo termine trayéndole más negocio a Mercor
  Ya vimos algo parecido con Crowdstrike
- Como mínimo, si se van a recolectar huellas de voz, deberían aplicarse requisitos de consentimiento, almacenamiento y seguridad mucho más estrictos que los de los datos de entrenamiento comunes
Si un atacante tiene 30 segundos de audio de lectura clara de alguien y un escaneo de su licencia de conducir, puede hacer bastantes cosas
Solo viendo mi banco y mi casa de bolsa, ambos usan ID por voz
Hasta parece que el propósito mismo de esta empresa fuera extraer ese tipo de datos
- Se vuelve aún más claro al ver la política de privacidad
  Recolectan en masa todo tipo de cosas, como video, voz y más
Si esto es cierto, el problema más grande quizá ni siquiera sea la filtración en sí
Estamos entrando silenciosamente en un mundo donde con solo voz + identificación se puede suplantar por completo a una persona, y la mayoría de los sistemas todavía no están diseñados bajo esa realidad
Aquí también hay un desagradable problema laboral
Quienes etiquetan y entrenan estos sistemas son justamente quienes quedan menos protegidos cuando el pipeline de datos se convierte en superficie de ataque

Filtración de 4 TB de muestras de voz de 40 mil contratistas de IA en Mercor

Resumen de la brecha

Por qué esta filtración es diferente

Ataques posibles con los datos de voz robados

Eludir autenticación bancaria

Vishing dirigido al trabajo

Videollamadas deepfake

Fraude en reclamos de seguros

Estafas de llamadas de emergencia haciéndose pasar por familiares

Cómo verificar abuso de voz y responder de inmediato

Revisar rastros de audio público

Establecer palabras clave verbales con familiares y contactos financieros

Volver a registrar donde se use huella de voz

Desactivar la autenticación bancaria por huella de voz

Análisis forense de grabaciones sospechosas

Lista de verificación para análisis forense

Cómo realiza ORAVYS sus análisis

Fuentes y limitaciones

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News