- Se realizó un análisis forense digital de los documentos PDF publicados por el Departamento de Justicia de EE. UU. bajo la Epstein Files Transparency Act, centrado en la estructura y la sintaxis de los archivos
- Como resultado del análisis, los PDF de los conjuntos de datos EFTA 01–07 publicados están correctamente editados (redacted), y la afirmación difundida en redes sociales sobre una “edición recuperable” no es cierta
- Todos los PDF carecen de cifrado, anotaciones, JavaScript y archivos adjuntos, y en su mayoría están basados en imágenes escaneadas con OCR aplicado; algunos archivos contienen metadatos ocultos (dictionary)
- Se encontraron detalles técnicos como numeración Bates, flujos de objetos sin comprimir, etiquetado incorrecto de versión y comentarios omitidos, pero no afectan de forma importante la validez de los archivos
- Este caso muestra la complejidad de la forénsica PDF y los límites de confiabilidad de las herramientas, y subraya la importancia de un flujo de trabajo preciso de depuración y edición antes de publicar documentos sensibles
Resumen de los datos publicados por el DoJ
- El Departamento de Justicia publicó el 19 de diciembre de 2025 siete archivos ZIP (2.97 GB en total), que incluyen 4,085 PDF, 1 archivo AVI y archivos de datos
.DAT y .OPT para cada conjunto
- Los nombres de los PDF van secuencialmente desde
EFTA00000001.pdf hasta EFTA00009664.pdf
- Se confirmó que alrededor de 5,879 PDF siguen sin publicarse
- La mayoría de los PDF son documentos basados en imágenes escaneadas, con algo de texto buscable mediante OCR
- Se aplicó edición tipo “caja negra”, y se confirmó que fue realizada correctamente a nivel de píxeles
- No se encontraron documentos born-digital
Validez de archivos y análisis de versiones
- Los resultados de validación con varias herramientas de forénsica PDF encontraron solo un error menor
- En 109 archivos, el valor FontDescriptor Descent estaba configurado como positivo, pero se trata de un pequeño error de coincidencia tipográfica que no afecta la validez general
- Al comparar dos variantes de la herramienta
pdfinfo, los valores leídos de la versión PDF fueron distintos
- La herramienta A reportó 209 archivos en versión 1.3 y 3,875 en versión 1.5
- La herramienta B reportó 3,817 archivos en versión 1.3 y 267 en versión 1.5
- La diferencia se debe a cómo se procesa la entrada Version en una actualización incremental (incremental update); el resultado de la herramienta A es el correcto
- Todos los PDF carecen de cifrado, etiquetas, anotaciones, marcadores, formularios, JavaScript y archivos adjuntos
- El total es de 9,659 páginas, y la mayoría de los documentos tienen una sola página
Actualizaciones incrementales y numeración Bates
- Los PDF guardan un historial acumulado de cambios mediante varias actualizaciones incrementales
- El primer PDF (
EFTA00000001.pdf) incluye 2 actualizaciones incrementales
- En la última actualización se añadió la numeración Bates a cada página
- La adición de números Bates usa un flujo de referencia cruzada
/Type /XRef, y se observó el mismo patrón en todos los PDF de muestra
- En la primera actualización incremental, la versión PDF cambió de 1.3 a 1.5, aunque existe un error técnico por la discrepancia con el encabezado
- También existe un diccionario oculto de información del documento (Info dictionary), pero como no está referenciado en el tráiler final, no es visible en los visores PDF normales
- Ese diccionario incluye la información
/Creator (OmniPage CSDK 21.1) y /Producer (Processing-CLI)
Metadatos y análisis de fechas
- Según
pdfinfo, la mayoría de los PDF no tienen metadatos explícitos ni flujos XMP
- Sin embargo, en algunos archivos existe un Info dictionary huérfano, y la entrada
/Info aparece varias veces
- Solo el archivo
EFTA00003212.pdf incluye los campos Title, Author, Subject, Keywords, Creator
- Hay 215 archivos cuyo valor de
/Producer aparece como “pypdf”
- La fecha de creación (
CreationDate) y la fecha de modificación (ModDate) son iguales, y corresponden al período entre el 18 y el 19 de diciembre de 2025
- Esto sugiere que el procesamiento por lotes del DoJ duró unas 36 horas
Imágenes y características de escaneo
- En todos los PDF no hay imágenes JPEG (
DCTDecode); en su lugar se usan bitmaps comprimidos con FLATE
- La resolución es de alrededor de 96 DPI, y la paleta de color está limitada a 256 colores
- Se estima que esto busca eliminar metadatos EXIF, IPTC y XMP
- Algunos documentos muestran rastros reales de escaneo (bordes del papel, perforaciones, garabatos, etc.), mientras que otros parecen imágenes renderizadas digitalmente y luego simuladas como escaneo
- Se pueden distinguir por la misma inclinación (skew) y la ausencia de ruido
- Debido al uso de la fuente monoespaciada Courier, existe el riesgo de estimar la cantidad de caracteres editados contándolos
Calidad del OCR y precisión de la edición
- Los resultados del OCR muestran baja precisión y ausencia de reconocimiento de idioma, en un nivel de simple reconocimiento de caracteres
- El texto OCR del primer PDF (
EFTA00000001.pdf) es mayormente incorrecto
- La edición tipo “caja negra” se aplicó directamente a nivel de píxeles de la imagen, y no como una cubierta rectangular sobre objetos de texto
- Por lo tanto, no existe texto recuperable
Conclusión e implicaciones
- El pipeline de generación de PDF del DoJ se compone de eliminación de JPEG, minimización de metadatos, renderizado basado en imágenes y aplicación de OCR
- Sin embargo, la presencia residual de objetos innecesarios, flujos vacíos y actualizaciones incrementales aumenta el tamaño y la complejidad de los archivos
- Quedan algunas anotaciones (comment) de PDF y objetos huérfanos (orphaned object), lo que implica una posible filtración de información
- La forénsica PDF tiene una alta probabilidad de interpretaciones erróneas debido a las diferencias entre herramientas y la complejidad del formato
- Para abordar esto, la PDF Association opera el PDF Forensic Liaison Working Group, que impulsa la estandarización y la capacitación en la industria
1 comentarios
Comentarios en Hacker News
Se descubrió que algunos documentos parecen escaneos reales, pero en realidad son PDF artificiales sin nada de ruido físico
Como cada página tiene la misma inclinación (skew) y bordes perfectos, parece que tomaron un documento digital original, lo renderizaron como imagen y luego le aplicaron posprocesado como inclinación, reducción de escala y reducción de color
La razón por la que alguien haría esto probablemente sería para hacer que imágenes generadas por IA o materiales manipulados parezcan auténticos
~/.local/share/nautilus/para crear un PDF de escaneo falso directamente desde el menú contextualNo recuerdo la fuente original, pero creo que lo vi en Stack Exchange. Usa el comando
magickpara aplicar rotación, ruido, conversión a escala de grises, etc.Si es auténtico, queda la duda de por qué el FBI lo disfrazó como si fuera un escaneo. ¿Será que hay partes del acuerdo entre Epstein y Acosta que no quieren que salgan a la luz?
Enlace al PDF relacionado
Creo que es un problema legal que el DOJ haya publicado una copia modificada en vez del original
El software usado, OmniPage CSDK 21.1, elimina todos los metadatos y también borra archivos cifrados
Me pregunto si alguien ha analizado el estilo de escritura de Epstein (JE) y lo ha comparado con publicaciones de lugares como 4chan
Con Ghislaine debería haber suficientes datos también; no creo en la teoría sobre MaxwellHill, pero quizá sí haya alguna pista
Publicación relacionada
El sitio fue dado de baja por temas de privacidad, pero la precisión era alta. Hasta me dieron ganas de hacer un asistente de navegador con IA que reestilice mis comentarios al azar
Aunque los correos de Epstein son tan peculiares que quizá sean una excepción
Demo en HN
Este tipo de método también distingue bien textos generados por IA. Me parece mucho mejor que entrenar un “transformer para detectar IA”
Puede ser que gente de alto nivel, al escribir tan poco por sí misma, haya perdido capacidad para estructurar oraciones; o quizá sea parte de su lenguaje interno
Me dio risa que en el aviso de cookies de esta página el botón de rechazo diga “Continue without consent”
Puede que haya filtración de información a través de objetos huérfanos en anotaciones PDF o dentro de flujos de objetos comprimidos
Ojalá alguien esté archivando todos los documentos de manera independiente. Algunos ya parecen haber sido eliminados
Pero en la comunidad de Lemmy todavía siguen discutiéndolo
por un tiempo desaparecieron todos, y ahora la mayoría ya volvió a estar disponible
Ahora mismo estoy comparando con los resultados OCR entregados por el DOJ usando el modelo allenai/olmocr-2-7b
Hay unas 500 mil imágenes, así que toma bastante tiempo. Aun así, la tasa de reconocimiento de olmocr-2-7b es bastante alta
También quisiera saber a partir de qué tamaño el texto empieza a volverse difícil de reconocer
Me preguntaba por qué algunos archivos recientes tienen caracteres ‘=’ aleatorios
No parece un error de OCR; más bien da la impresión de que quieren dificultar las búsquedas
El desarrollador de gnus, Lars Ingebrigtsen, lo explicó en su blog
En algunos PDF, archivos adjuntos codificados en Base64 están incrustados directamente en el cuerpo del documento
La calidad del OCR es tan mala que restaurarlos requerirá bastante esfuerzo
PDF de ejemplo,
hilo relacionado en Reddit
Personalmente, lo que me parece más interesante son las cuentas bancarias de Epstein
La clave es quién le dio dinero y quién recibió dinero de él
En cambio, solo se revela lo necesario para que la opinión pública derive en odio entre determinados grupos
Acceso bloqueado por Cloudflare