Estudio de caso de forénsica digital de los PDF de Epstein

(pdfa.org)

1 puntos por GN⁺ 2026-02-05 | 1 comentarios | Compartir por WhatsApp

Se realizó un análisis forense digital de los documentos PDF publicados por el Departamento de Justicia de EE. UU. bajo la Epstein Files Transparency Act, centrado en la estructura y la sintaxis de los archivos
Como resultado del análisis, los PDF de los conjuntos de datos EFTA 01–07 publicados están correctamente editados (redacted), y la afirmación difundida en redes sociales sobre una “edición recuperable” no es cierta
Todos los PDF carecen de cifrado, anotaciones, JavaScript y archivos adjuntos, y en su mayoría están basados en imágenes escaneadas con OCR aplicado; algunos archivos contienen metadatos ocultos (dictionary)
Se encontraron detalles técnicos como numeración Bates, flujos de objetos sin comprimir, etiquetado incorrecto de versión y comentarios omitidos, pero no afectan de forma importante la validez de los archivos
Este caso muestra la complejidad de la forénsica PDF y los límites de confiabilidad de las herramientas, y subraya la importancia de un flujo de trabajo preciso de depuración y edición antes de publicar documentos sensibles

Resumen de los datos publicados por el DoJ

El Departamento de Justicia publicó el 19 de diciembre de 2025 siete archivos ZIP (2.97 GB en total), que incluyen 4,085 PDF, 1 archivo AVI y archivos de datos .DAT y .OPT para cada conjunto
- Los nombres de los PDF van secuencialmente desde EFTA00000001.pdf hasta EFTA00009664.pdf
- Se confirmó que alrededor de 5,879 PDF siguen sin publicarse
La mayoría de los PDF son documentos basados en imágenes escaneadas, con algo de texto buscable mediante OCR
- Se aplicó edición tipo “caja negra”, y se confirmó que fue realizada correctamente a nivel de píxeles
- No se encontraron documentos born-digital

Validez de archivos y análisis de versiones

Los resultados de validación con varias herramientas de forénsica PDF encontraron solo un error menor
- En 109 archivos, el valor FontDescriptor Descent estaba configurado como positivo, pero se trata de un pequeño error de coincidencia tipográfica que no afecta la validez general
Al comparar dos variantes de la herramienta pdfinfo, los valores leídos de la versión PDF fueron distintos
- La herramienta A reportó 209 archivos en versión 1.3 y 3,875 en versión 1.5
- La herramienta B reportó 3,817 archivos en versión 1.3 y 267 en versión 1.5
- La diferencia se debe a cómo se procesa la entrada Version en una actualización incremental (incremental update); el resultado de la herramienta A es el correcto
Todos los PDF carecen de cifrado, etiquetas, anotaciones, marcadores, formularios, JavaScript y archivos adjuntos
- El total es de 9,659 páginas, y la mayoría de los documentos tienen una sola página

Actualizaciones incrementales y numeración Bates

Los PDF guardan un historial acumulado de cambios mediante varias actualizaciones incrementales
- El primer PDF (EFTA00000001.pdf) incluye 2 actualizaciones incrementales
- En la última actualización se añadió la numeración Bates a cada página
La adición de números Bates usa un flujo de referencia cruzada /Type /XRef, y se observó el mismo patrón en todos los PDF de muestra
En la primera actualización incremental, la versión PDF cambió de 1.3 a 1.5, aunque existe un error técnico por la discrepancia con el encabezado
- También existe un diccionario oculto de información del documento (Info dictionary), pero como no está referenciado en el tráiler final, no es visible en los visores PDF normales
- Ese diccionario incluye la información /Creator (OmniPage CSDK 21.1) y /Producer (Processing-CLI)

Metadatos y análisis de fechas

Según pdfinfo, la mayoría de los PDF no tienen metadatos explícitos ni flujos XMP
- Sin embargo, en algunos archivos existe un Info dictionary huérfano, y la entrada /Info aparece varias veces
Solo el archivo EFTA00003212.pdf incluye los campos Title, Author, Subject, Keywords, Creator
- Hay 215 archivos cuyo valor de /Producer aparece como “pypdf”
La fecha de creación (CreationDate) y la fecha de modificación (ModDate) son iguales, y corresponden al período entre el 18 y el 19 de diciembre de 2025
- Esto sugiere que el procesamiento por lotes del DoJ duró unas 36 horas

Imágenes y características de escaneo

En todos los PDF no hay imágenes JPEG (DCTDecode); en su lugar se usan bitmaps comprimidos con FLATE
- La resolución es de alrededor de 96 DPI, y la paleta de color está limitada a 256 colores
- Se estima que esto busca eliminar metadatos EXIF, IPTC y XMP
Algunos documentos muestran rastros reales de escaneo (bordes del papel, perforaciones, garabatos, etc.), mientras que otros parecen imágenes renderizadas digitalmente y luego simuladas como escaneo
- Se pueden distinguir por la misma inclinación (skew) y la ausencia de ruido
Debido al uso de la fuente monoespaciada Courier, existe el riesgo de estimar la cantidad de caracteres editados contándolos

Calidad del OCR y precisión de la edición

Los resultados del OCR muestran baja precisión y ausencia de reconocimiento de idioma, en un nivel de simple reconocimiento de caracteres
- El texto OCR del primer PDF (EFTA00000001.pdf) es mayormente incorrecto
La edición tipo “caja negra” se aplicó directamente a nivel de píxeles de la imagen, y no como una cubierta rectangular sobre objetos de texto
- Por lo tanto, no existe texto recuperable

Conclusión e implicaciones

El pipeline de generación de PDF del DoJ se compone de eliminación de JPEG, minimización de metadatos, renderizado basado en imágenes y aplicación de OCR
- Sin embargo, la presencia residual de objetos innecesarios, flujos vacíos y actualizaciones incrementales aumenta el tamaño y la complejidad de los archivos
Quedan algunas anotaciones (comment) de PDF y objetos huérfanos (orphaned object), lo que implica una posible filtración de información
La forénsica PDF tiene una alta probabilidad de interpretaciones erróneas debido a las diferencias entre herramientas y la complejidad del formato
- Para abordar esto, la PDF Association opera el PDF Forensic Liaison Working Group, que impulsa la estandarización y la capacitación en la industria

1 comentarios

GN⁺ 2026-02-05

Comentarios en Hacker News

Se descubrió que algunos documentos parecen escaneos reales, pero en realidad son PDF artificiales sin nada de ruido físico
Como cada página tiene la misma inclinación (skew) y bordes perfectos, parece que tomaron un documento digital original, lo renderizaron como imagen y luego le aplicaron posprocesado como inclinación, reducción de escala y reducción de color
- Lo realmente interesante es cuáles documentos son estos “escaneos falsos” y qué intención hay detrás para reforzar cierta narrativa política
  La razón por la que alguien haría esto probablemente sería para hacer que imágenes generadas por IA o materiales manipulados parezcan auténticos
- Si usas GNOME Desktop, puedes poner un script de Bash en ~/.local/share/nautilus/ para crear un PDF de escaneo falso directamente desde el menú contextual
  No recuerdo la fuente original, pero creo que lo vi en Stack Exchange. Usa el comando magick para aplicar rotación, ruido, conversión a escala de grises, etc.
- Hacerlo así es raro. Sería mucho más fácil simplemente imprimir el documento y volver a escanearlo
- En particular, el documento mencionado parece ser material de la entrevista del DoJ a A. Acosta en 2019.
  Si es auténtico, queda la duda de por qué el FBI lo disfrazó como si fuera un escaneo. ¿Será que hay partes del acuerdo entre Epstein y Acosta que no quieren que salgan a la luz?
  Enlace al PDF relacionado
- Yo también hago algo parecido a veces. Si me piden una firma, firmo una hoja en blanco, la escaneo, y después superpongo el documento encima antes de enviarlo
Creo que es un problema legal que el DOJ haya publicado una copia modificada en vez del original
El software usado, OmniPage CSDK 21.1, elimina todos los metadatos y también borra archivos cifrados
Me pregunto si alguien ha analizado el estilo de escritura de Epstein (JE) y lo ha comparado con publicaciones de lugares como 4chan
Con Ghislaine debería haber suficientes datos también; no creo en la teoría sobre MaxwellHill, pero quizá sí haya alguna pista
- Antes hubo un proyecto de stylometry que analizaba el estilo de escritura de usuarios de HN para encontrar cuentas similares
  Publicación relacionada
  El sitio fue dado de baja por temas de privacidad, pero la precisión era alta. Hasta me dieron ganas de hacer un asistente de navegador con IA que reestilice mis comentarios al azar
- Pero sigo siendo escéptico. Creo que solo con estilo de escritura y vocabulario hay demasiada superposición entre personas como para identificar a alguien con certeza
  Aunque los correos de Epstein son tan peculiares que quizá sean una excepción
- En realidad, la stylometry es lo bastante sofisticada como para identificar autores solo con análisis de n-gramas
  Demo en HN
  Este tipo de método también distingue bien textos generados por IA. Me parece mucho mejor que entrenar un “transformer para detectar IA”
- Los textos de Epstein tienen casi tantas frases mal construidas que parecen de nivel de dislexia
  Puede ser que gente de alto nivel, al escribir tan poco por sí misma, haya perdido capacidad para estructurar oraciones; o quizá sea parte de su lenguaje interno
Me dio risa que en el aviso de cookies de esta página el botón de rechazo diga “Continue without consent”
- De verdad parece una frase pensada para hacer sentir culpa al usuario
- Es irónico que un sitio relacionado con Epstein actúe como Epstein
Puede que haya filtración de información a través de objetos huérfanos en anotaciones PDF o dentro de flujos de objetos comprimidos
Ojalá alguien esté archivando todos los documentos de manera independiente. Algunos ya parecen haber sido eliminados
- En Reddit también están eliminando publicaciones relacionadas o aplicando shadowban
  Pero en la comunidad de Lemmy todavía siguen discutiéndolo
- Algunos documentos incluyen nombres de víctimas, así que quizá hayan sido censurados adicionalmente por eso
- Al principio, en la página de Epstein Files Transparency Act estaban los enlaces .zip de todos los datasets,
  por un tiempo desaparecieron todos, y ahora la mayoría ya volvió a estar disponible
Ahora mismo estoy comparando con los resultados OCR entregados por el DOJ usando el modelo allenai/olmocr-2-7b
Hay unas 500 mil imágenes, así que toma bastante tiempo. Aun así, la tasa de reconocimiento de olmocr-2-7b es bastante alta
- Me pregunto si has probado reducir el tamaño de las imágenes para mejorar el rendimiento.
  También quisiera saber a partir de qué tamaño el texto empieza a volverse difícil de reconocer
Me preguntaba por qué algunos archivos recientes tienen caracteres ‘=’ aleatorios
No parece un error de OCR; más bien da la impresión de que quieren dificultar las búsquedas
- Ayer apareció una publicación relacionada en la portada de HN: enlace
- En realidad, esto se debe a un error en el procesamiento de codificación quoted-printable de correos electrónicos
  El desarrollador de gnus, Lars Ingebrigtsen, lo explicó en su blog
En algunos PDF, archivos adjuntos codificados en Base64 están incrustados directamente en el cuerpo del documento
La calidad del OCR es tan mala que restaurarlos requerirá bastante esfuerzo
PDF de ejemplo,
hilo relacionado en Reddit
- Me pregunto si con solo unos cuantos bytes dañados ya podría volverse imposible reconstruir el binario
Personalmente, lo que me parece más interesante son las cuentas bancarias de Epstein
La clave es quién le dio dinero y quién recibió dinero de él
- El DOJ seguramente ya conoce esa información o podría verificarla de inmediato si quisiera
- Pero el análisis de causa raíz del rastreo del dinero no se hace público
  En cambio, solo se revela lo necesario para que la opinión pública derive en odio entre determinados grupos
Acceso bloqueado por Cloudflare

Estudio de caso de forénsica digital de los PDF de Epstein

Resumen de los datos publicados por el DoJ

Validez de archivos y análisis de versiones

Actualizaciones incrementales y numeración Bates

Metadatos y análisis de fechas

Imágenes y características de escaneo

Calidad del OCR y precisión de la edición

Conclusión e implicaciones

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News