TimeCapsuleLLM: un modelo de lenguaje grande entrenado solo con datos de 1800~1875

(github.com/haykgrigo3)

5 puntos por GN⁺ 2026-01-13 | 1 comentarios | Compartir por WhatsApp

TimeCapsuleLLM es un modelo de lenguaje grande (LLM) entrenado únicamente con materiales de un período específico (1800~1875), con el objetivo de minimizar los sesgos modernos y recrear el lenguaje y la visión del mundo de esa época
El modelo utiliza un conjunto de datos compuesto por documentos históricos, libros, periódicos y documentos legales de la zona de Londres, reflejando el estilo lingüístico y el vocabulario de cada período
La versión inicial se construyó sobre nanoGPT y las versiones posteriores sobre Microsoft Phi 1.5; el volumen de datos llega hasta 90GB y el modelo alcanza hasta 700M de parámetros
Mediante el enfoque Selective Temporal Training (STT), se entrena seleccionando solo datos de un período específico, diseñado para evitar la inclusión de conceptos modernos
Es un proyecto experimental que muestra las posibilidades de la investigación en modelos de lenguaje históricos y de la reconstrucción lingüística por época con inteligencia artificial

Resumen del proyecto

TimeCapsuleLLM es un modelo de lenguaje entrenado solo con datos de un tiempo y lugar específicos, con la meta de reducir el sesgo moderno y recrear el vocabulario, el estilo y la cosmovisión de esa época
- Presenta la idea de “una IA que no simplemente imita figuras históricas, sino que realmente usa el lenguaje de esa época”
Las versiones iniciales (v0, v0.5) se desarrollaron con base en nanoGPT de Andrej Karpathy, y v1 con base en Microsoft Phi 1.5
El modelo está publicado en Hugging Face

Características por versión del modelo

v0
- Entrenado con alrededor de 187MB de datos
- Usa vocabulario del siglo XIX, pero la mayoría de las oraciones son agramaticales
- No aparecen conceptos modernos en absoluto
v0.5
- Mejora la gramática y la puntuación para recrear el estilo victoriano
- Tiene una alta tasa de errores fácticos e incluye ruido de OCR (por ejemplo, “Digitized by Google”)
v1
- Genera respuestas que conectan hechos y personajes históricos reales
- Ejemplo: ante el prompt “It was the year of our Lord 1834”, genera una frase que menciona protestas y peticiones en Londres
v2mini-eval1 / eval2
- Entrenado durante 10K pasos con una muestra de 15GB de un total de 90GB
- Debido a un problema con el tokenizador, las palabras salían separadas, pero tras corregirlo se mantuvo la estructura de las oraciones
- Genera descripciones al estilo del siglo XIX para prompts como “Charles Dickens” y “Charles Darwin”

Composición del dataset

Dataset v2
- 90GB de textos de Londres de 1800~1875, con un total de 136,344 documentos
- La tokenización completa aún no ha terminado, y una muestra de 15GB está publicada en Hugging Face
Las fuentes de datos incluyen libros de dominio público, periódicos, documentos legales, etc.
Tamaño de datos por versión
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training (STT)

STT es una metodología de entrenamiento que usa solo datos de un período histórico específico
- Excluye la influencia de conceptos modernos y refleja únicamente el conocimiento y el lenguaje de esa época
- TimeCapsuleLLM v0.5 fue entrenado desde cero (from scratch) usando solo datos de 1800~1875
En lugar de hacer fine-tuning sobre un modelo existente, se entrena uno completamente nuevo para eliminar los rastros de información moderna

Tamaño del modelo y entorno de entrenamiento

Número de parámetros del modelo
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
Hardware de entrenamiento
- v0/v0.5: GPU RTX 4060, CPU i5-13400F, 16GB de RAM
- v1, v2mini-eval1: uso alquilado de GPU A100 SXM

Cómo usarlo

El proyecto se enfoca en la recolección, limpieza y construcción del tokenizador para datos históricos
Procedimiento por etapas
1. Recolección de textos históricos: obtener textos por período a partir de documentos de dominio público, libros, etc.
2. Creación del tokenizador: ejecutar train_tokenizer.py para generar vocab.json y merges.txt
3. Entrenamiento del modelo: consultar la documentación de nanoGPT o de la arquitectura elegida

Análisis de sesgos

Se ofrecen visualizaciones de sesgos pronominales, geográficos y temporales para los resultados de v2mini-eval1
Las estadísticas detalladas pueden consultarse en el archivo v2_bias_report.json

Licencia e información pública

Publicado bajo MIT License
En GitHub registra 1.2k Stars y 41 Forks
El lenguaje principal es Python 100%
Último lanzamiento: v2mini-eval2 — London (1800–1875)

1 comentarios

GN⁺ 2026-01-13

Comentarios en Hacker News

Me hace pensar en qué pasaría si entrenáramos un modelo de frontera usando 1900 como corte y le preguntáramos sobre mecánica cuántica (QM) y relatividad
Si el modelo diera respuestas aunque sea un poco correctas, sería una prueba muy fuerte de que los LLM van camino a una inteligencia mayor
- En esa época ya existían conceptos cercanos a la QM y la relatividad
  El experimento de Michelson-Morley (1887), las transformaciones de Lorentz (1889) y el efecto fotoeléctrico (1887) son ejemplos
  William Clifford murió en 1889, pero propuso la idea de explicar la fuerza y la materia mediante la curvatura del espacio
  La ciencia no aparece de golpe, y al integrar los artículos de la época quizá estas teorías podrían haber surgido de forma natural
- Estoy trabajando en un proyecto para entrenar un modelo centrado en literatura científica en alemán (anterior a 1904)
  La calidad del OCR es mala, así que casi todo hay que procesarlo a mano, pero un modelo de 700M parámetros sí es posible incluso en casa
  Aun así, para tener capacidad de razonamiento real haría falta algo del orden de 70B
  Además, un gran reto es evitar que se mezcle conocimiento de 2026 durante el fine-tuning y el proceso de RL
- La química también sería un campo de prueba interesante
  La segunda mitad del siglo XIX fue una época dorada para la química, y da curiosidad si un LLM podría hacer predicciones termodinámicas o proponer nuevas hipótesis
- Ya hubo un proyecto con una idea parecida: history-llms
  La discusión relacionada puede verse en este hilo de HN
- También vale la pena revisar el paper de Li et al. (2024), "Evaluating Large Language Models for Generalization and Robustness via Data Compression"
  El enfoque de medir generalización y robustez del modelo mediante la tasa de compresión de datos (perplexity) resulta muy llamativo
Pensar que “Who art Henry” es inglés del siglo XIX parece un ejemplo de falta de oído histórico para el lenguaje
En realidad, no es gramaticalmente correcto en ninguna época
- Como alguien que ha leído mucho material cristiano de los siglos XVII al XIX, coincido en que la expresión suena rara
- Si “Who art Henry” fue el prompt, da curiosidad cuál sería una formulación realmente propia del siglo XIX
Es interesante si este experimento podría servir como prueba de la posibilidad de una AGI
La pregunta es si, dándole solo datos previos a cierto momento (año X), podría derivar por sí sola un descubrimiento posterior (Y)
- Primero habría que definir con claridad qué entendemos por AGI
  Algunos descubrimientos pueden surgir de combinar ideas existentes, pero la relatividad y la mecánica cuántica requirieron experimentos
  Por ejemplo, aunque un modelo de la época pudiera desarrollar matemáticamente la relatividad general, probablemente habría atribuido el avance del perihelio de Mercurio al planeta Vulcan (wiki de Vulcan)
- Es casi imposible impedir por completo la filtración de datos
  Documentos mal clasificados, anotaciones o metadatos crean un riesgo alto de fuga de conocimiento
- Más fundamentalmente, con solo datos antiguos no hay suficiente volumen para entrenar un modelo SoTA
- Para que este experimento sea realmente viable haría falta un modelo del nivel de GPT-5
  Se requerirían enormes cantidades de texto, muchísimos parámetros y un proceso de RLHF al estilo del siglo XIX
- Un experimento así sería una prueba real de si los LLM piensan de forma creativa o solo recitan
Se propone comparar un modelo entrenado con datos de 1800~1875 y otro entrenado con datos de 1800~2025
usando la diferencia entre ambas distribuciones de probabilidad para intentar predecir 2040
En la práctica sería difícil lograr predicciones precisas, pero como experimento de interpolación/extrapolación de distribuciones de probabilidad suena divertido
- También sale la broma de que quizá eso terminaría sonando simplemente como jerga de la Generación Alpha
Es un concepto interesante, pero los datos registrados de esa época están sesgados hacia las élites del conocimiento
No era una era en la que cualquiera dejara registros como hoy
Los modelos modernos se entrenan con decenas de TB de texto, pero los datos del siglo XIX son mucho menos abundantes y menos diversos
Por eso, que responda preguntas como “¿qué pasó en 1834?” con estilo de artículo periodístico es un resultado natural
- Pero esa consistencia en el sesgo también podría ser una ventaja
  Los LLM actuales mezclan las ideas de demasiada gente y a veces producen salidas muy ruidosas
  Un modelo entrenado con la perspectiva coherente de una época concreta podría tener un estilo de respuesta más predecible
- Los sesgos que aparecen mediante restricciones artificiales pueden ayudar, paradójicamente, a revelar los sesgos ocultos de los modelos actuales
- Los modelos modernos están inclinados hacia el inglés, lo occidental y las perspectivas posteriores a los años 90
  Además, el proceso de alignment refleja los valores del proveedor
  En cambio, un modelo basado en datos del pasado estaría reflejando los sesgos de su época de manera “accidental”
Como mínimo, parece que un modelo así podría evitar la avalancha de emojis
Aunque da curiosidad cómo cambiaría la tokenización
No tendría conocimiento de programación, pero quizá combinado con un LLM moderno podría generar explicaciones de código al estilo del siglo XIX
Estoy pensando si sería posible mezclar capas como en los antiguos modelos de transferencia de estilo
- También sale la sugerencia de: “¿y si simplemente hacemos que los dos modelos conversen entre sí?”
Se siente tierno ese experimento de entrenar un modelo solo con documentos previos a la era de la información y luego intentar enseñarle ‘qué es una computadora’
Pero por ahora la salida se parece más al nivel de una cadena de Markov que a ChatGPT
Hace recordar otro “proyecto de LLM con bloqueo temporal” que apareció hace poco en HN
El resultado estaba pulido, pero decían estar pensando cómo evitar el mal uso y los malentendidos
Ver este hilo relacionado
Si este modelo logra producir salidas consistentes, podría refutar la idea de que el material con copyright es indispensable para entrenar LLM
Pero por ahora no parece estar a ese nivel
- Como referencia, ya hubo casos de modelos bastante buenos hechos solo con datos públicos
  The Common Pile v0.1 construyó un modelo de 7B parámetros con 8 TB de texto público
Yo también hice un experimento parecido: proyecto transformer
Entrené modelos individuales con textos distintos, como la Biblia, Don Quijote y Kafka
(También había un generador de letras y un traductor, pero la calidad no era muy buena)

TimeCapsuleLLM: un modelo de lenguaje grande entrenado solo con datos de 1800~1875

Resumen del proyecto

Características por versión del modelo

Composición del dataset

Selective Temporal Training (STT)

Tamaño del modelo y entorno de entrenamiento

Cómo usarlo

Análisis de sesgos

Licencia e información pública

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News