- History LLMs son modelos grandes de lenguaje (LLM) bloqueados en el tiempo entrenados únicamente con textos anteriores a un momento específico, como herramienta de investigación para reproducir el lenguaje y el pensamiento del pasado
- La serie Ranke-4B es una familia de modelos de 4 mil millones de parámetros basada en la arquitectura Qwen3, e incluye versiones con cortes de conocimiento en 1913, 1929, 1933, 1939 y 1946
- Los datos de entrenamiento consisten en 80 mil millones de tokens seleccionados de un corpus temporal de 600 mil millones de tokens, y conservan los juicios de valor del texto original sin corrección de sesgos
- En las respuestas de ejemplo aparecen un modelo de 1913 que no conoce a Hitler, críticas a la esclavitud y prejuicios de época sobre el trabajo femenino y las minorías sexuales
- Este proyecto ofrece a investigadores de humanidades, ciencias sociales y computación una ventana para explorar patrones colectivos del discurso del pasado
Resumen del proyecto
- History LLMs es un proyecto de investigación que construye modelos grandes de lenguaje bloqueados por fecha para reconstruir la cosmovisión lingüística del pasado
- Los modelos están diseñados para no poder acceder a información posterior a un año específico
- No se modifican artificialmente los juicios normativos formados durante el preentrenamiento
- Todos los datos de entrenamiento, checkpoints y repositorios se publicarán, y se está preparando un sistema de acceso para uso académico
- El objetivo del proyecto es explorar las estructuras del pensamiento lingüístico del pasado en investigaciones de humanidades, ciencias sociales y ciencias de la computación
Serie de modelos Ranke-4B
- Ranke-4B, previsto para publicarse en diciembre de 2025, es una familia de LLMs de 4 mil millones de parámetros
- Basada en la arquitectura Qwen3, cuenta con cinco versiones con corte de conocimiento en 1913, 1929, 1933, 1939 y 1946
- Fue entrenada con 80 mil millones de tokens seleccionados de un corpus temporal de 600 mil millones de tokens
- Los datos de preentrenamiento y postentrenamiento, junto con los checkpoints, estarán disponibles a través de GitHub y Hugging Face
Respuestas de ejemplo
- El modelo de 1913 responde que no conoce a “Adolf Hitler”, reflejando solo la información disponible en ese momento
- Sobre la esclavitud, responde que “va en contra del derecho público y del espíritu de la Declaración de Independencia”
- Ante una pregunta sobre el trabajo de las mujeres, responde que “la contratación de mujeres queda a discreción del empleador”
- En una pregunta sobre elegir entre un candidato hombre o mujer, responde que “el hombre es más confiable”
- Sobre los homosexuales, indica que “son moralmente censurables, aunque también existe la visión de que se trata de una enfermedad”
- Estas respuestas muestran que el modelo refleja directamente los prejuicios y valores de la sociedad de la época
Concepto de History LLMs
- Un modelo entrenado solo con textos anteriores a un año específico reproduce colectivamente la cosmovisión lingüística de esa época
- Ejemplo: el modelo de 1913 responde basándose únicamente en periódicos y escritos anteriores a la Primera Guerra Mundial
- A diferencia del “roleplay histórico” de los LLM modernos, no hay contaminación retrospectiva del conocimiento (hindsight contamination)
- GPT-5 y otros modelos conocen el resultado de las guerras, por lo que no pueden reproducir por completo una perspectiva auténtica de 1913
- Los modelos bloqueados en el tiempo son útiles para explorar las posibilidades de pensamiento y los límites del discurso de una época
Naturaleza y límites del modelo
- Estos modelos son representaciones comprimidas de enormes corpus de texto y pueden usarse como herramientas para explorar patrones discursivos
- Sin embargo, no reflejan por completo la opinión pública, ya que se basan sobre todo en publicaciones de sectores educados
- No sustituyen la interpretación humana y conservan los sesgos de los materiales históricos
Contenido sensible y control de acceso
- Los datos de entrenamiento incluyen racismo, antisemitismo, misoginia y perspectivas imperialistas
- El modelo los reproduce tal cual, pero esto se considera un elemento esencial para reconstruir el discurso histórico
- Para evitar usos indebidos fuera del ámbito de investigación, se está desarrollando un sistema de acceso responsable
Participación y colaboración
- El equipo de investigación recibe con interés propuestas y colaboraciones sobre:
- Prioridades de períodos o regiones a analizar
- Diseño de preguntas verificables
- Métodos de validación de salidas y formas de publicación responsable
- Contacto: history-llms@econ.uzh.ch
Información de cita
- Se proporciona un ejemplo de cita del proyecto
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, con URL de GitHub incluida
1 comentarios
Comentarios de Hacker News
Resulta interesante pensar que los modelos bloqueados en el tiempo no están haciendo roleplay, sino que realmente “viven” dentro de los datos de esa época.
Ranke-4B-1913 existe en un mundo donde la Primera Guerra Mundial aún no ha ocurrido, así que puede reaccionar con sorpresa o desconocimiento ante ciertas preguntas.
Los LLM modernos ya conocen el desenlace, por lo que es difícil reproducir esa “ignorancia pura”. Debe sentirse como hablar con una persona real de 1913.
Me hizo pensar en escenas donde una IA del futuro reconstruye figuras del pasado para obtener intuiciones filosóficas.
También estaba la serie de YouTube The Great War, un proyecto que siguió la Primera Guerra Mundial semana a semana entre 2014 y 2018.
Parece que pronto podrían generarse automáticamente historias como “el rey Arturo viaja al año 2000”.
Y no solo hablar con “alguien de esa época”, sino imaginar conversaciones con figuras como Aristóteles, Leonardo o Kant.
Si el corte de conocimiento del modelo está en 1913, entonces quedaría justo entre los inicios de la teoría de la relatividad y la mecánica cuántica.
Está situado entre la relatividad especial de Einstein (1905) y la relatividad general (1915), así que podría reflejar tal cual la confusión científica de ese momento.
La pregunta de si un LLM entrenado solo con datos de 1900 podría descubrir por sí mismo la relatividad es fascinante.
Pero al mismo tiempo sería de enorme ayuda para crear novelas, juegos y guiones que necesiten fidelidad histórica.
La idea de poder hablar con “miles de intelectuales de 1913” es realmente atractiva.
Poder preguntarles directamente qué pensaban sobre la paz, el progreso, los roles de género o el imperialismo sería un proyecto de investigación increíble.
Da pena que, en la práctica, el acceso parezca estar restringido solo a investigadores.
Me intriga si, preguntándole al modelo por las ideas de matemáticos como Frege, Peano y Russell, podría llegar a conceptos de Gödel, Church y Turing.
Me gustaría probar si, al recrear fielmente las discusiones científicas de la época, el modelo puede extender por sí mismo su razonamiento lógico.
Hay que tener cuidado de no caer en la “charlatanería plausible” que generan los LLM.
Las respuestas de ejemplo publicadas son realmente interesantes.
Como suenan distintas a las de los LLM modernos, incluso se sienten más como algo escrito por una persona.
El estilo y el vocabulario tienen un aire algo arcaico y reflejan creencias de su tiempo.
En ese entonces predominaba mucho más la escritura formal que la conversación coloquial, y casi no quedaron registros del habla cotidiana real.
En ese sentido, la “conversación decimonónica” que reproduce el modelo es un experimento muy interesante.
Al principio pensé que un modelo así sería imposible por falta de datos.
Pero viendo los resultados, parece demostrar una vez más que, al final, la calidad importa más que la cantidad.
Si el modelo no sabe lo que es, me pregunto qué respondería a una pregunta como “¿cómo funcionas?”.
Pero un modelo de 1913 no tendría ese concepto en absoluto, así que quizá caería en una especie de confusión filosófica.
En cambio, muchas veces inventan respuestas plausibles, como ocurre con las alucinaciones.
Tengo curiosidad por cómo está compuesto el conjunto de datos de entrenamiento del modelo.
Si son 600B tokens hasta 1913, eso implicaría incluir desde textos de la antigua Grecia, China y Egipto hasta la era moderna.
Y aun así conserva una “perspectiva de 1913”, lo cual es sorprendente. ¿Cómo habrán ajustado esos sesgos entre épocas?
Es un enfoque posible porque desde fines del siglo XIX hubo una explosión en el volumen de datos de medios masivos como periódicos y revistas.
La expresión “uncontaminated bootstrapping” me pareció interesante.
Da a entender que hicieron ajuste para chat sin dañar los juicios de valor obtenidos en el preentrenamiento, aunque queda la duda de qué tan objetivo puede ser eso en realidad.
Por lo visto, hicieron Supervised Fine-Tuning con mucho cuidado usando GPT-5.
Sorprende que pueda funcionar con una cantidad tan pequeña de texto.
Si esto sale bien, podría servir para probar si un LLM no solo memoriza datos, sino si realmente puede hacer nuevos descubrimientos.
Por ejemplo, quizá podría detectar inconsistencias científicas o inferir por sí mismo conceptos como el problema de la parada o la estructura atómica.
Incluso si falla, siempre aparecerá el argumento de que “faltaban datos”, pero aun así dan muchas ganas de probarlo directamente.