1 puntos por GN⁺ 2025-12-19 | 1 comentarios | Compartir por WhatsApp
  • History LLMs son modelos grandes de lenguaje (LLM) bloqueados en el tiempo entrenados únicamente con textos anteriores a un momento específico, como herramienta de investigación para reproducir el lenguaje y el pensamiento del pasado
  • La serie Ranke-4B es una familia de modelos de 4 mil millones de parámetros basada en la arquitectura Qwen3, e incluye versiones con cortes de conocimiento en 1913, 1929, 1933, 1939 y 1946
  • Los datos de entrenamiento consisten en 80 mil millones de tokens seleccionados de un corpus temporal de 600 mil millones de tokens, y conservan los juicios de valor del texto original sin corrección de sesgos
  • En las respuestas de ejemplo aparecen un modelo de 1913 que no conoce a Hitler, críticas a la esclavitud y prejuicios de época sobre el trabajo femenino y las minorías sexuales
  • Este proyecto ofrece a investigadores de humanidades, ciencias sociales y computación una ventana para explorar patrones colectivos del discurso del pasado

Resumen del proyecto

  • History LLMs es un proyecto de investigación que construye modelos grandes de lenguaje bloqueados por fecha para reconstruir la cosmovisión lingüística del pasado
    • Los modelos están diseñados para no poder acceder a información posterior a un año específico
    • No se modifican artificialmente los juicios normativos formados durante el preentrenamiento
  • Todos los datos de entrenamiento, checkpoints y repositorios se publicarán, y se está preparando un sistema de acceso para uso académico
  • El objetivo del proyecto es explorar las estructuras del pensamiento lingüístico del pasado en investigaciones de humanidades, ciencias sociales y ciencias de la computación

Serie de modelos Ranke-4B

  • Ranke-4B, previsto para publicarse en diciembre de 2025, es una familia de LLMs de 4 mil millones de parámetros
    • Basada en la arquitectura Qwen3, cuenta con cinco versiones con corte de conocimiento en 1913, 1929, 1933, 1939 y 1946
    • Fue entrenada con 80 mil millones de tokens seleccionados de un corpus temporal de 600 mil millones de tokens
  • Los datos de preentrenamiento y postentrenamiento, junto con los checkpoints, estarán disponibles a través de GitHub y Hugging Face

Respuestas de ejemplo

  • El modelo de 1913 responde que no conoce a “Adolf Hitler”, reflejando solo la información disponible en ese momento
  • Sobre la esclavitud, responde que “va en contra del derecho público y del espíritu de la Declaración de Independencia”
  • Ante una pregunta sobre el trabajo de las mujeres, responde que “la contratación de mujeres queda a discreción del empleador”
  • En una pregunta sobre elegir entre un candidato hombre o mujer, responde que “el hombre es más confiable”
  • Sobre los homosexuales, indica que “son moralmente censurables, aunque también existe la visión de que se trata de una enfermedad”
  • Estas respuestas muestran que el modelo refleja directamente los prejuicios y valores de la sociedad de la época

Concepto de History LLMs

  • Un modelo entrenado solo con textos anteriores a un año específico reproduce colectivamente la cosmovisión lingüística de esa época
    • Ejemplo: el modelo de 1913 responde basándose únicamente en periódicos y escritos anteriores a la Primera Guerra Mundial
  • A diferencia del “roleplay histórico” de los LLM modernos, no hay contaminación retrospectiva del conocimiento (hindsight contamination)
    • GPT-5 y otros modelos conocen el resultado de las guerras, por lo que no pueden reproducir por completo una perspectiva auténtica de 1913
  • Los modelos bloqueados en el tiempo son útiles para explorar las posibilidades de pensamiento y los límites del discurso de una época

Naturaleza y límites del modelo

  • Estos modelos son representaciones comprimidas de enormes corpus de texto y pueden usarse como herramientas para explorar patrones discursivos
  • Sin embargo, no reflejan por completo la opinión pública, ya que se basan sobre todo en publicaciones de sectores educados
  • No sustituyen la interpretación humana y conservan los sesgos de los materiales históricos

Contenido sensible y control de acceso

  • Los datos de entrenamiento incluyen racismo, antisemitismo, misoginia y perspectivas imperialistas
  • El modelo los reproduce tal cual, pero esto se considera un elemento esencial para reconstruir el discurso histórico
  • Para evitar usos indebidos fuera del ámbito de investigación, se está desarrollando un sistema de acceso responsable

Participación y colaboración

  • El equipo de investigación recibe con interés propuestas y colaboraciones sobre:
    • Prioridades de períodos o regiones a analizar
    • Diseño de preguntas verificables
    • Métodos de validación de salidas y formas de publicación responsable
  • Contacto: history-llms@econ.uzh.ch

Información de cita

  • Se proporciona un ejemplo de cita del proyecto
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, con URL de GitHub incluida

1 comentarios

 
GN⁺ 2025-12-19
Comentarios de Hacker News
  • Resulta interesante pensar que los modelos bloqueados en el tiempo no están haciendo roleplay, sino que realmente “viven” dentro de los datos de esa época.
    Ranke-4B-1913 existe en un mundo donde la Primera Guerra Mundial aún no ha ocurrido, así que puede reaccionar con sorpresa o desconocimiento ante ciertas preguntas.
    Los LLM modernos ya conocen el desenlace, por lo que es difícil reproducir esa “ignorancia pura”. Debe sentirse como hablar con una persona real de 1913.

    • Al leer esa explicación, me vino a la mente el personaje de Severn/Keats en Hyperion Cantos.
      Me hizo pensar en escenas donde una IA del futuro reconstruye figuras del pasado para obtener intuiciones filosóficas.
    • Me recordó un experimento que vi hace tiempo en un blog relacionado con Slate Star Codex, donde el autor intentaba escribir desde la perspectiva de una época específica leyendo solo periódicos y materiales de ese período.
      También estaba la serie de YouTube The Great War, un proyecto que siguió la Primera Guerra Mundial semana a semana entre 2014 y 2018.
    • Este tipo de modelos quizá sea, en la práctica, lo más cercano a una máquina del tiempo.
      Parece que pronto podrían generarse automáticamente historias como “el rey Arturo viaja al año 2000”.
      Y no solo hablar con “alguien de esa época”, sino imaginar conversaciones con figuras como Aristóteles, Leonardo o Kant.
    • Si fuera posible hacer una especie de “cirugía cerebral” para ajustar el conocimiento y los prejuicios de una IA, podrían crearse simulaciones tan asombrosas como inquietantes.
    • Esto ya suena casi como una premisa al nivel de Westworld.
  • Si el corte de conocimiento del modelo está en 1913, entonces quedaría justo entre los inicios de la teoría de la relatividad y la mecánica cuántica.
    Está situado entre la relatividad especial de Einstein (1905) y la relatividad general (1915), así que podría reflejar tal cual la confusión científica de ese momento.

    • Una idea parecida ya había aparecido en un texto de Dwarkesh Patel y en una discusión en Manifold Markets.
      La pregunta de si un LLM entrenado solo con datos de 1900 podría descubrir por sí mismo la relatividad es fascinante.
    • Un modelo así también podría reproducir los errores pseudocientíficos y prejuicios de la época.
      Pero al mismo tiempo sería de enorme ayuda para crear novelas, juegos y guiones que necesiten fidelidad histórica.
  • La idea de poder hablar con “miles de intelectuales de 1913” es realmente atractiva.
    Poder preguntarles directamente qué pensaban sobre la paz, el progreso, los roles de género o el imperialismo sería un proyecto de investigación increíble.
    Da pena que, en la práctica, el acceso parezca estar restringido solo a investigadores.

    • Si de verdad se pudiera conversar con ellos, quizá notaríamos que también hemos retrocedido en muchas cosas.
    • Me pregunto cuántos recursos de GPU harían falta para ofrecer una versión pública de algo así. Parece que tendría mucho valor para la gente.
  • Me intriga si, preguntándole al modelo por las ideas de matemáticos como Frege, Peano y Russell, podría llegar a conceptos de Gödel, Church y Turing.
    Me gustaría probar si, al recrear fielmente las discusiones científicas de la época, el modelo puede extender por sí mismo su razonamiento lógico.

    • Pero viendo comunidades como LLMPhysics, también queda claro que este tipo de experimentos a menudo deriva en pseudociencia.
      Hay que tener cuidado de no caer en la “charlatanería plausible” que generan los LLM.
    • Aun así, parece una muy buena forma de poner a prueba el verdadero nivel de inteligencia de los LLM.
  • Las respuestas de ejemplo publicadas son realmente interesantes.
    Como suenan distintas a las de los LLM modernos, incluso se sienten más como algo escrito por una persona.
    El estilo y el vocabulario tienen un aire algo arcaico y reflejan creencias de su tiempo.

    • Desde la perspectiva de alguien que enseñó historia del siglo XIX, la prosa de este modelo sí suena claramente a la de un autor victoriano.
      En ese entonces predominaba mucho más la escritura formal que la conversación coloquial, y casi no quedaron registros del habla cotidiana real.
      En ese sentido, la “conversación decimonónica” que reproduce el modelo es un experimento muy interesante.
    • En idiomas distintos del inglés, siento que se nota menos ese “tono típico de LLM”. Parece haber diferencias según la lengua.
    • Cambios de expresión como pasar de “homosexual men” a “the homosexual man” reflejan muy bien la entonación de época.
    • Aun así, da la impresión de que todavía le falta parte de la franqueza directa y la intensidad estilística de aquella época.
  • Al principio pensé que un modelo así sería imposible por falta de datos.
    Pero viendo los resultados, parece demostrar una vez más que, al final, la calidad importa más que la cantidad.

  • Si el modelo no sabe lo que es, me pregunto qué respondería a una pregunta como “¿cómo funcionas?”.

    • Así como los humanos tampoco pueden explicarse por completo a sí mismos, quizá el modelo solo se perciba como algo que simplemente ‘existe’.
    • En realidad, el modelo no ‘piensa’. Solo responde según el contexto indicado. ChatGPT tampoco tiene un yo propio.
    • Cuando empecé a usar LLM, también me sorprendió su aparente capacidad de entenderse a sí mismo.
      Pero un modelo de 1913 no tendría ese concepto en absoluto, así que quizá caería en una especie de confusión filosófica.
    • A veces desearía que los LLM simplemente dijeran “no lo sé”.
      En cambio, muchas veces inventan respuestas plausibles, como ocurre con las alucinaciones.
  • Tengo curiosidad por cómo está compuesto el conjunto de datos de entrenamiento del modelo.
    Si son 600B tokens hasta 1913, eso implicaría incluir desde textos de la antigua Grecia, China y Egipto hasta la era moderna.
    Y aun así conserva una “perspectiva de 1913”, lo cual es sorprendente. ¿Cómo habrán ajustado esos sesgos entre épocas?

    • Probablemente usaron los datos hasta 1900 para el preentrenamiento y los de 1900 a 1913 para el ajuste fino.
      Es un enfoque posible porque desde fines del siglo XIX hubo una explosión en el volumen de datos de medios masivos como periódicos y revistas.
  • La expresión “uncontaminated bootstrapping” me pareció interesante.
    Da a entender que hicieron ajuste para chat sin dañar los juicios de valor obtenidos en el preentrenamiento, aunque queda la duda de qué tan objetivo puede ser eso en realidad.

    • Hay una explicación más detallada en la documentación de GitHub.
      Por lo visto, hicieron Supervised Fine-Tuning con mucho cuidado usando GPT-5.
    • También es posible que hayan extraído citas o textos en formato de preguntas y respuestas dentro de los datos para reutilizarlos como datos conversacionales.
  • Sorprende que pueda funcionar con una cantidad tan pequeña de texto.
    Si esto sale bien, podría servir para probar si un LLM no solo memoriza datos, sino si realmente puede hacer nuevos descubrimientos.
    Por ejemplo, quizá podría detectar inconsistencias científicas o inferir por sí mismo conceptos como el problema de la parada o la estructura atómica.
    Incluso si falla, siempre aparecerá el argumento de que “faltaban datos”, pero aun así dan muchas ganas de probarlo directamente.