Talkie, el modelo de lenguaje vintage 13B de 1930
(talkie-lm.com)- Un modelo de lenguaje de 13B entrenado solo con 260B tokens de texto en inglés anterior a 1931, que permite conversar y experimentar con generalización desde un estado que desconoce el mundo moderno
- Basado en un aumento de la sorpresa después del corte de conocimiento y en un entorno de evaluación con poca contaminación, permite poner a prueba de forma más directa la predicción de eventos futuros y la posibilidad de llegar a ideas nuevas
- Frente a un modelo moderno entrenado en la web con la misma arquitectura, su rendimiento en evaluaciones estándar suele ser menor, pero la brecha se reduce al filtrar preguntas anacrónicas, y se observa un nivel similar en comprensión del lenguaje y tareas matemáticas
- Los mayores desafíos son la fuga temporal y la calidad de los datos: metadatos de fecha incorrectos o inserciones editoriales posteriores pueden romper el cutoff, y la calidad de la transcripción de documentos históricos también impacta fuertemente el rendimiento
- Sin usar datos modernos de instruction tuning, construyeron aparte un entrenamiento conversacional posterior, y ya cuentan con una base de investigación de largo plazo que sigue con modelos más grandes, expansión del corpus, re-OCR y detección de fugas más robusta
Por qué un modelo de lenguaje vintage
- Un modelo de lenguaje vintage es un enfoque que entrena solo con texto anterior a un momento histórico, para crear la experiencia de conversar con un modelo que no conoce el mundo moderno
- Estos modelos no solo son interlocutores interesantes, sino también herramientas de investigación para ampliar la comprensión general de la IA
- Tomaron un modelo de 13B entrenado solo con texto previo a 1931 y le dieron unas 5,000 descripciones de eventos de “On This Day” del New York Times, midiendo la sorpresa en bits por byte de texto
- La sorpresa aumentó después del corte de conocimiento, sobre todo en las décadas de 1950 y 1960, y luego se estabilizó
- La evaluación de predicción del futuro sigue la línea de medir cómo mejora el rendimiento según el tamaño del modelo y cómo se debilita a intervalos temporales más largos
- La posibilidad de llegar a ideas nuevas también puede probarse viendo si el modelo es capaz de imaginar de forma independiente inventos y descubrimientos científicos que aparecieron realmente después del cutoff
- Un entorno de evaluación sin contaminación también es una ventaja importante
- La contaminación se trata como un problema persistente que tiende a sobreestimar las capacidades de los modelos de lenguaje
- Los modelos vintage tienen estructuralmente menos contaminación, lo que permite experimentar de forma más directa con la generalización fuera de los datos de preentrenamiento
Resumen de Talkie
- talkie-1930-13b-base es un modelo de lenguaje de 13B entrenado con 260B tokens de texto en inglés anterior a 1931
- talkie-1930-13b-it es un checkpoint posterior que convierte ese modelo base en uno conversacional
- Está diseñado para no depender de chats modernos ni de datos modernos de instruction tuning
- El feed en vivo de 24 horas del widget superior funciona haciendo que Claude Sonnet 4.6 use talkie-1930-13b-it mediante prompts para explorar su conocimiento, capacidades y tendencias
- Talkie se presenta como el modelo de lenguaje vintage más grande hasta la fecha del artículo
- Como siguiente paso, ya están entrenando un modelo a nivel GPT-3, con objetivo de publicarlo en verano
- También presentan una estimación preliminar de que el corpus de texto histórico podría ampliarse a más de 1 billón de tokens
- Señalan que esa escala podría ser suficiente para construir un modelo de nivel GPT-3.5 con capacidades similares a las del ChatGPT original
Evaluación de rendimiento y generalización
- Como modelo gemelo moderno, crearon talkie-web-13b-base, con la misma arquitectura pero entrenado con datos web modernos basados en FineWeb
- Incluso entrenado con los mismos FLOPs, Talkie muestra en evaluaciones estándar de LM un rendimiento promedio inferior al del modelo moderno
- Esa diferencia permanece incluso después de corregir el anacronismo de las preguntas
- Aun así, se indica que en tareas clave de comprensión del lenguaje y habilidad matemática se observó un rendimiento similar
- Según la Figure 4, al filtrar preguntas anacrónicas la brecha de rendimiento se reduce aproximadamente a la mitad
- También se hicieron experimentos de generalización en código
- Con HumanEval, compararon pares de modelos: uno vintage entrenado con texto previo a 1931 y otro moderno entrenado con datos web
- Se les dieron ejemplos aleatorios de funciones Python como aprendizaje en contexto, y se midió la proporción de problemas resueltos correctamente al menos una vez en 100 intentos
- El modelo vintage queda bastante por detrás de los modelos entrenados con datos web, pero a mayor escala esta tarea también mejora de forma lenta y constante
- Por ahora, las respuestas correctas se limitan a programas de una sola línea muy simples o pequeñas variaciones de ejemplos en contexto
- Se incluye un ejemplo donde, dada una función de codificación con cifrado rotacional, implementa la función de decodificación
- Es básicamente una modificación de una sola letra, cambiando suma por resta, pero se interpreta como una señal de comprensión de funciones inversas
Recolección de datos y desafíos de entrenamiento
- Afirman haber reunido no decenas de miles de millones, sino cientos de miles de millones de tokens en inglés anteriores a 1931
- Los datos incluyen libros, periódicos, publicaciones periódicas, revistas científicas, patentes y fallos judiciales
- Eligieron finales de 1930 como cutoff porque, en Estados Unidos, ese es el criterio para que las obras entren al dominio público
- Esta versión se limita principalmente a texto en inglés
- Señalan que verificar el pipeline de datos exige una gran familiaridad con los documentos originales, y que el equipo de desarrollo es angloparlante nativo
- La expansión multilingüe se presenta como una prioridad alta
- Buscan tanto ampliar el tamaño del corpus como diversificar las perspectivas incluidas
-
Fuga temporal
- El objetivo más importante es evitar que datos posteriores al corte de conocimiento se filtren al corpus de entrenamiento
- La fuga puede surgir por documentos modernos con metadatos de fecha incorrectos o por prólogos editoriales y notas al pie insertados más tarde en documentos antiguos
- En Talkie-1930, filtran el corpus de preentrenamiento con un clasificador de anacronismos a nivel documento basado en n-gramas
- Ese filtrado no fue perfecto
- La versión inicial de 7B claramente conocía la presidencia de Roosevelt y la legislación del New Deal
- La versión de 13B también conoce parte de la Segunda Guerra Mundial y del orden de posguerra, incluyendo detalles sobre las Naciones Unidas y la división de Alemania
- Para versiones posteriores, están desarrollando técnicas de detección y filtrado de fugas usando clasificadores más avanzados
-
Calidad de los datos
- En 1930 no existía la publicación digital, así que todo el texto del dataset tuvo que transcribirse desde originales físicos
- Ese proceso introduce tipos de ruido que no existen en textos nacidos digitalmente
- Los sistemas clásicos de OCR no manejan bien documentos históricos salvo en diseños simples y escaneos limpios
- El OCR moderno basado en VLM es más preciso, pero según el texto puede alucinar e insertar hechos modernos en el corpus, arruinando el experimento
- En experimentos controlados, al entrenar un LM con texto previo a 1931 transcrito por OCR tradicional, se alcanza solo el 30% del rendimiento de transcripciones humanas con el mismo cómputo
- Aplicando una limpieza simple con regex, eso sube al 70%, pero sigue habiendo una diferencia grande
- Para cerrar esa brecha, planean volver a transcribir el corpus de Talkie con un sistema OCR vintage
-
Entrenamiento posterior vintage
- La falta de datos de postentrenamiento listos para usar también es un problema importante
- Si se hace fine-tuning con pares instruction-response comunes, entran de lleno conocimientos anacrónicos, estilo moderno y expectativas de un asistente de chat
- Para evitarlo, construyeron el pipeline de postentrenamiento desde cero
- Primero generaron pares instruction-response a partir de textos históricos con estructura regular, como manuales de etiqueta, guías de redacción de cartas, libros de cocina, diccionarios, enciclopedias, poemarios y colecciones de fábulas, y luego hicieron fine-tuning en un formato simple de chat
- Después crearon prompts sintéticos que cubren tareas como resumen de documentos, respuesta a pedidos directos de información y continuación de diálogos de varios turnos, y aplicaron online direct preference optimization con Claude Sonnet 4.6 como juez
- En un conjunto de evaluación separado, la calificación promedio de seguimiento de instrucciones del juez subió de 2.0 a 3.4 sobre 5
- Por último, hicieron otra ronda de supervised fine-tuning usando diálogos sintéticos multivuelta muestreados por rechazo entre Claude Opus 4.6 y Talkie
- Se indica que el aprendizaje por refuerzo con feedback de IA inevitablemente deja una influencia moderna
- La versión 7B de Talkie llegó a hablar con tono de listicle después de RL
- Esperan que, al aumentar la escala, el propio modelo base vintage pueda usarse como juez para lograr un postentrenamiento completamente bootstrap y acorde a su época
Planes de expansión futura
- Impulsan tanto la ampliación del corpus en inglés como la expansión a idiomas distintos del inglés
- Planean hacer re-OCR de la mayor cantidad posible de textos anteriores a 1931 con un nuevo sistema OCR
- Buscan reforzar el pipeline de detección de fugas con nuevas técnicas de clasificación de anacronismos
- También planean ampliar y refinar el pipeline de postentrenamiento vintage en colaboración con historiadores
- Eso incluye metodologías para construir personas históricamente precisas
Usos y propuestas de colaboración
- GitHub: código del proyecto y punto de entrada para colaboración de investigación
- Hugging Face: lugar donde publican los checkpoints del modelo
- 💬 Chat: interfaz para conversar con Talkie
- hello@talkie-lm.com: contacto para colaboraciones
- Buscan colaborar con investigadores e instituciones que tengan textos históricos, incluyendo mejorar la accesibilidad aplicando OCR
- También están abiertos a apoyo en financiamiento o cómputo, y dicen que pueden conectar con otros equipos del área
- Con investigadores de humanidades, plantean conversar sobre la utilidad de los datos e infraestructura para entrenar modelos de lenguaje vintage
- Con investigadores de IA, buscan colaborar en el entrenamiento e investigación sobre modelos de lenguaje vintage
- También puede servir a artistas y escritores como herramienta experimental
Advertencia
- Talkie refleja la cultura y los valores de los textos con los que fue entrenado
- Como resultado, puede generar salidas que resulten ofensivas para los usuarios
1 comentarios
Comentarios de Hacker News
Es muy gracioso interpretar computer del futuro como una profesión humana
También me gusta que "digital computers" se entienda como personas que calculan con los dedos, y queda todavía mejor con el contexto de que en esa época computer era el nombre de un oficio humano
Seguro saldría un delirio bastante interesante
Parece que esto tira más de material anterior a 1900 que de los años 30
La Gran Depresión parece no conocerla, y aunque sabe de la Primera Guerra Mundial si se le pregunta directamente, habla de la política europea como si fuera alrededor de 1900
En tecnología también da esa impresión: parece conocer a Edison al nivel de Wikipedia, pero luego le atribuye el mérito de un automóvil de 125 millas por hora, y con el teléfono de disco se equivoca con total seguridad
Acertó el voltaje de la línea eléctrica del London Underground, pero al explicar voltaje y resistencia dijo cosas completamente erróneas
En general, la primera o segunda frase suelta información que parece sacada de una búsqueda, y después se desliza hacia tonterías plausibles
Mejor no hacerle a este modelo preguntas cuya respuesta no conoces. Te contamina el cerebro
Para ese entonces ya debió haber sido una idea refutada
Fue interesante preguntarle por la gente que se oponía a la automatización y la industrialización, y que respondiera que las máquinas les quitarían el trabajo a las clases trabajadoras y generarían sobreproducción que acabaría en despidos
Está muy bien lograda esa lógica antimaquinista de la época: que los alimentos baratos intensificarían la competencia con productores extranjeros, que se debilitaría la formación espiritual del artesano y que también se borraría la diferencia entre diligencia y pereza
Cuando le preguntaron por el mundo de 2025, la visión del futuro que dio era bastante hermosa: 6.6 mil millones de habitantes, una red ferroviaria por toda Europa, Londres-Constantinopla en 40 horas, una moneda única, paz universal, transición a energía solar e hidroeléctrica, erradicación de enfermedades e incluso progreso estético
Para entonces ya hacía mucho que era Istanbul
Aun así, creo que algún día llegaremos ahí
La respuesta de que el viaje a la Luna terminaría siendo posible, que se llegaría en 6 horas, y que se partiría del este de Francia en una máquina aérea al estilo de Santos Dumont, estuvo buenísima
También me impresionó especialmente la idea de usar la Luna para observación meteorológica y así recibir alertas de tormenta 6 horas antes
Cuando le preguntaron por la India de 2026, dice que seguiría siendo una federación autónoma bajo la supremacía del Imperio Británico y que Calcuta sería la capital política; la mirada colonial es demasiado descarada
Está lleno del típico optimismo imperial: ferrocarriles, irrigación, bosques en las faldas del Himalaya, príncipes vasallos leales y súbditos satisfechos
Sí sorprende que haya salido un modelo bastante inteligente solo con tokens anteriores a 1930
Yo pensaba que para entender y comprimir el mundo hasta cierto punto hacía falta una cantidad enorme de datos, pero quizá subestimé el volumen de literatura digitalizada de aquella época
Esto parece más cercano a intercambiar correspondencia que a conversar con una persona del pasado
No hay tantas grabaciones de voz de ese periodo, así que al final no queda otra que construirlo sobre registros escritos, y por eso probablemente refleja una forma de hablar más formal y pulida que la actual
Aun así, es un trabajo genial
Hace poco tuve que hacer OCR de un libro de hace 200 años, y para lo difícil que era la tipografía de esa época, fue sorprendentemente fácil y preciso
Después me di cuenta de que era un error de OCR o de posprocesamiento, y que originalmente era "doth"
Hay bastantes noticieros filmados y transmisiones de radio de antes y después de la Primera Guerra Mundial, así que yo diría que alcanza para hacer un modelo de voz por transferencia de estilo y conectarlo a un modelo de texto
Alguien en X al parecer vio fuga de datos del futuro en el set de entrenamiento de este modelo
https://xcancel.com/deredleritt3r/status/2048977698832241060
Le pedí que describiera a Winston Churchill, y la forma en que enumera su familia, educación, carrera militar, escritos y residencia se sentía muy de novela de época
Cuando le preguntas por la posibilidad de la independencia de India, desarrolla una lógica que pasa por los ferrocarriles, una lengua común, la educación occidental, las demandas parlamentarias y la formación de una identidad nacional, pero el tono colonialista se nota muchísimo
La combinación de que sea diputado en funciones por Oldham y que antes haya sido subsecretario de Colonias no coincide con ningún momento real
Además, faltan antecedentes clave de la Primera Guerra Mundial como First Lord of the Admiralty o Minister of Munitions
Eso parece una señal bastante clara de temporal leakage mezclado