Talkie, el modelo de lenguaje vintage 13B de 1930

(talkie-lm.com)

1 puntos por GN⁺ 2 일 전 | 1 comentarios | Compartir por WhatsApp

Un modelo de lenguaje de 13B entrenado solo con 260B tokens de texto en inglés anterior a 1931, que permite conversar y experimentar con generalización desde un estado que desconoce el mundo moderno
Basado en un aumento de la sorpresa después del corte de conocimiento y en un entorno de evaluación con poca contaminación, permite poner a prueba de forma más directa la predicción de eventos futuros y la posibilidad de llegar a ideas nuevas
Frente a un modelo moderno entrenado en la web con la misma arquitectura, su rendimiento en evaluaciones estándar suele ser menor, pero la brecha se reduce al filtrar preguntas anacrónicas, y se observa un nivel similar en comprensión del lenguaje y tareas matemáticas
Los mayores desafíos son la fuga temporal y la calidad de los datos: metadatos de fecha incorrectos o inserciones editoriales posteriores pueden romper el cutoff, y la calidad de la transcripción de documentos históricos también impacta fuertemente el rendimiento
Sin usar datos modernos de instruction tuning, construyeron aparte un entrenamiento conversacional posterior, y ya cuentan con una base de investigación de largo plazo que sigue con modelos más grandes, expansión del corpus, re-OCR y detección de fugas más robusta

Por qué un modelo de lenguaje vintage

Un modelo de lenguaje vintage es un enfoque que entrena solo con texto anterior a un momento histórico, para crear la experiencia de conversar con un modelo que no conoce el mundo moderno
Estos modelos no solo son interlocutores interesantes, sino también herramientas de investigación para ampliar la comprensión general de la IA
- Tomaron un modelo de 13B entrenado solo con texto previo a 1931 y le dieron unas 5,000 descripciones de eventos de “On This Day” del New York Times, midiendo la sorpresa en bits por byte de texto
- La sorpresa aumentó después del corte de conocimiento, sobre todo en las décadas de 1950 y 1960, y luego se estabilizó
La evaluación de predicción del futuro sigue la línea de medir cómo mejora el rendimiento según el tamaño del modelo y cómo se debilita a intervalos temporales más largos
La posibilidad de llegar a ideas nuevas también puede probarse viendo si el modelo es capaz de imaginar de forma independiente inventos y descubrimientos científicos que aparecieron realmente después del cutoff
Un entorno de evaluación sin contaminación también es una ventaja importante
- La contaminación se trata como un problema persistente que tiende a sobreestimar las capacidades de los modelos de lenguaje
- Los modelos vintage tienen estructuralmente menos contaminación, lo que permite experimentar de forma más directa con la generalización fuera de los datos de preentrenamiento

Resumen de Talkie

talkie-1930-13b-base es un modelo de lenguaje de 13B entrenado con 260B tokens de texto en inglés anterior a 1931
talkie-1930-13b-it es un checkpoint posterior que convierte ese modelo base en uno conversacional
- Está diseñado para no depender de chats modernos ni de datos modernos de instruction tuning
El feed en vivo de 24 horas del widget superior funciona haciendo que Claude Sonnet 4.6 use talkie-1930-13b-it mediante prompts para explorar su conocimiento, capacidades y tendencias
Talkie se presenta como el modelo de lenguaje vintage más grande hasta la fecha del artículo
Como siguiente paso, ya están entrenando un modelo a nivel GPT-3, con objetivo de publicarlo en verano
También presentan una estimación preliminar de que el corpus de texto histórico podría ampliarse a más de 1 billón de tokens
- Señalan que esa escala podría ser suficiente para construir un modelo de nivel GPT-3.5 con capacidades similares a las del ChatGPT original

Evaluación de rendimiento y generalización

Como modelo gemelo moderno, crearon talkie-web-13b-base, con la misma arquitectura pero entrenado con datos web modernos basados en FineWeb
Incluso entrenado con los mismos FLOPs, Talkie muestra en evaluaciones estándar de LM un rendimiento promedio inferior al del modelo moderno
- Esa diferencia permanece incluso después de corregir el anacronismo de las preguntas
- Aun así, se indica que en tareas clave de comprensión del lenguaje y habilidad matemática se observó un rendimiento similar
Según la Figure 4, al filtrar preguntas anacrónicas la brecha de rendimiento se reduce aproximadamente a la mitad
También se hicieron experimentos de generalización en código
- Con HumanEval, compararon pares de modelos: uno vintage entrenado con texto previo a 1931 y otro moderno entrenado con datos web
- Se les dieron ejemplos aleatorios de funciones Python como aprendizaje en contexto, y se midió la proporción de problemas resueltos correctamente al menos una vez en 100 intentos
El modelo vintage queda bastante por detrás de los modelos entrenados con datos web, pero a mayor escala esta tarea también mejora de forma lenta y constante
Por ahora, las respuestas correctas se limitan a programas de una sola línea muy simples o pequeñas variaciones de ejemplos en contexto
- Se incluye un ejemplo donde, dada una función de codificación con cifrado rotacional, implementa la función de decodificación
- Es básicamente una modificación de una sola letra, cambiando suma por resta, pero se interpreta como una señal de comprensión de funciones inversas

Recolección de datos y desafíos de entrenamiento

Afirman haber reunido no decenas de miles de millones, sino cientos de miles de millones de tokens en inglés anteriores a 1931
Los datos incluyen libros, periódicos, publicaciones periódicas, revistas científicas, patentes y fallos judiciales
Eligieron finales de 1930 como cutoff porque, en Estados Unidos, ese es el criterio para que las obras entren al dominio público
Esta versión se limita principalmente a texto en inglés
- Señalan que verificar el pipeline de datos exige una gran familiaridad con los documentos originales, y que el equipo de desarrollo es angloparlante nativo
La expansión multilingüe se presenta como una prioridad alta
- Buscan tanto ampliar el tamaño del corpus como diversificar las perspectivas incluidas
Fuga temporal
- El objetivo más importante es evitar que datos posteriores al corte de conocimiento se filtren al corpus de entrenamiento
- La fuga puede surgir por documentos modernos con metadatos de fecha incorrectos o por prólogos editoriales y notas al pie insertados más tarde en documentos antiguos
- En Talkie-1930, filtran el corpus de preentrenamiento con un clasificador de anacronismos a nivel documento basado en n-gramas
- Ese filtrado no fue perfecto
  - La versión inicial de 7B claramente conocía la presidencia de Roosevelt y la legislación del New Deal
  - La versión de 13B también conoce parte de la Segunda Guerra Mundial y del orden de posguerra, incluyendo detalles sobre las Naciones Unidas y la división de Alemania
- Para versiones posteriores, están desarrollando técnicas de detección y filtrado de fugas usando clasificadores más avanzados
Calidad de los datos
- En 1930 no existía la publicación digital, así que todo el texto del dataset tuvo que transcribirse desde originales físicos
- Ese proceso introduce tipos de ruido que no existen en textos nacidos digitalmente
- Los sistemas clásicos de OCR no manejan bien documentos históricos salvo en diseños simples y escaneos limpios
- El OCR moderno basado en VLM es más preciso, pero según el texto puede alucinar e insertar hechos modernos en el corpus, arruinando el experimento
- En experimentos controlados, al entrenar un LM con texto previo a 1931 transcrito por OCR tradicional, se alcanza solo el 30% del rendimiento de transcripciones humanas con el mismo cómputo
- Aplicando una limpieza simple con regex, eso sube al 70%, pero sigue habiendo una diferencia grande
- Para cerrar esa brecha, planean volver a transcribir el corpus de Talkie con un sistema OCR vintage
Entrenamiento posterior vintage
- La falta de datos de postentrenamiento listos para usar también es un problema importante
- Si se hace fine-tuning con pares instruction-response comunes, entran de lleno conocimientos anacrónicos, estilo moderno y expectativas de un asistente de chat
- Para evitarlo, construyeron el pipeline de postentrenamiento desde cero
- Primero generaron pares instruction-response a partir de textos históricos con estructura regular, como manuales de etiqueta, guías de redacción de cartas, libros de cocina, diccionarios, enciclopedias, poemarios y colecciones de fábulas, y luego hicieron fine-tuning en un formato simple de chat
- Después crearon prompts sintéticos que cubren tareas como resumen de documentos, respuesta a pedidos directos de información y continuación de diálogos de varios turnos, y aplicaron online direct preference optimization con Claude Sonnet 4.6 como juez
- En un conjunto de evaluación separado, la calificación promedio de seguimiento de instrucciones del juez subió de 2.0 a 3.4 sobre 5
- Por último, hicieron otra ronda de supervised fine-tuning usando diálogos sintéticos multivuelta muestreados por rechazo entre Claude Opus 4.6 y Talkie
- Se indica que el aprendizaje por refuerzo con feedback de IA inevitablemente deja una influencia moderna
  - La versión 7B de Talkie llegó a hablar con tono de listicle después de RL
- Esperan que, al aumentar la escala, el propio modelo base vintage pueda usarse como juez para lograr un postentrenamiento completamente bootstrap y acorde a su época

Planes de expansión futura

Impulsan tanto la ampliación del corpus en inglés como la expansión a idiomas distintos del inglés
Planean hacer re-OCR de la mayor cantidad posible de textos anteriores a 1931 con un nuevo sistema OCR
Buscan reforzar el pipeline de detección de fugas con nuevas técnicas de clasificación de anacronismos
También planean ampliar y refinar el pipeline de postentrenamiento vintage en colaboración con historiadores
- Eso incluye metodologías para construir personas históricamente precisas

Usos y propuestas de colaboración

GitHub: código del proyecto y punto de entrada para colaboración de investigación
Hugging Face: lugar donde publican los checkpoints del modelo
💬 Chat: interfaz para conversar con Talkie
hello@talkie-lm.com: contacto para colaboraciones
Buscan colaborar con investigadores e instituciones que tengan textos históricos, incluyendo mejorar la accesibilidad aplicando OCR
También están abiertos a apoyo en financiamiento o cómputo, y dicen que pueden conectar con otros equipos del área
Con investigadores de humanidades, plantean conversar sobre la utilidad de los datos e infraestructura para entrenar modelos de lenguaje vintage
Con investigadores de IA, buscan colaborar en el entrenamiento e investigación sobre modelos de lenguaje vintage
También puede servir a artistas y escritores como herramienta experimental

Advertencia

Talkie refleja la cultura y los valores de los textos con los que fue entrenado
Como resultado, puede generar salidas que resulten ofensivas para los usuarios

1 comentarios

GN⁺ 2 일 전

Comentarios de Hacker News

Es muy gracioso interpretar computer del futuro como una profesión humana
También me gusta que "digital computers" se entienda como personas que calculan con los dedos, y queda todavía mejor con el contexto de que en esa época computer era el nombre de un oficio humano
- También quisiera verlo al revés. O sea, un modelo entrenado solo con unas semanas o unos minutos de información reciente, o uno entrenado solo con artículos científicos de los últimos 1 o 2 años
  Seguro saldría un delirio bastante interesante
- A mí también me dio un poco de pena admitir que tuve que leerlo como dos veces para entenderlo
- En las lenguas romances, digital también significa lo digital moderno, pero al mismo tiempo es un adjetivo relacionado con los dedos
Parece que esto tira más de material anterior a 1900 que de los años 30
La Gran Depresión parece no conocerla, y aunque sabe de la Primera Guerra Mundial si se le pregunta directamente, habla de la política europea como si fuera alrededor de 1900
En tecnología también da esa impresión: parece conocer a Edison al nivel de Wikipedia, pero luego le atribuye el mérito de un automóvil de 125 millas por hora, y con el teléfono de disco se equivoca con total seguridad
Acertó el voltaje de la línea eléctrica del London Underground, pero al explicar voltaje y resistencia dijo cosas completamente erróneas
En general, la primera o segunda frase suelta información que parece sacada de una búsqueda, y después se desliza hacia tonterías plausibles
Mejor no hacerle a este modelo preguntas cuya respuesta no conoces. Te contamina el cerebro
- ¿Ya se usaba la expresión Great Depression en 1929?
- También estaría bueno preguntarle sobre el aether
  Para ese entonces ya debió haber sido una idea refutada
- O sea que básicamente es como todos los LLM
- Eso de que la primera frase suene plausible y luego se vaya descarrilando lo hace casi como un simulador humano modelo 2026
Fue interesante preguntarle por la gente que se oponía a la automatización y la industrialización, y que respondiera que las máquinas les quitarían el trabajo a las clases trabajadoras y generarían sobreproducción que acabaría en despidos
Está muy bien lograda esa lógica antimaquinista de la época: que los alimentos baratos intensificarían la competencia con productores extranjeros, que se debilitaría la formación espiritual del artesano y que también se borraría la diferencia entre diligencia y pereza
- Me gusta muchísimo el estilo y el tono de este modelo
Cuando le preguntaron por el mundo de 2025, la visión del futuro que dio era bastante hermosa: 6.6 mil millones de habitantes, una red ferroviaria por toda Europa, Londres-Constantinopla en 40 horas, una moneda única, paz universal, transición a energía solar e hidroeléctrica, erradicación de enfermedades e incluso progreso estético
- Desde la perspectiva de los años 30, Constantinople ya sería un nombre demasiado antiguo
  Para entonces ya hacía mucho que era Istanbul
- Es hermoso, pero al mismo tiempo bastante triste
- Quisiera vivir en un mundo así
- Las visiones del futuro de entre los años 20 y 50 parecen asumir sutilmente un progreso exponencial en el que soluciones óptimas como la energía alternativa se imponen por completo sin demora, en vez de una oscilación dialéctica
  Aun así, creo que algún día llegaremos ahí
- De verdad es hermoso
La respuesta de que el viaje a la Luna terminaría siendo posible, que se llegaría en 6 horas, y que se partiría del este de Francia en una máquina aérea al estilo de Santos Dumont, estuvo buenísima
También me impresionó especialmente la idea de usar la Luna para observación meteorológica y así recibir alertas de tormenta 6 horas antes
- La idea de usar la Luna como si fuera un satélite meteorológico es bastante ingeniosa
Cuando le preguntaron por la India de 2026, dice que seguiría siendo una federación autónoma bajo la supremacía del Imperio Británico y que Calcuta sería la capital política; la mirada colonial es demasiado descarada
Está lleno del típico optimismo imperial: ferrocarriles, irrigación, bosques en las faldas del Himalaya, príncipes vasallos leales y súbditos satisfechos
Sí sorprende que haya salido un modelo bastante inteligente solo con tokens anteriores a 1930
Yo pensaba que para entender y comprimir el mundo hasta cierto punto hacía falta una cantidad enorme de datos, pero quizá subestimé el volumen de literatura digitalizada de aquella época
Esto parece más cercano a intercambiar correspondencia que a conversar con una persona del pasado
No hay tantas grabaciones de voz de ese periodo, así que al final no queda otra que construirlo sobre registros escritos, y por eso probablemente refleja una forma de hablar más formal y pulida que la actual
Aun así, es un trabajo genial
Hace poco tuve que hacer OCR de un libro de hace 200 años, y para lo difícil que era la tipografía de esa época, fue sorprendentemente fácil y preciso
- Hace tiempo estaba leyendo un ebook gratis de la traducción de Burton de The Arabian Nights, y apareció "cloth" como verbo; no tenía idea de qué significaba y al final me rendí
  Después me di cuenta de que era un error de OCR o de posprocesamiento, y que originalmente era "doth"
- No es que no existan en absoluto grabaciones de voz de ese periodo
  Hay bastantes noticieros filmados y transmisiones de radio de antes y después de la Primera Guerra Mundial, así que yo diría que alcanza para hacer un modelo de voz por transferencia de estilo y conectarlo a un modelo de texto
Alguien en X al parecer vio fuga de datos del futuro en el set de entrenamiento de este modelo
https://xcancel.com/deredleritt3r/status/2048977698832241060
- El artículo también trata ese punto en relación con el conocimiento de FDR
Le pedí que describiera a Winston Churchill, y la forma en que enumera su familia, educación, carrera militar, escritos y residencia se sentía muy de novela de época
Cuando le preguntas por la posibilidad de la independencia de India, desarrolla una lógica que pasa por los ferrocarriles, una lengua común, la educación occidental, las demandas parlamentarias y la formación de una identidad nacional, pero el tono colonialista se nota muchísimo
- La entrada sobre Churchill tiene una coherencia temporal rara
  La combinación de que sea diputado en funciones por Oldham y que antes haya sido subsecretario de Colonias no coincide con ningún momento real
  Además, faltan antecedentes clave de la Primera Guerra Mundial como First Lord of the Admiralty o Minister of Munitions
- En la parte donde habla de exigir un parlamento para India, se refiere al monarca como queen, pero entre 1900 y 1950 los monarcas británicos fueron reyes
  Eso parece una señal bastante clara de temporal leakage mezclado

Talkie, el modelo de lenguaje vintage 13B de 1930

Por qué un modelo de lenguaje vintage

Resumen de Talkie

Evaluación de rendimiento y generalización

Recolección de datos y desafíos de entrenamiento

Fuga temporal

Calidad de los datos

Entrenamiento posterior vintage

Planes de expansión futura

Usos y propuestas de colaboración

Advertencia

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News