1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • La Biblioteca Nacional de Noruega incorporó 2 PB de almacenamiento flash Huawei OceanStor Dorado a su pipeline de entrenamiento de IA para construir un LLM soberano que entienda noruego
  • Como los proveedores comerciales de LLM no están creando modelos locales para el noruego, los LLM centrados en inglés tienen dificultades para tratar adecuadamente la historia, noticias y cultura registradas en idiomas regionales
  • La Biblioteca Nacional ha digitalizado desde 2005 libros, periódicos, páginas web, audio y video, y conserva 20 PB de datos únicos, almacenando cerca de 60 PB con un esquema 3-2-1
  • El cuello de botella no está en el cómputo sino en la calidad de datos, depuración y rendimiento del procesamiento; los datos se preparan internamente con DGX H200, un clúster de CPU y flash de Huawei, y luego se entrenan en Sigma2 Olivia
  • El archivo de preservación y el pipeline de IA tienen requisitos distintos de durabilidad y costo frente a baja latencia e I/O paralela, por lo que un LLM soberano también necesita capacidades de gestión y resguardo

Proyecto de LLM soberano de la Biblioteca Nacional de Noruega

  • La Biblioteca Nacional de Noruega (Nasjonalbiblioteket) está desarrollando un modelo de lenguaje grande (LLM) que entienda noruego y utiliza 2 PB de almacenamiento flash Huawei OceanStor Dorado en su pipeline de datos para entrenamiento de IA
  • Marius Husnes, responsable de la plataforma de TI de la Biblioteca Nacional, dijo en Huawei ID Forum 2026 Paris que los proveedores comerciales de LLM no están desarrollando LLM regionales en noruego
  • Los países que no tienen un LLM soberano entrenado en su propio idioma terminan dependiendo de LLM entrenados con datos globales y centrados en inglés, y estos modelos tienen dificultades para comprender la historia, noticias y cultura registradas en lenguas locales
  • El Ministerio de Cultura de Noruega encargó a la Biblioteca Nacional la construcción de una IA soberana, es decir, un LLM, y la institución posee la colección digital más grande de libros, periódicos y páginas web de Noruega
  • La Biblioteca Nacional tiene derecho a recibir una copia de todos los libros publicados y contenidos de radiodifusión, y el depósito legal se ha ampliado más allá de los libros para abarcar la recolección y preservación de todo el patrimonio cultural noruego
  • Gracias a acuerdos con periódicos noruegos, también puede usar contenido con derechos de autor para entrenar el LLM, y Husnes señaló que “las empresas privadas no tienen eso”

Volumen de datos y base de digitalización

  • La Biblioteca Nacional ha digitalizado sus colecciones desde 2005 y ha acumulado 20 PB de datos únicos
  • Estos datos se almacenan con un esquema 3-2-1
    • 3 copias
    • 2 tipos de medios
    • 1 copia fuera del sitio
  • Debido a esta estructura, el volumen total almacenado llega a unos 60 PB
  • Lo digitalizado incluye texto original, audio, video, imágenes fijas y contenido web
  • En el proceso de digitalización se realizaron muchos escaneos OCR, y también se generaron grandes volúmenes de metadatos y APIs para acceso en línea
  • La mayor parte de los datos se guarda en un sistema de preservación compuesto por discos digitales y archivos en cinta

El problema de mover datos del archivo al pipeline de IA

  • El reto principal es llevar los datos del sistema de preservación al sistema de entrenamiento del LLM
  • El cuello de botella no es el cómputo, sino la calidad de datos, depuración y rendimiento del pipeline
  • El proceso se divide entre la preparación de datos en el entorno de cómputo interno de la Biblioteca Nacional y la ejecución real del entrenamiento en la supercomputadora nacional
  • El entorno interno está compuesto por el siguiente equipamiento
    • Sistemas Nvidia DGX H200
    • Un clúster de CPU de 384 núcleos
    • Varios arreglos all-flash Huawei OceanStor Dorado con una capacidad flash total de 2 PB
  • El almacenamiento flash de Huawei se utiliza como almacenamiento de baja latencia para el pipeline de datos y la preparación del entrenamiento
  • El pipeline incluye etapas de recolección de datos, depuración, eliminación de duplicados, normalización de formato, validación y preparación

Entorno de ejecución del entrenamiento: Sigma2 Olivia

  • Los datos que pasan por el pipeline se transfieren al sistema Olivia de Sigma2, la supercomputadora nacional de Noruega, para la ejecución real del entrenamiento
  • Olivia es un sistema HPE Cray Supercomputing EX
  • La configuración de Olivia es la siguiente
    • 448 GPU
    • 64,512 núcleos de CPU
    • Un sistema de almacenamiento Cray ClusterStor E1000 de 5.3 PB
  • El entorno de IA on-premise de la Biblioteca Nacional prepara los datos, y Olivia se encarga de ejecutar el entrenamiento

Requisitos de almacenamiento distintos

  • El archivo de preservación y el almacenamiento del pipeline de IA tienen requisitos diferentes
  • El sistema de preservación de 60 PB está optimizado para durabilidad y costo, no para I/O rápida
  • El sistema de preservación está diseñado para accesos poco frecuentes, por lo que tiene una latencia de lectura alta
  • El almacenamiento del pipeline de IA está diseñado para alto rendimiento, baja latencia y I/O de datos en paralelo
  • El equipo tuvo que encontrar por sí mismo la forma de mover y procesar datasets a escala de PB desde el archivo hacia el pipeline de datos de IA

Retos que aún siguen resolviendo

  • Evaluación

    • No existen herramientas estándar de evaluación para evaluar un LLM soberano en noruego
    • El noruego tiene dos formas escritas, además de varios dialectos y cambios históricos
    • El equipo de la Biblioteca Nacional está construyendo sus propias herramientas de evaluación
  • Gobernanza

    • Debe definirse quién controlará el acceso al LLM soberano
    • También queda por decidir quién determinará para qué puede usarse el LLM soberano
    • Estas son preguntas institucionales y políticas, y no tienen respuestas fáciles
  • Orquestación

    • Sigue en marcha el trabajo para hacer que funcionen de forma fluida los tres sistemas: el archivo de preservación, el entorno de IA on-premise y la supercomputadora nacional Sigma2

Significado y conclusión

  • El almacenamiento de Huawei está desempeñando un papel importante y real en el mercado europeo
  • Para los países que quieran desarrollar LLM soberanos en idiomas regionales, podría ser útil hablar con Husnes y entender el trabajo necesario
  • Noruega se presenta como un país pequeño que enfrenta problemas comunes a todos los países no angloparlantes
  • La pregunta central es cómo construir una IA que refleje el idioma, la cultura y la historia propios
  • La IA necesita no solo constructores, sino también administradores y custodios

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • Como noruego, uso la Biblioteca Nacional para búsquedas de texto casi todos los días
    La interfaz de usuario y las funciones para buscar entre cantidades enormes de texto son realmente de primer nivel

    • Es realmente excelente. Solo desearía que hubiera menos restricciones sobre el contenido accesible
      Una parte considerable solo está disponible desde IP noruegas, así que una de las principales razones por las que mantengo una VPN, aunque vivo en el Reino Unido y soy noruego, es por esto. Otra parte solo se puede consultar desde IP de bibliotecas o instituciones de investigación, pero aun así hay una enorme cantidad de material disponible públicamente
    • Es muy frustrante que no haya un motor de búsqueda unificado. No entiendo por qué no se puede buscar dentro de los subtítulos de TV
    • Me hizo darme cuenta de lo acostumbrado que estaba al stemming y la flexibilidad ortográfica básicos que tenían todos los motores de búsqueda desde la época de Altavista
  • Me pregunto qué tan cierta es esta afirmación: “Si un país con su propio idioma no tiene un LLM soberano entrenado en ese idioma, queda en desventaja. Porque los LLM angloparlantes entrenados con material de todo el mundo no conocen la historia, las noticias y la cultura de ese país tal como están descritas en el idioma local”
    Como pensaba que los grandes jugadores ya entrenaban con casi todo el material accesible, sin importar idioma o calidad, esta postura suena como una idea formada en los primeros tiempos de los LLM de propósito general

    • Si quieres que un LLM tenga conocimiento del noruego, me parece que la forma más obvia es crear un buen dataset de entrenamiento y publicarlo ampliamente
      No veo cuál sería la razón para gastar tanto en entrenar un modelo propio, especialmente si es probable que sea inferior a los modelos de punta
    • Los LLM extranjeros probablemente no fueron entrenados con material de la Biblioteca Nacional de Noruega
      A menudo encuentro ahí materiales mediante búsquedas generales por palabras clave debido a la genealogía, y aparecen cosas que ni el motor de búsqueda ni los modelos de lenguaje conocen
      Claro, la información que me interesa normalmente termina publicada en algún sitio del que la IA puede raspar datos, pero sacar todo el material interesante que hay ahí realmente tomaría muchísimo tiempo
    • A mi juicio, casi no es cierto. No hablo bien noruego, pero sí sueco, y como ambos idiomas son muy parecidos, en general entiendo el noruego
      Todos los modelos con los que he hablado en sueco lo manejaron perfectamente. Me parece muy probable que con el noruego ya pase lo mismo
    • Al menos quizá podrían llegar a escribir como noruegos, en vez de con un estilo que parece inglés traducido al noruego
      También sería interesante ver si aplican experimentos como https://arxiv.org/pdf/2507.22445
    • Los mejores modelos actuales ya son bastante fluidos en los idiomas y culturas principales, así que al menos el matiz de “todos” no es correcto
      El rendimiento puede verse poco afectado o incluso a veces ser mejor. Pero los patrones propios del inglés pueden filtrarse sutilmente hacia patrones nativos de otros idiomas
      En idiomas de bajos recursos es un problema completamente distinto, pero para mejorar eso se necesita más datos, no un modelo nuevo
  • “El sistema Olivia es un sistema HPE Cray Supercomputing EX con 448 GPU y 64,512 núcleos de CPU”
    Intentar entrenar un LLM soberano con un hardware tan limitado, en vez de montar LoRA sobre un modelo open source, parece un gran error y una señal de alerta
    No tienen recursos para entrenar un LLM completo, así que afirmar que ese es el objetivo da la impresión de que en realidad no planean hacer que este LLM sea útil. Y entonces uno se pregunta por qué y con el dinero de quién están desperdiciando recursos

    • Puede que no sea útil para gente externa, pero uno de los objetivos podría ser el aprendizaje organizacional
      Es decir, internalizar dentro de la organización el conocimiento necesario para crear LLM
      Sobre el papel la entidad es la Biblioteca Nacional, pero según el artículo la eligieron porque posee y puede usar legalmente material en noruego para este propósito. También parece probable que investigadores de instituciones relacionadas, como universidades, participen en el proceso
    • Ya antes lograron crear con éxito un modelo ajustado finamente como prueba de concepto, así que el siguiente paso sería entrenar un LLM completo
      Aun así, no creo que apunten a algo realmente valioso. Esos modelos ajustados estaban bastante rotos y parecían más un intento de establecer metodología. No estoy convencido de que sea súper útil, pero no me toca a mí decidir qué hace cada quien con fondos de investigación
      Uno de los modelos ajustados que probé se burlaba con frecuencia de personas que expresaban emociones en el chat
      Otro modelo ajustado, incluso si yo solo escribía “hei”, alucinaba que yo era médico y siempre me decía que mi bebé tenía una enfermedad terrible. Es muy posible que un prompt de sistema común y neutral haya provocado ese comportamiento
      Me parece que Olivia sí es lo bastante grande para el uso que se le quiere dar. Ahora mismo creo que es mejor seguir la corriente más reciente sin malgastar demasiado dinero en hardware
    • Los modelos de lenguaje multilingües e internacionalizados no son un área en la que los laboratorios de frontera estén concentrando tantos recursos, y menos aún el noruego, me parece
      Tal vez un corpus noruego no requiera un clúster gigantesco, y aunque lo requiriera, esto probablemente sea lo mejor que puede hacer la biblioteca. Sin duda podría ser una de las mayores apuestas que existen para modelos en noruego
      Es posible que los modelos de más alto nivel no puedan acceder a la calidad del contenido que tiene la Biblioteca Nacional. El artículo también menciona licencias con periódicos, además del propio archivo de la biblioteca
      Como el inglés y el noruego no son lenguas tan cercanas dentro de la misma familia, quizá LoRA no sea el mejor enfoque
      Me pregunto si hay investigación pública sobre qué tan bien funciona la localización basada en LoRA según qué tanto se alejen del inglés la gramática y el vocabulario del idioma objetivo
      Este tipo de proyectos normalmente no tiene un solo objetivo; no se trata solo de hacer un modelo de punta, sino también, como cuando una universidad lanza un satélite, de crear y entrenar talento local
    • Con esa cantidad de recursos, sí alcanza para usar algo basado en una receta de Olmo 3, con mezcla de datos priorizando los propios y entrenamiento posterior para tareas propias
      Si construyen su propio modelo de embeddings e indexan toda la biblioteca, y luego entrenan al modelo para consultar esos datos mientras responde preguntas de historia, cultura, derecho y estrategia desde la perspectiva del país, podría terminar siendo bastante interesante y útil
      No le va a ganar a Anthropic generando código React, pero tampoco hay razón para copiar exactamente eso
    • En realidad, el problema más grande son los datos de entrenamiento disponibles
      Ya se experimentó tanto con ajuste fino como con entrenamiento desde cero usando varios modelos de menos de 10 mil millones de parámetros, y la última vez que revisé, el entrenamiento desde cero capturaba mejor el idioma
  • Me pregunto si no sería mejor que Noruega, en su lugar o en paralelo, creara conjuntos de datos de entrenamiento y los compartiera gratis con todos los creadores de modelos
    Parece una mejor manera, o una forma adicional, de lograr el objetivo de que los modelos de frontera conozcan el noruego y su cultura

    • Los modelos de frontera ya conocen bastante bien el noruego. Se adaptan incluso a los dialectos noruegos, y también imitan de forma bastante convincente el noruego antiguo
      Por ejemplo, le pedí a Claude que explicara la novela de 1911 “De knyttede næver” usando la ortografía noruega de alrededor de 1911, y lo hizo bien
      Lo que falta es comprensión de la literatura, cultura e historia noruegas. “De knyttede næver” fue una de las novelas noruegas más vendidas en su momento, pero Claude solo pudo decir algo después de buscarla. ChatGPT lo hizo mejor y, especialmente en modo de razonamiento, dio un resumen detallado
      No es una obra muy conocida hoy en día, pero el autor fue durante décadas un periodista reconocido, y esta serie es lo bastante conocida como para que exista un cantante noruego cuyo nombre artístico proviene del nombre del protagonista. Además, la postura política del autor y su influencia en la novela han sido tratadas durante décadas en periódicos y libros noruegos, así que me parece una prueba bastante razonable y revela una brecha importante de conocimiento
      Sí estoy de acuerdo en que sería mejor hacer más accesible el conjunto de datos de la biblioteca nacional. Pero aquí el gran elemento adicional parece ser que firmaron acuerdos para poder entrenar con material con derechos de autor que está archivado y tiene restricciones de uso
      Aun así, publicar aunque sea solo los datos cuyo copyright ya expiró dentro de su colección sería un excelente punto de partida
    • No entiendo por qué habría que compartir todos estos datos con empresas estadounidenses codiciosas que roban los datos de todos para lucrar
      Es mucho mejor mantener acuerdos legales con instituciones nacionales y desarrollar algo que realmente sea útil para su propio país
  • Cuando Marius Husnes dice que “los proveedores comerciales de LLM no están desarrollando LLM noruegos locales, y los países que no tienen un LLM soberano entrenado en su propio idioma están en desventaja”, no me da mucha confianza que realmente sepa de qué está hablando aquí

    • Sí sabe de qué está hablando. Pero no es solo una cuestión del corpus de entrenamiento, sino también del tokenizador, que puede tokenizar subcadenas de forma más eficiente según los sesgos necesarios para el idioma objetivo
      Una de las razones por las que los LLM orientados al inglés son mejores en inglés es que el espacio de tokens está asignado de forma más compacta a ese idioma. Si pruebas un tokenizador en línea que llame a la API de Anthropic con palabras comunes en inglés y en noruego, en inglés normalmente salen en uno o menos tokens, mientras que en noruego suelen ser 2 a 4 tokens, y a veces más. Idiomas como el tailandés salen muchísimo peor parados
      La selección del corpus también suele inclinarse bastante hacia el idioma objetivo, porque conseguir obras en ese idioma requiere más esfuerzo
      Debido a la influencia mutua de embeddings semánticamente similares entre idiomas, también aparecen en el espacio vectorial líneas base culturales y otros sesgos de significado. Por último, el ajuste fino influye mucho en la expresión cultural de un LLM. Estos efectos no son menores
      Hay muchos esfuerzos por crear modelos lingüísticos para lenguas en desaparición y usando modelos interculturales, pero si se trata de un idioma con una base sólida de alfabetización, hay razones de sobra para crear un LLM patrimonial especializado en su propia lengua y cultura. Esperar que OpenAI o Anthropic vayan a priorizar tu idioma por encima de sus clientes objetivo cuando llegue el momento de elegir es absurdo
    • Cuando hablas con ChatGPT, incluso si lo haces en danés, es bastante evidente que es estadounidense
      Su voz nativa, su estilo y su actitud son estadounidenses
      Así como no podemos depender de que Netflix y HBO, aunque ahora hagan series escandinavas, resuelvan esto por nosotros, en esta área también tenemos que construir lo nuestro
      Con el tiempo, la tecnología que lo hace posible será más barata y más fácil de conseguir
    • Polonia tiene su propio LLM, Bielik
      No solo es mejor para conservar expresiones propiamente polacas, también redacta mejor documentos gubernamentales. ¿Por qué es mejor? Porque se hicieron evaluaciones tipo arena y estadísticamente salió mejor
    • Me pregunto si puedes presentar pruebas de que está equivocado
      Hiciste una afirmación tajante, pero no parece haber fundamentos. ¿Por qué no sería una desventaja tener solo LLM en inglés?
      ¿Se pueden obtener con los modelos actuales los matices de la historia y la cultura noruegas?
    • Suena bien para conseguir subsidios
  • El galés también está recibiendo entrenamiento de LLM con Nemotron
    https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...

  • Puede que no sea la forma más eficiente, pero para los idiomas con escrituras no latinas todavía parece haber un caso de uso claro para construir desde cero
    Basta ver sarvam.ai y los casos de mejora de tokenización en idiomas locales [1]. No todos los LLM tienen que ayudar a programar, ni tampoco convertirse ya en un babel fish
    El idioma es cultura, así que entiendo sus motivaciones. Que tengan recursos para hacerlo por su cuenta parece algo bueno
    [1] https://www.sarvam.ai/blogs/sarvam-30b-105b

    • Mejorar la tokenización no significa necesariamente que haya que construir desde cero
      El T-Bank ruso pudo cambiar el tokenizador del Qwen base para incluir 5 veces más tokens en cirílico, y con entrenamiento adicional sobre un corpus en ruso logró aumentar la velocidad de generación entre 1.5 y 3 veces
  • Este es un despliegue de almacenamiento gigantesco
    Si consideras los requisitos de E/S del entrenamiento de LLM, especialmente el checkpointing, tiene sentido optar por NVMe flash a esta escala en lugar de un arreglo de discos tradicional

  • «Noruega es un país pequeño que está resolviendo un problema al que se enfrentarán todos los países no angloparlantes. ¿Cómo crear una IA que refleje su propio idioma, cultura e historia? La IA necesita no solo creadores, sino también administradores».
    Lamentablemente, creo que la respuesta en general está más cerca de «no se puede»
    Para este tipo de cosas hace falta una fuerte voluntad política, y al menos en mi entorno, lograr eso parece prácticamente imposible
    El costo también es difícil de asumir, pero más que eso, quienes se preocupan por esta representación local o bien están totalmente de acuerdo con que lo implemente una empresa extranjera, o directamente se oponen a la IA en sí. Si quieren, ya pueden usar ChatGPT hasta en euskera

    • En el caso de Noruega, hay margen para debatir si el costo realmente es imposible de asumir
      Es un país pequeño pero extremadamente rico, y actualmente, a través de inversiones de su fondo soberano, posee participaciones equivalentes al 1.5% de todas las empresas cotizadas del mundo
    • Si Noruega se acerca a laboratorios de investigación de EE. UU. con el objetivo de crear un dataset curado para entrenamiento, sin duda les permitirán participar en el proceso de entrenamiento
      Y es muy probable que esos modelos sean muy superiores a cualquier cosa que puedan construir dentro del país
      Aunque, claro, también se siente el escalofrío de quienes están leyendo esto al otro lado de la pantalla