Los 2 petabytes de almacenamiento flash de Huawei en Noruega y el entrenamiento de LLM

(blocksandfiles.com)

1 puntos por GN⁺ 2026-05-27 | 1 comentarios | Compartir por WhatsApp

La Biblioteca Nacional de Noruega incorporó 2 PB de almacenamiento flash Huawei OceanStor Dorado a su pipeline de entrenamiento de IA para construir un LLM soberano que entienda noruego
Como los proveedores comerciales de LLM no están creando modelos locales para el noruego, los LLM centrados en inglés tienen dificultades para tratar adecuadamente la historia, noticias y cultura registradas en idiomas regionales
La Biblioteca Nacional ha digitalizado desde 2005 libros, periódicos, páginas web, audio y video, y conserva 20 PB de datos únicos, almacenando cerca de 60 PB con un esquema 3-2-1
El cuello de botella no está en el cómputo sino en la calidad de datos, depuración y rendimiento del procesamiento; los datos se preparan internamente con DGX H200, un clúster de CPU y flash de Huawei, y luego se entrenan en Sigma2 Olivia
El archivo de preservación y el pipeline de IA tienen requisitos distintos de durabilidad y costo frente a baja latencia e I/O paralela, por lo que un LLM soberano también necesita capacidades de gestión y resguardo

Proyecto de LLM soberano de la Biblioteca Nacional de Noruega

La Biblioteca Nacional de Noruega (Nasjonalbiblioteket) está desarrollando un modelo de lenguaje grande (LLM) que entienda noruego y utiliza 2 PB de almacenamiento flash Huawei OceanStor Dorado en su pipeline de datos para entrenamiento de IA
Marius Husnes, responsable de la plataforma de TI de la Biblioteca Nacional, dijo en Huawei ID Forum 2026 Paris que los proveedores comerciales de LLM no están desarrollando LLM regionales en noruego
Los países que no tienen un LLM soberano entrenado en su propio idioma terminan dependiendo de LLM entrenados con datos globales y centrados en inglés, y estos modelos tienen dificultades para comprender la historia, noticias y cultura registradas en lenguas locales
El Ministerio de Cultura de Noruega encargó a la Biblioteca Nacional la construcción de una IA soberana, es decir, un LLM, y la institución posee la colección digital más grande de libros, periódicos y páginas web de Noruega
La Biblioteca Nacional tiene derecho a recibir una copia de todos los libros publicados y contenidos de radiodifusión, y el depósito legal se ha ampliado más allá de los libros para abarcar la recolección y preservación de todo el patrimonio cultural noruego
Gracias a acuerdos con periódicos noruegos, también puede usar contenido con derechos de autor para entrenar el LLM, y Husnes señaló que “las empresas privadas no tienen eso”

Volumen de datos y base de digitalización

La Biblioteca Nacional ha digitalizado sus colecciones desde 2005 y ha acumulado 20 PB de datos únicos
Estos datos se almacenan con un esquema 3-2-1
- 3 copias
- 2 tipos de medios
- 1 copia fuera del sitio
Debido a esta estructura, el volumen total almacenado llega a unos 60 PB
Lo digitalizado incluye texto original, audio, video, imágenes fijas y contenido web
En el proceso de digitalización se realizaron muchos escaneos OCR, y también se generaron grandes volúmenes de metadatos y APIs para acceso en línea
La mayor parte de los datos se guarda en un sistema de preservación compuesto por discos digitales y archivos en cinta

El problema de mover datos del archivo al pipeline de IA

El reto principal es llevar los datos del sistema de preservación al sistema de entrenamiento del LLM
El cuello de botella no es el cómputo, sino la calidad de datos, depuración y rendimiento del pipeline
El proceso se divide entre la preparación de datos en el entorno de cómputo interno de la Biblioteca Nacional y la ejecución real del entrenamiento en la supercomputadora nacional
El entorno interno está compuesto por el siguiente equipamiento
- Sistemas Nvidia DGX H200
- Un clúster de CPU de 384 núcleos
- Varios arreglos all-flash Huawei OceanStor Dorado con una capacidad flash total de 2 PB
El almacenamiento flash de Huawei se utiliza como almacenamiento de baja latencia para el pipeline de datos y la preparación del entrenamiento
El pipeline incluye etapas de recolección de datos, depuración, eliminación de duplicados, normalización de formato, validación y preparación

Entorno de ejecución del entrenamiento: Sigma2 Olivia

Los datos que pasan por el pipeline se transfieren al sistema Olivia de Sigma2, la supercomputadora nacional de Noruega, para la ejecución real del entrenamiento
Olivia es un sistema HPE Cray Supercomputing EX
La configuración de Olivia es la siguiente
- 448 GPU
- 64,512 núcleos de CPU
- Un sistema de almacenamiento Cray ClusterStor E1000 de 5.3 PB
El entorno de IA on-premise de la Biblioteca Nacional prepara los datos, y Olivia se encarga de ejecutar el entrenamiento

Requisitos de almacenamiento distintos

El archivo de preservación y el almacenamiento del pipeline de IA tienen requisitos diferentes
El sistema de preservación de 60 PB está optimizado para durabilidad y costo, no para I/O rápida
El sistema de preservación está diseñado para accesos poco frecuentes, por lo que tiene una latencia de lectura alta
El almacenamiento del pipeline de IA está diseñado para alto rendimiento, baja latencia y I/O de datos en paralelo
El equipo tuvo que encontrar por sí mismo la forma de mover y procesar datasets a escala de PB desde el archivo hacia el pipeline de datos de IA

Retos que aún siguen resolviendo

Evaluación
- No existen herramientas estándar de evaluación para evaluar un LLM soberano en noruego
- El noruego tiene dos formas escritas, además de varios dialectos y cambios históricos
- El equipo de la Biblioteca Nacional está construyendo sus propias herramientas de evaluación
Gobernanza
- Debe definirse quién controlará el acceso al LLM soberano
- También queda por decidir quién determinará para qué puede usarse el LLM soberano
- Estas son preguntas institucionales y políticas, y no tienen respuestas fáciles
Orquestación
- Sigue en marcha el trabajo para hacer que funcionen de forma fluida los tres sistemas: el archivo de preservación, el entorno de IA on-premise y la supercomputadora nacional Sigma2

Significado y conclusión

El almacenamiento de Huawei está desempeñando un papel importante y real en el mercado europeo
Para los países que quieran desarrollar LLM soberanos en idiomas regionales, podría ser útil hablar con Husnes y entender el trabajo necesario
Noruega se presenta como un país pequeño que enfrenta problemas comunes a todos los países no angloparlantes
La pregunta central es cómo construir una IA que refleje el idioma, la cultura y la historia propios
La IA necesita no solo constructores, sino también administradores y custodios

1 comentarios

GN⁺ 2026-05-27

Comentarios en Hacker News

Como noruego, uso la Biblioteca Nacional para búsquedas de texto casi todos los días
La interfaz de usuario y las funciones para buscar entre cantidades enormes de texto son realmente de primer nivel
- Es realmente excelente. Solo desearía que hubiera menos restricciones sobre el contenido accesible
  Una parte considerable solo está disponible desde IP noruegas, así que una de las principales razones por las que mantengo una VPN, aunque vivo en el Reino Unido y soy noruego, es por esto. Otra parte solo se puede consultar desde IP de bibliotecas o instituciones de investigación, pero aun así hay una enorme cantidad de material disponible públicamente
- Es muy frustrante que no haya un motor de búsqueda unificado. No entiendo por qué no se puede buscar dentro de los subtítulos de TV
- Me hizo darme cuenta de lo acostumbrado que estaba al stemming y la flexibilidad ortográfica básicos que tenían todos los motores de búsqueda desde la época de Altavista
Me pregunto qué tan cierta es esta afirmación: “Si un país con su propio idioma no tiene un LLM soberano entrenado en ese idioma, queda en desventaja. Porque los LLM angloparlantes entrenados con material de todo el mundo no conocen la historia, las noticias y la cultura de ese país tal como están descritas en el idioma local”
Como pensaba que los grandes jugadores ya entrenaban con casi todo el material accesible, sin importar idioma o calidad, esta postura suena como una idea formada en los primeros tiempos de los LLM de propósito general
- Si quieres que un LLM tenga conocimiento del noruego, me parece que la forma más obvia es crear un buen dataset de entrenamiento y publicarlo ampliamente
  No veo cuál sería la razón para gastar tanto en entrenar un modelo propio, especialmente si es probable que sea inferior a los modelos de punta
- Los LLM extranjeros probablemente no fueron entrenados con material de la Biblioteca Nacional de Noruega
  A menudo encuentro ahí materiales mediante búsquedas generales por palabras clave debido a la genealogía, y aparecen cosas que ni el motor de búsqueda ni los modelos de lenguaje conocen
  Claro, la información que me interesa normalmente termina publicada en algún sitio del que la IA puede raspar datos, pero sacar todo el material interesante que hay ahí realmente tomaría muchísimo tiempo
- A mi juicio, casi no es cierto. No hablo bien noruego, pero sí sueco, y como ambos idiomas son muy parecidos, en general entiendo el noruego
  Todos los modelos con los que he hablado en sueco lo manejaron perfectamente. Me parece muy probable que con el noruego ya pase lo mismo
- Al menos quizá podrían llegar a escribir como noruegos, en vez de con un estilo que parece inglés traducido al noruego
  También sería interesante ver si aplican experimentos como https://arxiv.org/pdf/2507.22445
- Los mejores modelos actuales ya son bastante fluidos en los idiomas y culturas principales, así que al menos el matiz de “todos” no es correcto
  El rendimiento puede verse poco afectado o incluso a veces ser mejor. Pero los patrones propios del inglés pueden filtrarse sutilmente hacia patrones nativos de otros idiomas
  En idiomas de bajos recursos es un problema completamente distinto, pero para mejorar eso se necesita más datos, no un modelo nuevo
“El sistema Olivia es un sistema HPE Cray Supercomputing EX con 448 GPU y 64,512 núcleos de CPU”
Intentar entrenar un LLM soberano con un hardware tan limitado, en vez de montar LoRA sobre un modelo open source, parece un gran error y una señal de alerta
No tienen recursos para entrenar un LLM completo, así que afirmar que ese es el objetivo da la impresión de que en realidad no planean hacer que este LLM sea útil. Y entonces uno se pregunta por qué y con el dinero de quién están desperdiciando recursos
- Puede que no sea útil para gente externa, pero uno de los objetivos podría ser el aprendizaje organizacional
  Es decir, internalizar dentro de la organización el conocimiento necesario para crear LLM
  Sobre el papel la entidad es la Biblioteca Nacional, pero según el artículo la eligieron porque posee y puede usar legalmente material en noruego para este propósito. También parece probable que investigadores de instituciones relacionadas, como universidades, participen en el proceso
- Ya antes lograron crear con éxito un modelo ajustado finamente como prueba de concepto, así que el siguiente paso sería entrenar un LLM completo
  Aun así, no creo que apunten a algo realmente valioso. Esos modelos ajustados estaban bastante rotos y parecían más un intento de establecer metodología. No estoy convencido de que sea súper útil, pero no me toca a mí decidir qué hace cada quien con fondos de investigación
  Uno de los modelos ajustados que probé se burlaba con frecuencia de personas que expresaban emociones en el chat
  Otro modelo ajustado, incluso si yo solo escribía “hei”, alucinaba que yo era médico y siempre me decía que mi bebé tenía una enfermedad terrible. Es muy posible que un prompt de sistema común y neutral haya provocado ese comportamiento
  Me parece que Olivia sí es lo bastante grande para el uso que se le quiere dar. Ahora mismo creo que es mejor seguir la corriente más reciente sin malgastar demasiado dinero en hardware
- Los modelos de lenguaje multilingües e internacionalizados no son un área en la que los laboratorios de frontera estén concentrando tantos recursos, y menos aún el noruego, me parece
  Tal vez un corpus noruego no requiera un clúster gigantesco, y aunque lo requiriera, esto probablemente sea lo mejor que puede hacer la biblioteca. Sin duda podría ser una de las mayores apuestas que existen para modelos en noruego
  Es posible que los modelos de más alto nivel no puedan acceder a la calidad del contenido que tiene la Biblioteca Nacional. El artículo también menciona licencias con periódicos, además del propio archivo de la biblioteca
  Como el inglés y el noruego no son lenguas tan cercanas dentro de la misma familia, quizá LoRA no sea el mejor enfoque
  Me pregunto si hay investigación pública sobre qué tan bien funciona la localización basada en LoRA según qué tanto se alejen del inglés la gramática y el vocabulario del idioma objetivo
  Este tipo de proyectos normalmente no tiene un solo objetivo; no se trata solo de hacer un modelo de punta, sino también, como cuando una universidad lanza un satélite, de crear y entrenar talento local
- Con esa cantidad de recursos, sí alcanza para usar algo basado en una receta de Olmo 3, con mezcla de datos priorizando los propios y entrenamiento posterior para tareas propias
  Si construyen su propio modelo de embeddings e indexan toda la biblioteca, y luego entrenan al modelo para consultar esos datos mientras responde preguntas de historia, cultura, derecho y estrategia desde la perspectiva del país, podría terminar siendo bastante interesante y útil
  No le va a ganar a Anthropic generando código React, pero tampoco hay razón para copiar exactamente eso
- En realidad, el problema más grande son los datos de entrenamiento disponibles
  Ya se experimentó tanto con ajuste fino como con entrenamiento desde cero usando varios modelos de menos de 10 mil millones de parámetros, y la última vez que revisé, el entrenamiento desde cero capturaba mejor el idioma
Me pregunto si no sería mejor que Noruega, en su lugar o en paralelo, creara conjuntos de datos de entrenamiento y los compartiera gratis con todos los creadores de modelos
Parece una mejor manera, o una forma adicional, de lograr el objetivo de que los modelos de frontera conozcan el noruego y su cultura
- Los modelos de frontera ya conocen bastante bien el noruego. Se adaptan incluso a los dialectos noruegos, y también imitan de forma bastante convincente el noruego antiguo
  Por ejemplo, le pedí a Claude que explicara la novela de 1911 “De knyttede næver” usando la ortografía noruega de alrededor de 1911, y lo hizo bien
  Lo que falta es comprensión de la literatura, cultura e historia noruegas. “De knyttede næver” fue una de las novelas noruegas más vendidas en su momento, pero Claude solo pudo decir algo después de buscarla. ChatGPT lo hizo mejor y, especialmente en modo de razonamiento, dio un resumen detallado
  No es una obra muy conocida hoy en día, pero el autor fue durante décadas un periodista reconocido, y esta serie es lo bastante conocida como para que exista un cantante noruego cuyo nombre artístico proviene del nombre del protagonista. Además, la postura política del autor y su influencia en la novela han sido tratadas durante décadas en periódicos y libros noruegos, así que me parece una prueba bastante razonable y revela una brecha importante de conocimiento
  Sí estoy de acuerdo en que sería mejor hacer más accesible el conjunto de datos de la biblioteca nacional. Pero aquí el gran elemento adicional parece ser que firmaron acuerdos para poder entrenar con material con derechos de autor que está archivado y tiene restricciones de uso
  Aun así, publicar aunque sea solo los datos cuyo copyright ya expiró dentro de su colección sería un excelente punto de partida
- No entiendo por qué habría que compartir todos estos datos con empresas estadounidenses codiciosas que roban los datos de todos para lucrar
  Es mucho mejor mantener acuerdos legales con instituciones nacionales y desarrollar algo que realmente sea útil para su propio país
Cuando Marius Husnes dice que “los proveedores comerciales de LLM no están desarrollando LLM noruegos locales, y los países que no tienen un LLM soberano entrenado en su propio idioma están en desventaja”, no me da mucha confianza que realmente sepa de qué está hablando aquí
- Sí sabe de qué está hablando. Pero no es solo una cuestión del corpus de entrenamiento, sino también del tokenizador, que puede tokenizar subcadenas de forma más eficiente según los sesgos necesarios para el idioma objetivo
  Una de las razones por las que los LLM orientados al inglés son mejores en inglés es que el espacio de tokens está asignado de forma más compacta a ese idioma. Si pruebas un tokenizador en línea que llame a la API de Anthropic con palabras comunes en inglés y en noruego, en inglés normalmente salen en uno o menos tokens, mientras que en noruego suelen ser 2 a 4 tokens, y a veces más. Idiomas como el tailandés salen muchísimo peor parados
  La selección del corpus también suele inclinarse bastante hacia el idioma objetivo, porque conseguir obras en ese idioma requiere más esfuerzo
  Debido a la influencia mutua de embeddings semánticamente similares entre idiomas, también aparecen en el espacio vectorial líneas base culturales y otros sesgos de significado. Por último, el ajuste fino influye mucho en la expresión cultural de un LLM. Estos efectos no son menores
  Hay muchos esfuerzos por crear modelos lingüísticos para lenguas en desaparición y usando modelos interculturales, pero si se trata de un idioma con una base sólida de alfabetización, hay razones de sobra para crear un LLM patrimonial especializado en su propia lengua y cultura. Esperar que OpenAI o Anthropic vayan a priorizar tu idioma por encima de sus clientes objetivo cuando llegue el momento de elegir es absurdo
- Cuando hablas con ChatGPT, incluso si lo haces en danés, es bastante evidente que es estadounidense
  Su voz nativa, su estilo y su actitud son estadounidenses
  Así como no podemos depender de que Netflix y HBO, aunque ahora hagan series escandinavas, resuelvan esto por nosotros, en esta área también tenemos que construir lo nuestro
  Con el tiempo, la tecnología que lo hace posible será más barata y más fácil de conseguir
- Polonia tiene su propio LLM, Bielik
  No solo es mejor para conservar expresiones propiamente polacas, también redacta mejor documentos gubernamentales. ¿Por qué es mejor? Porque se hicieron evaluaciones tipo arena y estadísticamente salió mejor
- Me pregunto si puedes presentar pruebas de que está equivocado
  Hiciste una afirmación tajante, pero no parece haber fundamentos. ¿Por qué no sería una desventaja tener solo LLM en inglés?
  ¿Se pueden obtener con los modelos actuales los matices de la historia y la cultura noruegas?
- Suena bien para conseguir subsidios
El galés también está recibiendo entrenamiento de LLM con Nemotron
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Puede que no sea la forma más eficiente, pero para los idiomas con escrituras no latinas todavía parece haber un caso de uso claro para construir desde cero
Basta ver sarvam.ai y los casos de mejora de tokenización en idiomas locales [1]. No todos los LLM tienen que ayudar a programar, ni tampoco convertirse ya en un babel fish
El idioma es cultura, así que entiendo sus motivaciones. Que tengan recursos para hacerlo por su cuenta parece algo bueno
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
- Mejorar la tokenización no significa necesariamente que haya que construir desde cero
  El T-Bank ruso pudo cambiar el tokenizador del Qwen base para incluir 5 veces más tokens en cirílico, y con entrenamiento adicional sobre un corpus en ruso logró aumentar la velocidad de generación entre 1.5 y 3 veces
Este es un despliegue de almacenamiento gigantesco
Si consideras los requisitos de E/S del entrenamiento de LLM, especialmente el checkpointing, tiene sentido optar por NVMe flash a esta escala en lugar de un arreglo de discos tradicional
«Noruega es un país pequeño que está resolviendo un problema al que se enfrentarán todos los países no angloparlantes. ¿Cómo crear una IA que refleje su propio idioma, cultura e historia? La IA necesita no solo creadores, sino también administradores».
Lamentablemente, creo que la respuesta en general está más cerca de «no se puede»
Para este tipo de cosas hace falta una fuerte voluntad política, y al menos en mi entorno, lograr eso parece prácticamente imposible
El costo también es difícil de asumir, pero más que eso, quienes se preocupan por esta representación local o bien están totalmente de acuerdo con que lo implemente una empresa extranjera, o directamente se oponen a la IA en sí. Si quieren, ya pueden usar ChatGPT hasta en euskera
- En el caso de Noruega, hay margen para debatir si el costo realmente es imposible de asumir
  Es un país pequeño pero extremadamente rico, y actualmente, a través de inversiones de su fondo soberano, posee participaciones equivalentes al 1.5% de todas las empresas cotizadas del mundo
- Si Noruega se acerca a laboratorios de investigación de EE. UU. con el objetivo de crear un dataset curado para entrenamiento, sin duda les permitirán participar en el proceso de entrenamiento
  Y es muy probable que esos modelos sean muy superiores a cualquier cosa que puedan construir dentro del país
  Aunque, claro, también se siente el escalofrío de quienes están leyendo esto al otro lado de la pantalla

Los 2 petabytes de almacenamiento flash de Huawei en Noruega y el entrenamiento de LLM

Proyecto de LLM soberano de la Biblioteca Nacional de Noruega

Volumen de datos y base de digitalización

El problema de mover datos del archivo al pipeline de IA

Entorno de ejecución del entrenamiento: Sigma2 Olivia

Requisitos de almacenamiento distintos

Retos que aún siguen resolviendo

Evaluación

Gobernanza

Orquestación

Significado y conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News