Norvège : 2 Pétaoctets de Stockage Flash pour Entraîner un LLM Souverain

La Bibliothèque nationale de Norvège mène un projet d'envergure : développer un modèle de langage (LLM) maîtrisant parfaitement la langue norvégienne. Pour y parvenir, l'institution s'appuie sur une infrastructure impressionnante comprenant 2 pétaoctets de stockage flash Huawei OceanStor Dorado. Cette initiative soulève une question stratégique : comment les nations non anglophones peuvent-elles préserver leur souveraineté numérique à l'ère de l'intelligence artificielle ?

Un projet de souveraineté numérique inédit

Marius Husnes, responsable de la plateforme IT de la Nasjonlbiblioteket, a présenté ce projet lors du Forum ID 2026 de Huawei à Paris. Son constat est sans appel : aucun fournisseur commercial ne développe de LLM dédié à la langue norvégienne. Or, selon lui, tout pays disposant de sa propre langue qui ne possède pas de LLM souverain se trouve désavantagé.

Les modèles linguistiques entraînés à l'échelle mondiale privilégient l'anglais et méconnaissent l'histoire, l'actualité et la culture des pays dont le patrimoine s'exprime dans d'autres langues. Le ministère norvégien de la Culture a donc confié cette mission à la Bibliothèque nationale, qui détient la plus vaste collection numérique de livres, journaux et pages web en norvégien du pays.

Comme de nombreuses bibliothèques nationales, l'institution bénéficie du dépôt légal : elle reçoit systématiquement un exemplaire de chaque publication et contenu diffusé. Ce mandat s'étend bien au-delà des livres, englobant l'ensemble du patrimoine culturel norvégien. Un accord avec les éditeurs de presse norvégiens autorise même l'entraînement du LLM sur des contenus protégés par le droit d'auteur, un avantage qu'aucune entreprise privée ne possède.

20 pétaoctets de données culturelles numérisées

La Bibliothèque nationale numérise sa collection depuis 2005, accumulant 20 pétaoctets de données uniques. Ces données sont stockées selon le principe 3-2-1 (3 copies, 2 types de supports, 1 copie hors site), représentant au total environ 60 pétaoctets. Le processus de numérisation couvre des textes bruts, des enregistrements sonores, des vidéos, des photographies et du contenu web.

Cette numérisation massive implique d'importantes opérations de reconnaissance optique de caractères (OCR), génère d'importants volumes de métadonnées et nécessite des API pour l'accès en ligne. L'essentiel de ces données est conservé dans une archive numérique combinant disques et bandes magnétiques, un système de préservation à long terme.

Le défi de Marius Husnes consiste à acheminer ces données vers le système d'entraînement du LLM. Contrairement aux idées reçues, le goulot d'étranglement ne se situe pas au niveau de la puissance de calcul, mais dans la qualité des données, leur nettoyage et le débit du pipeline de traitement. Cette problématique rejoint les enjeux de collecte massive de données qui alimentent les systèmes d'IA contemporains.

Infrastructure technique : deux étapes de traitement

Le processus de traitement se décompose en deux phases principales. La première s'effectue en interne, utilisant un système Nvidia DGX H200, un cluster CPU de 384 cœurs et plusieurs baies tout-flash Huawei OceanStor Dorado, totalisant 2 pétaoctets de capacité flash. Ce stockage à faible latence alimente les pipelines de données et la préparation à l'entraînement.

Le pipeline comprend plusieurs étapes : ingestion des données, nettoyage, déduplication, normalisation des formats, validation et préparation finale. Une fois ces traitements achevés, les données sont transmises au supercalculateur national norvégien, le système Sigma2 Olivia, pour les sessions d'entraînement proprement dites.

Le système Olivia, fabriqué par HPE Cray Supercomputing EX, dispose de 448 GPU et 64 512 cœurs CPU. Il s'appuie sur un système de stockage Cray ClusterStor E1000 de 5,3 pétaoctets. Cette infrastructure rappelle les investissements massifs dans les infrastructures IA observés ces dernières années.

Le défi majeur : réconcilier deux philosophies de stockage

L'un des principaux obstacles techniques réside dans la conciliation de deux systèmes de stockage aux objectifs opposés. Le système de préservation de 60 pétaoctets privilégie la durabilité et le coût, non la rapidité des entrées-sorties. Sa latence de lecture est élevée, car il est conçu pour des accès peu fréquents.

À l'inverse, le stockage du pipeline IA est optimisé pour un débit élevé, une faible latence et des opérations d'entrée-sortie parallèles. Husnes souligne que personne ne documente les problèmes liés au transfert de jeux de données à l'échelle du pétaoctet depuis une archive vers un pipeline de traitement IA. Son équipe a dû élaborer ses propres solutions par tâtonnements.

Caractéristique	Système de préservation	Pipeline IA
Capacité	60 PB (3 copies)	2 PB flash
Optimisation	Durabilité et coût	Débit et latence
Fréquence d'accès	Rare	Intensive
Latence	Élevée	Très faible
Support	Disque + bande	Flash

Trois défis persistants pour un LLM souverain

L'entraînement du LLM se poursuit et Marius Husnes identifie trois domaines où son équipe continue d'apprendre :

Évaluation : l'absence d'outils standardisés

Il n'existe aucun outil d'évaluation standard pour mesurer les performances d'un LLM souverain norvégien. La langue norvégienne présente deux formes écrites, de multiples dialectes et des évolutions historiques. L'équipe développe donc son propre outil d'évaluation au fil du projet, une problématique similaire aux défis d'analyse des contenus générés par IA.

Gouvernance : qui contrôle l'accès ?

Des questions institutionnelles et politiques épineuses émergent : qui contrôle l'accès à un LLM souverain ? Qui décide de ses usages autorisés ? Ces interrogations n'ont pas de réponses simples et nécessitent un dialogue entre acteurs techniques, institutionnels et politiques. Ces enjeux rejoignent les débats sur l'utilisation éthique de l'IA qui traversent actuellement le secteur technologique.

Orchestration : harmoniser trois systèmes distincts

Faire fonctionner harmonieusement trois systèmes – l'archive de préservation, l'environnement IA sur site et le supercalculateur national Sigma2 – constitue un projet en cours. Cette orchestration complexe exige une coordination technique minutieuse et des protocoles de transfert de données robustes.

Implications pour les nations non anglophones

Deux enseignements majeurs se dégagent de ce projet norvégien. Premièrement, Huawei joue un rôle significatif sur le marché européen du stockage, notamment dans les infrastructures d'IA. Les innovations matérielles présentées lors des grands salons technologiques confirment cette tendance.

Deuxièmement, tout pays développant un LLM souverain dans sa langue aurait intérêt à consulter Marius Husnes et son équipe pour comprendre les défis techniques et organisationnels impliqués. Comme le formule Husnes : "La Norvège est un petit pays qui résout un problème auquel toutes les nations non anglophones seront confrontées : comment construire une IA qui reflète votre langue, votre culture et votre histoire ?"

Cette question dépasse le cadre technique. Elle interroge la capacité des nations à préserver leur patrimoine culturel et linguistique dans un écosystème numérique dominé par l'anglais. Les LLM ne sont pas de simples outils technologiques : ils façonnent la manière dont les connaissances sont organisées, transmises et enrichies.

Un modèle reproductible pour la souveraineté numérique

L'expérience norvégienne démontre qu'un pays de taille modeste peut relever ce défi avec les ressources appropriées. Les ingrédients nécessaires incluent une collection numérique substantielle, une infrastructure de calcul et de stockage adaptée, et surtout une volonté politique claire.

Les développements récents en matière d'agents IA suggèrent que ces modèles linguistiques souverains pourraient bientôt alimenter des applications spécialisées dans l'éducation, l'administration publique et la préservation culturelle. La France, l'Allemagne, l'Espagne et d'autres nations européennes observent attentivement cette initiative.

Le projet norvégien illustre également l'importance des partenariats public-privé. L'accord avec les éditeurs de presse pour l'utilisation de contenus protégés constitue un précédent juridique précieux. Il montre qu'une approche collaborative peut surmonter les obstacles du droit d'auteur tout en respectant les créateurs.

Perspectives d'avenir pour les LLM souverains

À mesure que l'intelligence artificielle s'immisce dans tous les aspects de la société, la question de la représentation linguistique et culturelle devient cruciale. Un LLM entraîné exclusivement sur des contenus anglophones reproduira inévitablement les biais, les références et la vision du monde de la culture anglophone dominante.

Les nations qui négligent de développer leurs propres modèles linguistiques risquent une forme d'effacement culturel numérique. Leurs citoyens interagiront avec des IA qui méconnaissent leur histoire, leurs références littéraires, leurs débats politiques et leurs spécificités culturelles. Cette dynamique pourrait accélérer l'uniformisation culturelle déjà à l'œuvre dans l'espace numérique mondial.

Le projet norvégien suggère une voie alternative : des LLM souverains, développés par des institutions publiques, ancrés dans le patrimoine culturel national et gouvernés selon des principes démocratiques. Ces modèles ne s'opposent pas nécessairement aux LLM commerciaux globaux, mais les complètent en préservant la diversité linguistique et culturelle.

Comme le souligne Husnes, l'IA a besoin de gardiens, pas seulement de bâtisseurs. Cette distinction est fondamentale. Construire un modèle linguistique exige des compétences techniques, mais le préserver, le gouverner et l'orienter vers l'intérêt général nécessite une vision institutionnelle à long terme que seules les organisations publiques peuvent garantir.

Pour aller plus loin dans votre exploration de l'intelligence artificielle et découvrir comment ces technologies peuvent transformer votre travail quotidien, créez votre compte gratuit sur Roboto et accédez à des outils de génération de contenu adaptés à vos besoins.