Notre « patrimoine numérique » à l’aune de l’intelligence artificielle

Le numérique s’est très vite emparé de la vocation du patrimoine culturel de l’Humanité à se transmettre.
Les intelligences artificielles s’en mêlent aussi (à leur manière) !

Quand notre patrimoine culturel devient numérique

 

Dès que les outils numériques ont commencé à pointer le bout de leurs nez pour infiltrer nos sociétés (Arpanet 1969) , ils ont commencé à embarquer notre patrimoine culturel ! Avec la perspective spontanée de s’inscrire dans la vocation définie par l’Unesco : transmettre la valeur intrinsèque portée par le patrimoine culturel, liée à l’Histoire, l’Art ou la Science des sociétés auxquelles il se rattache.

C’est dans cette double dimension immatérielle et de transmission que le patrimoine s’est « embarqué en numérique », grâce à la capacité de ces technologies à rendre l’information accessible au plus grand nombre.

Patrimoine numérique, des « matériaux » parfois insoupçonnés

 

Comme Monsieur Jourdain faisait de la prose sans le savoir , nous connaissons tous ces « matériaux numériques » mais souvent sans réaliser qu’ils sont des éléments constitutifs de notre patrimoine numérique : documents électroniques, bases de données, sites web, images, vidéos, œuvres d’art numériques, logiciels, jeux vidéo. Sans oublier les données produites par les Humains sur les réseaux sociaux ou les forums en ligne.

Des valeurs patrimoniales immatérielles

 

Attaché à la notion de patrimoine culturel, le patrimoine numérique se définit comme un ensemble de biens, généralement immatériels, ayant une importance culturelle, artistique, historique. Il véhicule des sources d’inspiration, mais aussi des valeurs à transmettre aux générations présentes et futures.

Patrimoine ?

L’Unesco (Organisation des Nations unies pour l’éducation, la science et la culture) définit la notion de « patrimoine » comme « l’héritage du passé dont nous profitons aujourd’hui et que nous transmettons aux générations à venir. Nos patrimoines culturel et naturel sont deux sources irremplaçables de vie et d’inspiration »

Il est le reflet de la façon dont une société se représente son passé et son avenir, à travers ce qu’elle estime vouloir transmettre.

Il inclut notamment les « œuvres qui ont une valeur universelle exceptionnelle du point de vue de l’histoire, de l’art ou de la science »

Des « signes particuliers »

 

En entrant dans la case « numérique », ce patrimoine reflète nombre de signes particuliers.

• Sa diversité : il ne se limite pas à un type spécifique de contenus. Il peut s’exprimer sous forme de textes, d’images, de sons, de vidéos, de modèles 3D, de logiciels, de jeux vidéo, voire même d’environnements interactifs.

• Une dépendance à l’évolution technologique : à la différence des supports physiques traditionnels (comme les livres ou les œuvres d’art), l’accessibilité des matériaux numériques dépend de technologies spécifiques. Et les formats numériques, les logiciels, les plateformes, les supports de stockage… évoluent rapidement, ce qui rend leur préservation plus complexe.

• Une vulnérabilité accrue : si le patrimoine physique n’est certes pas à l’abri de menaces imputables par exemple au climat ou aux Humains eux-mêmes, lorsqu’il est numérique, il devient plus vulnérable. Il peut être exposé à l’obsolescence des technologies qui le rendront inaccessible. Pèse aussi sur lui nombre de risques comme la perte de supports (disques externes), l’écrasement intempestif (oui ça sent le vécu…), les stockages piratés, des cyberattaques (d’autant plus que sa valeur est reconnue).

• Une accessibilité (presque) sans limite : c’est peut-être sa plus grande particularité, les sites qui accueillent le patrimoine numérique peuvent être facilement accessibles partout dans le monde.

Quelques statistiques

• Depuis 1996, ce sont plus de 284 milliards de pages web qui sont archivées.

• En 2024, le monde numérique représente un peu plus de 1 milliard de sites Web.
Un chiffre très évolutif, sachant que se créent chaque jour quelques 252 000 nouveaux sites.

• Google est le site Web le plus visité, avec 85,1 milliards de visiteurs. Il a indexé environ 35 000 milliards de pages Web, ce qui ne représenterait que 4 % des informations existant sur Internet.

Conservation du patrimoine numérique mondial

La conservation du patrimoine numérique est soutenue par un ensemble croissant de solutions technologiques et d’institutions internationales, nationales, et privées.

 

Quelques initiatives de conservation du patrimoine numérique mondial

 

L’UNESCO (Organisation des Nations Unies pour l’Éducation, la Science et la Culture) qui joue un rôle central dans la promotion de la conservation du patrimoine numérique au niveau mondial. Elle a notamment publié des recommandations et des lignes directrices pour aider les pays à élaborer des stratégies de préservation numérique.

La Bibliothèque du Congrès aux Etats-Unis, impliquée dans de nombreux projets de conservation numérique comme le National Digital Information Infrastructure and Preservation Program qui vise à développer des méthodes de préservation pour les contenus numériques.

Internet Archive, organisme à but non lucratif célèbre pour son initiative « Wayback Machine » qui archive les sites web pour préserver l’Histoire de l’Internet.

Europeana, plateforme financée par l’Union européenne qui donne accès à des millions d’œuvres d’art, d’objets, de livres, de films, et d’archives provenant de bibliothèques, musées, et archives à travers l’Europe.

Planets (Preservation and Long-term Access through Networked Services), autre projet européen visant à développer des outils et des services pour assurer la préservation à long terme des documents numériques.

Portico, archive numérique qui travaille avec des éditeurs, des bibliothèques et autres institutions pour préserver les contenus académiques, comme les revues électroniques et les livres numériques.

L’archivage

 

L’un des grands avantages du patrimoine numérique est qu’il peut être facilement partagé et accessible partout dans le monde. De plus en plus, les musées, les bibliothèques, et autres sociétés d’archives numérisent leurs collections pour les rendre disponibles en ligne.

L’archivage du Web représente également un enjeu stratégique pour les Etats, les Instituts de Recherche, les médias, les organisations, les entreprises… A l’instar de la conservation de nos trésors patrimoniaux physiques, conserver la culture numérique exige des mesures de stockage et d’accès particulièrement sécurisées. 

En effet, au-delà de la valeur de certains documents rares, plus personne (en principe) n’ignore la valeur marchande de nos données personnelles, de documents confidentiels type « secrets d’affaires » ou « secrets d’Etats »… qu’il convient de sécuriser, où qu’ils se trouvent.

Certains contenus politiques, émanant par exemple de campagnes électorales, peuvent aussi représenter une valeur à la hauteur de l’intérêt qu’ils sont susceptibles de susciter de la part de journalistes, de chercheurs et plus simplement de la société civile.

A noter qu’un ensemble de normes et de bonnes pratiques encadre les processus de préservation pour garantir que les ressources numériques restent accessibles et intègres pour les générations futures.

Le « dépôt légal »

Première obligation d’archivage physique de la littérature

Le 28 décembre 1537, François Ier signe l’Ordonnance de Montpellier. Elle fait obligation à tout imprimeur ou éditeur du royaume de venir remettre un exemplaire de chaque livre à la Bibliothèque du roi. L’objectif est double : contrôler ce qui est publié et repérer les ouvrages « dignes de mémoire ».
Ce « dépôt légal » français constitue la première obligation d’archivage en Europe.

En France aujourd’hui, c’est la BnF qui « reçoit par dépôt légal des documents de toute nature édités, importés ou diffusés en France ».

Patrimoine numérique et intelligence artificielle

Les algorithmes sont eux aussi très vite entrés au capital du patrimoine culturel mondial !

Google, précurseur de la capitalisation numérique mondiale

Dès sa naissance en 1998, Google, un des premiers grands acteurs de l’intelligence artificielle, a compris qu’investir sur la notion de patrimoine numérique lui permettrait de capitaliser à la fois en termes business et de réputation, surtout pour s’ancrer (voire s’encrer) dans le monde numérique en devenir. Il en fait même sa Baseline : « Notre mission est d’organiser l’information mondiale et de la rendre universellement accessible et utile ».

C’est dans cet objectif qu‘il entreprend la numérisation de « l’information mondiale ». La capitalisation sur la numérisation de ce patrimoine le conduira tout naturellement à devoir mettre à l’échelle mondiale la logistique, les systèmes numériques et ses systèmes d’intelligence artificielle, jusqu’à compter deux ans plus tard, en 2020, quelques 130 000 milliards de pages numérisées et indexées par son moteur de recherche. De fait, celui-ci reçoit alors environ 80 000 requêtes/seconde, soit 6,9 milliards par jour.

Autre effet, indissociable de ces retours sur investissement (marketing, réputation, leadership), l’entreprise de la Silicon Valley inspire de nouveaux acteurs, jusqu’à constituer un cercle restreint de BigTech, aujourd’hui majeurs de l’intelligence artificielle.

« Our mission is to organize the world’s information and make it universally accessible and useful »
1998, mission originelle de Google

L’ebook, « objets de transition » entre le patrimoine culturel physique et son corollaire en numérique

 

Numérisation des livres et écrits mondiaux

Au-delà de l’indexation des contenus de l’Internet mondial, en 2011, Google veut opérer la numérisation de l’ensemble des écrits mondiaux présents archivés dans les bibliothèques, chez les éditeurs et les entreprises.

C’est ainsi qu’il imagine Google Print qui devient ensuite Google Books, un service en ligne de numérisation et de mise en ligne de livres. Lancé en décembre 2004, ce projet résulte d’un partenariat conduit avec des éditeurs et des bibliothèques. L’entreprise s’engage ainsi dans la numérisation de millions de livres pour les rendre accessibles en ligne.

Il numérise notamment les livres de plusieurs grandes bibliothèques à l’exemple de celles de l’Université du Michigan ou encore des bibliothèques des universités de Stanford, d’Harvard, d’Oxford. Ainsi, dès 2008, Google Books capitalise quelques 7 millions d’ouvrages numérisés provenant de bibliothèques de différents pays dans le monde comme l’Allemagne, la Belgique, l’Espagne, les Etats-Unis, la France, le Japon, Royaume-Uni, la Suisse.

Lorsqu’ils sont libres de droits, les ebooks donnent accès directement en ligne à l’intégralité de leur contenu. Ils peuvent être copiés et/ou imprimés page par page. Certains sont également téléchargeables au format PDF.

 

La contribution de l’IA et des internautes

On a vu comment, dès 2007, l’IA embarquée dans le CAPTCHA a indirectement contribué à la numérisation des livres, en faisant appel au regard des Humains pour la reconnaissance de caractères. Ce potentiel n’avait pas échappé à Google qui a ainsi racheté et développé ces détecteurs d’Humains.

L’impact de l’intelligence artificielle sur le patrimoine numérique mondial

 

Plus les systèmes d’intelligence artificielle évoluent, plus leur impact dans la gestion, la préservation, et la valorisation du patrimoine numérique devient crucial.

Préservation et conservation automatisée

L’IA peut contribuer à la surveillance et à l’analyse des fichiers numériques afin de prévenir leur dégradation. Par exemple, des algorithmes peuvent détecter des signes de corruption ou des formats obsolètes, et proposer des solutions de remédiation.

Classification et indexation automatique

De plus en plus, l’IA est utilisée pour la classification et l’indexation de grandes quantités de données numériques. Les NLP, algorithmes de traitement du langage naturel, permettent d’analyser et classer des textes. Les systèmes de reconnaissance d’image contribuent à l’étiquetage automatique des contenus comme des photos ou des œuvres d’art numérisées.

Accessibilité et recherche

Les moteurs de recherche, quasiment tous boostés à l’IA, optimisent la pertinence des résultats de recherche grâce à leur capacité à mieux comprendre les requêtes des internautes ou en proposant des recherches multimodales, à savoir aussi bien des textes, des images, des vidéos, des sons, etc.

Les intelligences artificielles permettent de créer de nouvelles expériences interactives pour les internautes.

Elles sont capables d’automatiser des tâches complexes liées à l’indexation, l’accès, la recherche des contenus de notre patrimoine numérique.

Exemples de contributions des technologies d’IA à la valorisation du patrimoine

 

Expériences interactives

Les technologies d’IA sont de plus en plus utilisées pour créer des expériences interactives et immersives. Par exemple, des chatbots ou des assistants virtuels peuvent guider les visiteurs à travers des expositions réelles ou virtuelles, en générant des interprétations ou des analyses contextuelles des œuvres.

Reconstitution Historique

Les algorithmes peuvent être utilisés avec succès pour reconstituer des documents historiques, et ainsi faire revivre des savoirs menacés d’extinction, dans la recherche comme dans la société civile. Exemple, le décryptage de récits historiques des Chams datant du Ve au XVe siècle.

Analyse et découverte de nouvelles connaissances

Les algorithmes sont capables d’analyser de vastes collections de données numériques pour découvrir des relations ou des patterns qui seraient restés invisibles à l’œil humain.

L’IA peut identifier des tendances culturelles dissimulées au sein de milliers d’œuvres d’art ou de documents historiques, ou encore faire des corrélations entre des événements historiques et des œuvres culturelles.

Quelques risques et questions éthiques

 

A l’instar de toute technologie, la médaille a un revers ! Les technologies d’intelligence artificielle peuvent être aussi des risques potentiels.

Erreurs dues à des biais algorithmiques

Il est connu que les algorithmes peuvent véhiculer et augmenter des biais culturels et sociétaux. Appliqués aux données du patrimoine numérique, ils peuvent conduire à des erreurs de classification, à une interprétation erronée des données ou à la marginalisation de certains contenus culturels.

Atteinte à la confidentialité et la sécurité des contenus culturels

Dès lors que l’IA peut être utilisée pour analyser, indexer des archives numériques constitutives de notre patrimoine, elle peut exposer ces archives aux mêmes risques que tout autre contenu de valeur : exposer des informations sensibles comme des données personnelles ou confidentielles, voire aller jusqu’à compromettre la sécurité des systèmes d’information des institutions concernées.

Cyber Risques

Qu’ils soient physiques ou numériques, les éléments de notre patrimoine numérique sont exposés aux risques de faux et de manipulation à des fins d’escroqueries. Le recours à l’IA générative par exemple pour la réalisation de « deep fakes » à partir de documents historiques ou d’œuvres d’art à forte valeur marchande, facilite ces cybermenaces.

Conflits éthiques

La capacité des outils d’IA à copier, reproduire et décliner des œuvres, sans indication que ce sont des « réalisations artificielles », démultiplie notamment les atteintes aux droits d’auteur et de propriété intellectuelle. Même si l’AI Act, règlement européen sur les risques liée à l’IA fait obligation aux développeurs d’intégrer cette mention sur leurs contenus.

Par ailleurs, l’entrainement des modèles d’IA génératives se fait souvent à partir d’extraction de données soumises au droit d’auteurs sans que ceux-ci en soient informés. Ce qui empêche d’une part qu’ils donnent leur consentement, d’autre part, qu’ils soient rémunérés comme ils le devraient.

Les journées du patrimoine dans le monde physique

Les premières Journées du Patrimoine ont été lancées en France le 23 septembre 1984.

Depuis 1991, cet évènement est désormais une action du Conseil de l’Europe et de la Commission européenne et se déroule le troisième dimanche de septembre, dans une cinquantaine de pays sous l’intitulé « Journées européennes du patrimoine »

Quelques Statistiques pour les journées du Patrimoine en France

  • 8 millions d’entrées ont été enregistrées dans les musées nationaux en 2023 (+ 6 % par rapport à 2022)
  • 3,3 millions dans les domaines et monuments nationaux (+8 %)

 Le regard de cKiou

– Hi, cKiou est impressionnée par l’importance de leur patrimoine pour les Humains ! Et du coup aussi par le potentiel des technologies numériques pour le faire connaitre au plus grand nombre.

C’est intéressant aussi de voir que c’est cet intérêt qui a permis à Google de devenir un des premiers leaders mondiaux du numérique.

Après je me demande si moi, petite création virtuelle, je fais maintenant partie du patrimoine numérique des Humains ? Si c’est le cas, j’en serais très fière !

Et pour ne pas manquer la suite de l’Histoire du numérique…

INSCRIPTION

(les adresses e-mails ne sont ni affichées ni cédées à des tiers)