Par Emmanuel Ducry, Xavier Ciana, Anouk Dunant Gonzenbach, avec la relecture attentive d’Alexandre Garcia
INTRODUCTION
Bien sûr, la numérisation et l’accessibilité des données sont des enjeux majeurs ; bien sûr, on parle optimisation de la gestion, de la valorisation et de la diffusion du patrimoine archivistique ; bien sûr, tous les regards, les articles et le monde se tournent vers l’IA. Mais qu’en est-il concrètement de l’apport de l’IA dans des institutions d’archives publiques de petite et moyenne taille, à court et moyen terme ?
Avant de rêver en couleurs (bon, nos rêves en vrai ne ressemblent pas du tout à cela) ou de tirer des plans sur la comète, gardons à l’esprit les trois éléments suivants. Tout d’abord l’IA doit être considérée comme un pool de stagiaires efficaces qui font le travail à notre place, mais dont le travail doit être supervisé, contrôlé et relu. Ensuite, tout ce qui passe à travers un produit d’IA externe sort de notre périmètre de sécurité. On ne peut pas lui offrir les données sensibles sur un plateau d’argent.
Enfin, l’IA ne connait aucun doute. Elle préférera raconter n’importe quoi plutôt que de laisser un blanc (il s’agit d’un phénomène appelé « hallucination »). Ce qui nous différencie de l’IA, c’est notre capacité à douter. Et c’est un bien précieux.
Pie bavarde et fourmi consciencieuse (IA générative vs IA)
L’IA du quotidien, celles des IA génératives et de leurs grands modèles de langage (LLM) avec leur chatbot intégré, pour ne pas mentionner Copilot ou ChatGPT, n’est pas à confondre avec les modèles d’IA destinés à un machine learning spécifique. On pense ici à la reconnaissance de tumeurs dans l’imagerie médicale ou, dans notre domaine professionnel, à la reconnaissance de caractères manuscrits tels que peut le proposer une application comme Transkribus. Là, l’IA est une version améliorée des algorithmes précédemment utilisés et permettant simplement de faire la même chose qu’eux, mais en mieux et en plus rapide.
Entre base de connaissances et débrouille
L’IA générative a ses avantages, elle est disponible, là, directement au bout des doigts. Elle n’est pas propre aux archives en particulier, mais c’est celle qui vous permet d’obtenir un mode d’emploi quand on n’y connait rien, une formule Excel ou même un peu de code Python quand votre service informatique accepte que vous y mettiez les doigts[1]. Son usage se heurte vite à des contraintes, surtout si vous ne tenez pas à lui offrir vos données, ne parlons même pas de données personnelles sensibles.
Sur un petit nuage
Les données des institutions conservant les archives publiques sont un trésor pour l’entrainement des LLM. Il s’agit de données souvent libres de droits, contrôlées, validées et exemptes de la création de données générées par l’IA elle-même pullulant désormais sur le web et amenant ces dernières à se nourrir de ce qu’elles ont elles-mêmes généré dans une logique cannibale. Pour les institutions publiques, la présence de données personnelles sensibles, médicales ou de nature fiscale pose le problème de leur récupération lors d’un traitement effectué par des applications situées hors institution (SaaS, cloud etc.). Faut-il pour autant, renoncer à ces outils ? Il est possible de nuancer : utiliser ChatGPT, Copilot et autre DeepSeek ce n’est pas tout à fait la même chose qu’utiliser un outil dans le cadre d’un cloud respectant un contexte légal européen ou national comme peuvent le proposer certains prestataires[2], voire de rapatrier le tout en local pour éviter toute externalisation des données. La solution dépend de la sensibilité des données concernées et des moyens de chacun.
Pas de réduction de coûts, mais des investissements (la question des sous)
De nombreux décideurs recherchent les domaines dans lesquels l’IA permettrait de réduire les coûts. Or, dans les petites et moyennes archives publiques, seule une partie très minoritaire des fonds est actuellement numérisée. Toute mise en œuvre ambitieuse de l’IA, qui aurait pour objectif de s’appliquer à la majorité des documents d’archives, a comme prérequis indispensable une numérisation de qualité et de masse. Pour nombre de ces institutions, l’usage de l’IA va donc commencer par des investissements en matière de numérisation. Solution locale ou outsourcing, rien n’est gratuit ! Désirable ou non, la numérisation à large échelle des archives requiert un engagement financier important.
Cela posé, nous proposons un modeste petit tour de la question non exhaustif au travers des quelques thèmes suivants.
IA GENERATIVE ET ARCHIVES
Reconnaissance de caractères et transcription de documents papier numérisés
On l’a dit, pour fonctionner, l’IA a besoin de données. Par conséquent, dans des institutions qui conservent des siècles de documents papier, sa première tâche sera d’assister à la reconnaissance de caractères et à la transcription des documents sur support physique dans des versions numériques qui permettront à l’IA de développer tout son potentiel.
Cela concerne la reconnaissance de caractères imprimés, mais surtout celle des caractères manuscrits, offrant ainsi la possibilité d’utiliser les technologies contemporaines au-delà de la couche des documents du 19e et 20e siècle, en atteignant les documents les plus anciens. L’apport des modèles d’IA basé sur du machine learning spécifique apporte un réel changement à des projets existants (on pensera à Transkribus[3]) tout en suscitant des initiatives nouvelles dans le cadre de départements d’informatique ou des humanités numériques comme avec le projet FONDUE au sein de l’Université de Genève[4].
Génération de descriptions et d’inventaires
Une fois les corpus de textes disponibles en version numérique, l’IA générative peut alors aider, n’oublions pas qu’il s’agit d’un stagiaire, à créer des résumés automatiques et des inventaires. Pour ce qui est du né-numérique, l’IA deviendra un auxiliaire indispensable pour décrire et accéder à des ensembles contenant des documents par millions[5].
Normalisation des données
Dans le cas d’anciens inventaires papier, il s’agira de les normaliser selon des logiques -on pensera notamment à la transition d’ISAD(G) vers RiC- permettant leur ingestion dans les bases de données métier contemporaines (Archive Information System). Ces documents, aux structures parfois venues du passé, tels tous les inventaires réalisés jusque dans les années 1980, ne sont pas toujours aisément solubles dans le monde normé du 21e siècle. Une simple opération de normalisation de milliers de formats de dates, dans toutes leurs variétés, n’est pas une mince affaire[6]. En première entrée, le calendrier révolutionnaire est propice à de belles hallucinations et il faut expliquer à notre stagiaire que, oui, il faut conserver la différenciation entre les calendriers julien et grégorien lorsque nos prédécesseurs se sont donné la peine de la faire figurer.
Amélioration de l’indexation et reconnaissance d’entités
L’IA permet notamment de sortir d’un corpus de texte des métadonnées liées à la géographie, aux noms et fonctions des individus, compléter et améliorer l’indexation des contenus graphiques, sonores et textuels existants. L’idéal est alors de disposer de listes d’autorités permettant de reconnaître et d’identifier de manière univoque les lieux ou les individus à travers leurs titres, leurs noms de terre, leurs fonctions, en les distinguant des homonymes potentiels. Encore faut-il disposer de ces référentiels, très spécifiques aux territoires auxquels ils sont attachés et qui ne sont pas simples à réaliser. Il restera à voir si les outils IA permettent de concrétiser la mise en ligne de documents contenant des données personnelles sensibles à travers un caviardage automatisé[7].
La traduction : une tour de Babel en dentelle de silicium
L’IA permet de traduire automatiquement des métadonnées, des flux audio ou même des documents entiers dans plusieurs langues vous ouvrant ainsi les portes du bar de la plage, de la place ou de la mer de glace à peu près n’importe où sur la planète[8]. Il est vrai que la traduction de documents anciens est d’une autre complexité. Il n’empêche que les recherches actuelles démontrent des capacités de transcriptions tout à fait captivantes sur des manuscrits en langues anciennes, ouvrant ainsi de nouvelles portes d’accès au public. Il faut toutefois prendre en compte que ces recherches sont effectuées sur la base de modèles d’IA puissants que les ressources financières et informatiques des institutions d’archives petites et moyennes ne leur permettront pas d’acquérir, du moins pas dans l’immédiat[9].
Encadrer la reconnaissance de caractères : exigence quand tu nous tiens
Digne héritier des lettres, lorsqu’il s’agit de publications et de mises en ligne, le monde des archives a plutôt la Pléiade pour modèle. Autrement dit :
Peut-on expédier en ligne,
la production du stagiaire,
sans qu’un humain agréé,
y ait posé ses yeux dignes ?
La faute de frappe comme de grammaire étant en général mal vécue, mon IA préférée me prédit des débats animés ! On notera toutefois des manières nouvelles d’encadrer l’erreur de reconnaissance de caractères comme le montre ce projet de numérisation des dossiers de sorcellerie et de procédures criminelles de l’ancien évêché de Bâle[10].
PERSPECTIVES
On peut toujours rêver
Bien sûr les outils vont s’améliorer, les coûts vont diminuer et avec le temps certaines réalisations aujourd’hui hors de portée deviendront possibles pour nos institutions. On peut rêver d’avoir à disposition des interfaces permettant d’améliorer l’accessibilité des fonds d’archives en proposant des systèmes de recherche sémantique plus performants, capable de comprendre le contexte d’une requête et de proposer des documents pertinents, même si les termes exacts ne correspondent pas. Ou de produire des contenus attractifs à partir de ses collections tels que des expositions virtuelles ou même des narrations interactives basées sur des documents historiques, de gérer ou recréer des systèmes de classement entier. Oui, on peut toujours rêver avec James Lappin[11] ou douter avec Baldur Bjarnason[12], mais en la matière, il faut s’attendre à un écart entre les promesses de la recherche et le quotidien immédiat des archives.
Ça fume : conclusion temporaire
Il y aurait de quoi faire un billet entier sur le thème des externalités négatives de l’IA générative. Pas seulement le coût écologique souvent mis en avant, mais également les multiples biais de données, le mépris pour le droit d’auteur et on en passe. L’utilisation de ces systèmes n’a rien d’anodin et avoir conscience des limites et préjudices permet de mieux cerner son usage. L’Université d’Ottawa en fait une présentation détaillée, nous vous invitons à suivre le guide[13].
Il s’agit ainsi d’un nouvel outil, avec ses limites, résolvant un certain nombre de missions ponctuelles. Si l’IA ouvre des perspectives intéressantes, elle ne change pas à notre sens le paradigme archivistique.
Avril 2025
[1] Yonathan Seibt (Archives de la construction moderne – EPFL), “Introduction théorique et pratique sur les bases de l’IA et applications simples I” [consulté le 28.02.2025]
[2] AI Tools – Intégrez des services d’IA souverains pour vos applications | Infomaniak [consulté le 24 mars 2025]
[3] Transkribus – Unlocking the past with AI [consulté le 24 mars 2025]
[4] FoNDUE – Une infrastructure HTR pour Genève – Humanités numériques – UNIGE [consulté le 24 mars 2025]
[5] Lise Jaillant, Arran Rees, « Applying AI to digital archives: trust, collaboration and shared professional ethics », in Digital Scholarship in the Humanities, Volume 38, Issue 2, June 2023, Pages 571-585, https://doi.org/10.1093/llc/fqac073 [consulté le 28 février 2025]
[6] Barbara Galimberti (Archives de la construction moderne – EPFL), “Introduction théorique et pratique sur les bases de l’IA et applications simples II” [consulté le 27.02.2025]
[7] Alcides Alcoba, Paige Hohmann and Jim Suderman, « Datafying Archives for Privacy Protection », in Artificial Intelligence and Documentary Heritage, ed. by Luciana Duranti and Corinne Rogers, CEaR Newsletter 2024 [consulté le 28.02.2025]
[8] Des traducteurs Vasco pour toutes les situations [consulté le 25 mars 2025]
[9] Alcides Alcoba, Paige Hohmann and Jim Suderman, « Datafying Archives for Privacy Protection », in Artificial Intelligence and Documentary Heritage, ed. by Luciana Duranti and Corinne Rogers, CEaR Newsletter 2024 [consulté le 28.02.2025]
[10] Archives de l’ancien Évêché de Bâle – Transkribus [consulté le 24 mars 2025]
[11] Records management before and after the AI revolution – Thinking Records [consulté le 24 mars 2025]
[12] Generative AI: What You Need To Know [consulté le 24 mars 2025]
[13] Coûts de l’IA générative – Intelligence artificielle (IA) générative – Guides de recherche · Research guides at University of Ottawa [consulté le 24 mars 2025]