Archivage numérique – Le présent d'hier et de demain

Records in Context, nouvelle mouture des normes de description archivistique du Conseil International des Archives. En théorie et en pratique

2 octobre 2017 / By Anouk Dunant Gonzenbach / In Archivage numérique, Tous les articles

Retour sur la séance du forum des archivistes genevois par Emmanuel Ducry et Anouk Dunant Gonzenbach

Le forum des archivistes genevois a présenté le 11 septembre 2017 une séance consacrée à la norme « Records in Context » (RIC). Dans une première partie, Jean-Daniel Zeller a rappelé les principes de cette norme.

Records in Context – RIC

RIC est une nouvelle norme archivistique regroupant les normes ISAD-G, ISAAR, ISAF et ISDIAH.

Elle émane du groupe d’experts EGAD (Expert Group on Archival Description), mandaté en 2012 par le comité international des archives (ICA) pour fusionner ces quatre normes. Pour rappel :

– ISAD-G (General International Standard Archival Description) a pour objet la description des fonds;
– ISAAR (CPF) (International Standard Archival Authority Records-Corporate Bodies, Persons, and Families) a pour objet la description des producteurs;
– ISDF (International Standard for Describing Functions) a pour objet la description des fonctions;
– ISDIAH (International Standard for Describing Institutions with Archival Holdings) a pour objet la description des services conservant les fonds.

La norme qui a résulté des travaux de l’EGAD porte le nom de Records in Context (RiC).

Deux éléments se cachent sous ce terme:
– un modèle conceptuel (la norme) : Record in Context Conceptual Model (RiC-CM),
– une ontologie : Record in Context Ontology (RiC-O), à savoir la grammaire permettant de mettre en pratique le modèle conceptuel.

On peut relever que le travail sur une ontologie montre d’emblée que les réflexions du groupe se placent dans le contexte du web sémantique.

Le groupe EGAD a constaté que si ISAD-G a eu une profonde influence sur la profession au niveau international et qu’ISAAR a connu quelques utilisations ici et là, ISDF et ISDIAH n’ont quant à eux eu aucun écho ou presque. Par conséquent, la manière d’organiser les fonds selon une structure tectonique (fonds, série, sous-série, sous-sous-série, etc.) respectant le principe de provenance reste au cœur du modèle. Ainsi, l’on retrouve dans RiC l’ensemble d’ISAD complété par des éléments provenant d’SAAR, ISDF et ISDIAH.

Toutefois, si l’on y retrouve l’organisation hiérarchique d’ISAD, elle est étendue sous forme d’un réseau. Un élément d’un fonds peut être lié à un autre fonds, une fonction, un producteur, un utilisateur à des droits , et pas forcément le même que celui de l’élément d’à côté. Ce qui veut dire que le modèle permet de rester à une stricte description du type ISAD pour assurer la compatibilité avec l’existant (il faudra cependant traduire les anciens fichiers ISAD dans le nouveaux langage de description), ou de l’enrichir et de le développer pour le faire évoluer vers le réseau.

On trouve dans RIC la volonté de se mettre en phase avec les professions qui nous entourent et que cette norme soit utilisable par les archivistes et les Record Manager, une collaboration rendue de plus en plus nécessaire par l’archivage électronique. Les exigences de l’archivage électronique sont donc aussi un élément fondamental pris en compte dans cette révision. On trouve également la volonté de faciliter l’interface avec les normes existant dans les autres institutions patrimoniales telles que les bibliothèques ou les musées de façon à faciliter les échanges de données, les développements informatiques, etc. S’il n’est pas possible d’être totalement cohérent avec l’univers des bibliothécaires (FRBR) qui utilise une autre logique, il y a des éléments, comme les descriptions d’auteurs, qu’il est possible de partager.

Enfin, si les RiC sont prévus pour gérer la masse de données issues de l’archivage électronique, ils sont aussi pensés pour pouvoir être utilisés pour des descriptions très détaillées d’une pièce ou des archives d’un individu. Par-là, il y a une volonté d’ouvrir la norme vers les utilisateurs des archives pour des utilisations autres que proprement archivistiques.

En résumé il y a une volonté d’intégrer l’ensemble des normes archivistiques existantes et de faciliter la connexion de cette norme avec des contextes d’utilisation et des normes voisines qui peuvent être utilisées dans les musées, les bibliothèques ou par les chercheurs.

Actuellement, la norme RIC est un draft en consultation; l’ontologie qui permettra son utilisation n’est pas terminée.

Le Matterhorn RDF Data Model : implémentation des modèles d’information OAIS et RiC dans le cadre des technologies sémantiques

La seconde partie de la séance a été consacrée à la présentation par Alain Dubois, Archiviste d’Etat du canton du Valais et Tobias Wildi, Direction de Docuteam, de la transformation de leur Matterhorn Mets Profile dans une forme adaptée au web sémantique, le Matterhorn RDF Data Motel. Une forme parallèle au RIC en somme, puisque ce dernier n’est pas encore finalisé. (Le Matterhon Mets Profile est un modèle de boîte électronique qui a pour principal intérêt d’être basé sur un emboîtement de modèle de métadonnée (METS + PREMIS + ISAD) souvent utilisé au niveau international.) Le powerpoint de la présentation se trouve ici.

Cette séance du forum a remporté un grand succès car, au-delà des frontières cantonales, elle a réuni une cinquantaine d’archivistes genevois, vaudois, neuchâtelois et bernois. On constate donc le grand intérêt pour notre profession à se tenir au courant des derniers développements. En revanche, on ressent une certaine peur devant la complexité de l’affaire.

Nous nous faisons la réflexion que si tout le monde sent que le web sémantique est l’avenir, il s’agit plus du web d’après-demain que de demain. En effet, le web de demain, c’est le Linked Open Data (LOD), ou web des données.

Archivage électronique à long terme: Implémentation d’une application génératrice de SIP dans un système d’information métier

17 septembre 2014 / By Anouk Dunant Gonzenbach / In Archivage numérique, Tous les articles

Par Anouk Dunant Gonzenbach

Dans le cadre du projet d’archivage électronique à long terme Gal@tae, il a été nécessaire de développer une application génératrice de SIP (Submission Information Package) dans le système d’information métier du producteur de documents. Le processus général de Gal@tae est décrit dans cet article . Nous souhaitons ici nous focaliser plus particulièrement sur cette application.

L’objectif à atteindre est que le service producteur puisse sélectionner les documents qui doivent être versés aux archives définitives directement dans son système d’information et qu’en quelques clics simples le SIP soit généré et prêt à être archivé.

En plus du SIP, l’application doit produire également un fichier XMl contenant les champs de description archivistique propres au SIP. Cette description doit être ensuite intégrée dans la base de données archives (ou AIS) (illustration 1).

Illustration 1

SIP

Le cahier des charges avait pour base la Spécification du Submission Information Package (SIP) produit par les Archives fédérales suisses (AFS). En effet, les SIP seront dans le cadre de ce projet hébergés sur la plate-forme des AFS.

Un SIP est formé de deux répertoires. Le premier, le répertoire “content”, contient les documents électroniques à archiver. Le second, le répertoire “header”, contient les métadonnées rassemblées dans le fichier “metadata.xml” ainsi qu’un répertoire “xsd” réunissant les schémas XML qui définissent la structure des métadonnées.

Fichier XML de métadonnées descriptives (inventaire)

Les métadonnées de description font l’objet d’un fichier produit par le service producteur et versé en sus du SIP. Les spécifications relatives à ce fichier XML ont été développées en interne (autrement dit par nous les archivistes): il s’agit d’un dictionnaire de métadonnées nécessaires à la description de documents électroniques, à savoir les champs ISAD-G traditionnels ainsi que les métadonnées propres à la description de ce type de documents. Ce dictionnaire a ensuite été transformé en schéma XML. Un composant applicatif permettant d’extraire les données du fichier XML pour les intégrer dans la base de données métier a ensuite été développé.

L’application

Le mandataire a développé cette application pour un système d’information métier sur la base des spécifications des AFS et du schéma XML de métadonnées descriptives fourni par les archivistes. Quelques réunions et la mise à disposition d’exemples de SIP ont permis d’apporter les précisions nécessaires. Le fonctionnement est le suivant:

L’interface du système d’information métier propose une fonctionnalité supplémentaire nommée “module d’archivage”. Une fois qu’un dossier d’affaire clos, ce dossier apparaît directement dans ce module d’archivage. Un numéro lui est apposé automatiquement.

Le processus d’archivage prévoit la préparation du SIP ainsi que celle du fichier XML de métadonnées descriptives. Le masque de saisie permet une correction des métadonnées, qui apparaissent automatiquement (illustration 2).

Illustration 2

Une fois les métadonnées vérifiées, les fichiers SIP et XML sont prêts à être générés (illustration 3):

Illustration 3

Le SIP (Archivage SIP) et le fichier XML de métadonnées descriptives (Archivage AEG) sont livrés dans deux fichiers au format ZIP, qui n’ont plus qu’à être envoyés à l’institution d’archives.

Le projet a demandé 50 jours de développement, dont 25 jours pour le composant de génération du SIP (analyse des données, analyse technique du schéma du SIP et du dictionnaire de données des AEG et développement). 25 jours ont été nécessaire pour les divers essais d’installation et de configuration, la gestion et le suivi de projet avec la direction générale des systèmes d’information, les modifications en cours de projet pour le passage d’un flux connecté avec un webservice à un flux autonome avec écriture des fichiers, les ajustements en fin de projet sur l’interface web et divers autres points.

Le composant développé peut être réutilisé pour d’autres producteurs ou services de l’administration, sans qu’il ne faille reprendre l’entier du développement.

Pour réutiliser le composant, il faut tout d’abord définir le dictionnaire de données pour les attributs métiers (autres que les champs ISAD-G traditionnels) et définir l’organisation des documents dans le répertoire « content » du SIP. Ensuite, il s’agit de développer la partie spécifique du composant qui va lire les données nécessaires. Les autres fonctionnalités – construire le fichier XML, créer l’archive, etc.- sont disponibles.

Le temps d’analyse et de développement pour l’adaptation de l’application génératrice de SIP à partir de l’application développée dans le cadre du projet dépendra de l’ampleur du contenu traité par le service producteur et des sources de données auxquelles il faudra accéder.

Ce petit billet pour témoigner de notre expérience de développement d’une application SIP creator et de son implémentation dans un SI métier. Sur la base des spécifications et des exemples fournis, il n’y a pas eu de problème particulier pour ce développement.

Archivage électronique à Genève: le projet Gal@tae

17 juin 2014 / By Anouk Dunant Gonzenbach / In Archivage numérique, Tous les articles

Les Journées des Archives 2013 organisées par l’Université catholique de Louvain-la-Neuve (Belgique) avaient pour thème: De la préservation à la conservation. Stratégies pratiques d’archivage.

Lors de ce colloque, j’ai présenté le projet d’archivage électronique aux Archives d’Etat de Genève, Gal@tae, dans ses aspects organisationnels et techniques.

Ce texte, qui représente l’état du projet au printemps 2013, est disponible à l’adresse suivante : http://hieretdemain.gonzen.com/2013_galatae_blog.pdf .

Gal@tae est désormais en production. La solution d’archivage électronique des Archives d’Etat est aujourd’hui opérationnelle.

Métadonnées intégrées aux images numérisées, partie 2: le choix de deux institutions publiques genevoises

28 mai 2013 / By Anouk Dunant Gonzenbach / In Archivage numérique, Médiation, Tous les articles

Par Xavier Ciana, Emmanuel Ducry et Anouk Dunant Gonzenbach

Voici le second billet consacré aux métadonnées intégrées aux images numérisées. Après un précédent panorama des principaux standards de métadonnées, celui-ci présente les choix effectués par deux institutions publiques genevoises en matière de métadonnées images.

Dans le cadre de la diffusion d’archives numérisées (de documents anciens dont les originaux sont conservés), les deux objectifs principaux qui motivent l’intégration de métadonnées dans des images sont d’identifier la provenance des documents et d’informer sur les conditions d’utilisation.

L’identification ne pose pas de problèmes lorsqu’un document numérisé est consulté dans son contexte, en général sur le site web de l’institution qui l’a numérisé. Par exemple, lorsqu’un registre d’état civil est consulté sur le site d’une collectivité publique, l’interface de consultation servant d’outil de recherche fournit les informations nécessaire à l’identification du registre original ainsi que les éléments de contexte nécessaires à sa compréhension (provenance, date, etc.).

Mais que se passe-t-il lorsqu’un document – ou une partie de celui-ci – est extrait de son contexte puis republié? C’est un axiome du monde numérique : tout document qui peut être lu peut être copié et reproduit. En général, plus un document suscite de l’intérêt, plus il est reproduit et partagé. Et plus les copies sont nombreuses, plus la probabilité est forte que les informations qui accompagnaient le document lors de la publication initiale soient laissées de côté. C’est ici que les métadonnées intégrées jouent un rôle : lorsqu’une personne copie une image avec des métadonnées, elle reproduit également, même sans le savoir, des informations sur cette image.

Les métadonnées intégrées permettent donc de signaler l’institution qui a numérisé une image ainsi que d’identifier cette image sans ambiguïté (grâce à une cote ou un identifiant unique). Sans informations d’accompagnement ni métadonnées intégrées, il peut être extrêmement difficile de retrouver le fonds ou le dossier d’origine d’une image isolée.

Le choix des métadonnées liées aux conditions d’utilisation feront l’objet d’un prochain billet.

Métadonnées images retenues par les archives d’Etat de Genève

Le choix de départ s’est évidemment porté sur les deux catégories de métadonnées liées aux images numérisées: les métadonnées Exif et les métadonnées IPTC.

IPTC
Ce type de métadonnées sert en premier lieu à identifier l’institution et à gérer les droits d’utilisation. Les noms du pays, du canton et de l’institution qui met à disposition ses images et qui conserve les originaux est indispensable pour leur identification. En revanche, s’il est prévu de mettre à disposition les images pendant une longue durée, les métadonnées susceptibles de changement sont peu intéressantes à compléter (par exemple l’adresse web ou email de l’institution). Une recherche sur le nom d’une institution permet de retrouver facilement ces informations susceptibles de changer régulièrement.

On constatera qu’aucune cote ou identifiant unique ne figure par parmi ces champs. Dans le cas de ce projet, cette information apparaît uniquement dans le nom du fichier. Ce n’est peut-être pas une solution idéale, mais intégrer la cote dans les métadonnées IPTC aurait nécessité un post-traitement qui devait être évité dans le cadre de ce projet.

EXIF
Le cas des métadonnées EXIF est un peu particulier. Ces métadonnées techniques relèvent en définitive plus de la conservation à long terme que de la diffusion. Toutefois, tous les appareils d’imagerie numérique produisent ces métadonnées. Faut-il les conserver ou les supprimer ? Leur taille étant négligeable en regard du poids des images, il a été décidé de les garder. Mais quelles métadonnées EXIF sélectionner parmi le vaste panel proposé par ce modèle ? Quelques contacts menés auprès de diverses institutions ont démontrés des pratiques assez aléatoires. Généralement, on se contente des réglages installés par défaut sur la machine. La question est d’autant plus difficile que l’on entre dans un domaine technique qui devient vite pointu et avec lequel les photographes ont souvent plus d’affinités que les archivistes.

Pour répondre à cette question, la norme américaine Z39.87 “Data Dictionnary – Technical Metatata for Still Image”, qui offre un jeu de métadonnées pour la gestion tout au long du cycle de vie des images “pixellisées” (bitmap ou raster), a servi de point de départ. Cette norme n’est d’ailleurs pas sans lien avec le modèle PREMIS, ce qui est intéressant dans le cas d’une éventuelle réutilisation de ces métadonnées internes. A partir de là, une table d’équivalence entre la version “trial 2002” de cette norme et les spécifications EXIF 2.2 a été utilisée pour identifier les champs permettant de répondre aux exigences Mandatory (M), Mandatory if Applicable (MA) ou Recommend ® de Z.39.87. Attention, il n’existe pas systématiquement un champ EXIF pour répondre aux exigences de la norme. Certains champs retenus peuvent ainsi ne pas être renseignés. La norme n’est donc pas entièrement respectée, mais on s’en rapproche le plus possible. A partir de là, un jeu de métadonnées techniques minimales a été choisi à l’aide des champs EXIF.

Métadonnées retenues:

Métadonnées images retenues par les archives de la Ville de Genève

XMP
Un des principaux choix à effectuer est le standard à utiliser pour intégrer les métadonnées (IPTC, Exif ou XMP). XMP a été retenu pour les avantages que présente ce format (basé sur XML et RDF, extensible, standard récent) mais également car c’est le seul des trois standards qui permet d’intégrer des métadonnées dans des fichiers qui ne sont pas des images, notamment des PDF. Dans le cadre d’un projet de numérisation, XMP rend possible l’utilisation des mêmes éléments de métadonnées quel que soit le type de fichier produit (JPG et PDF par exemple).

Dublin Core
A l’intérieur d’XMP les métadonnées peuvent être exprimées à l’aide de différents schémas (IPTC Core, Dublin Core, schéma photoshop etc.). Il est donc nécessaire de faire des choix parmi ces standards. Un nombre limité d’éléments Dublin Core a été retenu car ils semblaient bien répondre aux objectifs de base (identifier les images et donner le statut juridique).

Métadonnées retenues:

Le jeu de métadonnées Dublin Core est assez central dans XMP, en effet les informations de description élémentaires sont souvent signalées à l’aide de ce schéma. IPTC Core s’appuie également sur certains éléments Dublin Core. Ainsi, plutôt que de créer un nouvel élément ad hoc pour le titre d’une photographie, IPTC Core recommande l’utilisation de l’élément « titre » de Dublin Core (dc:Title). Puisqu’ils sont fréquemment utilisés, ces éléments Dublin Core sont plutôt bien reconnus et ils ont d’autant plus de chances d’être lus par les différents logiciels de visualisation d’images. Les nombreux logiciels qui reconnaissent les métadonnées IPTC Core seront donc capables d’afficher (au minimum) les éléments communs à Dublin Core et IPTC Core (voir ci-dessous).

Références

Pour les réflexions qui ont mené à ces études et à la rédaction de ce billet, nous nous sommes aussi inspirés du blog S.I.Lex à lire là et là.

Z39.87 (Technical Metadata for Digital Still Images) – 2006

Z39.87 (Technical Metadata for Digital Still Images) – trial 2002

Liste et contenu des tags EXIF

Mapping de Z39.87 2002 vers EXIF 2.2

Métadonnées intégrées aux images numérisées : partie 1

13 mai 2013 / By Anouk Dunant Gonzenbach / In Archivage numérique, Médiation, Tous les articles

Par Xavier Ciana, Emmanuel Ducry et Anouk Dunant Gonzenbach

Lors d’un projet de numérisation de documents, il est nécessaire de se pencher sur la question des métadonnées images pour des raisons de gestion documentaire, de droits d’accès, de recherche, d’identification du document, etc.

La problématique abordée ici concerne la numérisation de documents ou registres patrimoniaux à des fins de diffusion. C’est un point qu’il vaut mieux en effet aborder dès le début d’un projet de numérisation. Dans le cas présent, il s’agit d’un projet qui a débuté en 2006 et à cette époque, nous n’avions pas imaginé normaliser ces métadonnées. Ce besoin s’est ensuite fait ressentir et c’est pourquoi nous proposons aujourd’hui cette réflexion.

En Suisse romande, il n’y a pas d’harmonisation des pratiques concernant les métadonnées liées aux images numérisées diffusées en ligne par des institutions d’archives. De plus, on constate que la littérature professionnelle sur le sujet du point de vue archivistique n’est pas complètement aboutie.

La question de ce type de métadonnées sera abordée en 4 billets:

1. Panorama des principaux standards en matière de métadonnées intégrées aux documents numérisés (ci-dessous)
2. Liste des métadonnées retenues par deux institutions publiques genevoises dans le cadre de leurs projets de numérisation
3. Le choix du droit d’utilisation des images
4. Retour d’expérience par rapport à ces choix

LES STANDARDS DES METADONNEES
Les trois standards majeurs en matière de métadonnées intégrée aux images sont :

IPTC-IIM
L’IPTC (International Press Telecommunications Council) développe au début des années 1990 l’Information Interchange Model (IIM), qui est une structure et un jeu d’attributs de métadonnées applicable à des fichiers texte, des images et d’autres types de média. En ce qui concerne les images, les attributs prévus par le modèle IPTC-IIM comportent par exemple : le créateur, le titre, la date, des informations géographiques (pays, région, ville) ou des éléments de description (mots-clés, légende). Au milieu des années 1990, les logiciels d’Adobe – notamment Photoshop – ont permis d’intégrer ces éléments directement dans les fichiers images. Cette façon de faire a dès lors connu un large succès, de nombreuses images ont été « augmentées » de métadonnées et aujourd’hui encore, beaucoup de logiciels de visualisation ou de retouche photographique permettent d’afficher et de modifier ces informations. Par commodité de langage, celles-ci sont généralement appelées « métadonnées IPTC » ou « en-têtes IPTC / IPTC headers ».
A l’heure actuelle, cette manière d’intégrer les attributs IPTC-IIM directement dans les images est en passe de devenir obsolète, en effet, les auteurs du modèle IPTC-IIM recommandent maintenant d’utiliser le standard XMP pour inclure ces attributs dans des fichiers.

EXIF
Etablie à l’origine par le Japan Electronic Industry Development Association (JEIDA), l’Exif (Exchangeable image file format) est une spécification de formats de fichiers pour les images et sons produits par les appareils photographiques numériques. Cette spécification repose sur des formats existants (tels que JPEG et TIFF pour les images ou RIFF WAV pour les fichiers audio), et y ajoute des balises de métadonnées. Les métadonnées Exif sont typiquement générées automatiquement lors de la création d’une image, c’est-à-dire par l’appareil photo au moment de la prise de vue. La très grande majorité des métadonnées Exif sont techniques, il s’agit d’éléments tel que la taille de l’image, la résolution, la compression ainsi que des données concernant la prise de vue : la date, le temps de pose, la distance focale, l’utilisation d’un flash, ou encore la position GPS de l’appareil. Le grand avantage des métadonnées Exif est l’automatisation : la plupart des appareils photographiques numériques (notamment les smartphones) créent des données Exif dans les images, même sans aucune intervention de l’utilisateur. De plus, les métadonnées Exif sont largement reconnues et peuvent être lues et affichées par un grand nombre de logiciels de traitement d’images et ceux-ci conservent généralement les données Exif lors des modifications successives des fichiers. Enfin certains sites web exploitent également de manière automatique les métadonnées Exif présentes dans les images, notamment les coordonnées GPS.

XMP
En 2001, Adobe introduit l’ “Extensible Metadata Platform” (XMP), un standard basé sur XML et RDF, qui permet d’intégrer des métadonnées dans plusieurs formats de fichiers (TIFF, JPEG, JPEG 2000, PDF, PNG, HTML, PSD etc.). XMP est extensible et peut donc accueillir n’importe quel type de métadonnées du moment que celles-ci sont exprimées en XML. Dès l’origine, XMP incorpore un certain nombre de standards de métadonnées, un des plus importants étant certainement Dublin Core, qui permet d’accueil des métadonnées élémentaires tel qu’auteur, titre, identifiant, date ou encore des informations sur les droits d’auteurs du document. « IPTC Core » est un autre des schémas majeurs inclus dans XMP, il permet d’utiliser les attributs du modèle ITPC-IMM (décrit ci-dessus) à l’intérieur d’XMP. Le schéma « IPTC Core » fait donc d’XMP le successeur officiel aux métadonnées IPTC.
Un dernier exemple de schéma pouvant être intégré à XMP est VRACore, un standard destiné à la description des objets ou œuvres d’arts représentés dans des photographies. VRACore n’est pas centré sur le fichier image, mais sur l’œuvre originale. Ce standard permet notamment d’en décrire l’auteur, la taille, les matériaux ou techniques de création, ainsi que signaler le musée ou l’institution qui conserve l’objet original.
Le champ couvert par les métadonnées XMP est donc très large et comporte aussi bien des informations de description, notamment via Dublin Core, que des données techniques ou encore des éléments de gestion de droits d’auteur ou de workflow.
L’intégration de métadonnées à des images grâce à XMP est intéressante à plusieurs titres : comme les données sont en XML/RDF elles peuvent être exploitées à l’aide d’outils standards. En outre de plus en plus de logiciels récents (notamment Windows 7) sont capables d’afficher et d’exploiter les métadonnées XMP. Enfin, si une institution à des besoins spécifiques, il lui est possible d’intégrer ses propres modèles de métadonnées dans XMP.

Cohabitation des standards
Techniquement, des éléments provenant des trois standards (IPTC-IIM, Exif et XMP) peuvent figurer dans un même fichier sans aucun problème.
Au niveau du contenu des métadonnées, les choses ne sont pas aussi simples : en effet certaines informations peuvent être répétées dans les trois standards, notamment des éléments de base tels que le créateur d’une image, sa date ou encore son droit d’utilisation. Si plusieurs standards sont utilisés simultanément, il est alors nécessaire d’assurer la cohérence des contenus afin d’éviter les disparités (par exemple un même fichier avec une date de création dans Exif et une date différente dans XMP). Le Metadata Working Group, une coalition réunissant notamment Adobe, Apple et Microsoft, a émis des recommandations afin d’assurer la cohérence et la préservation des métadonnées lors de l’utilisation simultanée de plusieurs standards.

De multiples scénarios de cohabitation sont possibles : un même fichier peut par exemple contenir des métadonnées techniques issues du scanner dans Exif tandis que les métadonnées de description et celles relatives au droit d’auteur sont exprimées dans XMP. Comme on peut le constater dans le schéma ci-dessous, il est également possible de regrouper l’ensemble des données ITPC ou Exif dans XMP.

CC-BY

Comment lire les métadonnées ?
Les métadonnées peuvent être à ajoutées à des images dans un but interne à une institution (description, processus de travail etc.), ou dans un but externe (enrichir les informations lors la diffusion). Quelles que soient les raisons initiales qui justifient l’intégration de ces informations à des fichiers images, il est évidemment souhaitable que celles-ci puissent être lues par les plus grand nombre de personnes qui vont consulter ou réutiliser ces images. Cette lecture dépend des logiciels utilisés pour visualiser les images. Si la majorité des logiciels de gestion et traitement de photographies sont capables de lire et de modifier les métadonnées intégrées, ce n’est pas le cas de tous les systèmes d’exploitation et logiciels généralistes. Windows XP utilise son propre système de métadonnées et de commentaires ad hoc appelé “Alternate Data Streams (ADS)” et peut uniquement lire un nombre restreints d’éléments Exif. Pour un utilisateur de Windows XP, la quasi-totalité des métadonnées intégrées dans une image seront donc invisibles. Le support pour lire les métadonnées « de base » (auteur, titre, date, droits, etc.) est meilleur dans les systèmes d’exploitation plus récents. Dans Windows 7, certains éléments des métadonnées issus des trois standards sont directement affichés dans l’explorateur ou figurent dans l’onglet « détail » de chaque fichier. Windows 7 est également capable de faire des recherches dans les métadonnées intégrées. Mac OS X permet lui aussi (dès la version 10.6) de rechercher dans les métadonnées et le logiciel « Aperçu » (utilisé par défaut pour ouvrir les images) affiche des éléments provenant des trois standards.

Eléments de métadonnées affichés par l’explorateur Windows 7.
Le nom affiché ci-dessus sous « Auteurs » a été intégré à l’image grâce au standard XMP, dans l’élément Dublin Core « creator ».

Références

Journée d’étude Protection de la vie privée / archivage électronique, Bruxelles, 28 janvier 2013

2 février 2013 / By Anouk Dunant Gonzenbach / In Archivage numérique, Tous les articles

Par Anouk Dunant Gonzenbach

La journée internationale de la protection des données personnelles – Privacy Day, qui a lieu le 28 janvier de chaque année, a pour but de sensibiliser les citoyens, les organismes publics et les entreprises à la question de la protection des données personnelles. Cette journée commémore la signature, par le Conseil de l’Europe, de la Convention pour la protection des personnes à l’égard du traitement automatisé des données à caractère personnel, le 28 janvier 1981. La Commission vie privée (Belgique), créée suite à l’entrée de la Loi vie privée le 8 décembre 1992, a organisé pour son 20e anniversaire, le jour du Privacy Day, une journée d’étude consacrée à l’archivage électronique.

A la salle des Congrès de la chambre des représentants à Bruxelles, neuf conférenciers ont mis en lumière, sous des angles différents, les rapports entre protection des données personnelles, transparence et archivage électronique. Je voudrais résumer et partager ici quelques points de cette journée.

Le Prof. Patrick Van Eecke, avocat, Université d’Anvers, a rappelé que malgré le développement des réseaux sociaux et la tendance des citoyens à exposer leur vie sur le net, il n’est pas vrai que la protection de la vie privée s’estompe. Au contraire, les règles se renforcent. Il précise que les archivistes et les juristes doivent accorder leurs objectifs: la préoccupation première des archivistes est de garantir la lisibilité et l’authenticité des documents. Pour les juristes, il est nécessaire qu’un contrat conclu par voie électronique et pourvu d’une signature électronique valable en droit soit opposable, autrement dit que la validité juridique de la signature électronique soit garantie dans le temps, ce que la migration de format sans autre précaution ne garantit pas. Parmi les règles d’or se trouve celle de la formation des archivistes en matière de protection des données personnelles: les collaborateurs en contact avec des données personnelles doivent recevoir une formation en la matière. Il a également mis le doigt sur l’importance du Service Level Agreement (SLA) dans la relation avec un tiers-archiveur. Enfin, il faut toujours se méfier des aberrations si courantes dans les processus les mieux réglés, par exemple maîtriser au mieux la gestion d’un système d’information et ses droits d’accès mais stocker les bandes de backups dans une cave non surveillée…

Lors de sa présentation sur la problématique de l’archivage des e-mails, Jean-Marc Rietsch, président de FedISA (Fédération européenne de l’ILM du stockage et de l’archivage) a introduit le terme de dématique, qui est pour moi une notion nouvelle. Pourquoi utiliser ce terme? Selon lui, le terme dématérialisation est source de confusion, car il renvoie à la notion de numérisation et de scanner. Or la dématérialisation va plus loin, puisque ce sont les processus-métier eux-mêmes qui sont dématérialisés. Il faut donc entendre dématique selon la définition suivante: dématérialisation des supports, des échanges et des processus.

Nous avons découvert lors de cette journée la spécificité du Luxembourg en matière d’archivage électronique. En effet, le Luxembourg possède une législation sur l’archivage électronique depuis 25 ans, permettant notamment aux entreprises de dématérialiser certains documents. Mais il semble que cette législation ait été prématurée et a échoué car il était trop tôt pour les entreprises de procéder ainsi. Le Luxembourg prépare maintenant une réforme ambitieuse de son cadre légal sur l’archivage électronique, qui a pour but de démocratiser et simplifier l’accès à l’archivage, d’assurer une véritable reconnaissance aux archives, de dynamiser et encadrer le marché de l’archivage et de contribuer à faire du Luxembourg le coffre-fort numérique de l’Europe. Le président de FedISA Luxembourg, Cyril Pierre-Beausse, a présenté la future organisation du marché de l’archivage: il s’agit tout d’abord de créer le statut PSDC (prestataires de services de dématérialisation et de conservation). Ces prestataires devront ensuite être certifiés par l’Etat. L’objectif est qu’il y ait une véritable présomption de conformité à l’original des archives réalisées par un PSDC, et qu’ainsi il n’y ait pas de possibilité pour le juge d’écarter un document parce qu’il se présente sous forme numérique, ni de faire prévaloir un original papier. Voir le Livre Blanc de FedISA Luxembourg sur le coffre-fort électronique.

Les Archives de l’Etat en Belgique étaient représentées par Rolande Depoortere et Sébastien Soyez, qui ont présenté l’archivage électronique à l’épreuve des législations “vie privée” et “archivistique” en analysant les archives électroniques selon les fonctions archivistiques (description et classement, sélection, transfert, conservation et communication).

La journée s’est conclue par une réflexion “qui interpelle” au sujet des archives numériques de la presse et du problème de la conciliation entre le devoir de mémoire et la vie privée. Philippe Nothomb, conseiller juridique du groupe de presse belge Rossel, est régulièrement sollicité par des personnes désirant faire retirer une information les concernant ou y apporter une rectification (et lorsqu’il part en vacances, il semble que ces personnes en profitent pour contacter directement les journalistes, en l’absence du conseiller juridique, pour leur mettre la pression afin qu’ils retirent ou modifient des articles les concernant….). Les éditeurs de presse veulent préparer un texte de loi qui permet de préserver intégralement en ligne les contenus d’archives de presse en proposant aux personnes physiques et morales deux droits: un droit de rectification numérique, qui sera liée en ligne à l’article contenant une inexactitude de fait, et un droit de communication numérique, qui permettra de demander une insertion gratuite (en cas par exemple de décision de non-lieu, d’acquittement, de réhabilitation, etc.). Est-ce réalisable? Qui vérifiera les faits? La question peut plus largement s’étendre aussi aux médias en ligne qui modifient continuellement leur contenu et qui publient en flux continu.

Une de mes conclusions à cette journée est qu’il nous appartient à nous, professionnels de l’information, d’appliquer les lois en matière de protection des données personnelles, de nous former et de mettre en place les bonnes formations, de travailler de manière interdisciplinaire (comme l’a mis en évidence Marie Demoulin, chercheuse au Crids et spécialiste de l’archivage électronique “légal”, qui a ouvert cette journée d’étude). De ne pas oublier d’inclure dans les acteurs fondamentaux de l’archivage électronique les juristes (que l’on oublie peut-être souvent d’intégrer dans nos groupes de travail, focalisés comme nous les sommes sur les responsables IT). Mais ne faudrait-il pas aussi se former tous, en tant que citoyens, à prendre avec recul les informations qui se trouvent sur internet, comme les sites de presse, plutôt que de mettre en place des systèmes compliqués de droit à la rectification (je parle bien là pour les sites de la presse et non de diffamation sur les réseaux sociaux contre laquelle il faut continuer à se battre)?

Les normes eCH: le RM et l’archivage électronique à moyen et à long terme

17 septembre 2012 / By Anouk Dunant Gonzenbach / In Archivage numérique, Gouvernance e-doc, Tous les articles

Par Emmanuel Ducry

Formée de représentants de la Confédération, des cantons, des communes, d’organisations, d’universités, d’entreprises et de membres individuels, l’association eCH élabore les standards en matière de cyberadministration suisse. Ceux-ci ont valeur de recommandations et ne représentent en aucune façon une quelconque force légale. Mis à disposition gratuitement, ces documents sont en général disponibles en français. Nous présentons ici les standards eCH liées au Records Management ou l’archivage à long terme des documents numériques.

CC-BY

Conduite de projet (HERMES) – eCH-0054
La norme eCH-0054 “Norme pour la conduite de projets informatiques (HERMES)” recommande l’utilisation de la méthode HERMES comme modèle pour la conduite de projet dans le domaine informatique.

Définition du Records Management – eCH-0002 – eCH-0026 – eCH-0038
La norme eCH-0002 définit le Records Management en reprenant la norme ISO 15489 et en l’intégrant au cadre eCH. La norme ne présente pas intégralement la norme ISO 14489 mais renvoie à celle-ci pour le détail.

Cette norme est complétée par la norme eCH-0026 “Umsetzungshilfen Records Management” (outils de mise en œuvre du Records Management) qui propose des définitions et renvoie à des exemples en matière d’introduction à la gestion des documents, de politique d’archivage, de processus de gestion et de plan de classement.

La norme eCH-0038 “Records Management Framework – Informations Management im eGovernment” présente également le cadre général du Records Management et l’articulation des différentes normes eCH relatives. La norme aborde les domaines des exigences légales, des processus et de la technique.

GEVER source de bonnes pratiques – eCH-0037 – eCH-0057
Le programme GEVER (elektronische Geschäftsverwaltung) est le plan d’action relatif au traitement des données et des documents électroniques de la Confédération. Il s’agit d’un train de mesures visant à moderniser la gestion des documents et des informations dans l’administration fédérale. Le programme GEVER applique les normes eCH en les adaptant au contexte de l’administration fédérale. De ce fait, la documentation et le cadre GEVER ne peuvent être appliqués directement aux cantons. Ils représentent néanmoins un exemple en matière de réalisation et de bonnes pratiques. C’est ce que rappellent les deux normes suivantes :

eCH-0037 “Directives GEVER Confédération” signale que les directives GEVER ont été élaborées en conformité avec les normes eCH et concrétisent la mise en place d’eCH-0002 Records Management. Elles forment ainsi une excellente référence en matière de Records Management.

eCH-0057 “Guide pour projets GEVER et de Records Management” présente le “guide GEVER” comme un modèle en matière d’expériences et de bonnes pratiques. La norme ne fait que signaler l’existence du guide. Pour le détails, il est donc nécessaire de se référer à celui-ci (en allemand).

Interface de cyberadministration – eCH-0039 – eCH-0147
La norme eCH-0039 “Interface de cyberadministration pour dossiers et documents” définit un format d’échange homogène pour les dossiers et documents électroniques au-delà des frontières des systèmes et indépendamment des solutions spécifiques. Se plaçant dans le contexte d’eCH-0002 Records Management, il se base sur les normes eCH-0058 cadre d’annonce, sur les normes eCH relatives à XML (notamment eCH-0018 Best Practices et eCH-0035 Conception de Schémas XML) ainsi que sur les ensembles de normes relatifs aux référencement de personnes et d’objets.

La norme eCH-0039 ne présente cependant pas des spécifications directement applicables techniquement. Celles-ci doivent être adaptées à un contexte sous la forme d’un “groupe de messages”. C’est ce que fait la norme eCH-0147 “Groupe de message GEVER” qui précise eCH-0039 dans le cadre d’un échange de dossiers et documents électroniques avec le système GEVER de la Confédération. Il s’agit en sommes d’un sous élément de la norme eCH-0039. Pour l’instant unique en son genre, d’autres normes de ce type pourraient voir le jour dans le futur.

Interface de versement SIP – eCH-0160
La norme eCH-0160 “Interface de versement SIP” comprend les spécifications de versement de dossiers et documents à des fins d’archivage à long terme. Il s’agit d’une précision du Submission Information Package (SIP), l’un des principaux concepts de l’Open Archival Information System OAIS (ISO 14721). eCH-0160 et la norme retenue par les Archives fédérales suisses en matière d’archivages à long terme.

SAGA – eCH-0014
La norme eCH-0014 SAGA “Standards und Architekturen für eGovernment – Anwendungen Schweiz, Normes et architectures pour les applications de cyberadministration en Suisse” présente sous forme condensée les directives techniques à respecter pour la réalisation d’applications de cyberadministration en Suisse. En plus de présenter le concept d’architecture du système et d’interface, le document liste les normes et protocoles utilisés dans le cadre de la stratégie de cyberadministration suisse en matière de communication, webservice, sécurité, format de fichiers et de données. Il s’agit d’un document de référence pour tout projet de cyberadministration.

Cadre d’annonce – eCH-0058
La norme eCH-0058 “Norme d’interface : cadre d’annonce” définit la manière dont les informations sont structurées lors d’échanges d’informations entre administration. Elle décrit également le déroulement général de l’échange. La norme eCH-0039 “Interface de cyberadministration pour dossiers et documents” se base sur le contenu de ce standard pour la définition de son interface de cybermadministration.

Utilisation d’XML – eCH-0018 – eCH-0033 – eCH-0035 – eCH-0050
C’est un ensemble de plusieurs normes qui définit les pratiques en matière d’utilisation d’XML. La référence principale est eCH-0018 “XML Best Practices” qui présente les règles à respecter lors de l’utilisation du langage XML et des schémas XML. Il met l’accent sur les mécanismes de base et les principes qui intéressent en règle générale les utilisateurs de schémas XML. Cette norme est complété par les éléments suivants :

– eCH-0033 “Description d’espaces nominatifs XML” définit la forme sous laquelle les espaces de noms XML (namespace) doivent être décrits. L’objectif est de mettre à disposition des utilisateurs une source claire pour la documentation relative à un espace nominatif donné.

– eCH-0035 “Conception de schémas XML” détaille la structure interne des schémas XML de façon à permettre une réutilisabilité maximale de tout ou une partie des schémas XML concernés.

– eCH-0050 Hilfskomponenten zur Konstruktion von XML Schemas (composants auxiliaires pour la construction de schémas XML) précise la manière de définir les composants auxiliaires qui peuvent être utilisés dans un schéma XML.

Référencement de personnes – eCH-0007 – eCH-0008 – eCH-0010 – eCH-0044 – eCH-0046 – eCH-0097
Sous cette appellation, on trouve en fait deux ensembles de normes visant à de structurer les données permettant d’identifier les personnes lors d’échanges d’informations entre administration.

Il s’agit tout d’abord des normes touchant au référencement des personnes physique avec eCH-0044 “Identification de personnes” et eCH-0046 “Données de contact”. Viennent ensuite les éléments concernant les personnes morales. Il s’agit là d’un groupe de normes constitué de eCH-0097 “Datenstandard Unternehmensidentifikation” (Normalisation des données relatives à l’identifications d’entreprise), eCH-0007 “Datenstandard Gemeinden”(Normalisation des données relatives aux communes) et eCH-0008 “Datenstandard Staaten und Gebiete” (Normalisation des données relatives aux Etats et régions).

Ces deux ensembles recourent à la norme eCH-0010 “Adresses postales” définissant la manière de structurer les adresses postales.

Référencement d’objet – eCH-0129 – eCH-0130 – eCH-0131 – eCH-0132 – eCH-0133
Cet ensemble repose sur une norme de portée générale, eCH-0129 “Référencement d’objets” qui se décline ensuite en sous-normes propres à l’identification des objets dans des domaines spécifiques. Nous avons ainsi eCH-0130 “Domaine Construction”, eCH-0131 “Domaine Mensuration officielle”, eCH-0132 “Domaine Assurance”, et eCH-0133 “Domaine Impôts”. D’autres de ces normes sont attendues.

Les normes ISO : le RM et l’archivage électronique à moyen et long terme

17 septembre 2012 / By Anouk Dunant Gonzenbach / In Archivage numérique, Gouvernance e-doc, Tous les articles

par Emmanuel Ducry et Anouk Dunant Gonzenbach

Notre liste – qui n’est pas un inventaire à la Prévert

Nous avons étudié les normes principales relatives à la gestion des documents électroniques que nous présentons selon les catégories suivantes: les normes relatives au Records Management et les normes relatives à l’archivage à long terme des documents électroniques. Elles sont décrites ci-après selon leur ordre numérique.

Nous avons réalisé un schéma pour synthétiser cette question:

CC-BY

MoReq – Modular Requirements for Records Systems (2011)
Recueil d’exigences pour l’organisation de la gestion des documents électroniques basé sur la norme ISO 15489, qui expose la problématique et les fonctionnalités attendues d’un système de gestion des documents électroniques (établi par l’Union européenne).

ISO 13008 – Information et documentation – Processus de conversion et migration des documents d’activité numériques (2012)
Publiée en 2012, ISO 13008 définit les exigences, la planification et les procédures en matière de conversion (changement de format) et de migration (changement de support) des documents numériques afin d’en préserver l’authenticité, l’intégrité, la fiabilité et l’exploitabilité.

ISO 13028 – Information et documentation – Mise en œuvre des lignes directrices pour la numérisation des enregistrements (2006)
Cette norme propose des directives pour la conduite de projets de numérisation. Elle analyse les processus de numérisation et de conservation des informations numérisées produites de façon à assurer l’authenticité, la fiabilité et l’intégrité des documents obtenus d’un bout à l’autre de la chaîne.

ISO 14641: Archivage électronique – Spécifications relatives à la
conception et au fonctionnement d’un système d’informations pour la
conservation d’informations électroniques (2012)
ISO 14641 présente les mesures techniques et organisationnelles à mettre en œuvre pour l’enregistrement, le stockage et la restitution de documents électroniques afin d’en assurer l’authenticité, l’intégrité, la fiabilité et l’exploitabilité aussi bien à court terme que dans la longue durée. Très complète, elle comprend également des informations relatives aux tiers-archiveurs.

ISO 14721 – Systèmes de transfert des informations et données spatiales – Système ouvert d’archivage d’information – Modèle de référence (2003)
Il s’agit de la version ISO de la norme OAIS publiée en 2002 par le Consultative Committee for Space Data Systems (CCSDS). Cette norme définit un vocabulaire et un ensemble de concepts permettant d’appréhender, de façon globale et complète, la question de l’archivage électronique à le long terme. Le modèle OAIS constitue une référence décrivant dans les grandes lignes les fonctions, les responsabilités et l’organisation d’un système qui voudrait préserver des données numériques sur le long terme pour en garantir l’accès. La mise en œuvre de cette norme permettra de s’assurer la fiabilité de l’exploitation des données électroniques.

ISO 15489 – Information et documentation – Records management (2001)
La norme ISO 15489 est la référence dans le domaine du Record Management. Elle définit la notion de Records Management et présente les exigences permettant aux organisations de produire et de conserver des documents authentiques, fiables, exploitables et intègres quel qu’en soit le support (physique ou numérique). Cette norme est rappelée ou mise en œuvre dans la plupart des textes relatifs au Records Management.

ISO 16175 – Information et documentation – Principes et exigences fonctionnelles pour les enregistrements dans les environnements électroniques de bureau (2012)
Tirée des recommandations du Conseil international des archives (ICA-Req) cette norme présente les principes et exigences de fonctionnement d’un système de gestion des documents et définit des principes et bonnes pratiques en matière de système d’archivage des documents électroniques avec pour objectif d’accroître l’automatisation des processus de Records Management . Le premier module présente le contexte et les déclarations de principes. Le second module fait concurrence à MoReq puisque l’on y trouve des recommandations et exigences fonctionnelles pour la gestion des documents dans un environnement électronique. Enfin, le troisième module, plus original, présente comment installer ces fonctionnalités dans des applications métier au lieu d’un système centralisé.

ISO 16363 – Space data and information transfer systems – Audit and certification of trustworthy digital repositories (2012)
Cette norme définit les pratiques recommandée en matière d’évaluation de la fiabilité des dépôts numériques.

ISO 18492 – Conservation à long terme de documents informationnels (2005)
Cette norme fournit des conseils méthodologiques pratiques pour la préservation à long terme et la récupération de documents informationnels, dans leurs formes authentiques, lorsque le délai de conservation est supérieur à la durée de vie prévue de la technologie (matérielle et logicielle) utilisée pour créer et maintenir l’information.

ISO 19005-1 – Gestion de documents – Format de fichier des documents électroniques pour une conservation à long terme – Partie 1: Utilisation du PDF 1.4 (PDF/A-1) (2005)
Cette norme définit le format PDF/A, format préconisé par les Archives fédérales suisses et les AEG pour la conservation de documents textuels à long terme. La norme définit une liste d’exigences par rapport au format PDF 1.4. et doit être donc utilisée avec la documentation relative au format PDF 1.4. Il s’agit d’une norme technique à rapprocher des normes définissant les formats TIFF, JPEG.

ISO 20652 – Space data and information transfer systems – Producer-archive interface – Methodology abstract standard (2006)
cette norme définit la phase d’Ingest, c’est-à-dire le processus d’échange de données entre un organisme producteur et un organisme d’archivage à long terme dans le cadre conceptuel d’OAIS.

ISO 23081 – Information et documentation – Processus de gestion des enregistrements – Métadonnées pour les enregistrements (2009)
Publiée en deux parties, “principes” et “mise en œuvre”, ISO 23081 est un guide pour comprendre, déployer et utiliser les métadonnées conformément au cadre défini par ISO 15489. La norme ne propose pas un jeu de métadonnée à proprement dit, mais présente un cadre permettant de définir un tel jeu au sein d’une institution à travers l’analyse des processus d’affaires. Tout comme l’ISO 15489, il s’agit d’une référence systématiquement rappelée dans les normes relatives au Records Management.

ISO 26122 – Information et documentation – Analyse des processus pour le management de l’information et des articles (2008)
ISO 26122 est une norme directement dérivée d’ISO 15489 qui détails l’analyse des processus de création et de conservation des records. Elle présente deux approches: une approche une fonctionnelle permettant de diviser les fonctions en composants et une approche séquentielle permettant de suivre le flux d’information au cours de la progression du processus.

ISO 30300 – Information et documentation – Systèmes de gestion des documents d’activité – Principes essentiels et vocabulaire (2012-2013)
La famille de normes ISO 30300 à 30304 vise la mise en place au sein d’une institution d’un système de gestion des documents d’activité (dans la norme appelé SGDA, dans notre document coffre-fort électronique). Le SGDA définit des politiques, des objectifs et des lignes directrices pour contrôler les documents d’activité à travers des systèmes documentaires. La famille ISO 30300 présente donc un cadre stratégique de haut niveau au sein de l’organisation. Il convient de se référer à la norme ISO 15489 pour ce qui relève de l’opérationnel. Les différentes normes de cette famille visent les objectifs suivants :

– ISO 30300 décrit les principes essentiels et le vocabulaire

 - ISO 30301 définit les exigences nécessaire à la mise en place d’un SGDA 

– ISO 30302 est un guide de mise en œuvre 

– ISO 30303 présente les exigences relatives aux organismes d’audit et de certification 

– ISO 30304 est un guide d’évaluation.

NF Z42-020 – Spécifications fonctionnelles d’un composant Coffre-Fort Numérique destiné à la conservation d’informations numériques dans des conditions de nature à en garantir leur intégrité dans le temps (AFNOR-2012)
Cette norme contient deux chapitres clés : l’un décrit les fonctions minimales que doit posséder un coffre-fort numérique, l’autre précise son implémentation. La norme ne s’intéresse pas directement au contenu de ce qui est archivé. Le coffre-fort ne se préoccupe pas de la signification de l’information mais vise uniquement à assurer la préservation de trains de bits. Il est donc nécessaire de mettre en œuvre des outils complémentaires pour gérer l’identification, l’indexation, la consultation, la mise en forme, l’impression, etc. de ces objets numériques, d’où l’appellation de “composante coffre-fort numérique”.

Les archivistes viennent de l’espace: comment communiquer avec le monde des DSI (2)

28 juin 2012 / By Anouk Dunant Gonzenbach / In Archivage numérique, Gouvernance e-doc, Tous les articles

Par Anouk Dunant Gonzenbach

N’hésitons pas à expliquer ce que font les archivistes

Petite réflexion partagée pré-vacances :

Nous partons souvent du principe que nos interlocuteurs savent ce que nous faisons et forts de ce faux principe nous omettons de le leur expliquer.
Le malentendu s’installe alors lorsque l’on se trouve sur le sujet de l’archivage à long terme. Car pour notre interlocuteur qui vient du monde de l’informatique le long terme dure entre 3 et 5 ans, voire 20 ans quand on insiste sur la valeur légale d’un document né-numérique.

Il est loin de s’imaginer que pour nous, provenant de l’espace, le long terme se compte en centaines d’années. Même si nous, en tant qu’archivistes, on ose à peine croire à cette durée en terme d’archivage électronique, mais c’est un autre problème: en effet la définition officielle de l’archivage à long terme en Suisse, telle que définie par le Centre de coordination pour l’archivage à long terme des documents électroniques CECO/KOST précise que : “l’archivage à long terme des documents électroniques remis à des Archives a pour objectif de faire en sorte que les documents électroniques restent durablement compréhensibles et que leur authenticité, leur intégrité et leur accessibilité soient garanties. Par durablement, on entend une durée illimitée, au minimum plusieurs générations de matériel et de logiciels informatiques”.

Je pense donc qu’il est indispensable lors de nos premières rencontres avec un groupe d’interlocuteurs (chefs de projets SI, collaborateurs des DSI, dirigeants..) de faire un topo sur notre métier et nos missions. Un truc qui fonctionne assez bien au vu des réactions souvent émues est de projeter l’image d’un très ancien document, par exemple un parchemin (s’il est conservé dans notre propre institution c’est le succès garanti). Et ce qui est frappant, c’est de trouver une charte, par exemple, qui est signée par un signe de validation officiel écrit ou dessiné ou qui comporte un sceau.

CH AEG P.H. 1, environ 1100 (CC0)

Et là, on peut démontrer que cette charte, vieille de mille ans, garde toute sa valeur légale, qu’elle est en quelque sorte autoportante. Et que nous devons assurer la même conservation pour les documents électroniques. Je trouve plus facile la discussion qui s’ensuit, car nous sommes dès lors tous sur le même niveau de compréhension.

Le coeur du problème et de la solution: l’authenticité du document électronique

7 juin 2012 / By Anouk Dunant Gonzenbach / In Archivage numérique, Gouvernance e-doc, Tous les articles

Par Anouk Dunant Gonzenbach

Voici un thème du colloque “L’écrit électronique : les règles de l’art” sur lequel j’aimerais revenir.

Ce colloque, organisé le 1er juin 2012 à Bruxelles par les Archives de l’Etat Belge et le Centre de recherche information, droit et société (crids) des Facultés Universitaires Notre Dame de la Paix (FUNDP) de Namur a réuni les intervenants internationaux experts sur l’archivage électronique (entre autres Luciana Duranti, Marie Demoulin, Jean-François Blanchette et Françoise Banat-Berger). Notre collègue Le regard de Janus a fait un compte rendu détaillé sur son blog des conférences de la journée.

Je mets en avant un point clé à mon sens de cette journée et, c’est une évidence, du défi de l’archivage électronique, la question de l’authenticité.
La phrase centrale a été prononcée par Luciana Duranti : si on peut avoir confiance en le système dans lequel le document est conservé, alors on peut faire confiance au document. In fine, c’est une question de confiance. En effet, quand on admire une œuvre d’art dans un musée, on doit bien faire confiance en l’institution pour être sûr que nous avons bien devant les yeux l’œuvre originale. Et cette confiance se base sur les processus du musée qui assurent que ce n’est pas une copie qui est exposée.
La deuxième affirmation centrale : pour garantir l’authenticité des documents, la solution se trouve à 90% dans l’organisationnel (procédures et processus) et à 10% seulement dans les outils techniques (d’où l’importance qui en découle d’avoir les bons outils).
Françoise Banat-Berger a présenté les points de la politique d’archivage sécurisé (P2A) relatifs à cette notion d’authenticité et qui rejoint les travaux du groupe InterPares : pour évaluer l’authenticité d’un document d’archives, il faut établir son identité et démontrer son intégrité.
On entend par identité les attributs qui caractérisent le document et le distinguent d’une manière unique des autres documents.
L’intégrité demande le respect cumulé de 3 éléments : la lisibilité du document, la stabilité de son contenu informationnel et la traçabilité des opérations sur ce document.
Le défi est donc dans la rédaction et la mise en œuvre de ces processus et procédures, décrivant les systèmes d’information, les droits d’accès, les métadonnées, les formats, les règles de nommage, les fichiers logs, l’horodatage, etc. Il n’est plus possible de douter de la nécessité de la présence de l’archiviste dès le projet de création d’un nouveau SI et de la pluridisciplinarité nécessaire à ce type de projet (archivistes, records manager, informaticiens, directeurs SI, directeurs et collaborateurs « métier »). En tant qu’archivistes nous n’en doutions pas, mais cet état de fait, déjà mis en application dans le secteur bancaire ou les assurances, peine à faire son chemin dans les institutions publiques je trouve, surtout devant la complexité des systèmes d’information. J’ai bien aimé la phrase de Françoise Banat-Berger qui reflète si bien la situation dans les SI : « aujourd’hui, plus personne ne se sent responsable car plus personne ne voit rien ».
La législation peine également à suivre en matière de document numérique, on le voit dans les cas belges et français, ou le vocabulaire n’est pas encore fixé et les définitions parfois manquantes.
Pour l’application technique à travers les outils, on retombe sur la question des 3 âges des documents. Les documents sont créés au mieux dans une GED, qui permet de les versionner et de les retrouver puis versés dans un outil RM (une GED qui intègre la gestion du cycle de vie et qui ne contient que les documents validés). Ou un seul outil regroupe ces deux fonctions. Mais pour être conservés plus de 10 ans avec garantie de l’authenticité, il faut transférer alors ces documents dans un système OAIS qui garantit leur intégrité, traçabilité, etc, valide leur format et effectue les migrations. Ce système peut-il être mis en place au sein de chaque service/département d’une administration, ce qui est coûteux et compliqué ? faut-il le mutualiser au sein d’une administration ? Le placer au niveau des archives définitives, qui doivent alors gérer également les destructions à la fin du cycle de vie (solution des Archives départementales de l’Aube en France et bientôt en production pour les Archives fédérales suisses) ? Chez un prestataire externe (avec la question délicate de données personnelles) ? Dans le cloud (étude en cours d’Interpares à suivre) ? Je crois qu’on est toujours à la recherche du ou des schémas idéaux…