Le présent d'hier et de demain

Réflexions sur les archives et surtout l'archivistique à l'ère du numérique (et parfois même un peu de poésie) – Anouk Dunant Gonzenbach

Archivistes, battons-nous pour conserver les dossiers personnels!

Par Anouk Dunant Gonzenbach

A l’heure de la tendance à vouloir détruire les données personnelles au nom de la protection de la vie privée, voici une petite réflexion sur le sujet.

Actuellement, la Suisse présente ses excuses officielles aux personnes qui ont été, enfants, enlevées à leur famille et placées de force dans des institutions ou des familles d’accueil entre la fin du 19e siècle et 1980. Ce placement se désigne aujourd’hui par le terme d’“enfances volées” . Ces enfants ont vécu de foyers en familles d’accueil dans des conditions le plus souvent terribles et leur enfance leur a été volée. Une exposition itinérante retrace cette histoire

Dans le cadre de cette exposition a eu lieu à Genève une table ronde sur intitulée “Sur les traces de son enfance”, axée sur l’importance de l’accès à son histoire et soulevant les questions suivantes: quelles mémoires interroger? Pourquoi se souvenir de son passé? Cet événement a réuni Jean-Louis Claude, un ancien enfant placé, Dr Dora Knauer, médecin-adjoint au service de psychiatrie de l’enfant et de l’adolescent des hôpitaux universitaires de Genève, Olivier Baud, secrétaire général de la fondation officielle de la jeunesse, Chantal Renevey Fry, archiviste du département de l’instruction publique, de la culture et du sport et Gérard Bagnoud, archiviste du pouvoir judiciaire.

Jean-Louis Claude a témoigné de sa longue quête pour reconstruire, à travers les documents d’archives, les parties de son enfance qui lui manquaient. Les archivistes ont présenté les sources disponibles et le rôle de l’archiviste. Un des points capital à retenir pour nous est l’importance de l’accueil réservé aux personnes qui viennent consulter leurs propres dossiers aux archives après un  parcours écorché. Soyons humains et pas fonctionnaires obtus, professionnels, et surtout entourons-nous d’un professionnel (assistant social par exemple) qui recevra la personne dans une salle ad hoc pour ne pas qu’elle soit confrontée à des événements douloureux au milieu d’une salle de lecture publique.

Mais surtout, je voulais ici mettre en avant le point de vue du Dr Knauer, qui affirme que l’accès à ses dossiers est essentiel pour une personne qui veut reconstruire les parties manquantes de sa vie, notamment de son enfance. Ce processus de reconstruction, indispensable, doit être rendu possible. Les dossiers personnels doivent donc absolument être conservés.

Il faut vraiment faire comprendre à ceux qui mettent la protection des données en première priorité que le versement de documents dans les institutions d’archives protège ces documents d’une consultation inadéquate puisque leur accès est régi par des délais légaux. Une fois versés aux archives, ces données sont protégées mais conservées. Conservons donc les dossiers personnels, pour que les personnes concernées aient la possibilité d’y avoir accès!

Métadonnées intégrées aux images numérisées, partie 2: le choix de deux institutions publiques genevoises

Par Xavier Ciana, Emmanuel Ducry et Anouk Dunant Gonzenbach

Voici le second billet consacré aux métadonnées intégrées aux images numérisées.  Après un précédent panorama des principaux standards de métadonnées, celui-ci présente les choix effectués par deux institutions publiques genevoises en matière de métadonnées images.

Dans le cadre de la diffusion d’archives numérisées (de documents anciens dont les originaux sont conservés),  les deux objectifs principaux qui motivent l’intégration de métadonnées dans des images sont d’identifier la provenance des documents et d’informer sur les conditions d’utilisation.

L’identification ne pose pas de problèmes lorsqu’un document numérisé est consulté dans son contexte, en général sur le site web de l’institution qui l’a numérisé. Par exemple, lorsqu’un registre d’état civil est consulté sur le site d’une collectivité publique, l’interface de consultation servant d’outil de recherche fournit les informations nécessaire à l’identification du registre original ainsi que les éléments de contexte nécessaires à sa compréhension (provenance, date, etc.).

Mais que se passe-t-il lorsqu’un document – ou une partie de celui-ci – est extrait de son contexte puis republié? C’est un axiome du monde numérique : tout document qui peut être lu peut être copié et reproduit. En général, plus un document suscite de l’intérêt, plus il est reproduit et partagé. Et plus les copies sont nombreuses, plus la probabilité est forte que les informations qui accompagnaient le document lors de la publication initiale soient laissées de côté. C’est ici que les métadonnées intégrées jouent un rôle : lorsqu’une personne copie une image avec des métadonnées, elle reproduit également, même sans le savoir, des informations sur cette image.

Les métadonnées intégrées permettent donc de signaler l’institution qui a numérisé une image ainsi que d’identifier cette image sans ambiguïté (grâce à une cote ou un identifiant unique).  Sans informations d’accompagnement ni métadonnées intégrées, il  peut être extrêmement difficile de retrouver  le fonds ou  le dossier  d’origine d’une image isolée.

Le choix des métadonnées liées aux conditions d’utilisation feront l’objet d’un prochain billet.

  • Métadonnées images retenues par les archives d’Etat de Genève

Le choix de départ s’est évidemment porté sur les deux catégories de métadonnées liées aux images numérisées: les métadonnées  Exif et les métadonnées IPTC.

IPTC
Ce type de métadonnées sert en premier lieu à identifier l’institution et à gérer les droits d’utilisation. Les noms du pays, du canton et de l’institution qui met à disposition ses images et qui conserve les originaux est indispensable pour leur identification. En revanche, s’il est prévu de mettre à disposition les images pendant une longue durée, les métadonnées susceptibles de changement sont peu intéressantes à compléter (par exemple l’adresse web ou email de l’institution). Une recherche sur le nom d’une institution permet de retrouver facilement ces informations susceptibles de changer régulièrement.

On constatera qu’aucune cote ou identifiant unique ne figure par parmi ces champs. Dans le cas de ce projet, cette information apparaît uniquement dans le nom du fichier. Ce n’est peut-être pas une solution idéale, mais intégrer la cote dans les  métadonnées IPTC aurait nécessité un post-traitement qui devait être évité dans le cadre de ce projet.

EXIF
Le cas des métadonnées EXIF est un peu particulier. Ces métadonnées techniques relèvent en définitive plus de la conservation à long terme que de la diffusion. Toutefois, tous les appareils d’imagerie numérique produisent ces métadonnées.  Faut-il les conserver ou les supprimer ? Leur taille étant négligeable en regard du poids des images, il a été décidé de les garder. Mais quelles métadonnées EXIF sélectionner parmi le vaste panel proposé par ce modèle ? Quelques contacts menés auprès de diverses institutions ont démontrés des pratiques assez aléatoires. Généralement, on se contente des réglages installés par défaut sur la machine. La question est d’autant plus difficile que l’on entre dans un domaine technique qui devient vite pointu et avec lequel les photographes ont souvent plus d’affinités que les archivistes.

Pour répondre à cette question, la norme américaine Z39.87 “Data Dictionnary – Technical Metatata for Still Image”, qui offre un jeu de métadonnées pour la gestion tout au long du cycle de vie des images “pixellisées” (bitmap ou raster), a servi de point de départ. Cette norme n’est d’ailleurs pas sans lien avec le modèle PREMIS, ce qui est intéressant dans le cas d’une éventuelle réutilisation de ces métadonnées internes. A partir de là, une table d’équivalence entre la version “trial 2002” de cette norme et les spécifications EXIF 2.2 a été utilisée pour identifier  les champs permettant de répondre aux exigences Mandatory (M), Mandatory if Applicable (MA) ou Recommend ® de Z.39.87. Attention, il n’existe pas systématiquement un champ EXIF pour répondre aux exigences de la norme. Certains champs retenus peuvent ainsi ne pas être renseignés. La norme n’est donc pas entièrement respectée, mais on s’en rapproche le plus possible. A partir de là, un jeu de métadonnées techniques minimales a été choisi à l’aide des champs EXIF.

Métadonnées retenues:

image

image

  • Métadonnées images retenues par les archives de la Ville de Genève

XMP
Un des principaux choix à effectuer est le standard à utiliser pour intégrer les métadonnées (IPTC, Exif ou XMP). XMP a été retenu pour les avantages que présente ce format (basé sur XML et RDF, extensible, standard récent) mais également car c’est le seul des trois standards qui permet d’intégrer des métadonnées dans des fichiers qui ne sont pas des images, notamment des PDF. Dans le cadre d’un projet de numérisation, XMP rend possible l’utilisation des mêmes éléments de métadonnées quel que soit le type de fichier produit (JPG et PDF par exemple).

Dublin Core
A l’intérieur d’XMP les métadonnées peuvent être exprimées à l’aide de différents schémas (IPTC Core, Dublin Core, schéma photoshop etc.). Il est donc nécessaire de faire des choix parmi ces standards. Un nombre limité d’éléments Dublin Core a été retenu car ils semblaient bien répondre aux objectifs de base (identifier les images et donner le statut juridique).

Métadonnées retenues:

image

Le jeu de métadonnées Dublin Core est assez central dans XMP, en effet les informations de description élémentaires sont souvent signalées à l’aide de ce schéma. IPTC Core s’appuie également sur certains éléments Dublin Core. Ainsi, plutôt que de créer un nouvel élément ad hoc  pour le titre d’une photographie, IPTC Core recommande l’utilisation de l’élément « titre » de Dublin Core (dc:Title). Puisqu’ils sont fréquemment utilisés, ces éléments Dublin Core sont plutôt bien reconnus et ils ont d’autant plus de chances d’être lus par les différents logiciels de visualisation d’images. Les nombreux logiciels qui reconnaissent les métadonnées IPTC Core seront donc capables d’afficher (au minimum) les éléments communs à Dublin Core et IPTC Core (voir ci-dessous).

image

Références

  • Pour les réflexions qui ont mené à ces études et à la rédaction de ce billet, nous nous sommes aussi inspirés du blog S.I.Lex à lire et là.

Métadonnées intégrées aux images numérisées : partie 1

Par Xavier Ciana, Emmanuel Ducry et Anouk Dunant Gonzenbach

Lors d’un projet de numérisation de documents, il est nécessaire de se pencher sur la question des métadonnées images pour des raisons de gestion documentaire, de droits d’accès, de recherche, d’identification du document, etc.

La problématique abordée ici concerne la numérisation de documents ou registres patrimoniaux à des fins de diffusion. C’est un point qu’il vaut mieux en effet aborder dès le début d’un projet de numérisation. Dans le cas présent, il s’agit d’un projet qui a débuté en 2006 et à cette époque, nous n’avions pas imaginé normaliser ces métadonnées. Ce besoin s’est ensuite fait ressentir et c’est pourquoi nous proposons aujourd’hui cette réflexion.

En Suisse romande, il n’y a pas d’harmonisation des pratiques concernant les métadonnées liées aux images numérisées diffusées en ligne par des institutions d’archives. De plus, on constate que la littérature professionnelle sur le sujet du point de vue archivistique n’est pas complètement aboutie.

La question de ce type de métadonnées sera abordée en 4 billets:

1. Panorama des principaux standards en matière de métadonnées intégrées aux documents numérisés (ci-dessous)
2. Liste des métadonnées retenues par deux institutions publiques genevoises dans le cadre de leurs projets de numérisation
3. Le choix du droit d’utilisation des images
4. Retour d’expérience par rapport à ces choix

LES STANDARDS DES METADONNEES
Les trois standards majeurs en matière de métadonnées intégrée aux images sont :

IPTC-IIM
L’IPTC (International Press Telecommunications Council) développe au début des années 1990 l’Information Interchange Model (IIM), qui est une structure et un jeu d’attributs de métadonnées applicable à des fichiers texte, des images et d’autres types de média. En ce qui concerne les images, les attributs prévus par le modèle IPTC-IIM comportent par exemple : le créateur, le titre, la date, des informations géographiques (pays, région, ville) ou des éléments de description (mots-clés, légende). Au milieu des années 1990, les logiciels d’Adobe – notamment Photoshop – ont permis d’intégrer ces éléments directement dans les fichiers images. Cette façon de faire a dès lors connu un large succès, de nombreuses images ont été « augmentées » de métadonnées et aujourd’hui encore, beaucoup de logiciels de visualisation ou de retouche photographique permettent d’afficher et de modifier ces informations. Par commodité de langage, celles-ci sont généralement appelées « métadonnées IPTC » ou « en-têtes IPTC / IPTC headers ».
A l’heure actuelle, cette manière d’intégrer  les attributs IPTC-IIM directement dans les images est en passe de devenir obsolète, en effet, les auteurs du modèle IPTC-IIM recommandent maintenant d’utiliser le standard XMP pour inclure ces attributs dans des fichiers.

EXIF
Etablie à l’origine par le Japan Electronic Industry Development Association (JEIDA), l’Exif (Exchangeable image file format) est une spécification de formats de fichiers pour les images et sons produits par les appareils photographiques numériques. Cette spécification repose sur des formats existants (tels que JPEG et TIFF pour les images ou RIFF WAV pour les fichiers audio), et y ajoute des balises de métadonnées. Les métadonnées Exif sont typiquement générées automatiquement lors de la création d’une image, c’est-à-dire par l’appareil photo au moment de la prise de vue. La très grande majorité des métadonnées Exif sont techniques, il s’agit d’éléments tel que la taille de l’image, la résolution, la compression ainsi que des données concernant la prise de vue : la date, le temps de pose, la distance focale, l’utilisation d’un flash,  ou encore la position GPS de l’appareil. Le grand avantage des métadonnées Exif est l’automatisation : la plupart des appareils photographiques numériques (notamment les smartphones) créent des données Exif dans les images, même sans aucune intervention de l’utilisateur. De plus, les métadonnées Exif sont largement reconnues et peuvent être lues et affichées par un grand nombre de logiciels de traitement d’images et ceux-ci conservent généralement les données Exif lors des modifications successives des fichiers. Enfin certains sites web exploitent également de manière automatique les métadonnées Exif présentes dans les images, notamment les coordonnées GPS. 

XMP
En 2001, Adobe introduit l’ “Extensible Metadata Platform” (XMP), un standard basé sur XML  et RDF, qui permet d’intégrer des métadonnées dans plusieurs formats de fichiers (TIFF, JPEG, JPEG 2000, PDF, PNG, HTML, PSD etc.). XMP est extensible et peut donc accueillir n’importe quel type de métadonnées du moment que celles-ci sont exprimées en XML. Dès l’origine, XMP incorpore un certain nombre de standards de métadonnées, un des plus importants étant certainement Dublin Core, qui permet d’accueil des métadonnées élémentaires tel qu’auteur, titre, identifiant, date ou encore des informations sur les droits d’auteurs du document. « IPTC Core » est un autre des schémas majeurs inclus dans XMP, il permet d’utiliser les attributs du modèle ITPC-IMM (décrit ci-dessus) à l’intérieur d’XMP. Le schéma « IPTC Core » fait  donc d’XMP le successeur officiel aux métadonnées IPTC.
Un dernier exemple de schéma pouvant être intégré à XMP est VRACore, un standard destiné à la description des objets ou œuvres d’arts représentés dans des photographies. VRACore n’est pas centré sur le fichier image, mais sur l’œuvre originale. Ce standard permet notamment d’en décrire l’auteur, la  taille, les matériaux ou techniques de création, ainsi que signaler le musée ou l’institution qui conserve l’objet original.  
Le champ couvert par les métadonnées XMP est donc très large et comporte aussi bien des informations de description, notamment via Dublin Core, que des données techniques ou encore des éléments de gestion de droits d’auteur ou de workflow.
L’intégration de métadonnées à des images grâce à XMP est intéressante à plusieurs titres : comme les données sont en XML/RDF elles peuvent être exploitées à l’aide d’outils standards. En outre de plus en plus de logiciels récents (notamment Windows 7) sont capables d’afficher et d’exploiter les métadonnées XMP. Enfin, si une institution à des besoins spécifiques, il lui est possible d’intégrer ses propres modèles de métadonnées dans XMP.

Cohabitation des standards
Techniquement, des éléments provenant des trois standards (IPTC-IIM, Exif et XMP) peuvent figurer dans un même fichier sans aucun problème.
Au niveau du contenu des métadonnées, les choses ne sont pas aussi simples : en effet certaines informations peuvent être répétées dans les trois standards, notamment des éléments de base tels que le créateur d’une image, sa date ou encore son droit d’utilisation. Si plusieurs standards sont utilisés simultanément, il est alors nécessaire d’assurer la cohérence des contenus afin d’éviter les disparités (par exemple un même fichier avec une date de création dans Exif et une date différente dans XMP).  Le Metadata Working Group, une coalition réunissant notamment Adobe, Apple et Microsoft, a émis des recommandations afin d’assurer la cohérence et la préservation des métadonnées lors de l’utilisation simultanée de plusieurs standards.

De multiples scénarios de cohabitation sont possibles : un même fichier peut par exemple contenir des métadonnées techniques issues du scanner dans Exif tandis que les métadonnées de description et celles relatives au droit d’auteur sont exprimées dans XMP. Comme on peut le constater dans le schéma ci-dessous, il est également possible de regrouper l’ensemble des données ITPC ou Exif dans XMP.
image

CC-BY

Comment lire les métadonnées ?
Les métadonnées peuvent être à ajoutées à des images dans un but interne à une institution (description, processus de travail etc.), ou dans un but externe (enrichir les informations lors la diffusion). Quelles que soient les raisons initiales qui justifient l’intégration de ces informations à des fichiers images, il est évidemment souhaitable que celles-ci puissent être lues par les plus grand nombre de personnes qui vont consulter ou réutiliser ces images. Cette lecture dépend des logiciels utilisés pour visualiser les images. Si la majorité des logiciels de gestion et traitement de photographies sont capables de lire et de modifier les métadonnées intégrées, ce n’est pas le cas de tous les systèmes d’exploitation et logiciels généralistes. Windows XP utilise son propre système de métadonnées et de commentaires ad hoc appelé “Alternate Data Streams (ADS)” et peut uniquement lire un nombre restreints d’éléments Exif. Pour un utilisateur de Windows XP, la quasi-totalité des métadonnées intégrées dans une image seront donc invisibles. Le support pour lire les métadonnées « de base » (auteur, titre, date, droits, etc.) est meilleur dans les systèmes d’exploitation plus récents. Dans Windows 7, certains éléments des métadonnées issus des trois standards sont directement affichés dans l’explorateur ou figurent dans l’onglet « détail » de chaque fichier. Windows 7 est également capable de faire des recherches dans les métadonnées intégrées. Mac OS X permet lui aussi (dès la version 10.6) de rechercher dans les métadonnées et le logiciel « Aperçu » (utilisé par défaut pour ouvrir les images) affiche des éléments provenant des trois standards.
image

Eléments de métadonnées affichés par l’explorateur Windows 7.
Le nom affiché ci-dessus sous « Auteurs » a été intégré à l’image grâce au standard XMP, dans l’élément Dublin Core « creator ».

Références