par Anouk Dunant Gonzenbach

Un hackathon est un événement de deux jours sous forme de workshop lors duquel des développeurs informatiques collaborent avec des chercheurs autour de projets d’applications informatiques.

Le premier Hackathon culturel suisse  a eu lieu à la Bibliothèque nationale à Berne les 27 et 28 février 2015,  organisé par le groupe detravail OpenGLAM (openglam.ch) en collaboration avec la Bibliothèque nationale suisse etd’autres institutions, dont infoclio.ch (GLAM est l’acronyme de Galleries, libraries, Archives and Museums).

Il a réuni une centaine de personnes,chercheurs, acteurs culturels, archivistes, bibliothécaires, programmeurs et wikipédienspour travailler avec des données du monde de la culture. Ces données sont par exemple des inventaires d’archives ou des collections de photos (collections de photos de la Ville de Zurich, inventaire des documents diplomatiques suisses-Dodis, collection de photos du musée historique de Bâle, Journal de Genève numérisé, etc.), des procès-verbaux de gouvernements cantonaux ou les images numérisées des Conventions de Genève, téléchargeables ici.

Mais que peuvent bien faire cent geekettes et geeks pendant deux jours avec des données culturelles?

image

Après une brève présentation des jeux de données, les participants qui viennent avec une idée précise l’exposent en
plénière : médiation numérique en milieu muséal, lier des images à un lieu (tourisme), outil qui aide à traduire des documents d’archives, import de données dans Wikidata, etc.

Une pause, pendant laquelle chacun se rallie à un projet, puis les groupes se constituent et commencent à travailler. En parallèle ont lieu des ateliers sur le linked open data, Wikidata…

Voici quelques exemples de résultats  :

·  Géoréférencement de cartes historiques de la Suisse provenant de la collection Marcel Zumstein, et superposition sur la
carte actuelle :  http://klokan.github.io/openglambern/

·  Une performance artistique : deux acteurs dans un dialogue avec des mots tirés des jeux de données, dont une partie
« itinéraire poétique à travers les monuments classés »

·  Importation de la collection de photos de la Ville de Zurich dans Wikimedia commons : ajouter des métadonnées, des
mots-clés (nom d’un église par exemple) et le nom du photographe. La présence d’une archiviste (Archives fédérales) avait tout son sens pour le choix des métadonnées, la description des photos et l’orientation dans la collection de photos :  http://make.opendata.ch/wiki/project:historical_views_of_zurich_data_upload

·  Enrichir des articles de Wikipedia avec les photos de la publication “Zürich 1799: Eine Stadt erlebt den Krieg”, publiée
par la Ville de Zurich sous la licence CC-BY-SA-3.0 :  http://make.opendata.ch/wiki/project:zuerich_1799

·  Développement d’un petit outil qui récupère les catégorie de Wikimedia Commons afin que les GLAM puissent les utiliser pour indexer leurs documents, par exemple des collections de photos..

En plus détaillé, voici le projet auquel j’ai participé :

· Documents diplomatiques suisses et presse genevoise, 1914

Ce projet utilise deux jeux de données : les documents diplomatiques suisses et le Journal de Genève (quotidien genevois aujourd’hui disparu, dont la collection numérisée est disponible en ligne). L’objectif est de connecter des articles de presse du Journal de Genève (quotidien genevois numérisé en ligne) et un échantillon de la collection des Documents diplomatiques suisses (Dodis). Le principe est d’effectuer une requête dans les descriptions de Dodis (métadonnées) pour rechercher, sur un intervalle de temps précis, ce qui apparaît dans la presse en comparant les occurrences qui se trouvent dans les deux jeux de données. Il sera ainsi possible d’examiner si la presse écrite reflète ce qui se passe au niveau diplomatique. Le projet se concentre sur la période de l’été 1914.

image

Il s’agit d’épurer les articles du Journal de Genève (enlever tout le bruit, par exemple les termes plus petits que 4 signes). L’épuration est un travail énorme, qui correpond à un pré-process d’indexation du journal. Des comparaisons sont créés sur des vecteurs de petite taille et des paires sont faites entre l’index du mot et l’occurrence de ce mot. Des groupes sémantiques sont ainsi recomposés (thésaurus).

image

Les difficultés sont techniques, mais pas que. Par exemple, il y a le problème de la masse à traiter : au début, le travail est effectué sur 15 jours de données du journal, puis sur 3 mois. Ou encore, certains documents étaient classifiés à l’époque, donc les décisions dont il est question n’apparaissent pas dans la presse.

image

Le résultat du projet se trouve ici : http://make.opendata.ch/wiki/project:diplomatic_documents_and_swiss_newspapers_in_1914

La deuxième partie du projet a été  de géolocaliser le corpus. Les métadonnées de lieu sont extraites de jeux de données et géoréférencées sur une carte géographique.

En conclusion, je pense qu’il est important que les institutions d’archives mettent à disposition des jeux de données en open data pour ce genre d’événement. J’ai trouvé passionnant de participer et d’observer quels usages peuvent être faits des données culturelles et de travailler avec des développeurs géniaux. Deux jours devant un écran, nourris en intraveineuse à coup de sandwiches au salami et finir les yeux explosés, c’est aussi une expérience à vivre ! Merci infiniment aux organisateurs de ce hackathon culturel. Les résultats de projets, documentés sur la wiki du Hackathon.