Photographies : Fonds de la guerre 14-18 en Bretagne

Parcours de la base de données photographiques de la guerre 14-18, rendue publique par le Ministère de la Culture et de la Communication.

À propos de ces photos

Voici la description donnée par le Ministère de cette collection de photos :

« Ces photographies ont été réalisées à des fins de propagande et de documentation par les services français –notamment la Section photographique et cinématographique des armées à partir de 1917– ou par les services alliés (Portugal, Italie). Elles montrent l’effort de guerre, les dégâts causés par les combats aux monuments historiques, l’évacuation des œuvres d’art, la situation à l’arrière du front (vie des civils, camps d’internement, de prisonniers, hôpitaux ou des militaires -théâtre aux armées) … »

Aperçu du jeu de données

Le dataset, intitulé Photographies : Fonds de la guerre 14-18, est disponible sur le site d’Open Data du Ministère de la Culture et de la Communication. Une fois téléchargé, il contient 7840 entrées photographiques, avec leur lien. En filtrant sur la Bretagne, nous comptons une base de 282 photos.

Ces photos se répartissent, par département :

Ici, une forte place pour le Morbihan, qui occupe presque la moitié de notre jeu de données (113 des 282 photos). Vient ensuite l’Ille-et-Vilaine, comptant pour 93 des 282 photos. Très peu de clichés ont été pris dans les Côtes d’Armor.

Visualisons les villes d’origine des photos sur une carte :

Rennes, avec 75 unités, compte pour le plus grand volume de photos — seulement deux autres villes d’Ille-et-Vilaine ont été photographiées.

Topologie de la bibliothèque par série

Les photos sont classées par séries. Quelle répartition pour ces étiquetages ?

Presque sans surprise, nous retrouvons une large proportion de photo issues d’une série sur les prisonniers.

Topologie des lieux

Le jeu de données contient une entrée EDIF, regroupant les édifices / lieux de capture des clichés. Comment se répartissent-ils ?

Dans ces séries de photos de Bretagne, les lieux les plus représentés sont l’École Nationale d’Agriculture et l’Hopital Militaire — tous les deux situés en Ille-et-Vilaine.

Pourquoi cette forte présence de l’École Nationale de Rennes ? Il s’agit d’un lieu important de la vie civile durant la guerre — cet établissement a été transformé en centre de rééducation des mutilés de guerre : les anciens combattant y apprenant les métiers de l’agriculture équipés de prothèses et d’outils spécifiques. Nous pouvons supposer que, les clichés étant réalisés à des fins de propagande militaire, ce lieu de réadaptation des blessés de guerre a reçue une forte attention durant cette période.

Identifier les images

Pour parcourir cette bibliothèque, nous allons interroger l’API Computer Vision de Microsoft — une solution basée sur le deep learning qui vous permet d’étiqueter des photos.

Mais avant, aperçu via les légendes du jeu de données d’origine.

Unigrammes des légendes

Quels sont les mots les plus présents dans les légendes de ces photos ?

Bigrammes des légendes

Même question, avec des couples de mots !

Peu de surprises dans les légendes des photos, tant sur les unigrammes que sur les bigrammes — « camps », « internés », « civil », « officiers prisonniers », « officiers allemand »… nous retrouvons un parallèle entre ces légendes et la série de photos la plus peuplées (pour rappel : Prisonniers).

Carte des légendes

Quelle représentation des légendes sur le territoire ?

À Rennes, ville la plus représentée, le mot le plus présent est « mutilés ». Une présence forte qui peut s’expliquer par la présence d’un camp de rééducation pour mutilés de guerre dans la capitale bretonne… à l’École Nationale d’Agriculture !

Microsoft Computer Vision

Quel résultat si l’on passe ces photos dans l’API Microsoft Computer Vision ?

NB : l’API renvoyant de l’information en anglais, les labels suivants sont dans cette langue.

Ce qui donne, sur une carte

Peu de découverte si l’on se cantonne au premier mot pour chaque ville, ou au tags les plus récurrents renvoyés par l’API — beaucoup de « Photo », « Black », « White », « People »…

Alors, l’API de Microsoft est-elle vraiment capable de nous raconter automatiquement l’histoire de ces photos ? Voici 3 clichés, accompagnés de leurs légendes données par la machine :

A group of people in a living room filled with furniture and a window.

Bref, l’API ne semble pas toujours au point… peut mieux faire ? La première photo de ce triptyque montre une légende relativement pertinente (un groupe de personne posant pour une photo). La seconde est totalement à côté de la vérité (ou alors, il s’agit d’une bien étrange cuisine…), et la troisième semble être la seule bien légendée.

Cependant, et pour la défense de la machine, la qualité des photos n’est peut-être pas assez bonne pour être un traitement de la meilleure manière : la liste des urls dans le jeu de données d’origine renvoit les vignettes de ces clichés.

Pour conclure, la pertinence maximale de l’étiquetage penche du côté de la description manuelle. Toujours est-il qu’avec la machine, elle reste beaucoup plus rapide !

Rédigé par: Colin FAY

Créateur et rédacteur en chef de Data Bzh.

Twitter Linkedin Github