3 Fil conducteur
Objectif : Nettoyer et harmoniser un fichier décrivant des lettres numérisés dans un fonds d’archives pour permettre la création de métadonnées dans une bibliothèque numérique.
Le fichier d’origine
Fichier inspiré de la correspondance entre deux érudits du XIXe siècle (source: Archives Départementales de la Vienne / SAO, fonds Camille de la Croix. http://fondspdlc.edel.univ-poitiers.fr/), avec ajout d’anomalies). Les données ont été modifiées et altérées pour se prêter à l’exercice, les fichiers ci-dessous ne constituent donc en aucune manière un reflet fidèle de la source utilisée.
Téléchargez les 3 versions du fichier (ODS, XLSX, CSV), enregistrez le sur le bureau et ouvrez la version ODS ou XLSX (Libreoffice ou Excel)
Que contient-il ?
1 onglet avec 3 lots de données à la suite. Chaque lot comprend des entêtes et est précédé de “lot1”, “lot2”, “lot3”.
Structure générale homogène (mêmes colonness)
Chaque ligne correspond à une lettre identifié par sa cote (col. 1) ; il peut y avoir plusieurs fichiers d’images pour chaque lettre (col. 2)
Contenu présentant un certain degré d’hétérogénéité : format des dates, langue (code ou développé), nombre de pages (parfois avec “p” ou “pages”), mots en majuscule ou minuscules, structure des noms propres,
Données parfois **manquantes* : nbpages et langue, dates
Formatage informatique des données : texte, et parfois date (lot3) ou nombre (col. nbpages sauf si “p.” ou “page” est ajouté)
10 colonnes :
- cote
- fichier et page
- auteur
- sujet
- date
- description
- Format
- Fonds
- destinataire
- nbpages
- langue
Le résultat attendu
Téléchargez le fichier “final” exo1_final.xlsx et ouvrez le avec LibreOffice ou Excel.
Chaque ligne correspond à un fichier image.
12 colonnes :
- fichier
- titre
- cote
- auteur
- date
- sujet
- description
- format
- fonds
- destinataire
- nbpages
- langue
Principales transformations :
- supprimer les entêtes, numéros de lots et espaces entre les 3 lots
- harmoniser les cotes (passer en majuscules)
- harmoniser les noms des auteurs et destinataires
- harmoniser les sujets
- supprimer le sujet “archéologie”
- harmoniser les dates et la gestion des dates manquantes
- harmoniser les langues et la gestion des langues manquantes
- harmoniser les nombre de pages et la gestion des nombre de pages manquants
- ajouter le titre dans une colonne, en le construisant sur le modèle “[Lettre de … à … du jj mmois aaaa] page …”
- dupliquer les lignes pour chaque lettre comportant plusieurs images
- identifier le fichier correspondant à chaque page
- renommer des colonnes
- déplacer des colonnes