3 Fil conducteur

Objectif : Nettoyer et harmoniser un fichier décrivant des lettres numérisés dans un fonds d’archives pour permettre la création de métadonnées dans une bibliothèque numérique.

Le fichier d’origine

Fichier inspiré de la correspondance entre deux érudits du XIXe siècle (source: Archives Départementales de la Vienne / SAO, fonds Camille de la Croix. http://fondspdlc.edel.univ-poitiers.fr/), avec ajout d’anomalies). Les données ont été modifiées et altérées pour se prêter à l’exercice, les fichiers ci-dessous ne constituent donc en aucune manière un reflet fidèle de la source utilisée.

Téléchargez les 3 versions du fichier (ODS, XLSX, CSV), enregistrez le sur le bureau et ouvrez la version ODS ou XLSX (Libreoffice ou Excel)

Que contient-il ?

esperandieu

1 onglet avec 3 lots de données à la suite. Chaque lot comprend des entêtes et est précédé de “lot1”, “lot2”, “lot3”.

  • Structure générale homogène (mêmes colonness)

  • Chaque ligne correspond à une lettre identifié par sa cote (col. 1) ; il peut y avoir plusieurs fichiers d’images pour chaque lettre (col. 2)

  • Contenu présentant un certain degré d’hétérogénéité : format des dates, langue (code ou développé), nombre de pages (parfois avec “p” ou “pages”), mots en majuscule ou minuscules, structure des noms propres,

  • Données parfois **manquantes* : nbpages et langue, dates

  • Formatage informatique des données : texte, et parfois date (lot3) ou nombre (col. nbpages sauf si “p.” ou “page” est ajouté)

10 colonnes :

  1. cote
  2. fichier et page
  3. auteur
  4. sujet
  5. date
  6. description
  7. Format
  8. Fonds
  9. destinataire
  10. nbpages
  11. langue

Le résultat attendu

Téléchargez le fichier “final” exo1_final.xlsx et ouvrez le avec LibreOffice ou Excel.

esperandieu : objectif

esperandieu : objectif

Chaque ligne correspond à un fichier image.

12 colonnes :

  1. fichier
  2. titre
  3. cote
  4. auteur
  5. date
  6. sujet
  7. description
  8. format
  9. fonds
  10. destinataire
  11. nbpages
  12. langue

Principales transformations :

  • supprimer les entêtes, numéros de lots et espaces entre les 3 lots
  • harmoniser les cotes (passer en majuscules)
  • harmoniser les noms des auteurs et destinataires
  • harmoniser les sujets
  • supprimer le sujet “archéologie”
  • harmoniser les dates et la gestion des dates manquantes
  • harmoniser les langues et la gestion des langues manquantes
  • harmoniser les nombre de pages et la gestion des nombre de pages manquants
  • ajouter le titre dans une colonne, en le construisant sur le modèle “[Lettre de … à … du jj mmois aaaa] page …”
  • dupliquer les lignes pour chaque lettre comportant plusieurs images
  • identifier le fichier correspondant à chaque page
  • renommer des colonnes
  • déplacer des colonnes