5 Explorer et nettoyer ses données

5.1 Découverte de l’espace de travail

Découverte de l’espace de travail

Découverte de l’espace de travail

Découverte de l’espace de travail

Découverte de l’espace de travail

Activité :

Combien de lignes fait le fichier? Voit-on tout à l’écran?

Comment voir la liste de toutes les colonnes?

5.2 Les types de données

La grille de données peut contenir 4 types de valeurs principales:

  • Texte (en noir)
  • Nombre (en vert)
  • Date (en vert)
  • Booléen (en vert)

Ainsi que deux valeurs spéciales, qui ne peuvent pas être saisies manuellement :

  • “null” (absence de toute information, normalement invisibles, mais peuvent être affichées en gris après activation du menu Toutes > Aperçu > Afficher/masquer les valeurs nulles dans les cellules)
  • “erreurs” (en rouge), créées par certaines formules si une option est activée dans l’éditeur de formules)

Une même colonne peut contenir différents types de valeur (contrairement à R par exemple).

5.3 Modifications manuelles et globales

  • Modification manuelle d’une ou plusieurs cellule : bouton edit visible au survol
    • appliquée à une cellule
      • dans ce cas, la modification n’est pas exportable dans l’historique
    • appliquée à toutes cellules ayant la même valeur dans la colonne
  • Actions globales : menu visible en cliquant sur le triangle en haut de chaque colonne.

  • Affichage sélectif (tris, filtres, facettes…)
  • Modifications (remplacements, nouvelles colonnes…)

Activité :

Remplacer toutes les valeurs de “English” par “Anglais” dans la colonne Language

5.4 Réordonner, supprimer, renommer des colonnes

1re solution : sur la colonne souhaitée, menu Editer la colonne:

  • Editer la colonne > Renommer cette colonne
  • Editer la colonne > Supprimer cette colonne
  • Editer la colonne > Déplacer la colonne en premier
  • Editer la colonne > Déplacer la colonne en dernier
  • Editer la colonne > Déplacer la colonne à gauche
  • Editer la colonne > Déplacer la colonne à droite

2e solution : 1re colonne Toutes, menu Retrier/supprimer les colonnes

5.5 Trier ses données

Activité :

Trier les données en fonction des valeurs de la colonne Authors (options par défaut : ordre alphabétique, sans tenir compte des majuscules)

Le tri est temporaire. Comment s’en rendre compte?

Appliquer le tri de façon permanente

5.6 Filtrer ses données

Activité :

Filtrer le fichier pour afficher les lignes dont la colonne Title contient le mot “structures”. Combien de lignes sont concernées?

    • Réponse?
    • 837

Idem pour “structure” au singulier?

    • Réponse?
    • 49

Les résultats de ces deux recherches sont-ils distincts?

    • Réponse?
    • Non, le filtre “structures” inclut les résultat du filtre “structure”

Idem pour “structural”?

    • Réponse?
    • 6

Comment filtrer sur cette colonne en prenant en compte tous les mots commençant par “structur*" sans tenir compte des variante de majuscules?

    • Réponse
    • Utiliser une expression régulière : structur.*

      Une expression régulière est une chaîne de caractères décrivant au moyen d’une syntaxe spéciale plusieurs chaînes de caractères possibles.

      Ex:

      a[bc] -> ab ou ac
      a.{2,4}c -> a, une suite de 2 à 4 caractères, c
      Ni(ce|ssa) -> Nice ou Nissa 

Combien de lignes sont concernées?

    • Réponse?
    • 842

Ajouter un filtre supplémentaire sur la colonne Authors : lignes contenant “Fortes”. Combien de lignes sont concernées?

    • Réponse?
    • 2

Important : Toutes les opérations (export, nouveaux filtres, facettes, modifications groupées) s’opèreront uniquement sur les données filtrées.

Sur les lignes affichées, faire une modification de masse du code de langue : passer de “EN” à “ENGLISH” (en majuscules)

Vérifiez visuellement que seules deux lignes ont été modifiées (on ne peut pas encore en être certain…)

Inversez le premier filtre

Réinitialisez le premier filtre

Supprimer le premier filtre. Supprimer le second filtre.

5.7 Appliquer des facettes sur ses données

Les facettes sont utiles pour avoir un aperçu synthétique des données, repérer des anomalies, isoler des valeurs à modifier, modifier globalement un codage…

Une facette permet de lister toutes les valeurs distinctes contenues dans une colonne, et de sélectionner les lignes contenant une valeur donnée dans cette colonne.

La combinaison de facettes portant sur une même colonne ou plusieurs colonnes permet de préciser la sélection.

Par défaut, seuls les 2000 premiers choix sont affichés. S’il y en a plus, Openrefine propose d’augmenter cette limite, ou de n’afficher que les choix les plus fréquents (« facette par nombre de choix »). Le choix reste mémorisé lors des utilisations ultérieures.

5.7.1 Premier type de facette : facettes « textuelles »

Elles portent sur le contenu textuel brut des cellules

Menu Facette > Facette textuelle

Activité

Afficher les facettes textuelles correspondant au contenu de la colonne Language

    • Réponse?

Les options d’une facette

Repérer les anomalies apparentes.

    • Réponse?
    • 3 valeurs différentes pour l’anglais ; 15 valeurs vides (blank)

Comment y remédier?

    • Réponse?
    • Expertiser la nature des facettes (blank) :

      cliquer sur la facette pour sélectionner les 15 lignes.

      constat : 15 titres en anglais

      2 possibilités pour faire la modification : édition globale (cf supra) ou édition de la facette

      On va utiliser l’édition de la facette : remplacer (blank) par “EN”

      Les données du projet ont été modifiées

      Réaliser les mêmes opérations sur les facettes “Anglais” et “ENGLISH”

      Résultat final : EN = 993 ; ES = 7 ; FR = 1

Comment sont classées les facettes? Peut-on en modifier l’ordre?

Quelles sont les deux manière de sélectionner les lignes correspondant aux titres qui ne sont pas en anglais?

    • Réponse?
    • Sélectionner EN et inverser la sélection

      ou bien sélectionner FR et ES

Ajouter une nouvelle facette sur la colonne Authors, classer les résultats par compte et sélectionner la valeur la plus fréquente. Quel est l’effet sur la facette par langue?

La dernière facette créée permet-elle de retrouver tous les articles d’un auteur donné? Pourquoi?

Supprimer les deux facettes.

Certains articles portent-ils le même DOI (numéro censé être unique)?

    • Réponse?
    • Non, mais l’analyse des DOI permet de repérer un doublon d’article

Les codes ISSN attribués aux revues font 9 caractères (XXXX-XXXX). Certaines valeurs de la colonne ISSNs ont-elles une longueur supérieure? Pourquoi?

    • Réponse?
    • Parfois un ISSN papier et un éléctronique!

5.7.2 Autres types de facettes

  • Facettes numériques, chronologiques, en nuage de point : suppose d’avoir des données reconnues par OpenRefine comme des dates ou des nombres (pas le cas dans notre exemple)
  • Facettes personnalisées : suppose une utilisation du langage GREL
  • Facettes courantes : plusieurs options souvent utiles:
    • par mot
    • par doublons
    • par longueur de texte
    • par blanc (valeur vide ou null)
    • par valeur vide
    • par null
    • par erreur

Activité

A partir de la colonne Authors, appliquez une facette personnalisée « par mots ». Quelle différence avec une facette textuelle simple? Quel intérêt peut avoir l’opération?

    • Réponse?
    • Les valeurs sont découpées en « mots » (suite de caractères séparés par des espaces). Un nettoyage supplémentaire peut être nécessaire (supprimer la ponctuation). Utile pour analyser des cellules multi-valuées, ou compter les mots les plus utilisés dans une colonne.

A partir de la colonne Author, appliquez une facette personnalisée « par mots ». Le résultat est-il intéressant? Comment l’améliorer?

    • Réponse?
    • Il faudrait pouvoir prendre en compte le | au lieu de l’espace comme séparateur de valeur.

      On verra comment le faire après avoir abordé GREL

5.7.3 Les facettes par étoile et par marques

Remarque : visuellement les “marques” sont en fait des drapeaux.

Etoiles et marques non activées

Etoiles et marques non activées

Etoiles et marques activées

Etoiles et marques activées

Les étoiles et marques ont le même usage et le même fonctionnement : elles permettent de signaler une ligne pour réaliser d’autres opérations manuelles ou automatisées.

Elles peuvent être activées :

  • ligne à ligne en cliquant sur les symboles correspondant à gauche de chaque ligne
  • via les menus de la colonne Toutes :
    • Toutes > Editer les lignes > Etoiler les lignes
    • Toutes > Editer les lignes > Désétoiler les lignes
    • Toutes > Editer les lignes > Marquer les lignes.
    • Toutes > Editer les lignes > Démarquer les lignes.

La 1re colonne Toutes permet de construire des facettes à partir des lignes au préalable signalées manuellement par une étoile ou une marque : Toutes > menu Facettes > Facettes par étoiles et Facettes > Facettes par marque

La suppression d’une ligne est possible via le menu de la colonne Toutes : Editer les lignes > Supprimer les lignes correspondantes.

Seules les lignes affichées au moment de l’opération (en tenant compte des facettes et des filtres en cours) seront supprimées.

5.8 Regrouper des valeurs proches

Activité

Créer des facettes textuelles pour la colonne Publisher, puis grouper les résultats (bouton “Groupe” en haut à droite de la facette)

Pour chaque doublon repéré, cliquer sur une forme pour choisir la forme retenue ou pour la modifier.

Sélectionner les groupes à fusionner un par un ou bien tout sélectionner.

Plusieurs algorithmes

Attention! Dans certains cas ces algorithmes peuvent faire des rapprochements non pertinents (ex: deux numéros de téléphones peuvent légitimement être très semblables…)

  1. Méthodes de collision de clé : rapides mais basiques (regroupent les expressions dont les « clés » sont identiques)
  1. Méthodes plus proches voisins : plus élaborées mais plus lentes

Baisser le paramètre « taille de bloc » pour améliorer la détection (attention risque de ralentissement !

5.9 Annuler ou rejouer un traitement

Historique permettant d’annuler (« défaire ») ou rejouer (« refaire) les traitements de manière indéfinie

Limite :

  • n’enregistre pas les modifications manuelles des cellules
  • n’enregistre pas les facettes ni les tris
  • en cas de retour en arrière jusqu’à une opération N et d’ajout de nouvelles opérations, perte de l’historique des opérations qui suivaient l’opération N

Activité

Annuler puis rejouer les dernières opérations