6 Transformer des données

Si un filtre ou une facette sont actifs, les transformations ne s’appliquent qu’aux lignes sélectionnées.

Plusieurs familles d’opérations

  • Modification du contenu d’une colonne
    • menu Editer les cellules
  • Création de colonnes
    • menu Editer la colonne
  • Transposition de lignes en colonnes et de colonnes en lignes
    • menu Transposer
  • Suppression de lignes
    • combinaison de plusieurs opérations
  • Réconciliation (alignement sur un vocabulaire contrôlé)

6.1 Modification du contenu d’une colonne

Très nombreuses transformations possibles!

On ne montrera que quelques exemples:

  • Passer tous les mots en majuscule
  • Supprimer les espaces superflus
  • Transformer des textes en nombres ou dates
  • Remplacer tout le contenu d’une colonne par des nulls ou des “”
  • Supprimer les valeurs répétées sur plusieurs lignes
  • Recopier une valeur sur plusieurs lignes
  • Supprimer les doublons

Activité

Passez le contenu de la colonne Authors en majuscules. Puis en minuscules.

Ajouter manuellement plusieurs espaces au début et à l’intérieur d’une cellule de la colonne Authors, puis supprimer ces espaces en utilisant le menu.

Supprimer les espaces en début et fin de ligne dans colonne Authors

Remplacer le contenu de la colonne Authors par des valeurs null.

Trier définitivement les données en fonction de la colonne Language puis supprimer les valeurs répétées consécutives dans cette colonne (elles seront remplacées par null)

Opération inverse : dans Language, remplir les valeurs vides répétées par la valeur de la cellule non vide les précédant.

La suppression des valeurs répétées peut être nécessaire pour d’autres opérations :

  • Supprimer des doublons
  • Créer des « entrées » regroupant plusieurs lignes

Simplifier le fichier en ne gardant qu’une seule ligne par éditeur (dans notre cas cela entraînera une perte d’information, mais c’est pour la démonstration…) : utiliser les opérations vues et une facette spéciale.

    • Réponse?
    • Tri du fichier en fonction de la colonne Publisher

      Enregistrement du tri

      Suppression des valeurs répétées pour la colonne

      Facette par blanc sur la colonne code_personne (Facette courante > Facette par blanc)

      Sélection de la facette « true » dans le panneau de gauche

      Suppression des lignes concernées (colonne Toutes > éditer les lignes > supprimer les lignes)

6.2 Lignes et entrées

Des lignes peuvent être regroupées en « entrées » (records) si elles se rapportent à un même objet.

Travailler avec des entrées permet des traitements avancés.

Pour créer des entrées :

1/ trier les données en fonction de la colonne servant de clé de regroupement, et enregistrer le tri

2/ déplacer cette colonne en 1re position du tableau

3/ supprimer les valeurs répétées dans cette colonne

Activité

Créer des entrées par éditeurs. Combien y en a-t-il ?

    • Réponse?
    • 11

6.3 Restructurer des données

Cas fréquent : passer de plusieurs valeurs par cellule à une seule.

Axe horizontal (créer de nouvelles colonnes)

Axe vertical (créer de nouvelles lignes)

6.3.1 Axe vertical : créer et supprimer de nouvelles lignes

Activité

Dans la colonne Subject, comment passer de ceci (plusieurs sujets par ligne, 1001 lignes)

à cela (1 ligne par sujet distinct, 7281 lignes)?

    • Réponse?
    • Menu Editer les cellules > Diviser les cellules multivaluées

      Choisir le mode de séparation : séparateur (ponctuation, mot, une valeur spéciale (“”…), expression régulière) ou nombre de caractères par champ. ici : |

Quelles opérations peut-on réaliser après avoir divisé les sujets sur plusieurs lignes?

    • Réponse?
    • Les compter (facettes)

      Les harmoniser (clusterisation)

      Les aligner avec des référentiels externes

Réalisez les deux premières parmi ces opérations, puis réalisez l’opération inverse de la division sur plusieurs lignes mais en utilisant un nouveau séparateur : || au lieu de |.

    • Réponse?
    • Menu Editer les cellules > Joindre les cellules multivaluées

      Choisir le séparateur ||

6.3.2 Axe horizontal : créer et supprimer de nouvelles colonnes

La colonne Citation contient plusieurs types d’informations : nom de la revue, volume, numéro et pagination, année.

Comment passer de ceci (1 colonne)

A celà (3 colonnes : nom de la revue, volume/numéro/pagination, année) ?

Partir du principe que tous les articles n’ont pas un numéro distinct du volume, même si c’est le cas dans l’échantillon.

Plusieurs solutions possibles…

    • Réponse 1?
    • Menu Diviser en plusieurs colonnes

      Choisir le séparateur , et au plus 2 colonnes

      Répéter l’opération sur la 2e colonne créée

      Choisir le séparateur [()] en cochant “expression régulière” et en décochant “deviner le type de cellule”

    • Réponse 2?
    • Menu Editer les cellules > Remplacer

      Utiliser une expression régulière avec des groupes entre ()

      BUG en V3.1!

6.4 Transposer

  • Transposer plusieurs colonnes en une seule
    • Transposer > Transposer les cellules au travers des colonnes en lignes
  • Passer du format « empilé » au format « désempilé »
    • Transposer > Convertir en liste les colonnes de clé/valeur
  • Passer du format « désempilé » au format « empilé »
    • Transposer > Transposer les cellules de plusieurs colonnes en ligne (avec 2 nouvelles colonnes)
  • Regrouper les paires clés/valeurs dans les mêmes cellules
    • Transposer > Transposer les cellules de plusieurs colonnes en ligne (avec 1 colonne unique)