I Annexe : fuzzy matching avec l’outil Reconcile-csv

Reconcile-csv n’est pas stricto sensu une extension openrefine, il s’exécute indépendamment.

Télécharger l’outil Reconcile-csv : http://okfnlabs.org/reconcile-csv/

placer le fichier reconcile-csv-0.1.2.jar sur le Bureau ou dans un autre dossier

  • Préparation du jeu de données de référence (dans Openrefine ou un tableur)
    • Prendre un des deux jeux de données, de préférence le plus complet ou fiable, et si nécessaire créer une colonne avec des identifiants uniques non répétés (par exemple le numéro de la ligne), qui permettront d’identifier chaque ligne.
    • Le fichier peut comprendre plusieurs colonnes. Une colonne seulement (modifiable à chaque appel de l’outil) sera utilisée pour le matching
    • Le fichier doit contenir des entêtes (simples, pour être appelées par l’outil) pour les noms de colonnes
    • Enregistrer le fichier au format CSV
  • Lancer l’outil en ligne de commande

java -Xmx2g -jar reconcile-csv-0.1.2.jar <nom_fichier_references.csv>

Exemple :

java -Xmx2g -jar reconcile-csv-0.1.2.jar villes.csv nom id

  • Vérifier que le service fonctionne : http://localhost:8000/reconcile

  • Ouvrir l’autre jeu de données dans Openrefine

  • Choisir la colonne sur laquelle opérer la réconcilation ; dupliquer la colonne

  • Réconciliation

    • Lors de la 1re utilisation, ajouter le nouveau service de réconciliation : http://localhost:8000/reconcile
    • Lancer la réconciliation
    • Validation manuelle des cas complexes
    • Si besoin récupérer dans une nouvelle colonne les identifiants uniques du jeu de référence avec la formule cell.recon.match.id ou le Menu Réconciliation > Ajouter une colonne d’identifiants d’entités
    • Si besoin récupérer dans une nouvelle colonne les valeurs réconciliées avec la formule cell.recon.match.value
  • Si besoin croiser les deux fichiers en utilisant le résultat de cell.recon.match.id

Voir le tutoriel d’Ettore Rizza : https://www.youtube.com/watch?v=qSIosSxtgh8