Introduction

Ce mini-site contient le matériel utilisé lors de la formation ‘Nettoyer, préparer et transformer des données avec Openrefine : des premiers pas aux usages avancés’ réalisée les 21-22 mars 2019 à BULAC à la demande du consortium Huma-Num Archives des ethnologues.

Il s’appuie sur la version 3.1 d’Openrefine

cover image

Auteur

Mathieu Saby, Université de Nice Sophia Antipolis (Service commun de documentation)

Contact : rubrique Contact sur http://mathieusaby.fr ; Twitter

Objectif

Savoir utiliser Openrefine dans un contexte de recherche en SHS : nettoyage, préparation et enrichissement de métadonnées liées à des corpus documentaires, pour faciliter leur exploitation ou leur import dans un outil (Nakala, Omeka…).

Déroulement

  • Jour 1, Matinée : 10h00 - 12h30
    • Présentation du logiciel, installation, personnalisation
    • Création d’un projet : import d’un jeu de données
    • Exploration : filtres, facettes
    • Transformations simples
  • Jour 1, Après-midi : 13h30h - 17h
    • Transformations avancées avec le langage GREL
    • Restructurations, créations de nouvelles lignes et colonnes
    • Export des données et des traitements
  • Jour 2, Matinée : 10h00 - 12h30
    • Enrichissement par utilisation d’API
    • Enrichissement par recours à un service de réconciliation
    • Enrichissement par web scraping
  • Jour 2, Après-midi : 13h30h - 17h
    • Travail sur des exemples proposé par les participants

Annexes

Les documents suivants peuvent être téléchargés et utilisés indépendamment du cours :



Remerciements

Un grand merci à

  • Fabrice Melka, à l’intiative de cet atelier
  • l’ensemble des participants
  • la communauté des développeurs, concepteurs de cours et de tutoriels, et utilisateurs réguliers ou occasionnels d’Openrefine : Qi Jacky Cui, Thad Guidry, Martin Magdinier, Owen Stephens, Antonin Delpeuch, Aaron Tay, Seth van Hooland, Ruben Verborgh, Max De Wilde, Ettore Rizza, Sylvain Machefert, Antoine Courtin, Gautier Poupeau, Julien Benedetti, Maïwenn Bourdic et tous ceux que j’oublie…
  • Yihui Xie pour ses packages knitr et bookdown ; John Little pour son modèle de question/réponse dynamique en rmarkdown.

Aspects techniques

Ce site est écrit en R Markdown et mis en ligne à l’aide du package Bookdown développé par Yihui Xie

Les sources sont accessibles sur https://gitlab.com/msaby/formation-openrefine-BULAC

Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International.(CC BY license)

Creative Commons Attribution 4.0 International License logo

Creative Commons Attribution 4.0 International License logo