4 Gestion des projets et import de données

4.1 Découverte de l’interface

Lancer Openrefine

Modifier la langue d’exécution d’Openrefine (français)

4.2 Liste des projets

Projet = données + ensemble de traitements

Lors de l’installation, aucun projet

Les projets peuvent être supprimés, décrits, tagués, réouverts, importés/exportés d’une instance d’Openrefine à une autre Projet.

Projets

Projets

4.3 Les différents types d’imports de données

CreerProjet

CreerProjet

Import depuis un ou plusieurs fichiers, en ligne ou sur le PC

Il est possible de charger plusieurs fichiers. S’ils ont exactement la même structure (mêmes nombres et noms de colonnes), leur contenu sera mis bout à bout, avec une 1re colonne supplémentaire indiquant le nom du fichier correspondant à chaque ligne.

Il est possible de charger un ou plusieurs fichiers zippés dans une archive unique. Openrefine les dézippera.

Import depuis une base de données (MySQL/MariaDB, PostgreSQL)

Ex : dans la base MySQL « test » accessible sur ma machine, récupération de toutes les colonnes de la table websem_rdf (extraite d’une bibliothèque Zotero) en filtrant les lignes dont la colonne « predicat » comprendd la valeur « “http://purl.org/dc/elements/1.1/date” »

ImportBDD1

ImportBDD1

ImportBDD1

ImportBDD1

Import possible de « Data packages » : format d’échange de données issu du monde de l’open data, associe données brutes et fichier de métadonnées en JSON

Voir https://frictionlessdata.io/data-packages/

Soit en ligne : indiquer l’URL du manifeste JSON du datapackage

Soit sur la machine : indiquer l’emplacement du fichier zip contenant le datapackage

Saisie manuelle ou collage depuis le presse-papier

ImportPressePapier

ImportPressePapier

4.4 Importer un fichier CSV

  • Télécharger un jeu de données

Données bibliographiques concernant 1001 articles scientifiques, tirées du DOAJ, sous licence CC-BY-SA.

URL de téléchargement : donnees_DOAJ_1.csv

(URL alternative : https://osf.io/qakwb/ )

  • Charger les données dans Openrefine

Ecran d’import en 2 parties : aperçu des données + paramètres

ImportPressePapier

ImportPressePapier

Les types de fichiers reconnus

  • CSV / TSV / separator-based files : Texte délimité par un séparateur
  • Line-based text files : Texte brut non délimité
  • Fixed-width field text files : Champs de longueur fixe
  • PC-Axis text files
  • JSON files
  • MARC files : données bibliographiques
  • Web sémantique
    • JSON-LD files
    • RDF/N3 files
    • RDF/N-Triples files
    • RDF/Turtle files
    • RDF/XML files
  • Wikitext : Tableaux structurés selon la syntaxe Wikipedia
  • XML files
  • Tableurs
    • Open Document Format spreadsheets (.ods)
    • Excel files

Privilégier les fichiers CSV ou à longueur de champs fixe!

Import de tableurs Excel, LibreOffice ou Google possible mais peut consommer beaucoup de ressources. Préférable de faire la conversion en amont.

Pour les données MARC, privilégier une conversion en amont avec des outils comme MarcEdit

Données XML et JSON

Import possible mais ne fonctionne bien qu’avec des fichiers à la structure simple, et le processus de conversion très gourmand en ressources.

“Structure simple” ? Ex : éléments répétés dont la structure interne est exactement semblalble (mêmes champs, non répétés, ne contenant que des valeurs atomiques…).

<livre>
    <titre>A la recherche du temps perdu</titre>
    <auteur>Marcel Proust</auteur>
<livre>
<livre>
    <titre>Les mots</titre>
    <auteur>Jean-Paul Sartre</auteur>
</livre>

Au besoin, utiliser un convertisseur externe comme http://www.convertcsv.com/json-to-csv.htm, http://www.convertcsv.com/xml-to-csv.htm ou http://www.convertcsv.com/html-table-to-csv.htm, et injecter le csv dans OpenRefine.

Import de données dans des formats “sémantiques”

Amélioré dans la v3.1 : tous les formats courants sont supportés

Mais résultat pas toujours facile à utiliser : pour chaque triplet, les sujets deviennent des lignes, les verbes des colonnes et les objets des valeurs au croisement d’une ligne et d’une colonne.

Paramètres d’import pour un CSV

Principaux paramètres d’import

Les principaux paramètres d’import

Les principaux paramètres d’import

Pour lire et écrire en français… choisir l’encodage correspondant à celui du fichier

Les différents choix d’encodage

Les différents choix d’encodage

Exemple de différences d’encodage

Exemple de différences d’encodage

Prudence avec la détection automatique des nombres et des dates !

Dans le doute, désactiver l’option.

  • Une série de chiffres n’est pas forcément un nombre…
    • Ex: Numéros de téléphone : le 0 initial doit être préservé!
  • Formats de nombres et formats monétaires différents selon les pays…
    • Ex : 1,14 en France = 1.14 aux USA
    • Ex : 10 € mais $ 10
  • Formats de dates différents selon les pays.
    • Ex : 02-03-1979 = 2 mars 1979 en Europe mais 3 février 1979 aux USA

Une fois les paramètres d’imports choisis, lancer l’import

Finaliser l’import

Finaliser l’import