4.1 Vérifier les métadonnées
On entend par « métadonnées » des données relatives aux données. Nous pouvons y voir la couverture d’un grand nombre des caractéristiques de base d’un ensemble de données ; la date à laquelle il a été créé par exemple, la façon dont il a été collecté et la licence de partage ou de publication des données. Les métadonnées importantes pour les ensembles de données géographiques comprennent également des éléments comme la résolution spatiale et le système de coordonnées géographiques ou projetées.
Movement Range Maps - Humanitarian Data Exchange (uniquement disponible en anglais)
Par exemple, jetez un coup d’œil à la capture d’écran ci-dessus à partir des Movement Range Maps de Facebook sur HDX. Sous l’onglet Métadonnées, on aperçoit beaucoup d’informations sur cet ensemble de données, notamment un lien vers un document de méthodologie plus détaillé précisant comment ces données ont été créées.
La vérification des métadonnées d’un ensemble de données est un moyen intéressant de comprendre si ce dernier est adapté à votre cas d’utilisation et de s’assurer de l’interpréter et de l’utiliser correctement. Par exemple, imaginez que vous cherchiez à comprendre la population de différents camps de déplacés. Vous disposez d’un ensemble de données contenant ces informations, mais les métadonnées vous indiquent que ce dernier a été mis à jour pour la dernière fois en 2005. Vous pourriez alors vous dire que ces données ne sont pas pertinentes ou appropriées pour la tâche à accomplir.
Les métadonnées sont souvent organisées dans ce qu’on appelle un dictionnaire de données. Souvent stocké dans son propre document ou tableau, un dictionnaire de données contient des informations sur la structure et le contenu d’un ensemble de données. En particulier, un dictionnaire de données peut inclure un tableau avec des descriptions de toutes les variables d’un ensemble de données. Cela peut être important car les variables ne sont pas toujours clairement nommées dans un tableau donné. Parfois, les en-têtes de colonne d’un tableau ne peuvent contenir qu’un nombre limité de caractères et ne pas contenir d’espaces entre les mots. Par exemple, une variable qui capture des données sur la population de femmes de plus de 65 ans peut être nommée « W_ov65 ».
Dans notre étude de cas, le dictionnaire de données nous fournit des données sur les données. Les principales informations fournies sont le nom de la colonne/variable, la description ou la question d’enquête associée (le cas échéant), le type de données et les codes ou plages de données de chaque cellule.
Grâce au dictionnaire des données, nous pouvons voir que la variable “YNOFOOD” demande spécifiquement aux répondants “Pourquoi n’avez-vous pas accès aux programmes locaux d’aide alimentaire ?” D’ici, nous pouvons voir que la variable est ‘nominale’ (les données peuvent être classées en groupes) et, par conséquent, nous pouvons voir les réponses potentielles dans la colonne ‘Codes/Gammes’. Les données de cette variable seront codées comme ‘1’, ‘2’, ‘3’, ‘6’ ou ‘8’, chaque donnée représentant les réponses possibles correspondantes fournies par les répondants.
Par conséquent, le rôle clé du dictionnaire de données est de vous aider à naviguer dans l’ensemble de données et à comprendre quel type d’analyse peut être effectué selon le type de données (plus d’informations ci-dessous).