2 Les données
Les données sur lesquelles j’ai décidé de travailler sont de 2014. Elles portent sur 9255 bibliothèques publiques pour 74 variables.
Dans les faits il y a deux jeux de données fournis par l’Institute of Museum and Library. Le premier correspond aux données brutes de l’enquête et des estimations faites sur les caractéristiques des bibliothèques. Le second jeu de données contient des données sur les Etats américains et fournissent notamment des données démographiques et économiques des Etats dans lesquels se trouvent les bibliothèques. Les deux jeux de données sont reliés par une clé étrangère qui permet de les fusionner si besoin.
Vu que mon intérêt porte principalement sur les bibliothèques en question, j’ai décidé de me focaliser sur le premier jeu de donnée. J’ai fusionné les deux jeux de données pour ne recueillir que quelques informations démographiques et économiques des Etats pour aider à situer le contexte géographique et économique des bibliothèques.
Pour le projet, je me suis limité à 22 variables. La liste des variables que j’ai sélectionnées est en annexe de ce projet.
2.1 Actions réalisées pour nettoyer les données
Bien que le nettoyage des données ait pris une grande partie du temps consacré au projet, voilà sommairement les actions que j’ai réalisées pour permettre l’analyse des données.
Remplacement des données numériques négatives par des valeurs manquantes : les valeurs manquantes contenues dans le jeu de données sont codées par des nombres négatifs comme -3 et -1. Je les ai remplacées par des NA que R comprend.
Normalisation des noms des colonnes : certaines colonnes contenaient des caractères spéciaux dans leurs noms.
Suppression des données manquantes : Bien qu’il existe des méthodes d’imputation pour remplacer les données, j’ai jugé nécessaire de ne pas les utiliser car les valeurs sont souvent des caractéristiques qu’on ne peut pas prédire (l’Etat dans lequel se trouve la bibliothèque, sa structure administrative, le nombre de collection audio …)