2 Analyse exploratoire des données

Il est important que nous explorions les données pour découvrir la structure des données. Le but de cette analyse exploratoire est d’étudier la variance associée au jeu de données. En effet une base de donnée comporte en elle une variance ou information et le but de tout travail économétrique consistant à modéliser la variable dépendante est de trouver un modèle qui arrive à expliquer la variance de cette variable dépendante en se basant sur des variables qu’on appelle variable explicatives.
L’analyse exploratoire permet entre autres de détecter des anomalies dans le jeu de données et les corriger si possibles.

2.1 Statistiques descriptives univariées

Nous allons afficher les statistiques descriptives des variables quantitatives continues présentes dans le jeu de données. Ces statistiques descriptives seront présentées sous formes d’un tableau à 5 colonnes qui affichent respectivement le minimum, la moyenne, l’écart-type, le maximum et la médiane.

Le tableau suivant présente les statistiques descriptives des colonnes numériques.

Table 2.1: Tableau 1 : Statistiques descriptives sur les colonnes numériques
Min Moyenne Ecart_type Max Médiane
Lot_Frontage 0 57.64778157 33.49944079 313 63.0
Lot_Area 1300 10147.92184300 7880.01775944 215245 9436.5
Year_Built 1872 1971.35631399 30.24536063 2010 1973.0
Year_Remod_Add 1950 1984.26655290 20.86028588 2010 1993.0
Mas_Vnr_Area 0 101.09692833 178.63454483 1600 0.0
BsmtFin_SF_1 0 4.17747440 2.23337248 7 3.0
BsmtFin_SF_2 0 49.70546075 169.14208929 1526 0.0
Bsmt_Unf_SF 0 559.07167235 439.54057106 2336 465.5
Total_Bsmt_SF 0 1051.25563140 440.96801766 6110 990.0
First_Flr_SF 334 1159.55767918 391.89088525 5095 1084.0
Second_Flr_SF 0 335.45597270 428.39571501 2065 0.0
Low_Qual_Fin_SF 0 4.67679181 46.31051003 1064 0.0
Gr_Liv_Area 334 1499.69044369 505.50888747 5642 1442.0
Bsmt_Full_Bath 0 0.43105802 0.52476196 3 0.0
Bsmt_Half_Bath 0 0.06109215 0.24517502 2 0.0
Full_Bath 0 1.56655290 0.55294061 4 2.0
Half_Bath 0 0.37952218 0.50262925 2 0.0
Bedroom_AbvGr 0 2.85426621 0.82773114 8 3.0
Kitchen_AbvGr 0 1.04436860 0.21407624 3 1.0
TotRms_AbvGrd 2 6.44300341 1.57296440 15 6.0
Fireplaces 0 0.59931741 0.64792092 4 1.0
Garage_Cars 0 1.76621160 0.76113672 5 2.0
Garage_Area 0 472.65836177 215.18719571 1488 480.0
Wood_Deck_SF 0 93.75187713 126.36156188 1424 0.0
Open_Porch_SF 0 47.53344710 67.48340014 742 27.0
Enclosed_Porch 0 23.01160410 64.13905921 1012 0.0
Three_season_porch 0 2.59249147 25.14133103 508 0.0
Screen_Porch 0 16.00204778 56.08737023 576 0.0
Pool_Area 0 2.24334471 35.59718062 800 0.0
Misc_Val 0 50.63515358 566.34428826 17000 0.0
Mo_Sold 1 6.21604096 2.71449243 12 6.0
Year_Sold 2006 2007.79044369 1.31661292 2010 2008.0
Sale_Price 12789 180796.06006826 79886.69235666 755000 160000.0

En moyenne les maisons vendues coûtent un peu plus de 180 mille dollars. Les prix varient fortement d’une maison à l’autre puisque le prix minimum de vente est de 12789 dollars tandis que le prix maximum est de plus de 755 mille dollars. Pour avoir une meilleure vision de la distribution des prix, nous pouvons représenter un histogramme des prix.

La distribution des prix est un peu concentrée vers la gauche, ce qui l’éloigne d’une distribution gaussienne (normale).

Nous pouvons également avoir un aperçu de l’ensemble des colonnes numériques du jeu de données en faisant une représentation graphique combinée de ces colonnes. Le graphique suivant présente les histogrammes ou diagramme e bâton de toutes les variables quantitatives présentes dans le jeu de données . Ce type de représentation a pour intérêt d’afficher les caractéristiques des variables qui n’étaient pas observables par les simples statistiques que nous avions présentées plus haut.

Parmi toutes les variables qui composent le jeu de données, nous observons qu’aucune ne suit une distribution normale. Certaines variables telles Bsmft_Half_Bath (salle de bain au sous-sol), Low_Qual_Fn_SF (superficie en pieds carrés construites de qualité médiocre), Kitchen_Abv_Grad (nombre de cuisine à l’étage), Enclosed_Porch (porche fermée en pieds carrés), Screen_Porch (écran de la véranda en pieds carrés), Pool_Area (superficie de la piscine) et Misc_Val (valeurs des caractéristiques diverses) soit 9 variables n’ont seulement qu’une seule unique valeur à savoir zéro.

En effet plusieurs des maisons n’ont pas ces caractéristiques mentionnées. Par exemple la probabilité de trouver une maison ayant une piscine est très faible donc la variable Pool_Area prend dans la grande majorité des cas la valeur 0, ce qui fait que la distribution des colonnes est fortement concentrée à gauche et sur une seule valeur.

Nous pourrons être tentées de les enlever pour la suite de l’étude, mais à l’évidence si ces variables ont été mesurées c’est qu’ils ont un intérêt. Nous étudierons les coefficients qui leur seront associés lorsque nous ferons les régressions.

2.2 Statistiques descriptives bivariées

Les statistiques bivariées nous permettent d’observer le degré de liaisons entre les différentes variables. Nous allons nous intéresser au coefficient de corrélation pour chaque paire de variables afin de voir le degré de liaisons pour les variables prises deux à deux.

Pour simplifier la lecture de ces paires de corrélation, nous allons représenter la matrice des paires de corrélation sous la forme d’un graphique. Cette façon nous permet de voir à la fois dans la globalité et pour chaque variable le degré de corrélation.

Nous voyons que sur un plan global les corrélations entre les variables sont davantage positives que négatives. Etant donné le grand nombre des variables que nous étudions, nous n’allons commenter que les coefficients de corrélation les plus fortes.

Pour cela nous affichons dans les tableaux suivants les respectivement les plus fortes corrélations positives et les plus fortes corrélations négatives.

Table 2.2: Les 10 premières fortes corrélations entre les variables
1 2 cor.coef
2 Garage_Cars Garage_Area 0.88986599
5 First_Flr_SF Total_Bsmt_SF 0.80042869
8 Gr_Liv_Area Sale_Price 0.70677992
11 Gr_Liv_Area Second_Flr_SF 0.65525118
14 Garage_Cars Sale_Price 0.64756161
17 Sale_Price Total_Bsmt_SF 0.63252885
20 Gr_Liv_Area Full_Bath 0.63032081
23 Year_Remod_Add Year_Built 0.61209525
26 Second_Flr_SF Half_Bath 0.61163367
29 Gr_Liv_Area First_Flr_SF 0.56216584

La variable Garage_Cars mesure la taille du garage en capacité de voiture et la variable Garage_Area mesure la taille du garage en pieds carrés (mesure américaine). La corrélation entre ces deux variables est positive et très forte. La superficie totale en pieds carrés du sous-sol (Total_Bsmt_SF) est fortement corrélée avec la superficie du premier étage (First_Flr_SF). Nous voyons également que la corrélation entre la superficie totale (Gr_Liv_Area) de la maison et son prix (Sale_Price) est également positive et forte.

Nous voyons également qu’il y a une corrélation positive entre le prix de la maison et la superficie totale du sous-sol. La superficie totale corrèle également positivement et fortement avec les salles de bain complètes au-dessus du niveau du sol (Full_Bath).

Table 2.3: Les 10 premières fortes corrélations négatives entre les variables
1 2 cor.coef
2 BsmtFin_SF_1 Bsmt_Full_Bath -0.47342438
5 Bsmt_Full_Bath Bsmt_Unf_SF -0.39862948
8 Year_Built Enclosed_Porch -0.37436441
11 Longitude Sale_Price -0.25139725
14 First_Flr_SF Second_Flr_SF -0.25005720
17 Longitude Full_Bath -0.22877349
20 Year_Remod_Add Enclosed_Porch -0.22038327
23 Longitude Garage_Area -0.20820322
26 Total_Bsmt_SF Second_Flr_SF -0.20448703
29 Total_Bsmt_SF BsmtFin_SF_1 -0.16331128

La lecture de ces corrélations nous montre certaines choses qu’on connaissait déjà à savoir par exemple que le prix d’une maison corrèle positivement avec sa superficie. Toutefois, étudier les paires de corrélations une à une peut être redondant du fait que plusieurs variables peuvent évoluer dans le même sens. Il serait donc plus intéressant de synthétiser les axes de variabilités qui existent entre les variables.
Pour ce faire nous pouvons utiliser l’analyse en composante principale qui est une méthode factorielle permettant de résumer la matrice des variances-covariances.

2.3 L’analyse en composantes principales

Le cercle de corrélation que nous construisons ici est le résultat d’une analyse en composantes principales sur les données quantitatives. Par souci de simplicité nous ne représenterons que le premier plan factoriel.
Ce premier plan factoriel comporte affiche la direction et la force de corrélation de chacune des variables sur les deux premiers axes factoriels. En ACP le pouvoir explicatif des axes est descendant, les deux premiers axes expliquent souvent une grande partie de la variance. L’intérêt de cette représentation est d’observer dans quel sens vont les corrélations et comment les variables peuvent être groupées sur les axes factoriels.

Le pouvoir explicatif marginal d’une composante est négative. Les deux premières composantes arrivent à expliquer 27,1% de la variance des caractéristiques des maisons.

Nous pouvons représenter sur un plan factoriel les deux premières composantes principales pour observer le sens des variances.

Le cercle des corrélations montre qu’une grande partie des variables est fortement corrélée avec l’axe 1. Ce qui signifie que ces variables évoluent dans le même sens.

Pour avoir une meilleure idée de ce que représente chacun des axes, nous pouvons lister les contributions respectives des variables à la définition des axes.

Table 2.4: Les dix premières contributions à la première composante
Variable Dim.1
Gr_Liv_Area 11.4212735
Garage_Cars 9.2884089
Garage_Area 8.8030918
Full_Bath 8.1580769
First_Flr_SF 7.3976080
TotRms_AbvGrd 7.3824529
Total_Bsmt_SF 7.0686579
Year_Built 6.0076902
Year_Remod_Add 4.9471814
Mas_Vnr_Area 4.5410862

Les variables qui ont les plus fortes contributions sur le premier axe factoriel sont principalement des variables qui touchent à la superficie de la maison ainsi que la superficie des pièces (Garages, salles de bain) que contient la maison.
Cette composante désigne donc globalement la taille de la maison.

Table 2.5: Les dix premières contributions à la deuxième composante
Variable Dim.2
Second_Flr_SF 16.2427384
Bedroom_AbvGr 13.6543823
Bsmt_Full_Bath 10.0511123
TotRms_AbvGrd 9.7774602
BsmtFin_SF_1 8.9508482
Year_Built 4.9721088
Total_Bsmt_SF 4.7761850
Gr_Liv_Area 4.7257344
Half_Bath 3.9566234
Kitchen_AbvGr 3.5545581

Sur la deuxième composante ce sont les caractéristiques relatives au nombre d’étages et de pièces situés dans les étages des maisons.