7 Comparaison des performances des différentes méthodes d’estimation

7.1 Performances prédictives du modèle de régression multiple

Nous pouvons représenter la qualité de l’ajustement en construisant pour chacun des modèle un nuage de points des valeurs observées et des valeurs prédites.

Nous voyons que le modèle a tendance à sous évaluer la valeur des maisons. En rouge c’est à quoi ressemblerait le nuage de point sur l’ajustement était parfait.
Le prix de certaines maisons semble être aberrant, c’est le cas pour les maisons de plus de 500.000 dollars.

Nous pouvons quantifier la différence entre les valeurs prédites et les valeurs observées en calculant la racine carrée des distances aux carrées. C’est le critère du Root Mean Square Error (RMSE).

[1] 35861.907

Le RMSE pour ce modèle est de 35861, ce qui signifie qu’en moyenne les valeurs prédites dévient de la valeur observée de 35861 dollars en valeur absolue.

7.2 Performances prédictives du modèle de régression sur les composantes principales

[1] 39223.52

Le RMSE de ce modèle de régression sur les composantes principales est de 39223, soit 3361 de plus que le modèle de régression multiple.

7.3 Performances prédictives du modèle sur les moindres carrés partiels

(Intercept)      1 comps      2 comps      3 comps      4 comps      5 comps  
      79873        76600        47852        44587        43508        42095  

Les valeurs affichées sont les RMSE pour chaque composante supplémentaire retenue dans le modèle. Pour les 5 composantes que nous avons retenues dans le modèle des moindres carrés partiels, le RMSE est de plus de 42000.