6 Régression sur les moindres carrés partiels

Comme pour la régression PCR, calcul de \(T\) dont les éléments sont les « scores » et les colonnes les « composantes » :

\(T = X.W\) avec \(W\) matrice des poids (ou loadings) et \(X\) matrice des variables explicatives centrées (n,m).

Mais, contrairement à la PCR, le calcul de \(T\) se fait en tenant compte de la variable à prédire \(y\). Double modélisation :

\(X = TP + R\) (1)

\(Y = TQ + F\) (2)

Avec : R matrice des résidus associés à la prédiction de \(X\) ; \(F\) vecteur des résidus associés à la prédiction de \(y\).

Première étape : calculer t1 la première composante principale, puis estimer (1) et (2) à une seule composante :

\(X = t_1 . p_1 + R1\) et \(Y = t_1 . q_1 + F_1\)

Avec \(t_1\) de dimension (n,1) \(p_1\) de dim (1,m) loadings \(q_1\) de dim (1,1) loadings

On introduit une deuxième composante \(t_2\). Ainsi, une ligne \(x_i\) de \(X\) est égale à : \(x_i = t_1i p_1 + t_2i p2\)

L’introduction de nouvelles composantes se fait selon la même procédure : partant d’un modèle à k composantes, on créé un nouveau modèle à k+1 composantes en calculant une nouvelle composante tk, puis les paramètres des deux modèles couplés :

\(X = t_1p_1+t_2 p_2 +…+t_k p_k + t_k_+1 p_k+1 + R_k+1\)

\(Y = t_1q_1+t_2 q_2 +…+t_k q_k + t_k+1 q_k+1 + F_k+1\)

6.1 Modèle PLSR avec validation croisée

La validation croisée nous permet de sélectionner le nombre de composantes à retenir dans le modèle.

Data:   X dimension: 2930 34 
    Y dimension: 2930 1
Fit method: kernelpls
Number of components considered: 10

VALIDATION: RMSEP
Cross-validated using 2930 leave-one-out segments.
       (Intercept)  1 comps  2 comps  3 comps  4 comps  5 comps  6 comps
CV           79900    77084    48250    46459    44618    43416    44012
adjCV        79900    77084    48250    46459    44618    43416    44005
       7 comps  8 comps  9 comps  10 comps
CV       43140    42424    41269     40807
adjCV    43140    42424    41268     40805

TRAINING: % variance explained
            1 comps  2 comps  3 comps  4 comps  5 comps  6 comps  7 comps
X            97.780    98.53    98.84    99.22    99.34    99.45    99.85
Sale_Price    8.027    64.11    68.84    70.33    72.22    72.86    73.08
            8 comps  9 comps  10 comps
X             99.89    99.90     99.91
Sale_Price    74.37    75.76     77.46

6.2 Le nombre de composantes

Comme nous le montre le graphique suivant, à mesure que nous ajoutons des composantes les erreurs de prédictions baissent. Toutefois nous ne voulons pas avoir beaucoup trop de composantes pour expliquer notre variable dépendante.

La validation croisée nous suggère de retenir 9 composantes dans la construction d’un modèle PLS. Nous n’allons pas retenir autant de composantes car le pouvoir explicatif de celles-ci baisse, ce qui fait que les composantes éloignées peuvent ne pas être significatives. Nous n’allons donc retenir 5 composantes qui nous offrent un bon compromis en ce sens que la 5e composantes explique 72.2% de la variance de l’endogène alors que la 6e explique seulement 72.86, soit un apport marginal très faible.

Nous estimons donc le modèle en sélectionnant 5 composantes.

Data:   X dimension: 2930 34 
    Y dimension: 2930 1
Fit method: kernelpls
Number of components considered: 5
TRAINING: % variance explained
            1 comps  2 comps  3 comps  4 comps  5 comps
X            97.780    98.53    98.84    99.22    99.34
Sale_Price    8.027    64.11    68.84    70.33    72.22

Ce graphique est souvent représenté de la manière suivante dans plusieurs logiciels. Toutefois cette dernière n’est pas très lisible. Nous allons donc commenter le premier graphique.

     Comp 1      Comp 2      Comp 3      Comp 4      Comp 5 
97.77952589  0.75168865  0.31301673  0.37862665  0.11859674 

6.3 Loadings (chargements) and weights (poids)

Les « Loadings » reflètent (mais ne sont pas) les corrélations entre les composantes et les variables explicatives. Ils correspondent aux coordonnées sur les axes factoriels. On considère qu’une valeur supérieure à 0,4 (en valeur absolue) indique une liaison significative. Ce seuil est arbitraire (on descend parfois à 0,25). Les variables les plus excentrées sont les plus représentatives (ont une CTR plus élevée).

Le poids des variables expliquées reflète les corrélations entre ces variables et les scores uh. Ils permettent de cerner ce qui est expliqué sur ces facteurs.

Le poids des variables explicatives reflète la corrélation de ces variables avec les scores uh. Ils indiquent le rôle de chaque explicative dans l’explication globale de chaque axe. Dans la pratique, poids et loadings positionnent les variables de manière similaire, les interprétations sont identiques.


Loadings:
           Comp 1 Comp 2 Comp 3 Comp 4 Comp 5
Sale_Price  2.950 87.750 44.614 25.186 41.210

               Comp 1   Comp 2   Comp 3    Comp 4    Comp 5
SS loadings       8.7 7700.075 1990.377   634.354  1698.287
Proportion Var    8.7 7700.075 1990.377   634.354  1698.287
Cumulative Var    8.7 7708.775 9699.152 10333.506 12031.793