4 Régressions sur variables latentes

4.1 Pourquoi faire une régression sur les variables latentes ?

Les méthodes de régressions sur les latentes nous permettent d’adresser certaines limites que posent les méthodes de régression par les moindres carrés. En effet pour qu’une régression par les OLS soit sans biais il faut que toutes les hypothèses posées par les OLS soient vérifiées. Parmi ces hypothèses nous pouvons citer l’hypothèse de l’absence de corrélations entre les variables ou encore l’hypothèse d’absence de colinéarité entre les variables.

Or en général les phénomènes que nous cherchons à expliquer, dans notre travail nous cherchons à expliquer le prix de vente d’un bien immobilier, ne vérifient pas toujours ces hypothèses à cause entre autres de l’interdépendance entre les variables.
Dans le cas d’un bien immobilier, la taille des pièces du bien dépend de la superficie totale de la maison. Cette situation nous amène à des résultats potentiellement biaisés et non généralisables pour expliquer le phénomène.

Les méthodes de régression sur les variables nous permettent donc de corriger ces limites des régression standards en créant des variables synthétiques sur lesquelles nous allons faire les estimations.

Les variables synthétiques créées lors de l’estimation présentent une propriété très intéressante qui est celle de l’orthogonalité. En effet les variables synthétiques (ou les composantes) ne sont pas corrélées entre elles-mêmes, ce faisant nous pouvons donc estimer les paramètres du modèle que nous construisons sans courir le risque de violer les hypothèses posées par les moindres carrés ordinaires.

Pour mettre en place ces méthodes, nous allons utiliser la procédure PLS (Partial Least Squares) implémentée dans le logiciel SAS.

Les techniques mises en œuvre par la procédure PLS sont les suivantes :

  • La régression sur composantes principales, qui extrait des facteurs qui expliquent le plus la variance des variables explicatives.

  • La régression de rang réduit, qui extrait des facteurs qui expliquent le plus la variation de la variable réponse (y). Cette technique, également appelée analyse de redondance (maximale), diffère de la régression linéaire multiple uniquement lorsqu’il y a plusieurs variables endogènes.

  • La régression sur les moindres carrés partiels, qui équilibre les deux objectifs d’explication de la variation de la variable endogène et expliquant la variation des prédicteurs. Deux formulations différentes pour les moindres carrés partiels sont disponibles : la méthode prédictive originale de Wold (1966) et la méthode SIMPLS de de Jong (1993).

En raison du fait que nous ne cherchons ici qu’à expliquer une seule variable (y), à savoir le prix des maisons, nous n’utiliserons pas la régression sur rang réduit car cela revient à faire une régression multiple, ce que nous avons déjà fait dans la section 3.2.