Formulation et performances de la régression linéaire simple et multiple

La régression linéaire est probablement le type de régression le plus utilisé dans le domaine des prévisions des données. Effectivement, ce type de régression est très simple à exploitées et à déployer sur un grand nombre de données. Et les résultats sont très faciles à interpréter.

Vous pouvez aussi découvrir l’article Définition et exemples d’utilisation de la régression statistique pour mieux comprendre la régression statistique.

Formulation du problème de régression linéaire

On suppose une réponse notée y que l’on souhaite étudier en fonction de plusieurs entrées Xi. Si on suppose qu’une relation linéaire lie la réponse y aux entrées Xi on écrira :

y = a0 + a1x1 + a2x2 + …. + anxn.+Err

  • Avec n: le nombre des entrées qui agissent sur la réponse y.
  • a0, a1, a2, …., an sont les coefficients de la fonction linéaire. Et Err est l’erreur aléatoire.

Le but de la méthode de la régression linéaire est de calculer une estimation des coefficients de la fonction linéaire. Ces valeurs rapprochées sont notées par : b0, b1, b2, …, bn.

𝑓(𝐱) = 𝑏₀ + 𝑏₁𝑥₁ + ⋯ + 𝑏ᵣ𝑥n.

Les coefficients de cette fonction doivent être suffisamment précis pour rapprocher le mieux possible la valeur réelle.

Estimation de réponse par régression linéaire

On peut utiliser la fonction précédente pour estimer des réponses rapprochées des observations réelles. On note xi la donnée d’entrée qui correspond à l’observation i, et donc sa réponse estimée est f(xi).

Notation:

  • i : indice de l’observation ;
  • xi : paramètre d’entrée ;
  • f(xi) : réponse estimée par régression linéaire ;
  • yi : réponse réelle observée ;
  • yi – f(xi) : résidus

L’estimation de la réponse f(xi) pour chaque observation i, doit être suffisamment proche de la valeur réelle yi. Et la différence yi – f(xi) pour chaque observation i=0 à i=n, est appelée résidus.

La méthode des moindres carrés

Une bonne régression linéaire détermine le meilleur poids des coefficients, donc des valeurs résiduelles très petites.

Pour obtenir les meilleurs poids, on minimise généralement la somme des résidus au carré (SSR) pour toutes les observations i = 1, …, n: 

SSR = Σi(yi – f(xi))². 

Cette approche est appelée la méthode des moindres carrés.

Coefficient de détermination et la qualité de la régression linéaire

La performance ou la qualité d’une régression linéaire se mesure à partir de la différence entre la fonction rapprochée et les valeurs réelles. Il existe un coefficient qui informe sur la quantité des réponses qui sont dépendantes à la variation de x. c’est le coefficient de détermination notée .

Le coefficient R² indique la qualité d’une régression. La valeur R²=1 correspond à un écart nul entre les valeurs réelles et les valeurs approchées. Donc à SSR=0.

Si R² égal à 1 ou proche de 1, cela veut dire que le modèle mathématique est performant. Donc il traduit parfaitement le phénomène étudié.

Régression linéaire simple ou ajustement affine

La régression linéaire simple est le cas le plus simple des régressions. Cela consiste à étudier une réponse en fonction d’un seul paramètre x. La régression linéaire simple est un ajustement affine. Le modèle mathématique est sous forme d’une fonction affine de la forme : 𝑓(𝐱) = 𝑏₀ + 𝑏₁𝑥₁.

Exemple de régression linéaire simple

La figure ci-dessous montre un exemple d’ajustement affine.

Régression linéaire. Ajustement affine

Pour faire une régression linéaire simple, ou un ajustement affine, on commence par tracer un nuage de points qui correspond à 2 variables. Ces 2 variables sont des données prélevées, par expérience ou observation, simulation, sondage, …

L’une de ces variables est la réponse étudiée. Et l’autre est le paramètre d’entrée. Le nuage de points est représenté sur la figure ci-dessus par les points verts.

Par exemple, on peut lire sur la figure que :

  • x=5 correspond à la réponse y=5 ;
  • x=15 correspond à y=20 ;
  • … ainsi de suite.

La fonction estimée, qui est issue de la régression linéaire simple est tracée en ligne continue noire sur la même figure. Cette fonction est sous la forme : 𝑓(𝐱) = 𝑏₀ + 𝑏₁𝑥₁

Ainsi le but derrière la régression linéaire simple est de trouver les coefficients b0 et b1 qui minimisent la valeur du résidu SSR. Puis de déduire la fonction approchée. Les résidus sont représentés par des traits bleus verticaux en pointillés qui relient les valeurs approchées aux valeurs réelles. Plus la longueur de ces traits est grande, moins le modèle est performant.

  • La valeur de b0, aussi connu sous le nom de l’ordonnée à l’origine, correspond à l’intersection de la représentation graphique de la fonction avec l’axe des ordonnées.
  • La valeur de b1, aussi connu sous le nom du coefficient directeur, donne la pente de la droite, appelé aussi le coefficient directeur, obtenue par régression linéaire simple.

Ce type de régression est aussi appelé ajustement affine, car la fonction qui approche la solution réelle est une fonction affine. Cette fonction est représentée par des carrées courge sur la figure précédente

Régression linéaire multiple

Lorsqu’on est face à une situation où les paramètres indépendants d’entrée sont au nombre de 2 ou plus, c’est la régression linéaire multiple qui permet de trouver un modèle mathématique approché.

S’il n’y a que deux variables indépendantes, alors la fonction de régression estimée est :

𝑓(𝐱1, x2) = 𝑏₀ + 𝑏₁𝑥₁ + 𝑏2𝑥2.

Cette fonction représente un plan de régression dans un espace tridimensionnel. Le but de la régression est de déterminer les valeurs des poids b₀, b₁ et b₂ de telle sorte que ce plan soit aussi proche que possible des réponses réelles, tout en donnant le SSR minimal.

Le cas de plus de deux variables indépendantes est similaire, mais plus général. La fonction de régression estimée est :

f(x₁, …, xn) = b₀ + b₁x₁ + ⋯ +bnxn,

Et il y a n+1 poids à déterminer lorsque le nombre d’entrées est n.

La régression polynomiale

Si la régression linéaire n’est pas suffisante pour approcher correctement le phénomène observé, il est possible d’utiliser un autre type de régression. Comme la régression polynomiale par exemple. Ceci fera l’objet d’un prochain article.

N’oubliez pas de commenter cet article et de me faire part de vos remarques et observations.

Si vous avez aimé l'article vous êtes libre de le partager :)

Laisser un commentaire