Comment créer un modèle mathématique par régression polynomiale

Régression polynomiale

La régression linéaire, ou ajustement affine développé dans un précédent post, est un cas particulier de la régression polynomiale. En effet, on a vu que l’ajustement effectué dans une régression linéaire est fait avec une fonction affine. Et la fonction affine est un polynôme de degré 1. Donc la régression linéaire est une régression polynomiale de degré 1.

Dans la régression polynomiale on suppose que la dépendance est polynomiale entre la sortie et les entrées. Et par conséquent, la fonction de régression estimée est un polynôme.

Formulation mathématique de la régression polynomiale

En d’autres termes, en plus des termes linéaires comme b₁x₁, la fonction de régression f peut inclure des termes non linéaires tels que b₂x₁², b₃x₁³, ou même b₄x₁x₂, b₅x₁²x₂…

L’exemple le plus simple de régression polynomiale, c’est avec une seule variable indépendante. Ainsi, la fonction de régression estimée est un polynôme de degré deux :

f(x) = b₀ + b₁x + b₂x².

n’oublions pas que le but est de calculer b₀, b₁ et b₂ pour minimiser le SSR (méthode des moindres carrés). b₀, b₁ et b₂ sont les inconnues du problème !

De la régression linéaire multiple à la régression polynomiale

On peut faire une similitude entre la fonction précédente, et la fonction obtenue par régression linéaire d’une situation dont la réponse est fonction de deux paramètres indépendants :

f(x₁, x₂) = b₀ + b₁x₁ + b₂x₂,

On remarque que les deux modèles se ressemblent beaucoup et sont tous deux des fonctions d’inconnues b₀, b₁ et b₂. C’est pourquoi il est possible de résoudre le problème de régression polynomiale en tant que problème linéaire avec le terme x² considéré comme une variable d’entrée.

Régression polynomiale à 2 paramètres

Dans le cas de deux variables et du polynôme de degré deux, la fonction de régression a la forme suivante :

f(x₁, x₂) = b₀ + b₁x₁ + b₂x₂ + b₃x₁² + b₄x₁x₂ + b₅x₂².

La procédure de résolution du problème est identique au cas précédent. On applique la régression linéaire pour cinq entrées : x₁, x₂, x₁², x₁x₂ et x₂². À la suite de la régression, on obtient les valeurs de six poids qui minimisent le RSS : b₀, b₁, b₂, b₃, b₄ et b₅.

Sous-ajustement et sur-ajustement

Une question très importante qui peut se poser, lorsqu’on est en train de résoudre un problème de régression polynomiale, c’est le choix du degré optimal de la fonction de régression polynomiale.

Il n’y a pas de règle simple pour le faire. Cela dépend du cas. Il faut, cependant être conscient de deux problèmes qui pourraient suivre le choix du degré du polynôme : le sous-ajustement et le surajustement.

Le sous-ajustement se produit lorsqu’un modèle ne peut pas capturer avec précision les dépendances entre les données, généralement en raison de sa propre simplicité. Il donne souvent un R² faible avec des données connues et une mauvaise précision. Donc de mauvaises capacités de généralisation lorsqu’il est appliqué avec de nouvelles données.

Le sur-ajustement se produit lorsqu’un modèle apprend à la fois les dépendances de données et les fluctuations aléatoires. En d’autres termes, un modèle apprend trop bien les données existantes. Les modèles complexes, qui ont de nombreuses caractéristiques ou termes, sont souvent sujets à un surajustement. Lorsqu’ils sont appliqués à des données connues, ces modèles donnent généralement un R² élevé. Cependant, ils ne généralisent souvent pas bien et ont un R² nettement inférieur lorsqu’ils sont utilisés avec de nouvelles données.

Exemple de sous-ajustement et sur-ajustement

La figure suivante illustre les modèles mal ajustés :

Le graphique en haut à gauche montre une ligne de régression linéaire qui a un R² faible. Il est évident qu’une ligne droite ne peut pas prendre en compte tous les points réels. Il s’agit là d’un exemple de sous-ajustement.

Précision de l’interpolation et de l’extrapolation polynomiale

Le graphique en haut à droite illustre la régression polynomiale avec un degré égal à deux. Dans ce cas, cela peut être le degré optimal pour modéliser ces données. Le modèle a une valeur de R² qui est satisfaisante dans de nombreux cas et montre bien les tendances.

Le graphique en bas à gauche présente une régression polynomiale avec un degré égal à trois. La valeur de R² est plus élevée que dans les cas précédents. Ce modèle se comporte mieux avec des données connues que les précédents. Cependant, il montre quelques signes de surajustement.

Enfin, sur le graphique en bas à droite, vous pouvez voir l’ajustement parfait: six points et la ligne polynomiale du degré 4 (ou plus) donnent R² = 0.995. Chaque réponse réelle est très proche de sa prédiction correspondante.

Dans certaines situations, cela peut être exactement ce que vous recherchez. Dans de nombreux cas, cependant, il s’agit d’un modèle suradapté. Il est susceptible d’avoir un mauvais comportement avec des données invisibles, en particulier avec les entrées supérieures à 55.

Par exemple, il suppose, sans aucune preuve, qu’il y a une baisse significative des réponses pour x supérieur à 55 et que y atteint zéro pour x près de 62. Un tel comportement est la conséquence d’un effort excessif pour apprendre et adapter les données existantes.

L’interpolation de données inexistante peut se faire avec une précision plus ou moins bonne, cela dépend du degré du polynôme d’interpolation. Cependant, il faut être très vigilant quant à l’extrapolation de données, il est très important de connaitre le système étudié pour éviter de fausses analyses.

Il existe de nombreuses ressources où vous pouvez trouver plus d’informations sur la régression en général et la régression linéaire en particulier.

Régression (statistiques) — Wikipédia (wikipedia.org),

Régression linéaire — Wikipédia (wikipedia.org)

Linear regression review (article) | Khan Academy