Les principaux algorithmes de régression pour l’apprentissage supervisé

L’apprentissage supervisé est une forme de machine learning, caractérisée par la création d’un algorithme qui apprend une fonction prédictive, en utilisant des données d’entrainement annotées. Dans l’article précédent, nous avions compris les bases de l’apprentissage supervisé ainsi que quelques applications.

Principaux algorithms de régression

Régression linéaire

La régression linéaire permet de prédire la valeur d'une variable dépendante (y) en fonction d'une ou plusieurs variables indépendantes données ( , ,…). Cette technique de régression établit donc une relation entre x (l'entrée) et y (la sortie).

a. Régression linéaire simple

Dans le cas d’une régression linéaire simple, le modèle de régression établit une relation entre la variable d’entrée indépendante, soit la variable explicative (x), et la variable de sortie continue, soit la variable à expliquer (y). Ainsi, le modèle doit commencer avec la fonction d’hypothèse suivante :

Ici, correspond à l'intersection 0 et correspond au coefficient de x , soit la pente. Dans le cas d’un apprentissage supervisé, il est prévu que les valeurs de x et y soient données, lors de l’entrainement du modèle. Lors de ce processus, le modèle détermine la meilleure ligne droite, afin de prédire la valeur de y en fonction de la valeur de x donnée. Pour cela, le modèle doit identifier les meilleures valeurs pour et, tout en itérant à travers les données d’entrainement. Afin de déterminer les valeurs optimales pour and et évaluer la performance du modèle, nous pouvons utiliser des mesures d’évaluation. La plus répandue, pour mesurer la performance d’un modèle de régression, est la racine de l’erreur quadratique moyenne, ou REQM, qui correspond à la racine carrée de la moyenne des erreurs quadratiques. La formule est la suivante :

Dans cette formule :

n est le nombre total de point de données
est la valeur de sortie réelle
est la valeur de sortie prédite

Une fois les valeurs optimales identifiées, le modèle devrait pouvoir établir une relation linéaire avec l’erreur minimale, soit la REQM minimale.

D’autres mesures d’évaluation, comme l’erreur quadratique moyenne (EQM), l’erreur moyenne en pourcentage absolu ou encore le coefficient de détermination () peuvent être utilisées.

La régression linéaire simple est le modèle le plus utilisé en finance. En effet, il peut être utilisé pour la gestion de portefeuille, l’évaluation des actifs et l’optimisation. Par exemple, il peut être employé pour prévoir les retours et les performances opérationnelles d’une entreprise. Cependant, il existe certains cas pour lesquels la variable à expliquer ne dépendent pas que d’un seul facteur. Ainsi, nous aurons besoin d’un modèle pour évaluer des situations un peu plus complexes : nous utiliserons la régression linéaire multiple.

b. Régression linéaire multiple

Dans certains cas, la variable de sortie (y), que nous essayons de prédire, dépend de plus d’une variable. Ainsi, un modèle plus élaboré, qui prend en compte cette dimension supérieure, est nécessaire. C’est ce qu’on appelle la régression linéaire multiple. L’utilisation d’un plus grand nombre de variables indépendantes peut permettre d’améliorer la précision du modèle, tant que les variables ajoutées sont pertinentes à celui-ci. Par exemple, un modèle de régression linéaire multiple basé sur trois variables indépendantes suivrait le format suivant :

De la même manière que pour la régression linéaire simple, des mesures d’évaluation peuvent être utilisées pour déterminer la performance optimale.

c. Régression polynomiale

La régression polynomiale peut être considérée comme un cas particulier de la régression linéaire multiple, dans lequel la distribution des données est plus complexe qu’une simple distribution linéaire. En d’autres mots, la relation entre la variable dépendante x et la variable indépendante y est modélisée comme le N-ième degré polynomial de x. Cet algorithme peut générer une courbe pour des données non-linéaires. Par exemple, une régression linéaire polynomial peut suivre une fonction de la forme :

Régression de Poisson

Un deuxième algorithme de régression est la régression de Poisson. C’est une forme particulière de régression, dans laquelle la variable à expliquer, y, doit être des données de dénombrement. En d’autres mots, cette variable doit correspondre à un chiffre supérieur ou égal à 0 and ne peut donc pas être négative. Avant de pouvoir appliquer une régression de Poisson, nous devons vérifier que les observations sont bel et bien indépendantes les unes des autres et que la distribution des données suit la distribution de Poisson.

Régression à vecteurs de support

La régression à vecteurs de support, ou Support Vector Regression (SVR), est un algorithme de régression qui peut être appliqué aux régressions linéaires ainsi qu’aux régressions non-linéaires. Elle s’appuie sur le principe de machine à vecteur de support et est utilisée pour prévoir des variables continues ordonnées. Contrairement à la régression linéaire simple où le but est de minimiser le taux d’erreur, dans la régression à vecteur de support, l’idée est de faire rentrer l’erreur dans une marge prédéterminée et de maximiser l’écart entre les classes. En d’autres mots, cette forme de régression tente d’estimer la meilleure valeur au sein d’une marge, connue sous le nom de ε-tube.

Sur ce graph, the ligne noire représente l’hyperplan optimal, qui aide à prédire la valeur cycle. De plus, les ligne en pointillé représente ligne de marge, présent à une distance ε de l’hyperplan. Idéalement, l’objectif de la régression à vecteurs de support est de positionner l’hyperplan de telle sorte à ce qu’il sépare les variables indépendantes d’une classe à l’autre. Les modèles de régression à vecteurs de support font partie des techniques les plus utilisées pour les prédictions des cours d’actions, puisque ces algorithmes sont maintenant capables d’anticiper les mouvements de marché et donc d’estimer de futures valeurs d’actif, comme par exemple des cours boursiers. De plus, étant donné que la régression à vecteurs de support est particulièrement efficace sur des problèmes non-linéaires, elle peut être utilisée pour détecter les fraudes financières.

A venir

Ainsi, il existe de nombreux algorithmes pouvant être utilisés pour la régression supervisée. Certains d’entre eux peuvent être également utilisés dans le cadre de problèmes de classification. Afin d’identifier quel algorithme de régression doit être utilisé, les utilisateurs doivent identifier le nombre de variables indépendantes présentes dans leurs données, ainsi que la relation entre les variables dépendantes et indépendantes.

Dans les prochains articles, nous nous concentrerons sur un cas d’usage d’apprentissage supervisé au sein de Linedata.