L’apprentissage supervisé est une forme de machine learning, caractérisée par la création d’un algorithme qui apprend une fonction prédictive, en utilisant des données d’entrainement annotées. Dans l’article précédent, nous avions compris les bases de l’apprentissage supervisé ainsi que quelques applications.
Principaux algorithms de régression
Régression linéaire
La régression linéaire permet de prédire la valeur d'une variable dépendante (y) en fonction d'une ou plusieurs variables indépendantes données ( , ,…). Cette technique de régression établit donc une relation entre x (l'entrée) et y (la sortie).
a. Régression linéaire simple
Dans le cas d’une régression linéaire simple, le modèle de régression établit une relation entre la variable d’entrée indépendante, soit la variable explicative (x), et la variable de sortie continue, soit la variable à expliquer (y). Ainsi, le modèle doit commencer avec la fonction d’hypothèse suivante :
Ici, correspond à l'intersection 0 et
Dans cette formule :
- n est le nombre total de point de données
- est la valeur de sortie réelle
- est la valeur de sortie prédite
Une fois les valeurs optimales identifiées, le modèle devrait pouvoir établir une relation linéaire avec l’erreur minimale, soit la REQM minimale.
D’autres mesures d’évaluation, comme l’erreur quadratique moyenne (EQM), l’erreur moyenne en pourcentage absolu ou encore le coefficient de détermination () peuvent être utilisées.
La régression linéaire simple est le modèle le plus utilisé en finance. En effet, il peut être utilisé pour la gestion de portefeuille, l’évaluation des actifs et l’optimisation. Par exemple, il peut être employé pour prévoir les retours et les performances opérationnelles d’une entreprise. Cependant, il existe certains cas pour lesquels la variable à expliquer ne dépendent pas que d’un seul facteur. Ainsi, nous aurons besoin d’un modèle pour évaluer des situations un peu plus complexes : nous utiliserons la régression linéaire multiple.
b. Régression linéaire multiple
Dans certains cas, la variable de sortie (y), que nous essayons de prédire, dépend de plus d’une variable. Ainsi, un modèle plus élaboré, qui prend en compte cette dimension supérieure, est nécessaire. C’est ce qu’on appelle la régression linéaire multiple. L’utilisation d’un plus grand nombre de variables indépendantes peut permettre d’améliorer la précision du modèle, tant que les variables ajoutées sont pertinentes à celui-ci. Par exemple, un modèle de régression linéaire multiple basé sur trois variables indépendantes suivrait le format suivant :
De la même manière que pour la régression linéaire simple, des mesures d’évaluation peuvent être utilisées pour déterminer la performance optimale.
c. Régression polynomiale
La régression polynomiale peut être considérée comme un cas particulier de la régression linéaire multiple, dans lequel la distribution des données est plus complexe qu’une simple distribution linéaire. En d’autres mots, la relation entre la variable dépendante x et la variable indépendante y est modélisée comme le N-ième degré polynomial de x. Cet algorithme peut générer une courbe pour des données non-linéaires. Par exemple, une régression linéaire polynomial peut suivre une fonction de la forme :
Régression de Poisson
Un deuxième algorithme de régression est la régression de Poisson. C’est une forme particulière de régression, dans laquelle la variable à expliquer, y, doit être des données de dénombrement. En d’autres mots, cette variable doit correspondre à un chiffre supérieur ou égal à 0 and ne peut donc pas être négative. Avant de pouvoir appliquer une régression de Poisson, nous devons vérifier que les observations sont bel et bien indépendantes les unes des autres et que la distribution des données suit la distribution de Poisson.
Régression à vecteurs de support
La régression à vecteurs de support, ou Support Vector Regression (SVR), est un algorithme de régression qui peut être appliqué aux régressions linéaires ainsi qu’aux régressions non-linéaires. Elle s’appuie sur le principe de machine à vecteur de support et est utilisée pour prévoir des variables continues ordonnées. Contrairement à la régression linéaire simple où le but est de minimiser le taux d’erreur, dans la régression à vecteur de support, l’idée est de faire rentrer l’erreur dans une marge prédéterminée et de maximiser l’écart entre les classes. En d’autres mots, cette forme de régression tente d’estimer la meilleure valeur au sein d’une marge, connue sous le nom de ε-tube.
Sur ce graph, the ligne noire représente l’hyperplan optimal, qui aide à prédire la valeur cycle. De plus, les ligne en pointillé représente ligne de marge, présent à une distance ε de l’hyperplan. Idéalement, l’objectif de la régression à vecteurs de support est de positionner l’hyperplan de telle sorte à ce qu’il sépare les variables indépendantes d’une classe à l’autre. Les modèles de régression à vecteurs de support font partie des techniques les plus utilisées pour les prédictions des cours d’actions, puisque ces algorithmes sont maintenant capables d’anticiper les mouvements de marché et donc d’estimer de futures valeurs d’actif, comme par exemple des cours boursiers. De plus, étant donné que la régression à vecteurs de support est particulièrement efficace sur des problèmes non-linéaires, elle peut être utilisée pour détecter les fraudes financières.
A venir
Ainsi, il existe de nombreux algorithmes pouvant être utilisés pour la régression supervisée. Certains d’entre eux peuvent être également utilisés dans le cadre de problèmes de classification. Afin d’identifier quel algorithme de régression doit être utilisé, les utilisateurs doivent identifier le nombre de variables indépendantes présentes dans leurs données, ainsi que la relation entre les variables dépendantes et indépendantes.
Dans les prochains articles, nous nous concentrerons sur un cas d’usage d’apprentissage supervisé au sein de Linedata.