Qu’est-ce que le machine learning ?

Dans le domaine de l’intelligence artificielle (IA), qui vise à faire accomplir par des ordinateurs des tâches requérant normalement l’intelligence humaine, le machine learning constitue actuellement la tendance dominante.

Avec le machine learning ou apprentissage artificiel, l’ordinateur effectue des tâches pour lesquelles il n’a pas été explicitement programmé en produisant lui-même des modèles et parfois même en les faisant évoluer à partir de nouvelles données.

Les algorithmes de machine learning utilisent de grandes quantités de données. Ils se rapprochent en cela du data mining ou de la business intelligence. Toutefois le data mining se borne à rendre intelligibles des données en les présentant de façon analytique et synthétique.

Le machine learning va plus loin en ce qu’il permet de produire des règles ou des modèles capables d’expliquer les données, donc potentiellement de prédire de nouvelles données (predictive analytics), voire finalement de prendre des décisions à partir de nouvelles données et du modèle établi.

Au sein du machine learning on distingue généralement l’apprentissage supervisé (supervised learning) et non supervisé (unsupervised learning).

Dans l’apprentissage supervisé l’algorithme reçoit des données d’apprentissage qui sont « étiquetées » afin de lui permettre d’apprendre. C’est par exemple le principe des filtres anti-spams où l’utilisateur désigne les mails indésirables. L’algorithme construit progressivement son modèle par généralisation des situations observées dans les données.

La variable à déterminer peut être discrète (par exemple : spam / non spam), l’objectif étant d’établir un modèle de classification du jeu de données en entrée. Ou bien elle peut être continue, l’objectif étant de déterminer une variable numérique (par exemple le prix d’une obligation); on parle alors de modèle de régression. Les techniques mises en œuvre vont bien évidemment beaucoup plus loin que la simple régression linéaire, les données à analyser étant multidimensionnelles.

 		Apprentissage supervisé (classification)Le modèle essaie de prédire la valeur d'une variable discrète (bleu, rouge ou jaune)
Apprentissage supervisé (classification)Le modèle essaie de prédire la valeur d’une variable discrète (bleu, rouge ou jaune)

Dans l’apprentissage non supervisé, l’algorithme reçoit des données brutes sans aide extérieure et donc sans directive quant au résultat recherché. Il va alors essayer de grouper les données (clustering) et d’identifier des schémas (patterns), des corrélations ou des inférences.

Apprentissage non supervisé 		Le modèle construit des groupes d'individus similaires (selon un critère de distance à définir).
Apprentissage non supervisé Le modèle construit des groupes d’individus similaires (selon un critère de distance à définir).

Le deep learning s’attaque aux jeux de données particulièrement vastes et peu structurées, qu’il est impossible de modéliser avec les systèmes de gestion de bases de données classiques (big data). Il est particulièrement bien adapté à la classification d’images.

Le machine learning vise également à produire des systèmes capables d’évoluer et de s’adapter à des situations nouvelles. Ainsi la programmation évolutive (evolutionary computation) consiste, par une approche itérative, à sélectionner progressivement des prédicteurs de plus en plus performants en les recombinant et en conservant à chaque itération ceux qui fournissent les meilleurs résultats.

Est-ce nouveau ?

La plupart des techniques utilisées dans le machine learning reposent sur des théories mathématiques (statistiques avancées, arbres de décision, réseaux bayésiens, réseaux de neurones,…) qui sont connues depuis 50 ans sinon plus. Elles deviennent de plus en plus utilisées aujourd’hui du fait de la conjonction d’un certain nombre de facteurs :

  • Des coûts de stockage des données en constante diminution
  • Une puissance de calcul en constante augmentation
  • Une explosion de la quantité d’information disponible sous forme digitale
  • Le fait que cette information est en grande partie non structurée et requiert des techniques d’exploitation différentes des méthodes classiques qui reposent sur les bases de données et la programmation par instructions séquentielles.

Le machine learning est présent un peu partout aujourd’hui : les banques l’utilisent pour évaluer la solvabilité d’un emprunteur, les moteurs de recherche pour présenter à l’internaute des résultats – et des publicités – adaptés à ses attentes. Les applications les plus spectaculaires concernent la reconnaissance de texte ou d’images, les jeux de stratégie comme les échecs ou le go, ou la robotique comme dans la Google Car.

Quelles sont les applications dans le domaine de la finance de marché ?

Trading et investissement

Dans le domaine du trading, l’utilisation de techniques, fussent-elles très sophistiquées, afin de prédire des tendances à court terme se heurte très vite au principe d’efficience des marchés. La position prise sur la base de cette prédiction influe sur le marché et de ce fait la prédiction est rapidement incorporée dans le prix. Il est donc très difficile de générer des gains de court terme sans risque de manière consistante dans le temps.

C’est plutôt dans le domaine de la gestion de portefeuille, qui porte sur des investissements de plus long terme, que le machine learning trouve ses applications les plus prometteuses. Les gestionnaires de portefeuilles utilisent le machine learning afin d’analyser toutes les données d’entreprise disponibles (rapports financiers mais aussi communiqués de presse, news et même enregistrements sonores ou vidéos retranscrits) de manière à identifier les investissements les plus intéressants. L’idée est de mettre en évidence les relations pertinentes entre l’histoire opérationnelle et financière d’une entreprise et la performance de ses titres en bourse.

En gestion de portefeuille comme dans tous les domaines à fort contenu intellectuel, l’expertise, acquise par l’expérience, repose principalement sur la reconnaissance immédiate de schémas, de « patterns ». Avec le machine learning on commence à avoir des systèmes qui incorporent une véritable expertise.

De plus en plus de gestionnaires d’actifs utilisent ainsi le machine learning, soit pour prendre des décisions d’investissement, soit au moins pour appuyer ces décisions, avec l’ambition de produire des algorithmes capables de s’adapter à un environnement changeant de manière plus rapide que les solutions classiques développées par des quants.

Récemment, un hedge fund dans lequel toutes les décisions d’investissement sont prises automatiquement par un système de trading utilisant l’intelligence artificielle a même été lancé. Les performances de ce fond ne sont toutefois pas encore divulguées.

Gestion des risques

Les solutions de machine learning permettent d’analyser en continu les comportements des traders, en utilisant non seulement l’historique des ordres passés mais aussi les échanges sur les messageries instantanées. Ces solutions s’avèrent bien plus efficaces que les méthodes traditionnelles, qui procèdent par sondages et a posteriori, pour identifier rapidement les comportements frauduleux ou les prises de risques non autorisées.

Quels sont les risques ?

En ce qui concerne les algorithmes eux-mêmes, l’écueil le plus connu concerne le « surapprentissage » ou « overfitting » : le système devient exagérément complexe et finit par ne plus distinguer les corrélations réellement utiles de celles qui ne correspondent pas à la réalité mais simplement à du « bruit » dans les données.

Mais ce sont surtout les responsables de la conformité au sein des établissements et les régulateurs qui peuvent trouver à redire à ces nouvelles tendances. En effet, alors qu’un programme « classique », fût-il complexe, peut être décrit sous une forme compréhensible et son comportement rester prédictible, il n’en va forcément de même des systèmes basés sur le machine learning qui peuvent se présenter comme des « boîtes noires ». Paradoxalement, c’est alors que l’intervention humaine va s’avérer indispensable afin d’expliquer et contrôler le comportement des machines.