Backgound

Le Deep Learning pour détecter les périodes pluvieuses (partie 1)

February 4, 2022
10+ min

HD Rain analyse le signal électromagnétique issu des satellites géostationnaires. Les ondes émises sont altérées lors de leur parcours entre le satellite et le sol où sont installées les stations HD Rain. En particulier elles sont atténuées par diffusion de Mie lorsqu’il pleut. Le signal enregistré par les Rainboxe est ensuite traité par des méthodes d'apprentissage automatique et plus particulièrement par des réseaux de neurones artificiels pour en tirer des mesures quantitatives de la pluviométrie restituées sous forme de cartes de pluie.

Dans les deux prochains articles, nous détaillerons la première étape du long processus permettant de transformer les mesures brutes de la puissance reçue au sol en cartes de pluie restituées aux clients.

Données brutes et cartes de pluie

Une force de la technologie HD Rain repose sur la mise en réseau d’un certain nombre de capteurs. Chacun fournit en temps réel des mesures (voir figure 1), qualifiées de brutes car en amont d’une grande chaîne de calculs permettant de générer des cartes de pluie (voir figure 2).

Figure 1 : Mesures brutes transmises par une station HD Rain
Figure 2 : Cartes de pluies fournies à nos clients

Cette chaîne de calculs se décompose en plusieurs parties, chacune faisant l’objet d’améliorations continues.

Détection des périodes pluvieuses

La première étape consiste à distinguer les périodes pluvieuses des périodes sèches. Pour accomplir cette tâche, on a recours à l’intelligence artificielle et plus particulièrement au Deep Learning.

Le Machine Learning est une forme d’IA où les règles permettant de réaliser une certaine tâche sont extraites des données lors de la phase d'apprentissage. Contrairement à l'algorithmie où ces règles sont préalablement et explicitement définies par son concepteur, le Machine Learning a la possibilité de les apprendre par lui-même à partir d’un jeu de données. Le Deep Learning est une branche du Machine Learning, l’apprentissage est toujours automatique mais les modèles mis en place sont dit profonds. Ils sont plus élaborés et difficile à entraîner (nécessitant davantage de données) mais permettent de résoudre des problèmes plus complexes. Pour ce genre de problème, le Machine Learning a parfois besoin d’un algorithme intermédiaire ou d’une intervention humaine pour l’aider alors que le Deep Learning peut apprendre sans aucune aide préliminaire.

On peut illustrer ce point en prenant un exemple de détection de moto. Un modèle de Deep Learning permettrait de détecter une moto représentée sur une image directement à partir de celle-ci alors qu’un modèle de Machine Learning aurait certainement besoin d’un algorithme d’extraction de features (ou de caractéristiques) en amont. Cet algorithme consiste à extraire (soit manuellement par intervention humaine soit automatiquement) les informations que l’on sait pertinentes pour notre problème.

En l’occurrence, il pourrait s’agir d’extraire des portions utiles de l’image (roues, guidon, vitres...), donner la couleur principales de l’objet, ses dimensions caractéristiques (hauteur, longueur), etc. Et c’est seulement à partir de ces caractéristiques que le modèle de Machine Learning entrerait en jeu et pourrait déterminer s’il s’agit de l’image d’une moto. La figure 3 permet d’illustrer ce point là et de distinguer algorithmie, Machine Learning et Deep Learning.

Figure 3 : Algorithmie, Machine Learning et Deep Learning

Obtenir un jeu d’entraînement conséquent et de qualité

Pour toute tâche d’apprentissage automatique il est nécessaire d’avoir de quoi entraîner le modèle. Il faut donc des données labellisées ou encore étiquetées (cf labellisation de données). En d’autres termes, en plus de la donnée en elle-même il faut lui associer le résultat que l’on attend en sortie du modèle (moto / pas moto pour chaque image de notre exemple précédent et pluie / non pluie à chaque minute et pour chaque capteur dans notre cas).

Lorsque l’on met en place des modèles de Deep Learning, comme c’est le cas dans notre situation, le nombre de données d’entraînement doit être très important s’il on veut avoir une chance d’en tirer un résultat satisfaisant.

Dans notre cas on dispose des mesures brutes de nombreux capteurs sur une période temporelle de plusieurs années. La figure 1 est un exemple.

En ce qui concerne la labellisation de toutes ces données, on a principalement recourt à deux méthodes :

  • La labellisation à partir des données de Météo-France (rapide)
  • La labellisation à la main (plus précise, indispensable dans les pays où il n’y a pas ou très peu de données)
Figure 4 : Mesures brutes (en bleu) et pluviométries radars associées (en rouge)

En résumé

De nombreuses étapes sont nécessaires pour obtenir les cartes de pluie fournies aux clients à partir du signal brut mesuré par les capteurs HD Rain. La première consiste à détecter les périodes pluvieuses parmi les périodes sèches. Cette tâche est réalisée à l’aide de modèles de Deep Learning que l’on distingue du Machine Learning.

L’avantage du Machine Learning est qu’il est plus simple à mettre en place et permet d’avoir des résultats satisfaisants avec un faible jeu de données. Le Deep Learning, à condition d’avoir suffisamment de données et d’avoir mis en place le modèle adéquat, permet de réaliser des tâches complexes avec des résultats qui dépassent parfois un expert humain (par exemple la détection de tumeurs sur un radiographe).

Pour avoir une chance de bénéficier de toute la puissance du Deep Learning, il faut pouvoir entraîner son modèle ce qui requiert un grand nombre de données labellisées. Pour cela on dispose de l’ensemble des mesures enregistrées par nos nombreux capteurs. La labellisation se fait soit à partir des données de Météo-France soit à la main pour une meilleure précision et pour les zones ne disposant pas de telles données.