Statistique & Machine Learning : Retour sur StatLearn 2017

Temps de lecture : 2 minutes

Les 6 et 7 avril a eu lieu à Lyon l’édition 2017 de StatLearn, pour laquelle Quantmetry a fait le déplacement et présenté ses travaux de traitement automatique du langage naturel appliqué à l’étude du cancer du sein. Cette conférence annuelle se concentre sur les avancées et les développements futurs du machine learning et de l’apprentissage statistique. Elle est organisée par la Société Française des Statistiques (SFdS) et s’est déroulée cette année dans le cadre du superbe Grand Amphitéatre de l’Université Lumière Lyon 2.

Au programme des conférences de cette année, Hugo Larochelle (Google Brain) était très attendu pour sa présentation axée deep learning sur les autoregressive generative models.

Deux autres sujets passionnants abordés le premier jour de conférence portaient sur les graphes avec le phénomène de diffusion et son contrôle par Nicolas Vayatis (ENS) et la détection de communauté en temps réelle par Sébastien Loutau (Artfact).

Figure 1 : Présentation d’Hugo Larochelle sur les Autoregressive Generative Models

Jay Emerson (Department of Statistics, Yale University) a présenté les différentes solutions pour le traitement de données massives en R. Sa présentation, très didactique, a notamment permis de présenter le package bigmemory (dont il est l’auteur), mais également de proposer quelques bonnes pratiques de parallélisation en R.

Une autre présentation portait sur une méthode de régularisation par adaptive ridge. De nombreux exemples à l’appui (analyse de survie, histogrammes à largeurs non uniformes, …), l’intérêt de la méthode et son apport par rapport à d’autres méthodes de régularisation ont été présentés.

Figure 2 : Le Grand Amphitéâtre de l’Université Lumière Lyon 2 a abrité une centaine de chercheurs, étudiants et data scientists durant les deux jours de la conférence

Le deuxième jour de la conférence était consacré à la fouille de texte, avec notamment une présentation originale et colorée sur le journalisme « data-driven » par Xavier Tannier de l’Université Paris-Sud. Cette présentation était précédée d’une vue d’ensemble claire et exhaustive sur les méthodes de représentation vectorielles de phrases par Martin Jaggi.

Figure 3 : Une présentation riche en couleur sur le journalisme « data-driven » par Xavier Tannier

Le soir de la première journée, nous avons présenté les travaux de Quantmetry au cours de la traditionnelle session poster. Nous avons été agréablement surpris de voir que notre étude du cancer du sein par des méthodes de traitement automatique du langage naturel a retenu l’attention de nombreux participants. Les autres posters présentés – une quinzaine – portaient sur des sujets très divers tels que l’analyse d’images satellite pour le comptage d’animaux ou l’estimation de consommation d’énergie renouvelable.

Au global, la conférence a été riche grâce à la diversité des interlocuteurs : nous avons pu échanger avec des étudiants, des ingénieurs, des data scientists et des chercheurs. Le deep learning et le traitement automatique du langage naturel étaient très représentés dans les présentations et posters, mais les méthodes plus traditionnelles de machine learning semblent continuer d’alimenter un effort de recherche important. L’évolution de la recherche reste à suivre au cours de prochaines années et nous sommes convaincus que StatLearn 2018 nous donnera d’autres pistes de réflexions intéressantes !