Uncategorized
28/06/2017

A Berlin, même les #buzzwords ont leur conférence !


Temps de lecture : 4 minutes
Quantmetry.com : A Berlin, même les #buzzwords ont leur conférence !

 

 

 

 

 

 

 

 

 

 

 

Du 11 au 13 juin 2017, c’est tout naturellement à Berlin qu’a eu lieu la 8eme édition de Berlin Buzzwords. A cette occasion, Quantmetry a fait le déplacement jusqu’en Allemagne pour présenter un sujet innovant de détection de communautés et d’analyse d’importance d’individu dans les graphes. Depuis Paris vers la Kulturbrauerei dans le quartier de Prenzlauer Berg, accompagnez-nous et découvrons ensemble les dernières évolutions autour d’Apache Spark, Lucene, Kafka, Solr, Flink, les containers, les pipelines de données …

Le Berlin Buzzwords, c’est une grande conférence très orientée tech. Les sujets traités sont notamment le stockage, le traitement, le streaming et l’analyse de grandes volumétries de données, avec un focus particulier sur les projets Open Source.

600 participants avec des profils variés issus du monde académique, de l’industrie et des start-up ont pu assister à 60 talks présentés par 50 speakers issus de différents pays. Et bonne nouvelle: les vidéos et supports des talks sont disponibles ici.

L’éthique au centre de la révolution digitale

L’éthique a été un sujet phare de la conférence, notamment avec les keynotes de Karen Sandler (directrice de la Software Freedom Conservancy, qui porte entres autres les projets Git, Homebrew, Samba) et Duncan Ross (président de la chaire de Datakind UK, une ONG qui exploite les données pour aider le public) qui ont transmis un message assez clair à la communauté d’ingénieurs : nous avons une forte responsabilité éthique dans la révolution de la donnée. L’éthique, la pérennité des projets Open Source, s’assurer d’un usage des données qui aide le plus grand nombre et ne discrimine pas, sont des sujets que nous devons prendre en charge.

Karen Sandler lors du keynote du 12 juin, Duncan Ross lors du keynote du 13 juin

 

C’est autour de cette thématique de l’éthique que Lars Albertsson a rebondi, en proposant des conseils pratiques pour respecter la vie privée des individus dans les données, et appliquer la RGPD à venir. Il a notamment proposé de nommer directement dans les bases de données les variables en fonction de leur niveau de sensibilité, fortement incité à construire des pipelines de données (avec Luigi ou Airflow par exemple), et entamé une réflexion sur la gestion de versions des bases de données. Sean Braithwaite a également longuement défendu la construction d’un pipeline efficace, qui facilite la collaboration entre différents types d’experts et clarifie l’architecture des traitements de données.

Présentation des dernières innovations de la suite Apache​

Tout comme les années précédentes, de nombreux talks ont été réalisés sur Spark, Kafka, Flink et Solr entres autres, mais aussi sur des projets un peu moins connus comme Lucene, NiFi, Apex, Joshua et Beam.

Parmi les sujets les plus traités dans les présentation on notera :

  • le streaming de données en temps réel ;

  • le monitoring de systèmes distribués, avec plusieurs retours d’expérience sur ElasticSearch et Solr ;

  • des solutions cloud d’auto-scaling.

Concernant la thématique des graphes, Michael Hackstein a présenté une base de données dont le potentiel nous semble particulièrement intéressant : Apache ArangoDB. En bref, s’agit d’une base NoSQL multi-modèles (clé-valeur, document, graphe), qui pourrait apporter des solutions pour pallier à certains problèmes rencontrés sur d’autres bases de données de graphes (ex : filtrage sur les attributs d’arêtes).

​Et en dehors des solutions technologiques, d’autres sujets traités?

Bien que la conférence se focalise plutôt sur les technologies, l’architecture et le monitoring, plusieurs cas d’usage ont été présentés. On notera par exemple la présentation d’un Use Case de Loovoo (une application allemande type Tinder) sur la recherche anti-spam basée sur le comportement utilisateur. Dans ce cas particulier, les spams sont des individus se faisant passer pour d’autres sur les chats en utilisant de fausses photos. Bombardier a également présenté leur organisation interne et cas d’usages envisagés pour tirer parti des nouvelles données qu’ils ont à disposition. Et Quantmetry dans tout ça? Le mardi 13 juin après-midi nous avons présenté une introduction à la théorie des graphes et ses cas d’usage, avec un focus spécifique sur les algorithmes de détection de communauté. Ce fut un très bon moment d’échange sur les outils qui permettent ce type d’analyse avec la communauté de développeurs. Devant le grand l’intérêt suscité par ce sujet nous vous proposerons prochainement une série d’articles sur le blog… stay tuned !

​En conclusion…

Pour conclure, nous avons beaucoup apprécié les talks et les échanges que nous avons eu avec les participants et speakers. Le Berlin Buzzword est donc clairement un événement à suivre dans le futur : la cuvée 2018, en particulier, s’annonce d’ores et déjà encore plus riche de la 2017. Avec un sommet sur l’open source et sa gouvernance qui aura lieu la même semaine que cette 9eme édition de Berlin Buzzwords, ce sera la parfaite occasion pour en savoir plus sur ce sujet dont l’importance ne pourra que s’accroître dans les prochaines années. See you in Berlin !

Aller en haut