Post Mortem
By François Paupier
In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation.
Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
Post MortemOct 14, 2020
#24 The New Face of Conflict: AI in Warfare with COL ANTAL
In this episode of the Post Mortem podcast, we dive deep into the impact of artificial intelligence in modern warfare with retired Colonel John Antal. With over 30 years of experience in the US Army and a prolific career as an author and software industry expert, COL Antal shares his insights into the future of warfare.
Â
We explore the concept of decision dominance in the digital age, discussing the nuances of data & AI applications in military strategy, from 'man in the loop' to 'man out of the loop' systems. COL Antal breaks down the complexities of AI, explaining the progression from Artificial Narrow Intelligence (ANI) to the potential of Artificial General Intelligence (AGI) and the concept of Artificial Super Intelligence (ASI).
Â
The conversation shifts to the practical implications of AI in military operations, highlighting the evolution from traditional kill chains to AI-enabled kill webs.
We also touch on the lessons learned from recent wars, the Russian/Ukraine war, Nagorno-Karabakh conflict, Israel/Hamas war, and the importance of continuous adaptation in the face of rapidly advancing technologies.
Â
This episode is a must-listen for anyone interested in the intersection of technology and military strategy.
Â
Bibliography
Below are some of the resources used to prepare for this episode and mentioned in it :
- Lessons of the Second Nagorno-Karabakh War, US Army Fires Conference, accessed January 2023, at https://www.youtube.com/watch?v=eLq4WJMl7Zc
- John Antal presentation at the Manoeuvre Warfighter Conference (MWFC), accessed September 14, 2022, at https://youtu.be/EOrc4x-DlmI
- Testimony of Christian Brose. To the House Armed Services Committee. Subcommittee on Cyber, Information Technologies, and Innovation. The Future of War: Is the Pentagon Prepared to Deter and Defeat Americaâs Adversaries. Feb. 2023. https://armedservices.house.gov/sites/republicans.armedservices.house.gov/files/Brose Written Testimony.pdf
- ANTAL, J. (2023). Artificial Intelligence and the Accelerating Tempo of War. Retrieved Jan 7 2024, from https://www.schumer.senate.gov/imo/media/doc/John%20Antal%20-%20Statement.pdf US Senate AI Symposium.
- Next War: Reimagining How We Fight, 2023, John F Antal, https://www.amazon.com/Next-War-Reimagining-How-Fight/dp/1636243355
- Aerorozvidka NGO, Unmanned aerial vehicles, situational awareness, cybersecurity https://aerorozvidka.ngo/
- Nagorno-Karabakh conflict, https://en.wikipedia.org/w/index.php?title=Nagorno-Karabakh_conflict&oldid=1198631897 (last visited Jan. 28, 2024).
- âThe Gospelâ: how Israel uses AI to select bombing targets in Gaza, The Guardian, Dec 1 2023, Retrieved Feb 2 2024, https://www.theguardian.com/world/2023/dec/01/the-gospel-how-israel-uses-ai-to-select-bombing-targets
- Joint All-Domain Command and Control (JADC2), United States DoD, https://media.defense.gov/2022/Mar/17/2002958406/-1/-1/1/SUMMARY-OF-THE-JOINT-ALL-DOMAIN-COMMAND-AND-CONTROL-STRATEGY.PDF
- Haut-Karabagh : dix enseignements d'un conflit qui nous concerne, Rapport d'information n° 754 (2020-2021), déposé le 7 juillet 2021, https://www.senat.fr/rap/r20-754/r20-754_mono.html#toc167
- Compte rendu Commission de la dĂ©fense nationale et des forces armĂ©es, Audition, Ă huis clos, de M. le gĂ©nĂ©ral dâarmĂ©e Thierry Burkhard, chef dâĂ©tat-major de lâarmĂ©e de Terre sur lâactualisation de la LPM 2019-2025, page 14, https://www.assemblee-nationale.fr/dyn/15/comptes-rendus/cion_def/l15cion_def2021068_compte-rendu.pdf
#23 D'entrepreneur Ă investisseur - le parcours de Philippe Laval
Dans lâĂ©pisode #23 du podcast Post Mortem, je reçois Philippe Laval, ingĂ©nieur & fondateur de plusieurs entreprises dont SINEQUA, Philippe est aujourdâhui CTO Ă Jolt Capital, un fonds dâinvestissement dans la DeepTech en Europe.
Dans la tech, les parcours de carriÚres pour les ingénieurs logiciels se distinguent souvent en deux voies proposées en entreprise :
- Une voie contributeur individuel (IC â Individual Contributor) qui offre la satisfaction de rĂ©soudre des problĂšmes techniques complexes ;
- Une voie management (management track) pour gérer des équipes techniques et influer sur le produit.
Philippe a choisi dâaller au-delĂ de cette dichotomie. En se lançant dans lâentreprenariat, il voulait « build something people want » comme le dit la devise de YCombinator. Entre la France et San Francisco, il a  dĂ©veloppĂ© des algorithmes de traitements big data et des approches sĂ©mantiques de haut vol, tout en continuant de dĂ©velopper sa vision produit pour piloter ses business.
Dans cet Ă©pisode on revient sur lâaventure entrepreneurial de Philippe, les victoires, les difficultĂ©s, et les enseignements que lâon peut tirer de sa carriĂšre avant dâouvrir sur sa mission actuelle en tant que CTO de JOLT Capital.
---
La recommandation de lecture de Philippe, Termination Shock, Neal Stephenson
#22 L'Ă©volution de la boĂźte Ă outils du Data Scientist
Dans lâĂ©pisode #22 du podcast Post Mortem, je reçois Alex Combessie. Alex est co-fondateur et CEO de Giskard â une solution dâĂ©valuation de modĂšles dâIA.  Avec Alex, on revient sur les diffĂ©rentes prises de consciences qui ont touchĂ© les Ă©quipes data autour de la mise en production de projets IA.
On sâinterroge Ă©galement sur la disponibilitĂ© de lâoutillage des Ă©quipes data & IA, notamment dans le cas de lâerror analysis afin dâassurer que lâintroduction de rĂ©gression « ML » est maitrisĂ©e.
Bibliographie
- Applying ML â Blog de Eugene Yan, https://applyingml.com/
- Blog Post de Giskard sur le ML - https://www.giskard.ai/knowledge-categories/blog
- Le cours de Andrew NG sur lâerror analysis, « Carrying Out Error Analysis (C3W2L01) » - issue de la specialization Structuring Machine Learning Projects (Course 3 of the Deep Learning Specialization) -  https://www.youtube.com/watch?v=JoAxZsdw_3w
#21 L'investigation d'incidents cyber avec Thomas et François de Defants
La cybersĂ©curitĂ© est un domaine ingrat. Le dĂ©fenseur doit sâassurer que lâensemble de son systĂšme est sĂ©curisĂ©, lĂ oĂč lâattaquant a besoin dâune unique faille pour atteindre son objectif.  La gestion dâincident cyber implique de collecter et dâanalyser minutieusement les journaux des diffĂ©rentes applications et serveurs, comment faire pour sâassurer de ne passer Ă cĂŽtĂ© dâaucune info clĂ© ?  Â
 Â
Dans lâĂ©pisode #21 du podcast Post Mortem, je reçois François Khourbiga et Thomas Raffineau MarĂ©chal, les deux co-fondateurs de Defants â une solution dâinvestigation dâincidents de cybersĂ©curitĂ©.Â
 Â
On revient sur ce qui les a poussĂ©s Ă entreprendre dans le domaine du cyber, leur vision de la gestion dâincidents cyber et la façon dont une startup peut pĂ©nĂ©trer un domaine oĂč les process sont bien ancrĂ©s et comment un nouvel outil et mĂ©thode peuvent trouver leurs places.Â
 Â
Â
BibliographieÂ
 Â
- Defenders think in lists. Attackers think in graphs. As long as this is true, attackers win. 26 avril 2015, John Lambert, Distinguished Engineer, Microsoft Threat Intelligence. Billet de blog citĂ© en ouverture de l'Ă©pisode.Â
- Mandiant, leader de la threat intelligence.
- Les diffĂ©rents rapports de lâANSSI, excellente ressources, notamment : Rapport dâactivitĂ© 2020, 2021, rapport Crise dâorigine cyber, les clĂ©s dâune gestion opĂ©rationnelle et stratĂ©giqueÂ
- Une ressource pas citĂ© explicitement dans l'Ă©pisode mais intĂ©ressant de connaĂźtre son existence : le MITRE - recense les modes opĂ©ratoires de plusieurs organisations cyber. Utiles pour identifier un attaquant en fonction des traces qu'il a pu laisser sur le SI et dĂ©terminer un scĂ©nario d'attaque https://attack.mitre.org/resources/getting-started/">https://attack.mitre.org/resources/getting-started/Â
- EDR - Endpoint Detection and Response - en sĂ©curitĂ© informatique, dĂ©signe une catĂ©gorie dâoutils et de solutions qui mettent lâaccent sur la dĂ©tection dâactivitĂ©s suspectes directement sur les hĂŽtes du systĂšme d'information, source wikipedia">wikipedia Â
#20 Comment Arte a réinventé la VoD en Europe
Nous sommes en 2007 ; Alors que Steve Jobs annonce le premier iPhone, la chaĂźne franco-allemande se lance dĂ©jĂ dans le replay avec Arte+7. Fast-forward 10 ans, et câest un service de VoD complet - Arte.tv - qui offre un catalogue de contenu et une proposition de valeur qui nâa pas Ă rougir des mastodontes amĂ©ricains. Â
 Â
- Comment expliquer cette transformation dâArte au cours des 5 derniĂšres annĂ©es ? Â
 Â
Dans lâĂ©pisode 20 de Post Mortem, je reçois Lucas Legname (@lucaslegname">@lucaslegname) mobile apps project manager @ Arte pour nous parler de la façon dont la technique a accompagnĂ© la rĂ©invention de lâimage dâArte et de sa plateforme au cours des derniĂšres annĂ©es.Â
Lucas a rejoint l'Ă©quipe en tant qu'API developper dĂšs 2014 avant de passer project manager. Aujourd'hui, il coordone le dĂ©veloppement des apps iOS, Android, tvOS et Android TV dâArte.
 Â
 Â
Bibliographie Â
- Arte rĂ©compensĂ© aux Smart TV Awards (allemand) https://medientage.de/connect-liveblog/ catĂ©gorie « Feels like Magic â Beste technologische Innovation ARTE-App »
- La recommandation de Lucas de fin dâĂ©pisode @nikitonsky et son blog  https://tonsky.me">https://tonsky.me Â
- Lâintervention (Youtube) de Lucas au forum PHP 2020 prĂ©sentation au Forum PHP 2020 (support de prĂ©sentation ici)  notamment le focus sur les API Backend-For-Frontend (BFF)
#19 Le DevSecOps Ă l'US Air Force
Le Department of Defense amĂ©ricain, câest plus de 2.9 millions de personnels dont plus de 320 000 personnels Ă lâU.S. Air Force. Â
 Â
DĂ©ployer et maintenir du logiciel opĂ©rationnel Ă cette Ă©chelle - dans un contexte de compĂ©tition international grandissante - nĂ©cessite de pouvoir ajuster rapidement ses prioritĂ©s, de prototyper et dĂ©ployer des solutions sous courtes Ă©chĂ©ances. Â
 Â
Bref, de pouvoir pousser en production en quelques heures (voir minutes) et non plus en mois, cela avec des contraintes fortes en cybersĂ©curitĂ©.Â
 Â
Nicolas Chaillan fut le premier Chief Software Officer de lâU.S. Air Force.  Dans cet Ă©pisode, Nicolas Chaillan nous parle de ses 3 annĂ©es Ă la tĂȘte de lâinitiative Entreprise DevSecOps du Department of Defense amĂ©ricain et nous partage les leçons tirĂ©es de cet engagement. Â
 Â
- AprĂšs une introduction sur le DevSecOps (0â30"), Nicolas partage sa façon dâaborder une transformation DevSecOps au sein dâun large organisme gouvernemental (5â42").Â
- Ensuite, nous abordons la place de la formation continue et de la ressource humaine sur ces technologies en constantes Ă©volutions (10â48") ainsi que lâimpact de lâOpen Source Software dans les dĂ©veloppements gouvernementaux (15â20").Â
- Enfin, Nicolas Ă©voque (20â45") comment ses expĂ©riences entrepreneuriales prĂ©alables dans la tech ont enrichi ses perspectives avant dâarriver au DoD ainsi que la valeur ajoutĂ©e quâapporte dans le public des personnels ayant dĂ©jĂ travaillĂ© sur des projets cloud, data, DevOps dans le privĂ©.Â
 Â
Bibliographie Â
- La keynote (pdf) de Nicolas, sur lâinitiative DevSecOps Ă lâUS Air Force - alors Chief Software Officer, U.S. Air Force et Co-Lead, DoD Enterprise DevSecOps Initiative.Â
    o Avec recommandation de contenu de self-learning en libre accĂšs dĂšs la slide 30.Â
- The Kill Chain: How Emerging Technologies Threaten America's Military Dominance, le conseil de lecture de Nicolas.Â
- Le site personnel de Nicolas Chaillan.Â
 Â
Note
- Budget de la dĂ©fense amĂ©ricaine (2020) $718.9 milliardsÂ
- Budget de la dĂ©fense française (2020) âŹ37.9 milliards Â
#18 Luna & UST Crash
En une semaine, une crypto monnaie censĂ©e assurer la paritĂ© avec le dollar ne vaut plus que quelques centimes. Ce sont 2 des tops 10 projets de lâĂ©cosystĂšme crypto qui sâĂ©croulent sous les yeux des investisseurs voyant leurs rĂ©serves en asset « stable » fondre.Â
- Commente expliquer la chute des deux projets phares de lâĂ©cosystĂšme Terra ? Â
Dans lâĂ©pisode #18 de Post Mortem, Artem (@Artem_Oak), co-fondateur de Oak Invest (@oak_fr), nous retrace le dĂ©roulĂ© de ce flash crash depuis le premier dĂ©crochage de lâUST par rapport au dollar jusquâĂ lâexplosion complĂšte de lâĂ©cosystĂšme en concluant sur les implications pour la crypto sphĂšre sur le moyen terme.Â
 Â
Bibliographie Â
- Le protocole  Curve, pour lâĂ©change dĂ©centralisĂ©.Â
- La Fondation Luna, non-profit supportant les projets de lâĂ©cosystĂšme Terra.Â
- Lâexcellente vidĂ©o de Coin Bureau sur lâeffondrement de Terra.Â
-  La newsletter dâArtem">La newsletter dâArtem, qui mâa donnĂ© lâinspiration pour cet Ă©pisode. Â
#17 Incident BGP chez Facebook & OVH
En octobre dernier, Facebook Ă©tait indisponible plusieurs heures durant. Le mĂȘme mois, lâhĂ©bergeur français OVH a Ă©galement subit un incident.Â
Leur point commun ? BGP. Le Border Gateway Protocol. Â
Dans cet Ă©pisode #17 de Post Mortem, StĂ©phane Bortzmeyer nous fait dĂ©couvrir les coulisses dâinternet. LĂ oĂč le « cloud », le « serverless » se fracasse Ă la rĂ©alitĂ© de lâinternet : des machines bien physique qui essaient de communiquer entre elles.Â
Mais ces machines sont distribuĂ©es Ă la surface du globe et gĂ©rĂ©es par des acteurs diffĂ©rents... Sans leadership unique de lâinternet, comment se mettre dâaccord pour que ces serveurs puissent se parler et se comprendre ? Â
AprĂšs avoir dressĂ© le tableau des concepts clĂ©s de rĂ©seaux qui nous aiderons Ă suivre cette aventure internet (DNS, BGP) [1â 50ââ], StĂ©phane nous fait revivre les incidents Facebook [14â] et OVH [42â10ââ] dâoctobre 2021 en prenant soin de dĂ©cortiquer chaque concept pour en tirer des enseignements gĂ©nĂ©ralisables [44â].Â
StĂ©phane Bortzmeyer est un ingĂ©nieur rĂ©seau (membre IETF, Ă lâorigine de plusieurs RFC â les standards dâinternet) et travaille aujourdâhui Ă lâAFNIC, le registre des noms de domaine en .fr. Il est Ă©galement auteur, tiens un blog et vous pourrez le trouver sur twitter sous handle @bortzmeyerÂ
BibliographieÂ
Sujets Ă©voquĂ©s lors de l'Ă©pisode Â
- ĂvĂšnement de Carrington â La tempĂȘte solaire de 1859
    https://fr.wikipedia.org/wiki/TempĂȘte_solaire_de_1859 - Les rayonnements cosmiques et leurs effets sur les composants Ă©lectroniques https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_lâĂ©lectronique">https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_lâĂ©lectroniqueÂ
- Panne des numĂ©ros dâurgence : Quelle responsabilitĂ© de l'opĂ©rateur Orange ? https://www.vie-publique.fr/en-bref/280875-panne-des-numeros-durgence-quelle-responsabilite-dorangeÂ
- Les articles de RIPE Labs https://labs.ripe.net/">https://labs.ripe.net/Â
- L'accĂšs aux informations du RIS (Routing Information Service) https://stat.ripe.net/ui2013/ (attention, il faut une machine costaud, c'est plein de Javascript)
- Une liste de "looking glasses" http://traceroute.org/#Looking%20Glass
- Dont lâarticle sur le NTP (Network Time Protocol) https://labs.ripe.net/author/christer-weinigel/implementing-network-time-security-at-the-hardware-level/Â
- La liste de distribution FRnog https://www.frnog.org/?page=mailing&lang=en">https://www.frnog.org/?page=mailing&lang=enÂ
- Fantasia - L'apprenti sorcier, la scéne du balais,
#16 Blameless Engineering at ASOS
Steve Withey, Principal Software Engineer @ ASOS, walks us through the journey ASOS tech teams followed towards adopting a blameless postmortem culture.
In today's episode, we cover:
- What motivated this transition towards a blameless PM culture and how it happened;
- How to drive the cultural change among your team to make this blameless approach work and actually deliver better incident resolution techniques.Â
- We're human after all, so what to do when the situation is so tense as we are about to fail the process? Steve shares what worked at ASOS in such cases.
Resources
- Playing the blame-less game">Playing the blame-less game, ASOS Tech Blog, Medium. In this article, Steve shares tips and tricks learned during ASOS adoption of blameless PostMortem culture. https://medium.com/asos-techblog/playing-the-blame-less-game-3708f8195344
- Google Site Reliability Engineering books,">Google Site Reliability Engineering books, available for free online, are once again a reference. You may not find that everything applies to your org, but going through this book will for sure spark ideas and inspirations for processes you can implement within your team. https://sre.google/books/
#15 Le ML Ops pour accĂ©lĂ©rer lâinnovation, de la R&D Ă la production
Ils ont fait x4 en effectif en moins de 2 ans et ont recrutĂ© plus de 60 Data Scientists.Â
Preligens est une scale-up proposant des solutions logicielles dans le domaine de la défense et a connu une croissance fulgurante ces deux derniÚres années.
Aujourdâhui, je reçois Marie-Caroline Corbineau, Data Scientist au sein de lâĂ©quipe R&D de Preligens pour revenir sur les effets de cet afflux de nouveaux contributeurs sur leur capacitĂ© Ă dĂ©velopper et livrer des algorithmes Ă l'Ă©tat de l'art rĂ©pondant aux besoins de leurs clients.
Marie-Caroline nous raconte son parcours et son arrivĂ©e Ă Preligens avant de faire un focus sur lâinfrastructure ML qu'ils utilisent en interne. C'est cette AI Factory qui leur permet de rĂ©duire les dĂ©lais dans leur itĂ©rations produits et de dĂ©ployer plus vite.
Ressources:
- The Sequence of AI knowledge  - newsletter distilant les avancĂ©es en deep learning et proposant une perspective business sur les valorisations et levĂ©es de fonds. https://thesequence.substack.com/ Â
- How we built an AI Factory - Preligens - Un medium racontant l'intiative interne entreprise Ă Peligens pour dĂ©velopper leur framework de ML Ops https://medium.com/earthcube-stories/how-we-built-an-ai-factory-part-1-2fb34c4cc648Â
#14 Scaler sa réponse à incidents - Le cas Algolia
Cette semaine-lĂ , Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcĂ©ment quelque chose Ă faire pour sortir les ingĂ©nieurs on-call de cette spirale et Ă©viter une alert fatigue">alert fatigue. Mais par oĂč commencer ?Â
Dans cet épisode,  on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité.
Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'Ă©quipe d'Algolia  depuis son incubation Ă YCombinator en 2014, Xavier est aujourd'hui Manager Search Ă Algolia.Â
Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier :
- Les 3 Ă©tapes clĂ©s du chemin parcouru par les Ă©quipes tech d'Algolia pour gagner en maturitĂ© sur la rĂ©ponse Ă incidents đ
- L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call đšđđ©âđ»
- De l'importance de monitorer les causes et non les symptĂŽmes đ€
RessourcesÂ
- La recommandation de Xavier; Le Google SRE Workbook, excellente ressource (et gratuite) pour animer un club de lecture avec votre équipe et réfléchir ensemble sur  des bonnes pratiques transposables dans votre organisation.
- Pour un exemple de blog post mortem  d'Algolia, je recommande cet excellent article de blog sur leur gestion de l'attaque Salt en mai 2020.Â
#13 An experiment gone wrong
Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau systĂšme de recommandation de mon application a-t-il un impact ? Pour qui ?Â
Un test AB permet de comparer deux variantes afin dâidentifier la plus efficace pour lâobjectif recherchĂ©. Aujourdâhui, je reçois Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous dâune plateforme d'expĂ©rimentations đ§âđŹ
Pour collecter les Ă©vĂ©nements des sites clients (e.g., clic sur tel bouton, de telle couleur, etc.) et les faire parvenir Ă la plateforme dâAB Tasty, câest tout un systĂšme de message queuing qui est nĂ©cessaire.Â
Dans cette chaĂźne de traitement, Cyril identifie une optimisation qui permettrait de simplifier lâarchitecture et dâĂ©conomiser quelques centaines de dollars.Â
Quelques jours plus tard, la CyberWeek. Alors que certains sites clients dâAB Tasty voient leur activitĂ© multipliĂ©e par deux, les coĂ»ts liĂ©s au service pub/sub explosent đ đž
Cyril garde la tĂȘte froide et mĂšne lâenquĂȘte. Il dispose d'un outil de choix pour Ă©lucider ce mystĂšre, la wayback machine. Let's get back in time â± đ©âđ
Resources
- A/B Testing, Wikipedia
- Wayback machine, la "Machine Ă remonter le temps" de l'Internet. https://web.archive.org/
- La recommendation de Cyril: The Data Engineering Podcast, pour des éclairages sur la mise en production de chaßnes de traitements de données https://www.dataengineeringpodcast.com/about/
Glossaire
- ack: du verbe anglais âto acknowledgeâ - littĂ©ralement âaccuser rĂ©ception deâ. UtilisĂ© en event processing pour qualifier le fait quâun process accuse rĂ©ception dâun message. Pratique dans une architecture distribuĂ©e oĂč la perte de messages via le rĂ©seau est possible et lâon veut sâassurer une certaine sĂ©mantique sur le traitement dâun message (le message a Ă©tĂ© traitĂ© au moins une fois, ou exactement une fois).âšâš Pour une introduction plus poussĂ©e sur sur le stream processing et ses challenges, je recommande le Chapter 11: Stream Processing de lâouvrage de rĂ©fĂ©rence: âšKleppmann, M. (2017). Designing Data-Intensive Applications. OâReilly Media.
Credits
- L'extrait audio Ă 21'40" est issu du film Kung Fury, https://youtu.be/bS5P_LAqiVg?t=599
#12 Comment Google anonymise vos données personnelles avec la Differential Privacy
Des emojis les plus populaires sur iOS à l'affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l'anonymat des utilisateurs?
Dans ce Post Mortem thématique, le Docteur Damien Desfontaines - Senior Software Engineer, Privacy pour Google nous parle de Differential Privacy (confidentialité différentielle).
Avec des centaines de millions d'utilisateurs actifs chaque jour, les géants du numérique bénéficient de données précises d'utilisation. Au-delà de l'amélioration de l'expérience utilisateur, ces données, une fois agrégées, peuvent contribuer à adresser des problÚmes de santé publique.
AprÚs un bref historique des techniques d'anonymisations (02'00"), on définit la confidentialité différentielle et ses propriétés (06'50") avant de revenir sur un cas d'usage au sein de Google (20'18") pour enfin discuter des implémentations existantes (27'58") et des challenges à l'adoption de cette technique (34'13").
Sur Apple Podcast, vous devriez avoir accĂšs aux chapitres avec les liens et illustrations. L'illustration de la Randomized Response devrait ĂȘtre utile!
Toutes les illustrations sont disponibles sur le blog post qui accompagne l'Ă©pisode sur le Medium du Post Mortem Podcast https://medium.com/the-post-mortem-podcast
Ressources
- Latanya Sweeney et la ré-identification des données médicales du gouverneur du Massachusetts, William Weld en 1997.  Wikipedia
- Le blog de Damien sur la Differential Privacy, c'est trĂšs visuel et de nombreux articles sont accessibles au grand public https://desfontain.es/privacy/differential-privacy-awesomeness.html (~10mins de lecture). Une version html de sa thĂšse Lowering the cost of anonymisation est Ă©galement disponible sur son site. Les chapitres lĂ©gers en maths sont indiquĂ©s par une fleur âż.
- Pour le cas d'usage de la Differential Privacy chez Apple cité en introduction, voir le papier de la Differential Privacy Team d'Apple : "Learning with Privacy at Scale", disponible ici https://docs-assets.developer.apple.com/ml-research/papers/learning-with-privacy-at-scale.pdf
- Un exemple d'usage de la Differential Privacy chez Google; Les Community Mobility Reports, pour une vision de l'impact du covid sur la mobilité des personnes https://www.google.com/covid19/mobility/
- Description du processus d'anonymisation pour les Google Community Reports "Google COVID-19 Community Mobility Reports: Anonymization Process Description", https://arxiv.org/abs/2004.04145
- Le papier "Differentially Private SQL with Bounded User Contribution", https://arxiv.org/abs/1909.01917 publié par Damien et son équipe pour faciliter l'utilisation de la Differential Privacy par les analystes en étendant les capacités de SQL
- La librairie open source de Google sur la confidentialité différentielle est disponible sur GitHub: https://github.com/google/differential-privacy
Fun Facts
- The Fundamental Law of Information Recovery, Cynthia DWork: "âOverly accurateâ estimates of âtoo manyâ statistics is blatantly non-private" extrait du livre âThe Algorithmic Foundations of Differential Privac
#11 PrĂ©diction de retards Ă la SNCF đ
Tous les jours, des millions de voyageurs prennent le train sur le réseau SNCF, mais parfois, un train subit un retard.
Aujourd'hui je reçois Héloïse Nonne, Head of Data Science & Engineering @ eSNCF, pour comprendre comment ce problÚme est adressé en interne pour améliorer l'information voyageurs.
AprÚs avoir présenté les spécificités d'un projet ML dans un groupe qui opÚre sur plus de 30 000 km de voies, Héloïse revient sur la modélisation envisagée pour améliorer l'information voyageurs (10'00") avant de faire le bilan sur un projet mis en prod l'été 2019 (27'30").
Ressources
- L'équipe d'Héloïse à rédigé un blog post qui détaille l'approche technique choisie pour la résolution, du feature engineering à l'industrialisation: https://www.digital.sncf.com/actualites/la-data-science-au-service-de-linformation-voyageur
- Pour la contextualisation, on évoque les différentes activités du groupe SNCF: https://www.sncf.com/fr/groupe/profil-et-chiffres-cles/portrait-entreprise/qui-sommes-nous
Infos sur le podcast
- La fréquence de Post Mortem va passer à 1 épisode par mois
- Dans cet Ă©pisode, j'utilise des illustrations Ă certains moments (e.g., 14'11" au sujet de la "mĂ©tĂ©o des retards") dites moi ce que vous en pensez en commentaires sur Apple Podcast ou en DM sur twitter @PodcastMortem  đ
#10 Competitive Data Science Vs Réalité business
Les plateformes de Data Science comme Kaggle permettent de découvrir des jeux de données variés et de se tester face à d'autres compétiteurs.
Plus votre modĂšle performe, meilleur est votre classement sur le leaderboard.
Avec des jeux de données "curated" et des métriques à optimiser définies dÚs le début, le setup d'un Kaggle est souvent bien différent de celui que l'on retrouve lorsque l'on résout un challenge data dans la "vraie vie".
Retour sur l'expérience de Badr Ouali, Head of Data Science @ Vertica, et sa participation au kaggle TalkingData.
Référence:
- Si les challenges en Data Science vous intĂ©ressent, je vous invite Ă jeter un Ćil Ă ChallengeData.ens.fr. Il s'agit d'une plateforme de l'ENS et du CollĂšge De France proposant des challenges variĂ©s.Â
#9 Avalanche de requĂȘtes et effets de bords mystĂ©rieux
Les fĂȘtes de fin dâannĂ©es sont synonymes de pics dâactivitĂ©s pour le e-commerce. Alors comment rĂ©agir quand on se rend compte quâun incident se profile Ă lâhorizon du moment le plus business critique de lâannĂ©e ?
Une conversation avec Théo Carrive, CTO de Cheerz.
Concepts mentionnĂ©s:Â
- La commande EXPLAIN de PostgreSQL pour obtenir le plan dâexĂ©cution dâune requĂȘte.Â
Utile pour comprendre pourquoi une requĂȘte est anormalement longue.
- Apple Universal Links pour iOS.
Un Universal Link est une URL HTTP(S) qui reprĂ©sente votre contenu Ă la fois sur le web et dans votre app, cela permet aux utilisateurs dâouvrir votre contenu dans votre app plutĂŽt que dans la vue navigateur.
Voir cette keynote d'Apple à la WWDC 2020 pour plus de détails sur les Universal Links en pratique.
- New Relic est une SaaS permettant de monitorer vos applis Web, mobiles et votre infrastructure en temps réel.
#8 When the facts change, I change my model
"When the Facts Change, I Change My Mind. What Do You Do, Sir?" disait JM Keynes.Â
LâĂ©conomiste soulignait alors lâimportance de rĂ©ajuster ses a priori et sa reprĂ©sentation du monde lorsqu'on on est confrontĂ© Ă de nouveaux Ă©lĂ©ments.
Câest la mĂȘme chose lorsquâon entraĂźne un modĂšle de machine learning et quâon le dĂ©ploie.
Les donnĂ©es que lâon va rencontrer en production suivent-elles une distribution similaire aux donnĂ©es sur lesquelles on a entraĂźnĂ© le modĂšle? Si non, comment peut-on ajuster le tir?
TĂ©moignage et retour dâexpĂ©rience avec Hamza Sayah, Data Scientist @ Ponicode.
RĂ©fĂ©rences et concepts mentionnĂ©sâš
- Kullback-Leibler divergence, en un mot: une quantitĂ© qui mesure la dissimilaritĂ© de deux distributions de probabilitĂ©s.âš
Pour une excellente vidĂ©o donnant lâintuition derriĂšre le lien entre l'entropie, lâentropie croisĂ©e et la KL divergence,  se rĂ©fĂ©rer Ă la vidĂ©o d'AurĂ©lien GĂ©ron "A Short Introduction to Entropy, Cross-Entropy and KL-Divergence"Â
https://www.youtube.com/watch?v=ErfnhcEV1O8
- Pour l'intuition derriĂšre le concept d'embedding, voir le blog post de Jay Alammar, "The Illustrated Word2Vec", https://jalammar.github.io/illustrated-word2vec/âš
- AST - Abstract Syntax Tree, https://en.wikipedia.org/wiki/Abstract_syntax_treeâš
- La recommandation de Hamza: le livre "La Formule Du Savoir", de LĂȘ NguyĂȘn Hoangâš
#7 Don't knock the checklist
Action items resulting from a postmortem analysis are often to implement more advanced monitoring or deploy new tools to track usage at a fine-grain level.Â
Today, Timothy Raymond shows us that a good old checklist can sometimes be the most efficient way to prevent regressions in production.
Some concepts mentioned in the episode:
- Roadblocking in advertising: when a single ad or product is displayed all over the place to capture maximum attention.
- Beware of URL capping. As a rule of thumb, keep your URLÂ below 2000 characters.
About our guest, Timothy Raymond (Twitter @tim_raymond) is a seasoned Go programmer and currently a Principal Software Engineer at Microsoft. You can check his blog at timraymond.comÂ
#6 Monitor early, âfix bugs early đ«đ·
Loïc Carbonne, VP Engineering @ Theodo, nous partage son expérience sur la réduction du lead time de résolution des incidents.
Au travers des leçons apprises lors du dĂ©veloppement dâapplications web, LoĂŻc nous propose des outils et mĂ©thodes pour sâorganiser afin:
1) dâidentifier plus rapidement les bugs
2) et de réduire leur temps de résolution.
En rĂ©sumĂ©, des best practices sur lâalerting, le monitoring et la gestion de bugs dans un fonctionnement scrum.
Ressources
#5 Autoscaling lag et gestion des incidents chez Doctolib đ«đ·
Benoit Lafontaine, Engineering Director chez Doctolib, nous partage le post mortem dâun incident rĂ©cent dĂ» Ă une Ă©volution soudaine de la charge sur la partie patient de leur service.
MalgrĂ© une architecture dâauto-scaling dĂ©jĂ en place, le service a Ă©tĂ© dĂ©gradĂ© quelques minutes. BenoĂźt revient Ă©galement sur la façon dont les incidents sont gĂ©rĂ©s chez Doctolib.
Ressources
Extrait audio d'un JT de M6, 19-45, disponible sur le kit presse du site doctolib.fr
#4 La divulgation de vulnĂ©rabilitĂ©s, thĂ©orie et pratique đ«đ·
Que faire lorsque l'on rencontre une vulnĂ©rabilitĂ© dans un produit ou un service numĂ©rique?Â
On explore avec Rayna Stamboliyska (Twitter: @MaliciaRogue) le rĂŽle de la divulgation coordonnĂ©e de vulnĂ©rabilitĂ©s; en quoi celle-ci permet de fluidifier la remontĂ©e des vulnĂ©rabilitĂ©s et offre un compromis intĂ©ressant pour prĂ©server la sĂ©curitĂ© des utilisateurs?Â
Dans un environnement oĂč nous sommes tous utilisateurs finaux de produits et de services numĂ©rique, oĂč le risque 0 en cyber sĂ©curitĂ© n'existe pas, une organisation qui affiche une politique de divulgation coordonnĂ©e envoie un signal fort sur son humilitĂ© face au risque ainsi que sur le cheminement qu'elle a dĂ©jĂ effectuĂ© afin de limiter ce risque.
AprĂšs un tour d'horizon du cadre lĂ©gal sur la divulgation de vulnĂ©rabilitĂ©s, on passe en revue quelques organisations Ă partir desquelles s'inspirer pour la vulnerability disclosure. Enfin Rayna nous partage ses bonnes pratiques pour la mise en place d'une politique de divulgation coordonnĂ©e de vulnĂ©rabilitĂ©s.Â
Références mentionnées au cours de l'épisode:
Norme ISO 29147 - Divulgation de vulnérabilité - iso.org
Norme ISO 30111- Processus de traitement de la vulnérabilité - iso.org
Arguments pour / contre les différents types de divulgation -  wikipedia.org
Loi du 7 octobre 2016 pour une République numérique, article 47 - legifrance.gouv.fr
Hall of fame de Nokia sur sa divulgation responsable - nokia.com
F-Secure Vulnerability Reward Program - f-secure.com
The EU Cybersecurity Act at a glance, from the european commission - ec.europa.eu
#3 La Data Science dans les grands groupes, avec Ouriel Bettach đ«đ·
Ouriel Bettach, Data Scientist depuis plus de 6ans, nous propose un panorama de ses expériences au sein de grands groupes industriels sur des projets de machine learning (ML).
On en profite pour faire le bilan sur la façon dont les grands groupes approchent des projets ML et dâĂ©voquer les points bloquants rĂ©currents dans ces projets, avant dâouvrir sur les challenges qui se dressent Ă lâhorizon.Â
Points clés ;
- Avoir une Ă©quipe multi-compĂ©tences (Software Engineer et Data Scientist) dans une mĂȘme squad permet de livrer des produits (pas simplement mener des projets) ML plus rapidement.
- Le data et le model management sont le nerf de la guerre pour répondre aux questions de montée en charge. Le ML Ops est là pour rester. Voir ML Flow.
- Au-delĂ du technique, la conduite du changement pour le dĂ©ploiement dâun produit ML doit ĂȘtre prĂ©parĂ©e avec les utilisateurs business.Â
Références
Ouriel nous recommande le blog Towards Data Science pour se tenir au courant des derniĂšres tendances du ML. Pour les livres, deux recommandations cette semaine, une lecture sur le data management et un classique du ML :
    - Data Management at Scale: Best Practices for Enterprise Architecture de Piethein Strengholt, ISBN 9781492054788
    - Deep Learning de Ian Goodfellow, Yoshua Bengio et Aaron Courville, ISBN 9780262035613Â
En bonus, Ouriel nous recommande chaudement les interventions de Yann Lecun sur lâapprentissage profond.Â
La transcription de notre discussion est disponible sur le blog du podcast Post Mortem.Â
#2 Dragonblood is still leaking đ«đ·
Wi-Fi Protected Access 3 (WPA3) est destinĂ© Ă remplacer WPA 2 - en service depuis 2004 - en rendant presque impossible de craquer le mot de passe d'un rĂ©seau.Â
ProblĂšme, des chercheurs ont rĂ©vĂ©lĂ© qu'un attaquant peut exploiter des failles dans les implĂ©mentations existantes de WPA 3 pour rĂ©cupĂ©rer le mot de passe de la victime.Â
Dans cet épisode, Mohamed Sabt, maßtre de conférence à l'université de Rennes 1 enseignant la cybersécurité et chercheur au sein de l'équipe "Sécurité et Cryptographie Embarquées" (EMSEC) nous révÚle une toute nouvelle cyberattaque sur le wifi et en particulier sur la certification WPA3.
On se concentre sur le moment du serrage de main, le handshake, au cours de l'initialisation de la connection entre un appareil et le point d'accÚs wifi. C'est à ce moment que plusieurs implémentations du handshake Dragonfly de WPA 3 présentent des failles.
En analysant les instructions chargées dans le cache de processeurs Intel ainsi que les temps d'exécutions, Mohamed et son équipe ont réussi à déterminer quelles instructions sont exécutées ce qui permet de réduire considérablement la taille des dictionnaires à utiliser pour enchaßner sur une attaque brute force.
Mohamed nous raconte ensuite comment ils ont travaillé avec la communauté open source qui maintient ces implémentations afin de patcher ces vulnérabilités et les leçons qu'il en a tiré d'un point de vue académique et organisationnel, par exemple; Comment remonter une faille de sécurité à un projet open source?
Points clés;
- Le temps d'exécution d'une fonction de hachage ne doit pas dépendre de la valeur du secret. Pensez aux implémentations en temps constant.
- Si vous ne maĂźtrisez pas un standard de sĂ©curitĂ©, n'essayez pas de l'implĂ©menter vous- mĂȘme.
- Pour convaincre une équipe open source de la criticité d'une faille, arriver avec une preuve de concept (Proof of Concept, POC) complÚte qui montre l'attaque permet de gagner en crédibilité auprÚs de la communauté.
- Pour les utilisateurs finaux, pensez à effectuer les mises à jour de sécurité.
Références
Site web Dragonblood - Analysing WPA3's Dragonfly Handshake
Papier original Dragonblood: Analyzing the Dragonfly Handshake of WPA3 and EAP-pwd, par Mathy Vanhoef et Eyal Ronen.
What's this podcast about?
In Post Mortem, we have engineers coming back on real-life incidents of IT systems. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened, how the people behind those systems solved the situation.
Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
A typical episode will have a structure similar to a post mortem document. We clarify the incident's impact, understand its root causes, what worked, and what did not go as expected in the mitigation process to learn re-usable insights that other organizations can leverage.
You can expect interviews between 30 and 50 minutes with software engineers, cybersecurity experts, and machine learning practitioners.
We plan to release one episode every other week.
The show is to premiere on October 14; stay tuned!
Sends us your feedback at @PodcastMortem on Instagram or twitter.
This episode's complete transcript is available here on our blog, The Post Mortem Podcast
Qu'est ce que Post Mortem? đ«đ·
Câest quoi un « post mortem » ?Â
Dans cet Ă©pisode je dĂ©finis le thĂšme du podcast, on y partage des retours dâexpĂ©riences sur des incidents survenus dans des systĂšmes informatique.
Un post mortem, dâaprĂšs WikipĂ©dia, câest un process que lâon rĂ©alise Ă la fin dâun projet pour analyser ce qui a fonctionnĂ© et ce qui a moins bien marchĂ© dans un projet. Lâobjectif est dâen tirer des bonnes pratiques et de les partager pour Ă©viter de rĂ©pĂ©ter des incidents similaires.
Dans ce podcast, on revient, via des tĂ©moignages dâingĂ©nieurs logiciels, sur des incidents spĂ©cifiques vĂ©cus au sein dâune Ă©quipe et comment ils y ont fait face. Je vous propose des interviews dâune trentaine Ă une cinquantaine de minutes, deux fois par mois.
Pour soutenir le show et ne pas louper les prochains Ă©pisodes, abonnez-vous. Vous pouvez aussi partager votre Ă©pisode prĂ©fĂ©rĂ© avec un ou une amie. Si ce podcast vous plaĂźt, nâhĂ©sitez pas Ă mettre 5 Ă©toiles et un commentaire sur Apple Podcasts, ça aide Ă©normĂ©ment pour la visibilitĂ© du show.
Vos suggestions, tant pour amĂ©liorer le show que pour proposer un ou une invitĂ©e, sont les bienvenues. Envoyez-moi un message sur Instagram ou Twitter @PodcastMortem pour quâon en discute ensemble.
La transcription de cette Ă©pisode est diponible ici sur le blog du podcast, The Post Mortem Podcast.
#1 A migration's tale
Nicolas walks us through a challenging service migration he experienced at Criteo, a personalized retargeting company.
A Windows to Linux server migration was on the way for several months already when they realized that the logging backend they used was not working as expected under Linux and failed to collect metrics.Â
Problem: By that time, 95% of the machine park had already switched to Linux.
Product teams relying on those metrics to run their A/B tests were using small data sets subject to noise. As critical metrics, like the  Click-Through Rate, were less abundant, business decisions were more challenging for Nicolas' internal customers.
References
Criteo's blog post Moving .NET to Linux at Scale.Â