Post Mortem

By François Paupier

In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced.
In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation.
Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.

Listen on Spotify Send voice message

Available on

Report content on Spotify

#2 Dragonblood is still leaking 🇫🇷

Post MortemOct 14, 2020

00:00

46:54

#24 The New Face of Conflict: AI in Warfare with COL ANTAL

In this episode of the Post Mortem podcast, we dive deep into the impact of artificial intelligence in modern warfare with retired Colonel John Antal. With over 30 years of experience in the US Army and a prolific career as an author and software industry expert, COL Antal shares his insights into the future of warfare.

We explore the concept of decision dominance in the digital age, discussing the nuances of data & AI applications in military strategy, from 'man in the loop' to 'man out of the loop' systems. COL Antal breaks down the complexities of AI, explaining the progression from Artificial Narrow Intelligence (ANI) to the potential of Artificial General Intelligence (AGI) and the concept of Artificial Super Intelligence (ASI).

The conversation shifts to the practical implications of AI in military operations, highlighting the evolution from traditional kill chains to AI-enabled kill webs.

We also touch on the lessons learned from recent wars, the Russian/Ukraine war, Nagorno-Karabakh conflict, Israel/Hamas war, and the importance of continuous adaptation in the face of rapidly advancing technologies.

This episode is a must-listen for anyone interested in the intersection of technology and military strategy.

Bibliography

Below are some of the resources used to prepare for this episode and mentioned in it :

- Lessons of the Second Nagorno-Karabakh War, US Army Fires Conference, accessed January 2023, at https://www.youtube.com/watch?v=eLq4WJMl7Zc

- John Antal presentation at the Manoeuvre Warfighter Conference (MWFC), accessed September 14, 2022, at https://youtu.be/EOrc4x-DlmI

- Testimony of Christian Brose. To the House Armed Services Committee. Subcommittee on Cyber, Information Technologies, and Innovation. The Future of War: Is the Pentagon Prepared to Deter and Defeat America’s Adversaries. Feb. 2023. https://armedservices.house.gov/sites/republicans.armedservices.house.gov/files/Brose Written Testimony.pdf

- ANTAL, J. (2023). Artificial Intelligence and the Accelerating Tempo of War. Retrieved Jan 7 2024, from https://www.schumer.senate.gov/imo/media/doc/John%20Antal%20-%20Statement.pdf US Senate AI Symposium.

- Next War: Reimagining How We Fight, 2023, John F Antal, https://www.amazon.com/Next-War-Reimagining-How-Fight/dp/1636243355

- Aerorozvidka NGO, Unmanned aerial vehicles, situational awareness, cybersecurity https://aerorozvidka.ngo/

- Nagorno-Karabakh conflict, https://en.wikipedia.org/w/index.php?title=Nagorno-Karabakh_conflict&oldid=1198631897 (last visited Jan. 28, 2024).

- ‘The Gospel’: how Israel uses AI to select bombing targets in Gaza, The Guardian, Dec 1 2023, Retrieved Feb 2 2024, https://www.theguardian.com/world/2023/dec/01/the-gospel-how-israel-uses-ai-to-select-bombing-targets

- Joint All-Domain Command and Control (JADC2), United States DoD, https://media.defense.gov/2022/Mar/17/2002958406/-1/-1/1/SUMMARY-OF-THE-JOINT-ALL-DOMAIN-COMMAND-AND-CONTROL-STRATEGY.PDF

- Haut-Karabagh : dix enseignements d'un conflit qui nous concerne, Rapport d'information n° 754 (2020-2021), déposé le 7 juillet 2021, https://www.senat.fr/rap/r20-754/r20-754_mono.html#toc167

- Compte rendu Commission de la défense nationale et des forces armées, Audition, à huis clos, de M. le général d’armée Thierry Burkhard, chef d’état-major de l’armée de Terre sur l’actualisation de la LPM 2019-2025, page 14, https://www.assemblee-nationale.fr/dyn/15/comptes-rendus/cion_def/l15cion_def2021068_compte-rendu.pdf

Feb 04, 202401:00:20

#23 D'entrepreneur à investisseur - le parcours de Philippe Laval

Dans l’épisode #23 du podcast Post Mortem, je reçois Philippe Laval, ingénieur & fondateur de plusieurs entreprises dont SINEQUA, Philippe est aujourd’hui CTO à Jolt Capital, un fonds d’investissement dans la DeepTech en Europe.

Dans la tech, les parcours de carrières pour les ingénieurs logiciels se distinguent souvent en deux voies proposées en entreprise :

- Une voie contributeur individuel (IC – Individual Contributor) qui offre la satisfaction de résoudre des problèmes techniques complexes ;

- Une voie management (management track) pour gérer des équipes techniques et influer sur le produit.

Philippe a choisi d’aller au-delà de cette dichotomie. En se lançant dans l’entreprenariat, il voulait « build something people want » comme le dit la devise de YCombinator. Entre la France et San Francisco, il a développé des algorithmes de traitements big data et des approches sémantiques de haut vol, tout en continuant de développer sa vision produit pour piloter ses business.

Dans cet épisode on revient sur l’aventure entrepreneurial de Philippe, les victoires, les difficultés, et les enseignements que l’on peut tirer de sa carrière avant d’ouvrir sur sa mission actuelle en tant que CTO de JOLT Capital.

---

La recommandation de lecture de Philippe, Termination Shock, Neal Stephenson

Mar 14, 202355:41

#22 L'évolution de la boîte à outils du Data Scientist

Dans l’épisode #22 du podcast Post Mortem, je reçois Alex Combessie. Alex est co-fondateur et CEO de Giskard – une solution d’évaluation de modèles d’IA. Avec Alex, on revient sur les différentes prises de consciences qui ont touché les équipes data autour de la mise en production de projets IA.

On s’interroge également sur la disponibilité de l’outillage des équipes data & IA, notamment dans le cas de l’error analysis afin d’assurer que l’introduction de régression « ML » est maitrisée.

Bibliographie

- Applying ML – Blog de Eugene Yan, https://applyingml.com/

- Blog Post de Giskard sur le ML - https://www.giskard.ai/knowledge-categories/blog

- Le cours de Andrew NG sur l’error analysis, « Carrying Out Error Analysis (C3W2L01) » - issue de la specialization Structuring Machine Learning Projects (Course 3 of the Deep Learning Specialization) - https://www.youtube.com/watch?v=JoAxZsdw_3w

Oct 15, 202231:18

#21 L'investigation d'incidents cyber avec Thomas et François de Defants

La cybersécurité est un domaine ingrat. Le défenseur doit s’assurer que l’ensemble de son système est sécurisé, là où l’attaquant a besoin d’une unique faille pour atteindre son objectif. La gestion d’incident cyber implique de collecter et d’analyser minutieusement les journaux des différentes applications et serveurs, comment faire pour s’assurer de ne passer à côté d’aucune info clé ?

Dans l’épisode #21 du podcast Post Mortem, je reçois François Khourbiga et Thomas Raffineau Maréchal, les deux co-fondateurs de Defants – une solution d’investigation d’incidents de cybersécurité.

On revient sur ce qui les a poussés à entreprendre dans le domaine du cyber, leur vision de la gestion d’incidents cyber et la façon dont une startup peut pénétrer un domaine où les process sont bien ancrés et comment un nouvel outil et méthode peuvent trouver leurs places.

Bibliographie

Defenders think in lists. Attackers think in graphs. As long as this is true, attackers win. 26 avril 2015, John Lambert, Distinguished Engineer, Microsoft Threat Intelligence. Billet de blog cité en ouverture de l'épisode.

Mandiant, leader de la threat intelligence.

Les différents rapports de l’ANSSI, excellente ressources, notamment : Rapport d’activité 2020, 2021, rapport Crise d’origine cyber, les clés d’une gestion opérationnelle et stratégique

Une ressource pas cité explicitement dans l'épisode mais intéressant de connaître son existence : le MITRE - recense les modes opératoires de plusieurs organisations cyber. Utiles pour identifier un attaquant en fonction des traces qu'il a pu laisser sur le SI et déterminer un scénario d'attaque https://attack.mitre.org/resources/getting-started/">https://attack.mitre.org/resources/getting-started/

EDR - Endpoint Detection and Response - en sécurité informatique, désigne une catégorie d’outils et de solutions qui mettent l’accent sur la détection d’activités suspectes directement sur les hôtes du système d'information, source wikipedia">wikipedia

Aug 17, 202224:21

#20 Comment Arte a réinventé la VoD en Europe

Nous sommes en 2007 ; Alors que Steve Jobs annonce le premier iPhone, la chaîne franco-allemande se lance déjà dans le replay avec Arte+7. Fast-forward 10 ans, et c’est un service de VoD complet - Arte.tv - qui offre un catalogue de contenu et une proposition de valeur qui n’a pas à rougir des mastodontes américains.

- Comment expliquer cette transformation d’Arte au cours des 5 dernières années ?

Dans l’épisode 20 de Post Mortem, je reçois Lucas Legname (@lucaslegname">@lucaslegname) mobile apps project manager @ Arte pour nous parler de la façon dont la technique a accompagné la réinvention de l’image d’Arte et de sa plateforme au cours des dernières années.

Lucas a rejoint l'équipe en tant qu'API developper dès 2014 avant de passer project manager. Aujourd'hui, il coordone le développement des apps iOS, Android, tvOS et Android TV d’Arte.

Bibliographie

- Arte récompensé aux Smart TV Awards (allemand) https://medientage.de/connect-liveblog/ catégorie « Feels like Magic – Beste technologische Innovation ARTE-App »

- La recommandation de Lucas de fin d’épisode @nikitonsky et son blog https://tonsky.me">https://tonsky.me

- L’intervention (Youtube) de Lucas au forum PHP 2020 présentation au Forum PHP 2020 (support de présentation ici) notamment le focus sur les API Backend-For-Frontend (BFF)

Jul 05, 202227:54

#19 Le DevSecOps à l'US Air Force

Le Department of Defense américain, c’est plus de 2.9 millions de personnels dont plus de 320 000 personnels à l’U.S. Air Force.

Déployer et maintenir du logiciel opérationnel à cette échelle - dans un contexte de compétition international grandissante - nécessite de pouvoir ajuster rapidement ses priorités, de prototyper et déployer des solutions sous courtes échéances.

Bref, de pouvoir pousser en production en quelques heures (voir minutes) et non plus en mois, cela avec des contraintes fortes en cybersécurité.

Nicolas Chaillan fut le premier Chief Software Officer de l’U.S. Air Force. Dans cet épisode, Nicolas Chaillan nous parle de ses 3 années à la tête de l’initiative Entreprise DevSecOps du Department of Defense américain et nous partage les leçons tirées de cet engagement.

- Après une introduction sur le DevSecOps (0’30"), Nicolas partage sa façon d’aborder une transformation DevSecOps au sein d’un large organisme gouvernemental (5’42").

- Ensuite, nous abordons la place de la formation continue et de la ressource humaine sur ces technologies en constantes évolutions (10’48") ainsi que l’impact de l’Open Source Software dans les développements gouvernementaux (15’20").

- Enfin, Nicolas évoque (20’45") comment ses expériences entrepreneuriales préalables dans la tech ont enrichi ses perspectives avant d’arriver au DoD ainsi que la valeur ajoutée qu’apporte dans le public des personnels ayant déjà travaillé sur des projets cloud, data, DevOps dans le privé.

Bibliographie

- La keynote (pdf) de Nicolas, sur l’initiative DevSecOps à l’US Air Force - alors Chief Software Officer, U.S. Air Force et Co-Lead, DoD Enterprise DevSecOps Initiative.

o Avec recommandation de contenu de self-learning en libre accès dès la slide 30.

- The Kill Chain: How Emerging Technologies Threaten America's Military Dominance, le conseil de lecture de Nicolas.

- Le site personnel de Nicolas Chaillan.

Note

- Budget de la défense américaine (2020) $718.9 milliards

- Budget de la défense française (2020) €37.9 milliards

Jun 05, 202230:58

#18 Luna & UST Crash

En une semaine, une crypto monnaie censée assurer la parité avec le dollar ne vaut plus que quelques centimes. Ce sont 2 des tops 10 projets de l’écosystème crypto qui s’écroulent sous les yeux des investisseurs voyant leurs réserves en asset « stable » fondre.

- Commente expliquer la chute des deux projets phares de l’écosystème Terra ?

Dans l’épisode #18 de Post Mortem, Artem (@Artem_Oak), co-fondateur de Oak Invest (@oak_fr), nous retrace le déroulé de ce flash crash depuis le premier décrochage de l’UST par rapport au dollar jusqu’à l’explosion complète de l’écosystème en concluant sur les implications pour la crypto sphère sur le moyen terme.

Bibliographie

Le protocole Curve, pour l’échange décentralisé.
La Fondation Luna, non-profit supportant les projets de l’écosystème Terra.
L’excellente vidéo de Coin Bureau sur l’effondrement de Terra.
La newsletter d’Artem">La newsletter d’Artem, qui m’a donné l’inspiration pour cet épisode.

May 26, 202233:31

#17 Incident BGP chez Facebook & OVH

En octobre dernier, Facebook était indisponible plusieurs heures durant. Le même mois, l’hébergeur français OVH a également subit un incident.

Leur point commun ? BGP. Le Border Gateway Protocol.

Dans cet épisode #17 de Post Mortem, Stéphane Bortzmeyer nous fait découvrir les coulisses d’internet. Là où le « cloud », le « serverless » se fracasse à la réalité de l’internet : des machines bien physique qui essaient de communiquer entre elles.

Mais ces machines sont distribuées à la surface du globe et gérées par des acteurs différents... Sans leadership unique de l’internet, comment se mettre d’accord pour que ces serveurs puissent se parler et se comprendre ?

Après avoir dressé le tableau des concepts clés de réseaux qui nous aiderons à suivre cette aventure internet (DNS, BGP) [1’ 50’’], Stéphane nous fait revivre les incidents Facebook [14’] et OVH [42’10’’] d’octobre 2021 en prenant soin de décortiquer chaque concept pour en tirer des enseignements généralisables [44’].

Stéphane Bortzmeyer est un ingénieur réseau (membre IETF, à l’origine de plusieurs RFC – les standards d’internet) et travaille aujourd’hui à l’AFNIC, le registre des noms de domaine en .fr. Il est également auteur, tiens un blog et vous pourrez le trouver sur twitter sous handle @bortzmeyer

Bibliographie

Sujets évoqués lors de l'épisode

Évènement de Carrington – La tempête solaire de 1859
https://fr.wikipedia.org/wiki/Tempête_solaire_de_1859
Les rayonnements cosmiques et leurs effets sur les composants électroniques https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_l’électronique">https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_l’électronique
Panne des numéros d’urgence : Quelle responsabilité de l'opérateur Orange ? https://www.vie-publique.fr/en-bref/280875-panne-des-numeros-durgence-quelle-responsabilite-dorange
Les articles de RIPE Labs https://labs.ripe.net/">https://labs.ripe.net/
L'accès aux informations du RIS (Routing Information Service) https://stat.ripe.net/ui2013/ (attention, il faut une machine costaud, c'est plein de Javascript)
Une liste de "looking glasses" http://traceroute.org/#Looking%20Glass
Dont l’article sur le NTP (Network Time Protocol) https://labs.ripe.net/author/christer-weinigel/implementing-network-time-security-at-the-hardware-level/
La liste de distribution FRnog https://www.frnog.org/?page=mailing&lang=en">https://www.frnog.org/?page=mailing&lang=en
Fantasia - L'apprenti sorcier, la scéne du balais,

Apr 28, 202201:03:60

#16 Blameless Engineering at ASOS

Steve Withey, Principal Software Engineer @ ASOS, walks us through the journey ASOS tech teams followed towards adopting a blameless postmortem culture.

In today's episode, we cover:

What motivated this transition towards a blameless PM culture and how it happened;
How to drive the cultural change among your team to make this blameless approach work and actually deliver better incident resolution techniques.
We're human after all, so what to do when the situation is so tense as we are about to fail the process? Steve shares what worked at ASOS in such cases.

Resources

Playing the blame-less game">Playing the blame-less game, ASOS Tech Blog, Medium. In this article, Steve shares tips and tricks learned during ASOS adoption of blameless PostMortem culture. https://medium.com/asos-techblog/playing-the-blame-less-game-3708f8195344

Google Site Reliability Engineering books,">Google Site Reliability Engineering books, available for free online, are once again a reference. You may not find that everything applies to your org, but going through this book will for sure spark ideas and inspirations for processes you can implement within your team. https://sre.google/books/

Dec 08, 202124:11

#15 Le ML Ops pour accélérer l’innovation, de la R&D à la production

Ils ont fait x4 en effectif en moins de 2 ans et ont recruté plus de 60 Data Scientists.

Preligens est une scale-up proposant des solutions logicielles dans le domaine de la défense et a connu une croissance fulgurante ces deux dernières années.

Aujourd’hui, je reçois Marie-Caroline Corbineau, Data Scientist au sein de l’équipe R&D de Preligens pour revenir sur les effets de cet afflux de nouveaux contributeurs sur leur capacité à développer et livrer des algorithmes à l'état de l'art répondant aux besoins de leurs clients.

Marie-Caroline nous raconte son parcours et son arrivée à Preligens avant de faire un focus sur l’infrastructure ML qu'ils utilisent en interne. C'est cette AI Factory qui leur permet de réduire les délais dans leur itérations produits et de déployer plus vite.

Ressources:

- The Sequence of AI knowledge - newsletter distilant les avancées en deep learning et proposant une perspective business sur les valorisations et levées de fonds. https://thesequence.substack.com/

- How we built an AI Factory - Preligens - Un medium racontant l'intiative interne entreprise à Peligens pour développer leur framework de ML Ops https://medium.com/earthcube-stories/how-we-built-an-ai-factory-part-1-2fb34c4cc648

Oct 19, 202115:44

#14 Scaler sa réponse à incidents - Le cas Algolia

Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue">alert fatigue. Mais par où commencer ?

Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité.

Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'équipe d'Algolia depuis son incubation à YCombinator en 2014, Xavier est aujourd'hui Manager Search à Algolia.

Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier :

Les 3 étapes clés du chemin parcouru par les équipes tech d'Algolia pour gagner en maturité sur la réponse à incidents 🗝
L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call 🚨📊👩‍💻
De l'importance de monitorer les causes et non les symptômes 🤒

Ressources

La recommandation de Xavier; Le Google SRE Workbook, excellente ressource (et gratuite) pour animer un club de lecture avec votre équipe et réfléchir ensemble sur des bonnes pratiques transposables dans votre organisation.
Pour un exemple de blog post mortem d'Algolia, je recommande cet excellent article de blog sur leur gestion de l'attaque Salt en mai 2020.

Aug 31, 202129:24

#13 An experiment gone wrong

Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau système de recommandation de mon application a-t-il un impact ? Pour qui ?

Un test AB permet de comparer deux variantes afin d’identifier la plus efficace pour l’objectif recherché. Aujourd’hui, je reçois Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous d’une plateforme d'expérimentations 🧑‍🔬

Pour collecter les événements des sites clients (e.g., clic sur tel bouton, de telle couleur, etc.) et les faire parvenir à la plateforme d’AB Tasty, c’est tout un système de message queuing qui est nécessaire.

Dans cette chaîne de traitement, Cyril identifie une optimisation qui permettrait de simplifier l’architecture et d’économiser quelques centaines de dollars.

Quelques jours plus tard, la CyberWeek. Alors que certains sites clients d’AB Tasty voient leur activité multipliée par deux, les coûts liés au service pub/sub explosent 📈 💸

Cyril garde la tête froide et mène l’enquête. Il dispose d'un outil de choix pour élucider ce mystère, la wayback machine. Let's get back in time ⏱ 👩‍🚀

Resources

A/B Testing, Wikipedia
Wayback machine, la "Machine à remonter le temps" de l'Internet. https://web.archive.org/
La recommendation de Cyril: The Data Engineering Podcast, pour des éclairages sur la mise en production de chaînes de traitements de données https://www.dataengineeringpodcast.com/about/

Glossaire

ack: du verbe anglais “to acknowledge” - littéralement “accuser réception de”. Utilisé en event processing pour qualifier le fait qu’un process accuse réception d’un message. Pratique dans une architecture distribuée où la perte de messages via le réseau est possible et l’on veut s’assurer une certaine sémantique sur le traitement d’un message (le message a été traité au moins une fois, ou exactement une fois).   Pour une introduction plus poussée sur sur le stream processing et ses challenges, je recommande le Chapter 11: Stream Processing de l’ouvrage de référence:  Kleppmann, M. (2017). Designing Data-Intensive Applications. O’Reilly Media.

Credits

L'extrait audio à 21'40" est issu du film Kung Fury, https://youtu.be/bS5P_LAqiVg?t=599

Jun 01, 202128:57

#12 Comment Google anonymise vos données personnelles avec la Differential Privacy

Des emojis les plus populaires sur iOS à l'affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l'anonymat des utilisateurs?

Dans ce Post Mortem thématique, le Docteur Damien Desfontaines - Senior Software Engineer, Privacy pour Google nous parle de Differential Privacy (confidentialité différentielle).

Avec des centaines de millions d'utilisateurs actifs chaque jour, les géants du numérique bénéficient de données précises d'utilisation. Au-delà de l'amélioration de l'expérience utilisateur, ces données, une fois agrégées, peuvent contribuer à adresser des problèmes de santé publique.

Après un bref historique des techniques d'anonymisations (02'00"), on définit la confidentialité différentielle et ses propriétés (06'50") avant de revenir sur un cas d'usage au sein de Google (20'18") pour enfin discuter des implémentations existantes (27'58") et des challenges à l'adoption de cette technique (34'13").

Sur Apple Podcast, vous devriez avoir accès aux chapitres avec les liens et illustrations. L'illustration de la Randomized Response devrait être utile!

Toutes les illustrations sont disponibles sur le blog post qui accompagne l'épisode sur le Medium du Post Mortem Podcast https://medium.com/the-post-mortem-podcast

Ressources

Latanya Sweeney et la ré-identification des données médicales du gouverneur du Massachusetts, William Weld en 1997. Wikipedia

Le blog de Damien sur la Differential Privacy, c'est très visuel et de nombreux articles sont accessibles au grand public https://desfontain.es/privacy/differential-privacy-awesomeness.html (~10mins de lecture). Une version html de sa thèse Lowering the cost of anonymisation est également disponible sur son site. Les chapitres légers en maths sont indiqués par une fleur ✿.

Pour le cas d'usage de la Differential Privacy chez Apple cité en introduction, voir le papier de la Differential Privacy Team d'Apple : "Learning with Privacy at Scale", disponible ici https://docs-assets.developer.apple.com/ml-research/papers/learning-with-privacy-at-scale.pdf

Un exemple d'usage de la Differential Privacy chez Google; Les Community Mobility Reports, pour une vision de l'impact du covid sur la mobilité des personnes https://www.google.com/covid19/mobility/

Description du processus d'anonymisation pour les Google Community Reports "Google COVID-19 Community Mobility Reports: Anonymization Process Description", https://arxiv.org/abs/2004.04145

Le papier "Differentially Private SQL with Bounded User Contribution", https://arxiv.org/abs/1909.01917 publié par Damien et son équipe pour faciliter l'utilisation de la Differential Privacy par les analystes en étendant les capacités de SQL

La librairie open source de Google sur la confidentialité différentielle est disponible sur GitHub: https://github.com/google/differential-privacy

Fun Facts

The Fundamental Law of Information Recovery, Cynthia DWork: "“Overly accurate” estimates of “too many” statistics is blatantly non-private" extrait du livre “The Algorithmic Foundations of Differential Privac

May 04, 202138:30

#11 Prédiction de retards à la SNCF 🚉

Tous les jours, des millions de voyageurs prennent le train sur le réseau SNCF, mais parfois, un train subit un retard.

Aujourd'hui je reçois Héloïse Nonne, Head of Data Science & Engineering @ eSNCF, pour comprendre comment ce problème est adressé en interne pour améliorer l'information voyageurs.

Après avoir présenté les spécificités d'un projet ML dans un groupe qui opère sur plus de 30 000 km de voies, Héloïse revient sur la modélisation envisagée pour améliorer l'information voyageurs (10'00") avant de faire le bilan sur un projet mis en prod l'été 2019 (27'30").

Ressources

L'équipe d'Héloïse à rédigé un blog post qui détaille l'approche technique choisie pour la résolution, du feature engineering à l'industrialisation: https://www.digital.sncf.com/actualites/la-data-science-au-service-de-linformation-voyageur
Pour la contextualisation, on évoque les différentes activités du groupe SNCF: https://www.sncf.com/fr/groupe/profil-et-chiffres-cles/portrait-entreprise/qui-sommes-nous

Infos sur le podcast

La fréquence de Post Mortem va passer à 1 épisode par mois
Dans cet épisode, j'utilise des illustrations à certains moments (e.g., 14'11" au sujet de la "météo des retards") dites moi ce que vous en pensez en commentaires sur Apple Podcast ou en DM sur twitter @PodcastMortem 🙏

Apr 06, 202135:49

#10 Competitive Data Science Vs Réalité business

Les plateformes de Data Science comme Kaggle permettent de découvrir des jeux de données variés et de se tester face à d'autres compétiteurs.

Plus votre modèle performe, meilleur est votre classement sur le leaderboard.

Avec des jeux de données "curated" et des métriques à optimiser définies dès le début, le setup d'un Kaggle est souvent bien différent de celui que l'on retrouve lorsque l'on résout un challenge data dans la "vraie vie".

Retour sur l'expérience de Badr Ouali, Head of Data Science @ Vertica, et sa participation au kaggle TalkingData.

Référence:

Si les challenges en Data Science vous intéressent, je vous invite à jeter un œil à ChallengeData.ens.fr. Il s'agit d'une plateforme de l'ENS et du Collège De France proposant des challenges variés.

Mar 10, 202119:19

#9 Avalanche de requêtes et effets de bords mystérieux

Les fêtes de fin d’années sont synonymes de pics d’activités pour le e-commerce. Alors comment réagir quand on se rend compte qu’un incident se profile à l’horizon du moment le plus business critique de l’année ?

Une conversation avec Théo Carrive, CTO de Cheerz.

Concepts mentionnés:

La commande EXPLAIN de PostgreSQL pour obtenir le plan d’exécution d’une requête.
Utile pour comprendre pourquoi une requête est anormalement longue.

Apple Universal Links pour iOS.
Un Universal Link est une URL HTTP(S) qui représente votre contenu à la fois sur le web et dans votre app, cela permet aux utilisateurs d’ouvrir votre contenu dans votre app plutôt que dans la vue navigateur.
Voir cette keynote d'Apple à la WWDC 2020 pour plus de détails sur les Universal Links en pratique.

New Relic est une SaaS permettant de monitorer vos applis Web, mobiles et votre infrastructure en temps réel.

Feb 24, 202122:37

#8 When the facts change, I change my model

"When the Facts Change, I Change My Mind. What Do You Do, Sir?" disait JM Keynes.

L’économiste soulignait alors l’importance de réajuster ses a priori et sa représentation du monde lorsqu'on on est confronté à de nouveaux éléments.

C’est la même chose lorsqu’on entraîne un modèle de machine learning et qu’on le déploie.

Les données que l’on va rencontrer en production suivent-elles une distribution similaire aux données sur lesquelles on a entraîné le modèle? Si non, comment peut-on ajuster le tir?

Témoignage et retour d’expérience avec Hamza Sayah, Data Scientist @ Ponicode.

Références et concepts mentionnés 

- Kullback-Leibler divergence, en un mot: une quantité qui mesure la dissimilarité de deux distributions de probabilités. 

Pour une excellente vidéo donnant l’intuition derrière le lien entre l'entropie, l’entropie croisée et la KL divergence, se référer à la vidéo d'Aurélien Géron "A Short Introduction to Entropy, Cross-Entropy and KL-Divergence"

https://www.youtube.com/watch?v=ErfnhcEV1O8

- Pour l'intuition derrière le concept d'embedding, voir le blog post de Jay Alammar, "The Illustrated Word2Vec", https://jalammar.github.io/illustrated-word2vec/ 

- AST - Abstract Syntax Tree, https://en.wikipedia.org/wiki/Abstract_syntax_tree 

- La recommandation de Hamza: le livre "La Formule Du Savoir", de Lê Nguyên Hoang 

Feb 05, 202123:29

#7 Don't knock the checklist

Action items resulting from a postmortem analysis are often to implement more advanced monitoring or deploy new tools to track usage at a fine-grain level.

Today, Timothy Raymond shows us that a good old checklist can sometimes be the most efficient way to prevent regressions in production.

Some concepts mentioned in the episode:

Roadblocking in advertising: when a single ad or product is displayed all over the place to capture maximum attention.

Beware of URL capping. As a rule of thumb, keep your URL below 2000 characters.

About our guest, Timothy Raymond (Twitter @tim_raymond) is a seasoned Go programmer and currently a Principal Software Engineer at Microsoft. You can check his blog at timraymond.com

Jan 27, 202120:18

#6 Monitor early, fix bugs early 🇫🇷

Loïc Carbonne, VP Engineering @ Theodo, nous partage son expérience sur la réduction du lead time de résolution des incidents.

Au travers des leçons apprises lors du développement d’applications web, Loïc nous propose des outils et méthodes pour s’organiser afin:

1) d’identifier plus rapidement les bugs

2) et de réduire leur temps de résolution.

En résumé, des best practices sur l’alerting, le monitoring et la gestion de bugs dans un fonctionnement scrum.

Ressources

Dec 09, 202026:34

#5 Autoscaling lag et gestion des incidents chez Doctolib 🇫🇷

Benoit Lafontaine, Engineering Director chez Doctolib, nous partage le post mortem d’un incident récent dû à une évolution soudaine de la charge sur la partie patient de leur service.

Malgré une architecture d’auto-scaling déjà en place, le service a été dégradé quelques minutes. Benoît revient également sur la façon dont les incidents sont gérés chez Doctolib.

Ressources

Extrait audio d'un JT de M6, 19-45, disponible sur le kit presse du site doctolib.fr

Superfail, une émission de France Culture

Newsletter tech de Doctolib

Nov 25, 202033:09

#4 La divulgation de vulnérabilités, théorie et pratique 🇫🇷

Que faire lorsque l'on rencontre une vulnérabilité dans un produit ou un service numérique?

On explore avec Rayna Stamboliyska (Twitter: @MaliciaRogue) le rôle de la divulgation coordonnée de vulnérabilités; en quoi celle-ci permet de fluidifier la remontée des vulnérabilités et offre un compromis intéressant pour préserver la sécurité des utilisateurs?

Dans un environnement où nous sommes tous utilisateurs finaux de produits et de services numérique, où le risque 0 en cyber sécurité n'existe pas, une organisation qui affiche une politique de divulgation coordonnée envoie un signal fort sur son humilité face au risque ainsi que sur le cheminement qu'elle a déjà effectué afin de limiter ce risque.

Après un tour d'horizon du cadre légal sur la divulgation de vulnérabilités, on passe en revue quelques organisations à partir desquelles s'inspirer pour la vulnerability disclosure. Enfin Rayna nous partage ses bonnes pratiques pour la mise en place d'une politique de divulgation coordonnée de vulnérabilités.

Références mentionnées au cours de l'épisode:

Norme ISO 29147 - Divulgation de vulnérabilité - iso.org

Norme ISO 30111- Processus de traitement de la vulnérabilité - iso.org

Arguments pour / contre les différents types de divulgation - wikipedia.org

firebounty.com - recense les politiques de divulgation mises en ligne par des services providers (9577 policies au 28 octobre 2020) - firebounty.com

Article 323-1 du code pénal relatif au maintien frauduleux dans un système de traitement automatisé de données - legifrance.gouv.fr

Loi du 7 octobre 2016 pour une République numérique, article 47 - legifrance.gouv.fr

Hall of fame de Nokia sur sa divulgation responsable - nokia.com

F-Secure Vulnerability Reward Program - f-secure.com

The EU Cybersecurity Act at a glance, from the european commission - ec.europa.eu

Cyber Security Act de l'Article 6 Renforcement des capacités et l'Article 54 sur les Éléments des schémas européens de certification de cybersécurité - eur-lex.europa.eu

Les deux livres blanc de Yes We hack sur la divulgation coordonnées de vulnérabilités - blog.yeswehack.com

Nov 11, 202036:14

#3 La Data Science dans les grands groupes, avec Ouriel Bettach 🇫🇷

Ouriel Bettach, Data Scientist depuis plus de 6ans, nous propose un panorama de ses expériences au sein de grands groupes industriels sur des projets de machine learning (ML).

On en profite pour faire le bilan sur la façon dont les grands groupes approchent des projets ML et d’évoquer les points bloquants récurrents dans ces projets, avant d’ouvrir sur les challenges qui se dressent à l’horizon.

Points clés ;

Avoir une équipe multi-compétences (Software Engineer et Data Scientist) dans une même squad permet de livrer des produits (pas simplement mener des projets) ML plus rapidement.
Le data et le model management sont le nerf de la guerre pour répondre aux questions de montée en charge. Le ML Ops est là pour rester. Voir ML Flow.
Au-delà du technique, la conduite du changement pour le déploiement d’un produit ML doit être préparée avec les utilisateurs business.

Références

Ouriel nous recommande le blog Towards Data Science pour se tenir au courant des dernières tendances du ML. Pour les livres, deux recommandations cette semaine, une lecture sur le data management et un classique du ML :

- Data Management at Scale: Best Practices for Enterprise Architecture de Piethein Strengholt, ISBN 9781492054788

- Deep Learning de Ian Goodfellow, Yoshua Bengio et Aaron Courville, ISBN 9780262035613

En bonus, Ouriel nous recommande chaudement les interventions de Yann Lecun sur l’apprentissage profond.

La transcription de notre discussion est disponible sur le blog du podcast Post Mortem.

Oct 28, 202028:25

#2 Dragonblood is still leaking 🇫🇷

Wi-Fi Protected Access 3 (WPA3) est destiné à remplacer WPA 2 - en service depuis 2004 - en rendant presque impossible de craquer le mot de passe d'un réseau.

Problème, des chercheurs ont révélé qu'un attaquant peut exploiter des failles dans les implémentations existantes de WPA 3 pour récupérer le mot de passe de la victime.

Dans cet épisode, Mohamed Sabt, maître de conférence à l'université de Rennes 1 enseignant la cybersécurité et chercheur au sein de l'équipe "Sécurité et Cryptographie Embarquées" (EMSEC) nous révèle une toute nouvelle cyberattaque sur le wifi et en particulier sur la certification WPA3.

On se concentre sur le moment du serrage de main, le handshake, au cours de l'initialisation de la connection entre un appareil et le point d'accès wifi. C'est à ce moment que plusieurs implémentations du handshake Dragonfly de WPA 3 présentent des failles.

En analysant les instructions chargées dans le cache de processeurs Intel ainsi que les temps d'exécutions, Mohamed et son équipe ont réussi à déterminer quelles instructions sont exécutées ce qui permet de réduire considérablement la taille des dictionnaires à utiliser pour enchaîner sur une attaque brute force.

Mohamed nous raconte ensuite comment ils ont travaillé avec la communauté open source qui maintient ces implémentations afin de patcher ces vulnérabilités et les leçons qu'il en a tiré d'un point de vue académique et organisationnel, par exemple; Comment remonter une faille de sécurité à un projet open source?

Points clés;

Le temps d'exécution d'une fonction de hachage ne doit pas dépendre de la valeur du secret. Pensez aux implémentations en temps constant.
Si vous ne maîtrisez pas un standard de sécurité, n'essayez pas de l'implémenter vous- même.
Pour convaincre une équipe open source de la criticité d'une faille, arriver avec une preuve de concept (Proof of Concept, POC) complète qui montre l'attaque permet de gagner en crédibilité auprès de la communauté.
Pour les utilisateurs finaux, pensez à effectuer les mises à jour de sécurité.

Références

Site web Dragonblood - Analysing WPA3's Dragonfly Handshake

Papier original Dragonblood: Analyzing the Dragonfly Handshake of WPA3 and EAP-pwd, par Mathy Vanhoef et Eyal Ronen.

Oct 14, 202046:54

What's this podcast about?

In Post Mortem, we have engineers coming back on real-life incidents of IT systems. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened, how the people behind those systems solved the situation.

Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.

A typical episode will have a structure similar to a post mortem document. We clarify the incident's impact, understand its root causes, what worked, and what did not go as expected in the mitigation process to learn re-usable insights that other organizations can leverage.

You can expect interviews between 30 and 50 minutes with software engineers, cybersecurity experts, and machine learning practitioners.

We plan to release one episode every other week.

The show is to premiere on October 14; stay tuned!

Sends us your feedback at @PodcastMortem on Instagram or twitter.

This episode's complete transcript is available here on our blog, The Post Mortem Podcast

Oct 01, 202001:46

Qu'est ce que Post Mortem? 🇫🇷

C’est quoi un « post mortem » ?

Dans cet épisode je définis le thème du podcast, on y partage des retours d’expériences sur des incidents survenus dans des systèmes informatique.

Un post mortem, d’après Wikipédia, c’est un process que l’on réalise à la fin d’un projet pour analyser ce qui a fonctionné et ce qui a moins bien marché dans un projet. L’objectif est d’en tirer des bonnes pratiques et de les partager pour éviter de répéter des incidents similaires.

Dans ce podcast, on revient, via des témoignages d’ingénieurs logiciels, sur des incidents spécifiques vécus au sein d’une équipe et comment ils y ont fait face. Je vous propose des interviews d’une trentaine à une cinquantaine de minutes, deux fois par mois.

Pour soutenir le show et ne pas louper les prochains épisodes, abonnez-vous. Vous pouvez aussi partager votre épisode préféré avec un ou une amie. Si ce podcast vous plaît, n’hésitez pas à mettre 5 étoiles et un commentaire sur Apple Podcasts, ça aide énormément pour la visibilité du show.

Vos suggestions, tant pour améliorer le show que pour proposer un ou une invitée, sont les bienvenues. Envoyez-moi un message sur Instagram ou Twitter @PodcastMortem pour qu’on en discute ensemble.

La transcription de cette épisode est diponible ici sur le blog du podcast, The Post Mortem Podcast.

Sep 30, 202001:39

#1 A migration's tale

Nicolas walks us through a challenging service migration he experienced at Criteo, a personalized retargeting company.

A Windows to Linux server migration was on the way for several months already when they realized that the logging backend they used was not working as expected under Linux and failed to collect metrics.

Problem: By that time, 95% of the machine park had already switched to Linux.

Product teams relying on those metrics to run their A/B tests were using small data sets subject to noise. As critical metrics, like the Click-Through Rate, were less abundant, business decisions were more challenging for Nicolas' internal customers.

References

Criteo's blog post Moving .NET to Linux at Scale.

Clean Code from Robert Martin.

Nicolas' newsletter, Memes Are Eating The World

Sep 24, 202033:54