Close

Incidentmanagement voor razendsnelle teams

Het belang van een postmortemproces bij incidenten

Incidenten gebeuren.

Dat is nu eenmaal zo. Naarmate onze systemen groter en complexer worden, zijn storingen onvermijdelijk.

Incidenten zijn ook een leermogelijkheid.

Een kans om kwetsbaarheden in je systeem te ontdekken. Een kans om herhaalde incidenten te beperken en de tijd tot oplossing te verkorten. Een tijd om je teams bij elkaar te brengen en te plannen hoe ze de volgende keer nog beter kunnen handelen.

De beste manier om door te nemen wat er tijdens een incident is gebeurd en alle geleerde lessen vast te leggen, is door een incidentpostmortem uit te voeren, ook wel bekend als een beoordeling na een incident.

Een post-mortem van een incident brengt mensen samen om de details van het incident te bespreken: waarom het is gebeurd, de impact, welke acties er zijn ondernomen om het op te lossen en wat er gedaan kan worden om te voorkomen dat het opnieuw gebeurt.

Dankzij tools zoals versiebeheer, functievlaggen en continue levering kunnen veel incidenten snel 'ongedaan worden gemaakt'. Veel incidenten worden veroorzaakt door een bug in een verandering die naar productie wordt gepusht. Als die wijziging wordt teruggedraaid, kan de app weer operationeel worden. Dit is echt voordelig voor iedereen. Het zorgt ervoor dat de service snel weer werkt. Maar het helpt je vaak niet te begrijpen wat er is mislukt en waarom. Postmortems bieden dan uitkomst.

Een incidentpostmortem is een framework om van incidenten te leren en problemen om te zetten in vooruitgang. Het proces bouwt ook vertrouwen op bij klanten, collega's en eindgebruikers (in feite de mensen die door het incident zijn getroffen) en laat hen weten dat je team eraan werkt om toekomstige incidenten en impact te minimaliseren.

Illustratie van postmortemcyclus

Een postmortem is een belangrijke stap in de levenscyclus van een service die altijd beschikbaar is. De bevindingen van je postmortem moeten direct terugvloeien in je planningsproces. Dit zorgt ervoor dat de kritieke herstelwerkzaamheden die in de postmortem zijn geïdentificeerd, een plek krijgen in aanstaande werkzaamheden en in evenwicht zijn met andere aanstaande werkzaamheden en prioriteiten.

De voordelen van een incident-postmortem

Je kunt in de verleiding komen om een formele postmortemvergadering en de notulering ervan over te slaan, vooral als je zeker weet wat het incident heeft veroorzaakt, en je er vrij zeker van bent dat je het probleem hebt opgelost.

Dat kan waar zijn ... voor jou. Maar er kunnen mensen in je team zijn die zich niet heel bewust zijn van de oorzaak van het incident. Zij zouden kunnen profiteren van jouw heldere uitleg en daarmee hun service aan het team en jouw klanten kunnen verbeteren.

Door mensen samen te brengen om deel te nemen aan een gestructureerd, samenwerkingsproces, kan iedereen bijdragen wat hij of zij heeft geleerd en kunnen vertrouwen en veerkracht binnen je team worden bevorderd. Het documenteren van het incident en de manier waarop het team het heeft opgelost, kan nuttig zijn bij het afhandelen van toekomstige incidenten.

Je kunt ook besluiten om leerpunten van je postmortem te publiceren met klanten of met de rest van je organisatie. Dit kan veel helpen bij het herstellen van het vertrouwen in mensen die misschien niet nauw betrokken waren toen het incident plaatsvond. Andere teams in je organisatie, met name het management, moeten mogelijk de details van het probleem zien en weten welke stappen zijn ondernomen om het probleem op te lossen om in de toekomst ieder giswerk van je team te voorkomen.

Partners, klanten en eindgebruikers willen misschien ook weten wat er is gebeurd en welke stappen je hebt genomen om hun ervaring te verbeteren. Het is misschien niet in alle gevallen gepast om je incidentpostmortem beschikbaar te maken op je openbare website, maar je marketing- of pr-team kan helpen bij het communiceren, zodat mensen de informatie ontvangen op een manier die informatief is en vertrouwen in je diensten oplevert.

Best practices voor een incident-postmortem

De manier waarop je je incidentpostmortem aanpakt, is net zo belangrijk als de checklist met te nemen stappen. De spanningen kunnen hoog oplopen in de nasleep van een incident. Je kunt mensen betrokken krijgen bij het proces en bereid maken om een moeilijk probleem aan te pakken door hen een gevoel van psychologische veiligheid te geven.

Creëer een cultuur zonder schuldigen

Voormalig Etsy-CTO John Allspaw schreef een baanbrekend stuk over 'postmortems zonder schuldvraag'. Dankzij deze aanpak om een incident te onderzoeken kunnen de mensen die bij het incident betrokken zijn, al hun acties, de impact ervan en wat ze wisten en wanneer, zonder angst voor straf of vergelding naar voren brengen.

Deze aanpak is essentieel om ervoor te zorgen dat je teams openlijk informatie delen om de oorzaak van incidenten te achterhalen. Als mensen bang zijn voor berispingen, kunnen ze informatie achterhouden of proberen anderen de schuld te geven. Wanneer dit gebeurt, verliezen mensen het vertrouwen in elkaar. En de organisatie verliest de kans om veerkracht in haar teams en systemen op te bouwen. Veel teams, waaronder hier bij Atlassian en bij Google, hebben de voordelen van postmortems zonder schuldvraag omarmd om die valkuilen te vermijden.

Vermijd beschuldigende vingers, houd kritiek opbouwend

Vermijd tijdens je postmortembijeenkomsten (en bij het noteren van de bevindingen) taal waarmee individuen persoonlijk verantwoordelijk worden gesteld voor het incident. Concentreer je in plaats daarvan op acties, resultaten en impact.

Hoewel het belangrijk is om het gesprek veilig en objectief te houden, is het van groot belang om de oorzaak van het incident te achterhalen om het probleem op te lossen. Je kunt tijdens je bijeenkomsten een techniek gebruiken die wordt aangeduid als 'de vijf waaroms'. Begin door ervoor te zorgen dat iedereen het eens is over wat het probleem is. Vraag vervolgens waarom dit gebeurde en vraag daarna 'waarom' om die vraag te beantwoorden. Herhaal dit minstens vijf keer om ervoor te zorgen dat je alle diepere factoren ontdekt die bijdragen aan het probleem. Zorg ervoor dat de aanwezigen een ongemakkelijke waarheid niet onder ogen willen komen of een gemakkelijke consensus proberen te bereiken. Meer informatie over 'de vijf waaroms'-methode vind je hier in ons draaiboek.

Beoordeel elke postmortem en neem deze op in je proces

Een niet-beoordeeld incidentpostmortemrapport had net zo goed nooit geschreven kunnen zijn. Zodra een incidentpostmortemrapport is opgesteld, is het belangrijk om onopgeloste problemen uit te sluiten, ideeën vast te leggen om in de toekomst rekening mee te houden en het rapport af te ronden. Je zou zelfs kunnen zeggen dat het incident pas echt is afgesloten als deze beoordeling heeft plaatsgevonden.

Hoe zorg je ervoor dat dit gebeurt? Plan ten minste maandelijks een terugkerende vergadering met engineering (en iedereen die mogelijk interesse heeft, zoals klantenondersteuning of accountmanagers) om postmortemrapporten van incidenten te bekijken. Je kunt ervoor kiezen om recente rapporten of eventueel oudere rapporten te beoordelen en conclusies te delen die nog steeds relevant zijn.

Een effectief incident-postmortemplan

Om te zorgen dat postmortems effectief zijn en je in staat te stellen een cultuur van continue verbetering te ontwikkelen, wil je een eenvoudig, herhaalbaar proces implementeren waaraan iedereen kan deelnemen. Hoe je dit doet, hangt af van je cultuur en je team. Bij Atlassian hebben we een methode ontwikkeld die voor ons werkt. Je kunt er meer over lezen in onze Incidentengids.

Hier zijn een paar tips om aan de slag te gaan:

Tip 1: Stel een drempelwaarde in

Incidenten in je organisatie moeten duidelijke en meetbare ernstigheidsniveaus hebben. Deze ernstigheidsniveaus kunnen worden gebruikt om het postmortemproces te activeren. Elk incident van Ernst-1 of hoger activeert bijvoorbeeld het postmortemproces, terwijl de postmortem optioneel kan zijn voor minder ernstige incidenten. Overweeg om teamleiders of het management de mogelijkheid te geven om een postmortem aan te vragen voor elk incident dat niet aan de drempelwaarde voldoet.

Tip 2: Stel niets uit

Het is belangrijk om een pauze en wat rust te nemen na een incident. Maar wacht niet te lang met het schrijven van de incident-postmortem. Als je toch te lang wacht, kunnen belangrijke details verloren gaan of worden vergeten. Idealiter wordt de postmortem opgesteld onmiddellijk na een beoordelingsvergadering na het incident die binnen 24-48 uur na het oplossen van het incident wordt gehouden, en uiterlijk binnen vijf werkdagen.

Tip 3: Wijs rollen en eigenaren toe

Een beoordelingsvergadering na het incident is de gelegenheid waar je de details ophaalt die in de incident-postmortem worden vastgelegd. Het is goed om het postmortemconcept te delegeren aan een specifieke persoon. Idealiter is dit iemand die bekend is met het incident, en die over het vereiste niveau van technische en organisatorische kennis beschikt om de oorzaken en mitigaties te begrijpen.

Tip 4: Werk vanuit een sjabloon

Een sjabloon kan voorkomen dat je belangrijke details weglaat. En het is een geweldige manier om voor consistentie te zorgen tijdens je postmortem.

Tip 5: Voeg een tijdlijn toe

Een tijdlijn is een erg nuttig hulpmiddel om incidenten te documenteren. Vaak is dit de eerste plaats waar de lezer naar kijkt als deze snel probeert te snappen wat er is gebeurd. Probeer zo duidelijk en specifiek mogelijk te zijn. Bijvoorbeeld '11:14 uur Pacific Standard Time', niet 'rond 11'. Door specifiek te zijn met tijdstempels, kun je een betrouwbare keten van gebeurtenissen in kaart brengen, wat handig is om verbeterpunten te identificeren. Je kunt bijvoorbeeld vaststellen dat het interval tussen het begin van de impact en het moment waarop klanten een melding kregen, te lang was.

Belangrijke tijden om op te nemen.

  • Eerste waarschuwing of ticket
  • Aankondiging voor eerste communicatie (intern en/of extern)
  • Tijden van updates van de statuspagina
  • Tijdstip van eventuele herstelpogingen (terugdraaien van codes enz.)
  • Tijd tot oplossing

Tip 6: Details, details, details

Beknibbelen op details staat garant voor onbehulpzame, onduidelijke postmortems. Voeg zoveel mogelijk details toe over wat er tijdens het incident is gebeurd en wat er is gedaan. In plaats van 'toen ging de openbare bekendmaking uit', zeg je: 'we publiceerden de eerste openbare bekendmaking waarin het incident word aangekondigd op onze openbare statuspagina en ond Twitter-account'.

Vermeld waar mogelijk links en namen, links naar tickets en statusupdates, links naar documenten van de incidentstatus en monitoringgrafieken. Wees niet bang om schermafbeeldingen van relevante afbeeldingen of dashboards toe te voegen. Een grafiek van je bewakingssysteem die duidelijk de begin- en eindtijden van het incident laat zien (bijvoorbeeld een daling van het aanvraagpercentage gevolgd door een terugkeer naar normaal), is zeer waardevol omdat het ondubbelzinnig is. Deze wordt nog krachtiger in combinatie met grafieken die laten zien wat er in die tijd achter de schermen gebeurde, bijvoorbeeld over databaseverbindingen, de netwerkverbindingsstatus of CPU/geheugen/io/bandbreedteverbruik binnen hetzelfde tijdsbestek.

Tip 7: Leg statistieken over het incident vast

Wanneer je statistieken in je incidentpostmortem vastlegt, pas je harde gegevens toe op de problemen en de impact ervan. Met deze gegevenspunten kun je bepalen of je team de goede kant op gaat en verklein je het aantal incidenten, de ernst ervan en de downtime. Wanneer consistente statistieken worden bijgehouden, kun je een stap terug doen en in de loop van de tijd naar incidenttrends kijken.

Enkele statistieken waarmee je rekening moet houden bij het volgen van je incidentpostmortems:

  • Het aantal minuten downtime, zodat je kunt bijhouden of dit aantal is toe- of afgenomen
  • De ernst van het incident, zodat je de relatieve betrouwbaarheid van je systemen kunt bepalen.
  • 'Mean Time to Resolution' (MTTR), meet de gemiddelde tijd die nodig is om een incident op te lossen, vanaf het moment dat het voor het eerst werd gemeld.

De belangrijkste tip? Sla geen stappen over. De sleutel tot het uitvoeren van postmortems die je helpen je team en systemen te verbeteren, is het hebben van een proces en het volgen ervan.

Gebruik een postmortemsjabloon voor incidenten om het proces te stroomlijnen

Om ervoor te zorgen dat je team een cultuur ontwikkelt rond beoordelingen van incidentpostmortems, moet je het met herbruikbare checklists en sjablonen zo simpel mogelijk maken om informatie vast te leggen, vergaderingen te plannen en het eindrapport te publiceren. Een herhaalbaar proces zorgt voor consistentie en helpt mensen om te weten wat ze kunnen verwachten en om vervolgens met een productieve houding aan het proces mee te werken.

Typische checklistitems voor een incidentpostmortemproces:

Vergaderingen die moeten worden gehouden:

  • Vergadering om informatie te verzamelen
  • Controle van het rapport
  • Presentatie van het rapport

Informatie die van tevoren moet worden verzameld:

  • Standaardagenda's voor elke vergadering
  • Deelnemers, belanghebbenden, beoordelaars
  • Standaardiseer het schrijven van een postmortemrapport met een sjabloon
Hierna
Template