Close

Atlassian incidenthandboek

Overzicht

Teams die in deze tijd technische services verlenen, worden geacht 24/7 beschikbaar te zijn.

Als er iets misgaat, of dit nu een stroomstoring of een kapotte functie is, moeten teamleden onmiddellijk reageren en de service herstellen. Dit proces noemen we incidentmanagement, en het is een voortdurende, complexe uitdaging voor grote en kleine bedrijven.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Reageren op een incident

Reactieproces en stappen die genomen moeten worden als een incident is gedetecteerd.

Incident-postmortems

Een postmortem uitvoeren zonder schuldigen aan te wijzen, hoofdoorzaken identificeren en het doorvoeren van oplossingen plannen.

Overzicht incidenthandboek

Voor wie is deze handleiding bedoeld?

Als je onderdeel uitmaakt van een ontwikkelings- of operationsteam dat internetservices verleent aan klanten die 24/7 beschikbaarheid vereisen, dan is dit het handboek voor jou.

Wat is een incident?

We definiëren een incident als een gebeurtenis die een service verstoort of de kwaliteit vermindert van een service, waar onmiddellijk op gereageerd moet worden. Teams die ITIL- of ITSM-processen volgen, gebruiken mogelijk de term groot incident .

Een incident is opgelost als de desbetreffende service weer normaal functioneert. Dit omvat alleen de taken die vereist zijn om volledige functionaliteit te herstellen. 

Het incident-postmortem vindt na het incident plaats om de belangrijkste oorzaak te achterhalen en acties toe te wijzen om ervoor te zorgen dat de oorzaak van het incident wordt aangepakt voordat het zich kan herhalen.

Onze incidentwaarden

Een proces voor het beheren van incidenten kan niet alle mogelijke situaties dekken, dus bieden we ons team algemene richtlijnen in de vorm van waarden. Net zoals de bedrijfswaarden van Atlassian, zijn onze incidentwaarden bedoeld om:

  • Autonome besluitvorming door mensen en teams te bereiken tijdens incidenten en postmortems. 

  • Een consistente cultuur op te bouwen tussen teams voor hoe we incidenten identificeren, managen en ervan leren.

  • Teams op dezelfde manier zich laten opstellen wat betreft ieder gedeelte van het herkennen, oplossen en reflecteren van incidenten.

Fase Incidentwaarde Gerelateerde Atlassian-waarde Onderbouwing
1. Detecteer Atlassian is eerder op de hoogte dan klanten

Build with Heart and Balance

Een uitgebalanceerde service bevat voldoende monitoring en waarschuwingen om incidenten te detecteren voordat onze klanten dit doen. 

De beste monitoring waarschuwt ons voor problemen voordat dit incidenten worden.

2. Reageer Escaleren, escaleren, escaleren 

Werk samen als een team

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

We hebben niet altijd overal antwoord op, dus 'escaleren kun je leren'.

3. Herstel Er worden fouten gemaakt, maar herstel ze tijdig Houd de klant niet voor de gek

Het maakt onze klanten niet uit waarom de service niet kan worden geleverd, ze willen gewoon dat we de service zo snel mogelijk herstellen.

Twijfel nooit om een incident snel te herstellen, zodat we de impact voor de klant altijd kunnen beperken. 

4. Leer Altijd zonder een schuldige Open Company, No Bullshit Incidenten zijn onderdeel van lopende services. We verbeteren services door teams ter verantwoording te roepen, niet door schuldigen aan te wijzen.
5. Verbeter Een incident mag nooit nog een keer voorkomen Wees de verandering waar je naar op zoek bent

Achterhaal de belangrijkste reden en voer de wijzigingen door die voorkomen dat dit specifieke incident nog een keer plaatsvindt.

Zet je in voor het leveren van specifieke wijzigingen op specifieke datums.

 

Benodigde tools

Het hier beschreven proces voor incidentmanagement gebruikt verschillende tools specifiek voor Atlassian die indien nodig vervangen kunnen worden:

  • Incidenten volgen: ieder incident wordt gevolgd als een Jira -issue, met een aangemaakte vervolgissue om de voltooiing van postmortems te volgen (Atlassian gebruikte voorheen een aangepaste versie van Jira-software voordat Jira Ops werd uitgebracht).

  • Chatruimte: een realtime kanaal voor communicatie via tekst is van fundamenteel belang om het incident als team te diagnosticeren en op te lossen.

  • Videochat: voor veel incidenten kunnen videochats voor teams, zoals Blue Jeans, helpen om benaderingen te bespreken en het er over eens te worden.

  • Waarschuwingssysteem: een tool zoals OpsGenie beheert onverwachte veranderingen en escalaties.

  • Documentatietool: we gebruiken Confluence voor onze incidentstatusdocumenten en voor het delen van postmortems via blogs.

  • Statuspage: het communiceren van de status aan zowel interne belanghebbenden als klanten via Statuspage zorgt ervoor dat iedereen op de hoogte blijft.

Incidenten volgen

Ieder incident wordt gevolgd als een Jira-issue en er wordt een vervolgissue van gemaakt om de voltooiing van postmortems te volgen. Het proces in dit handboek refereert aan onze zwaar aangepaste versie van Jira-software, wat de inspiratie was voor het maken van Jira Ops. Als zodanig komt het proces niet exact overeen met de momenteel beschikbare functies in Jira Ops.

Incidentissues worden meestal aangemaakt door een ondersteunend technicus als reactie op een klantticket of door een ontwikkelaar die een monitoringsmelding herkent als incident. We dringen er bij mensen op aan een issue aan te maken als ze zich ergens zorgen over maken, in plaats van te wachten tot het wordt geëscaleerd.

Jira heeft een eenvoudig proces voor het volgen van incidenten tijdens de oplossingsfase en om alle belangrijke genomen acties tijdens de reactie op het incident op te slaan.

Incidentmanager

Ieder incident wordt gemanaged door de incidentmanager (IM), die verantwoordelijk is voor en de leiding heeft over het aanpakken van het incident. Deze persoon staat weergegeven als de uitvoerder voor de incidentissue. De incidentmanager is gemachtigd om alle nodige maatregelen te nemen om het incident op te lossen, waaronder iedereen binnen de organisatie op de hoogte brengen en de aandacht van mensen die betrokken zijn bij een incident gericht houden op het zo snel mogelijk herstellen van de service. 

De incidentmanager is een rol en niet een individu die het incident aanpakt. Het voordeel van rollen definiëren tijdens een incident is dat mensen inwisselbaar worden. Zolang iemand weet hoe hij of zij een bepaalde rol moet invullen, kan hij of zij die rollen voor een incident invullen.

Ideeën of suggesties voor deze handleiding?

Geweldig! Je kunt feedback sturen naar incident-handbook@atlassian.com en ons laten weten wat je ervan vindt.

Reageren op een incident

Reactieproces en stappen die genomen moeten worden als een incident is gedetecteerd.

Incident-postmortems

Een postmortem uitvoeren zonder schuldigen aan te wijzen, hoofdoorzaken identificeren en het doorvoeren van oplossingen plannen.

Op zoek naar een tool om een proces voor incidentmanagement uit te voeren?