Datacenter outage post-mortem

Op 6 november is er een grote storing geweest in ons datacenter.
Dit heeft er voor gezorgd dat onze diensten tijdelijk niet goed bereikbaar waren.

Met dit document geven wij inzicht in de tijdlijn, wat er fout is gegaan en wat we er van geleerd hebben.

Post-mortem

Datum

6 november 2018

Auteurs

Status

✔️ Storing verholpen

Samenvatting

Er is een storing opgetreden in één van de redundante coreswitches waardoor er problemen in de netwerkverbinding zijn ontstaan.
Hierdoor waren bepaalde Hybrid SaaS diensten niet bereikbaar.

Duur

De eerste melding bereikte ons rond 06:30, rond 9:20 zijn de netwerkverbinden hersteld en functioneerde de diensten weer normaal.
Totale duur: 2 uur en 50 minuten.

Impact

Oorzaak

Het probleem is ontstaan in een core netwerkswitch bij onze internetprovider.
Vooralsnog is de oorzaak nog niet bekend gemaakt.

Oplossing

Aangezien de oorzaak van de storing bij onze leverancier ligt, hebben wij direct melding gemaakt bij de supportafdeling van onze provider.
Deze hebben het probleem direct opgepakt en zijn begonnen aan een herstel.

Wat hebben we geleerd?

Wat er goed ging

Wat er niet goed ging

Waar we geluk mee hebben gehad

Wat gaan we nu doen?

Tijdlijn