#17 Was können wir beim Incident Management von der Feuerwehr lernen?

#17 Was können wir beim Incident Management von der Feuerwehr lernen?

1 Stunde 11 Minuten

Beschreibung

vor 2 Jahren

Was haben die Methoden der Feuerwehr zur Bekämpfung von
Großschadensereignissen mit dem Incident Management von
IT-Systemen gemeinsam? 


Diese Frage klären wir in der folgenden Episode. Wolfgang, als
Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das
Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit
dem Incident Management von Cloud-Systemen. Wir klären wie man
den Schaden eines Incidents misst, was dies mit dem Vertrauen von
Kunden zu tun hat, wie ordentliche Prävention aussehen kann und
warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime
versteht, wie ein moderner “Schreiberling” aussieht, wie dreist
Presseleute sein können und was eine kleine Konferenz in
Kalifornien damit zu tun hat.


Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben
und wieso Kaffee holen doch eine Strategie sein kann.





Feedback an stehtisch@engineeringkiosk.dev oder via Twitter an
https://twitter.com/EngKiosk





Unsere aktuellen Werbepartner findest du auf
https://engineeringkiosk.dev/partners


 
Links

Datenverlust bei 1.500 Snapshots von Hetzner Cloud:
https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.html

Ceph Storage: https://ceph.io/

Inside the Longest Atlassian Outage of All Time:
https://newsletter.pragmaticengineer.com/p/scoop-atlassian

Atlassian stoppt den Verkauf von On-Premise Lizenzen:
https://www.atlassian.com/migration/assess/journey-to-cloud

auditd: https://linux.die.net/man/8/auditd

rsyslog: https://www.rsyslog.com/

Incident.io: https://incident.io/

5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-Methode

Postmortem “Roblox Return to Service 10/28-10/31 2021”:
https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/

Postmortem “The Discovery of Apache ZooKeeper’s Poison
Packet”:
https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/

Postmortem “etcd: v3.5 data inconsistency”:
https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.md

Postmortem: “Gocardless: Incident review: API and Dashboard
outage on 10 October 2017”:
https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/

Postmortem: “Monzo,Outage, 29. July 2019”:
https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29th

Sammlung von verschiedenen Postmortems:
https://github.com/danluu/post-mortems

OpsGenie: https://www.atlassian.com/de/software/opsgenie

PagerDuty: https://www.pagerduty.com/

Buch “Incident Management for Operations”:
https://www.amazon.de/Incident-Management-Operations-Rob-Schnepp/dp/1491917628


Sprungmarken

(00:00:00) Intro


(00:01:21) Wie viel Feuerwehr-Leute gibt es in Deutschland?


(00:02:58) Was ist Incident Management im
DevOps/Infrastruktur-Bereich


(00:07:33) Firmen-Interne Incidents können ebenfalls richtig
teuer werden


(00:09:14) Wie wichtig ist Prävention und Monitoring?


(00:10:26) Wie agiert ein Unternehmen bei einem IT-Incident?
Chaotische Hilfe


(00:12:33) Inwieweit kann ein IT-Incident mit einem
Großschadensereignis verglichen werden?


(00:14:14) Was ist ein Großschadensereignis?


(00:15:57) Wie bekommen denn alle mit, dass ein Incident gerade
eintritt? Und welche Strukturen sind notwendig?


(00:17:43) Wer übernimmt die Rolle des (Incident) Commanders?


(00:19:21) Was beinhaltet denn die Übernahme eines Incidents?


(00:21:23) Vergleich von der Übernahme eines Incidents zwischen
der Feuerwehr und einem IT-System


(00:23:43) Strategie der Feuerwehr bei Incidents und Hierarchien


(00:26:14) Ist der Einsatzleiter ein aktiver Teil des Incidents?
Und welche Rollen gibt es noch?


(00:30:09) Kommunikationsstrukturen in IT-Incidents


(00:33:01) Der aktuelle Atlassian-Incident


(00:34:44) Die Rollen von Logistik und Administration in der
Feuerwehr und in der IT


(00:37:16) (Essens)-Logistik bei Remote-Incidents


(00:40:19) War-Rooms: Anti-Pattern oder Must-Have + Pro-Aktive
Kommunikation


(00:43:26) War- und Peace-Time


(00:44:19) Incident Commander, Rollen und Rollen-Rotation im
IT-Bereich


(00:45:53) Die Rolle des Protokollführers / Schreiberlings


(00:50:46) Post Mortems und Nachbesprechungen: Warum machen die
Sinn?


(00:54:21) Vorbereitungen, Prävention und Training in der
Friedenszeit


(00:57:51) Lernen aus Incidents und die Post Mortem-Struktur


(01:00:09) Employer Branding mit Post Mortems


(01:01:45) Happy-Path in Post Mortems


(01:02:35) Nachbesprechung bei der Feuerwehr und Post Mortem
Conferences


(01:06:45) Web-Ops / Fire-Ops-Conference


(01:09:40) Outro

Hosts

Wolfgang Gassler (https://twitter.com/schafele)

Andy Grunwald (https://twitter.com/andygrunwald)






Engineering Kiosk Podcast: Anfragen an
stehtisch@engineeringkiosk.dev oder via Twitter an
https://twitter.com/EngKiosk

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: