#17 Was können wir beim Incident Management von der Feuerwehr lernen?
1 Stunde 11 Minuten
Podcast
Podcaster
Beschreibung
vor 2 Jahren
Was haben die Methoden der Feuerwehr zur Bekämpfung von
Großschadensereignissen mit dem Incident Management von
IT-Systemen gemeinsam?
Diese Frage klären wir in der folgenden Episode. Wolfgang, als
Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das
Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit
dem Incident Management von Cloud-Systemen. Wir klären wie man
den Schaden eines Incidents misst, was dies mit dem Vertrauen von
Kunden zu tun hat, wie ordentliche Prävention aussehen kann und
warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime
versteht, wie ein moderner “Schreiberling” aussieht, wie dreist
Presseleute sein können und was eine kleine Konferenz in
Kalifornien damit zu tun hat.
Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben
und wieso Kaffee holen doch eine Strategie sein kann.
Feedback an stehtisch@engineeringkiosk.dev oder via Twitter an
https://twitter.com/EngKiosk
Unsere aktuellen Werbepartner findest du auf
https://engineeringkiosk.dev/partners
Links
Datenverlust bei 1.500 Snapshots von Hetzner Cloud:
https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.html
Ceph Storage: https://ceph.io/
Inside the Longest Atlassian Outage of All Time:
https://newsletter.pragmaticengineer.com/p/scoop-atlassian
Atlassian stoppt den Verkauf von On-Premise Lizenzen:
https://www.atlassian.com/migration/assess/journey-to-cloud
auditd: https://linux.die.net/man/8/auditd
rsyslog: https://www.rsyslog.com/
Incident.io: https://incident.io/
5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-Methode
Postmortem “Roblox Return to Service 10/28-10/31 2021”:
https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/
Postmortem “The Discovery of Apache ZooKeeper’s Poison
Packet”:
https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/
Postmortem “etcd: v3.5 data inconsistency”:
https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.md
Postmortem: “Gocardless: Incident review: API and Dashboard
outage on 10 October 2017”:
https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/
Postmortem: “Monzo,Outage, 29. July 2019”:
https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29th
Sammlung von verschiedenen Postmortems:
https://github.com/danluu/post-mortems
OpsGenie: https://www.atlassian.com/de/software/opsgenie
PagerDuty: https://www.pagerduty.com/
Buch “Incident Management for Operations”:
https://www.amazon.de/Incident-Management-Operations-Rob-Schnepp/dp/1491917628
Sprungmarken
(00:00:00) Intro
(00:01:21) Wie viel Feuerwehr-Leute gibt es in Deutschland?
(00:02:58) Was ist Incident Management im
DevOps/Infrastruktur-Bereich
(00:07:33) Firmen-Interne Incidents können ebenfalls richtig
teuer werden
(00:09:14) Wie wichtig ist Prävention und Monitoring?
(00:10:26) Wie agiert ein Unternehmen bei einem IT-Incident?
Chaotische Hilfe
(00:12:33) Inwieweit kann ein IT-Incident mit einem
Großschadensereignis verglichen werden?
(00:14:14) Was ist ein Großschadensereignis?
(00:15:57) Wie bekommen denn alle mit, dass ein Incident gerade
eintritt? Und welche Strukturen sind notwendig?
(00:17:43) Wer übernimmt die Rolle des (Incident) Commanders?
(00:19:21) Was beinhaltet denn die Übernahme eines Incidents?
(00:21:23) Vergleich von der Übernahme eines Incidents zwischen
der Feuerwehr und einem IT-System
(00:23:43) Strategie der Feuerwehr bei Incidents und Hierarchien
(00:26:14) Ist der Einsatzleiter ein aktiver Teil des Incidents?
Und welche Rollen gibt es noch?
(00:30:09) Kommunikationsstrukturen in IT-Incidents
(00:33:01) Der aktuelle Atlassian-Incident
(00:34:44) Die Rollen von Logistik und Administration in der
Feuerwehr und in der IT
(00:37:16) (Essens)-Logistik bei Remote-Incidents
(00:40:19) War-Rooms: Anti-Pattern oder Must-Have + Pro-Aktive
Kommunikation
(00:43:26) War- und Peace-Time
(00:44:19) Incident Commander, Rollen und Rollen-Rotation im
IT-Bereich
(00:45:53) Die Rolle des Protokollführers / Schreiberlings
(00:50:46) Post Mortems und Nachbesprechungen: Warum machen die
Sinn?
(00:54:21) Vorbereitungen, Prävention und Training in der
Friedenszeit
(00:57:51) Lernen aus Incidents und die Post Mortem-Struktur
(01:00:09) Employer Branding mit Post Mortems
(01:01:45) Happy-Path in Post Mortems
(01:02:35) Nachbesprechung bei der Feuerwehr und Post Mortem
Conferences
(01:06:45) Web-Ops / Fire-Ops-Conference
(01:09:40) Outro
Hosts
Wolfgang Gassler (https://twitter.com/schafele)
Andy Grunwald (https://twitter.com/andygrunwald)
Engineering Kiosk Podcast: Anfragen an
stehtisch@engineeringkiosk.dev oder via Twitter an
https://twitter.com/EngKiosk
Weitere Episoden
1 Stunde 16 Minuten
vor 5 Tagen
1 Stunde 11 Minuten
vor 1 Woche
1 Stunde 6 Minuten
vor 2 Wochen
1 Stunde 18 Minuten
vor 3 Wochen
58 Minuten
vor 1 Monat
In Podcasts werben
Kommentare (0)