19. Juli 2024

Så fik vi et globalt nedbrud…

Edit: Jeg kan se på Azures statusside, at nedbruddet også betød nedetid hos andre cloud-tjenester end Microsoft, og det derfor må være lokaliseret i CrowdStrikes software. Det ændrer dog ikke på, at jeg stadig mener, man bør overveje at sprede sine aktiviteter til mere end én cloududbyder.

Edit 2: Jeg har erstattet min “rant” med CFCS og Digitaliseringsstyrelsens anbefalinger, de har med garanti mere styr på storskaladrift end jeg har.

Der må sidde nogle teknikere og svede nu. Jeg har naturligvis stor sympati med folkene hos CrowdStrike, for jo, gu’ har de skidt i nælderne bigtime, men det er ikke nemt at drifte cloud-software.

Problemet ligger et andet sted: Storskalacentraliseringen af servere og software gået for vidt. Hvis nedbrud har så dybe implikationer verden over, så er der noget, der er helt forkert. Sikkerhedsekspert Peter Kruse fra Clever, nævner i en artikel på TV2, at 70% af top 100 selskaber i verden bruger CrowdStrike, og så er der alle dem, vi ikke hører om.

Jeg er slet ikke i tvivl om, at CrowdStrike normaltvis er dygtige til det, de laver, men det er satme meget tillid at vise et enkelt firma. I 90′erne viste man samme tillid til virksomheder såsom McAfee og Symantec, men da software og opdateringer ikke på samme måde blev automatisk cloud-leveret udenom IT-afdelingen, havde man selv fuld kontrol over afprøve tingene, inden de blev udrullet, så fejl kunne inddæmmes hurtigere.

Det er en anden tid nu, og derfor er der simpelthen nødt til at blive bygget sikkerhedsmekanismer ind i software, så man kan rulle fejlende opdateringer hurtigt tilbage igen. Læser du på Azures-statusside, som jeg linker øverst, kan du se, at supporten foreslår, at man prøver at genstarte sit system 15 gange for at trigge en patch. Det lyder ikke som om, man er i kontrol, hvis du spørger mig.. Det lyder mere, som om man er på nippet til at hidkalde en troldmand, der måske vil fixe problemet med hokus-pokus.

Jeg er stadig forundret over, at 3. parts software i 2024 har så dyb kernel-adgang til operativsystemer, at bugs i drivere/kernel modules kan skabe BSODs og kernel panics aka. bringer dem i knæ, når man i andre dele af et styresystem har arbejdet ufatteligt meget med abstraktionslag, der gør, at man skal tale med hardware gennem et API, og derfor aldrig kommer helt ned til metallet. Man taler også med et API til kernen, men det kan stadig lade sig gøre, at gøre den ustabil.

CrowdStrike flyttede allerede i 2020 en del af Falcon fra kexts (Kernel Extensions) til MacOS’ Endpoint Security Framework, og jeg noterede mig, at hverken MacOS eller Linux blev ramt af gårsdagens nedbrud, så problemerne kan ligge andetsteds på Windows/Azure, men det må tiden vise, når der er mere klarhed over hvem-gjorde-hvad.

Herhjemme er både staten og kommunerne ligeledes bundet op meget ensidigt på f.eks Microsoft-infrastruktur, så jeg gruer da for, hvad et nedbrud kan betyde der. Jeg siger ikke, at andre systemer nødvendigvis er “bedre”, for det har jeg intet belæg for (læsere af denne blog vil vide, at jeg har præferencer ;)), men det er generelt vildt problematisk at placere alle sine æg i en kurv, som et godt ordsprog lyder.

CFCS og Digitaliseringsstyrelsen lavede denne cloud-vejledning tilbage i 2019-2020, hvor man berører emnerne, specifikt afsnit 3.4, 5.1 og 5.7. (Særlig afsnit 3.4 kan få mig til at more mig en smule, når man ved, hvor meget af dansk offentlig IT, der er bundet op på IT-giganter, og proprietært software. Der er et stykke vej fra teori til praksis åbenbart ;))

Links

https://www.crowdstr … s-new-macos-big-sur/
https://www.wired.co … e-global-it-probems/
https://www.dr.dk/ny … lere-steder-i-verden
Artikel - TV2: Gordisk knude..
Artikel - TechCrunch: What we know…