Kiedy gaśnica spotyka serwerownię

gaśnica i serwerownia
Kiedy gaśnica spotyka serwerownię, czyli o ciągłości działania i technologicznych zderzeniach ze światem offline.

Kiedy gaśnica spotyka serwerownię

Kiedy gaśnica spotyka serwerownię, czyli o ciągłości działania i technologicznych zderzeniach ze światem offline.

Politechnika Śląska nieczęsto trafia na łamy portali technologicznych z powodów innych niż innowacje, badania czy sukcesy studentów. Tym razem jednak stała się bohaterką wiadomości z gatunku “jak tego nie robić”, gdy w wyniku ćwiczeń przeciwpożarowych… przestały działać serwery uczelni. Jak się okazuje, nawet najbardziej zaawansowane systemy IT są bezbronne wobec źle zaplanowanych procedur offline.

Kiedy bezpieczeństwo fizyczne uderza w bezpieczeństwo cyfrowe

Wszystko zaczęło się od – skądinąd potrzebnych – ćwiczeń przeciwpożarowych. Tego typu działania mają na celu weryfikację gotowości budynków i pracowników na wypadek realnego zagrożenia. Problem w tym, że w trakcie symulacji nie uwzględniono faktu, że serwerownia również wymaga specjalnego traktowania.

Według doniesień, podczas ćwiczeń odcięto zasilanie… bez wcześniejszego przełączenia infrastruktury na zasilanie awaryjne. Efekt? Cała grupa usług i serwerów uczelni padła. Zawieszeniu uległy systemy logowania, poczta e-mail, a nawet dostęp do platform e-learningowych.

Według nieoficjalnych informacji, winowajcą katastrofy mogły być… gaśnice proszkowe. W czasie ćwiczeń przeciwpożarowych uruchomiono system, który rozpylił drobny pył gaśniczy wewnątrz pomieszczeń – niestety również w serwerowni. A jak wiadomo, proszek i elektronika to duet gorszy niż kawa i klawiatura. Substancje zawarte w gaśnicach mogą osiadać na płytach głównych, radiatorach i wentylatorach, tworząc warstwę izolacyjną, przyciągając wilgoć i w dłuższej perspektywie powodując zwarcia. W skrajnych przypadkach prowadzi to do trwałego uszkodzenia sprzętu, co rodzi poważne pytania o procedury bezpieczeństwa w obszarach krytycznej infrastruktury IT.

Sytuacja, w której uczelniane serwery zostają „ugaszone” zanim w ogóle zapłoną, brzmi trochę jak z taniej komedii informatycznej. Bo jak to wytłumaczyć studentowi, że nie może zalogować się do systemu, bo serwer dostał ataku… proszkowego? To trochę tak, jakby próbować ugasić pożar e-booka wodą — intencje dobre, efekt opłakany. Pozostaje mieć nadzieję, że przy kolejnych ćwiczeniach ktoś zapyta: „a serwery to też mamy ewakuować, czy może chociaż zamknąć drzwi?”. W końcu lepiej dmuchać na zimne, niż dmuchać proszkiem na racka z dyskami SSD za kilkadziesiąt tysięcy.

Ciągłość działania IT: fundament każdej instytucji

W świecie technologii termin business continuity (ciągłość działania) to nie tylko modne hasło z prezentacji działu IT. To realny zestaw procedur, zabezpieczeń i polityk, które mają na celu zapewnienie nieprzerwanego działania kluczowych systemów – nawet w razie awarii, ataku czy… ćwiczeń BHP.

Brak planu awaryjnego to jak stawianie serwerowni na tratwie i liczenie, że nigdy nie będzie sztormu. Każda profesjonalna infrastruktura IT – niezależnie czy mówimy o firmie, urzędzie, czy uczelni – powinna zakładać m.in.:

• automatyczne przełączenie na UPS-y i generatory w przypadku zaniku zasilania,

• replikację usług na oddzielne fizycznie lokalizacje (data center redundancy),

• testy procedur przywracania danych i usług (disaster recovery),

• wyłączenie serwerowni z ogólnych procedur ewakuacyjnych lub ich szczególne traktowanie.

W praktyce wiele instytucji traktuje te kwestie po macoszemu, do czasu aż wydarzy się coś, co przywróci ich do cyfrowej rzeczywistości – często w bardzo bolesny sposób.

Mistrzowie redundancji kontra mistrzowie… nadziei

Duże firmy technologiczne, banki czy centra danych inwestują w infrastrukturę odpornościową, gdzie każdy serwer ma swojego bliźniaka, a każdy UPS – własny backup. Dla kontrastu, zbyt wiele organizacji publicznych pokłada wiarę w to, że “jakoś to będzie”.

Przypadek Politechniki to lekcja, że nawet najnowocześniejszy serwer Dell czy HP nie pomoże, jeśli jego zasilanie zostanie odcięte jak żelazko po obiedzie. IT wymaga nie tylko nowoczesnych technologii, ale i myślenia systemowego – uwzględniającego ludzkie błędy, nieprzewidywalność i rzeczy, które nie mają prawa się wydarzyć, ale i tak się zdarzają.

Z humorem mówi się, że “największym zagrożeniem dla bezpieczeństwa IT są ludzie z dostępem do kluczy”. W tym przypadku być może wystarczyłoby kilka zdań w scenariuszu ćwiczeń lub jedno spotkanie między działem IT a działem BHP.

Nie chodzi o to, by winnych szukać – ale by zrozumieć, że ciągłość działania to nie tylko buzzword z korporacyjnych slajdów, ale realna potrzeba w każdej instytucji, która korzysta z systemów IT. Czyli w zasadzie… w każdej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *