Ostatnio sporo mniejszych i większych projektów sprawiło, że tworzenie nowych wpisów na Webinsider.pl musiałem odłożyć na jakiś czas, zwłaszcza że zazwyczaj wpisy są trochę bardziej pracochłonne i/lub czasochłonne niż ma to miejsce w przypadku niektórych „technologicznych pudelków”. W każdym razie od rana nie działają strony hostowane w OVH, co – przynajmniej sądząc po moim RSSie i „burzy w internecie” – sprawia, że mam wrażenie jakby pół internetu padło. A w końcu Facebook i YouTube (i kilka stron dla dorosłych – z tego co czytałem ;-)) jednak działa… No ale w trosce o Was, byście mieli co czytać – jedziemy… ;-)

Wielka awaria OVH

Rano dostałem raport (alert) z moich systemów monitorujących strony którymi zarządzam, że jedna ze stron, jednego z moich klientów nie działa. Z racji tego, że jest to jedna z nielicznych stron, które są na niezależnych ode mnie usługach (hostingach) sprawę zgłosiłem do „technicznego kontaktu u klienta” by sprawdził, czy wszystko jest OK z poziomu panelu zarządzania usługą. Szybko okazało się, że nie będzie to możliwe – panel zarządzania (panel klienta) również leży. Szybki przegląd internetu wykazał, że w okolicach godziny 7 coś w OVH poszło nie tak jeśli chodzi o zasilanie (przynajmniej takie pojawiły się informacje), i tym samym większość ich serwerów, na których świadczą usługi hostingowe padła.

Z tego co widzę, część stron już działa, choć być może – tak jak i strona mojego klienta – zostały przeniesione do innego usługodawcy. W przypadku jeszcze jednej strony, która monitoruje „po znajomości” widzę, że kilka minut temu zaczął być już dostępny serwer po adresie IP, ale sama strona cały czas jeszcze nie działa.

Awaria zawsze może się zdarzyć, dlatego bądź do niej przygotowany

Oczywiście bez sensu byłoby, gdyby powstał ten wpis tylko po to by napędzić sobie odwiedziny pisząc czy to o samej awarii OVH, czy też publikując listę stron, które nie działają. Clickbaity zostawiam choćby ” konkurencji”, dzięki czemu będą mogli napisać coś innego niż test/reklama kolejnego depilatora, czy też „brandowanej chińszczyzny” sprzedawanego w jednym z dyskontów…

Jak już wspomniałem – awaria OVH dotknęła jednego mojego klienta (choć akurat dotyczy strony, która nie zarządzam bezpośrednio), oraz m.in. jednego bloga pewnego banku, którego status z pewnych przyczyn też jest prze zemnie monitorowany.

Dzięki odpowiedniej polityce bezpieczeństwa strona (sklep internetowy) mojego klienta w ciągu kilku(nastu) minut wróciła do życia, i to w wersji aktualnej, bo starszej niż moment awarii dosłownie o kilka minut. A blog banku jak nie działał, tak nie działa. Jak widać kasa to nie wszystko… ;-)

Ponowne szybkie uruchomienie strony (sklepu) mimo trwającej cały czas awarii OVH było możliwe dzięki:

  • Aktualnej kopii zapasowej (im częściej zmienia się zawartość strony, tym częstsze kopie zapasowe)
  • System monitorowania dostępności usług (strony, serwery)
  • Cloudflare jako usługa DNS (szybka podmiana adresu IP serwera)
  • Wstępnie przygotowane środowisko zapasowe

Przydał(y) się również:

  • Poczta e-mail w ramach zewnętrznej usługi (dostęp mimo awarii hostingu)
  • Zewnętrzna usługa SMTP (z historią wysłanych ze strony wiadomości)
  • Zapasowe kanały komunikacji (o których wiedzą nasi klienci ;-))
  • Plan działania, chęci i widza… ;-)

Operacja nie byłaby możliwa bez aktualnej kopii zapasowej – zwłaszcza w przypadku sklepu internetowego, gdzie w każdej chwili może „wpaść” jakieś zamówienie jest to kluczowy element, choć oczywiście w przypadku braku takiej kopii można choćby uruchomić prostą stronę informacyjną, tak by nie zostawić klientów „w zawieszeniu” (istotne zwłaszcza w przypadku świadczenia usług, nie tylko droga elektroniczną).

Sama kopia zapasowa na nic by się zdała, gdym o awarii nie wiedział – tu istotne są systemy monitorujące. Ja korzystam ze skryptów uruchomionych na każdym serwerze (wzajemne monitorowanie), oraz m.in. usługi/serwisu UptimeRobot.

Gdy już awaria została wykryta, a kopia zapasowa została przygotowana do wykorzystania, niezbędne okazało się jeszcze miejsce, gdzie można uruchomić nową instancje strony. Tu z pomocą przychodzi krzyżowy model hostowania stron na poszczególnych usługach/VPSach – każdy serwer (hosting) oprócz tego, że na co dzień hostuje przypisane go niego strony, to ma wstępnie skonfigurowane (gotowe do uruchomienia) strony z innych serwerów (hostingów). Nie jest to wymagane, ale znacznie przyspiesza pracę, zwłaszcza w sytuacji awaryjnej, gdzie nie dość, że liczy się czas, to często działamy zarówno pod presją samego klienta, jak i w ramach ograniczonych możliwości (np. dostęp tylko do/z telefonu). W przypadku usług z większym budżetem operacyjnym i wymaganym czasem dostępności warto rozważyć wykorzystanie jakiegoś loadbalancera i kilku pokrywających się serwerów VPS.

Z racji tego, że w tego typu przypadkach liczy się czas, a często nowa instancja strony uruchamiana jest nawet nie tyle, że na innym koncie, co często w innej lokalizacji, lub nawet u innego dostawcy usługi nie bez znaczenia jest szybkość rekonfiguracji strefy DNS domeny. Dlatego nawet w przypadku stron, gdzie teoretycznie dodatkowa ochrona nie jest potrzebna (jest zawsze potrzebna ;-)) korzystam z Cloudflare, dzięki czemu np. zmiana adresu IP dla głównego rekordu domeny (rekord A/AAA) trwa maksymalnie kilka sekund, zamiast kilkunastu godzin.

Może nie niezbędnymi, ale na pewno pomocnymi elementami całości będzie poczta e-mail utrzymywana na innym serwerze (w ogóle, to zazwyczaj polecam – zwłaszcza dla mniejszych firm/serwisów – dedykowane rozwiązania tego typu, świadczone w ramach wyspecjalizowanych usług hostingu poczty e-mail), oraz zapasowe metody komunikacji, dzięki czemu cały czas możliwy jest kontakt z nami, z naszą firmę…

Oczywiście nie są to wszystkie rozwiązania pozwalające jak najdelikatniej i jak najszybciej przejść do normalnej pracy w przypadku awarii, ale jest to swego rodzaju minimum, które powinno wystarczyć w większości przypadków. Dodatkowe elementy często występują, ale są one dopasowywane już indywidualnie do potrzeb i możliwości.

Jestem też ciekaw jakie są Wasze sposoby na radzenie sobie (nie tylko) w takich sytuacjach, o których być może tu nie wspomniałem – czy to dlatego, że wydały mi się (niesłusznie) oczywiste, czy też stosujecie inne metody/sposoby…

(!) Zgłoś błąd na stronie
Pomogłem? To może postawisz mi wirtualną kawę?
LUTy dla D-Cinelike (DJI Mini 3 Pro, DJI Avata, OSMO Pocket) od MiniFly
Wdrożenie Omnibusa w sklepie na WooCommerce
Jak (legalnie) latać dronem w Kategorii Otwartej
Patryk