Monitoring IT

Dobre praktyki monitoringu IT. Systemy, aplikacje i infrastruktura pod kontrolą specjalistycznych systemów

Dodano: 06-09-2017 / Eximo Project


W środowisku IT można monitorować setki metryk. Potrzeba jednak czasu, aby zrozumieć, co faktycznie jest warte monitorowania i dla jakich zdarzeń ustawić alerty. Nie wszystkie metryki są tak samo istotne, ale w dość prosty sposób można wytypować te, które są godne uwagi.

Jest kilka głównych powodów, dla których warto dobrze monitorować zasoby IT:

  • aby wiedzieć o problemach wcześniej niż doświadczą ich klienci czy przełożeni;
  • aby znać wydajność systemów i aplikacji;
  • aby praca w dziale IT była mniej stresująca.

Klasyfikacja metryk

Jakie metryki mogą śledzić narzędzia do monitorowania? Do typowych należą wykorzystanie procesorów, pamięci operacyjnej, obciążenie bazy danych, liczba zapytań do serwera WWW. Jest wiele różnych typów metryk, ale wyróżnia się dwa podstawowe rodzaje: metryki wydajności oraz metryki zasobów.

Metryki wydajności

Metryki wydajności pokazują, jak efektywne jest działanie systemów i aplikacji. Jako przykład można podać liczbę zapytań przetworzonych przez bazę danych czy liczbę stron WWW na sekundę zwracanych przez serwer webowy. Zadaniem bazy danych jest odpowiadanie na zapytania, a celem serwera WWW dostarczanie zawartości stron internetowych. Wspomniane metryki można więc uznać za odpowiednie.

Przydatną metryką wydajności jest informacja, jakie przychody generuje dana aplikacja. Taka informacja jest wskazówką, jaki poziom dostępności należy zapewnić dla takiej aplikacji.

 

 

Metryki zasobów

Drugim głównym rodzajem są metryki zasobów. Zasób jest czymś, co znajduje przydatne zastosowanie. Zasoby są wykorzystywane do wykonywania określonych zadań. Metryka zasobów pokazuje, jak dużo określonego zasobu zostało wykorzystane, aby wykonać jakieś zadanie. Informacja „jak dużo mocy obliczeniowej zużywa baza danych” nie pokazuje, czy dane zasoby są wykorzystywane efektywnie czy nie. Jest to raczej informacja typu „wciąż są dostępne wolne zasoby” albo „moc obliczeniowa procesorów jest wykorzystana w 100%”. To samo dotyczy innych zasobów, jak pamięć operacyjna, twarde dyski, sieć, itd. Ogólnie, metryki wydajności mogą służyć bardziej planowaniu pojemności niż zarządzaniu dostępnością.

 

Optymalizacja monitoringu

Mając omówiony podział na metryki wydajności i zasobów, możemy zająć się dobrymi praktykami.

  1. Podziel kluczowe metryki

Przyjrzyj się najważniejszym metrykom, szczególnie tym, którym poświęcasz najwięcej uwagi i podziel je na metryki wydajności i zasobów.

  1. Generuj alerty z głową

Mając gotową klasyfikację, należy wskazać te metryki, dla których będą generowane alerty. W praktyce można ograniczyć się do alertów dla metryk wydajności. Innymi słowy powiadomienia będą przychodzić przede wszystkim dla tych parametrów, które wskazują na efektywność.

Oczywiście warto również ustawić alerty dla niektórych parametrów zasobów, jeśli są to główne wskaźniki błędów. Taką metryką jest wykorzystanie przestrzeni dyskowej. Jeśli kończy się miejsce na dyskach, zaczyna szwankować działanie różnych systemów i aplikacji, ważne jest otrzymywanie powiadomień o tym parametrze. Jednak ogólnie ustawianie alertów dla metryk zasobów powinno być rzadkie.

  1. Alerty tylko w sytuacjach, którym można przeciwdziałać

Oprócz skupienia się na alertach dotyczących metryk wydajności warto jeszcze zawęzić ich krąg do takich sytuacji, w przypadku których na podstawie alertu da się podjąć jakieś działania. Jako przykład można podać liczbę stron WWW na sekundę zwracanych bez błędu przez serwer. Jest to metryka wydajności, ale jeśli jej wartość wynosi zero, oznacza to awarię serwera.

Natomiast w wielu przypadkach nieprzydatne są wartości średnie. Weźmy, np. 10 czasów odpowiedzi liczonych w milisekundach: 100, 90, 135, 115, 880, 845, 95, 110, 120, 90. Skąd wziął się skok powyżej 800 milisekund. Może w tym czasie był tworzony backup albo coś spowodowało zator w sieci? Jeśli jednak monitoruje się średnią wartość, wyniesie ona 258 ms. Czy ta wartość musi coś o aktualnym czasie dostępu do strony internetowej? Raczej nie. Czy wskazuje na skoki obciążenia spowodowane backupem? Też nie. Trudno więc na podstawie takiego parametru podejmować jakieś działania.

  1. Regularnie weryfikuj metryki i alerty

To chyba najtrudniejsze w realizacji zalecenie. Warto co jakiś czas, np. raz w miesiącu, ponawiać proces oceniania metryk i alertów.

 

Połączmy teraz dobre praktyki z celami monitoringu. Klasyfikacja metryk to podstawa wszelkich dalszych działania.

Wiedzieć o problemach wcześniej niż doświadczą ich klienci czy przełożeni.

Skupienie się na alertach dotyczących metryk wydajności powoduje, że nie otrzymuje się komunikatów o zagadnieniach, w przypadku których trudno o podjęcie działać zaradczych. Dzięki temu osiąga się lepsze w efekty, a klienci i przełożeni nie są niepokojeni ewentualnymi problemami w działaniu systemów IT.

Wydajność systemów i aplikacji

Dzięki regularnemu weryfikowaniu metryk ma się właściwe informacje o wydajności systemów i występujących trendach. Jeśli są to negatywne trendy, można podjąć działania, aby je odwrócić.

Mniej stresująca praca w dziale IT

Jeśli alerty obejmują tylko metryki, w przypadku których można podjąć działania zaradcze, pracownicy IT nie są niepokojeni alertami o zdarzeniach, nad którymi nie mają kontroli lub tylko niewiele mogą zrobić.