Service-Monitoring

Service-Monitoring ist eine Systemsoftware, die Messwerte von IT Diensten, deren Servern, Hostrechnern und Rechnernetze überwacht. Service-Monitoring kann unterschiedliche Systemressourcen, aber auch die Geschäftslogik der Anwendung selbst, überwachen. So werden kritische Systemlasten und Zustände vor einem potentiellen Ausfall festgestellt und ermöglichen Gegenmaßnahmen, indem Dienste skaliert oder Softwarefehler debugged werden.

Service-Monitoring dringt unterschiedlich tief in die IT-Komponenten ein:[1]

Black-Box-Monitoring: Überwacht das von extern sichtbare Verhalten einer Anwendung, so wie es ein Benutzer sehen würde.
White-Box-Monitoring: Überwacht Metriken die von der Anwendungen selbst dem Service-Monitoring angeboten werden.

Bereiche

Service-Monitoring kann unterschiedliche Bereiche von IT Services überwachen:

Infrastruktur: die Systemressourcen der IT-Infrastruktur wie Prozessorauslastung, Load, RAM Auslastung, Speicherkapazität von Festplatten oder Fehlerraten.
Netzwerk: Netzwerke und deren Hardware (z. B. Server, Router, Switches) und Dienste (z. B. DNS, DHCP), Datenverkehr, Latenz, Timeouts.
Systemsoftware: Systemsoftware wie Web-, Mail-, Datenbankserver, Verzeichnisdienst oder Message Broker
Application Monitoring: Es kann aber auch die Geschäftslogik der Anwendung selbst überwacht werden. So können anwendungsspezifisch Anzahl und Dauer von Prozessen gemonitored werden. Beispielsweise kann die Anzahl oder Steigerung von laufenden Geschäftsprozessen, die Dauer bestimmter Funktionalitäten oder die aktuelle Benutzerzahl überwacht werden.

Zusätzlich können Service-Monitoring-Systeme durch Tracing Fehler auch über Bereichsgrenzen hinweg in Zusammenhang setzen.

Schnittstelle

Grafana-Dashboard mit InfluxDB und Prometheus (Software) etc. als Datenquellen.

Die Messwerte werden lang- oder kurzfristig gespeichert und zur Zeitreihenanalyse graphisch in einer Weboberfläche für einzelne Messwerte oder in einem Dashboard gesammelt, dargestellt.

Beim Überschreiten von mehreren definierten Schwellenwerten werden Alerts ausgelöst. Die Schwellwerte sind nach Kritikalität, ähnlich Log-Levels, abgestuft. Beispielsweise wird bei Festpattenpazität von 80 % eine Warnung, bei 95 % eine kritische Warnung, ausgelöst. Administratoren oder Dienstbetreiber können mit E-Mail, SMS oder Instant Messaging benachrichtigt werden, um proaktiv eingreifen zu können. So lange Alerts aktiv sind, werden diese in einer Weboberfläche angezeigt und es können regelmäßige Wiederholungen versendet werden. Wenn der auslösender Schwellenwert wieder im Normbereich liegt, kann dieses ebenfalls als Benachrichtigung versendet werden.

Liste von Monitoring-Software

Siehe auch

Einzelnachweise

sre.google/ - Monitoring Distributed Systems

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[sre_definitions-1] sre.google/ - Monitoring Distributed Systems