La supervision peut-elle prédire ?

Posted by on 22 Oct 2011 in Planet, Supervision | 2 comments

Aujourd’hui, la Supervision Open Source est capable de réaliser la collecte de votre S.I afin d’en contrôler la fiabilité et de vous avertir avant qu’une interruption de service ne se réalise. Mais la Supervision Open Source ne se limite pas qu’à ce rôle, elle fournit aussi du reporting basique et des éléments de RCA (Root Cause Analysis) comme la métrologie, les chaînes de liaison, … afin d’améliorer votre réactivité. Mais ces éléments sont-ils totalement suffisant dans un S.I en perpétuelle mouvement ?

Retour vers le Futur

La supervision collecte l’état de santé de votre S.I de manière dynamique. Mais quand il s’agit de connaître l’état d’un service à une date donnée ou de fournir un taux de fiabilité d’un service rendu, on fait appel aux outils reporting afin de répondre au besoin des dirigeants ou chefs de projet afin de justifier si la qualité du service rendu aux utilisateurs a bien été rendu.

Élémentaire mon cher Watson !

Généralement, quand une interruption de service à lieu, on cherche toujours à comprendre :

  • Ce qui s’est passé ?
  • Ce qui l’a déclenché ?

C’est là que nos éléments de RCA entre en action afin de pouvoir nous faciliter la recherche d’indices afin d’identifier la cause de l’incident. Mais nos éléments de métrologie et autres points de mesure sont-ils suffisants pour répondre aux questions suivantes :

  • Est-ce que l’on aurait pu l’éviter ?
  • Est-ce un incident déjà répertorié ?
  • Quel en est sa fréquence ?
  • Dans combien de temps ce contrôle risque de nous poser problème ?

Mirroir, mon beau mirroir …

Aujourd’hui, les projets de Supervision ne propose pas d’éléments aux administrateurs pour pointer du doigt la tendance des services rendus par le S.I. Ces éléments sont pourtant vitaux surtout dans les parcs où l’évolution est une constante.

Effectivement, les données de supervision à l’état brute sont lourdes et fastidieuses à analyser et à interpréter pour des non initiés. Un chef de projet ou un dirigeant a besoin d’indicateurs visuels simple à sa compréhension. Tous éléments techniques sont inutile pour eux, leur besoin est de pouvoir savoir :

  • Comment s’est porté mon S.I sur les x derniers mois (Reporting)?
  • Comment se porte mon S.I à l’instant présent (Supervision)?
  • Comment mon S.I risque d’évoluer (capacity planning, indicateurs de tendance … Hypervision)?

Des technologies nous permettent déjà de le faire comme RRDTool. Et oui, il est possible de réaliser des courbes prévisionnelles sur le remplissage de vos disques, FS, saturation mémoire et consommation CPU par exemple.

Je vous invite à aller voir sur ce chapitre la réalisation d’un template PNP4Nagios avec courbe prévisionnelle

PNP4Nagios – Template Courbe prévisionnelle

Ainsi que la documentation de Tobias Oetiker sur les variables de calcul de RRDTool.

http://oss.oetiker.ch/rrdtool/doc/rrdgraph_rpn.en.html

Mais l’aspect de capacity planning reste très pauvre dans le domaine de la Supervision Open Source, il existe le projet Opmon mais celui-ci n’est plus mis à jour depuis 2008.

Nous nous apercevons que le public que touche la supervision a évolué et qu’il n’est plus seulement constitué de technique pure. Il faut que des outils Open Source se couplant avec des logiciels de supervision fassent leur apparition afin de répondre entièrement à ce nouveau besoin.

2 Comments

  1. 5-12-2011

    Effectivement la supervision peut prédire. Je l’utilise quotidiennement avec Centreon / Nagios. J’ai des services qui supervisent des métriques business et génèrent des données de performance. Il y a donc génération de RRDs.
    Nous utilisons ces même RRDs avec les possibilités de prédiction HW predict et recréons des services uniquement sur ces métriques. Nous avons donc notre valeur courant et une courbe supérieur et inférieur qui représente le trend qu’ai censé avoir la valeur.
    C’est très pratique sur des métriques de trafics, métriques business liées à l’activité etc.

  2. 10-1-2012

    En effet, je rencontre ce type de besoin. Effectuer des rapports afin de connaitre le taux de disponibilité d’un service ( Messagerie, Réseau…) sur une période donnée. Et pourquoi pas des outils de prédiction afin de suivre l’évolution de nos services…

    Certain projet comme Nareto commençait à être intéressant mais malheureusement le développement a été arrêté en 2008 et n’est pas porté pour les versions 3 de Nagios. Même FAN qui était assez lié à ce projet l’a abandonné.

    Centreon propose des produits dans ce style comme BI et BAM mais je n’arrive pas à accrocher… J’ai vu récemment une présentation d’un produit qui s’appel POM Reporting. Les rapports sont simple et intéressant mais indissociable de la suite POM qui est en fait une surcouche de nagios comme Centreon.