L’alerte est l’une des fonctionnalités principales du service de monitoring d’Uptrends : lorsque des erreurs sont détectées par vos moniteurs, vous recevez des messages d’alerte.
Dans l’application Uptrends, voici ce qu’il se passe :
Vous savez donc que lorsqu’une vérification effectuée par un moniteur trouve une erreur, l’application Uptrends génère une alerte. Cette alerte déclenche à son tour l’envoi d’un message à un opérateur ou à une application tierce.
Pour que cela se produise, quatre choses doivent être définies : le moniteur, la condition d’erreur, la définition d’alerte et l’intégration. Ces éléments précisent si une alerte doit être créée et quel type de message doit être envoyé, et quand.
Dans cet article, nous allons voir comment une vérification effectuée par un moniteur génère un message d’alerte.
Vérifications effectuées par un moniteur
Les moniteurs effectuent des vérifications aux intervalles que vous avez prédéfinis. Il peut s’agir de vérifications standard, dont l’objet dépend du type de moniteur, comme la disponibilité. De plus, vous pouvez définir vos propres conditions d’erreur, comme une limite pour le temps de chargement ou la recherche d’une correspondance dans le contenu de la page.
Pour savoir comment configurer les conditions d’erreur, lisez l’article de notre base de connaissances intitulé Conditions d’erreur .
Si une vérification effectuée par un moniteur détecte un problème (parce qu’une vérification standard échoue ou parce qu’une condition d’erreur est remplie), une erreur est signalée.
Erreurs
Toutes les erreurs s’affichent dans la Vue d’ensemble des erreurs (dans le menu Dashboards > Synthetics - Vue d’ensemble des erreurs). Vous pouvez indiquer quels types d’erreurs vous souhaitez voir (OK, non confirmées, confirmées), et pour quelles périodes. Ces paramètres peuvent être définis pour l’ensemble des tuiles en haut du dashboard. De plus, vous pouvez les définir individuellement pour chaque tuile du dashboard. Placez la souris sur le coin supérieur droit de la tuile pour accéder à ses paramètres.
Dans l’exemple suivant, la vue d’ensemble des erreurs montre les erreurs non confirmées (marquées en jaune) et confirmées (marquées en rouge) pour le mois dernier :
La première occurrence d’une erreur est appelée une erreur non confirmée. Cette erreur n’est pas confirmée car elle peut être provisoire ou liée à un problème de checkpoint. C’est pourquoi une deuxième vérification est effectuée par le moniteur à partir d’un autre checkpoint. Si la même erreur est signalée, le résultat est une erreur confirmée. Seules les erreurs confirmées peuvent entraîner des alertes.
Pour en savoir plus, lisez l’article Erreurs non confirmées et confirmées .
Séquences d’erreurs
L’image ci-dessous montre les différents scénarios possibles pour les séquences d’erreurs.
- Une erreur non confirmée est suivie d’un résultat OK. Cela ne produit pas d’alerte.
- Une erreur non confirmée est suivie d’une erreur confirmée, puis du résultat OK. Cela se traduit par une alerte si l’option suivante est cochée dans votre définition d’alerte : “Générer une alerte quand 1 erreur(s) ou plus se sont produites”.
- Un certain nombre (n) d’erreurs non confirmées et confirmées se produisent d’affilée. Cela se traduit par une alerte si l’option suivante est cochée dans votre définition d’alerte : “Générer une alerte quand n erreurs ou plus se sont produites”. Vous pouvez également définir un délai pour les erreurs. Si la séquence d’erreurs atteint ce délai, par exemple si les erreurs se produisent pendant plus de 5 minutes, une alerte est créée.
Alertes
La définition d’alerte détermine la génération d’alertes pour différents niveaux d’escalade. Les niveaux d’escalade permettent de créer des alertes par étapes et d’avertir les opérateurs sélectionnés de la façon voulue, en tenant compte de l’urgence du problème et de l’augmentation de cette urgence si le problème persiste.
Pour chaque niveau, vous devez définir si une alerte est créée, quel opérateur (ou groupe d’opérateurs) est averti, après quel délai l’alerte est générée (si les erreurs se produisent pendant plus de x minutes) ou si l’alerte est créée après un certain nombre d’occurrences (une ou plusieurs erreurs se sont produites). Toutes les erreurs doivent être confirmées. Les erreurs non confirmées ne sont pas prises en compte pour ces conditions.
En plus de l’alerte d’origine, vous pouvez générer une ou plusieurs alertes de rappel. Vous devez définir le nombre maximum de rappels et l’intervalle de temps entre deux rappels. Cette option existe pour chaque niveau d’escalade.
Les articles de la base de connaissances Créer des définitions d’alerte et Niveaux d’escalade des alertes contiennent plus d’informations sur les définitions d’alerte.
Notez que le moniteur doit avoir la case Générer alerte activée afin de pouvoir générer des alertes.
Une fois l’erreur résolue (ce qui signifie que la même vérification renvoie le résultat OK au lieu d’une erreur), une alerte de récupération (alerte OK) est créée.
Toutes les alertes sont affichées dans l'Historique des alertes (dans le menu Alerte > Historique des alertes). Les alertes dues à une erreur sont marquées en rouge et les alertes OK sont marquées en vert. Tant que l’erreur n’est pas résolue et qu’aucune alerte de récupération n’a été générée, l’alerte reste active. Les alertes actives sont listées dans le dashboard Statut d’alerte (dans le menu Alerte > Statut d’alerte).
Vous cherchez une définition d’alerte que vous avez créée ? Vous pouvez utiliser la barre rechercher pour la retrouver rapidement.
Messages
À ce stade, vous disposez déjà d’un système d’alerte de base. Les alertes apparaissent sur le dashboard Statut d’alerte. Pour surveiller les alertes éventuelles, vos opérateurs devraient regarder continuellement le dashboard.
C’est pourquoi les alertes sont automatisées ; des messages sont envoyés aux personnes ou aux systèmes pour les informer de la situation d’alerte. Pour cela, vous devez configurer des intégrations et des niveaux d’escalade (dans une définition d’alerte).
Vous définissez des niveaux d’escalade pour indiquer qui reçoit quel type de message en fonction de la durée ou de la fréquence d’une erreur. De plus, des rappels peuvent être envoyés pour veiller à ce que la situation soit bien prise en compte. Pour en savoir plus, lisez l’article sur les niveaux d’escalade .
Pour qu’un message soit envoyé en réaction à une alerte, vous devez configurer la rubrique Alertes par intégrations dans la définition d’alerte.
Les intégrations par téléphone (voix), SMS et e-mail existent par défaut dans l’application Uptrends. D’autres intégrations avec des systèmes tiers comme Slack sont prédéfinies, mais doivent être configurées. De plus, vous pouvez configurer une intégration entièrement personnalisée pour un système tiers. Ouvrez le menu
pour voir la liste des intégrations dans votre application. Si l’intégration est présente, vous pouvez l’utiliser dans votre configuration de la rubrique Alertes par intégrations.Lisez l’article Que sont les intégrations ? pour connaître toutes les options disponibles pour envoyer des messages d’alerte à des personnes ou à des systèmes tiers. Vous pouvez aussi lire l’article de la base de connaissances intitulé Intégrations personnalisées pour savoir comment envoyer un message à un système qui n’a pas de définition d’intégration par défaut.
Voici un exemple de messages envoyés pour la même alerte, par e-mail et Slack :
Tests des messages
Lorsqu’une erreur doit être traitée, vous voulez vous assurer que vos messages sont envoyés.
La première étape consiste à s’assurer que l’envoi des messages fonctionne. L’article de la base de connaissances Tester les messages d’alerte vous explique comment tester si les messages sont bien envoyés, pour chaque type d’intégration.
Pour connaître nos solutions de dépannage, pensez à consulter la section Dépanner dans la page de présentation des alertes de la base de connaissances.