Incidents
Présentation
Un incident représente un état anormal détecté par une sonde. Lorsqu'un contrôle échoue — un serveur est injoignable, une requête de base de données retourne des résultats inattendus, un certificat est sur le point d'expirer — Onagre crée un incident et déclenche des notifications via vos intégrations configurées.
Les incidents fournissent le cycle de vie complet d'un problème : de la détection à la prise en charge jusqu'à la résolution, avec un historique complet des événements, notifications et commentaires de l'équipe.
Vous pouvez consulter et gérer les incidents depuis Supervision → Incidents dans le tableau de bord Onagre, ou directement depuis l'application mobile native.
Tableau de bord des incidents
La page des incidents fournit une vue d'ensemble complète de la santé de votre supervision.
Métriques clés
Le haut de la page affiche des compteurs en temps réel :
- Ouverts — Incidents actifs nécessitant une attention.
- Pris en charge — Incidents en cours d'investigation.
- Résolus — Incidents qui ont été corrigés.
- Uptime — Pourcentage de disponibilité global de vos sondes.
Métriques opérationnelles
Onagre calcule trois indicateurs de fiabilité standard :
| Métrique | Description |
|---|---|
| MTTR | Mean Time To Recovery — temps moyen entre la création d'un incident et sa résolution |
| MTBF | Mean Time Between Failures — temps moyen entre les incidents |
| MTTA | Mean Time To Acknowledge — temps moyen entre la création et la prise en charge |
Graphique de tendance
Un graphique en aires empilées sur 30 jours montre le volume d'incidents dans le temps, ventilé par niveau de sévérité. Cela aide à identifier les tendances et les problèmes récurrents.
Informations complémentaires en barre latérale
- Plus longue indisponibilité — Top 5 des sondes par durée cumulée d'incidents.
- Plus d'incidents — Top 5 des sondes par nombre d'incidents.
Liste des incidents
Le tableau principal liste tous les incidents avec les informations suivantes :
- Identifiant de l'incident et horodatage.
- Raison — Une description lisible de ce qui s'est passé.
- Sévérité — Critique, Majeure, Mineure ou Info (codée par couleur).
- Statut — Actif, Pris en charge ou Résolu.
- Sonde — La sonde qui a déclenché l'incident (lien cliquable).
- Durée — Temps écoulé, ou un indicateur pulsant « En cours » pour les incidents actifs.
Filtrage
Vous pouvez filtrer les incidents par :
- Statut — Tous, Ouverts, Pris en charge ou Résolus (navigation par onglets).
- Sévérité — Tous, Critique, Majeure, Mineure ou Info.
- Recherche — Recherche plein texte par nom de sonde.
La pagination vous permet de choisir 10, 25 ou 50 incidents par page.
Cycle de vie d'un incident
Chaque incident suit un cycle de vie en trois étapes :
Actif → Pris en charge → Résolu
Actif
La sonde a détecté une défaillance. Onagre crée l'incident, déclenche les notifications via vos intégrations et commence à suivre la durée. L'incident reste actif jusqu'à ce que quelqu'un le prenne en charge ou que le problème se résolve de lui-même.
Pris en charge
Un membre de l'équipe a pris en charge l'incident, signalant que quelqu'un investigue. La prise en charge nécessite un commentaire décrivant les actions entreprises. Cela évite les investigations en doublon et tient l'équipe informée.
Résolu
Le contrôle de la sonde est revenu à un état sain. Onagre résout automatiquement l'incident et enregistre la durée totale. Aucune action supplémentaire n'est nécessaire.
💡 Résolution automatique
Les incidents sont résolus automatiquement lorsque la sonde signale un contrôle réussi. Vous n'avez pas besoin de les fermer manuellement.
Niveaux de sévérité
Chaque sonde est configurée avec un niveau de sévérité qui détermine la priorité de ses incidents :
| Sévérité | Couleur | Cas d'usage |
|---|---|---|
| Critique | Rouge | Problèmes bloquants en production nécessitant une action immédiate |
| Majeure | Orange | Problèmes significatifs affectant la qualité de service |
| Mineure | Jaune | Fonctionnalité dégradée avec impact limité sur les utilisateurs |
| Info | Bleu | Alertes informatives pour prise de connaissance |
La sévérité est définie lors de la création ou de la modification d'une sonde. Elle ne peut pas être modifiée sur un incident individuel.
Page de détail d'un incident
Cliquez sur un incident pour ouvrir sa page de détail, qui fournit un contexte complet :
Cartes de synthèse
- Durée — Temps écoulé, mis à jour en direct pour les incidents actifs.
- Sonde — Lien vers la sonde qui a déclenché l'incident.
- Agent — L'agent qui a exécuté le contrôle.
- Notifications — Nombre de livraisons d'alertes envoyées et échouées.
Raison de l'incident
Les détails spécifiques de ce qui s'est passé, affichés en police à chasse fixe. Ce contenu est spécifique au type de sonde — par exemple, une sonde HTTP affiche le code de statut, une sonde SQL affiche l'erreur de requête.
Chronologie
Un journal chronologique des événements montrant chaque changement d'état :
- Incident déclenché — La détection initiale de la défaillance avec les détails.
- Nouvelle tentative de contrôle — Tentatives de contrôle ultérieures toujours en échec.
- Pris en charge par [Utilisateur] — Quand et qui a pris en charge, avec son commentaire.
- Incident résolu — Quand le problème a été corrigé.
- Alerte envoyée — Livraisons de notifications avec le nom de l'intégration et le statut.
Notifications
Une liste de toutes les livraisons d'alertes pour cet incident, montrant le type d'intégration (Slack, Discord, Webhook, etc.), le nom, l'horodatage et le statut de livraison (Envoyé ou Échoué).
Commentaires
Un fil de discussion d'équipe attaché à l'incident. Tout membre de l'équipe peut laisser des commentaires pour partager du contexte, des mises à jour de progression ou des notes de résolution. Les commentaires sont affichés avec le nom de l'auteur et l'horodatage.
Dépendances
Un schéma visuel montrant la sonde qui a déclenché l'incident et les sondes dépendantes, avec leur statut actuel. Cela aide à comprendre l'impact plus large de la défaillance.
Actions utilisateur
| Action | Disponibilité | Description |
|---|---|---|
| Prendre en charge | Incidents actifs uniquement | Marquer comme en cours d'investigation, avec un commentaire obligatoire |
| Ajouter un commentaire | Tout incident ouvert | Contribuer au fil de discussion de l'équipe |
| Voir la sonde | Toujours | Naviguer vers la page de détail de la sonde |
| Voir l'agent | Toujours | Naviguer vers la page de détail de l'agent |
Résumé
| Aspect | Détails |
|---|---|
| Accès | Supervision → Incidents |
| Cycle de vie | Actif → Pris en charge → Résolu |
| Sévérité | Critique, Majeure, Mineure, Info |
| Métriques | MTTR, MTBF, MTTA, uptime |
| Actions | Prendre en charge (avec commentaire), ajouter des commentaires |
| Résolution | Automatique lorsque la sonde revient à un état sain |
| Mobile | Consulter et prendre en charge depuis l'application native |