Incidents

Présentation

Un incident représente un état anormal détecté par une sonde. Lorsqu'un contrôle échoue — un serveur est injoignable, une requête de base de données retourne des résultats inattendus, un certificat est sur le point d'expirer — Onagre crée un incident et déclenche des notifications via vos intégrations configurées.

Les incidents fournissent le cycle de vie complet d'un problème : de la détection à la prise en charge jusqu'à la résolution, avec un historique complet des événements, notifications et commentaires de l'équipe.

Vous pouvez consulter et gérer les incidents depuis Supervision → Incidents dans le tableau de bord Onagre, ou directement depuis l'application mobile native.


Tableau de bord des incidents

La page des incidents fournit une vue d'ensemble complète de la santé de votre supervision.

Métriques clés

Le haut de la page affiche des compteurs en temps réel :

  • Ouverts — Incidents actifs nécessitant une attention.
  • Pris en charge — Incidents en cours d'investigation.
  • Résolus — Incidents qui ont été corrigés.
  • Uptime — Pourcentage de disponibilité global de vos sondes.

Métriques opérationnelles

Onagre calcule trois indicateurs de fiabilité standard :

Métrique Description
MTTR Mean Time To Recovery — temps moyen entre la création d'un incident et sa résolution
MTBF Mean Time Between Failures — temps moyen entre les incidents
MTTA Mean Time To Acknowledge — temps moyen entre la création et la prise en charge

Graphique de tendance

Un graphique en aires empilées sur 30 jours montre le volume d'incidents dans le temps, ventilé par niveau de sévérité. Cela aide à identifier les tendances et les problèmes récurrents.

Informations complémentaires en barre latérale

  • Plus longue indisponibilité — Top 5 des sondes par durée cumulée d'incidents.
  • Plus d'incidents — Top 5 des sondes par nombre d'incidents.

Liste des incidents

Le tableau principal liste tous les incidents avec les informations suivantes :

  • Identifiant de l'incident et horodatage.
  • Raison — Une description lisible de ce qui s'est passé.
  • Sévérité — Critique, Majeure, Mineure ou Info (codée par couleur).
  • Statut — Actif, Pris en charge ou Résolu.
  • Sonde — La sonde qui a déclenché l'incident (lien cliquable).
  • Durée — Temps écoulé, ou un indicateur pulsant « En cours » pour les incidents actifs.

Filtrage

Vous pouvez filtrer les incidents par :

  • Statut — Tous, Ouverts, Pris en charge ou Résolus (navigation par onglets).
  • Sévérité — Tous, Critique, Majeure, Mineure ou Info.
  • Recherche — Recherche plein texte par nom de sonde.

La pagination vous permet de choisir 10, 25 ou 50 incidents par page.


Cycle de vie d'un incident

Chaque incident suit un cycle de vie en trois étapes :

Actif  →  Pris en charge  →  Résolu

Actif

La sonde a détecté une défaillance. Onagre crée l'incident, déclenche les notifications via vos intégrations et commence à suivre la durée. L'incident reste actif jusqu'à ce que quelqu'un le prenne en charge ou que le problème se résolve de lui-même.

Pris en charge

Un membre de l'équipe a pris en charge l'incident, signalant que quelqu'un investigue. La prise en charge nécessite un commentaire décrivant les actions entreprises. Cela évite les investigations en doublon et tient l'équipe informée.

Résolu

Le contrôle de la sonde est revenu à un état sain. Onagre résout automatiquement l'incident et enregistre la durée totale. Aucune action supplémentaire n'est nécessaire.

💡 Résolution automatique

Les incidents sont résolus automatiquement lorsque la sonde signale un contrôle réussi. Vous n'avez pas besoin de les fermer manuellement.


Niveaux de sévérité

Chaque sonde est configurée avec un niveau de sévérité qui détermine la priorité de ses incidents :

Sévérité Couleur Cas d'usage
Critique Rouge Problèmes bloquants en production nécessitant une action immédiate
Majeure Orange Problèmes significatifs affectant la qualité de service
Mineure Jaune Fonctionnalité dégradée avec impact limité sur les utilisateurs
Info Bleu Alertes informatives pour prise de connaissance

La sévérité est définie lors de la création ou de la modification d'une sonde. Elle ne peut pas être modifiée sur un incident individuel.


Page de détail d'un incident

Cliquez sur un incident pour ouvrir sa page de détail, qui fournit un contexte complet :

Cartes de synthèse

  • Durée — Temps écoulé, mis à jour en direct pour les incidents actifs.
  • Sonde — Lien vers la sonde qui a déclenché l'incident.
  • Agent — L'agent qui a exécuté le contrôle.
  • Notifications — Nombre de livraisons d'alertes envoyées et échouées.

Raison de l'incident

Les détails spécifiques de ce qui s'est passé, affichés en police à chasse fixe. Ce contenu est spécifique au type de sonde — par exemple, une sonde HTTP affiche le code de statut, une sonde SQL affiche l'erreur de requête.

Chronologie

Un journal chronologique des événements montrant chaque changement d'état :

  • Incident déclenché — La détection initiale de la défaillance avec les détails.
  • Nouvelle tentative de contrôle — Tentatives de contrôle ultérieures toujours en échec.
  • Pris en charge par [Utilisateur] — Quand et qui a pris en charge, avec son commentaire.
  • Incident résolu — Quand le problème a été corrigé.
  • Alerte envoyée — Livraisons de notifications avec le nom de l'intégration et le statut.

Notifications

Une liste de toutes les livraisons d'alertes pour cet incident, montrant le type d'intégration (Slack, Discord, Webhook, etc.), le nom, l'horodatage et le statut de livraison (Envoyé ou Échoué).

Commentaires

Un fil de discussion d'équipe attaché à l'incident. Tout membre de l'équipe peut laisser des commentaires pour partager du contexte, des mises à jour de progression ou des notes de résolution. Les commentaires sont affichés avec le nom de l'auteur et l'horodatage.

Dépendances

Un schéma visuel montrant la sonde qui a déclenché l'incident et les sondes dépendantes, avec leur statut actuel. Cela aide à comprendre l'impact plus large de la défaillance.


Actions utilisateur

Action Disponibilité Description
Prendre en charge Incidents actifs uniquement Marquer comme en cours d'investigation, avec un commentaire obligatoire
Ajouter un commentaire Tout incident ouvert Contribuer au fil de discussion de l'équipe
Voir la sonde Toujours Naviguer vers la page de détail de la sonde
Voir l'agent Toujours Naviguer vers la page de détail de l'agent

Résumé

Aspect Détails
Accès Supervision → Incidents
Cycle de vie Actif → Pris en charge → Résolu
Sévérité Critique, Majeure, Mineure, Info
Métriques MTTR, MTBF, MTTA, uptime
Actions Prendre en charge (avec commentaire), ajouter des commentaires
Résolution Automatique lorsque la sonde revient à un état sain
Mobile Consulter et prendre en charge depuis l'application native