✨ Plus d'info

Rapport d'incident — Panne serveur de production

Référence : INC-2026-0042
Criticité : P1

Résumé de l'incident

Le serveur de production srv-prod-01 est devenu indisponible le 29/06/2026 à 14h12, entraînant une interruption totale du service web pour l'ensemble des utilisateurs pendant 47 minutes.

La cause racine identifiée est une saturation du disque /var provoquée par une rotation de logs défaillante. Le service a été rétabli après libération de l'espace disque et redémarrage des services applicatifs.

Contexte & informations clés

Date de détection29/06/2026 — 14:12
Date de résolution29/06/2026 — 14:59
Durée d'indisponibilité47 minutes
Système concernésrv-prod-01 (Debian 13)
Service impactéApplication web NovaTech
Utilisateurs affectés~ 85 (tous)

Chronologie des événements

  1. Première alerte de supervision : le service web ne répond plus (HTTP 503).

  2. Prise en charge par l'équipe d'astreinte. Connexion SSH au serveur.

  3. Constat : partition /var à 100 %. Logs non rotés depuis 9 jours.

  4. Purge des anciens logs et correction de la configuration de logrotate.

  5. Redémarrage des services. Retour à la normale confirmé par la supervision.

Diagnostic technique

L'analyse de l'espace disque a confirmé la saturation de la partition :

$ df -h /var
Filesystem      Size  Used Avail Use% Mounted on
/dev/sda2        20G   20G     0 100% /var

$ du -sh /var/log/*
14G   /var/log/app/access.log
 3G   /var/log/app/error.log

Le fichier access.log n'avait jamais été archivé : la tâche logrotate échouait silencieusement à cause d'un chemin erroné dans sa configuration.

Résolution appliquée

Les commandes suivantes ont permis de rétablir le service :

$ sudo truncate -s 0 /var/log/app/access.log
$ sudo nano /etc/logrotate.d/app      # correction du chemin
$ sudo systemctl restart app.service
$ sudo systemctl status app.service   # vérification

Actions correctives & préventives

  • Mise en place d'une alerte de supervision sur le taux de remplissage des disques (seuil 80 %).
  • Correction et test de la configuration logrotate sur tous les serveurs.
  • Ajout d'une vérification hebdomadaire de l'espace disque dans la checklist d'exploitation.
  • Documentation de la procédure de purge d'urgence dans la base de connaissances.