Rapport d'incident — INC-2026-0042

Résumé de l'incident

Le serveur de production srv-prod-01 est devenu indisponible le 29/06/2026 à 14h12, entraînant une interruption totale du service web pour l'ensemble des utilisateurs pendant 47 minutes.

La cause racine identifiée est une saturation du disque /var provoquée par une rotation de logs défaillante. Le service a été rétabli après libération de l'espace disque et redémarrage des services applicatifs.

Contexte & informations clés

Date de détection	29/06/2026 — 14:12
Date de résolution	29/06/2026 — 14:59
Durée d'indisponibilité	47 minutes
Système concerné	srv-prod-01 (Debian 13)
Service impacté	Application web NovaTech
Utilisateurs affectés	~ 85 (tous)

Chronologie des événements

14:12
Première alerte de supervision : le service web ne répond plus (HTTP 503).
14:18
Prise en charge par l'équipe d'astreinte. Connexion SSH au serveur.
14:25
Constat : partition /var à 100 %. Logs non rotés depuis 9 jours.
14:40
Purge des anciens logs et correction de la configuration de logrotate.
14:59
Redémarrage des services. Retour à la normale confirmé par la supervision.

Diagnostic technique

L'analyse de l'espace disque a confirmé la saturation de la partition :

$ df -h /var
Filesystem      Size  Used Avail Use% Mounted on
/dev/sda2        20G   20G     0 100% /var

$ du -sh /var/log/*
14G   /var/log/app/access.log
 3G   /var/log/app/error.log

Le fichier access.log n'avait jamais été archivé : la tâche logrotate échouait silencieusement à cause d'un chemin erroné dans sa configuration.

Résolution appliquée

Les commandes suivantes ont permis de rétablir le service :

$ sudo truncate -s 0 /var/log/app/access.log
$ sudo nano /etc/logrotate.d/app      # correction du chemin
$ sudo systemctl restart app.service
$ sudo systemctl status app.service   # vérification

Actions correctives & préventives

Mise en place d'une alerte de supervision sur le taux de remplissage des disques (seuil 80 %).
Correction et test de la configuration logrotate sur tous les serveurs.
Ajout d'une vérification hebdomadaire de l'espace disque dans la checklist d'exploitation.
Documentation de la procédure de purge d'urgence dans la base de connaissances.