Résumé de l'incident
Le serveur de production srv-prod-01 est devenu
indisponible le 29/06/2026 à 14h12, entraînant une interruption totale du
service web pour l'ensemble des utilisateurs pendant 47 minutes.
La cause racine identifiée est une saturation du disque /var
provoquée par une rotation de logs défaillante. Le service a été rétabli après
libération de l'espace disque et redémarrage des services applicatifs.
Contexte & informations clés
| Date de détection | 29/06/2026 — 14:12 |
|---|---|
| Date de résolution | 29/06/2026 — 14:59 |
| Durée d'indisponibilité | 47 minutes |
| Système concerné | srv-prod-01 (Debian 13) |
| Service impacté | Application web NovaTech |
| Utilisateurs affectés | ~ 85 (tous) |
Chronologie des événements
Première alerte de supervision : le service web ne répond plus (HTTP 503).
Prise en charge par l'équipe d'astreinte. Connexion SSH au serveur.
Constat : partition
/varà 100 %. Logs non rotés depuis 9 jours.Purge des anciens logs et correction de la configuration de logrotate.
Redémarrage des services. Retour à la normale confirmé par la supervision.
Diagnostic technique
L'analyse de l'espace disque a confirmé la saturation de la partition :
$ df -h /var Filesystem Size Used Avail Use% Mounted on /dev/sda2 20G 20G 0 100% /var $ du -sh /var/log/* 14G /var/log/app/access.log 3G /var/log/app/error.log
Le fichier access.log n'avait jamais été archivé : la tâche
logrotate échouait silencieusement à cause d'un chemin erroné
dans sa configuration.
Résolution appliquée
Les commandes suivantes ont permis de rétablir le service :
$ sudo truncate -s 0 /var/log/app/access.log $ sudo nano /etc/logrotate.d/app # correction du chemin $ sudo systemctl restart app.service $ sudo systemctl status app.service # vérification
Actions correctives & préventives
- Mise en place d'une alerte de supervision sur le taux de remplissage des disques (seuil 80 %).
- Correction et test de la configuration
logrotatesur tous les serveurs. - Ajout d'une vérification hebdomadaire de l'espace disque dans la checklist d'exploitation.
- Documentation de la procédure de purge d'urgence dans la base de connaissances.