Google SREs : Gemini CLI automatise la réponse aux incidents

Et si vous automatisiez vos postmortems en 5 minutes au lieu de 5 heures ?

Qu'est-ce qui change ?

L'équipe Core SRE de Google a publié son workflow complet d'utilisation de Gemini CLI pour gérer les incidents de production. Le système couvre 4 étapes critiques : du paging initial à la génération du postmortem final.

L'architecture repose sur ProdAgent, un framework agentique interne qui intègre :

  • get_incident_details : Récupération automatique du contexte d'incident
  • causal_analysis : Analyse des causes racines par l'IA
  • timeseries_correlation : Corrélation automatique des métriques
  • log_analysis : Analyse sémantique des logs

Les SRE Google mesurent l'impact en "Bad Customer Minutes" et se focalisent sur le MTTM (Mean Time to Mitigation) plutôt que le simple MTTR. Leur SLO : 5 minutes maximum pour simplement acquitter un pager.

Étape Avant IA Avec Gemini CLI Bénéfice
Paging → Investigation 15-30 min manuelles 2-5 min automatiques Contexte instantané
Analyse causale 1-2h exploration logs/métriques 5-10 min corrélation IA Focus sur la décision
Postmortem 3-5h rédaction 5-15 min génération Template + timeline auto
Action Items Tracking manuel spreadsheet Bugs créés + assignés auto Zéro oubli
Workflow SRE Incident avec Gemini CLI
1
paging
SLO 5 min - get_incident_details
2
mitigation
Typed tools + Human-in-Loop (Copilot not Autopilot)
3
root cause
causal_analysis + timeseries_correlation
4
postmortem
MCP bug creation + timeline CSV auto

Quel impact pour les équipes DevOps et SRE ?

Ce workflow prouve que l'AIOps n'est plus théorique. Google utilise le Model Context Protocol (MCP) pour intégrer Gemini CLI avec leurs outils d'observabilité (Grafana, Prometheus équivalents).

La stratégie de sécurité est multi-couches : "Copilot, not Autopilot". Chaque action critique passe par un système de validation humaine (Human-in-the-Loop) avec trails d'audit complets.

Ce qui change tout : les Custom Commands. Les équipes peuvent créer leurs propres workflows spécifiques (exemple : le générateur de postmortem qui scrape l'historique de conversation, extrait les métriques, crée une timeline CSV, et génère un document Markdown basé sur le template SRE de l'équipe).

Notre analyse

Bien que Google dispose d'outils internes propriétaires (ProdAgent, borg_task_restart), le pattern est 100% réplicable avec des outils open source. Gemini CLI est disponible sur GitHub, le protocole MCP est ouvert, et des serveurs MCP existent déjà pour Kubernetes, PagerDuty, et les stacks d'observabilité standards.

C'est du AIOps opérationnel et applicable, pas un buzzword. Les équipes peuvent commencer par un seul cas d'usage (automatiser les postmortems), puis étendre progressivement. Le "virtuous cycle" décrit par Google — où les postmortems deviennent des données d'entraînement pour les futures investigations — est le vrai ROI long terme.

À suivre : Les Custom Commands de postmortem sont disponibles sur GitHub. Nous publierons prochainement un tutoriel d'implémentation pour Kubernetes + Prometheus.

Sources

Victor Langlois

Victor Langlois

Expert DevOps & IA · Architecte Cloud

10+ ans d'automatisation — du secret défense aux agents IA. Ex-ITSF (Xavier Niel), Gouvernement de Monaco. Je construis des systèmes qui libèrent les équipes tech des tâches répétitives.