Blog chia sẻ về công nghệ ...
Published on

[Google-SRE-bản dịch tiếng việt]-Postmortem Culture: Học hỏi từ thất bại

Authors

📑 Mục Lục

  1. Giới thiệu
  2. Triết lý Postmortem của Google
  3. Thực hành tốt trong viết Postmortem
  4. Cách giới thiệu văn hóa Postmortem
  5. Kết luận

📘 Giới thiệu

Trong hệ thống phân tán phức tạp và thay đổi liên tục, sự cố là điều không thể tránh khỏi. Postmortem là bản ghi chép chi tiết sau mỗi sự cố, giúp hiểu rõ nguyên nhân gốc rễ và cải thiện hệ thống để tránh lặp lại lỗi tương tự.

🧭 Triết lý Postmortem của Google

  • Không đổ lỗi (Blameless): Xem mọi người đều hành động với ý tốt và thông tin hiện có.
  • Khi nào cần viết: downtime vượt ngưỡng, mất dữ liệu, can thiệp thủ công, lỗi giám sát, v.v.
  • Mục tiêu: Ghi lại sự kiện, hiểu nguyên nhân gốc, và đưa ra hành động phòng tránh.

🛠️ Thực hành tốt

  • Không đổ lỗi: Tập trung vào hệ thống, không phải con người.
  • Hợp tác: Viết theo nhóm, sử dụng công cụ hỗ trợ như Google Docs, nhận phản hồi.
  • Bắt buộc review: Mỗi postmortem đều phải được kiểm duyệt và chia sẻ.
  • Khen thưởng: Công nhận người viết postmortem rõ ràng, minh bạch, xử lý tốt sự cố.

🌱 Cách giới thiệu văn hóa Postmortem

  • Ban đầu: Dễ tiếp cận, thử nghiệm một vài postmortem để chứng minh giá trị.
  • Hoạt động hỗ trợ: "Postmortem of the Month", "Wheel of Misfortune", câu lạc bộ đọc postmortem.
  • Lãnh đạo dẫn dắt: Quản lý cấp cao nên trực tiếp tham gia review và khuyến khích văn hóa này.
  • Khảo sát hiệu quả: Hỏi xem postmortem có giúp ích không? Có tạo thêm gánh nặng không?

🔚 Kết luận

Văn hóa postmortem không chỉ là phản ứng với sự cố, mà còn là công cụ học tập tập thể. Nó giúp tăng độ tin cậy hệ thống, giảm downtime, và nuôi dưỡng môi trường kỹ thuật lành mạnh, minh bạch. Google đầu tư vào việc này bằng công cụ, mẫu biểu, ML, và các sáng kiến toàn công ty.