Postmortem là một công cụ thiết yếu trong SRE để học hỏi từ những sự cố. Bài viết giải thích triết lý, tiêu chí và thực hành để xây dựng một văn hóa postmortem hiệu quả và không đổ lỗi.
Bài viết tóm tắt chương cuối sách On-Call In Action, trình bày một ví dụ thực tế xây dựng hệ thống On-call, áp dụng nguyên lý SRE, alerting, SLO, và postmortem.
Bài viết tóm tắt chương 5 trong sách On-Call In Action, giải thích khái niệm và cách triển khai SLI, SLO, và Error Budget giúp đo lường và quản lý độ tin cậy dịch vụ.
Bài viết này tóm tắt chương 6 sách On-Call In Action, giải thích cách tổ chức postmortem không đổ lỗi, mẫu báo cáo và lợi ích lâu dài cho độ tin cậy hệ thống.