Bài viết tóm tắt chương cuối sách On-Call In Action, trình bày một ví dụ thực tế xây dựng hệ thống On-call, áp dụng nguyên lý SRE, alerting, SLO, và postmortem.
Bài viết tóm tắt chương 5 trong sách On-Call In Action, giải thích khái niệm và cách triển khai SLI, SLO, và Error Budget giúp đo lường và quản lý độ tin cậy dịch vụ.
Bài viết này tóm tắt chương 6 sách On-Call In Action, giải thích cách tổ chức postmortem không đổ lỗi, mẫu báo cáo và lợi ích lâu dài cho độ tin cậy hệ thống.
Bài viết tóm tắt chương 7 sách On-Call In Action, trình bày các nguyên tắc lập lịch trực công bằng, chống kiệt sức và thúc đẩy văn hóa bền vững cho kỹ sư vận hành.