Hướng dẫn chi tiết cách quản lý sự cố theo mô hình SRE tại Google, từ những lỗi thường gặp đến cách tổ chức vai trò, phản ứng, giao tiếp và thực hành xử lý sự cố hiệu quả.
Tóm lược chương Monitoring Distributed Systems từ sách SRE của Google, trình bày cách thiết kế hệ thống giám sát hiệu quả, tránh cảnh báo sai và tối ưu hóa trải nghiệm vận hành.
Postmortem là một công cụ thiết yếu trong SRE để học hỏi từ những sự cố. Bài viết giải thích triết lý, tiêu chí và thực hành để xây dựng một văn hóa postmortem hiệu quả và không đổ lỗi.