[Google-SRE-bản dịch tiếng việt]-Phản Ứng Khẩn Cấp Trong SRE

📑 Mục Lục

Giới Thiệu
Phản Ứng Khi Hệ Thống Gặp Sự Cố
Tình Huống Thử Nghiệm Dẫn Đến Sự Cố
Tình Huống Thay Đổi Cấu Hình Dẫn Đến Sự Cố
Tình Huống Quá Trình Tự Động Gây Sự Cố
Bài Học Và Kết Luận

📌 Giới Thiệu

Việc hệ thống bị sự cố là điều không thể tránh khỏi. Điều quan trọng là cách tổ chức phản ứng khi sự cố xảy ra. Google SRE đã phát triển những quy trình, bài học, và công cụ để biến những tình huống khẩn cấp thành cơ hội cải thiện hệ thống.

🚨 Phản Ứng Khi Hệ Thống Gặp Sự Cố

Đừng hoảng loạn – Hít thở và làm theo quy trình.
Nếu bị quá tải, hãy gọi thêm người hỗ trợ.
Phải quen thuộc với quy trình phản ứng sự cố (incident management).
Ưu tiên xử lý nhanh, ghi nhận, phân tích và khắc phục sau.

🔬 Tình Huống Thử Nghiệm Dẫn Đến Sự Cố

Chi tiết: Chặn quyền truy cập vào 1 database test → gây ảnh hưởng lan rộng.

Phản ứng:

Ngừng thử nghiệm ngay khi phát hiện lỗi.
Sử dụng quyền truy cập replica để khôi phục hệ thống trong vòng 1 giờ.
Cải tiến thư viện ứng dụng database, bổ sung kiểm thử rollback.

Bài học:

Hiểu sai về phụ thuộc giữa các hệ thống.
Rollback chưa được kiểm thử trước.

🛠 Tình Huống Thay Đổi Cấu Hình Dẫn Đến Sự Cố

Chi tiết: Một thay đổi cấu hình bảo mật toàn cầu gây crash-loop trên hàng loạt dịch vụ.

Phản ứng:

Kỹ sư triển khai phát hiện sự cố qua kênh liên lạc và rollback trong 5 phút.
Kích hoạt quy trình sự cố, cập nhật liên tục.
Sử dụng công cụ CLI, cơ chế fallback để cứu hệ thống.

Bài học:

Canary không đủ kiểm tra.
Alerting quá "nhiệt tình", gây spam.
Công cụ khắc phục phải được quen dùng và thử nghiệm thường xuyên.

🤖 Tình Huống Quá Trình Tự Động Gây Sự Cố

Chi tiết: Bug trong automation khiến hàng ngàn server bị đưa vào hàng đợi xóa dữ liệu (Diskerase).

Phản ứng:

Ngay khi nhận thấy, disable toàn bộ automation.
Chuyển traffic sang site lớn hơn.
Phân chia team 3 bước để cài lại máy → 3 ngày phục hồi hầu hết hệ thống.

Bài học:

Sanity check automation rất quan trọng.
TFTP + BIOS lỗi gây chậm quá trình cài lại.
Cần ưu tiên traffic recovery, giám sát QoS, tránh overload hạ tầng mạng.

📘 Bài Học Và Kết Luận

Sự cố là không thể tránh, nhưng có thể xử lý tốt nếu đã chuẩn bị.
Quản lý sự cố là kỹ năng sống còn của SRE.
Phải học từ quá khứ: viết postmortem, đặt câu hỏi "What if...?"
Chủ động kiểm thử lỗi trong môi trường kiểm soát là cách chuẩn bị tốt nhất.
Mỗi sự cố là cơ hội để cải thiện hệ thống và quy trình vận hành.