Blog chia sẻ về công nghệ ...
Published on

On-Call In Action: Nguyên lý SRE và Vòng đời sự cố phần 1 & phần 2

Authors

📘 Phần 1: Vì sao On-call quan trọng & Nguyên lý SRE

🔥 Vì sao On-call lại quan trọng?

  • Chúng ta đang sống trong thời đại "luôn luôn kết nối" (always-on).
  • Sự sẵn sàng dịch vụ 24/7 không còn là tiện ích – nó là yêu cầu cơ bản.
  • On-call đảm bảo khi hệ thống gặp sự cố, có người phản ứng nhanh chóng để:
    • Chẩn đoán
    • Giảm tác động
    • Khắc phục lỗi
    • Leo thang nếu cần

🔍 Vai trò của kỹ sư On-call:

  • Xử lý sự cố sản xuất theo ca
  • Thực hiện công việc sản xuất không khẩn cấp
  • Góp phần cải tiến hệ thống dựa trên kinh nghiệm thực tế

🧠 Các nguyên lý SRE giúp On-call bền vững:

  1. Error Budget & SLOs: Không phải 100% uptime, mà là quản lý rủi ro có chủ đích
  2. SLO = mục tiêu đo lường trải nghiệm người dùng
  3. Giảm Toil: Tự động hóa các tác vụ thủ công, lặp lại
  4. Blameless Culture: Không đổ lỗi cá nhân – tập trung vào hệ thống & quy trình
  5. 50% thời gian cho dự án: Cân bằng vận hành và cải tiến
  6. On-call phải được trả công xứng đáng

⚙️ Phần 2: Vòng đời quản lý sự cố

🛠️ 8 giai đoạn chính của vòng đời sự cố:

Giai đoạnMô tả
1. Phát hiệnTừ monitoring, alert hoặc người dùng
2. Ghi nhậnTạo ticket với ID, thời gian, triệu chứng
3. Phân loại & Ưu tiênXác định dịch vụ bị ảnh hưởng, mức độ khẩn cấp
4. Phân côngGiao cho on-call hoặc đội phù hợp
5. Điều traTìm nguyên nhân gốc, ưu tiên giảm tác động trước
6. Khắc phục / Phục hồiSửa lỗi hoặc workaround để khôi phục dịch vụ
7. Đóng sự cốXác nhận hệ thống đã ổn định
8. Hậu sự cố (Postmortem)Học từ sự cố, cải tiến hệ thống, viết RCA

✅ Checklist quản lý sự cố

  • Hệ thống giám sát cảnh báo đúng (Alert firing → SLO-based)
  • Ticket có đầy đủ mô tả, thời gian, ID
  • Ưu tiên dựa trên ảnh hưởng và khẩn cấp (P1–P4)
  • Có IC (Incident Commander) nếu sự cố nghiêm trọng
  • Ghi log từng bước xử lý
  • Cập nhật stakeholder thường xuyên (Slack/Email)
  • Có xác nhận khôi phục từ backend + frontend
  • Tổ chức postmortem trong vòng 72h

🧬 Mô hình: Vòng đời xử lý sự cố (Incident Lifecycle)

         [Phát hiện]Alert, User
       [Ghi nhận sự cố]
    [Phân loại & Ưu tiên sự cố]
        [Phân công kỹ sư]
  [Điều tra → Giảm tác động → Khắc phục]
         [Phục hồi & xác nhận]
           [Đóng ticket]
      [Postmortem + cải tiến hệ thống]

📌 Các chương tiếp theo sẽ đi sâu vào:

  • Alerting đúng cách (Ch3)
  • Escalation & quản lý nhiều nguồn alert (Ch4)
  • Xây dựng SLO từ SLI (Ch5)
  • Văn hóa blameless postmortem (Ch6)
  • Quản lý con người: lịch trực, tránh burnout (Ch7–8)