📘 Phần 1: Vì sao On-call quan trọng & Nguyên lý SRE

🔥 Vì sao On-call lại quan trọng?

Chúng ta đang sống trong thời đại "luôn luôn kết nối" (always-on).
Sự sẵn sàng dịch vụ 24/7 không còn là tiện ích – nó là yêu cầu cơ bản.
On-call đảm bảo khi hệ thống gặp sự cố, có người phản ứng nhanh chóng để:
- Chẩn đoán
- Giảm tác động
- Khắc phục lỗi
- Leo thang nếu cần

🔍 Vai trò của kỹ sư On-call:

Xử lý sự cố sản xuất theo ca
Thực hiện công việc sản xuất không khẩn cấp
Góp phần cải tiến hệ thống dựa trên kinh nghiệm thực tế

🧠 Các nguyên lý SRE giúp On-call bền vững:

Error Budget & SLOs: Không phải 100% uptime, mà là quản lý rủi ro có chủ đích
SLO = mục tiêu đo lường trải nghiệm người dùng
Giảm Toil: Tự động hóa các tác vụ thủ công, lặp lại
Blameless Culture: Không đổ lỗi cá nhân – tập trung vào hệ thống & quy trình
50% thời gian cho dự án: Cân bằng vận hành và cải tiến
On-call phải được trả công xứng đáng

⚙️ Phần 2: Vòng đời quản lý sự cố

🛠️ 8 giai đoạn chính của vòng đời sự cố:

Giai đoạn	Mô tả
1. Phát hiện	Từ monitoring, alert hoặc người dùng
2. Ghi nhận	Tạo ticket với ID, thời gian, triệu chứng
3. Phân loại & Ưu tiên	Xác định dịch vụ bị ảnh hưởng, mức độ khẩn cấp
4. Phân công	Giao cho on-call hoặc đội phù hợp
5. Điều tra	Tìm nguyên nhân gốc, ưu tiên giảm tác động trước
6. Khắc phục / Phục hồi	Sửa lỗi hoặc workaround để khôi phục dịch vụ
7. Đóng sự cố	Xác nhận hệ thống đã ổn định
8. Hậu sự cố (Postmortem)	Học từ sự cố, cải tiến hệ thống, viết RCA

✅ Checklist quản lý sự cố

Hệ thống giám sát cảnh báo đúng (Alert firing → SLO-based)
Ticket có đầy đủ mô tả, thời gian, ID
Ưu tiên dựa trên ảnh hưởng và khẩn cấp (P1–P4)
Có IC (Incident Commander) nếu sự cố nghiêm trọng
Ghi log từng bước xử lý
Cập nhật stakeholder thường xuyên (Slack/Email)
Có xác nhận khôi phục từ backend + frontend
Tổ chức postmortem trong vòng 72h

🧬 Mô hình: Vòng đời xử lý sự cố (Incident Lifecycle)

         [Phát hiện] ← Alert, User
               ↓
       [Ghi nhận sự cố]
               ↓
    [Phân loại & Ưu tiên sự cố]
               ↓
        [Phân công kỹ sư]
               ↓
  [Điều tra → Giảm tác động → Khắc phục]
               ↓
         [Phục hồi & xác nhận]
               ↓
           [Đóng ticket]
               ↓
      [Postmortem + cải tiến hệ thống]

📌 Các chương tiếp theo sẽ đi sâu vào:

Alerting đúng cách (Ch3)
Escalation & quản lý nhiều nguồn alert (Ch4)
Xây dựng SLO từ SLI (Ch5)
Văn hóa blameless postmortem (Ch6)
Quản lý con người: lịch trực, tránh burnout (Ch7–8)