- Published on
On-Call In Action: Nguyên lý SRE và Vòng đời sự cố phần 1 & phần 2
- Authors
- Name
- Bạch Đăng Tuấn
- Occupation
- Kỹ sư công nghệ thông tin
- Zalo: 0934.01.07.04
📘 Phần 1: Vì sao On-call quan trọng & Nguyên lý SRE
🔥 Vì sao On-call lại quan trọng?
- Chúng ta đang sống trong thời đại "luôn luôn kết nối" (always-on).
- Sự sẵn sàng dịch vụ 24/7 không còn là tiện ích – nó là yêu cầu cơ bản.
- On-call đảm bảo khi hệ thống gặp sự cố, có người phản ứng nhanh chóng để:
- Chẩn đoán
- Giảm tác động
- Khắc phục lỗi
- Leo thang nếu cần
🔍 Vai trò của kỹ sư On-call:
- Xử lý sự cố sản xuất theo ca
- Thực hiện công việc sản xuất không khẩn cấp
- Góp phần cải tiến hệ thống dựa trên kinh nghiệm thực tế
🧠 Các nguyên lý SRE giúp On-call bền vững:
- Error Budget & SLOs: Không phải 100% uptime, mà là quản lý rủi ro có chủ đích
- SLO = mục tiêu đo lường trải nghiệm người dùng
- Giảm Toil: Tự động hóa các tác vụ thủ công, lặp lại
- Blameless Culture: Không đổ lỗi cá nhân – tập trung vào hệ thống & quy trình
- 50% thời gian cho dự án: Cân bằng vận hành và cải tiến
- On-call phải được trả công xứng đáng
⚙️ Phần 2: Vòng đời quản lý sự cố
🛠️ 8 giai đoạn chính của vòng đời sự cố:
Giai đoạn | Mô tả |
---|---|
1. Phát hiện | Từ monitoring, alert hoặc người dùng |
2. Ghi nhận | Tạo ticket với ID, thời gian, triệu chứng |
3. Phân loại & Ưu tiên | Xác định dịch vụ bị ảnh hưởng, mức độ khẩn cấp |
4. Phân công | Giao cho on-call hoặc đội phù hợp |
5. Điều tra | Tìm nguyên nhân gốc, ưu tiên giảm tác động trước |
6. Khắc phục / Phục hồi | Sửa lỗi hoặc workaround để khôi phục dịch vụ |
7. Đóng sự cố | Xác nhận hệ thống đã ổn định |
8. Hậu sự cố (Postmortem) | Học từ sự cố, cải tiến hệ thống, viết RCA |
✅ Checklist quản lý sự cố
- Hệ thống giám sát cảnh báo đúng (Alert firing → SLO-based)
- Ticket có đầy đủ mô tả, thời gian, ID
- Ưu tiên dựa trên ảnh hưởng và khẩn cấp (P1–P4)
- Có IC (Incident Commander) nếu sự cố nghiêm trọng
- Ghi log từng bước xử lý
- Cập nhật stakeholder thường xuyên (Slack/Email)
- Có xác nhận khôi phục từ backend + frontend
- Tổ chức postmortem trong vòng 72h
🧬 Mô hình: Vòng đời xử lý sự cố (Incident Lifecycle)
[Phát hiện] ← Alert, User
↓
[Ghi nhận sự cố]
↓
[Phân loại & Ưu tiên sự cố]
↓
[Phân công kỹ sư]
↓
[Điều tra → Giảm tác động → Khắc phục]
↓
[Phục hồi & xác nhận]
↓
[Đóng ticket]
↓
[Postmortem + cải tiến hệ thống]
📌 Các chương tiếp theo sẽ đi sâu vào:
- Alerting đúng cách (Ch3)
- Escalation & quản lý nhiều nguồn alert (Ch4)
- Xây dựng SLO từ SLI (Ch5)
- Văn hóa blameless postmortem (Ch6)
- Quản lý con người: lịch trực, tránh burnout (Ch7–8)