- Published on
On-Call In Action: Thiết kế Alert hiệu quả - Phần 3
- Authors
- Name
- Bạch Đăng Tuấn
- Occupation
- Kỹ sư công nghệ thông tin
- Zalo: 0934.01.07.04
🚨 Thiết kế Alert hiệu quả
⚠️ Tại sao Alert lại quan trọng?
- Là cầu nối giữa hệ thống giám sát và con người
- Phát hiện nhanh sự cố → kích hoạt vòng đời xử lý
- Nếu alert sai/thiếu → có thể bỏ sót sự cố thật
- Nếu alert quá nhiều → gây alert fatigue → bỏ qua alert thật
🎯 Mục tiêu của alert hiệu quả
- Đúng người – đúng thời điểm – đúng thông tin
- Dễ hiểu, hành động được
- Không gây nhiễu – tránh duplicate và không quan trọng
📂 Phân loại alert
Loại | Mô tả | Phản ứng |
---|---|---|
Page | Quan trọng, phải xử lý ngay | Gửi đến on-call |
Ticket | Cần xử lý, nhưng không khẩn cấp | Tạo ticket cho team xử lý sau |
Log/Metric Only | Theo dõi, không cần phản ứng | Chỉ dùng cho dashboard/analytics |
✅ Đặc điểm của alert chất lượng
- Dựa trên SLO/SLI (trải nghiệm người dùng)
- Có ngưỡng rõ ràng, logic (ví dụ: >5% error rate trong 5 phút)
- Có hướng dẫn xử lý đi kèm (runbook)
- Gọn gàng, không spam
🔄 Nguyên tắc Alert Hygiene (vệ sinh alert)
- Review định kỳ alert → bỏ alert cũ, trùng lặp
- Mỗi alert phải có owner (người chịu trách nhiệm)
- Không để alert lâu ngày không ai xem
- Dùng nhãn (label) để phân loại:
severity
,service
,owner
,team
✅ Checklist thiết kế hệ thống alert
- Mỗi alert có ý nghĩa rõ ràng (ảnh hưởng tới người dùng?)
- Dựa trên SLI/SLO hay symptom-based?
- Alert có mô tả, runbook xử lý?
- Có chính sách paging (P1–P4)?
- Alert gửi đúng kênh: Slack, Email, PagerDuty?
- Có lịch review định kỳ?
📦 Mô hình: Hệ thống cảnh báo thông minh
[Metric / Log / Event]
↓
[Alerting Rule Engine]
↓
┌────────────┬─────────────┐
│ Alert: P1 │ Alert: P3 │
↓ ↓
[On-call] [Ticket System]
↓
[Team xử lý async]
🛠️ Công cụ điển hình
- Prometheus + Alertmanager
- Grafana Alerts
- PagerDuty, Opsgenie
- versus-incident (tool minh hoạ trong sách)
📌 Tóm lại, alert tốt giúp bạn phản ứng đúng, tránh mệt mỏi, và giữ đội ngũ on-call khỏe mạnh để xử lý sự cố thực sự quan trọng.
Chương tiếp theo sẽ trình bày cách tích hợp nhiều nguồn alert và thiết kế escalation policy chuyên nghiệp.