Blog chia sẻ về công nghệ ...
Published on

On-Call In Action: Case Study xây dựng hệ thống On-call thực tế - Phần 10

Authors

🏗️ Phần 10 : Case Study – Hành trình xây dựng hệ thống On-call

🎯 Mục tiêu của chương

  • Cung cấp ví dụ thực tế áp dụng toàn bộ kiến thức đã học
  • Cho thấy quá trình tiến hoá từ "không có gì" → thành hệ thống on-call chuyên nghiệp

🧩 Bối cảnh ban đầu

  • Công ty SaaS nhỏ với sản phẩm B2B
  • Không có on-call, chỉ xử lý lỗi khi có người dùng báo
  • Không có alerting, log rải rác, không đo được SLO

🪜 Các bước triển khai theo hành trình SRE

1. Thiết lập nền tảng quan sát

  • Cài đặt Prometheus + Grafana
  • Bắt đầu thu thập metric cơ bản: HTTP success rate, latency
  • Gắn trace bằng OpenTelemetry

2. Định nghĩa SLI & SLO đầu tiên

  • SLI: HTTP error rate / latency > 1s
  • SLO: 99.9% success trong 28 ngày
  • Thiết lập bảng đo lường + alert dựa trên SLO

3. Thiết kế quy trình alerting

  • Cảnh báo → Slack kênh #alerts
  • Giao trực ca đầu tiên cho kỹ sư DevOps
  • Áp dụng escalation rule: 15 phút không ACK → ping team lead

4. Xây dựng lịch trực on-call

  • Bắt đầu với lịch 1 tuần/lượt
  • Dùng Google Calendar + Slack Reminder
  • Có người dự phòng (secondary)

5. Tổ chức postmortem đầu tiên

  • Sau 1 sự cố lớn do mất kết nối DB
  • Viết báo cáo blameless, rút ra cần triển khai alert DB replication lag
  • Tạo checklist phản ứng DB outage

6. Tự động hóa xử lý phổ biến

  • Thêm bot tự restart service khi port chết
  • Tích hợp runbook CLI để restart/ngắt pod
  • Viết 3 playbook tự động cho tình huống phổ biến

🧠 Kết quả sau 3 tháng

  • MTTA (Mean Time To Acknowledge): Giảm từ 15' → 3'
  • MTTD (Mean Time To Detect): Giảm nhờ alerting tốt
  • Tăng mức độ tin cậy & minh bạch với khách hàng
  • Giảm khối lượng công việc thủ công nhờ automation

✅ Bài học rút ra từ case study

  • Bắt đầu nhỏ, tăng dần → không cần "siêu hệ thống" từ đầu
  • SLO là công cụ ra quyết định, không chỉ là KPI
  • Postmortem là nơi học tốt nhất
  • Văn hóa on-call là văn hóa hỗ trợ – không đổ lỗi

📌 Kết luận: On-call không phải là gánh nặng – nếu được thiết kế tốt, đó là động lực nâng cao độ tin cậy và kỹ năng team.

Hành trình trong case study này cho thấy mỗi bước nhỏ, lặp lại có chủ đích sẽ giúp xây dựng hệ thống on-call hiện đại – đúng tinh thần SRE.