Blog chia sẻ về công nghệ ...

Bài Viết Tags Thảo Luận Giới Thiệu

Published on: Thứ Tư, 23 tháng 4, 2025

On-Call In Action: Case Study xây dựng hệ thống On-call thực tế - Phần 10

Authors

Name
Bạch Đăng Tuấn
Occupation
Kỹ sư công nghệ thông tin
Zalo: 0934.01.07.04

🏗️ Phần 10 : Case Study – Hành trình xây dựng hệ thống On-call

🎯 Mục tiêu của chương

Cung cấp ví dụ thực tế áp dụng toàn bộ kiến thức đã học
Cho thấy quá trình tiến hoá từ "không có gì" → thành hệ thống on-call chuyên nghiệp

🧩 Bối cảnh ban đầu

Công ty SaaS nhỏ với sản phẩm B2B
Không có on-call, chỉ xử lý lỗi khi có người dùng báo
Không có alerting, log rải rác, không đo được SLO

🪜 Các bước triển khai theo hành trình SRE

1. Thiết lập nền tảng quan sát

Cài đặt Prometheus + Grafana
Bắt đầu thu thập metric cơ bản: HTTP success rate, latency
Gắn trace bằng OpenTelemetry

2. Định nghĩa SLI & SLO đầu tiên

SLI: HTTP error rate / latency > 1s
SLO: 99.9% success trong 28 ngày
Thiết lập bảng đo lường + alert dựa trên SLO

3. Thiết kế quy trình alerting

Cảnh báo → Slack kênh #alerts
Giao trực ca đầu tiên cho kỹ sư DevOps
Áp dụng escalation rule: 15 phút không ACK → ping team lead

4. Xây dựng lịch trực on-call

Bắt đầu với lịch 1 tuần/lượt
Dùng Google Calendar + Slack Reminder
Có người dự phòng (secondary)

5. Tổ chức postmortem đầu tiên

Sau 1 sự cố lớn do mất kết nối DB
Viết báo cáo blameless, rút ra cần triển khai alert DB replication lag
Tạo checklist phản ứng DB outage

6. Tự động hóa xử lý phổ biến

Thêm bot tự restart service khi port chết
Tích hợp runbook CLI để restart/ngắt pod
Viết 3 playbook tự động cho tình huống phổ biến

🧠 Kết quả sau 3 tháng

MTTA (Mean Time To Acknowledge): Giảm từ 15' → 3'
MTTD (Mean Time To Detect): Giảm nhờ alerting tốt
Tăng mức độ tin cậy & minh bạch với khách hàng
Giảm khối lượng công việc thủ công nhờ automation

✅ Bài học rút ra từ case study

Bắt đầu nhỏ, tăng dần → không cần "siêu hệ thống" từ đầu
SLO là công cụ ra quyết định, không chỉ là KPI
Postmortem là nơi học tốt nhất
Văn hóa on-call là văn hóa hỗ trợ – không đổ lỗi

📌 Kết luận: On-call không phải là gánh nặng – nếu được thiết kế tốt, đó là động lực nâng cao độ tin cậy và kỹ năng team.

Hành trình trong case study này cho thấy mỗi bước nhỏ, lặp lại có chủ đích sẽ giúp xây dựng hệ thống on-call hiện đại – đúng tinh thần SRE.