- Published on
[Google-SRE-bản dịch tiếng việt]-Being On-Call trong SRE
- Authors
- Name
- Bạch Đăng Tuấn
- Occupation
- Kỹ sư công nghệ thông tin
- Zalo: 0934.01.07.04
📑 Mục Lục
- Giới thiệu
- Cuộc sống của kỹ sư On-Call
- Cân bằng công việc On-Call
- An toàn tâm lý và phản ứng
- Tải vận hành không phù hợp
- Kết luận
Giới thiệu
Việc trực tuyến (on-call) là nhiệm vụ thiết yếu giúp giữ dịch vụ ổn định. Tại Google, các kỹ sư SRE trực tiếp chịu trách nhiệm đảm bảo độ sẵn sàng cho các hệ thống như Search, Ads, Gmail. Họ không chỉ vận hành mà còn dùng kỹ năng kỹ thuật để tự động hóa và giảm tải công việc lặp lại.
Cuộc sống của kỹ sư On-Call
Kỹ sư on-call chịu trách nhiệm phản ứng sự cố trong vài phút (5–30 phút tùy mức độ quan trọng). Khi có sự cố, họ phân tích nguyên nhân, liên hệ đội liên quan và xử lý. Ngoài ra còn kiểm tra thay đổi cấu hình, chạy release, xử lý cảnh báo mức thấp.
Google cung cấp thiết bị nhận cảnh báo và hệ thống phân phối linh hoạt qua SMS, email, app...
Cân bằng công việc On-Call
🔸 Số lượng: Tối đa 25% thời gian của một kỹ sư SRE dành cho on-call. Để đảm bảo 24/7 on-call, ít nhất cần 8 người (nếu một site), hoặc 6 (nếu đa site).
🔸 Chất lượng: Một sự cố = ~6h xử lý → tối đa 2 sự cố/ngày. Nếu vượt quá mức này cần tối ưu cảnh báo, giảm cảnh báo nhiễu.
🔸 Bù đắp: Google dùng hình thức nghỉ bù hoặc tiền mặt (giới hạn mức % lương) để khuyến khích mà vẫn đảm bảo phân phối công bằng.
An toàn tâm lý và phản ứng
Kỹ sư SRE xử lý sự cố phải giữ tinh thần tỉnh táo để đưa ra quyết định lý trí. Áp lực có thể gây phản xạ sai lầm (cảm tính). Do đó cần:
- Quy trình quản lý sự cố rõ ràng
- Văn hóa không đổ lỗi (blameless postmortem)
- Công cụ hỗ trợ tự động hóa phân vai, thông báo
- Hệ thống escalation tới đội dev khi cần
Tải vận hành không phù hợp
❗ Quá tải vận hành: Khi on-call quá nhiều → cần:
- Chuyển bớt cảnh báo không thiết yếu
- Tối ưu hệ thống cảnh báo (1 cảnh báo = 1 sự cố)
- Đàm phán lại trách nhiệm nếu hệ thống không đủ tiêu chuẩn
❗ Thiếu tải vận hành: Nếu không trực đủ → kỹ sư mất cảm giác với hệ thống → cần đảm bảo mỗi người trực ít nhất 1–2 lần/quý.
Kết luận
Triết lý on-call của Google SRE là kết hợp kỹ thuật và quy trình để đảm bảo dịch vụ tin cậy mà vẫn giữ sức khỏe, tinh thần và hiệu suất của kỹ sư. Dù không thể áp dụng hoàn toàn cho mọi tổ chức, đây là mẫu hình có thể học hỏi để xây dựng quy trình trực hiệu quả, bền vững.