- Published on
On-Call In Action: Giao tiếp hiệu quả trong và sau sự cố - Phần 8
- Authors
- Name
- Bạch Đăng Tuấn
- Occupation
- Kỹ sư công nghệ thông tin
- Zalo: 0934.01.07.04
📢 Phần 8: Giao tiếp hiệu quả trong và sau sự cố
📌 Vì sao giao tiếp lại quan trọng?
- Giao tiếp kém → hiểu sai tình hình → kéo dài thời gian khôi phục
- Giao tiếp tốt → rõ ràng, minh bạch → giữ vững lòng tin người dùng và nội bộ
🧩 Các loại giao tiếp trong sự cố
Loại | Mục tiêu | Ví dụ |
---|---|---|
Nội bộ kỹ thuật | Giúp team phối hợp điều tra & xử lý | Slack kênh #incident-123 |
Giữa các team | Huy động đúng người đúng lúc | Gọi SRE, Dev, NetOps |
Thông tin ra bên ngoài | Cập nhật tình hình cho người dùng | Status Page, Email, Twitter |
Sau sự cố | Tóm tắt & học hỏi | Postmortem report, bản tin nội bộ |
🎯 Mục tiêu của giao tiếp khi xảy ra sự cố
- Cập nhật thường xuyên, trung thực
- Không đoán mò – chỉ nói thông tin đã xác minh
- Có người chịu trách nhiệm chính (Incident Commander)
👨✈️ Vai trò và người tham gia
Vai trò | Trách nhiệm |
---|---|
IC (Incident Commander) | Dẫn dắt, cập nhật, điều phối giao tiếp |
Scribe | Ghi chép lại hành động & thời gian |
Comms Lead | Xử lý truyền thông nội bộ & khách hàng |
Tech Leads / SMEs | Phân tích & xử lý kỹ thuật |
🗣️ Mẫu cập nhật tình hình (Internal)
📌 Update: 15:10 UTC
Sự cố: Lỗi DB replica không sync với primary
Tác động: Trang Admin không load được
Tình trạng: Đang rollback bản cập nhật DB
Dự kiến cập nhật tiếp theo: 15 phút nữa (15:25)
✉️ Mẫu cập nhật khách hàng (Status Page)
[15:10 UTC] Chúng tôi đang điều tra vấn đề ảnh hưởng đến khả năng truy cập Admin Panel.
Người dùng có thể gặp lỗi 500. Đội ngũ kỹ thuật đang làm việc để khắc phục.
Cập nhật tiếp theo: khoảng 30 phút nữa.
✅ Checklist giao tiếp trong sự cố
- Có Incident Commander (IC) rõ ràng
- Tạo kênh riêng cho sự cố (Slack, MS Teams, Zoom)
- Cập nhật định kỳ nội bộ (5–15 phút/lần)
- Ghi log từng hành động (người, thời gian, kết quả)
- Có người phụ trách truyền thông bên ngoài
- Cập nhật rõ ràng – tránh phỏng đoán
📦 Mô hình giao tiếp hiệu quả
[Sự cố xảy ra]
↓
[Tạo Slack #incident-123]
↓
[IC dẫn dắt] → [Scribe ghi log] → [Comms cập nhật Status Page]
↓
[Cập nhật định kỳ nội bộ & khách hàng]
📌 Kết luận:
Giao tiếp tốt trong sự cố không chỉ giúp xử lý nhanh hơn – mà còn giữ vững niềm tin từ người dùng, khách hàng, và cả chính nội bộ tổ chức.
Chương tiếp theo sẽ trình bày về hệ sinh thái công cụ on-call và xu hướng tương lai!