年末時必檢查的伺服器設定 10 項
(為了避免任何意外)
「年末就一定要特別檢查嗎?」 結論先說:有。
年末並不會讓伺服器變得特殊, 但人員會變得特殊。
- 假期人力減少
- 流量模式變化
- 緊張感放鬆
因此年末往往成為事故風險最高的時期。 本文不是「年末就必須做」的強迫清單,而是 在假期期間確保一切順利的實際檢查項目。
1. 磁碟使用量與日誌增長速度
年末並不會讓日誌減少。
特別要確認以下項目。
/var/log使用量- 應用程式日誌輪替設定
- Docker 容器日誌大小(json 日誌是否無限增長)
磁碟滿的伺服器會毫無預警停止。 平時「還能忍」的情況,在假期也很容易直接成為故障。
2. 備份「存在」與「可恢復」
備份檔案存在比備份本身更重要。
「這個真的能恢復嗎?」
年末前至少做一次以下檢查。
- 確認最近備份檔案是否存在
- 簡單驗證壓縮檔是否損毀
- 在測試環境直接還原
避免新年第一天發現「備份壞了」的尷尬。
3. SSL/TLS 憑證到期日
年末與年初是憑證到期事故頻發時期。
- Let’s Encrypt 自動續期是否正常
cron或systemd timer是否被停用- 最近續期日誌是否有錯誤
「自動續期沒問題」的想法 是年末最常見的故障觸發點。
4. 防火牆規則與「臨時」開放設定
一年運營會累積許多臨時設定。
- 測試用開放的埠
- 暫時允許的 IP
- 已不再使用的服務埠
這些臨時設定隨時間會變成 沒有人記得存在的安全漏洞。 年末是整理這些設定的最佳時機。
5. SSH 存取方式與金鑰管理
假期期間的入侵往往 被發現得較晚。
因此 SSH 設定要特別保守。
- 是否已停用密碼登入
- 刪除不使用的 SSH 金鑰
- 移除離職或外包人員金鑰
- 管理員帳號是否只保留最小權限
「我們伺服器沒人關心」的樂觀想法 在安全上往往是錯誤的。
6. cron / 排程器的靜默失敗
cron、systemd timer、排程器
失敗時會靜默失敗。
- 最近執行日誌是否有錯誤
- 長期失敗的工作是否仍在執行
- 不再需要的工作是否仍在跑
年末失敗的排程器 會在新年繼續存在。
7. 資源使用量以「峰值」為基準
年末流量波動比平時大。
- 某段時間流量急升
- 機器人/爬蟲異常訪問
- 特定國家假期模式
因此監控也要查看峰值。
- CPU、記憶體峰值
- DB 連線數、佇列長度
- 同時連線數、會話數
「平時沒問題」的說法 在年末不太能安慰人。
8. 應用程式依賴服務狀態
伺服器本身正常,但 依賴服務失效時服務也會停止。
例如:
- Redis / Memcached
- 訊息佇列(Kafka、RabbitMQ、SQS 等)
- 外部 API(支付、認證、通知等)
- 檔案/影像儲存
年末這些服務也會 大量檢查、部署、定期工作。
故障時常會出現「我們的日誌乾淨」的情況。 建議同時檢查依賴服務的狀態頁面或故障通知頻道。
9. 錯誤通知是否真的「到達」
擁有錯誤通知系統與 通知實際到達是兩回事。
- 人為觸發一次錯誤
- 確認 Email/Slack/Webhook 是否真的收到
- 重要性過濾器是否把訊息忽略
年末故障的最大問題往往是 「沒有人知道發生了」。
「沒有人發現故障」
10. 「問題發生時從哪裡開始」的文件
最後一項不是設定,而是文件。
- 主要服務清單
- 伺服器/容器連線方式
- 日誌位置(nginx、app、DB、佇列等)
- 重啟/回滾方法
- 緊急應變順序
有這份文件,年末故障應變難度 會從 硬模式 ↔ 正常模式 轉變。
年末伺服器檢查清單
以下為簡易表格,方便旁邊檢查。
| 項目 | 檢查內容 | 確認方法範例 | 推薦狀態 |
|---|---|---|---|
| 磁碟使用量 | 日誌/資料留有空間 | df -h、/var/log 大小 |
留 20% 以上 |
| 日誌輪替 | 主要日誌是否輪替/刪除 | logrotate、Docker 日誌設定 |
定期輪替 |
| 備份/恢復 | 最新備份可還原 | 直接在測試環境還原 | 24~48 小時內成功 |
| SSL 憑證 | 到期日距離足夠、續期正常 | certbot/續期日誌 | 30 天以上空間 |
| 防火牆/埠 | 測試/臨時開放已整理 | ufw/iptables 設定 |
最小權限、移除不必要埠 |
| SSH 存取 | 認證方式、金鑰管理 | sshd_config、金鑰清單 |
金鑰登入、移除不必要金鑰 |
| 排程器 | 定期工作無失敗 | cron/systemd 日誌 | 無最近執行錯誤 |
| 資源峰值 | CPU/記憶體/連線峰值 | 監控面板、htop |
峰值仍有餘裕 |
| 依賴服務 | Redis/DB/外部 API 狀態 | 狀態頁面、日誌、通知頻道 | 故障即時偵測 |
雖然完成這些檢查後,假期期間可以安心休息, 但實際上許多伺服器管理員仍會在假期出發前 把能 SSH 連線的平板或筆記型電腦放進行李。 「萬一發生什麼事…」的心態。
我們能做的,就是 盡量降低事故發生機率, 並在發生時至少知道如何應對。
今年也請把小筆記型電腦放進行李, 至少「如果伺服器出問題,我知道怎麼處理」 這樣的心態,輕鬆迎接年末吧。

目前沒有評論。