年末時必檢查的伺服器設定 10 項

(為了避免任何意外)

「年末就一定要特別檢查嗎?」 結論先說:

年末並不會讓伺服器變得特殊, 但人員會變得特殊

  • 假期人力減少
  • 流量模式變化
  • 緊張感放鬆

因此年末往往成為事故風險最高的時期。 本文不是「年末就必須做」的強迫清單,而是 在假期期間確保一切順利的實際檢查項目


1. 磁碟使用量與日誌增長速度



年末並不會讓日誌減少。

特別要確認以下項目。

  • /var/log 使用量
  • 應用程式日誌輪替設定
  • Docker 容器日誌大小(json 日誌是否無限增長)

磁碟滿的伺服器會毫無預警停止。 平時「還能忍」的情況,在假期也很容易直接成為故障。


2. 備份「存在」與「可恢復」

備份檔案存在比備份本身更重要。

這個真的能恢復嗎?

年末前至少做一次以下檢查。

  • 確認最近備份檔案是否存在
  • 簡單驗證壓縮檔是否損毀
  • 在測試環境直接還原

避免新年第一天發現「備份壞了」的尷尬。


3. SSL/TLS 憑證到期日



年末與年初是憑證到期事故頻發時期。

  • Let’s Encrypt 自動續期是否正常
  • cronsystemd timer 是否被停用
  • 最近續期日誌是否有錯誤

「自動續期沒問題」的想法 是年末最常見的故障觸發點。


4. 防火牆規則與「臨時」開放設定

一年運營會累積許多臨時設定。

  • 測試用開放的埠
  • 暫時允許的 IP
  • 已不再使用的服務埠

這些臨時設定隨時間會變成 沒有人記得存在的安全漏洞。 年末是整理這些設定的最佳時機。


5. SSH 存取方式與金鑰管理

假期期間的入侵往往 被發現得較晚

因此 SSH 設定要特別保守。

  • 是否已停用密碼登入
  • 刪除不使用的 SSH 金鑰
  • 移除離職或外包人員金鑰
  • 管理員帳號是否只保留最小權限

「我們伺服器沒人關心」的樂觀想法 在安全上往往是錯誤的。


6. cron / 排程器的靜默失敗

cron、systemd timer、排程器 失敗時會靜默失敗

  • 最近執行日誌是否有錯誤
  • 長期失敗的工作是否仍在執行
  • 不再需要的工作是否仍在跑

年末失敗的排程器 會在新年繼續存在。


7. 資源使用量以「峰值」為基準

年末流量波動比平時大。

  • 某段時間流量急升
  • 機器人/爬蟲異常訪問
  • 特定國家假期模式

因此監控也要查看峰值

  • CPU、記憶體峰值
  • DB 連線數、佇列長度
  • 同時連線數、會話數

「平時沒問題」的說法 在年末不太能安慰人。


8. 應用程式依賴服務狀態

伺服器本身正常,但 依賴服務失效時服務也會停止。

例如:

  • Redis / Memcached
  • 訊息佇列(Kafka、RabbitMQ、SQS 等)
  • 外部 API(支付、認證、通知等)
  • 檔案/影像儲存

年末這些服務也會 大量檢查、部署、定期工作

故障時常會出現「我們的日誌乾淨」的情況。 建議同時檢查依賴服務的狀態頁面或故障通知頻道。


9. 錯誤通知是否真的「到達」

擁有錯誤通知系統與 通知實際到達是兩回事。

  • 人為觸發一次錯誤
  • 確認 Email/Slack/Webhook 是否真的收到
  • 重要性過濾器是否把訊息忽略

年末故障的最大問題往往是 「沒有人知道發生了」。

「沒有人發現故障」


10. 「問題發生時從哪裡開始」的文件

最後一項不是設定,而是文件

  • 主要服務清單
  • 伺服器/容器連線方式
  • 日誌位置(nginx、app、DB、佇列等)
  • 重啟/回滾方法
  • 緊急應變順序

有這份文件,年末故障應變難度 會從 硬模式 ↔ 正常模式 轉變。


年末伺服器檢查清單

以下為簡易表格,方便旁邊檢查。

項目 檢查內容 確認方法範例 推薦狀態
磁碟使用量 日誌/資料留有空間 df -h/var/log 大小 留 20% 以上
日誌輪替 主要日誌是否輪替/刪除 logrotate、Docker 日誌設定 定期輪替
備份/恢復 最新備份可還原 直接在測試環境還原 24~48 小時內成功
SSL 憑證 到期日距離足夠、續期正常 certbot/續期日誌 30 天以上空間
防火牆/埠 測試/臨時開放已整理 ufw/iptables 設定 最小權限、移除不必要埠
SSH 存取 認證方式、金鑰管理 sshd_config、金鑰清單 金鑰登入、移除不必要金鑰
排程器 定期工作無失敗 cron/systemd 日誌 無最近執行錯誤
資源峰值 CPU/記憶體/連線峰值 監控面板、htop 峰值仍有餘裕
依賴服務 Redis/DB/外部 API 狀態 狀態頁面、日誌、通知頻道 故障即時偵測

雖然完成這些檢查後,假期期間可以安心休息, 但實際上許多伺服器管理員仍會在假期出發前 把能 SSH 連線的平板或筆記型電腦放進行李。 「萬一發生什麼事…」的心態。

我們能做的,就是 盡量降低事故發生機率, 並在發生時至少知道如何應對。

今年也請把小筆記型電腦放進行李, 至少「如果伺服器出問題,我知道怎麼處理」 這樣的心態,輕鬆迎接年末吧。

Dev cheking operating server