年终需要检查的服务器设置 10 项
(为了防止任何意外发生)
“年终就特别需要检查吗?” 结论是需要。
年终并不会让服务器变得特殊, 但人会变得特殊。
- 节假日人手减少
- 流量模式失常
- 紧张感放松
因此年终往往成为事故概率与风险最高的时期。 本文不是“年终一定要做”的强迫性清单,而是 在假期期间确保一切顺利的现实检查列表。
1. 磁盘使用量与日志增长速度
年终并不会让日志量下降。
尤其要检查:
/var/log使用量- 应用日志轮转设置
- Docker 容器日志大小(json 日志是否无限增长)
磁盘满的服务器会无预警停机。 平时能忍受的情况,在假期也可能直接导致故障。
2. 备份是否“存在”而非“可恢复”
备份文件是否存在比备份本身更重要。
“这真的能恢复吗?”
年终前至少做一次以下操作:
- 确认最近的备份文件是否存在
- 简单验证压缩文件是否损坏
- 在测试环境直接恢复
避免新年第一天发现“备份损坏”。
3. SSL/TLS 证书到期日
年末年初是证书到期事故频发期。
- Let’s Encrypt 自动续期是否正常
cron或systemd timer是否被禁用- 最近续期日志是否有错误
“自动续期没问题”往往是年终最常见的故障触发器。
4. 防火墙规则与“临时”开放设置
一年运营下来会积累许多临时配置。
- 测试用开放的端口
- 临时开放的 IP
- 已不再使用的服务端口
这些临时设置随着时间会变成没人记得的安全漏洞。 年终是整理它们的最佳时机。
5. SSH 访问方式与密钥管理
假期期间的攻击往往被延迟发现。
因此 SSH 设置要特别保守。
- 是否禁用密码登录
- 删除未使用的 SSH 密钥
- 移除离职员工或外包人员的密钥
- 管理员账号是否仅拥有最低权限
“服务器没人关心”是安全方面的常见错误假设。
6. cron/调度器的悄悄失败
cron、systemd timer、作业调度器
即使失败也会悄悄失效。
- 最近执行日志是否有错误
- 长期失败的作业是否存在
- 不再需要的作业是否仍在运行
年终出现的调度器故障会在新年继续存在。
7. 资源使用量以“峰值”而非“平均”衡量
年终流量波动更大。
- 某段时间流量激增
- 机器人/爬虫异常访问
- 某国假期模式
监控时应查看峰值而非平均值。
- CPU、内存峰值
- DB 连接数、队列长度
- 并发用户数、会话数
“平时没问题”在年终往往不成立。
8. 应用依赖服务状态
服务器本身正常,但依赖服务宕机也会导致整体停机。
例如:
- Redis / Memcached
- 消息代理(Kafka、RabbitMQ、SQS 等)
- 外部 API(支付、认证、通知等)
- 文件/图片存储
年终这些服务也会频繁检查、部署、定期任务。 故障时常出现“日志干净但服务停了”的情况。 建议同时检查依赖服务的状态页面或故障通知渠道。
9. 错误通知是否真正“到达”
拥有错误通知系统与通知实际到达是两回事。
- 人为触发一次错误
- 邮件/Slack/Webhook 是否真正收到
- 严重度过滤是否导致被忽略
年终故障的最大问题往往是没人知道。
“没人知道故障发生了”
10. “出现问题时从哪里开始”整理好的文档
最后一项是文档,而非设置。
- 主要服务列表
- 服务器/容器登录方式
- 日志位置(nginx、app、DB、队列等)
- 重启/回滚方法
- 紧急响应顺序
有无这份文档决定了 年终故障响应难度是硬模式 ↔ 普通模式。
年终服务器检查清单
为方便旁边检查,列出核心项目的简易表格。
| 项目 | 检查内容 | 检查方法示例 | 推荐状态 |
|---|---|---|---|
| 磁盘使用量 | 日志/数据磁盘余量 | df -h、检查 /var/log 大小 |
余量 ≥ 20% |
| 日志轮转 | 主要日志文件是否轮转/删除 | logrotate、Docker 日志设置 |
定期轮转 |
| 备份/恢复 | 最新备份是否可恢复 | 在测试环境直接恢复 | 24~48 小时内成功 |
| SSL 证书 | 到期日与自动续期 | certbot/续期日志 | 至少 30 天余量 |
| 防火墙/端口 | 临时/测试端口/例外 | ufw/iptables 检查 |
最小权限,移除不必要端口 |
| SSH 访问 | 认证方式与密钥管理 | sshd_config、密钥列表 |
基于密钥登录,移除无用密钥 |
| 调度器 | 定期任务是否失败 | cron/systemd 日志 | 最近无执行错误 |
| 资源峰值 | CPU/内存/连接峰值 | 监控面板、htop |
峰值也有余量 |
| 依赖服务 | Redis/DB/外部 API 状态 | 状态页面、日志、通知渠道 | 故障能即时检测 |
如果完成上述检查,假期期间就能安心休息。 但现实往往更复杂。
即使完成所有检查,许多服务器管理员仍会在年终假期 把一台可以 SSH 连接的平板或笔记本放进行李。 “万一出现问题…最好能随时处理” 的心态。
我们能做的就是最大限度降低事故概率, 并在出现问题时至少知道如何应对。
今年也请把一台小笔记本放进行李, 至少让自己有“如果服务器崩溃怎么办”的信心。

目前没有评论。