1. 在把设备/主机放到香港机房前,先确认托管合同与机房交付清单。小分段:a) 确认公网IP、带宽、机架位置与电源冗余;b) 准备账号(机房工单、门禁、运维联系人);c) 预先在本地配置好OS镜像、SSH公钥和主机名。
2. 上机后用控制台或远程管理先登录,执行系统更新并记录版本。小分段:a) Debian/Ubuntu:sudo apt update && sudo apt -y upgrade;b) RHEL/CentOS:sudo yum update -y 或 sudo dnf update -y;c) 重启并确认内核:uname -a;记录补丁状态。
3. 不直接使用root,创建运维账号并授予sudo权限。小分段:a) adduser ops && passwd ops;b) usermod -aG sudo ops(Debian系)或 usermod -aG wheel ops(RHEL系);c) 编辑 /etc/ssh/sshd_config 禁止 PermitRootLogin no 和 PasswordAuthentication no(后面配合公钥);重启 sshd:sudo systemctl restart sshd。
4. 配置SSH密钥、改端口并启用Fail2ban。小分段:a) 在本地生成密钥:ssh-keygen -t ed25519 -f id_ed25519;把公钥追加到服务器 ~ops/.ssh/authorized_keys 并 chmod 600;b) 修改 /etc/ssh/sshd_config:Port 2222(或其他)、PermitRootLogin no、PasswordAuthentication no、PubkeyAuthentication yes;c) 安装并配置 fail2ban:sudo apt install fail2ban;编辑 /etc/fail2ban/jail.local,针对 sshd 设置 maxretry、bantime;d) 防止暴力破解:在机房防火墙上限制访问 IP 或启用白名单。
5. 使用 ufw/iptables/nftables 设定最小权限原则。小分段:a) 使用 ufw 示例:sudo ufw default deny incoming;sudo ufw default allow outgoing;sudo ufw allow 2222/tcp;sudo ufw allow 80,443/tcp;sudo ufw enable;b) 若使用 iptables,写入持久规则并保存:iptables-save > /etc/iptables/rules.v4;c) 在机房侧(上游)配置 ACL,限制管理 IP 段并开启黑洞或速率限制应对流量攻击。
6. 关闭不必要服务、启用安全模块并调整内核参数。小分段:a) 列出服务:systemctl list-unit-files --type=service --state=enabled,禁用不需要的服务:sudo systemctl disable --now service;b) 启用 SELinux/AppArmor 并配置策略;c) 编辑 /etc/sysctl.conf 加固网络(例如 net.ipv4.ip_forward=0、net.ipv4.conf.all.rp_filter=1),sudo sysctl -p。
7. web 与 DB 需独立账号、最小权限与加密传输。小分段:a) 使用 HTTPS:安装 certbot 并自动续期:sudo apt install certbot && sudo certbot --nginx;b) 数据库账号分离、远程访问通过 VPN 或私有网络,MySQL 示例:CREATE USER 'app'@'10.0.0.5'; GRANT SELECT,INSERT,UPDATE ON db.* TO 'app'@'10.0.0.5'; c) 配置 TLS(MySQL、Postgres)并关闭明文传输。
8. 部署监控采集与集中日志便于快速响应。小分段:a) 安装 Prometheus/Node exporter、Grafana 做指标可视化;b) 集中日志:rsyslog/Fluentd 将 /var/log 发送到机房或云端日志服务并做 logrotate;c) 配置基于阈值的告警(磁盘、CPU、异常登出、失败登录次数)。
9. 先定义恢复目标:RPO(可容忍数据丢失时间)、RTO(恢复所需时间)。小分段:a) 决定备份类型:全量、增量、快照;b) 选择备份频率:数据库实时/每小时增量、文件每天全量/每小时增量;c) 决定备份保留策略(例如 7 天日备、4 周周备、12 个月月备)。
10. 推荐使用可加密且可校验的工具(restic、borg、rsync + 对象存储)。小分段:a) restic 示例:restic init --repo s3:s3.example.com/bucket;备份:restic -r s3:... backup /var/www /etc;自动化:把 restic 密钥存在安全位置并写入 crontab;b) 使用 rsync 到远程备机或 NAS:rsync -a --delete /data/ backup@backupbox:/backup/主机名/;c) 文件系统快照:LVM:lvcreate --size 1G --snapshot ...,然后挂载并备份快照,备份后及时 lvremove。
11. 离站备份防止机房灾难并对备份加密:小分段:a) 使用 S3/对象存储(可选香港或海外)作为异地副本;b) 使用 restic/borg 加密备份并启用加密密钥离线备份(密钥不要保存在主机);c) 定期做备份校验:restic -r ... check 或 borg check,并记录校验日志。
12. 定期演练恢复流程并做安全审计。小分段:a) 制定恢复手册:步骤、联系人、RTO 要求;b) 每季度进行一次完全恢复演练(从备份恢复到隔离测试环境),记录时间与问题;c) 每月审计:SSH登录记录、未授权用户、补丁合规性与备份完整性。
13. 答:确保合规和隐私的关键有三点:一是数据加密(传输与静态均启用 TLS/RESTIC/BORG 加密),二是选择合规的目标存储(查看机房/云提供商的数据主权政策与合同),三是访问控制与审计(最小权限、密钥管理、保留审计日志)。在实现上,使用端到端加密备份(restic/borg),并把加密密钥储存在独立安全位置(如企业 KMS 或离线硬件),同时在合同中明确数据处理与保留条款。
14. 答:按演练手册快速恢复的基本流程是:a) 启用备用主机或从快照/镜像重建主机(使用预配置的镜像与 IaC 脚本),b) 从最新的可用备份恢复数据库(先恢复到隔离环境校验),c) 先恢复关键服务(如数据库、认证、负载均衡器)然后逐步恢复应用,整个过程中使用 DNS/负载均衡切换流量,尽量实现零停机或最小停机。
15. 答:根据业务重要性制定:关键业务数据库建议每小时增量/每日全量,应用代码与配置每日全量;非关键静态数据可每日或每周备份。保留策略示例:最近7天保留日备、最近4周保留周备、最近12个月保留月备。再结合 RPO/RTO 要求与存储成本做权衡,并在策略中包含自动删除规则与合规保留期。