容器云后端存储NFS高可用适配

强怀梅 · 2025-8-22 15:24:05

容器云后端存储NFS高可用适配方案

1. 背景及痛点

经规划数据中心生产环境各大生产业务系统将全部迁移至长沙，为提高数据安全性，在存储架构上首先应该保障高可用，并做备份方案！但是容器云KubeGien本身自带的存储方案 NFS，是不具备高可用性的，这受限于NFS本身的单点架构特点，因此准备做此次适配。
2. 方案选型

方案数据同步VIP 漂移DRBD 主备切换是否自动故障转移风险NFS + DRBD + Keepalived✅ 自动✅ 自动❌ 需手动❌ 手动干预Split-brain 风险低NFS + DRBD + Pacemaker/Corosync✅ 自动✅ 自动✅ 自动✅ 全自动如果没配 STONITH，split-brain 风险高分布式存储（CephFS/GlusterFS/XSKY）✅ 自动多副本✅ VIP/原生访问无需切换✅ 天生高可用成本高，架构复杂目前，已经做了XSKY的适配和测试，但是由于内部环境的一些限制，XSKY暂时还不满足现状，所以选用NFS+DRBD+Pacemaker/Corosync的方案，前期为了低风险，防止出现 Split-Brain（脑裂），暂时不启用Pacemaker/Corosync，选用NFS + DRBD + Keepalived架构方案。
3. 架构概览

3.1 架构原理

两台服务器通过 DRBD 做 块级别同步（主从），同步模式选 Protocol C（同步写），保证数据写入安全。
两台机器运行 NFS 服务，只有主节点对外提供 NFS（通过 Keepalived 提供 VIP），主节点挂了时 VIP 漂移到备节点并把 DRBD 切换为主，从而继续提供 NFS。
Kubernetes 指向 VIP 挂载 NFS（StorageClass / PersistentVolume 的 server 使用 VIP）。

优点：实现近实时（同步）数据一致性、主节点故障后自动切换；对现有 NFS 工作负载透明。

Pacemaker/Corosync：集群管理软件。负责：
- 监控两台服务器的健康状态（心跳）。
- 管理一个虚拟IP（VIP），客户端只连接这个IP。
- 提升DRBD资源为主（Primary）或降为备（Secondary）。
- 挂载DRBD设备（现在是/dev/drbd0）到目录（如/nfs_share）。
- 启动和停止NFS服务。

3.2 数据流向

客户端通过 VIP 写入数据到 主节点 的NFS服务。
主节点的NFS服务将数据写入它挂载的目录 /nfs_share。
/nfs_share 对应着块设备 /dev/drbd0。
DRBD 立即将写入 /dev/drbd0 的块数据，通过网络同步到备节点的 /dev/drbd0 设备上。
至此，数据已经安全地存在了两台服务器的硬盘上。

3.3 故障切换（Failover）：

在加入Pacemaker/Corosync集群前，采用人工切换方式，大概1-2分钟，具体切换方案这里不再赘述！
加入Pacemaker/Corosync集群后：

主节点宕机后， Pacemaker 会检测到。
在备节点上执行以下操作：
a. 将备节点的 DRBD 设备提升为 主（Primary）。
b. 将 DRBD 设备挂载到 /nfs_share。
c. 启动 NFS 服务。
d. 将 VIP 绑定到备节点的网卡上。
客户端重连 VIP，服务恢复。整个过程数据零丢失（因为是同步复制）。

4. 方案落地

4.1 环境准备

假设我们有两台服务器，保证时钟同步（建议 chrony/ntp）：

nfs-node1: 10.62.107.14
nfs-node2: 10.62.107.15
虚拟IP (VIP): 10.62.107.16
共享数据目录: /nfs_share
DRBD 资源名: nfs_res
DRBD 使用的磁盘: 两台服务器上各有一块未使用的磁盘 /dev/sdb
双向网络连通、无防火墙阻挡（drbd 使用 7789、keepalived 使用 VRRP 协议 112；NFS 视版本开放相应端口）

4.2 部署安装

在两台主机上执行（替换 yum -> dnf 若为 Rocky8/centos8）：

# 启用 EPEL
sudo yum install -y epel-release
# 安装 drbd-utils/drbd kernel module 以及 nfs + keepalived
sudo yum install -y drbd-utils kmod-drbd nfs-utils keepalived # 如在现有容器云操作nfs已安装则不需要再安装nfs-utils
# 开启并启用必要服务（先手动启动配置）
sudo systemctl enable --now nfs-server
sudo # 等 drbd 同步完成（watch cat /proc/drbd 同步状态）
sudo mkfs.xfs -f /dev/drbd0 # 或 ext4: mkfs.ext4 /dev/drbd0
sudo mkdir -p /srv/nfs/share
sudo mount /dev/drbd0 /srv/nfs/share
# 可加入 /etc/fstab 持久挂载（use _netdev? 但 DRBD 管理下慎放）
echo '/dev/drbd0 /srv/nfs/share xfs defaults 0 0' | sudo tee -a /etc/fstab
# drbd module 会随 drbdadm 操作加载
## 验证
drbdadm --version
cat /proc/drbd
------------------------------------------------------------------------------------------------------
# 针对银河麒麟这样的国产化机器，可能无法加载epel-release，也下载不了drbd-utils 用户态工具，则可以按照下面的方法：
#1. 一般都内置 DRBD 模块，开启即可
modprobe drbd
lsmod | grep drbd
#2 源码安装drbd-utils 和 kmod-drbd
# 2.1 安装编译工具
yum groupinstall -y "Development Tools"
yum install -y gcc gcc-c++ make automake autoconf libtool flex bison kernel-devel-$(uname -r) kernel-headers-$(uname -r)
# 2.2 获取源码
git clone https://github.com/LINBIT/drbd-utils.git
cd drbd-utils
./autogen.sh
./configure --prefix=/usr --localstatedir=/var --sysconfdir=/etc --without-manual
make
make install
# DRBD 内核模块如果系统没有，需要从 drbd 仓库编译：
git clone https://github.com/LINBIT/drbd.git
cd drbd
make KDIR=/lib/modules/$(uname -r)/build
make install
## 验证
drbdadm --version
cat /proc/drbd

复制代码

4.3 配置 DRBD (在两台节点上执行)

磁盘及分区准备：

# 清理分区表（谨慎）
sudo sgdisk --zap-all /dev/sdb
# 创建一个 single partition covering whole disk (example)
/sbin/parted -s /dev/sdb mklabel gpt mkpart primary 1MiB 100%
# 使用 /dev/sdb1 作为后端，或直接用 /dev/sdb

复制代码

创建 DRBD 配置文件 /etc/drbd.d/nfs_res.res

在两台节点上创建 /etc/drbd.d/nfs_res.res（注意：resource name 与 device/hosts）：

cat > /etc/drbd.d/nfs_res.res << EOF
resource nfs_res {
protocol C; # 使用同步协议，确保数据强一致性
# startup {
# become-primary-on both;
# }
# disk {
# on-io-error detach;
# }
# net {
# cram-hmac-alg "sha1";
# shared-secret "my-secret-key"; # 设置一个密钥用于通信验证
# after-sb-0pri discard-zero-changes;
# after-sb-1pri discard-secondary;
# after-sb-2pri disconnect;
# }
on kubegien-arm-02 {
device /dev/drbd0;
disk /dev/vdb1;
address 10.62.107.14:7788;
meta-disk internal;
}
on kubegien-arm-03 {
device /dev/drbd0;
disk /dev/vdb1;
address 10.62.107.15:7788;
meta-disk internal;
}
}
EOF

复制代码

加权限：

# 创建资源元数据
drbdadm create-md nfs_res
# 启用资源
drbdadm up nfs_res
# 在主节点上强制把数据覆盖到备（首次初始化仅在确认主节点数据为准时使用）
drbdadm -- --overwrite-data-of-peer primary nfs_res

复制代码

8.2 主节点配置 /etc/keepalived/keepalived.conf

重要：把 interface eth0 改为实际网卡名。
两台机器的 virtual_router_id 必须一致（如 51），auth_pass 一致。
主节点优先级高（如 150），备节点低（如 100）。

示例（nfs-node1 主机，priority 150）：

# 在 nfs-node1 上执行
drbdadm primary nfs_res --force

复制代码

8.3 备节点配置 /etc/keepalived/keepalived.conf
在nfs-node2（备）上 state BACKUP，priority 100。virtual_router_id 保持一致。
check_nfs.sh 示例（放 /usr/local/bin/check_nfs.sh，确保可执行）：

watch -n 1 'drbdadm status nfs_res'
# 或
cat /proc/drbd

复制代码

启动 Keepalived：

# 等 drbd 同步完成（watch cat /proc/drbd 同步状态）
sudo mkfs.xfs -f /dev/drbd0 # 或 ext4: mkfs.ext4 /dev/drbd0
sudo mkdir -p /srv/nfs/share
sudo mount /dev/drbd0 /srv/nfs/share
# 可加入 /etc/fstab 持久挂载（use _netdev? 但 DRBD 管理下慎放）
echo '/dev/drbd0 /srv/nfs/share xfs defaults 0 0' | sudo tee -a /etc/fstab

复制代码

检查 VIP 是否在主机上（ip addr）并能被其他机器 ping 通。

/srv/nfs/share 10.0.0.0/24(rw,sync,no_subtree_check,no_root_squash)

复制代码

在主节点应该能看到 VIP 10.62.107.200
停止主节点 systemctl stop nfs-server，VIP 应该漂移到备节点
恢复主节点 systemctl start nfs-server，VIP 会回切

4.4 首次同步与切换验证

主nfs节点创建测试文件：

sudo exportfs -ra
sudo systemctl restart nfs-server

复制代码

在备机上查看（在备机如果未挂载 /dev/drbd0 为 Secondary，它不能直接 mount 为读写。可临时把它切换为 Primary 来检查数据，或使用 drbdadm role 查看状态）。但可以使用 drbd-tools 命令查看同步状态。
测试 VIP 漂移：

模拟主节点失败：sudo systemctl stop keepalived nfs-server 或断网。
备机应接管 VIP：ip addr on nfs-b shows VIP.
在备机上把 DRBD 升为 PRIMARY（如果自动没有切换）：

手动操作指南：

#!/bin/bash
# 检查 DRBD + NFS 状态 (CSI NFS 场景)
# 只有 Primary 且内核 nfsd 线程存在时返回 0
# 1. 检查 DRBD 是否是 Primary
if ! grep -q 'ro:Primary' /proc/drbd; then
exit 1
fi
# 2. 检查 NFS 内核线程是否存在
if ! ps -ef | grep -q "[n]fsd"; then
exit 1
fi
# 3. 可选：确认导出目录是否存在
if ! exportfs -v 2>/dev/null | grep -q '/YuanQiNFS'; then
exit 1
fi
exit 0

复制代码

建议通过 Keepalived 的健康脚本在主故障时自动让备机提升为 Primary。但自动提升有风险（可能导致 split-brain）——务必确保网络隔离场景有明确策略。

5. 容器云集成

Kubernetes 中所有 NFS PersistentVolumes / StorageClass 的 server 字段改为 VIP xxx
6. 扩展--- Pacemaker/Corosync 集群管理

配置 Pacemaker/Corosync 集群

启动并启用 pcsd 服务 (在两台节点上执行)
1. chmod +x /usr/local/bin/check_nfs.sh
复制代码
在其中一个节点上完成集群认证和初始化
1. ! Configuration for Keepalived (NFS + DRBD)
3. global_defs {
4. router_id NFS_HA
5. }
7. vrrp_script chk_nfs {
8. script "/usr/local/bin/check_nfs.sh"
9. interval 2
10. weight -20
11. fall 3
12. rise 2
13. }
15. vrrp_instance VI_NFS {
16. state MASTER
17. interface eth0 # 替换为实际网卡名
18. virtual_router_id 51
19. priority 150 # 主节点优先级高
20. advert_int 1
21. authentication {
22. auth_type PASS
23. auth_pass nfsdrbd
24. }
25. virtual_ipaddress {
26. 10.62.107.200/24 # 设置 VIP，必须在 NFS 网络段内
27. }
28. track_script {
29. chk_nfs
30. }
31. }
复制代码
禁用无关服务并设置集群属性
1. global_defs {
2. router_id NFS_HA
3. }
5. vrrp_script chk_nfs {
6. script "/usr/local/bin/check_nfs.sh"
7. interval 2
8. weight -20
9. fall 3
10. rise 2
11. }
13. vrrp_instance VI_NFS {
14. state BACKUP
15. interface eth0
16. virtual_router_id 51
17. priority 100 # 比主节点低
18. advert_int 1
19. authentication {
20. auth_type PASS
21. auth_pass nfsdrbd
22. }
23. virtual_ipaddress {
24. 10.62.107.200/24
25. }
26. track_script {
27. chk_nfs
28. }
29. }
复制代码

第四步：创建 Pacemaker 集群资源

非常重要：以下所有 pcs 命令只需在其中一个节点（如 nfs-node1）上执行一次即可。

创建 DRBD 资源
1. systemctl enable --now keepalived
复制代码
创建 DRBD 主从Promotion约束
1. ip addr show enp1s0 | grep VIP
复制代码
创建文件系统资源（用于格式化并挂载DRBD设备）
1. echo "hello from a" | sudo tee /YuanQiNFS/hello_a.txt
复制代码
创建虚拟IP（VIP）资源
1. # 在备机上手动操作指南：
2. sudo drbdadm primary --force nfs_res
3. sudo mount /dev/drbd0 /YuanQiNFS # 备机现在可以挂载并提供 NFS
4. sudo systemctl start nfs-server
复制代码
创建NFS服务资源
1. systemctl start pcsd
2. systemctl enable pcsd
复制代码

第五步：验证和测试

检查集群状态
1. # 1. 先设置集群用户密码 (在两台节点上设置相同的密码)
2. echo 'hacluster:your_secure_password' | chpasswd
4. # 2. 在 nfs-node1 上执行
5. pcs cluster auth nfs-node1 nfs-node2 -u hacluster -p 'your_secure_password' --force
6. pcs cluster setup --name nfs_cluster nfs-node1 nfs-node2 --force
7. pcs cluster start --all
8. pcs cluster enable --all
复制代码
你应该看到所有资源都在一个节点（如 nfs-node1）上正常运行 (Started)。
在客户端挂载测试
在另一台Linux客户端上：
1. pcs property set stonith-enabled=false # 没有STONITH设备先禁用
2. pcs property set no-quorum-policy=ignore # 两节点集群需要忽略quorum
复制代码
模拟故障转移测试 (非常重要!)
- 方法A：手动切换
  1. pcs resource move drbd_clone nfs-node2# 查看 # 1. 先设置集群用户密码 (在两台节点上设置相同的密码)
  2. echo 'hacluster:your_secure_password' | chpasswd
  4. # 2. 在 nfs-node1 上执行
  5. pcs cluster auth nfs-node1 nfs-node2 -u hacluster -p 'your_secure_password' --force
  6. pcs cluster setup --name nfs_cluster nfs-node1 nfs-node2 --force
  7. pcs cluster start --all
  8. pcs cluster enable --all，等待所有资源都切换到 nfs-node2 上# 在客户端检查文件是否还在，是否可以继续写入
  复制代码
- 方法B：暴力测试
  直接在 nfs-node1 上执行 reboot 或 echo c > /proc/sysrq-trigger (触发内核崩溃)。然后观察集群状态，资源应该会自动转移到 nfs-node2 上。

故障排除常用命令

# 1. 先设置集群用户密码 (在两台节点上设置相同的密码)
echo 'hacluster:your_secure_password' | chpasswd

# 2. 在 nfs-node1 上执行
pcs cluster auth nfs-node1 nfs-node2 -u hacluster -p 'your_secure_password' --force
pcs cluster setup --name nfs_cluster nfs-node1 nfs-node2 --force
pcs cluster start --all
pcs cluster enable --all - 查看集群整体状态
pcs resource debug-start - 尝试手动启动一个资源并输出详细日志
drbdadm status - 查看DRBD状态
journalctl -xe - 查看系统日志
pcs constraint - 查看所有约束
mount | grep drbd - 检查DRBD设备是否已挂载

来源：豆瓜网用户自行投稿发布，如果侵权，请联系站长删除

账号		自动登录	找回密码
密码			立即注册

容器云后端存储NFS高可用适配

相关帖子

浏览过的版块

签约作者

容器云后端存储NFS高可用适配

相关帖子

相关推荐

浏览过的版块

签约作者