【案例分析】微服务异常重启排查

💬

近期在测试环境中遇到某个微服务频繁重启的问题，最终排查发现是由于k8s节点的 ephemeral-storage 资源不足被系统驱逐。

🕵️ 异常现象与初步排查

通过 Rancher 查看微服务状态时，发现该服务所在的 Pod 被频繁重启。

为了进一步定位问题，使用如下命令查看 Pod 详细信息：

实际返回信息如下（重点内容已摘录）：

主容器状态：

可以看到：

这表明问题并非出在服务本身，而是底层资源调度层面。

ephemeral-storage 是 k8s 中的短期本地磁盘资源，与 Pod 生命周期绑定，Pod 一旦终止，其中的 ephemeral-storage 数据也会被清理。它常被用于：

经过排查发现，导致节点存储空间耗尽的元凶是该服务在 /var/logs 中持续写入大量日志文件，最终触发 kubelet 的资源回收机制。

kubelet 默认会根据如下设置执行驱逐操作：

也就是说，当节点可用磁盘空间小于 10% 时，就会主动驱逐 Pod 来释放资源。

在 k8s 中，每个节点的 kubelet 会持续监控 CPU、内存、磁盘等资源使用。当系统检测到 磁盘资源紧张 时：

触发驱逐的典型消息如下：

Exit Code: 137 表示容器收到了 SIGKILL 信号，通常有以下几种可能：

本案例符合第三种情况。

k8s 会在 Pod 被驱逐后自动执行资源清理：

这也是为什么节点在一段时间后“恢复正常”，磁盘资源回落到合理区间。

k8s 默认不强制设置 ephemeral-storage，需要手动添加。例如：

建议特别关注以下几类 Pod，它们通常容易产生大量临时文件：

Kubernetes 决定驱逐哪个 Pod 时，会依据以下几个因素：

优先级因素	描述
`PodPriority`	明确设置的优先级值，值越低越容易被驱逐
`QoS Class`	BestEffort > Burstable > Guaranteed，优先驱逐低保障级别 Pod
实际资源占用	占用资源多的 Pod 更可能被选中驱逐
驱逐策略配置	kubelet 的驱逐参数设置决定触发条件