运维篇——云平台巡检

前几天刚做完云平台的巡检，博主这边客户要求每月一检，说明每个月都有一天时间可以摸鱼了。言归正传，今天给大家浅聊一下云平台巡检所需要注意的一些事项（这里以博主巡检的环境为主）。

首先我们知道云平台是由计算资源和存储资源构成，所以我们巡检的时候也会按照这个维度来进行。博主所在的环境使用的是分布式存储，所以接下来我们就从博主巡检的这个环境来展开。

**计算资源**

**1、云平台管理节点检查**

一般来说云平台都会有一个管理节点，如 vmware 中的 vcenter。

巡检项：

- 检查管理节点的运行状态；

- 检查相关服务的运行状态；

- 检查管理节点的磁盘使用情况；

- 如有做高可用配置，还需检查高可用状态。

**2、云平台计算节点检查**

计算节点也就是我们的物理服务器。

巡检项：

- 检查时间同步；

- 检查是否有硬件报错；

- 检查宿主机的运行时间；

- 检查宿主机的磁盘使用情况。

**3、云平台集群HA检查**

集群HA通常集群里的宿主机通过管理网络相互通信，当集群中有一台宿主机发生故障时，能快速将虚拟机在其他宿主机上拉起，快速恢复运行。如 vmware 中的 vSphere HA，是vSphere集群的一个服务功能项。

巡检项：

- 检查HA的状态；

- 检查HA的配置信息；

- 检查HA的仲裁方式；

- 检查是否存在未开启HA的虚拟机。

**4、云平台计算资源检查**

计算资源是云平台不可或缺的一部分，分为 cpu 和内存，cpu可以超分，内存不建议超分。

巡检项：

- 检查各个宿主机的cpu与内存资源；

- 检查云平台内各个集群的cpu与内存资源；

- 检查是否有cpu和内存的超分情况；

- 检查宿主机内存预留（预留一部分内存给宿主机运行使用）。

**5、云平台存储资源检查**

存储对于云平台来说也是不可或缺的，这里以分布式存储ceph为准详细给大家展开。

巡检项：

- 检查ceph集群状态（`ceph -s `或 `ceph health detail`）；

`ceph -s` 能简单的查看集群的运行状态，显示**HEALTH_OK**为健康。

`ceph health detail`命令检查集群的整体健康状况。这将提供有关任何错误、警告或需要注意的事项的信息。

- 检查Mon节点状态（`ceph mon stat`）；

检查monitor节点的数量和它们的状态是否正常。至少需要三个monitor节点来保证高可用性。

- 检查OSD的状态；

可以使用`ceph osd stat`和`ceph osd tree`命令来确认所有OSD是否都在线且工作正常。

- 检查PG的状态；

可以使用`ceph pg stat`和`ceph pg dump`命令检查PG的状态，确保没有处于不健康状态的PG（如active+clean以外的状态）。

- 检查存储池使用情况（`ceph df`）；

- 检查存储主机的时间同步（`date`）；

- 检查存储主机的磁盘使用情况（`df -h`）；

- 检查存储主机之间的网络是否存在丢包（不同主机之间互`ping`）；

- 检查存储主机磁盘是否有存在磁盘坏道；

- 检查存储主机的运行时间（`uptime`）。

- 检查存储主机硬件是否有报错（`dmesg -T | grep error`）

**总结**

这一套操作下来，基本就可以慢慢的摸一天鱼了。总的来说，云平台巡检注重的就是计算资源与存储资源，确保运行状态正常，能够提供给虚拟机正常运行使用。以上是博主对于云平台巡检的一些个人见解，如有表述不当的地方欢迎各位补充。

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

宙飒天下网

正文

运维篇——云平台巡检

相关阅读

搭建自己「威胁情报云平台」上线！一键聚合全球威胁数据，让安全运营更智能！

360数字安全集团双料王：获攻防实战卓越团队及创新解决方案奖项

ADConf 2025圆满落幕：智变·暗涌引领攻防技术新思考

ADConf 2025圆满落幕：智变·暗涌引领攻防技术新思考

发表评论取消回复

还没有评论，来说两句吧...

目录[+]