前几天刚做完云平台的巡检,博主这边客户要求每月一检,说明每个月都有一天时间可以摸鱼了。言归正传,今天给大家浅聊一下云平台巡检所需要注意的一些事项(这里以博主巡检的环境为主)。
首先我们知道云平台是由计算资源和存储资源构成,所以我们巡检的时候也会按照这个维度来进行。博主所在的环境使用的是分布式存储,所以接下来我们就从博主巡检的这个环境来展开。
**计算资源**
**1、云平台管理节点检查**
一般来说云平台都会有一个管理节点,如 vmware 中的 vcenter。
巡检项:
- 检查管理节点的运行状态;
- 检查相关服务的运行状态;
- 检查管理节点的磁盘使用情况;
- 如有做高可用配置,还需检查高可用状态。
**2、云平台计算节点检查**
计算节点也就是我们的物理服务器。
巡检项:
- 检查时间同步;
- 检查是否有硬件报错;
- 检查宿主机的运行时间;
- 检查宿主机的磁盘使用情况。
**3、云平台集群HA检查**
集群HA通常集群里的宿主机通过管理网络相互通信,当集群中有一台宿主机发生故障时,能快速将虚拟机在其他宿主机上拉起,快速恢复运行。如 vmware 中的 vSphere HA,是vSphere集群的一个服务功能项。
巡检项:
- 检查HA的状态;
- 检查HA的配置信息;
- 检查HA的仲裁方式;
- 检查是否存在未开启HA的虚拟机。
**4、云平台计算资源检查**
计算资源是云平台不可或缺的一部分,分为 cpu 和内存,cpu可以超分,内存不建议超分。
巡检项:
- 检查各个宿主机的cpu与内存资源;
- 检查云平台内各个集群的cpu与内存资源;
- 检查是否有cpu和内存的超分情况;
- 检查宿主机内存预留(预留一部分内存给宿主机运行使用)。
**5、云平台存储资源检查**
存储对于云平台来说也是不可或缺的,这里以分布式存储ceph为准详细给大家展开。
巡检项:
- 检查ceph集群状态(`ceph -s `或 `ceph health detail`);
`ceph -s` 能简单的查看集群的运行状态,显示**HEALTH_OK**为健康。
`ceph health detail`命令检查集群的整体健康状况。这将提供有关任何错误、警告或需要注意的事项的信息。
- 检查Mon节点状态(`ceph mon stat`);
检查monitor节点的数量和它们的状态是否正常。至少需要三个monitor节点来保证高可用性。
- 检查OSD的状态;
可以使用`ceph osd stat`和`ceph osd tree`命令来确认所有OSD是否都在线且工作正常。
- 检查PG的状态;
可以使用`ceph pg stat`和`ceph pg dump`命令检查PG的状态,确保没有处于不健康状态的PG(如active+clean以外的状态)。
- 检查存储池使用情况(`ceph df`);
- 检查存储主机的时间同步(`date`);
- 检查存储主机的磁盘使用情况(`df -h`);
- 检查存储主机之间的网络是否存在丢包(不同主机之间互`ping`);
- 检查存储主机磁盘是否有存在磁盘坏道;
- 检查存储主机的运行时间(`uptime`)。
- 检查存储主机硬件是否有报错(`dmesg -T | grep error`)
**总结**
这一套操作下来,基本就可以慢慢的摸一天鱼了。总的来说,云平台巡检注重的就是计算资源与存储资源,确保运行状态正常,能够提供给虚拟机正常运行使用。以上是博主对于云平台巡检的一些个人见解,如有表述不当的地方欢迎各位补充。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...