1、某省政务云使用的云平台和负载均衡是不同厂商,导致云平台管理员无法掌握主机与虚拟机的逻辑关系。一旦发生虚机漂移,无法地位虚机位置,且无法得知宿主机负载业务的情况。
2、由于使用了不同厂商的安全设备及负载设备,无法提供各租户的整体资源运行情况(网络设备,安全设备,服务器,存储等)。
3、缺乏整体视图展示,无法查看全局云资源和各租户有云资源的使用和实时运行情况(网络使用情况,资源使用情况,安全攻击情况等)。
4、网络资源使用情况难以统计:由于云平台管理员无法快速掌握租户IP使用情况,易造成资源的多配或少配现象。
5、被动式运维,由于缺乏事件的预警预防机制,一旦故障发生时,不能及时恢复,影响业务连续运转,降级服务质量,甚至会造成巨大的经济损失。
6、故障处理过程不透明,租户无法实时掌握故障处理进度,且无法统计运维人员工作量,导致租户满意度下降,产生大量投诉。
针对用户需求,仁和针对云平台监控做出了1+N的多租户监控设计。
方案主要实现以下功能:
1、云资源整体监控
管理云平台全局配额(CPU, 内存,磁盘)使用情况,并且支持以租户视角查看租户下配额的使用情况,以及各个单元的状态。 如图。
2、宿主机管理
解决了宿主机与虚拟机的逻辑管理问题,每台主机的超分配情况,以及其上运行的虚拟数量和业务使用情况。如图。
3、业务视图管理
通过业务视图和服务器模型来管理IT资源,方便租户掌握和管理自有业务运行情况。帮助云平台运维人员管理全部租户业务情况。
4、云平台存储监控
通过对存储设备的监控,可以掌握存储的情况,宿主机与存储的对应关系,宿主机与存储类型的对应关系和各个虚拟机分配的磁盘的使用状态。
5、资源使用情况监控
管理各个的配额使用情况,并且以租户视角查看改租户配额的使用情况,以及各个网元的状态。
6、安全事件监控
通过对接客户云平台环境的安全设备告警日志,归并分析。通过对所有范式化后的日志进行安全事件关联分析,充分提高分析效率,帮助准确分析各租户业务使用情况。
7、安全风险分析
安全风险分析功能主要通过两个层面体现。单租户的安全趋势分析及全平台整体的安全风险趋势分析。
异构云统一监控
支持对紫光、曙光、华为、浪潮、H3C等云管平台与仁和云监控平台的对接,将云管平台中资源池,包括宿主机和虚拟机的数据同步到仁和云监控平台。显示各个云厂家资源池中的宿主机和虚拟机统计信息,其中宿主机基本信息包括宿主机名称、运行状态、主IP、主机类型、SN、厂家等,虚拟机基本信息包括虚拟机名称、运行状态、主IP、CPU个数、内存大小、磁盘大小、厂家等。可根据云厂家名称分类显示资源数量以及这些资源的基本信息,并为宿主机和虚拟机的统计结果提供查询功能。
云平台数据自动同步
定期的与云管平台自动同步,将云平台上的宿主机和虚拟机同步到云监控平台,并自动形成监控目标。
宿主机的同步信息包括基本信息和配额信息,配额信息包含CPU、内存、磁盘的总量、已使用以及可使用数据。
虚拟机的同步信息为虚拟机的基本信息,包括虚拟机CPU、内存、磁盘、操作系统等信息。
租户管理
平台多租户服务符合云计算多租户的规范要求,提供了租户的管理和隔离服务,为运维建设集约化和运维服务输出化提供支撑,运维应用遵循规范便可支持多租户,多租户服务包含以下功能。
一、租户信息管理:支持多级租户管理,可以增删、启用、禁用租户;
二、租户数据隔离:每个租户逻辑上独立,相互隔离,可以有独立的组织架构、数据模型、数据存储、数据处理和可视化展现。
配额展示
管理员可以通过云绩效查看全局资源使用情况,包括资源池情况、宿主机承载业务情况、宿主机与虚拟机的逻辑关系、存储、应用负载、链路负载等资源情况。
云资源总览
云资源概览可以根据云厂家维度或委办局(单位、处室)维度逐层钻取数据,主要包括总览维度、云厂家维度、委办局(单位、处室)维度、业务系统维度、云主机维度。
总览维度:查看总览或各个云厂家的CPU、内存、磁盘的配额和使用率信息,其中数据分为委办局(单位、处室)和非委办局(单位、处室)2个维度进行统计,可以查看云资源的实际复用比情况,以便分析云资源的资源分配是否合理。
云厂家维度:通过每个云厂家来查看各自云厂家CPU、内存、磁盘配额以及使用率情况,也可以查看该云厂家下的委办局(单位、处室)资源分配情况。
委办局(单位、处室)维度:可以查看该委办局(单位、处室)下业务系统指标统计,包括主机数量、CPU、内存、磁盘的配额以及使用率等指标。
业务系统维度:分析该业务系统下所有主机的使用情况,包括改业务系统全局配额和使用情况,分项显示每个主机的CPU核数、近1天CPU使用率、近1天CPU最大值、当前内存大小、近1天内存使用率、近1天内存使用最大值、近1天磁盘使用率等。
主机维度:查看每一台主机的CPU,内存,磁盘历史使用率情况,支持1年的历史查询。
1、异构云监控
支持异构云的监控,将多个平台的管理用户以一套管理平台进行展示和告警管理,提升管控效率。
2、云平台资源整合管理
支持云平台从上至下整体的监控,通过系统基线监控和业务监控,实现事件的早发现,早预警,早处理,有效避免故障发生时对业务造成的影响。
3、量化运维过程
帮助客户量化运维过程,实现处理过程可记录,可追溯。预先时别隐患,发现先兆,处置事态,避免故障,实现全时连续管理。
4、N+1多租户设计
租户计算资源的监控及业务安全分析,并实现多租户的分全分域管理。安全和监控需租用,降低运维成本 减少运维人员的工作量,提升运维人员的工作质量 给运维人员带来的方便。
5、态势感知
通过态势感知评估各个领域的风险趋势,有效预警。实现云环境的多层面,多时间的信息安全风险量化评估。
6、数据可视化
实现单屏和拼接屏的大屏展示。