机房一体化智能平台设计方案
摘要:机房一体化智能平台秉承“一体化”设计思路,解决一体化监控和一体化运维中的主要问题,同时实现数据检测与数据分析功能。
关键词:智能平台、一体化监控、一体化运维、数据分析
一、系统设计思路
随着计算机系统技术和设备的不断更新,信息数字化成为席卷全球的浪潮,机房一体化智能平台的也随之多样化,但是性能参差不齐,主要存在问题是功能不够全面,满足不了现在机房维护需求,本次设计遵从软件的先进性、成熟性、适用性、可靠性、系统性、高效性、易用性、智能化、绿节能、可持续性、开放性的原则,主要包括两个功能一体化监控和一体化运维同时实现数据检测与数据分析功能。
二、系统架构设计
本次构建的一体化智能平台实际需求,形成整体系统功能架构。同时,系统软件具备在线升级
和平滑扩容能力,可实现本地或远程等多种升级方式,易于操作,且不同时期版本具备向下兼容能力。系统架构设计完全可满足本项目后续的系统扩容及兼容性要求,避免因后续新需求而带来投资浪费。
另一方面,系统采用模块化的分层架构进行设计,各功能模块之间采用松耦合关系建立,确保系统的稳定可靠运行,任何模块出现故障不会影响同级别的其他模块的正常工作。并能随着业务发展的需求,灵活地扩充更多关联性的功能模块。
系统架构具体描述如下:
1.系统接口层(数据采集)
前端通过安装采集代理,将来自下层专业监控系统的数据进行分别采集;同时系统预留了其他第三方系统对接的接口,方便后期进行系统扩容。
2.集中处理层
平台将采集上来的数据进行数据的存储、图形化组态。根据每个用户的权限,进行数据区分。
前端系统的报警事件会先经过复杂事件处理,然后将处理后的报警结果分级分类发送给指定运维人员。同时也会对历史大数据进行统计分析,将预测结果和累计结果发给运维人员做判断。
3.运行管理
一方面是针对于机房基础设施资源的管理,包括设施监控、资产管理、容量管理、能效管理,这些管理模块会将所有的基础设施的运行信息进行关联化处理和可视化呈现,并为数据中心的资源使用及计划提供必要的、基本的辅助工具;
二方面是基于ITIL体系构建的运行管理功能,包括故障管理、巡检管理、值班管理、维保管理、变更管理、协助工单管理、问题管理、供应商管理、知识管理等。这些管理模块会对基础设施信息和运维人员的工作进行合规化管理,提升运维管理人员工作的电子化、流程化、智能化水平。
4.交互展示
交互展示层包括个人工作台展示、报表报告展示、大屏应用展示、移动终端等相关应用,系
统所有的数据展示及信息交互都会在交互展示层统一实现。
三、一体化智能平台功能实现
3.1.一体化监控
建设的一体化监控通过监控、分析数据中心的运行信息,帮助数据中心管理者掌握数据中心基础设施运行情况(当前与趋势),提高数据中心的可用性。
本项目基础设施监控涵盖:视频监控系统、门禁管理系统、智数融合感知系统系统、电力监控系统、空调控系统、极早期系统、机器人巡检系统。
同时,为确保数据中心各运行参数的全面、准确获取,需补充部署若干重要的数据采集设备,来完善既有的数据中心基础设施监控体系:如,通过新增及改造现网动环监控设备,实现数据中心动环设备的全面、精细化监控,以实现数据中心运行状态的有效监控,并为数据中心能效管理提供可靠支撑;通过在架资产检测终端的部署,获得数据中心在架资产的实时状态,解决账实不符的难题,并为数据中心容量管理提供有效依据;
3.2.一体化监控功能说明
基础设施监控的主要功能包括:故障定位分析、控制策略模型以及监控阈值及告警、故障等级的设置等等。
3.2.1数值计算
数值计算模块提供计算公式的实时运算,包括各种虚拟测点的计算(如数据中心PUE、能耗、平均温度、流量排名、平均流量等实时计算),为各业务模块提供所需的数据。系统采用图形化的工具,允许用户通过拖拽各种计算图元(加、减、乘、除等),创建自己的计算公式,也可以使用和扩展公式库中内置的计算公式(如PUE、EEUE、WUE,冗余量等)。
3.2.2数据分析
数据分析模块基于历史数据,通过各种分析算法,发现潜在问题,分析发展趋势,从而提前预警、告警、作为管理决策信息。
数据分析模块提供可视化分析工具,能方便的能从分析数据集中选择和分析主题相关的数据,关联各种分析图元,如表格,柱状图,饼状图,曲线等,运用各种分析算法,如关联影响分析,聚类分析等机器学习算法,形成各种分析报告。如某测点异常,会对哪些相关项产
生何种影响;从关联集里发现异常测点,提示测点故障等。数据分析工具广泛运用于管理平台的各个模块,如容量趋势分析、网络质量分析、能效分析等均使用该工具。
3.2.3复杂事件分析
复杂事件分析(CEP)的目的是甄别有意义的事件,判断“该发生的没有发生,不该发生的发生了”的事件,为准确地告警告知提供支持。复杂事件分析提供多种分析模型,最核心的是事件溯源分析。
通过溯源分析模型提供的建模工具,建立数据中心的事件树模型。当数据中心产生关联性批量告警事件时,分析引擎自动推导产生关联性告警事件的根源事件,并对关联的非根源性事件进行过滤,准确告警,并有效驱动运维管理工单。常见的,停电引起的基础设施告警风暴,某个核心交换机引起的网络告警风暴,通过溯源分析,可以精准的识别出支路停电,核心交换机宕机的关键事件。
3.2.4告警规则配置
告警规则定义是对监控的数据、状态进行分析判断是否在正常运行的范围内,如超出正常范
围,则需要产生告警事件。设置该分析判断的规则过程,就是告警规则定义。系统提供集中统一的视图,对基础设施、IT监控指标的告警规则、告警级别进行设置。告警规则包括阈值告警规则、时延告警规则(状态持续一定时间才告警)、多区间告警(不同阈值区间,不同的告警级别)等,并可以自定义扩展。规则统一配置管理,过程可审计。
3.2.5控制策略
控制策略为各种自动控制、优化控制提供算法支持,并执行控制算法,从而实现系统的自动化、智能化。如执行PID实时控制模型,实现精确自动控制。
模块化机房解决方案系统图形化工具,通过简单的拖拽,即可将算法控制模型和控制对象关联,进行控制参数调试和控制逻辑的自动执行。用户也可以通过控制策略的建模工具,创建自己的控制算法模型,对现有的控制逻辑进行扩展。我们也可以将数据分析的模型或结论和控制策略进行关联,从而实现AI+自动化。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论