计算机运维论文6600字_计算机运维毕业论文范文模板
计算机运维论文6600字(一):“魔方-3”高性能计算机运维管理平台设计与实现论文
摘要:随着科技的进步,高性能计算机作为重要的科研基础设施为各行各业的发展提供了有力的支撑保障。确保高性能计算机稳定高效的运行是系统管理员的希冀也是职责所在。主要介绍了以“魔方-3”高性能计算机为对象开发的运维管理平台,包括平台架构设计、底层数据采集接口和方式,以及该平台实现的系统监控、自动巡检、数据分析等多种功能。借助这个平台系统管理员能直观清晰地了解计算机运行状况,及时发现并处置故障,通过多角度的数据挖掘分析影响当前运行效率的瓶颈所在,为后续软硬件优化升级提供科学的决策依据。
关键词:高性能计算机;运维管理;系统监控;数据分析
1引言
进入信息社会,人类对数据处理的要求越来越高,为了满足科学计算、工程计算等海量数据的处理需求,超级计算机被广泛应用到各行各业。2019年7月“魔方-3”高性能计算机在上海超级计算中心建成并投入使用。“魔方-3”能显著提升上海超算的计算能力,为天文气象、生命
科学、能源勘探等领域的模拟计算提供有力支撑。
为了保障“魔方-3”的稳定运行,提高运维效率,需要有一套能对软硬件进行监控管理的系统。由于上海超级计算中心是一个面向社会的开放计算平台,应用场景纷繁复杂。而主机厂商提供的集管理软件作为一套通用化的软件,并没有针对上海超算的应用场景进行优化和定制,日常使用过程中存在诸多不便。正是在这样的需求推动下,上海超级计算中心系统运维部组织开发了一套适合超算中心运行模式的主机运维管理平台。
2平台设计
主机运维管理平台采用浏览器/服务器(B/S)结构[1]。平台的运行离不开数据的支撑,本平台的基本数据主要分成2大类:集硬件数据和用户作业数据。平台通过调用“魔方-3”的IPMI(IntelligentPlatformManagementInterface)管理网络接口获取集运行的温度、CPU、内存、硬盘、网络等硬件信息,通过IBMPlatformLSF作业调度软件接口获取用户作业运行信息,并将获取的信息进行组织、筛选、分析,最终实现平台的各项功能。各类数据的采集频率可根据集运行状况随时调节,获取数据之后定时导入MySQL数据库。用户通过终端浏览器访问Web服务器获取数据库里的信息,如图1所示。
平台采用模块化架构,针对功能需要动态性、可扩展性,构建运维管理平台软件模块“热插拔”机制,灵活应对平台的动态扩展需求。这种模块插件架构体系的核心理念是基于松散的模块积累方式,通过新增模块插件以及升级原有模块插件的方法来完善平台的功能。一个模块的更新不需要对整个运维管理平台进行重新编译,不会影响其它模块。模块插件架构体系的优点非常明显,像硬件一样即插即用。在开发的初期只需划分好模块,只要遵循接口协议,就能开发出互不影响的模块插件,方便开发和调试;由于其灵活性,可以实现平台的灵活定制,当需要新增功能或者修改功能时,只需要对相应模块插件进行修改即可实现,为平台的后续扩展带来了极大的灵活度。
gridview不显示目前平台集成了机房运维、集监控、自动巡检和数据统计分析4大模块。为了提升操作便利性,显示内容直观明了,该平台采用了基于Web的图形界面。使用者只要通过WebPortal登录运维管理平台,点击鼠标打开界面即可获取当前主机运行状况,包括各结点CPU使用率、集当前负载、各队列作业数量等众多信息,可生成统计分析报表,也可对集的软硬件故障进行处置。
硬件配置:IntelXeonE5-2620,32GB内存,双网卡独立服务器;
操作系统:选用CentOSrelease6.4版本;
数据库软件:选用MySQL共享版;
服务器端软件:选用Tomcat;
主机端开发工具:Java、shell脚本语言;
服务器端开发工具:选用Java、JSP语言、echart绘图插件。
3数据采集
主机运维管理平台通过数据采集引擎对多种采集方式进行封装,并对底层硬件以及作业调度软件进行数据采集。在保存这些信息时引入硬件池、指标池、线程池和数据池概念,对采集的各类数据进行分类存储,从而搭建运维管理平台的采集框架。通过采集框架对数据进行统一分发,为上层监控、巡检、统计分析等模块提供数据支撑。
3.1硬件数据采集
“魔方-3”拥有管理网络、IPMI网络[1]和OPA(Omni-PathArchitecture)计算存储网络3套网络系统,如图2所示。其中IPMI由千兆以太网组成网络,并通过一台万兆交换机汇聚所有千兆IPMI交换机。刀箱通过管理模块的千兆网口接入IPMI网络。系统管理员通过计算结点的IPMI网络接口和机柜中的IPMI监控交换机构建IPMI远程管理网络。通过IPMI网络接口,对集内各个结点的CPU、内存、硬盘、网卡、功耗、温度等信息进行采集监控,以实现日志历史查询、远程开关机、远程访问结点图形界面等功能。
“魔方-3”预装了Gridview软件,开机后启动Gridview服务进程,该软件会通过IPMI网络采集集硬件信息并导入Gridview自带的数据库。系统管理员可以通过Gridview数据库接口和GridviewAPI接口2种方式来获取实时硬件信息。
3.1.1通过访问数据库直接获取
利用mysqldump命令远程登录Gridview的数据库安装节点,获取并压缩数据;通过管道符号将传回的数据导入“魔方-3”运维管理平台的数据库。例如:“mysqldump-h远程ip-u用户名-p密码-P指定端口--opt--compress数据表--skip-lock-tables|mysql-h本地ip-u用户名-p密码本地数据库”。这种方法的优点是获取数据简便直接,可以通过一次传输获取所有的硬件
信息。缺点是在后期进行数据筛选时,需要知晓Gridview源数据库中每个字段以及对应数值的含义,耦合性较高。
3.1.2利用API接口获取
GridviewAPI接口为HTTP形式,支持HTTP协议。接口采用基于HTTPcookie与session用户认证机制,调用接口时需要先调用登录接口进行登录,服务器将在cookie中返回登录的会话信息,在调用接口时将会话信息同时传递。默认返回结果为JSON格式,接口中定义的对象都将转换为JSON格式,字符编码格式为UTF-8。数据返回时客户端首先需要判断HTTP响应的状态码(StatusCode),如果状态码为404,500这一类请求错误状态,则按照浏览器等常用HTTP客户端的惯例处理;如果返回状态码为200,表示服务器处理正常。返回结果的对象属性基本类型如下:string:字符型;integer:数值型;boolean:布尔型true/false。对象在接口中都将被转换为JSON格式,对象的属性为key,对象实例值为value。例如,机房对象实际格式为:
{"id":10001,"name":"room001","displayName":"DataCenter","description":"Thisisthefir
stDataCenter"}。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论