400-660-3898
自主品牌|诺电数据中心监控管理整体解决方案
来源: | 作者:诺电集团 | 发布时间: 2022-06-16 | 1061 次浏览 | 分享到:

一、 数据中心监控管理需求分析

随着社会文化的发展,IT技术已经深入到社会生产生活的各个方面,各类的数据中心的数量、规模和密度随之急剧扩大。这对传统的数据中心运营管理带来了前所未有的挑战和压力。传统数据中心的管理存在很多的不足,为了解决这些问题,数据中心需要一个信息系统监控管理大平台对数据中心进行整体管理。
我们知道IT部门要不断响应业务的需要,业务有需要IT才扩容:比如一个新的业务系统要上线,必然要增加服务器、增加负载,这就意味着需要更多的机位空间、更多的供电、更多的网络等等。这些问题如何去解决?首先需要做需求整合,然后进行系统建设,建设完成后就是系统的运行维护,最后需要对系统进行科学的管理。管理的时候出现的问题就需要通过问题变更去处理,这里面包括BUG处理和系统的扩容。通过这种方式来满足业务的需要,通过科学的管理来保障稳定可靠、经济高效的运行。
在管理的时候将面临几个问题,第一:故障无法定位。我们知道在信息系统中有各个独立的系统,由几个部门进行管理。出现故障时无法做到故障定位。举个例子:一个业务不正常了,各个部门各自去查找,发现环境正常、网络正常最后发现是端口没数据系统死机了,没办法故障定位。要想做到故障定位只能找一个很精通整个系统的人对所有系统都熟悉,从业务的底层开始查找,最后发现是系统受到病毒攻击死机了。在没有专业人员的时候故障定位将花费大量时间。另外就是人力资源调度不合理,因为要召集几个部门的人来分析问题。第三根据这种管理的需要,我们需要消灭这种信息孤岛、需要资源管理、需要统计分析考核。因为监控管理系统是为业务服务的,如果不知道业务需要多少网络资源多少服务器资源多少环境资源,就会造成资源的浪费。另外无法考核,因为日常工作做了大量的无用功,一个简单的故障要把几个部门的人召集到一起,无法进行考核。

所以系统管理者需要一个监控管理大平台,通过对信息系统的状态、参数和数据进行监测,对系统进行控制,从而实现集中、完整和量化的管理,来保障信息系统稳定可靠、经济高效的运行。换句话说:监测是基础,管理是手段,保障信息系统可靠运行是目的。

数据中心监控管理思路

数据中心监控管理的思路是这样的:第一:监控系统应该是一个包括基础的监控在内的一个全面集成的系统,去全面了解数据中心每个部分运行的情况。第二:系统要求稳定可靠。第三:能够帮助管理者满足数据中心管理的需要,提高运营效率。第四:监控系统要求能满足数据中心的持续发展的需要。

诺电理解的数据中心的组成包括:首先底层是动力、环境、安保等基础设施,在这上面是IT硬件设备,在硬件设备上运行着操作系统、数据库、中间件和业务系统。针对这一整套数据中心的组成部分,目前诺电的产品可以做到整体的监控,在整体监控的基础上可以做到能耗的管理、资产的管理和运维管理。

监控管理平台的物理架构,第一层包括机房监控、IT监控、资产管理系统、节能管理系统以及其他的管理系统,通过集成管理服务器进行统一集成,包括报警的统一处理,统一的数据分析,统一的运维,统一的门户发布,比如通过3D系统、PC客户端做统一展现。

集成监控管理平台除了能对机房的动力、环境和安保进行集中监控,还能集成IT设施、业务系统和其他子系统的监控,将他们集成到统一的监控平台上面做到资产、能耗、和运维的管理,同时还能够提供接口给到第三方系统。

因此数据中心运维管理平台应该包括一个服务台和五个管理组成,我们采用三线运维体系,当监控系统出现问题或人工发现问题的时候将在服务台上做信息汇总处理,如果是应急的事件,将由专家组去响应和处理。如果是一般的告警,首先查运维系统中的知识库,如果知识库中有成功的处理经验,一般的维护人员可根据知识库就可以进行处理。如果没有将通过一线维护组、二线维护组派人去处理。三线运维体系能够提高事件处理效率、优化人员调配。

 二、数据中心监控-动环基础设施设备

基础设施包括数据中心里的“风火水电”。风:空调制冷、新风系统;火:消防系统;水:防潮、加湿、防漏水,电:机房电力供应。数据中心基础设施监控系统对数据中心“风火水电”进行管理。数据中心基础设施动环监控系统又分2个维度:横向维度:分动力系统、环境系统和安防系统三大块。纵向维度:分采集层和管理层两层。


三、 数据中心监控-IT设备

带外管理的核心理念在于通过不同的物理通道传送管理控制信息和数据信息,两者完全独立,互不影响。常见的设备管理方式有SNMP、RMON、Web、TELNET以及通过CONSOLE、AUX接口管理,有些高端设备还具备100BASE-TX的带外管理端口。那么所谓带内是指跟占用生产网络带宽、接口的管理方式称之为带内管理,与此相反,不占生产网络带宽、接口的管理方式称之为带外管理。
通过带外管理直接对服务器硬件的监控,不需要在每台服务器上安装代理软件或服务器厂家的管理软件,实现与操作系统的无关性。支持对IBM、HP、Sun、富士通等各个厂家小型机,IBM、HP、DELL、华为、联想等各个厂家的刀片服务器和刀箱, IBM、HP、DELL、华为、联想等品牌的机架服务器的硬件状态进行监测。
监测范围至少应该包括:前置面板的状态、CPU、内存、磁盘阵列卡、物理磁盘、逻辑磁盘、阵列卡电池、主板CMOS电池、网卡、远程管理卡、电源、风扇、温度电压和序列号等硬件状态、配置、部件具体的位置等信息。支持对主流厂家的存储和带库监测,至少支持IBM、HP、EMC、DELL、HDS、富士通、Sun(Oracle)、NetApp、NEC、昆腾。支持各厂家高端存储和虚拟化存储的监测,如:IBM V7000系列、IBM DS8000系列、EMC DMX4系列、EMC VMAX系列、EMC VNX系列等。监测范围至少应该包括:电源、风扇、电池、磁盘柜、硬盘、控制器、Array、机械手、磁带机等。
运维人员和IT设备不在同一个物理地点。这种类型的网络环境包括所有的电信运营商和银行及有分支机构的政府、企业网络。一旦设备故障无法通过网络解决 (telnet 、pcanywhere等手段),运维人员只能到现场解决问题。这种类型的网络通过带外管理可以大幅提高网络运维效率,同时有效降低运维成本。

运维人员与IT设备在同一地点,IT设备数目很多统一管理面临很大难度。这种类 型IT环境包括所有IDC、企业的数据中心(非托管)、互联网公司、游戏运营商。运维TEAM需要面对几百台甚至上万台服务器,对设备的访问控制授权、操作记录均需要借助带外管理来完成。

四、数据中心运维管理系统

服务台:1、实时更新未派送的问题单。2、新增问题单。3、分配问题单。4、待办任务:派送给自己处理的工作单;派送给自己所在组的工作单。5、处理派送给自己的工作单,或领取派送给自己所在组的工作单。6、实时提醒最新的问题单、派送给自己或自己所在组的问题单。7、备件仓库管理的最低储备量提醒。8、工单到期提醒。9、快捷工具栏:问题单信息列表,带复杂查询功能。

运维设备维护维修组组长将本组负责的工单指定问题处理责任人。

工单处理责任人将一个或多个处理本工单的人员的处理过程记录下来。

有归档权限的操作人员可以将已经关闭的工单入经验库,以完成归档操作。

维护设备的基本信息、技术参数信息、附件信息。

维护设备备件的基本信息、附件信息。

记录设备的异动处理情况,包括转移、封存、外调、报废。

五、 证书及公司简介