新股讯
创投您的位置:首页 >新闻 >

华云·云场景应用详解|疫情之下,硬件运维人员如何实现“远程办公”

发布时间:2021-03-11 12:21:31 来源:经理人

新冠疫情防控,极大地改变了我们的生活方式,“远程办公”、“线上交流”的新型工作方式开始普及。对人力依赖极大的数据中心硬件设备运维是否也能搭上“远程办公”的便车,从容面对疫情变化,高效保障业务安全?安超DCM数据中心管理平台利用带外管理技术,与运维“打工人”一起探索远程运维的可行性。

疫情下的硬件设备运维挑战

2020年,在全球新冠疫情持续紧张的情况下,远程办公、在线网课、网购/团购等线上工作和生活方式开始普及,IT服务业迎来了爆发式增长,各行业数据中心IT硬件设备数量也随之激增。由于疫情期间居家办公,异地核算检测导致出差不便等等原因,对几乎全部依赖人力的数据中心硬件运维管理带来了前所未有的挑战。痛点总结如下:

1、设备数量成倍增加,品牌型号增多,管理复杂度指数级增长,经验丰富的运维人员严重不足,人力成本大幅攀升;

2、居家办公无法巡检,设备故障发现不及时,安全隐患大;

3、日常资产管理和资产盘点工作无法开展,居家办公无事可做;

4、异地出差受限,原厂支持难度增加,设备故障处理周期长,造成业务损失大;

5、数据中心全国分布,无高效远程管理软件,异地机房管理难度大。

带外运维技术助力,硬件运维管理“远程办公”不是梦

数据中心硬件运维管理可分为带外管理和带内管理两种管理模式。

(1)带内管理

带内管理,即监控管理信息与生产数据信息使用同一物理通道进行传送,主要是依赖于生产环境,如操作系统,所提供的接口、驱动来获取底层硬件的状态(正常/故障)信息,从而实现监测。带内管理复用现有生产网络,在每台设备的系统层安装Agent,然后将硬件监控信息通过SNMP系统服务发送给带内集中监控平台。

带内管理示意图

传统的带内管理及现场维护存在以下问题:

1、宿主机资源占用:带内管理会消耗生产网络带宽,极端情况下可能会导致网络资源耗尽,引发生产事件。Agent在宿主机上占用部分生产设备的CPU、内存资源,增加系统开销。

2、现场维护:部署服务器、升级设备微码、物理重启设备等工作等都需在机房现场实施。极端情况下,如设备宕机故障,需要到现场实施手动物理重启,导致生产事件问题处理滞后。

3、Agent版本维护困难:目前数据中心多数为混合架构,生产环境包含Linux、Windows、ESX、AIX、Solaris、docker等不同平台众多版本,带内管理Agent版本、兼容性维护工作量大。

4、不符合安全监管要求:部分监控Agent会用到特殊的系统服务及端口,会和生产环境某些应用冲突(如JDK版本不一致、系统端口冲突等)。在安全等保要求较高的情况下,Agent的使用不符合安全管理规范。

(2)带外管理

带外管理主要是通过专门的网管通道实现对硬件设备状态数据的获取,与生产业务网络相隔离,其核心原理在于通过不同的物理通道传送管理数据和生产数据,两者互相独立,互不影响。

带外管理示意图

带外管理使用了IPMI协议,通过基板管理控制器(BMC)进行交流,通过在设备内部的传感器对硬件进行智能管理。无需通过操作系统进行管理,允许进行带外服务器管理,生产网络也无需负担硬件状态监控数据的传输任务。用户可以利用IPMI监视服务器的物理状态数据,如温度、电压、风扇工作状态、电源供应以及机箱入侵等数据。带外管理最大的优势在于它是独立于计算芯片CPU、主板IO控制系统BIOS和操作系统,可以实现在开/关机状态下,接通电源就即可以对硬件设备的监控管理。

(3)带内管理与带外管理对比

启动带外管理“远程办公”模式

安超DCM数据中心管理平台运用带外管理技术搭建的跨厂商、跨硬件平台的统一带外管理平台,可以实现自动化巡检、远程资产管理与资产盘点、统一vKVM远程管理,实现运维人员不在数据中心现场,也能对数据中心设备情况尽在掌握。

总结

相较于传统的带内管理,带外管理技术是一种更安全、更智能、更高效的数据中心硬件设备统一运维管理方式,安超DCM能够助力数据中心提升智能化运维程度、加强运维的数据支撑,从而全面降低运维难度、减少人工依赖、实现多数据中心远程联动管理,可见,带外管理技术的应用成功让数据中心运维人员“远程办公”成为现实,疫情还未完全散去,我们还需未雨绸缪。

热点推荐
随机文章