机器与人如何协作?分享腾讯数据中心自动化运

时间:2019-07-13 16:10:25点击量:76 作者:杨超月

当前,物联网(IoT)、人工智能(AI)和机器学习正在走向一个不可阻挡的旅程,它们正在改变人们生活的每一个方面,但是只有通过数据中心收集和处理所有信息,人们将会继续从中受益。

充分利用大数据和 AI 技术,构建智能化运维管控模型,自动识别业务问题,简化运维操作复杂度,持续改善数据中心运行管理状况,成为今后数据中心管理的重要课题。如何利用这些新技术在数据中心管理中精准智能告警、智能异常检测、智能趋势预测是大家关注的趋势。

这样的新闻报道你可能看过:

上海银行数据中心迎来智能机器“巡检员”

数据中心将采用机器人监控机柜中的热点

京东金融发布京东智能巡检机器人

沉浸式混合现实(MR,即Mix Reality)运维通信系统正式投入生产环境运行

机器人时代要来了吗?数据中心运维管理中是否可以实现以更少的人员投入,同时保障更高效的运营管理水平?如何控制风险?“人与机器”是对立,还是合作?机器人和人类是否可以合作管理基础设施?

6月25日,第十届DCD中国数据中心国际峰会上海站在上海中心大厦举行,在这个专题讨论中,主办方邀请到了腾讯数据中心研发总监岳上、业内专家肖建一、阿里巴巴基础设施一体化架构师汪刚博士、万国数据高级副总裁梁艳作为专家小组就以上话题进行了讨论。

机器与人如何协作?分享腾讯数据中心自动化运

专家小组专场讨论

数据中心智能化是一个趋势,很明显,这些技术促使了数据中心智能运维管理不断的演进。肖建一指出,数据中心运维管理的演进可分为三个阶段。阶段一,需要大量的运维人员,运维质量完全依赖个人经验能力及稳定性;阶段二,建立了驱动人工的机制及系统工具,依靠标准和流程将经验知识固化,并定量分析人力资源分配;阶段三,开始建设自动化智能运维,将重复性运维事务转由自动化系统负责,分析性事务转由AI介入协助,一定程度上大幅度降低了人力资源投入。

专家小组一致认为,数据中心智能运维自动化、智能化成功的基础是数据化,但数据要合理、有效、准确、可靠、安全,这些是前提。机器人起到作用时,则需要人工大量建模。

很多数据中心智能运维管理的应用场景是以事件为核心的全闭环运维问题处理模型。我们要思考的是:数据如何采集?效率如何?准确性如何?数据可以帮助实现什么目标?数据的价值在哪里?AI是一种手段,怎么用?AI解决的是什么问题?人机结合的目标是什么?

腾讯数据中心研发总监岳上表示,腾讯研发了一个数据中心管理软件平台——腾讯智维,它管理了腾讯内部约80个数据中心,超过百万台服务器设备。

在采集效率上,腾讯已经在研发新的数据和视频采集协议。通过新协议,可以打造更高效的监控网络,既更细致的了解数据中心现场运行情况,同时做到更低的网络负载。

在保证数据的准确性上,针对这些数据,腾讯从五方面入手:

① 测点侧,监控MDC测点接入率;

② 网络侧,通过技术手段,一旦网络出现问题,我们可以自动识别问题并判断根本原因,进而自动切换或者人工干预;

③ 视频侧,实时检查视频参数、视频格式和码率,发现问题及时告警;

④ 服务器侧,一旦服务器进风温度异常,及时告警;

⑤ 异常数值,对数值做了合理区间设定,系统算出异常值会预警开发者。

数据可靠性的提高,确实给现场运营带来许多新的改变,如CMDB自动发现设备——腾讯数据中心的所有设备上面都带有测点,可以通过测点的上报,来感知整个网络里的设备运行情况,从而发现新增/删除或者维修的设备,通过人简单核对就可以入库。如数据中心运营水平量化考核——从大量数据中,归纳计算出反应现场运营效率的数十个一级指标,上百个二三级指标,作为对现场进行考核的KPI指标,指导运维团队提升现场运营效率。

腾讯智维是腾讯近20年数据中心运营经验与云化技术相结合成果,利用腾讯数据中心先进的管理运维经验,腾讯强大的技术研发实力,安全保障能力,帮助客户持续提升数据中心运营的质量与效率,降低成本投入,将数据中心的价值极大化。

机器与人如何协作?分享腾讯数据中心自动化运

腾讯数据中心研发总监岳上

笔者也看到,这一年来,智维也在多方面进行着进化,包括有很多AI方面的探索。