您好,欢迎来到纷纭教育。
搜索
您的当前位置:首页大规模集群运维自动化的探索与实践

大规模集群运维自动化的探索与实践

来源:纷纭教育
Practical Method・实践方法 大规模集群运维自动化的探索与实践 毛承国 张卫华 张选铎 马迅飞 史 哲 方 凯 f中国石油东方地球物理公司 河北涿州072750) 【摘要】本文从东方公司研究院的lT现状和未来设备管理入手,对大规模集群自动化运维模式和工具进行分析, 提出lT运维自动化概念。通过目前存在的问题,分析运维自动化的目标和方法,介绍建立运维自动化的步骤;以图 解方式介绍自动化安装、自动化配置、自动化监控等使用情况,并据此说明未来大规模集群运维自动化的远景规划。 【关键词1 lT运维;运维自动化;自动化安装;自动化配置;自动化监控 Exploration and Practice of Operation and Maintenance Automation of Large-scale Cluster Mao Cheng-guo Zhang Wei-hua ZhangJin—duo MaXun-fei ShiZhe Fang Kai fBGP CNPC HebeiZhuozhou 072750) 【Abstract】This paper discussed the IT status and the future management in the GRI BGP,analyzed the modes and tools of the operation and maintenance automation of large-scale cluster,put forward the concept of the IT operation and maintenance automation.By analyzing the existing problems,the goals and methods of operation and maintenance automation,this paper introduced the steps of establishing the operation and maintenance automation.By using the graphical way,this paper introduced the automated installation,the automated configuration and the automated monitoring,and then explained the future vision of the operation and maintenance automation of large-scale cluster. 【Keywords】it operation and maintenance;operation and maintenance automation;automation installation;automation configuration;automation monitoring 1 日 舌 堪,主要表现在三个方面。 IT运维自动化是指将IT运维中日常的、大量的重 2.1低效率的手动运维模式 在计算机运维过程中,只有当事件已经发生并已造 复性工作自动化,把过去的手工执行转为自动化操作。 自动化是IT运维工作的升华.IT运维自动化不单纯是 成业务影响时.才能发现和着手处理,这种被动“救火” 不但使运维人员终日忙碌,也使计算机运维本身质量难 一个维护过程.更是一个管理的提升过程,是IT运维的 以提高.导致生产部门对计算机运维的服务不满意。目 更高层次,也是未来的发展趋势与方向。 前运维人员日常大部分时间和精力都花在处理简单且 2 IT运维现状介绍 重复的问题上,而且由于故障预警机制不完善,往往是 目前许多企业的计算机运维已经实现从人_T运维 故障发生后或报警后才会进行处理,使运维人员的工作 到自动化管理.但我们的IT运维管理还只是处在“半自 经常处于被动“救火”状态。不但事倍功半而且常会出现 动化”状态。这种运维模式仍然是在用户使用计算机设 恶性连锁反应。 备的过程中发现故障,之后通知运维人员,然后再由运 2.2缺乏高效的运维机制 维人员采取相应的补救措施。这种传统的、被动的、孤立 目前我们在运维管理过程中缺少自动化的运维管 的、半自动式的运维管理模式经常让运维部门疲惫不 理模式.也没有明确的角色定义和责任划分,导致问题 ・60・2014年2月.信息安全与技术 应用成果・Application Results 更新迅速,网络中恶意的攻击,流氓软件木马软件的横 行,使得网络安全被高度重视。然而只注重防护体系是 不行的,操作系统技术再提高,也还是会被漏洞破坏;防 火墙技术再高,也会有黑客攻破。病毒防范技术再高,也 参考文献 [1]齐晓光.密码学.湖北科技大学. [2]雷振甲.网络工程师教程.清华大学出版社,2004 [3]谢希仁.计算机网络教程.人民邮电出版社,2006 是建立在经验的基础上,免不了被新生病毒侵害,所以, 在完善的防护体系的建立下,还要注重网络安全应用的 管理,只有管理技术并用才能有效地保护用户的信息安 全 总而言之,对于网络不断发展,我们要总结以往教 训,吸取经验,取长补短,才能更好地保护信息安全。 作者简介: 田瑞霞(1979一),女,同济大学软件学院研究生,内蒙古河套学院 教师,主要从事信息经济安全研究。 王烽(1976一),男,同济大学软件学院研究生,内蒙古河套学院教 师.主要从事网络安全方向研究。 【上接第62页】 因此.企业需要事先建立自动工单式流程管理,当设备 或软件发生异常或超出预警指标时,会及时触发相关事 依赖性越来越高,其运维标准也随之不断提高,使得运 维管理难度和压力大幅增强,传统运维管理模式已面临 巨大挑战。实现IT运维的自动化管理,将IT运维中H 常大量的重复性工作自动化,把过去的手工执行转为自 动化操作。自动化是IT运维工作的升华,IT运维自动化 不单纯是一个维护过程,更是一个管理过程,是IT运维 的最高层次.也是未来的发展趋势。 件,同时触发相关工单处理流程给相关运维人员。运维 人员必须在指定时间内完成流程所规定的环节与工作, 以提高运维解决问题的效率。 5.3建立规范的事件跟踪流程 在运维自动化管理建设时,首先需要建立故障和事 件处理跟踪流程,利用表格工具等记录故障及其处理情 况.建立相应的运维日志,并定期回顾从中辨识和发现 参考文献 [1]侯毅,别、波.IT运维管理解决方案[JI.信息安全与技术,201 l,11: 58~60. 问题的线索和根源。事实上许多实践也证明,建立事件 的规范化处理和跟踪指南,可以减少运维操作的随意性 和强化运维执行力度,在很大程度上可降低故障发生的 概率。同时,用户还应可以通过自助服务台、电话服务台 [2]杜成武.IT运维综合管理平台实现科技管理信息化【J Jl金融科 技时代。2012,8:69~71. [3]王庆霞.浅谈IT运维管理的应用与实践lJJ.信息安全与技术. 2012.11:12-14. 等随时追踪该故障请求的处理状态。 5.4建立运维的关键流程 设立运维关键流程,引入优先处理原则,是指要求 技术管理层定义出运维的每个关键流程,不仅仅是定义 流程是什么,还包括要指出每个关键流程对企业有何影 响和意义。同时,在设置自动化流程时,还需要引入优先 处理原则.例行的事件按常规处理,特别事件要按优先 级次序优先处理,也就是把事件细分为例行事件和例外 [4]温长洋.防火墙运维自动化工具的设计与实现fJ].中国金融电 脑.2010.1 1:48~53. [5]温超.电力信息系统运维管理自动化解决方案[J].山东电力技 术,2012,1:77~80. [6]徐红泉.调动自动化系统综合运维平台设计l J1.计算机时代. 2010.1 1:73~74. [7]任义丽,王贤,朱建力等.中国石油数据中心ITIL落地探索与 实践[J].信息系统工程,2012,l1:51-53. 关键事件。 6结束语 随着东方公司研究院科研生产业务的飞速发展,IT 基础设施规模在不断扩展且H趋复杂化.对IT系统的 作者简介: 毛承国(1976一),男,湖北监利人,工程师,东方公司科技带头人 从事计算机系统运维工作。 信息安全与技术・2014年2月・73・ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- fenyunshixun.cn 版权所有 湘ICP备2023022495号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务