随着企业服务器数量越来越多,当达到几百台、上千台之后,服务器日常管理也逐渐繁杂,每天如果通过人工频繁地更新、部署及管理这些服务器,势必会浪费大量的时间,而且有可能认为的操作也会造成某些疏忽而遗漏问题。这就需要来看一下传统的运维以及今后运维的发展方向。
一、传统运维方式简介
传统的IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这种被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面。
-
(1)运维人员被动、效率低
在IT运维过程中,只有当事件已经发生并对业务造成影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。
-
(2)缺乏一套高效的IT运维机制
许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。
-
(3)缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂、林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点的维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转
出现这些问题部分原因是企业缺乏事件监控和诊断等IT运维技术工具,因为再没有高效的技术工具的支持下故障事件很难得到主动、快速地处理
二、自动化运维简介
IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前,运维自动化是IT技术发展的必然结果,现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。 运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
三、运维自动化的具体内容
日常IT维护中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流畅的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维
简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发现性能超标或宕机,会触发相关事件以及实现定义好的流程,可自动启动故障响应和恢复机制。
四、建立高效的IT自动化运维管理
建立高效的IT自动化运维管理的步骤主要包括以下几点。
-
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障和问题综合处理和集中管理
-
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。
-
(3)建立规范的事件跟踪流程,强化运维执行力度
需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源
-
(4)设立IT运维关键流程,引入优先处理原则
设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例行外关键事件
五、IT自动化运维工具
对于企业来说,要特别关注俩类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这俩类工具主要应用于如下场景:
- (1)监控自动化:是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等
- (2)配置变更检测自动化:是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置
- (3)维护事件提醒自动化:是指通过对IT设备和应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
- (4)系统健康监测自动化:是指定期自动的对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控
- (5)维护报告生成自动化:是指定期自动地对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告
六、IT自动化运维体系
一个完善的自动化运维体系包括系统预备、配置管理以及监控报警三个环节,每个环节实现的功能也各不相同,具体功能如下:
- (1)系统预备类
- 自动化安装操作系统
- 自动初始化系统
- 自动安装各种软件包
- (2)配置管理类
- 自动化部署业务系统软件包并完成配置
- 远程管理服务器
- 配置文件、自动部署jenkins、网站代码变更回滚
- (3)监控报警类
- 服务器可用性、性能、安全监控
- 向管理员发送报警信息
根据提供的功能不同,自动化运维工具分为以下3类
传统的IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这种被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面。
(1)运维人员被动、效率低
在IT运维过程中,只有当事件已经发生并对业务造成影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。
(2)缺乏一套高效的IT运维机制
许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。
(3)缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂、林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点的维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转
出现这些问题部分原因是企业缺乏事件监控和诊断等IT运维技术工具,因为再没有高效的技术工具的支持下故障事件很难得到主动、快速地处理
IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前,运维自动化是IT技术发展的必然结果,现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。 运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
三、运维自动化的具体内容
日常IT维护中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流畅的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维
简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发现性能超标或宕机,会触发相关事件以及实现定义好的流程,可自动启动故障响应和恢复机制。
四、建立高效的IT自动化运维管理
建立高效的IT自动化运维管理的步骤主要包括以下几点。
-
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障和问题综合处理和集中管理
-
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。
-
(3)建立规范的事件跟踪流程,强化运维执行力度
需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源
-
(4)设立IT运维关键流程,引入优先处理原则
设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例行外关键事件
五、IT自动化运维工具
对于企业来说,要特别关注俩类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这俩类工具主要应用于如下场景:
- (1)监控自动化:是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等
- (2)配置变更检测自动化:是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置
- (3)维护事件提醒自动化:是指通过对IT设备和应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
- (4)系统健康监测自动化:是指定期自动的对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控
- (5)维护报告生成自动化:是指定期自动地对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告
六、IT自动化运维体系
一个完善的自动化运维体系包括系统预备、配置管理以及监控报警三个环节,每个环节实现的功能也各不相同,具体功能如下:
- (1)系统预备类
- 自动化安装操作系统
- 自动初始化系统
- 自动安装各种软件包
- (2)配置管理类
- 自动化部署业务系统软件包并完成配置
- 远程管理服务器
- 配置文件、自动部署jenkins、网站代码变更回滚
- (3)监控报警类
- 服务器可用性、性能、安全监控
- 向管理员发送报警信息
根据提供的功能不同,自动化运维工具分为以下3类
日常IT维护中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流畅的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维
简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发现性能超标或宕机,会触发相关事件以及实现定义好的流程,可自动启动故障响应和恢复机制。
建立高效的IT自动化运维管理的步骤主要包括以下几点。
-
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障和问题综合处理和集中管理
-
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。
-
(3)建立规范的事件跟踪流程,强化运维执行力度
需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源
-
(4)设立IT运维关键流程,引入优先处理原则
设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例行外关键事件
五、IT自动化运维工具
对于企业来说,要特别关注俩类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这俩类工具主要应用于如下场景:
- (1)监控自动化:是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等
- (2)配置变更检测自动化:是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置
- (3)维护事件提醒自动化:是指通过对IT设备和应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
- (4)系统健康监测自动化:是指定期自动的对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控
- (5)维护报告生成自动化:是指定期自动地对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告
六、IT自动化运维体系
一个完善的自动化运维体系包括系统预备、配置管理以及监控报警三个环节,每个环节实现的功能也各不相同,具体功能如下:
- (1)系统预备类
- 自动化安装操作系统
- 自动初始化系统
- 自动安装各种软件包
- (2)配置管理类
- 自动化部署业务系统软件包并完成配置
- 远程管理服务器
- 配置文件、自动部署jenkins、网站代码变更回滚
- (3)监控报警类
- 服务器可用性、性能、安全监控
- 向管理员发送报警信息
根据提供的功能不同,自动化运维工具分为以下3类
对于企业来说,要特别关注俩类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这俩类工具主要应用于如下场景:
一个完善的自动化运维体系包括系统预备、配置管理以及监控报警三个环节,每个环节实现的功能也各不相同,具体功能如下:
- (1)系统预备类
- 自动化安装操作系统
- 自动初始化系统
- 自动安装各种软件包
- (2)配置管理类
- 自动化部署业务系统软件包并完成配置
- 远程管理服务器
- 配置文件、自动部署jenkins、网站代码变更回滚
- (3)监控报警类
- 服务器可用性、性能、安全监控
- 向管理员发送报警信息
根据提供的功能不同,自动化运维工具分为以下3类
| 编号 | 预备类工具 | 配置管理类 | 监控报警类 |
|---|---|---|---|
| 1 | Kickstart | Puppet | Nagios |
| 2 | Cobbler | Saltstack | Cacti |
| 3 | OpenQRM | Func | Ganglia |
| 4 | Spacewalk | Ansible | Zabbix |



