IT系统运维制度及流程.docx
《IT系统运维制度及流程.docx》由会员分享,可在线阅读,更多相关《IT系统运维制度及流程.docx(19页珍藏版)》请在冰点文库上搜索。
IT系统运维制度及流程
rr系统
运行维护管理制度
|、总的
2、編制方法-3-
4、运难效劳懿体系・5-
4.1运卿务管理对象-5-
4.2运錐系统功讎架-6-
4.3运籍理卿结构-7-
4.3.1工程负责人・8-
4.3.2工程经理-8-
4.3.3技术主管・9・
4.3.4效劳台
4.3.5网络管理员-10-
4.3.5应用、数据库管理员-10-
4.3.7终端管理员-11-
4.4运维效劳流程-11-
4.4.1工程运维效劳工作流程图-12-
4.4.2效劳台-12-
4.4.3事件管理-13-
4.4.4工单管理-13-
4.4.5问题管理-13-
4.4.6变更管理-14-
4.4.7配置管理-14-
4.4.8知识库管理-14-
4.4.9统计及工作报告-15-
5、运维效劳内容-15-
5」效劳目标-15-
5.2IT资产统计效劳-16-
5.3网络、平安系统运维效劳-16-
5.4主机、存储系统运维效劳-17-
5.5数据库系统运维效劳-17-
5.6中间件运维效劳-18-
5.7终端、外设运维效劳-19-
6、应急效劳响应措施-19-
6・2
-20-
-21-
7、——
7.1
-21-
1、总那么
第一条为保障公司信息系统软硬件设备的良好运行,使员工的运维工作制度化、流程化、标准化,特制订本制度。
第二条运维工作总体目标:
立足根本促开展,开拓运维新局面。
在企业开展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性开展。
第三条运维管理制度的适用范围:
运维部全体人员。
2、编制方法
本实施细那么包括运维效劳全生命周期管理方法、管理标准/标准、
管理模式、管理支撑工具、管理对象以及基于流程的管理方法。
本实施细那么以ITII7IS020000为根底,以信息化工程的运维为目标,以管理支撑工具为手段,以流程化、标准化、标准化管理为方法,以全生命周期的PDCA循环为提升途径,表达了对运维效劳全过程的体系化管理。
3、运维部工作职责
一、负责网站运维和技术支持
〔一〕根据网站运营战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性和先进性。
〔二〕负责网站栏目和应用系统的使用培训和操作使用指南编写,
对用户使用过程中岀现问题的沟通和解决;
〔三〕网站设备和软件购置方案书的拟定,包括采购数量、品牌规格、技术参数。
会同行政部进行采购。
〔四〕网站设备和软件操作规程和应用管理制度的制定,并负责监督执行。
〔五〕网站设备和软件安装、调试和验收,使用培训和维修保养。
〔六〕网站日常运行过程中信息平安和技术问题的协调解决,保障网站24小时平安稳定运行。
〔七〕网站技术效劳外包管理,主要包括技术外包开发、运行服务托管和空间域名管理。
〔八〕负责网站管理系统及设备保密口令的设置和保存,保密口令设置后报中心主任备案,保密口令设定后任何人不得随意更改,保密口令每季度更新一次。
〔九〕负责网站新程序、新系统和网站改版升级方案技术的设计开发。
二、负责网站信息和技术平安
〔一〕执行国家和省上有关网络信息技术平安的法律法规,与通信管理和网络平安监管部门联络,及时处理网站信息技术平安方面存在的问题,确保网站平安、稳定、可靠运行。
〔二〕网站信息技术平安保密制度和工作流程的制定,落实信息技术平安保密责任制,执行“谁主管、谁负责,谁主办、谁负责〞的原那么,责任到人。
〔三〕在效劳器和计算机之间设置硬件防火墙,在效劳器及工作站上均安装防病毒软件,进行硬件和技术双保护,确保网站不受病毒和黑客攻击。
〔四〕负责网站信息技术平安应急处理预案制定和实施。
〔五〕安排专人监控网站各频道,各页面,各版块,各栏目信息内容,建立网站信息技术平安监控值班登记制度,发现问题及时处理,并登记问题和处理结果登记;
〔六〕建立多机备份网站信息效劳系统机制,一旦主系统遇到故障或受到攻击导致不能正常运行,可以在最短的时间内替换主系统提供效劳。
〔七〕建立网站系统集中式权限管理,按照岗位职责设定工作人员操作权限,针对不同应用系统、终端、操作人员,设置共享数据库信息的访问权限,并设置密码。
不同的操作人员设定不同的用户名,且定期更换,严禁操作人员泄漏密码。
4、运维效劳管理体系
运维效劳管理体系规定了运维活动涉及的各类实体,以及这些实体间的相互关系。
相关的实体按照运维效劳管理体系进行有机组织,并协调工作,按照效劳协议要求提供不同级别的rr运维效劳。
4.1运维效劳管理对象
运维效劳管理对象包括根底设施、应用系统、用户、供给商、以
及IT运维部门和人员,具体内容如下:
(1)根底设施包括网络、主机系统、存储/备份系统、终端系统、平安系统、以及机房动力环境等。
(2)应用系统包括内部办公系统、门户网站、面向公众的应用系统等。
(3)用户包括使用如上应用系统的用户。
(4)供给商包括根底设施和应用系统的供给商以及n运维效劳的供应商。
(5)运维部门和人员包括内部参与运维活动的相关部门和人员,以及提供运维效劳的企业和相关人员。
4.2运维系统功能框架
根据建设单位的系统结构和业务开展需要,运维工程组将工程的维护框架分为9个具体组成局部,分别为:
效劳台、时间管理。
工单管理、问题管理、变更管理、配置管理、工程师考核、知识库管理、统计、系统管理等9个子项。
而具体运维流程将以此为依据开展工作。
藏.V..V-t*•曲f#M
4.3运维管理组织结构
本运维工程的运维管理结构位三层模式,具体如下列图所示。
由项目负责人与甲方进行业务范围接洽,并将沟通结果向下传递。
工程经理负责工程的整体运维工作,包括各种制度的制定和实施。
运维工程师那么在工程经理的指导下开展维护工作。
4.3.1工程负责人
职责:
负责工程商务、整体协调事宜。
职位描述:
1〕、整体负责建设单位运维工程效劳方案的制定,领导工程经理并安排工程工作,指导工程经理完成具体维护工作,每周听取工程经理的工作汇报,负责考核工程经理工作完成情况。
2〕、协助建设单位完成新增工程的调研、方案设计并指导工程经理进行具体实施。
4.3.2工程经理
职责:
规划、执行、完善信息化工程的运维工作,指导网络、数据库维护工程师开展工作。
职位描述:
1、根据公司战略目标,指导下属工程师开展客户效劳工作,确保运维工作能够满足客户的实际需要;
2、建立和持续完善运维管理体系,优化运维流程流程,解决运维效劳中出现的特殊问题;
3、规划并提升运维工程师专业效劳能力,在整体上提高客户满意度;
4、制定和持续完善绩效考核体系;
5、制定整理运维工程的应急预案系统,并指导运维工程师实施;
6、提高自身专业技能,在业务方面给予网络管理员和数据库管
理员指导。
4.3.3技术主管
职责:
应用、数据库管理,oracle性能调优,实现应用负载均衡。
职位描述:
1、技术主管非工程常驻人员,根据工程需要进行专业方面指导;
2、负责数据库性能分析与调优,数据库运行状态监控,及时
发现异常并快速处理。
3、熟练掌握OraclelOG的RAC技术,能够实现部署及调优。
4、掌握WAS、Weblogic、Tomcat、websphere等中间件的工作原理,能够实现部署调优及故障解决。
5、熟练掌握red-flag、redhat等linux操作系统,部署oracle10g>mysql数据库。
熟练掌握dataguard技术,保证oracle数据库冗灾、数据保护、故障恢复。
6、负责应用负载均衡的部署和调试。
7、负责指导数据库工程师管理员开展工作。
4.3.4效劳台
职责:
故障受理,文档管理。
职位描述
1、负责业务的救助的受理工作;
2、故障处理的发起人,同时进行维护工程师指派,跟踪事件处理状态;
3、进行维护故障统计、用户满意度统计、工作报表输出等工
作;
4、协助工程经理,进行文档整理、归类、保存等工作。
4.3.5网络管理员
职责:
维护建设单位网络系统正常,解决网络相关故障。
职位描述:
1、对现有效劳器、局域网络及机房、配线间的日常管理维护;
2、对信息平安建设提出相关建议,确保网络的平安;
3、保证外网光纤线路正常,保证局域网运行正常;
4、对网络系统和网络设备的运行状态进行监控;
5、熟练掌握域策略设置、DHCP、DNS、FTP效劳器、NTFS权限设置等;
6、编写网络局部的应用处理预案并实施。
7、工作认真、细致,积极主动有条理性,具有良好的沟通能力
及团队合作精神•
4.3.5应用、数据库管理员
职责:
维护建设单位业务系统运行正常,解决应用和数据库故障。
职位描述:
1、监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整;
2、规划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,根据业务的需要执行数据转换及迁移等操作;
3、保证应用和数据库系统的平安性、完整性和运行效率。
4、负责数据库平台的整体架构及解决方案的制定和实施;
5、工作认真、细致,积极主动有条理性,具有良好的沟通能力
及团队合作精神•
4.3.7终端管理员
职责:
维护建设单位桌面系统运行正常,解决终端、外设故障。
职位描述:
1、各部门电脑、打印机、机的维护;
2、对各部门职员进行电脑相关的技术支持及培训工作;
3、精通WindowsXP及Office的使用,能够熟练使用Excel2003、
Exce12007及以上版本,能够制作相应教程对其他部门员工进行培训
4.4运维效劳流程
IT运维效劳管理流程涉及效劳台、事件管理、问题管理、配置管
理、变更管理、发布管理、效劳级别管理、财务管理、能力管理、可用性管理、效劳持续性管理、知识管理及供给商管理等,随着运维活动的不断深入和持续改良,其他流程可能会逐步独立并标准。
4.4」工程运维效劳工作流程图
专门人域
IT肝和芯划済歩猝坏凶毗愴
知评庄忏理
服等台
工单骨吗
jIT监璋乐
便用忙朮临
件写闻也
琨坊台體电出说帮如」爭什世厘
an单册城二纠
卩耒販旳履务i縣
樂去人炖“幼桂鼻
弄柚牺工举托4靖fti*件决扛tA•哎—
4.4.2效劳台
效劳台是支持运维效劳的核心功能,与各个流程联系密切。
所有管理流程都要通过效劳台为用户提供单点联系,解答用户的相关问题
和需求,或为用户寻求相应的支持人员。
在本系统中,效劳台是接收各种来源效劳请求和相关信息反应的唯一入口和出口,同时效劳台还负责一般请求、通过知识库〔历史事件〕能够解决的请求;他也是复杂问题二线处理的桥梁。
4.4.3事件管理
事件管理流程的主要目标是尽快恢复效劳提供并减少其对业务的
不利影响,尽可能保证最好的效劳质量和可用性等级。
事件管理流程
事件的解决和恢复以及事件的关闭。
本系统把所有效劳请求和报警归结为事件。
事件管理是提供效劳
台和事件管理者对于事件记录、处理、查询、审核、派发等功能。
它也包括通过和第三方监控系统对接,把其发送报警形成事件的功能。
4.4.4工单管理
工单管理:
工单是现场运维、二线支持的任务载体,运维工程依
据所接收工单进行运维工作。
工单管理是对工单实现创立、变更、询浏览、派发、监督等功能的模块。
4.4.5问题管理
问题管理流程的主要目标是预防问题和事故的再次发生,并将未能解决的事件的影响降低到最小。
问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动,通过适宜的控制过程,尤其是变更管理和发布管理,负责确保解决方案的实施。
问题管理还将维护
有关问题、应急方案和解决方案的信息。
问题管理是针对已处理事件的遗留问题或处理事件的方案只是治
标不治本的不能彻底解决问题而考虑的模块。
根据事件、及处理方案,问题处理人经过调查、诊断并提出最终解决方法。
4.4.6变更管理
变更管理实现所有根底设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。
其主要目标是以对效劳最小的干扰实现有益的变更。
变更管理是要对重大资源的新增、变更、升级等运维活动进行审核的功能,以免这些活动对现有资源的可用性造成没有必要的影响和破坏;同时,他还要实现在工单中产生的变化进行后审计的功能。
4.4.7配置管理
配置管理流程负责核实根底设施和应用系统中实施的变更以及配
置项之间的关系是否已经被正确记录下来;确保配置管理数据库能够准确地反映现存配置项的实际版本状态。
配置管理实际上是全部资源的统一管理的功能,包括资源整个生命周期的参数或配置的变化记录的管理。
管理信息主要涉及分类、型号、版本、位置,状态、相关资料等根本信息还包括核心参数等4.4.8知识库管理
知识库管理:
知识库是提供给运维人员重要的技术资料内容,他
聚集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料
手册。
在本系统中,知识库管理提供便于使用的人机接口、快速查询的技术手段和维护手段。
4.4.9统计及工作报告
运维管理系统提供一线解决率统计、客户满意度统计、按分类的事件汇总统计、工作报告生成的功能,按照一定格式根据事件数据、工单数据、问题数据、配置数据、变更数据可以帮助运维管理者能把运维的所做的工作内容清晰的罗列出来。
5、运维效劳内容
5.1效劳目标
运维工程组提供的运行维护效劳包括,信息系统相关的主机设备、操作系统、数据库和存储设备的运行维护效劳,保证用户现有的信息系统的正常运行,降低整体管理本钱,提高网络信息系统的整体效劳水平。
同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化开展提供有力的保障。
用户信息系统的组成主要可分为两类:
硬件设备和软件系统。
硬件设备包括网络设备、平安设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件〔如:
数据库软件、中间件软件等〕、业务应用软件等。
效劳工程范围覆盖的信息系统资源以下方面的关键状态及参数指标:
运行状态、故障情况配置信息
可用性情况及健康状况性能指标
5.2rr资产统计效劳
效劳内容包括:
硬件设备型号、数量、版本等信息统计记录软件产品型号、版本和补丁等信息统计记录网络结构、网络路由、网络ip地址统计记录综合布线系统结构图的绘制其它附属设备的统计记录
5.3网络、平安系统运维效劳
从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。
设备根底性能检测:
cpu、内存使用情况监测;设备snmp状态;
测试Ping,tracert等工具的连通性;网络平安策略应用是否正常;
Internet带宽流量的实时监测;
网络拓扑链路状态监测;
异常网络数据包流量;
Dos、ddos等网络攻击情况监测;
Internet线路的误码率、丢包率监测;
5.4主机、存储系统运维效劳
提供的主机、存储系统的运维效劳包括:
主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。
进行监控管理的内容包括:
CPU性能管理;
内存使用情况管理;
硬盘利用情况管理;
系统进程管理;
主机性能管理;
实时监控主机电源、风扇的使用情况及主机机箱内部温度;
监控主机硬盘运行状态;
监控主机网卡、阵列卡等硬件状态;
监控主机HA运行状况;
主机系统文件系统管理;
监控存储交换机设备状态、端口状态、传输速度;
监控备份效劳进程、备份情况〔起止时间、是否成功、出错告警〕;
监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;
对存储的性能〔如高速缓存、光纤通道等〕进行监控。
5.5数据库系统运维效劳
提供的数据库运行维护效劳是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。
通过主动式性能管理可了解数
据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。
同时,密切注意数据库系统的变化,主动地预防可能发生的问题。
进行监控管理的内容包括:
数据库根本信息:
文件系统、碎片、死锁、CPU占用率较大或时间较长的SQL语句。
表空间使用信息监测;
数据库文件"0读写情况;
Session连接数量监控;
数据库监听运行状态监测;
查看每日数据备份、数据同步是否正常;
报警日志监测;对表和索引进行Analyze,检查表空间碎片;
检测数据库后台进程;
数据库对象的空间扩展情况监测;
5.6中间件运维效劳
中间件管理是指对BEAWeblogic、tomcat>MQ等中间件的日常维护管理和监控工作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳定运行。
中间件监控指标包括配置信息管理、故障监控、性能监控。
执行线程:
监控中间件配置执行线程的空闲数量。
JVM内存:
JVM内存曲线正常,能够及时的进行内存空间回收。
JDBC连接池:
连接池的初始容量和最大容量应该设置为相等,并且至少等于执行线程的数量,以防止在运行过程中创立数据
库连接所带来的性能消耗。
检查中间件日志文件是否有异常报错
如果有中间件集群配置,需要检查集群的配置是否正常。
5.7终端、外设运维效劳
负责对终端PC、笔记本以及工作站的操作系统、应用软件和硬件
的维护,解决使用人员在应用过程中遇到的问题并进行简单培训,完成打印机等其他外设的故障处理工作。
6、应急效劳响应措施
运维工程组制定了详尽的应急处理预案,整个流程严谨而有序。
但在效劳维护过程中,意外情况将难以完全防止。
我们将对工程实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。
6.1应急预案实施根本流程
6.2突发事件应急策略
(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。
对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。
(2)正常情况下,要求值班人员在10分钟内进行事件确认。
如果属于一般事件那么按照事件流程进行分派处理,否那么应迅速启动?
应急预案?
,并严格按照?
应急预案?
所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。
(3)在处理过程中,如需其他部门去现场增援处理,应及时向上
级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶
赴现场援助处理。
7、效劳管理制度标准
7.1效劳时间
(1)在5*8小时工作时间内设置由专人职守的热线,接听内部的效劳请求,并记录效劳台事件处理结果。
(2)在非工作时间设置有专人7*24小时接听的移动热线,用于解决内部的技术问题以及接听7*24小时机房监控人员的机房突发情况汇报。
⑶效劳响应时间:
故障级别
响应时间
故障解决时
间
I级:
属于紧急问题;其具表达象为:
系统崩溃导致业务停止、数据丧失。
10分钟,30分
钟内提交故障
处理方案
3小时以内
n级:
属于严重问题;其具表达象为:
出现局部部件失效、系统性能下降但能正常运行,不影响正常业务运作。
10分钟,30分
钟内提交故障
处理方案
6小时以内
m级:
属于较严重问题;其具体
现象为:
出现系统报错或警告,
10分钟,30分
钟内提交故障
12小时以内
但业务系统能继续运行且性能不
处理方案
受影响。
IV级:
属于普通问题;其具表达象为:
系统技术功能、安装或配置咨询,或其他显然不影响业务的预约效劳。
10分钟,2小
时内提交故障
处理方案
24小时以内
7.2行为标准
(1)遵守用户的各项规章制度,严格按照用户相应的规章制度办事。
⑵与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。
(3)出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。
(4)现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄
重。
接听时要文明礼貌,语言清晰明了,语气和蔼。
(5)遵守保密原那么。
对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。