passport系统用户维护手册.docx
《passport系统用户维护手册.docx》由会员分享,可在线阅读,更多相关《passport系统用户维护手册.docx(128页珍藏版)》请在冰点文库上搜索。
passport系统用户维护手册
passport系统用户维护手册
精品汇编资料
Passport7400/15000
系统用户维护手册
北电网络
2003年3月
前言
本手册系根据Passport7400和Passport150000的主要性能要求制订,作为机房维护人员的参考指南,为更有效地管理系统及保障系统的可靠性,预防和及时发现潜在的问题提供帮助。
本手册针对Passport的特点,给出了部分技术指标和操作方法,维护人员可根据本手册制订相应表格,或参考我们制订的表格,周期性的记录测试和观察的结果。
维护人员应严格按照维护规程操作,并如实填写维护日志。
在维护人员发现和解决问题的过程中,如发现与北电NTP资料有异,则以北电NTP资料为准;如需要支援可联系我们的技术人员。
我们希望本手册能够帮助您更好地管理和维护Passport系统,使其达到最佳的运行状态;如在使用本手册过程中发现有错误之处,或您有更好见解,请与我们联系、商讨。
我们将经常更新,以使其更加完善。
前言3
第一部分Passport交换机维护规程5
一:
北电用户服务和技术支持流程5
二:
ATM网络维护人员分工原则8
三:
PASSPORT交换机硬件系统维护9
四:
PASSPORT交换机软件系统及业务电路的维护10
五:
网管系统的维护11
第二部分Passport维护工作详述17
第一章Passport15000硬件简介及维护17
第二章Passport7480硬件简介及维护27
第三章Passport软件及业务系统维护详解33
第三部分告警40
一:
Passport告警概论40
二:
告警策略40
三:
产生告警主要情况:
40
四:
告警清除40
五:
告警信息解释41
第四部分Passport业务配置与故障排查51
一:
ATM业务配置及故障排查:
51
二:
帧中继业务配置及故障排查:
71
三:
FrAtm业务配置及故障排查:
78
四:
电路仿真业务配置及故障排查:
86
五:
IPoverPassport业务配置及故障排查:
95
第一部分Passport交换机维护规程
北电PASSPORT系列交换机的维护主要包括对硬件系统、软件系统、网管系统以及各项业务的日常维护,同时这些维护工作又可以分为日维护项目、周维护项目和月维护项目。
定期定量定性的维护对确保交换机性能的稳定、延长交换机的使用寿命都起着重要的作用。
此外,维护人员和北电有关部门一起协调、紧密地合作,解决网络中各种突发的故障,也是一项重要的工作。
这里介绍了北电网络技术支持的流程以及基本的Passport操作维护规程。
一:
北电用户服务和技术支持流程
如果网管人员遇到自己不能解决的故障或突发事故,可依据北电的服务和技术支持流程向北电请求支援,北电一定会为客户提供优质的服务,与客户一起保障网络的稳定运行。
以下的这些内容对每一位网管维护人员都是很重要的。
1:
北电提供的维护项目:
∙硬件维修与更换服务。
北电网络公司利用北电的保税仓库为最终用户提供硬件维修与更换服务。
维修与更换服务受理中心将在收到用户申请后平均10工作日内,将好件发出。
∙用户技术支持服务,主要包括以下内容:
(1)电话支持服务(PSS)
指在正常工作时间(每周5天,每天8小时)内向最终用户提供的非紧急情况时的国内热线电话技术支持服务。
除紧急情况外,用户一旦需要技术援助,都可以打电话给我们的用户技术支持服务中心“”,我们的热线支持工程师会立即通过建立数据连接或电话的方式提供技术解决方案或采取纠正性行动,直至达到故障问题临时或彻底解决。
(2)紧急技术支持服务(ETAS)
指24小时不间断(一年365天,每天24小时)向最终用户提供的紧急情况时的热线电话技术支持服务。
其目的是当最终用户遇到影响其服务的问题时,北电在最短时间内向他们提供紧急服务。
ETAS呼叫号码为“”。
(3)现场技术支持服务(FSE)
北电现场服务工程师提供紧急情况的现场技术支持服务。
现场服务工程师将帮助用户解决技术问题或者帮助ETAS&NTS对问题做进一步调查及收集数据。
(4)用户服务申请报告(CSR)
用户服务申请报告是用来记录、追踪和解决用户对于软件、硬件和文件方面的问题的。
用户把对技术问题的申诉以最为方便的方式(信件、电话、传真、email等)告知NTS工程师。
申诉可能是关于维护方面的咨询、通过电话来申请技术援助、会议纪要中列明尚未解决的问题、用户寄来的申请技术支持的信件。
如果确认用户的申诉的确是合理的设备方面的问题,NTS工程师将形成并提交一份正式的服务申请书(CSRorCase)。
一旦服务申请形成,NTS工程师必须与用户联系,通知用户其申诉已经收到并会采取相关行动。
一旦问题得以解决,无论是通过现场工程师还是远程电话支持,北电工程师都必须征得用户同意后方可结束该次服务申请。
2:
故障严重级别及目标解决时间
北电网络根据以下TL9000的定义来衡量硬件或软件故障的严重级别,以生成紧急、重大和一般硬件/软件故障报告。
如果无法确定严重级别,则应使用客户分配的严重级别。
然而,如果故障明显属于下面定义的某个严重级别,则应使用这个严重级别。
北电网络采用案例优先级(CasePriority),这些优先级与客户严重级别相对应,如下表所示:
TL9000
北电网络
客户严重级别
目标解决时间
案例优先级
目标解决时间
紧急
24小时
E1
24小时(业务恢复)
重大
30天
E2
24小时(业务恢复)
BusinessCritical
24小时(业务恢复)
Major
30天
一般
180天
Minor
180天
A):
TL9000紧急客户严重级别(北电网络故障案例优先级=E1)
TL9000规定,紧急故障是严重影响业务、容量/流量、计费和维护功能,并需要立即采取纠正措施(而不管时间和周日)的故障。
例如:
∙业务功能的丧失,类似于整个交换或传输系统的有效功能的全部丧失。
∙容量或流量处理功能的降低,导致预期的负载无法得到有效的处理。
∙任何安全性或紧急功能的丧失。
∙系统进行自动重新配置的能力的丧失。
∙无法重新启动处理器或系统。
∙保护切换功能的丧失。
∙计费功能的丧失。
∙计费或数据库被破坏,需要采取会影响业务的纠正措施。
∙无法执行恢复或维护操作。
∙系统无法提供任何所要求的系统紧急/重大报告。
∙会严重影响业务、容量/流量、计费和维护功能,或北电网络和客户共同认为是紧急故障的其它故障。
∙
北电网络将紧急故障归为E1类,TL9000中为紧急故障规定的目标解决时间是在24小时内恢复故障发生前的性能级别。
在业务恢复之后,系统可开立一个子案例(Sub-Case),以进一步分析导致故障的根本原因。
B):
TL9000重大客户严重级别
TL9000规定,重大故障是严重影响系统运行、维护和管理等功能并需要立即引起注意的故障。
重大故障的紧急程度低于紧急故障,因为它对系统性能、客户和客户运营以及收入方面产生的影响较小。
例如:
∙容量或业务衡量功能的降低。
∙功能性可视性和/或诊断功能的丧失
∙短暂的故障停机,如系统或子系统的故障停机,在24小时内,中断时间不超过2分钟,或者在更长的时间内继续重复这种运行中断。
∙重复的DS1/E1降级或较高速率跨接或连接的质量下降。
∙无法接入以完成常规管理工作。
∙维护和恢复操作接入的质量下降。
∙系统提供所需的系统紧急/重大告警功能的减弱。
∙任何与产品有关的客户问题报告的大幅增长。
∙计费错误率超过相关规范。
∙系统或计费数据库被破坏。
∙中断常规系统行为或使之无法进行,或北电和客户共同认为是重大故障的其它故障。
北电网络目标解决时间在重大故障方面的工作绩效应根据TL9000中规定的30天进行衡量;然而,为了更加集中精力于特定类型的重大故障,北电网络使用下列故障案例优先级定义。
E2-冗余丧失
潜在的业务降级和/或全部中断。
严重情况并不包括工作环境中业务降级,但将导致全部或部分的冗余丧失。
北电此类案例的目标是在24小时内恢复故障发生前的运行状况。
在业务恢复之后,系统将开立一个子案例(sub-case)以进一步分析导致故障的根本原因。
BusinessCritical-业务和性能受影响.
任何系统或业务性能的重大降级,将影响客户服务质量或严重降低网络操作员控制或操作效率。
整个网络质量下降导致对客户业务运营的严重限制,或网络管理软件产品某些重大功能很难运行,而且很难找到其它的变通方法。
Major-业务和性能受影响
任何系统或业务性能的重大降级,将影响客户服务质量或严重地降低网络操作员控制或操作效率。
网络组件运行中断、网络故障或功能性丧失,导致对操作的部分限制,或网络管理软件产品某些重大功能很难运行,但却可以找到其它的变通方法。
当采用的变通方法对运行环境无任何影响时,这种情况也可以生成一份故障报告。
C):
TL9000一般客户严重级别(北电网络案例优先级=Minor)
TL9000规定,一般故障是不被客户看作紧急或重大故障的故障。
一般故障不会显着降低系统功能和严重影响客户业务。
这些故障在系统使用过程中是可以存在的。
根据对客户业务的影响,可将特定故障定义为较高的优先级,以便更快地解决;然而,北电网络的工作绩效只能根据TL9000目标解决时间衡量。
3:
服务程序
1)客户填写“技术服务申请单”并传真至北电NTS。
也可以在适当时通过电话接入北电网络呼叫中心NTS或电子故障案例管理工具联系北电网络技术支持部。
接入权利是通过CustomerID(客户ID)。
待服务开始后再把“服务申请单”传真至北电NTS。
待双方确认服务开始时间后,北电NTS开始工作直至系统恢复正常。
服务结束后,双方确认服务结束时间。
北电NTS填写“技术服务申请单”相关部分,然后双方签字确认。
2)北电紧急网络呼叫中心ETAS应作为受理客户支持电话和咨询的单一联系点。
呼叫中心应一年365天,一天24小时向客户开通。
入局呼叫线路可以与自动呼叫分配(ACD)系统相连。
3)E1和T1类故障案例只能通过电话报告。
4)所有故障案例都将记录在北电网络故障案例跟踪系统中。
每个案例都标有时间标志而且还有一个案例参考号码。
此外,北电网络还将请求客户为故障定义一个客户严重级别。
5)在适当时候,北电网络允许客户通过直接在北电网络故障案例跟踪系统中开立、查看和修改故障案例。
附表:
用户技术支持服务的联系方法
&N.T.S.
(用户技术支持服务)
热线支持:
800-8105000或0106510-7770(分机)选择2
工作时间:
周一至周五、上午8:
30至下午5:
30
7x24小时紧急技术支持中心:
800-810-5000或(010)6510-7770(分机)选择“1”
ERC密码119,然后按“#”号
一年365天,每天24小时
通信地址:
王府井大街138号新东安写字楼北电网络大厦9层
中国北京100006
北电网络(中国)有限公司
网络技术支持部门
二:
ATM网络维护人员分工原则
1:
网管人员主要负责全网网络的监测、分析以及网络公用资源设备的故障处理,对各节点维护人员进行技术指导和监督,具体范围包括:
∙工作站和网管系统管理维护。
∙全网各节点软件系统工作状态检查。
∙全网各中继电路和用户电路的检查。
∙日常电路故障排查,必要时对各节点维护人员进行指导,共同完成此项任务。
∙电路的各种统计、分析及优化。
∙联系北电进行各种服务和技术支援。
∙针对以上的检查填写相应的维护报表。
2:
节点维护人员负责单一节点的设备监测和维护,具体包括:
∙机房环境监测。
∙板卡工作状态和连接电缆的检查。
∙风扇滤网和交换机表面清洁。
∙协助网管人员完成针对本节点的操作,完成故障排查。
∙根据以上检查结果填写相应的维护报表。
3:
在向北电请求技术支持时,双方职责分工如下:
用户应做的工作:
∙立即向北电的ETAS&NTS报告详细故障情况;
∙在北电的ETAS&NTS指导下完成必要的工作,直至系统恢复正常工作;
∙向北电的ETAS&NTS提供远端访问接口,保证ETAS&NTS能进行远端系统诊断和必要操作,以解决系统问题。
北电的客户技术服务组&ETAS&NTS应做的工作:
∙接到用户的服务请求后,对于紧急情况在15分钟内应作出反应;
∙进行在线故障诊断和调查,提出初步解决问题的措施,指导用户的技术人员行处理,直至系统恢复正常工作;
∙系统恢复正常运行之后的48小时内,向用户提供详细报告,内容包括:
1)故障发生和结束的日期、时间
2)故障现象及描述
3)故障原因或查找故障的计划
4)最终解决方案
5)按时间顺序列出恢复系统所采取的行动步骤
在故障排查中,如果网管人员确定故障原因是由节点以外的设备引起的,各节点人员要及时与这些设备的维护部门联系,共同解决当前问题。
为保证及时、快捷地处理各种突发情况,网管机房应保证24小时值守,各节点人员要保证在接到通知后能在一小时内赶到节点处。
三:
PASSPORT交换机硬件系统维护
无论Passport15K系列还是7K系列它们的硬件维护都包括诸如温度、湿度、板卡状态等一系列内容的检查维护,以保证交换机的正常运行。
硬件系统的维护项目由节点维护人员完成,发现问题应及时反馈给网管人员。
以下是对硬件方面的维护内容和对维护工作提出的要求。
1:
维护内容
a:
日维护项目:
∙机房温度、湿度的检查记录。
∙交换机告警指示灯状态及各功能模块工作指示灯状态的检查记录。
b:
周维护项目:
∙交换机上各种电缆的检查,绑扎是否牢固,有无物理损伤。
∙各种标签的检查,粘贴是否牢固,标注文字是否清晰。
c:
月维护项目:
∙交换机风扇滤网的清洁(可数月进行一次,取决于机房环境)。
∙交换机表面灰尘的清理。
2:
维护要求
∙机房的温度和湿度必须满足交换机对工作环境的要求,温度应在-5~45?
C之间,相对湿度应保持在5%~90%之间。
∙交换机告警指示及所有卡板工作状态指示正常,如发现异常要及时联系网管人员,查找故障原因。
∙保证交换机所有连接电缆排列有序,捆扎牢固,标签清晰,无物理损伤。
∙保持交换机表面和风扇滤网的清洁。
以上的维护工作完成后需要填写相应的硬件维护报表(可参考附件一)。
四:
PASSPORT交换机软件系统及业务电路的维护
网管人员的日常工作除了受理用户障碍申告和配置新的业务电路外,还有一项重要的工作就是监视网络运行状态,通过监视往往可以及时发现一些潜在的问题,从而提前采取预防性的措施,保证网络持续健康地运行。
此外,通过一些专用软件(如PPR)提供的信息,如中继端口带宽利用率和卡板CPU利用率等,可以帮助网络维护人员制定合理的网络优化方案,使网络性能得到最佳的发挥。
这里我们列举了一些维护项目以及相应的维护要求,维护项目从执行的时间周期上分为日维护项目、周维护项目和月维护项目,如下:
1:
维护内容
a:
日维护项目:
∙观察并过滤出网管收集到的重要告警,采取措施清除告警状态,做好记录。
∙检查并记录重要用户电路和重要中继电路的状态,发现异常应及时处理。
∙记录当天新增、修改和删除的业务电路的详细信息,维护好用户电路数据库。
∙及时处理用户的故障申告。
如果发生严重故障(E1/E2),要及时与北电紧急技术支持ETAS联系解决,并记录故障解决经过。
b:
周维护项目:
∙文件系统维护
文件系统保存Passport交换机的软件、配置文件和各种日志文件(计费、统计、告警等),对文件系统的维护要达到以下两个要求:
---确保磁盘同步。
可通过dispfs显示磁盘同步状态,syncfs命令进行手工同步;
---磁盘使用率小于75%。
可通过tidysw、tidyprov等命令清除无用的软件和配置文件;
∙系统时钟同步(NS)
通过dispns命令可查看系统时钟同步状态,Passport网络时钟同步对CES、IMA、BTDS等业务尤为重要,要避免Passport时钟处于freerun状态。
∙系统时间同步(Time)
通过disptime命令可查看系统时间是否与设定的工作站同步,时间不同步会导致统计、计费和告警数据的不正确。
∙交换矩阵/总线状态
如果有一个交换矩阵/总线的状态变为Disabled,将导致该Passport交换机丧失冗余功能。
有时可通过执行Fabric/bustest使处于Disabled状态的交换矩阵/总线恢复到正常状态。
∙配置系统检查。
应保证currentview与committedview为同一文件名。
为避免配置数据丢失,应养成每次修改配置后执行commitprov的习惯。
∙检查机架状态
通过dispshelf命令可以查看机架状态,主要是了解是否有硬件故障。
以上提及的命令的具体用法请参考NTP241-5701-050Passport740015000Commands。
c:
月维护项目:
∙全网服务数据备份。
∙根据PPR产生的报表提出网络优化建议。
∙统计全网各节点可用槽位数和可用端口数,了解网络运营能力(可间隔几个月或半年统计一次)。
∙统计备板备件数量。
2:
维护要求
∙对网管上显示的各种告警和用户申告的故障,要能在尽量短的时间内确定原因并加以排除。
∙保证各节点交换机各项系统参数值保持在规定范围内。
∙对所有新增、修改和删除电路的记录要做到清晰、完整、易查。
∙经常备份网络服务数据,确保备份数据的完整和安全。
∙定期统计全网可用槽位数和可用端口数,动态掌握网络运营能力。
∙妥善保管备件,准确掌握备件信息(类型和数量)。
以上的维护工作完成后需要填写相应的维护报表,我们设计了一些表格供您参考:
值班日志见附件二
周维护报表见附件三
月维护报表见附件四
五:
网管系统的维护
由于对全网各节点的各项操作都要通过网管来实现,所以网管的维护也是维护工作中很重要的一环。
网管系统主要包括:
MDM、MDP、PPR等,对它的维护主要以周为单位,需要定期完成以下工作:
1:
维护内容
∙检查网管工作站的电源连接情况,如插头有无松脱、电源线有无破损。
∙定期检查工作站运行状态,合理组织文件系统,定期整理磁盘,清除无用数据。
∙整理网管的拓扑图窗口,确保整个网络拓扑结构的清晰。
∙检查MDP的工作状态,是否按配置定期从相应交换机提取文件。
Accounting和Stats数据可供计费主机或性能分析主机处理,以生成各类有用的报告。
Stats、Alarm和Log数据则对故障分析具有重要意义。
∙利用PPR生成相应的报表,以备每月的电路分析使用。
∙用外部存储设备(如磁带等)备份工作站系统的所有系统配置和交换机数据信息。
∙检查网管远程接入设施的可用性,提高紧急技术支持的效率。
2:
维护要求:
∙避免工作站突然断电事故的发生,保证工作站长期稳定地工作。
∙维持工作站操作系统的稳定性,避免系统死机或不能启动等事故发生。
∙保证网管各项功能的正常使用,确保MDP数据收集正常进行。
∙保证备份数据的完整与可靠。
∙保证网管远程接入设施的可用性。
附件一:
PASSPORT交换机硬件维护报表
节点BJNTSF7K012003年1月维护报表
日期
机房温度
机房湿度
交换机告警灯状态
卡板工作状态
处理情况
1
24
30%
正常
正常
2
23
30%
正常
正常
3
24
30%
正常
正常
4
24
34%
正常
Slot/7红色
已报网管处理
5
23
30%
正常
正常
6
24
30%
正常
正常
7
26
28%
正常
正常
8
25
30%
正常
正常
9
24
30%
正常
正常
10
23
30%
正常
正常
11
24
30%
正常
正常
12
24
30%
正常
正常
13
25
30%
正常
正常
14
25
28%
正常
正常
15
24
28%
正常
正常
16
25
28%
正常
正常
17
24
28%
正常
正常
18
24
27%
正常
正常
19
24
28%
正常
正常
20
23
28%
正常
正常
21
25
28%
正常
正常
22
25
32%
正常
正常
23
25
28%
正常
正常
24
26
28%
正常
正常
25
24
28%
正常
正常
26
25
30%
正常
正常
27
23
29%
正常
正常
28
23
28%
正常
正常
29
24
28%
正常
正常
30
25
29%
正常
正常
31
24
28%
正常
正常
周维护项目记录
WK1
1月3日检查电缆、标签,正常
WK2
1月10日检查电缆、标签,正常
WK3
1月17日检查电缆、标签,正常
WK4
1月24日检查电缆、标签,正常
WK5
1月31日检查电缆、标签,正常
月维护项目记录
-1月30日更换滤网一张,并清理机身表面灰尘
附件二:
值班日志
日期:
接班时间:
交班时间:
值班人:
用
户申告
及网络故障
处
理记
录
重要电路状态
记录
交
班事项
附件三:
PASSPORT交换机系统维护周报表
2003年第5周PASSPORT系统维护报表
节点
文件系统
总线/交换矩阵
配置系统
时钟同步
时间同步
机架状态
PP7K01
33%
OK
OK
OK
OK
OK
PP7K02
82%
处理情况:
删除多余软件和配置文件
OK
OK
OK
OK
OK
PP7K03
60%
OK
OK
OK
OK
OK
PP7K04
42%
bus/ydisabled
处理情况:
经总线测试已恢复正常
OK
OK
OK
OK
PP7K05
57%
OK
OK
OK
OK
OK
15K01
39%
OK
OK
OK
OK
OK
15K02
8%
OK
OK
OK
OK
OK
15K03
11%,unsync
处理情况:
备用CP磁盘坏,已更换
OK
OK
OK
OK
OK
15K04
17%
OK
Currentview?
committedview
处理情况:
已做commitprov
OK
OK
OK
15K05
13%
OK
OK
OK
OK
OK
附件四:
PASSPORT交换