您的当前位置:首页正文

NE40E产品故障处理指导

2022-08-15 来源:独旅网


一、硬件类

1.1单板无法注册故障处理

1.1.1备用主控板无法注册的定位思路

常见原因

本类故障的常见原因主要包括:

• 单板在启动时间内。

• 备用主控板上电失败。

• 备用主控板加载的系统软件大包和主用主控板不一致。

• 备用主控板的EPLD和大小系统未升级。

• 备用主控板内存未插好或内存故障。

• 备用主控板CF卡故障。

故障诊断流程

• 详细处理流程如图1所示。

• 图1 备用主控板无法注册故障诊断流程图

故障处理步骤

说明:

请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。

操作步骤

1. 检查单板是否处于启动时间内

单板从加电到完成注册需要一段时间,这段时间叫做启动时间。

MPU的启动时间一般在3分钟之内,如果是升级系统软件后重新启动设备,启动时间不超过5分钟。

如果没有超过单板启动时间,则需要等待。如果超过单板启动时间单板仍然无法注册,请继续执行步骤2。

2. 确认备用主控板是否上电

在用户视图下,通过power on slot ?命令查看显示信息是否为“”,如果显示信息为“”说明所有的单板都已经上电了。

如果显示信息出现备用主控板槽位号,说明备用主控板没有上电,此时需要确认单板所在的槽位供电是否正常,具体方式可通过单板边上的空槽位查看未注册单板,如果单板线路板上的灯亮则说明槽位供电正常。

如果槽位供电不正常,请联系华为技术工程师解决。

如果槽位供电正常,而设备上仍显示单板未上电,则为单板电源模块故障,需

要更换单板。

如果备用主控板供电正常,而单板仍然无法注册,请继续执行步骤3。

3. 确认备用主控板加载的系统软件大包是否和主用主控板一致

连接备用主控板的Console口中,查看Console口信息反馈项中的“The start file is”所指定的系统软件大包文件是否和主用主控板一致。

如果系统软件大包不一致,处理步骤请参见“系统软件大包与主用主控板不一致导致备用主控板无法注册”。

如果系统软件大包一致,而单板仍然无法注册,请继续执行步骤4。

4. 升级备用主控板的EPLD

在用户视图下,使用upgrade mpu by-testbus slot-id startup mbus_epld和upgrade mpu by-testbus slot-id startup outer_epld命令升级备用主控板的EPLD,升级完成后如果单板仍无法注册,请继续执行步骤5。

说明:

在NE80E/40E系列中的X1和X2设备上升级备用主控板EPLD的命令为:upgrade mpu by-testbus slot-id startup mpu_epld。

5. 升级备用主控板的大小系统。

在用户视图下,使用upgrade mpu by-testbus slot-id startup bootrom和upgrade mpu by-testbus slot-id startup bootload命令升级备用主控板的大小系统,升级完成后如果单板仍无法注册,请继续执行步骤6。

6. 确认备用主控板内存是否插好

由于主控板有二个内存插槽,只有一条内存时需要将内存插在标号为0的槽位,主控板才能上电运行。

插好内存后,如果单板仍无法注册,请继续执行步骤7。

说明:

在NE80E/40E系列中的X1和X2设备的主控板上使用的不是内存而是贴片DDR,故此步骤的故障排除方法在该设备上不适用。

7. 确认内存是否故障

a. 在主用主控板侧,使用board-channel-check disable命令将板间通信检测关闭。

说明:

该命令在设备正常情况下,不会对业务产生影响。

b. 将备用主控板下电后,将备用主控板拔出。等待30秒后,将刚拔出的备用主控板的console口连接至电脑的COM口,并将此板重新插入机框,使其上电。当控制平台打

印到“Press CTRL+T to start sdram full test in xx seconds!”信息时,按“Ctrl”+“T”对单板的内存进行全检。

检测完成后,若内存有故障,会给出错误的信息(包含有fail字样),此时需要重复拔插内存操作,若多次尝试后仍不能恢复则需要更换内存解决。

说明:

在NE80E/40E系列中的X1和X2设备的主控板上使用的不是内存而是贴片DDR,故此步骤的故障排除方法在该设备上不适用。

说明:

如果终端上没有信息显示出来,则说明内存有故障,也需要做一下拔插内存操作,若多次尝试后仍不能恢复则需要更换内存解决。

8. 处理完内存问题后,如果单板仍无法注册,请继续执行步骤8。

9. 确认CF卡是否故障

说明:

在NE80E/40E系列中的X1和X2设备的主控板上只有一个CF卡,故此步骤的故障排除方法在该设备上不适用。

将单板拔出后,对CF卡进行一次插拔操作,应包括在单板内侧的CF卡。

拔插CF卡后,如果单板仍无法注册,请继续执行步骤9。

10. 请收集如下信息,并联系华为技术支持工程师。

上述步骤的执行结果。

设备的配置文件、日志信息、告警信息。

1.1.2接口板或交换网板无法注册的定位思路

常见原因

本类故障的常见原因主要包括:

• 单板在启动时间内。

• 单板型号与系统软件版本不匹配。

• 单板上电失败。

• 单板的EPLD和大小系统未升级。

• 新单板未插紧

故障诊断流程

• 详细处理流程如图1所示。

• 图1 接口板或交换网板无法注册故障诊断流程图

故障处理步骤

说明:

请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。

操作步骤

1. 检查单板是否处于启动时间内

单板从加电到完成注册需要一段时间,这段时间叫做启动时间。

LPU的启动时间在不需要更新系统软件和相关文件的情况下,不超过5分钟,如果LPU需要更新系统软件和相关文件,启动时间不超过10分钟。

SFU的启动时间在不更新系统软件和相关文件的情况下不超过2分钟,如果更新系统软件和相关文件,不超过5分钟。

如果没有超过单板启动时间,则需要等待。如果超过单板启动时间单板仍然无法注册,请继续执行步骤2。

2. 确认单板型号是否与系统软件版本匹配

不同系统软件版本支持的单板类型不同,本版本的单板支持列表请参考《HUAWEI NetEngine80E/40E 路由器 硬件描述》的“单板”一章。

完成上述检查,如果单板仍无法注册,请继续执行步骤3。

3. 确认单板是否上电

在用户视图下,通过power on slot ?命令查看显示信息是否为“”,如果显示信息为“”说明所有的单板都已经上电了。

如果显示信息出现单板槽位号,说明单板没有上电,此时需要确认单板所在的槽位供电是否正常,具体方式可通过单板边上的空槽位查看未注册单板,如果单板线路板上的灯亮则说明槽位供电正常。

如果槽位供电不正常,请联系华为技术工程师解决。

如果槽位供电正常,而设备上仍显示单板未上电,则为单板电源模块故障,需

要更换单板。

如果单板供电正常,而单板仍然无法注册,请继续执行步骤4。

4. 升级单板的EPLD

在用户视图下,使用upgrade lpu by-testbus slot-id startup lpu_epld和upgrade lpu by-testbus slot-id startup lpu_epld2命令升级接口板的EPLD。

在用户视图下,使用upgrade sfu by-testbus slot-id startup mbus_epld、upgrade sfu by-testbus slot-id startup sfu_epld1和upgrade sfu by-testbus

slot-id startup sfu_epld2命令升级交换网板的EPLD。

升级完成后如果单板仍无法注册,请继续执行步骤5。

5. 升级单板的大小系统。

在用户视图下,使用upgrade lpu by-testbus slot-id startup lpu_bootrom、upgrade lpu by-testbus slot-id startup lpu_bootload命令升级接口板的大小系统。

在用户视图下,使用upgrade sfu by-testbus slot-id startup sfu_bootrom和upgrade sfu by-testbus slot-id startup sfu_bootload命令升级交换网板的大小系统。

升级完成后如果单板仍无法注册,请继续执行步骤6。

6. 如果是全新更换的单板出现无法注册的问题,请将单板进行一次插拔,看是否注册成功,如果仍不能注册成功,请继续执行步骤7。

7. 请收集如下信息,并联系华为技术支持工程师。

上述步骤的执行结果。

设备的配置文件、日志信息、告警信息。

1.1.3子卡无法注册的定位思路

常见原因

本类故障的常见原因主要包括:

• 子卡上电失败。

• 子卡未插紧。

故障诊断流程

• 详细处理流程如图1所示。

• 图1 子卡无法注册故障诊断流程图

故障处理步骤

说明:

请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。

操作步骤

1. 确认子卡是否上电

观察子卡上的指示灯是否亮,若没有亮,则说明子卡没有上电,此时需要查看子卡是否插紧。请注意将子卡完全推入槽位,并将子卡的螺丝拧紧。

如果子卡上电正常,但仍然无法注册,请继续执行步骤2。

2. 拔插子卡

如果子卡仍无法注册,请继续执行步骤4。

3. 请收集如下信息,并联系华为技术支持工程师。

上述步骤的执行结果。

设备的配置文件、日志信息、告警信息。

1.1.4相关案例

单板告警灯亮并打印日志SRM/2/TMLINEERR

单板时常出现红色告警灯亮,并打印日志SRM/2/TMLINEERR。

故障分析

1. 设备打印如下告警,分析告警产生原因,发现由于2号板有丢包导致设备打印告警信息。

2. Jul 31 2008 15:54:01 TZ-XQ-01 %%01SRM/2/TMLINEERR(l): LPU2 occur line error! Error Code=2.2!

Jul 31 2008 15:53:01 TZ-XQ-01 %%01SRM/2/TMLINEERR(l): LPU2 occur line error! Error Code=2.1!

3. 执行display interface interface-type interface-number命令查看2号板各接口信息,发现接口GE2/0/0的流量接近线速。显示信息如下:

Last 30 seconds output rate: 968093056 bits/sec, 209961 packets/sec

4. 通过查看接口下的配置,发现设备上配置了端口镜像,GE2/0/0做为观测端口,GE2/0/1、GE2/0/2为镜像端口。

a. 镜像。

在GE2/0/0所在接口视图下执行display this命令,发现设备上配置了端口

b. [HUAWEI-GigabitEthernet2/0/0] display this

c. #

d. interface GigabitEthernet2/0/0

e. undo shutdown

f. port-observing observe-index 2

g. #

return

h. 执行命令display port-observing slot命令,查看reference slot字段,获

取镜像端口所在的槽位号。

i. [HUAWEI] display port-observing slot

j. slot 2

k. observe-port : GigabitEthernet2/0/0

reference slot : 2

l. 执行命令display port-mirroring interface slot slot-id,获取镜像端口号。

m. [HUAWEI] display port-mirroring interface slot 2

n. ------------------------------------------------------------------------------

o. Interface Local/Remote CAR Type In/Out WithLinkHeader Instance

p. ------------------------------------------------------------------------------

q. GI2/0/1 Local - Port In - -

r. GI2/0/2 Local - Port In - -

------------------------------------------------------------------------------

发现故障原因是由于将两个端口的流量镜像到一个端口,导致端口流量过大,产生告警和丢包。若配置接口镜像是为了对镜像端口的流量进行监控管理,则可以通过减少镜像端口或将流量镜像到其它端口的方法解决。

操作步骤

1. 根据配置镜像的原因,可以选择取消观测端口或者减少镜像端口的方法来消除故障现象。

2. 取消观测端口

a. 执行命令system-view,进入系统视图。

b. 执行命令interface interface-type interface-number,进入接口视图。

在本故障案例中,应进入观测接口的接口视图,即接口GE2/0/0。

c. 执行命令undo port-observing observe-index

observe-index-number,删除端口镜像。

3. 减少镜像端口

a. 执行命令system-view,进入系统视图。

b. 执行命令interface interface-type interface-number,进入接口视图。

在本故障案例中,应进入镜像端口的接口视图,即接口GE2/0/1或GE2/0/2。

c. 执行命令undo port-mirroring { inbound | outbound },删除端口镜像。

4. 检查单板告警灯恢复正常,设备上不再打印日志。

案例总结

将多个端口的流量镜像到一个端口,可能会使观测端口的流量到达线速,并产生丢包。在配置前需要关注端口流量问题。

NE80E/40E主控板从1G内存扩容到2G内存后仍然是1G

NE80E/40E主控板需要从1G扩容到2G,主控板上插有A厂商生产的1G内存条,现需要再插一根1G内存条进行扩容。插入B厂商生产的1G内存条之后,发现主控板内存仍然是1G。

故障分析

说明:

该案例在NE80E/40E系列中的X1和X2设备上不适用。

1. 在插有A厂商生产的内存条的主控板上重新插拔B厂商生产的内存条,执行display memory-usage命令仍然显示内存为1G,排除B厂商生产的内存条没有插好的问题。

2. 更换另外一根B厂商生产的内存条,执行display memory-usage命令仍然显示内存为1G,排除B厂商内存条本身的问题。

3. 将主控板那根A厂商生产的内存条拔掉,在主控板上插上两根B厂商生产的1G内存条,使用display memory-usage命令查看内存正常显示为2G,故障排除。

由于NE80E/40E主控板以前是1G内存,因业务需要再扩容1G内存。新扩容的内存与主控板上原有的内存无法兼容,导致新扩容内存无法识别,更换为同一厂商生产的内存条后内存能够正常显示。

操作步骤

1. 将主控板那根A厂商生产的内存条拔掉,在主控板上插上两根B厂商生产的1G内存条。

完成上述操作后,执行命令display memory-usage查看内存显示为2G,故障排除。

案例总结

在扩容时需要保证一块主控板上的两根内存一样,即同一主控板上的两根内存条为同一厂家生产的。

TCAM芯片故障导致所有MPLS Tunnel状态Down

网络环境

某区域网络为双平面设计,正常情况下,主平面故障时业务自动倒换到备用平面。

某次发现承载网业务全部中断,经检查承载网与骨干网之间的主/备Tunnel全部Down掉,导致该区域下节点到其它区域节点的LSP都无法建立,业务中断。

故障分析

1. 主/备Tunnel均通过1槽位单板连接。执行命令display interface tunnel

interface-number,查看其它Tunnel的状态,发现通过其它槽位连接的Tunnel没有任

何故障。

2. 当前网络中使用的是ISIS协议,执行命令display isis route查看1槽位单板路由协议的运行状态,发现1槽位ISIS协议运行正常。

由于RSVP和LDP协议均需要查找FIB表,因此可初步判定为协议在查找FIB表项时出现故障。

3. 由于控制层面下发FIB表项是向所有接口板同时下发的,执行命令display fib,查看其它接口板的FIB表项是否正常。

由于其它接口板的FIB表正常,可排除控制层面下发FIB时出错。因此可初步定位为保存FIB表项的TCAM芯片出现了硬件故障。

操作步骤

1. 更换1槽位业务单板,更换后故障消失,业务恢复。

案例总结

通常情况下,导致查找FIB表项故障的原因有两个:

• 控制层面下发FIB时出错;

• 保存FIB表项的TCAM芯片出现硬件故障。

由于采用新背板导致NE80E/40E SFU板不能注册

四块SFU单板同时在位时都可以注册,拔掉21和22槽位两块后,剩余的2块SFU单板也不能注册,导致业务板也无法注册。

故障分析

说明:

本案例只在16槽位设备上支持。

SFU单板在NE80E/40E系列中的X1和X2设备上不支持。

1. 执行命令display device,查看单板的在位情况。

由于拔掉21和22槽位SFU单板,导致剩余2块SFU单板也无法注册。

display device

Device status:

Slot # Type Online Register Status Primary

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

1 LPU/SPU Present Unregistered Abnormal NA

2 LPU/SPU Present Unregistered Abnormal NA

17 MPU Present NA Normal Master

18 MPU Present Registered Normal Slave

19 SFU Present Unregistered Abnormal NA

20 SFU Present Unregistered Abnormal NA

23 CLK Present Registered Normal Master

24 CLK Present Registered Normal Slave

2. 执行命令display version,查看背板版本。

3. display version

4. Huawei Versatile Routing Platform Software

5. VRP (R) software, Version 5.30 (V300R003C06B325)

6. Copyright (C) 2000-2008 Huawei Technologies Co., Ltd

7. uptime is 0 day, 6 hours, 35 minutes

8. BKP 0 version information:

9. 1. PCB Version : CR52BKPC REV A

10. 2. MPU Slot Quantity: 2

11. 3. SRU Slot Quantity: 0

12. 4. SFU Slot Quantity: 4

5. LPU Slot Quantity: 16

查看PCB字段,背板类型为BKPC,要求SFU单板优先安装在21或者22槽位。

说明:

BKPA单板的交换网同步时钟是从主控给出的,BKPC单板的交换网同步时钟是从21、22槽位的网板给出的,如果21、22两槽位没有网板,设备则无法找到同步时钟,因此无

法注册。所以在有两块网板时一定要优先插在21、22两个槽位上。

操作步骤

1. 更换槽位,将19、20槽位的SFU单板更换至21、22槽位。

2. 完成上述操作后,执行命令display device,查看单板的在位情况,发现所有单板均正常注册。

案例总结

若只有1块SFUF板,则该SFUF板必须插在21或22号槽位,这样LPU板才能注册;若插在19或20号槽位,所有的LPU都无法注册。

若有2块SFUF板,则必须插在21和22号槽位,这样能保证交换网时钟源的备份。

说明:

若将其中1块网板在19或20槽位,虽然LPU板能注册,但此时系统会打印19或20号槽位的网板无法注册,并提示更换成21或22号槽位。

系统软件大包与主用主控板不一致导致备用主控板无法注册

网络环境

备用主控板无法注册。

故障分析

通过Telnet登录设备,使用display startup查看主用主控板加载的软件大包。

MainBoard:

Configured startup system software: cfcard:/V600R002C00.cc

Startup system software: cfcard:/V600R002C00.cc

Next startup system software: cfcard:/V600R002C00.cc

Startup saved-configuration file: cfcard:/vrpcfg.cfg

Next startup saved-configuration file: cfcard:/vrpcfg.cfg

Startup paf file: cfcard:/paf-V600R002C00.txt

Next startup paf file: cfcard:/paf-V600R002C00.txt

Startup license file: cfcard:/license-V600R002C00.txt

Next startup license file: cfcard:/license-V600R002C00.txt

Startup patch package: cfcard:/patch.bat

Next startup patch package: cfcard:/patch.bat

使用PC连接备用主控板的Console口,查看Console口信息反馈项中的“The start file is”所指定的系统软件大包文件,发现和主用主控板不一致,导致备用主控板无法注册。

操作步骤

1. 在用户视图下执行命令board-channel-check disable,关闭通道自检开关。

说明:

如果不执行本操作,备用主控板会不定期重启,导致无法正常升级备用主控板。

2. 连接好设备的Console口和PC的COM口,并配置好超级终端。

FTP服务器和操作终端可以为一台PC。

超级终端的配置以WindowsXP为例进行介绍。

a. 打开WindowsXP系统,进入<开始>-<附件>-<通讯>-<超级终端>,出

现以下窗口,名称没特殊要求,可以随便填写。

b.

点击<确定>,出现以下窗口,选择COM口,建议使用的是COM1口。

c.

点击<确定>,出现以下窗口。进行参数设置,将“每秒位数(B)”设置为9600,

其它参数无需设置,采用默认值即可。

点击<确定>,即完成了超级终端的配置。

3. 在PC上运行FTP Server程序,并创建FTP用户。

说明:

由于计算机使用的FTP软件不同,屏幕显示可能不同。

设置FTP Server程序的参数,主要包括存放文件路径、用户名和密码。

图1 FTP参数设置示意图

4. 重新启动设备,在超级终端的窗口中出现“Press Ctrl+B to enter Main Menu... 3”提示信息后,在3秒内按下+B。

5. ****************************************************

6. * *

7. * 8090 boot ROM, Ver 214.00 *

8. * *

9. ****************************************************

10. Copyright 2001-2010 Huawei Tech. Co., Ltd.

11. Creation date: Mar 27 2010, 17:47:31

12. CPU type : MPC7447A

13. CPU L2 Cache : 512KB

14. CPU Core Frequency : 1GHz

15. BUS Frequency : 133MHz

16. Press Ctrl+B to enter Main Menu... 3

17. 输入boot主菜单密码,进入boot主菜单

password:

说明:

密码的默认值为8090,您可以在boot主菜单中选择“6. Modify boot ROM password”进行修改。

Main Menu(bootload ver: 216.00)

1. Boot with default mode

2. Boot from CFcard

3. Enter serial submenu

4. Enter ethernet submenu

5. Set boot file and path

6. Modify boot ROM password

7. List file in CFcard

8. Chkdsk CFcard

9. Set patch mode

10. Set version back signal

11. Reboot

Enter your choice(1-11):4

18. 选择“4. Enter ethernet submenu”,进入以太网子选单。

19. Ethernet Submenu

20. 1. Download file to SDRAM through ethernet interface and boot

21. 2. Download file to CFcard through ethernet interface

22. 3. Modify ethernet interface boot parameters

23. 4. Return to main menu

24. Be sure to select 3 to modify boot parameters before downloading!

25. Enter your choice(1-4): 3

26. 选择“3. Modify ethernet interface boot parameters”,设置加载参数。

27. te: two protocols for download, tftp & ftp.

28. You can modify the flags following the menu.

29. tftp--0x80, ftp--0x0.

30. '.' = clear field; '-' = go to previous field; ^D = quit

31. boot device : mgi0 \\\\ mgi0或mgi2,如果设置mgi0加载

文件不能成功,可以设置为mgi2

32. processor number : 2 \\\\如果上面的参数为mgi0,这里需要设置为

2,如果为mgi2,这里一定设置为0

33. host name : host \\\\无需设置

34. 称

file name : V300R006C01.cc \\\\输入服务器上系统软件名

35. inet on ethernet (e) : 100.1.1.100:FFFFFF00 \\\\设置能够和FTP服务器

通信的IP地址和掩码

36. 置

inet on backplane (b): \\\\用来和FTP服务器相连的备份接口,可以不设

37. host inet (h) : 100.1.1.3 \\\\FTP服务器地址

38. gateway inet (g) \\\\和FTP服务器通信的网关,根据实际情况设置。

39. 的用户

user (u) : mpu \\\\FTP用户命,必须是FTP服务器上存在

40. ftp password (pw) (blank = use rsh): mpua \\\\FTP用户密码

41. flags (f) : 0x0 \\\\通过FTP还是TFTP升级,默认是FTP,

如果使用TFTP升级,则输入0x80。本案例使用FTP服务器升级,无需修改。

42. target name (tn) \\\\无需设置

43. startup script (s) \\\\无需设置

44. other (o) : \\\\无需设置

45. Ethernet Submenu

46. 1. Download file to SDRAM through ethernet interface and boot

47. 2. Download file to CFcard through ethernet interface

48. 3. Modify ethernet interface boot parameters

49. 4. Return to main menu

50. Be sure to select 3 to modify boot parameters before downloading!

51. Enter your choice(1-4): 2

设置完成,自动返回以太接口子菜单。

52. 选择“2. Download file to CFcard through ethernet interface”,将升级目标文件加载到CF卡。

53. Be sure to select 3 to modify boot parameters before downloading!

54. Enter your choice(1-4): 2

55. C address:0xa 0xb 0xc 0x0 0x9 0x0

56. Attached TCP/IP interface to mgi2.

57. Attaching network interface lo0... done.

58. boot device : mgi

59. unit number : 2

60. processor number : 0

61. host name : host

62. file name : V300R006C01.cc

63. inet on ethernet (e) : 100.1.1.100:FFFFFF00

64. host inet (h) : 100.1.1.3

65. user (u) : mpu

66. ftp password (pw) : mpua

67. flags (f) : 0x0

68. target name (tn) :

69. Loading

70. ...Done!

71. Writing to CFcard...Done!

72. Ethernet Submenu

73. 1. Download file to SDRAM through ethernet interface and boot

74. 2. Download file to CFcard through ethernet interface

75. 3. Modify ethernet interface boot parameters

76. 4. Return to main menu

77. Be sure to select 3 to modify boot parameters before downloading!

78. Enter your choice(1-4): 4

系统软件加载完毕后,会自动返回以太网子菜单。

79. 选择“4. Return to main menu”,返回到boot主菜单。

80. Main Menu(bootload ver: 216.00)

81. 1. Boot with default mode

82. 2. Boot from CFcard

83. 3. Enter serial submenu

84. 4. Enter ethernet submenu

85. 5. Set boot file and path

86. 6. Modify boot ROM password

87. 7. List file in CFcard

88. 8. Chkdsk CFcard

89. 9. Set patch mode

90. 10. Set version back signal

91. 11. Reboot

92. Enter your choice(1-11):5

93. 选择“5. Set boot file and path”,配置启动相关文件。

94. Boot Files Submenu

95. 1. Modify the boot file

96. 2. Modify the paf file

97. 3. Modify the license file

98. 4. Modify the config file

99. 5. Modify the patch file

100. 6. Modify the patch states file

101. 7. Return to main menu

102. Enter your choice(1-7): 1

103. 选择“1 Modify the boot file”,修改启动系统软件。

104. boot file is cfcard:/V300R006C01.cc, modify the file name if needed.

105. Please input correctly, e.g.: cfcard:/V300R006C01.cc

cfcard:/v300r006c01.cc \\\\输入刚加载的系统软件,并回车,一定要写绝对路径。

106. The file name you input is cfcard:/v300r006c01.cc.

107. Are you sure? Yes or No(Y/N)y

说明:

指定PAF/License和配置文件的方法与之类似,此处不再详细介绍。

108. 输入y,回车,加载文件成功并返回文件加载子菜单。

109. Setting ...

110. Read flag rec from nvram ......................OK!

111. Write descriptor to nvram ......................OK!

112. Done!

113. Clear version back signal...Done!

114. Boot Files Submenu

115. 1. Modify the boot file

116. 2. Modify the paf file

117. 3. Modify the license file

118. 4. Modify the config file

119. 5. Modify the patch file

120. 6. Modify the patch states file

121. 7. Return to main menu

122. Enter your choice(1-7):7

123. 选择“7. Return to main menu”,返回主菜单。

124. Main Menu(bootload ver: 216.00)

125. 1. Boot with default mode

126. 2. Boot from CFcard

127. 3. Enter serial submenu

128. 4. Enter ethernet submenu

129. 5. Set boot file and path

130. 6. Modify boot ROM password

131. 7. List file in CFcard

132. 8. Chkdsk CFcard

133. 9. Set patch mode

134. 10. Set version back signal

135. 11. Reboot

136. Enter your choice(1-11): 2

选择“2. Boot from Cfcard”,从CF卡启动。备用主控板开始重新启动,可以看到新加载的系统软件。

备用主控板重启后注册成功,说明故障排除。

137. 在用户视图下执行命令board-channel-check enable,打开通道自检开关。

案例总结

主控板出厂时都会自带一个生产的版本,但该大包和现网设备应用的版本大部分是不一致的,需要更换。

二、系统管理

2.1内存故障处理

2.1.1相关案例

MP-Group承载MPLS报文时业务几近中断,单板CPU占用率高

网络环境

路由器通过CPOS单板与NE40对接,采用MP-Group链路承载MPLS LDP协议。割接过程中发现:当业务流量达到6M时,下挂NGN业务几近中断,接口互ping丢包率达30%,包最大延时达到2000多毫秒。

故障分析

1. 使用display health命令检查CPOS单板健康状态。

2. #Automatic record log end,current health information as follows:

3. Slot CPU Usage Memory Usage (Used/Total)

4. -----------------------------------------------------

5. 9 MPU(Master) 14% 15% 301MB/1901MB

6. 1 LPU 7% 46% 189MB/405MB

7. 2 LPU 8% 46% 189MB/405MB

8. 3 LPU 5% 34% 151MB/434MB

9. 4 LPU 5% 34% 151MB/434MB

10. 5 LPU 4% 46% 186MB/405MB

11. 6 LPU 100% 67% 291MB/434MB

12. 10 MPU(Slave) 4% 15% 298MB/1901MB

13. #DateTime Stamp: 2009-06-13 13:21:53.753

从以上显示信息可知,发现路由器的CPOS单板CPU占用率达到100%,流量无法上送单板CPU处理,因此业务几近中断。

14. 经过抓包分析,发现是对端NE40发送的MPLS报文经过MP-Group封装后,MP报文头中的某字段路由器的CPOS单板无法识别。由此导致MPLS报文上送单板CPU处理,直接造成单板CPU占用率过高。

操作步骤

1. 该问题有两种解决方式:

将路由器的CPOS单板更换为LPUF-10,将路由器版本升级为V300R006。

将对端NE40版本升级为V300R005,能让NE40发送报文MP头不带特殊字

段。

案例总结

当与NE40 V300R005之前版本通过MP-Group互通时,需要注意检查单板单板占用率。如果单板占用率过高,应首先检查是否为NE40 MP-Group报文封装问题。

2.2 Telnet故障处理

2.2.1 Telnet登录失败的定位思路

常见原因

本类故障的常见原因主要包括:

• 路由不可达,客户端和服务器无法建立TCP连接。

• 登录设备的用户数到达了上限。

• VTY用户界面下绑定了ACL。

• VTY用户界面下允许接入的协议不正确,如配置为protocol inbound ssh时,使

用Telnet将无法登录。

故障诊断流程

• 故障诊断流程如图1所示。

• 图1 Telnet故障流程诊断流程图

故障处理步骤

说明:

请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。

操作步骤

1. 检查客户端能否Ping通服务器。

在客户端使用ping命令查看网络连接情况。如果不能Ping通,则Telnet连接也将失败。

如果Ping不通,请参见Ping不通问题继续定位,使Telnet客户端能Ping通服务器端。

2. 检查登录设备的用户数是否到达了上限。

从Console口登录到设备,执行命令display users,查看当前的VTY通道是否全部被占用。缺省情况下,VTY通道允许的最大用户数是5个,可以先执行命令display user-interface maximum-vty,查看当前VTY通道允许的最大用户数。

display user-interface maximum-vty

Maximum of VTY user:5

display users

User-Intf Delay Type Network Address AuthenStatus AuthorcmdFlag

+ 0 CON 0 00:00:00

no

Username : Unspecified

34 VTY 0 00:13:39 TEL 10.138.78.107 no

Username : Unspecified

如果当前的用户数已经达到上限,可以执行命令user-interface maximum-vty

vty-number,将VTY通道允许的最大用户数扩展到15个。

system-view

[HUAWEI] user-interface maximum-vty 15

3. 查看设备上user-interface vty下是否绑定了ACL。

[HUAWEI] user-interface vty 0 4

[HUAWEI-ui-vty0-4] display this

user-interface vty 0 4

acl 2000 inbound

authentication-mode aaa

user privilege level 3

idle-timeout 0 0

如果绑定了ACL,但ACL规则中未指定permit客户端的IP地址,则使用Telnet登录设备时将失败。即,如果需要使用某IP地址通过Telnet登录到设备,必须在user-interface vty下绑定的ACL规则中配置允许该IP地址。

4. 查看user-interface vty下允许接入的协议配置是否正确。

[HUAWEI] user-interface vty 0 4

[HUAWEI-ui-vty0-4] display this

user-interface vty 0 4

authentication-mode aaa

user privilege level 3

idle-timeout 0 0

protocol inbound ssh

命令protocol inbound { all | ssh | telnet }用来配置允许登录接入用户类型的协议。protocol inbound telnet为缺省配置。

如果配置为protocol inbound ssh,使用Telnet将无法登录。

如果配置为protocol inbound all,则使用Telnet或SSH都可以登录。

5. 检查扩展VTY通道vty 16 20是否可以登录。

user-interface vty 16 20是预留给网管的通道。无论user-interface 0 14有没有登录满,普通用户都不会登录到user-interface vty 16 20。只有网管类型(net-manager)的用户才能登录到user-interface vty 16 20。

可以执行命令display users查看每个用户界面的用户登录信息。

6. 检查用户界面视图下是否设置登录认证。

如果使用命令authentication-mode password配置了VTY通道下的登录

认证方式为password,则必须使用命令set authentication password设置认证密码。

如果使用命令authentication-mode aaa设置认证方式为aaa,则必须使用

命令local-user password创建AAA本地用户。

如果使用命令authentication-mode none设置认证方式为不认证none,

则认证方式不影响用户登录。

7. 如果故障仍未排除,请收集如下信息,并联系华为技术支持工程师。

上述步骤的执行结果。

设备的配置文件、日志信息、告警信息。

2.2.2 故障案例

用户登录设备十几秒内被强制下线

网络环境

在图1所示的网络中,用户通过网络接入服务器RouterB访问网络,在RouterB上对用户登录进行认证、授权和计费。

RouterB原来使用RADIUS协议对用户进行认证和计费,由于RADIUS服务器故障,管理员临时采用本地认证。

图1 用户接入组网图

配置完成后,发现用户登录设备十几秒内被强制下线。

故障分析

1. 在RouterB上执行display trapbuffer和display logbuffer命令,查看是否有强制用户下线的告警和日志信息。发现有如下告警信息:

AAA cut user!

2. 在RouterB上执行display current-configuration命令,查看AAA的配置信息。发现AAA采用了本地认证和远端计费,配置如下:

3. radius-server template provera

4. radius-server shared-key xxxxxx

5. radius-server authentication 129.7.66.66 1645

6. radius-server accounting 129.7.66.66 1646

7. undo radius-server user-name domain-included

8. #

9. aaa

10. local-user telenor password cipher xxxxxxx

11. authentication-scheme default

12. #

13. authentication-scheme provera

14. authentication-mode radius local

15. #

16. authorization-scheme default

17. #

18. accounting-scheme default

19. accounting-scheme provera

20. accounting-mode radius

21.

22. #

23. domain default

24. #

25. domain huawei

26. authentication-scheme provera

27. accounting-scheme provera

28. radius-server provera

29. #

30. user-interface vty 0 4

31. authentication-mode aaa

32. user privilege level 15

33. set authentication password cipher xxxxxxx

34. history-command max-size 256

35. screen-length 15

由于RADIUS服务器不可用,会导致实时计费失败。实时计费失败时,用户可以通过执行命令accounting interim-fail配置实时计费失败的策略,继续让用户在线或者强制用户下线。由于没有配置该命令,设备采用缺省情况,即实时计费失败时强制用户下线。

因此,是由于采用RADIUS计费失败导致用户下线。用户被强制下线的时间由超时重传时间和超时重传次数决定,这两个参数有命令radius-server timeout和

radius-server retransmit配置。重传时间缺省是5秒,重传次数缺省是3次,因此用户登录15秒后就会被强制下线。

操作步骤

1. 执行命令system-view,进入系统视图。

2. 执行命令aaa,进入AAA视图。

3. 执行命令domain huawei,进入huawei域视图。

4. 执行命令undo accounting-scheme provera,配置域采用缺省计费模式,即不计费。

要排除以上故障可以选择以下三种方法之一:

执行命令accounting-mode { local | none },将计费方式改为本地计费或

者不计费。

针对PPPoE等普通性用户时,由于涉及收费上网,可以改用本地计费,

继续保持对用户上网的计费。

针对Telnet、FTP等管理型用户时,不涉及收费,可以改用不计费模式。

执行命令accounting interim-fail online,配置实时计费失败时用户继续在

线。

执行命令undo accounting-scheme provera,配置域采用缺省计费模式,

即不计费。

经分析后,这里主要是针对Telnet等管理型用户进行认证,不需要计费,因此采用不计费策略。即执行命令undo accounting-scheme provera。

完成上述操作后,用户重新登录,不再掉线,故障排除。

案例总结

在接入网络中,通过AAA验证用户登录设备时,如果远端服务器不可用需要暂时使用本地认证时,计费方案必须是本地计费或者不计费,否则将导致用户下线。

接口&物理链接 POS接口问题

POS接口物理DOWN的定位思路

常见原因

本类故障的常见原因主要包括:

• 两侧接口未打开。

• 光模块规格或链路问题。

• 接口下存在SDH告警。

• 光纤未插好。

• 光纤收/发未插对。

• 单板或光模块故障。

故障诊断流程

当两台NE80E/40E的POS接口连接好之后,发现物理层状态不能Up。

故障的定位思路如下:

• 利用命令行排查本端设备配置是否正确。

• 现场检查光纤、光模块、单板等硬件问题。

详细处理流程如图1所示。

图1 POS接口物理层状态不能Up的故障诊断流程图

故障处理步骤

背景信息

说明:

请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。

操作步骤

1. 检查两侧接口是否打开、收/发光功率是否正常及是否存在SDH告警。

请执行display interface pos [ interface-number ]命令:

当字段current state显示Administratively down,则说明此接口未打开,

请在该接口视图下执行undo shutdown命令。

当发送光功率Tx Optical Power不在正常范围内时,请更换光模块。

当接收光功率Rx Optical Power小于接收灵敏度时,请调整链路或更换对端

光模块。

当SDH alarm下字段显示非none,且SDH error下字段显示B1、B2、B3

误码有增长:

B1/B2/B3同时增长:检查直连链路(含两端的光模块)是否稳定,如果是

纯WDM链路需要排查整个WDM链路的稳定性。

B1/B2不增长,B3增长:这种情况通常出现在路由与SDH传输设备对

接的情况下,需要排查远端路由器到远端SDH传输设备直连链路的稳定性;如果SDH传输之间存在WDM链路,则还需要排查整个WDM链路的传输稳定性。

如果故障仍不能排除,请执行步骤2。

2. 检查光纤/光模块是否插好。

光模块和光纤上均有卡扣,当插入光纤或光模块听到“咔嗒”声音时代表光纤或光模块已经正常插入。

如果故障仍不能排除,请执行步骤3。

3. 检查光纤收/发是否插对。

将光纤拔出,调换收/发顺序后重新插入光模块,如故障排除则可定位为光纤收/发插错所致,如故障依旧则请将光纤恢复为原来的插入顺序。

如果故障仍不能排除,请执行步骤4。

4. 光纤本地环回测试。

用一根测试完好的光纤将本端光模块的收/发口相连:

如果物理层可以Up、接口下SDH告警全部清除且接口下B1/B2/B3误码没有

增长即可以判断本端单板和光模块没有故障,需要对链路或对端设备进行排查。

如果物理层依然不能Up,则可判断本端设备的单板或光模块异常,可尝试更

换单板、光模块或暂时将业务割接到其他完好的接口。

说明:

进行光纤本地环回测试时接口时钟模式需要置为master。

如果故障仍不能排除,请执行步骤5。

5. 请收集如下信息,并联系华为技术支持工程师。

上述步骤的执行结果。

设备的配置文件、日志信息、告警信息。

相关案例

路由器之间通过POS口直连时出现大量报文丢失

网络环境

在图1的网络中,RouterA的POS接口通过光纤与RouterB相连。配置完成后,在RouterA上ping对端设备,有大量报文丢失,而在RouterB上pingRouterA没有报文

丢失,但是RouterB的POS接口下有大量错包并很快增长。

图1 路由器之间通过POS口直连时出现大量报文丢失组网图

故障分析

1. 在RouterA上执行命令display interface pos 1/0/0,查看POS接口的相关信息。

2. Pos1/0/0 current state : UP

3. Line protocol current state : UP

4. Description:HUAWEI, Pos1/0/0 Interface

5. Route Port,The Maximum Transmit Unit is 4470, Hold timer is 10(sec)

6. Internet protocol processing : enabled

7. Link layer protocol is HDLC

8. LCP opened

9. The Vendor PN is FTRJ8519P1BNL-HW

10. The Vendor Name is FINISAR CORP.

11. MultiMode

Port BW: 2.5G, Transceiver max BW: 1G, Transceiver Mode:

12. WaveLength: 850nm, Transmission Distance: 550m

13. Rx Power: -5.49dBm, Tx Power: -5.88dBm

14. Physical layer is Packet Over SDH

15. Scramble enabled, clock slave, CRC-32, loopback: none

16. Flag J0 \"NetEngine \"

17. Flag J1 \"NetEngine \"

18. Flag C2 22(0x16)

19. SDH alarm:

20. section layer: none

21. line layer: none

22. path layer: none

23. SDH error:

24. section layer: B1 3554

25. line layer: B2 689530 REI 113076

26. path layer: B3 28473 REI 4

27. Statistics last cleared:never

28. Last 300 seconds input rate 8 bits/sec, 0 packets/sec

29. Last 300 seconds output rate 80 bits/sec, 0 packets/sec

30. Input: 8736 packets, 25483760 bytes

31. Input error: 6 shortpacket, 1 longpacket, 88 CRC, 0 lostpacket

32. Output: 14510 packets, 928640 bytes

33. Output error: 0 lostpackets

34. Output error: 0 overrunpackets, 0 underrunpackets

35. Input bandwidth utilization : 0.01%

36. Output bandwidth utilization : 0.01%

通过上面的配置信息与RouterB的配置信息比较,发现两端相关的参数配置一致,发送保持报文的间隔时间都是10s,配置没有问题。

37. 由于两台路由器是通过光纤直连的,而两端接口上的时钟状态都是slave,没有配置主时钟,导致出现大量报文丢失。

操作步骤

1. 在RouterA上执行命令system-view,进入系统视图。

2. 在RouterA上执行命令interface pos 1/0/0,进入POS接口视图。

3. 在RouterA上执行命令clock master,将POS接口的时钟模式配置为主时钟模式。

完成上述操作后,在RouterA上ping对端设备,不在出现报文丢失,故障排除。

案例总结

在本案例中NE80E/40E与其他设备POS接口的时钟状态默认都是slave,都需要传输设备提供主时钟,当两台设备之间没有传输设备的时候,必须将一端的时钟模式配置为主时钟,另一端的时钟模式配置为从时钟,这样才能进行正常的业务转发。

POS接口的光纤插错导致OSPF邻居无法建立

网络环境

在图1的网络中,RouterB通过两个155M的POS链路连接到RouterA和RouterC,各接口之间链路层配置的是PPP协议,网络层采用OSPF协议互通。配置完成后,链路上没有任何流量,检查OSPF邻居状态,State字段一致是Init状态,但是在RouterB上能够ping通RouterA和RouterC。在RouterB上执行命令display ospf peer,显示信息如下,可以看到邻居状态为Init。

OSPF Process 1 with Router ID 10.1.1.2

Neighbors

Area 0.0.0.0 interface 10.1.1.2(Pos1/0/0)'s neighbors

Router ID: 10.1.1.1 Address: 10.1.1.1 GR State: Normal

State: Init Mode:Nbr is Slave Priority: 1

DR: 10.1.1.1 BDR: None MTU: 0

Dead timer due in 35 sec

Retrans timer interval: 5

Neighbor is up for 00:00:05

Authentication Sequence: [ 0 ]

图1 POS接口的光纤插错导致OSPF邻居无法建立组网图

故障分析

1. 在三台设备上分别执行命令display current-configuration configuration ospf,查看OSPF的相关配置,发现配置没有问题。

2. 在三台设备上分别执行命令display interface pos interface-number查看到各接口的MTU值都是1526字节(The Maximum Transmit Unit is 1526 bytes),链路的两端配置一致,排除MTU值配置错误的问题。

3. 在各POS口视图下执行命令display this,发现RouterA的POS1/0/0接口的IP地址为10.1.2.1/24,RouterB的POS1/0/0接口的IP地址为10.1.1.2/24,RouterB的POS2/0/0接口的IP地址为10.1.2.2/24,RouterC的POS2/0/0接口的IP地址为10.1.1.1/24。发现本该在一个网段的接口并不在一个网段,由此判断是两对尾纤插错。

操作步骤

1. 互换RouterB的两个POS接口的尾纤。

完成上述操作后,执行命令display ospf peer检查OSPF邻居状态,发现State项已经达到Full状态,故障排除。

案例总结

由于PPP协议在协商时不会检查对端的IP地址,并且由于PPP协议是点对点协议,所以即使互连接口的IP地址不在同一个网段。因此,在配置PPP链路时要注意IP地址或链路交叉等问题。

光模块故障导致链路一侧指示灯正常,另一侧接口物理状态为Down

背景信息

两台路由器通过多模光纤互连,运行一段时间以后,RouterA的指示灯正常,而RouterB的端口物理状态为Down,当前的连接状态中断。

故障分析

1. 在RouterB的接口视图下执行命令display this,查看相关配置,确认端口上没有执行shutdown命令和loopback命令。

2. 在RouterB的接口下执行命令shutdown,发现RouterA端口的物理状态也立即变为Down,由此可以判断尾纤正常。

3. 将RouterB的光模块插到其他端口上,问题仍然存在,由此可以判断是光模块故障导致的问题。

操作步骤

1. 将RouterB的光模块更换。

完成上述操作后,检查链路的状态为正常,故障排除。

案例总结

对于RouterA一侧连接灯显示正常只代表收到了从对端设备发来的光。在无光功率计或光功率计接口类型不对情况下,处理类似故障问题,在确认尾纤正常情况下,可以通过更换两侧光模块确定光模块是收光异常还是发光异常。

因篇幅问题不能全部显示,请点此查看更多更全内容