一、故障描述
客户报修一台IBM DS5300多条链路降级故障,具体报错如下图:
对应故障链路Channel: 4,涉及7块硬盘报individual Drive-Degraded Path
二、故障处理
1、现场通过DS Storage Manager连接到存储设备,发现Channel: 4链路通道的状态为Degraded状态,所有硬件状态及指示灯并未发现异常。初步怀疑为误报,尝试手工将Channel: 4链路做set optimal设置DSSM->Advenced->Troubleshooting->dirve Channel-》set optimal,配置完成后故障消失,设备状态正常;
2、次日再次接到报修,设备报出相同故障信息,至此排除误报的可能性;
3、工程师到达现场检查链路噪音统计记录,并对链路噪音影响最大的两块硬盘进行了更换,更换新盘后设备正常,之后对链路执行清除链路噪音记录,重置噪音计数以备后续诊断使用,清除方法如下:
选择Execute Script->tools->Verify and Execute
clear allDriveChannels stats;
reset storagesubsystem RLSBaseline;
reset storagesubsystem SOCBaseline;
4、设备运行一天后再次出现链路降级报错,收集ASD日志,重点针对其中的State Capture Data文件、readlinkstatus文件及EnclosureComponentsStateCapture文件进行分析,发现Channel 4下的多块硬盘出现大量噪音,结合之前更换硬盘并未解决噪音问题的情况,初步排除硬盘因素,判定可能触发故障的部件为Channel 4下的相关ESM模块、硬盘笼子、光纤线及控制器。
首先根据日志信息可以得知Channel 4有报错信息,冗余的Channel 8状态正常:
Related drives: (13, 1)
Related drives: (13, 3)
Related drives: (13, 7)
Related drives: (12, 1)
Related drives: (12, 9)
Degraded drive channel: 4
Port: 2, 1, ESM A 1A, ESM A 1B, ESM A 1B, ESM A 1A, ESM A 1B, ESM A 1A, ESM A 1B
Status: Degraded
Reason: Error threshold exceeded
Max. Rate: 4 Gbps
Total # of attached drives: 64
Connected to: Controller A, Port 2
Attached drives: 64
Drive expansion enclosure: 13 (16 drives)
Drive expansion enclosure: 12 (16 drives)
Drive expansion enclosure: 11 (16 drives)
Drive expansion enclosure: 10 (16 drives)
DRIVE CHANNEL 8
Port: 7, 8, ESM B 1A, ESM B 1B, ESM B 1B, ESM B 1A, ESM B 1B, ESM B 1A, ESM B 1B
Status: Optimal
Max. Rate: 4 Gbps
Current Rate: 4 Gbps
Rate Control: Auto
Controller A link status: Up
Controller B link status: Up
Trunking active: No
DRIVE COUNTS
Total # of attached drives: 64
Connected to: Controller B, Port 7
Attached drives: 64
Drive expansion enclosure: 13 (16 drives)
Drive expansion enclosure: 12 (16 drives)
Drive expansion enclosure: 11 (16 drives)
Drive expansion enclosure: 10 (16 drives)
根据影响大小优先级,尝试先行更换连接光纤线,其次依次是enclosure 12 ESMA,enclosure 13 ESMA,enclosure 12 硬盘笼子,enclosure 13 硬盘笼子,controller A。
5、尝试更换enclosure 13,esm a/1b-enclosure 12 esm a/1a
enclosure 12,esm a/1b-enclosure 11 esm a/1a两条磁盘笼子连接光纤,更换之后设备正常运行,后续使用中再无链路相关报错。
6、本次故障最终定位为设备使用年限增长,光纤线缆老化,光信号衰减引起的链路噪音。
三、故障总结
1、DS4000/DS5000 系列存储的技术特点是采取了 FC_AL 的光纤仲裁环路结构,即控制器、磁盘扩展柜都是串行连接在光纤链路上的。此结构有一个缺点:环路上某个硬件的故障,会引起噪音信号,从而有可能影响链路上其他硬件的正常工作。另一方面,这种噪音故障很难准确定位。因此 SM 软件提供了一个测试程序 Read Link Status Diagnostics 检测链路上的信号噪音,用来协助故障定位。
2、处理与链路噪音有关的问题时,大多情况下,存储累计了不少链路噪音数值,所以建议先通过 SM 运行条脚本把所有链路噪音数值清零,重新进行噪音监控,以定位具体故障部件。
如欲了解更多,请登录沙巴体育官方网站:jiangxi.bc178.cc