• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

02-设备管理配置指导

目录

03-硬件资源管理配置

本章节下载 03-硬件资源管理配置  (444.28 KB)

03-硬件资源管理配置

目 

1 硬件资源管理

1.1 硬件资源管理任务简介

1.2 监控CPU

1.2.1 配置CPU利用率告警功能

1.2.2 配置CPU利用率历史记录功能

1.2.3 CPU一键诊断

1.2.4 CPU显示和维护

1.3 监控CPU核

1.3.1 监控CPU核利用率告警功能

1.4 监控内存

1.4.1 配置内存告警门限

1.4.2 内存一键诊断

1.4.3 监控DMA内存

1.4.4 内存显示和维护

1.5 监控MDB资源

1.5.1 配置MDB资源运行的分配模式

1.5.2 MDB资源显示和维护

1.6 监控资源剩余情况

1.6.1 配置资源告警通知功能

1.6.2 资源监控功能显示和维护

1.7 监控设备温度

1.7.1 配置温度告警门限

1.7.2 显示设备温度信息

1.8 配置硬件故障修复和保护功能

1.8.1 配置硬件故障修复功能

1.9 开启芯片复位

1.9.1 功能简介

1.9.2 配置步骤

1.10 电源管理

1.10.1 功能简介

1.10.2 配置任务简介

1.10.3 开启电源管理功能

1.10.4 配置冗余电源

1.10.5 配置电源模块的监控模式

1.10.6 开启电源睡眠功能

1.10.7 显示电源信息

1.11 监控风扇

1.11.1 显示风扇信息

1.12 配置端口状态检测定时器

1.13 可插拔接口模块的识别与诊断

1.13.1 识别可插拔接口模块

1.13.2 诊断可插拔接口模块

1.14 配置光模块的ITU通道编号

1.15 配置光模块监控功能

1.16 定位设备

1.16.1 功能简介

1.16.2 开始定位设备

1.16.3 停止定位设备

1.17 配置软硬件表项一致性检查错误通知功能

1.17.1 功能简介

1.17.2 配置步骤

1.18 配置硬件表项奇偶校验和ECC校验错误通知功能

1.18.1 功能简介

1.18.2 配置步骤

1.19 配置关键硬件表项奇偶校验和ECC校验错误不可恢复通知功能

1.19.1 功能简介

1.19.2 配置步骤

1.20 配置设备的端口速率工作模式

1.21 配置端口的licence生效状态

1.22 配置ACL哈希模式

1.23 配置Telemetry Stream采集报文中的入接口索引类型

1.24 配置MACsec设备端口模块识别延迟功能

1.25 配置磁盘分区功能

1.26 显示设备硬件信息

1.27 显示设备硬件电子标签信息

1.28 显示设备硬件告警信息

1.29 显示设备当前仍未恢复的告警信息

1.30 显示设备告警历史信息

 


1 硬件资源管理

通过硬件资源管理功能,用户能够查看CPU、内存的使用情况,电源和风扇的工作状态,配置设备运行的相关参数,实现对设备硬件资源的日常维护和管理。

1.1  硬件资源管理任务简介

设备管理的所有配置任务均为可选配置,配置时无先后顺序要求,请根据实际需要选择配置。设备管理配置任务如下:

·     监控CPU

¡     配置CPU利用率告警功能

¡     配置CPU利用率历史记录功能

¡     CPU一键诊断

¡     CPU显示和维护

·     监控CPU核

¡     监控CPU核利用率告警功能

·     监控内存

¡     配置内存告警门限

¡     内存一键诊断

¡     监控DMA内存

¡     内存显示和维护

¡     监控MDB资源

·     监控资源剩余情况

¡     配置资源告警通知功能

¡     资源监控功能显示和维护

·     监控设备温度

¡     配置温度告警门限

¡     显示设备温度信息

·     配置硬件故障修复和保护功能

¡     配置硬件故障修复功能

·     开启芯片复位

·     电源管理

¡     开启电源管理功能

¡     配置冗余电源

¡     配置电源模块的监控模式

¡     开启电源睡眠功能

¡     显示电源信息

·     监控风扇

¡     显示风扇信息

·     配置端口状态检测定时器

·     可插拔接口模块的识别与诊断

¡     识别可插拔接口模块

¡     诊断可插拔接口模块

·     配置光模块的ITU通道编号

·     配置光模块监控功能

·     定位设备

¡     开始定位设备

¡     停止定位设备

·     配置软硬件表项一致性检查错误通知功能

·     配置硬件表项奇偶校验和ECC校验错误通知功能

·     配置关键硬件表项奇偶校验和ECC校验错误不可恢复通知功能

·     配置设备的端口速率工作模式

·     配置端口的licence生效状态

·     配置磁盘分区功能

·     显示设备硬件信息

·     显示设备硬件电子标签信息

·     显示设备硬件告警信息

·     显示设备当前仍未恢复的告警信息

·     显示设备告警历史信息

1.2  监控CPU

1.2.1  配置CPU利用率告警功能

1. 功能简介

系统每隔1分钟会对CPU的利用率进行采样,并将采样值和用户配置的CPU利用率告警门限比较。

·     当采样值大于低级别告警门限时,则CPU进入低级别告警状态,会周期发送CPU低级别告警通知,直到CPU进入高级别告警状态或者低级别告警状态解除。

·     当采样值大于高级别告警门限时,则CPU进入高级别告警状态,会周期发送CPU高级别告警通知,直到高级别告警状态解除。

·     当采样值回落,小于CPU利用率恢复门限时,则认为CPU利用率已经恢复到正常范围,并发送恢复告警通知。

CPU告警通知会同时向NETCONF、SNMP、信息中心三个方向输出,通过配置NETCONF、SNMP、信息中心功能,CPU告警最终能以NETCONF事件、SNMP Trap或Inform消息、日志的形式发送给用户。NETCONF和SNMP的详细介绍请参见“网络管理和监控配置指导”中的“NETCONF”和“SNMP”。信息中心的详细介绍请参见“设备管理配置指导”中的“信息中心”。

图1-1 CPU告警示意图

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置CPU利用率阈值。

monitor cpu-usage threshold severe-threshold [ minor-threshold minor-threshold recovery-threshold recovery-threshold ] [ slot slot-number [ cpu cpu-number ] ]

缺省情况下,CPU利用率高级别告警门限为99%,低级别告警门限为79%,未配置恢复门限。

注意

CPU利用率高级别告警门限如果设置过低,可能导致设备提前进入门限状态,不再进行正常业务处理。

 

(3)     配置发送CPU告警事件的间隔。

monitor resend cpu-usage { minor-interval minor-interval | severe-interval severe-interval } * [ slot slot-number [ cpu cpu-number ] ]

缺省情况下,持续300秒超过低级别告警门限则上报一次CPU低级别告警事件,持续60秒超过高级别告警门限则上报一次CPU高级别告警事件。

1.2.2  配置CPU利用率历史记录功能

1. 功能简介

开启CPU利用率历史记录功能后,系统会每隔一定时间对CPU的利用率进行采样,并把采样结果保存到历史记录区。这些记录可通过display cpu-usage history命令查看,以便用户监控设备近期的运行情况。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置CPU利用率历史记录的采样周期。

monitor cpu-usage interval interval [ slot slot-number [ cpu cpu-number ] ]

缺省情况下,CPU使用率历史记录采样周期为1分钟。

(3)     开启CPU利用率历史记录功能。

monitor cpu-usage enable [ slot slot-number [ cpu cpu-number ] ]

缺省情况下,CPU使用率历史记录功能处于开启状态。

1.2.3  CPU一键诊断

CPU一键诊断功能用于诊断CPU利用率是否处于正常范围内,例如,是否发生过CPU利用率超门限、CPU利用率突增事件,帮助用户定位CPU利用率异常问题。关于CPU一键诊断功能的详细描述和配置请参见“智能运维配置指导”中的“一键诊断”。

1.2.4  CPU显示和维护

可在任意视图下执行以下命令:

·     显示CPU监控功能的相关配置。

display cpu-usage configuration [ slot slot-number [ cpu cpu-number ] ]

·     显示CPU利用率的统计信息。

display cpu-usage [ summary ] [ slot slot-number [ cpu cpu-number ] [ core { core-number | all } ] ]

·     以图表方式显示CPU利用率的历史记录。

display cpu-usage history [ job job-id ] [ slot slot-number [ cpu cpu-number ] ]

1.3  监控CPU

1.3.1  监控CPU核利用率告警功能

1. 功能简介

系统按5秒周期对CPU核的利用率进行采样,然后对统计周期内的采样值进行计算,并将计算值和用户配置的CPU核利用率的门限比较。当计算值大于门限值时,则认为CPU核利用率过高,设备会发送告警信息并记录日志。

2. 配置限制和指导

统计周期建议配置为5的整数倍,不是整数倍时,最接近且小于配置值的、5的整数倍数生效。例如统计周期配置为18秒,实际生效的统计周期为15秒。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置发送CPU核告警事件的间隔。

monitor resend cpu-usage core-interval { minor-interval minor-interval | severe-interval severe-interval } * [ slot slot-number [ cpu cpu-number ] ]

发送CPU核低级别事件告警间隔时间为300秒,发送CPU核高级别事件告警间隔时间为60秒。

 

1.4  监控内存

1.4.1  配置内存告警门限

1. 功能简介

系统实时监控剩余空闲内存大小,当条件达到一级、二级、三级告警门限或者恢复正常状态门限时,就产生相应的告警/告警解除通知,通知关联的业务模块/进程采取相应的措施,以便最大限度的利用内存,又能保证设备的正常运行。

除了一级、二级、三级告警,设备还支持预警功能。预警门限用于内存使用率尚处于正常范围内,但需要提醒用户提前关注内存的情况。预警恢复门限用于解除预警。

预告警(early-warning)、一级(minor)、二级(severe)和三级(critical)门限,对应的剩余空闲内存越来越少,紧急程度越来越严重。

设备监控的是系统内存中剩余空闲内存的大小,使用display memory命令可以查看系统内存的使用情况。

·     当剩余空闲内存值从大于变成小于等于预告警门限时,产生预告警。

·     当剩余空闲内存值从大于变成小于等于一级告警门限时,产生一级告警。

·     当剩余空闲内存值从大于变成小于等于二级告警门限时,产生二级告警。

·     当剩余空闲内存值从大于变成小于等于三级告警门限时,产生三级告警。

·     当剩余空闲内存值从小于等于变成大于二级告警门限时,产生三级告警解除通知。

·     当剩余空闲内存值从小于等于变成大于一级告警门限时,产生二级告警解除通知。

·     当剩余空闲内存值从小于等于变成大于正常内存大小时,产生一级告警解除通知。

·     当剩余空闲内存值从小于等于变成大于预告警内存大小时,产生预告警解除通知。

同一级别的告警/告警解除通知是交替进行的:当剩余空闲内存值小于等于某级告警门限,设备产生相应级别的告警,后续只有该告警解除了,剩余空闲内存值再次小于等于某级告警门限时,才会再次生成该级别的告警。

当剩余空闲内存大小如图1-2中曲线所示时,会生成如图1-2所示的告警和解除告警通知。

图1-2 内存告警示意图

2. 配置限制和指导

缺省情况下,本系列设备二级门限和三级门限相同,可以手工配置使二级门限和三级门限不同。

二、三级门限值相同时,二级门限满足以下条件,设备会重启。

·     产生二级告警后,剩余空闲内存值持续小于二级告警门限,其时长到达30秒,则系统会重启设备。

·     如果连续产生两次二级告警的时间间隔小于30秒,则系统会重启设备。

·     如果3分钟内产生二次二级告警,则系统会重启设备。

·     产生二级告警后,系统将会周期采样,预测剩余空闲内存是否会在30秒之内耗尽,如果预测结果为会在30秒之内耗尽,则系统会重启设备。

二、三级门限值不同时,设备达到二级门限则不会重启,三级门限满足以下条件,设备才会重启。

·     产生三级告警后,剩余空闲内存值持续小于三级告警门限,其时长到达30秒,则系统会重启设备。

·     如果连续产生两次三级告警的时间间隔小于30秒,则系统会重启设备。

·     如果3分钟内产生二次三级告警,则系统会重启设备。

·     产生三级告警后,系统将会周期采样,预测剩余空闲内存是否会在30秒之内耗尽,如果预测结果为会在30秒之内耗尽,则系统会重启设备。

当设备出现内存告警时,可删除暂时不用的配置或关闭部分功能来释放内存。但因为内存不足,部分配置可能删除失败。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置内存利用率阈值。

memory-threshold [ slot slot-number [ cpu cpu-number ] ] usage memory-threshold

缺省情况下,内存利用率阈值为100%。

(3)     配置空闲内存告警的门限值。

memory-threshold [ slot slot-number [ cpu cpu-number ] ] [ ratio ] minor minor-value severe severe-value critical critical-value normal normal-value [ early-warning early-warning-value secure secure-value ]

缺省情况下,一级告警门限为1024MB,二级和三级告警门限均为768MB,系统恢复到正常的内存门限为1280MB,预告警门限和预告警恢复门限均为1152MB。

1.4.2  内存一键诊断

内存一键诊断功能用于诊断内存使用量是否处于正常范围内,例如,是否发生过内存使用量超门限、内存使用量突增事件,帮助用户定位内存使用量异常问题。关于内存一键诊断功能的详细描述和配置请参见“智能运维配置指导”中的“一键诊断”。

1.4.3  监控DMA内存

1. 功能简介

部分业务的运行需要使用DMA(Direct Memory Access,直接内存存取)内存,如果DMA内存不足,会导致业务模块功能异常。系统周期监控DMA空闲内存大小,当DMA空闲内存小于或等于告警阈值,产生告警事件并重启设备。

DMA内存告警通知会同时向NETCONF、SNMP和信息中心三个方向输出,通过配置NETCONF、SNMP、信息中心功能,告警最终能以NETCONF事件、SNMP Trap或Inform消息、日志的形式发送给用户。NETCONF、SNMP、信息中心的详细介绍请参见“网络管理和监控配置指导”中的“NETCONF”、“SNMP”、“信息中心”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置DMA内存告警阈值。

memory-threshold dma [ slot slot-number [ cpu cpu-number ] ] [ ratio ] critical critical-value normal normal-value

缺省情况下,告警阈值为2048KB,告警恢复阈值为4096KB。

(3)     配置发送DMA内存告警事件的间隔。

monitor resend memory-threshold dma critical-interval critical-interval [ slot slot-number [ cpu cpu-number ] ]

undo monitor resend memory-threshold dma critical-interval [ slot slot-number [ cpu cpu-number ] ]

缺省情况下,DMA内存告警事件周期发送的间隔为300秒。

1.4.4  内存显示和维护

可在任意视图下执行以下命令:

·     显示设备的内存使用状态。

display memory [ summary ] [ slot slot-number [ cpu cpu-number ] ]

·     显示内存告警门限相关信息。

display memory-threshold [ slot slot-number [ cpu cpu-number ] ]

·     显示内存告警门限相关信息。

display memory dma [ slot slot-number [ cpu cpu-number ] ]

·     显示DMA内存告警相关信息。

display memory-threshold dma [ slot slot-number [ cpu cpu-number ] ]

1.5  监控MDB资源

1.5.1  配置MDB资源运行的分配模式

1. 功能简介

用户可以配置MDB资源运行的分配模式,从而更改MAC地址表、ARP表和路由表的规格大小。

2. 配置限制和指导

配置成功后需要重启设备才能生效。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置MDB资源运行的分配模式。

hardware-resource mdb { normal | routing }

缺省情况下,MDB资源运行的分配模式为路由模式。

1.5.2  MDB资源显示和维护

可在任意视图下执行以下命令,显示MDB资源运行功能的相关信息。

display hardware-resource [ mdb ]

1.6  监控资源剩余情况

1.6.1  配置资源告警通知功能

1. 功能简介

配置本功能后,设备会监测ARP表项等资源的剩余情况,周期采样监测对象的值,并和配置的告警门限进行比较:

·     如果剩余的资源小于或等于低级别告警门限且大于高级别告警门限,则资源进入低级别告警状态,并生成低级别告警通知;

·     如果剩余的资源小于或等于高级别告警门限,则资源进入高级别告警状态,并生成高级别告警通知;

·     如果剩余的资源大于低级别告警门限,则资源进入恢复告警状态,并生成恢复通知。

当资源一直处于低级别告警状态时:

·     开启周期发送低级别资源告警通知功能后,第一次达到低级别告警状态时,会生成低级别告警通知,后续还会周期生成低级别告警通知。当剩余资源达到更高级别告警门限时,将会生成更高级别的告警通知,暂时抑制低级别的告警通知。直到高级别的告警状态解除,再周期输出低级别的告警通知。

·     关闭周期发送低级别资源告警通知功能后,只有第一次达到低级别告警状态时,才生成低级别告警通知,不会连续生成低级别告警通知。

当资源一直处于高级别告警状态时,设备会周期生成高级别告警通知。

资源告警通知可向NETCONF、SNMP、信息中心三个方向输出,通过配置NETCONF、SNMP、信息中心功能,资源告警最终能以NETCONF事件、SNMP Trap或Inform消息、日志的形式发送给用户。NETCONF和SNMP的详细介绍请参见“网络管理和监控配置指导”中的“NETCONF”和“SNMP”。信息中心的详细介绍请参见“设备管理配置指导”中的“信息中心”。

图1-3 资源监控示意图

 

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置生成资源告警通知的门限。

resource-monitor resource resource-name slot slot-number cpu cpu-number { by-absolute | by-percent } minor-threshold minor-threshold severe-threshold severe-threshold

不同类型资源的缺省情况不同,请使用display resource-monitor命令查看。

(3)     配置资源告警通知的输出方向。

resource-monitor output { netconf-event | snmp-notification | syslog } *

缺省情况下,资源告警通知会同时向NETCONF、SNMP、信息中心三个方向输出。

(4)     开启周期发送低级别资源告警通知功能。

resource-monitor minor resend enable

缺省情况下,周期发送低级别资源告警通知功能处于开启状态。

1.6.2  资源监控功能显示和维护

可在任意视图下执行以下命令,显示资源监控功能的相关信息。

display resource-monitor [ resource resource-name ] [ slot slot-number [ cpu cpu-number ] ]

1.7  监控设备温度

1.7.1  配置温度告警门限

1. 功能简介

通过以下配置任务,用户可以根据实际应用的需要配置不同的温度告警门限,来监控设备上不同位置温度传感器的温度。

设备可配置的温度告警门限包括:低温告警门限、一般级(Warning)高温告警门限、严重级(Alarm)高温告警门限。

如果温度低于低温告警门限、高于一般级或严重级高温门限,系统均会生成相应的日志信息和告警信息提示用户,并通过设备面板上的指示灯来告警,以便用户及时进行处理。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置设备的温度告警门限。

temperature-limit slot slot-number { hotspot } sensor-number lowlimit warninglimit [ alarmlimit ]

不同温度传感器的温度门限可能不同,请先使用undo temperature-limit命令恢复缺省情况后,再通过display environment命令查看设备的缺省温度告警门限。

高温告警门限必须大于低温告警门限;Alarm高温告警门限必须大于Warning高温告警门限。

1.7.2  显示设备温度信息

可在任意视图下执行以下命令,显示设备的温度信息。

display environment [ slot slot-number ]

1.8  配置硬件故障修复和保护功能

当设备检测到器件、设备和转发层面的硬件故障时,会自动采取用户配置的处理措施,以便降低故障对设备的影响。

1.8.1  配置硬件故障修复功能

1. 功能简介

用户可配置的处理措施有:

·     off:检测到故障时,设备不进行任何操作。

·     isolate:检测到故障时,设备会自动关闭端口、隔离设备、禁止设备加载或给设备下电,从而尽量减小故障的影响。

·     reset:检测到故障时,设备会自动重启器件/设备以尝试修复故障。

·     warning:检测到故障时,设备发送Trap信息,不会修复故障。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置当系统检测到硬件故障时自动采取的修复操作。

hardware-failure-detection { board | chip | forwarding } { off | isolate | reset | warning }

缺省情况下,系统检测到硬件故障时自动采取的操作为reset

1.9  开启芯片复位

1.9.1  功能简介

通过配置芯片复位功能,可指定芯片发生故障时系统的处理方式。

1.9.2  配置步骤

(1)     进入系统视图。

system-view

(2)     开启芯片复位功能。

monitor chipblock reset [ logging ]

缺省情况下,芯片复位功能处于开启状态。

1.10  电源管理

1.10.1  功能简介

某些电源模块发生过载、过流、过压、过温、短路等故障时,会进行自我硬件保护,比如:当电源由于输出过压而告警时,电源可能进入锁死状态、停止对整个机框进行供电,以便保护电源和设备不被损坏。这样虽然保护了电源和设备的安全使用,但会对设备的正常使用造成一定的影响,严重时将导致业务全部中断。为了尽可能减小这种影响,用户可使用电源管理功能,来尽可能的避免电源模块过载现象的发生。

电源管理功能的原理是,系统实时监控电源的可用功率和系统负载,在电源将要过载、进行自身硬件保护之前,采取保护措施(比如给用户发送提示信息、启用冗余电源以及抑制接口板供电)。

1.10.2  配置任务简介

电源管理配置任务如下:

(1)     开启电源管理功能

(2)     (可选)配置冗余电源

通过配置冗余电源,可以给设备预留功率。

1.10.3  开启电源管理功能

(1)     进入系统视图。

system-view

(2)     开启电源管理功能。

power-supply policy enable

缺省情况下,电源管理功能处于开启状态。

1.10.4  配置冗余电源

1. 功能简介

冗余电源技术通过部署多余的电源模块,来避免电源过载。比如,设备至少需要N个电源才能运行,我们通常会给设备配备M(M大于N)个电源,多余的(M-N)个电源可配置为冗余电源。正常情况下,这M个电源负载均衡,共同为设备输出功率。当其中某个电源故障时,其余电源能立即接管其工作,从而避免发生电源过载。

配置冗余电源后,如果有接口板插入,系统会先比较待上电接口板的最大功耗和系统的剩余功率:

·     当最大功耗小于等于剩余功率时,直接给接口板供电。

·     当最大功耗大于剩余功率时,不会给接口板供电,接口板不能启动。此时,可增加电源模块,或者减少冗余电源的数量。

2. 配置限制和指导

只有在开启电源管理功能后,本特性才会生效。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置冗余电源模块数。

power-supply policy redundant module-count

缺省情况下,冗余电源模块数量的值为0。

1.10.5  配置电源模块的监控模式

1. 配置限制和指导

配置电源模块的监控模式为enhanced时,将会占用一定系统的资源。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置电源模块的监控模式。

power-exception-monitor { normal | enhanced }

缺省情况下,电源模块的监控模式为normal模式。

1.10.6  开启电源睡眠功能

1. 功能简介

开启电源睡眠功能后,系统会根据设备当前的实际功耗,智能控制电源模块进入或者退出睡眠状态,以降低能耗:

·     当系统剩余功率大于单个电源模块输入功率时,将其设置为睡眠模式并关断输出。

·     当系统剩余功率不足时,唤醒睡眠的电源模块。

2. 配置限制和指导

仅适配PSR2400-54A、PSR2400-54D或PSR3000-54A电源模块的交换机支持开启电源睡眠功能。

只有使用power-supply policy enable命令开启电源管理功能后,电源睡眠配置才能生效。

处于睡眠状态的电源模块无法提供冗余备份功能,若正常工作的电源模块突然故障或被拔出,可能会影响设备正常运行。用户可通过display power命令查看电源模块的工作状态。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置开启电源睡眠功能。

power-supply surplus-power enable

1.10.7  显示电源信息

1. 显示电源状态

可在任意视图下执行以下命令,显示设备的电源状态。

display power [ slot slot-number [ power-id ] ]

2. 显示电源电子标签信息

可在任意视图下执行以下命令,显示指定电源的电子标签信息。

display device manuinfo slot slot-number power power-id