
综合检测【免费下载链接】oam-tools本项目为开发者提供故障定位工具包含故障信息收集软硬件信息展示AI core error报错分析等能力提升故障问题定位效率文档可在昇腾社区搜索“故障处理简介”选择社区版。项目地址: https://gitcode.com/cann/oam-tools功能说明包括压力检测、HBM硬件检测、CPU检测等功能。注意事项综合检测相关命令必须在物理机且root用户下执行。对于Atlas 200I/500 A2 推理产品、Atlas 推理系列产品、Atlas 训练系列产品不支持使用综合检测功能。命令格式# AI Core压力检测可能需要时间较长 asys diagnose -rstress_detect -ddeviceId --outputpath # HBM检测 asys diagnose -rhbm_detect -ddeviceId --timeoutnum --outputpath # CPU检测 asys diagnose -rcpu_detect -ddeviceId --timeoutnum --outputpath参数说明r必选参数检测模式取值如下stress_detectAI Core压力检测该功能涉及执行算子因此环境中需提前安装算子二进制包包名为Ascend-cann-*-ops-*.run。AICore压力检测涉及到对device侧部分电压调整当压力检测正常结束时可自行恢复但部分压力检测异常退出时存在电压不能自行恢复这时用户可以根据asys环境配置功能手动恢复电压。建议在执行AI Core压力检测前、后用户可以分别获取电压用于判断电压是否异常、以及是否需要恢复电压。获取及恢复电压请参见环境配置。显示检测结果时不指定device但device只有一个时仅显示这个device的状态。显示所有device的检测结果时若所有device的状态都为Pass、Warn则直接显示Pass - All、Warn - All。若一个或多个device状态不一致时则依次显示每个device的状态例如4个device时显示Pass, Warn, Warn, Warn。若检测结果为Warn表示检测失败可查看Host侧plog日志默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log根据关键字“[ERROR] AML”查看日志信息并根据其中的错误码定位并排除问题1开头的错误码表示用例执行失败、任务下发失败等2开头的错误码表示精度比对失败3开头的错误码表示硬件问题。若检测结果为Pass表示检测成功。hbm_detectHBM检测显示检测结果时不指定device但device只有一个时仅显示这个device的状态。显示所有device的检测结果时若所有device的状态都为Pass、Warn则直接显示Pass - All、Warn - All。若一个或多个device状态不一致时则依次显示每个device的状态例如4个device时显示Pass, Warn, Warn, Warn。若检测结果为Warn表示检测失败可查看Host侧plog日志默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log根据关键字“[ERROR] AML”查看日志信息并根据其中的错误码定位并排除问题1开头的错误码表示用例执行失败、任务下发失败等4开头的错误码表示硬件问题。若检测结果为Pass表示检测成功。针对hbm检测若返回的数值0该数值表示检测后新增ECC错误的个数用于提前激发风险地址报错并隔离保证后续业务正常运行。cpu_detectCPU检测显示检测结果时不指定device但device只有一个时仅显示这个device的状态。显示所有device的检测结果时若所有device的状态都为Pass、Warn、Fail则直接显示Pass - All、Warn - All、Fail - All。若一个或多个device状态不一致时则依次显示每个device的状态例如4个device时显示Pass, Warn, Warn, Fail。若检测结果为Fail表示检测出硬件故障需联系技术支持。若检测结果为Warn表示检测过程中任务调度出现问题。可查看Host侧plog日志默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log中的详细信息定位问题可先根据关键字“[ERROR] AML”筛选日志信息。若检测结果为Pass表示检测成功。d可选参数指定待检测的deviceId不设置该参数默认显示所有device的检测结果。Pass表示正常Warn表示异常。timeout可选参数指定硬件检测时间单位秒。不传默认检测600秒。仅HBM检测、CPU检测时生效HBM检测时取值范围[0, 604800]设置为0时表示仅执行一轮HBM检测CPU检测时取值范围[1, 604800]。output可选参数其值作为检测结果文件diagnose_result_{time_stamp}.txt的保存目录。命令行中不带output参数时输出结果不落盘仅在终端屏幕显示若output指定值为空、无效字符串、或指定路径目录无写权限、或创建目录失败则asys工具退出执行并报错。使用示例和输出说明不指定device所有device正常此处以四卡为例asys diagnose -rstress_detect ------------------------ ----------------------- | Group of 4 Device | Diagnostic Result | --- Performance -------- ----------------------- | Stress Detect | Pass - All | ------------------------ ----------------------- asys diagnose -rhbm_detect --timeout3000 ------------------------------------------------ | Group of 4 Device | Diagnostic Result | --- Hardware ----------------------------------- | HBM Detect | Pass - All | | | (0, 9, 0, 0) | ------------------------------------------------ asys diagnose -rcpu_detect --timeout3000 ------------------------------------------------ | Group of 4 Device | Diagnostic Result | --- Hardware ----------------------------------- | CPU Detect | Pass - All | ------------------------------------------------不指定device部分device正常此处以四卡为例asys diagnose -rstress_detect ------------------------ ----------------------- | Group of 4 Device | Diagnostic Result | --- Performance -------- ----------------------- | Stress Detect | Pass, Warn, Pass, Warn | ------------------------ ----------------------- asys diagnose -rhbm_detect ------------------------ ----------------------- | Group of 4 Device | Diagnostic Result | --- Hardware ----------- ----------------------- | HBM Detect | Pass, Warn, Pass, Warn | | | (9, 0, 5, 0) | ------------------------ ----------------------- asys diagnose -rcpu_detect ------------------------------------------------ | Group of 4 Device | Diagnostic Result | --- Hardware ----------------------------------- | CPU Detect | Pass, Warn, Pass, Fail | ------------------------------------------------指定device此处以device 0为例asys diagnose -d0 -rstress_detect -------------------------------------------- | Device ID: 0 | Diagnostic Result | --- Performance ---------------------------- | Stress Detect | Pass | -------------------------------------------- asys diagnose -d0 -rhbm_detect ------------------------------------------------ | Device ID: 0 | Diagnostic Result | --- Hardware ----------------------------------- | HBM Detect | Pass(9) | ------------------------------------------------ asys diagnose -d0 -rcpu_detect ------------------------------------------------ | Device ID: 0 | Diagnostic Result | --- Hardware ----------------------------------- | CPU Detect | Pass | ------------------------------------------------【免费下载链接】oam-tools本项目为开发者提供故障定位工具包含故障信息收集软硬件信息展示AI core error报错分析等能力提升故障问题定位效率文档可在昇腾社区搜索“故障处理简介”选择社区版。项目地址: https://gitcode.com/cann/oam-tools创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考