NVIDIA-Certified Professional AI Operations:(NCP-AIO)
NCP-AI Operations 認證是一項中級認證,旨在驗證考生監控、故障排除和優化 NVIDIA AI 基礎架構的能力。該考試為線上考試,採用遠距監考,包含 50 題目,考試時長為 90 分鐘。
認證考試詳情
時長: 90分鐘
價格: 400美元
認證等級:中级
主題: AI 操作
題目數: 60-70
先決條件:擁有兩到三年在採用 NVIDIA 硬體解決方案的資料中心工作的營運經驗。應徵者應能監控和管理資料中心基礎設施的所有部分,以支援 AI 工作負載。
語言:英語
有效期限:本認證自簽發之日起效期為兩年。重新參加考試即可獲得認證。
憑證:通過考試後,參與者將獲得數位徽章和可選證書,其中標明認證等級和主題。
考試涵蓋的主題包括:
·用於設定、管理和故障排除的基本命令管理器
·Slurm 叢集管理
·Kubernetes 叢集管理
·用於故障排除和效能最佳化的系統管理工具
候選人受眾
·MLOps 工程師
·DevOps 工程師
·解決方案架構師
·系統架構師
·人工智慧基礎設施工程師
考試藍圖
下表概述了認證考試涵蓋的主題領域以及考試在該主題上的重點。
主題領域 考試百分比 涵蓋的主題
安裝和部署 31%
描述任務控制工具包
使用 BCM 的 Base View 介面即時監控叢集效能、資源利用率和節點健康狀況。
使用 BCM 的工作負載管理器(例如 SLURM 或 Kubernetes)管理作業排程和資源分配
使用 BCM 在叢集節點之間套用修補程式、更新韌體並同步軟體映像
管理使用者帳戶、角色和權限,以確保使用 BCM 安全存取叢集
使用 BCM 配置和監控叢集節點、DPU 和交換器的網路設置
使用 BCM 診斷並解決叢集問題,例如作業失敗、節點中斷或資源瓶頸。
使用 BCM 根據硬體或工作負載需求將計算節點組織和配置為類別。
使用 BCM,維護文件並產生有關群集使用情況、效能和問題的報告。
使用 BCM 在 NVIDIA 主機上安裝並初始化 Kubernetes
在 DPU Arm 上部署 DOCA 服務
安裝 Run:ai
安裝 Slurm
行政 23%
管理 Slurm 叢集。
描述 AI 工作負載的資料中心架構
管理 Run:ai
管理 Kubernetes
配置 MIG
工作負載管理 23%
使用 Kubernetes 部署推理工作負載
使用 Run:ai 部署推理工作負載
使用 Slurm 部署訓練工作負載
使用 Run:ai 部署訓練工作負載
使用系統管理工具來解決問題
使用 Run:ai、Slurm 和 Kubernetes 在團隊之間分配資源
從 NGC 部署容器
故障排除和優化 23%
Docker 故障排除
對 NVLink 和 NVSwitch 系統的 Fabric Manager 服務進行故障排除
排除基本命令管理器故障
排除 Magnum IO 元件故障
解決儲存效能問題
對 NGC 容器部署進行故障排除