NVIDIA-Certified Professional AI Operations:(NCP-AIO) – 華為認證題庫|IBM認證題庫|思科認證題庫

NVIDIA-Certified Professional AI Operations:(NCP-AIO)
NCP-AI Operations 認證是一項中級認證，旨在驗證考生監控、故障排除和優化 NVIDIA AI 基礎架構的能力。該考試為線上考試，採用遠距監考，包含 50 題目，考試時長為 90 分鐘。

認證考試詳情
時長： 90分鐘
價格： 400美元
認證等級：中级
主題： AI 操作
題目數： 60-70
先決條件：擁有兩到三年在採用 NVIDIA 硬體解決方案的資料中心工作的營運經驗。應徵者應能監控和管理資料中心基礎設施的所有部分，以支援 AI 工作負載。
語言：英語
有效期限：本認證自簽發之日起效期為兩年。重新參加考試即可獲得認證。
憑證：通過考試後，參與者將獲得數位徽章和可選證書，其中標明認證等級和主題。

考試涵蓋的主題包括：
·用於設定、管理和故障排除的基本命令管理器
·Slurm 叢集管理
·Kubernetes 叢集管理
·用於故障排除和效能最佳化的系統管理工具

候選人受眾
·MLOps 工程師
·DevOps 工程師
·解決方案架構師
·系統架構師
·人工智慧基礎設施工程師

考試藍圖
下表概述了認證考試涵蓋的主題領域以及考試在該主題上的重點。

主題領域考試百分比涵蓋的主題
安裝和部署 31%
描述任務控制工具包
使用 BCM 的 Base View 介面即時監控叢集效能、資源利用率和節點健康狀況。
使用 BCM 的工作負載管理器（例如 SLURM 或 Kubernetes）管理作業排程和資源分配
使用 BCM 在叢集節點之間套用修補程式、更新韌體並同步軟體映像
管理使用者帳戶、角色和權限，以確保使用 BCM 安全存取叢集
使用 BCM 配置和監控叢集節點、DPU 和交換器的網路設置
使用 BCM 診斷並解決叢集問題，例如作業失敗、節點中斷或資源瓶頸。
使用 BCM 根據硬體或工作負載需求將計算節點組織和配置為類別。
使用 BCM，維護文件並產生有關群集使用情況、效能和問題的報告。
使用 BCM 在 NVIDIA 主機上安裝並初始化 Kubernetes
在 DPU Arm 上部署 DOCA 服務
安裝 Run:ai
安裝 Slurm

行政 23%
管理 Slurm 叢集。
描述 AI 工作負載的資料中心架構
管理 Run:ai
管理 Kubernetes
配置 MIG

工作負載管理 23%
使用 Kubernetes 部署推理工作負載
使用 Run:ai 部署推理工作負載
使用 Slurm 部署訓練工作負載
使用 Run:ai 部署訓練工作負載
使用系統管理工具來解決問題
使用 Run:ai、Slurm 和 Kubernetes 在團隊之間分配資源
從 NGC 部署容器

故障排除和優化 23%
Docker 故障排除
對 NVLink 和 NVSwitch 系統的 Fabric Manager 服務進行故障排除
排除基本命令管理器故障
排除 Magnum IO 元件故障
解決儲存效能問題
對 NGC 容器部署進行故障排除