本文演(yan)示(shi)如何使用(yong)云容器引擎(qing)控(kong)制臺(tai)提(ti)交MindSpore的分布式訓練任務(wu)。
前提條件
-
已開(kai)通包含NPU的Kubernetes集群。
-
已安裝智算套件。
背景信息
本文(wen)演示如何提交一個MindSpore的分布式訓練任(ren)務(wu),相(xiang)關的數(shu)據(ju)已經包(bao)含在容器鏡像(xiang)中(zhong)。若用戶自有模型或訓練任(ren)務(wu)可自行(xing)獲取數(shu)據(ju)集(ji),通過使用CSI hpfs文(wen)件存儲,通過PVC方式掛入進容器中(zhong)使用。
操作步驟
-
進入云(yun)容(rong)器(qi)引擎控(kong)制臺
-
點擊左側【集群】進入集群列表
-
點擊使用的集(ji)群(qun)(qun)名稱,進入(ru)集(ji)群(qun)(qun)
-
點(dian)擊左側【自定義資源(yuan)】,選(xuan)擇資源(yuan)瀏覽(lan)器,找到mindspore.gitee.com/v1MSJob ,選(xuan)擇命(ming)名空間,點(dian)擊新增

-
在創建yaml中,填入以下信息后點擊【創建】。注意事項: 1.修改對(dui)應的鏡像倉庫(ku)前綴(zhui)為對(dui)應資源池(chi),可在容器鏡像控制臺查看(kan),如武漢41,則修改{image_repo}為registry-vpc-crs-wuhan41.daliqc.cn 2. namespace: 要(yao)和界面選(xuan)擇(ze)的一致
apiVersion: mindspore.gitee.com/v1
kind: MSJob
metadata:
name: ms-npu-mnist
namespace: default
spec:
runPolicy:
cleanPodPolicy: None
successPolicy: AllWorkers
msReplicaSpecs:
Scheduler:
replicas: 1
restartPolicy: Never
template:
spec:
containers:
- name: mindspore
image: {image_repo}/icce/mindspore-mnist:multi
imagePullPolicy: IfNotPresent
command: ["/bin/bash", "-c"]
args: ["source /usr/local/Ascend/ascend-toolkit/set_env.sh; python net.py "]
Worker:
replicas: 2
restartPolicy: Never
template:
spec:
containers:
- name: mindspore
image: {image_repo}/icce/mindspore-mnist:multi
imagePullPolicy: IfNotPresent
command: ["/bin/bash", "-c"]
args: ["source /usr/local/Ascend/ascend-toolkit/set_env.sh; python net.py "]
resources:
limits:
huawei.com/Ascend910: 1
requests:
huawei.com/Ascend910: 1
volumeMounts:
- name: ascend-driver
mountPath: /usr/local/Ascend/driver
volumes:
- name: ascend-driver
hostPath:
path: /usr/local/Ascend/driver
-
查看(kan)運行狀態(tai):點擊左側【容器組(zu)】,找到任務名(ming)為前綴的容器,點擊名(ming)稱,查看(kan)日志/監控等信息是否符合預期。
