亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享
原創

MindSpore的分布式訓練任務

2025-07-03 09:49:49
7
0

本文演(yan)示(shi)如何使用(yong)云容器引擎(qing)控(kong)制臺(tai)提(ti)交MindSpore的分布式訓練任務(wu)。

前提條件

  • 已開(kai)通包含NPU的Kubernetes集群。

  • 已安裝智算套件。

背景信息

本文(wen)演示如何提交一個MindSpore的分布式訓練任(ren)務(wu),相(xiang)關的數(shu)據(ju)已經包(bao)含在容器鏡像(xiang)中(zhong)。若用戶自有模型或訓練任(ren)務(wu)可自行(xing)獲取數(shu)據(ju)集(ji),通過使用CSI hpfs文(wen)件存儲,通過PVC方式掛入進容器中(zhong)使用。

操作步驟

  • 進入云(yun)容(rong)器(qi)引擎控(kong)制臺

  • 點擊左側【集群】進入集群列表

  • 點擊使用的集(ji)群(qun)(qun)名稱,進入(ru)集(ji)群(qun)(qun)

  • 點(dian)擊左側【自定義資源(yuan)】,選(xuan)擇資源(yuan)瀏覽(lan)器,找到mindspore.gitee.com/v1MSJob ,選(xuan)擇命(ming)名空間,點(dian)擊新增

  • 在創建yaml中,填入以下信息后點擊【創建】。注意事項: 1.修改對(dui)應的鏡像倉庫(ku)前綴(zhui)為對(dui)應資源池(chi),可在容器鏡像控制臺查看(kan),如武漢41,則修改{image_repo}為registry-vpc-crs-wuhan41.daliqc.cn    2. namespace: 要(yao)和界面選(xuan)擇(ze)的一致

apiVersion: mindspore.gitee.com/v1
kind: MSJob
metadata:
  name: ms-npu-mnist
  namespace: default
spec:
  runPolicy:
    cleanPodPolicy: None
  successPolicy: AllWorkers
  msReplicaSpecs:
    Scheduler:
      replicas: 1
      restartPolicy: Never
      template:
        spec:
          containers:
            - name: mindspore
              image: {image_repo}/icce/mindspore-mnist:multi
              imagePullPolicy: IfNotPresent
              command: ["/bin/bash", "-c"]
              args: ["source /usr/local/Ascend/ascend-toolkit/set_env.sh; python net.py "]
    Worker:
      replicas: 2
      restartPolicy: Never
      template:
        spec:
          containers:
            - name: mindspore
              image: {image_repo}/icce/mindspore-mnist:multi
              imagePullPolicy: IfNotPresent
              command: ["/bin/bash", "-c"]
              args: ["source /usr/local/Ascend/ascend-toolkit/set_env.sh; python net.py "]
              resources:
                limits:
                  huawei.com/Ascend910: 1
                requests:
                  huawei.com/Ascend910: 1
              volumeMounts:
              - name: ascend-driver
                mountPath: /usr/local/Ascend/driver
          volumes:
          - name: ascend-driver
            hostPath:
              path: /usr/local/Ascend/driver
  • 查看(kan)運行狀態(tai):點擊左側【容器組(zu)】,找到任務名(ming)為前綴的容器,點擊名(ming)稱,查看(kan)日志/監控等信息是否符合預期。

0條評論
0 / 1000
張****江
2文章數
0粉絲數
張****江
2 文章 | 0 粉(fen)絲
張****江
2文章數
0粉絲數
張****江
2 文章(zhang) | 0 粉絲
原創

MindSpore的分布式訓練任務

2025-07-03 09:49:49
7
0

本文演示(shi)如何使用云容器(qi)引擎控(kong)制臺提(ti)交(jiao)MindSpore的分布式訓練任務。

前提條件

  • 已(yi)開通包含NPU的Kubernetes集群(qun)。

  • 已安裝智算套件。

背景信息

本文(wen)演示如何提交一個MindSpore的分布式(shi)(shi)訓練(lian)任務,相(xiang)關的數(shu)據已經包含(han)在(zai)容器鏡像中。若(ruo)用戶自(zi)有(you)模型或訓練(lian)任務可自(zi)行獲取數(shu)據集,通過(guo)使(shi)用CSI hpfs文(wen)件存(cun)儲,通過(guo)PVC方式(shi)(shi)掛入(ru)進容器中使(shi)用。

操作步驟

  • 進入(ru)云容器引(yin)擎(qing)控(kong)制(zhi)臺

  • 點擊左側【集群】進入集群列表(biao)

  • 點擊使用(yong)的集群(qun)名(ming)稱,進(jin)入集群(qun)

  • 點(dian)擊(ji)左側【自定義資源】,選擇資源瀏(liu)覽器(qi),找到mindspore.gitee.com/v1MSJob ,選擇命名空間,點(dian)擊(ji)新增

  • 在創建yaml中,填入以下信息后點擊【創建】。注意事項: 1.修(xiu)改對(dui)應的鏡(jing)像倉庫(ku)前(qian)綴(zhui)為(wei)對(dui)應資源(yuan)池,可在(zai)容器(qi)鏡(jing)像控制(zhi)臺查(cha)看(kan),如武(wu)漢(han)41,則修(xiu)改{image_repo}為(wei)registry-vpc-crs-wuhan41.daliqc.cn    2. namespace: 要和界面(mian)選擇的一(yi)致

apiVersion: mindspore.gitee.com/v1
kind: MSJob
metadata:
  name: ms-npu-mnist
  namespace: default
spec:
  runPolicy:
    cleanPodPolicy: None
  successPolicy: AllWorkers
  msReplicaSpecs:
    Scheduler:
      replicas: 1
      restartPolicy: Never
      template:
        spec:
          containers:
            - name: mindspore
              image: {image_repo}/icce/mindspore-mnist:multi
              imagePullPolicy: IfNotPresent
              command: ["/bin/bash", "-c"]
              args: ["source /usr/local/Ascend/ascend-toolkit/set_env.sh; python net.py "]
    Worker:
      replicas: 2
      restartPolicy: Never
      template:
        spec:
          containers:
            - name: mindspore
              image: {image_repo}/icce/mindspore-mnist:multi
              imagePullPolicy: IfNotPresent
              command: ["/bin/bash", "-c"]
              args: ["source /usr/local/Ascend/ascend-toolkit/set_env.sh; python net.py "]
              resources:
                limits:
                  huawei.com/Ascend910: 1
                requests:
                  huawei.com/Ascend910: 1
              volumeMounts:
              - name: ascend-driver
                mountPath: /usr/local/Ascend/driver
          volumes:
          - name: ascend-driver
            hostPath:
              path: /usr/local/Ascend/driver
  • 查(cha)看(kan)運行狀態:點(dian)擊左側【容器組】,找(zhao)到任(ren)務名為(wei)前綴的容器,點(dian)擊名稱,查(cha)看(kan)日志/監控等信息是否符合(he)預期。

文章來自個人專欄
文章 | 訂閱
0條評論
0 / 1000
請輸入你的評論
0
0