前置條件
賬號為主賬號或者角色為IAM管理員的子賬號
操作步驟
隊列旨在幫助用戶精細化管理資源,隊列是一個資源池中部分資源的集合,用于工作負載,比如訓練任務、在線服務的運行,一個資源池中可創建多個隊列。用戶購買資源池后可將資源池劃分成若干個隊列,并使用隊列中的資源處理不同業務的工作負載。
打開隊列管理,頂部導航欄下拉選擇集群的位置,選擇到自己所有的專屬集群。
【創建隊列】操作
點擊【創建隊列】按鈕,進入創建隊列頁面,填寫相應信息。
說明
負載類型:選擇的負載類型,代表對應的任務可以提交到該隊列,占用該隊列資源。比如某隊列,負載類型選擇了大模型微調、在線服務,則代表這兩類任務可以提交到該隊列,其他任務比如IDE、大模型評估等不可以提交到該隊列。
實例規格和實例數:共同決定了該隊列的資源額度上限。
管理員和成員:管理員的權限高于成員,成員只能使用該隊列的資源,管理員除了能使用資源以外,還能管理該隊列,具體包含管理用戶,編輯,更配、啟動/停止、刪除操作。
【查詢】操作
創建好的隊列會出現在隊列列表里,可通過負載類型、狀態篩選,也可以通過隊列ID、名稱搜索。
【管理用戶】操作
在隊列列表右側【操作】列,點擊【管理用戶】,則彈出管理用戶窗口,搜索要添加的用戶,搜到后選中,一次可選多個,然后選擇角色,默認是【成員】,可改成管理員。對于已在隊列里的用戶,也可以刪除,找到該用戶,取消勾選即可。
【編輯】操作
在隊列列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【編輯】,則彈出隊列編輯窗口,可修改隊列名稱、描述。
【更配】操作
在隊列列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【更配】,則彈出隊列更配窗口,可修改隊列的負載類型、實例規格、實例數。
注意
負載類型修改:該隊列支持的任務類型按最新修改生效,比如之前支持大模型評估,修改后不支持了,則后續評估任務選隊列時,則不再展示該隊列。
實例規格修改:若該隊列的存量任務中存在正在運行的任務以及排隊中的任務,則不能修改,反之可以修改。
實例數修改:實例數調大,上限是資源池內可支持的上限,比如資源池里還有100卡沒有劃分到隊列,則實例數最大就是100除以規格向下取整。若用戶設置的超過這個數,則給出報錯提示。實例數調小,下限是隊列里已分配的卡數與該隊列里排隊中的任務中單任務所需的最大卡數的較小值。若用戶設置的低于這個數,則給出報錯提示。
【啟動/停止】操作
在隊列列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【啟動/停止】,點擊即可。
注意
停止隊列:則不可以繼續往該隊列里提交任務,存量任務還是會執行完。
啟動隊列:則可以繼續向該隊列里提交任務。
【刪除】操作
在隊列列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【刪除】,點擊即可。
注意
只有狀態是已停止的隊列,才能進行刪除操作,且當用戶執行刪除操作時,系統會檢查當前隊列的存量任務是否都執行完畢。
若存在未運行結束的任務,則不能刪除,給出報錯提示,可等待任務執行完畢后再刪除,或者將任務遷移后再刪除。
若不存未運行結束的任務,則可以刪除。
隊列刪除后,底層的資源釋放。
附表:隊列與資源配額的區別
隊列和資源配額都是對集群資源的一種自定義分配方式,具體區別如下:
類型 | 定義 | 區別 |
|---|---|---|
隊列 | 將集群資源劃分給隊列,提交給隊列的任務將使用volcano進行資源調度;同一集群下的隊列之間無法相互借用各自的閑置資源 |
1.默認集群自帶默認隊列,無需用戶創建 2.專屬集群資源的使用需要用戶創建隊列
1. 在默認工作空間內關聯隊列,關聯后,在默認工作空間內作業可以使用隊列資源(僅默認工作空間可使用隊列)
1.所有資源池都支持
注:后續產品迭代會逐步取消隊列,建議使用資源配額 |
資源配額 | 將集群資源在邏輯層面進行了資源配額劃分,集群資源劃分與資源調度進行了解耦,提交給資源配額的任務將通過資源調度層進行資源調度;同一集群下的資源配額之間,根據創建資源配額時的設置,可以進行閑置資源借用 |
1.專屬集群資源的使用需要創建資源配額
1.在非默認工作空間內關聯資源配額,關聯后,在非默認工作空間內作業可以使用資源配額資源(僅非默認工作空間可使用資源配額)
1.僅杭州7資源池支持
|