前置條件
使用前,您的租戶賬號需在天翼云存儲控制臺開通并創建相應的存儲 ,詳見對象存儲快速入門、并行文件服務快速入門。
已在本平臺完成相關產品的委托授權。
操作說明
基礎數據集的存儲方式包括普通存儲和智算存儲:
普通存儲(ZOS):
賬號自有存儲:指租戶在天翼云官網同資源池下開通的對象存儲,用于數據長期存儲和備份,完成委托授權后您可在本平臺直接使用。
平臺共享存儲:本平臺贈予您體驗的存儲,默認集群額度為 300G,是所有用戶共享的存儲,您的用量受限且不支持擴容,超出用量后需自行前往對象存儲購買自有存儲。平臺后續將逐漸廢棄此類存儲,建議您直接使用自有存儲。
智算存儲(HPFS):
賬號自有存儲:指租戶在天翼云官網同資源池下開通的HPFS存儲,常用于大模型的開發和訓練等數據密集性的高性能計算場景,完成委托授權后您可在本平臺直接使用。如需使用開發機和訓練任務功能,請提前將數據、模型、代碼導入智算存儲中。訓練時需要與文件存儲頻繁交互,請確保存儲狀態可用且充足。
平臺共享存儲:本平臺贈予您體驗的存儲,默認集群額度為 512 G,是所有用戶共享的存儲,您的用量受限且不支持擴容,超出用量后需自行前往HPFS購買自有存儲。平臺后續將逐漸廢棄此類存儲,建議您直接使用自有存儲。
創建數據集
創建普通存儲數據集:登錄智算服務控制臺,單擊左側菜單欄的“智算資產”>“我的數據集”菜單項進入我的數據集模塊,點擊“基礎數據集“菜單,選擇“普通/智算存儲”,點擊【+創建普通/智算存儲數據集】,進入創建頁面
填寫相關配置并提交。基礎數據集創建目前僅支持使用自有存儲,創建完成后,自動為您創建拼接此數據后綴的容器內掛載路徑。
類型
字段
說明
存儲基本信息
數據集名稱
壓縮任務名稱,不超過20個字符
描述
數據集描述信息
權限配置
可見范圍
讀寫權限范圍,支持設置僅文件所有者可見、指定工作空間內的算法開發角色可見兩種權限策略
存儲位置
存儲桶/HPFS名稱
您租戶賬號下的存儲桶或HPFS名稱;若您還未創建,您可點擊【去創建】跳轉到存儲控制臺進行創建
ZOS/HPFS路徑
您對應存儲的具體的目錄路徑,您可根據提示示例進行填寫,平臺會對您填寫路徑的存在性進行校驗,若校驗不通過會進行提示,并禁止提交。
對于管理員用戶,此項選填;對于普通子用戶,此項必填。
特殊配置
設為保密數據集
對于某些行業客戶,在大模型訓練時會涉及到保密數據的處理問題,比如需要避免用戶下載到本地造成數據泄漏,針對這類問題,平臺推出了特色的數據保密功能,以應對用戶下載或拷貝保密數據的行為。相關配置僅對管理員用戶開放,且此功能會增加操作復雜度和資源占用,建議您只在需要的時候使用。
開啟此按鈕后,可將本數據集設置為保密數據集。開啟保密后,此數據集將:1)僅支持讀操作,禁止寫操作,運行后的輸出將單獨寫入到保密輸出路徑;2)數據掛載到容器時禁止訪問外網。
設為保密數據集的輸出路徑
若您已設置保密數據集,您還需再創建一個保密輸出數據集,專門用于存儲保密數據集的輸出,并謹慎設置相關權限:1)若您使用了自有存儲,建議您只給自己或管理者讀寫權限(需前往對應存儲控制臺設置),即您需要確保這是由您完全可控的存儲;2)此數據集的可見范圍(在本頁面的權限配置設置),建議您只對需要的用戶設置。
云審計
您設置好保密輸出路徑后,會自動彈出云審計設置,此設置對使用了對應保密輸出數據集的任務生效。開啟云審計后,使用此保密輸出數據集的任務在容器內的命令操作將會被記錄并發送到云審計,并標識拷貝等高危操作。
審計頻率
您開啟云審計后,會彈出審計頻率設置。審計頻率是指審計上報的時間間隔,支持輸入1-1440的整數。如果您設置的時間間隔太短,頻繁掃描將會增加損耗,如時間太長,上報的事件信息較密集,建議您根據業務實際情況填寫合適的時間。
管理數據集
查看文件:對于共享存儲,點擊可查看數據集中的文件列表;對于自有存儲,點擊可跳轉至存儲控制臺查看您有權限的文件。
刪除:只有導入成功、導入失敗、創建成功、創建失敗的數據集支持刪除操作。如果有保密設置,則僅管理員用戶可操作;無特殊設置,則創建人及管理員用戶可操作。該數據集若正在被開發機和訓練任務使用,則刪除數據集后所有使用中和已完成的開發機和訓練任務對應掛載路徑下的文件也將被清空。