功能介紹
對于某些行業客戶,在大模型訓練時會涉及到保密數據的處理問題,比如需要避免用戶下載到本地造成數據泄漏。針對這一問題,平臺推出了特色的數據保密功能,以應對用戶下載或拷貝保密數據的行為。
平臺主要從數據集限制+操作審計兩方面進行限制:
數據集限制:保密數據相關的實現依賴平臺數據集功能,將需要保密的數據集打上保密標簽,對此數據集進行限制。
容器外,根據用戶身份嚴格限制平臺的數據操作權限;
容器內,創造斷外網的沙箱環境防止下載到本地,并嚴格限制讀寫,任務執行者僅可寫入到管理員可控的安全存儲中。
云審計:將用戶的所有命令操作記錄到云審計,并對可能涉及拷貝的敏感操作進行標識,給到客戶主管人審核確認。
前置條件
存儲準備:已在天翼云開通對象存儲或HPFS,并在本平臺完成委托授權。
其他限制:您是管理員用戶(包括主賬號、IAM管理員、工作空間管理員)。
操作說明
1. 創建僅管理員可控的安全存儲
保密數據集可工作的一個重要前提是限制寫操作僅寫入到保密輸出路徑中,這就要求輸出路徑是智算平臺管理員完全可控的存儲。
管理員(需有存儲控制臺相應權限)首先登錄存儲控制臺,根據所使用的存儲類型(ZOS或HPFS),創建保密數據集與保密輸出路徑。保密數據集是指您含有保密信息的數據集;保密輸出路徑是指當用戶使用保密數據時,您指定的寫入路徑,建議您創建一個空文件夾專用于輸出,并對不同的任務創建不同的輸出路徑。
注意:主賬號天然是各產品的管理員,擁有所有權限。但對于子賬號,在本平臺擁有管理員權限不代表在存儲控制臺擁有管理員權限,子賬號如需存儲控制臺權限,需要主賬號進入IAM授予相應的權限。建議您只給信任的用戶授予存儲控制臺的操作權限,否則可能造成數據泄漏等事故。
2. 創建保密數據集
管理員用戶登錄智算平臺,進入“我的數據集”>“基礎數據集”,選擇需要創建的類型,點擊【創建普通/智算存儲數據集】,填寫保密數據集的路徑,并在特殊配置中開啟【設為保密數據集】按鈕。可見范圍對需要的用戶設置,用戶才可使用,保密相關的數據集讀寫權限系統固定。
保密數據集僅支持讀操作,禁止寫操作,運行后的輸出將單獨寫入到保密輸出路徑;數據掛載到容器禁止訪問外網。
3. 創建保密輸出路徑
若您已設置保密數據集,您還需再創建一個數據集(建議保密數據集和輸出路徑設為兩個數據集),專門用于存儲保密數據集的輸出,并謹慎設置相關權限:
若您使用了自有存儲,建議您只給自己或管理者讀寫權限(第一步操作);
此數據集的可見范圍,建議您只對需要的用戶設置。
點擊【創建普通/智算存儲數據集】,填寫保密數據集的輸出路徑,可見范圍建議與保密數據集設置一致,并在特殊配置中開啟【設為保密數據集的輸出路徑】按鈕,同時可以選擇是否上報云審計及上報頻率。
云審計:開啟云審計后,使用此保密輸出數據集的任務在容器內的命令操作將會被記錄并發送到云審計,并標識拷貝等高危操作。
審計頻率:審計頻率是指審計上報的時間間隔,支持輸入1-1440的整數。如果您設置的時間間隔太短,頻繁掃描將會增加損耗,如時間太長,上報的事件信息較密集,建議您根據業務實際情況填寫合適的時間。
本平臺將自動為您創建此數據集在容器內的掛載路徑,并寫入PROTECT_OUTPUT_DIR_PREFIX環境變量,您可在代碼中直接引用此環境變量。
4. 任務中使用保密數據集
支持在開發機、訓練任務中使用保密數據,下面以開發機任務為例,為您展示保密數據集的相關使用。
1. 管理員設置可見范圍后,可見范圍內的用戶可以選擇需要的保密數據集使用,當選擇的數據集中含有保密數據集時,環境配置中將自動跳出保密輸出路徑配置,用戶選擇可見的保密輸出路徑。本平臺將自動為您創建保密輸出在容器內的掛載路徑,并寫入PROTECT_OUTPUT_DIR_PREFIX環境變量,用戶可在代碼中直接引用此環境變量。
2. 開發機查看:列表中對含有保密設置開發機的保存數據操作進行限制,僅管理員用戶可操作數據存儲。且進入開發機后即創造沙箱環境,不通公網。
3. 上報云審計:如果您的保密輸出路徑開啟了云審計,相關聯的任務將按照設置將用戶操作上報云審計,若識別到可疑操作將進行提醒,管理員可進入云審計事件列表查看。