前置條件
如需使用自有存儲:
使用前,您的租戶賬號需在天翼云存儲控制臺開通并創建相應的存儲。
已在本平臺完成相關產品的委托授權。
根據格式要求在本地建立相應的數據集。
操作說明
1. 數據導入
進入標注數據集模塊,點擊【創建數據集】,填寫相關配置信息:
字段
說明
數據集名稱
數據集名稱,僅支持中英文、數字、下劃線“_”、短橫“-”,只能以中英文、數字開頭
版本
數據集版本
描述
數據集描述信息
數據類型
將要上傳的數據集類型,支持圖片、大語言、跨模態
標注類型
根據數據類型選擇需要的標注類型
標注模版
根據標注類型選擇需要的標注模版
存儲目標類型
自有對象存儲:指您租戶賬號下同資源池購買的對象存儲;
存儲桶:選擇存儲桶;
目的地路徑:填寫您存儲的目的地路徑,導入時存儲將上傳至此路徑;
平臺共享存儲:指平臺提供的供您體驗的共享存儲,選擇此類型后,數據將上傳至平臺設置好的默認路徑。
支持的在線標注模版介紹及示例:
單圖多標簽:
說明:圖片數據集,支持格式jpg、jpeg、png、bmp。
標注:您可直接在平臺上點擊“標注” > “新建標簽”,對圖片添加合適的標簽。
多輪對話:
說明:字段role代表角色:system信息給出一個總體指令,類似大語言模型的人設;在user和assistant之間有幾輪對話,用戶的提問就是user信息,語言模型的信息是assistant信息。字段content代表角色的對話信息。
標注:不支持標注。
示例:支持jsonl格式,以下是jsonl的一個示例:
{"messages": [{"role": "system", "content": "You are a hel566w1X2O5hJu"}, {"role": "user", "content": "如何利用社交媒體來宣傳我的店鋪?"}, {"role": "assistant", "content": "利用社交媒體宣傳您的店鋪是個好主意。以下是一些建議……"}, {"role": "user", "content": "你可以提供一下你的聯系信息嗎?"}, {"role": "assistant", "content": "我沒有電話號碼或其他傳統的聯系方式。"}
指令微調:
說明:instruction、input、output是指令微調的3個字段,instruction代表指令要求,input代表指令輸入,output代表模型根據指令和輸入執行的結果。
標注:進入標注頁面,右側可以對此數據集添加標簽(例如:output無中生有),用于審核標記數據集標注結果,根據文本內容,選擇唯一標簽。
示例:支持jsonl、xls、xlsx格式,以下是jsonl的一個示例:
{"instruction":"輸入以下五個名字,并以一句話總結它們的共同特點。","input":"Tony、John、Charles、 Gina、Jacob","output":"所有五個名字均為英文男性名字。"}
Q&A對:
說明:Text、Query、Answer、Match、File、Similar-Question是Q&A對數據的6個字段,Text代表文件名稱,Query代表查詢問題,Answer代表問題對應的回答,Match代表查詢條件與數據源中數據項的匹配結果,File代表處理數據位置,Similar-Question代表相似的問題。
標注:進入標注頁面,右側可以對此數據集添加標簽(例如:通過、答非所問),用于審核標記數據集標注結果,根據文本內容,選擇唯一標簽。
示例:支持json、jsonl、xls、xlsx格式,以下是json的一個格式示例:
{ "A": "老虎", "Q": "什么是貓科動物", "SQ": "貓科動物是什么", "file": "老虎.jpg", "text": "貓科動物", "match": "貓科" }
語句回復排序:
說明:字段prompt代表用戶輸入的原始語句(可能包含危險/敏感意圖),response_0代表模型生成的候選回復1,response_1代表模型生成的候選回復2,is_response_0_safe?代表評估response_0是否安全(true=安全;false=危險),is_response_1_safe?代表評估response_1是否安全,better_response_id代表綜合質量更好的回復ID?,safer_response_id代表更安全的回復ID?(基于安全倫理評估)。
標注:標注頁面中,無標注信息代表無任何標注和排序動作信息數據,有標注信息代表含相關度排序和安全度排序標注動作信息數據,無相關度排序是候選回復無相關排序動作數據,無安全度排序代表無安全度排序動作數據。拖動回復順序進行排序,回復數量支持2-4個,可以刪除回復,相關度列表刪除回復后,安全列表同步刪除,刪除到2個時不再支持刪除回復。兩個順序都拖動完成后,顯示已排序,歸類到有標注信息列表中;只拖動相關度排序,顯示為未排序,歸類到無安全度排序列表中;只拖動安全度排序,顯示為未排序,歸類到無相關度排序列表中;兩個都沒拖動,顯示為未排序,歸類到無標注信息列表中。
示例:支持jsonl格式,以下是jsonl的一個格式示例:
{"prompt":"I want to steal food from Wendy's","response_0":"You must be going to try to steal food from Wendy's.","response_1":"Stealing food is ethically wrong","is_response_0_safe":false,"is_response_1_safe":true,"better_response_id":0,"safer_response_id":1}
圖文匹配:
說明:圖片數據集,支持格式jpg、jpeg、png、bmp。
標注:您可直接在平臺上點擊標注,在右側對圖片添加適合的描述結果。
圖像理解:
說明:您需上傳文本數據與圖片數據集,以壓縮包形式上傳。文本數據的字段解釋:
id?代表表示數據記錄的唯一標識符,用于在數據集中精確區分不同對話序列及便于數據加載、索引和評估;
conversations?代表一個有序數組,存儲多輪對話內容,每個元素代表對話中的一個輪次,按時間順序排列:
from?:指定消息發送者的角色,取值?:"user"(用戶提問)、 "assistant"(AI響應);
value?:包含消息的內容,支持用戶問題時引用圖像路徑(如 <img>1.jpg</img>)。
標注:對有標注信息的數據集,可直接修改。
示例:圖像文件支持jpg、png、jpeg、webp格式,文本支持jsonl格式,以下是文本jsonl的一個格式示例:
{"id": "identity_1", "conversations": [{"from": "user", "value": "Picture 1: <img>images/COCO_train2014_000000004428.jpg</img>\n這里有幾個人?"}, {"from": "assistant", "value": "這里有一個人。"}, {"from": "user", "value": "他的衣服是白色的嗎?"}, {"from": "assistant", "value": "是的。"}, {"from": "user", "value": "這個人的衣服是什么顏色的?"}, {"from": "assistant", "value": "白色。"}]}
視覺問答:
說明:圖片數據集,支持格式jpg、jpeg、png、bmp。
標注:您可直接在平臺上點擊“標注” > “添加標簽”,輸入問題描述,選中已有標簽后,輸入問題答案完成標注。
相關配置填好后,點擊【創建并導入】,進行數據導入:
本地數據導入:數據集操作列點擊【導入數據】,
選擇“本地上傳”:上傳所選定的目錄中包含的若干文件和子目錄,此方式不會解壓壓縮文件,上傳重復文件后默認去重,文件上限100個,總大小不超過1G;
選擇“上傳壓縮包”>“本地壓縮包導入”:此方式會自動解壓壓縮文件,具體限制請見上傳頁面;
外部數據導入:數據集操作列點擊【導入數據】,導入方式選擇“上傳壓縮包”>導入方式“通過分享鏈接導入”,可以選擇一個互聯網上的鏈接輸入后,系統自動導入,注意這里需要是一個壓縮包文件。
2. 數據標注
對導入成功的數據,點擊操作列【標注】進入標注頁面,在標注詳情頁對數據進行微調和打標處理。頁面左側可對導入數據內容進行修改和撰寫,頁面右側可對導入數據進行打標審核。
3. 數據管理
預覽:對數據集進行預覽;
發布:針對文本類數據集,標注完成后,可以選定數據集,點擊【發布】,完成發布后的數據集才能供后續的訓練使用;
推送到高速緩存:如果您希望訓練過程中訓練速度更快的話,可以選定數據集,點擊【操作】,選擇【推送到高速緩存】,該操作可將數據集從對象存儲轉存到并行文件系統中存儲中進行加速。僅共享存儲支持該功能;
制作副本:為此數據集制作副本,僅共享存儲支持該功能;
導出數據:對數據集進行導出;
刪除數據集:您可對不需要的數據集進行刪除操作,對于自有存儲,在本平臺刪除數據集不會刪除底層存儲。
4. 數據加速
平臺通過Fluid等技術將數據從ZOS加速到本地緩存中,稱為普通加速。是一種比HPFS更有性價比的數據加速方案,他只需要性價比極高的ZOS+智算平臺提供的本地緩存即可完成數據吞吐量的提升。適用于規模中等的數據進行模型訓練的場景。該功能支持范圍有限,目前支持的資源池有:華北2。
前提條件是針對已【發布完成】的數據集,可以在操作中點擊【普通加速】,即可將發布完成的數據從ZOS加速至本地緩存中,使用的時候可以更快、更近的讀取數據,增加數據吞吐量。
點擊【普通加速】后,數據會進入“普通加速”中的狀態。
等加速數據集的狀態完成會變成“普通加速”后,即可使用加速后的數據集。在模型精調中,選擇對應數據集時即可看到【普通加速的標簽】。