概述
AI發展正在經歷一個拐點的跨越,從“預測推斷”走向“內容生成”。新的AIGC形態給傳統企業的模型訓練和調用都提出新的挑戰,需要更大的算力和大參數的算法,通過訓練在大型文本語料庫上學習到的語言模式生成自然語言文本,可以自動生成各類內容,文本、圖像、語音、視頻、代碼中,能廣泛應用于新聞、文案、對話、規劃、設計創新,才能讓企業在這場新的競爭中占據一席之地。
具體來說,新一代的大模型對模型訓練的底座和平臺都提出了新的要求,支持多個任務、參數1億以上基于海量多源數據打造的模型,采用Transformer的架構,并且支持預訓練。通過單模型做多種任務、更少的數據標注、更優的模型效果等特點來提升模型訓練效率,以實現更優的識別、理解、決策、生成效果和更低成本的開發方案。
訓推智算服務平臺通過開箱即用的平臺化產品,為您解決企業數字化、智能化轉型中需要解決的AI建模門檻高、流程復雜、人力成本高等問題,有效為企業降本增效,助力企業轉型。
本實踐主要介紹少量樣本對大語言模型進行微調訓練,微調訓練是大語言模型訓練和應用中最常見的一種方式,用性價比的方式讓企業快速訓練出一個適合于自己業務的對話模型。通過訓推智算服務平臺來管理數據、標注指令微調、分布式調優任務、任務監控、模型管理、模型評估等全流程的調優步驟,通過交互式操作即可快速微調出屬于業務自己的大語言對話模型。
任務特定性能提升:預訓練語言模型通過大規模的無監督訓練學習了語言的統計模式和語義表示。然而,它在特定任務上的性能可能不如在大規模無監督數據上表現出的性能。通過在任務特定的有標簽數據上進行微調,模型可以進一步學習任務相關的特征和模式,從而提高性能。
領域適應性:預訓練語言模型可能在不同領域的數據上表現不一致。通過在特定領域的有標簽數據上進行微調,可以使模型更好地適應該領域的特殊術語、結構和語義,提高在該領域任務上的效果。
數據稀缺性:某些任務可能受制于數據的稀缺性,很難獲得大規模的標簽數據。監督微調可以通過使用有限的標簽數據來訓練模型,從而在數據有限的情況下取得較好的性能。
防止過擬合:在監督微調過程中,通過使用有標簽數據進行有監督訓練,可以減少模型在特定任務上的過擬合風險。這是因為監督微調過程中的有標簽數據可以提供更具體的任務信號,有助于約束模型的學習,避免過多地擬合預訓練過程中的無監督信號。
方案優勢
簡化訓練和部署的復雜流程:訓推智算服務平臺通過整合全鏈路的工具組件,實現了訓練與部署流程的極大簡化,為科研人員提供了一站式解決方案。用戶無需再為繁雜的工具和環境配置而煩惱,只需專注于模型的核心研發工作。智算開發平臺不僅降低了大模型開發的使用門檻,更讓AI技術的普及和應用變得更加便捷和高效。
開箱即用,降低調優成本:訓推智算服務平臺為用戶帶來了便利,通過平臺,用戶無需進行任何額外的配置或調試,開箱即用。平臺預置了豐富的預訓練模型和鏡像環境,針對不同場景提供了多樣化預置數據集,確保用戶能夠迅速投入工作。同時,平臺集成了大模型微調訓練工具,適用于專屬大模型的快速訓練。此外,平臺還支持分布式訓練和Deepspeed加速框架,提供斷點續訓功能,支持小樣本微調,使用戶能夠輕松定制專屬模型,極大地降低了調優成本,提高了研發效率。
平臺化全流程管理:訓推智算服務平臺,一個集成化的平臺化工具,將以上所有角色都匯聚于一個統一的平臺之上,提供從數據處理、模型開發、模型訓練到最終模型部署應用的全棧服務。管理者能夠在平臺上實現統一管理和查看,確保各環節的無縫銜接,讓各角色參與者能借助平臺完美協同工作,實現數據互通、環境互通,確保數據和模型安全,全程不出平臺實現訓練開發資產的一站式沉淀與管理,能顯著提升企業整體工作效率,實現AI生產的流水線化運作。
前置條件
注意
本方案僅作為實踐演示,具體環境以用戶實際需求為準。
執行本文操作之前, 請完成以下準備工作:
注冊天翼云賬號,并完成實名認證。
天翼云賬戶余額需要大于100元。
為了便于演示,本文中涉及資源開通時,均默認選擇按量付費模式。
實踐步驟
數據集管理
進入數據集管理模塊,點擊【創建數據集】,在彈窗中創建一個數據集,錄入數據集名稱,數據類型選擇“文本”,標注類型選擇“指令微調”、標注模版選擇“指令微調”,點擊【創建并導入】。
數據導入頁面支持從媒體存儲上傳、本地上傳、上傳壓縮包、從互聯網鏈接導入。這里我們選擇上傳,導入方式選“JSON”。
對導入成功的數據,在數據集列表操作列點擊【標注】,進入在線標注頁。
指令微調數據標注:instruction、input、output是指令微調的3個字段,instruction代表指令要求,input代表指令輸入,output代表模型根據指令和輸入執行的結果。撰寫完成點擊【下一篇】按鈕進行下一條數據的處理。標注頁面右側可以對該條數據進行打標審核。
標注完成后,在數據集列表,選擇對應數據集,點擊右上角【發布】,完成發布后的數據集才能供后續的訓練使用。
可以將標注后的數據從MySQL轉換為JSON格式,便于訓練。
如果您希望訓練過程中訓練速度更快的話,可以點擊【加速】,將數據從對象存儲轉存到快速存儲中進行加速。
模型調優
創建調優任務:進入模型開發與訓練模塊,選擇快速精調,進入調優任務列表,點擊【新建調優任務】,進入創建頁面。選擇已導入的指令微調數據集,選擇基礎大模型,設置調參方式、迭代輪次、批處理大小、學習率等指標,配置資源選擇算力規格。不同的算力規格對應不同的價格,單節點下卡數越多訓練越快。
監控調優任務:返回模型調優訓練任務列表,列表中可以看到每個任務的運行進度、預估時長。點擊任務名稱,可進入調優任務詳情頁,右上角可對任務進行停止和刪除操作。詳情頁可依次查看任務基礎信息、日志、監控、Tensorboard看板。
模型管理
新建模型:在模型管理菜單頁面中,點擊【新建模型】,輸入模型名稱,模型來源選擇從當前平臺導入,可以將上述調優任務輸出的模型在模型文件中選到,并進行導入,導入后模型可以在模型管理統一管理。
模型分享:點擊模型列表的分享,可以將模型分享給其他賬戶,只需要把口令復制給相應要分享的賬戶,該賬號創建模型時從口令導入即可。
模型評估
新建評估任務:在模型評估菜單頁面中,點擊【新建評估任務】,選擇一個用于評估的Benchmark數據集,選擇對應的評估標準,以及評估用到的資源。
準確率:忽略停用詞后,正確預測(標注與預測完全匹配)的樣本數與總樣本數的比例。
ROUGE-1:忽略停用詞后,將模型生成的結果和標準結果按unigram拆分后,計算出的召回率。
ROUGE-2:忽略停用詞后,將模型生成的結果和標準結果按bigram拆分后,計算出的召回率。
ROUGE-L:忽略停用詞后,衡量了模型生成的結果和標準結果的最長公共子序列,并計算出召回率。
BLEU-4:忽略停用詞后,用于評估模型生成的句子和實際句子的差異的指標,值為unigram(單個詞)、bigram(兩個連續詞的組合)、trigram(三個連續詞的組合)以及4-grams(四個連續詞的組合)的精確度的加權平均。