前提條件
元數據(ju)(ju)采(cai)集支持豐(feng)富(fu)的數據(ju)(ju)源(yuan)類型(xing),對于(yu)DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE類型(xing)的數據(ju)(ju)源(yuan),首(shou)先需要在管(guan)理(li)中心創(chuang)建數據(ju)(ju)連接(jie)。
新增采集任務
- 在DataArts Studio控制臺首頁,選擇實例,點擊“進入控制臺”,選擇對應工作空間的“數據目錄”模塊,進入數據目錄頁面。
選擇數據目錄

- 選擇“元數據采集 > 任務管理”。
- 選擇采集任務所歸屬的目錄。如果未新建目錄請參見下圖創建進行。

- 單擊頁面上方“新建”或者右鍵單擊任務菜單,單擊“新增任務”,在彈出的對話框中,配置相關參數,新建采集任務。
新建任務有(you)如下圖(tu)所示的兩個入口。

a.配置基本參數。
基本配置說明
| 參數名 | 說明 |
|---|---|
| 任務名稱 | 采集任務的名稱,只能包含中文、英文字母、數字和下劃線,且長度不能超過62個字符。 |
| 描述 | 為更好的識別采集任務,此處加以描述信息。描述信息長度不能超過255個字符。 |
| 選擇目錄 | 采集任務的存儲目錄,可選擇已創建的目錄。目錄創建請參見下圖。 |
目錄創建

b.配置數據源信息、
數據源信息參數說明
| 參數名 | 說明 |
|---|---|
| 數據源類型 | 從下拉列表中選擇數據源類型。 說明 元數據采集支持豐富的數據源類型,對于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE類型的數據源,首先需要在管理中心創建數據連接。 |
| OBS桶 | 選擇待采集數據歸屬的OBS桶,僅數據源類型為OBS時,呈現此參數。 |
| 數據連接 | 所選數據連接類型中已創建數據連接,支持從下拉列表中選擇。 所選數據連接類型中未創建數據連接,請單擊“新建”,創建新的數據連接。 |
| OBS路徑 | 選擇待采集數據在OBS桶中的存儲路徑,僅數據源類型為OBS時,呈現此參數。 |
| 采集范圍 | 選擇待采集數據的采集范圍,僅數據源類型為OBS時,呈現此參數,原因是obs桶中是分目錄層級的。 選擇“當前文件夾”,采集任務僅采集obs路徑中設置的文件夾下的對象。 選擇“當前文件夾和所有子文件夾”,采集任務會采集obs路徑中設置的文件夾下所有的對象,包括其子文件夾下的對象 |
| 采集內容 | 選擇待采集數據的采集內容,僅數據源類型為OBS時,呈現此參數,原因是obs桶中是分目錄層級的。 選擇“文件夾和對象”,采集任務采集文件夾和對象。 選擇“ 文件夾”,采集任務僅采集文件夾。 |
| 數據庫和schema | 僅數據源類型為DWS時,呈現此參數。 單擊數據庫和schema后的“設置”,設置采集任務掃描的數據庫和schema范圍。當不進行設置時,默認選擇該數據連接下的所有數據庫和schema。 單擊“清除”,可對已選擇的數據庫和schema進行修改。 |
| 命名空間 | 僅數據源類型為MRS HBase時,呈現此參數。 單擊命名空間后的“設置”,設置采集任務掃描的命名空間范圍。當不進行設置時,默認選擇該數據連接下的所有命名空間 。 單擊“清除”,可對已選擇的命名空間進行修改。 |
| 數據庫 數據表 | 呈現待采集的數據庫和數據表。 單擊數據庫后的“設置”,設置采集任務掃描的數據庫范圍。當不進行設置時,默認選擇該數據連接下的所有數據庫 。 單擊數據表后的“設置”,設置采集任務掃描的數據表范圍。當不進行設置時,默認選擇數據庫下的所有數據表。針對數據連接類型為Mysql、Oracle和DLI的數據表,支持按照正則表達式過濾需要采集的表。 當數據庫和數據表均不設置時,則采集任務掃描的數據范圍為該數據連接下的所有數據表。 單擊“清除”,可對已選擇的數據庫和數據表進行修改。 |
| 選擇圖 | 僅數據源類型為GES時,呈現此參數。 選擇存儲了以“關系”為基礎的結構數據的圖。 |
| 選擇集群 | 僅數據源類型為CSS時,呈現此參數。 選擇待采集數據存儲的CSS集群。 您也可以單擊“新建”,創建CSS集群,創建完成后單擊“刷新”,選擇新建的CSS集群即可。 |
| 綁定Agent | 管理CloudTable/GES/CSS類型的數據連接,請選擇CDM集群提供的Agent。 用戶也可以單擊“新建”,創建新的Agent,創建完成后單擊“刷新”,選擇新的Agent即可。 |
| 索引 | 僅數據源類型為CSS時,呈現此參數。 用于存儲Elasticsearch的數據,類似關系型數據庫的Database。是一個或多個分片分組在一起的邏輯空間。 |
c.元數據采集參數配(pei)置
元數據采集參數說明
| 參數名 | 說明 |
|---|---|
| 數據源元數據已更新 | 當數據連接中元數據發生變化時,通過配置更新策略,設置數據目錄中元數據的更新方式。 需要注意的是配置的更新、刪除策略是作用在用戶配置的數據庫、數據表的范圍內的。 勾選“僅更新數據目錄中的元數據”:采集任務僅更新數據目錄已經采集到的元數據。 勾選“僅添加新元數據”:采集任務僅采集數據源中存在,但是數據目錄中不存在的元數據。 勾選“更新數據目錄中的元數據、添加新元數據”:采集任務全量同步數據源中的元數據。 勾選“忽略更新、添加操作”:不采集數據源中的元數據。 |
| 數據源元數據已刪除 | 當數據連接中元數據發生變化時,通過配置刪除策略,設置數據目錄中元數據的更新方式。 勾選“從數據目錄中刪除元數據”:當數據源中的某些元數據已經被刪除,數據目錄中也將同步刪除對應的元數據。 勾選“忽略刪除”:當數據源中的某些元數據已經被刪除,數據目錄中不同步刪除對應元數據。 |
d.勾選(xuan)數(shu)據概要時(shi)的參數(shu)配置。
數據概要參數說明
| 參數名 | 說明 |
|---|---|
| 基于全量數據 | 基于已采集的全量數據在數據目錄中生成數據概要。 適用于數據量較少(100W以下)的情況。 |
| 基于采樣數據,采樣數量為x條 | 基于已采集的全量數據在數據目錄中生成數據概要。 適用于數據量較多的情況。 |
| 基于全量數據,隨機取x%的數據 | 基于已采集的全量數據在數據目錄中生成數據概要。 適用于數據量較多的情況。 |
| DLI隊列 | 選擇獲取profile數據,執行DLI SQL用的隊列。 勾選“采集唯一值”表示只統計已采集的表中的唯一值的個數,并在數據目錄中的概要頁簽呈現。 |
| 數據格式 | 當存儲在OBS桶中的數據為CSV格式,請依據數據的實際屬性進行勾選是否有表頭,是否自定義分隔符,是否自定義引用字符,是否自定義轉義字符。 |
| 日期格式 | 當存儲在OBS桶中的數據為CSV格式,請依據實際屬性配置日期格式,以免影響數據被錯誤解析。 |
| 時間戳格式 | 當存儲在OBS桶中的數據為CSV格式,請依據實際屬性配置時間戳格式,以免影響數據被錯誤解析。 |
e.數(shu)(shu)據分類配置說明(僅(jin)當數(shu)(shu)據目錄組件中具備數(shu)(shu)據安(an)全(quan)功能時(shi),支(zhi)持配置該選項;當前暫(zan)不支(zhi)持關聯(lian)獨立數(shu)(shu)據安(an)全(quan)組件中的(de)敏感數(shu)(shu)據識(shi)別規則)。
- 數據分類:勾選此項參見數據分類新建分類規則組或者選中已有分類規則組,實現自動識別數據并添加分類。
- 數據分級:勾選“根據數據分類結果更新數據表密級”,表示可根據匹配的分類規則中,將密級最高的設置為表的密級。
- 數據同步:勾選“手動同步分類結果”,表示“數據目錄 > 數據目錄 > 列屬性”中呈現的數據列,在采集任務執行完畢后,不會自動添加分類和密級屬性。需要用戶前往“元數據采集 > 任務監控 ”頁面,找到任務實例,選擇“操作 > 更多 > 掃描結果”,查看采集任務的執行結果,確認分類結果是否匹配。勾選分類匹配字段前的復選框,單擊“同步”,即可將分類和密級屬性手動同步到資產。
說明僅DWS、DLI數(shu)據源支持(chi)創(chuang)建采集任務(wu)時添(tian)加數(shu)據分類(lei)(lei),實(shi)現自動識別。另外,只可給數(shu)據表的(de)列(lie)和OBS對(dui)象(xiang)添(tian)加分類(lei)(lei)。
- 單擊“下一步”,選擇調度方式,支持單次調度和周期調度兩種方式。單次調度:超時時間表示如果任務運行的時長超過了設置的超時時間,任務會被認定運行失敗。
周期調度的相關參數配置(zhi)請參見下表:配置(zhi)周期調度參數。
說明
單次調度(du)會產生(sheng)手(shou)(shou)動任(ren)務的(de)實(shi)例,手(shou)(shou)動任(ren)務的(de)特點是沒有(you)調度(du)依賴,只(zhi)需要(yao)手(shou)(shou)動觸發即可。
周期(qi)(qi)調度會(hui)產生周期(qi)(qi)實例(li),周期(qi)(qi)實例(li)是周期(qi)(qi)任(ren)務達到啟用(yong)調度所配置(zhi)的周期(qi)(qi)性運行時間時,被自動調度起來(lai)的實例(li)快(kuai)照。
周期任(ren)務每調(diao)(diao)度一次(ci),便(bian)生成一個實(shi)例工作流。用戶可以對已調(diao)(diao)度起的(de)實(shi)例任(ren)務進(jin)行(xing)日常(chang)的(de)運(yun)維管(guan)理(li),如查看運(yun)行(xing)狀態,對任(ren)務進(jin)行(xing)終(zhong)止、重跑等操作。
| 參數名 | 說明 |
|---|---|
| 生效日期 | 調度任務的生效時間段。 |
| 調度周期 | 選擇調度任務的執行周期,并配置相關參數。 分鐘 小時 天 周 |
| 開始時間 | 周期調度開始的具體時間,與生效日期中的開始時期配合使用。 |
| 間隔時間 | 兩次周期調度之間的間隔時間。 即使上一次調度任務實例未結束,從上次調度開始時間達到間隔時間后,新的調度任務實例也會開始。當前采集任務支持多實例并發運行。 |
| 結束時間 | 周期調度結束的具體時間,與生效日期中的結束時期配合使用。 |
| 超時時間 | 單次任務實例的運行超時時間,如果運行時長超過了此處設置,任務會被認定運行失敗。 |
| 啟動調度 | 勾選復選框,則表示立即啟動此調度任務。 |
- 單擊“提交”,采集任務創建成功。
管理采集任務
- 在DataArts Studio控制臺首頁,選擇實例,點擊“進入控制臺”,選擇對應工作空間的“數據目錄”模塊,進入數據目錄頁面。
選擇數據目錄

- 選擇“元數據采集 > 任務管理”。
在采(cai)集(ji)任(ren)務頁面,可查(cha)看所有已創建的采(cai)集(ji)任(ren)務。
管理采集任務
| 參數名 | 說明 |
|---|---|
| 任務名稱 | 采集任務的名稱。 單擊采集任務名稱,可查看該采集任務的采集策略和調度屬性。 |
| 數據源類型 | 數據連接的名稱。 |
| 調度狀態 | 顯示采集任務的調度方式,單擊![]() ,可進行篩選。 |
| 調度周期 | 顯示采集任務的調度頻率,單擊![]() ,可進行篩選。 |
| 描述 | 展示采集任務的描述信息。 |
| 創建人 | 展示采集任務的創建人。 |
| 最近運行時間 | 展示采集任務的最近運行時間。 |
| 操作 | 對已創建的采集任務可進行如下操作: 編輯:支持對采集任務(狀態為已啟動、未啟動、運行失敗)的采集策略強相關參數進行修改,不支持修改數據源類型。 運行:單擊“運行”,可運行此采集任務,并可在“任務監控”頁面查看其狀態和相關日志信息。 啟動調度:當其狀態為“已停止”,則可重新啟動調度。 停止調度:當調度狀態為“調度中”,則可停止調度。 |

,可進行篩選。