ETL Job
更新時間 2023-07-20 10:15:52
最近更新時間: 2023-07-20 10:15:52
分享文章
本章節主要介紹節點參考的ETL Job。
功能
通過ETL Job節點可以從指定數據源中抽取數據,經過數據準備對數據預處理后,導入到目標數據源。
參數
用戶可參考下表配置ETL Job節點的參數。
屬性參數
| 參數 | 是否必選 | 說明 |
|---|---|---|
| 節點名稱 | 是 | 節點名稱,可以包含中文、英文字母、數字、“_”、“-”、“/”、“<”、“>”等各類特殊字符,長度為1~128個字符。 |
| ETL配置 | 是 | 單擊 配置需要轉換的源端數據和目的端數據。當前支持的源端數據為DLI類型、OBS類型和MySQL類型。當源端數據為DLI類型時,支持的目的端數據類型為DWS、GES、CSS、OBS、DLI。 當源端數據為MySQL類型時,支持的目的端數據類型為MySQL。 當源端數據為OBS類型時,支持的目的端數據類型為DLI、DWS。 須知 DLI到DWS端的數據轉換: 因為數據開發模塊調用DWS的集群時,需要走網絡代理。所以導入數據到DWS時,需要提前先在數據開發模塊中創建DWS的數據連接。 DLI導入數據到DWS時,DWS的表需要先創建好。 DLI到CSS端的數據轉換: DLI導入數據到CSS集群時,需要在DLI側提前創建好關聯對應CSS集群的跨源連接,請參見《數據湖探索用戶指南》。 |
| SQL模板 | 否 | 單擊“配置”按鈕獲取SQL模板。 |
高級參數
| 參數 | 是否必選 | 說明 |
|---|---|---|
| 節點執行的最長時間 | 是 | 設置節點執行的超時時間,如果節點配置了重試,在超時時間內未執行完成,該節點將不會再重試,直接置為失敗狀態。 |
| 失敗重試 | 是 | 節點執行失敗后,是否重新執行節點。 是:重新執行節點,請配置以下參數。 ? 最大重試次數 ? 重試間隔時間(秒) 否:默認值,不重新執行節點。 說明 如果作業節點配置了重試,并且配置了超時時間,該節點執行超時后將不會再重試,直接置為失敗狀態。 |
| 失敗策略 | 是 | 節點執行失敗后的操作: 終止當前作業執行計劃:停止當前作業運行,當前作業實例狀態顯示為“失敗”。 繼續執行下一節點:忽略當前節點失敗,當前作業實例狀態顯示為“忽略失敗成功”。 掛起當前作業執行計劃:暫停當前作業運行,當前作業實例狀態顯示為“等待運行”。 終止后續節點執行計劃:停止后續節點的運行,當前作業實例狀態顯示為“失敗”。 |
| 空跑 | 否 | 如果勾選了空跑,該節點不會實際執行,將直接返回成功。 |
血緣關系
| 參數 | 說明 |
|---|---|
| 輸入 | |
| 新建 | 單擊“新建”,在“類型”的下拉選項中選擇要新建的類型。可以選擇DWS,OBS,CSS,HIVE,CUSTOM和DLI類型。 DWS ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DWS的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DWS的數據庫。? schema(必選):單擊 ![]() ,在彈出的“schema”窗口選擇DWS的數據庫模式。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇DWS的數據表。OBS ? 路徑(必選):單擊 ![]() ,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。CSS ? 集群名稱(必選):單擊 ![]() ,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。? 索引名稱(必選):輸入CSS類型的索引名稱。 HIVE ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇HIVE的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇HIVE的數據庫。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇HIVE的數據表。CUSTOM ? 名稱(必選):輸入CUSTOM類型的名稱。 ? 屬性(必選):輸入CUSTOM類型的屬性,可新增不止一條。 DLI ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DLI的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DLI的數據庫。? 表名(必選):單擊 ,在彈出的“表名”窗口選擇DLI的數據表。 |
| 確定 | 單擊“確認”,保存節點輸入功能的參數配置。 |
| 取消 | 單擊“取消”,取消節點輸入功能的參數配置。 |
| 編輯 | 單擊![]() ,修改節點輸入功能的參數配置,修改完成后,請保存。 |
| 刪除 | 單擊![]() ,刪除節點輸入功能的參數配置。 |
| 查看表詳情 | 單擊![]() ,查看節點輸入血緣關系創建數據表的詳細信息。 |
| 輸出 | |
| 新建 | 單擊“新建”,在“類型”的下拉選項中選擇要新建的類型。可以選擇DWS,OBS,CSS,HIVE,CUSTOM和DLI類型。 DWS ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DWS的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DWS的數據庫。? schema(必選):單擊 ![]() ,在彈出的“schema”窗口選擇DWS的數據庫模式。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇DWS的數據表。OBS ? 路徑(必選):單擊 ![]() ,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。CSS ? 集群名稱(必選):單擊 ![]() ,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。? 索引名稱(必選):輸入CSS類型的索引名稱。 HIVE ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇HIVE的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇HIVE的數據庫。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇HIVE的數據表。CUSTOM ? 名稱(必選):輸入CUSTOM類型的名稱。 ? 屬性(必選):輸入CUSTOM類型的屬性,可新增不止一條。 DLI ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DLI的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DLI的數據庫。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇DLI的數據表。 |
| 確定 | 單擊“確認”,保存節點輸出功能的參數配置。 |
| 取消 | 單擊“取消”,取消節點輸出功能的參數配置。 |
| 編輯 | 單擊![]() ,修改節點輸出功能的參數配置,修改完成后,請保存。 |
| 刪除 | 單擊![]() ,刪除節點輸出功能的參數配置。 |
| 查看表詳情 | 單擊![]() ,查看節點輸出血緣關系創建數據表的詳細信息。 |
配置需要轉換的源端數據和目的端數據。當前支持的源端數據為DLI類型、OBS類型和MySQL類型。
,在彈出的“連接名稱”窗口選擇DWS的數據連接。
,在彈出的“數據庫”窗口選擇DWS的數據庫。
,在彈出的“schema”窗口選擇DWS的數據庫模式。
,在彈出的“表名”窗口選擇DWS的數據表。
,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。
,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。
,在彈出的“連接名稱”窗口選擇HIVE的數據連接。
,在彈出的“數據庫”窗口選擇HIVE的數據庫。
,在彈出的“表名”窗口選擇HIVE的數據表。
,在彈出的“連接名稱”窗口選擇DLI的數據連接。
,在彈出的“數據庫”窗口選擇DLI的數據庫。
,在彈出的“表名”窗口選擇DLI的數據表。
,修改節點輸入功能的參數配置,修改完成后,請保存。
,刪除節點輸入功能的參數配置。
,查看節點輸入血緣關系創建數據表的詳細信息。
,在彈出的“連接名稱”窗口選擇DWS的數據連接。
,在彈出的“數據庫”窗口選擇DWS的數據庫。
,在彈出的“schema”窗口選擇DWS的數據庫模式。
,在彈出的“表名”窗口選擇DWS的數據表。
,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。
,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。
,在彈出的“連接名稱”窗口選擇HIVE的數據連接。
,在彈出的“數據庫”窗口選擇HIVE的數據庫。
,在彈出的“表名”窗口選擇HIVE的數據表。
,在彈出的“連接名稱”窗口選擇DLI的數據連接。
,在彈出的“數據庫”窗口選擇DLI的數據庫。
,在彈出的“表名”窗口選擇DLI的數據表。
,修改節點輸出功能的參數配置,修改完成后,請保存。
,刪除節點輸出功能的參數配置。
,查看節點輸出血緣關系創建數據表的詳細信息。