數據開發概述
更新時間 2023-05-30 04:55:58
最近更新時間: 2023-05-30 04:55:58
分享文章
本章節主要介紹數據治理中心的數據開發概述。
數據開發是一個一站式的大數據協同開發平臺,提供全托管的大數據調度能力。它可管理多種大數據服務,極大降低用戶使用大數據的門檻,幫助您快速構建大數據處理中心。
數據開發模塊曾被稱為數據湖工廠(Data Lake Factory,后簡稱DLF)服務,因此在本文中,“數據湖工廠”、“DLF”均可用于指代“數據開發”模塊。
數據開發簡介
使用數據開發模塊,用戶可進行數據管理、腳本開發、作業開發、作業調度、運維監控等操作,輕松完成整個數據的處理分析流程。
詳見下圖:數據開發模塊架構




數據開發的主要功能
下表 數據開發的主要功能
| 支持的功能 | 說明 |
|---|---|
| 數據管理 | 支持管理DWS、DLI、MRS Hive等多種數據倉庫。 支持可視化和DDL方式管理數據庫表。 |
| 腳本開發 | 提供在線腳本編輯器,支持多人協作進行SQL、Shell、Python腳本在線代碼開發和調測。 支持使用變量和函數。 |
| 作業開發 | 提供圖形化設計器,支持拖拉拽方式快速構建數據處理工作流。 預設數據集成、SQL、Shell等多種任務類型,通過任務間依賴完成復雜數據分析處理。 支持導入和導出作業。 |
| 資源管理 | 支持統一管理在腳本開發和作業開發使用到的file、jar、archive類型的資源。 |
| 作業調度 | 支持單次調度、周期調度和事件驅動調度,周期調度支持分鐘、小時、天、周、月多種調度周期。 |
| 運維監控 | 支持對作業進行運行、暫停、恢復、終止等多種操作。 支持查看作業和其內各任務節點的運行詳情。 支持配置多種方式報警,作業和任務發生錯誤時可及時通知相關人,保證業務正常運行。 |
數據開發中的對象
- 數據連接:定義訪問數據實體存儲(計算)空間所需信息的集合,包括連接類型、名稱和登錄信息等。
- 解決方案:解決方案為用戶提供便捷的、系統的方式管理作業,更好地實現業務需求和目標。每個解決方案可以包含一個或多個業務相關的作業,一個作業可以被多個解決方案復用。
- 作業:作業由一個或多個節點組成,共同執行以完成對數據的一系列操作。
- 腳本:腳本(Script)是一種批處理文件的延伸,是一種純文本保存的程序,一般來說的計算機腳本程序是確定的一系列控制計算機進行運算操作動作的組合,在其中可以實現一定的邏輯分支等。
- 節點:定義對數據執行的操作。
- 資源:用戶可以上傳自定義的代碼或文本文件作為資源,以便在節點運行時調用。
- 表達式:數據開發作業中的節點參數可以使用表達式語言(Expression Language,簡稱EL),根據運行環境動態生成參數值。數據開發EL表達式包含簡單的算術和邏輯計算,引用內嵌對象,包括作業對象和一些工具類對象。
- 環境變量:環境變量是在操作系統中一個具有特定名字的對象,它包含了一個或者多個應用程序所將使用到的信息。
- 補數據:手工觸發周期方式調度的作業任務,生成某時間段內的實例。