數據集成:多種方式異構數據源高效接入DataArts Studio數據集成支持批量數據遷移和實時數據接入兩種方式。
批量數據遷移
批量數據遷移提供20+同構/異構數據源之間批量數據遷移的功能,幫助您實現數據自由流動。支持自建和云上的文件系統,關系數據庫,數據倉庫,NoSQL,大數據云服務,對象存儲等數據源。
批量數據遷移基于分布式計算框架,利用并行化處理技術,支持用戶穩定高效地對海量數據進行移動,實現不停服數據遷移,快速構建所需的數據架構。
詳見下圖:批量數據遷移

批量數據遷移提供全向導式任務管理界面,幫助用戶在幾分鐘內完成數據遷移任務的創建,輕松應對復雜遷移場景。批量數據遷移支持的功能主要有:
表/ 文件/ 整庫遷移
支持批量遷移表或者文件,還支持同構/異構數據庫之間整庫遷移,一個作業即可遷移幾百張表。
增量數據遷移
支持文件增量遷移、關系型數據庫增量遷移、HBase增量遷移,以及使用Where條件配合時間變量函數實現增量數據遷移。
事務模式遷移
支持當遷移作業執行失敗時,將數據回滾到作業開始之前的狀態,自動清理目的表中的數據。
字段轉換
支持去隱私、字符串操作、日期操作等常用字段的數據轉換功能。
文件加密
在遷移文件到文件系統時,批量數據遷移支持對寫入云端的文件進行加密。
MD5校驗一致性
支持使用MD5校驗,檢查端到端文件的一致性,并輸出校驗結果。
臟數據歸檔
支持將遷移過程中處理失敗的、被清洗過濾掉的、不符合字段轉換或者不符合清洗規則的數據自動歸檔到臟數據日志中,方便用戶分析異常數據。并支持設置臟數據比例閾值,來決定任務是否成功。
數據開發:一站式協同開發平臺
DataArts Studio數據開發是一個一站式敏捷大數據開發平臺,提供可視化的圖形開發界面、豐富的數據開發類型(腳本開發和作業開發)、全托管的作業調度和運維監控能力,內置行業數據處理pipeline,一鍵式開發,全流程可視化,支持多人在線協同開發,支持管理多種大數據云服務,極大地降低了用戶使用大數據的門檻,幫助用戶快速構建大數據處理中心。
數據開發支持數據管理、數據集成、腳本開發、作業開發、資源管理、作業調度、運維監控等操作,幫助用戶輕松完成整個數據的處理分析流程。
數據管理
- 支持管理DWS、MRS Hive等多種數據倉庫。
- 支持可視化和DDL方式管理數據庫表。
數據集成
與批量數據遷移無縫集成,依托批量數據遷移的強力支撐,支持20多種異構數據源之間可靠高效的數據傳輸,輕松實現多數據源集成到數據倉庫。
腳本開發
- 提供在線腳本編輯器,支持多人協作進行SQL、Shell腳本在線代碼開發和調測。
- 支持使用變量和函數。
作業開發
- 提供圖形化設計器,支持拖拽式工作流開發,快速構建數據處理業務流水線。
- 預設數據集成、SQL、Shell等多種任務類型,通過任務間依賴完成復雜數據分析處理。
- 支持導入和導出作業。
資源管理
支持統一管理在腳本開發和作業開發使用到的file、jar、archive類型的資源。
作業調度
- 支持單次調度、周期調度和事件驅動調度,周期調度支持分鐘、小時、天、周、月多種調度周期。
- 作業調度支持多種云服務的多種類型的任務混合編排,高性能的調度引擎已經經過幾百個應用的檢驗。
運維監控
- 支持對作業進行運行、暫停、恢復、終止等多種操作。
- 支持查看作業和其內各任務節點的運行詳情。
- 支持配置多種方式報警,作業和任務發生錯誤時可及時通知相關人,保證業務正常運行。