在使用DataArts Studio前,您應首先進行數據與業務調研,選擇合適的數據治理模型。
然后參考本章節,預先做好以下準備工作:
DataArts Studio準備工作
準備數據源
準備數據湖
DataArts Studio準備工作
如果您是第一次使用DataArts Studio,請參考用戶指南中的“準備工作”章節,完成創建DataArts Studio實例、創建工作空間等一系列操作。然后找到對應的工作空間,即可開始數據開發與運營。
準備數據源
在實際業務中,源端數據源大多為云下的MySQL、PostgreSQL、HBase、Hive等類型,您需要作如下準備:
- 確保數據源所在的主機可以訪問公網。
- 獲取數據源的公網連接地址、數據庫端口、數據庫管理員用戶及密碼等信息。
- 確保防火墻規則出方向已開放數據庫端口,允許數據傳輸到云上。
準備好數據源之后,后續您可以通過數據集成將數據源遷移到數據湖底座中,然后再通過DataArts Studio進行數據開發、治理和運營等活動。
準備數據湖
在使用DataArts Studio前,您需要根據業務場景選擇符合需求的云服務作為DataArts Studio的數據湖底座,用于存儲原始數據和數據開發過程中的數據,并進行后續的數據開發、治理和運營等活動。DataArts Studio平臺當前支持的數據湖產品請參見DataArts Studio支持的數據源。
準備好數據湖之后,您可以通過創建數據連接將DataArts Studio與數據湖底座連接起來,然后進行下方1和2的操作。1和2的操作樣例可參考快速入門中的“2:準備工作”章節。
1.創建數據庫
在使用DataArts Studio數據集成將數據遷移上云之前,我們需要在目的端數據湖中創建目標數據庫。根據數據湖治理落地流程,建議您在數據湖中為SDI層、DWI層、DWR層和DM層分別創建一個數據庫,從而對數據進行分層分庫。數據分層是后面在數據架構中將涉及到的概念,此處可先簡單了解,在數據架構時將深入了解與操作。
您可以參考以下任一一種方式在數據湖中創建數據庫。
您可以在DataArts Studio數據開發模塊中,可視化方式創建數據庫,具體操作請參見“數據開發 > 數據管理 > 新建數據庫”章節。
您可以通過在DataArts Studio數據開發模塊或數據湖產品的SQL編輯器上,開發并執行用于創建數據庫的SQL腳本,從而創建數據庫。在DataArts Studio數據開發模塊開發腳本的具體操作請參見“數據開發 > 腳本開發 > 開發腳本> 開發SQL腳本”章節;數據湖產品的SQL編輯器上的具體操作請參見對應數據湖產品的幫助文檔。
2.創建數據表
在使用DataArts Studio數據集成將數據遷移上云之前,我們需要在目的端數據湖的SDI層數據庫中創建一個目標表,用于存儲原始數據。批量數據遷移場景下,關系型數據庫之間的遷移和關系型數據庫到Hive的遷移支持自動創建目標表,這種情況下可以不預先在目的端數據庫中創建目標表。
您可以參考以下任一一種方式在數據湖中創建原始數據表。如果表字段個數較多,建議使用編寫SQL腳本的方式創建表。
您可以在DataArts Studio數據開發模塊中,可視化方式創建數據表,具體操作請參見“數據開發 > 數據管理 > 新建數據表”章節。
您可以通過在DataArts Studio數據開發模塊或數據湖產品的SQL編輯器上,開發并執行用于創建數據表的SQL腳本,從而創建數據表。在DataArts Studio數據開發模塊開發腳本的具體操作請參見“數據開發 > 腳本開發 > 開發腳本> 開發SQL腳本”章節;數據湖產品的SQL編輯器上的具體操作請參見對應數據湖產品的幫助文檔。