導入數據
更新時間 2024-04-10 18:24:01
最近更新時間: 2024-04-10 18:24:01
分享文章
本章節主要介紹導入數據。
支持將OBS上的數據導入到DLI中創建的表中。
注意
創建OBS表時指定的路徑必須是文件夾,若建表路徑是文件將導致導入數據失敗。
導入數據時只能指定一個路徑,路徑中不能包含逗號。
當OBS的目錄下有同名文件夾和文件時,數據導入指向該路徑會優先指向文件而非文件夾。
若將CSV格式數據導入分區表,需在數據源中將分區列放在最后一列。
不建議對同一張表并發導入數據,因為有一定概率發生并發沖突,導致導入失敗。
導入文件支持CSV,Parquet,ORC,JSON和Avro格式,且文本格式僅支持UTF-8。
前提條件
待導入的數據已存儲到OBS上。
導入數據步驟
- 導入數據的入口有兩個,分別在“數據管理”和“SQL編輯器”頁面。
- 在“數據管理”頁面導入數據。
a. 在管理控制臺的左側,選擇“數據管理”>“庫表管理”。
b. 單擊需導入數據的表對應的數據庫名稱,進入該數據庫的“表管理”頁面。
c. 在目標表“操作”欄中選擇“更多”中的“導入”,彈出“導入數據”頁面。
- 在“SQL編輯器”頁面導入數據。
a. 在管理控制臺的左側,單擊“SQL編輯器”。
b. 在“SQL編輯器”頁面左側導航欄選擇“數據庫”頁簽,鼠標左鍵單擊需要導入數據的表對應的數據庫名,進入“表”區域。
c. 鼠標左鍵單擊對應表右側的
,在列表菜單中選擇“導入”,彈出“導入數據”頁面。
- 在“導入數據”頁面,參見下表填寫相關信息。
詳見下表:參數說明
| 參數名稱 | 描述 | 示例 |
|---|---|---|
| 數據庫 | 當前表所在的數據庫。 | - |
| 表名稱 | 當前表名稱。 | - |
| 隊列 | 選擇隊列。 | - |
| 文件格式 | 導入數據源的文件格式。導入支持CSV,Parquet,ORC,JSON,Avro格式。 | CSV |
| 數據源路徑 | 直接輸入路徑或單擊![]() 選擇OBS的路徑,若沒有合適的桶可直接跳轉OBS創建。創建OBS表時指定的路徑必須是文件夾,若建表路徑是文件將導致導入數據失敗。 當OBS的目錄下有同名文件夾和文件時,數據導入指向該路徑會優先指向文件而非文件夾。 說明 路徑同時支持文件和文件夾。 |
obs://DLI/sampledata.csv |
| 表頭:無/有 | 當“文件格式”為“CSV”時該參數有效。設置導入數據源是否含表頭。 選中“高級選項”,勾選“表頭:無”前的方框,“表頭:無”顯示為“表頭:有”,表示有表頭;去勾選即為“表頭:無”,表示無表頭。 | - |
| 自定義分隔符 | 當“文件格式”為“CSV”,勾選自定義分隔符前的方框時,該參數有效。 支持選擇如下分隔符。 逗號(,) 豎線(l) 制表符(\t) 其他:輸入自定義分隔符 |
默認值:(,) |
| 自定義引用字符 | 當“文件格式”為“CSV”,勾選自定義引用字符前的方框時,該參數有效。 支持選擇如下引用字符。 單引號(') 雙引號(") 其他:輸入自定義引用字符 |
默認值:單引號(') |
| 自定義轉義字符 | 當“文件格式”為“CSV”,并在自定義轉義字符前的方框打勾時,該參數有效。 選中高級選項,支持選擇如下轉義字符。 反斜杠( \ ) 其他:輸入自定義轉義字符 |
默認值:反斜杠( \ ) |
| 日期格式 | 當“文件格式”為“CSV”和“JSON”時此參數有效。 選中“高級選項”,該參數表示表中日期的格式,默認格式為“yyyy-MM-dd”。 | 2000-01-01 |
| 時間戳格式 | 當“文件格式”為“CSV”和“JSON”時此參數有效。 選中“高級選項”,該參數表示表中時間戳的格式,默認格式為“yyyy-MM-dd HH:mm:ss”。 | 2000-01-01 09:00:00 |
| 錯誤數據存儲路徑 | 當“文件格式”為“CSV”和“JSON”時此參數有效。 選中“高級選項”,該參數表示可將錯誤數據保存到對應的OBS路徑中。 | obs://DLI/ |
- 單擊“確定”,系統開始導入數據。
- 有兩種方式可查看導入的數據。
說明目前預覽只顯示導入的前十條數據。
- 在“數據管理”>“庫表管理”頁面,單擊數據庫名,在表管理界面對應表的“操作”欄選擇“更多”中的“表屬性”,在彈框的“預覽”頁簽中,可查看導入的數據
- 在“SQL編輯器”的“數據庫”頁簽中,單擊數據庫名稱,進入對應的表列表,鼠標左鍵單擊對應表右側的
,在列表菜單中選擇“表屬性”,在彈框的“預覽”頁簽中,可查看導入的數據。
- (可選)可以在“作業管理 > SQL作業”頁面,查看該導入作業的狀態以及執行結果。
