概述
更新時間 2024-04-10 18:23:59
最近更新時間: 2024-04-10 18:23:59
分享文章
本章節主要對數據湖探索的作業類型、約束限制進行簡單介紹。
DLI 作業類型
DLI 提供了三種作業類型:
- SQL作業:SQL作業為用戶提供標準的SQL,兼容Spark SQL、Presto SQL(基于Presto),通過可視化界面API、JDBC、ODBC、Beeline等多種接入方式對云上異構數據源進行查詢分析,兼容CSV、JSON、Parquet、Carbon、ORC等主流數據格式。
- Flink作業:Flink作業是運行在公有云上的實時流式大數據分析服務作業,全托管的方式用戶無需感知計算集群,只需聚焦于Stream SQL業務,即時執行作業,完全兼容Apache Flink API。
- Spark作業:Spark作業可為用戶提供全托管式的Spark計算服務。用戶可通過可視化界面和RESTful API提交作業,支持提交Spark Core、DataSet、Streaming、MLlib、GraphX等Spark全棧作業。
約束限制
- DLI配置SparkUI只展示最新的100條作業信息。
- 控制臺界面查詢結果最多顯示1000條作業結果數據,如果需要查看更多或者全量數據,則可以通過該功能將數據導出到OBS獲取。
- 導出作業運行日志需要具有OBS桶的權限,請提前在“全局配置 > 工程配置”頁面配置DLI作業桶。
- default隊列下運行的作業或者該作業為同步作業時不支持歸檔日志操作。
- 僅Spark作業支持使用自定義鏡像。
- 當前彈性資源池最大的計算資源 32000CUs。