基本概念
更新時間 2024-08-21 19:12:16
最近更新時間: 2024-08-21 19:12:16
分享文章
本文主要介紹云日志服務中數據加工的基本概念。
基本概念
ETL
ETL是指將對業務系統的數據進行抽取、清洗、轉換、加載的過程,從而整合零散、不標準、不統一的數據。云日志服務支持加載源日志單元數據,將數據轉換后輸出到目標日志單元。
事件、數據、日志
在數據加工功能中,事件、數據都表示日志,例如事件時間就是日志時間,丟棄事件字段函數e_drop_fields就是用于丟棄特定日志字段的函數。
日志時間
日志時間指事件所發生的時間,也稱事件時間。在云日志服務中的保留字段為__time__,一般由日志中的時間信息直接提取生成。數據類型為整數字符串,Unix標準時間格式,單位為秒,表示從1970-1-1 00:00:00 UTC計算起的秒數。
日志標簽
日志存在標記,區別于其他字段,在數據加工中,標簽字段以__tag__:作為前綴。包括:
- 用戶自定義標簽:用戶通過API PutLogs寫入數據時添加的標簽。
- 系統標簽:云日志服務為用戶添加的標簽,包括__client_ip__和__receive_time__。
配置相關概念
源日志單元
數據加工中,從中讀取數據再進行加工的日志單元是源日志單元。
一個加工任務僅支持一個源日志單元,但可以對一個源日志單元配置多個加工任務。
目標日志單元
數據加工中,數據寫入的日志單元是目標日志單元。
一個加工任務可以配置多個目標日志單元,可以是靜態配置,也可以是動態配置。具體配置方法,請參見多目標日志單元數據分發。
DSL
DSL(Domain Specific Language)是云日志服務數據加工使用的一種Python兼容的腳本語言。DSL基于Python提供內置一百多個函數,簡化常見的數據加工模式。也支持用戶自定義的擴展Python腳本。
加工規則
數據加工腳本, DSL編排的邏輯代碼的集合。
加工任務
數據加工最小調度單元,由源日志單元、目標日志單元、加工規則、加工時間范圍以及其他配置項組成