什么是數據血緣
大數(shu)據(ju)時代(dai),數(shu)據(ju)爆(bao)發性增長(chang),海(hai)量的、各種類型的數(shu)據(ju)在(zai)快速(su)產(chan)生。這些龐大復雜(za)的數(shu)據(ju)信(xin)息,通(tong)過聯姻融合、轉(zhuan)(zhuan)換變(bian)換、流轉(zhuan)(zhuan)流通(tong),又生成(cheng)新的數(shu)據(ju),匯聚成(cheng)數(shu)據(ju)的海(hai)洋(yang)。
數據的(de)產生(sheng)、加工融合、流(liu)轉流(liu)通,到(dao)最終(zhong)消亡,數據之(zhi)間自然會形(xing)成一(yi)種關系(xi)(xi)。我(wo)們(men)借鑒人(ren)類(lei)(lei)社會中(zhong)類(lei)(lei)似的(de)一(yi)種關系(xi)(xi)來表達數據之(zhi)間的(de)這種關系(xi)(xi),稱(cheng)之(zhi)為數據的(de)血緣關系(xi)(xi)。與人(ren)類(lei)(lei)社會中(zhong)的(de)血緣關系(xi)(xi)不同,數據的(de)血緣關系(xi)(xi)還包含(han)了一(yi)些特有的(de)特征(zheng):
- 歸屬性 :一般來說,特定的數據歸屬特定的組織或者個人,數據具有歸屬性。
- 多源性 :同一個數據可以有多個來源(多個父親)。一個數據可以是多個數據經過加工而生成的,而且這種加工過程可以是多個。
- 可追溯性 :數據的血緣關系,體現了數據的生命周期,體現了數據從產生到消亡的整個過程,具備可追溯性。
- 層次性:數據的血緣關系是有層次的。對數據的分類、歸納、總結等對數據進行的描述信息又形成了新的數據,不同程度的描述信息形成了數據的層次。
詳見(jian)下圖:數據血(xue)緣(yuan)關系示(shi)例


DataArts Studio數據血(xue)緣實現方(fang)案(an)
- 數據血緣的產生:
在DataArts Studio平臺,自動分析血緣是通過在數據開發模塊中配置數據處理遷移類型的節點產生的,當前支持采集節點靜態配置產生的血緣和部分節點實例上的血緣。詳情請參見 配置數據血緣章(zhang)節中的(de) 自動分析血緣。
另外,DataArts Studio平臺還支持手動配置血緣方式,當用戶手動配置血緣時,自動分析血緣將不生效。詳情請參見 配置數據血緣章節中的(de) 手動配置血緣。
- 數據血緣的展示:
當(dang)數(shu)據(ju)開發(fa)模(mo)塊(kuai)中的作業(ye)已完(wan)成血(xue)緣(yuan)關系(xi)(xi)配(pei)置后,啟動作業(ye)調度,并在數(shu)據(ju)目錄(lu)(lu)模(mo)塊(kuai)進行(xing)元(yuan)數(shu)據(ju)采集(ji)任務(wu),則可(ke)以在數(shu)據(ju)目錄(lu)(lu)模(mo)塊(kuai)可(ke)視化查看數(shu)據(ju)血(xue)緣(yuan)關系(xi)(xi)。