目前CDM支持連接的Hive數據源有(you)以下幾種:
- MRS Hive
- FusionInsight Hive
- Apache Hive
MRS Hive
用戶具有MRS Hive連接的表的訪問(wen)權限時,才(cai)能(neng)在字段映射(she)時看到(dao)表。
MRS Hive連(lian)接適用于云(yun)上(shang)的MapReduce服務。MRS Hive的連(lian)接參數如下表(biao)所示。
說明l? 新(xin)建MRS連接前,需在MRS中添加(jia)一個(ge)kerberos認(ren)證用戶并登錄MRS管理頁面(mian)更(geng)新其初始密碼,然后使用(yong)該新建用(yong)戶創建MRS連接(jie)。
l? 如需連接MRS 2.x版(ban)本的集群,請先(xian)創(chuang)建2.x版本的(de)CDM集群。CDM 1.8.x版本的(de)集群無法連(lian)接MRS 2.x版本(ben)的集群。
l? 由于當(dang)前CDM Hive連接是從(cong)MRS HDFS組(zu)件獲取core-site.xml配置信息,所以(yi)在MRS側(ce)使用的是Hive over OBS場景時,在創建Hive連接前,需要(yao)用戶在MRS管(guan)理界(jie)面的HDFS組件中配置OBS的AK、SK信息。
l? 需確(que)保(bao)MRS集(ji)群和DataArts Studio實例之(zhi)間網(wang)絡互通(tong),網(wang)絡互通(tong)需滿足如下條件:
l? DataArts Studio實例(指DataArts Studio實例(li)中的CDM集群(qun))與MRS集(ji)群處于不同區域的(de)情(qing)況下,需要通過(guo)公網或(huo)者專線打(da)通網絡。通過(guo)公網互通時(shi),需確保(bao)CDM集群已綁定EIP,MRS集群(qun)可以訪問公網且防火(huo)墻(qiang)規則已開放連(lian)接端口(kou)。
l? DataArts Studio實例(指(zhi)DataArts Studio實(shi)例中的CDM集群)與(yu)MRS集群同區域情況下,同虛擬私有云、同子網、同安全組的不同實例默認網絡互通;如果同虛擬私有云但子網或安全組不同,還需配置路由規則及安全組規則,配置路由規則請參見《虛擬私有云》幫助文檔中的“自定(ding)義(yi)路由(Region Type Ⅰ)> 添加路(lu)由信(xin)息”章節,配置安全組規則請參見《虛擬私有云》幫助文檔中的“安全組 > 添加安全組規則(ze)”章(zhang)節。
l? 此外,還需確(que)保該MRS集(ji)群與DataArts Studio工作(zuo)空間所屬的企(qi)業(ye)項目相(xiang)同,如果(guo)不同,您(nin)需(xu)要修改工作(zuo)空間的企(qi)業(ye)項目。
詳見(jian)下表:MRS Hive連接參數(shu)
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 連接的名稱,根據連接的數據源類型,用戶可自定義便于記憶、區分的連接名。 | mrs-link |
| Manager IP | MRS Manager的浮動IP地址,可以單擊輸入框后的“選擇”來選定已創建的MRS集群,CDM會自動填充下面的鑒權參數。 | 127.0.0.1 |
| 認證類型 | 訪問MRS的認證類型: SIMPLE:非安全模式選擇Simple鑒權。 KERBEROS:安全模式選擇Kerberos鑒權。 |
SIMPLE |
| Hive版本 | Hive的版本。根據服務端Hive版本設置。 | HIVE_3_X |
| 用戶名 | 選擇KERBEROS鑒權時,需要配置MRS Manager的用戶名和密碼。從HDFS導出目錄時,如果需要創建快照,這里配置的用戶需要HDFS系統的管理員權限。 如果要創建MRS安全集群的數據連接,不能使用admin用戶。因為admin用戶是默認的管理頁面用戶,這個用戶無法作為安全集群的認證用戶來使用。您可以創建一個新的MRS用戶,然后在創建MRS數據連接時,“用戶名”和“密碼”填寫為新建的MRS用戶及其密碼。 說明 如果CDM集群為2.9.0版本及之后版本,且MRS集群為3.1.0及之后版本,則所創建的用戶至少需具備Manager_viewer的角色權限才能在CDM創建連接;如果需要對應組件的進行庫、表、數據的操作,還需要添加對應組件的用戶組權限。 如果CDM集群為2.9.0之前的版本,或MRS集群為3.1.0之前的版本,則所創建的用戶需要具備Manager_administrator或System_administrator權限,才能在CDM創建連接。 僅具備Manager_tenant或Manager_auditor權限,無法創建連接。 |
cdm |
| 密碼 | 訪問MRS Manager的用戶密碼。 | - |
| OBS支持 | 需服務端支持OBS存儲。在創建Hive表時,您可以指定將表存儲在OBS中。 | 否 |
| 運行模式 | “HIVE_3_X”版本支持該參數。支持以下模式: EMBEDDED:連接實例與CDM運行在一起,該模式性能較好。 STANDALONE:連接實例運行在獨立進程。如果CDM需要對接多個Hadoop數據源(MRS、Hadoop或CloudTable),并且既有KERBEROS認證模式又有SIMPLE認證模式,只能使用STANDALONE模式或者配置不同的Agent。 說明 STANDALONE模式主要是用來解決版本沖突問題的運行模式。當同一種數據連接的源端或者目的端連接器的版本不一致時,存在jar包沖突的情況,這時需要將源端或目的端放在STANDALONE進程里,防止沖突導致遷移失敗。 |
EMBEDDED |
| 檢查Hive JDBC連通性 | 是否需要測試Hive JDBC連通性。 | 否 |
| 是否使用集群配置 | 用戶可以在“連接管理”處創建集群配置,用于簡化Hadoop連接參數配置。 | 否 |
| 屬性配置 | 其他Hive客戶端配置屬性。 | - |
單(dan)擊“顯(xian)示高級(ji)屬(shu)性(xing)(xing)”,然(ran)后單(dan)擊“添(tian)加(jia)”,您可(ke)以添(tian)加(jia)客戶端的(de)配置屬(shu)性(xing)(xing)。所(suo)添(tian)加(jia)的(de)每個屬(shu)性(xing)(xing)需配置屬(shu)性(xing)(xing)名稱和值(zhi)。對(dui)于不再需要的(de)屬(shu)性(xing)(xing),可(ke)單(dan)擊屬(shu)性(xing)(xing)后的(de)“刪(shan)除(chu)”按鈕進行刪(shan)除(chu)。
FusionInsight Hive
FusionInsight Hive連接適用(yong)于用(yong)戶在本地數(shu)據中心自建的FusionInsight HD,需通過專線連接。
FusionInsight Hive的連接參數詳見下表(biao)
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 連接的名稱,根據連接的數據源類型,用戶可自定義便于記憶、區分的連接名。 | hivelink |
| Manager IP | FusionInsight Manager平臺的地址。 | 127.0.0.1 |
| Manager端口 | FusionInsight Manager平臺的端口。 | 28443 |
| CAS Server端口 | 與FusionInsight對接的CAS Server的端口。 | 20009 |
| 認證類型 | 訪問集群的認證類型: SIMPLE:非安全模式選擇Simple鑒權。 KERBEROS:安全模式選擇Kerberos鑒權。 |
SIMPLE |
| Hive版本 | Hive的版本。 | HIVE_3_X |
| 用戶名 | 登錄FusionInsight Manager平臺的用戶名。 | cdm |
| 密碼 | FusionInsight Manager平臺的密碼。 | - |
| OBS支持 | 需服務端支持OBS存儲。在創建Hive表時,您可以指定將表存儲在OBS中。 | 否 |
| 運行模式 | “HIVE_3_X”版本支持該參數。支持以下模式: EMBEDDED:連接實例與CDM運行在一起,該模式性能較好。 STANDALONE:連接實例運行在獨立進程。如果CDM需要對接多個Hadoop數據源(MRS、Hadoop或CloudTable),并且既有KERBEROS認證模式又有SIMPLE認證模式,只能使用STANDALONE模式。 說明 STANDALONE模式主要是用來解決版本沖突問題的運行模式。當同一種數據連接的源端或者目的端連接器的版本不一致時,存在jar包沖突的情況,這時需要將源端或目的端放在STANDALONE進程里,防止沖突導致遷移失敗。 |
EMBEDDED |
| 是否使用集群配置 | 您可以通過使用集群配置,簡化Hadoop連接參數配置。 | 否 |
| 集群配置名 | 僅當“是否使用集群配置”為“是”時,此參數有效。此參數用于選擇用戶已經創建好的集群配置。 | hive_01 |
單(dan)擊“顯示(shi)高(gao)級屬性(xing)”,然(ran)后單(dan)擊“添(tian)加”,您可以添(tian)加客戶端的(de)配置(zhi)屬性(xing)。所添(tian)加的(de)每個屬性(xing)需配置(zhi)屬性(xing)名稱和值。對于不再(zai)需要(yao)的(de)屬性(xing),可單(dan)擊屬性(xing)后的(de)“刪(shan)(shan)除(chu)”按鈕進行刪(shan)(shan)除(chu)。
Apache Hive
Apache Hive連(lian)接(jie)適用(yong)于用(yong)戶在本(ben)地數據中心或ECS上自建的(de)(de)第三方(fang)Hadoop,其中本(ben)地數據中心的(de)(de)Hadoop需(xu)通過專線(xian)連(lian)接(jie)。
Apache Hive的(de)連接參數詳見(jian)下表
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 連接的名稱,根據連接的數據源類型,用戶可自定義便于記憶、區分的連接名。 | hivelink |
| URI | NameNode URI地址。 | hdfs://hacluster |
| Hive元數據地址 | 設置Hive元數據地址,參考hive.metastore.uris配置項。例如:thrift://host-192-168-1-212:9083 | - |
| 認證類型 | 訪問集群的認證類型: SIMPLE:非安全模式選擇Simple鑒權。 KERBEROS:安全模式選擇Kerberos鑒權。 |
SIMPLE |
| Hive版本 | Hive的版本。 | HIVE_3_X |
| IP與主機名映射 | 如果Hadoop配置文件使用主機名,需要配置IP與主機的映射。格式:IP與主機名之間使用空格分隔,多對映射使用分號或回車換行分隔。 | - |
| OBS支持 | 需服務端支持OBS存儲。在創建Hive表時,您可以指定將表存儲在OBS中。 | 否 |
| Principal | 認證類型為“KERBEROS”時,需要填寫Principal。Principal即Kerberos安全模式下的用戶名,可以聯系Hadoop管理員獲取。此處填寫的Principal需要與Keytab文件保持一致。 | - |
| Keytab文件 | 認證類型為“KERBEROS”時,需要上傳Keytab文件。Keytab文件為認證憑據文件,可以聯系Hadoop管理員獲取。獲取Keytab文件前,需要在集群上至少修改過一次此用戶的密碼,否則下載獲取的keytab文件可能無法使用。另外,修改用戶密碼后,之前導出的keytab將失效,需要重新導出。 | - |
| 運行模式 | “HIVE_3_X”版本支持該參數。支持以下模式: EMBEDDED:連接實例與CDM運行在一起,該模式性能較好。 STANDALONE:連接實例運行在獨立進程。如果CDM需要對接多個Hadoop數據源(MRS、Hadoop或CloudTable),并且既有KERBEROS認證模式又有SIMPLE認證模式,只能使用STANDALONE模式。 說明 STANDALONE模式主要是用來解決版本沖突問題的運行模式。當同一種數據連接的源端或者目的端連接器的版本不一致時,存在jar包沖突的情況,這時需要將源端或目的端放在STANDALONE進程里,防止沖突導致遷移失敗。 |
EMBEDDED |
| 是否使用集群配置 | 您可以通過使用集群配置,簡化Hadoop連接參數配置。 | 否 |
| 集群配置名 | 僅當“是否使用集群配置”為“是”時,此參數有效。此參數用于選擇用戶已經創建好的集群配置。 | hive_01 |
| Hive JDBC連接串 | 連接Hive JDBC的url,默認使用匿名用戶連接。 | - |
單(dan)擊“顯示高級屬性(xing)(xing)”,然(ran)后單(dan)擊“添加”,您可以添加客戶端的配(pei)置屬性(xing)(xing)。所添加的每個(ge)屬性(xing)(xing)需(xu)配(pei)置屬性(xing)(xing)名稱和值。對于(yu)不(bu)再需(xu)要的屬性(xing)(xing),可單(dan)擊屬性(xing)(xing)后的“刪除(chu)”按鈕進行刪除(chu)。