翼MapReduce(MRS)可以做什么?
MapReduce服務(MRS)為客戶提供ClickHouse、Spark、Flink、Kafka、HBase等Hadoop生態的高性能大數據引擎,支持數據湖、數據倉庫、BI、AI融合等能力,完全兼容開源,快速幫助客戶上云構建低成本、靈活開放、安全可靠、全棧式的云原生大數據平臺,滿足客戶業務快速增長和敏捷創新訴求。
天翼云都有哪些資源池可訂購翼MapReduce(MRS)?
目前翼MapReduce(MRS)已在蘇州、貴州、廣州4、杭州、福州、西安2、蘭州、上海4、北京2、長沙2、蕪湖、石家莊、南昌、鄭州、成都3、武漢2等資源池上線,您可根據實際需求選擇資源較豐富的資源池或就近選擇。
如您的目標資源池暫未部署翼MapReduce(MRS),請您就近選擇已部署該服務的資源池,或聯系客戶經理反饋需求,我們會盡快進行產品部署可行性評估。
翼MapReduce(MRS)支持什么類型的分布式存儲?
翼MapReduce提供目前主流的Hadoop,目前支持Hadoop 3.1.x版本,并且隨社區更新版本。
什么是區域和可用區?
通常用區域和可用區來描述數據中心的位置,用戶可以在特定的區域、可用區創建云服務資源。
- 區域(Region)指物理的數據中心。每個區域完全獨立,這樣可以實現容錯能力和穩定性。資源創建成功后不能更換區域。
- 可用區(AZ,Availability Zone)是同一區域內,電力和網絡互相隔離的物理區域,一個可用區不受其他可用區故障的影響。一個區域內可以有多個可用區,不同可用區之間物理隔離,但內網互通,既保障了可用區的獨立性,又提供了低價、低時延的網絡連接。
下圖表示區域和可用區之間的關系。

如何選擇區域?
選擇區域時,您需要考慮以下幾個因素:
- 地理位置
一般情況下,建議就近選擇靠近您或者您的目標用戶的區域,可以減少網絡時延,提高訪問速度。但在基礎設施、BGP網絡品質、資源的操作與配置等方面,同一個國家各個區域間區別不大,如果您或者您的目標用戶在同一個國家,可以不用考慮不同區域造成的網絡時延問題。
- 資源的價格
不同區域的資源價格可能有差異。
如何選擇可用區?
是否將資源放在同一可用區內,主要取決于您對容災能力和網絡時延的要求。
- 如果您的應用需要較高的容災能力,建議您將資源部署在同一區域的不同可用區內。
- 如果您的應用要求實例之間的網絡延時較低,則建議您將資源創建在同一可用區內。
如何獲取區域終端節點?
當您通過API使用資源時,您必須指定其區域終端節點。請向企業管理員獲取區域和終端節點信息。
翼MapReduce(MRS)集群內節點是否支持更換網段?
MRS集群內節點支持更換網段。
1.在集群詳情頁“默認生效子網”右側單擊“切換子網”。
2.選擇當前集群所在VPC下的其他子網,即可實現可用子網IP的擴充。
新增子網不會影響當前已有節點的IP地址和子網。
翼MapReduce(MRS)集群內節點是否支持降配操作?
MRS集群內節點暫不支持降級配置規格。
如何使用自定義安全組創建MRS集群?
用戶購買集群時,如果選擇使用自己創建的安全組,則需要放開9022端口,或者在界面上購買集群時,安全組選擇"自動創建"。
翼MapReduce(MRS)集群是否支持Hive on Spark?
- MRS 1.9.x版本集群支持Hive on Spark。
- MRS 3.x及之后版本的集群支持Hive on Spark。
- 其他版本可使用Hive on Tez替代。
不同版本的Hive之間是否可以兼容?
Hive 3.1版本與Hive 1.2版本相比不兼容內容主要如下:
- 字段類型約束:Hive 3.1不支持String轉成int
- UDF不兼容:Hive 3.1版本UDF內的Date類型改為Hive內置
- 索引功能廢棄
- 時間函數問題:Hive 3.1版本為UTC時間,Hive 1.2版本為當地時區時間
- 驅動不兼容:Hive 3.1和Hive 1.2版本的JDBC驅動不兼容
- Hive 3.1對ORC文件列名大小寫,下劃線敏感
- Hive 3.1版本列中不能有名為time的列
數據存儲在OBS和HDFS有什么區別?
MRS集群處理的數據源來源于OBS或HDFS,HDFS是Hadoop分布式文件系統(Hadoop Distributed File System),OBS(Object Storage Service)即對象存儲服務,是一個基于對象的海量存儲服務,為客戶提供海量、安全、高可靠、低成本的數據存儲能力。MRS可以直接處理OBS中的數據,客戶可以基于OBS服務Web界面和OBS客戶端對數據進行瀏覽、管理和使用,同時可以通過REST API接口方式單獨或集成到業務程序進行管理和訪問數據。
- 數據存儲在OBS:數據存儲和計算分離,集群存儲成本低,存儲量不受限制,并且集群可以隨時刪除,但計算性能取決于OBS訪問性能,相對HDFS有所下降,建議在數據計算不頻繁場景下使用。
- 數據存儲在HDFS:數據存儲和計算不分離,集群成本較高,計算性能高,但存儲量受磁盤空間限制,刪除集群前需將數據導出保存,建議在數據計算頻繁場景下使用。
Hadoop壓力測試工具如何獲取?
Hadoop壓力測試工具社區獲取地址:。
翼MapReduce(MRS)服務集成的開源第三方SDK中包含的公網IP地址聲明是什么?
MRS服務集成的開源組件所依賴的開源三方包中包含SDK使用示例,其中涉及“12.1.2.3”、“54.123.4.56”、“203.0.113.0”、“203.0.113.12”等公網IP均為示例IP,MRS服務進程不會主動發起與該公網IP的連接,也不會與該公網IP進行任何數據交換。
翼MapReduce(MRS)是否支持Hive on Kudu?
MRS不支持Hive on Kudu。
目前MRS只支持兩種方式訪問Kudu:
- 通過Impala表訪問Kudu。
- 通過客戶端應用程序訪問操作Kudu表。
10億級數據量場景的解決方案有哪些?
- 有數據更新、聯機事務處理OLTP、復雜分析的場景,建議使用云數據庫 GaussDB(for MySQL)。
- MRS的Impala + Kudu也能滿足該場景,Impala + Kudu可以在join操作時,把當前所有的join表都加載到內存中來實現。
如何修改DBService的IP地址?
MRS集群內不支持修改DBService的IP地址。
翼MapReduce(MRS)集群內節點上的sudo log能否清理?
MRS集群內節點上的sudo log文件是omm用戶的操作記錄,以方便問題的定位,用戶可以清理。
因為日志占用了一部分存儲空間,建議管理員清除比較久遠的操作日志釋放資源空間。
1.日志文件較大,可以將此文件目錄添加到“/etc/logrotate.d/syslog”中,讓系統做日志老化 ,定時清理久遠的日志 。
更改文件日志目錄:sed -i '3 a/var/log/sudo/sudo.log' /etc/logrotate.d/syslog
2.可以根據日志個數和大小進行設置“/etc/logrotate.d/syslog”,超過設置的日志會自動刪除掉。一般默認按照存檔大小和個數進行老化的,可以通過size和rotate分別是日志大小限制和個數限制,默認沒有時間周期的限制,如需進行周期設置可以增加daily/weekly/monthly指定清理日志的周期為每天/每周/每月。
MRS 2.1.0版本的集群對Storm日志的大小有什么限制?
MRS 2.1.0版本的集群對Storm日志有不超過20G的限制,超出后會循環刪除。
因為日志是保存在系統盤上,有空間限制。若如需長期保存,則需要將日志掛載出來。
Kafka支持的訪問協議類型有哪些?
Kafka支持四種協議類型的訪問,分別為:PLAINTEXT、SSL、SASL_PLAINTEXT、SASL_SSL。
zstd的壓縮比有什么優勢?
zstd的壓縮比orc好一倍,是開源的。
具體請參見。
CarbonData不支持lzo,MRS里面有集成zstd。
MRS 3.1.0版本的集群,Spark任務支持哪些python版本?
MRS 3.1.0版本的集群,Spark任務建議使用python2.7或3.x版本。
如何讓不同的業務程序分別用不同的Yarn隊列?
在Manager頁面上創建一個新的租戶,然后將不同的集群業務用戶綁定至不同的租戶。
操作步驟
1.登錄FusionInsight Manager,單擊“租戶資源”。
2.在左側租戶列表,選擇父租戶節點然后單擊
,打開添加子租戶的配置頁面,參見下表為子租戶配置屬性。
子租戶參數一覽
| 參數名 | 描述 |
|---|---|
| 集群 | 顯示上級父租戶所在集群。 |
| 父租戶資源 | 顯示上級父租戶的名稱。 |
| 名稱 | 指定當前租戶的名稱,長度為3~50個字符,可包含數字、字母或下劃線(_)。 根據業務需求規劃子租戶的名稱,不得與當前集群中已有的角色、HDFS目錄或者Yarn隊列重名。 |
| 租戶類型 | 指定租戶是否是一個葉子租戶: 選擇“葉子租戶”:當前租戶為葉子租戶,不支持添加子租戶。 選擇“非葉子租戶”:當前租戶為非葉子租戶,支持添加子租戶,但租戶層級不能超過5層。 |
| 計算資源 | 為當前租戶選擇動態計算資源。 選擇“Yarn”時,系統自動在Yarn中以子租戶名稱創建任務隊列。 ? 如果是葉子租戶,葉子租戶可直接提交到任務隊列中。 ? 如果是非葉子租戶,非葉子租戶不能直接將任務提交到隊列中。但是,Yarn會額外為非葉子租戶增加一個任務隊列(隱含),隊列默認命名為“default”,用于統計當前租戶剩余的資源容量,實際任務不會分配在此隊列中運行。 不選擇“Yarn”時,系統不會自動創建任務隊列。 |
| 默認資源池容量 (%) | 配置當前租戶使用的計算資源百分比,基數為父租戶的資源總量。 |
| 默認資源池最大容量(%) | 配置當前租戶使用的最大計算資源百分比,基數為父租戶的資源總量。 |
| 存儲資源 | 為當前租戶選擇存儲資源。 選擇“HDFS”時,系統將自動在HDFS父租戶目錄中,以子租戶名稱創建文件夾。 不選擇“HDFS”時,系統不會分配存儲資源。 |
| 文件\目錄數上限 | 配置文件和目錄數量配額。 |
| 存儲空間配額 | 配置當前租戶使用的HDFS存儲空間配額。 當存儲空間配額單位設置為MB時,范圍為1~8796093022208,當“存儲空間配額單位”設置為GB時,范圍為1~8589934592。 此參數值表示租戶可使用的HDFS存儲空間上限,不代表一定使用了這么多空間。 如果參數值大于HDFS物理磁盤大小,實際最多使用全部的HDFS物理磁盤空間。 如果此配額大于父租戶的配額,實際存儲量不超過父租戶配額。 |
| 存儲路徑 | 配置租戶在HDFS中的存儲目錄。 系統默認將自動在父租戶目錄中以子租戶名稱創建文件夾。例如子租戶“ta1s”,父目錄為“/tenant/ta1”,系統默認自動配置此參數值為“/tenant/ta1/ta1s”,最終子租戶的存儲目錄為“/tenant/ta1/ta1s”。 支持在父目錄中自定義存儲路徑。 |
| 描述 | 配置當前租戶的描述信息。 |

說明創建租戶時將自動創建租戶對應的角色、計算資源和存儲資源。
l? 新角色包含計算資源和存儲資源的權限。此角色及其權限由系統自動控制,不支持通過“系統 > 權限> 角色”進行手動管理,角色名稱為“租戶名稱_集群ID”。首個集群的集群ID默認不顯示。
l? 使用此租戶時,請創建一個系統用戶,并綁定租戶對應的角色。具體操作請參見添加用戶并綁定租戶的角色。
l? 子租戶可以將當前租戶的資源進一步分配。每一級別父租戶下,直接子租戶的資源百分比之和不能超過100%。所有一級租戶的計算資源百分比之和也不能超過100%。
3.當前租戶是否需要關聯使用其他服務的資源?
- 是,執行步驟4。
- 否,執行步驟5。
4.單擊“關聯服務”,配置當前租戶關聯使用的其他服務資源。
a.在“服務”選擇“HBase”。
b.在“關聯類型”選擇:
?“獨占”表示該租戶獨占服務資源,其他租戶不能再關聯此服務。
?“共享”表示共享服務資源,可與其他租戶共享使用此服務資源。

說明l? 創建租戶時,租戶可以關聯的服務資源只有HBase。為已有的租戶關聯服務時,可以關聯的服務資源包含:HDFS、HBase和Yarn。
l? 若為已有的租戶關聯服務資源:在租戶列表單擊目標租戶,切換到“服務關聯”頁簽,單擊“關聯服務”單獨配置當前租戶關聯資源。
l? 若為已有的租戶取消關聯服務資源:在租戶列表單擊目標的租戶,切換到“服務關聯”頁簽,單擊“刪除”,并勾選“我已閱讀此信息并了解其影響。”,再單擊“確定”刪除與服務資源的關聯。
c.單擊“確定”。
d.單擊“確定”,等待界面提示租戶創建成功。