產品定義
翼MapReduce(簡稱:“翼MR”),是基于當前開源新版本大數據組件進行產品化封裝,可以為客戶提供快速部署、便捷維護的HDFS、YARN、Spark、Flink、Hive、Doris、Kafka、HBase等高性能的大數據組件以及運維管理平臺,同時產品默認提供強安全驗證能力,具備高安全、高擴展、快捷運維等特色,支持批量數據處理、流式數據處理、離線數據分析、在線查詢等場景。
產品架構
翼MR集群各個版本組件情況請參見版本概述。
詳見下圖:翼MR架構圖
翼MR架構包括了基礎設施和大數據處理流程各個階段的能力。
● 基礎設施
基于天翼云彈性云主機CT-ECS構建的大數據集群,整體集群的高可靠和高安全能力可以得到虛擬化底層的充分保證。
- 虛擬私有云(CT-VPC)為每個租戶提供虛擬的內部網絡,默認與其他網絡隔離,同時通過配套的安全組訪問控制確保網絡層面的安全性。
- 云硬盤(CT-EVS)提供不同規格和性能表現的高可靠存儲能力。
- 彈性云主機(CT-ECS)提供的彈性可擴展虛擬服務器,結合上述的CT-VPC、安全組、CT-EVS數據多副本和災備能力為客戶打造一個高效、可靠、安全的業務集群環境。
- 物理機服務(CT-DPS)是基于天翼云軟硬結合技術研發的一款擁有極致性能的裸金屬服務器,兼具云主機的靈活彈性、物理機的穩定,提供算力強勁的計算類服務,提供專屬的云上物理服務器,為大數據、核心數據庫、高性能計算等業務提供服務穩定、數據安全、性能卓越的算力服務。
● 數據集成
數據集成層提供了客戶的數據集成進翼MR集群的能力,包括:Kafka、Logstash、SeaTunnel、Flume,支持各種數據源導入數據到翼MR大數據集群中。
● 數據存儲
翼MR支持結構化和非結構化數據在集群中的存儲,并且支持多種高效的格式來滿 足不同計算引擎的要求。
– HDFS是大數據上通用的分布式文件系統。
– Doris是實時數據倉庫服務,具有高并發、低延遲的特點。
– HBase支持帶索引的數據存儲,適合高性能基于索引查詢的場景。
– Elasticsearch支持結構化/非結構化數據的檢索、分析場景。
● 數據調度和計算處理
– 翼MR提供多種主流計算引擎:MapReduce(批處理)、 Spark(內存計算)、Flink(流計算),滿足多種離線或實時大數據應用場景,將數據進行結構和邏輯的轉換,轉化成滿足業務目標的數據模型。
– 基于預設的數據模型,使用易用SQL的數據分析,用戶可以選擇Hive(數據倉庫),SparkSQL以及Trino交互式查詢引擎。
● 翼MR Manager
為確保大數據組件服務的高可用性,以Hadoop為基礎的大數據生態的各種組件均需要以分布式的方式進行部署,涉及其中的部署、管理和運維復雜度要求較高。翼MR提供了統一的運維管理平臺翼MR Manager,包括可視化引導式部署集群能力。同時翼MR Manager還提供了租戶與資源管理能力,以及翼MR中各類大數據組件的運維,并提供監控、告警、配置等一站式運維能力。
產品優勢
性能優化
- 自研優化實現百億行、百萬列毫秒級的即席查詢。
穩定可靠
- 完成對開源組件100+次的代碼及配置優化。
安全可控
- 使用Kerberos+Ranger安全技術實現全組件的認證和授權。
- 支持庫、表、字段級數據權限管控。
便捷運維
- 全鏈路可視化操作降低運維門檻,助力實現90%日常運維場景便捷操作,提升運維效率。