節點
翼MR集群中每個節點即為一臺云服務器,節點類型及節點功能如下所示。
| 節點類型 | 功能 |
|---|---|
| master節點 | 翼MR集群管理節點,用于管理集群服務,主要負責ResourceManager和NameNode等控制進程的部署。master節點組默認采用反親和技術,以此保證業務高可用性。 |
| core節點 | 翼MR集群工作節點,主要負責存儲和計算數據。 |
| task節點 | 翼MR集群計算節點,主要負責計算數據,不存儲數據(如HDFS 數據)。默認不開啟,按需使用。 |
Doris
Apache Doris是一個基于MPP架構的高性能、實時的分析型數據庫,以極速易用的特點被人們所熟知,僅需亞秒級響應時間即可返回海量數據下的查詢結果,不僅可以支持高并發的點查詢場景,也能支持高吞吐的復雜分析場景。基于此,Apache Doris能夠較好的滿足報表分析、即席查詢、統一數倉構建、數據湖聯邦查詢加速等使用場景,用戶可以在此之上構建用戶行為分析、AB實驗平臺、日志檢索分析、用戶畫像分析、訂單分析等應用。
Elasticsearch
Elasticsearch是一個開源的、高擴展性的分布式全文檢索引擎,能夠近乎實時地存儲、檢索數據。它能集中存儲您的數據,提供快速搜索、精細調整的相關性和強大的分析能力。
HBase
HBase提供業務鍵值數據的結構化存儲與檢索能力,主要包括鍵值數據存儲、鍵值數據查詢功能,提供鍵值數據管理和鍵值數據庫監測功能。兼容社區HBase接口,提供Java API,Restful接口形式。是一個分布式、數據多版本、面向列的NoSQL數據庫。提供可彈性擴展的多維表格鍵值存儲和即席查詢能力。支持上億行、可擴展列,具備強一致性、高擴展、高可用的特性。
HDFS
HDFS(Hadoop Distributed File System)是Hadoop生態系統的一個重要組成部分,是Hadoop中的的存儲組件。它是一個分布式文件系統,提供對應用程序數據的高吞吐量訪問。
Hive
Hive數據倉庫軟件通過SQL實現對分布式存儲中的大型數據集的讀寫和管理。Hive提供命令行工具和JDBC驅動程序連接用戶。Hive對SQL語句編譯和解析,生成相應的MapReduce任務對數據進行操作。
Kafka
Apache Kafka是一個優秀的分布式事件流平臺,被廣泛用于高性能數據管道、流分析、數據集成和任務關鍵型應用程序中。
Kerberos
Hadoop使用Kerberos作為用戶和服務的強身份驗證和身份傳播的基礎。Kerberos是一種計算機網絡認證協議,它允許某實體在非安全網絡環境下通信,向另一個實體以一種安全的方式證明自己的身份。 Kerberos是第三方認證機制,其中用戶和服務依賴于第三方(Kerberos服務器)來對彼此進行身份驗證。
Kibana
Kibana是一個開源的數據分析和可視化平臺,它被設計用于與Elasticsearch協同工作。您可以使用Kibana對Elasticsearch索引中的數據進行搜索、查看和交互操作。
Kyuubi
Kyuubi是一個提供JDBC/ODBC SQL查詢能力的分布式SQL引擎管理者,主要是為Spark Thrift Server提供多租戶以及HA能力,同時為其他引擎(例如Flink或Trino等)提供SQL等查詢服務。
OpenLDAP
OpenLDAP是輕型目錄訪問協議(Lightweight Directory Access Protocol,LDAP),通過IP協議提供訪問控制和維護分布式信息的目錄信息。
Ranger
Ranger為各組件提供了基于PBAC(Policy-Based Access Control)的權限管理插件,用于替換組件自身原本的鑒權插件。
Spark
Spark是一個離線分布式大數據處理引擎,可基于Spark-SQL表達語句、Spark API開發程序、SQL JDBC/ODBC 開發程序、beeline等方式提交SQL作業。Spark能夠部署在各種集群環境,快速的自動實現錯誤恢復機制,對各種規模大小的數據進行快速計算。
Trino
Trino是定位在數據倉庫和數據分析業務的分布式大數據SQL計算引擎,用于查詢分布在一個或多個異構數據源上的大型數據集。Trino是一個存算分離式的計算引擎,數據均存儲在遠程數據源上,Trino通過自帶的connector訪問遠程數據源進行查詢。
YARN
Apache YARN(Yet Another Resource Negotiator)是Hadoop集群資源管理器系統,YARN從Hadoop 2引入,最初是為了改善MapReduce的實現,但是它具有通用性,同樣執行其他分布式計算模式。
ZooKeeper
ZooKeeper是一個開源的分布式協調服務,主要用于數據訂閱/發布,集群管理,配置管理,分布式鎖。
Flink
Flink是大數據的流式計算框架和分布式處理引擎,用于在無邊界和有邊界數據流上進行有狀態的計算。Flink能在所在常見集群環境中運行,并能以內存速度和任意規模進行計算,支持批處理和流處理數據,有著高速度和高吞吐的特點,是真正的流批處理計算框架,適用于的應用場景:實時監控系統、日志分析系統、推薦系統。
Hudi
Hudi是數據湖的文件組織層,對Parquet格式文件進行管理提供數據湖能力,支持多種計算引擎,提供IUD接口,在 HDFS的數據集上提供了插入更新和增量拉取的流原語。
Iceberg
Iceberg 是一個用戶分析的高性能表格式, Iceberg 表格的數據可以存儲在 HDFS/S3 等不同存儲上,Iceberg 使得能夠在大數據系統中更好的使用 SQL 做數據分析,同時可以讓多引擎查詢同時支持 Iceberg 表格,Iceberg 支持引擎批量/增量的消費,能夠降低端到端的耗時。
Knox
Apache Knox Gateway 是一個應用程序網關,用于與Apache Hadoop 部署的 REST API 和 UI 進行交互。Knox 網關為與 Apache Hadoop集群的所有 REST 和 HTTP 交互提供了一個單一的訪問點。
Logstash
Logstash 是一個流行的開源數據收集引擎,用于從各種來源收集、處理和轉發數據。它可以從多種來源(如業務日志文件、消息隊列、數據庫等)收集數據,對數據進行解析、過濾和轉換,最終將處理后的數據輸出到目標位置(Opensearch、Elasticsearch、Hadoop、S3 等)。
JeekeFS
JeekeFS 是一個高性能分布式文件系統,用于存儲和管理文件與數據。它采用數據與元數據分離的存儲架構,數據本身被持久化在對象存儲中,元數據則可以按需存儲在多種數據庫中。
Tez
Tez組件是Apache Hadoop生態系統中的一個計算框架,它利用DAG(有向無環圖)來優化作業執行。通過提供可編程的輸入、輸出、處理器、任務等組件,Tez能夠高效地執行復雜的數據處理任務,提升Hadoop作業的性能和靈活性。
Flume
Flume組件是一個分布式、可靠且高可用的日志采集、聚合和傳輸系統,主要用于收集、緩存和傳輸大量的日志數據到集中存儲器中,如HDFS、HBase等。它通過source、channel和sink三個核心組件協同工作,實現數據的高效流動和處理。
KafkaUI
KafkaUI用于監控和管理Apache Kafka。它提供直觀、輕量級的儀表板,幫助用戶追蹤Kafka集群的關鍵指標,如Brokers、Topics、Partitions等,并支持動態配置主題和多種認證方式。
SeaTunnel
SeaTunnel組件是一個高性能、分布式的數據集成工具,支持實時數據流處理和離線批處理。它通過插件化的架構設計,可以方便地從多種數據源提取數據,進行清洗、轉換后,加載到目標存儲系統中,提供了豐富的數據轉換功能和任務調度、監控能力。
Pushgateway
Pushgateway組件是Prometheus監控系統的一個功能組件,它接收應用程序推送的監控指標數據,并保存這些數據供Prometheus抓取,適用于Prometheus無法直接拉取數據的場景。
TezUI
TezUI是Apache Tez的可視化工具,用于監控和分析Hadoop數據處理任務的執行過程,展示任務DAG結構、資源消耗及進度,幫助用戶優化性能、排查錯誤,提升大數據計算效率。
Amoro
Amoro 是數據湖存儲引擎和湖倉管理系統。它支持多種數據源、存儲格式及文件系統,能無縫集成到大數據生態系統,提供元數據管理、查詢優化、ACID 事務支持等功能,用于高效存儲、管理和分析數據。
Hue
Hue是一款大數據分析Web工具,提供可視化界面,簡化 Hadoop 生態組件的操作。用戶可通過瀏覽器直接編寫并執行查詢。降低非技術人員使用大數據平臺的門檻,提升數據分析與運維效率。