本文分為技術(shù)篇、產(chǎn)業(yè)篇、應(yīng)用篇、展望篇四部分
技術(shù)篇

2006年項(xiàng)目成立的一開(kāi)始,“Hadoop”這個(gè)單詞只代表了兩個(gè)組件——HDFS和MapReduce。到現(xiàn)在的10個(gè)年頭,這個(gè)單詞代表的是“核心”(即Core Hadoop項(xiàng)目)以及與之相關(guān)的一個(gè)不斷成長(zhǎng)的生態(tài)系統(tǒng)。這個(gè)和Linux非常類似,都是由一個(gè)核心和一個(gè)生態(tài)系統(tǒng)組成。
現(xiàn)在Hadoop在一月發(fā)布了2.7.2的穩(wěn)定版, 已經(jīng)從 傳統(tǒng)的Hadoop三駕馬車HDFS,MapReduce和Hbase社區(qū)發(fā)展為60多個(gè)相關(guān)組件組成的龐大生態(tài) ,其中包含在各大發(fā)行版中的組件就有25個(gè)以上,包括數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎、編程和數(shù)據(jù)訪問(wèn)框架等。
Hadoop在2.0將資源管理從MapReduce中獨(dú)立出來(lái)變成通用框架后,就從1.0的三層結(jié)構(gòu)演變?yōu)榱爽F(xiàn)在的四層架構(gòu):
底層——存儲(chǔ)層,文件系統(tǒng)HDFS
中間層——資源及數(shù)據(jù)管理層,YARN以及Sentry等
上層——MapReduce、Impala、Spark等計(jì)算引擎
頂層——基于MapReduce、Spark等計(jì)算引擎的高級(jí)封裝及工具,如Hive、Pig、Mahout等等

存儲(chǔ)層
HDFS已經(jīng)成為了大數(shù)據(jù)磁盤存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),用于海量日志類大文件的在線存儲(chǔ)。經(jīng)過(guò)這些年的發(fā)展,HDFS的架構(gòu)和功能基本固化,像HA、異構(gòu)存儲(chǔ)、本地?cái)?shù)據(jù)短路訪問(wèn)等重要特性已經(jīng)實(shí)現(xiàn),在路線圖中除了Erasure Code已經(jīng)沒(méi)什么讓人興奮的feature。
隨著HDFS越來(lái)越穩(wěn)定,社區(qū)的活躍度也越來(lái)越低,同時(shí)HDFS的使用場(chǎng)景也變得成熟和固定,而上層會(huì)有越來(lái)越多的文件格式封裝:列式存儲(chǔ)的文件格式,如Parquent,很好的解決了現(xiàn)有BI類數(shù)據(jù)分析場(chǎng)景;以后還會(huì)出現(xiàn)新的存儲(chǔ)格式來(lái)適應(yīng)更多的應(yīng)用場(chǎng)景,如數(shù)組存儲(chǔ)來(lái)服務(wù)機(jī)器學(xué)習(xí)類應(yīng)用等。未來(lái)HDFS會(huì)繼續(xù)擴(kuò)展對(duì)于新興存儲(chǔ)介質(zhì)和服務(wù)器架構(gòu)的支持。
2015年Hbase 發(fā)布了1.0版本,這也代表著 Hbase 走向了穩(wěn)定。最新Hbase新增特性包括:更加清晰的接口定義,多Region 副本以支持高可用讀,F(xiàn)amily粒度的Flush以及RPC讀寫隊(duì)列分離等。未來(lái)Hbase不會(huì)再添加大的新功能,而將會(huì)更多的在穩(wěn)定性和性能方面進(jìn)化,尤其是大內(nèi)存支持、內(nèi)存GC效率等。
Kudu是Cloudera在2015年10月才對(duì)外公布的新的分布式存儲(chǔ)架構(gòu),與HDFS完全獨(dú)立。其實(shí)現(xiàn)參考了2012年Google發(fā)表的Spanner論文。鑒于Spanner在Google 內(nèi)部的巨大成功,Kudu被譽(yù)為下一代分析平臺(tái)的重要組成,用于處理快速數(shù)據(jù)的查詢和分析,填補(bǔ)HDFS和Hbase之間的空白。其出現(xiàn)將進(jìn)一步把Hadoop市場(chǎng)向傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)靠攏。
Apache Arrow項(xiàng)目為列式內(nèi)存存儲(chǔ)的處理和交互提供了規(guī)范。目前來(lái)自Apache Hadoop社區(qū)的開(kāi)發(fā)者們致力于將它制定為大數(shù)據(jù)系統(tǒng)項(xiàng)目的事實(shí)性標(biāo)準(zhǔn)。

Arrow項(xiàng)目受到了Cloudera、Databricks等多個(gè)大數(shù)據(jù)巨頭公司支持,很多committer同時(shí)也是其他明星大數(shù)據(jù)項(xiàng)目(如Hbase、Spark、Kudu等)的核心開(kāi)發(fā)人員。再考慮到Tachyon等似乎還沒(méi)有找到太多實(shí)際接地氣的應(yīng)用場(chǎng)景,Arrow的高調(diào)出場(chǎng)可能會(huì)成為未來(lái)新的內(nèi)存分析文件接口標(biāo)準(zhǔn)。