傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理以結(jié)構(gòu)化數(shù)據(jù)為主,因此關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)(RDBMS)可以一統(tǒng)天下滿足各類應(yīng)用需求。但是試驗(yàn)和考核實(shí)際所涉及的數(shù)據(jù)可能包含文本、日志、圖片、視頻、矢量地圖等來(lái)自不同數(shù)據(jù)采集源的、不同種類的數(shù)據(jù)。這些數(shù)據(jù)的格式通常都不是固定的,如果采用結(jié)構(gòu)化的存儲(chǔ)模式將很難應(yīng)對(duì)實(shí)際的需求。因此需要按照數(shù)據(jù)類型的不同,對(duì)數(shù)據(jù)的存儲(chǔ)和管理采用不同的技術(shù)路線。
采用新型數(shù)據(jù)庫(kù)集群,通過(guò)列存儲(chǔ)和行列混合存儲(chǔ)以及粗粒度索引等技術(shù),結(jié)合MPP(MassiveParallelProcessing)架構(gòu)高效的分布式計(jì)算模式,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的存儲(chǔ)和管理,具有高性能和高擴(kuò)展性特點(diǎn);針對(duì)本項(xiàng)目中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用基于Hadoop開(kāi)源體系的底層,通過(guò)對(duì)Hadoop生態(tài)體系的技術(shù)擴(kuò)展和封裝,實(shí)現(xiàn)對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和管理。一方面用MPP來(lái)管理計(jì)算高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),提供強(qiáng)大的SQL和OLTP型服務(wù);另一方面,用Hadoop實(shí)現(xiàn)對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,以支持內(nèi)容檢索、深度挖掘與綜合分析等新型應(yīng)用。
大數(shù)據(jù)應(yīng)用系統(tǒng)集成
大數(shù)據(jù)查詢統(tǒng)計(jì)分析示意圖