推薦答案
Spark是一種快速通(tong)用(yong)的(de)(de)分布式計算系統(tong),用(yong)于大規(gui)模(mo)數(shu)據(ju)處理。它最初由加州大學伯克利(li)分校的(de)(de)AMPLab開發,作為Hadoop的(de)(de)一個子(zi)項目,并(bing)于2010年開源。
Spark提供(gong)了高(gao)級(ji)API,包括Java、Scala、Python和R,以及(ji)SQL查(cha)詢(xun)、流(liu)處理和圖形處理。它支持各(ge)種(zhong)數據源(yuan),包括Hadoop Distributed File System(HDFS)、Apache Cassandra、Apache HBase等。火花還
Spark的(de)主要(yao)優點是其(qi)速度和(he)(he)可擴展性。與傳統(tong)的(de)MapReduce模(mo)型相比,Spark在(zai)內存中(zhong)保留數據,從而(er)避免了磁盤I / O的(de)開銷。Spark還支(zhi)持基(ji)于內存的(de)迭代計算(suan)模(mo)型,可以在(zai)多(duo)個節點之間進行數據共享和(he)(he)通信,從而(er)大大提高了計算(suan)速度和(he)(he)吞吐量。
由于其(qi)靈活性(xing)和高性(xing)能,Spark被廣泛用于各種(zhong)大規模數(shu)據(ju)處理(li)(li)場景(jing),包括機(ji)器學習、數(shu)據(ju)挖(wa)掘、圖形處理(li)(li)、日志分析等。
其他答案
-
Spark是一種通(tong)用(yong)(yong)(yong)(yong)的(de)(de)大(da)數(shu)據(ju)計算(suan)框架,和傳統的(de)(de)大(da)數(shu)據(ju)技術(shu)MapReduce有本質區別。前者是基(ji)于(yu)內存并(bing)行計算(suan)的(de)(de)框架,而mapreduce側重磁盤計算(suan)。Spark是加州大(da)學伯(bo)克利分校AMP實驗室(shi)開(kai)發的(de)(de)通(tong)用(yong)(yong)(yong)(yong)內存并(bing)行計算(suan)框架,用(yong)(yong)(yong)(yong)于(yu)構建大(da)型的(de)(de)、低延遲的(de)(de)數(shu)據(ju)分析(xi)應用(yong)(yong)(yong)(yong)程序。
-
Spark同樣支持離線計(ji)(ji)算(suan)和實時(shi)計(ji)(ji)算(suan)兩(liang)種模式。Spark離線計(ji)(ji)算(suan)速度(du)要比Mapreduce快10-100倍。而實時(shi)計(ji)(ji)算(suan)方(fang)面,則依賴于SparkStreaming的批處(chu)理能(neng)(neng)力,吞吐量(liang)大(da)。不過相比Storm,SparkStreaming并不能(neng)(neng)做(zuo)到真正的實時(shi)。

熱問標簽 更多>>
大(da)家都在問 更多>>
java合并兩個數組并升序排(pai)列怎(zen)么...
java合并兩個(ge)數組并排序怎(zen)么操(cao)作
java多(duo)行字(zi)符串輸入怎么操(cao)作