【專業(yè)介紹】
Spark是類MapReduce的通用并行框架,Spark,擁有MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法;
Spark是近年來發(fā)展較快的分布式并行數(shù)據(jù)處理框架,可以與Hadoop聯(lián)合使用,增強Hadoop的性能。同時,Spark還增加了內(nèi)存緩存、流數(shù)據(jù)處理、圖數(shù)據(jù)處理等更為的數(shù)據(jù)處理能力。
【課程內(nèi)容】
Spark核心框架概況、運行模式、基本術(shù)語的介紹;
Spark的核心組件RDD及相關(guān)的數(shù)據(jù)分析方法;
Spark的血統(tǒng)與檢查點、Spark的技術(shù)原理、對Spark的基礎(chǔ)使用進行階段性實戰(zhàn)訓(xùn)練,
對基于Spark-SQL的樣例程序進行深度分析、流式數(shù)據(jù)分析框架Spark-Streaming的基礎(chǔ)理論,
對基于Spark-Streaming的樣例程序進行深度分析、機器學(xué)習(xí)框架Spark-MLlib的基礎(chǔ)理論,
圖計算框架Spark-GraphX的基礎(chǔ)理論,
Spark的性能優(yōu)化技術(shù);
【課程目標(biāo)】
對Spark的使用進行階段性實戰(zhàn)訓(xùn)練,此過程需要學(xué)員進行實際動手操作,旨在將理論付諸實踐,提高學(xué)員的實際動手能力。
【教學(xué)環(huán)境】
【關(guān)于我們】
電子科大大數(shù)據(jù)研究中心介紹
大數(shù)據(jù)研究中心是目前國內(nèi)規(guī)模大、架構(gòu)完整的大數(shù)據(jù)產(chǎn)學(xué)研一體化機構(gòu),擁有人才12名,中心成員曾獲得1項自然科學(xué)二等獎,2項科技進步二等獎,11項省部級科技獎勵一等獎。
2014年11月18日,科多大數(shù)據(jù)的母公司勤智數(shù)碼科技有限公司與成都電子科技大學(xué)大數(shù)據(jù)研究中心就共同發(fā)起設(shè)立的成電勤智“機器學(xué)習(xí)與數(shù)據(jù)智能”聯(lián)合實驗室,專注于大數(shù)據(jù)機器學(xué)習(xí)領(lǐng)域的研究。
【學(xué)校榮譽】
【專業(yè)師資】
吳志剛
互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析專家
15年以上互聯(lián)網(wǎng)大數(shù)據(jù)從業(yè)經(jīng)驗,曾服務(wù)于世界500強企業(yè)諾西;對貝葉斯分析方法進行數(shù)據(jù)分析與挖掘有深入研究,擅長基于分布式數(shù)據(jù)庫的應(yīng)用開發(fā)
朱勝
大數(shù)據(jù)安全領(lǐng)域?qū)<?/p>
10年數(shù)據(jù)領(lǐng)域從業(yè)經(jīng)驗,歷經(jīng)軟件開發(fā)、系統(tǒng)設(shè)計、項目管理、項目咨詢等多個階段,有著豐富的電力、物流、零售業(yè)龍頭企業(yè)的數(shù)據(jù)管理、數(shù)據(jù)分析和產(chǎn)品設(shè)計等經(jīng)驗。