怎樣為雲計算大資料Spark高手

1樓：匿名使用者

3全部我可能還不夠資格回答這個問題，沒有經歷過乙個公司大資料平台從無到有到複雜的過程。不過說說看法吧，也算是梳理一下想法找找噴。

這是個需求驅動的過程。

曾經聽過spotify的分享，印象很深的是，他們分享說，他們的hadoop集群第一次故障是因為，機器放在靠窗的地方，太陽曬了當機了（笑）。從簡單的沒有機房放在自家窗前的集群到一直到現在複雜的資料平台，這是乙個不斷演進的過程。

對小公司來說，大概自己找一兩台機器架個集群算算，也算是大資料平台了。在初創階段，資料量會很小，不需要多大的規模。這時候元件選擇也很隨意，hadoop一套，任務排程用指令碼或者輕量的框架比如luigi之類的，資料分析可能hive還不如匯入rmdb快。

監控和部署也許都沒時間整理，用指令碼或者輕量的監控，大約是沒有ganglia、nagios，puppet什麼的。這個階段也許算是技術積累，用傳統手段還是真大資料平台都是兩可的事情，但是為了今後的擴充套件性，這時候上hadoop也許是不錯的選擇。

當進入高速發展期，也許擴容會跟不上計畫，不少公司可能會遷移平台到雲上，比如aws阿里雲什麼的。小規模高速發展的平台，這種方式應該是經濟實惠的，省了運維和管理的成本，擴容比較省心。要解決的是選擇平台本身提供的服務，計算成本，打通資料出入的通道。

整個資料平台本身如果走這條路，可能就已經基本成型了。走這條路的比較有名的應該是netflix。

也有乙個階段，你發現雲服務的費用太高，雖然省了你很多事，但是花錢嗖嗖的。幾個老闆一合計，再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。

這時候你大概需要一群靠譜的運維，幫你監管機器，之前兩三颱機器登入上去看看狀態換個磁碟什麼的也許就不可能了，你面對的是成百上千臺主機，有些關鍵服務必須保證穩定，有些是資料節點，磁碟三天兩頭損耗，網路可能被壓得不堪重負。你需要乙個靠譜的人設計網路布局，設計運維規範，架設監控，值班團隊走起7*24小時隨時準備出台。然後上面再有平台組真的大資料平台走起。

然後是選型，如果有技術實力，可以直接用社群的一整套，自己管起來，監控部署什麼的自己走起。這個階段部署監控和使用者管理什麼的都不可能像兩三個節點那樣人肉搞了，配置管理，部署管理都需要專門的平台和元件；定期review使用者的作業和使用情況，決定是否擴容，清理資料等等。否則等機器和業務進一步增加，團隊可能會死的很慘，疲於奔命，每天事故不斷，進入惡性迴圈。

當然有金錢實力的大戶可以找cloudera，hortonworks，國內可以找華為星環，會省不少事，適合非網際網路土豪。當然網際網路公司也有用這些東西的，比如ebay。

接下去你可能需要一些重量的元件幫你做一些事情。

比如你的資料接入，之前可能找個定時指令碼或者爬log發包找個伺服器接收寫入hdfs，現在可能不行了，這些大概沒有高效能，沒有異常保障，你需要更強壯的解決方案，比如flume之類的。

你的業務不斷壯大，老闆需要看的報表越來越多，需要訓練的資料也需要清洗，你就需要任務排程，比如oozie或者azkaban之類的，這些系統幫你管理關鍵任務的排程和監控。

資料分析人員的資料大概可能漸漸從rdbms搬遷到集群了，因為傳統資料庫已經完全hold不住了，但他們不會寫**，所以你上馬了hive。然後很多使用者用了hive覺得太慢，你就又上馬互動分析系統，比如presto，impala或者sparksql。

你的資料科學家需要寫ml**，他們跟你說你需要mahout或者spark mllib，於是你也部署了這些。

至此可能資料平台已經是工程師的日常工作場所了，大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。

比如各個業務線資料各種資料表多的一塌糊塗，不管是你還是寫資料的人大概都不知道資料從哪兒來，接下去到哪兒去。你就自己搞了一套元資料管理的系統。

你分析效能，發現你們的資料都是上百column，各種複雜的query，裸存的text格式即便壓縮了也還是慢的要死，於是你主推使用者都使用列存，parquet，orc之類的。

又或者你發現你們的etl很長，中間生成好多臨時資料，於是你下狠心把pipeline改寫成spark了。

再接下來也許你會想到花時間去維護乙個門戶，把這些零散的元件都整合到一起，提供統一的使用者體驗，比如一鍵就能把資料從資料庫chua一下拉到hdfs匯入hive，也能一鍵就chua一下再搞回去；點幾下就能設定乙個定時任務，每天跑了給老闆自動推送報表；或者點一下就能起乙個storm的topology；或者介面上寫幾個query就能查詢hbase的資料。這時候你的資料平台算是成型了。

當然，磕磕碰碰免不了。每天你都有新的問題和挑戰，否則你就要失業了不是？

你發現社群不斷在解決你遇到過的問題，於是你們架構師每天分出很多時間去看社群的進展，有了什麼新工具，有什麼公司發布了什麼專案解決了什麼問題，興許你就能用上。

上了這些亂七八糟的東西，你以為就安生了？hadoop平台的乙個大特點就是坑多。尤其是新做的功能新起的專案。

對於平台組的人，老闆如果知道這是天然坑多的平台，那他也許會很高興，因為跟進社群，幫忙修bug，一起互動其實是很提公升公司影響力的實情。當然如果老闆不理解，你就自求多福吧，招幾個老司機，出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上，因為資料平台還是亂世，三天不跟進你就不知道世界是什麼樣了。

任何乙個新技術，都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術，那需要小心再小心

2樓：尋綠

學習學習再學習，多看看大牛發的經驗吧

如何從菜鳥成長成spark大資料高手

3樓：

3全部第一階段：熟練掌握scala語言第二階段：精通spark平台本身提供給開發折的api

1，掌握spark中面向rdd的開發模式，掌握各種transformation和action函式的使用。

2，掌握spark中的款依賴和窄依賴，lineage機制。

3，掌握rdd的計算流程，如stage的劃分，spark應用程式提交給集群的基礎過程和work節點基礎的工作原理。

第三階段：深入spark核心

此階段主要是通過spark框架的原始碼研讀來深入spark核心部分：

1，通過原始碼掌握spark的任務提交，

2，通過原始碼掌握spark的集群的任務排程，

3，尤其要精通dagscheduler,taskscheduler和worker節點內部的工作的每一步細節。

第四階段：掌握spark上的核心框架的使用

spark作為雲計算大資料時代的集大成者，在實時流式處理，圖技術，機器學習，nosql查詢等方面具有明顯的優勢，我們使用spark的時候大部分時間都是在使用其框架：

sparksql,spark streaming等

1，spark streaming是出色的實時流失處理框架，要掌握，dstream,transformation和checkpoint等。

2，spark sql是離線統計分析工具，shark已經沒落。

3，對於spark中的機器學習和graphx等要掌握其原理和用法。

第五階段：做商業級的spark專案

通過乙個完整的具有代表性的spark專案來貫穿spark的方方面面，包括專案的框架設計，用到的技術的剖析，開始實現，運維等，完善掌握其中的每乙個階段和細節，以後你就可以從容的面對絕大多數spark專案。

第六階段：提供spark解決方案

1，徹底掌握spark框架原始碼的每乙個細節，

2，根據步同的業務場景的需要提供spark在不同場景的解決方案，

3，根據實際需要，在spark框架基礎上經行2次開發，打造自己的spark框架。

4樓：匿名使用者

試試學習spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時etl）

密碼:t194

如何學習spark大資料

5樓：安徽新華電腦專修學院

主要學習spark大資料概念、基本原理、與hadoop的區別與聯絡、spark開發環境搭建、 spark集群、 scala開發語言、intellij idea開發工具使用、spark sql資料訪問、spark streaming流式計算、spark mllib機器學習、spark graphx圖計算等內容。

如何成為雲計算大資料spark高手

6樓：攻堅克敵

1全部多讀書，多看報，少吃零食，多睡覺

怎樣為雲計算大資料Spark高手

雲儲存是以什麼和管理為核心的雲計算系統

雲計算的發展前景怎樣，雲計算未來的發展前途及方向？

雲計算有怎樣的發展前景，雲計算未來將是怎樣的發展趨勢？

大資料雲計算適合什麼人群學習呢，雲計算與大資料專業主要是學習什麼的？

大資料雲計算學習難度大麼，雲計算和大資料哪個好學一些？

其他用戶還看了：