簡述Hadoop的MapReduce與Googl的MapRe

1樓：匿名使用者

hadoop實現了乙個分布式檔案系統，設計用來部署在低廉的硬體上；而且提供高吞吐量來訪問應用程式的資料，適合那些有著超大資料集的應用程式。

hadoop得以在大資料處理應用中廣泛應用得益於其自身在資料提取、變形和載入(etl)方面上的天然優勢。hadoop的分布式架構，將大資料處理引擎盡可能的靠近儲存，對例如像etl這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向儲存。

hadoop的mapreduce功能實現了將單個任務打碎，並將碎片任務(map)傳送到多個節點上，之後再以單個資料集的形式載入(reduce)到資料倉儲裡。

擴充套件資料

hadoop 由許多元素構成。其最底部是 hdfs，儲存 hadoop 集群中所有儲存節點上的檔案。hdfs的上一層是mapreduce 引擎，該引擎由 jobtrackers 和 tasktrackers 組成。

通過對hadoop分布式計算平台最核心的分布式檔案系統hdfs、mapreduce處理過程，以及資料倉儲工具hive和分布式資料庫hbase的介紹，基本涵蓋了hadoop分布式平台的所有技術核心。

對外部客戶機而言，hdfs就像乙個傳統的分級檔案系統。可以建立、刪除、移動或重新命名檔案，等等。但是 hdfs 的架構是基於一組特定的節點構建的，這是由它自身的特點決定的。

這些節點包括 namenode（僅乙個），它在 hdfs 內部提供元資料服務；datanode，它為 hdfs 提供儲存塊。

2樓：匿名使用者

主要解決了海量資料的儲存、分析和學習問題，因為隨著資料的**式增長，一味地靠硬體提高資料處理效率及增加儲存量，不僅成本高，處理高維資料的效率也不會提高很多，遇到了瓶頸了，hadoop的搭建只需要普通的pc機，它的hdfs提供了分布式檔案系統，mapreduce是乙個並行程式設計模型，為程式設計師提供了程式設計介面，兩者都遮蔽了分布式及並行底層的細節問題，使用者使用起來簡單方便。

大資料與hadoop之間是什麼關係

3樓：愛可生雲資料庫

hadoop中有很多方法可以加入多個資料集。mapreduce提供了map端和reduce端的資料連線。這些連線是非平凡的連線，並且可能會是非常昂貴的操作。

pig和hive也具有同等的能力來申請連線到多個資料集。pig提供了複製連線，合併連線和傾斜連線（skewed join），並且hive提供了map端的連線和完整外部連線來分析資料。

乙個重要的事實是，通過使用各種工具，比如mapreduce、pig和hive等，資料可以基於它們的內建功能和實際需求來使用它們。至於在hadoop分析大量資料，anoop指出，通常，在大資料/hadoop的世界，一些問題可能並不複雜，並且解決方案也是直截了當的，但面臨的挑戰是資料量。在這種情況下需要不同的解決辦法來解決問題。

一些分析任務是從日誌檔案中統計明確的id的數目、在特定的日期範圍內改造儲存的資料、以及網友排名等。所有這些任務都可以通過hadoop中的多種工具和技術如mapreduce、hive、pig、giraph和mahout等來解決。這些工具在自定義例程的幫助下可以靈活地擴充套件它們的能力。

4樓：加公尺谷大資料科技

大資料是一系列技術的統稱，經過多年的發展，大資料已經形成了從資料採集、整理、傳輸、儲存、安全、分析、呈現和應用等一系列環節，這些環節涉及到諸多大資料工作崗位，這些工作崗位與物聯網、雲計算也都有密切的聯絡。

大資料技術的三個重點：hadoop、spark、storm。hadoop本身就是大資料平台研發人員的工作成果，hadoop是目前常見的大資料支撐性平台，hadoop平台提供了分布式儲存（hdfs）、分布式計算（mapreduce）、任務排程（yarn）、物件儲存（ozone）和元件支撐服務（common）。

hadoop是幹什麼用的?

5樓：風劉才子腎寶儒

hadoop是乙個由apache**會所開發的分布式系統基礎架構。使用者可以在不了解分布式底層細節的情況下，開發分布式程式。

hadoop簡介：

充分利用集群的威力進行高速運算和儲存。hadoop實現了乙個分布式檔案系統（ distributed file system），其中乙個元件是hdfs。hdfs有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上。

6樓：匿名使用者

hadoop是乙個平台，是乙個適合大資料的分布式儲存和計算的平台。什麼是分布式儲存？這就是後邊我們要講的hadoop核心之一hdfs；什麼是分布式計算？

這是我們後邊要講的hadoop另外乙個重要的核心mapreduce。

hadoop的優點一：低成本

hadoop本身是執行在普通pc伺服器組成的集群中進行大資料的分發及處理工作的，這些伺服器集群是可以支援數千個節點的。

hadoop優點二：高效性

這也是hadoop的核心競爭優勢所在，接受到客戶的資料請求後，hadoop可以在資料所在的集群節點上併發處理。

hadoop優點三：可靠性

通過分布式儲存，hadoop可以自動儲存多份副本，當資料處理請求失敗後，會自動重新部署計算任務。

hadoop優點四：擴充套件性

hadoop的分布式儲存和分布式計算是在集群節點完成的，這也決定了hadoop可以擴充套件至更多的集群節點。

hadoop安裝方式|hadoop部署方式

hadoop安裝方式只有三種：本地安裝；偽分布安裝；集群安裝。後期我們會專題進行講解。

hadoop有哪些優缺點？

簡述Hadoop的MapReduce與Googl的MapRe

如何使用Hadoop的MultipleOutputs進行多檔案輸出

cloudera的hadoop認證具體考什麼啊，在哪報名啊？什麼時候考啊？去哪諮詢啊

hpc高效能計算和hadoop的區別

hadoop與傳統的關係型資料庫如oracle 相比,有什

簡述DNA的複製過程，簡述DNA複製的過程？

其他用戶還看了：

簡述Hadoop的MapReduce與Googl的MapRe

如何使用Hadoop的MultipleOutputs進行多檔案輸出

cloudera的hadoop認證具體考什麼啊，在哪報名啊？什麼時候考啊？去哪諮詢啊

hpc高效能計算和hadoop的區別

hadoop與傳統的關係型資料庫 如oracle 相比,有什

簡述DNA的複製過程，簡述DNA複製的過程？

其他用戶還看了：

hadoop與傳統的關係型資料庫如oracle 相比,有什