hadoop的发展及原理?windows10hadoop

hadoop的发展及原理?

Hadoop的发展历史

2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。

2005年12月— Nutch移植到新的框架,Hadoop在20个节点上稳定运行。

2006年1月— Doug Cutting加入雅虎。

2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年2月— 雅虎的网格计算团队采用Hadoop。

2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。

…………

Hadoop的工作原理是:

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。………

Hadoop生态系统及各模块的功能?

HDFS 是 Hadoop 生态圈中提供分布式存储支持的系统,上层的很多计算框架(Hbase、Spark 等)都依赖于 HDFS 存储。

2. MapReduce(分布式计算模型)离线计算

何为离线计算,其实就是非实时计算。

3. Yarn(分布式资源管理器)

Yarn 的出现主要就是为了解决原始 Hadoop 扩展性较差、不支持多种计算模型的问题。

4. Spark(内存计算)

Spark 提供了内存中的分布式计算能力,相比传统的 MapReduce 大数据分析效率更高、运行速度更快。

5. HBase(分布式列存储数据库)

Hbase继承了列存储的特性,它非常适合需对数据进行随机读、写操作。 其次,Hbase构建在HDFS之上,其内部管理的文件全部存储在HDFS中。这使它具有高度容错性和可扩展性,并支持Hadoop mapreduce程序设计模型。

6. Hive(数据仓库)

Hadoop大数据框架的发展历程?

  · 2008年1月,Hadoop成为Apache顶级项目。

  · 2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

  · 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

  · 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。

  · 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。

  · 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。

  · 2010年9月,Hive脱离Hadoop,成为Apache顶级项目。

  · 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。

  · 2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。

  · 2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。

到此,以上就是小编对于的问题就介绍到这了,希望这3点解答对大家有用。

网站标题:hadoop的发展及原理?windows10hadoop
浏览地址:http://www.hantingmc.com/qtweb/news1/340301.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联