mapreduce中怎么实现二次排序

mapreduce主要由哪四个阶段组成?

mapreduce主要由以下四个阶段组成:

创新互联建站凭借专业的设计团队扎实的技术支持、优质高效的服务意识和丰厚的资源优势,提供专业的网站策划、做网站、网站建设、网站优化、软件开发、网站改版等服务,在成都十年的网站建设设计经验,为成都1000多家中小型企业策划设计了网站。

1、split阶段:

此阶段,每个输入文件被分片输入到map。如一个文件有200M,默认会被分成2片,因为每片的默认最大值和每块的默认值128M相同。

如果输入为大量的小文件,则会造成过多的map数,导致效率下降,可采用压缩输入格式CombineFileInputFormat。

2、map阶段:

此阶段,执行map任务。map数由分片决定,若要增加map数,可增大mapred.map.tasks,若减少map数,可增大mapred.min.split.size。

3、shuffle阶段:

此阶段,将map的输出经过“整理”后给到reduce,也称为“混洗”。分为map端操作和reduce端操作。

在map端,map的输出先写入缓存,当每次缓存快满时,由缓存“溢写”至磁盘,每次溢写都先进行“分区”,并对每个分区的数据进行“排序”和“合并”(可选)。一般会产生多个溢写的文件,这些文件会在map端先被“归并”为一个大的磁盘文件,通知reduce任务来领取自己的分区。

在reduce端,每个reduce任务会从多个map任务领取文件,然后将这些文件进行“归并”,交给reduce任务。

hadoop的发展及原理?

Hadoop的发展历史

2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。

2005年12月— Nutch移植到新的框架,Hadoop在20个节点上稳定运行。

2006年1月— Doug Cutting加入雅虎。

2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年2月— 雅虎的网格计算团队采用Hadoop。

2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。

…………

Hadoop的工作原理是:

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。………

hadoopreduce主要特点?

1.计数器

在MR作业中内置计数器,统计任务状态,用户可以自定义计数器以实现统计目的,这块比较简单,不是什么原理性的东西,直接略过

2.排序

排序是MR中比较核心的问题,MR中数据是通过排序来进行组织的。排序的效率直接影响着整个作业的运行效率

i)部分排序

在Map任务执行完毕之后,写入到磁盘文件之前,对输出数据进行预排序。这样的排序是按照键进行字典排序而成,将键相同的数据组织到一起。

预排序完成之后,将数据写入本地磁盘,而后通过Partitioner将数据映射传递到对应reducer,默认是一个HashPartitioner进行分区。对键进行hash处理,将值对reducer数目取模,从而确定reducer。

数据传递到reducer之后,reducer对每个分区内数据进行合并排序,依然是按键字典排序,当然也可以通过继承RowCompartor类并且显示设置comparatorClass指定排序方式,这样一来每个reducer输入分区的数据都是有序的,但是就整体所有数据而言,并不是有序的,所以称之为部分排序。

2.完全排序

要想实现所有数据均可以实现有序,那么需要对Partitioner进行设置为TotalOrderPartitioner,对所有数据进行分组,比如说将数据分为{a,b,c,d,e,f}六个分组,那么a组所有键必须小于b组,而b组所有键必须小于c组,以此类推,这就意味着是按照键的范围对数据进行分组。

到此,以上就是小编对于mapreduce 二次排序的问题就介绍到这了,希望这3点解答对大家有用。

本文题目:mapreduce中怎么实现二次排序
链接URL:http://www.hantingmc.com/qtweb/news16/481216.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联