`

Hadoop 参数配置优化

阅读更多

hadoop三个配置文件的参数含义说明 ---- http://blog.csdn.net/kntao/article/details/7642555


主要参照官方给出的配置指南进行的。

hadoop.tmp.dir
默认值: /tmp
说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。

fs.trash.interval
默认值: 0
说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。

fs.inmemory.size.mb
默认值:
说明: reduce阶段用户合并map输出的内存限制。这里设置200,可根据自身硬件设备进行更改测试。

io.sort.factor
默认值:10
说明:排序文件的时候一次同时最多可并流的个数,这里设置100。新版本为mapreduce.task.io.sort.factor。

io.sort.mb
默认值:100
说明: 排序内存使用限制,这里设置200m。新版本看说明貌似改成了这个mapreduce.task.io.sort.mb。

io.file.buffer.size
默认值:4096
说明:SequenceFiles在读写中可以使用的缓存大小,这里设置为131072。貌似这个参数在新版本里变为了:file.stream-buffer-size,单位bytes 。

dfs.blocksize
默认值:67108864
说明: 这个就是hdfs里一个文件块的大小了,默认64M,这里设置134217728,即128M,太大的话会有较少map同时计算,太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。根据需要进行设置。

dfs.namenode.handler.count
默认值:10
说明:hadoop系统里启动的任务线程数,这里改为40,同样可以尝试该值大小对效率的影响变化进行最合适的值的设定。

mapred.child.java.opts
默认值:-Xmx200m
说明:jvms启动的子线程可以使用的最大内存。改为-Xmx1024m,内存再大也可以继续增加。但是如果一般任务文件小,逻辑不复杂用不了那么多的话太大也浪费。

mapreduce.jobtracker.handler.count
默认值:10
说明:JobTracker可以启动的线程数,一般为tasktracker节点的4%。

mapreduce.reduce.shuffle.parallelcopies
默认值:5
说明:reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。

mapreduce.tasktracker.http.threads
默认值:40
说明:map和reduce是通过http进行数据传输的,这个是设置传输的并行线程数。

mapreduce.map.output.compress
默认值:false
说明: map输出是否进行压缩,如果压缩就会多耗cpu,但是减少传输时间,如果不压缩,就需要较多的传输带宽。配合mapreduce.map.output.compress.codec使用,默认是org.apache.hadoop.io.compress.DefaultCodec,可以根据需要设定数据压缩方式。

mapreduce.reduce.shuffle.merge.percent
默认值: 0.66
说明:reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。

mapreduce.reduce.shuffle.memory.limit.percent
默认值: 0.25
说明:一个单一的shuffle的最大内存使用限制。
分享到:
评论

相关推荐

    Hadoop 参数配置优化.docx

    Hadoop 参数配置优化.docx

    hadoop高可用集群搭建及参数优化

    hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化

    论文研究-基于资源签名与遗传算法的Hadoop参数自动调优系统.pdf

    针对以上问题,构建了Hadoop集群自动调优系统,其中在系统中设计了资源获取器与参数配置库,分别用于获取各作业的资源消耗与存储分发配置方案。该系统利用MapReduce作业的小规模数据集资源签名将任务分类,在遗传...

    hadoop配置文件——精简版.zip

    此压缩包主要包含的是是hadoop的7个主要的配置文件,core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh、mapred-env.sh、yarn-env.sh精简配置优化性能,具体相关参数根据集群规模适当...

    Hadoop企业优化常用的调优参数.docx

    Hadoop企业优化常用的调优参数,资源相关参数:(1)在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)和(2)在YARN启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml);容错相关参数...

    Hadoop实战中文版

    第9章 在云上运行Hadoop 9.1 Amazon Web Services 简介 9.2 安装AWS 9.2.1 获得AWS身份认证凭据 9.2.2 获得命令行工具 9.2.3 准备SSH密钥对 9.3 在EC2 上安装Hadoop 9.3.1 配置安全参数 9.3.2 配置集群类型...

    23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

    23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与...本文介绍在hadoop集群中,不适用默认的参数情况下,yarn的cpu和内容配置。 本文依赖是hadoop集群正常运行。 本文分为3个部分,即概述、cpu和内存配置。

    Hadoop集群(第12期副刊)_Hbase性能优化

    1、从配置角度优化 1.1 修改Linux配置 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你可以用ulimit -n 命令...

    Hadoop性能调优

    从Hadoop配置文件入手,经历大量的实验,以求通过改变一些配置参数以提高Hadoop集群的性能。 从Hadoop作业调度入手,优化集群作业调度算法。

    Hadoop实战(第2版)

    .6.4.1 剖析MapReduce 的用户代码 技术点45 剖析map 和reduce 任务 6.4.2 参数配置6.4.3 优化 shuffle 和 sort 阶段 技术点46 避免reducer 技术点47 过滤和投影技术点48 使用 combiner技术点49 超炫...

    Hadoop实战中文版.PDF

    1649.2.2 获得命令行工具 1669.2.3 准备SSH密钥对 1689.3 在EC2上安装Hadoop 1699.3.1 配置安全参数 1699.3.2 配置集群类型 1699.4 在EC2上运行MapReduce程序 1719.4.1 将代码转移到Hadoop集群上 1719...

    hadoop大数据实战手册

    2.1.7 HDFS 缓存相关配置…·……………………………………… …… ……………………………… 40 2.2 HDFS 中心缓存管理…... ... .…· ·……………………………………………………………………….. 42 2.2.l HDFS...

    Yarn 内存分配管理机制及相关参数配置.

    关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/reduce ...

    Hadoop实战(陆嘉恒)译

    Hadoop也疯狂第9 章 在云上运行Hadoop9.1 Amazon Web Services 简介9.2 安装AWS9.2.1 获得AWS身份认证凭据9.2.2 获得命令行工具9.2.3 准备SSH密钥对9.3 在EC2 上安装Hadoop9.3.1 配置安全参数9.3.2 配置集群类型9.4 ...

    Hadoop实战

    在云上运行Hadoop 1629.1 Amazon Web Services简介 1629.2 安装AWS 1639.2.1 获得AWS身份认证凭据 1649.2.2 获得命令行工具 1669.2.3 准备SSH密钥对 1689.3 在EC2上安装Hadoop 1699.3.1 配置安全参数 1699.3.2 配置...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    6.4.2 参数配置 6.4.3 优化 shuffle 和 sort 阶段 技术点46 避免reducer 技术点47 过滤和投影 技术点48 使用 combiner 技术点49 超炫的使用比较器的快速排序 6.4.4 减轻倾斜 技术点50 收集倾斜数据 ...

    基于hadoop实现的维基百科词条倒排索引+源代码+文档说明+配置过程文档

    1、资源内容:基于hadoop实现维基百科词条倒排索引+源代码+文档说明+配置过程文档 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能...

    可靠:强化学习的分布式超参数优化框架

    责任 RLiable是用于增强学习代理的快速超参数调整的实验并行化框架。 它旨在满足对可分发的Spark / TF兼容模型的需求,该模型允许以简单reliable方式扩展实验。 ...当前的优化算法基于配置标志opt

    matlab中存档算法代码-DICE-Configuration-BO4CO:大数据系统的配置优化工具

    Storm,Hadoop,Spark,Cassandra)开发,每种技术通常具有数十种可配置参数,应对其进行仔细调整以使其达到最佳性能。 BO4CO可帮助大数据系统的最终用户(例如数据科学家或中小型企业)自动调整系统。 建筑学 下图...

    大数据学习计划.pdf

    2、通过对 Linux ⽂件系统、(⼤数据学习群142974151】内核参数、内存结构、以及 Java 虚 拟机等相关知识的学习,为后续学习分布式 ⽂件系统, Hadoop 集群优化扫清操作系统层 ⾯知识的障碍 2 Hadoop 由许多元素...

Global site tag (gtag.js) - Google Analytics