shartoo +

大数据:集群优化

本文总阅读量
欢迎star我的博客

0 集群优化

一个小集群:1个master,10个datanode。
最开始使用pig脚本分析作业,后面作业运行时观察发现,pig脚本执行的小作业太多导致任务调度频繁,集群效率低。
小作业太多的影响:

  1. 频繁新建和关闭task,频繁分配container会消耗资源。
  2. 一个oozie action先会启动一个oozie laucher作业消耗一个container,然后再启动实际的job,启动的job首先会用个container启动application master,然后在启动计算的task 现在同时最多会有29个job,至少会有50个container不是在计算。

1 代码优化

  1. 增加5分钟基础作业时间粒度,5分钟->15分钟,减少Job数

  2. 合并15分钟粒度作业,Pig->MR,grouping comparator,减少基础数据重复读取次数,减少Job数
  3. 合并5分钟基础作业,一个作业处理三种话单,去除冗余字段(各粒度时间),减少Job数,减少数据量

2 集群参数配置

2.1 HDFS

2.2 YARN

2.3 Oozie

Oozie Server 的 Java 堆栈大小 默认值为1GB,现在修改为4GB。

2.4 HBase

2.5 服务器参数

我的博客

观点

源码