Hadoop任务调度程序:容量与公平共享还是其他?
-
03-10-2019 - |
题
背景
我的雇主正在逐步将我们的资源密集型ETL和后端处理逻辑从MySQL转移到Hadoop(DFS&Hive)。目前,一切仍然有些小且易于管理(超过10个节点),但我们打算逐步增加群集的大小。
现在,Hadoop已转移到生产使用中,它成为批处理调度的更大问题,并在临时用户Hive查询,小时M/R流程之间共享集群,我相信最终对HBase进行了一些使用。担心的是,用户会进行幼稚的查询,该查询可能会在不合理的时间内(例如4小时)堵塞任务队列并产生潜在的基础设施负载不稳定性。
问题
我公司的另一部分已经被Flume的不成熟所烧毁,所以我的问题是,两个已知的调度程序(容量和公平)的稳定性以及在其赞助公司(Yahoo&Facebook)中使用的情况有多稳定?
编辑:背景信息
http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html
http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacitace_scheduler.html
解决方案
默认情况下,我们将使用公平股份调度程序运送CDH。这很稳定。
不隶属于 StackOverflow