Hadoop任务调度程序：容量与公平共享还是其他？

https://stackoverflow.com/questions/3721693

03-10-2019
|

题

背景

我的雇主正在逐步将我们的资源密集型ETL和后端处理逻辑从MySQL转移到Hadoop（DFS＆Hive）。目前，一切仍然有些小且易于管理（超过10个节点），但我们打算逐步增加群集的大小。

现在，Hadoop已转移到生产使用中，它成为批处理调度的更大问题，并在临时用户Hive查询，小时M/R流程之间共享集群，我相信最终对HBase进行了一些使用。担心的是，用户会进行幼稚的查询，该查询可能会在不合理的时间内（例如4小时）堵塞任务队列并产生潜在的基础设施负载不稳定性。

问题

我公司的另一部分已经被Flume的不成熟所烧毁，所以我的问题是，两个已知的调度程序（容量和公平）的稳定性以及在其赞助公司（Yahoo＆Facebook）中使用的情况有多稳定？

编辑：背景信息

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacitace_scheduler.html

解决方案

默认情况下，我们将使用公平股份调度程序运送CDH。这很稳定。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow