背景

我的雇主正在逐步将我们的资源密集型ETL和后端处理逻辑从MySQL转移到Hadoop(DFS&Hive)。目前,一切仍然有些小且易于管理(超过10个节点),但我们打算逐步增加群集的大小。

现在,Hadoop已转移到生产使用中,它成为批处理调度的更大问题,并在临时用户Hive查询,小时M/R流程之间共享集群,我相信最终对HBase进行了一些使用。担心的是,用户会进行幼稚的查询,该查询可能会在不合理的时间内(例如4小时)堵塞任务队列并产生潜在的基础设施负载不稳定性。

问题

我公司的另一部分已经被Flume的不成熟所烧毁,所以我的问题是,两个已知的调度程序(容量和公平)的稳定性以及在其赞助公司(Yahoo&Facebook)中使用的情况有多稳定?

编辑:背景信息

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacitace_scheduler.html

有帮助吗?

解决方案

默认情况下,我们将使用公平股份调度程序运送CDH。这很稳定。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top