جدولة مهمة Hadoop: السعة مقابل المشاركة العادلة أو أي شيء آخر؟

StackOverflow https://stackoverflow.com/questions/3721693

سؤال

خلفية

يقوم صاحب العمل تدريجياً بتحويل منطق معالجة ETL المكثفة للموارد لدينا ومنطق معالجة الخلفية من MySQL إلى Hadoop (DFS & Hive). في الوقت الحالي ، لا يزال كل شيء صغيرًا إلى حد ما ويمكن التحكم فيه (20 تيرابايت على 10 عقد) لكننا نعتزم زيادة حجم الكتلة تدريجياً.

الآن بعد أن تحولت Hadoop إلى استخدام الإنتاج ، أصبحت قضية أكبر من جدولة الدُفعات ومشاركة المجموعة بين استعلامات Hive المستخدم المخصصة ، وعمليات M/R كل ساعة ، وأعتقد في النهاية بعض استخدام HBase. والخوف هو أن يتم إجراء استعلام ساذج من قبل مستخدم يمكن أن يعمل لفترة غير معقولة من الوقت (على سبيل المثال 4 ساعات) يسد قائمة انتظار المهمة وإنتاج عدم الاستقرار المحتملة في تحميل البنية التحتية.

سؤال

لقد تم بالفعل حرق قسم آخر من شركتي بسبب عدم نضج Flume ، لذا فإن سؤالي هو ، ما مدى استقرار الجدولين المعروفين (السعة والمعرض) وإلى جانب الاستخدام في شركاتهم الراعية (Yahoo & Facebook) هل يستخدمان في مكان آخر؟

تحرير: معلومات الخلفية

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

هل كانت مفيدة؟

المحلول

نحن نشحن CDH مع جدولة المشاركة العادلة بشكل افتراضي. إنه مستقر تمامًا.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top