جدولة مهمة Hadoop: السعة مقابل المشاركة العادلة أو أي شيء آخر؟
-
03-10-2019 - |
سؤال
خلفية
يقوم صاحب العمل تدريجياً بتحويل منطق معالجة ETL المكثفة للموارد لدينا ومنطق معالجة الخلفية من MySQL إلى Hadoop (DFS & Hive). في الوقت الحالي ، لا يزال كل شيء صغيرًا إلى حد ما ويمكن التحكم فيه (20 تيرابايت على 10 عقد) لكننا نعتزم زيادة حجم الكتلة تدريجياً.
الآن بعد أن تحولت Hadoop إلى استخدام الإنتاج ، أصبحت قضية أكبر من جدولة الدُفعات ومشاركة المجموعة بين استعلامات Hive المستخدم المخصصة ، وعمليات M/R كل ساعة ، وأعتقد في النهاية بعض استخدام HBase. والخوف هو أن يتم إجراء استعلام ساذج من قبل مستخدم يمكن أن يعمل لفترة غير معقولة من الوقت (على سبيل المثال 4 ساعات) يسد قائمة انتظار المهمة وإنتاج عدم الاستقرار المحتملة في تحميل البنية التحتية.
سؤال
لقد تم بالفعل حرق قسم آخر من شركتي بسبب عدم نضج Flume ، لذا فإن سؤالي هو ، ما مدى استقرار الجدولين المعروفين (السعة والمعرض) وإلى جانب الاستخدام في شركاتهم الراعية (Yahoo & Facebook) هل يستخدمان في مكان آخر؟
تحرير: معلومات الخلفية
http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html
http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html
المحلول
نحن نشحن CDH مع جدولة المشاركة العادلة بشكل افتراضي. إنه مستقر تمامًا.