できるmapreduce効率的に仕事上の共通のタプルスペース(例:データベース)?
-
18-09-2019 - |
質問
いうことだと思いますのだが効率的に実行mapreduceク上のデータベースのために、keyvalue。
例えば、実施するウェブtrawler、指数のインターネットをカウントのすべての条件の異なるウェブページがこの効率的なトレーサビリティとしてデータベースバックエンド?
解決
確かに。HBase、その他のNoSqlの店舗に適してこの課題です。
この 第 のための一般的な概要をHBaseとMapReduce.
HBase、Hadoopのデータベースです。利用で 要な時に必要な、ランダムにリアルタイム 読み取り/書き込みアクセスは大きなデータです。このプロジェクトの目標は大会の開催 非常に大きなテーブル--億列 X単位百万列--上クラスター 商品のハードウェア
HBaseがオープンソースの配布 カラム指向型店舗モデル Google'Bigtable:分散型 ストレージシステムの構造データによる チet al.しBigtable を最大限に生かした分散データスト の提供するGoogle、ファイルシステム HBaseを提供Bigtable様 力のHadoop.HBase 内容:
•便利なベースラバック HadoopのMapReduceの仕事とHBase テーブル
•Query述語押し下げによ サーバサイドスキャン、フィ
•最適化のための実時間問合せ
•高性能スリフトの玄関口 •休憩-すすめのウェブサービスのゲートウェイが 対応XML Protobuf、バイナリー データコードオプション
•カスケードソースおよびシンクモジュール
•伸jruby(JIRB)シェル
•支援のための輸出指標によるHadoop メトリクスサブシステムにファイルや核;またはJMX
他のヒント
データベースがバックハンドのウェブクローラスタイルのための適切な解決策ではない。
あなたがこの記事を読むことをお勧めします。
に/どのように-Rackspaceの-今-用途-MapReduceの-と-Hadoopのクエリ-テラバイトデータおかげで、 Nます。