できるmapreduce効率的に仕事上の共通のタプルスペース(例：データベース)?

https://stackoverflow.com/questions/2407588

mapreduce

18-09-2019
|

質問

いうことだと思いますのだが効率的に実行mapreduceク上のデータベースのために、keyvalue。

例えば、実施するウェブtrawler、指数のインターネットをカウントのすべての条件の異なるウェブページがこの効率的なトレーサビリティとしてデータベースバックエンド?

解決

確かに。HBase、その他のNoSqlの店舗に適してこの課題です。

この第のための一般的な概要をHBaseとMapReduce.

HBase、Hadoopのデータベースです。利用で要な時に必要な、ランダムにリアルタイム読み取り/書き込みアクセスは大きなデータです。このプロジェクトの目標は大会の開催非常に大きなテーブル--億列 X単位百万列--上クラスター商品のハードウェア

HBaseがオープンソースの配布カラム指向型店舗モデル Google'Bigtable:分散型ストレージシステムの構造データによるチet al.しBigtable を最大限に生かした分散データストの提供するGoogle、ファイルシステム HBaseを提供Bigtable様力のHadoop.HBase 内容：

•便利なベースラバック HadoopのMapReduceの仕事とHBase テーブル

•Query述語押し下げによサーバサイドスキャン、フィ

•最適化のための実時間問合せ

•高性能スリフトの玄関口 •休憩-すすめのウェブサービスのゲートウェイが対応XML Protobuf、バイナリーデータコードオプション

•カスケードソースおよびシンクモジュール

•伸jruby（JIRB)シェル

•支援のための輸出指標によるHadoop メトリクスサブシステムにファイルや核;またはJMX

他のヒント

データベースがバックハンドのウェブクローラスタイルのための適切な解決策ではない。

あなたがこの記事を読むことをお勧めします。

http://highscalability.com

に/どのように-Rackspaceの-今-用途-MapReduceの-と-Hadoopのクエリ-テラバイトデータ

おかげで、 Nます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow