Kann Arbeit effizient über einen gemeinsamen TupleSpace (: eine Datenbank zum Beispiel) MapReduce?

https://stackoverflow.com/questions/2407588

mapreduce

18-09-2019
|

Frage

Ich frage das, wie ich frage mich, ob es sinnvoll sein könnte mapreduce Abfragen über eine Datenbank oder einem gemeinsam genutzten keyvalue speichern?

laufen

Um zum Beispiel eine Web-Trawler zu implementieren, die Indizes das Internet und zählt alle Bedingungen auf verschiedenen Web-Seiten, diese effizient als Backend mit einer Datenbank durchgeführt werden kann?

Lösung

Klar. HBase und andere NoSQL-Läden sind gut für diese Aufgaben geeignet.

Sehen Sie diesen Artikel für eine rel="nofollow allgemeiner Überblick über die Verwendung HBase mit MapReduce.

HBase ist die Hadoop-Datenbank. Benutze es   wenn Sie brauchen, zufällig, in Echtzeit   Lese- / Schreibzugriff auf Ihren Big Data.   Dieses Projekt hat das Ziel, das Hosting von   sehr große Tabellen - Milliarden von Zeilen   X Millionen von Spalten - oben auf Cluster   von handelsüblicher Hardware.

HBase ist ein Open-Source, verteilt,   spaltenorientierten Speicher nach dem Vorbild   Google‘Bigtable: A Distributed   Speichersystem für strukturierte Daten durch   Chang et al. So wie Bigtable   setzt die verteilte Datenspeicherung   durch das Google File System zur Verfügung gestellt,   HBase bietet Bigtable-like   Fähigkeiten auf der Hadoop. HBase   beinhaltet:

• Convenient Basisklassen für die Sicherung   Hadoop MapReduce Jobs mit HBase   Tabellen

• Abfrage Prädikat nach unten drücken, über   Server-Seite scannen und bekommen Filter

• Optimierungen für Echtzeit-Abfragen

• Ein Hochleistungs-Thrift Gateway   • Ein REST-ful Web-Service-Gateway, das   unterstützt XML-, Protobuf und binäre   Datenkodierungsoptionen

• Kaskadierung Quelle und Senke Module

• Extensible jruby-basierte (JIRB) Shell

• Unterstützung von Metriken über die Hadoop Export   Metriken-Subsystem-Dateien oder Ganglia;   oder via JMX

Andere Tipps

Eine Datenbank ist keine adäquate Lösung für eine WebCrawler Stil Rückhand.

Sie können diese Artikel lesen.

http://highscalability.com / wie-Rackspace-jetzt-Uses-mapreduce-and-hadoop-query-Terabyte-Daten

Danke, N.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow