Kann Arbeit effizient über einen gemeinsamen TupleSpace (: eine Datenbank zum Beispiel) MapReduce?
-
18-09-2019 - |
Frage
Ich frage das, wie ich frage mich, ob es sinnvoll sein könnte mapreduce Abfragen über eine Datenbank oder einem gemeinsam genutzten keyvalue speichern?
laufenUm zum Beispiel eine Web-Trawler zu implementieren, die Indizes das Internet und zählt alle Bedingungen auf verschiedenen Web-Seiten, diese effizient als Backend mit einer Datenbank durchgeführt werden kann?
Lösung
Klar. HBase und andere NoSQL-Läden sind gut für diese Aufgaben geeignet.
Sehen Sie diesen Artikel für eine rel="nofollow allgemeiner Überblick über die Verwendung HBase mit MapReduce.
HBase ist die Hadoop-Datenbank. Benutze es wenn Sie brauchen, zufällig, in Echtzeit Lese- / Schreibzugriff auf Ihren Big Data. Dieses Projekt hat das Ziel, das Hosting von sehr große Tabellen - Milliarden von Zeilen X Millionen von Spalten - oben auf Cluster von handelsüblicher Hardware.
HBase ist ein Open-Source, verteilt, spaltenorientierten Speicher nach dem Vorbild Google‘Bigtable: A Distributed Speichersystem für strukturierte Daten durch Chang et al. So wie Bigtable setzt die verteilte Datenspeicherung durch das Google File System zur Verfügung gestellt, HBase bietet Bigtable-like Fähigkeiten auf der Hadoop. HBase beinhaltet:
• Convenient Basisklassen für die Sicherung Hadoop MapReduce Jobs mit HBase Tabellen
• Abfrage Prädikat nach unten drücken, über Server-Seite scannen und bekommen Filter
• Optimierungen für Echtzeit-Abfragen
• Ein Hochleistungs-Thrift Gateway • Ein REST-ful Web-Service-Gateway, das unterstützt XML-, Protobuf und binäre Datenkodierungsoptionen
• Kaskadierung Quelle und Senke Module
• Extensible jruby-basierte (JIRB) Shell
• Unterstützung von Metriken über die Hadoop Export Metriken-Subsystem-Dateien oder Ganglia; oder via JMX
Andere Tipps
Eine Datenbank ist keine adäquate Lösung für eine WebCrawler Stil Rückhand.
Sie können diese Artikel lesen.
http://highscalability.com / wie-Rackspace-jetzt-Uses-mapreduce-and-hadoop-query-Terabyte-Daten
Danke, N.