Frage

erklären kann jemand wie MapReduce mit Cassandra arbeitet 0,6? Ich habe durch die Wortzahl Beispiel gelesen, aber ich weiß nicht ganz folgen, was im Vergleich zu dem „Client“ Ende auf das Cassandra Ende passiert.

https://svn.apache.org/repos/asf / cassandra / trunk / contrib / word_count /

Zum Beispiel, sagen wir, ich bin mit Python und Pycassa, wie würde ich in einer neuen Karte laden Funktion reduzieren, und dann nennen? Ist meine Karte reduzieren Funktion Java sein, die auf dem cassandra Server installiert ist? Wenn ja, wie nenn ich es von Pycassa?

Es gibt auch erwähnen von Schwein macht das alles einfacher, aber ich bin ein komplettes Noob Hadoop, so dass nicht wirklich Hilfe.

Ihre Antwort kann Thrift verwenden oder was auch immer, die ich gerade erwähnt Pycassa die Client-Seite zu bezeichnen. Ich versuche nur, den Unterschied zwischen zu verstehen, was läuft im Cassandra-Cluster gegen den eigentlichen Server die Anfragen.

War es hilfreich?

Lösung

Von dem, was ich gehört habe (und von hier ), die Art und Weise, dass ein Entwickler schreibt eine MapReduce Programm, das Cassandra als Datenquelle verwendet, ist wie folgt. Sie schreiben ein regelmäßiges MapReduce-Programm (das Beispiel Sie für die reine Java-Version verknüpft ist), und die Gläser, die jetzt einen CustomInputFormat verfügbar sind vorzusehen, dass die Eingangsquelle ermöglicht Cassandra (anstelle des Standard, das ist Hadoop) zu sein.

Wenn Sie Pycassa ich verwenden würde sagen, du bist kein Glück, bis entweder (1) der Betreuer des Projekts fügt Unterstützung für MapReduce oder (2) Sie werfen einige Python-Funktionen zusammen, dass aufzuschreiben ein Java-Programm MapReduce und führen sie es. Letzteres ist auf jeden Fall ein bisschen wie ein Hack, aber würde erhalten Sie auf und gehen.

Andere Tipps

Es kennt den Ort; Das Cassandra Inputformat überschreibt getLocations () Datenlokalität zu erhalten

Der Sieg ein direktes Inputformat von cassandra zu verwenden, ist, dass sie die Daten effizient Ströme, die ein sehr großer Gewinn ist. Jeder Eingang Split umfasst eine Reihe von Token und Rollen von der Platte in ihrer vollen Bandbreite: Nicht-Suchen, ohne komplexe Abfragen. Ich glaube nicht, es über die Ortschaft weiß -. Jeden Tasktracker Eingang Splits auf demselben Knoten von einem cassandra Prozess vorziehen haben

Sie können versuchen, Schwein mit der STREAM-Methode als ein Hack, bis direkter hadoop Streaming-Unterstützung vorhanden ist.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top