Può MapReduce lavoro in modo efficiente in uno spazio condiviso tuple (ad esempio: un database)?

https://stackoverflow.com/questions/2407588

mapreduce

18-09-2019
|

Domanda

Chiedo questo perché mi sto chiedendo se potesse essere efficiente per eseguire query MapReduce nel corso di un database o di un negozio keyvalue condiviso?

Ad esempio, per implementare un peschereccio web, che indicizza Internet e conta tutte le condizioni in base alle diverse pagine web, questo potrebbe essere fatto in modo efficiente con un database come backend?

Soluzione

Certo. HBase e altri negozi NoSQL sono adatti per questo compito.

articolo per un panoramica generale di utilizzare HBase con MapReduce.

HBase è il database Hadoop. Usalo   quando si ha bisogno a caso, in tempo reale   accesso in lettura / scrittura al Big Data.   L'obiettivo di questo progetto è l'hosting di   molto grandi tavoli - miliardi di righe   X milioni di colonne - in cima cluster   di commodity hardware.

HBase è un open-source, distribuito,   negozio colonna orientato modellato   Google' Bigtable: A Distributed   System Storage per i dati strutturati da   Chang et al. Proprio come BigTable   sfrutta il file system distribuito   fornito dal file di Google del sistema,   HBase fornisce Bigtable-like   capacità in cima Hadoop. HBase   comprende:

• classi base conveniente per il backup   lavori Hadoop MapReduce con HBase   tabelle

• predicato query spingere verso il basso tramite   lato server di scansione e ottenere filtri

• Ottimizzazioni per le query in tempo reale

• Un gateway Thrift ad alte prestazioni   • Un gateway Web service REST-ful che   supporta XML, Protobuf, e binari   opzioni di codifica dei dati

• cascata moduli di origine e lavandino

• Extensible JRuby a base di shell (JIRB)

• Supporto per l'esportazione metriche attraverso il Hadoop   metriche sottosistema di file o gangli;   o tramite JMX

Altri suggerimenti

Un database non è una soluzione adeguata per uno stile WebCrawler di rovescio.

Si potrebbe desiderare di leggere questo articolo.

http://highscalability.com / come-Rackspace-ora-uso-MapReduce-e-Hadoop-query-terabyte-dati

Grazie, N.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow