Può MapReduce lavoro in modo efficiente in uno spazio condiviso tuple (ad esempio: un database)?
-
18-09-2019 - |
Domanda
Chiedo questo perché mi sto chiedendo se potesse essere efficiente per eseguire query MapReduce nel corso di un database o di un negozio keyvalue condiviso?
Ad esempio, per implementare un peschereccio web, che indicizza Internet e conta tutte le condizioni in base alle diverse pagine web, questo potrebbe essere fatto in modo efficiente con un database come backend?
Soluzione
Certo. HBase e altri negozi NoSQL sono adatti per questo compito.
articolo per un panoramica generale di utilizzare HBase con MapReduce.
HBase è il database Hadoop. Usalo quando si ha bisogno a caso, in tempo reale accesso in lettura / scrittura al Big Data. L'obiettivo di questo progetto è l'hosting di molto grandi tavoli - miliardi di righe X milioni di colonne - in cima cluster di commodity hardware.
HBase è un open-source, distribuito, negozio colonna orientato modellato Google' Bigtable: A Distributed System Storage per i dati strutturati da Chang et al. Proprio come BigTable sfrutta il file system distribuito fornito dal file di Google del sistema, HBase fornisce Bigtable-like capacità in cima Hadoop. HBase comprende:
• classi base conveniente per il backup lavori Hadoop MapReduce con HBase tabelle
• predicato query spingere verso il basso tramite lato server di scansione e ottenere filtri
• Ottimizzazioni per le query in tempo reale
• Un gateway Thrift ad alte prestazioni • Un gateway Web service REST-ful che supporta XML, Protobuf, e binari opzioni di codifica dei dati
• cascata moduli di origine e lavandino
• Extensible JRuby a base di shell (JIRB)
• Supporto per l'esportazione metriche attraverso il Hadoop metriche sottosistema di file o gangli; o tramite JMX
Altri suggerimenti
Un database non è una soluzione adeguata per uno stile WebCrawler di rovescio.
Si potrebbe desiderare di leggere questo articolo.
http://highscalability.com / come-Rackspace-ora-uso-MapReduce-e-Hadoop-query-terabyte-dati
Grazie, N.