Peut MapReduce travailler efficacement sur un espace de tuple partagé (par exemple: une base de données)?

https://stackoverflow.com/questions/2407588

mapreduce

18-09-2019
|

Question

Je demande ce que je me demande si elle pourrait être efficace pour exécuter des requêtes MapReduce sur une base de données ou un magasin keyvalue partagé?

Par exemple, pour mettre en œuvre un chalutier Web, qui indexe l'Internet et compte tous les termes sur les différentes pages Web, cela pourrait être fait efficacement avec une base de données en tant que back-end?

La solution

Bien sûr. HBase et d'autres magasins NoSQL sont bien adaptés à cette tâche.

Voir cette pour aperçu général de l'utilisation HBase avec MapReduce.

HBase est la base de données Hadoop. Utilise le   lorsque vous avez besoin au hasard, en temps réel   accès en lecture / écriture à votre Big Data.   L'objectif de ce projet est l'hébergement de   très grandes tables - des milliards de lignes   X millions de colonnes - au sommet de grappes   du matériel de base.

HBase est un open-source, distribué,   magasin en colonnes calquée   Google BigTable »: A distribué   Système de stockage pour les données structurées par   Chang et al. Tout comme BigTable   tire parti de la mémoire de données distribuée   fourni par le système de fichiers Google,   HBase fournit comme BigTable   capacités au-dessus de Hadoop. HBase   comprend:

• classes de base pratique pour sauvegarder   emploi Hadoop MapReduce avec HBase   tables

• prédicat de requête pousser vers le bas par   côté serveur scanner et obtenir des filtres

• Optimisations pour les requêtes en temps réel

• Une passerelle Thrift haute performance   • Une passerelle de services Web REST-ful que   prend en charge XML, Protobuf et binaire   données options d'encodage

• Cascading modules source et puits

• enveloppe extensible à base jruby (JIRB)

• Prise en charge des mesures d'exportation via le Hadoop   paramètres sous-système de fichiers ou Ganglions;   ou via JMX

Autres conseils

Une base de données ne constitue pas une solution adéquate pour un style WebCrawler de revers.

Vous pouvez lire cet article.

http://highscalability.com / comment-Rackspace-maintenant-utilisations-MapReduce-et-Hadoop-query-téraoctets-data

Merci, N.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow