Peut MapReduce travailler efficacement sur un espace de tuple partagé (par exemple: une base de données)?
-
18-09-2019 - |
Question
Je demande ce que je me demande si elle pourrait être efficace pour exécuter des requêtes MapReduce sur une base de données ou un magasin keyvalue partagé?
Par exemple, pour mettre en œuvre un chalutier Web, qui indexe l'Internet et compte tous les termes sur les différentes pages Web, cela pourrait être fait efficacement avec une base de données en tant que back-end?
La solution
Bien sûr. HBase et d'autres magasins NoSQL sont bien adaptés à cette tâche.
Voir cette pour aperçu général de l'utilisation HBase avec MapReduce.
HBase est la base de données Hadoop. Utilise le lorsque vous avez besoin au hasard, en temps réel accès en lecture / écriture à votre Big Data. L'objectif de ce projet est l'hébergement de très grandes tables - des milliards de lignes X millions de colonnes - au sommet de grappes du matériel de base.
HBase est un open-source, distribué, magasin en colonnes calquée Google BigTable »: A distribué Système de stockage pour les données structurées par Chang et al. Tout comme BigTable tire parti de la mémoire de données distribuée fourni par le système de fichiers Google, HBase fournit comme BigTable capacités au-dessus de Hadoop. HBase comprend:
• classes de base pratique pour sauvegarder emploi Hadoop MapReduce avec HBase tables
• prédicat de requête pousser vers le bas par côté serveur scanner et obtenir des filtres
• Optimisations pour les requêtes en temps réel
• Une passerelle Thrift haute performance • Une passerelle de services Web REST-ful que prend en charge XML, Protobuf et binaire données options d'encodage
• Cascading modules source et puits
• enveloppe extensible à base jruby (JIRB)
• Prise en charge des mesures d'exportation via le Hadoop paramètres sous-système de fichiers ou Ganglions; ou via JMX
Autres conseils
Une base de données ne constitue pas une solution adéquate pour un style WebCrawler de revers.
Vous pouvez lire cet article.
Merci, N.