Puede MapReduce trabajo de manera eficiente en un espacio de tuplas compartida (por ejemplo: una base de datos)?

https://stackoverflow.com/questions/2407588

mapreduce

18-09-2019
|

Pregunta

Estoy pidiendo esto como yo estoy preguntando si podría ser eficaz para ejecutar consultas de MapReduce sobre una base de datos o un almacén de valor clave compartida?

Por ejemplo, para poner en práctica un barco rastreador web, que los índices de Internet y cuenta con todos los términos en diferentes páginas web, podría hacerse esto de manera eficiente con una base de datos como backend?

Solución

Claro. HBase y otras tiendas de NoSQL son muy adecuados para esta tarea.

artículo para una visión general de la utilización de HBase con MapReduce.

HBase es la base de datos Hadoop. usarlo   cuando se necesita al azar, en tiempo real   acceso de lectura / escritura a su Big Data.   El objetivo de este proyecto es la organización de   tablas muy grandes - mil millones de filas   X millones de columnas - encima de cúmulos   de hardware de consumo.

HBase es un código abierto, distribuido,   tienda orientada a columnas modelado después de   Google' Bigtable: A Distributed   Sistema de almacenamiento de datos estructurados por   Chang et al. Al igual que Bigtable   aprovecha el almacenamiento de datos distribuidos   proporcionada por el Sistema de Archivo Google,   HBase proporciona Bigtable-como   capacidades en la parte superior de Hadoop. HBase   incluye:

• clases base conveniente para respaldo   Hadoop MapReduce puestos de trabajo con HBase   tablas

• predicado de consulta empuje hacia abajo a través de   del lado del servidor escanear y obtener filtros

• Optimizaciones para consultas en tiempo real

• Una pasarela de Ahorro de alto rendimiento   • Una puerta de enlace de servicio web REST-ful que   soporta XML, Protobuf, y binarios   Opciones de codificación de datos

• cascada módulos de fuente y sumidero

• Extensible jruby-base (JIRB) shell

• El apoyo a la exportación de métricas a través de la Hadoop   métricas subsistema de archivos o los ganglios;   o a través de JMX

Otros consejos

A base de datos no es una solución adecuada para un estilo WebCrawler de revés.

Es posible que desee leer este artículo.

http://highscalability.com / como-Rackspace-ahora-usos-MapReduce-y-Hadoop-query-terabytes de datos

Gracias, N.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow