Puede MapReduce trabajo de manera eficiente en un espacio de tuplas compartida (por ejemplo: una base de datos)?
-
18-09-2019 - |
Pregunta
Estoy pidiendo esto como yo estoy preguntando si podría ser eficaz para ejecutar consultas de MapReduce sobre una base de datos o un almacén de valor clave compartida?
Por ejemplo, para poner en práctica un barco rastreador web, que los índices de Internet y cuenta con todos los términos en diferentes páginas web, podría hacerse esto de manera eficiente con una base de datos como backend?
Solución
Claro. HBase y otras tiendas de NoSQL son muy adecuados para esta tarea.
artículo para una visión general de la utilización de HBase con MapReduce.
HBase es la base de datos Hadoop. usarlo cuando se necesita al azar, en tiempo real acceso de lectura / escritura a su Big Data. El objetivo de este proyecto es la organización de tablas muy grandes - mil millones de filas X millones de columnas - encima de cúmulos de hardware de consumo.
HBase es un código abierto, distribuido, tienda orientada a columnas modelado después de Google' Bigtable: A Distributed Sistema de almacenamiento de datos estructurados por Chang et al. Al igual que Bigtable aprovecha el almacenamiento de datos distribuidos proporcionada por el Sistema de Archivo Google, HBase proporciona Bigtable-como capacidades en la parte superior de Hadoop. HBase incluye:
• clases base conveniente para respaldo Hadoop MapReduce puestos de trabajo con HBase tablas
• predicado de consulta empuje hacia abajo a través de del lado del servidor escanear y obtener filtros
• Optimizaciones para consultas en tiempo real
• Una pasarela de Ahorro de alto rendimiento • Una puerta de enlace de servicio web REST-ful que soporta XML, Protobuf, y binarios Opciones de codificación de datos
• cascada módulos de fuente y sumidero
• Extensible jruby-base (JIRB) shell
• El apoyo a la exportación de métricas a través de la Hadoop métricas subsistema de archivos o los ganglios; o a través de JMX
Otros consejos
A base de datos no es una solución adecuada para un estilo WebCrawler de revés.
Es posible que desee leer este artículo.
http://highscalability.com / como-Rackspace-ahora-usos-MapReduce-y-Hadoop-query-terabytes de datos
Gracias, N.