MapReduce는 공유 튜플 공간 (예 : 데이터베이스)에서 효율적으로 작동 할 수 있습니까?

StackOverflow https://stackoverflow.com/questions/2407588

  •  18-09-2019
  •  | 
  •  

문제

데이터베이스 또는 공유 KeyValue 스토어를 통해 MapReduce Queries를 실행하는 것이 효율적일 수 있는지 궁금해서 이것을 묻습니다.

예를 들어, 인터넷을 색인화하고 다른 웹 페이지의 모든 용어를 계산하는 웹 트롤러를 구현하려면 데이터베이스를 백엔드로 효율적으로 수행 할 수 있습니까?

도움이 되었습니까?

해결책

확신하는. HBASE 및 기타 NOSQL 상점은이 작업에 적합합니다.

이것 좀 봐 기사 MapReduce와 함께 HBase를 사용하는 일반적인 개요.

HBase는 Hadoop 데이터베이스입니다. 빅 데이터에 대한 임의의 실시간 읽기/쓰기 액세스가 필요할 때 사용하십시오. 이 프로젝트의 목표는 상품 하드웨어 클러스터 꼭대기에있는 매우 큰 테이블 (수십억 행 x 수백만 열)을 호스팅하는 것입니다.

HBase는 Google 'BigTable : Chang et al. Bigtable이 Google 파일 시스템에서 제공하는 분산 데이터 저장을 활용하는 것처럼 HBase는 Hadoop 위에 큰 기능을 제공합니다. HBase는 다음과 같습니다.

HBASE 테이블을 사용한 Hadoop MapReduce 작업을위한 편리한 기본 클래스

• 쿼리 술어 서버 측 스캔을 통해 푸시 아래로 푸시하고 필터를 가져옵니다.

• 실시간 쿼리에 대한 최적화

• 고성능 중고품 게이트웨이 • XML, Protobuf 및 이진 데이터 인코딩 옵션을 지원하는 REST-FUL 웹 서비스 게이트웨이

• 계단식 소스 및 싱크 모듈

• Extensible Jruby 기반 (JIRB) 쉘

• Hadoop Metrics 서브 시스템을 통한 메트릭 내보내기 지원 파일 또는 신경절에 대한 지원; 또는 JMX를 통해

다른 팁

데이터베이스는 WebCrawler 스타일의 백핸드에 대한 적절한 솔루션이 아닙니다.

이 기사를 읽고 싶을 수도 있습니다.

http://highscalability.com/how-rackspace-uses-mapreduce-and-hadoop-query-terabytes-data

감사합니다, N.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top