Hadoop 및 관련 빅 데이터 기술이 포함 된 MongoDB



MongoDB와 Hadoop 및 관련 빅 데이터 기술은 분석의 복잡한 상황에 대한 솔루션을 제공하는 강력한 조합입니다.

오랫동안 관계형 데이터베이스는 중소 규모의 데이터 세트를 처리하기에 충분했습니다. 그러나 데이터가 증가하는 엄청난 속도로 인해 기존의 데이터 저장 및 검색 접근 방식은 실현 불가능합니다. 이 문제는 빅 데이터를 처리 할 수있는 새로운 기술로 해결되고 있습니다. Hadoop, Hive 및 Hbase는 이러한 종류의 대규모 데이터 세트를 운영하는 데 널리 사용되는 플랫폼입니다. MongoDB와 같은 NoSQL 또는 Not Only SQL 데이터베이스는 다음과 같은 이점이있는 손실 된 일관성 모델에서 데이터를 저장하고 검색하는 메커니즘을 제공합니다.

  • 수평 확장
  • 고 가용성
  • 더 빠른 액세스

MongoDB 엔지니어링 팀은 최근 더 나은 통합을 위해 Hadoop 용 MongoDB 커넥터를 업데이트했습니다. 이를 통해 Hadoop 사용자는 다음을 더 쉽게 수행 할 수 있습니다.





  • 심도있는 오프라인 분석을 위해 MongoDB의 실시간 데이터를 Hadoop과 통합합니다.
  • 커넥터는 Hadoop의 MapReduce의 분석 능력을 MongoDB의 라이브 애플리케이션 데이터에 노출하여 빅 데이터의 가치를 더 빠르고 효율적으로 이끌어냅니다.
  • 커넥터는 MongoDB를 Hadoop 호환 파일 시스템으로 제공하므로 MapReduce 작업이 먼저 HDFS (Hadoop 파일 시스템)에 복사하지 않고 MongoDB에서 직접 읽을 수 있으므로 네트워크에서 테라 바이트의 데이터를 이동할 필요가 없습니다.
  • MapReduce 작업은 쿼리를 필터로 전달할 수 있으므로 전체 컬렉션을 스캔 할 필요가 없으며 지리 공간, 텍스트 검색, 배열, 복합 및 희소 색인을 비롯한 MongoDB의 풍부한 색인 기능을 활용할 수도 있습니다.
  • MongoDB에서 읽은 Hadoop 작업의 결과는 MongoDB에 다시 기록되어 실시간 운영 프로세스 및 임시 쿼리를 지원할 수 있습니다.

Hadoop 및 MongoDB 사용 사례 :

MongoDB와 Hadoop이 일반적인 빅 데이터 스택에서 어떻게 결합 될 수 있는지에 대한 높은 수준의 설명을 살펴 보겠습니다. 주로 우리는 :

  • MongoDB는 '운영'실시간 데이터 저장소
  • Hadoop 용 오프라인 배치 데이터 처리 및 분석

이유를 알아 보려면 계속 읽으십시오. 과 Aadhar, Shutterfly, Metlife 및 eBay와 같은 회사 및 조직에서 MongoDB를 사용한 방법 .



일괄 집계에서 Hadoop과 MongoDB 적용 :

대부분의 시나리오에서 MongoDB에서 제공하는 내장 집계 기능은 데이터 분석에 충분합니다. 그러나 어떤 경우에는 훨씬 더 복잡한 데이터 집계가 필요할 수 있습니다. Hadoop은 복잡한 분석을위한 강력한 프레임 워크를 제공 할 수 있습니다.

이 시나리오에서 :

  • 데이터는 MongoDB에서 가져와 하나 이상의 MapReduce 작업을 통해 Hadoop 내에서 처리됩니다. 또한 이러한 MapReduce 작업 내의 다른 위치에서 데이터를 가져와 다중 데이터 소스 솔루션을 개발할 수 있습니다.
  • 그런 다음 이러한 MapReduce 작업의 출력을 MongoDB에 다시 작성하여 나중에 쿼리하고 임시로 분석 할 수 있습니다.
  • 따라서 MongoDB를 기반으로 구축 된 애플리케이션은 일괄 분석의 정보를 사용하여 최종 클라이언트에 제공하거나 다른 다운 스트림 기능을 활성화 할 수 있습니다.

Hadoop Mongo DB 집계



데이터웨어 하우징에서의 적용 :

일반적인 프로덕션 설정에서 애플리케이션의 데이터는 각각 고유 한 쿼리 언어 및 기능을 가진 여러 데이터 저장소에 상주 할 수 있습니다. 이러한 시나리오의 복잡성을 줄이기 위해 Hadoop을 데이터웨어 하우스로 사용하고 다양한 소스의 데이터에 대한 중앙 저장소 역할을 할 수 있습니다.

이러한 종류의 시나리오에서 :

  • 주기적인 MapReduce 작업은 MongoDB에서 Hadoop으로 데이터를로드합니다.
  • MongoDB 및 기타 소스의 데이터를 Hadoop에서 사용할 수있게되면 더 큰 데이터 세트에 대해 쿼리 할 수 ​​있습니다.
  • 이제 데이터 분석가는 MapReduce 또는 Pig를 사용하여 MongoDB의 데이터를 통합하는 더 큰 데이터 세트를 쿼리하는 작업을 생성 할 수 있습니다.

MongoDB를 지원하는 팀은 Hadoop과 같은 빅 데이터 기술과의 풍부한 통합을 통해 빅 데이터 스택에 잘 통합 될 수 있으며 데이터 저장, 검색, 처리, 집계 및웨어 하우징과 관련하여 몇 가지 복잡한 아키텍처 문제를 해결할 수 있도록했습니다. . MongoDB로 Hadoop을 채택한 사람들을위한 향후 경력 전망에 대한 게시물을 계속 지켜봐주십시오. 이미 Hadoop으로 작업 중이거나 MongoDB를 선택하는 경우 MongoDB에 대해 제공하는 과정을 확인하십시오.

C ++로 정렬