오랫동안 관계형 데이터베이스는 중소 규모의 데이터 세트를 처리하기에 충분했습니다. 그러나 데이터가 증가하는 엄청난 속도로 인해 기존의 데이터 저장 및 검색 접근 방식은 실현 불가능합니다. 이 문제는 빅 데이터를 처리 할 수있는 새로운 기술로 해결되고 있습니다. Hadoop, Hive 및 Hbase는 이러한 종류의 대규모 데이터 세트를 운영하는 데 널리 사용되는 플랫폼입니다. MongoDB와 같은 NoSQL 또는 Not Only SQL 데이터베이스는 다음과 같은 이점이있는 손실 된 일관성 모델에서 데이터를 저장하고 검색하는 메커니즘을 제공합니다.
- 수평 확장
- 고 가용성
- 더 빠른 액세스
MongoDB 엔지니어링 팀은 최근 더 나은 통합을 위해 Hadoop 용 MongoDB 커넥터를 업데이트했습니다. 이를 통해 Hadoop 사용자는 다음을 더 쉽게 수행 할 수 있습니다.
- 심도있는 오프라인 분석을 위해 MongoDB의 실시간 데이터를 Hadoop과 통합합니다.
- 커넥터는 Hadoop의 MapReduce의 분석 능력을 MongoDB의 라이브 애플리케이션 데이터에 노출하여 빅 데이터의 가치를 더 빠르고 효율적으로 이끌어냅니다.
- 커넥터는 MongoDB를 Hadoop 호환 파일 시스템으로 제공하므로 MapReduce 작업이 먼저 HDFS (Hadoop 파일 시스템)에 복사하지 않고 MongoDB에서 직접 읽을 수 있으므로 네트워크에서 테라 바이트의 데이터를 이동할 필요가 없습니다.
- MapReduce 작업은 쿼리를 필터로 전달할 수 있으므로 전체 컬렉션을 스캔 할 필요가 없으며 지리 공간, 텍스트 검색, 배열, 복합 및 희소 색인을 비롯한 MongoDB의 풍부한 색인 기능을 활용할 수도 있습니다.
- MongoDB에서 읽은 Hadoop 작업의 결과는 MongoDB에 다시 기록되어 실시간 운영 프로세스 및 임시 쿼리를 지원할 수 있습니다.
Hadoop 및 MongoDB 사용 사례 :
MongoDB와 Hadoop이 일반적인 빅 데이터 스택에서 어떻게 결합 될 수 있는지에 대한 높은 수준의 설명을 살펴 보겠습니다. 주로 우리는 :
- MongoDB는 '운영'실시간 데이터 저장소
- Hadoop 용 오프라인 배치 데이터 처리 및 분석
이유를 알아 보려면 계속 읽으십시오. 과 Aadhar, Shutterfly, Metlife 및 eBay와 같은 회사 및 조직에서 MongoDB를 사용한 방법 .
일괄 집계에서 Hadoop과 MongoDB 적용 :
대부분의 시나리오에서 MongoDB에서 제공하는 내장 집계 기능은 데이터 분석에 충분합니다. 그러나 어떤 경우에는 훨씬 더 복잡한 데이터 집계가 필요할 수 있습니다. Hadoop은 복잡한 분석을위한 강력한 프레임 워크를 제공 할 수 있습니다.
이 시나리오에서 :
- 데이터는 MongoDB에서 가져와 하나 이상의 MapReduce 작업을 통해 Hadoop 내에서 처리됩니다. 또한 이러한 MapReduce 작업 내의 다른 위치에서 데이터를 가져와 다중 데이터 소스 솔루션을 개발할 수 있습니다.
- 그런 다음 이러한 MapReduce 작업의 출력을 MongoDB에 다시 작성하여 나중에 쿼리하고 임시로 분석 할 수 있습니다.
- 따라서 MongoDB를 기반으로 구축 된 애플리케이션은 일괄 분석의 정보를 사용하여 최종 클라이언트에 제공하거나 다른 다운 스트림 기능을 활성화 할 수 있습니다.
데이터웨어 하우징에서의 적용 :
일반적인 프로덕션 설정에서 애플리케이션의 데이터는 각각 고유 한 쿼리 언어 및 기능을 가진 여러 데이터 저장소에 상주 할 수 있습니다. 이러한 시나리오의 복잡성을 줄이기 위해 Hadoop을 데이터웨어 하우스로 사용하고 다양한 소스의 데이터에 대한 중앙 저장소 역할을 할 수 있습니다.
이러한 종류의 시나리오에서 :
- 주기적인 MapReduce 작업은 MongoDB에서 Hadoop으로 데이터를로드합니다.
- MongoDB 및 기타 소스의 데이터를 Hadoop에서 사용할 수있게되면 더 큰 데이터 세트에 대해 쿼리 할 수 있습니다.
- 이제 데이터 분석가는 MapReduce 또는 Pig를 사용하여 MongoDB의 데이터를 통합하는 더 큰 데이터 세트를 쿼리하는 작업을 생성 할 수 있습니다.
MongoDB를 지원하는 팀은 Hadoop과 같은 빅 데이터 기술과의 풍부한 통합을 통해 빅 데이터 스택에 잘 통합 될 수 있으며 데이터 저장, 검색, 처리, 집계 및웨어 하우징과 관련하여 몇 가지 복잡한 아키텍처 문제를 해결할 수 있도록했습니다. . MongoDB로 Hadoop을 채택한 사람들을위한 향후 경력 전망에 대한 게시물을 계속 지켜봐주십시오. 이미 Hadoop으로 작업 중이거나 MongoDB를 선택하는 경우 MongoDB에 대해 제공하는 과정을 확인하십시오.
C ++로 정렬