Cloudera Hadoop : CDH 배포 시작하기



Cloudera Hadoop Tutorial에 대한이 Edureka 블로그는 Cloudera Manager, Parcels, Hue 등과 같은 다양한 Cloudera 구성 요소에 대한 완전한 통찰력을 제공합니다.

빅 데이터에 대한 수요가 증가하고 Apache Hadoop은...에서혁명의 핵심은 우리가 데이터를 구성하고 계산하는 방식을 바 꾸었습니다. 기업이 Hadoop을 비즈니스 요구 사항에 맞게 조정해야 할 필요성이 상업적 배포의 출현을 촉진했습니다. 상용 Hadoop 배포는 일반적으로 Hadoop 배포를 간소화하도록 설계된 기능과 함께 패키지화됩니다. Cloudera Hadoop Distribution은 기업에서 빠르게 증가하는 볼륨과 다양한 데이터를 쉽게 관리 할 수있는 확장 가능하고 유연한 통합 플랫폼을 제공합니다.

Cloudera Hadoop Distribution에 대한이 블로그에서는 다음 주제를 다룰 것입니다.





Cloudera Hadoop : Hadoop 소개

Hadoop은 분산 환경에서 빅 데이터를 저장하고 처리하는 Apache 오픈 소스 프레임 워크입니다.건너편간단한 프로그래밍 모델을 사용하는 클러스터. Hadoop은 분산 스토리지 위에 병렬 계산을 제공합니다.Hadoop에 대해 자세히 알아 보려면 당신은 이것을 참조 할 수 있습니다

Hadoop에 대한 짧은 소개를 마치고 이제 다양한 유형의 Hadoop 배포에 대해 설명하겠습니다.



Cloudera Hadoop : Hadoop 배포

Apache Hadoop은 오픈 소스이기 때문에 많은 회사가 원래 오픈 소스 코드를 뛰어 넘는 배포판을 개발했습니다. 이것은 RedHat, Fedora 및 Ubuntu와 같은 Linux 배포판과 매우 유사합니다. 각 Linux 배포판은 Ubuntu의 사용자 친화적 인 GUI와 같은 고유 한 기능과 기능을 지원합니다. 비슷하게, 빨간 모자 지원을 제공하고 시스템의 모든 부분을 마음대로 변경할 수있는 이데올로기를 제공하기 때문에 기업 내에서 인기가 있습니다. Red Hat은 소프트웨어 호환성 문제를 해결합니다. 이것은 일반적으로 사용자에게 큰 문제입니다.Windows에서 전환하는 사람.

마찬가지로, 고유 한 기능 및 기능 세트가 있고 기본 HDFS 아래에 구축 된 3 가지 주요 유형의 Hadoop 배포판이 있습니다.

Cloudera 대 MapR 대 Hortonworks

그림 : MapR 대 Hortonworks 대 Cloudera

그림 : MapR 대 Hortonworks 대 Cloudera



Cloudera Hadoop 배포

Cloudera는 Hadoop 공간의 시장 트렌드이며 상용 Hadoop 배포판을 출시 한 최초의 제품입니다. 'Apache Hadoop이 제공하는 것'과 '조직이 필요로하는 것'사이의 격차를 해소하기위한 컨설팅 서비스를 제공합니다.

Cloudera Distribution은 다음과 같습니다.

  • 빠른 비즈니스 : 분석에서 데이터 과학 및 그 사이의 모든 것에 이르기까지 Cloudera는 무제한 데이터의 잠재력을 활용하는 데 필요한 성능을 제공합니다.
  • Hadoop을 쉽게 관리 할 수 ​​있습니다. : Cloudera Manager를 사용하면 자동화 된 마법사를 통해 규모 또는 배포 환경에 관계없이 클러스터를 빠르게 배포 할 수 있습니다.
  • 타협없는 보안 : 비즈니스 민첩성을 그대로 유지하면서 엄격한 데이터 보안 및 규정 준수 요구 사항을 충족합니다. Cloudera는 데이터 보안 및 거버넌스에 대한 통합 접근 방식을 제공합니다.

Horton-Works 분포

Horton-Works 데이터 플랫폼 (HDP)은 전적으로 다양한 소스와 형식의 데이터를 조작하도록 설계된 오픈 소스 플랫폼입니다. 이 플랫폼에는 HDFS (Hadoop Distributed File System), MapReduce, Zookeeper, HBase, Pig, Hive 및 추가 구성 요소와 같은 다양한 Hadoop 도구가 포함되어 있습니다.

다음과 같은 기능도 지원합니다.

  • HDP는 Hive를 만듭니다. 더 빨리 새로운 Stinger 프로젝트를 통해
  • HDP 공급 업체 종속 방지 갈래 버전의 Hadoop을 약속함으로써.
  • HDP는 유용성 Hadoop 플랫폼의.

MapR 배포

MapR은 HortonWorks 및 Cloudera와 마찬가지로 플랫폼 중심의 Hadoop 솔루션 제공 업체입니다. MapR은 Hadoop 배포 서비스를 제공하면서 MapR-DB로 알려진 자체 데이터베이스 시스템을 통합합니다. MapR-DB는 다른 배포판에서 실행되는 재고 Hadoop 데이터베이스, 즉 HBase보다 4 ~ 7 배 더 빠르다고 주장합니다.

다음과 같은 흥미로운 기능이 있습니다.

  • MapR-File System에 의존하기 때문에 Java 종속성없이 Pig, Hive 및 Sqoop을 포함하는 유일한 Hadoop 배포판입니다.
  • MapR은 더 ​​사용자 친화적이고 더 빠르고 신뢰할 수 있도록 많은 개선 사항을 갖춘 가장 생산 준비가 된 Hadoop 배포판입니다.

이제 Cloudera Hadoop 배포에 대해 자세히 살펴 보겠습니다.

C ++ 정렬 목록

새로운 업데이트를 받으려면 YouTube 채널을 구독하십시오 ...

Cloudera Hadoop : Cloudera 배포

Cloudera는 최초의 상용 Hadoop 배포판을 출시 한 Hadoop 분야에서 가장 잘 알려진 플레이어입니다.

그림 : Cloudera Hadoop 배포

Cloudera Hadoop Distribution은 다음 기능 세트를 지원합니다.

  1. Cloudera의 CDH는 모든 오픈 소스 구성 요소로 구성되고 엔터프라이즈 급 배포를 대상으로하며 가장 인기있는 상용 Hadoop 배포판 중 하나입니다.
  2. 혁신으로 유명한 Cloudera는 SQL-for-Hadoop 그것과 함께 임팔라 쿼리 엔진.
  3. 관리 콘솔 – Cloudera 관리자 , 모든 클러스터 정보를 체계적이고 깔끔한 방식으로 표시하는 풍부한 사용자 인터페이스로 사용 및 구현하기 쉽습니다.
  4. CDH에서는 중단없이 가동 및 실행중인 클러스터에 서비스를 추가 할 수 있습니다.
  5. Cloudera의 기타 추가 사항에는 타사 애플리케이션과의 통합을위한 보안, 사용자 인터페이스 및 인터페이스가 포함됩니다.
  6. CDH는 노드 템플릿 즉, 다양한 구성으로 Hadoop 클러스터에서 노드 그룹을 생성 할 수 있습니다. Hadoop 클러스터 전체에서 동일한 구성의 사용을 근절합니다.
  7. 또한 다음을 지원합니다.
    • 신뢰할 수 있음
      Hadoop 공급 업체는 버그가 감지 될 때마다 즉시 대응합니다. 상용 솔루션을보다 안정적으로 만들기 위해 패치와 수정 사항이 즉시 배포됩니다.
    • 지원하다
      Cloudera Hadoop 공급 업체는 고객이 엔터프라이즈 수준 작업 및 미션 크리티컬 애플리케이션에 Hadoop을 쉽게 채택 할 수 있도록 기술 지침과 지원을 제공합니다.

    • 완전성
      Hadoop 공급 업체는 고객이 특정 작업을 처리하기 위해 Hadoop 애플리케이션을 사용자 지정하는 데 도움이되는 다양한 기타 추가 도구와 배포를 결합합니다.

Cloudera 배포판에는 두 가지 유형의 에디션이 있습니다.

  1. Cloudera Express 에디션
  2. Cloudera 엔터프라이즈 에디션

이제 그들 사이의 차이점을 살펴 보겠습니다.

풍모 Cloudera-Express Cloudera-Enterprise
클러스터 관리
1. 다중 클러스터 관리
2. 자원 관리
전개
1. CDH 4 및 5 지원
2. CDH의 롤링 업그레이드아니
서비스 및 구성 관리
1. HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark 및 Accumulo 서비스 관리
2. 서비스의 롤링 재시작아니
보안
1. LDAP 인증아니
2. SAML 인증아니
모니터링 및 진단
1. 건강 기록
경보 관리
1. 이메일을 통해 알림
2. SNMP를 통한 경고아니
고급 관리 기능
1. 자동 백업 및 복구아니
2. 파일 찾아보기 및 검색아니
3. MapReduce, Impala, HBase, Yarn 사용 보고서아니

Cloudera Hadoop : Cloudera 관리자

Cloudera에 따르면 Cloudera Manager는 설치 , 구성 , 꾸리다 , 및 감시 장치 Hadoop 스택.

다음을 제공합니다.

  1. 자동화 된 배포 및 구성
  2. 사용자 정의 가능한 모니터링 및보고
  3. 쉽고 강력한 문제 해결
  4. Zero – 다운 타임 유지 보수

Cloudera Hadoop 및 다양한 도구에 대한 심층 지식 얻기

Cloudera Manager 데모

Cloudera Manager를 살펴 보겠습니다.

1. 아래 그림은 Cloudera Manager에서 현재 실행중인 서비스의 수를 보여줍니다. 클러스터 CPU 사용량, 디스크 IO 사용량 등에 대한 차트도 볼 수 있습니다.

그림 : Cloudera Manager 홈페이지

2. 아래 이미지는 HBase 클러스터를 보여줍니다. 현재 실행중인 HBase REST 서버의 상태에 대한 차트와 그래프를 제공합니다.

그림 : HBase 서버의 상태

3. 이제 상태 및 IP 구성을 확인할 수있는 HBase 클러스터의 Instances 탭을 살펴 보겠습니다.

그림 : HBase 클러스터 호스트 서버의 상태 및 IP 주소

4. 다음으로 구성 탭이 있습니다. 여기에서 모든 구성 매개 변수를보고 해당 값을 변경할 수 있습니다.

그림 : HBase 클러스터 구성

이제 Cloudera의 Parcel이 무엇인지 이해하겠습니다.

Cloudera Hadoop : 소포

Parcel은 Cloudera Manager에서 사용하는 추가 메타 데이터와 함께 프로그램 파일을 포함하는 바이너리 배포 형식입니다.

정적 멤버 함수 C ++

Parcel은 자체 포함되며 버전이 지정된 디렉토리에 설치됩니다. 즉, 지정된 서비스의 여러 버전을 나란히 설치할 수 있습니다.

다음은 Parcel 사용의 이점입니다.

  • CDH를 단일 객체로 배포합니다. 즉, CDH의 각 부분에 대해 별도의 패키지를 갖는 대신, 구획에는 설치할 단일 객체가 있습니다.

  • 내부 일관성을 제공합니다 (전체 CDH가 단일 소포로 배포되므로 모든 CDH 구성 요소가 일치하며 다른 버전의 CDH에서 나오는 다른 부품의 위험이 없습니다).

  • 몇 번의 클릭만으로 CDH에서 구획을 설치, 업그레이드, 다운 그레이드, 배포 및 활성화 할 수 있습니다.

이제 Parcels를 사용하여 CDH에서 Kafka 서비스를 설치하고 활성화하는 방법을 살펴 보겠습니다.

  1. Cloudera 관리자 홈페이지로 이동 >> 호스트 >> 아래 표시된 소포

    무화과 : 호스트에서 구획 선택

2. 소포 목록에 Kafka가 표시되지 않는 경우 해당 소포를 목록에 추가 할 수 있습니다.

  1. 사용하려는 Kafka 버전의 소포를 찾으십시오. 표시되지 않는 경우 목록에 구획 저장소를 추가 할 수 있습니다.
  2. 설치할 Kafka 버전에 대한 소포를 찾으십시오. Apache Kafka 버전의 Cloudera 배포 .
    아래 그림은 동일한 내용을 보여줍니다.

그림 : 구획의 저장소 경로.

. 위 그림과 같이 링크를 복사하여 아래와 같이 Remote Parcel Repository에 추가합니다.

그림 : 저장소에서 Kafka 경로 추가

네.경로를 추가하면 Kafka를 다운로드 할 수 있습니다. 다운로드 버튼을 클릭하고 Kafka를 다운로드 할 수 있습니다.

그림 : Kafka 다운로드

5. Kafka가 다운로드되면 배포하고 활성화하기 만하면됩니다.

그림 : Kafka 활성화

활성화되면 Cloudera 관리자의 서비스 탭에서 Kafka를 볼 수 있습니다.

그림 : Kafka 서비스

Cloudera Hadoop : Oozie 워크 플로우 생성

XML 코드를 수동으로 작성한 다음 실행하여 워크 플로를 만드는 것은 복잡합니다. 당신은 이것을 참조 할 수 있습니다 Oozie 작업 예약 블로그, 전통적인 접근 방식에 대해 알 수 있습니다.

간단한 Oozie 워크 플로를 만들기 위해 XML 파일을 작성한 아래 이미지를 볼 수 있습니다. 그림 : 기존 접근 방식을 사용하여 Oozie 워크 플로 만들기

보시다시피 간단한 Oozie 스케줄러를 만들려면 시간이 많이 걸리는 거대한 XML 코드를 작성해야했고 모든 단일 라인을 디버깅하는 것은 번거로 웠습니다. 이를 극복하기 위해 Cloudera Manager는 색조 GUI 및 간단한 드래그 앤 드롭 기능을 제공하여 Oozie 워크 플로를 생성하고 실행합니다.

이제 Hue가 동일한 작업을 단순화 된 방식으로 수행하는 방법을 살펴 보겠습니다.

워크 플로를 만들기 전에 먼저 입력 파일 (예 : clickstream.txt 및 user.txt)을 만들어 보겠습니다.
user.txt 파일에는 아래와 같이 User Id, Name, Age, Country, Gender가 있습니다. 사용자 ID를 기반으로 URL (클릭 스트림 파일에 언급 됨)에 대한 사용자 수와 클릭 수를 알기 위해이 사용자 파일이 필요합니다.

그림 : 텍스트 파일 만들기

각 URL에서 사용자의 클릭 수를 알기 위해 사용자 ID와 URL이 포함 된 클릭 스트림이 있습니다.

무화과 : 클릭 스트림 파일

스크립트 파일에 쿼리를 작성해 보겠습니다.

무화과 : 스크립트 파일

사용자 파일, 클릭 스트림 파일 및 스크립트 파일을 생성 한 후 계속해서 Oozie 워크 플로를 생성 할 수 있습니다.

1. 그림과 같이 Oozie 워크 플로를 간단히 끌어다 놓을 수 있습니다.

그림 : Oozie 워크 플로 생성의 끌어서 놓기 기능

2. 작업을 삭제 한 직후 스크립트 파일에 대한 경로를 지정하고 스크립트 파일에 언급 된 매개 변수를 추가해야합니다. 여기에서 OUTPUT, CLICKSTREAM 및 USER 매개 변수를 추가하고 각 매개 변수에 대한 경로를 지정해야합니다.

그림 : 작업을 실행하는 데 필요한 스크립트 파일 및 필수 매개 변수 추가

3. 경로를 지정하고 매개 변수를 추가했으면 이제 아래 이미지와 같이 워크 플로를 저장하고 제출하기 만하면됩니다.

그림 : Oozie 작업 저장 및 제출

4. 작업을 제출하면 작업이 완료됩니다. 실행 및 기타 단계는 Hue에서 처리합니다.

그림 : Oozie 작업의 실행 상태

5.이제 Oozie 작업을 실행 했으므로 작업 탭을 살펴 보겠습니다. 여기에는 사용자 ID와 워크 플로우 상태가 포함됩니다. 오류 코드 (있는 경우), 작업 항목의 시작 및 종료 시간도 표시됩니다.

그림 : Oozie 워크 플로의 작업 탭에있는 요소

6. 작업 탭 옆에는 세부 정보 탭이 있습니다. 여기에서 작업의 시작 시간과 마지막 수정 시간을 볼 수 있습니다.

그림 : Oozie 워크 플로의 세부 정보.

7. 세부 정보 탭 옆에 워크 플로의 구성 탭이 있습니다.

그림 : Oozie 워크 플로의 구성 설정

7. 작업 항목을 실행하는 동안 오류가있는 경우 로그 탭에 나열됩니다. 오류 문을 참조하고 그에 따라 디버그 할 수 있습니다.

자바의 프레임이란?

그림 : 오류 코드 및 오류 설명이 포함 된 로그 파일

8. 다음은 Hue에서 자동으로 생성되는 워크 플로의 XML 코드입니다.

그림 : Oozie 워크 플로의 XML 코드

9.1. 2 단계에서 이미 출력 디렉토리 경로를 지정 했으므로 여기에 아래와 같이 HDFS 브라우저에 출력 디렉토리가 있습니다.

그림 : HDFS 브라우저의 출력 디렉토리

9.2 출력 디렉토리를 클릭하면 output.txt라는 이름의 텍스트 파일이 있으며 해당 텍스트 파일에는 아래 그림과 같이 실제 출력이 포함되어 있습니다.

그림 : 최종 출력 텍스트

이것이 Hue가 끌어서 놓기 옵션을 제공하여 Oozie 워크 플로우를 생성함으로써 작업을 단순화하는 방법입니다.

이 블로그가 Cloudera 배포 및 다양한 Cloudera 구성 요소를 이해하는 데 도움이 되었기를 바랍니다.

빅 데이터 혁명에 참여하고 싶으십니까?

이제 Cloudera Hadoop 배포를 이해 했으므로 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 작성했습니다. Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.

질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.