Hadoop 설치 : 단일 노드 Hadoop 클러스터 설정



이 자습서는 Hadoop 클러스터를 설치하고 단일 노드에 구성하는 단계별 가이드입니다. 모든 Hadoop 설치 단계는 CentOS 시스템 용입니다.

Hadoop 설치 : 단일 노드 Hadoop 클러스터 설정

이전 블로그에서 , Hadoop, HDFS 및 아키텍처에 대한 이론적 인 아이디어가 있어야합니다.하지만 얻을 실무 지식이 필요합니다.이전 블로그를 좋아 하셨기를 바랍니다. , 이제 Hadoop 및 HDFS에 대한 실용적인 지식을 알려 드리겠습니다. 첫 번째 단계는 Hadoop을 설치하는 것입니다.

Hadoop을 설치하는 방법에는 두 가지가 있습니다. 단일 노드다중 노드 .





단일 노드 클러스터 단일 머신에서 하나의 DataNode 만 실행되고 모든 NameNode, DataNode, ResourceManager 및 NodeManager를 설정하는 것을 의미합니다. 이것은 연구 및 테스트 목적으로 사용됩니다. 예를 들어 의료 산업 내부의 샘플 데이터 세트를 고려해 보겠습니다. 따라서 Oozie 작업이 적절한 순서로 데이터를 수집, 집계, 저장 및 처리하는 것과 같은 모든 프로세스를 예약했는지 여부를 테스트하기 위해 단일 노드 클러스터를 사용합니다. 수백 대의 시스템에 분산 된 테라 바이트의 데이터를 포함하는 대규모 환경에 비해 소규모 환경에서 순차 워크 플로우를 쉽고 효율적으로 테스트 할 수 있습니다.

에있는 동안 다중 노드 클러스터 , 둘 이상의 DataNode가 실행 중이고 각 DataNode가 서로 다른 시스템에서 실행 중입니다. 다중 노드 클러스터는 빅 데이터 분석을 위해 조직에서 실제로 사용됩니다. 위의 예를 고려하면 페타 바이트의 데이터를 실시간으로 처리 할 때 수백 대의 시스템에 분산되어 처리되어야합니다. 따라서 여기에서는 다중 노드 클러스터를 사용합니다.



이 블로그에서는 단일 노드 클러스터에 Hadoop을 설치하는 방법을 보여 드리겠습니다.

전제 조건

  • 가상 상자 : 운영 체제를 설치하는 데 사용됩니다.
  • 운영 체제 : Linux 기반 운영 체제에 Hadoop을 설치할 수 있습니다. Ubuntu 및 CentOS는 매우 일반적으로 사용됩니다. 이 튜토리얼에서는 CentOS를 사용하고 있습니다.
  • 자바 : 시스템에 Java 8 패키지를 설치해야합니다.
  • 하둡 : Hadoop 2.7.3 패키지가 필요합니다.

Hadoop 설치

1 단계: 여기를 클릭하세요 Java 8 패키지를 다운로드하십시오. 이 파일을 홈 디렉토리에 저장하십시오.

2 단계: Java Tar 파일을 추출하십시오.

명령 : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java-Hadoop 설치-Edureka



그림 : Hadoop 설치 – Java 파일 추출

3 단계 : Hadoop 2.7.3 패키지를 다운로드합니다.

명령 : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

아나콘다를 파이썬에 사용하는 방법

그림 : Hadoop 설치 – Hadoop 다운로드

4 단계 : Hadoop tar 파일을 추출합니다.

명령 : tar -xvf hadoop-2.7.3.tar.gz

그림 : Hadoop 설치 – Hadoop 파일 추출

5 단계 : bash 파일 (.bashrc)에 Hadoop 및 Java 경로를 추가하십시오.

열다 . bashrc 파일. 이제 아래와 같이 Hadoop과 Java Path를 추가합니다.

명령 : vi .bashrc

그림 : Hadoop 설치 – 환경 변수 설정

그런 다음 bash 파일을 저장하고 닫으십시오.

이러한 모든 변경 사항을 현재 터미널에 적용하려면 source 명령을 실행하십시오.

명령 : 소스 .bashrc

그림 : Hadoop 설치 – 환경 변수 새로 고침

Java 및 Hadoop이 시스템에 올바르게 설치되어 있고 터미널을 통해 액세스 할 수 있는지 확인하려면 ejava -version 및 hadoop 버전 명령을 xecute합니다.

명령 : 자바-버전

그림 : Hadoop 설치 – Java 버전 확인

명령 : 하둡버전

그림 : Hadoop 설치 – Hadoop 버전 확인

6 단계 : 편집 .

명령: cd hadoop-2.7.3 / etc / hadoop /

명령: ls

모든 Hadoop 구성 파일은 다음 위치에 있습니다. hadoop-2.7.3 / etc / hadoop 아래 스냅 샷에서 볼 수있는 디렉토리 :

그림 : Hadoop 설치 – Hadoop 구성 파일

7 단계 : 열다 core-site.xml 구성 태그 내에서 아래 언급 된 속성을 편집합니다.

core-site.xml NameNode가 클러스터에서 실행되는 Hadoop 데몬에 알립니다. HDFS 및 MapReduce에 공통적 인 I / O 설정과 같은 Hadoop 코어의 구성 설정이 포함되어 있습니다.

명령 : vi core-site.xml

그림 : Hadoop 설치 – core-site.xml 구성

자바에서 문자열을 날짜 형식으로 변환
fs.default.name hdfs : // localhost : 9000

8 단계 : 편집하다 hdfs-site.xml 구성 태그 내에서 아래 언급 된 속성을 편집합니다.

hdfs-site.xml HDFS 데몬의 구성 설정 (예 : NameNode, DataNode, Secondary NameNode)을 포함합니다. 또한 HDFS의 복제 요소와 블록 크기도 포함됩니다.

명령 : vi hdfs-site.xml

그림 : Hadoop 설치 – hdfs-site.xml 구성

dfs.replication 1 dfs.permission false

9 단계 : 편집 mapred-site.xml 구성 태그 내에서 아래 언급 된 속성을 파일로 저장하고 편집합니다.

mapred-site.xml 병렬로 실행할 수있는 JVM 수, 매퍼 및 감속기 프로세스의 크기, 프로세스에 사용 가능한 CPU 코어 등과 같은 MapReduce 애플리케이션의 구성 설정이 포함됩니다.

경우에 따라 mapred-site.xml 파일을 사용할 수 없습니다. 그래서 우리는 mapred-site.xml 파일을 만들어야합니다.mapred-site.xml 템플릿을 사용합니다.

명령 : cp mapred-site.xml.template mapred-site.xml

명령 : 우리 지도대지.xml.

그림 : Hadoop 설치 – mapred-site.xml 구성

mapreduce.framework.name 원사

10 단계 : 편집하다 yarn-site.xml 구성 태그 내에서 아래 언급 된 속성을 편집합니다.

yarn-site.xml 응용 프로그램 메모리 관리 크기, 프로그램 및 알고리즘에 필요한 작업 등과 같은 ResourceManager 및 NodeManager의 구성 설정을 포함합니다.

명령 : vi yarn-site.xml

그림 : Hadoop 설치 – yarn-site.xml 구성

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

11 단계 : 편집하다 hadoop-env.sh 다음과 같이 Java 경로를 추가하십시오.

hadoop-env.sh Java 홈 경로 등과 같은 Hadoop을 실행하기 위해 스크립트에서 사용되는 환경 변수를 포함합니다.

명령 : 우리 하둡-env.sh

그림 : Hadoop 설치 – hadoop-env.sh 구성

12 단계 : Hadoop 홈 디렉토리로 이동하여 NameNode를 포맷합니다.

명령 : CD

명령 : cd hadoop-2.7.3

명령 : bin / hadoop 목적-형식

그림 : Hadoop 설치 – NameNode 포맷

이것은 NameNode를 통해 HDFS를 포맷합니다. 이 명령은 처음으로 만 실행됩니다. 파일 시스템을 포맷하는 것은 dfs.name.dir 변수로 지정된 디렉토리를 초기화하는 것을 의미합니다.

Hadoop 파일 시스템을 포맷, 실행 및 실행하지 마십시오. HDFS에 저장된 모든 데이터를 잃게됩니다.

13 단계 : NameNode가 포맷되면 hadoop-2.7.3 / sbin 디렉토리로 이동하여 모든 데몬을 시작합니다.

명령: cd hadoop-2.7.3 / sbin

단일 명령으로 모든 데몬을 시작하거나 개별적으로 수행 할 수 있습니다.

명령: ./ start-all.sh

위의 명령은 다음의 조합입니다. start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

또는 아래와 같이 모든 서비스를 개별적으로 실행할 수 있습니다.

NameNode 시작 :

NameNode는 HDFS 파일 시스템의 중심입니다. HDFS에 저장된 모든 파일의 디렉토리 트리를 유지하고 클러스터에 저장된 모든 파일을 추적합니다.

명령: ./hadoop-daemon.sh 시작 목적

그림 : Hadoop 설치 – NameNode 시작

DataNode 시작 :

시작시 DataNode는 네임 노드에 연결하고 다른 작업을 위해 네임 노드의 요청에 응답합니다.

명령: ./hadoop-daemon.sh 시작 데이터 노드

그림 : Hadoop 설치 – DataNode 시작

ResourceManager를 시작하십시오.

ResourceManager는 사용 가능한 모든 클러스터 리소스를 조정하는 마스터이므로 YARN 시스템에서 실행되는 분산 애플리케이션을 관리하는 데 도움이됩니다. 그 작업은 각 NodeManager와 각 응용 프로그램의 ApplicationMaster를 관리하는 것입니다.

명령: ./실-daemon.sh start resourcemanager

그림 : Hadoop 설치 – ResourceManager 시작

NodeManager를 시작합니다.

각 머신 프레임 워크의 NodeManager는 컨테이너 관리, 리소스 사용량 모니터링 및 ResourceManager에 동일한보고를 담당하는 에이전트입니다.

명령: ./실-daemon.sh start nodemanager

그림 : Hadoop 설치 – NodeManager 시작

JobHistoryServer를 시작하십시오.

JobHistoryServer는 클라이언트의 모든 작업 기록 관련 요청을 처리합니다.

명령 : ./mr-jobhistory-daemon.sh start historyserver

14 단계 : 모든 Hadoop 서비스가 실행되고 있는지 확인하려면 아래 명령을 실행하십시오.

명령: jps

그림 : Hadoop 설치 – 데몬 확인

자바 스크립트에서 배열의 길이를 찾는 방법

15 단계 : 이제 Mozilla 브라우저를 열고 localhost : 50070 / dfshealth.html NameNode 인터페이스를 확인하십시오.

그림 : Hadoop 설치 – WebUI 시작

축하합니다. 단일 노드 Hadoop 클러스터를 한 번에 성공적으로 설치했습니다.다음 블로그에서 , 다중 노드 클러스터에 Hadoop을 설치하는 방법도 다룹니다.

이제 Hadoop 설치 방법을 이해 했으므로 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 작성했습니다. Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.

질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.