Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법은 무엇입니까?



이 기사에서는 AWS EMR 서비스를 살펴보고 그 과정에서 Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법을 배우게됩니다.

만드는 방법에 대한이 기사에서 클러스터 Amazon EMR을 사용하면 Hadoop 및 빅 데이터 애플리케이션을 쉽게 실행하고 확장하는 방법을 알 수 있습니다. 이 기사에서는 다음 사항을 다룰 것입니다.

이 Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법을 계속 진행 하시겠습니까?





Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법은 무엇입니까?

Google이나 Yahoo에서 무언가를 검색하면 순식간에 응답을받습니다. Google, Yahoo 및 기타 검색 엔진이 계속 성장하는 웹의 결과를 그렇게 빠르게 반환하는 것이 어떻게 가능합니까? 검색 엔진은 인터넷을 통해 크롤링하고 웹 페이지를 다운로드하고 아래와 같이 색인을 생성합니다. 우리의 모든 쿼리에 대해 그들은 색인을 사용하여 우리가 검색하고 있던 텍스트가 포함 된 모든 웹 페이지가 무엇인지 알아냅니다. 오른쪽 아래의 색인을 보면 Hadoop이 웹 페이지 1, 2, 3이 있음을 분명히 알 수 있습니다.

이미지-Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법-Edureka그런 다음 PageRanking 알고리즘 페이지가 연결된 방식에 따라 상단에 표시 할 페이지와 하단에 표시 할 페이지를 파악하는 데 사용됩니다. 아래 시나리오에서 W1은 모든 사람이 링크하고 있기 때문에 '가장 인기있는'항목이고 W4는 링크하는 사람이 없기 때문에 '가장 인기있는'항목이 아닙니다. 따라서 검색 결과에서 W1은 상단에, W4는 하단에 표시됩니다.



c의 라운드 로빈 프로그램

웹 페이지가 폭발적으로 증가함에 따라 이러한 검색 엔진은 색인을 생성하고 PageRanking 계산을 수행하는 데 어려움을 겪었습니다. 이곳에서 야후에서 Hadoop이 탄생하고 나중에 ASF (Apache Software Foundation)의 FOSS (Free and Open Source Software)가되었습니다. ASF 아래 많은 회사들이 Hadoop에 관심을 가지기 시작했고이를 개선하는 데 기여하기 시작했습니다. Hadoop은 빅 데이터 혁명을 시작한 곳이지만 Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume과 같은 다른 많은 소프트웨어가 Hadoop의 한계와 격차를 해결하기 위해 진화하기 시작했습니다.

웹 검색 엔진은 Hadoop을 사용한 최초의 엔진 이었지만, 나중에 더 많은 데이터가 생성됨에 따라 많은 사용 사례가 진화하기 시작했습니다. 사용자에게 책을 추천하는 데 사용되는 전자 상거래 애플리케이션의 예를 들어 보겠습니다. 아래 다이어그램에 따라 user1은 book1, book2, book3을 구입했고 user2는 몇 권의 책을 구입했습니다. 자세히 살펴보면 user1과 user2가 book1과 book2를 구입 한 것과 비슷한 취향을 가지고 있음을 알 수 있습니다. 따라서 book3은 user2에게, book4는 user1에게 추천 될 수 있습니다. 이를 기계 학습 알고리즘의 한 유형 인 협업 필터링이라고합니다. 아래 다이어그램을 뒤집어 비슷한 책을 얻을 수 있습니다.

위의 경우 인덱스 인 PageRanked를 생성하여 사용자에게 추천했는데 데이터의 크기가 작아서 데이터를 시각화하고 결과를 추론 할 수있었습니다. 데이터 크기가 날이 갈수록 커지고 통제 불능 상태가됨에 따라 Hadoop과 같은 빅 데이터 도구가 등장합니다.



Hadoop은 많은 문제를 해결하지만 Hadoop 및 기타 빅 데이터 소프트웨어를 설치하는 것은 결코 쉬운 일이 아니 었습니다. 통합, 설치 및 구성 문제와 같이 조정할 구성 매개 변수가 많이 있습니다. 이것이 Cloudera와 같은 회사가 및 Databricks가 도움이됩니다. 빅 데이터 소프트웨어 설치를 더 쉽게 만들고 상업적 지원을 제공합니다. 예를 들어 프로덕션에서 어떤 일이 발생한다고 가정 해 보겠습니다. Amazon EMR (Elastic MapReduce)은 Hadoop 등을 훨씬 쉽게 사용할 수있게 해줍니다. Elastic MapReduce라는 이름은 EMR이 MapReduce뿐만 아니라 Resilient Distributed Datasets와 같은 다른 분산 컴퓨팅 모델도 지원하기 때문에 약간 잘못된 이름입니다.

이 자습서에서는 AWS 클라우드에서 EMR 클러스터를 설정하는 방법을 살펴보고 다음 자습서에서 Spark, Hive 및 기타 프로그램을 실행하는 방법을 살펴 봅니다.

이 Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법을 계속 진행 하시겠습니까?

데모 : AWS에서 EMR 클러스터 생성

1 단계: EMR 관리 콘솔로 이동하여 '클러스터 생성'을 클릭합니다. 콘솔에서 종료 된 클러스터 2 개월 동안 무료로 저장됩니다. 이렇게하면 종료 된 클러스터를 복제하고 다시 만들 수 있습니다.

2 단계 : 빠른 옵션 화면에서 '고급 옵션으로 이동'을 클릭하여 클러스터에 대한 자세한 정보를 지정하십시오.

3 단계 : 고급 옵션 탭에서 EMR 클러스터에 설치할 다른 소프트웨어를 선택할 수 있습니다. SQL 인터페이스의 경우 Hive를 선택할 수 있습니다. 데이터 흐름 언어 인터페이스의 경우 Pig를 선택할 수 있습니다. 분산 응용 프로그램 조정을 위해 ZooKeeper 등을 선택할 수 있습니다. 이 탭을 사용하면 선택적 작업 인 단계를 추가 할 수도 있습니다. 단계는 MapReduce, Pig, Hive 등을 사용하는 빅 데이터 처리 작업입니다.이 탭에서 추가하거나 나중에 클러스터가 생성 된 후에 추가 할 수 있습니다. '다음'을 클릭하여 EMR 클러스터에 필요한 하드웨어를 선택합니다.

4 단계 : Hadoop은 마스터가 작업을 예약하고 할당하고 진행 상황을 확인하는 것과 같은 모든 조정을 수행하는 반면 작업자는 데이터를 처리하고 저장하는 실제 작업을 수행하는 마스터-작업자 아키텍처를 따릅니다. 단일 마스터는 SPOF (Single-Point-Of-Failure)입니다. Amazon EMR은 고 가용성 (HA)을위한 다중 마스터를 지원합니다. 이전 단계에서는 EMR에서 다중 마스터 클러스터를 설정할 수 있습니다.

EMR은 두 가지 유형의 노드, Core 및 Task를 허용합니다. 코어 노드는 데이터 처리 및 저장에 모두 사용되며 작업 노드는 데이터 처리에만 사용됩니다. 이 자습서에서는 비용이 적게 들기 때문에 하나의 코어 만 선택하고 태스크 노드는 선택할 수 없습니다. 또한 선택 스팟 인스턴스 위에 주문형 스팟 인스턴스가 더 저렴하기 때문입니다. 스팟 인스턴스의 문제점은 AWS에서 자동으로 종료 할 수 있다는 것입니다. 2 분 통지 . 이것은 연습과 일부 실제 시나리오에서도 괜찮습니다. 스팟 인스턴스는 다른 인스턴스 유형보다 우선 순위가 낮기 때문에 자동으로 종료됩니다. '다음'을 클릭하십시오.

5 단계 : 클러스터 이름을 지정하십시오. '다음'을 클릭합니다. '종료 보호'는 기본적으로 켜져 있습니다. 이렇게하면 클러스터를 종료하는 동안 몇 단계를 도입하여 EMR 클러스터가 실수로 삭제되지 않도록합니다.

6 단계 : 탭에서 EMR 클러스터에 대한 다양한 보안 옵션이 지정됩니다. EC2 인스턴스에 로그인하려면 KeyPair를 선택해야합니다. EMR은 적절한 역할과 보안 그룹을 자동으로 생성하여 마스터 및 작업자 EC2 노드에 연결합니다. '클러스터 만들기'를 클릭합니다.

EC2 인스턴스를 구입하고 다른 빅 데이터 소프트웨어를 설치 및 구성해야하므로 클러스터를 생성하는 데 몇 분 정도 걸립니다. 처음에는 클러스터 상태가 '시작 중'상태이고 '대기'상태로 이동합니다. '대기'상태에서 EMR 클러스터는 단순히 MR, Spark, Hive 등과 같은 다른 빅 데이터 처리 작업을 제출하기를 기다리고 있습니다.

또한 EC2 관리 콘솔에서 확인하고 마스터 및 작업자 EC2 인스턴스가 실행 중 상태 여야합니다. EMR 클러스터 생성의 일부로 생성 된 스팟 인스턴스입니다. EMR 관리 콘솔의 하드웨어 탭에서도 동일한 EC2를 볼 수 있습니다. 하드웨어 탭에서 스팟 EC2 인스턴스의 가격은 0.032 $ / 시간으로 언급되어 있습니다. 스팟 인스턴스의 가격은 시간이 지남에 따라 계속 변경되며 온 디맨드 EC2 가격보다 훨씬 저렴합니다.

7 단계 : 이제 EMR 클러스터가 성공적으로 추가되었으므로 Steps 또는 BigData 처리 작업을 추가 할 수 있습니다. 단계 탭으로 이동하여 '단계 추가'를 클릭하고 단계 유형 (MR, Hive, Spark 등)을 선택합니다. 다음 튜토리얼에서 동일한 내용을 살펴 보겠습니다. 지금은 취소를 클릭하십시오.

8 단계 : 이제 EMR을 시작하는 방법을 보았으므로 동일한 방법을 중지하는 방법을 살펴 보겠습니다.

8.1 단계 : 종료를 클릭합니다.

8.2 단계 : 이전 단계에서 언급했듯이 '종료 보호'가 EMR 클러스터에 대해 켜져 있고 종료 버튼이 비활성화되었습니다. 변경을 클릭하십시오.

8.3 단계 : 'Off'라디오 버튼을 선택하고 체크 표시를 클릭합니다. 이제 종료 버튼이 활성화되어야합니다. 이것은 EMR 클러스터를 실수로 삭제하지 않도록하기 위해 EMR에서 도입 한 추가 단계입니다.

EMR 클러스터는 Terminating 상태가되고 EC2는 종료됩니다. 마지막으로 EMR 클러스터는 Terminated 상태로 이동되며 여기에서 AWS에 대한 결제가 중지됩니다. 추가 AWS 비용이 발생하지 않도록 클러스터를 종료해야합니다.

결론

이 튜토리얼에서 우리는 웹 콘솔 (브라우저)에서 몇 분 안에 EMR 클러스터를 시작하는 방법을 보았습니다. , AWS SDK 또는 AWS CloudFormation . EMR 클러스터 설정이 몇 분 안에 완료 될 수 있으며 빅 데이터 처리를 즉시 시작할 수 있습니다. 처리가 완료되면 출력을 저장할 수 있습니다. S3 또는 DynamoDB이므로 클러스터가 종료되어 청구를 ​​중지합니다. 이 가격 책정 모델과 사용 용이성으로 인해 EMR은 빅 데이터 처리를 수행하는 사람들에게 큰 인기를 얻고 있습니다. 엄청난 수의 서버를 구입하고 빅 데이터 소프트웨어에 대한 라이센스를 얻어 유지 관리 할 필요가 없습니다. '

이것이 바로 여러분입니다. Amazon EMR을 사용하여 Hadoop 클러스터를 생성하는 방법에 대한이 기사의 끝으로 이동합니다.이 주제에 대한 전문 지식을 얻고 싶다면, Edureka는 Solution Architect 시험을 깨는 데 필요한 것을 정확히 다루는 커리큘럼을 마련했습니다! 코스 세부 정보를 볼 수 있습니다. 훈련.

이 블로그와 관련된 질문이 있으시면 아래 댓글 섹션에 질문을 남겨 주시면 빠른 시일 내에 답변 해 드리겠습니다.