Hadoop 2.0 – 자주 묻는 질문



지난 몇 년 동안 Hadoop에 대한 관심이 크게 증가했습니다. 이 게시물은 귀하의 질문에 답하고 Hadoop 2.0 및 사용에 대한 많은 의문을 해결합니다.

이것은 edureka의 공개 웨비나에서 자주 묻는 질문에 대한 답변이 담긴 후속 게시물입니다! 의 위에 .

Hadoop에 대해 자주 묻는 질문

디팍:





Hadoop이란 무엇입니까?
Apache Hadoop은 상용 하드웨어 클러스터에서 데이터 세트의 저장 및 대규모 처리를위한 오픈 소스 소프트웨어 프레임 워크입니다. 스케일 아웃 스토리지 및 분산 처리 기능을 갖춘 오픈 소스 데이터 관리 소프트웨어 프레임 워크입니다. 기여자와 사용자의 글로벌 커뮤니티에서 구축하고 사용하고 있습니다.

Hadoop 블로그 게시물에서 자세히 알아보기 과 .



검색:

여행, 운송 및 항공 산업에서 빅 데이터 사용 사례는 무엇입니까?

맑은:



연구 할 수있는 실제 Hadoop 구현 샘플을 알려 주시겠습니까?
우리는 livi입니다피크 타임 혼잡이 증가하는 시대에 운송 사업자는 운송 차량을 양호한 상태로 유지하면서 서비스를 제공하는 비용 효율적인 방법을 지속적으로 찾고 있습니다. 이 도메인에서 빅 데이터 분석을 사용하면 다음을 구성하는 데 도움이 될 수 있습니다.

  • 경로 최적화
  • 지리 공간 분석
  • 교통 패턴 및 혼잡
  • 자산 관리
  • 수익 관리 (예 : 항공사)
  • 재고 관리
  • 연료 절약
  • 타겟 마케팅
  • 고객 충성도
  • 용량 예측
  • 네트워크 성능 및 최적화

실제 사용 사례는 다음과 같습니다.
에) 비행 비용 결정
b) 재고 물류를위한 예측 모델링
씨) Orbitz Worldwide – 고객 구매 패턴
디) 6 개의 초대형 Hadoop 배포
이다) Hadoop – 추가 기능 이상
에프) 엔터프라이즈의 Hadoop

다음에서 Hadoop 실제 구현에 대해 자세히 알아볼 수 있습니다.

히르 데시:

Hadoop은 데이터 처리 및 처리에 관한 것입니까? 보고 및 시각적 분석은 어떻게해야합니까? Qlikview, Tableau를 Hadoop 위에서 사용할 수 있습니까?
핵심 Hadoop 구성 요소 HDFS 및 MapReduce는 모두 데이터 저장 및 처리에 관한 것입니다. 저장을위한 HDFS 및 처리를위한 MapReduce. 그러나 Pig 및 Hive와 같은 Hadoop 핵심 구성 요소는 분석에 사용됩니다. Visual Reports Tableau의 경우 QlikView를 Hadoop for Visual Reporting에 연결할 수 있습니다.

아밋:

하둡 대. mongoDB
MongoDB는 '운영'실시간 데이터 저장소로 사용되는 반면 Hadoop은 오프라인 배치 데이터 처리 및 분석에 사용됩니다.
mongoDB는 MySQL과 같은 RDBMS 대신 웹 애플리케이션에서 백엔드로 사용할 수있는 문서 지향적이고 스키마가없는 데이터 저장소 인 반면 Hadoop은 주로 대량 데이터를위한 스케일 아웃 저장소 및 분산 처리로 사용됩니다.

자세한 내용은 mongoDB 및 Hadoop 블로그 게시물 .

java에서 double을 int로 변경하는 방법

여기:

Apache Spark가 Hadoop의 일부입니까? ?
Apache Spark는 대규모 데이터 처리를위한 빠르고 일반적인 엔진입니다. Spark는 더 빠르고 In-Memory 처리를 지원합니다. Spark 실행 엔진은 Hadoop이 처리 할 수 ​​있고 Hadoop 2.0 YARN 클러스터에서 실행할 수있는 컴퓨팅 워크로드 유형을 확장합니다. Scala 클로저를 사용하여 이러한 개체를 처리하는 기능과 함께 메모리 내 개체 (RDD)를 저장할 수있는 처리 프레임 워크 시스템입니다. Graph, Data Warehouse, Machine Learning 및 Stream 처리를 지원합니다.

Hadoop 2 클러스터가있는 경우 설치없이 Spark를 실행할 수 있습니다. 그렇지 않으면 Spark는 독립 실행 형이나 EC2 또는 Mesos에서 쉽게 실행할 수 있습니다. HDFS, HBase, Cassandra 및 모든 Hadoop 데이터 소스에서 읽을 수 있습니다.

Spark에 대해 자세히 알아보기 여기 .

프라 사드:

Apache Flume이란 무엇입니까?
Apache Flume은 많은 양의 로그 데이터를 여러 소스에서 중앙 집중식 데이터 소스로 효율적으로 수집, 집계 및 이동하기위한 안정적이고 사용 가능한 분산 형 시스템입니다.

아밋 :

SQL 대 NO-SQL 데이터베이스
NoSQL 데이터베이스는 차세대 데이터베이스이며 대부분 일부 요점을 다루고 있습니다.

  • 비 관계형
  • 분산
  • 오픈 소스
  • 수평 확장 가능

스키마가 필요없고 간편한 복제 지원, 간단한 API, 최종 일관성 / BASE (ACID 아님), 방대한 양의 데이터 등과 같은 더 많은 특성이 적용되는 경우가 많습니다. 예를 들어 몇 가지 차별화 요소는 다음과 같습니다.

  • NoSQL 데이터베이스는 수평 적으로 확장되어 더 많은 부하를 처리하기 위해 더 많은 서버를 추가합니다. 반면 SQL 데이터베이스는 일반적으로 수직으로 확장되어 트래픽이 증가함에 따라 단일 서버에 더 많은 리소스를 추가합니다.
  • SQL 데이터베이스는 정보와 데이터를 추가하기 전에 스키마를 정의해야했지만 NoSQL 데이터베이스는 스키마가 없으므로 미리 스키마 정의가 필요하지 않습니다.
  • SQL 데이터베이스는 RDBMS 원칙을 따르는 행과 열을 기반으로하는 테이블 인 반면 NoSQL 데이터베이스는 문서, 키-값 쌍, 그래프 또는 와이드 열 저장소입니다.
  • SQL 데이터베이스는 데이터를 정의하고 조작하기 위해 SQL (구조화 된 쿼리 언어)을 사용합니다. NoSQL 데이터베이스에서 쿼리는 데이터베이스마다 다릅니다.

인기있는 SQL 데이터베이스 : MySQL, Oracle, Postgres 및 MS-SQL
인기 있는 NoSQL 데이터베이스 : MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j 및 CouchDB

블로그 검토 Hadoop 및 NoSQL 데이터베이스 및 이러한 데이터베이스의 장점 :

Koteswararao:

Hadoop에 내장 된 클러스터 기술이 있습니까?
Hadoop 클러스터는 마스터-슬레이브 아키텍처를 사용합니다. 데이터를 저장하고 처리하기위한 단일 마스터 (NameNode)와 슬레이브 클러스터 (DataNode)로 구성됩니다. Hadoop은 메모리 나 디스크를 공유하지 않는 많은 수의 시스템에서 실행되도록 설계되었습니다. 이러한 DataNode는 다음을 사용하여 클러스터로 구성됩니다. . Hadoop은 복제 개념을 사용하여 클러스터에서 항상 하나 이상의 데이터 복사본을 사용할 수 있도록합니다. 여러 개의 데이터 사본이 있기 때문에 오프라인 상태가되거나 죽는 서버에 저장된 데이터는 알려진 양호한 사본에서 자동으로 복제 될 수 있습니다.

Dinesh:

Hadoop의 작업이란 무엇입니까? Job을 통해 무엇을 달성 할 수 있습니까?
Hadoop에서 Job은 데이터를 처리 / 분석하는 MapReduce 프로그램입니다. MapReduce라는 용어는 실제로 Hadoop 프로그램이 수행하는 두 개의 별개의 별개 작업을 나타냅니다. 첫 번째는 데이터 세트를 가져 와서 개별 요소가 키-값 쌍으로 분할되는 또 다른 중간 데이터 세트로 변환하는 맵 태스크입니다. MapReduce 작업의 두 번째 부분 인 Reduce 작업은 맵의 출력을 입력으로 가져와 키-값 쌍을 더 작은 집계 된 키-값 쌍 집합으로 결합합니다. MapReduce라는 이름의 순서에서 알 수 있듯이 Reduce 작업은 항상 Map 작업이 완료된 후에 수행됩니다. MapReduce 작업에 대해 자세히 알아보기 .

수 크루스:

자바에서 패키지 만들기

NameNode의 특별한 점 ?
NameNode는 HDFS 파일 시스템의 핵심입니다. 파일 시스템에있는 모든 파일의 디렉토리 트리와 같은 메타 데이터를 유지하고 클러스터에서 파일 데이터가 보관되는 위치를 추적합니다. 실제 데이터는 HDFS 블록으로 DataNode에 저장됩니다.
클라이언트 응용 프로그램은 파일을 찾고 싶을 때 또는 파일을 추가 / 복사 / 이동 / 삭제할 때마다 NameNode와 통신합니다. NameNode는 데이터가있는 관련 DataNodes 서버 목록을 반환하여 성공적인 요청에 응답합니다. HDFS 아키텍처에 대해 자세히 알아보기 .

Dinesh:

Hadoop 2.0은 언제 출시 되었습니까?
Hadoop 개발을 관리하는 오픈 소스 그룹 인 ASF (Apache Software Foundation)는 2013 년 10 월 15 일 블로그에서 Hadoop 2.0이 GA (일반 사용 가능)라고 발표했습니다. 이 발표는 오랜 기다림 끝에 Apache Hadoop 2.0 및 YARN이 이제 프로덕션 배포 준비가되었음을 의미합니다. 자세히 알아보기 블로그.

Dinesh:

비 MapReduce 빅 데이터 애플리케이션의 몇 가지 예는 무엇입니까?
MapReduce는 많은 애플리케이션에서 빅 데이터 문제를 해결하는 데 적합하지만 다른 프로그래밍 모델이 그래프 처리 (예 : Google Pregel / Apache Giraph) 및 MPI (Message Passing Interface)를 사용한 반복 모델링과 같은 요구 사항을 더 잘 충족하는 것은 아닙니다.

Marish:

HDFS에서 데이터가 어떻게 정렬되고 색인화됩니까?
데이터는 64MB 블록 (매개 변수로 구성 가능)으로 나뉘며 HDFS에 저장됩니다. NameNode는 이러한 블록의 저장 정보를 RAM (NameNode 메타 데이터)에 블록 ID로 저장합니다. MapReduce 작업은 NameNode RAM에 저장된 메타 데이터를 사용하여 이러한 블록에 액세스 할 수 있습니다.

Shashwat:

동일한 클러스터에서 MapReduce (MRv1) 및 MRv2 (YARN 포함)를 모두 사용할 수 있습니까?
Hadoop 2.0은 Hadoop에서 다양한 애플리케이션을 작성하고 실행하기위한 새로운 프레임 워크 YARN을 도입했습니다. 따라서 YARN과 MapReduce는 Hadoop 2.0의 두 가지 다른 개념이며 혼합하여 서로 바꿔서 사용할 수 없습니다. 올바른 질문은 'YARN이 활성화 된 Hadoop 2.0 클러스터에서 MRv1과 MRv2를 모두 실행할 수 있습니까?' 이 질문에 대한 대답은 '아니' MRv1과 MRv2를 모두 실행하도록 Hadoop 클러스터를 구성 할 수 있지만 언제든지 한 세트의 데몬 만 실행할 수 있습니다. 이 두 프레임 워크는 결국 동일한 구성 파일 ( yarn-site.xmlmapred-site.xml )를 사용하여 데몬을 실행하므로 Hadoop 클러스터에서 두 구성 중 하나만 활성화 할 수 있습니다.

인형:

차세대 MapReduce (MRv2)와 YARN의 차이점은 무엇입니까?
YARN과 MRv2 (Next Generation MapReduce)는 Hadoop 2.0의 두 가지 다른 개념과 기술입니다. YARN은 MRv2뿐만 아니라 다른 응용 프로그램도 실행하는 데 사용할 수있는 소프트웨어 프레임 워크입니다. MRv2는 YARN API를 사용하여 작성된 애플리케이션 프레임 워크이며 YARN 내에서 실행됩니다.

Bharat:

Hadoop 2.0은 Hadoop 1.x 애플리케이션에 대한 하위 호환성을 제공합니까?
Neha:

Hadoop 1.0에서 2.0으로 마이그레이션하려면 무거운 애플리케이션 코드가 필요합니까? 이주?
아니요, 'org.apache.hadoop.mapred'API를 사용하여 개발 된 대부분의 애플리케이션은 재 컴파일없이 YARN에서 실행할 수 있습니다. YARN은 MRv1 애플리케이션과 바이너리 호환되며 'bin / hadoop'을 사용하여 YARN에서 이러한 애플리케이션을 제출할 수 있습니다. 이것에 대해 더 읽어보세요 여기 .

셰린:

Resource Manager 노드가 Hadoop 2.0에서 실패하면 어떻게됩니까?
Hadoop 릴리스 2.4.0부터 Resource Manager에 대한 고 가용성 지원도 사용할 수 있습니다. ResourceManager는 장애 조치를 위해 Apache ZooKeeper를 사용합니다. Resource Manager 노드가 실패하면 보조 노드는 ZooKeeper에 저장된 클러스터 상태를 통해 빠르게 복구 할 수 있습니다. 장애 조치시 ResourceManager는 대기중인 모든 실행중인 애플리케이션을 다시 시작합니다.

사비 랄리:

Apache의 Hadoop 프레임 워크가 Cloudera Hadoop에서 작동합니까?
Apache Hadoop은 HDFS에 저장된 대규모 데이터 워크로드의 분산 처리를 지원하기 위해 핵심 MapReduce 처리 엔진과 함께 2005 년에 도입되었습니다. 오픈 소스 프로젝트이며 여러 배포판이 있습니다 (Linux와 유사). Cloudera Hadoop (CDH)은 Cloudera의 이러한 배포 중 하나입니다. 기타 유사한 배포로는 HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights 등이 있습니다.

객체 배열 자바 예제

Arulvadivel:

랩톱에 Hadoop을 설치하고 Oracle 데이터베이스를 Hadoop으로 마이그레이션하는 쉬운 방법이 있습니까?
당신은 할 수 있습니다 스타트 와 노트북의 HortonWorks Sandbox 또는 Cloudera Quick VM (최소 4GB RAM 및 i3 이상의 프로세서 포함). SQOOP를 사용하여 설명 된대로 Oracle에서 Hadoop으로 데이터 이동 여기 .

바 바니:

Hadoop을 배울 수있는 최고의 책은 무엇입니까?
시작 Hadoop : 확실한 가이드 작성자 : Tom White 및 Hadoop 운영 작성자 : Eric Sammer.

마헨드라:

최종 가이드 인 Hadoop처럼 Hadoop 2.0에서 읽을 수있는 자료가 있습니까?
검토 최근 도착 Hadoop 2.0 제작자 중 소수가 작성한 책장에 있습니다.

이 시리즈에서 더 많은 질문을 기대해주세요.