Hive 자습서 – Hive 아키텍처 및 NASA 사례 연구



이 Hive 자습서 블로그는 Hive 아키텍처 및 Hive 데이터 모델에 대한 심층적 인 지식을 제공합니다. 또한 Apache Hive에 대한 NASA 사례 연구를 설명합니다.

Apache Hive 자습서 : 소개

Hive는 빅 데이터 분석을 위해 업계에서 엄격하게 사용되는 도구이며 와. 이 Hive 자습서 블로그에서는 Apache Hive에 대해 자세히 설명합니다. Apache Hive는 데이터웨어 하우징 도구입니다. , 빅 데이터 쿼리 및 분석을위한 SQL과 같은 언어를 제공합니다. Hive 개발의 동기는 SQL 개발자 및 분석가를위한 마찰없는 학습 경로입니다. Hive는 프로그래밍 경험이없는 사람들의 구세주 일뿐만 아니라 MapReduce 프로그램을 작성하는 데 오랜 시간을 소비하는 프로그래머의 작업을 줄여줍니다. 이 Apache Hive 자습서 블로그에서는 다음에 대해 설명합니다.





Apache Hive 자습서 : Hive 란 무엇입니까?

Apache Hive는 Hadoop을 기반으로 구축 된 데이터웨어 하우스 시스템으로 정형 및 반 정형 데이터를 분석하는 데 사용됩니다.Hive는 Hadoop MapReduce의 복잡성을 추상화합니다. 기본적으로 데이터에 구조를 투영하고 SQL 문과 유사한 HQL (Hive Query Language)로 작성된 쿼리를 수행하는 메커니즘을 제공합니다. 내부적으로 이러한 쿼리 또는 HQL은 Hive 컴파일러에 의해 매핑 감소 작업으로 변환됩니다. 따라서 Hadoop을 사용하여 데이터를 처리하기 위해 복잡한 MapReduce 프로그램을 작성하는 것에 대해 걱정할 필요가 없습니다. SQL에 익숙한 사용자를 대상으로합니다. Apache Hive는 데이터 정의 언어 (DDL), 데이터 조작 언어 (DML) 및 사용자 정의 함수 (UDF)를 지원합니다.

초보자를위한 Hive 자습서 | 하이브 심층 이해 | Edureka



SQL + Hadoop MapReduce = HiveQL

Apache Hive 자습서 : Hive 이야기 – Facebook에서 Apache로

Facebook 사용 사례-Hive 자습서-Edureka무화과 : Hive 자습서 – Facebook 사용 사례

Facebook의 과제 : 기하 급수적 인 데이터 증가

2008 년 이전에 Facebook의 모든 데이터 처리 인프라는 상용 RDBMS를 기반으로하는 데이터웨어 하우스를 중심으로 구축되었습니다. 이러한 인프라는 당시 Facebook의 요구 사항을 충분히 충족 할 수있었습니다. 그러나 데이터가 매우 빠르게 증가하기 시작하면서이 거대한 데이터 세트를 관리하고 처리하는 것이 큰 도전이되었습니다. Facebook 기사에 따르면 데이터는 2007 년 15TB 데이터 세트에서 2009 년 2PB 데이터로 확장되었습니다. 또한 많은 Facebook 제품에는 Audience Insights, Facebook Lexicon, Facebook Ads 등과 같은 데이터 분석이 포함됩니다. 바로이 문제에 대처하기 위해 확장 가능하고 경제적 인 솔루션이 필요했기 때문에 Hadoop 프레임 워크를 사용하기 시작했습니다.



민주화 Hadoop – MapReduce

그러나 데이터가 증가함에 따라 Map-Reduce 코드의 복잡성도 비례 적으로 증가했습니다. 따라서 프로그래밍 경험이없는 사람들이 MapReduce 프로그램을 작성하도록 교육하는 것이 어려워졌습니다. 또한 간단한 분석을 수행하려면 100 줄의 MapReduce 코드를 작성해야합니다. SQL은 Facebook을 포함한 엔지니어와 분석가가 널리 사용했기 때문에 SQL을 Hadoop 위에 올려 놓는 것은 SQL 배경이있는 사용자가 Hadoop에 액세스 할 수 있도록하는 논리적 방법으로 보였습니다.

따라서 대부분의 분석 요구 사항을 충족하는 SQL 기능과 Hadoop의 확장 성이 탄생했습니다. Apache Hive HDFS에있는 데이터에 대해 SQL과 같은 쿼리를 수행 할 수 있습니다. 나중에 Hive 프로젝트는 2008 년 8 월 Facebook에서 오픈 소스로 출시되었으며 현재 Apache Hive로 무료로 제공됩니다.

이제 Hive를 인기있게 만든 기능이나 장점을 살펴 보겠습니다.

Apache Hive 자습서 : Hive의 장점

  • 복잡한 MapReduce 프로그램을 작성할 필요가 없으므로 프로그래밍 경험이없는 사람들에게 유용합니다.
  • 확장 가능확장 가능 시스템 성능에 영향을주지 않고 증가하는 볼륨과 다양한 데이터에 대처할 수 있습니다.
  • 효율적인 ETL (추출, 변환,로드) 도구입니다.
  • Hive는 Java, PHP, Python, C ++ 또는 Ruby로 작성된 모든 클라이언트 애플리케이션을 지원합니다. 중고품 서버 . (DB2 등과 같은 데이터베이스에 액세스하기 위해 SQL에 임베드 된 이러한 클라이언트 측 언어를 사용할 수 있습니다.)
  • Hive의 메타 데이터 정보가 RDBMS에 저장되므로 쿼리 실행시 의미 검사를 수행하는 시간이 크게 단축됩니다.

Apache Hive 자습서 : Apache Hive를 어디에서 사용합니까?

Apache Hive는 SQL Database System과 뼈대. 따라서 수많은 회사에서 사용합니다. 실시간 처리가 필요없는 분석 및 데이터 마이닝을 수행 할 수있는 데이터웨어 하우징에 주로 사용됩니다. Apache Hive를 사용할 수있는 일부 필드는 다음과 같습니다.

  • 데이터웨어 하우징
  • 임시 분석

말했듯이 한 손으로 만 박수를 칠 수는 없습니다. 즉, 하나의 도구로 모든 문제를 해결할 수는 없습니다. 따라서 Hive를 다른 도구와 결합하여 다른 많은 도메인에서 사용할 수 있습니다. 예를 들어 Tableau는 Apache Hive와 함께 데이터 시각화에 사용될 수 있으며 Apache Tez와 Hive의 통합은 실시간 처리 기능 등을 제공합니다.
이 Apache Hive 자습서 블로그에서 NASA의 사례 연구를 살펴보면 Hive가 NASA 과학자들이 기후 모델 평가를 수행하는 동안 직면 한 문제를 어떻게 해결했는지 알 수 있습니다.

Hive 자습서 : NASA 사례 연구

기후 모델은 지구의 기후에 영향을 미치는 다양한 요인을 기반으로 한 기후 시스템의 수학적 표현입니다. 기본적으로 바다, 태양, 대기 등과 같은 다양한 기후 요인의 상호 작용을 설명합니다.기후 시스템의 역학에 대한 통찰력을 제공합니다. 기후에 영향을 미치는 요인을 기반으로 기후 변화를 시뮬레이션하여 기후 조건을 예측하는 데 사용됩니다. NASA의 제트 추진 연구소는 다양한 외부 저장소에있는 원격 감지 데이터에 대한 기후 출력 모델을 분석하고 평가하기 위해 지역 기후 모델 평가 시스템 (RCMES)을 개발했습니다.

RCMES (지역 기후 모델 평가 시스템)에는 두 가지 구성 요소가 있습니다.

  • RCMED (지역 기후 모델 평가 데이터베이스) :

Apache OODT 추출기, Apache Tika 등과 같은 추출기를 사용하여 기후와 관련된 원격 감지 데이터 및 재분석 데이터를로드하는 확장 가능한 클라우드 데이터베이스입니다. 마지막으로 데이터를 형식 (위도)의 데이터 포인트 모델로 변환합니다. , 경도, 시간, 값, 높이) 및 My SQL 데이터베이스에 저장합니다. 클라이언트는 공간 / 시간 쿼리를 수행하여 RCMED에있는 데이터를 검색 할 수 있습니다. 이러한 쿼리에 대한 설명은 현재 우리와 관련이 없습니다.

  • RCMET (지역 기후 모델 평가 도구 키트) :

사용자는 RCMED에있는 참조 데이터를 다른 소스에서 가져온 기후 모델 출력 데이터와 비교하여 다양한 종류의 분석 및 평가를 수행 할 수 있습니다. 아래의 이미지를 참조하여 RCMES의 아키텍처를 이해할 수 있습니다.

RCMED의 참조 데이터는 기후 모델 평가에 필요한 다양한 매개 변수에 따라 위성 기반 원격 감지에서 제공됩니다. 예를 들어, AIRS (Atmospheric Infrared Sounder)는 지표 기온, 온도, 지리 전위와 같은 매개 변수를 제공하고 TRMM (열대 강우 측정 임무)은 월별 강수량 등을 제공합니다.

MySQL 데이터베이스 시스템을 사용하는 NASA가 직면 한 문제 :

  • 60 억 개의 튜플 (위도, 경도, 시간, 데이터 포인트 값, 높이) 형식의 MySQL 데이터베이스를로드 한 후 위 이미지와 같이 시스템이 충돌했습니다.
  • 전체 테이블을 더 작은 하위 집합으로 나눈 후에도 시스템은 데이터를 처리하는 동안 엄청난 오버 헤드를 생성했습니다.

따라서 쿼리 기능과 같은 SQL로이 방대한 양의 데이터를 저장하고 처리 할 수있는 확장 가능한 솔루션이 필요했습니다. 마지막으로 그들은 위에서 언급 한 문제를 극복하기 위해 Apache Hive를 사용하기로 결정했습니다.

Apache Hive가 문제를 어떻게 해결할 수 있습니까?

이제 NASA의 JPL 팀이 Apache Hive를 솔루션 전략의 필수 요소로 포함하도록 설득 한 기능은 무엇입니까?

  • Apache Hive는 Hadoop 위에서 실행되기 때문에 확장 가능하고 분산 및 병렬 방식으로 데이터를 처리 할 수 ​​있습니다.
  • SQL과 유사하여 배우기 쉬운 Hive Query Language를 제공합니다.

Hive 배포 :

다음 이미지는 Apache Hive가 통합 된 RCMES Architect를 설명합니다.

무화과 : Hive 자습서 – Apache Hive를 사용한 RCMES 아키텍처

위의 이미지는 RCMES에서 Apache 하이브를 배포 한 것을 보여줍니다. NASA 팀은 Apache Hive를 배포하는 동안 다음 단계를 수행했습니다.

  • 위의 이미지와 같이 Cloudera 및 Apache Hadoop을 사용하여 Hive를 설치했습니다.
  • 그들은 Apache Sqoop을 사용하여 MySQL 데이터베이스에서 Hive로 데이터를 수집했습니다.
  • Apache OODT 래퍼는 Hive에서 쿼리를 수행하고 데이터를 RCMET로 다시 검색하도록 구현되었습니다.

Hive를 사용한 초기 벤치마킹 관찰 :

  • 처음에는 25 억 개의 데이터 포인트를 단일 테이블에로드하고 카운트 쿼리를 수행했습니다. 예를 들면 하이브> dataPoint에서 개수 (datapoint_id)를 선택합니다. 모든 기록을 세는 데 5 ~ 6 분이 걸렸습니다 (전체 68 억 기록의 경우 15 ~ 17 분).
  • 축소 단계는 빠르지 만 맵 단계는 총 처리 시간의 95 %가 걸렸습니다. 그들은 6 개 ( 4x 쿼드 코어 ) 시스템 24GB RAM (대략) 각 시스템에서.
  • 더 많은 시스템을 추가 한 후에도 HDFS 블록 크기 (64MB, 128MB, 256MB)를 변경하고 다른 많은 구성 변수 (io.종류.요인, 나는.종류.mb), 그들은 계산을 완료하는 데 걸리는 시간을 줄이는 데 많은 성공을 거두지 못했습니다.

Hive 커뮤니티 구성원의 의견 :

마지막으로 Hive 커뮤니티의 구성원이 구출되어 현재 Hive 구현의 문제를 해결하기위한 다양한 통찰력을 제공했습니다.

  • 그들은 HDFS 읽기 속도가 대략 60 MB / s 비교하자면 1GB / s 로컬 디스크의 경우 네트워크 용량 및 NameNode의 워크로드에 따라 다릅니다.
  • 회원들은 매퍼 16 명 현재 시스템에서 로컬 비 Haadoop 작업의 I / O 성능과 일치해야합니다.
  • 그들은 또한 분할 크기 매퍼마다 숫자를 늘립니다.따라서 더 많은 병렬 처리를 제공합니다.
  • 마지막으로 커뮤니티 회원들은 사용 횟수 (1) 언급하는 대신 카운트 ( datapoint_id) . 이는 count (1)의 경우 참조 열이 없으므로 계수를 수행하는 동안 압축 해제 및 역 직렬화가 발생하지 않기 때문입니다.

마지막으로 NASA는 Hive 커뮤니티 구성원이 제공 한 모든 제안을 고려하여 기대에 맞게 Hive 클러스터를 조정할 수있었습니다. 따라서 위에서 언급 한 시스템 구성을 사용하여 단 15 초 만에 수십억 개의 행을 쿼리 할 수있었습니다.

Apache Hive 자습서 : Hive 아키텍처 및 구성 요소

다음 이미지는 Hive 아키텍처 및 쿼리가 제출되는 흐름을 설명합니다.하이브마지막으로 MapReduce 프레임 워크를 사용하여 처리됩니다.

무화과 : Hive 자습서 – Hive 아키텍처

위 이미지에 표시된 것처럼 Hive 아키텍처는 다음 구성 요소로 분류 할 수 있습니다.

  • Hive 클라이언트 : Hive는 JDBC, Thrift 및 ODBC 드라이버를 사용하여 Java, C ++, Python 등과 같은 다양한 언어로 작성된 애플리케이션을 지원합니다. 따라서 항상 선택한 언어로 작성된 하이브 클라이언트 애플리케이션을 작성할 수 있습니다.
  • Hive 서비스 : Apache Hive는 쿼리를 수행하기 위해 CLI, Web Interface 등과 같은 다양한 서비스를 제공합니다. 이 Hive 자습서 블로그에서 각각에 대해 곧 살펴 보겠습니다.
  • 처리 프레임 워크 및 리소스 관리 : 내부적으로Hive는 Hadoop MapReduce 프레임 워크를 사실상의 엔진으로 사용하여 쿼리를 실행합니다. 은 그 자체로 별도의 주제이므로 여기서는 설명하지 않습니다.
  • 분산 스토리지 : Hive는 Hadoop 위에 설치되므로 분산 스토리지에 기본 HDFS를 사용합니다. 당신은 참조 할 수 있습니다 HDFS 블로그 그것에 대해 자세히 알아보십시오.

이제 Hive 아키텍처의 처음 두 가지 주요 구성 요소를 살펴 보겠습니다.

1. Hive 클라이언트 :

Apache Hive는 Hive에서 쿼리를 수행하기 위해 다양한 유형의 클라이언트 애플리케이션을 지원합니다. 이러한 클라이언트는 세 가지 유형으로 분류 할 수 있습니다.

  • 중고품 고객 : Hive 서버는 Apache Thrift를 기반으로하므로 Thrift를 지원하는 모든 프로그래밍 언어의 요청을 처리 할 수 ​​있습니다.
  • JDBC 클라이언트 : Hive를 사용하면 Java 응용 프로그램이 클래스 조직에 정의 된 JDBC 드라이버를 사용하여 연결할 수 있습니다..아파치.하둡.hive.jdbc.HiveDriver.
  • ODBC 클라이언트 : Hive ODBC 드라이버를 사용하면 ODBC 프로토콜을 지원하는 응용 프로그램이 Hive에 연결할 수 있습니다. (JDBC 드라이버와 마찬가지로 ODBC 드라이버는 Thrift를 사용하여 Hive 서버와 통신합니다.)

2. Hive 서비스 :

Hive는 위의 이미지와 같이 많은 서비스를 제공합니다. 각각을 살펴 보겠습니다.

  • Hive CLI (명령 줄 인터페이스) : Hive 쿼리 및 명령을 직접 실행할 수있는 Hive에서 제공하는 기본 셸입니다.
  • Apache Hive 웹 인터페이스 : 명령 줄 인터페이스 외에도 Hive는 Hive 쿼리 및 명령을 실행하기위한 웹 기반 GUI를 제공합니다.
  • Hive 서버 : Hive 서버는 Apache Thrift를 기반으로하므로 여러 클라이언트가 Hive에 요청을 제출하고 최종 결과를 검색 할 수있는 Thrift 서버라고도합니다.
  • Apache Hive 드라이버 : 클라이언트가 CLI, 웹 UI, Thrift, ODBC 또는 JDBC 인터페이스를 통해 제출 된 쿼리를 수신하는 역할을합니다. 그런 다음 드라이버는 메타 스토어에있는 스키마를 사용하여 구문 분석, 유형 검사 및 의미 분석이 수행되는 컴파일러에 쿼리를 전달합니다.. 다음 단계에서는 맵 축소 작업과 HDFS 작업의 DAG (Directed Acyclic Graph) 형태로 최적화 된 논리 계획이 생성됩니다. 마지막으로 실행 엔진은 Hadoop을 사용하여 종속성 순서대로 이러한 작업을 실행합니다.
  • 메타 스토어 : 메타 스토어를 생각할 수 있습니다.모든 Hive 메타 데이터 정보를 저장하기위한 중앙 저장소로 사용됩니다. Hive 메타 데이터에는 테이블 구조 및 파티션과 같은 다양한 유형의 정보가 포함됩니다.HDFS에있는 데이터에 대한 읽기 / 쓰기 작업에 필요한 열, 열 유형, 직렬 변환기 및 역 직렬 변환기와 함께. 메타 스토어두 가지 기본 단위로 구성됩니다.
    • 메타 스토어를 제공하는 서비스인접 해 접근아르 자형Hive 서비스.
    • HDFS 스토리지와 분리 된 메타 데이터 용 디스크 스토리지.

이제 Hive 메타 스토어를 구현하는 다양한 방법을 이해하겠습니다.이 Hive 자습서의 다음 섹션에서.

Apache Hive 자습서 : 메타 스토어 구성

Metastore는 RDBMS와 Data Nucleus라는 오픈 소스 ORM (Object Relational Model) 레이어를 사용하여 메타 데이터 정보를 저장합니다.이 레이어는 개체 표현을 관계형 스키마로 또는 그 반대로 변환합니다. HDFS 대신 RDBMS를 선택하는 이유는 낮은 대기 시간을 달성하기 위해서입니다. 다음 세 가지 구성으로 메타 스토어를 구현할 수 있습니다.

1. 임베디드 메타 스토어 :

메타 스토어 서비스와 Hive 서비스는 기본적으로 메타 데이터가 로컬 디스크에 저장되는 임베디드 Derby 데이터베이스 인스턴스를 사용하여 동일한 JVM에서 실행됩니다. 이를 임베디드 메타 스토어 구성이라고합니다. 이 경우 한 번에 한 명의 사용자 만 메타 스토어 데이터베이스에 연결할 수 있습니다. Hive 드라이버의 두 번째 인스턴스를 시작하면 오류가 발생합니다. 단위 테스트에는 좋지만 실제 솔루션에는 적합하지 않습니다.

2. 로컬 메타 스토어 :

이 구성을 사용하면 여러 Hive 세션을 가질 수 있습니다. 즉, 여러 사용자가 동시에 메타 스토어 데이터베이스를 사용할 수 있습니다. 이는 위에 표시된 것과 같이 동일한 JVM에서 실행되는 Hive 서비스 및 메타 스토어 서비스와 별도의 JVM 또는 다른 시스템에서 실행되는 MySQL과 같은 JDBC 호환 데이터베이스를 사용하여 수행됩니다. 일반적으로 가장 많이 사용되는 선택은 MySQL 서버를 메타 스토어 데이터베이스로 구현하는 것입니다.

3. 원격 메타 스토어 :

원격 메타 스토어 구성에서 메타 스토어 서비스는 Hive 서비스 JVM이 아닌 자체 별도의 JVM에서 실행됩니다. 다른 프로세스는 Thrift Network API를 사용하여 메타 스토어 서버와 통신합니다. 이 경우 더 많은 가용성을 제공하기 위해 하나 이상의 메타 스토어 서버를 가질 수 있습니다.원격 메타 스토어 사용의 주요 이점은 메타 스토어 데이터베이스에 액세스하기 위해 각 Hive 사용자와 JDBC 로그인 자격 증명을 공유 할 필요가 없다는 것입니다.

Apache Hive 자습서 : 데이터 모델

Hive의 데이터는 세분화 된 수준에서 세 가지 유형으로 분류 할 수 있습니다.

  • 분할
  • 버킷

테이블 :

Hive의 테이블은 관계형 데이터베이스에있는 테이블과 동일합니다. 필터, 프로젝트, 조인 및 유니온 작업을 수행 할 수 있습니다. Hive에는 두 가지 유형의 테이블이 있습니다.

1. 관리 테이블 :

명령:

CREATE TABLE (열 1 데이터 _ 유형, 열 2 데이터 _ 유형)

managed_table 테이블에 데이터 INPATH로드

이름에서 알 수 있듯이 (관리되는 테이블) Hive는 관리되는 테이블의 데이터를 관리합니다. 즉, 'Hive가 데이터를 관리합니다'라는 말의 의미는 HDFS에있는 파일에서 Hive로 데이터를로드하면 관리 테이블 DROP 명령을 실행하면 메타 데이터와 함께 테이블이 삭제됩니다. 따라서 삭제 된 데이터는 관리 _ 테이블 더 이상 HDFS의 어디에도 존재하지 않으며 어떤 방법으로도 검색 할 수 없습니다. 기본적으로 HDFS 파일 위치에서 Hive웨어 하우스 디렉토리로 LOAD 명령을 실행할 때 데이터를 이동합니다.

노트 : 웨어 하우스 디렉토리의 기본 경로는 / user / hive / warehouse로 설정됩니다. Hive 테이블의 데이터는 warehouse_directory에 있습니다. / table_name (HDFS). hive-site.xml에있는 hive.metastore.warehouse.dir 구성 매개 변수에서웨어 하우스 디렉토리의 경로를 지정할 수도 있습니다.

2. 외부 테이블 :

명령:

CREATE EXTERNAL TABLE (column1 data_type, column2 data_type) LOCATION‘’

테이블에‘’경로의 데이터로드

에 대한 외부 테이블 , Hive는 데이터 관리에 대한 책임이 없습니다. 이 경우 LOAD 명령을 실행하면 Hive가 데이터를웨어 하우스 디렉토리로 이동합니다. 그런 다음 Hive는 외부 테이블에 대한 메타 데이터 정보를 생성합니다. 이제 DROP 명령을 실행하면 외부 테이블 , 외부 테이블에 대한 메타 데이터 정보 만 삭제됩니다. 따라서 HDFS 명령을 사용하여웨어 하우스 디렉토리에서 외부 테이블의 데이터를 계속 검색 할 수 있습니다.

자바 문자열에서 날짜 가져 오기

파티션 :

명령:

CREATE TABLE table_name (column1 data_type, column2 data_type) PARTITIONED BY (partition1 data_type, partition2 data_type, & hellip.)

Hive는 테이블을 파티션으로 구성하여 열 또는 파티션 키를 기반으로 유사한 유형의 데이터를 함께 그룹화합니다. 각 테이블에는 특정 파티션을 식별하기위한 하나 이상의 파티션 키가있을 수 있습니다. 이를 통해 데이터 조각에 대해 더 빠른 쿼리를 수행 할 수 있습니다.

노트 : 파티션을 만드는 동안 가장 일반적인 실수는 기존 열 이름을 파티션 열로 지정하는 것입니다. 이렇게하는 동안 '의미 분석 오류 : 분할 열에서 열 반복'오류가 발생합니다.

student_id, 이름,학과, 연도 등 일부 공과 대학의 학생 정보가 포함 된 student_details 테이블이있는 경우를 예로 들어 파티션을 이해하겠습니다. 이제학과 열을 기준으로 파티셔닝을 수행하면 모든 학생의 정보가 특정 부서에 속하는 것은 바로 그 파티션에 함께 저장됩니다. 물리적으로 파티션은 테이블 디렉터리의 하위 디렉터리에 불과합니다.

student_details 테이블에 CSE, ECE 및 Civil의 세 부서에 대한 데이터가 있다고 가정 해 보겠습니다. 따라서 아래 이미지와 같이 각 부서에 대해 총 3 개의 파티션이 있습니다. 그리고 각 부서에 대한 모든 데이터는 Hive 테이블 디렉토리 아래의 별도의 하위 디렉토리에 있습니다. 예를 들어 CSE 부서에 관한 모든 학생 데이터는 user / hive / warehouse / student_details / dept. = CSE에 저장됩니다. 따라서 CSE 학생에 관한 쿼리는 CSE 파티션에있는 데이터 만 살펴보면됩니다. 이렇게하면 파티션 만 스캔하여 쿼리 지연 시간을 줄이므로 매우 유용합니다. 관련된 전체 데이터 세트 대신 분할 된 데이터. 실제로 실제 구현에서는 수백 TB의 데이터를 처리하게됩니다. 따라서이 방대한 양의 데이터를 검색하여 95 % 귀하가 스캔 한 데이터는 귀하의 검색어와 관련이 없습니다.

나는 당신이 블로그를 통해 갈 것을 제안합니다 Hive 명령 예를 들어 파티션을 구현하는 다양한 방법을 찾을 수 있습니다.

버킷 :

명령 :

CREATE TABLE table_name PARTITIONED BY (partition1 data_type, partition2 data_type, & hellip.) CLUSTERED BY (column_name1, column_name2,…) SORTED BY (column_name [ASC | DESC],…)] INTO num_buckets BUCKETS

이제 테이블 열의 해시 함수를 기반으로 각 파티션 또는 파티션을 나누지 않은 테이블을 버킷으로 나눌 수 있습니다. 실제로 각 버킷은 파티션 디렉터리 또는 테이블 디렉터리 (분할되지 않은 테이블)에있는 파일 일뿐입니다. 따라서 파티션을 n 개의 버킷으로 나누도록 선택한 경우 각 파티션 디렉터리에 n 개의 파일이 있습니다. 예를 들어, 각 파티션을 2 개의 버킷으로 버킷 화 한 위 이미지를 볼 수 있습니다. 따라서 각 파티션 (예 : CSE)에는 각각 CSE 학생의 데이터를 저장할 두 개의 파일이 있습니다.

Hive는 행을 버킷에 어떻게 배포합니까?

Hive는 다음 공식을 사용하여 행의 버킷 번호를 결정합니다. hash_function (bucketing_column) 모듈로 (num_of_buckets) . 여기, hash_function은 열 데이터 유형에 따라 다릅니다. 예를 들어 INT 데이터 유형의 일부 열 (user_id)을 기준으로 테이블을 버킷 화하는 경우 hash_function은 다음과 같습니다. hash_function (user_id ) = user_id의 정수 값 . 그리고 두 개의 버킷을 만들었다 고 가정하면 Hive는 다음을 계산하여 각 파티션에서 버킷 1로 이동할 행을 결정합니다.user_id의 값) 모듈로 (2). 따라서이 경우 user_id가 짝수 정수로 끝나는 행은 각 파티션에 해당하는 동일한 버킷에 상주합니다. 다른 데이터 유형에 대한 hash_function은 계산하기가 약간 복잡하며 실제로 문자열의 경우 사람이 인식 할 수도 없습니다.

노트 : Apache Hive 0.x 또는 1.x를 사용하는 경우 버킷 팅을 수행하기 전에 Hive 터미널에서 set hive.enforce.bucketing = true 명령을 실행해야합니다. 이를 통해 열을 버킷 팅하기 위해 cluster by 절을 사용하는 동안 올바른 수의 감속기를 가질 수 있습니다. 이를 수행하지 않은 경우 테이블 디렉토리에서 생성 된 파일 수가 버킷 수와 같지 않음을 알 수 있습니다. 또는 set mapred.reduce.task = num_bucket을 사용하여 리듀서 수를 버킷 수와 동일하게 설정할 수도 있습니다.

버킷이 필요한 이유는 무엇입니까?

파티션에 대해 버킷 팅을 수행하는 주요 이유는 두 가지입니다.

  • 지도 측 결합 고유 한 결합 키에 속하는 데이터가 동일한 파티션에 있어야합니다. 그러나 파티션 키가 조인과 다른 경우는 어떻습니까? 따라서 이러한 경우 조인 키를 사용하여 테이블을 버킷 화하여 맵 측 조인을 수행 할 수 있습니다.
  • 버킷 팅은 샘플링 프로세스를 더 효율적으로 만들어 쿼리 시간을 줄일 수 있습니다.

여기에서 Hive 튜토리얼 블로그를 마치고 싶습니다. 이 Hive 자습서 블로그를 살펴본 후 Apache Hive의 단순성을 깨달았을 것입니다. 그 이후로 여러분은 모든 Hive 기본 사항을 배웠습니다., Apache Hive에 대한 경험을 쌓을 때입니다. 따라서 Hive 설치에 관한이 Hive 자습서 블로그 시리즈의 다음 블로그를 확인하고 Apache Hive 작업을 시작하십시오.

이제 Apache Hive와 그 기능을 이해 했으므로 다음을 확인하십시오. 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.

질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.