Hive 데이터 모델



Hive 데이터 모델에는 데이터베이스, 테이블, 파티션 및 버킷 또는 클러스터와 같은 다음 구성 요소가 포함됩니다 .Hive는 정수, 부동 소수점, 복식 및 문자열과 같은 기본 유형을 지원합니다.

Hive는 데이터 요약, 임시 쿼리 및 Hadoop 호환 파일 시스템에 저장된 대규모 데이터 세트 분석을 용이하게하는 Hadoop 용 데이터웨어 하우스 시스템입니다. Hive는 데이터를 테이블, 행, 열 및 파티션과 같이 잘 알려진 데이터베이스 개념으로 구조화합니다. Integers, Floats, Doubles 및 Strings와 같은 기본 유형을 지원합니다. Hive는 또한 Associative Arrays, Lists, Structs를 지원하며 Serialize 및 Deserialized API를 사용하여 테이블 안팎으로 데이터를 이동합니다.





자바에서 최대 힙 구현

Hive 데이터 모델을 자세히 살펴 보겠습니다.

Hive 데이터 모델 :

Hive 데이터 모델에는 다음 구성 요소가 포함됩니다.



  • 데이터베이스
  • 테이블
  • 파티션
  • 버킷 또는 클러스터

파티션 :

파티션은 '데이터'와 같은 파티션 열의 값을 기준으로 테이블을 대략적인 부분으로 나누는 것을 의미합니다. 이렇게하면 데이터 조각에 대한 쿼리를 더 빠르게 수행 할 수 있습니다.

C ++ 범위 연산자

Hive 데이터 모델

그렇다면 파티션의 기능은 무엇입니까? 파티션 키는 데이터 저장 방법을 결정합니다. 여기서 파티션 키의 각 고유 값은 테이블의 파티션을 정의합니다. 파티션은 편의를 위해 날짜를 따서 명명됩니다. HDFS의 '블록 분할'과 유사합니다.



버킷 :

버킷은 효율적인 쿼리에 사용할 수있는 데이터에 추가 구조를 제공합니다. 조인 열을 포함하여 동일한 열에 버킷 화되는 두 테이블의 조인은 맵 측 조인으로 구현 될 수 있습니다. 사용 된 ID로 버킷 팅하면 전체 사용자 집합의 무작위 샘플에서 실행하여 사용자 기반 쿼리를 빠르게 평가할 수 있습니다.

질문이 있으십니까? 댓글 섹션에 언급 해 주시면 다시 연락 드리겠습니다.

관련 게시물:

자바 스크립트에서 배열 길이 가져 오기

유용한 Hive 명령