Apache Hive 소개



Apache Hive는 Hadoop을 기반으로 구축 된 데이터웨어 하우징 패키지이며 데이터 분석에 사용됩니다. Hive는 SQL에 익숙한 사용자를 대상으로합니다.

Apache Hive는 Hadoop을 기반으로 구축 된 데이터웨어 하우징 패키지이며 데이터 분석에 사용됩니다. Hive는 SQL에 익숙한 사용자를 대상으로합니다. SQL과 유사하며 구조화 된 데이터를 관리하고 쿼리하는 데 사용되는 HiveQL이라고합니다. Apache Hive는 Hadoop의 복잡성을 추상화하는 데 사용됩니다. 이 언어를 사용하면 기존 맵 / 리 듀스 프로그래머가 맞춤형 맵퍼와 리듀서를 연결할 수 있습니다. Hive의 인기있는 기능은 Java를 배울 필요가 없다는 것입니다.





꼭두각시와 요리사는 무엇입니까

Hadoop을 기반으로하는 오픈 소스 페타 바이트 규모의 날짜웨어 하우징 프레임 워크 인 Hive는 Facebook의 데이터 인프라 팀에서 개발했습니다. Hive는 또한 Facebook의 요구 사항을 해결하는 데 사용되는 기술 중 하나입니다. Hive는 Facebook 내부의 모든 사용자에게 매우 인기가 있으며 다양한 애플리케이션을 위해 수백 명의 사용자가있는 클러스터에서 수천 개의 작업을 실행하는 데 사용되고 있습니다. Facebook의 Hive-Hadoop 클러스터는 2PB 이상의 원시 데이터를 저장하고 매일 15TB의 데이터를 정기적으로로드합니다.

인기 있고 사용자 친화적 인 몇 가지 기능을 살펴 보겠습니다.



  • 프로그래머가 사용자 정의 Mapper 및 Reducer를 연결할 수 있습니다.
  • 데이터웨어 하우스 인프라가 있습니다.
  • 간편한 데이터 ETL을 가능하게하는 도구를 제공합니다.
  • QL이라는 SQL과 유사한 쿼리 언어를 정의합니다.

Apache Hive 사용 사례 – Facebook :

Hive 사용 사례 – Facebook

Hive를 구현하기 전에 Facebook은 생성되는 데이터의 크기가 증가하거나 오히려 폭발하여 처리하기가 정말 어려웠 기 때문에 많은 문제에 직면했습니다. 전통적인 RDBMS는 압력을 감당할 수 없었기 때문에 Facebook은 더 나은 옵션을 찾고있었습니다. 이 임박한 문제를 해결하기 위해 Facebook은 처음에 Hadoop MapReduce를 사용해 보았지만 프로그래밍이 어렵고 SQL에 대한 필수 지식으로 인해 비실용적 인 솔루션이되었습니다. Hive는 그들이 직면 한 도전을 극복 할 수있게 해주었습니다.

Hive를 사용하면 이제 다음을 수행 할 수 있습니다.



  • 테이블을 분할하고 버킷화할 수 있습니다.
  • 스키마 유연성 및 진화
  • JDBC / ODBC 드라이버를 사용할 수 있습니다.
  • Hive 테이블은 HDFS에서 직접 정의 할 수 있습니다.
  • 확장 가능 – 유형, 형식, 기능 및 스크립트

의료 분야의 Hive 사용 사례 :

Hive는 어디에서 사용합니까?

Apache Hive는 다음 위치에서 사용할 수 있습니다.

  • 데이터 수집
  • 로그 처리
  • 문서 인덱싱
  • 고객 대면 비즈니스 인텔리전스
  • 예측 모델링
  • 가설 검증

Hive 아키텍처 :

Hive는 다음과 같은 주요 구성 요소로 구성됩니다.

  • Metastore – 메타 데이터를 저장합니다.
  • JDBC / ODBC – SQL 쿼리를 MapReduce 시퀀스로 변환하는 쿼리 컴파일러 및 실행 엔진.
  • SerDe 및 ObjectInspectors – 데이터 형식 및 유형용.
  • UDF / UDAF-사용자 정의 함수용.
  • 클라이언트 – MySQL 명령 줄 및 웹 UI와 유사합니다.

Hive의 구성 요소 :

메타 스토어 :

iOS 개발자 란?

Metastore는 테이블, 파티션, 테이블 내의 열에 대한 정보를 저장합니다. 메타 스토어에는 내장 메타 스토어, 로컬 메타 스토어 및 원격 메타 스토어의 세 가지 저장 방법이 있습니다. 대부분 원격 메타 스토어는 프로덕션 모드에서 사용됩니다.

Hive의 한계 :

자바 예제의 분할 함수

Hive에는 다음과 같은 제한 사항이 있으며 이러한 상황에서는 사용할 수 없습니다.

  • 온라인 거래 처리를 위해 설계되지 않았습니다.
  • 대화 형 데이터 검색에 허용 가능한 대기 시간을 제공합니다.
  • 실시간 쿼리 및 행 수준 업데이트를 제공하지 않습니다.
  • Hive 쿼리의 지연 시간은 일반적으로 매우 높습니다.

질문이 있으십니까? 댓글 섹션에 언급하시면 다시 연락 드리겠습니다.

관련 게시물:

Hive 명령