새로운 시대 쿼리 엔진 인 Apache Drill에서 드릴 다운



이 Apache Drill 자습서는 Apache Drill 쿼리 엔진을 시작하는 데 필요한 모든 정보, Hadoop, 빅 데이터 및 Apache Spark 사용을 제공합니다.

Apache Drill은 업계 최초의 스키마없는 SQL 엔진입니다. Drill은 세계 최초의 쿼리 엔진은 아니지만 유연성과 속도 간의 균형을 맞추는 최초의 엔진입니다. Drill은 수천 개의 노드로 확장하고 BI / Analytics 환경에 필요한 대화 형 속도로 페타 바이트의 데이터를 쿼리하도록 설계되었습니다.





Hive, HBase, MongoDB, 파일 시스템, RDBMS와 같은 여러 데이터 소스와 통합 할 수 있습니다. 또한 Avro, CSV, TSV, PSV, Parquet, Hadoop 시퀀스 파일 등과 같은 입력 형식을 Drill에서 쉽게 사용할 수 있습니다.

왜 Apache Drill인가?

Apache Drill의 가장 큰 장점은 데이터를 쿼리 할 때 즉시 스키마를 검색 할 수 있다는 것입니다. 또한 더 나은 분석을 위해 Tableau, Qlikview, MicroStrategy 등과 같은 BI 도구와 함께 작동 할 수 있습니다.



다음은 Apache Drill의 가치를 요약 한 업계 분석가의 인용문입니다.

“Drill은 SQL-on-Hadoop에 관한 것이 아닙니다. SQL-on-pretty-anything에 관한 것입니다. 즉석에서 형식 없이도 가능합니다. '

– Andrew Burst, Gigaom Research, 2015 년 1 월



Drillbit은 클러스터의 각 노드에서 실행되는 Apache Drill의 데몬입니다. 클러스터 및 유지 관리 클러스터 구성원의 모든 통신에 ZooKeeper를 사용합니다. 클라이언트의 요청을 수락하고, 쿼리를 처리하고, 결과를 클라이언트에 반환하는 역할을합니다. 클라이언트로부터 요청을받는 드릴 비트를‘포먼’이라고합니다. 실행 계획을 생성하고 실행 조각은 클러스터에서 실행중인 다른 드릴 비트로 전송됩니다.

Drillbits-Apache-Drill

또 다른 장점은 드릴의 설치 및 설정이 매우 간단하다는 것입니다. Apache Drill 설치 방법을 알아 보겠습니다.

첫 번째 단계는 드릴 패키지를 다운로드하는 것입니다.

셀레늄 웹 드라이버 예제의 데이터 기반 프레임 워크

명령: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

명령: tar -xvf apache-drill-1.5.0.tar.gz

명령: ls

다음으로 .bashrc 파일에 환경 변수를 설정합니다.

명령: sudo gedit .bashrc

내보내기 DRILL_HOME = / home / edureka / apache-drill-1.5.0

내보내기 PATH = $ PATH : /home/edureka/apache-drill-1.5.0/bin

이 명령은 변경 사항을 업데이트합니다.

명령: 소스 .bashrc

이제 drill conf 디렉토리로 이동하여 클러스터 ID와 zookeeper 호스트 및 포트를 사용하여 drill-override.conf 파일을 편집하고 로컬 클러스터에서 실행합니다.

명령: cd 아파치 드릴 -1.5.0

명령: sudo gedit conf / drill-override.conf

기본적으로 DRILL_MAX_DIRECT_MEMORY는 drill-env.sh에서 8GB이며 보유한 메모리에 따라 유지해야합니다.

명령: sudo gedit conf / drill-env.sh

드릴을 단일 노드에만 설치하려면 로컬에서 실행되는 임베디드 모드를 사용할 수 있습니다. 이 명령을 실행하면 드릴 비트 서비스가 자동으로 시작됩니다.

명령: ./bin/drill-embedded

간단한 쿼리를 실행하여 설치를 확인할 수 있습니다.

명령: 선택 * from sys.options WHERE type =‘SYSTEM’및 이름 (예 :‘security %’)

Apache Drill의 웹 콘솔을 확인하려면 웹 브라우저에서 localhost : 8047로 이동해야합니다.

쿼리 탭에서도 쿼리를 실행할 수 있습니다.

인공 지능 과정의 전제 조건

분산 모드에서 드릴을 실행하려면 아래와 같이 drill-override.conf에서 클러스터 ID를 편집하고 ZooKeeper 정보를 추가해야합니다.

그런 다음 각 노드에서 ZooKeeper 서비스를 시작해야합니다. 그런 다음이 명령으로 각 노드에서 드릴 비트 서비스를 시작해야합니다.

명령: ./bin/drillbit.sh 시작

명령: jps

이제 아래 명령을 사용하여 드릴 셸을 시작합니다.

이제 분산 모드에서 클러스터에 대한 쿼리를 실행할 수 있습니다.

이것은 2 부로 구성된 Apache Drill 블로그 시리즈의 첫 번째 블로그 게시물입니다. 시리즈의 두 번째 블로그가 곧 공개 될 예정입니다.

질문이 있으십니까? 댓글 섹션에서이를 언급하면 ​​다시 연락 드리겠습니다.

관련 게시물:

Apache Drill 파트 2에서 드릴 다운

Apache Spark 대 Hadoop MapReduce