Apache Drill은 업계 최초의 스키마없는 SQL 엔진입니다. Drill은 세계 최초의 쿼리 엔진은 아니지만 유연성과 속도 간의 균형을 맞추는 최초의 엔진입니다. Drill은 수천 개의 노드로 확장하고 BI / Analytics 환경에 필요한 대화 형 속도로 페타 바이트의 데이터를 쿼리하도록 설계되었습니다.
Hive, HBase, MongoDB, 파일 시스템, RDBMS와 같은 여러 데이터 소스와 통합 할 수 있습니다. 또한 Avro, CSV, TSV, PSV, Parquet, Hadoop 시퀀스 파일 등과 같은 입력 형식을 Drill에서 쉽게 사용할 수 있습니다.
왜 Apache Drill인가?
Apache Drill의 가장 큰 장점은 데이터를 쿼리 할 때 즉시 스키마를 검색 할 수 있다는 것입니다. 또한 더 나은 분석을 위해 Tableau, Qlikview, MicroStrategy 등과 같은 BI 도구와 함께 작동 할 수 있습니다.
다음은 Apache Drill의 가치를 요약 한 업계 분석가의 인용문입니다.
“Drill은 SQL-on-Hadoop에 관한 것이 아닙니다. SQL-on-pretty-anything에 관한 것입니다. 즉석에서 형식 없이도 가능합니다. '
– Andrew Burst, Gigaom Research, 2015 년 1 월
Drillbit은 클러스터의 각 노드에서 실행되는 Apache Drill의 데몬입니다. 클러스터 및 유지 관리 클러스터 구성원의 모든 통신에 ZooKeeper를 사용합니다. 클라이언트의 요청을 수락하고, 쿼리를 처리하고, 결과를 클라이언트에 반환하는 역할을합니다. 클라이언트로부터 요청을받는 드릴 비트를‘포먼’이라고합니다. 실행 계획을 생성하고 실행 조각은 클러스터에서 실행중인 다른 드릴 비트로 전송됩니다.
또 다른 장점은 드릴의 설치 및 설정이 매우 간단하다는 것입니다. Apache Drill 설치 방법을 알아 보겠습니다.
첫 번째 단계는 드릴 패키지를 다운로드하는 것입니다.
셀레늄 웹 드라이버 예제의 데이터 기반 프레임 워크
명령: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
명령: tar -xvf apache-drill-1.5.0.tar.gz
명령: ls
다음으로 .bashrc 파일에 환경 변수를 설정합니다.
명령: sudo gedit .bashrc
내보내기 DRILL_HOME = / home / edureka / apache-drill-1.5.0
내보내기 PATH = $ PATH : /home/edureka/apache-drill-1.5.0/bin
이 명령은 변경 사항을 업데이트합니다.
명령: 소스 .bashrc
이제 drill conf 디렉토리로 이동하여 클러스터 ID와 zookeeper 호스트 및 포트를 사용하여 drill-override.conf 파일을 편집하고 로컬 클러스터에서 실행합니다.
명령: cd 아파치 드릴 -1.5.0
명령: sudo gedit conf / drill-override.conf
기본적으로 DRILL_MAX_DIRECT_MEMORY는 drill-env.sh에서 8GB이며 보유한 메모리에 따라 유지해야합니다.
명령: sudo gedit conf / drill-env.sh
드릴을 단일 노드에만 설치하려면 로컬에서 실행되는 임베디드 모드를 사용할 수 있습니다. 이 명령을 실행하면 드릴 비트 서비스가 자동으로 시작됩니다.
명령: ./bin/drill-embedded
간단한 쿼리를 실행하여 설치를 확인할 수 있습니다.
명령: 선택 * from sys.options WHERE type =‘SYSTEM’및 이름 (예 :‘security %’)
Apache Drill의 웹 콘솔을 확인하려면 웹 브라우저에서 localhost : 8047로 이동해야합니다.
쿼리 탭에서도 쿼리를 실행할 수 있습니다.
인공 지능 과정의 전제 조건
분산 모드에서 드릴을 실행하려면 아래와 같이 drill-override.conf에서 클러스터 ID를 편집하고 ZooKeeper 정보를 추가해야합니다.
그런 다음 각 노드에서 ZooKeeper 서비스를 시작해야합니다. 그런 다음이 명령으로 각 노드에서 드릴 비트 서비스를 시작해야합니다.
명령: ./bin/drillbit.sh 시작
명령: jps
이제 아래 명령을 사용하여 드릴 셸을 시작합니다.
이제 분산 모드에서 클러스터에 대한 쿼리를 실행할 수 있습니다.
이것은 2 부로 구성된 Apache Drill 블로그 시리즈의 첫 번째 블로그 게시물입니다. 시리즈의 두 번째 블로그가 곧 공개 될 예정입니다.
질문이 있으십니까? 댓글 섹션에서이를 언급하면 다시 연락 드리겠습니다.
관련 게시물: