빅 데이터 크 런칭을위한 필수 Hadoop 도구



Hadoop은 오늘날 IT 세계에서 유행하는 단어이며이 게시물에서는 빅 데이터를 처리하는 필수 Hadoop 도구에 대해 설명합니다.

오늘날 IT 세계에서 가장 인기있는 용어는‘하둡’입니다. 짧은 시간 안에 하둡 대규모로 성장했으며 다양한 프로젝트의 대규모 컬렉션에 유용한 것으로 입증되었습니다. Hadoop 커뮤니티는 빠르게 진화하고 있으며 생태계에서 중요한 역할을합니다.





다음은 빅 데이터를 처리하는 데 사용되는 필수 Hadoop 도구입니다.

ambari



암 바리 Hortonworks에서 지원하는 Apache 프로젝트입니다. 대부분의 표준 구성 요소로 클러스터를 설정하기위한 마법사 스크립트와 함께 웹 기반 GUI (그래픽 사용자 인터페이스)를 제공합니다. Ambari는 Hadoop 작업의 모든 클러스터를 프로비저닝, 관리 및 모니터링합니다.

hdfs-logo

그만큼 HDFS , Apache 라이센스에 따라 배포되는 것은 여러 노드간에 데이터 수집을 분할하기위한 기본 프레임 워크를 제공합니다. HDFS에서 큰 파일은 여러 노드가 파일의 모든 블록을 보유하는 블록으로 나뉩니다. 파일 시스템은 내결함성과 높은 처리량을 혼합하는 방식으로 설계되었습니다. HDFS 블록은 안정적인 스트리밍을 유지하기 위해로드됩니다. 일반적으로 대기 시간을 최소화하기 위해 캐시되지 않습니다.



요리사 대 꼭두각시 대 ansible

hbaselogo

HBase HDFS 위에서 실행되는 컬럼 지향 데이터베이스 관리 시스템입니다. HBase 애플리케이션은 MapReduce 애플리케이션과 매우 유사하게 Java로 작성됩니다. 테이블 세트로 구성되며 각 테이블에는 기존 데이터베이스와 같이 행과 열이 포함됩니다. 데이터가 큰 테이블에 들어가면 HBase는 데이터를 저장하고 검색 한 다음 여러 노드에서 테이블을 자동으로 공유하여 MapReduce 작업이 로컬에서 실행할 수 있도록합니다. HBase는 일부 지역 변경에 대해 제한적인 보증을 제공합니다. 단일 행에서 발생하는 변경 사항은 동시에 성공하거나 실패 할 수 있습니다.

hive

이미 SQL에 능통하다면 다음을 사용하여 Hadoop을 활용할 수 있습니다. 하이브 . Hive는 Facebook의 일부 사람들이 개발했습니다. Apache Hive는 HBase의 모든 파일에서 비트를 추출하는 프로세스를 규제합니다. Hadoop의 HDFS 및 호환 파일 시스템에 저장된 대규모 데이터 세트의 분석을 지원합니다. 또한 파일에 들어가서 코드에 필요한 스 니펫을 추출하는 HSQL (HiveSQL)이라는 SQL 유사 언어를 제공합니다.

sqoop

Apache Sqoop 기존 데이터베이스에서 Hive 또는 HBase로 대량 데이터를 효율적으로 전송하도록 특별히 설계되었습니다. 또한 Hadoop에서 데이터를 추출하여 관계형 데이터베이스 및 엔터프라이즈 데이터웨어 하우스와 같은 외부 구조화 된 데이터 저장소로 내보낼 수 있습니다. Sqoop은 테이블과 데이터 스토리지 계층을 매핑하는 명령 줄 도구로, 테이블을 HDFS, HBase 또는 Hive의 구성 가능한 조합으로 변환합니다.

Pig1

저장된 데이터가 Hadoop에 표시되면 Apache Pig 데이터를 조사하고 Pig Latin이라는 자체 언어로 작성된 코드를 실행합니다. Pig Latin은 데이터 처리를위한 추상화로 채워져 있습니다. Pig는 데이터 평균화, 날짜 작업 또는 문자열 간의 차이점 찾기와 같은 일반적인 작업을위한 표준 기능을 제공합니다. 또한 Pig를 사용하면 표준 함수가 부족할 때 UDF (User Defined Function)라는 언어를 직접 작성할 수 있습니다.

zookeper

사육사 정보를 유지 및 구성하고 이름을 지정하고 클러스터 전체에 분산 된 동기화를 제공하는 중앙 집중식 서비스입니다. 클러스터에 파일 시스템과 같은 계층을 적용하고 시스템에 대한 모든 메타 데이터를 저장하므로 다양한 시스템의 작업을 동기화 할 수 있습니다.

NoSQL

일부 Hadoop 클러스터는 NoSQL 노드 클러스터에 데이터를 저장하기위한 자체 메커니즘과 함께 제공되는 데이터 저장소. 이를 통해 NoSQL 데이터베이스의 모든 기능을 사용하여 데이터를 저장하고 검색 할 수 있으며, 그 후에 Hadoop을 사용하여 동일한 클러스터에서 데이터 분석 작업을 예약 할 수 있습니다.

mahoutlogo

코끼리 부리는 사람 수많은 알고리즘, 분류 및 데이터 분석 필터링을 Hadoop 클러스터에 구현하도록 설계되었습니다. K- 평균, Dirichelet, 병렬 패턴 및 베이지안 분류와 같은 많은 표준 알고리즘이 Hadoop 스타일 맵을 사용하여 데이터에서 실행되고 축소됩니다.

루센, Java로 작성되고 Hadoop과 쉽게 통합되는 것은 Hadoop의 자연스러운 동반자입니다. 구조화되지 않은 텍스트의 큰 블록을 인덱싱하기위한 도구입니다. Lucene은 인덱싱을 처리하고 Hadoop은 클러스터 전체에서 분산 쿼리를 처리합니다. Lucene-Hadoop 기능은 새로운 프로젝트가 개발됨에 따라 빠르게 발전하고 있습니다.

Avro

유로 데이터를 이해하기 위해 스키마와 함께 데이터를 묶는 직렬화 시스템입니다. 각 패킷은 JSON 데이터 구조와 함께 제공됩니다. JSON은 데이터를 구문 분석하는 방법을 설명합니다. JSON의 헤더는 데이터의 구조를 지정하므로 필드를 표시하기 위해 데이터에 추가 태그를 작성해야하는 것을 피할 수 있습니다. 출력은 XML과 같은 기존 형식보다 훨씬 더 간결합니다.

작업을 단계로 나누면 작업을 단순화 할 수 있습니다. 프로젝트를 여러 Hadoop 작업으로 나누면 우지 올바른 순서로 처리를 시작합니다. DAG (Directed Acyclic Graph)에서 지정한대로 워크 플로우를 관리하며 적시에 모니터링 할 필요가 없습니다.

GIS 도구

지리지도 작업은 Hadoop을 실행하는 클러스터에서 큰 작업입니다. GIS ( 지리 정보 시스템 ) Hadoop 프로젝트 용 도구는 Hadoop과 함께 실행할 지리 정보를 이해하기위한 최고의 Java 기반 도구를 채택했습니다. 이제 데이터베이스는 좌표를 사용하여 지리 쿼리를 처리 할 수 ​​있으며 코드는 GIS 도구를 배포 할 수 있습니다.

모든 데이터를 수집하는 것은 데이터를 저장하고 분석하는 것과 같습니다. Apache Flume HDFS에 저장 될 정보를 수집하기 위해 '특수 에이전트'를 파견합니다. 수집되는 정보는 로그 파일, Twitter API 또는 웹 사이트 스크랩 일 수 있습니다. 이러한 데이터를 연결하여 분석 할 수 있습니다.

Spark

불꽃 메모리에 캐시 된 데이터를 처리하는 Hadoop처럼 거의 작동하는 차세대 제품입니다. 목표는 일반적인 실행 모델을 사용하여 데이터 분석을 빠르게 실행하고 작성하는 것입니다. 이는 임의의 연산자 그래프를 최적화하고 인 메모리 컴퓨팅을 지원하므로 Hadoop과 같은 디스크 기반 엔진보다 빠르게 데이터를 쿼리 할 수 ​​있습니다.

Hadoop의 SQL

클러스터의 모든 데이터에 대해 빠른 임시 쿼리를 실행해야하는 경우 새 Hadoop 작업을 작성할 수 있지만 시간이 걸립니다. 프로그래머가이 작업을 더 자주 시작했을 때 간단한 SQL 언어로 작성된 도구를 생각해 냈습니다. 이러한 도구는 결과에 대한 빠른 액세스를 제공합니다.

Apache Drill

Apache Drill은 중첩 된 데이터를 포함하여 수많은 다양한 데이터 소스에 짧은 지연 시간 임시 쿼리를 제공합니다. Google의 Dremel에서 영감을 얻은 Drill은 10,000 개의 서버로 확장하고 몇 초 만에 페타 바이트의 데이터를 쿼리하도록 설계되었습니다.

빅 데이터를 처리하기위한 필수 Hadoop 도구입니다!

질문이 있으십니까? 댓글 섹션에 언급 해 주시면 다시 연락 드리겠습니다.

관련 게시물:

Hadoop 2.0을 배우는 실질적인 이유