R과 Hadoop을 함께 사용하는 4 가지 방법



R과 Hadoop은 빅 데이터의 시각화 및 분석 측면에서 서로를 아주 잘 보완합니다. 이 블로그 게시물은 함께 사용하는 4 가지 방법에 대해 설명합니다.

Hadoop은 분산 컴퓨팅 환경에서 대규모 데이터 세트의 처리를 지원하는 파괴적인 Java 기반 프로그래밍 프레임 워크이며 R은 통계 컴퓨팅 및 그래픽을위한 프로그래밍 언어 및 소프트웨어 환경입니다. R 언어는 통계 소프트웨어를 개발하고 데이터 분석을 수행하기 위해 통계 학자 및 데이터 마이너 사이에서 널리 사용됩니다. 대화 형 데이터 분석, 범용 통계 및 예측 모델링 영역에서 R은 분류, 클러스터링 및 순위 지정 기능으로 인해 엄청난 인기를 얻었습니다.

KM





Hadoop과 R은 빅 데이터의 시각화 및 분석 측면에서 서로를 아주 잘 보완합니다.

R 및 Hadoop 사용

Hadoop과 R을 함께 사용하는 방법에는 네 가지가 있습니다.



1. RHadoop

RHadoop은 rmr, rhdfs 및 rhbase의 세 가지 R 패키지 모음입니다. rmr 패키지는 R에서 Hadoop MapReduce 기능을 제공하고, rhdfs는 R에서 HDFS 파일 관리를 제공하며, rhbase는 R 내에서 HBase 데이터베이스 관리를 제공합니다. 이러한 각 기본 패키지는 Hadoop 프레임 워크 데이터를 더 잘 분석하고 관리하는 데 사용할 수 있습니다.

자바 값으로 전달

2. ORCH



ORCH는 Oracle R Connector for Hadoop을 나타냅니다. Hive 테이블, Apache Hadoop 컴퓨팅 인프라, 로컬 R 환경 및 Oracle 데이터베이스 테이블과 함께 작동하기위한 관련 인터페이스를 제공하는 R 패키지 모음입니다. 또한 ORCH는 HDFS 파일의 데이터에 적용 할 수있는 예측 분석 기술도 제공합니다.

삼. 라이프

RHIPE는 Hadoop을 사용하기위한 API를 제공하는 R 패키지입니다. RHIPE는 R 및 Hadoop 통합 프로그래밍 환경을 나타내며 본질적으로 다른 API를 사용하는 RHadoop입니다.

네. Hadoop 스트리밍

Hadoop Streaming은 사용자가 매퍼 및 / 또는 감속기로 모든 실행 파일을 사용하여 작업을 만들고 실행할 수있게 해주는 유틸리티입니다. 스트리밍 시스템을 사용하면 동시에 작동하는 두 개의 셸 스크립트를 작성하기에 충분한 Java 지식으로 작동하는 Hadoop 작업을 개발할 수 있습니다.

R과 Hadoop의 조합은 통계 및 대규모 데이터 세트로 작업하는 사람들을위한 필수 툴킷으로 떠오르고 있습니다. 그러나 특정 Hadoop 애호가는 매우 큰 빅 데이터 조각을 처리하는 동안 위험 신호를 제기했습니다. 그들은 R의 장점은 구문이 아니라 시각화 및 통계를위한 원시 라이브러리의 완전한 라이브러리라고 주장합니다. 이러한 라이브러리는 기본적으로 분산되어 있지 않으므로 데이터 검색에 시간이 많이 걸립니다. 이것은 R의 내재 된 결함이며 간과하기로 선택하면 R과 Hadoop이 함께 작동 할 수 있습니다.

이제 데모를 보겠습니다.

질문이 있으십니까? 댓글 섹션에 언급 해 주시면 다시 연락 드리겠습니다.

관련 게시물: