Pig 프로그래밍 : 첫 번째 Apache Pig 스크립트 만들기



이 블로그 게시물을 읽고 첫 번째 Apache Pig 스크립트를 작성하십시오. Apache Pig 스크립트는 Apache Pig 명령 집합을 집합 적으로 실행하는 데 사용됩니다.

Pig 프로그래밍 : 첫 번째 Apache Pig 스크립트 만들기

우리의 , 이제 Apache Pig 스크립트를 만드는 방법을 배웁니다. Apache Pig 스크립트는 Apache Pig 명령 집합을 집합 적으로 실행하는 데 사용됩니다. 이렇게하면 Pig 프로그래밍에서이 작업을 수행하는 동안 각 명령을 수동으로 작성하고 실행하는 데 드는 시간과 노력을 줄이는 데 도움이됩니다.또한 .이 블로그는 첫 번째 Apache Pig 스크립트를 만드는 데 도움이되는 단계별 가이드입니다.

Apache Pig 스크립트 실행 모드

로컬 모드 : '로컬 모드'에서는 로컬 파일 시스템에서 pig 스크립트를 실행할 수 있습니다. 이 경우 데이터를 Hadoop HDFS 파일 시스템에 저장할 필요가 없습니다. 대신 로컬 파일 시스템 자체에 저장된 데이터로 작업 할 수 있습니다.





MapReduce 모드 : 'MapReduce 모드'에서는 데이터를 HDFS 파일 시스템에 저장해야하며 pig 스크립트를 사용하여 데이터를 처리 할 수 ​​있습니다.

MapReduce 모드의 Apache Pig 스크립트

우리의 임무는 데이터 파일에서 데이터를 읽고 필요한 내용을 터미널에 출력으로 표시하는 것입니다.



샘플 데이터 파일에는 다음 데이터가 포함됩니다.

정보 txt 파일-Apache Pig Script-Edureka

'information.txt'라는 이름으로 텍스트 파일을 저장합니다.



샘플 데이터 파일에는 5 개의 열이 있습니다. 이름 , , 모바일 , 시티 , 및 직업 로 구분 탭 키 . 우리의 임무는 HDFS에서이 파일의 내용을 읽고이 레코드의 모든 열을 표시하는 것입니다.

Pig를 사용하여이 데이터를 처리하려면이 파일이 Apache Hadoop HDFS에 있어야합니다.

명령 : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

1 단계: Pig 스크립트 작성

편집기에서 Apache Pig 스크립트 파일을 만들고 엽니 다 (예 : gedit).

명령 : sudo gedit /home/edureka/output.pig

이 명령은 edureka 사용자의 홈 디렉토리 내에‘output.pig’파일을 생성합니다.

output.pig 파일에 몇 가지 PIG 명령을 작성해 보겠습니다.

A = PigStorage ( '')를 (FName : chararray, LName : chararray, MobileNo : chararray, City : chararray, Profession : chararray)로 사용하여 '/edureka/information.txt'로드 B = FOREACH A FName 생성, MobileNo, Profession DUMP 비

파일을 저장하고 닫습니다.

  • 첫 번째 명령은 간접 스키마 (FName, LName, MobileNo, City, Profession)를 사용하여‘information.txt’파일을 변수 A에로드합니다.
  • 두 번째 명령은 변수 A에서 변수 B로 필요한 데이터를로드합니다.
  • 세 번째 줄은 터미널 / 콘솔에있는 변수 B의 내용을 표시합니다.

2 단계: Apache Pig 스크립트 실행

HDFS 모드에서 pig 스크립트를 실행하려면 다음 명령을 실행하십시오.

명령 : 돼지 /home/edureka/output.pig

실행이 완료되면 결과를 검토하십시오. 아래 이미지는 결과와 중간 맵을 보여주고 기능을 줄입니다.

아래 이미지는 스크립트가 성공적으로 실행되었음을 보여줍니다.

아래 이미지는 스크립트의 결과를 보여줍니다.

자바에서 세트를 사용하는 방법

첫 번째 Apache Pig 스크립트를 성공적으로 실행 한 것을 축하합니다!

이제 Apache Pig 스크립트를 만들고 실행하는 방법을 알았습니다. 따라서 다음 블로그는 방법을 다룰 것입니다 Apache Pig에서 UDF (사용자 정의 함수) 생성 MapReduce / HDFS 모드에서 실행합니다.

이제 Apache Pig 스크립트를 만들고 실행 했으므로 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 작성했습니다. Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.

질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.