Pig 프로그래밍 : 첫 번째 Apache Pig 스크립트 만들기
우리의 , 이제 Apache Pig 스크립트를 만드는 방법을 배웁니다. Apache Pig 스크립트는 Apache Pig 명령 집합을 집합 적으로 실행하는 데 사용됩니다. 이렇게하면 Pig 프로그래밍에서이 작업을 수행하는 동안 각 명령을 수동으로 작성하고 실행하는 데 드는 시간과 노력을 줄이는 데 도움이됩니다.또한 .이 블로그는 첫 번째 Apache Pig 스크립트를 만드는 데 도움이되는 단계별 가이드입니다.
Apache Pig 스크립트 실행 모드
로컬 모드 : '로컬 모드'에서는 로컬 파일 시스템에서 pig 스크립트를 실행할 수 있습니다. 이 경우 데이터를 Hadoop HDFS 파일 시스템에 저장할 필요가 없습니다. 대신 로컬 파일 시스템 자체에 저장된 데이터로 작업 할 수 있습니다.
MapReduce 모드 : 'MapReduce 모드'에서는 데이터를 HDFS 파일 시스템에 저장해야하며 pig 스크립트를 사용하여 데이터를 처리 할 수 있습니다.
MapReduce 모드의 Apache Pig 스크립트
우리의 임무는 데이터 파일에서 데이터를 읽고 필요한 내용을 터미널에 출력으로 표시하는 것입니다.
샘플 데이터 파일에는 다음 데이터가 포함됩니다.
'information.txt'라는 이름으로 텍스트 파일을 저장합니다.
샘플 데이터 파일에는 5 개의 열이 있습니다. 이름 , 성 , 모바일 , 시티 , 및 직업 로 구분 탭 키 . 우리의 임무는 HDFS에서이 파일의 내용을 읽고이 레코드의 모든 열을 표시하는 것입니다.
Pig를 사용하여이 데이터를 처리하려면이 파일이 Apache Hadoop HDFS에 있어야합니다.
명령 : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
1 단계: Pig 스크립트 작성
편집기에서 Apache Pig 스크립트 파일을 만들고 엽니 다 (예 : gedit).
명령 : sudo gedit /home/edureka/output.pig
이 명령은 edureka 사용자의 홈 디렉토리 내에‘output.pig’파일을 생성합니다.
output.pig 파일에 몇 가지 PIG 명령을 작성해 보겠습니다.
A = PigStorage ( '')를 (FName : chararray, LName : chararray, MobileNo : chararray, City : chararray, Profession : chararray)로 사용하여 '/edureka/information.txt'로드 B = FOREACH A FName 생성, MobileNo, Profession DUMP 비
파일을 저장하고 닫습니다.
- 첫 번째 명령은 간접 스키마 (FName, LName, MobileNo, City, Profession)를 사용하여‘information.txt’파일을 변수 A에로드합니다.
- 두 번째 명령은 변수 A에서 변수 B로 필요한 데이터를로드합니다.
- 세 번째 줄은 터미널 / 콘솔에있는 변수 B의 내용을 표시합니다.
2 단계: Apache Pig 스크립트 실행
HDFS 모드에서 pig 스크립트를 실행하려면 다음 명령을 실행하십시오.
명령 : 돼지 /home/edureka/output.pig
실행이 완료되면 결과를 검토하십시오. 아래 이미지는 결과와 중간 맵을 보여주고 기능을 줄입니다.
아래 이미지는 스크립트가 성공적으로 실행되었음을 보여줍니다.
아래 이미지는 스크립트의 결과를 보여줍니다.
자바에서 세트를 사용하는 방법
첫 번째 Apache Pig 스크립트를 성공적으로 실행 한 것을 축하합니다!
이제 Apache Pig 스크립트를 만들고 실행하는 방법을 알았습니다. 따라서 다음 블로그는 방법을 다룰 것입니다 Apache Pig에서 UDF (사용자 정의 함수) 생성 MapReduce / HDFS 모드에서 실행합니다.
이제 Apache Pig 스크립트를 만들고 실행 했으므로 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 작성했습니다. Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.
질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.