Python Pandas 자습서 : 데이터 분석을위한 Pandas 배우기



이 Python Pandas 자습서에서는 Pandas의 다양한 작업을 배웁니다. 또한 Pandas를 사용하여 데이터를 분석 할 수있는 사용 사례도 포함됩니다.

이 블로그에서는 Python에서 Pandas를 사용한 데이터 분석에 대해 설명합니다.오늘, 전체적인 인기와 사용 측면에서 2017 년 PHP, 2018 년 C #을 능가한 업계의 뜨거운 기술입니다.Pandas에 대해 이야기하기 전에 Numpy 배열의 개념을 이해해야합니다. 왜? Pandas는 위에 구축 된 오픈 소스 소프트웨어 라이브러리이기 때문에 . 이 Python Pandas 자습서에서는 다음 블로그의 기본 사항이 될 다음 주제를 안내합니다.

시작하자. :-)





Python Pandas 란 무엇입니까?

Pandas는 데이터 조작, 분석 및 정리에 사용됩니다. Python pandas는 다음과 같은 다양한 종류의 데이터에 적합합니다.

  • 유형이 다른 열이있는 테이블 형식 데이터
  • 정렬 된 및 정렬되지 않은 시계열 데이터
  • 행 및 열 레이블이있는 임의 행렬 데이터
  • 레이블이없는 데이터
  • 다른 형태의 관찰 또는 통계 데이터 세트

Pandas를 설치하는 방법?

Python Pandas를 설치하려면 명령 줄 / 터미널로 이동하여 'pip install pandas'를 입력하거나 시스템에 anaconda가 설치되어있는 경우 'conda install pandas'를 입력하면됩니다. 설치가 완료되면 IDE (Jupyter, PyCharm 등)로 이동하여 'import pandas as pd'를 입력하여 가져옵니다.



Python pandas 가이드로 넘어 가서 몇 가지 작업을 살펴 ​​보겠습니다.

Python Pandas 작업

Python pandas를 사용하면 시리즈, 데이터 프레임, 누락 된 데이터, 그룹화 등으로 많은 작업을 수행 할 수 있습니다. 데이터 조작을위한 몇 가지 일반적인 작업은 다음과 같습니다.



PandasOperations-Python Pandas 튜토리얼-Edureka

자바에서 트림 메소드를 사용하는 방법

이제 이러한 모든 작업을 하나씩 이해합시다.

데이터 프레임 분할

데이터 슬라이스를 수행하려면 데이터 프레임이 필요합니다. 걱정하지 마세요. 데이터 프레임은 2 차원 데이터 구조이며 가장 일반적인 pandas 객체입니다. 먼저 데이터 프레임을 만들어 보겠습니다.

PyCharm에서 구현하려면 아래 코드를 참조하십시오.:

pandas as pd XYZ_web = { 'Day': [1,2,3,4,5,6], 'Visitors': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

산출 :

Bounce_Rate Day 방문자 0 20 1 1000 1 20 2 7002 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

위의 코드는 사전을 왼쪽의 인덱스와 함께 pandas 데이터 프레임으로 변환합니다. 이제이 데이터 프레임에서 특정 열을 분리 해 보겠습니다. 아래 이미지를 참조하십시오.

프린트 (df.head (2))

산출:

Bounce_Rate Day 방문자 0 20 1 1000 1 20 2 700

마찬가지로 데이터의 마지막 두 행을 원하면 아래 명령을 입력하십시오.

인쇄 (df.tail (2))

산출:

Bounce_Rate Day 방문자 4 10 5 400 5 34 6350

다음으로 Python Pandas 자습서에서 병합 및 결합을 수행하겠습니다.

병합 및 결합

병합시 두 데이터 프레임을 병합하여 단일 데이터 프레임을 형성 할 수 있습니다. 공통으로 만들 열을 결정할 수도 있습니다. 실제로 구현해 보겠습니다. 먼저 키-값 쌍이있는 세 개의 데이터 프레임을 만든 다음 데이터 프레임을 병합합니다. 아래 코드를 참조하십시오.

HPI IND_GDP Int_Rate 0 80 50 21 90 4512 70 45 2 3 60 67 3

산출:

pandas를 pd로 가져 오기 df1 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2) print (merged)

위에서 볼 수 있듯이 두 데이터 프레임이 단일 데이터 프레임으로 병합되었습니다. 이제 공통으로 만들 열을 지정할 수도 있습니다. 예를 들어 'HPI'열은 공통적으로 사용하고 다른 모든 열에는 별도의 열이 필요합니다. 그래서 실제로 구현해 보겠습니다.

df1 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2, on = 'HPI') print (merged)

산출:

IND_GDP Int_Rate Low_Tier_HPI 실업 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

다음으로 이해합시다 합류 python pandas 튜토리얼에서. 두 개의 서로 다른 인덱스 데이터 프레임을 단일 결과 데이터 프레임으로 결합하는 또 다른 편리한 방법입니다. 조인 작업이 '열'대신 '인덱스'에 있다는 점을 제외하면 '병합'작업과 매우 유사합니다. 실제로 구현합시다.

df1 = pd.DataFrame ({ 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({ 'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) 가입 됨 = df1. join (df2) print (joined)

산출:

IND_GDP Int_Rate Low_Tier_HPI 실업 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

위 출력에서 ​​알 수 있듯이 2002 년 (인덱스)에는“low_tier_HPI”및“unemployment”열에 값이 첨부되지 않았으므로 NaN (Not a Number)이 인쇄되었습니다. 2004 년 후반에 두 값을 모두 사용할 수 있으므로 각각의 값을 인쇄했습니다.

강사가이 개념을 더 잘 이해하는 데 도움이되는 예제와 함께 주제를 자세히 설명하는 Python Pandas 자습서의이 녹음을 살펴볼 수 있습니다.

데이터 분석 용 Python | Python Pandas 자습서 | Python 교육 | Edureka


Python pandas 튜토리얼에서 두 개의 데이터 데이터 프레임을 연결하는 방법을 이해하겠습니다.

연쇄

연결은 기본적으로 데이터 프레임을 함께 붙입니다. 연결하려는 차원을 선택할 수 있습니다. 이를 위해 'pd.concat'을 사용하고 함께 연결할 데이터 프레임 목록을 전달합니다. 아래 예를 고려하십시오.

df1 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

산출:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

위에서 볼 수 있듯이 두 데이터 프레임은 단일 데이터 프레임에 함께 붙어 있습니다. 여기서 인덱스는 2001 년부터 2008 년까지 시작됩니다. 다음으로 열을 따라 결합, 병합 또는 cancatenate하기 위해 axis = 1을 지정할 수도 있습니다. 아래 코드를 참조하십시오.

df1 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({ 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

산출:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

위에서 할 수 있듯이 많은 결 측값이 있습니다. 연결하려는 모든 인덱스에 대한 값이 데이터 프레임에 없었기 때문에 발생합니다. 따라서 축에서 조인하거나 연결할 때 모든 정보가 올바르게 정렬되었는지 확인해야합니다.

색인 변경

다음으로 python pandas 가이드에서는 데이터 프레임에서 색인 값을 변경하는 방법을 이해합니다. 예를 들어 사전에 키 값 쌍이있는 데이터 프레임을 만들고 인덱스 값을 변경해 보겠습니다. 아래 예를 고려하십시오.

실제로 어떻게 발생하는지 살펴 보겠습니다.

pandas를 pd로 가져 오기 df = pd.DataFrame ({ 'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ( 'Day', inplace = True) print (df)

산출:

Bounce_Rate 방문자 1 일차 20200 2 45100 3 60230 4 10300

위의 출력에서 ​​알 수 있듯이 'Day'열에 대해 인덱스 값이 변경되었습니다.

열 헤더 변경

이제이 python pandas 튜토리얼에서 열의 헤더를 변경해 보겠습니다. 동일한 예를 들어 열 헤더를 'Visitors'에서 'Users'로 변경하겠습니다. 그래서 실제로 구현하겠습니다.

pandas as pd df = pd.DataFrame ({ 'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (columns = { 'Visitors': 'Users'}) print (df)

산출:

Bounce_Rate Day 사용자 0 20 1200 1 45 2100 2 60 3230 3 104300

위와 같이 '방문자'열 헤더가 '사용자'로 변경되었습니다. 다음으로 python pandas 튜토리얼에서 데이터 정리를 수행하겠습니다.

데이터 결합

데이터 병합에서 특정 데이터를 다른 형식으로 변환 할 수 있습니다. 예를 들어 .csv 파일이있는 경우 .html 또는 다른 데이터 형식으로도 변환 할 수 있습니다. 그래서 이것을 실제로 구현하겠습니다.

팬더를 pd로 가져 오기 country = pd.read_csv ( 'D : UsersAayushiDownloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv', index_col = 0) country.to_html ( 'edu.html')

이 코드를 실행하면 'edu.html'이라는 이름의 HTML 파일이 생성됩니다. 파일 경로를 직접 복사하여 HTML 형식으로 데이터를 표시하는 브라우저에 붙여 넣을 수 있습니다. 아래 스크린 샷을 참조하십시오.


다음으로 python pandas 튜토리얼에서 전 세계 청소년 실업에 대해 이야기하는 사용 사례를 살펴 보겠습니다.

Python Pandas 자습서 : 청소년 실업 데이터 분석을위한 사용 사례

문제 설명 :다음과 같은 데이터 세트가 제공됩니다. 2010 년부터 2014 년까지 전 세계 실업자 청소년 비율로 구성됩니다.이 데이터 세트를 사용하여 2010 년부터 2011 년까지 모든 국가의 청소년 비율 변화를 찾아야합니다.

먼저 국가 이름, 국가 코드 및 2010 년부터 2014 년까지의 연도를 포함하는 데이터 집합을 이해하겠습니다. 이제 pandas를 사용하여 'pd.read_csv'를 사용하여 .csv 파일 형식 파일을 읽습니다.
아래 스크린 샷을 참조하십시오.

계속해서 2010 년에서 2011 년 사이 청년 실업률의 변화율을 알아낼 데이터 분석을 수행해 보겠습니다. 그런 다음이를 사용하여 시각화합니다. 라이브러리는 Python에서 시각화를위한 강력한 라이브러리입니다. Python 스크립트, 셸, 웹 애플리케이션 서버 및 기타 GUI 툴킷에서 사용할 수 있습니다. 여기에서 자세히 읽을 수 있습니다.

이제 PyCharm에서 코드를 구현해 보겠습니다.

import pandas를 pd로 import matplotlib.pyplot as plt from matplotlib import style.use ( 'fivethirtyeight') country = pd.read_csv ( 'D : UsersAayushiDownloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index ([ '국가 코드']) sd = sd.reindex (columns = [ '2010', '2011']) db = sd.diff (axis = 1) db.plot (종류 = 'bar') plt.show ()

위에서 볼 수 있듯이 국가 데이터 프레임의 상위 5 개 행에 대한 분석을 수행했습니다. 다음으로 색인 값을 '국가 코드'로 정의한 다음 열을 2010 년과 2011 년으로 다시 색인화했습니다. 그런 다음 두 열의 차이 또는 실업자 청년 비율 변화를 인쇄하는 데이터 프레임 db가 하나 더 있습니다. 마지막으로 Python에서 Matplotlib 라이브러리를 사용하여 막대 그래프를 그렸습니다.


위의 플롯에서 눈치 채 셨다면 2010 년부터 2011 년까지 아프가니스탄 (AFG)에서 실업 청년이 약. 0.25 %. 그런 다음 앙골라 (AGO)에서는 청년 실업률이 감소했다는 부정적인 추세가 있습니다. 마찬가지로 다양한 데이터 세트에 대한 분석을 수행 할 수 있습니다.

'Python Pandas Tutorial'에 대한 제 블로그가 귀하에게 관련이 있었기를 바랍니다. 다양한 응용 프로그램과 함께 파이썬에 대한 심층적 인 지식을 얻으려면 라이브에 등록 할 수 있습니다. 24/7 지원 및 평생 액세스를 제공하는 Edureka

질문이 있으십니까? 이 'Python Pandas 튜토리얼'블로그의 댓글 섹션에 언급 해 주시면 가능한 한 빨리 연락 드리겠습니다.