pbj0812의 코딩 일기

[PYTHON] dataprep을 통한 EDA 본문

ComputerLanguage_Program/PYTHON

[PYTHON] dataprep을 통한 EDA

pbj0812 2020. 8. 23. 01:09

0. 목표 

 - dataprep 을 통한 EDA

1. 설치

pip install dataprep

2. 실습

 1) library 호출

from dataprep.eda import *
import pandas as pd

 2) 데이터 읽기

  - titanic 데이터 사용

train_df = pd.read_csv('/Users/pbj0812/Desktop/titanic/train.csv')

 3) 전체 데이터에 대한 plot

plot(train_df)

 - 위의 Show Stats Info 클릭시 요약 테이블 정보 호출

 4) 데이터 카테고리화 및 재 시각화

  - Survived와 Pclass는 숫자가 아닌 카테고리이기 때문에 object로 변환

for col in ['Survived', 'Pclass']:
    train_df[col] = train_df[col].astype("object")
plot(train_df)

  - 결과

 5) 결측값 시각화

plot_missing(train_df)

 6) 각 카테고리의 Survived에 대한 영향 확인

  - Embarked 를 통한 예제

feature = 'Embarked'   
plot(train_df, feature, 'Survived')

 7) 상관도

plot_correlation(train_df)

3. 참고

 - pypi(dataprep)

 - EDA Case Study: Titanic

Comments