ComputerLanguage_Program/PYTHON
[PYTHON] dataprep을 통한 EDA
pbj0812
2020. 8. 23. 01:09
0. 목표
- dataprep 을 통한 EDA
1. 설치
pip install dataprep
2. 실습
1) library 호출
from dataprep.eda import *
import pandas as pd
2) 데이터 읽기
- titanic 데이터 사용
train_df = pd.read_csv('/Users/pbj0812/Desktop/titanic/train.csv')
3) 전체 데이터에 대한 plot
plot(train_df)
- 위의 Show Stats Info 클릭시 요약 테이블 정보 호출
4) 데이터 카테고리화 및 재 시각화
- Survived와 Pclass는 숫자가 아닌 카테고리이기 때문에 object로 변환
for col in ['Survived', 'Pclass']:
train_df[col] = train_df[col].astype("object")
plot(train_df)
- 결과
5) 결측값 시각화
plot_missing(train_df)
6) 각 카테고리의 Survived에 대한 영향 확인
- Embarked 를 통한 예제
feature = 'Embarked'
plot(train_df, feature, 'Survived')
7) 상관도
plot_correlation(train_df)