일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 서평단
- 파이썬
- Tistory
- 통계학
- 블로그
- 서평
- 시각화
- MATLAB
- 파이썬 시각화
- 티스토리
- matplotlib
- SQL
- 텐서플로
- 리눅스
- 한빛미디어서평단
- Python
- MySQL
- 딥러닝
- Blog
- Linux
- python visualization
- 한빛미디어
- Visualization
- 독후감
- 매틀랩
- tensorflow
- 월간결산
- Google Analytics
- Pandas
- Ga
- Today
- Total
pbj0812의 코딩 일기
[kaggle] Data Cleaning 수료과정 본문
0. 목차 및 내용
1) Handling Missing Values
- NULL 이 포함된 데이터에 대한 처리
- dropna() 를 통한 행 제외
- dropna(axis=1) 를 통한 열 제외
- fillna(0) 를 통한 처리
- fillna(method='bfill', axis=0).fillna(0) 를 통한 대체
2) Scaling and Normalization
- Scaling 과 Normalization 의 차이(Scaling 은 값의 범위를 바꾸는 것?, 1달러와 1엔의 예를 들었을 때 1달러는 100엔의 가치가 있음. 이때, Scaling 을 하지 않으면 1엔의 차이와 1달러의 차이는 비슷해짐. Normalization 은 데이터 분포의 형태를 바꾸는 것?)
- mlxtend.preprocessing의 minmax_scaling() 을 통한 scaling
- scipy 의 stats.boxcow() 를 통한 normalization
3) Parsing Dates
- to_datetime 을 통한 datetime으로의 형태 변경
- dt.day 를 통한 datetime 형식에서의 일 추출
- sns.distplot
- Date.str.len() 을 통해 각 값의 길이를 구하고 value_counts() 를 통해 개수를 세면 데이트 형태가 다른 것이 몇 개인지 어렴풋이 나마 확인 가능
4) Character Encodings
- 인코딩 디코딩 관련
- 아래 코드를 통하여 파일 형식을 알아내고
with open("../input/kickstarter-projects/ks-projects-201801.csv", 'rb') as rawdata:
result = chardet.detect(rawdata.read(10000))
- 아래 코드를 통하여 파일을 읽으면 편함
kickstarter_2016 = pd.read_csv("../input/kickstarter-projects/ks-projects-201612.csv", encoding='Windows-1252')
5) Inconsistent Data Entry
- fuzzywuzzy 를 통한 유사한 단어 추출
- 아래 예제를 통하여 south korea 와 가장 유사한 것을 10개 추출 가능
import fuzzywuzzy
from fuzzywuzzy import process
matches = fuzzywuzzy.process.extract("south korea", countries, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)
1. 수료증
2. 참고
'인공지능 & 머신러닝 > kaggle' 카테고리의 다른 글
[kaggle] Python 수료과정 (0) | 2021.04.27 |
---|---|
[kaggle] Intro to Deep Learning 수료과정 (0) | 2021.04.21 |
[kaggle] pandas 수료과정 (0) | 2021.04.18 |
[kaggle] Advanced SQL 수료과정 (0) | 2021.04.16 |
[kaggle] Intro to SQL 수료과정 (0) | 2021.04.14 |