일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Linux
- 한빛미디어
- 티스토리
- Tistory
- 독후감
- Blog
- 파이썬 시각화
- MATLAB
- Python
- 서평
- matplotlib
- python visualization
- Ga
- Pandas
- SQL
- 매틀랩
- 통계학
- 리눅스
- 서평단
- 블로그
- 텐서플로
- 월간결산
- 딥러닝
- Google Analytics
- 파이썬
- MySQL
- 시각화
- Visualization
- tensorflow
- 한빛미디어서평단
- Today
- Total
목록Kaggle (12)
pbj0812의 코딩 일기
"한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 0. 도서 정보 1) 독서명 : 데이터가 뛰어노는 AI 놀이터, 캐글 2) 작가 : 가도와키, 다이스케, 사카타 류지, 호사카 게이스케, 히라마쓰 유지 3) 링크 1. 서평 - 책 표지에 쓰여 있듯이 상위 랭킹 진입을 위해서는 읽어봐야 할 서적이다. 작가들이 알고 있는 캐글의 여러 스킬(?) 을 책 한 권에 몰아넣은 느낌이다. 자투리 코드도 곁들여서 해당 스킬을 어떻게 코드로 구현하는지도 작성하였다. 하지만, 너무 많은 정보를 넣은 탓에 이런 코드가 없는 부분도 꽤 존재한다. 그렇기에 데이터 분석 초보자가 보기에는 어려운 부분이 많다. 대회 하나 정도는 예제로 하여 실제 캐글 대회 코드가 어떻게 구성되었는지, 왜 이런 것을 사용하였는지 보여주..
0. 목차 및 내용 1) Hello, Seaborn - notebook 설명, csv 읽기, lineplot plt.figure(figsize=(16,6)) sns.lineplot(data=fifa_data) 2) Line Charts - title, xlabel, label plt.figure(figsize=(14,6)) plt.title("Daily Global Streams of Popular Songs in 2017-2018") sns.lineplot(data=spotify_data['Shape of You'], label="Shape of You") sns.lineplot(data=spotify_data['Despacito'], label="Despacito") plt.xlabel("Date")..
0. 목차 및 내용 1) Hello, Python - if, 문자열 곱하기 결과, 산술연산자 2) Functions and Getting Help - help() 함수, 함수 제작 방법, Default arguments - Docstrings def test(): """doc_string""" help(test) - 결과 Help on function test in module __main__: test() doc_string 3) Booleans and Conditionals - 비교연산자 4) Lists 5) Loops and List Comprehensions - for, while, list comprehensions 6) Strings and Dictionaries - str 만드는 법, 특수 ..
0. 목차 및 내용 1) A Single Neuron - 뉴런 설명 - keras.Sequential 을 이용한 인풋 설계까지 2) Deep Neural Networks - 활성화 함수, ReLU, 레이어 쌓기 3) Stochastic Gradient Descent - 로스 함수, 옵티마이저, 학습률, 배치 사이즈 4) Overfitting and Underfitting - 언더피팅, 오버피팅, - 적정한 구간을 찾기 위한 Early Stopping - 문제 도중에 csv 가 없다는 일이 발생하였는데 아래 그림과 같이 우상단의 add data 를 누르고 spotify.csv 를 받은 이후 위치 설정하면 해결 5) Dropout and Batch Normalization - 드롭아웃 - Batch Norm..
0. 목차 및 내용 1) Handling Missing Values - NULL 이 포함된 데이터에 대한 처리 - dropna() 를 통한 행 제외 - dropna(axis=1) 를 통한 열 제외 - fillna(0) 를 통한 처리 - fillna(method='bfill', axis=0).fillna(0) 를 통한 대체 2) Scaling and Normalization - Scaling 과 Normalization 의 차이(Scaling 은 값의 범위를 바꾸는 것?, 1달러와 1엔의 예를 들었을 때 1달러는 100엔의 가치가 있음. 이때, Scaling 을 하지 않으면 1엔의 차이와 1달러의 차이는 비슷해짐. Normalization 은 데이터 분포의 형태를 바꾸는 것?) - mlxtend.prepr..
0. 목차 및 내용 1) Creating, Reading and Writing - DataFrame 제작 방법(개인적으로는 dict 형태로만 썼었는데, 아래와 같이 쓸 수도 있음) fruit_sales = pd.DataFrame([[35, 21], [41, 34]], columns=['Apples', 'Bananas'], index=['2017 Sales', '2018 Sales']) - Series 에 관한 설명 - read_csv 를 통한 csv 파일 읽기 2) Indexing, Selecting & Assigning - iloc과 loc의 차이(iloc 은 stdlib indexing 기반 이기에 0:10 의 결과가 10개 나오지만 loc 은 11개가 나옴) - 해당 조건에 맞는 결과 추출 - 열 ..
0. 목차 및 내용 1) JOINs and UNIONs - JOIN, UNION 설명 - UNION DISTINCT = UNION ALL 2) Analytic Functions - analytic Function = analytic window function = window function - 수행 과정(링크) 3) Nested and Repeated Data(링크) - Nested Data - 타입이 INTEGER, STRING 이 아닌 RECORD 형태 - Repeated Data - NULL 유무 부분이 REPEATED - 아래와 같은 쿼리를 이용하여 REPEATED 된 형태를 레코드 형태로 풀어버릴 수 있음 SELECT l.name, l.bytes FROM `bigquery-public-data..
0. 목차 및 내용 1) Getting Started With SQL and Bigquery - Bigquery에 대한 간략한 설명 - jupyter notebook 에서의 Bigquery 를 통한 테이블 호출 방법 - kaggle 사용자는 30일마다 5TB 스캔 가능 2) Select, From & Where - 쿼리 실행하는 법 - maximum_bytes_billed 를 통해 상한선 지정하는 방법 3) Group By, Having & Count - COUNT(1) 로 전체 검색 가능, 필드명 지정해 줄 때 보다 빠르다고 함. 4) Order By - EXTRACT(Week from Date) 등의 구문으로 해당 일에 해당하는 주 등을 추출 가능 5) As & With - with 쓰면 보기 쉽다고..
0. 목차 및 내용 1) Introduction - 이전 과정(Intro to Machine Learning) 에 대한 복습 및 앞으로의 과정 소개 2) Missing Values - 결측값에 관한 처리 방안(sklearn.impute 의 SimpleImputer 소개) (1) 칼럼 삭제 (2) 다른 숫자로 채우기 (3) 라벨링? 을 통한 표기 3) Categorical Variables - 카테고리 항목에 대한 라벨링 방안 및 학습 과정 소개(sklearn.preprocessing 의 LabelEncoder, OneHotEncoder 소개) (1) 칼럼 삭제 (2) 다른 숫자로 라벨링 (3) 원-핫 인코딩 4) Pipelines - 데이터 전처리부터 모델구성까지 도와주는 pipeline 에 대한 소개 ..
0. 목차 - Machine Learning 입문 과정으로 Pandas 로 데이터를 읽고 전처리 하는 과정부터 시작하여, Decision Tree, Random Forest 등을 통해 모델을 만들고 학습하는 과정, 그리고 평가하는 방법을 배울 수 있음. - kaggle 에서 제공하는 내부 jupyter notebook 으로 진행하기에 1) How Models Work 2) Basic Data Exploration 3) Your First Machine Learning Model 4) Model Validation 5) Underfitting and Overfitting 6) Random Forest 7) Machine Learning Competitions 1. 최종 코드 # Code you have p..