일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 티스토리
- 서평단
- Tistory
- matplotlib
- MySQL
- 독후감
- 한빛미디어
- Python
- tensorflow
- 월간결산
- Google Analytics
- 매틀랩
- Blog
- Visualization
- Ga
- 서평
- 시각화
- 파이썬 시각화
- 블로그
- MATLAB
- python visualization
- SQL
- 통계학
- 딥러닝
- 파이썬
- Linux
- 텐서플로
- Pandas
- 리눅스
- 한빛미디어서평단
- Today
- Total
목록인공지능 & 머신러닝/kaggle (10)
pbj0812의 코딩 일기
0. 목차 및 내용 1) Hello, Seaborn - notebook 설명, csv 읽기, lineplot plt.figure(figsize=(16,6)) sns.lineplot(data=fifa_data) 2) Line Charts - title, xlabel, label plt.figure(figsize=(14,6)) plt.title("Daily Global Streams of Popular Songs in 2017-2018") sns.lineplot(data=spotify_data['Shape of You'], label="Shape of You") sns.lineplot(data=spotify_data['Despacito'], label="Despacito") plt.xlabel("Date")..
0. 목차 및 내용 1) Hello, Python - if, 문자열 곱하기 결과, 산술연산자 2) Functions and Getting Help - help() 함수, 함수 제작 방법, Default arguments - Docstrings def test(): """doc_string""" help(test) - 결과 Help on function test in module __main__: test() doc_string 3) Booleans and Conditionals - 비교연산자 4) Lists 5) Loops and List Comprehensions - for, while, list comprehensions 6) Strings and Dictionaries - str 만드는 법, 특수 ..
0. 목차 및 내용 1) A Single Neuron - 뉴런 설명 - keras.Sequential 을 이용한 인풋 설계까지 2) Deep Neural Networks - 활성화 함수, ReLU, 레이어 쌓기 3) Stochastic Gradient Descent - 로스 함수, 옵티마이저, 학습률, 배치 사이즈 4) Overfitting and Underfitting - 언더피팅, 오버피팅, - 적정한 구간을 찾기 위한 Early Stopping - 문제 도중에 csv 가 없다는 일이 발생하였는데 아래 그림과 같이 우상단의 add data 를 누르고 spotify.csv 를 받은 이후 위치 설정하면 해결 5) Dropout and Batch Normalization - 드롭아웃 - Batch Norm..
0. 목차 및 내용 1) Handling Missing Values - NULL 이 포함된 데이터에 대한 처리 - dropna() 를 통한 행 제외 - dropna(axis=1) 를 통한 열 제외 - fillna(0) 를 통한 처리 - fillna(method='bfill', axis=0).fillna(0) 를 통한 대체 2) Scaling and Normalization - Scaling 과 Normalization 의 차이(Scaling 은 값의 범위를 바꾸는 것?, 1달러와 1엔의 예를 들었을 때 1달러는 100엔의 가치가 있음. 이때, Scaling 을 하지 않으면 1엔의 차이와 1달러의 차이는 비슷해짐. Normalization 은 데이터 분포의 형태를 바꾸는 것?) - mlxtend.prepr..
0. 목차 및 내용 1) Creating, Reading and Writing - DataFrame 제작 방법(개인적으로는 dict 형태로만 썼었는데, 아래와 같이 쓸 수도 있음) fruit_sales = pd.DataFrame([[35, 21], [41, 34]], columns=['Apples', 'Bananas'], index=['2017 Sales', '2018 Sales']) - Series 에 관한 설명 - read_csv 를 통한 csv 파일 읽기 2) Indexing, Selecting & Assigning - iloc과 loc의 차이(iloc 은 stdlib indexing 기반 이기에 0:10 의 결과가 10개 나오지만 loc 은 11개가 나옴) - 해당 조건에 맞는 결과 추출 - 열 ..
0. 목차 및 내용 1) JOINs and UNIONs - JOIN, UNION 설명 - UNION DISTINCT = UNION ALL 2) Analytic Functions - analytic Function = analytic window function = window function - 수행 과정(링크) 3) Nested and Repeated Data(링크) - Nested Data - 타입이 INTEGER, STRING 이 아닌 RECORD 형태 - Repeated Data - NULL 유무 부분이 REPEATED - 아래와 같은 쿼리를 이용하여 REPEATED 된 형태를 레코드 형태로 풀어버릴 수 있음 SELECT l.name, l.bytes FROM `bigquery-public-data..
0. 목차 및 내용 1) Getting Started With SQL and Bigquery - Bigquery에 대한 간략한 설명 - jupyter notebook 에서의 Bigquery 를 통한 테이블 호출 방법 - kaggle 사용자는 30일마다 5TB 스캔 가능 2) Select, From & Where - 쿼리 실행하는 법 - maximum_bytes_billed 를 통해 상한선 지정하는 방법 3) Group By, Having & Count - COUNT(1) 로 전체 검색 가능, 필드명 지정해 줄 때 보다 빠르다고 함. 4) Order By - EXTRACT(Week from Date) 등의 구문으로 해당 일에 해당하는 주 등을 추출 가능 5) As & With - with 쓰면 보기 쉽다고..
0. 목차 및 내용 1) Introduction - 이전 과정(Intro to Machine Learning) 에 대한 복습 및 앞으로의 과정 소개 2) Missing Values - 결측값에 관한 처리 방안(sklearn.impute 의 SimpleImputer 소개) (1) 칼럼 삭제 (2) 다른 숫자로 채우기 (3) 라벨링? 을 통한 표기 3) Categorical Variables - 카테고리 항목에 대한 라벨링 방안 및 학습 과정 소개(sklearn.preprocessing 의 LabelEncoder, OneHotEncoder 소개) (1) 칼럼 삭제 (2) 다른 숫자로 라벨링 (3) 원-핫 인코딩 4) Pipelines - 데이터 전처리부터 모델구성까지 도와주는 pipeline 에 대한 소개 ..
0. 목차 - Machine Learning 입문 과정으로 Pandas 로 데이터를 읽고 전처리 하는 과정부터 시작하여, Decision Tree, Random Forest 등을 통해 모델을 만들고 학습하는 과정, 그리고 평가하는 방법을 배울 수 있음. - kaggle 에서 제공하는 내부 jupyter notebook 으로 진행하기에 1) How Models Work 2) Basic Data Exploration 3) Your First Machine Learning Model 4) Model Validation 5) Underfitting and Overfitting 6) Random Forest 7) Machine Learning Competitions 1. 최종 코드 # Code you have p..
0. 목표 - titanic - 데이터 설명 1. 실습 1) 라이브러리 호출 - 결과 : ['test.csv', 'train.csv'] import numpy as np import pandas as pd import os print(os.listdir("../input")) 2) 파일 읽기 train_df = pd.read_csv('../input/train.csv') test_df = pd.read_csv('../input/test.csv') 3) 데이터 확인 (1) train_df train_df.head() (2) test_df - train에서 Survived만 제외된 형태 test_df.head() 4) 자료구조 확인 - 12개 칼럼, 891개 데이터로 이루어져 있으며 Age와 Cabin, E..