일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 파이썬 시각화
- Linux
- matplotlib
- 블로그
- 파이썬
- Visualization
- Ga
- 텐서플로
- 매틀랩
- SQL
- Tistory
- Blog
- MATLAB
- 한빛미디어
- Python
- 리눅스
- 한빛미디어서평단
- Google Analytics
- 딥러닝
- 시각화
- 서평
- tensorflow
- Pandas
- 독후감
- 티스토리
- python visualization
- 월간결산
- MySQL
- 통계학
- 서평단
- Today
- Total
목록Science/통계학 (35)
pbj0812의 코딩 일기
0. 목표 - python을 통해 변동계수를 구현하고 확인 - 변동계수 : 데이터가 흩어진 정도를 비교하는 경우 사용(표준편차 / 평균) 1. 실습 1) 데이터 준비 - 두 쌍의 10개의 숫자로 이루어진 데이터 셋 생성 data1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] data2 = [2, 8, 9, 5, 5, 9, 3, 8, 12, 13] 2) 평균 함수 구현 및 확인 - 결과 : 5.5. 7.4 def mean(inp): result = 0 len_inp = len(inp) for i in inp: result += i result = result / len_inp return result mean_data1 = mean(data1) mean_data2 = mean(data2) ..
0. 목표 - CART 알고리즘을 통해 우선적으로 분류되어야 할 변수를 선택 1. 이론 1) Gini Index를 통해 데이터의 대상 속성을 얼마나 잘못 분류할지를 계산 2) 각 속성별(male, female, 1, 2, 3...)로 계산하여 최소값을 계산 2. 데이터셋 준비 1) kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 2) 데이터 전처리 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 = data[['Pclass', 'Sex', 'Survived']] - Pclass : 승선권 클래스(1, 2, 3) - Sex : 성별(male, female) - Survived : 생존..
0. 목표 - 타이타닉 데이터 셋에서 ID3 알고리즘을 통해 우선적으로 분류되어야 할 변수 선택 1. 수식 - Gain(A) = Info(D) - Info A(D) => A의 정보 소득 = 전체 데이터(D)의 정보량 - 속성 A로 분류시 정보량 => 우선적으로 분류되어야 할 변수는 최종 결과값(A의 정보 소득)이 가장 큰 값 2. 준비물 1) kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 2) 데이터 전처리 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 = data[['Pclass', 'Sex', 'Survived']] - Pclass : 승선권 클래스(1, 2, 3) - Sex..
0. 엔트로피 1) 목적 달성을 위한 경우의 수를 정량적으로 표현한 수치 ex) - 엔트로피가 커짐 -> 불확실성이 커짐 -> 얻을 수 있는 정보가 불명확해짐 - 엔트로피가 작아짐 -> 불확실성이 작아짐 -> 얻을 수 있는 정보가 명확해짐 2) 수식 - Pi가 커지면(1에 수렴하면) -log2(Pi) 는 작아지기에(0에 수렴) 둘을 곱하면 0이 됨 import matplotlib.pyplot as plt a = 0 pi_list = [] log2pi_list = [] for i in range(20): a += 0.05 pi_list.append(a) log2pi_list.append(-log2(a)) plt.plot(pi_list, log2pi_list) plt.xlabel("pi") plt.ylabe..
1. 산술평균 - 가장 잘 알려진 방법 - (x + y)/2 - 히스토그램으로 만든 지렛대의 균형 지점 2. 기하평균(상승평균) - √xy - 같은 수를 두 번 곱한 값이 x * y 값과 같음 - 상승이라는 단어로 표현하면, 아래와 같음 * 한 기업의 매출이 어느 해 50% 성장하고 다음 해에 4% 감소했다고 가정했을 때, 그 기업의 성장률의 평균은 √1.5*0.96 = √1.44 = 1.2 -> 연 20%씩 성장한 경우와 같다. - 기하적으로 표현하면 아래 그림과 같음 - √2*8 = √16 = √4^2 3. 제곱평균 - √(x^2 + y^2)/2 - 사인함수처럼 값들이 음과 양을 넘나들때(사인 그래프) 유용함(전기공학) 4. 조화평균 - 2/(1/x + 1/y) - 속도문제에 사용 * 갈 때는 x k..