'Science/통계학' 카테고리의 글 목록 (4 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Science/통계학 (35)

pbj0812의 코딩 일기

[통계학] 변동계수(CV) 구현하기

0. 목표 - python을 통해 변동계수를 구현하고 확인 - 변동계수 : 데이터가 흩어진 정도를 비교하는 경우 사용(표준편차 / 평균) 1. 실습 1) 데이터 준비 - 두 쌍의 10개의 숫자로 이루어진 데이터 셋 생성 data1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] data2 = [2, 8, 9, 5, 5, 9, 3, 8, 12, 13] 2) 평균 함수 구현 및 확인 - 결과 : 5.5. 7.4 def mean(inp): result = 0 len_inp = len(inp) for i in inp: result += i result = result / len_inp return result mean_data1 = mean(data1) mean_data2 = mean(data2) ..

Science/통계학 2020. 8. 13. 01:53

[통계학] CART 구현을 통한 TITANIC 변수 선택

0. 목표 - CART 알고리즘을 통해 우선적으로 분류되어야 할 변수를 선택 1. 이론 1) Gini Index를 통해 데이터의 대상 속성을 얼마나 잘못 분류할지를 계산 2) 각 속성별(male, female, 1, 2, 3...)로 계산하여 최소값을 계산 2. 데이터셋 준비 1) kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 2) 데이터 전처리 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 = data[['Pclass', 'Sex', 'Survived']] - Pclass : 승선권 클래스(1, 2, 3) - Sex : 성별(male, female) - Survived : 생존..

Science/통계학 2020. 3. 10. 02:41

[통계학] ID3 구현을 통한 변수 선택

0. 목표 - 타이타닉 데이터 셋에서 ID3 알고리즘을 통해 우선적으로 분류되어야 할 변수 선택 1. 수식 - Gain(A) = Info(D) - Info A(D) => A의 정보 소득 = 전체 데이터(D)의 정보량 - 속성 A로 분류시 정보량 => 우선적으로 분류되어야 할 변수는 최종 결과값(A의 정보 소득)이 가장 큰 값 2. 준비물 1) kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 2) 데이터 전처리 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 = data[['Pclass', 'Sex', 'Survived']] - Pclass : 승선권 클래스(1, 2, 3) - Sex..

Science/통계학 2020. 3. 9. 02:40

[통계학] 엔트로피(Entropy)

0. 엔트로피 1) 목적 달성을 위한 경우의 수를 정량적으로 표현한 수치 ex) - 엔트로피가 커짐 -> 불확실성이 커짐 -> 얻을 수 있는 정보가 불명확해짐 - 엔트로피가 작아짐 -> 불확실성이 작아짐 -> 얻을 수 있는 정보가 명확해짐 2) 수식 - Pi가 커지면(1에 수렴하면) -log2(Pi) 는 작아지기에(0에 수렴) 둘을 곱하면 0이 됨 import matplotlib.pyplot as plt a = 0 pi_list = [] log2pi_list = [] for i in range(20): a += 0.05 pi_list.append(a) log2pi_list.append(-log2(a)) plt.plot(pi_list, log2pi_list) plt.xlabel("pi") plt.ylabe..

Science/통계학 2020. 3. 8. 18:13

[통계학] 평균의 종류

1. 산술평균 - 가장 잘 알려진 방법 - (x + y)/2 - 히스토그램으로 만든 지렛대의 균형 지점 2. 기하평균(상승평균) - √xy - 같은 수를 두 번 곱한 값이 x * y 값과 같음 - 상승이라는 단어로 표현하면, 아래와 같음 * 한 기업의 매출이 어느 해 50% 성장하고 다음 해에 4% 감소했다고 가정했을 때, 그 기업의 성장률의 평균은 √1.5*0.96 = √1.44 = 1.2 -> 연 20%씩 성장한 경우와 같다. - 기하적으로 표현하면 아래 그림과 같음 - √2*8 = √16 = √4^2 3. 제곱평균 - √(x^2 + y^2)/2 - 사인함수처럼 값들이 음과 양을 넘나들때(사인 그래프) 유용함(전기공학) 4. 조화평균 - 2/(1/x + 1/y) - 속도문제에 사용 * 갈 때는 x k..

Science/통계학 2019. 7. 24. 01:07

Prev 1 2 3 4 Next

목록Science/통계학 (35)

pbj0812의 코딩 일기

티스토리툴바