일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 월간결산
- SQL
- 한빛미디어
- 리눅스
- 파이썬
- Linux
- 한빛미디어서평단
- Pandas
- tensorflow
- 독후감
- 서평단
- MySQL
- 티스토리
- 매틀랩
- 블로그
- matplotlib
- python visualization
- Visualization
- 딥러닝
- Google Analytics
- Blog
- 통계학
- 텐서플로
- Tistory
- 파이썬 시각화
- Ga
- 서평
- Python
- 시각화
- MATLAB
- Today
- Total
목록Science (49)
pbj0812의 코딩 일기
0. 이론 - 준비한 데이터에서 복원 추출을 반복해 많은 재표본을 생성하고, 그 통계량에서 모수를 추정 1. 실습 1) library 호출 import numpy as np import matplotlib.pyplot as plt import pandas as pd import random import statistics 2) 데이터 생성 - t 분포를 활용한 신뢰구간 : 1.03 ~ 4.97 x = [1, 2, 3, 4, 5] print('신뢰구간 : ', round(np.mean(x) - 2.78 * 0.71, 2), ' ~ ', round(np.mean(x) + 2.78 * 0.71, 2)) 3) 부트스트랩 - 5개씩 뽑아서(복원추출) 평균을 만들고 해당 데이터들을 통해 신뢰구간 구현 var = ..
0. 이론 - 개별 데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히 크면 표본평균은 정규분포를 따른다. 1. 실습 1) library 호출 import matplotlib.pyplot as plt import pandas as pd import random 2) 데이터 생성 및 확인 - 봉우리 두 개를 가진 데이터 x = [1] * 25 + [2] * 75 + [3] * 100 + [4] * 75 + [5] * 25 + [6] * 75 + [7] * 100 + [8] * 75 + [9] * 25 df = pd.DataFrame({'x': x}) df2 = df.groupby('x').agg({'x' : 'count'}) plt.bar(df2.index, df2['x']) 3) 한 세트에..
0. 목표 - 산술평균, 기하평균, 조화평균 python, sql 로 구현하기 1. python 으로 구현하기 1) 산술평균 : 3.0 - 흔히 아는 평균, 상가평균 x = [1, 2, 3, 4, 5] mean_x = sum(x) / len(x) print(mean_x) 2) 기하평균 : 2.605171084697352 - 성장율, 이율의 평균을 구할 때 상용, 상승평균 x = [1, 2, 3, 4, 5] result = 1 for i in x: result = result * i mean_x2 = result ** (1/len(x)) print(mean_x2) 3) 조화평균 : 2.18978102189781 - 속도나 전기저항의 평균값 계산에 이용 - 산술평균 >= 기하평균 >= 조화평균 x = [1,..
0. 목표 - python, sql 로 t-test 구현 1. 실습 1) scipy - Ttest_indResult(statistic=-3.0869745325651587, pvalue=0.031361515666731996) import numpy as np import scipy.stats x = [1, 2, 3, 4, 5] y = [4, 8, 12, 16, 20] mean_x = np.mean(x) mean_y = np.mean(y) print('x : ', mean_x) print('y : ', mean_y) scipy.stats.ttest_ind(x, y, equal_var=False) 2) 그냥 파이썬 - -3.0869745325651587 import numpy as np import math ..
0. 목표 - z-score 를 python, MySQL 로 구현하기 1. 이론 - 데이터의 평균을 0.0 으로 표준편차를 1.0 으로 만드는 기법 2. 구현 1) scipy 로 구현 from scipy import stats x = [i for i in range(1, 10)] z_score = stats.zscore(x) print(z_score) 2) 그냥 python 으로 구현 import math x = [i for i in range(1, 10)] len_x = len(x) # 길이 x_mean = sum(x) / len_x # 평균 x_var = 0 for i in x: x_var += (i - x_mean) ** 2 x_var = x_var / len_x # 분산 x_std = math.s..
0. 목표 - PYTHON 으로 t-test 구현하기 1. t-test - 설명 T-검정 (T-test) T-검정 (T-test) Start. BioinformaticsAndMe 1. T검정(T-test) ? 통계학자 윌리엄 고셋(가명 'Student')이 기네스 양조 공장에서 일하고 있었는데, 적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착.. bioinformaticsandme.tistory.com 2. 구현하기 1) library 호출 import numpy as np 2) 데이터 생성 a = [1, 4, 3, 6, 4, 7, 8, 10, 5, 11] b = [2, 5, 6, 3, 7, 4, 8, 3, 9, 19] a_num = np.array(a) b_num = np.array(b) 3)..
0. 목표 - 정규분포 그래프 그리기 1. 실습 1) library 호출 import numpy as np import matplotlib.pyplot as plt import math 2) 데이터 생성 - 평균 10, 표준편차 4, 데이터의 개수 10 만 개 data = np.random.normal(10, 4, 100000) 3) 정렬 data = sorted(data) 4) 평균 - 9.991368120797462 data_mean = sum(data) / len(data) 5) 표준편차, 분산 - 표준편차 4.013488145962863, 분산 16.10808709778442 sd = 0 for i in data: sd += (i - data_mean) ** 2 sd = math.sqrt(sd /..
0. 목표 - SkillMetrics(python) 을 통한 테일러 다이어그램 그리기(예제 따라하기) 1. 설치 pip install SkillMetrics - 기본 사용법 import skill_metrics as sm sm.taylor_diagram() - 옵션(링크) 2. 데이터 다운로드 1) github.com/PeterRochford/SkillMetrics/blob/master/Examples/taylor_data.pkl 에서 다운로드 2) 데이터 확인 - 실습 PC 에서는 인코딩 문제로 아래와 같이 코드를 짜야 파일을 열 수 있음 - 해양 or 기상 관련 데이터로 보임 import pickle class Container(object): def __init__(self, pred1, pred2..
0. 목표 - PYTHON 을 이용한 TF-IDF 구현 1. 실습 1) library 호출 import pandas as pd from math import log 2) 데이터 생성 doc1 = 'I am a boy' doc2 = 'I am a girl' doc3 = 'I am a a a man' 3) TF-IDF 구현 모듈 - DF 를 먼저 구하여 이후 TF-IDF 를 구할 때 값을 이용해 줌. def doc(*args): doc_list = [] tf = pd.DataFrame() idf = pd.DataFrame() tf_idf = pd.DataFrame() # 단어 리스트 생성 for i in args: # 단어 분해 tmp_list = i.split(' ') # 리스트 결합 doc_list +=..
0. 목표 - PYTHON 을 이용한 문서 단어 행렬(Document-Term Matrix, DTM ) 구현 1. 실습 1) library 호출 import pandas as pd 2) DTM 계산 모듈 구현 - *args 를 이용하여 여러개의 데이터를 인풋으로 받을 수 있게 설계 def doc(*args): doc_list = [] df = pd.DataFrame() for i in args: # 단어 분해 tmp_list = i.split(' ') # 리스트 결합 doc_list += tmp_list doc_list = list(set(doc_list)) for i in doc_list: tmp = [] for j in args: # 단어 분해 tmp_list = j.split(' ') # 단어 세기..