일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- MySQL
- 서평단
- Linux
- 한빛미디어
- SQL
- 한빛미디어서평단
- 파이썬
- Python
- 통계학
- 텐서플로
- python visualization
- 블로그
- 서평
- Ga
- 시각화
- 파이썬 시각화
- 독후감
- Blog
- 리눅스
- Google Analytics
- tensorflow
- Tistory
- Visualization
- 매틀랩
- matplotlib
- 티스토리
- MATLAB
- Pandas
- 월간결산
- 딥러닝
- Today
- Total
목록Python (197)
pbj0812의 코딩 일기
1. 설치 pip install networkx 2. 코드 1) 라이브러리 호출 import networkx as nx import matplotlib.pyplot as plt # 그래프 생성 G = nx.DiGraph() 2) 노드(점) 생성 G.add_nodes_from([1, 2, 3, 4, 5]) 3) 엣지(선) 생성 G.add_edges_from([(1, 2), (2, 1), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2,4), (4, 2), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3), (2, 3)]) 4) degree 생성 ..
0. 목표 - sklearn 의 DecisionTree를 이용한 Titanic 문제 해결 1. DecisionTreeClassifier(참고) 1) criterion : 분류 기준(default = 'gini') 2) max_depth : decision tree의 깊이 지정 3) min_samples_split : 최소 샘플 개수 4) min_samples_leaf : 최소 분류 수 5) max_features : 최대 피쳐 수 2. 데이터셋 준비 - kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 3. 코드 작성 1) 데이터 선정 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 ..
0. 목표 - CART 알고리즘을 통해 우선적으로 분류되어야 할 변수를 선택 1. 이론 1) Gini Index를 통해 데이터의 대상 속성을 얼마나 잘못 분류할지를 계산 2) 각 속성별(male, female, 1, 2, 3...)로 계산하여 최소값을 계산 2. 데이터셋 준비 1) kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 2) 데이터 전처리 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 = data[['Pclass', 'Sex', 'Survived']] - Pclass : 승선권 클래스(1, 2, 3) - Sex : 성별(male, female) - Survived : 생존..
0. 목표 - 타이타닉 데이터 셋에서 ID3 알고리즘을 통해 우선적으로 분류되어야 할 변수 선택 1. 수식 - Gain(A) = Info(D) - Info A(D) => A의 정보 소득 = 전체 데이터(D)의 정보량 - 속성 A로 분류시 정보량 => 우선적으로 분류되어야 할 변수는 최종 결과값(A의 정보 소득)이 가장 큰 값 2. 준비물 1) kaggle 타이타닉 데이터 셋 다운로드(링크에서 titanic 검색) 2) 데이터 전처리 import pandas as pd data = pd.read_csv('E:/수료증/인프런/밑바닥부터시작하는머신러닝/train.csv') data2 = data[['Pclass', 'Sex', 'Survived']] - Pclass : 승선권 클래스(1, 2, 3) - Sex..
0. 엔트로피 1) 목적 달성을 위한 경우의 수를 정량적으로 표현한 수치 ex) - 엔트로피가 커짐 -> 불확실성이 커짐 -> 얻을 수 있는 정보가 불명확해짐 - 엔트로피가 작아짐 -> 불확실성이 작아짐 -> 얻을 수 있는 정보가 명확해짐 2) 수식 - Pi가 커지면(1에 수렴하면) -log2(Pi) 는 작아지기에(0에 수렴) 둘을 곱하면 0이 됨 import matplotlib.pyplot as plt a = 0 pi_list = [] log2pi_list = [] for i in range(20): a += 0.05 pi_list.append(a) log2pi_list.append(-log2(a)) plt.plot(pi_list, log2pi_list) plt.xlabel("pi") plt.ylabe..
0. Flow Chart 1) 사용자가 원하는 키워드를 입력하고 검색 버튼 클릭 2) python을 사용해서 twitter에서 연관 키워드 글 추출 3) pandas를 사용해서 xlsx 형식으로 제공 1. 준비물 1) 트위터 앱 생성(링크) - Create an app을 눌러 생성 - Details 클릭 이후 Keys and tokens의 아래 키들 확인(보관 주의) 2) 필요 라이브러리 설치 pip install PyQt5 pip install pyinstaller pip install tweepy 2. 코드 1) library 호출 import sys from PyQt5.QtWidgets import * import tweepy import pandas as pd from pandas import E..
0. 목표 - 아래와 같이 눈을 가리는 형태의 결과물 제작 - 지난 포스팅(민아 누나 안경 씌우기) 의 경우에는 인물이 하나였기에 눈을 가지고 인식이 가능하나 인물이 여러명일 경우에는 인물 개인을 산정하는데 어려움이 발생(눈 한쪽만 인식하거나, 눈의 주인을 분간하는 것에 대한 어려움 발생) 1. 준비물 1) 사진 2) OpenCV 설치 pip install opencv-python 2. 코드 1) libray 호출 import cv2 2) 이미지 파일 및 cascade.xml 호출 - xml 소스 위치(링크) imgfile = 'C:/Users/user/jupyter_works/opencv_python/parasite/source/para2.jpg' cascade_file = "C:/Users/user/..
0. flow chart - python(pymysql, pandas) 을 통한 mysql 자료 파일화(.txt) - mutt를 통한 결과 파일 메일 전송 - crontab을 사용한 작업 자동화 1. 자료 준비 1) mutt 설치(in Mac) brew install mutt 2) DB 준비 - 링크 2. 자료 추출을 위한 python 파일 생성(db2csv.py) 1) library 호출 import pymysql import pandas as pd 2) DB 연결 함수 제작 def db_connector(): db = pymysql.connect(host='127.0.0.1', port=3306, user='***', passwd='***', db='pbj_db', charset='utf8') cur..
- flask에 관한 자세한 예제 및 설명은 여기를 참고 바랍니다. 0. 목표 - mysql에 쌓여있는 정보를 웹 페이지에 표출 - 사전 db 작업 1. library 호출 - pip install 라이브러리명 을 이용항여 필요한 라이브러리 설치 import pymysql import pandas as pd from flask import Flask 2. db 접속 함수 제작 - pbj_db db의 Score 테이블의 모든 정보를 호출 def db_connector(): db = pymysql.connect(host='127.0.0.1', port=3306, user='***', passwd='***', db='pbj_db', charset='utf8') cursor = db.cursor() sql = ..
0. 목표 - 개발환경이 열악한 윈도우즈 환경에서의 자동화 1. flow chart 1) python으로 현재시간 확인 2) 1)의 결과를 구글 스프레드 시트에 자동으로 입력 3) 작업 스케줄러로 업무 자동화 실행 2. 예제 코드 제작(구글시트 연결 참고) 1) 라이브러리 호출 import gspread from oauth2client.service_account import ServiceAccountCredentials from datetime import datetime 2) 현재 시간 계산 time = str(datetime.now()) 3) 구글 스프레드시트 연결(구글시트 연결 참고) scope = ['https://spreadsheets.google.com/feeds'] json_file_nam..