일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 서평
- 통계학
- 리눅스
- SQL
- 딥러닝
- matplotlib
- Blog
- Pandas
- 한빛미디어
- MATLAB
- Python
- MySQL
- Visualization
- 텐서플로
- 월간결산
- 블로그
- 티스토리
- 한빛미디어서평단
- Linux
- 시각화
- 파이썬 시각화
- tensorflow
- Ga
- 독후감
- python visualization
- Tistory
- 서평단
- Google Analytics
- 파이썬
- 매틀랩
- Today
- Total
목록데이터 (10)
pbj0812의 코딩 일기
0. 참석 - 쏘카에서 진행하는 Data Meetup 에 뽑혀서 참석 - 쏘카 건물에서 진행 1. 발표 내용 요약 1) 현재 쏘카 데이터 본부는 50명, 9개 팀으로 이루어져 있음 - 데분, 데엔, 데싸, iot 등으로 이루어져 있는데 그럼에도 불구하고 굉장히 인원이 많다고 느낌. - 커머스 플랫폼과는 달리 플랫폼보다 쏘카라는 서비스에 대한 문제 및 최적화를 풀기 위하여 이렇게 조직이 큰 거 같음. (자사에서 보유한 차량을 최적화 하고, 문제가 되는 부분(기름 도둑 잡기 등) 을 해결) - 프로덕트(앱)에 대한 발표는 하나도 없었음 2) 비즈니스 데이터 팀 - 수기로 할 수 있는 것들 이상으로 비즈니스 성장 극대화 목표 - 쏘카는 보유한 2만대의 차량으로 운영을 해야 하는데, 7, 8월의 성수기와 겨울의..
"한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 0. 도서 정보 1) 도서명 : 데이터로 전문가처럼 말하기 2) 저자 : 칼 올친 3) 구매 링크 : 링크 1. 서평 - 책의 제목처럼 말(대화)을 알려주는 도서는 아니며... 시각화를 다룬 도서이다. python 이나 r 등의 프로그램을 통해 코드를 작성하는 방법은 기술되어 있지 않으며, 각 시각화에 대한 장단점이 기술되어 있다. 요즘따라 이런 시각화 관련한 도서가 많이 발간이 되고 있어 굳이 이 책도 봐야하나... 라는 생각이 들 수도 있지만, 저자마다 설명하는 방법이 다르고 도서마다 조금씩 다른 시각화 방법이 작성되어 있기에 해당 도서 또한 읽을 가치가 있다고 생각이 든다.
0. 목표 - 이탈 회원 확인 1. 실습 1) 테이블 생성 CREATE TABLE sql_test.login_table ( id int, when_login datetime ); 2) 데이터 삽입 INSERT INTO sql_test.login_table(id, when_login) VALUES(1, '2022-01-01 00:00:00'); INSERT INTO sql_test.login_table(id, when_login) VALUES(1, '2022-01-02 00:00:00'); INSERT INTO sql_test.login_table(id, when_login) VALUES(2, '2022-01-03 00:00:00'); INSERT INTO sql_test.login_table(id, wh..
0. 목표 - ROLLUP 을 이용한 결과 활용 1. 실습 1) 테이블 생성 CREATE TABLE sql_test.rollup_test ( id int, name varchar(2), cnt int ); 2) 데이터 삽입 INSERT INTO sql_test.rollup_test(id, name, cnt) VALUES(1, 'A', 1); INSERT INTO sql_test.rollup_test(id, name, cnt) VALUES(2, 'A', 2); INSERT INTO sql_test.rollup_test(id, name, cnt) VALUES(3, 'A', 3); INSERT INTO sql_test.rollup_test(id, name, cnt) VALUES(4, 'A', 4); INSER..
0. 도서 정보 - 도서명 : Python과 SQL을 활용한 실전 데이터 전처리 - 저자 : 이현호 - 링크 1. 후기 - 디자인 : 작고 길쭉한 형태(포켓북의 느낌...), 그래서 들고 다니기에는 편하지만 길쭉한 나머지 글(코드)을 읽기가 힘들다. 이 부분에선 좀 아쉽다고 볼 수 있다. 글이 눈에 안들어오는 느낌... - 책의 구성 : 데이터 전처리에 대한 기본적인 이론 설명을 나열한 뒤, 실제 파일로(공공 데이터) 해당 전처리를 하는 방식이다. 해당 처리에 대하여 SQL 에서는 이렇게 하고, Python 에서는 이렇게 한다의 방식이 아닌 SQL 코드를 Python 이 감싸는 형태로 진행한다. 예를 들면, SQL 에서는 이정도까지만 데이터를 뽑고, Python 에서는 나머지 통계처리를 한다던지 하는....
0. 목표 - pandas 로 UNION 구현하기 1. 실습 1) library 호출 import pandas as pd 2) 데이터 프레임 생성 a = pd.DataFrame({'a' : [1, 1, 2, 3, 4], 'b' : [1, 2, 3, 4, 5]}) b = pd.DataFrame({'a' : [1, 2, 3, 4, 5], 'b' : [1, 3, 5, 5, 9]}) 3) 데이터 프레임 결합 c = pd.concat([a, b]) 4) 중복 제거 - inplace 옵션을 통한 변수에 바로 저장 c.drop_duplicates(inplace = True) 5) index 초기화 - inplace 옵션을 통한 변수에 바로 저장 c.reset_index(drop = True, inplace = Tru..
0. 목표 - pivot, pivot_table 문서 따라하기 1. pivot 1) library 호출 import pandas as pd 2) 데이터 생성 df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two', 'two'], 'bar': ['A', 'B', 'C', 'A', 'B', 'C'], 'baz': [1, 2, 3, 4, 5, 6], 'zoo': ['x', 'y', 'z', 'q', 'w', 't']}) 3) - foo 를 행기준으로 bar 를 열 기준으로 baz 를 채워넣기 df.pivot(index='foo', columns='bar', values='baz') 4) - 3) 과 동일한 결과 df.pivot(index='foo', col..
0. 플로우 차트 - 쿼리가 작성된 txt 를 읽어 해당 쿼리를 이용해 MySQL 에서 데이터를 가져온 뒤 pandas 의 DataFrame 형태로 출력 1. 텍스트 파일 내용 SELECT * FROM pbj_db.rownum_test; 2. 실습 1) library 호출 import pymysql import pandas as pd 2) db 연결 db = pymysql.connect(host='127.0.0.1', port=3306, user='root', db='pbj_db', charset='utf8', cursorclass=pymysql.cursors.DictCursor) cursor = db.cursor() 3) 파일 읽기 f = open("./sql.txt", 'r') sql = '' whi..
0. 도서정보 - 도서명 : 빅데이터, 생활을 바꾸다. - 저자 : BC카드 빅데이터센터 - 링크 : 교보문고 1. 후기 - 뭔가 참식한 분석 아이디어가 없을까 하다가 서점에서 구한 책. 코드는 단 한줄도 없으며, BC 카드 데이터와 여러 데이터를 조합하여 50 가지의 비즈니스에 대한 인사이트를 뽑아낸 책이다. 해당 데이터를 바탕으로 1차원적인 EDA(상관도, 기간 별 차트, 워드클라우드 등) 를 진행하였다. 캐글마냥 고급적인 분석방법을 원하시는 분들에게는 적합하지 않으며, 창업을 위해 아이템이 필요하신 분들, 비즈니스에서는 어떻게 데이터를 보고 있는지 맛보기를 원하시는 분들에게 추천을 드린다.
0. 목표 - Python 의 Pandas 를 이용하여 SQL 스럽게 데이터 전처리 하기 1. 실습 1) SELECT (1) 필드 하나 df = pd.DataFrame({'a' : [1, 2, 3, 4, 1], 'b' : [2, 3, 4, 5, 6], 'c' : [2, 4, 6, 8, 6]}) df['a'] (2) 필드 여러개 df[['a', 'b']] (3) 행 인덱스로 접근 df.loc[0] 2) WHERE - a 가 3 이상 df[df['a'] >= 3] - a 가 3 이상이고 b 가 5 미만 a = ((df['a'] >= 3) & (df['b'] < 5)) df.loc[a] 3) CASE def case(x): if x < 2: return '2 미만' elif x < 4: return '4 미만..