Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 블로그
- 시각화
- 리눅스
- python visualization
- 한빛미디어
- 티스토리
- Ga
- 텐서플로
- tensorflow
- Linux
- 독후감
- SQL
- Tistory
- MySQL
- Blog
- Google Analytics
- Python
- 서평단
- Visualization
- 월간결산
- 파이썬 시각화
- 통계학
- MATLAB
- 딥러닝
- 매틀랩
- Pandas
- 서평
- matplotlib
- 파이썬
- 한빛미디어서평단
Archives
- Today
- Total
pbj0812의 코딩 일기
[수학] PYTHON 을 이용한 문서 단어 행렬(DTM) 구현 본문
0. 목표
- PYTHON 을 이용한 문서 단어 행렬(Document-Term Matrix, DTM ) 구현
1. 실습
1) library 호출
import pandas as pd
2) DTM 계산 모듈 구현
- *args 를 이용하여 여러개의 데이터를 인풋으로 받을 수 있게 설계
def doc(*args):
doc_list = []
df = pd.DataFrame()
for i in args:
# 단어 분해
tmp_list = i.split(' ')
# 리스트 결합
doc_list += tmp_list
doc_list = list(set(doc_list))
for i in doc_list:
tmp = []
for j in args:
# 단어 분해
tmp_list = j.split(' ')
# 단어 세기
tmp.append(tmp_list.count(i))
# 데이터 프레임 추가
df[i] = tmp
return df
3) 데이터 생성
doc1 = 'I am a boy'
doc2 = 'I am a girl'
doc3 = 'I am a a a man'
4) 테스트
result = doc(doc1, doc2, doc3)
result
- 결과
2. 참고
- 찾고자 하는 항목이, 파이썬의 리스트에 몇개나 들어있는지 확인하는 count 함수
'Science > 수학' 카테고리의 다른 글
[수학] PYTHON 을 이용한 TF-IDF 구현 (0) | 2020.11.25 |
---|---|
[수학] PYTHON 을 통한 자카드 유사도 구현 (0) | 2020.11.18 |
[수학] python을 이용한 코사인 유사도 구현 (0) | 2020.11.17 |
[수학] PYTHON 으로 norm 구현하기 (0) | 2020.11.16 |
[수학] python을 통한 범주형 피처 처리(클래스, 이진법, 원핫인코딩) (0) | 2020.10.31 |
Comments