파이썬 텍스트 내 키워드 추출을 해보고, 가장 많이 사용된 단어 빈도수 등을 활용하여 여러 가지로 찾아보도록 하자. 오늘은 그래서 하기와 같은 패키지를 돌릴 것이다. 파이썬 주피터 노트북으로 활용할 것이며, konlpy 라는 패키지를 기본으로 활용하며, 이외 Counter 패키지를 활용하여 각 빈도수를 알아볼 것이다. 물론 텍스트 마이닝과 같이 전처리 등을 활용한 깊숙한 것까지는 안 들어가며, 블로그 등에 쓰일만한 텍스트를 활용하는 정도로만 생각하자.
파이썬 텍스트 내 키워드 추출
파이썬으로 텍스트 내 키워드 추출하는 방식은 아주 간단하다. 이를 통해 각종 이미지, 영상 내 음성 mp3 파일 등을 텍스트로 변환시켜서 키워드 등을 추출하여 디지털 마케팅 등에 활용할 수 있는 분야는 무궁무진하기 때문이다. 이전과 같이 각종 영상, 이미지 등으로 이전에 활용했었다면 이제 그것을 바탕으로 텍스트로 뭔가 인사이트를 활용하여 뽑아보자. 그러기 위해선 아주 간단하게 하기와 같은 파이썬 코딩을 돌려보면 된다.
from konlpy.tag import Kkma, Okt, Komoran, Hannanum
from konlpy.utils import pprint
from collections import Counter
num = 2
#f = open ('C:/Users/user/raw/products/product_info/product_'+str(num)+'.txt', 'r', encoding='utf-8')
#f = open ('C:/Users/user/raw/products/product_info/test1.txt', 'r', encoding='utf-8')
f = open ('C:/Users/user/Desktop/review_contents.txt', 'r', encoding='utf-8')
text = f.read()
#Kkma 객체 생성
okt = Kkma()
noun = okt.nouns(text)
count = Counter(noun)
#명사 빈도 카운트
noun_list = count.most_common(200)
for v in noun_list :
print("Kkma 기준 : "+ str(v))
#Okt 객체 생성
okt = Okt()
noun = okt.nouns(text)
count = Counter(noun)
#명사 빈도 카운트
noun_list = count.most_common(200)
for v in noun_list :
print("Okt 기준 : " + str(v))
#Komoran 객체 생성
#okt = Komoran()
#noun = okt.nouns(text)
#count = Counter(noun)
#명사 빈도 카운트
#noun_list = count.most_common(10)
#for v in noun_list :
# print("Komoran 기준: " + str(v))
#Hannanum 객체 생성
okt = Hannanum()
noun = okt.nouns(text)
count = Counter(noun)
#명사 빈도 카운트
noun_list = count.most_common(200)
for v in noun_list :
print("Hannanum 기준: " + str(v))
파이썬 해당 txt파일 내 모든 텍스트 찾기
아래는 txt 파일 내에 모든 텍스트를 한 번 확인해 본 것이다. 위 코딩을 돌렸을시 가장 많이 사용된 명사(키워드) 등을 키워드로 추출했을 것이다. 이제 이를 바탕으로 그럼 전체 텍스트는 어떠한지도 찾아보자. 아래 코드를 돌려보면 나온다.
f = open ('C:/Users/user/Desktop/review_contents.txt', 'r', encoding='utf-8')
text = f.read()
#print(text)
파이썬 txt 파일 내 특정 키워드가 포함된 텍스트 찾기
아래는 txt 파일 내에 특정 단어가 들어간 텍스트를 확인해 볼 수도 있다. 위 코딩을 돌렸을시 가장 많이 사용된 명사(키워드) 등을 키워드로 추출했을 텐데, 이것을 이제 가장 많이 사용된 단어를 중심으로 어떤 표현들이 써져 있었는지를 확인할 수가 있다. 바로 아래 코드를 돌려보면은 확인이 가능하다.
file = open ('C:/Users/user/Desktop/review_contents.txt', 'r', encoding='utf-8')
texts = file.readlines()
for text in texts :
if text.find("교체") > 0 : #단어검색
print(text)
else :
pass
'Python' 카테고리의 다른 글
[파이썬] 핀터레스트 Pinterest 비공식 API 자동 핀 생성해보기 (0) | 2022.06.29 |
---|---|
[파이썬] 구글 드라이브 OCR 이미지 텍스트 추출 변환 (0) | 2022.06.26 |
[파이썬] 유투브 API 검색 활용, 유투브 mp3 변환 및 다운로드 (0) | 2022.06.26 |
[파이썬] 링크드인 linkedin API 키 발급 (0) | 2022.06.22 |
[python] 파이썬 셀레늄 selenium autoit 다운로드 설치 방법 (0) | 2022.06.21 |
댓글