반응형
[python] konlpy counter 정렬
오늘 건 쉬운 겁니다. 한글 텍스트의 전처리하는 패키지 중에 konlpy라는 것이 있습니다. 이건 형태소 분석 같은 건데 대표적으로 많이 쓰이는 패키지예요. 오늘은 그 중에서도 특히 어떤 문장이 몇 개 있으면 어떤 nlp 안에서 많이 쓰이는 패키지가 있습니다. 패키지를 이용해서 카운터라는 패키지가 따로 있는데 이 패키지를 이용해서 주로 사용되는 파이썬 코딩을 정리해봤습니다.
정리한 것은 가장 많은 명사의 빈도를 정리하는 것이고, 그 다음에 가장 많은 단어만을 나열하거나 가장 많이 쓰여진 것 중에서도 상위 몇 개의 단어를 기준으로 하거나 필터링할 수 있는 기타 등을 정리해 보았습니다. 그래서 주요 간단한 내용입니다.참고사항으로만 넣었으니 재밌지만 보면 될 것 같아요.
from konlpy.tag import Kkma, Okt, Komoran, Hannanum
from konlpy.utils import pprint
from collections import Counter
num = 2
f = open (r"C:\Users\user\raw\down\down_foreveryunje_건강\foreveryunje_4_입마름 가볍지 않은 증상.txt", 'r', encoding='utf-8')
text = f.read()
okt = Okt()
noun = okt.nouns(text)
x = Counter(noun)
x.most_common() #가장 많은 빈도수 정렬
x_most_common = sorted(x, key=x.get, reverse=True) #가장 많은 단어만 리스트화
x_most_common_2 = []
#sorted(x.items(), key=lambda pair: pair[1], reverse=True) #key, value 쌍으로만 값 정렬
for i in x_most_common[:7] : #가장 많이 쓰인 상위 7개 단어 기준
if len(i) == 1 : #단어 1개인경우 제외
pass
else :
print(i)
x_most_common_2.append(i)
print(x_most_common_2) #최종 5개 단어 보기
반응형
'Python' 카테고리의 다른 글
[python] 파이썬 코딩 메모장 내 다른 메모장으로 옮기기 (0) | 2022.10.12 |
---|---|
[python] 구글 드라이브 내 이미지 텍스트 변환 해보기 (0) | 2022.10.12 |
jupyter notebook IOPub data rate exceeded 문제 해결 (0) | 2022.10.08 |
[python] 한국인터넷진흥원 인터넷주소(도메인, 아이피) 정보 검색 조회 (0) | 2022.10.05 |
[python] 블로그 자동 글쓰기 포스팅 노출 테스트 결과 분석 및 인사이트 공유 (0) | 2022.10.05 |
댓글