본문 바로가기
Python

[python] konlpy counter 정렬

by 퍼포먼스마케팅코더 2022. 10. 12.
반응형

[python] konlpy counter 정렬

[python] konlpy counter 정렬

오늘 건 쉬운 겁니다. 한글 텍스트의 전처리하는 패키지 중에 konlpy라는 것이 있습니다. 이건 형태소 분석 같은 건데 대표적으로 많이 쓰이는 패키지예요. 오늘은 그 중에서도 특히 어떤 문장이 몇 개 있으면 어떤 nlp 안에서 많이 쓰이는 패키지가 있습니다. 패키지를 이용해서 카운터라는 패키지가 따로 있는데 이 패키지를 이용해서 주로 사용되는 파이썬 코딩을 정리해봤습니다.

정리한 것은 가장 많은 명사의 빈도를 정리하는 것이고, 그 다음에 가장 많은 단어만을 나열하거나 가장 많이 쓰여진 것 중에서도 상위 몇 개의 단어를 기준으로 하거나 필터링할 수 있는 기타 등을 정리해 보았습니다. 그래서 주요 간단한 내용입니다.참고사항으로만 넣었으니 재밌지만 보면 될 것 같아요.

 

from konlpy.tag import Kkma, Okt, Komoran, Hannanum
from konlpy.utils import pprint
from collections import  Counter

num = 2

f = open (r"C:\Users\user\raw\down\down_foreveryunje_건강\foreveryunje_4_입마름 가볍지 않은 증상.txt", 'r', encoding='utf-8')


text = f.read()


okt = Okt()
noun = okt.nouns(text)

x = Counter(noun)

x.most_common()  #가장 많은 빈도수 정렬

x_most_common = sorted(x, key=x.get, reverse=True)  #가장 많은 단어만 리스트화


x_most_common_2 = []
#sorted(x.items(), key=lambda pair: pair[1], reverse=True)  #key, value 쌍으로만 값 정렬


for i in x_most_common[:7] : #가장 많이 쓰인 상위 7개 단어 기준
    if len(i) == 1 : #단어 1개인경우 제외
        pass
    else :
        print(i) 
        x_most_common_2.append(i)
print(x_most_common_2) #최종 5개 단어 보기
반응형

댓글