[python] konlpy counter 정렬

오늘 건 쉬운 겁니다. 한글 텍스트의 전처리하는 패키지 중에 konlpy라는 것이 있습니다. 이건 형태소 분석 같은 건데 대표적으로 많이 쓰이는 패키지예요. 오늘은 그 중에서도 특히 어떤 문장이 몇 개 있으면 어떤 nlp 안에서 많이 쓰이는 패키지가 있습니다. 패키지를 이용해서 카운터라는 패키지가 따로 있는데 이 패키지를 이용해서 주로 사용되는 파이썬 코딩을 정리해봤습니다.

정리한 것은 가장 많은 명사의 빈도를 정리하는 것이고, 그 다음에 가장 많은 단어만을 나열하거나 가장 많이 쓰여진 것 중에서도 상위 몇 개의 단어를 기준으로 하거나 필터링할 수 있는 기타 등을 정리해 보았습니다. 그래서 주요 간단한 내용입니다.참고사항으로만 넣었으니 재밌지만 보면 될 것 같아요.

from konlpy.tag import Kkma, Okt, Komoran, Hannanum
from konlpy.utils import pprint
from collections import  Counter

num = 2

f = open (r"C:\Users\user\raw\down\down_foreveryunje_건강\foreveryunje_4_입마름 가볍지 않은 증상.txt", 'r', encoding='utf-8')


text = f.read()


okt = Okt()
noun = okt.nouns(text)

x = Counter(noun)

x.most_common()  #가장 많은 빈도수 정렬

x_most_common = sorted(x, key=x.get, reverse=True)  #가장 많은 단어만 리스트화


x_most_common_2 = []
#sorted(x.items(), key=lambda pair: pair[1], reverse=True)  #key, value 쌍으로만 값 정렬


for i in x_most_common[:7] : #가장 많이 쓰인 상위 7개 단어 기준
    if len(i) == 1 : #단어 1개인경우 제외
        pass
    else :
        print(i) 
        x_most_common_2.append(i)
print(x_most_common_2) #최종 5개 단어 보기

'Python' 카테고리의 다른 글

[python] 파이썬 코딩 메모장 내 다른 메모장으로 옮기기 (0)	2022.10.12
[python] 구글 드라이브 내 이미지 텍스트 변환 해보기 (0)	2022.10.12
jupyter notebook IOPub data rate exceeded 문제 해결 (0)	2022.10.08
[python] 한국인터넷진흥원 인터넷주소(도메인, 아이피) 정보 검색 조회 (0)	2022.10.05
[python] 블로그 자동 글쓰기 포스팅 노출 테스트 결과 분석 및 인사이트 공유 (0)	2022.10.05

퍼포먼스 마케팅 데이터 분석

[python] konlpy counter 정렬

[python] konlpy counter 정렬

'Python' 카테고리의 다른 글

댓글

티스토리툴바

[python] konlpy counter 정렬

[python] konlpy counter 정렬

'Python' 카테고리의 다른 글

관련글

댓글

티스토리툴바