본문 바로가기
Python

[python] 정규식 영문 숫자 제외 한글 텍스트 추출

by 퍼포먼스마케팅코더 2022. 8. 14.
반응형

여러분들 중에 정규식을 쓰는데 어려운 부분들이 많으실 거예요. 저도 정규직을 처음. 접했었을 때 어려운 부분들이 많았습니다. 

python 정규식 영문 숫자 제외 한글 텍스트만 크롤링 추출

그중에서 이제 한국 테스트만 뽑아서 뭔가 클로닝을 한다든가 이런 걸 할 때 그게 힘들었던 부분들이 있었어요. 한글 테스트만 가져오고 뭐 영어 혹은 영문이죠. 숫자를 제외를 해놓고 오로지 한글 텍스트만 가지고 올 수 있는 그것에 대해서만 말씀드리고자 이렇게 작성을 하게 됐습니다. 여기 밑에 관련했었던 코딩을 아까 집어넣었었었는데 참고를 해보시고요 리스트 형식이긴 한데 리스트 형식 안에 여러분들의 데이터를 집어넣으면 한글 테스트만 나옵니다 해서 결과는 무조건 한글 테스트만 나오게끔 그렇게 해놨어요. 특히나 빈칸도 다 제외를 해놓고 했었기 때문에 오로지 한글만 텍스트만 뽑아서 뭔가 보고자 하신다면 이 코딩을 쓰시면 어떨까 싶습니다.

import re

content_texts = ['2211 박태보전'
]

content = []

for content_text in content_texts :
    content_text = re.sub('[|A-Za-z|]+', '', content_text)  #영문 제외
    content_text = re.sub('[|0-9|]+', '', content_text)  #숫자 제외
    content_text = re.compile('[|ㄱ-ㅎ|ㅏ-ㅣ]+').sub('',content_text) # 정규식에서 일치되는 부분을  제외하고 저장
    content_text = content_text.strip() #빈칸 제거
    if content_text == '' :  #빈칸 제외
        pass
    elif content_text == '   ': #빈칸 제외
        pass
    elif content_text == ' ':
        pass
    else :
        content.append(content_text)
for i in content :
    print(i)
반응형

댓글