hanspell 맞춤법, 오탈자 띄어쓰기 교정해보기
바로 시작할게요. 파이썬으로 오늘은 맞춤법 오탈자, 띄어쓰기 교정을 해줄 수 있는 hanspell 패키지입니다. 여러분들 혹시 네이버 검사 결과를 보시면 부산대에서 쓰는 한국어 맞춤법 검사기 있습니다. 주로 거거를 많이 사용하시는 것 같은데 음 그거를 파이썬 코딩에서도 똑같이 할 수 있습니다. 네이버에서 여러분들이 사용하시는 맞춤법 검사기 그거 동일하다고 생각하시면 돼요.
여전히 다른 분들도 마찬가지고 부산대학교에서 나왔었던 hanspell 맞춤법 검사기를 많이 사용을 하고 있죠? 제가 어떠한 유명한 소설이 있었었는데 이 유명한 소설에 나와 있었던 문장을 한번 메모장에다가 넣어서 네이버 맞춤법 검사기를 사용을 해봤어요. 이거 같은 경우에는 최대 500자만 됩니다.
500자가 되기 때문에 저 같은 경우에는 이거를 각 마침표로 되어 있는 이 문장을 리스트 형식으로 만듭니다. 그거를 가지고 한 문장씩마다 맞춤법을 검사하도록 만들어 놨어요. 결과로서 보자면 오탈자나 띄어쓰기는 제가 잘 모르겠어요. 완벽하게 뭔가 되느냐 안 되느냐 이거는 더 확인이 필요할 것 같기는 하지만 혹여나 여러분들 중에 텍스트가 어마무시하게 많은 경우가 있지 않습니까 그럴 때 유용하게 쓸 수 있는 코딩이다라고 생각하시면 될 것 같아요.
이렇게 코딩을 만들어놨었고요. 그리고 이 밑에 보면 결과 요청에 따라서 성공이냐 에러 건수가 어느 정도 되냐 그러한 것들의 결과값도 볼 수가 있습니다. 결과물 전문 이거를 딕셔너리 형태로 돼 있어서 그걸 확인이 가능해요. 살펴보시면 될 것 같습니다.
from hanspell import spell_checker
f = open('C:/Users/user/Documents/카카오톡 받은 파일/소설 채만식-순공_있는_일요일-문장.txt', 'r', encoding='utf-8-sig')
f_renew = open('C:/Users/user/Documents/카카오톡 받은 파일/소설 채만식-순공_있는_일요일-문장_수정용.txt', 'w', encoding='utf-8-sig')
text =f.read()
#len(text) #2만자
text_list = text.split('.') #마침표 문장에 따라 리스트로 정리
for i in text_list :
result = spell_checker.check(i)
dict_result = result.as_dict() #dict 화하기
#print(dict_result) #확인
original = dict_result['original'] #원문
#print(original) #원문
#print("---------------------------------------------------------------------")
checked = dict_result['checked'] #수정
#print(checked) #수정용
checked = str(checked) + "." #끝에 마침표까지
f_renew.write(str(checked) + '\n' + '\n') #띄어쓰기
f.close()
f_renew.close()
print("완료")
result = spell_checker.check(content)
print(result.as_dict()) #결과물 전문
print(result.result) #결과 요청 성공 여부 출력
print(result.errors) #결과 내 에러 건수 출력
'Python' 카테고리의 다른 글
[python] 네이버 블로그 전체 주소 제목 URL 리스트 추출 저장 크롤링 (0) | 2022.09.05 |
---|---|
[python] 네이버쇼핑 실시간 디지털가전 인기 키워드 검색어 크롤링 추출 (1) | 2022.08.31 |
[python] Requests BeautifulSoup 옛날 게시판 정규식 크롤링 (0) | 2022.08.28 |
[python] konply 설치 및 다운로드 방법 (0) | 2022.08.28 |
[python] 검색엔진 줌 ZUM 자동완성 연관 키워드 검색어 크롤링 추출 (0) | 2022.08.26 |
댓글