반응형 정규식7 [python] 정규식 특수문자 기타 단어 필터링 python 정규식 특수문자 기타 단어 필터링 이거는 제 개인 차원에서 정리를 하는 건데 파이스턴 코딩 중에서 정규식으로 특수문자 이러한 것들을 어떻게 정리를 할 것인가 특히 저 같은 경우에는 텍스트를 처리를 하는 텍스트 내에서도 어떤 특수문자 이러한 것들이 많이 있지 않습니까 예를 들자면 한문이 있을 수도 있고요 영어나 숫자만 없앤다든가 아니면 어떤 특수 문자들만 없는 경우가 있다든가 기타 등등 이런 것들이 많았습니다. 특히 어떤 키워드를 뭔가 추출을 한다든가 아니면 어떤 중복을 뭔가 없앤다든가 아니면 공백을 뭔가 빈칸 이런 것들을 없앤다든가 여러 기타 등등이 있었어서 그럴 때 어떻게 활용할 것인가 차원에서 가지고 온 겁니다. 많이 피곤하긴 하죠. 정규직으로 이거를 처리를 하고 뭘 처리를 하고 텍스트를.. 2022. 9. 5. [python] Requests BeautifulSoup 옛날 게시판 정규식 크롤링 Python Requests BeautifulSoup 옛날 게시판 정규식 크롤링 이거는 옛날 관련했었던 어떤 특정 url을 가져와 보기 그걸로 해서 시험상에서 했는데요. 다른 점은 뭐냐 하면 엄청 옛날 관련됐었던 그런 게시판들 있지 않습니까 간혹씩 그런 것들을 가끔씩 크롤링 한다거나 뭐 이런 경우가 있기는 하는데 연습 삼아서 저는 가지고 와봤어요. 한 20년 전에 있었던 크롤링 이런 것들을 가져와 보는 것. 특히 BeautifulSoup 로 해서 예시 삼아서 가지고 오긴 했는데 저 같은 경우에는 정규식을 이용했습니다. 정규식을 이용을 해서 특정적으로 뭔가 반복되는 뭔가 이거를 html을 크롤링을 하면서 부분만 가지고 오게 되는 거죠. 일반적으로 있었던 크롤링과는 다릅니다. 정규식으로 해서 뭔가 특정 내용.. 2022. 8. 28. [python] 정규식 한문 제거 python 정규식 한문 제거 이전에 파이썬으로 정규직이었는데 숫자를 제거를 하고 영문을 제거를 하고 이러한 것들 혹은 어떤 특정한 특수문자 사이에 있는 문자만 가지고 올 수 있는 기타 등등으로 정규식 관련됐었던 것들을 아까 말씀을 드렸었는데요. 이번에 아까 파이썬으로 아까 말씀드리는 거는 한문을 제거할 수 있는 정규식입니다. 제가 고전 문학과 관련했었던 것들을 보고 있었었는데 거기에 한 문이 너무 많더라고요 한문을 쫙 다 빼고 오로지 한글과 관련됐었던 것들을 보려고 하고 있었어요. 그랬는데 그래도 한문이 너무 많다. 보니까 만들었던 코딩이 바로 이겁니다. 이거를 만들어 놨었었는데 거의 웬만한 정규식이 있고 코딩을 사용을 해보면 한 문이 다 제거를 해서 나오긴 해요. 어느 정도 좋은 점도 있긴 하지만 완.. 2022. 8. 19. [python] 정규식 expected string or bytes-like object 에러 문구 해결 python 정규식 expected string or bytes-like object 에러 문구 해결 h2_class_name = re.search('', str(shop_rel_soup)).group() #클래스명 정규식 표현으로 찾기 h2_class_name_2 = re.search('"(.+?)"', str(h2_class_name)).group() #클래스명 정규식 표현으로 찾기 클래스명 정규식 표현으로 찾을 떄 다음와 같은 expected string or bytes-like object 에러 문구 발생시 str(shop_rel_soup) str 문자열로 감싸면 된다. 즉 str 문자열로 감싸면 에러 해결됨. 2022. 8. 17. 이전 1 2 다음 반응형