본문 바로가기
반응형

텍스트추출5

[python] 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 python 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 아까 말씀드렸던 다음 블로그에서 제목만 제목하고 본문 내용을 크롤링 텍스트를 전부 다 다 가지고 와서 메모장에 저장하는 방법입니다. 이거 몇 가지를 아까 돌려보기는 했었었는데 돌아가기는 해요. 보아하니까 다음 블로그에 구조가 비슷비슷합니다. 이 코딩을 제가 관련됐었던 건 다 끄집어서 가지고 왔는데 여기서 유념을 해야 될 거는 블로그 아이디입니다. 여러분의 블로그 아이디하고 전체 카테고리 전체 카테고리 내에서 이제 페이지 수가 어느 정도야 그것만 기억만 해주셔도 돌려버리시면 여러분이 포스팅으로 썼었던 글 전체를 메모장으로 받아보실 수 있습니다. 이것에 대한 용도는 이제 메모장으로 이걸 받아보는 이런 것도 있긴 하지만 근데 기본적.. 2022. 9. 5.
[python] 파이썬 한글 hwp 파일 문서 열기 및 텍스트 추출 python 파이썬 한글 hwp 파일 문서 열기 및 텍스트 추출 python 파이썬 한글 hwp 파일 문서 열기 오늘 알아봐야 될 거는 파이썬으로 한글 파일 문서를 열어보고 안에서 텍스트를 한번 추출해보는 코딩을 만들어 왔었는데요. 여기 안에 내용을 보자면은 여기서 새로운 파이썬 패키지를 썼던 건데 ole 라는 구조적인 파일이 있다 하더라고요 근데 파일이 뭐냐면 원래 워드라든가 ppt 이런 파일에서 개발해서 불러와서 쓰는 그건데 거기에 한글 파일도 뭔가 되는 부분이 있다고 합니다 해서 파이썬으로 만들어 봤는데요. python 파이썬 한글 hwp 파일 오류 제가 사용했었던 바로는 전반위적으로 텍스트 추출하는 데는 전혀 문제가 없었습니다. 근데 여기 제일 맨 밑에 보시면 오류 사항이 하나가 있었어요. 그게 .. 2022. 8. 25.
[python] 정규식 영문 숫자 제외 한글 텍스트 추출 여러분들 중에 정규식을 쓰는데 어려운 부분들이 많으실 거예요. 저도 정규직을 처음. 접했었을 때 어려운 부분들이 많았습니다. python 정규식 영문 숫자 제외 한글 텍스트만 크롤링 추출 그중에서 이제 한국 테스트만 뽑아서 뭔가 클로닝을 한다든가 이런 걸 할 때 그게 힘들었던 부분들이 있었어요. 한글 테스트만 가져오고 뭐 영어 혹은 영문이죠. 숫자를 제외를 해놓고 오로지 한글 텍스트만 가지고 올 수 있는 그것에 대해서만 말씀드리고자 이렇게 작성을 하게 됐습니다. 여기 밑에 관련했었던 코딩을 아까 집어넣었었었는데 참고를 해보시고요 리스트 형식이긴 한데 리스트 형식 안에 여러분들의 데이터를 집어넣으면 한글 테스트만 나옵니다 해서 결과는 무조건 한글 테스트만 나오게끔 그렇게 해놨어요. 특히나 빈칸도 다 제외를.. 2022. 8. 14.
[파이썬] 네이버 쇼핑 연관 키워드 검색어 텍스트 추출 크롤링 파이썬 네이버 쇼핑 연관 키워드 검색어 텍스트 추출 크롤링 이거는 여러분들 중에 네이버 쇼핑 안에 여러 가지 추천해 주는 키워드들이 있지 않습니까 이거를 모으는 데 힘들 거예요. 힘듭니다. 근데 이런 거를 어떻게 하면 빠르게 가져올 수 있을까 이거를 고민을 해봤어요. 어떤 게 될까라고 고민을 해보다가 마침내 몇 몇 가지를 추려서 코딩을 만들어봤습니다. 세 가지 정도를 만들었는데요. 먼저 이제 첫 번째로는 자동 완성 그거예요. 이게 흔히 말하면 네이버 쇼핑 안에서 선풍기라고 검색을 치면 밑에 자동 완성으로 해서 여러 가지 추천 키워드를 줍니다. 정보를 하나 가지고 오는 거 하고 그다음에 만약에 네이버 쇼핑에다가 선풍기라고 검색을 치면 옆에 쇼핑 연관 키워드로 해서 다양한 것들을 보여줄 거예요. 그걸 하나로.. 2022. 7. 28.
반응형