반응형 Python193 [python] 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 python 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 아까 말씀드렸던 다음 블로그에서 제목만 제목하고 본문 내용을 크롤링 텍스트를 전부 다 다 가지고 와서 메모장에 저장하는 방법입니다. 이거 몇 가지를 아까 돌려보기는 했었었는데 돌아가기는 해요. 보아하니까 다음 블로그에 구조가 비슷비슷합니다. 이 코딩을 제가 관련됐었던 건 다 끄집어서 가지고 왔는데 여기서 유념을 해야 될 거는 블로그 아이디입니다. 여러분의 블로그 아이디하고 전체 카테고리 전체 카테고리 내에서 이제 페이지 수가 어느 정도야 그것만 기억만 해주셔도 돌려버리시면 여러분이 포스팅으로 썼었던 글 전체를 메모장으로 받아보실 수 있습니다. 이것에 대한 용도는 이제 메모장으로 이걸 받아보는 이런 것도 있긴 하지만 근데 기본적.. 2022. 9. 5. [python] 정규식 특수문자 기타 단어 필터링 python 정규식 특수문자 기타 단어 필터링 이거는 제 개인 차원에서 정리를 하는 건데 파이스턴 코딩 중에서 정규식으로 특수문자 이러한 것들을 어떻게 정리를 할 것인가 특히 저 같은 경우에는 텍스트를 처리를 하는 텍스트 내에서도 어떤 특수문자 이러한 것들이 많이 있지 않습니까 예를 들자면 한문이 있을 수도 있고요 영어나 숫자만 없앤다든가 아니면 어떤 특수 문자들만 없는 경우가 있다든가 기타 등등 이런 것들이 많았습니다. 특히 어떤 키워드를 뭔가 추출을 한다든가 아니면 어떤 중복을 뭔가 없앤다든가 아니면 공백을 뭔가 빈칸 이런 것들을 없앤다든가 여러 기타 등등이 있었어서 그럴 때 어떻게 활용할 것인가 차원에서 가지고 온 겁니다. 많이 피곤하긴 하죠. 정규직으로 이거를 처리를 하고 뭘 처리를 하고 텍스트를.. 2022. 9. 5. [python] 다음 블로그 URL 추출 및 백업 python 다음 블로그 URL 추출 및 백업 이거는 최근에 다음 블로그가 서비스가 종료가 된다고 합니다. 티스토리로 이전하는 그게 있는데 말 그대로 얼마 안 남았어요. 다음 서비스를 거의 종료한다고 합니다. 여러분들의 이 글과 이미지 이런 것들이 티스토리로 넘어간다든가 아니면 다음 내에서는 거의 볼 수 없는 지경이 남아있었죠. 오늘은 여러분들한테 다음 블로그의 url을 추출하거나 혹은 백업할 수 있는 이 방법에 대해서 밑에 코딩으로 적어놨습니다. 이거는 이미지는 제외를 하고요 여러분 글 내에 어떤 중요한 특정 파일이 있는 경우에는 그거를 가지고 올 수 있도록 하는 장치라고 생각하시면 될 것 같습니다. 어떤 url을 추출을 해놓고 그것에 파일을 다운로드 받을 수 있게끔 하는 용도고요 여러분 다음 블로그 .. 2022. 9. 5. [python] URL 멀티미디어 다운로드 자동화 python URL 멀티미디어 다운로드 자동화 이거는 파이썬에서 나중에 웹 데이터를 어떻게 다운로드해서 저장을 할 것인가 이것에 대해서 다시 한번 해야 될 것 같기는 한데 이거는 이전에 스마트 스토어에서 이미지를 자동으로 와장창 다운로드 받을 수 있는 그것에 대해서 가지고 왔었는데 이거는 다른 겁니다. 멀티미디어 쪽으로 해서 다운로드를 어떻게 이 자동화를 할 것인가 이거에 대해서 제가 가져와 봤었었는데요. 아주 간단한 내용입니다. 메모장 안에다가 다운로드 받을 url만 다 입력만 해놓고 코딩만 실행을 해버리면 여러분 특정 폴더 내에 파일이 다 다운로드 받아줄 거예요. 쉽게 받아줄 거니까 거의 인터넷 속도와 상관없이 엄청 빠릅니다 한 숫자와 상관없이 한 2천 개 내지 3천 개는 금방 바로바로 다운로드 받아.. 2022. 9. 5. 이전 1 ··· 6 7 8 9 10 11 12 ··· 49 다음 반응형