본문 바로가기
반응형

크롤링16

[파이썬] Selenium 나무위키 크롤링해보기 파이썬 Selenium 나무위키 크롤링해보기 안녕하십니까. 오늘은 여러분들께 나무 위키를 파이썬의 셀레늄이라고 있습니다. 이거를 통해서 크롤링을 한번 해볼 건데요. 많은 분들이 많이 맡기시는 그런 분들이 로봇인지 사람인지 구분하는 이런 거에서 많이 막힌다 이렇게 얘기를 하시더라고요 그런 의미에서 제대로 크롤링할 수 있는 방법이 뭐가 있을까라는 것을 공유를 드리고자 오늘 이렇게 썼습니다. 그렇게 어려운 내용들은 없고요. 전체 파이썬 코드를 완성본도 공유를 드릴께요. 파이썬 셀레늄으로 나무 위키를 크롤링할 수 있는 방법에 대해서 시작을 해보도록 하겠습니다. 먼저 첫 번째로 보시는 바와 같이 이거를 보시면 파이썬에서 필요한 라이브러리에요. 그래서 어느 정도 조금 있기는 하는데 이 부분들은 다 파이썬에서 설치가.. 2023. 3. 5.
[python] 게시판 형식 오래된 사이트 텍스트 추출 크롤링 python 게시판 형식 오래된 사이트 텍스트 추출 크롤링 혹시 여러분들 중에 옛날 게시판 형식으로 대해서 많이 가지고 계신가요? 제가 가끔씩 사이트 이런 것들 좋아하는 때보다 약간씩 놀랄 때가 있습니다. 그게 뭐냐면 이렇게 옛날로 되어 있는 사이트들이 굉장히 많습니다. 제가 생각하는 거 이상으로 많습니다. 근데 안타까운 거는 소중한 여러분들의 콘텐츠들이 있지 않습니까? 그런 콘텐츠들을 게시판 이런 곳에다가 많이 업로드를 해두시는 분들도 계시긴 하는데요, 호스팅 서비스가 끝나버리면 말 그대로 사이트가 없어지는 거죠. 그런 수많은 제 사이트들이 많이 없어지고 그런 걸 따로 백업을 안 해놓으시면 그대로 컨텐츠는 없어집니다. 오늘 제가 말씀드릴 파이썬 코딩은 만약 어떠한 사이트가 됐든 오래된 사이트 안에서 게.. 2022. 9. 15.
[python] 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 python 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 아까 말씀드렸던 다음 블로그에서 제목만 제목하고 본문 내용을 크롤링 텍스트를 전부 다 다 가지고 와서 메모장에 저장하는 방법입니다. 이거 몇 가지를 아까 돌려보기는 했었었는데 돌아가기는 해요. 보아하니까 다음 블로그에 구조가 비슷비슷합니다. 이 코딩을 제가 관련됐었던 건 다 끄집어서 가지고 왔는데 여기서 유념을 해야 될 거는 블로그 아이디입니다. 여러분의 블로그 아이디하고 전체 카테고리 전체 카테고리 내에서 이제 페이지 수가 어느 정도야 그것만 기억만 해주셔도 돌려버리시면 여러분이 포스팅으로 썼었던 글 전체를 메모장으로 받아보실 수 있습니다. 이것에 대한 용도는 이제 메모장으로 이걸 받아보는 이런 것도 있긴 하지만 근데 기본적.. 2022. 9. 5.
[python] 네이버 블로그 전체 주소 제목 URL 리스트 추출 저장 크롤링 python 네이버 블로그 전체 주소 제목 URL 리스트 추출 저장 크롤링 오늘의 그거는 네이버 블로그 전체 주소를 어떻게 하면 제목하고 url 리스트만 뽑아서 이걸 크로링 해서 저장을 하는 과정 이것에 대해서 가지고 와봤습니다. 파이썬 코딩으로 아까 만들어 놨었었는데요. 이것에 대한 용도는 아주 간단합니다 만약 여러분들이 네이버 블로그를 오랫동안 이용하셨었다고 한다면 한 블로그 전체 글로만 보더라도 거의 한 2천 개 이상이 넘어갈 거예요. 만약에 블로그를 많이 이용을 안 하시고 최근에 이용을 하셨다면 블로그전체 글 수가 거의 한 100개에서 한 500개 이 사이로만 될 텐데 오랫동안 블로그를 애지중지하시면서 운영하셨던 분들이라면 블로그전체 글수가 거의 기본 1천 개가 이상 넘어갑니다. 1천 개가 이상 .. 2022. 9. 5.
반응형