본문 바로가기
반응형

분류 전체보기462

[python] 게시판 형식 오래된 사이트 텍스트 추출 크롤링 python 게시판 형식 오래된 사이트 텍스트 추출 크롤링 혹시 여러분들 중에 옛날 게시판 형식으로 대해서 많이 가지고 계신가요? 제가 가끔씩 사이트 이런 것들 좋아하는 때보다 약간씩 놀랄 때가 있습니다. 그게 뭐냐면 이렇게 옛날로 되어 있는 사이트들이 굉장히 많습니다. 제가 생각하는 거 이상으로 많습니다. 근데 안타까운 거는 소중한 여러분들의 콘텐츠들이 있지 않습니까? 그런 콘텐츠들을 게시판 이런 곳에다가 많이 업로드를 해두시는 분들도 계시긴 하는데요, 호스팅 서비스가 끝나버리면 말 그대로 사이트가 없어지는 거죠. 그런 수많은 제 사이트들이 많이 없어지고 그런 걸 따로 백업을 안 해놓으시면 그대로 컨텐츠는 없어집니다. 오늘 제가 말씀드릴 파이썬 코딩은 만약 어떠한 사이트가 됐든 오래된 사이트 안에서 게.. 2022. 9. 15.
[python] wget 사용 방법 파일 링크 다운로드 해보기 python wget 사용 방법 파일 링크 다운로드 해보기 오늘 가져온 파이선 패키지는 wget 패키지 입니다. wget을 파이썬으로 코딩할 때 가져왔을 때는 이유 중 하나입니다. 뭐냐면 requests에서 파이썬 코딩을 해서 안에 링크, 즉 웹페이지 링크를 파일로 저장하는 방법이 있습니다. 근데 나쁜 점은 링크 뒤에 파일 이름이 붙어 있잖아요. 그런데 예를 들어 파일 이름이 붙어 있지 않은 경우가 있습니다. 보통은 뒤에 파일명이 붙어있기 때문에 어떤 파일인지 알고 웹페이지에 링크를 저장합니다. 보통은 이 파일 이름을 정할 때 이 파일 형식도 반드시 지정해야 파일로 웹페이지 링크가 저장됩니다. 대표적인 경우가 url로 호출하여 얻을 수 있는 requests 형식이 대표적인 예입니다. 한가지 문제점이 뭐냐.. 2022. 9. 7.
[python] 네이버 웹마스터도구 색인 URL 웹페이지 요청 자동화 해보기 python 네이버 웹마스터도구 색인 URL 웹페이지 요청 자동화 해보기 여러분들 중에 네이버 웹마스터 도구를 이용하시는 그런 분들이 계실 겁니다. 저도 이번에 티스토리를 활용을 해보면서 네이버 웹마스터 도구를 어떻게 활용을 해볼 것인가 그런 것에 대해서 알아봤어요. 보아하니까 너무 수동으로 돼 있더만요 수동으로 돼 있다. 보니까 처리하기가 번거롭고 껄끄러운 뭔가 그런 것들이 있었습니다. 가지고 온 게 바로 네이버 웹마스터 도구에 승인 요청하는 거 있지 않습니까 이거를 자동으로 돌리는 거를 제가 가지고 왔어요. 이렇게 자동으로 가지고 오는 거는 왜 그러냐면 블로포스팅을 많이 하신 분들이 있지 않습니까? 하루에 1~2개 정도 포스팅 하면 상관없는데 예를 들어 30개 이상 정도 포스팅을 했다. 그런 경우에는.. 2022. 9. 5.
[python] 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 python 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 아까 말씀드렸던 다음 블로그에서 제목만 제목하고 본문 내용을 크롤링 텍스트를 전부 다 다 가지고 와서 메모장에 저장하는 방법입니다. 이거 몇 가지를 아까 돌려보기는 했었었는데 돌아가기는 해요. 보아하니까 다음 블로그에 구조가 비슷비슷합니다. 이 코딩을 제가 관련됐었던 건 다 끄집어서 가지고 왔는데 여기서 유념을 해야 될 거는 블로그 아이디입니다. 여러분의 블로그 아이디하고 전체 카테고리 전체 카테고리 내에서 이제 페이지 수가 어느 정도야 그것만 기억만 해주셔도 돌려버리시면 여러분이 포스팅으로 썼었던 글 전체를 메모장으로 받아보실 수 있습니다. 이것에 대한 용도는 이제 메모장으로 이걸 받아보는 이런 것도 있긴 하지만 근데 기본적.. 2022. 9. 5.
반응형