본문 바로가기
반응형

python102

[python] wget 사용 방법 파일 링크 다운로드 해보기 python wget 사용 방법 파일 링크 다운로드 해보기 오늘 가져온 파이선 패키지는 wget 패키지 입니다. wget을 파이썬으로 코딩할 때 가져왔을 때는 이유 중 하나입니다. 뭐냐면 requests에서 파이썬 코딩을 해서 안에 링크, 즉 웹페이지 링크를 파일로 저장하는 방법이 있습니다. 근데 나쁜 점은 링크 뒤에 파일 이름이 붙어 있잖아요. 그런데 예를 들어 파일 이름이 붙어 있지 않은 경우가 있습니다. 보통은 뒤에 파일명이 붙어있기 때문에 어떤 파일인지 알고 웹페이지에 링크를 저장합니다. 보통은 이 파일 이름을 정할 때 이 파일 형식도 반드시 지정해야 파일로 웹페이지 링크가 저장됩니다. 대표적인 경우가 url로 호출하여 얻을 수 있는 requests 형식이 대표적인 예입니다. 한가지 문제점이 뭐냐.. 2022. 9. 7.
[python] 네이버 웹마스터도구 색인 URL 웹페이지 요청 자동화 해보기 python 네이버 웹마스터도구 색인 URL 웹페이지 요청 자동화 해보기 여러분들 중에 네이버 웹마스터 도구를 이용하시는 그런 분들이 계실 겁니다. 저도 이번에 티스토리를 활용을 해보면서 네이버 웹마스터 도구를 어떻게 활용을 해볼 것인가 그런 것에 대해서 알아봤어요. 보아하니까 너무 수동으로 돼 있더만요 수동으로 돼 있다. 보니까 처리하기가 번거롭고 껄끄러운 뭔가 그런 것들이 있었습니다. 가지고 온 게 바로 네이버 웹마스터 도구에 승인 요청하는 거 있지 않습니까 이거를 자동으로 돌리는 거를 제가 가지고 왔어요. 이렇게 자동으로 가지고 오는 거는 왜 그러냐면 블로포스팅을 많이 하신 분들이 있지 않습니까? 하루에 1~2개 정도 포스팅 하면 상관없는데 예를 들어 30개 이상 정도 포스팅을 했다. 그런 경우에는.. 2022. 9. 5.
[python] 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 python 다음 블로그 제목, 본문 내용 텍스트 추출 크롤링 후 메모장 저장 아까 말씀드렸던 다음 블로그에서 제목만 제목하고 본문 내용을 크롤링 텍스트를 전부 다 다 가지고 와서 메모장에 저장하는 방법입니다. 이거 몇 가지를 아까 돌려보기는 했었었는데 돌아가기는 해요. 보아하니까 다음 블로그에 구조가 비슷비슷합니다. 이 코딩을 제가 관련됐었던 건 다 끄집어서 가지고 왔는데 여기서 유념을 해야 될 거는 블로그 아이디입니다. 여러분의 블로그 아이디하고 전체 카테고리 전체 카테고리 내에서 이제 페이지 수가 어느 정도야 그것만 기억만 해주셔도 돌려버리시면 여러분이 포스팅으로 썼었던 글 전체를 메모장으로 받아보실 수 있습니다. 이것에 대한 용도는 이제 메모장으로 이걸 받아보는 이런 것도 있긴 하지만 근데 기본적.. 2022. 9. 5.
[python] 정규식 특수문자 기타 단어 필터링 python 정규식 특수문자 기타 단어 필터링 이거는 제 개인 차원에서 정리를 하는 건데 파이스턴 코딩 중에서 정규식으로 특수문자 이러한 것들을 어떻게 정리를 할 것인가 특히 저 같은 경우에는 텍스트를 처리를 하는 텍스트 내에서도 어떤 특수문자 이러한 것들이 많이 있지 않습니까 예를 들자면 한문이 있을 수도 있고요 영어나 숫자만 없앤다든가 아니면 어떤 특수 문자들만 없는 경우가 있다든가 기타 등등 이런 것들이 많았습니다. 특히 어떤 키워드를 뭔가 추출을 한다든가 아니면 어떤 중복을 뭔가 없앤다든가 아니면 공백을 뭔가 빈칸 이런 것들을 없앤다든가 여러 기타 등등이 있었어서 그럴 때 어떻게 활용할 것인가 차원에서 가지고 온 겁니다. 많이 피곤하긴 하죠. 정규직으로 이거를 처리를 하고 뭘 처리를 하고 텍스트를.. 2022. 9. 5.
반응형