본문 바로가기
반응형

분류 전체보기463

[네이버]Open API 없이 네이버 뉴스 웽 크롤러 """네이버 뉴스 기사 웹 크롤러 모듈""" from bs4 import BeautifulSoupimport urllib.request # 출력 파일 명OUTPUT_FILE_NAME = 'output.txt'# 긁어 올 URLURL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=103&oid=055'\ '&aid=0000445667' # 크롤링 함수def get_text(URL): source_code_from_URL = urllib.request.urlopen(URL) soup = BeautifulSoup(source_code_from_URL, 'html.parser', from_encoding='utf-8') text = '' for it.. 2017. 1. 9.
[네이버] 웹문서 섹션 크롤링 import urllib.requestimport urllib.parsefrom bs4 import BeautifulSoup defaultURL = 'https://openapi.naver.com/v1/search/webkr.xml?' start = '&start=1'display = '&display=100'query = '&query='+urllib.parse.quote_plus(str(input("Keyword: "))) fullURL = defaultURL + start + display + queryprint(fullURL) file = open("C:\\Python34\\naver_web_4.txt","w",encoding='utf-8') headers = { 'Host' : 'openapi... 2017. 1. 9.
[네이버] 파이썬 네이버 카페 크롤링 import urllib.requestimport urllib.parsefrom bs4 import BeautifulSoup defaultURL = 'https://openapi.naver.com/v1/search/cafearticle.xml?' sort = '&sort=date' #date(날짜순), sim(정확도순)start = '&start=1'display = '&display=100'query = '&query='+urllib.parse.quote_plus(str(input("검색어: "))) #검색어라는 문구를 출력하여 사용자에게 단어를 문자열로 입력받은 후 quote_plus 함수를 이용해서 단어를 인코딩(url에 한글입력 가능) fullURL = defaultURL + sort + star.. 2017. 1. 9.
[네이버]뉴스 크롤링 import urllib.requestimport urllib.parse from bs4 import BeautifulSoup defaultURL = 'https://openapi.naver.com/v1/search/news.xml?'sort = '&sort=sim'start = '&start=1'display = '&display=100'query = '&query='+urllib.parse.quote_plus(str(input("검색어: "))) fullURL = defaultURL + sort + start + display + query print(fullURL) file = open("C:\\Python34\\naver_news.txt","w",encoding='utf-8') headers = .. 2017. 1. 8.
반응형