본문 바로가기
반응형

BeautifulSoup4

[python] httpx BeautifulSoup 를 이용한 demoday 크롤링 httpx BeautifulSoup 를 이용한 demoday 크롤링 이는 파이썬으로 작성된 웹 스크래핑 코드입니다. 이는 demoday.co.kr에서 기업 정보를 가져와서 출력하는 함수를 정의하고 있습니다. 이 함수는 'Com_Name'이라는 인자를 받아서 해당 기업의 정보를 가져옵니다. 가져온 정보는 다음과 같습니다. 기업 정보 임직원 수 회사 이름 회사 설명 대표자 이름 설립 년도 회사 홈페이지 주소 이 정보는 각각 '임직원', '회사이름', '설명', '대표자', '설립년도', '사이트주소' 라는 키를 가지고 있는 딕셔너리 형태로 반환됩니다. 코드를 실행하기 위해서는 requests, httpx, BeautifulSoup 모듈이 필요합니다. 또한, httpx.get() 함수에서 verify=Fals.. 2023. 3. 10.
[python] Requests BeautifulSoup 옛날 게시판 정규식 크롤링 Python Requests BeautifulSoup 옛날 게시판 정규식 크롤링 이거는 옛날 관련했었던 어떤 특정 url을 가져와 보기 그걸로 해서 시험상에서 했는데요. 다른 점은 뭐냐 하면 엄청 옛날 관련됐었던 그런 게시판들 있지 않습니까 간혹씩 그런 것들을 가끔씩 크롤링 한다거나 뭐 이런 경우가 있기는 하는데 연습 삼아서 저는 가지고 와봤어요. 한 20년 전에 있었던 크롤링 이런 것들을 가져와 보는 것. 특히 BeautifulSoup 로 해서 예시 삼아서 가지고 오긴 했는데 저 같은 경우에는 정규식을 이용했습니다. 정규식을 이용을 해서 특정적으로 뭔가 반복되는 뭔가 이거를 html을 크롤링을 하면서 부분만 가지고 오게 되는 거죠. 일반적으로 있었던 크롤링과는 다릅니다. 정규식으로 해서 뭔가 특정 내용.. 2022. 8. 28.
[python] BeautifulSoup 한글 깨짐 현상 오류 해결 python BeautifulSoup 한글 깨짐 현상 오류 해결 BeautifulSoup 사용시 간혹 한글 깨짐 현상이 있을 수 있다. 그럴때는 인코딩 및 디코딩 등의 문자열 등의 문제 발생으로 인한 부문이 대부분이라 아래와 같은 해결을 해 주면은 한글이 제대로 나온다. html = BeautifulSoup(raw.content.decode('euc-kr', 'replace'), 'lxml') 2022. 8. 14.
[파이썬] BeautifulSoup 하위 태그 제거 extract() 사용 방법 파이썬 BeautifulSoup 하위 태그 제거 extract() 사용 방법 이거는 파이썬에서 제가 간혹씩 쓸 때마다 하는 게 있는데 하위 태그에서 제거하는 그러한 방법 사용법 이거에 대해서 적은 거예요. BeautifulSoup라는 게 있죠. 많이 사용하시는 것 같은데 하위 태그를 제거를 한다든가 아니면 공백 텍스트만 추출한다거나 쉼표를 제거한다거나 다양한 부분이 있겠죠. 그럴 때 쓰이는 코딩 중에 하나입니다. 많이 많이 쓰이기도 해요. 저는 많이 쓰는 편이지라 주로 웹 사이트에서 크롤링 이런 거 할 때 쓰이는 거라고 생각하시면 될 것 같습니다. 간혹씩 이거 사용하긴 하는데 생각이 안 날 때가 있거든요. 이거 유용한 건데 많이 헤매는 경우가 있어서 기록해 두신 거라고 보시면 될 것 같습니다. resul.. 2022. 8. 12.
반응형