본문 바로가기
반응형

분류 전체보기463

OpenDart 공시서류원본파일 xml 파싱 텍스트 추출 Opendart 공시서류원본파일 xml 파싱 방법 이 코드는 오픈DART(한국 금융감독원 전자공시 시스템) API를 사용하여 특정 문서(여기서는 감사보고서)를 ZIP 파일 형태로 다운로드하고, 해당 ZIP 파일 내에서 특정 XML 파일을 추출하여 HTML 구조로 파싱하는 과정을 구현. 이 과정에서 다양한 예외 처리를 통해 오류 상황을 세심하게 관리. 각 함수는 특정 작업을 수행하는 독립적인 단위로 구성되어 있어 코드의 가독성과 재사용성을 높임. root를 통해서 xml 파일을 파싱하는 것을 성공함. 파이썬을 사용하여 이 과정을 처리했지만, 전통적인 방식과는 다른 접근으로 인해 약간의 어려움이 있었음. 먼저 XML 파일이 내부적으로 HTML 구조를 포함하고 있어 복잡한 형태로 되어 있었으며, 최신 공시된 .. 2024. 2. 8.
엑셀 xl 각 파일 요소 분석 "C:\down\dsd_html\test\xl_rels\workbook.xml.rels” 이 XML 파일은 Open XML 형식을 사용하는 Excel 파일의 일부입니다. 파일 경로에서 볼 수 있듯이, 이 파일은 Excel 워크북의 관계를 정의하는 데 사용됨. 구체적으로, 이 파일은 워크북 내의 다양한 구성 요소 사이의 관계를 정의. 각 요소는 특정 타입의 관계를 나타내고, 이 관계는 워크시트, 스타일, 계산 체인, 공유 문자열, 테마와 같은 다른 파일들을 타겟으로 함. XML 파일 내의 주요 구성 요소는 다음과 같습니다: : 이 요소는 문서의 루트 요소로, 모든 관계를 포함. xmlns 속성은 이 파일이 사용하는 스키마의 네임스페이스를 정의. : 이 요소는 개별 관계를 나타냅니다. 각 관계는 다음 속성을.. 2024. 2. 5.
엑셀 xlsx 파일 xml 구조 분석 기본적으로 엑셀 내 xlsx 파일을 zip 파일로 만들어서 이를 압축 해제를 하면 다음과 같은 파일이 나온다. 폴더 형식으로 _rels, docProps, xl 로 구성돼 있고, Content_Types 로 해서 xml 파일이 있다. 먼저 _rels 폴더에 있는 xml 파일부터 먼저 살펴보자. 아래는 _rels 폴더에 있는 .rels 파일의 xml 문서이다. 먼저 아래의 내용을 보면, Relationships 의 요소로 하여 파일 내 모든 관계를 담고 있는 컨테이너 역할을 한다고 함. 이는 http://schemas.openxmlformats.org/package/2006/relationships 의 네임스페이르르 사용하여 정의된다고 함. Relationships 의 요소를 보면, Id, Type, Ta.. 2024. 2. 5.
XBRL 재무제표 구조 분석 XML 구조의 기본 요소는 요소(Element)와 내용(Content)이다. 즉 아래와 같이 각 요소에 따른 내용인 값을 입력하면, 컴퓨터가 인식이 가능하다록 한다는 점. 아래와 같은 각각의 계층값이 다르다 하더라도, Dart Taxonomy 로 통일되어 했을 경우엔 동일한 개념을 통해 인식이 가능하다. 이를 재무제표를 더 깊숙하게 봐보면 알 수가 있다. 아래와 같이 각각의 내용을 메타 데이터 형식으로, 개념, 값,상황 정보 등으로 구분이 가능할 것이다. 여기에선 주로 Concept, Fact 등으로 구분하는 것같다. 사실상은 이러한 정보값을 각 사실(Fact) 별로 구조화 하는 것. 여기에선 또 텍사노미 문서라고, 이러한 개념을 정의하고 구조화하는데에 한국에선 Dart Taxonomy를 이용한다. 이는.. 2024. 2. 1.
반응형