KR20140053888A

KR20140053888A - 판식 파일중 구조화 정보 획득방법 및 장치

Info

Publication number: KR20140053888A
Application number: KR20137030609A
Authority: KR
Inventors: 닝 동; 웬주앙 후앙; 바오리앙 장
Original assignee: 피킹 유니버시티 파운더 그룹 컴퍼니, 리미티드; 베이징 파운더 아파비 테크놀로지 리미티드
Priority date: 2011-12-09
Filing date: 2012-12-07
Publication date: 2014-05-08
Also published as: US9773009B2; CN103164388A; US20140289274A1; EP2790111A4; JP2014527660A; EP2790111A1; JP5930496B2; CN103164388B; WO2013083067A1

Abstract

본 발명은 판식 파일의 정보화 관리에서의 판식 파일의 구조화 속도를 향상시키는 판식 파일중 구조화 정보 획득방법 및 장치를 공개하였다. 판식 파일중 구조화 정보 획득방법은 현재 목록항에 대응하는 시작 페이지정보를 확인하고 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하며 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.

Description

판식 파일중 구조화 정보 획득방법 및 장치{Method and device for acquiring structured information in layout file}

본 발명은 정보처리 기술에 관한 것으로, 상세하게는 판식 파일중 구조화 정보 획득방법 및 장치에 관한 것이다.

도서 판식 파일에 대한 정보화 관리에 있어서, 각 도서 판식 파일을 구조화하고 각 판식 파일의 구조화 정보를 획득하여 대응하는 목록 데이터를 형성하였다. 그러나, 기존의 형성된 도서 판식 파일의 목록 데이터중에는 일반적으로 각 목록항의 명칭문자 및 각 목록항의 시작위치는 포함되어 있으나 각 목록항의 종결위치 및 문장중에서 각 목록항 명칭의구체적인 구역은 포함되지 않는다.

상기한 바에 따르면, 기존의 도서 판식 파일의 구조화 정보는 불완전하므로 기존의 목록 데이터에 의하여 각 목록항에 대응하는 구체적인 시작위치 및 종결위치를 확인할 수 없다. 따라서, 도서 판식 파일의 구체적인 목록항의 판식과 스트리밍 열독을 제공할 수 없다.

따라서, 각 도서 판식 파일에 대하여 구조화 프로세스를 진행하는 동안 각 판식 파일의 비교적 완전한 구조화 정보를 획득하여야 한다. 일반적으로 인공을 통하여 도서 판식 파일에 대하여 구조화를 진행하였다. 즉, 인공으로 도서 판식 파일중의 각 목록항의 문장내용을 읽고 분석하고 조회하고, 다음 조회한 문장내용에 의하여 그중에서 필요한 구조화 데이터를 획득하였다. 그러나 대량의 도서 판식 파일에 대하여 정보화 관리시 인공적인 한계로 인하여, 예를 들면 이해능력 또는 체력적 한계로 인하여 다소 오차가 발생하기 마련이고 인공에 의한 속도도 비교적 느리다. 따라서, 이는 구조화 정보 획득의 정확도 및 속도에 영향을 미치게 된다.

본 발명의 일 실시예는 판식 파일의 정보화 관리에서 판식 파일의 구조화 속도를 향상시키는 판식 파일중 구조화 정보 획득방법 및 장치를 제공하고자 한다.

본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득방법은 현재 목록항에 대응하는 시작 페이지정보를 확인하는 단계; 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계; 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 단계; 및 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계를 포함한다.

본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득장치는 현재 목록항에 대응하는 시작페이지를 확인하는 확인유닛; 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 분할유닛; 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 매칭유닛; 및 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 획득유닛을 포함한다.

본 발명의 일 실시예에 있어서 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고 그중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용에서 제1 블록구조 문자의 제1 위치정보를 획득하며, 다음 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 확인하였다. 이로써, 단지 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하여도 판식 파일의 구조화 정보를 획득할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.

이로써, 단지 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하여도 판식 파일의 구조화 정보를 획득할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.

도1은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보의 획득을 표시하는 흐름도이다.
도2는 본 발명의 일 실시예에 따른 매칭검색을 표시하는 흐름도이다.
도3은 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 표시하는 도면이다.
도4는 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 업데이트한 것을 표시하는 도면이다.
도5는 본 발명의 일 실시예에 따른 구조화 된 판식 파일 데이터정보를 표시하는 도면이다.
도6은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득 장치의 구조도이다.

본 발명의 일 실시예에 있어서, 특정 페이지의 문장 내용에 대하여 분석과 매칭을 진행하면 판식 파일의 구조화 정보를 획득할 수 있다. 이로써 판식 파일의 구조화 속도를 향상시켰다.

도1을 참조하면, 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보를 획득하는 프로세스는 아래와 같은 단계들을 포함한다.

단계 101, 현재 목록항에 대응되는 시작 페이지정보를 확인한다.

판식 파일에 대한 정보화 관리에서 판식 파일의 목록 데이터정보는 이미 로딩되었다. 그중, 목록 데이터정보는 목록항의 계층관계, 목록항의 명칭문자, 목록항에이 대응하는 시작 페이지를 포함한다. 상기 목록 데이터정보는 XML파일 형식으로 표시될 수 있고, 또는 기타 지정의 TXT파일 형식 또는 EXCEL파일 형식으로 표시될 수 있다.

따라서, 단독으로 제공하여야 할 판식 열독과 스트리밍 열독의 구체적인 목록항을 현재 목록항으로 확인하거나 또는 목록 데이터정보중 임의의 한 목록항을 현재 목록항으로 확인하고 현재 목록항에 대응하는 시작 페이지를 검색한다.

본 발명의 일 실시예는, 구조화 정보 획득의 정확도를 향상시키기 위하여 현재 목록항에이 대응하는 시작 페이지를 확인하기 전에 로딩된 판식 파일의 목록 데이터정보의 유효성을 분석한다. 예를 들면 목록의 계층관계 및 각 목록항의 시작 페이지의 유효성등에 대하여 분석을 진행할 수 있다.

단계 102, 내용속성정보에 따라 시작 페이지정보에 대응되는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할한다.

일반적으로 판식 파일은 공통한 특징을 구비하고 있다. 예를 들면, 문장중의 목록 텍스트와 문장중의 본문 텍스트는 글자 크기와 글자 서식에 비교적 큰 차이를 가지고 있고, 또한 목록과 본문의 제1 행 간격과 본문사이의 제2 행 간격에도 비교적 큰 차이를 가지고 있다. 따라서, 본 발명의 일 실시예는, 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여 제1 문장내용을 하나, 둘, 또는 다수의 블록구조 문자로 분할될 수 있다.

따라서, 내용속성정보는 문자정보 및 행 간격정보를 포함한다. 또한, 본 발명의 일 실시예에서 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함한다. 따라서, 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여, 자동적으로 단락을 형성하는 방법 또는 자동적으로 행을 형성하는 방법을 이용하여 제1 문장내용은 상응한 단락구조 문자 또는 행구조 문자로 분할될 수 있다.

단계 103, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색한다.

본 발명의 일 실시예는, 설정된 매칭모듈을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색할 수 있다. 매칭모듈의 유형은 다양할 수 있므며 따라서 매칭검색의 프로세스 또한 다양할 수 있다.

단계 104, 제1 블록구조 문자가 제1 문장내용중에서의 제1 위치정보를 획득한다.

현재 목록항의 명칭문자에 대응하는 제1 블록구조 문자는 이미 검색되었으므로 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득할 수 있다. 제1 위치정보는 현재 위치한 페이지의 페이지정보, 좌표정보, 횡방향에서 시작 선의 좌표정보 및 횡방향에서 종결 선의 좌표정보중 하나 또는 다수의 정보를 포함한다.

단계 105, 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.

일반적으로 제1 위치정보로부터 현재 목록항의 시작위치정보를 확인할 수 있고 제1 블록구조 문자 바로 전의 블록구조 문자의 위치정보로부터 이전 목록항의 종결위치정보를 확인할 수 있다.

그러나, 제1위치정보가 제1 문장내용의 종결블록구조 문자의 위치정보일 결우, 문자의 속성정보에 따라 시작 페이지에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고; 제1 위치정보 및 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 현재 목록항의 시작위치정보를 확인한다. 즉, 두 위치정보를 결부하여 현재 목록항의 시작위치정보를 확인한다.

제1 위치정보가 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고; 제1 위치정보 및 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 이전 목록항의 종결위치정보를 확인한다. 마찬가지로, 두 위치정보를 결부하여 현재 목록항의 시작위치정보를 확인한다.

이로써, 현재 목록항에 대응하는 구조화 정보를 획득하였다. 이때, 판식 파일의 목록 데이터정보를 업데이트할 수 있다. 즉, 본발명의 일 실시예는 아래와 같은 단계를 더 포함한다.

단계106, 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보에 의하여 판식 파일의 목록 데이터정보를 업데이트한다.

여기서, 확인된 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 목록 데이터정보와 대응하는 XML파일중에 추가할 수있다.

본 발명의 일 실시예는 모든 목록항에 대응하는 구조화정보를 모두 획득한 후 판식 파일의 목록 데이터정보를 재차 업데이트한다.

따라서, 단지 시작 페이지정보에 대응하는 페이지의 제1 문장내용, 또는 시작 페이지정보에 대응하는 페이지의 제1 문장내용 및 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용에 대하여 분석과 매칭을 진행하거나, 또는 시작 페이지정보에 대응하는 페이지의 제1 문장내용 및 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용에 대하여 분석과 매칭을 진행하면 목록항에 대응하는 구조화 정보를 획득할 수 있다. 즉, 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하면 판식 파일의 구조화 정보를 획득할 수 있으며, 이로써 판식 파일의 구조화 속도를 향상시켰다.

상기 일 실시예의 단계 103에 있어서, 매칭모듈의 유형이 다양할 수 있으므로 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 매칭검색의 프로세스도 다양할 수 있다. 예를 들면, 각 블록구조 문자중에서 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구자 문자가 있는지 여부를 직접 검색한다. 만일 판식 파일의 퀄리티가 비교적 높을 경우, 이와 같은 방법으로 매칭검색의 프로세스을 진행할 수 있다. 본 발명의 일 실시예에서 매칭의 성공율을 향상 시키기 위하여 별도의 매칭모듈을 추가할 수 있다. 구체적인 검색프로세스는 도2를 참조로 하며, 아래와 같은 단계들을 포함한다.

단계 201, 각 블록구조 문자중에서 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 단계 204를 진행하고, 아니면 단계 202를 진행한다.

단계 202, 정규표현식(Regular Expression)을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 단계 204를 진행하고, 없을 경우 단계 203를 진행한다.

여기서, 단계 201에서 매칭의 요구사항을 만족시키지 못하기 때문에, 각 블록구조 문자 및 현재 목록항의 명칭문자중에서 매칭에 영향을 미치는 일부 문자들을 제거할 수 있다. 예를 들면, 스페이스, 수식 기호 및 매칭에 영향을 미칠 수 있는 기타 문자들을 제거한다.

그리고, 설정된 정규표현식의 방식에 따라 처리된 문자에 대하여 매칭을 진행한다. 정규표현식은 임의의 방식으로 한 유형의 문자열에 대하여 매칭을 진행하는 하나의 공식이다. 이러한 공식을 이용하여 매칭이 진행되면, 현재 목록항의 명칭문자에 매칭되는 블록구조 문자를 획득한다.

단계 203, 문자에 따른 매칭에 의하여 각 블록구조 문자와 현재 목록항의 명칭문자사이의 매칭정도를 산출한다.

예를 들면, 하나의 블록구조 문자가 이전 목록항의 명칭문자중의 절반의 문자와 동일할 경우 매칭정도는 50%이다. 또는 다른유형의 비중을 응용할수도 있다.

단계 204, 매칭정도가 임계치보다 크거나 동일한지를 판단하고, 크거나 동일한 경우 단계 205를 진행하고, 아니면 매칭 절차 실패로 진행된다. 그중 여러 판식 파일의 조판의 실제 상황에 따라 임계치를 조정하여 비교적 높은 매칭정도를 실현한다.

단계 205, 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인한다.

단계 206, 검색된 블록구조 문자를 제1 블록구조 문자로 확인한다.

상기와 같은 단계를 통하여 기본적으로 현재 목록항의 명칭문자에 매칭되는 블록구조 문자를 모두 검색할 수 있다. 본 발명의 일 실시예는, 단계 201 이전, 각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하여야 한다. 이로써 후속되는 매칭검색을 용이하게 진행할 수 있다.

아래, 첨부한 도면을 결부하여 본 발명의 일 실시예에 대하여 더욱 상세한 설명을 진행한다.

본 실시예에서, 판식 파일의 목록 데이터정보는 도3에 도시된 바와 같이, 현재 목록항의 명칭문자는

로 묘사되였고 이와 같은 파일의 구조화 정보 획득은 아래와 같은 프로세스를 포함한다.

현재 목록항에 대응하는 시작 페이지정보가 "16"임을 확인한다. 그리고, 내용속성정보에 따라 제 16 페이지중 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고, 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득한다. 이때, 제1 위치정보는 " ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"를 포함한다.

제1 위치정보는 제1 문장내용의 시작블록구조 문자의 위치정보이므로 문자의 속성정보에 따라 제 15 페이지중의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제3 문장내용의 종결블록구조 문자의 위치정보를 획득 한다. 종결블록구조 문자는 현재 목록항의 명칭문자에 매칭되지 않으므로 해당 제3 문장내용의 종결블록구조 문자의 위치정보는 이전 목록항의 종결위치정보(예를 들면, 해당 정보에 ebookEndLPageNum=15, endvertiempos=2341등을 포함)이고; 제1 위치정보는 현재 목록항의 시작위치정보(예를 들면, 해당 정보에 ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"를 포함)이다.

시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용에 대한 분석과 매칭은 상기의 프로세스와 유사하므로 이에 관한 설명을 생략한다.

상기의 프로세스에 의하여, 각 목록항에 대하여 구조화 정보를 획득하고, 나중에 획득한 구조화 정보에 의하여 최초의 판식 파일의 목록에 의한 목록 데이터정보를 업데이트한다. 업데이트 된 구조화 목록 데이터정보는 도4에 도시된 바와 같다.

본 발명의 일 실시예는, 목록항에 대응하는 문장내용정보를 업데이트 완료후 구조화된 목록 데이터정보중 대응되는 목록항하에 추가하여 도5에 도시된 바와 같이 구조화 된 판식 파일 데이터정보를 형성할 수 있다. 이와같이, 시스템은 구조화가 필요한 모든 판식 파일 데이터정보에 대하여 자동적으로 스캐닝을 진행하고 각각 챕터화 처리를 진행항 출력한다. 따라서, 별도로 도서 판식파일의 구체적인 목록항의 판식 열독과 스트리밍 열독을 제공할 수 있다.

상기와 같은 판식 파일중 구조화 정보 획득방법에 의하여 판식 파일중 구조화 정보 획득 장치를 구성할수 있으며, 도6을 참조하면, 이와 같은 장치는 확인유닛(100), 분할유닛(200), 매칭유닛(300) 및 획득유닛(400)을 포함한다.

확인유닛(100)은 현재 목록항에 대응하는 시작 페이지정보를 확인한다.

분할유닛(200)은 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 내용속성정보에 따라 적어도 하나의 블록구조 문자로 분할한다.

매칭유닛(300)은 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고, 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득한다.

획득유닛(400)은 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.

그중, 구체적으로 분할유닛(200)은 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하며, 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함한다.

구체적으로 매칭유닛(300)은 각 블록구조 문자중에서 현재 목록항의 명칭문자중의 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 정규표현식을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 확인하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 문자에 따른 매칭에 의하여 각 블록구조 문자와 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 매칭정도가 설정된 임계치에 도달할 경우 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인한다.

또한, 매칭유닛(300)은 각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일한다.

일반적으로 획득유닛(400)은 제1 위치정보로부터 현재 목록항의 시작위치정보를 확인할 수 있고 제1 블록구조 문자 바로 전의 블록구조 문자의 위치정보로 부터 이전 목록항의 종결위치정보를 확인할 수 있다.

또한, 구체적으로 상기 획득 업데이트 유닛(400)는 제1 위치정보가 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제1 위치정보 및 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 현재 목록항의 시작위치정보를 확인하고; 제1 위치정보가 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제1 위치정보 및 제3 문장내용중의 종결블록구조 문자의 위치정보에 의하여 이전 목록항의 종결위치정보를 확인한다.

본 발명의 일 실시예에 있어서, 단지 특정 페이지의 문장내용에만 대하여 분석과 매칭을 진행하여 판식 파일의 구조화 정보를 획득 할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.

또한, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 것은 다양한 매칭방식으로 이루어지고, 그중 하나의 매칭방식으로 실패시 기타 복수개의 예비방식으로 매칭을 진해하여 매칭검색의 성공율을 향상시켰다.

한편, 대량의 판식 파일 데이터의 구조화 제작 프로세스에서 설정된 매칭템플릿에 의하여 분석매칭을 진행하여 인력의 개입이 없이도 대량 분석을 얻을수 있어 인력을 많이 절약하였다.

본 분야의 당업자는 본 발명의 사상과 범위내에서 본 발명에 대하여 다양한 변화와 변형을 실시 할수 있다. 따라서 이러한 변화와 변형이 본 발명의 청구항 및 동등한 기술 범위내에 있을 경우 본 발명의 요지 또한 이러한 변화와 변형을 포함한다.

Claims

현재 목록항에 대응하는 시작 페이지정보를 확인하는 단계;
내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계;
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 단계; 및
상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
제1 항에 있어서,
상기 내용속성정보에 따라 적어도 하나의 블록구조 문자로 분할하는 단계는,
목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행간격의 차이에 의하여 상기 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계를 포함하되, 상기 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
제1 항에 있어서,
상기 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 단계는,
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면,
정규표현식을 이용하여 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면,
문자에 따른 매칭에 의하여 각 블록문자와 상기 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 상기 매칭정도가 설정된 임계치에 도달할 경우 상기 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인하는 단계를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
제3 항에 있어서,
상기 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하기 전에,
각 블록구조 문자 및 상기 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하는 단계를 더 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
제1 항에 있어서,
상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계는,
상기 제1 위치 정보가 상기 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제2 문장내용중 시작블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 단계; 및
상기 제1 위치 정보가 상기 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 단계를 포함하는 판식 파일중 구조화 정보 획득방법.
현재 목록항에 대응하는 시작페이지를 확인하는 확인유닛;
내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 분할유닛;
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 매칭유닛; 및
상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 획득유닛을 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
제6 항에 있어서,
상기 분할유닛은,
목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행간격의 차이에 의하여 상기 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고,
상기 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
제6 항에 있어서,
상기 매칭유닛은,
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 정규표현식을 이용하여 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 문자에 따른 매칭에 의하여 각 블록문자와 상기 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 상기 매칭정도가 설정된 임계치에 도달할 경우 상기 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
제8 항에 있어서,
상기 매칭유닛은,
각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
제9 항에 있어서,
상기 획득유닛은,
상기 제1 위치 정보가 상기 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하고;
상기 제1 위치 정보가 상기 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.