KR20140053888A - 판식 파일중 구조화 정보 획득방법 및 장치 - Google Patents
판식 파일중 구조화 정보 획득방법 및 장치 Download PDFInfo
- Publication number
- KR20140053888A KR20140053888A KR20137030609A KR20137030609A KR20140053888A KR 20140053888 A KR20140053888 A KR 20140053888A KR 20137030609 A KR20137030609 A KR 20137030609A KR 20137030609 A KR20137030609 A KR 20137030609A KR 20140053888 A KR20140053888 A KR 20140053888A
- Authority
- KR
- South Korea
- Prior art keywords
- block structure
- character
- position information
- list item
- structure character
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
- G06F16/152—File search processing using file content signatures, e.g. hash values
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Automation & Control Theory (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
본 발명은 판식 파일의 정보화 관리에서의 판식 파일의 구조화 속도를 향상시키는 판식 파일중 구조화 정보 획득방법 및 장치를 공개하였다. 판식 파일중 구조화 정보 획득방법은 현재 목록항에 대응하는 시작 페이지정보를 확인하고 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하며 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.
Description
본 발명은 정보처리 기술에 관한 것으로, 상세하게는 판식 파일중 구조화 정보 획득방법 및 장치에 관한 것이다.
도서 판식 파일에 대한 정보화 관리에 있어서, 각 도서 판식 파일을 구조화하고 각 판식 파일의 구조화 정보를 획득하여 대응하는 목록 데이터를 형성하였다. 그러나, 기존의 형성된 도서 판식 파일의 목록 데이터중에는 일반적으로 각 목록항의 명칭문자 및 각 목록항의 시작위치는 포함되어 있으나 각 목록항의 종결위치 및 문장중에서 각 목록항 명칭의구체적인 구역은 포함되지 않는다.
상기한 바에 따르면, 기존의 도서 판식 파일의 구조화 정보는 불완전하므로 기존의 목록 데이터에 의하여 각 목록항에 대응하는 구체적인 시작위치 및 종결위치를 확인할 수 없다. 따라서, 도서 판식 파일의 구체적인 목록항의 판식과 스트리밍 열독을 제공할 수 없다.
따라서, 각 도서 판식 파일에 대하여 구조화 프로세스를 진행하는 동안 각 판식 파일의 비교적 완전한 구조화 정보를 획득하여야 한다. 일반적으로 인공을 통하여 도서 판식 파일에 대하여 구조화를 진행하였다. 즉, 인공으로 도서 판식 파일중의 각 목록항의 문장내용을 읽고 분석하고 조회하고, 다음 조회한 문장내용에 의하여 그중에서 필요한 구조화 데이터를 획득하였다. 그러나 대량의 도서 판식 파일에 대하여 정보화 관리시 인공적인 한계로 인하여, 예를 들면 이해능력 또는 체력적 한계로 인하여 다소 오차가 발생하기 마련이고 인공에 의한 속도도 비교적 느리다. 따라서, 이는 구조화 정보 획득의 정확도 및 속도에 영향을 미치게 된다.
본 발명의 일 실시예는 판식 파일의 정보화 관리에서 판식 파일의 구조화 속도를 향상시키는 판식 파일중 구조화 정보 획득방법 및 장치를 제공하고자 한다.
본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득방법은 현재 목록항에 대응하는 시작 페이지정보를 확인하는 단계; 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계; 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 단계; 및 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계를 포함한다.
본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득장치는 현재 목록항에 대응하는 시작페이지를 확인하는 확인유닛; 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 분할유닛; 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 매칭유닛; 및 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 획득유닛을 포함한다.
본 발명의 일 실시예에 있어서 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고 그중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용에서 제1 블록구조 문자의 제1 위치정보를 획득하며, 다음 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 확인하였다. 이로써, 단지 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하여도 판식 파일의 구조화 정보를 획득할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.
이로써, 단지 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하여도 판식 파일의 구조화 정보를 획득할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.
도1은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보의 획득을 표시하는 흐름도이다.
도2는 본 발명의 일 실시예에 따른 매칭검색을 표시하는 흐름도이다.
도3은 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 표시하는 도면이다.
도4는 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 업데이트한 것을 표시하는 도면이다.
도5는 본 발명의 일 실시예에 따른 구조화 된 판식 파일 데이터정보를 표시하는 도면이다.
도6은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득 장치의 구조도이다.
도2는 본 발명의 일 실시예에 따른 매칭검색을 표시하는 흐름도이다.
도3은 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 표시하는 도면이다.
도4는 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 업데이트한 것을 표시하는 도면이다.
도5는 본 발명의 일 실시예에 따른 구조화 된 판식 파일 데이터정보를 표시하는 도면이다.
도6은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득 장치의 구조도이다.
본 발명의 일 실시예에 있어서, 특정 페이지의 문장 내용에 대하여 분석과 매칭을 진행하면 판식 파일의 구조화 정보를 획득할 수 있다. 이로써 판식 파일의 구조화 속도를 향상시켰다.
도1을 참조하면, 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보를 획득하는 프로세스는 아래와 같은 단계들을 포함한다.
단계 101, 현재 목록항에 대응되는 시작 페이지정보를 확인한다.
판식 파일에 대한 정보화 관리에서 판식 파일의 목록 데이터정보는 이미 로딩되었다. 그중, 목록 데이터정보는 목록항의 계층관계, 목록항의 명칭문자, 목록항에이 대응하는 시작 페이지를 포함한다. 상기 목록 데이터정보는 XML파일 형식으로 표시될 수 있고, 또는 기타 지정의 TXT파일 형식 또는 EXCEL파일 형식으로 표시될 수 있다.
따라서, 단독으로 제공하여야 할 판식 열독과 스트리밍 열독의 구체적인 목록항을 현재 목록항으로 확인하거나 또는 목록 데이터정보중 임의의 한 목록항을 현재 목록항으로 확인하고 현재 목록항에 대응하는 시작 페이지를 검색한다.
본 발명의 일 실시예는, 구조화 정보 획득의 정확도를 향상시키기 위하여 현재 목록항에이 대응하는 시작 페이지를 확인하기 전에 로딩된 판식 파일의 목록 데이터정보의 유효성을 분석한다. 예를 들면 목록의 계층관계 및 각 목록항의 시작 페이지의 유효성등에 대하여 분석을 진행할 수 있다.
단계 102, 내용속성정보에 따라 시작 페이지정보에 대응되는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할한다.
일반적으로 판식 파일은 공통한 특징을 구비하고 있다. 예를 들면, 문장중의 목록 텍스트와 문장중의 본문 텍스트는 글자 크기와 글자 서식에 비교적 큰 차이를 가지고 있고, 또한 목록과 본문의 제1 행 간격과 본문사이의 제2 행 간격에도 비교적 큰 차이를 가지고 있다. 따라서, 본 발명의 일 실시예는, 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여 제1 문장내용을 하나, 둘, 또는 다수의 블록구조 문자로 분할될 수 있다.
따라서, 내용속성정보는 문자정보 및 행 간격정보를 포함한다. 또한, 본 발명의 일 실시예에서 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함한다. 따라서, 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여, 자동적으로 단락을 형성하는 방법 또는 자동적으로 행을 형성하는 방법을 이용하여 제1 문장내용은 상응한 단락구조 문자 또는 행구조 문자로 분할될 수 있다.
단계 103, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색한다.
본 발명의 일 실시예는, 설정된 매칭모듈을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색할 수 있다. 매칭모듈의 유형은 다양할 수 있므며 따라서 매칭검색의 프로세스 또한 다양할 수 있다.
단계 104, 제1 블록구조 문자가 제1 문장내용중에서의 제1 위치정보를 획득한다.
현재 목록항의 명칭문자에 대응하는 제1 블록구조 문자는 이미 검색되었으므로 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득할 수 있다. 제1 위치정보는 현재 위치한 페이지의 페이지정보, 좌표정보, 횡방향에서 시작 선의 좌표정보 및 횡방향에서 종결 선의 좌표정보중 하나 또는 다수의 정보를 포함한다.
단계 105, 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.
일반적으로 제1 위치정보로부터 현재 목록항의 시작위치정보를 확인할 수 있고 제1 블록구조 문자 바로 전의 블록구조 문자의 위치정보로부터 이전 목록항의 종결위치정보를 확인할 수 있다.
그러나, 제1위치정보가 제1 문장내용의 종결블록구조 문자의 위치정보일 결우, 문자의 속성정보에 따라 시작 페이지에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고; 제1 위치정보 및 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 현재 목록항의 시작위치정보를 확인한다. 즉, 두 위치정보를 결부하여 현재 목록항의 시작위치정보를 확인한다.
제1 위치정보가 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고; 제1 위치정보 및 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 이전 목록항의 종결위치정보를 확인한다. 마찬가지로, 두 위치정보를 결부하여 현재 목록항의 시작위치정보를 확인한다.
이로써, 현재 목록항에 대응하는 구조화 정보를 획득하였다. 이때, 판식 파일의 목록 데이터정보를 업데이트할 수 있다. 즉, 본발명의 일 실시예는 아래와 같은 단계를 더 포함한다.
단계106, 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보에 의하여 판식 파일의 목록 데이터정보를 업데이트한다.
여기서, 확인된 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 목록 데이터정보와 대응하는 XML파일중에 추가할 수있다.
본 발명의 일 실시예는 모든 목록항에 대응하는 구조화정보를 모두 획득한 후 판식 파일의 목록 데이터정보를 재차 업데이트한다.
따라서, 단지 시작 페이지정보에 대응하는 페이지의 제1 문장내용, 또는 시작 페이지정보에 대응하는 페이지의 제1 문장내용 및 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용에 대하여 분석과 매칭을 진행하거나, 또는 시작 페이지정보에 대응하는 페이지의 제1 문장내용 및 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용에 대하여 분석과 매칭을 진행하면 목록항에 대응하는 구조화 정보를 획득할 수 있다. 즉, 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하면 판식 파일의 구조화 정보를 획득할 수 있으며, 이로써 판식 파일의 구조화 속도를 향상시켰다.
상기 일 실시예의 단계 103에 있어서, 매칭모듈의 유형이 다양할 수 있으므로 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 매칭검색의 프로세스도 다양할 수 있다. 예를 들면, 각 블록구조 문자중에서 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구자 문자가 있는지 여부를 직접 검색한다. 만일 판식 파일의 퀄리티가 비교적 높을 경우, 이와 같은 방법으로 매칭검색의 프로세스을 진행할 수 있다. 본 발명의 일 실시예에서 매칭의 성공율을 향상 시키기 위하여 별도의 매칭모듈을 추가할 수 있다. 구체적인 검색프로세스는 도2를 참조로 하며, 아래와 같은 단계들을 포함한다.
단계 201, 각 블록구조 문자중에서 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 단계 204를 진행하고, 아니면 단계 202를 진행한다.
단계 202, 정규표현식(Regular Expression)을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 단계 204를 진행하고, 없을 경우 단계 203를 진행한다.
여기서, 단계 201에서 매칭의 요구사항을 만족시키지 못하기 때문에, 각 블록구조 문자 및 현재 목록항의 명칭문자중에서 매칭에 영향을 미치는 일부 문자들을 제거할 수 있다. 예를 들면, 스페이스, 수식 기호 및 매칭에 영향을 미칠 수 있는 기타 문자들을 제거한다.
그리고, 설정된 정규표현식의 방식에 따라 처리된 문자에 대하여 매칭을 진행한다. 정규표현식은 임의의 방식으로 한 유형의 문자열에 대하여 매칭을 진행하는 하나의 공식이다. 이러한 공식을 이용하여 매칭이 진행되면, 현재 목록항의 명칭문자에 매칭되는 블록구조 문자를 획득한다.
단계 203, 문자에 따른 매칭에 의하여 각 블록구조 문자와 현재 목록항의 명칭문자사이의 매칭정도를 산출한다.
예를 들면, 하나의 블록구조 문자가 이전 목록항의 명칭문자중의 절반의 문자와 동일할 경우 매칭정도는 50%이다. 또는 다른유형의 비중을 응용할수도 있다.
단계 204, 매칭정도가 임계치보다 크거나 동일한지를 판단하고, 크거나 동일한 경우 단계 205를 진행하고, 아니면 매칭 절차 실패로 진행된다. 그중 여러 판식 파일의 조판의 실제 상황에 따라 임계치를 조정하여 비교적 높은 매칭정도를 실현한다.
단계 205, 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인한다.
단계 206, 검색된 블록구조 문자를 제1 블록구조 문자로 확인한다.
상기와 같은 단계를 통하여 기본적으로 현재 목록항의 명칭문자에 매칭되는 블록구조 문자를 모두 검색할 수 있다. 본 발명의 일 실시예는, 단계 201 이전, 각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하여야 한다. 이로써 후속되는 매칭검색을 용이하게 진행할 수 있다.
아래, 첨부한 도면을 결부하여 본 발명의 일 실시예에 대하여 더욱 상세한 설명을 진행한다.
본 실시예에서, 판식 파일의 목록 데이터정보는 도3에 도시된 바와 같이, 현재 목록항의 명칭문자는 로 묘사되였고 이와 같은 파일의 구조화 정보 획득은 아래와 같은 프로세스를 포함한다.
현재 목록항에 대응하는 시작 페이지정보가 "16"임을 확인한다. 그리고, 내용속성정보에 따라 제 16 페이지중 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고, 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득한다. 이때, 제1 위치정보는 " ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"를 포함한다.
제1 위치정보는 제1 문장내용의 시작블록구조 문자의 위치정보이므로 문자의 속성정보에 따라 제 15 페이지중의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제3 문장내용의 종결블록구조 문자의 위치정보를 획득 한다. 종결블록구조 문자는 현재 목록항의 명칭문자에 매칭되지 않으므로 해당 제3 문장내용의 종결블록구조 문자의 위치정보는 이전 목록항의 종결위치정보(예를 들면, 해당 정보에 ebookEndLPageNum=15, endvertiempos=2341등을 포함)이고; 제1 위치정보는 현재 목록항의 시작위치정보(예를 들면, 해당 정보에 ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"를 포함)이다.
시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용에 대한 분석과 매칭은 상기의 프로세스와 유사하므로 이에 관한 설명을 생략한다.
상기의 프로세스에 의하여, 각 목록항에 대하여 구조화 정보를 획득하고, 나중에 획득한 구조화 정보에 의하여 최초의 판식 파일의 목록에 의한 목록 데이터정보를 업데이트한다. 업데이트 된 구조화 목록 데이터정보는 도4에 도시된 바와 같다.
본 발명의 일 실시예는, 목록항에 대응하는 문장내용정보를 업데이트 완료후 구조화된 목록 데이터정보중 대응되는 목록항하에 추가하여 도5에 도시된 바와 같이 구조화 된 판식 파일 데이터정보를 형성할 수 있다. 이와같이, 시스템은 구조화가 필요한 모든 판식 파일 데이터정보에 대하여 자동적으로 스캐닝을 진행하고 각각 챕터화 처리를 진행항 출력한다. 따라서, 별도로 도서 판식파일의 구체적인 목록항의 판식 열독과 스트리밍 열독을 제공할 수 있다.
상기와 같은 판식 파일중 구조화 정보 획득방법에 의하여 판식 파일중 구조화 정보 획득 장치를 구성할수 있으며, 도6을 참조하면, 이와 같은 장치는 확인유닛(100), 분할유닛(200), 매칭유닛(300) 및 획득유닛(400)을 포함한다.
확인유닛(100)은 현재 목록항에 대응하는 시작 페이지정보를 확인한다.
분할유닛(200)은 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 내용속성정보에 따라 적어도 하나의 블록구조 문자로 분할한다.
매칭유닛(300)은 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고, 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득한다.
획득유닛(400)은 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.
그중, 구체적으로 분할유닛(200)은 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하며, 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함한다.
구체적으로 매칭유닛(300)은 각 블록구조 문자중에서 현재 목록항의 명칭문자중의 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 정규표현식을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 확인하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 문자에 따른 매칭에 의하여 각 블록구조 문자와 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 매칭정도가 설정된 임계치에 도달할 경우 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인한다.
또한, 매칭유닛(300)은 각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일한다.
일반적으로 획득유닛(400)은 제1 위치정보로부터 현재 목록항의 시작위치정보를 확인할 수 있고 제1 블록구조 문자 바로 전의 블록구조 문자의 위치정보로 부터 이전 목록항의 종결위치정보를 확인할 수 있다.
또한, 구체적으로 상기 획득 업데이트 유닛(400)는 제1 위치정보가 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제1 위치정보 및 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 현재 목록항의 시작위치정보를 확인하고; 제1 위치정보가 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제1 위치정보 및 제3 문장내용중의 종결블록구조 문자의 위치정보에 의하여 이전 목록항의 종결위치정보를 확인한다.
본 발명의 일 실시예에 있어서, 단지 특정 페이지의 문장내용에만 대하여 분석과 매칭을 진행하여 판식 파일의 구조화 정보를 획득 할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.
또한, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 것은 다양한 매칭방식으로 이루어지고, 그중 하나의 매칭방식으로 실패시 기타 복수개의 예비방식으로 매칭을 진해하여 매칭검색의 성공율을 향상시켰다.
한편, 대량의 판식 파일 데이터의 구조화 제작 프로세스에서 설정된 매칭템플릿에 의하여 분석매칭을 진행하여 인력의 개입이 없이도 대량 분석을 얻을수 있어 인력을 많이 절약하였다.
본 분야의 당업자는 본 발명의 사상과 범위내에서 본 발명에 대하여 다양한 변화와 변형을 실시 할수 있다. 따라서 이러한 변화와 변형이 본 발명의 청구항 및 동등한 기술 범위내에 있을 경우 본 발명의 요지 또한 이러한 변화와 변형을 포함한다.
Claims (10)
- 현재 목록항에 대응하는 시작 페이지정보를 확인하는 단계;
내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계;
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 단계; 및
상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법. - 제1 항에 있어서,
상기 내용속성정보에 따라 적어도 하나의 블록구조 문자로 분할하는 단계는,
목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행간격의 차이에 의하여 상기 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계를 포함하되, 상기 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법. - 제1 항에 있어서,
상기 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 단계는,
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면,
정규표현식을 이용하여 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면,
문자에 따른 매칭에 의하여 각 블록문자와 상기 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 상기 매칭정도가 설정된 임계치에 도달할 경우 상기 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인하는 단계를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법. - 제3 항에 있어서,
상기 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하기 전에,
각 블록구조 문자 및 상기 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하는 단계를 더 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법. - 제1 항에 있어서,
상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계는,
상기 제1 위치 정보가 상기 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제2 문장내용중 시작블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 단계; 및
상기 제1 위치 정보가 상기 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 단계를 포함하는 판식 파일중 구조화 정보 획득방법. - 현재 목록항에 대응하는 시작페이지를 확인하는 확인유닛;
내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 분할유닛;
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 매칭유닛; 및
상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 획득유닛을 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치. - 제6 항에 있어서,
상기 분할유닛은,
목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행간격의 차이에 의하여 상기 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고,
상기 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치. - 제6 항에 있어서,
상기 매칭유닛은,
각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 정규표현식을 이용하여 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 문자에 따른 매칭에 의하여 각 블록문자와 상기 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 상기 매칭정도가 설정된 임계치에 도달할 경우 상기 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치. - 제8 항에 있어서,
상기 매칭유닛은,
각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치. - 제9 항에 있어서,
상기 획득유닛은,
상기 제1 위치 정보가 상기 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하고;
상기 제1 위치 정보가 상기 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110409463.XA CN103164388B (zh) | 2011-12-09 | 2011-12-09 | 一种版式文件中结构化信息获取的方法及装置 |
CN201110409463.X | 2011-12-09 | ||
PCT/CN2012/086137 WO2013083067A1 (zh) | 2011-12-09 | 2012-12-07 | 一种版式文件中结构化信息获取的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140053888A true KR20140053888A (ko) | 2014-05-08 |
Family
ID=48573563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20137030609A KR20140053888A (ko) | 2011-12-09 | 2012-12-07 | 판식 파일중 구조화 정보 획득방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9773009B2 (ko) |
EP (1) | EP2790111A4 (ko) |
JP (1) | JP5930496B2 (ko) |
KR (1) | KR20140053888A (ko) |
CN (1) | CN103164388B (ko) |
WO (1) | WO2013083067A1 (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346322B (zh) * | 2013-08-08 | 2018-07-10 | 北大方正集团有限公司 | 文档格式处理装置和文档格式处理方法 |
CN104536948A (zh) * | 2014-12-10 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 版式文档的处理方法及装置 |
CN107330077B (zh) * | 2017-07-01 | 2020-07-14 | 广东电网有限责任公司信息中心 | 一种数字档案馆档案的检索方法 |
CN109684980B (zh) * | 2018-09-19 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 自动阅卷方法及装置 |
CN111176640B (zh) * | 2018-11-13 | 2022-05-13 | 武汉斗鱼网络科技有限公司 | Android工程中布局层级展现方法、存储介质、设备及系统 |
CN111414741B (zh) * | 2018-12-19 | 2022-06-14 | 北大方正集团有限公司 | 出版物的版式模板制作方法、装置、设备及介质 |
CN110196670A (zh) * | 2019-05-31 | 2019-09-03 | 数坤(北京)网络科技有限公司 | 一种文本生成方法、设备及计算机可读存储介质 |
CN110287465B (zh) * | 2019-06-22 | 2022-04-05 | 广州视源电子科技股份有限公司 | 文本处理方法、装置、设备及存储介质 |
CN110705503B (zh) * | 2019-10-14 | 2022-02-25 | 北京信息科技大学 | 生成目录结构化信息的方法和装置 |
CN111046064B (zh) * | 2019-12-23 | 2023-05-19 | 掌阅科技股份有限公司 | 图书版权信息的获取方法、电子设备及计算机存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW490643B (en) * | 1996-05-21 | 2002-06-11 | Hitachi Ltd | Estimated recognition device for input character string |
JPH11232439A (ja) * | 1998-02-16 | 1999-08-27 | Toshinari Hayashi | 文書画像構造解析方法 |
JP2001052116A (ja) * | 1999-08-06 | 2001-02-23 | Toshiba Corp | パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法 |
JP2001265762A (ja) * | 2000-03-21 | 2001-09-28 | Matsushita Electric Ind Co Ltd | 文書構造抽出装置及び文書構造情報抽出方法 |
US20050165835A1 (en) * | 2001-06-14 | 2005-07-28 | Sharp Kabushiki Kaisha | Data processing method, program and data processing apparatus |
JP2003288334A (ja) * | 2002-03-28 | 2003-10-10 | Toshiba Corp | 文書処理装置及び文書処理方法 |
US7142728B2 (en) * | 2002-05-17 | 2006-11-28 | Science Applications International Corporation | Method and system for extracting information from a document |
US7240047B2 (en) * | 2002-12-23 | 2007-07-03 | Hewlett-Packard Development Company, L.P. | Apparatus and method for market-based document layout selection |
US7383500B2 (en) * | 2004-04-30 | 2008-06-03 | Microsoft Corporation | Methods and systems for building packages that contain pre-paginated documents |
JP2006163651A (ja) * | 2004-12-03 | 2006-06-22 | Sony Computer Entertainment Inc | 表示装置、表示装置の制御方法、プログラム及びフォントデータ |
US7676741B2 (en) * | 2006-01-31 | 2010-03-09 | Microsoft Corporation | Structural context for fixed layout markup documents |
US7721198B2 (en) * | 2006-01-31 | 2010-05-18 | Microsoft Corporation | Story tracking for fixed layout markup documents |
US7917493B2 (en) | 2007-04-19 | 2011-03-29 | Retrevo Inc. | Indexing and searching product identifiers |
CN101571859B (zh) | 2008-04-28 | 2013-01-02 | 国际商业机器公司 | 用于对文档进行标注的方法和设备 |
CN101458680B (zh) | 2008-09-03 | 2010-12-01 | 北京大学 | 一种自动识别数字文档目录的方法及装置 |
CN101354727B (zh) * | 2008-09-24 | 2011-06-29 | 北京大学 | 一种建立数字文档目录与正文之间链接的方法及装置 |
JP2010157107A (ja) * | 2008-12-26 | 2010-07-15 | Hitachi Software Eng Co Ltd | 業務文書処理装置 |
US8254681B1 (en) * | 2009-02-05 | 2012-08-28 | Google Inc. | Display of document image optimized for reading |
NZ589039A (en) * | 2009-09-24 | 2013-04-26 | Nec Corp | Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value |
CN101739391A (zh) * | 2009-12-16 | 2010-06-16 | 彭扬 | 生成二进制文件格式电子书的方法及其生成的电子书 |
US20130205202A1 (en) * | 2010-10-26 | 2013-08-08 | Jun Xiao | Transformation of a Document into Interactive Media Content |
US8645819B2 (en) * | 2011-06-17 | 2014-02-04 | Xerox Corporation | Detection and extraction of elements constituting images in unstructured document files |
-
2011
- 2011-12-09 CN CN201110409463.XA patent/CN103164388B/zh active Active
-
2012
- 2012-12-07 KR KR20137030609A patent/KR20140053888A/ko not_active Application Discontinuation
- 2012-12-07 WO PCT/CN2012/086137 patent/WO2013083067A1/zh active Application Filing
- 2012-12-07 JP JP2014520525A patent/JP5930496B2/ja not_active Expired - Fee Related
- 2012-12-07 US US14/119,109 patent/US9773009B2/en active Active
- 2012-12-07 EP EP12855138.9A patent/EP2790111A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US9773009B2 (en) | 2017-09-26 |
CN103164388A (zh) | 2013-06-19 |
US20140289274A1 (en) | 2014-09-25 |
EP2790111A4 (en) | 2015-12-09 |
JP2014527660A (ja) | 2014-10-16 |
EP2790111A1 (en) | 2014-10-15 |
JP5930496B2 (ja) | 2016-06-08 |
CN103164388B (zh) | 2016-07-06 |
WO2013083067A1 (zh) | 2013-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20140053888A (ko) | 판식 파일중 구조화 정보 획득방법 및 장치 | |
US10650192B2 (en) | Method and device for recognizing domain named entity | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
CN107818815B (zh) | 电子病历的检索方法及系统 | |
Singh et al. | OCR++: a robust framework for information extraction from scholarly articles | |
CN107004141A (zh) | 对大样本组的高效标注 | |
US8484229B2 (en) | Method and system for identifying traditional arabic poems | |
US9575957B2 (en) | Recognizing chemical names in a chinese document | |
CN115391439A (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
Mao et al. | A dynamic feature generation system for automated metadata extraction in preservation of digital materials | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN111597336B (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN113220821A (zh) | 一种针对试题检索的索引建立方法、装置及电子设备 | |
CN106095808B (zh) | 一种mdb文件碎片恢复的方法和装置 | |
US10229105B1 (en) | Mobile log data parsing | |
CN115796146A (zh) | 一种文件对比方法及装置 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN113033177B (zh) | 一种电子病历数据的解析方法及装置 | |
CN110852359A (zh) | 基于深度学习的家谱识别方法及系统 | |
CN107368472B (zh) | 一种可迭代优化的文档分析结果的保存方法 | |
CN116244483B (zh) | 一种基于数据合成的大规模零样本数据检索方法及系统 | |
CN115544975B (zh) | 一种日志格式转换方法及设备 | |
CN114222193B (zh) | 一种视频字幕时间对齐模型训练方法及系统 | |
CN115687580B (zh) | 搜索提醒补全的生成和重排序方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |