KR20140053888A - 판식 파일중 구조화 정보 획득방법 및 장치 - Google Patents

판식 파일중 구조화 정보 획득방법 및 장치 Download PDF

Info

Publication number
KR20140053888A
KR20140053888A KR20137030609A KR20137030609A KR20140053888A KR 20140053888 A KR20140053888 A KR 20140053888A KR 20137030609 A KR20137030609 A KR 20137030609A KR 20137030609 A KR20137030609 A KR 20137030609A KR 20140053888 A KR20140053888 A KR 20140053888A
Authority
KR
South Korea
Prior art keywords
block structure
character
position information
list item
structure character
Prior art date
Application number
KR20137030609A
Other languages
English (en)
Inventor
닝 동
웬주앙 후앙
바오리앙 장
Original Assignee
피킹 유니버시티 파운더 그룹 컴퍼니, 리미티드
베이징 파운더 아파비 테크놀로지 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 피킹 유니버시티 파운더 그룹 컴퍼니, 리미티드, 베이징 파운더 아파비 테크놀로지 리미티드 filed Critical 피킹 유니버시티 파운더 그룹 컴퍼니, 리미티드
Publication of KR20140053888A publication Critical patent/KR20140053888A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 판식 파일의 정보화 관리에서의 판식 파일의 구조화 속도를 향상시키는 판식 파일중 구조화 정보 획득방법 및 장치를 공개하였다. 판식 파일중 구조화 정보 획득방법은 현재 목록항에 대응하는 시작 페이지정보를 확인하고 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하며 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.

Description

판식 파일중 구조화 정보 획득방법 및 장치{Method and device for acquiring structured information in layout file}
본 발명은 정보처리 기술에 관한 것으로, 상세하게는 판식 파일중 구조화 정보 획득방법 및 장치에 관한 것이다.
도서 판식 파일에 대한 정보화 관리에 있어서, 각 도서 판식 파일을 구조화하고 각 판식 파일의 구조화 정보를 획득하여 대응하는 목록 데이터를 형성하였다. 그러나, 기존의 형성된 도서 판식 파일의 목록 데이터중에는 일반적으로 각 목록항의 명칭문자 및 각 목록항의 시작위치는 포함되어 있으나 각 목록항의 종결위치 및 문장중에서 각 목록항 명칭의구체적인 구역은 포함되지 않는다.
상기한 바에 따르면, 기존의 도서 판식 파일의 구조화 정보는 불완전하므로 기존의 목록 데이터에 의하여 각 목록항에 대응하는 구체적인 시작위치 및 종결위치를 확인할 수 없다. 따라서, 도서 판식 파일의 구체적인 목록항의 판식과 스트리밍 열독을 제공할 수 없다.
따라서, 각 도서 판식 파일에 대하여 구조화 프로세스를 진행하는 동안 각 판식 파일의 비교적 완전한 구조화 정보를 획득하여야 한다. 일반적으로 인공을 통하여 도서 판식 파일에 대하여 구조화를 진행하였다. 즉, 인공으로 도서 판식 파일중의 각 목록항의 문장내용을 읽고 분석하고 조회하고, 다음 조회한 문장내용에 의하여 그중에서 필요한 구조화 데이터를 획득하였다. 그러나 대량의 도서 판식 파일에 대하여 정보화 관리시 인공적인 한계로 인하여, 예를 들면 이해능력 또는 체력적 한계로 인하여 다소 오차가 발생하기 마련이고 인공에 의한 속도도 비교적 느리다. 따라서, 이는 구조화 정보 획득의 정확도 및 속도에 영향을 미치게 된다.
본 발명의 일 실시예는 판식 파일의 정보화 관리에서 판식 파일의 구조화 속도를 향상시키는 판식 파일중 구조화 정보 획득방법 및 장치를 제공하고자 한다.
본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득방법은 현재 목록항에 대응하는 시작 페이지정보를 확인하는 단계; 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계; 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 단계; 및 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계를 포함한다.
본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득장치는 현재 목록항에 대응하는 시작페이지를 확인하는 확인유닛; 내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 분할유닛; 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 매칭유닛; 및 상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 획득유닛을 포함한다.
본 발명의 일 실시예에 있어서 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고 그중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용에서 제1 블록구조 문자의 제1 위치정보를 획득하며, 다음 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 확인하였다. 이로써, 단지 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하여도 판식 파일의 구조화 정보를 획득할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.
이로써, 단지 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하여도 판식 파일의 구조화 정보를 획득할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.
도1은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보의 획득을 표시하는 흐름도이다.
도2는 본 발명의 일 실시예에 따른 매칭검색을 표시하는 흐름도이다.
도3은 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 표시하는 도면이다.
도4는 본 발명의 일 실시예에 따른 판식 파일의 목록 데이터정보를 업데이트한 것을 표시하는 도면이다.
도5는 본 발명의 일 실시예에 따른 구조화 된 판식 파일 데이터정보를 표시하는 도면이다.
도6은 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보 획득 장치의 구조도이다.
본 발명의 일 실시예에 있어서, 특정 페이지의 문장 내용에 대하여 분석과 매칭을 진행하면 판식 파일의 구조화 정보를 획득할 수 있다. 이로써 판식 파일의 구조화 속도를 향상시켰다.
도1을 참조하면, 본 발명의 일 실시예에 따른 판식 파일중 구조화 정보를 획득하는 프로세스는 아래와 같은 단계들을 포함한다.
단계 101, 현재 목록항에 대응되는 시작 페이지정보를 확인한다.
판식 파일에 대한 정보화 관리에서 판식 파일의 목록 데이터정보는 이미 로딩되었다. 그중, 목록 데이터정보는 목록항의 계층관계, 목록항의 명칭문자, 목록항에이 대응하는 시작 페이지를 포함한다. 상기 목록 데이터정보는 XML파일 형식으로 표시될 수 있고, 또는 기타 지정의 TXT파일 형식 또는 EXCEL파일 형식으로 표시될 수 있다.
따라서, 단독으로 제공하여야 할 판식 열독과 스트리밍 열독의 구체적인 목록항을 현재 목록항으로 확인하거나 또는 목록 데이터정보중 임의의 한 목록항을 현재 목록항으로 확인하고 현재 목록항에 대응하는 시작 페이지를 검색한다.
본 발명의 일 실시예는, 구조화 정보 획득의 정확도를 향상시키기 위하여 현재 목록항에이 대응하는 시작 페이지를 확인하기 전에 로딩된 판식 파일의 목록 데이터정보의 유효성을 분석한다. 예를 들면 목록의 계층관계 및 각 목록항의 시작 페이지의 유효성등에 대하여 분석을 진행할 수 있다.
단계 102, 내용속성정보에 따라 시작 페이지정보에 대응되는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할한다.
일반적으로 판식 파일은 공통한 특징을 구비하고 있다. 예를 들면, 문장중의 목록 텍스트와 문장중의 본문 텍스트는 글자 크기와 글자 서식에 비교적 큰 차이를 가지고 있고, 또한 목록과 본문의 제1 행 간격과 본문사이의 제2 행 간격에도 비교적 큰 차이를 가지고 있다. 따라서, 본 발명의 일 실시예는, 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여 제1 문장내용을 하나, 둘, 또는 다수의 블록구조 문자로 분할될 수 있다.
따라서, 내용속성정보는 문자정보 및 행 간격정보를 포함한다. 또한, 본 발명의 일 실시예에서 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함한다. 따라서, 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여, 자동적으로 단락을 형성하는 방법 또는 자동적으로 행을 형성하는 방법을 이용하여 제1 문장내용은 상응한 단락구조 문자 또는 행구조 문자로 분할될 수 있다.
단계 103, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색한다.
본 발명의 일 실시예는, 설정된 매칭모듈을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색할 수 있다. 매칭모듈의 유형은 다양할 수 있므며 따라서 매칭검색의 프로세스 또한 다양할 수 있다.
단계 104, 제1 블록구조 문자가 제1 문장내용중에서의 제1 위치정보를 획득한다.
현재 목록항의 명칭문자에 대응하는 제1 블록구조 문자는 이미 검색되었으므로 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득할 수 있다. 제1 위치정보는 현재 위치한 페이지의 페이지정보, 좌표정보, 횡방향에서 시작 선의 좌표정보 및 횡방향에서 종결 선의 좌표정보중 하나 또는 다수의 정보를 포함한다.
단계 105, 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.
일반적으로 제1 위치정보로부터 현재 목록항의 시작위치정보를 확인할 수 있고 제1 블록구조 문자 바로 전의 블록구조 문자의 위치정보로부터 이전 목록항의 종결위치정보를 확인할 수 있다.
그러나, 제1위치정보가 제1 문장내용의 종결블록구조 문자의 위치정보일 결우, 문자의 속성정보에 따라 시작 페이지에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고; 제1 위치정보 및 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 현재 목록항의 시작위치정보를 확인한다. 즉, 두 위치정보를 결부하여 현재 목록항의 시작위치정보를 확인한다.
제1 위치정보가 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고; 제1 위치정보 및 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 이전 목록항의 종결위치정보를 확인한다. 마찬가지로, 두 위치정보를 결부하여 현재 목록항의 시작위치정보를 확인한다.
이로써, 현재 목록항에 대응하는 구조화 정보를 획득하였다. 이때, 판식 파일의 목록 데이터정보를 업데이트할 수 있다. 즉, 본발명의 일 실시예는 아래와 같은 단계를 더 포함한다.
단계106, 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보에 의하여 판식 파일의 목록 데이터정보를 업데이트한다.
여기서, 확인된 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 목록 데이터정보와 대응하는 XML파일중에 추가할 수있다.
본 발명의 일 실시예는 모든 목록항에 대응하는 구조화정보를 모두 획득한 후 판식 파일의 목록 데이터정보를 재차 업데이트한다.
따라서, 단지 시작 페이지정보에 대응하는 페이지의 제1 문장내용, 또는 시작 페이지정보에 대응하는 페이지의 제1 문장내용 및 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용에 대하여 분석과 매칭을 진행하거나, 또는 시작 페이지정보에 대응하는 페이지의 제1 문장내용 및 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용에 대하여 분석과 매칭을 진행하면 목록항에 대응하는 구조화 정보를 획득할 수 있다. 즉, 특정 페이지의 문장내용에 대하여 분석과 매칭을 진행하면 판식 파일의 구조화 정보를 획득할 수 있으며, 이로써 판식 파일의 구조화 속도를 향상시켰다.
상기 일 실시예의 단계 103에 있어서, 매칭모듈의 유형이 다양할 수 있으므로 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 매칭검색의 프로세스도 다양할 수 있다. 예를 들면, 각 블록구조 문자중에서 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구자 문자가 있는지 여부를 직접 검색한다. 만일 판식 파일의 퀄리티가 비교적 높을 경우, 이와 같은 방법으로 매칭검색의 프로세스을 진행할 수 있다. 본 발명의 일 실시예에서 매칭의 성공율을 향상 시키기 위하여 별도의 매칭모듈을 추가할 수 있다. 구체적인 검색프로세스는 도2를 참조로 하며, 아래와 같은 단계들을 포함한다.
단계 201, 각 블록구조 문자중에서 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 단계 204를 진행하고, 아니면 단계 202를 진행한다.
단계 202, 정규표현식(Regular Expression)을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 단계 204를 진행하고, 없을 경우 단계 203를 진행한다.
여기서, 단계 201에서 매칭의 요구사항을 만족시키지 못하기 때문에, 각 블록구조 문자 및 현재 목록항의 명칭문자중에서 매칭에 영향을 미치는 일부 문자들을 제거할 수 있다. 예를 들면, 스페이스, 수식 기호 및 매칭에 영향을 미칠 수 있는 기타 문자들을 제거한다.
그리고, 설정된 정규표현식의 방식에 따라 처리된 문자에 대하여 매칭을 진행한다. 정규표현식은 임의의 방식으로 한 유형의 문자열에 대하여 매칭을 진행하는 하나의 공식이다. 이러한 공식을 이용하여 매칭이 진행되면, 현재 목록항의 명칭문자에 매칭되는 블록구조 문자를 획득한다.
단계 203, 문자에 따른 매칭에 의하여 각 블록구조 문자와 현재 목록항의 명칭문자사이의 매칭정도를 산출한다.
예를 들면, 하나의 블록구조 문자가 이전 목록항의 명칭문자중의 절반의 문자와 동일할 경우 매칭정도는 50%이다. 또는 다른유형의 비중을 응용할수도 있다.
단계 204, 매칭정도가 임계치보다 크거나 동일한지를 판단하고, 크거나 동일한 경우 단계 205를 진행하고, 아니면 매칭 절차 실패로 진행된다. 그중 여러 판식 파일의 조판의 실제 상황에 따라 임계치를 조정하여 비교적 높은 매칭정도를 실현한다.
단계 205, 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인한다.
단계 206, 검색된 블록구조 문자를 제1 블록구조 문자로 확인한다.
상기와 같은 단계를 통하여 기본적으로 현재 목록항의 명칭문자에 매칭되는 블록구조 문자를 모두 검색할 수 있다. 본 발명의 일 실시예는, 단계 201 이전, 각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하여야 한다. 이로써 후속되는 매칭검색을 용이하게 진행할 수 있다.
아래, 첨부한 도면을 결부하여 본 발명의 일 실시예에 대하여 더욱 상세한 설명을 진행한다.
본 실시예에서, 판식 파일의 목록 데이터정보는 도3에 도시된 바와 같이, 현재 목록항의 명칭문자는
Figure pct00001
로 묘사되였고 이와 같은 파일의 구조화 정보 획득은 아래와 같은 프로세스를 포함한다.
현재 목록항에 대응하는 시작 페이지정보가 "16"임을 확인한다. 그리고, 내용속성정보에 따라 제 16 페이지중 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고, 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득한다. 이때, 제1 위치정보는 " ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"를 포함한다.
제1 위치정보는 제1 문장내용의 시작블록구조 문자의 위치정보이므로 문자의 속성정보에 따라 제 15 페이지중의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제3 문장내용의 종결블록구조 문자의 위치정보를 획득 한다. 종결블록구조 문자는 현재 목록항의 명칭문자에 매칭되지 않으므로 해당 제3 문장내용의 종결블록구조 문자의 위치정보는 이전 목록항의 종결위치정보(예를 들면, 해당 정보에 ebookEndLPageNum=15, endvertiempos=2341등을 포함)이고; 제1 위치정보는 현재 목록항의 시작위치정보(예를 들면, 해당 정보에 ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"를 포함)이다.
시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용에 대한 분석과 매칭은 상기의 프로세스와 유사하므로 이에 관한 설명을 생략한다.
상기의 프로세스에 의하여, 각 목록항에 대하여 구조화 정보를 획득하고, 나중에 획득한 구조화 정보에 의하여 최초의 판식 파일의 목록에 의한 목록 데이터정보를 업데이트한다. 업데이트 된 구조화 목록 데이터정보는 도4에 도시된 바와 같다.
본 발명의 일 실시예는, 목록항에 대응하는 문장내용정보를 업데이트 완료후 구조화된 목록 데이터정보중 대응되는 목록항하에 추가하여 도5에 도시된 바와 같이 구조화 된 판식 파일 데이터정보를 형성할 수 있다. 이와같이, 시스템은 구조화가 필요한 모든 판식 파일 데이터정보에 대하여 자동적으로 스캐닝을 진행하고 각각 챕터화 처리를 진행항 출력한다. 따라서, 별도로 도서 판식파일의 구체적인 목록항의 판식 열독과 스트리밍 열독을 제공할 수 있다.
상기와 같은 판식 파일중 구조화 정보 획득방법에 의하여 판식 파일중 구조화 정보 획득 장치를 구성할수 있으며, 도6을 참조하면, 이와 같은 장치는 확인유닛(100), 분할유닛(200), 매칭유닛(300) 및 획득유닛(400)을 포함한다.
확인유닛(100)은 현재 목록항에 대응하는 시작 페이지정보를 확인한다.
분할유닛(200)은 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 내용속성정보에 따라 적어도 하나의 블록구조 문자로 분할한다.
매칭유닛(300)은 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고, 제1 문장내용중에서 제1 블록구조 문자의 제1 위치정보를 획득한다.
획득유닛(400)은 제1 위치정보에 의하여 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득한다.
그중, 구체적으로 분할유닛(200)은 목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행 간격의 차이에 의하여 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하며, 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함한다.
구체적으로 매칭유닛(300)은 각 블록구조 문자중에서 현재 목록항의 명칭문자중의 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 정규표현식을 이용하여 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 확인하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 문자에 따른 매칭에 의하여 각 블록구조 문자와 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 매칭정도가 설정된 임계치에 도달할 경우 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인한다.
또한, 매칭유닛(300)은 각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일한다.
일반적으로 획득유닛(400)은 제1 위치정보로부터 현재 목록항의 시작위치정보를 확인할 수 있고 제1 블록구조 문자 바로 전의 블록구조 문자의 위치정보로 부터 이전 목록항의 종결위치정보를 확인할 수 있다.
또한, 구체적으로 상기 획득 업데이트 유닛(400)는 제1 위치정보가 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제1 위치정보 및 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 현재 목록항의 시작위치정보를 확인하고; 제1 위치정보가 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 시작 페이지에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 제1 위치정보 및 제3 문장내용중의 종결블록구조 문자의 위치정보에 의하여 이전 목록항의 종결위치정보를 확인한다.
본 발명의 일 실시예에 있어서, 단지 특정 페이지의 문장내용에만 대하여 분석과 매칭을 진행하여 판식 파일의 구조화 정보를 획득 할수 있으므로 판식 파일의 구조화 속도를 향상시켰다.
또한, 각 블록구조 문자중에서 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 것은 다양한 매칭방식으로 이루어지고, 그중 하나의 매칭방식으로 실패시 기타 복수개의 예비방식으로 매칭을 진해하여 매칭검색의 성공율을 향상시켰다.
한편, 대량의 판식 파일 데이터의 구조화 제작 프로세스에서 설정된 매칭템플릿에 의하여 분석매칭을 진행하여 인력의 개입이 없이도 대량 분석을 얻을수 있어 인력을 많이 절약하였다.
본 분야의 당업자는 본 발명의 사상과 범위내에서 본 발명에 대하여 다양한 변화와 변형을 실시 할수 있다. 따라서 이러한 변화와 변형이 본 발명의 청구항 및 동등한 기술 범위내에 있을 경우 본 발명의 요지 또한 이러한 변화와 변형을 포함한다.

Claims (10)

  1. 현재 목록항에 대응하는 시작 페이지정보를 확인하는 단계;
    내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계;
    각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 또한 상기 제1 문장내용중 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 단계; 및
    상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
  2. 제1 항에 있어서,
    상기 내용속성정보에 따라 적어도 하나의 블록구조 문자로 분할하는 단계는,
    목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이, 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행간격의 차이에 의하여 상기 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 단계를 포함하되, 상기 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
  3. 제1 항에 있어서,
    상기 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하는 단계는,
    각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면,
    정규표현식을 이용하여 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면,
    문자에 따른 매칭에 의하여 각 블록문자와 상기 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 상기 매칭정도가 설정된 임계치에 도달할 경우 상기 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인하는 단계를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
  4. 제3 항에 있어서,
    상기 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하기 전에,
    각 블록구조 문자 및 상기 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하는 단계를 더 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득방법.
  5. 제1 항에 있어서,
    상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 단계는,
    상기 제1 위치 정보가 상기 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제2 문장내용중 시작블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 단계; 및
    상기 제1 위치 정보가 상기 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 단계를 포함하는 판식 파일중 구조화 정보 획득방법.
  6. 현재 목록항에 대응하는 시작페이지를 확인하는 확인유닛;
    내용속성정보에 따라 상기 시작 페이지정보에 대응하는 페이지의 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하는 분할유닛;
    각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 제1 블록구조 문자를 검색하고 상기 제1 문장내용중에서 상기 제1 블록구조 문자의 제1 위치정보를 획득하는 매칭유닛; 및
    상기 제1 위치 정보에 의하여 상기 현재 목록항의 시작위치정보 및 이전 목록항의 종결위치정보를 획득하는 획득유닛을 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
  7. 제6 항에 있어서,
    상기 분할유닛은,
    목록 텍스트와 본문 텍스트의 글자 크기와 서식의 차이 및 목록과 본문사이의 제1 행 간격과 본문사이의 제2 행간격의 차이에 의하여 상기 제1 문장내용을 적어도 하나의 블록구조 문자로 분할하고,
    상기 블록구조 문자는 단락구조 문자 또는 행구조 문자를 포함하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
  8. 제6 항에 있어서,
    상기 매칭유닛은,
    각 블록구조 문자중에서 상기 현재 목록항의 명칭문자중 각 문자에 모두 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 정규표현식을 이용하여 각 블록구조 문자중에서 상기 현재 목록항의 명칭문자에 매칭되는 블록구조 문자가 있는지 여부를 검색하고, 있을 경우 검색된 블록구조 문자를 제1 블록구조 문자로 확인하고; 아니면, 문자에 따른 매칭에 의하여 각 블록문자와 상기 현재 목록항의 명칭문자사이의 매칭정도를 산출하고, 상기 매칭정도가 설정된 임계치에 도달할 경우 상기 매칭정도에 대응하는 블록구조 문자를 제1 블록구조 문자로 확인하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
  9. 제8 항에 있어서,
    상기 매칭유닛은,
    각 블록구조 문자 및 현재 목록항의 명칭문자를 전각 문자 또는 반각 문자로 통일하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
  10. 제9 항에 있어서,
    상기 획득유닛은,
    상기 제1 위치 정보가 상기 제1 문장내용의 종결블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 다음 페이지의 제2 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제2 문장내용중의 시작블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하고;
    상기 제1 위치 정보가 상기 제1 문장내용의 시작블록구조 문자의 위치정보일 경우, 문자의 속성정보에 따라 상기 시작 페이지정보에 대응하는 이전 페이지의 제3 문장내용을 적어도 하나의 블록구조 문자로 분할하고, 상기 제1위치정보 및 상기 제3 문장내용의 종결블록구조 문자의 위치정보에 의하여 상기 현재 목록항의 시작위치정보를 확인하는 것을 특징으로하는 판식 파일중 구조화 정보 획득장치.
KR20137030609A 2011-12-09 2012-12-07 판식 파일중 구조화 정보 획득방법 및 장치 KR20140053888A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110409463.XA CN103164388B (zh) 2011-12-09 2011-12-09 一种版式文件中结构化信息获取的方法及装置
CN201110409463.X 2011-12-09
PCT/CN2012/086137 WO2013083067A1 (zh) 2011-12-09 2012-12-07 一种版式文件中结构化信息获取的方法及装置

Publications (1)

Publication Number Publication Date
KR20140053888A true KR20140053888A (ko) 2014-05-08

Family

ID=48573563

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20137030609A KR20140053888A (ko) 2011-12-09 2012-12-07 판식 파일중 구조화 정보 획득방법 및 장치

Country Status (6)

Country Link
US (1) US9773009B2 (ko)
EP (1) EP2790111A4 (ko)
JP (1) JP5930496B2 (ko)
KR (1) KR20140053888A (ko)
CN (1) CN103164388B (ko)
WO (1) WO2013083067A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346322B (zh) * 2013-08-08 2018-07-10 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN104536948A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN107330077B (zh) * 2017-07-01 2020-07-14 广东电网有限责任公司信息中心 一种数字档案馆档案的检索方法
CN109684980B (zh) * 2018-09-19 2022-12-13 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN111176640B (zh) * 2018-11-13 2022-05-13 武汉斗鱼网络科技有限公司 Android工程中布局层级展现方法、存储介质、设备及系统
CN111414741B (zh) * 2018-12-19 2022-06-14 北大方正集团有限公司 出版物的版式模板制作方法、装置、设备及介质
CN110196670A (zh) * 2019-05-31 2019-09-03 数坤(北京)网络科技有限公司 一种文本生成方法、设备及计算机可读存储介质
CN110287465B (zh) * 2019-06-22 2022-04-05 广州视源电子科技股份有限公司 文本处理方法、装置、设备及存储介质
CN110705503B (zh) * 2019-10-14 2022-02-25 北京信息科技大学 生成目录结构化信息的方法和装置
CN111046064B (zh) * 2019-12-23 2023-05-19 掌阅科技股份有限公司 图书版权信息的获取方法、电子设备及计算机存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW490643B (en) * 1996-05-21 2002-06-11 Hitachi Ltd Estimated recognition device for input character string
JPH11232439A (ja) * 1998-02-16 1999-08-27 Toshinari Hayashi 文書画像構造解析方法
JP2001052116A (ja) * 1999-08-06 2001-02-23 Toshiba Corp パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法
JP2001265762A (ja) * 2000-03-21 2001-09-28 Matsushita Electric Ind Co Ltd 文書構造抽出装置及び文書構造情報抽出方法
US20050165835A1 (en) * 2001-06-14 2005-07-28 Sharp Kabushiki Kaisha Data processing method, program and data processing apparatus
JP2003288334A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
US7142728B2 (en) * 2002-05-17 2006-11-28 Science Applications International Corporation Method and system for extracting information from a document
US7240047B2 (en) * 2002-12-23 2007-07-03 Hewlett-Packard Development Company, L.P. Apparatus and method for market-based document layout selection
US7383500B2 (en) * 2004-04-30 2008-06-03 Microsoft Corporation Methods and systems for building packages that contain pre-paginated documents
JP2006163651A (ja) * 2004-12-03 2006-06-22 Sony Computer Entertainment Inc 表示装置、表示装置の制御方法、プログラム及びフォントデータ
US7676741B2 (en) * 2006-01-31 2010-03-09 Microsoft Corporation Structural context for fixed layout markup documents
US7721198B2 (en) * 2006-01-31 2010-05-18 Microsoft Corporation Story tracking for fixed layout markup documents
US7917493B2 (en) 2007-04-19 2011-03-29 Retrevo Inc. Indexing and searching product identifiers
CN101571859B (zh) 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
CN101458680B (zh) 2008-09-03 2010-12-01 北京大学 一种自动识别数字文档目录的方法及装置
CN101354727B (zh) * 2008-09-24 2011-06-29 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
JP2010157107A (ja) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd 業務文書処理装置
US8254681B1 (en) * 2009-02-05 2012-08-28 Google Inc. Display of document image optimized for reading
NZ589039A (en) * 2009-09-24 2013-04-26 Nec Corp Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书
US20130205202A1 (en) * 2010-10-26 2013-08-08 Jun Xiao Transformation of a Document into Interactive Media Content
US8645819B2 (en) * 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files

Also Published As

Publication number Publication date
US9773009B2 (en) 2017-09-26
CN103164388A (zh) 2013-06-19
US20140289274A1 (en) 2014-09-25
EP2790111A4 (en) 2015-12-09
JP2014527660A (ja) 2014-10-16
EP2790111A1 (en) 2014-10-15
JP5930496B2 (ja) 2016-06-08
CN103164388B (zh) 2016-07-06
WO2013083067A1 (zh) 2013-06-13

Similar Documents

Publication Publication Date Title
KR20140053888A (ko) 판식 파일중 구조화 정보 획득방법 및 장치
US10650192B2 (en) Method and device for recognizing domain named entity
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
JP2022541199A (ja) データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。
CN107818815B (zh) 电子病历的检索方法及系统
Singh et al. OCR++: a robust framework for information extraction from scholarly articles
CN107004141A (zh) 对大样本组的高效标注
US8484229B2 (en) Method and system for identifying traditional arabic poems
US9575957B2 (en) Recognizing chemical names in a chinese document
CN115391439A (zh) 文档数据导出方法、装置、电子设备和存储介质
Mao et al. A dynamic feature generation system for automated metadata extraction in preservation of digital materials
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
CN106095808B (zh) 一种mdb文件碎片恢复的方法和装置
US10229105B1 (en) Mobile log data parsing
CN115796146A (zh) 一种文件对比方法及装置
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN113033177B (zh) 一种电子病历数据的解析方法及装置
CN110852359A (zh) 基于深度学习的家谱识别方法及系统
CN107368472B (zh) 一种可迭代优化的文档分析结果的保存方法
CN116244483B (zh) 一种基于数据合成的大规模零样本数据检索方法及系统
CN115544975B (zh) 一种日志格式转换方法及设备
CN114222193B (zh) 一种视频字幕时间对齐模型训练方法及系统
CN115687580B (zh) 搜索提醒补全的生成和重排序方法、装置、设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application