KR930000019B1 - 설명문 추출방법 - Google Patents

설명문 추출방법 Download PDF

Info

Publication number
KR930000019B1
KR930000019B1 KR1019900016705A KR900016705A KR930000019B1 KR 930000019 B1 KR930000019 B1 KR 930000019B1 KR 1019900016705 A KR1019900016705 A KR 1019900016705A KR 900016705 A KR900016705 A KR 900016705A KR 930000019 B1 KR930000019 B1 KR 930000019B1
Authority
KR
South Korea
Prior art keywords
block
comment
area
main
picture
Prior art date
Application number
KR1019900016705A
Other languages
English (en)
Other versions
KR920008639A (ko
Inventor
정찬의
Original Assignee
주식회사 금성사
이헌조
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금성사, 이헌조 filed Critical 주식회사 금성사
Priority to KR1019900016705A priority Critical patent/KR930000019B1/ko
Publication of KR920008639A publication Critical patent/KR920008639A/ko
Application granted granted Critical
Publication of KR930000019B1 publication Critical patent/KR930000019B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

내용 없음.

Description

설명문 추출방법
제1도는 본 발명 설명문 추출의 진행순서도.
제2도는 본 발명에서 주,종의 설명문 추출순서도.
제3도는 상,하로 인접한 블록간에서 설명문을 판단하기 위해 보인 예시블록도.
제4도는 본 발명의 설명문 추출방법에 대한 신호흐름도.
* 도면의 주요부분에 대한 부호의 설명
1 : 그림영역 2-10 : 설명문영역
본 발명은 문서인식에 관한 것으로, 특히 텍스트영역으로 부터 설명문영역을 구분해내는데 적당하도록 한 설명문 추출방법에 관한 것이다.
일반적인 문서 인식방법에 있어서는 그림이나 사진영역 하단에 기록된 설명문 (caption)을 텍스트와 구분시키지 않아 동일한 알고리즘으로 문서인식을 수행할 경우 설명문은 보통 고딕체인 반면 텍스트는 명조체로 되어 있고, 즉, 문자체가 서로 다르고, 문자의 크기도 서로달라 인식상의 에러가 발생될 뿐더러 그에따른 인식시간이 많이 소요되는 문제점이 있었다.
본 발명은 이와같은 문제점을 해결하기 위하여 그림이나 사진영역의 하단에 기록된 설명문을 텍스트와 별도로 구는 문제점이 있었다.
본 발명은 이와같은 문제점을 해결하기 위하여 그림이나 사진영역의 하단에 기록된 설명문을 텍스트와 별도로 구보인 설명도이고, 제2도는 본 발명에서 설명문 추출후 그 설명문의 주(parent)영역과 종(child)영역의 추출순서를 보인 설명도이며, 제3도는 상,하로 인접한 영역간에서 설명문의 추출을 설명하기 위해 보인 예시도이고, 제4도는 본 발명의 설명문 추출방법에 대한 신호 흐름도로서 이들을 참조하여 본 발명을 설명하면 다음과 같다.
설명문 추출순서는 제1도와 같이, 블록의 영역(class) 판별주→주설명추출→종설명문추출 순서로 진행되는 것으로써 먼저, 문서상에 존재하는 모든 블록에 대해 순차적으로 그 영역의 종류를 조사하면서 그 영역이 그림 또는 사진영역에 해당될때 설명문 추출을 시도한다(S1-S3).
예를들어 그림(사진)영역이 B번째 블록이고 문서상에 존재하는 총블록의 수를 ″TB″라고 하면 B+1번째 블록부터 TB번째 블록까지 순차적으로 그 영역이 텍스트 인가를 검사한다(S4,S5).
이렇게하여 영역이 텍스트인 블록(T)이 검출되면 그 블록″T″가 그림(사진)영역인 블록(P)의 설명문 인가를 판단한다(S7-S8).
여기서, 텍스트블록이 어떤 그림영역의 설명문이 될 수 있는 조건을 살펴보면, 첫째, 블록 P의 폭이 블록 T의 폭보다 크지 않아야 하며, 이때 블록 P의 영역이 블록 T의 영역내(X축 방향으로)에 존재하여야 한다(S6). 즉, ″SPX〈STX 또는 EPX)ETX″이면 블록 P의 영역이 블록 T의 설명문이 될 수 없다.
단, SPX : P영역의 X축 스타트값
STX : T영역의 X축 스타트값
EPX : P영역의 X축 종료값
ETX : T영역의 X축 종료값
둘째, 블록 T와 블록 P의 Y축 방향의 각격GTP이 소정의 임계값 VT보다 작아야 한다(S7), 즉 GTP〈VT, 단 GTP=1ETY-SPY1를 만족시키지 못하면 블록 P를 블록 T의 설명문으로 볼 수 없다.
여기서, ETY : T영역의 Y축 종료값
SPY : P영역의 Y축 종료값
셋째, 블록P는 블록T의 하단에 존재해야 한다(S8). 즉, SPY〉ETY
이와같은 조건이 블록 B와 블록 T사이에서 만족되면 블록 T를 블록 B의 설명문으로 추출하고 블록 T의 영역을 설명문영역으로 바꾼다(S11).
또한, 상기 제4스텝(S4)에서 제8스텝(S8)을 수행하여 설명문이 추출되면 이 설명문을 ″주설명문″이라하고, 이렇게 추출된 설명문의 블록번호를 스택(stack)에 기억시킴과 아울러 추출된 설명문 블록갯수를 카운트하여 그 갯수를 저장한다(S-S).
이후, 추출된 주설명문의 하단에 존재하는 종설명문을 추출하게 되는데, 제3도를 예로하면 블록 P가 블록 T의 주설명문으로 추출되었다면 블록 P의 하단에 존재하는 블록 C가 그 주블록 P의 종설명문인지를 조사하게 된다.
먼저, 스택에서 가장 최근에 추출된 주설명문의 블록 번호를 현재의 주설명문으로 지정(S15)하는데, 이 현재 주설명문의 추출방법은 상기 제4스텝(S4)에서 제8스텝 (S8) 및 제11스텝(S11)의 과정과 동일하게 제 16스텝(S16)에서 제20스텝(S20)사이에서 실행된다.
이 과정에서 종설명문이 추출되면 그 종설명문을 주설명문으로 지정하고 그 블록번호를 스택에 저장한 후(S21,S22,S14), 제15스텝(S15)부터 상기의 과정을 반복한다.
제3도를 참조하여 상기의 주,종설명문의 추출과정을 좀더 상세히 설명하면, 주설명문 P의 종설명문으로 블록 C가 추출되었을때 현재 주설명문은 블록 P가 되고, 상기 종설명문 C의 블록번호를 페런트[n]에 저장한 후 이를 현재의 주설명문으로 다시 지정하고 현재 주설명문 블록인 C의 종설명문을 찾는 과정을 실행하는데, 이 과정은 제1도에서 경로 ② ③의 과정을 문서상에 존재하는 마지막 블록 TB까지 반복수행하는 과정이다(S22).
상기의 주,종설명문 추출과정을 제2도를 참조하여 다시 설명하면, 그림(사진) 블록1의 주설명문으로 블록 2가 추출되면 (경로 ①), 이는 첫번째 추출된 주설명문이므로 이때 n=1 이 되고, 이를 스택페런트[n=1]=2에 저장한다.
이후 현재 주설명문인 블록 2의 종설명문으로 블록 4가 추출되고(경로 ②), 스택에는 페런트[n=2]=4가 저장된다.
또한 종속설명문 블록 4를 현재 주설명문 블록으로 지정하고, 이의 종설명문 블록으로 설명문 블록 7을 추출한다(경로 ③). 이때 스택페런트[n=3]=7이 되며, 다시 설명문 블록 7을 주설명문으로 지정하고 종설명문을 찾는다(경로 ② ③ 반복).
그러나 현재의 주설명문으로 지정된 블록 7에는 더이상의 종설명문이 존재하지 않으므로 주설명문의 갯수를 하나감소시키고(S24), 추출된 주설명문의 총 갯수가 φ인가를 조사한 다음 (S27), φ이 아니면 새로운 현재의 주설명문을 지정하고(S15) 제1도의 경로 ② ③을 반복수행한다.
그런데 설명문 블록 7에서는 더이상의 종설명문이 존재하지 않으므로(현재 스택페런트 [n=3]=7)추출된 주설명문의 갯수 n을 하나 감소시키고(n=2), 이때의 새로운 현재 주설명문은 페런트[n=2]=4이므로 설명문 볼록4가 지정되며 그 설명문 4의 종설명문으로는 블록 8이 추출된다(페런트[n=3]=8).
이때 상기 설명문 블록 8의 종설명문 블록이 존재하지 않으므로 상기의 과정을 반복하면 페런트[n=2]=4가 되어 그 설명문 블록 4에서 종설명문 블록을 찾게되지만 이 설명문 블록 4에서도 더이상의 종설명문이 존재하지 않으므로 n=n-1로 하여 페런트[n=1]=2가 되며 설명문 블록 2를 현재의 새로운 주설명문으로하여 종설명문을 추출한다.
이와같은 과정을 반복한 후 페런트[φ]=φ일 경우(S25)그림(사진)영역 1의 또다른 주설명문 블록이 있는지를 조사한다(S26, S4-S8).
이에따라 설명문 블룩 3이 주설명문 블록으로 추출되고, 이로부터 제1도의 경로(②, ③이 상기와 같이 반복수행된다.
이후 그림(사진 블록 1의 주설명문 블록이 더 이상 존재하지 않으면 문서상에서 다음의 그림(사진)영역을 찾고(제1도의 경로 ④), 그림영역이 존재하면 제1도의 경로 ①-③의 순서를 반복하여 설명문을 추출한다.
이렇게 하여 문서상에 존재하는 모든 그림영역에 대해 설명문의 추출이 종료되면(S9), 비로서 설명문 추출의 동작실행이 종료된다.
이상에서 상세히 설명한 바와같이 본 발명은 그림(사진)영역의 하단에 존재하는 설명문의 블록을 텍스트로부터 분리해냄으로써 문자인식외 효율성을 한층 증대시킬 수 있는 이점이 있다.

Claims (2)

  1. 문서영역의 종류를 조사해서 그림영역을 판별하는 문서인식에 있어서, 그림영역의 주변에 존재하는 텍스트영역의 좌표를 읽어서 그 값이 그림영역의 폭보다 작고 가로방향으로 텍스트영역이 그림영역의 범위내에 포함되며, 그림영역과 텍스트영역간의 세로방향의 간격이 임계치이하일때 그 텍스트영역을 설명문으로 분류하는 것을 특징으로 하는 설명문 추출방법.
  2. 제1항에 있어서, 처음에 추출된 설명문을 주설명문으로 설정한 후, 그 주설명문 주변의 텍스트영역과 그 주설명문과의 크기 및 간격을 상기와같이 구별하여 현재 주설명문 블록의 종설명문 블록을 추출하고, 다시 현재의 종설명문 블록을 주설명문 블록으로 지정한 다음 상기의 과정을 되풀이 하여 설명문 블록의 주,종을 구별하는 것을 특징으로 하는 설명문 추출방법.
KR1019900016705A 1990-10-19 1990-10-19 설명문 추출방법 KR930000019B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019900016705A KR930000019B1 (ko) 1990-10-19 1990-10-19 설명문 추출방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019900016705A KR930000019B1 (ko) 1990-10-19 1990-10-19 설명문 추출방법

Publications (2)

Publication Number Publication Date
KR920008639A KR920008639A (ko) 1992-05-28
KR930000019B1 true KR930000019B1 (ko) 1993-01-06

Family

ID=19304876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019900016705A KR930000019B1 (ko) 1990-10-19 1990-10-19 설명문 추출방법

Country Status (1)

Country Link
KR (1) KR930000019B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095837A (zh) * 2014-05-15 2015-11-25 Tcl集团股份有限公司 一种台标识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095837A (zh) * 2014-05-15 2015-11-25 Tcl集团股份有限公司 一种台标识别方法和系统
CN105095837B (zh) * 2014-05-15 2018-11-30 Tcl集团股份有限公司 一种台标识别方法和系统

Also Published As

Publication number Publication date
KR920008639A (ko) 1992-05-28

Similar Documents

Publication Publication Date Title
US4481665A (en) Character segmentation method
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US4850025A (en) Character recognition system
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN103049753A (zh) 基于骨架提取和距离变换来检测印刷电路板缺陷的方法
JP2006338578A (ja) 文字認識装置
KR930000019B1 (ko) 설명문 추출방법
CN104573097B (zh) 一种提取网页正文的方法
Shinjo et al. A recursive analysis for form cell recognition
CN102542279A (zh) 维哈柯文文本图像的行提取方法及装置
CN106127118A (zh) 一种英语单词识别方法和装置
Mei et al. A Chinese character segmentation algorithm for complicated printed documents
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
Chandran et al. Structure recognition and information extraction from tabular documents
JP3957471B2 (ja) 分離文字列統合装置
JPS6226587A (ja) 光学文字読取装置の文字フイ−ルドフリ−ピツチ処理方式
JP2569156B2 (ja) 文字行切出し方法
JP2565150B2 (ja) 文字切り出し方法
CN106570508A (zh) 一种基于局部二进制模式的乐谱谱线检测与删除方法
Chowdhury et al. Segmentation of printed Bangla characters using structural properties of Bangla script
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JP2578767B2 (ja) 画像処理方法
KR19990052967A (ko) 윈도우 및 프로젝션 정보를 이용한 한글 인식방법
JPS61250789A (ja) 文字認識装置
CN106560845A (zh) 十进一维条码

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20061220

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee