KR970017047A - 문서 화상으로부터의 타이틀 추출 장치 및 방법 - Google Patents

문서 화상으로부터의 타이틀 추출 장치 및 방법 Download PDF

Info

Publication number
KR970017047A
KR970017047A KR1019960035503A KR19960035503A KR970017047A KR 970017047 A KR970017047 A KR 970017047A KR 1019960035503 A KR1019960035503 A KR 1019960035503A KR 19960035503 A KR19960035503 A KR 19960035503A KR 970017047 A KR970017047 A KR 970017047A
Authority
KR
South Korea
Prior art keywords
character string
area
title
region
character
Prior art date
Application number
KR1019960035503A
Other languages
English (en)
Other versions
KR100311633B1 (ko
Inventor
유타카 가츠야마
사토시 나오이
Original Assignee
세키자와 다다시
후지쓰 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세키자와 다다시, 후지쓰 가부시키가이샤 filed Critical 세키자와 다다시
Publication of KR970017047A publication Critical patent/KR970017047A/ko
Application granted granted Critical
Publication of KR100311633B1 publication Critical patent/KR100311633B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

문서를 화상 데이타로 변환하여 얻어진 문서 화상으로부터 용이하게 타이틀 부분을 추출하는 것이 과제이다. 타이틀 추출 장치는 문서 화상내의 블랙 화소를 주사하고, 그것들이 연결되어 있는 영역에 외접하는 직사각형 영역을 문자 직사각형으로서 추출하고, 인접하는 복수의 문자 직사각형을 통합하여, 그것들의 문자 직사각형에 외접하는 직사각형 영역을 문자열 직사각형으로서 추출한다. 다음에, 각 문자열 직사각형의 하선 속성, 프레임 속성 및 괘선 속성등의 속성과, 문서 화상내의 문자열 직사각형의 위치나 상호 위치 관계에 기초하여, 바람직한 타이틀의 포인트를 계산하여, 높은 포인트를 획득한 문자열 직사각형을 타이틀 직사각형으로서 추출한다. 또한, 표형식의 문서의 경우, 표내에서 타이틀 직사각형을 추출할 수 있다. 추출된 타이틀 직사각형 내의 문자는 인식 처리 후에 문서 화상의 키워드로서 이용된다.

Description

문서 화상으로부터의 타이틀 추출 장치 및 방법
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명의 원리도,
제2도는 시스템 구성도.

Claims (51)

  1. 문서를 화상 데이타로 변환하여 얻은 문서 화상으로부터 필요로 하는 부분 영역을 취출하여 인식하는 정보 처리 장치에 있어서, 상기 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 문자 영역 생성 수단과, 상기 문자 영역 생성 수단이 생성한 1개 이상의 문자 영역을 통합하여, 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 문자열 영역 생성 수단과, 상기 문자열 영역 생성 수단이 생성한 복수의 문자열 영역의 속성에 기초하여, 그 복수의 문자열 영역중 특정 문자열 영역을 타이틀 영역으로서 추출하는 타이틀 추출 수단을 구비하는 것을 특징으로 하는 타이틀 추출 장치.
  2. 제1항에 있어서, 상기 타이들 영역에 포함되는 문자 영역을 잘라 내어, 문자를 인식하는 인식 수단을 추가로 구비하는 것을 특징으로 하는 타이틀 추출 장치.
  3. 제1항에 있어서, 상기 문자 영역 생성 수단은 상기 블랙 화소 연결 영역의 외접 직사각형을 상기 문자 영역으로서 구하고, 상기 문자열 영역 생성 수단은 상기 문서 화상내에서의 해당 외접 직사각형의 주변 길이 빈도의 막대 그래프를 작성하여, 특정 빈도와 해당 특정 빈도를 부여하는 최대의 주변 길이와의 관계표를 작성하고, 그 관계표를 이용하여 상기 문서 화상내에서 나타내는 빈도가 높은 제1주변 길이를 구비하여, 그 제1주변 길이를 기준으로 이용하여 상기 문자열 영역을 생성하는 것을 특징으로 하는 타이틀 추출 장치.
  4. 제3항에 있어서, 상기 문자열 영역 생성 수단은 상기 관계표에 있어서 빈도가 크게 변화하는 주변 길이를 바탕으로 상기 제1주변 길이를 결정하는 것을 특징으로 하는 타이틀 추출 장치.
  5. 제3항에 있어서, 상기 문자열 영역 생성 수단은 상기 외접 직사각형의 높이 또는 폭을 상기 주변 길이로서 이용하여 상기 막대그래프를 작성하는 것을 특징으로 하는 타이틀 추출 장치.
  6. 제3항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1주변 길이를 이용하여 임계치를 생성하고, 그 임계치를 이용하여 불필요한 문자 영역을 제거하는 것을 특징으로 하는 타이틀 추출 장치.
  7. 제6항에 있어서, 상기 문자열 영역 생성 수단은 상기 임계치를 이용하여 도표 또는 사진의 외접 직사각형을 제거하는 것을 특징으로 하는 타이틀 추출 장치.
  8. 제1항에 있어서, 상기 문자 영역 생성 수단은 상기 블랙 화소 연결 영역의 외접 직사각형을 상기 문자 영역으로서 구하고, 상기 문자열 영역 생성 수단은 각 외접 직사각형의 제1주변을 이용하여, 상기 문서 영역내의 제1방향에서의 외접 직사각형의 분포 범위를 나타내는 제1막대그래프를 작성하여, 그 제1막대그래프의 형상으로부터 외접 직사각형의 그룹을 구하고, 그 그룹마다 처리를 행하는 것을 특징으로 하는 타이틀 추출 장치.
  9. 제8항에 있어서, 상기 문자열 영역 생성 수단은 각 외접 직사각형의 제2주변을 이용하여 상기 문서영역내의 제2방향에서의 외접 직사각형의 분포 범위를 나타내는 제2막대그래프를 작성하여, 상기 제1 및 제2막대그래프의 형상으로부터 상기 그룹을 구하고, 그 그룹마다 처리를 행하는 것을 특징으로 하는 타이틀 추출장치.
  10. 제8항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1주변의 중간선상에 정점을 갖는 이등변 삼각형을 작성하고, 그 이등변 삼각형을 이용하여 상기 제1막대그래프를 작성하는 것을 특징으로 하는 타이틀 추출 장치.
  11. 제8항에 있어서, 상기 문자열 영역 생성 수단은 상기 그룹에 속하는 외접 직사각형을 탐색하여, 중복된 2개 이상의 외접 직사각형을 구하며, 그 2개 이상의 외접 직사각형을 1개의 외접 직사각형으로 통합하는 것을 특징으로 하는 타이틀 추출 장치.
  12. 제8항에 있어서, 상기 문자열 영역 생성 수단은 상기 그룹에 속하는 외접 직사각형을 탐색하여, 네스트된 외접 직사각형을 구하며, 네스트를 제거하는 것을 특징으로 하는 타이틀 추출 장치.
  13. 제8항에 있어서, 상기 문자열 영역 생성 수단은 기준으로 하는 제1외접 직사각형이 속하는 그룹내의 외접 직사각형을 탐색하여, 그 제1외접 직사각형에 근접하는 제2외접 직사각형을 구비하고, 그 제1 및 제2외접 직사각형의 연결 관계를 나타내는 연결 관계표를 작성하여, 그 연결 관계표를 이용하여 상기 문자열 영역을 생성하는 것을 특징으로 하는 타이틀 추출 장치.
  14. 제1항에 있어서, 상기 문자 영역 생성 수단은 상기 블랙 화소 연결 영역의 외접직사각형을 상기 문자 영역으로서 구하고, 상기 문자열 영역 생성 수단은 기준으로 하는 제1외접 직사각형에 근접하는 제2외접 직사각형을 구하며, 그 제1 및 제2외접 직사각형의 연결 관계를 나타내는 연결 관계표를 작성하여, 그 연결 관계표를 이용하여 그 제1 및 제2외접 직삭각형에 동일한 식별 정보를 부가함으로써, 그 제1 및 제2외접 직사각형을 1개의 문자열 영역에 통합하는 것을 특징으로 하는 타이틀 추출 장치.
  15. 제14항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1외접 직사각형으로부터 상기 제2외접 직사각형으로 향하는 포인터와, 상기 제2외접 직사각형으로부터 상기 제1외접직사각형으로 향하는 포인터 중, 적어도 한쪽을 상기 연결 관계표에 저장하는 것을 특징으로 하는 타이틀 추출 장치.
  16. 제14항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1외접 직사각형과 상기 제2외접 직사각형의 사이에 테두리선이 있는 경우에 그 제1 및 제2외접 직사각형을 연결하지 않는 것을 특징으로 하는 타이틀 추출 장치.
  17. 제1항에 있어서, 상기 타이틀 추출 수단은 상기 문자열 영역의 내부를 가로 방향에 복수의 부분 영역으로 분할하고, 각 부분 영역 중에서 블랙 화소 점유율이 큰 부분 세그먼트 영역을 추출하여, 임계치 이상의 높이의 부분 세그먼트 영역에 관하여는 높이를 무시하고, 가로방향으로 연결되어 있는 각부분 세그먼트 영역을 통합하여, 통합된 세그먼트 영역을 추출하는 세그먼트 추출 수단을 가지며, 그 세그먼트 영역을 이용하여 상기 타이틀 영역을 추출하는 것을 특징으로 하는 타이틀 추출 장치.
  18. 제17항에 있어서, 상기 세그먼트 추출 수단은 상기 문자열 영역의 내부를 중복하는 복수의 부분 영역으로 분할하는 것을 특징으로 하는 타이틀 추출 장치.
  19. 제17항에 있어서, 상기 세그먼트 추출 수단은 상기 문자열 영역의 폭에 가까운 길이의 상기 세그먼트 영역을 추출하는 것을 특징으로 하는 타이틀 주출 장치.
  20. 제17항에 있어서, 상기 타이틀 추출 수단은 상기 세그먼트 영역이 상기 문자열 영역내의 하부에 있을 때, 그 세그먼트 영역을 하선으로 판별하여, 그 문자열 영역을 상기 타이틀 영역의 후보로 하는 것을 특징으로 하는 타이틀 추출 장치.
  21. 제17항에 있어서, 상기 세그먼트 추출 수단은 상기 문자열 영역에서 같은 정도의 좌단 좌표 및 우단 좌표를 갖는 2개의 세그먼트 영역을 추출하여, 그 좌단 좌표 부근에서 세로방향의 블랙 화소의 제3막대그래프를 작성하고, 그 우단 좌표 부근에서 세로 방향의 블랙 화소의 제4막대그래프를 작성하여, 제3 및 제4막대그래프의 피크의 높이가 상기 2개의 세그먼트 영역의 거리 정도이면, 상기 문자열 영역내에 테두리선이 있다고 판정하는 것을 특징으로 하는 타이틀 주출 장치.
  22. 제1항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역의 속성으로서 하선 속성 또는 프레임 속성을 추출하여, 추출한 속성과 각 문자열 영역의 위치와 문자열 영역 사이의 상대적 위치 관계 중 적어도 1개를 이용하여 각 문자열 영역에 포인트를 부여하고, 높은 포인트의 문자열 영역을 상기 특정 문자열 영역으로 하는 것을 특징으로 하는 타이틀 추출 장치.
  23. 제22항에 있어서, 상기 타이틀 추출 수단은 하선 속성 또는 프레임 속성이 있는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이틀 추출 장치.
  24. 제22항에 있어서, 상기 타이틀 추출 수단은 제1방향의 중심 좌표가 상기 문서 화상의 중앙 부근에 있는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이틀 추출 장치.
  25. 제22항에 있어서, 상기 타이틀 추출 수단은 상하에 있는 문자열 영역과의 거리가 떨어져 있는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이틀 추출 장치.
  26. 제22항에 있어서, 상기 타이틀 추출 수단은 좌측에 다른 문자열 영역이 없는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이들 추출 장치.
  27. 제22항에 있어서, 상기 타이틀 추출 수단은 테두리선을 포함하는 제1문자열 영역의 내부에 제2문자열 영역이 있고, 그 제1문자열 영역과 제2문자열 영역이 임계치 이상으로 떨어져 있지 않은 일정한 위치관계에 있는 경우에, 그 제2문자열 영역이 프레임 속성을 가진다고 간주하는 것을 특징으로 하는 타이틀 추출 장치.
  28. 제1항에 있어서, 상기 타이틀 영역의 위치 또는 사이즈의 정보로부터 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈를 구하고, 그 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈가 특정한 조건을 충족시킬 때, 그 다른 문자열 영역을 수신지 영역으로서 추출하는 수신지 추출 수단을 추가로 구비하는 것을 특징으로 하는 타이틀 추출 장치.
  29. 제1항에 있어서, 상기 타이틀 영역의 위치 또는 사이즈의 정보로부터 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈를 구하고, 그 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈가 특정한 조건을 충족시킬 때, 그 다른 문자열 영역을 발신지 정보 영역으로서 추출하는 발신지 정보 추출 수단을 추가로 구비하는 것을 특징으로 하는 타이틀 추출 장치.
  30. 제1항에 있어서, 상기 타이틀 추술 수단은 상기 문서 화상내에서 일정 범위의 사이즈의 문자열 영역이 존재하는 문서영역을 구하고, 그 문서 영역에서 상기 타이틀 영역을 추출하는 것을 특징으로 하는 타이틀 추출 장치.
  31. 제1항에 있어서, 상기 타이틀 추출 수단은 인접한 2개의 문자열 영역의 사이즈 또는 좌표값이 유사한 경우에, 그 2개의 문자열 영역을 1개의 문자열 영역에 통합하는 것을 특징으로 하는 타이틀 추출 장치.
  32. 제1항에 있어서, 상기 타이틀 추술 수단은 문자열 영역의 사이즈 또는 형상으로부터 괘선을 표시한다고 판정했을 때, 그 문자열 영역에 괘선 속성을 설정하여 그 괘선 속성을 이용하여 상기 타이틀 영역을 추출하는 것을 특징으로 하는 타이틀 추출 장치.
  33. 제32항에 있어서, 상기 타이틀 추출 수단은 상기 괘선 속성을 가지는 제3문자열 영역 위에 있는 제4문자열 영역에 하선 속성을 설정하고, 그 제4문자열 영역을 상기 타이틀 영역의 후보로 하는 것을 특징으로 하는 타이틀 추출 장치.
  34. 문서를 화상 데이타로 변환하여 얻은 문서 화상으로부터 필요로 하는 부분 영역을 취출하여 인식하는 정보 처리 장치에 있어서, 상기 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 문자 영역 생성 수단과, 상기 문자 영역 생성 수단이 생성한 1개 이상의 문자 영역을 통합하여, 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 문자열 영역 생성 수단과, 일정 이상의 크기를 가지는 블랙 화소 연결 영역을 포함하는 표 영역을 추출하고, 해당 표 영역내의 복수의 문자열 영역 중 특정한 문자열 영역을 타이틀 영역으로서 추출하는 타이틀 추출 수단을 구비하는 것을 특징으로 하는 타이틀 추출 장치.
  35. 제34항에 있어서, 상기 타이틀 추출 수단은 제5문자열 영역의 내부에 괘선이 있는 경우에 그 괘선의 위치에서 그 제5문자열 영역을 분할하는 것을 특징으로 하는 타이틀 추출 장치.
  36. 제35항에 있어서, 상기 타이틀 추출 수단은 상기 제5문자열 영역내의 복수의 문자 영역의 사이에 블랙 화소가 있는지를 조사하여, 블랙 화소가 있는 위치에서 서 제5문자열 영역을 분할하는 것을 특징으로 하는 타이틀 추출 장치.
  37. 제35항에 있어서, 상기 타이틀 추출 수단은 상기 제5문자열 영역내의 복수의 문자 영역과, 상기 문자 영역 생성 수단이 그 제5문자열 영역내를 대상으로 하여 다시 구한 복수의 문자 영역과의 차이를 조사하여, 그 차이가 검출된 위치에서 그 제5문자열 영역을 분할하는 것을 특징으로 하는 타이틀 추출 장치.
  38. 제34항에 있어서, 상기 타이틀 추출 수단은 상기 표 영역내의 제6문자열 영역의 근처의 특정 영역에 괘선이 있는지 없는지를 조사하여, 괘선이 없으면 그 제6문자열 영역을 표밖의 문자열 영역으로 하는 것을 특징으로 하는 타이틀 추출 장치.
  39. 제38항에 있어서, 상기 타이틀 추출 수단은 상기 표 영역내의 문자열 영역 상호의 위치 관계로부터 상측에 표내 문자열 영역이 없는 문자열 영역을 상기 제6문자열 영역으로 하고, 그 제6문자열 영역의 상측에 있는 상기 특정 영역의 블랙 화소를 탐색하여 일정 임계치 이상의 블랙 화소가 검출된 경우에 그 특정 영역내에 상기 괘선이 있다고 판정하는 것을 특징으로 하는 타이틀 추출 장치.
  40. 제39항에 있어서, 상기 타이틀 추출 수단은 상기 제6문자열 영역 위의 다른 문자열 영역 또는 표 영역까지의 사이를 상기 특정 영역으로 하고, 상기 임계치를 그 제6문자열 영역과 그 다른 문자열 영역 또는 표 영역과의 위치 관계로부터 결정하는 것을 특징으로 하는 타이틀 추출 장치.
  41. 제34항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역을 상기 표 영역의 좌상에 가까운 순으로 우선적으로 출력하는 것을 특징으로 하는 타이틀 추출 장치.
  42. 제41항에 있어서, 문자열 영역 생성 수단은 상기 1개 이상의 문자 영역을 포함하는 문자열 직사각형을 문자열 영역으로서 생성하고, 상기 타이틀 추출 수단은 그 문자열 직사각형의 특정한 정점의 좌표값을 바탕으로, 상기 표 영역내의 복수의 문자열 직사각형에 우선 순위를 붙이는 것을 특징으로 하는 타이틀 추출 장치.
  43. 제34항에 있어서, 상기 타이를 추출 수단은 상기 복수의 문자열 영역 중, 바람직한 항목 문자열 영역을 항목 영역으로 하고, 바람직한 타이틀 문자열 영역을 상기 타이틀 영역으로서 우선 순위를 붙여서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
  44. 제43항에 있어서, 상기 타이틀 추출 수단은 소정 항목과 타이틀의 위치 및 문자수의 관계에 해당하는 문자열 영역의 쌍을 구하고, 그 문자열 영역의 쌍을 위에서 순서대로 출력하는 것을 특징으로 하는 타이틀 추출 장치.
  45. 제43항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역 중 임계치 이상의 문자수를 가지는 제7문자열 영역을 상기 항목 영역으로서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
  46. 제45항에 있어서, 상기 타이틀 추출 수단은 상기 제7문자열 영역의 우측의 문자열 영역을 상기 타이틀영역으로서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
  47. 제43항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역 중, 임계치 미만의 문자수를 가지는 제8문자열 영역을 상기 항목 영역으로서 출력하고, 그 제8문자열 영역의 우측에 있어서 그 임계치 이상의 문자수를 가지는 문자열 영역을 상기 타이틀 영역으로서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
  48. 정보 처리 장치에 의해 이용되는 기억 매체로서, 그 정보 처리 장치가 문서을 화상 데이타로 변환하여 얻은 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하고, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하며, 복수의 문자열 영역의 속성에 기초하여 그 복수의 문자열 영역 중 특정한 문자열 영역을 타이틀 영역으로서 추출하도록 유도하는 것을 특징으로 하는 기억매체.
  49. 정보 처리 장치에 의해 이용되는 기억매체로서, 그 정보 처리 장치가 문서를 화상 데이타로 변환하여 얻어진 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하고, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하며, 일정 이상의 크기를 가지는 블랙 화소 연결 영역을 포함하는 표 영역을 추출하여, 그 표 영역내의 복수의 문자열 영역 중, 특정한 문자열 영역을 타이틀 영역으로서 추출하도록 유도하는 것을 특징으로 하는 기억매체.
  50. 문서를 화상 데이타로 변환하여 문서 화상을 생성하는 단계와, 그 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 단계와, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 단계와, 복수의 문자열 영역의 속성에 기초하여 그 복수의 문자열 영역 중 특정한 문자열 영역을 타이틀 영역으로서 추출하는 단계와, 그 타이틀 영역에 포함되는 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 타이틀 추출 방법.
  51. 문서를 화상 데이타로 변환하여 문서 화상을 생성하는 단계와, 그 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 단계와, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 단계와, 일정 이상의 크기를 가지는 블랙 화소 연결 영역을 포함하는 표 영역을 추출하는 단계와, 그 표 영역내의 복수의 문자열 영역 중, 특정한 문자열 영역을 타이틀 영역으로서 추출하는 단계와, 그 타이틀 영역에 포함되는 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 타이틀 추출 방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019960035503A 1995-09-06 1996-08-26 문서화상으로부터의타이틀추출장치및방법 KR100311633B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP22950895 1995-09-06
JP95-229508 1995-09-06
JP34198395A JP3425834B2 (ja) 1995-09-06 1995-12-28 文書画像からのタイトル抽出装置および方法
JP95-341983 1995-12-28

Publications (2)

Publication Number Publication Date
KR970017047A true KR970017047A (ko) 1997-04-28
KR100311633B1 KR100311633B1 (ko) 2001-12-17

Family

ID=26528832

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960035503A KR100311633B1 (ko) 1995-09-06 1996-08-26 문서화상으로부터의타이틀추출장치및방법

Country Status (6)

Country Link
US (1) US6035061A (ko)
EP (1) EP0762730B1 (ko)
JP (1) JP3425834B2 (ko)
KR (1) KR100311633B1 (ko)
CN (5) CN1094224C (ko)
DE (1) DE69624433T2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420065B1 (ko) * 1997-01-20 2004-04-17 삼성전자주식회사 이치화된 혼재 이미지에서 글씨영역과 그림영역을 구분하는 방법
US6728403B1 (en) 2000-01-21 2004-04-27 Electronics And Telecommunications Research Institute Method for analyzing structure of a treatise type of document image

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327387B1 (en) 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources
JPH11203305A (ja) * 1998-01-12 1999-07-30 Ricoh Co Ltd 文書画像処理方法および記録媒体
JP3881439B2 (ja) * 1998-01-23 2007-02-14 シャープ株式会社 画像処理装置
US7099507B2 (en) 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
JP3574584B2 (ja) * 1998-12-16 2004-10-06 富士通株式会社 表画像処理装置及びそのプログラム記憶媒体
US7035463B1 (en) * 1999-03-01 2006-04-25 Matsushita Electric Industrial Co., Ltd. Document image processor, method for extracting document title, and method for imparting document tag information
WO2000062243A1 (fr) * 1999-04-14 2000-10-19 Fujitsu Limited Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
JP2002342710A (ja) * 2001-05-16 2002-11-29 Nec Corp 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JP2003058556A (ja) * 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
US6801673B2 (en) 2001-10-09 2004-10-05 Hewlett-Packard Development Company, L.P. Section extraction tool for PDF documents
JP2004070523A (ja) 2002-08-02 2004-03-04 Canon Inc 情報処理装置およびその方法
US7079686B2 (en) * 2002-08-20 2006-07-18 Lexmark International, Inc. Systems and methods for content-based document image enhancement
JP4113804B2 (ja) * 2003-03-19 2008-07-09 株式会社リコー 画像処理装置及び画像処理プログラム
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
CN100444194C (zh) * 2005-10-27 2008-12-17 富士施乐株式会社 文章标题及关联信息的自动抽取装置和抽取方法
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
US8594387B2 (en) * 2007-04-23 2013-11-26 Intel-Ge Care Innovations Llc Text capture and presentation device
JP4804417B2 (ja) * 2007-05-17 2011-11-02 キヤノン株式会社 動画撮像装置及び動画撮像方法
US8094202B2 (en) 2007-05-17 2012-01-10 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
US7932907B2 (en) * 2007-05-21 2011-04-26 Microsoft Corp. Layered graph layouts with a given aspect ratio
CN101354705B (zh) * 2007-07-23 2012-06-13 夏普株式会社 文档图像处理装置和文档图像处理方法
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法
CN101354704B (zh) * 2007-07-23 2011-01-12 夏普株式会社 字形特征字典制作装置及具备该装置的文档图像处理装置
JP4476318B2 (ja) * 2007-10-31 2010-06-09 富士通株式会社 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法
JP6051827B2 (ja) * 2012-12-07 2016-12-27 株式会社リコー 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
US8233671B2 (en) * 2007-12-27 2012-07-31 Intel-Ge Care Innovations Llc Reading device with hierarchal navigation
US8185398B2 (en) * 2007-12-31 2012-05-22 Intel-Ge Care Innovations Llc Reading device with shortcut read function
CN101493896B (zh) * 2008-01-24 2013-02-06 夏普株式会社 文档图像处理装置及文档图像处理方法
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US7471826B1 (en) 2008-03-31 2008-12-30 International Business Machines Corporation Character segmentation by slices
US8180788B2 (en) * 2008-06-05 2012-05-15 Enpulz, L.L.C. Image search engine employing image correlation
JP5217814B2 (ja) * 2008-09-10 2013-06-19 株式会社リコー 画像処理装置、画像処理方法、制御プログラム及び記録媒体
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
JP2010134561A (ja) * 2008-12-02 2010-06-17 Hitachi Software Eng Co Ltd 業務文書処理装置
JP5321109B2 (ja) * 2009-02-13 2013-10-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5357612B2 (ja) * 2009-04-13 2013-12-04 株式会社日立ソリューションズ 下線除去装置
CN101635058B (zh) * 2009-06-30 2011-06-01 方正国际软件(北京)有限公司 一种检测页边的方法及装置
JP5340847B2 (ja) 2009-07-27 2013-11-13 株式会社日立ソリューションズ 文書データ処理装置
JP5663866B2 (ja) 2009-08-20 2015-02-04 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5712487B2 (ja) 2009-09-04 2015-05-07 株式会社リコー 画像処理装置、画像処理システム、画像処理方法、及びプログラム
CN102081736B (zh) * 2009-11-27 2014-11-26 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
JP5488077B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
JP5621169B2 (ja) * 2010-05-26 2014-11-05 日立オムロンターミナルソリューションズ株式会社 帳票認識装置および帳票認識方法
JP5508953B2 (ja) 2010-06-28 2014-06-04 株式会社日立ソリューションズ 文書処理装置及びプログラム
CN102402693B (zh) * 2010-09-09 2014-07-30 富士通株式会社 处理包含字符的图像的方法和设备
JP5653817B2 (ja) * 2011-03-29 2015-01-14 日立オムロンターミナルソリューションズ株式会社 帳票認識装置、帳票認識方法およびそのためのプログラム
JP5742399B2 (ja) * 2011-04-06 2015-07-01 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5847807B2 (ja) * 2011-04-18 2016-01-27 キヤノン株式会社 データ処理装置、データ処理装置の制御方法、及びプログラム
JP5594269B2 (ja) * 2011-09-29 2014-09-24 コニカミノルタ株式会社 ファイル名作成装置、画像形成装置、およびファイル名作成プログラム
EP2579217A1 (de) * 2011-10-04 2013-04-10 Deutsche Post AG Verfahren und Vorrichtung für die Markierung von Wertlabeln
EP2579222A1 (de) * 2011-10-04 2013-04-10 Deutsche Post AG Automatische Überprüfung von Wertlabeln
CN102426564A (zh) * 2011-11-01 2012-04-25 无敌科技(西安)有限公司 一种矢量斜体字的反白方法
JP5279930B1 (ja) * 2012-03-27 2013-09-04 株式会社東芝 サーバ、電子機器、サーバの制御方法、サーバの制御プログラム
JP2014013534A (ja) * 2012-07-05 2014-01-23 Ricoh Co Ltd 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP6204076B2 (ja) * 2013-06-10 2017-09-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 文章領域読み取り順序判定装置、文章領域読み取り順序判定方法及び文章領域読み取り順序判定プログラム
JP6303531B2 (ja) * 2014-01-22 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6050843B2 (ja) * 2015-01-30 2016-12-21 株式会社Pfu 情報処理装置、方法およびプログラム
CN107368236B (zh) * 2017-04-19 2020-08-25 阿里巴巴集团控股有限公司 一种信息目录中标题的展示方法及装置
JP6753370B2 (ja) * 2017-07-12 2020-09-09 京セラドキュメントソリューションズ株式会社 原稿読取装置
CN107291677A (zh) * 2017-07-14 2017-10-24 北京神州泰岳软件股份有限公司 一种pdf文档标题结构树生成方法、装置、终端及系统
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
WO2019077405A1 (en) * 2017-10-17 2019-04-25 Handycontract, LLC METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES
CN108021711A (zh) * 2017-12-28 2018-05-11 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
US10572587B2 (en) * 2018-02-15 2020-02-25 Konica Minolta Laboratory U.S.A., Inc. Title inferencer
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11335108B2 (en) 2020-08-10 2022-05-17 Marlabs Incorporated System and method to recognise characters from an image
CN112101323B (zh) * 2020-11-18 2021-02-02 北京智慧星光信息技术有限公司 标题列表的识别方法、系统、电子设备及存储介质
JP7417116B2 (ja) * 2020-12-28 2024-01-18 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
TWI769809B (zh) * 2021-05-06 2022-07-01 廣達電腦股份有限公司 內容擷取系統及內容擷取方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126150A (ja) * 1984-07-17 1986-02-05 Nec Corp 文書画像フアイル登録検索装置
JPS6126149A (ja) * 1984-07-17 1986-02-05 Nec Corp 文書画像フアイル登録検索装置
US5185813A (en) * 1988-01-19 1993-02-09 Kabushiki Kaisha Toshiba Document image processing apparatus
JP2569134B2 (ja) * 1988-07-25 1997-01-08 富士電機株式会社 文字列抽出方法
JP2812982B2 (ja) * 1989-04-05 1998-10-22 株式会社リコー 表認識方法
JP2890482B2 (ja) * 1989-06-13 1999-05-17 富士ゼロックス株式会社 文書画像再配置ファイリング装置
JP2968284B2 (ja) * 1989-07-12 1999-10-25 富士通株式会社 文字認識装置およびその文字領域分離方法
JPH04207571A (ja) * 1990-11-30 1992-07-29 Toshiba Corp ファクシミリ装置
JP3149221B2 (ja) * 1991-03-27 2001-03-26 株式会社リコー 画像処理装置
JPH0520505A (ja) * 1991-07-16 1993-01-29 Nec Home Electron Ltd 文字認識装置
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JPH05274367A (ja) * 1992-03-25 1993-10-22 Toshiba Corp 画像記憶装置
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法
JPH06103402A (ja) * 1992-09-18 1994-04-15 Sony Corp 名刺認識装置
JP3278221B2 (ja) * 1993-01-11 2002-04-30 キヤノン株式会社 画像処理方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420065B1 (ko) * 1997-01-20 2004-04-17 삼성전자주식회사 이치화된 혼재 이미지에서 글씨영역과 그림영역을 구분하는 방법
US6728403B1 (en) 2000-01-21 2004-04-27 Electronics And Telecommunications Research Institute Method for analyzing structure of a treatise type of document image

Also Published As

Publication number Publication date
CN1220162C (zh) 2005-09-21
EP0762730A2 (en) 1997-03-12
CN100501760C (zh) 2009-06-17
CN1094224C (zh) 2002-11-13
EP0762730B1 (en) 2002-10-23
US6035061A (en) 2000-03-07
KR100311633B1 (ko) 2001-12-17
DE69624433D1 (de) 2002-11-28
CN1495660A (zh) 2004-05-12
JP3425834B2 (ja) 2003-07-14
DE69624433T2 (de) 2003-03-06
CN1153955A (zh) 1997-07-09
CN1365078A (zh) 2002-08-21
CN1365079A (zh) 2002-08-21
CN1365080A (zh) 2002-08-21
JPH09134406A (ja) 1997-05-20
CN1269068C (zh) 2006-08-09
CN1220163C (zh) 2005-09-21
EP0762730A3 (en) 1998-01-28

Similar Documents

Publication Publication Date Title
KR970017047A (ko) 문서 화상으로부터의 타이틀 추출 장치 및 방법
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
Kise et al. Segmentation of page images using the area Voronoi diagram
US5774580A (en) Document image processing method and system having function of determining body text region reading order
JP3359095B2 (ja) 画像処理方法及び装置
US20070041642A1 (en) Post-ocr image segmentation into spatially separated text zones
Clark et al. Rectifying perspective views of text in 3D scenes using vanishing points
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
Chowdhury et al. Segmentation of text and graphics from document images
JP4011646B2 (ja) 行検出方法および文字認識装置
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
JPS61117670A (ja) 文字切り出し処理方式
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP3095470B2 (ja) 文字認識装置
JPH0728935A (ja) 文書画像処理装置
JPH0452783A (ja) 図面読取装置
Zhang et al. Using Orientation Voting to Extract Text Lines with Various Mixed Directions from a Document Image
JPH03142691A (ja) 表形式文書認識方式
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JPS60238986A (ja) 文字認識装置のパタ−ンマツチング方式
JPH0728930A (ja) 文字認識装置
JPH05274472A (ja) 画像認識装置
JPH03189888A (ja) 図面読取装置における文字列の種類決定装置
JPH0628520A (ja) 文字認識装置
JPH03161888A (ja) 光学的文字読取装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130903

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20140901

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee