KR20110087620A - Layout based page recognition method for printed medium - Google Patents

Layout based page recognition method for printed medium Download PDF

Info

Publication number
KR20110087620A
KR20110087620A KR1020100007121A KR20100007121A KR20110087620A KR 20110087620 A KR20110087620 A KR 20110087620A KR 1020100007121 A KR1020100007121 A KR 1020100007121A KR 20100007121 A KR20100007121 A KR 20100007121A KR 20110087620 A KR20110087620 A KR 20110087620A
Authority
KR
South Korea
Prior art keywords
image
block
area
feature points
descriptors
Prior art date
Application number
KR1020100007121A
Other languages
Korean (ko)
Inventor
우운택
박종희
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020100007121A priority Critical patent/KR20110087620A/en
Priority to PCT/KR2010/005883 priority patent/WO2011093568A1/en
Publication of KR20110087620A publication Critical patent/KR20110087620A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

PURPOSE: A printing medium page recognition method based on a layout is provided to apply an algorithm according to an area through layout information of the printed page. CONSTITUTION: The layout of an image is analyzed(S10). A feature point is extracted from a picture area according to an analysis result(S20). A descriptor of the picture area is generated by using the extracted feature point(S40). The feature point is extracted from a character area according to the analyzed result(S30).

Description

레이아웃 기반의 인쇄매체 페이지 인식방법{Layout Based Page Recognition Method for Printed Medium}Layout Based Page Recognition Method for Printed Medium}

본 발명은 증강현실을 적용한 인쇄매체의 페이지 인식방법에 관한 것이다. 보다 상세하게는 본 발명은 아날로그 책과 디지털 콘텐츠를 결합하여 사용자가 실제 책과 멀티미디어 콘텐츠를 동시에 체감할 수 있도록 하는 디지로그-북을 효과적으로 사용하기 위한 레이아웃 기반의 디지로그-북 페이지 인식방법에 관한 것이다.The present invention relates to a method for recognizing a page of a printing medium to which augmented reality is applied. More specifically, the present invention relates to a layout-based digitlog-book page recognition method for effectively using a digitlog-book that combines analog books and digital contents to allow users to experience real books and multimedia contents simultaneously. will be.

통상적으로 전자책이란 좁은 의미로는 종이에 인쇄된 책이 아닌 XML, 디지털 이미지, 멀티미디어 등으로 제작해 컴퓨터나 PDA, 휴대폰과 같은 단말기 화면을 통해 보는 디지털 책을 말한다. 한국전자출판협회가 정의한 규정은 전자책을 '도서로 간행되었거나 도서로 간행될 수 있는 저작물의 내용을 디지털 데이터로 CD-ROM, DVD 등의 전자책 기록 매체 또는 저장 장치에 수록하고 유무선 정보통신망을 경유해 컴퓨터 또는 휴대 단말기 등을 이용해 그 내용을 보고 들을 수 있는 것'이라 정의한다.In general, an e-book refers to a digital book that is produced through XML, digital images, multimedia, etc., rather than a book printed on paper, and viewed through terminal screens such as computers, PDAs, and mobile phones. Regulations defined by the Korea Electronic Publishing Association (KISA) require that electronic books be stored in digital data on electronic book recording media or storage devices such as CD-ROMs or DVDs. 'You can see and hear the contents using a computer or a mobile terminal via'.

최근 컴퓨터와 핸드폰, PMP 등과 같은 단말기로 이용할 수 있는 다양한 전자책이 개발되어 왔다. PDF, XML 등의 1세대 전자책과 Flash 등 멀티미디어가 결합된 2세대 전자책이 활발히 개발되어 기존의 종이책(paper book)을 대체할 수 있는 수단으로 각광받아 왔다. 그러나 이러한 전자책이 기존의 종이책을 완전히 대체할 것이라는 초기 예상과는 달리 종이책의 활용은 더욱 증가되는 추세이다. 그 이유는 디지털 전자책이 소장의 편리함, 이동의 편리함 등의 장점을 갖지만, 기존의 아날로그 책(종이책)이 갖고 있는 다양한 장점을 대체하지는 못하기 때문이다.Recently, various e-books that can be used as terminals such as computers, mobile phones, and PMPs have been developed. First-generation e-books such as PDF and XML, and second-generation e-books that combine multimedia such as Flash have been actively developed and have been spotlighted as a means of replacing existing paper books. However, contrary to the initial expectation that these e-books will completely replace the existing paper books, the use of paper books is increasing. The reason is that digital e-books have advantages such as convenience of collection and convenience of movement, but they cannot replace various advantages of existing analog books (paper books).

한편, 최근 컴퓨터 그래픽, 컴퓨터 비전 등의 기술을 기반으로 연구되고 있는 증강/혼합 현실(Augmented/Mixed Reality)이 발전함에 따라, 이러한 기술을 응용하여 종이책과 디지털 콘텐츠를 결합한 다양한 책 제작 시도가 있었다. 일본의 레키모토 (Rekimoto)는 1998년에 2차원 matrix 코드를 이용한 증강현실 시스템을 선보였다(JunRekimoto, "Matric: A Realtime Object Identification and Registration Method for Augmented Reality," Asia Pacific Computer Human Interaction (APCHI 98), pp.63-68, 1998). 2001년 빌링허스트(Mark Billinghurst)와 가토(Kato)는 최초로 책의 형태를 갖춘 매직 북(Magic Book)을 선보였다(Mark Billinghurst, Hero Kato, Ivan poupyrev, "The Magic Book: A Transitional AR Interface," IEEE Computers and Graphics, pp.745-753, 2001). 그 후, 사소(Saso)가 "Little Red"라는 매직 북(magic book)을 선보였으며(enji Lguchi, Masa Inakage, Tomoki Saso, "Little Red MR: Storytelling in Mixed Reality," SIGGRAPH 2003), 시바타(Shibata)는 "Vivid Encyclopedia"를 선보였다(Shibata Fumihisa, Yoshida Yusuke, Furuno Koki, Sakai Toshio, Kiguchi Kenji, Kimura Asako, Tamura Hideyuki, "Vivide Encyclopidea: MR Pictorial Book of Insects", Vitual Reality Society of Japan Annual Conference, pp.611-612, 2004).Meanwhile, with the development of Augmented / Mixed Reality, which is being studied based on technologies such as computer graphics and computer vision, there have been attempts to produce various books combining paper books and digital contents by applying these technologies. . Japan's Rekimoto introduced an augmented reality system using a two-dimensional matrix code in 1998 (JunRekimoto, "Matric: A Realtime Object Identification and Registration Method for Augmented Reality," Asia Pacific Computer Human Interaction (APCHI 98), pp. 63-68, 1998). In 2001, Bill Billinghurst and Kato introduced the first Magic Book in the form of a book (Mark Billinghurst, Hero Kato, Ivan poupyrev, "The Magic Book: A Transitional AR Interface," IEEE Computers and Graphics, pp. 745-753, 2001). Later, Saso presented a magic book called "Little Red" (enji Lguchi, Masa Inakage, Tomoki Saso, "Little Red MR: Storytelling in Mixed Reality," SIGGRAPH 2003), and Shibata. ) Showed "Vivid Encyclopedia" (Shibata Fumihisa, Yoshida Yusuke, Furuno Koki, Sakai Toshio, Kiguchi Kenji, Kimura Asako, Tamura Hideyuki, "Vivide Encyclopidea: MR Pictorial Book of Insects", Vitual Reality Society of Japan Annual Conference, pp 611-612, 2004).

본 발명에서 사용하는 "디지로그-북"이란 용어는 증강현실 환경에서 출판물 (종이책)에 인간의 시각, 청각, 촉각을 자극하는 멀티미디어 콘텐츠를 융합시켜 종이책에서 제공할 수 없는 부가적인 정보를 제공하는 책을 의미한다. 이러한 디지로그-북은 종이책의 장점인 존재감을 갖추며, 전자책의 장점인 멀티미디어 이용이 가능한 책이다. 또한, 종이책에서 얻을 수 없는 정보를 다양한 멀티미디어 콘텐츠를 통해 획득할 수 있으며, 동일한 종이책에 목적과 상황에 따른 다양한 멀티미디어 시나리오를 결합할 수 있어, 개인화된 디지로그 북 제작이 가능하다는 장점이 있을 수 있다.The term "digilog-book" used in the present invention refers to a publication (paper book) in an augmented reality environment by incorporating multimedia content that stimulates human vision, hearing, and tactile sense to provide additional information that cannot be provided in a paper book. Means the book to offer. The Digilog-Book has a presence, which is an advantage of paper books, and a multimedia book that can be used as an advantage of electronic books. In addition, information that cannot be obtained from a paper book can be obtained through various multimedia contents, and various multimedia scenarios according to the purpose and situation can be combined with the same paper book, so that a personalized digital log book can be produced. Can be.

이러한 디지로그-북은 시각적 정보를 증강현실 기술을 이용하여 제공한다. 따라서, 페이지의 인식 및 추적기법은 디지로그-북에서 가장 중요한 부분이 된다. 기존 디지로그-북에서는 페이지를 인식하기 위해 주로 마커와 텍스쳐 기반의 자연 특징점 매칭 기법이 적용되었다. This digitlog-book provides visual information using augmented reality technology. Therefore, page recognition and tracking techniques are the most important part of the digitlog-book. In the existing digitlog-book, a marker and texture-based natural feature matching method is mainly used to recognize a page.

마커 기반 기법은 강건하게 페이지 인식 및 추적이 가능하지만, 인쇄된 출판물에 특정패턴의 마커를 부착해야 할 뿐만 아니라 마커의 일부분이 가려질 경우 콘텐츠가 증강되지 않는 문제점이 있다. 또한, 구현 가능한 마커 패턴의 한계로 방대한 분량의 페이지를 갖는 책에는 적용하기가 어렵다.Marker-based techniques are robust to page recognition and tracking, but there is a problem in that the content is not augmented when a part of the marker is hidden as well as a marker having a specific pattern attached to the printed publication. In addition, it is difficult to apply to a book having a large amount of pages due to the limitation of the marker pattern that can be implemented.

이러한 문제점을 해결하기 위해서 그림영역의 자연 특징점 기반 인식 및 추적 기법을 적용한 기술이 소개되었다. 하지만, 이와 같이 텍스쳐의 특징점을 기반으로 하는 페이지 인식기법은 각 특징점 기술자(descriptor)의 높은 유사성 때문에 문자로만 구성된 페이지에는 적용되기 힘든 문제점이 있었다. 특히, 특징점간의 기하학적인 정보를 사용하는 LLAH(Locally Likely Arrangement Hashing)의 경우에는 그림영역에서 repeatability가 떨어지는 문제점이 있다.
In order to solve this problem, a technique that applies recognition and tracking method based on natural feature points in the picture area is introduced. However, the page recognition technique based on the feature points of the texture has a problem in that it is difficult to apply to pages composed of letters only because of the high similarity of each feature descriptor. In particular, in the case of LLAH (Locally Likely Arrangement Hashing) using geometric information between feature points, there is a problem that the repeatability is poor in the picture area.

상술한 문제점을 해결하기 위한 관점으로부터 본 발명은 디지로그-북에 인쇄된 페이지의 레이아웃 정보를 활용하여 영역에 따라 적합한 알고리즘을 적용하는 방법을 제공하는 것을 기술적 과제로 한다.In view of the above-mentioned problem, the present invention provides a method of applying a suitable algorithm according to an area by utilizing layout information of a page printed on a digit log book.

또한, 본 발명은 디지로그-북의 페이지의 레이아웃에 따라 페이지를 문자영역과 그림영역으로 구분하여 각 영역으로부터 생성되는 기술자(descriptor)와 미리 결정된 기술자를 매칭하여 페이지를 인식하는 방법을 제공하는 것을 기술적 과제로 한다.The present invention also provides a method of recognizing a page by dividing a page into a text area and a picture area according to the layout of a page of a digitlog-book and matching a descriptor generated from each area with a predetermined descriptor. It is a technical problem.

그러나, 본 발명의 기술적 과제는 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.However, the technical problem of the present invention is not limited to the above-mentioned matters, and other objects not mentioned will be clearly understood by those skilled in the art from the following description.

상기한 기술적 과제를 달성하기 위해서 본 발명에 따른 디지로그-북(Digilog-Book)의 페이지 인식방법은, (a) 획득된 영상의 여백을 탐지하는 단계와, (b) 상기 탐지된 여백을 기준으로 상기 영상을 적어도 하나 이상의 블록으로 분할하는 단계 및 (c) (c) 상기 분할된 블록을 문자영역의 블록 및/또는 그림영역의 블록으로 분리하여 인식하는 단계를 포함한다.In order to achieve the above technical problem, a method of recognizing a page of a Digilog-Book according to the present invention includes: (a) detecting a margin of an acquired image, and (b) based on the detected margin Dividing the image into at least one block, and (c) dividing the divided block into blocks of a text area and / or blocks of a picture area.

여기서, 상기 (a)단계는, (a1) 상기 획득된 영상을 이진화(binary) 영상으로 변경하는 단계 및 (a2) 상기 (a1)단계에서 변경된 이진화 영상의 수평방향 여백과 수직방향 여백을 탐지하는 단계를 포함할 수 있다. Here, the step (a), (a1) changing the obtained image to a binary image (binary) image and (a2) detecting the horizontal margin and vertical margin of the binarized image changed in the step (a1) It may include a step.

그리고, 상기 (b)단계는, (b1) 상기 (a2)단계에서 탐지된 수평방향 및 수직방향 여백을 합성하는 단계 및 (b2) 상기 여백을 기준으로 상기 영상을 블록으로 분할하되 상기 영상의 수평방향으로 하나의 블록을 형성하기 위해 상기 분할된 블록의 수직방향 여백이 미리 결정된 크기 이하인 경우 상기 수직방향 여백을 제거하는 단계를 포함하는 것이 바람직하다. In the step (b), (b1) synthesizing the horizontal and vertical margins detected in the step (a2) and (b2) dividing the image into blocks based on the margin, And removing the vertical margin if the vertical margin of the divided block is less than or equal to a predetermined size to form one block in the direction.

또한 바람직하게는, 상기 (a1)단계는 가우시안 필터를 사용하여 상기 이진화 영상의 노이즈를 제거할 수 있을 것이다.Also preferably, the step (a1) may remove the noise of the binarized image using a Gaussian filter.

그리고, 상기 (c)단계는, 상기 블록의 영상의 히스토그램(histogram)을 구하여 상기 히스토그램에서 검출되는 정점값이 미리 결정된 기준값 이상인 경우에는 상기 블록을 문자영역의 블록으로 인식하고, 상기 정점값이 미리 결정된 기준값 미만인 경우에는 상기 블록을 그림영역의 블록으로 인식할 수 있다.In the step (c), when the histogram of the image of the block is obtained and the vertex value detected in the histogram is equal to or greater than a predetermined reference value, the block is recognized as a block of the text area, and the vertex value is previously determined. If it is less than the determined reference value, the block may be recognized as a block of the picture area.

한편, 상기한 기술적 과제를 달성하기 위해서 본 발명에 따른 디지로그-북의 페이지 인식방법은, (a) 페이지로부터 획득된 영상의 레이아웃을 분석하여 그림영역 및/또는 문자영역으로 분리하는 단계와, (b) 상기 분리된 그림영역 및/또는 문자영역의 특징점들을 추출하는 단계 및 (c) 상기 추출된 특징점들을 이용하여 생성된 기술자들(descriptors)과 미리 결정된 기술자들을 매칭하는 단계를 포함한다.Meanwhile, in order to achieve the above technical problem, the method of recognizing a page of a digit log-book according to the present invention includes: (a) analyzing a layout of an image obtained from a page and separating the image into a picture area and / or a text area; (b) extracting feature points of the separated picture area and / or text area, and (c) matching descriptors generated using the extracted feature points with predetermined descriptors.

그리고, 상기 (a)단계는, (a1) 상기 획득된 영상의 여백을 탐지하여 적어도 하나 이상의 블록으로 분할하는 단계 및 (a2) 상기 블록의 영상의 히스토그램을 획득하여 상기 히스토그램에서 검출되는 정점값이 미리 결정된 기준값 이상인 경우에는 상기 블록을 문자영역의 블록으로 분리하고, 상기 정점값이 미리 결정된 기준값 미만인 경우에는 상기 블록을 그림영역의 블록으로 분리하는 것이 바람직하다.In the step (a), (a1) detecting the margin of the obtained image and dividing it into at least one block; and (a2) obtaining a histogram of the image of the block to obtain a vertex value detected in the histogram. When the reference value is greater than or equal to the predetermined reference value, the block is divided into blocks of the text area. When the vertex value is less than the predetermined reference value, the block is preferably divided into blocks of the picture area.

여기서, 상기 (a1)단계는, (a11) 상기 획득된 영상을 이진화(binary) 영상으로 변경하는 단계 및 (a12) 상기 (a11)단계에서 변경된 이진화 영상의 수평방향 여백과 수직방향 여백을 탐지하는 단계를 포함하는 것도 좋다.Here, in step (a1), (a11) changing the obtained image to a binary image (binary) and (a12) detecting a horizontal margin and a vertical margin of the binarized image changed in step (a11). It may also include a step.

또한 바람직하게는, 상기 (b)단계는, 상기 그림영역의 영상에서 코너를 이용하여 상기 그림영역의 특징점들을 추출하고, 상기 문자영역에 포함된 단어의 중간점을 이용하여 상기 문자영역의 특징점들을 추출할 수 있을 것이다.Also preferably, in the step (b), the feature points of the picture area may be extracted by using a corner from the image of the picture area, and the feature points of the text area may be extracted by using a midpoint of a word included in the text area. You will be able to extract it.

또한, 상기 (b)단계에서 추출된 특징점들은 상기 영상의 크기 변화에 무관한 특징점들인 것이 바람직하다.In addition, the feature points extracted in step (b) are preferably feature points irrelevant to the change in the size of the image.

그리고, 상기 (c)단계는, (c1) 상기 기술자들 중 그림영역의 특징점들로 생성된 제1 기술자들과 상기 미리 결정된 기술자들이 매칭된 제1 결과들을 산출하는 단계와 (c2) 상기 기술자들 중 문자영역의 특징점들로 생성된 제2 기술자들과 상기 미리 결정된 기술자들이 매칭된 제2 결과들을 산출하는 단계 및 (c3) 상기 제1 결과들와 상기 제2 결과들을 합성하는 단계를 포함하는 것이 바람직하다.The step (c) may include: (c1) calculating first results of matching the first descriptors generated from the feature points of the picture area among the descriptors and the predetermined descriptors, and (c2) the descriptors. Calculating second results matched by the second descriptors generated by the feature points of the character region and the predetermined descriptors, and (c3) combining the first results with the second results. Do.

또한, 상기 (c3)단계는 상기 제1 결과들과 상기 제2 결과들를 교대로 합성하여 매칭 세트를 생성하는 것이 더욱 바람직하다.Further, in the step (c3), it is more preferable to generate a matching set by synthesizing the first results and the second results alternately.

한편, 본 발명에 따른 디지로그-북의 페이지 인식방법은 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 다양한 컴퓨터 판독 가능 매체를 포함할 수 있을 것이다.Meanwhile, the page recognition method of the digitlog-book according to the present invention may include various computer readable media including program instructions for performing computer-implemented operations.

본 명세서에 기재된 내용으로부터 파악되는 본 발명에 따르면, 인쇄된 페이지의 레이아웃 정보를 활용하여 영역에 따라 적합한 알고리즘을 적용하여 페이지를 인식하므로 기존에 출판된 책이나 문서를 변형하지 않고 적용 가능하다.According to the present invention grasped from the contents described in the present specification, since the page is recognized by applying a suitable algorithm according to the area by utilizing the layout information of the printed page, it can be applied without modifying a previously published book or document.

또한, 본 발명은 레이아웃 트래킹에 기초한 디지로그-북의 페이지 인식방법을 제공하여 페이지에 인쇄된 문자영역 및 그림영역에 구애됨이 없이 적용 가능하다.In addition, the present invention provides a method for recognizing a page of a digit log-book based on layout tracking, which can be applied to any text area and a picture area printed on a page.

도 1은 본 발명의 일실시예에 따른 인쇄매체의 페이지 인식을 위한 레이아웃 분석방법에 관한 플로우 차트,
도 2는 본 발명의 일실시예에 따라 영상을 블록으로 분할하는 과정을 설명하기 위해 도시한 도면,
도 3은 본 발명의 일실시예에 따라 영상을 이진화 영상으로 형성한 모습을 도시한 도면,
도 4는 본 발명의 일실시예에 따른 영상의 여백을 탐지하는 과정을 설명하기 위해 도시한 도면,
도 5 및 도 6은 본 발명의 일실시예에 따라 획득된 블록의 히스토그램을 도시한 도면,
도 7은 본 발명의 일실시예에 따라 영상을 블록으로 분할한 모습을 도시한 도면,
도 8은 본 발명의 일실시예에 따른 페이지 인식방법에 관한 플로우 차트,
도 9는 본 발명의 일실시예에 따라 영상의 특징점이 추출된 모습을 도시한 도면,
도 10은 디지로그-북의 각 영역에 따른 매칭 결과를 설명하기 위해 도시한 도면,
도 11은 본 발명에 따라 그림영역과 문자영역을 포함하는 디지로그-북의 페이지 매칭율과 종래의 방법을 사용한 경우의 매칭율을 비교하기 위해 도시한 도면이다.
1 is a flowchart illustrating a layout analysis method for page recognition of a print medium according to an embodiment of the present invention;
2 is a view illustrating a process of dividing an image into blocks according to an embodiment of the present invention;
3 is a view showing a state in which an image is formed into a binarized image according to an embodiment of the present invention;
4 is a view illustrating a process of detecting a margin of an image according to an embodiment of the present invention;
5 and 6 illustrate histograms of blocks obtained in accordance with one embodiment of the present invention;
7 is a diagram illustrating a state in which an image is divided into blocks according to an embodiment of the present invention;
8 is a flowchart illustrating a page recognition method according to an embodiment of the present invention;
9 is a view illustrating a feature point of an image is extracted according to an embodiment of the present invention;
FIG. 10 is a diagram illustrating a matching result according to each area of a digit log-book; FIG.
FIG. 11 is a diagram for comparing a page matching rate of a digitlog-book including a picture area and a text area according to the present invention with a matching rate when a conventional method is used.

이하에서는 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 여기의 설명에서 어떤 구성 요소가 다른 구성 요소에 연결된다고 기술될 때, 이는 다른 구성 요소에 바로 연결될 수도 그 사이에 제3의 구성 요소가 개재될 수도 있음을 의미한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 이때 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description herein, when a component is described as being connected to another component, this means that the component may be directly connected to another component or an intervening third component may be interposed therebetween. First, in adding reference numerals to the components of each drawing, it should be noted that the same reference numerals are assigned to the same components as much as possible, even if shown on different drawings. At this time, the configuration and operation of the present invention shown in the drawings and described by it will be described as at least one embodiment, by which the technical spirit of the present invention and its core configuration and operation is not limited.

본 발명에 디지로그-북의 페이지 인식방법을 설명하기에 앞서 본 발명의 기초가 되는 증강현실 기술의 개요를 설명한다.Before describing the method for recognizing a page of a digitlog-book in the present invention, an outline of the augmented reality technology underlying the present invention will be described.

일반적으로 증강현실 시스템은, 레지스트레이션(registration), 트래킹(Tracking), 그리고 카메라 보정(Camera calibration)을 포함한다. 레지스트레이션이란 가상 환경에서 가상 객체를 증강시킬 위치와 증강될 가상 객체를 등록하는 과정을 말한다. 통상적으로는 레지스트레이션을 위하여 현실 환경에 가상 객체를 표상하는 2차원적인 마커, 3차원 이미지 또는 2차원 이미지를 위치시킨 후 이를 식별한다.Augmented reality systems generally include registration, tracking, and camera calibration. Registration refers to a process of registering a position to augment a virtual object and a virtual object to be augmented in a virtual environment. Typically, for registration, a two-dimensional marker, a three-dimensional image or a two-dimensional image representing a virtual object is placed in a real environment and then identified.

이를 일반화하여 설명하면, 레지스트레이션을 위하여 현실 세계의 어떤 지점의 3차원 좌표가 필요하며 이 좌표는 카메라를 기준으로 카메라 좌표로 계산될 수 있다. 이러한 3차원 좌표를 얻기 위해서 카메라 입력 영상으로부터 획득된 특이점과 카메라의 정확한 상관관계를 계산하기 위한 카메라 파라미터를 획득해야 한다. 이 과정을 카메라 보정이라 부른다. 카메라 보정은 카메라의 초점거리 등 내부 변수와디지로그-북의 위치를 탐지하여 계산된 외부 변수를 이용하여 카메라 모델을 형성한다. 다음으로 카메라 입력 영상으로부터 특이점을 획득하고 이 특이점의 3차원 좌표를 추적한다. 이를 트래킹이라 하며, 매 영상 프레임 마다 위치를 추적하여 움직이는 카메라의 영상입력에서도 가상의 그래픽 객체의 증강을 가능하게 한다. 한편, 카메라 입력 영상으로부터 획득된 특이점과 카메라의 정확한 상관관계를 계산하기 위해서는 카메라 파라미터를 획득해야 한다. In general terms, three-dimensional coordinates of a point in the real world are required for registration, and the coordinates may be calculated as camera coordinates based on a camera. In order to obtain these three-dimensional coordinates, camera parameters for calculating the exact correlation between the singularity obtained from the camera input image and the camera should be obtained. This process is called camera calibration. Camera calibration creates a camera model using internal variables, such as the focal length of the camera, and external variables calculated by detecting the position of the Digilog-Book. Next, singular points are obtained from the camera input image and the three-dimensional coordinates of the singular points are tracked. This is called tracking, and it is possible to augment a virtual graphic object even in a video input of a moving camera by tracking a position every image frame. Meanwhile, in order to calculate an accurate correlation between the singularity obtained from the camera input image and the camera, camera parameters should be obtained.

그러나 본 발명은 디지로그-북의 페이지 인식방법에 관한 것이므로 상술한 카메라 보정에 대한 내용은 별도로 서술하지 않음을 유의하여야 한다. 또한, 본 발명에서 페이지 인식의 대상이 되는 인쇄매체는 특정 종류의 것으로 한정되지 않으나, 이하에서는 디지로그-북을 예로써 설명됨을 유의하여야 한다.However, it should be noted that since the present invention relates to a page recognition method of a digitlog-book, the above-described camera correction is not described separately. In addition, the present invention is not limited to a particular type of print medium that is the object of page recognition, it should be noted that the following description will be described as a digit-book.

도 1은 본 발명의 일실시예에 따른 인쇄매체의 페이지 인식을 위한 레이아웃 분석방법에 관한 플로우 차트이다.1 is a flowchart illustrating a layout analysis method for recognizing a page of a print medium according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 인쇄매체의 레이아웃 분석방법은, 카메라를 이용하여 디지로그-북에 인쇄된 영상을 획득하는 단계(S11), 획득된 영상을 이진화(binary)영상으로 변경하는 단계(S12), 영상의 수직방향 및 수평방향의 여백을 탐지하는 단계(S13), 여백 탐지 결과를 이용하여 영상을 블록으로 분할하는 단계(S14) 및 각 블록의 히스토그램을 검출하는 단계(S15)를 포함한다.As shown in FIG. 1, the method of analyzing a layout of a print medium may include obtaining an image printed on a digit log book using a camera (S11), and changing the obtained image into a binary image ( S12), detecting the vertical and horizontal margins of the image (S13), dividing the image into blocks using the margin detection result (S14), and detecting the histogram of each block (S15). do.

S11단계는 실제 디지로그-북에 인쇄된 페이지를 카메라로 촬영하여 영상을 획득하는 단계로서 통상 디지로그-북의 페이지 내용이 표현되는 디스플레이 장치 주변에 배치된 영상획득장치(일반적으로 카메라)에 의해 영상을 획득한다.Step S11 is a step of acquiring an image by photographing a page printed on a real digit log-book by a camera, and by an image acquisition device (usually a camera) disposed around a display device in which a page content of a digit log-book is represented. Acquire an image.

S12단계는 획득된 영상을 이진화 영상으로 변환하는 단계로 여기서 이진화(binary)는 어떤 임계값을 정하고 픽셀의 명도값이 임계값보다 작으면 0로 크면 1으로 표현되도록 하는 과정으로 임계값은 적당히 선택되고 조절된다. 여기서 이진화 영상에 가우시안(gaussian) 필터를 사용하여 노이즈(noise)를 제거하는 것이 가능하다. Step S12 is a step of converting the acquired image into a binarized image, where binarization is a process of determining a certain threshold value and expressing it as 1 when the brightness value of the pixel is smaller than the threshold value and as large as 0. And controlled. Here, it is possible to remove noise by using a Gaussian filter on the binarized image.

도 3은 본 발명의 일실시예에 따라 획득된 영상을 이진화 영상으로 형성한 모습을 도시한 도면이다. 도 3에 도시된 바와 같이, S12단계에서는 획득된 영상(A)은 S12단계에서 이진화 영상(B)으로 변환된다.3 is a diagram illustrating a state in which an image obtained as a binarization image is formed according to an embodiment of the present invention. As shown in FIG. 3, in operation S12, the acquired image A is converted into a binarized image B in operation S12.

S13단계는 영상에 존재하는 수직 및 수평방향의 여백을 탐지하는 단계로 상기 이진화 영상을 이용하여 여백을 탐지한다. 이를 보다 상세하게 설명하기 위해 도 2 및 도 4를 참조한다. 도 2는 본 발명의 일실시예에 따라 영상을 블록으로 분할하는 과정을 설명하기 위해 도시한 도면, 도 4는 본 발명의 일실시예에 따른 영상의 여백을 탐지하는 과정을 설명하기 위해 도시한 도면이다.Step S13 detects the vertical and horizontal margins existing in the image and detects the margin using the binarized image. To describe this in more detail, reference is made to FIGS. 2 and 4. 2 is a diagram illustrating a process of dividing an image into blocks according to one embodiment of the present invention, and FIG. 4 is a diagram illustrating a process of detecting a margin of an image according to an embodiment of the present invention. Drawing.

도 2에 도시된 바와 같이, 이진화 영상(A)은 픽셀의 명도값과 임계값을 비교하여 이진수로 표현된다. 따라서, 상술한 바와 같이 이진화 영상(A)에서 0으로 표시된 부분은 여백에 해당한다. S13단계에서는 이러한 이진화 영상(A)에 대하여 수평방향 여백 탐지(B) 및 수직방향 여백 탐지(C)가 이루어진다. 도 2에 도시된 예에서 나타난 바와 같이 수평방향 여백 탐지(B)는 이진화 영상(A)의 수평방향에서 0이 연속하여 4개 미만으로 존재하는 경우에는 1로 표시된다. 그리고, 수직방향 여백 탐지(C)는 이진화 영상(A)의 수직방향에서 0이 연속하여 2개 미만으로 존재하는 경우에 1로 표시된다. 여기서 수직방향 및 수평방향의 여백을 탐지하기 위한 알고리즘으로 CRLA(Constraint Run Length Algorithm)을 적용하였다. CRLA를 사용하여 영상의 여백을 탐지한 결과는 도 4에 도시하였다. 도 4에서 (A)는 수평방향의 여백을 탐지한 결과, (B)는 수직방향 여백을 탐지한 결과, (C)는 (A) 및 (B)를 합성한 결과이고 (D)는 수평방향으로 하나의 블록만을 형성하도록 하기 위해서 (C)에서 가로방향으로 존재하는 여백이 미리 결정된 크기 이하인 경우에는 여백이 아닌 것으로 판단한 것을 나타낸다.As shown in FIG. 2, the binarized image A is represented in binary by comparing the brightness value and the threshold value of the pixel. Therefore, as described above, the portion indicated by 0 in the binarization image A corresponds to the margin. In step S13, horizontal margin detection B and vertical margin detection C are performed on the binarized image A. FIG. As shown in the example shown in FIG. 2, the horizontal margin detection B is displayed as 1 when there are less than 4 consecutive zeros in the horizontal direction of the binarization image A. FIG. In addition, the vertical margin detection C is indicated as 1 when there are less than two consecutive zeros in the vertical direction of the binarized image A. FIG. Here, Constraint Run Length Algorithm (CRLA) is applied as an algorithm for detecting vertical and horizontal margins. The result of detecting the margin of the image using the CRLA is shown in FIG. 4. In Figure 4 (A) is a result of detecting the horizontal margin, (B) is a result of detecting the vertical margin, (C) is a result of combining (A) and (B) and (D) is a horizontal direction To indicate that only one block is formed, when the margin existing in the horizontal direction in (C) is less than or equal to the predetermined size, it is determined that it is not a margin.

다음으로 수평방향 여백 탐지결과와 수직방향 여백 탐지결과를 합성(도 2의 D 참조)한다. 여기서는 도 2에서 도시되듯이 여백을 나타내는 0을 영상의 내용을 나타내는 1에 우선하여 합성한다. 그 후 획득된 영상에 있어서 여백을 기준으로 하여 문자영역에서 수평방향으로 하나의 블록만을 형성할 수 있도록 문자영역에 존재하는 단어와 단어 사이의 작은 여백을 제거한다. 즉, 문자영역의 블록 안에 포함된 이진수 배열에서 수평방향으로 배열된 0이 연속하여 일정 개수 미만인 것을 1로 표시하여 여백을 제거한다(E). 도 2를 통해 도시된 예에서는 문자영역의 수평방향으로 연속한 0의 개수를 기준으로 하여 여백을 제거하는 과정을 설명하였으나, 문자영역의 수평방향 여백의 제거는 미리 결정된 픽셀의 넓이와 높이에 의해서 결정된 크기를 이용할 수 있다. 도 4의 (D)에서는 (C)에서 수평방향으로 존재하는 블록에 형성된 작은 여백을 상기한 방법으로 제거한 모습을 도시하였다.Next, the horizontal margin detection result and the vertical margin detection result are synthesized (see D of FIG. 2). Here, as shown in FIG. 2, 0 representing the margin is prioritized to 1 representing the content of the image. After that, in the obtained image, a small space between words and words existing in the text area is removed so that only one block can be formed in the text area in the horizontal direction based on the space. In other words, in the binary array included in the block of the character area, 0 arranged horizontally is less than a certain number in a row as 1 to remove the margin (E). In the example illustrated in FIG. 2, the process of removing margins based on the number of consecutive zeros in the horizontal direction of the character area has been described. However, the removal of the horizontal margin of the character area is determined by the width and height of the predetermined pixel. The determined size can be used. In FIG. 4D, a small margin formed in the block existing in the horizontal direction in (C) is removed by the above-described method.

S14단계는 S13단계에서 탐지된 여백을 기준으로 영상으로 블록단위로 분할하는 단계이다. S14단계에서는 영상을 그림영역과 문자영역으로 분리하기 위해 영상을 미리 블록으로 구분한다.In step S14, the image is divided into blocks based on the margin detected in step S13. In step S14, the image is divided into blocks in advance to separate the image into a picture area and a text area.

S15단계에서는 분할된 블록이 문자영역의 블록에 해당하는지 그림영역의 블록에 해당하는지를 판단하기 위해 각 블록에 대한 히스토그램을 검출하는 단계이다.In step S15, a histogram for each block is detected to determine whether the divided block corresponds to a block of the text area or a block of the picture area.

즉 여기서는 각 블록의 균등화 히스토그램(normalized histogram)을 이용하여 블록이 그림영역의 블록인지 문자영역의 블록인지를 판단한다. That is, here, the normalized histogram of each block is used to determine whether the block is a block of a picture area or a block of a character area.

이에 대하여 도 5 및 도 6을 이용하여 상세히 설명한다.This will be described in detail with reference to FIGS. 5 and 6.

도 5 및 도 6은 본 발명의 일실시예에 따라 획득된 블록의 히스토그램을 도시한 도면이다. 도 5에 도시된 바와 같이, 통상적으로 디지로그-북에 인쇄된 페이지에서 문자는 그 배경과 확연히 구분되는 명도차이를 나타내기 때문에 문자영역의 블록(A)의 히스토그램(B)은 하나의 지배적인 정점값(dominant peak)를 갖는다. 반면, 블록이 그림영역의 블록인 경우에는 도 6에 도시된 바와 같이, 그림영역의 블록(A)의 히스토그램(B)은 도 5와 같은 지배적인 정점값을 갖지 않는다. 5 and 6 are histograms of blocks obtained according to an embodiment of the present invention. As shown in Fig. 5, the histogram (B) of block (A) of the text area is one dominant because characters in a page printed in a digitlog-book typically show brightness differences that are clearly distinguished from their background. It has a dominant peak. On the other hand, when the block is a block of the picture region, as shown in FIG. 6, the histogram B of the block A of the picture region does not have a dominant vertex value as shown in FIG. 5.

이와 같이, 본 발명에서는 디지로그-북으로부터 획득된 영상의 레이아웃을 분석하여 그림영역과 문자영역으로 분리한 후에 이들 각 영역의 특징점을 추출하여 미리 결정된 기술자(descriptor)와 매칭하여 페이지를 인식한다. 각 영역의 특징점으로부터 기술자를 생성하고 생성된 기술자와 미리 결정된 기술자를 매칭하는 과정에 대하여는 이하에서 설명한다.As described above, the present invention analyzes the layout of the image obtained from the digitlog-book, divides the image area into the text area, extracts the feature points of each area, and matches the predetermined descriptor to recognize the page. A process of generating a descriptor from feature points of each region and matching the generated descriptor with a predetermined descriptor will be described below.

이하에서는 본 발명에서 각 영역의 특징점을 추출하여 페이지를 인식하는 방법에 대하여 설명한다.Hereinafter, a method of recognizing a page by extracting feature points of each region will be described.

도 8은 본 발명의 일실시예에 따른 페이지 인식방법에 관한 플로우 차트이다.8 is a flowchart illustrating a page recognition method according to an embodiment of the present invention.

도 8에 도시된 바와 같이, 페이지 인식방법은, 영상의 레이아웃을 분석하는 단계(S10), S10단계의 분석결과에 따라 그림영역에서 특징점을 추출하는 단계(S20), 그림영역에서 추출된 특징점을 이용하여 그림영역의 기술자를 생성하는 단계(S40), S10 단계의 분석결과에 따라 문자영역에서 특징점을 추출하는 단계(S30), 문자영역에서 추출된 특징점을 이용하여 문자영역의 기술자를 생성하는 단계(S50) 및 상기 그림영역의 기술자와 문자영역의 기술자를 이용하여 미리 결정되어 데이터베이스에 저장된 영상의 기술자와 각 영역별 매칭을 시행하는 단계를 포함한다. 여기서, S20단계와 S30단계는 설명의 편의를 위해 S20단계를 먼저 실행하는 것으로 설명될 것이나, 본 발명의 구현 시 S20단계와 S30단계의 순서를 바꾸거나 이들을 동시에 실행하는 것도 가능함에 유의하여야 한다.As shown in FIG. 8, the page recognition method includes analyzing a layout of an image (S10), extracting feature points from a picture area according to the analysis result of step S10 (S20), and extracting feature points extracted from a picture area. Generating a descriptor of the picture area using the feature point extracted from the text area (S30), extracting a feature point from the text area according to the analysis result of step S10, and generating a descriptor of the text area using the feature points extracted from the text area (S40). And performing matching for each region with a descriptor of an image which is predetermined and stored in a database by using the descriptor of the picture region and the descriptor of the character region. Here, steps S20 and S30 will be described as first executing step S20 for convenience of description, but it should be noted that the implementation of the present invention may change the order of steps S20 and S30 or simultaneously execute them.

S10단계는 카메라를 이용하여 획득한 디지로그-북의 영상의 레이아웃을 분석하여 그림영역 및/또는 문자영역으로 분리하는 단계로, 이에 대한 설명은 상술한 바와 중복되므로 여기서는 생략하기로 한다.Step S10 is a step of analyzing the layout of the image of the digit log-book obtained by using a camera and dividing it into a picture area and / or a text area. Since the description thereof is overlapped with the above, it will be omitted here.

S20단계는 그림영역의 특징점을 추출하는 단계이며 S30단계는 문자영역의 특징점을 추출하는 단계이다. 이를 9를 참조하여 설명한다. 도 9는 본 발명의 일실시예에 따라 영상의 특징점이 추출된 모습을 도시한 도면이다. 도 9에서는 그림영역에서 추출된 특징점을 파란색 점으로 문자영역에서 추출된 특징점을 붉은색 점으로 표시하였다. 이 때 디지로그-북의 페이지 특성에 따라 문자영역만으로 또는 그림영역만으로 구성된 페이지의 경우에는 해당 영역에 해당하는 특징점들만이 추출될 수 있음에 유의하여야 한다.Step S20 is a step of extracting feature points of the picture area and step S30 is a step of extracting feature points of the text area. This will be described with reference to 9. 9 is a view illustrating a feature point of an image is extracted according to an embodiment of the present invention. In FIG. 9, the feature points extracted from the picture area are represented by blue dots, and the feature points extracted from the text area are represented by red dots. In this case, it should be noted that, in the case of a page composed of only a text area or only a picture area, only feature points corresponding to the corresponding area may be extracted according to the page characteristics of the digit-book.

여기서 그림영역에 대하여는 SURF(Speeded Up Robust Features) 방법을 사용할 수 있으며 프로세싱 시간을 단출하기 위해 FAST 코너 탐지방법을 적용하여 특징점(FAST corners)을 추출하는 것이 바람직하다.Here, SURF (Speeded Up Robust Features) can be used for the picture area, and it is preferable to extract FAST corners by applying FAST corner detection to shorten the processing time.

SURF는 이미지 디텍터 또는 디스크립터(descriptor)로서 컴퓨터 비전 분야에서 사물인식 및 3차원 설계등에 사용된다.SURF is an image detector or descriptor used in object recognition and three-dimensional design in the field of computer vision.

또한, FAST 코너 탐지는 컴퓨터 비전 시스템 내에서 특징점을 탐지하는 방식으로 이미지의 코너를 감지하는 방식이다. 예를 들면 이미지상 농도의 최대 도는 최소의 고립된 점, 곡선라인의 엔딩부분등을 이용한 특징점을 탐지하며, 이미지 영역에서 두 개의 윤곽선이 서로 교차되는 지점을 특징점으로 추출하는 것이다.FAST corner detection is also a method of detecting corners of an image by detecting feature points within a computer vision system. For example, the maximum degree of density in an image detects a feature point using a minimum of isolated points, an ending portion of a curved line, and extracts a point where two contours intersect each other in the image area.

문자영역에 대하여는 각 단어의 중심점을 특징점을 추출한다. 이렇게 추출된 특징점을 LLAH(Locally Likely Arrangement Hashing) 특징점이라 명명할 수 있다. 여기서 LLAH는 특징점의 배열에 기초한 기하학적 해싱의 일종으로 기하학적인 검색의 정확성과 프로세싱 시간의 단축을 위한 것이다.In the character area, the feature point is extracted from the center point of each word. The extracted feature points can be named as LLAH (Locally Likely Arrangement Hashing) feature points. In this case, LLAH is a type of geometric hashing based on the arrangement of feature points for the accuracy of geometric search and the reduction of processing time.

LLAH 특징점의 추출은 S10단계에서 획득된 문자영역의 영상을 이진화 영상으로 변환하고 여기에 가우시안 필터를 적용하여 노이즈를 제거한다. 그 다음 각 단어들을 별개의 블록들로 형성하여 이 블록의 중심점을 단어의 특징점(LLAH feature)으로 추출하는 것에 의한다.Extraction of the LLAH feature points converts the image of the character region obtained in step S10 into a binarized image and removes noise by applying a Gaussian filter thereto. Each word is then formed into separate blocks and the center point of the block is extracted as the LLAH feature.

S40단계는 추출된 그림영역의 특징점들을 이용하여 그림영역의 기술자들을 생성하는 단계이다. 그림영역의 기술자는 그림영역의 특징점들에 대응하여 생성되는 기술자로 SURF 기술자(제1 기술자)이다.In step S40, the descriptors of the drawing region are generated using the extracted feature points of the drawing region. The descriptor of the picture region is a descriptor generated corresponding to the feature points of the picture region and is a SURF descriptor (first descriptor).

S50단계는 추출된 문자영역의 특징점을 이용하여 문자 영역의 기술자들를 생성하는 단계이다. 문자영역의 기술자들는 문자영역의 특징점들에 대응하여 생성되는 기술자로 LLAH 기술자(제2 기술자)이다. In step S50, the descriptors of the text area are generated using the extracted feature points of the text area. The descriptors of the character area are descriptors generated corresponding to the feature points of the character area and are LLAH descriptors (second descriptors).

S60단계는 S40단계 및 S50단계에서 생성된 제1 기술자들 및 제2 기술자들과 디지로그-북의 각 페이지의 영상이 미리 저장된 데이터베이스의 기술자들을 매칭시키는 단계이다. In step S60, the first descriptors and the second descriptors generated in steps S40 and S50 are matched with descriptors of a database in which images of respective pages of the digit log book are stored in advance.

이 단계를 보다 상세히 설명하면, 상기 제1 기술자들과 데이터베이스에 미리 결정된 기술자들을 매칭하여 제1 결과들을 산출한다. 제2 기술자들에 대하여도 마찬가지로 데이터베이스에 미리 결정된 기술자들을 매칭한 결과인 제2 결과들을 산출한다. 다음으로 제1 결과들과 제2 결과들을 합성하여 데이터베이스에 저장된 페이지를 인식한다. 여기서, 제1 결과들과 제2 결과들을 합성할 때에는 제1 결과들에 포함된 임의의 제1 결과와 제2 결과들에 포함된 임의의 제2 결과들을 교대로 합성하여 하나의 매칭 세트(set)를 생성한다. In more detail, the first descriptors are matched with predetermined descriptors in the database to produce first results. Similarly for the second descriptors, the second results are calculated as a result of matching the descriptors in the database. Next, the first results and the second results are synthesized to recognize the page stored in the database. Here, when synthesizing the first results and the second results, one matching set is obtained by alternately synthesizing any first result included in the first results and any second result included in the second results. )

즉, 본 발명에서 사용되는 알고리즘은 호모그래피(homography)를 기반으로 위치 탐지(pose estimation)와 매칭이 실패한 부분(outlier)을 제거하므로, 향상된 호모그래피(homography)를 구하는 것이다. 보통, homography를 계산하기 위해 4개의 포인트(점)가 필요하게 되는데, 이때 4점이 넓은 영역을 커버할수록 더 좋은 호모그래피가 나온다. 이를 위해, 문자영역과 그림영역에서 하나씩 매칭을 가져오게 되면 넓은 영역을 커버할 확률이 높아지므로 본 발명에서는 상기 제1 결과 및 제2 결과를 교대로 합성한다.That is, the algorithm used in the present invention eliminates outliers that fail pose estimation and matching based on homography, and thus obtains an improved homography. Normally, four points are required to calculate homography, where the more homogeneous the four points cover, the better the homography. To this end, if a match is brought one by one in the text area and the picture area, the probability of covering a wide area is increased, and thus, the first and second results are alternately synthesized in the present invention.

또한, 여기서 각 영역의 제1 결과 및 제2 결과는 랜덤하게 하나씩 선택되는 것이 아니고, 문자영역과 그림영역의 각 매칭 세트(correspondence set)에 다른 스코어 함수(score function)를 적용하여 정렬하고, 높은 퀄리티를 갖는 매칭을(correspondence)를 우선적으로 가져오는 것이다.In addition, here, the first and second results of each area are not randomly selected one by one, but are arranged by applying a different score function to each matching set of the character area and the picture area. The priority is to bring a match with quality.

이러한 방법에 의하면, 하나의 영역에서 생성된 결과만을 이용하여 데이터베이스에 저장된 디지로그-북의 페이지를 인식하는 것보다 서로 다른 영역에서 생성된 결과를 조합하여 페이지를 인식하게 되므로 보다 높은 매칭율이 달성된다.According to this method, a higher matching rate is achieved because the pages are recognized by combining the results generated in different areas rather than the pages of the digit log book stored in the database using only the results generated in one area. do.

도 10은 디지로그-북의 각 영역에 따른 매칭 결과를 설명하기 위해 도시한 도면이다. 도 10에서 (A)는 본 발명에 따른 레이아웃 기반의 페이지 인식방법의 매칭 결과, (B)는 LLAH 매칭만을 사용한 매칭 결과이고 (C)는 SURF 매칭만을 사용하는 매칭 결과이다. 여기서 녹색선은 매칭된 결과를 나타낸 선이며, 붉은색 선은 매칭되지 않은 결과를 나타낸 선으로 LLAH 매칭만을 사용하는 방법에 의한 매칭 결과(B)는 문자영역에서는 비교적 정확한 매칭 결과를 나타내나 그림영역에서는 정확한 매칭이 이루어지지 않는다. 또한 SURF 매칭만을 사용하는 방법에 의한 매칭 결과(C)는 그림영역에서는 비교적 정확한 매칭 결과를 나타내나 문자영역에서는 정확한 매칭이 이루어지지 않음을 나타낸다. 따라서, 문자영역의 매칭을 위해서는 LLAH 매칭을 사용하고 그림영역에서는 SURF 매칭을 사용하는 경우(A)에 문자영역과 그림영역으로 구성된 디지로그-북의 매칭율이 향상된다. 본 발명은 영상획득장치를 통해 획득한 영상을 초기단계에서 그림영역, 문자영역 또는 그림영역과 문자영역이 함께 있는 영상으로 분리하여 각 영역에 가장 적합한 방식의 매칭을 사용하여 높은 매칭율이 달성된다.FIG. 10 is a diagram illustrating a matching result according to each area of a digit log-book. In FIG. 10, (A) shows a matching result of the layout-based page recognition method according to the present invention, (B) shows a matching result using only LLAH matching, and (C) shows a matching result using only SURF matching. Here, the green line is the line showing the matching result, and the red line is the line showing the non-matching result. The matching result (B) by the method using only LLAH matching shows the relatively accurate matching result in the text area. Does not match correctly. In addition, the matching result C by the method using only SURF matching shows a relatively accurate matching result in the picture area, but does not accurately match in the text area. Therefore, when the LLAH matching is used to match the character area and the SURF matching is used in the picture area (A), the matching ratio of the digit log-book consisting of the text area and the picture area is improved. According to the present invention, a high matching ratio is achieved by separating an image acquired through an image acquisition device into a picture region, a text region, or an image having both a picture region and a text region at an early stage, and using a matching method that is most suitable for each region. .

도 11은 본 발명에 따라 그림영역과 문자영역을 포함하는 디지로그-북의 페이지 매칭율과 종래의 방법을 사용한 경우의 매칭율을 비교하기 위해 도시한 도면이다.FIG. 11 is a diagram for comparing a page matching rate of a digitlog-book including a picture area and a text area according to the present invention with a matching rate when a conventional method is used.

도 11에 도시된 바와 같이, SURF방식 또는 LLAH방식만을 적용하여 그림영역과 문자영역으로 구성되어 있는 디지로그-북의 페이지를 인식하는 경우보다 본 발명에 따라 그림영역과 문자영역을 분리하여 각 영역에 서로 다른 매칭 기법을 적용하는 경우에 보다 높은 매칭율이 달성된다. 특히, 디지로그-북의 기울기 정도가 커질수록 본 발명에 따른 레이아웃 기반의 페이지 인식방법이 상대적으로 높은 매칭율을 나타냄을 알 수 있다.As shown in FIG. 11, the image area and the text area are separated and separated according to the present invention, rather than the case of recognizing a page of a digit log-book consisting of the picture area and the text area by applying only the SURF method or the LLAH method. Higher matching rates are achieved when different matching techniques are applied. In particular, as the degree of inclination of the digit-book increases, it can be seen that the layout-based page recognition method according to the present invention has a relatively high matching rate.

한편, 본 발명에 따른 디지로그-북의 페이지 인식방법은 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 다양한 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Meanwhile, the method of recognizing a page of a digitlog-book according to the present invention includes various computer readable media including program instructions for performing a computer-implemented operation. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The media may be program instructions that are specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs and DVDs, and magnetic disks such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명의 사상적 범주에 속한다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above-described embodiments, which can be variously modified and modified by those skilled in the art to which the present invention pertains. Modifications are possible. Accordingly, it is intended that the scope of the invention be defined solely by the claims appended hereto, and that all equivalents or equivalent variations thereof fall within the spirit and scope of the invention.

Claims (13)

인쇄매체의 페이지 인식방법에 있어서,
(a) 획득된 영상의 여백을 탐지하는 단계;
(b) 상기 탐지된 여백을 기준으로 상기 영상을 적어도 하나 이상의 블록으로 분할하는 단계; 및
(c) 상기 분할된 블록을 문자영역의 블록 및/또는 그림영역의 블록으로 분리하여 인식하는 단계를 포함하는 페이지 인식방법.
In the page recognition method of the print media,
(a) detecting the margins of the acquired image;
(b) dividing the image into at least one block based on the detected margins; And
and (c) dividing the divided block into blocks of a text area and / or blocks of a picture area.
제1항에 있어서, 상기 (a)단계는,
(a1) 상기 획득된 영상을 이진화(binary) 영상으로 변경하는 단계; 및
(a2) 상기 (a1)단계에서 변경된 이진화 영상의 수평방향 여백과 수직방향 여백을 탐지하는 단계를 포함하는 것을 특징으로 하는 페이지 인식방법.
According to claim 1, wherein step (a),
(a1) changing the obtained image to a binary image; And
and (a2) detecting the horizontal and vertical margins of the binarized image changed in step (a1).
제2항에 있어서, 상기 (b)단계는,
(b1) 상기 (a2)단계에서 탐지된 수평방향 및 수직방향 여백을 합성하는 단계; 및
(b2) 상기 여백을 기준으로 상기 영상을 블록으로 분할하되 상기 영상의 수평방향으로 하나의 블록을 형성하기 위해 상기 분할된 영상의 수평방향 여백이 미리 결정된 크기 이하인 경우 상기 수평방향 여백을 제거하는 단계를 포함하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 2, wherein step (b) comprises:
(b1) synthesizing the horizontal and vertical margins detected in step (a2); And
(b2) dividing the image into blocks based on the margin, and removing the horizontal margin when the horizontal margin of the divided image is equal to or smaller than a predetermined size to form one block in the horizontal direction of the image Page recognition method comprising a.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 (c)단계는,
상기 블록의 영상의 히스토그램(histogram)을 구하여 상기 히스토그램에서 검출되는 정점값이 미리 결정된 기준값 이상인 경우에는 상기 블록을 문자영역의 블록으로 인식하고, 상기 정점값이 미리 결정된 기준값 미만인 경우에는 상기 블록을 그림영역의 블록으로 인식하는 것을 특징으로 하는 페이지 인식방법.
The method according to any one of claims 1 to 3, wherein step (c) comprises:
A histogram of an image of the block is obtained, and when the vertex value detected in the histogram is greater than or equal to a predetermined reference value, the block is recognized as a block of a text area. When the vertex value is less than a predetermined reference value, the block is illustrated. A page recognition method, characterized in that the recognition as a block of the area.
인쇄매체의 페이지 인식방법에 있어서,
(a) 페이지로부터 획득된 영상의 레이아웃을 분석하여 그림영역 및/또는 문자영역으로 분리하는 단계;
(b) 상기 분리된 그림영역 및/또는 문자영역의 특징점들을 추출하는 단계; 및
(c) 상기 추출된 특징점들을 이용하여 생성된 기술자들(descriptors)과 미리 결정된 기술자들을 매칭하는 단계를 포함하는 페이지 인식방법.
In the page recognition method of the print media,
(a) analyzing a layout of an image obtained from a page and separating the image into a picture area and / or a text area;
(b) extracting feature points of the separated picture area and / or text area; And
and (c) matching descriptors generated using the extracted feature points with predetermined descriptors.
제5항에 있어서, 상기 (a)단계는,
(a1) 상기 획득된 영상의 여백을 탐지하여 적어도 하나 이상의 블록으로 분할하는 단계; 및
(a2) 상기 블록의 영상의 히스토그램을 획득하여 상기 히스토그램에서 검출되는 정점값이 미리 결정된 기준값 이상인 경우에는 상기 블록을 문자영역의 블록으로 분리하고, 상기 정점값이 미리 결정된 기준값 미만인 경우에는 상기 블록을 그림영역의 블록으로 분리하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 5, wherein step (a) comprises:
(a1) detecting and dividing the margin of the obtained image into at least one block; And
(a2) if the vertex value detected in the histogram is equal to or greater than a predetermined reference value by acquiring a histogram of the image of the block, and if the vertex value is less than the predetermined reference value, the block is divided into A page recognition method comprising dividing into blocks of a picture area.
제6항에 있어서, 상기 (a1)단계는,
(a11) 상기 획득된 영상을 이진화(binary) 영상으로 변경하는 단계; 및
(a12) 상기 (a11)단계에서 변경된 이진화 영상의 수평방향 여백과 수직방향 여백을 탐지하는 단계를 포함하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 6, wherein step (a1),
(a11) changing the obtained image to a binary image; And
(a12) a page recognition method comprising detecting a horizontal margin and a vertical margin of the binarized image changed in step (a11).
제5항에 있어서, 상기 (b)단계는,
상기 그림영역의 영상의 코너를 이용하여 상기 그림영역의 특징점들을 추출하고, 상기 문자영역에 포함된 단어의 중간점을 이용하여 상기 문자영역의 특징점들을 추출하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 5, wherein step (b) comprises:
Extracting feature points of the picture area by using a corner of an image of the picture area, and extracting feature points of the text area by using an intermediate point of a word included in the text area.
제5항에 있어서,
상기 (b)단계에서 추출된 특징점들은 상기 영상의 크기 변화에 무관한 특징점들인 것을 특징으로 하는 페이지 인식방법.
The method of claim 5,
And the feature points extracted in step (b) are feature points irrelevant to a change in the size of the image.
제5항에 있어서, 상기 (c)단계는,
(c1) 상기 기술자들 중 그림영역의 특징점들로 생성된 제1 기술자들과 상기 미리 결정된 기술자들이 매칭된 제1 결과들을 산출하는 단계;
(c2) 상기 기술자들 중 문자영역의 특징점들로 생성된 제2 기술자들과 상기 미리 결정된 기술자들이 매칭된 제2 결과들을 산출하는 단계; 및
(c3) 상기 제1 결과들과 상기 제2 결과들을 합성하는 단계를 포함하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 5, wherein step (c) comprises:
(c1) calculating first results of matching the first descriptors generated by the feature points of the picture area among the descriptors and the predetermined descriptors;
(c2) calculating second results of matching the second descriptors generated from the feature points of the character area among the descriptors and the predetermined descriptors; And
(c3) synthesizing the first results and the second results.
제10항에 있어서,
상기 (c3)단계는 상기 제1 결과들과 상기 제2 결과들를 교대로 합성하여 매칭 세트를 생성하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 10,
In step (c3), the first result and the second result are synthesized alternately to generate a matching set.
제11항에 있어서,
상기 (c3)단계는 상기 제1 결과들 및 제2 결과들을 스코어 함수(score function)을 이용하여 합성하는 것을 특징으로 하는 페이지 인식방법.
The method of claim 11,
In the step (c3), the first results and the second results are synthesized using a score function.
제5항에 내지 제12항 중 어느 한 항에 기재된 페이지 인식방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the page recognition method according to any one of claims 5 to 12.
KR1020100007121A 2010-01-26 2010-01-26 Layout based page recognition method for printed medium KR20110087620A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100007121A KR20110087620A (en) 2010-01-26 2010-01-26 Layout based page recognition method for printed medium
PCT/KR2010/005883 WO2011093568A1 (en) 2010-01-26 2010-08-31 Method for recognizing layout-based print medium page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100007121A KR20110087620A (en) 2010-01-26 2010-01-26 Layout based page recognition method for printed medium

Publications (1)

Publication Number Publication Date
KR20110087620A true KR20110087620A (en) 2011-08-03

Family

ID=44319528

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100007121A KR20110087620A (en) 2010-01-26 2010-01-26 Layout based page recognition method for printed medium

Country Status (2)

Country Link
KR (1) KR20110087620A (en)
WO (1) WO2011093568A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101374726B1 (en) * 2012-06-27 2014-03-17 한국과학기술원 Feature descriptor generating device and method, image object recognition device and method using the same
US10157326B2 (en) 2015-10-30 2018-12-18 Xiaomi Inc. Method and device for character area identification
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239535B (en) * 2014-09-22 2018-04-27 重庆邮电大学 A kind of method, server, terminal and system for word figure
CN111274511A (en) * 2020-01-16 2020-06-12 明博教育科技股份有限公司 Method and system for displaying book resources

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100286709B1 (en) * 1993-06-15 2001-04-16 구자홍 Method for separating ideographic character in alphabetic string
JP4603807B2 (en) * 2004-03-10 2010-12-22 富士通株式会社 Character recognition device, character recognition method, medium processing method, character recognition program, and computer-readable recording medium on which character recognition program is recorded

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101374726B1 (en) * 2012-06-27 2014-03-17 한국과학기술원 Feature descriptor generating device and method, image object recognition device and method using the same
US10157326B2 (en) 2015-10-30 2018-12-18 Xiaomi Inc. Method and device for character area identification
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis

Also Published As

Publication number Publication date
WO2011093568A1 (en) 2011-08-04

Similar Documents

Publication Publication Date Title
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
Zhang et al. Ensnet: Ensconce text in the wild
KR101469398B1 (en) Text-based 3d augmented reality
Yang et al. Automatic lecture video indexing using video OCR technology
WO2019061658A1 (en) Method and device for positioning eyeglass, and storage medium
US9916330B2 (en) Method and system for analyzing an image generated by at least one camera
Ge et al. Co-saliency detection via inter and intra saliency propagation
EP2587826A1 (en) Extraction and association method and system for objects of interest in video
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
US20150228045A1 (en) Methods for embedding and extracting a watermark in a text document and devices thereof
CA2656425A1 (en) Recognizing text in images
JP5695257B1 (en) Image processing apparatus, image processing method, and image processing program
KR20110087620A (en) Layout based page recognition method for printed medium
CN113436222A (en) Image processing method, image processing apparatus, electronic device, and storage medium
Kapur et al. Mastering opencv android application programming
US11715197B2 (en) Image segmentation method and device
JP2006260311A (en) Matching method, matching device, and program
JP6403207B2 (en) Information terminal equipment
JP7246104B2 (en) License plate identification method based on text line identification
CN115546906A (en) System and method for detecting human face activity in image and electronic equipment
Khatib et al. A hybrid multilevel text extraction algorithm in scene images
KR20150094108A (en) Method for generating saliency map based background location and medium for recording the same
CN111626244B (en) Image recognition method, device, electronic equipment and medium
CN114648751A (en) Method, device, terminal and storage medium for processing video subtitles
Kalantari et al. Improving patch-based synthesis by learning patch masks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application