KR100761912B1 - Document information extraction method and system based on body text identification - Google Patents

Document information extraction method and system based on body text identification Download PDF

Info

Publication number
KR100761912B1
KR100761912B1 KR1020060030795A KR20060030795A KR100761912B1 KR 100761912 B1 KR100761912 B1 KR 100761912B1 KR 1020060030795 A KR1020060030795 A KR 1020060030795A KR 20060030795 A KR20060030795 A KR 20060030795A KR 100761912 B1 KR100761912 B1 KR 100761912B1
Authority
KR
South Korea
Prior art keywords
document
information
title
method
area
Prior art date
Application number
KR1020060030795A
Other languages
Korean (ko)
Inventor
김병학
김창하
Original Assignee
(주)첫눈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)첫눈 filed Critical (주)첫눈
Priority to KR1020060030795A priority Critical patent/KR100761912B1/en
Application granted granted Critical
Publication of KR100761912B1 publication Critical patent/KR100761912B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/21Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/2745Heading extraction; Automatic titling, numbering

Abstract

A method and a system for extracting document information based on body recognition are provided to recognize a position of a body by sectioning the document and recognizing a section including body information, and correctly extract title information for the document by setting the section for searching a title of the document based on the position of the recognized body section or body. A document interpreter(410) parses the document and a document sectioning part(420) sections the document into each section by referring to parsing information. A body section recognizer(430) recognizes the body section among each section. A detection section setting part(450) sets a title detection section based on the location of the recognized body section. A candidate title selector(460) selects more than one candidate title phrase from the set title detection section. The body section recognizer recognizes the body section of the document according to a rule including at least one of a ratio of texts not having link property of each section, or volume, size or position information of each section.

Description

본문 식별에 기반한 문서정보 추출방법 및 시스템 {document information extraction method and system based on body text identification} Document information extraction method based on identifying the body and the system {document information extraction method and system based on body text identification}

도 1은 본 발명의 바람직한 실시예에 따른 문서의 제목추출 방법을 구체적으로 도시한 작업 흐름도이다. Figure 1 is a flow chart specifically showing operation of the document a title extracting method according to an embodiment of the present invention.

도 2a는 본 발명의 실시예에 의하여 문서가 영역들로 구획된 결과의 한 예를 나타내는 도면이다. Figure 2a is a view showing an example of a result of the document is divided into the regions by an exemplary embodiment of the present invention.

도 2b는 본 발명의 실시예에 의하여 문서에서 제목후보구의 위치가 식별된 결과를 나타내는 도면이다. Figure 2b is a view showing the result of a subject position candidate phrase in the document identified by the embodiment of the present invention.

도 3은 본 발명의 실시예에 의하여 본문영역 외에서 제목이 선정된 결과를 예시한 도면이다. Figure 3 is a view showing the result of the outside of the body region by an embodiment of the present invention Title selection.

도 4는 본 발명에 따른 문서 정보추출방법을 구현하기 위한 시스템의 구성도 이다. Figure 4 is a block diagram of a system for implementing the document information extraction method according to the invention.

본 발명은 문서로부터 정보를 추출하는 방법에 관한 것으로서, 더욱 상세하게는 문서 내에서 본문영역 또는 본문내용의 위치를 식별하고, 본문영역의 기준위치와의 상대위치 등에 기반으로 식별된 제목후보들 중에서 해당 문서의 제목을 결정하는 문서정보 추출방법에 관한 것이다. The present invention is applicable in a relates to a method of extracting information from a document, and more particularly, to the identified location of the text area or text information in the document, and the identification is based on such a relative location of the reference position of the text region title candidates It relates to a document information extraction method to determine the title of the document.

인터넷상에 수많은 문서들이 존재하게 됨에 따라, 검색엔진이 주요한 정보원으로 활용되고 있으며, 검색엔진의 이용에 있어서, 질의어와 관련된 검색결과 리스트로부터 사용자가 원하는 문서들을 재선택하는 데에는 해당 문서의 제목 및 요약정보가 중요한 역할을 하게 된다. As it there are numerous documents on the Internet, search engines are being used as the main source of information, in the use of search engines, from the search results list associated with the query There you are again, select the desired document title and summary of the document information is an important role.

그러나 웹 문서들의 경우 문서의 작성 시에 그 내부에 해당 문서의 제목을 메타정보로서 포함할 수 있음에도 불구하고, 단순히 문서가 존재하는 사이트명 내지는 상위분류 정보만을 메타정보로 포함하고 있는 경우가 많으며, 문서 작성자의 부주의로 인하여 해당 문서와는 전혀 상관성을 가지지 않는 정보가 메타정보로 포함되기도 한다. However, the Web Document case of though to include the title of the article therein at the time of the document created as metadata, though, simply often containing only a metadata top classified information site naejineun people to document exists, due to the negligence of the document creator, the document and the information that does not have any correlation it should also be included in the meta information.

따라서 검색서비스가 그 검색결과를 리스팅하는 데 있어서 html 문서의 <title> 태그내의 정보만을 활용하여 제목정보로 제공하는 것은 사용자를 만족시킬 수 없으며, 이는 문서의 제목에 국한된 문제가 아니어서 문서의 요약정보를 제공함에 있어서도 단순히 질의어가 나타나는 부분을 예시하는 것은 문서의 전체 내용을 반영하지 못해 결과적으로 사용자를 불만족을 초래하기도 한다. Therefore, the search service is not that thing in for listing your results by utilizing only the information in the <title> tag in your html document to provide the title information to satisfy the user, which is not a problem confined to the subject of the article Come summary of the document also in providing information query it is simply to illustrate the parts that appear it sometimes results in dissatisfaction of the user as a result failed to reflect the entire contents of the document.

이를 개선하기 위하여, 해당 문서 내에서 눈에 띄는 속성을 가진 텍스트를 제목으로 반영한다거나, 학습 알고리즘을 사용하여 해당 문서의 내용을 반영하는 제목 내지는 요약정보를 생성하는 방법 등이 시도되어 왔다. To improve this, handageona reflect the text with attributes stand out in the document title, it has been a method of generating a summary naejineun title that reflects the content of the document is tried using a learning algorithm.

그러나 현재의 웹 문서들의 경우에는 광고정보, 각종 링크정보 등이 한 문서내에 병존한다거나. But if handageona coexistence of the current web page, the advertisement information, and various information such as links within a document. 클릭율을 높이기 위하여 이러한 부가정보들이 더욱 강조되어 표시되는 경향 등으로 인해 성과가 만족스럽지 못하다는 문제가 있다. Mothada performance is not satisfactory due to the tendency for such additional information is displayed is emphasized to increase the click rate is problematic.

본 발명은 상기와 같은 문제점들을 해결하기 위하여 안출된 것으로서, 본 발명은 문서를 영역별로 구획하고 그 영역들 중에서 본문정보를 포함하는 영역을 식별하고 그에 포함된 본문내용의 위치를 식별하는 것을 목적으로 한다. The present invention has been made in view of solving the above problems, the present invention is for the purpose of dividing a document by each region and identifies a region including the text information among the region and identifies the location of the text information included thereto do.

또한, 본 발명의 목적은 상기 식별된 본문영역 또는 본문내용의 위치를 기준으로 문서의 제목을 탐색할 영역을 설정함으로써 한 문서 내에 여러 부가정보가 혼재되어 있는 경우에도, 해당 문서에 대한 제목정보 등을 정확하게 추출하는 데에 있다. It is also an object of the present invention, even if a number of the additional information coexist in a document by setting the area to search for the title of the document based on the location of the identified text area or text information, the title information for that article, etc. the lies in accurately extracted.

상기의 목적을 이루기 위한 본 발명의 한 실시예에 따라, 문서를 파싱하는 단계; Further comprising: parsing the document in accordance with one embodiment of the present invention to accomplish the above object; 상기 파싱결과를 이용하여 웹 문서를 영역별로 구획하는 단계; The step of dividing the area by the web document using the parsing result; 소정의 기준에 따라 본문영역을 식별하는 단계; Identifying a text region in accordance with a predetermined criteria; 상기 식별된 본문영역의 위치 등을 기준으로 제목정보 탐지영역을 설정하는 단계; Setting a title, the information detection region based on the location of the identified text region; 상기 제목정보 탐지영역에서 제목후보구를 선정하는 단계; The step of selecting a title candidate phrase in the title information detection regions; 및 상기 제목후보구들을 대상으로 제목적합도를 산정하고 그를 기준 으로 상기 문서의 제목정보를 식별하는 단계를 포함하는 정보추출방법에 의해 달성된다. And it is accomplished by the information retrieval method including the step of calculating the goodness of fit in the target subject to the title candidate phrases and identify the subject information of the document based on him.

한편, 본 발명의 다른 분야에 의하면, 상기 기술적 과제는 문서를 파싱하는 문서해석부; On the other hand, according to another aspect of the invention, the document analysis unit for the technical challenge is to parse the document; 상기 파싱결과를 이용하여 문서를 영역별로 구획하는 문서구획부; Document partitions for partitioning the document area by using the result of parsing; 소정의 기준에 따라 본문영역을 식별하는 본문영역 식별부; Body region identifying unit for identifying the body region according to a predetermined criteria; 상기 본문영역의 위치 등을 기준으로 본문정보 탐색영역을 설정하는 탐색영역 설정부; The search area setting unit for setting the text information search area based on the position of the body region; 및 상기 제목후보구들을 대상으로 산출한 제목적합도를 기준으로 상기 문서의 제목정보를 식별하는 제목정보 식별부를 포함하는 정보추출 시스템에 의하여도 달성된다. And it is achieved also by an information extraction system that includes a title identification information identifying a title information of the document along the heading fit calculated by the target subject candidate phrases.

본 명세서에서 지속적으로 사용되는 용어로서 문서라 함은 전자적인 방법으로 기록된 문서를 의미하는 것으로, 특정한 파일의 형식이나 확장자에 한정되는 것은 아니라 할 것이며, 인터넷 상에서 브라우저를 통해 보이는 웹 페이지의 개념을 포함한다. La documents as a continuous terms used herein means the will, but not limited to the type or extension of that, a specific file, which means the documents recorded by electronic way, the concept of Web pages viewed through a browser on the Internet It includes.

이하, 첨부된 도면을 참조하여 웹 문서의 정보추출방법 및 시스템에 대하여 설명한다. With reference to the accompanying drawings, it will be described with respect to information retrieval method and system of the web document.

도 1은 본 발명의 바람직한 실시예에 따른 웹 문서의 제목추출 방법을 구체적으로 도시한 작업 흐름도이다. Figure 1 is a detail showing the operation flow chart a title extracting method of a web document according to an embodiment of the present invention.

문서를 파싱하는 단계(110)는 문서를 영역별로 구획하기 위한 사전 단계로서 문서들에서 문서가 전달하고자 하는 실질적인 정보를 가진 텍스트와 그 정보 텍스트에 부가되는 속성값들을 구문 분석하는 과정이다. Step 110 to parse the document is a process for parsing the text and the attribute value is added to the text information with the actual information of the document to pass in the article as a pre-step of dividing a document by each region.

한 예로 html로 구성된 문서의 경우를 보자면, <title>, <p> 등의 태그 사이에 존재하는 이너텍스트(inner text)들을 문서의 구성요소(element)로 보고, 그 각각의 글씨체, 글씨의 크기, 표현되는 위치, 메타태그의 의미 등이 부가되는 속성으로 파악될 수 있다. An example In terms in the case of consisting of a html document, <title>, <p> Inner text that exists between the tags, and (inner text) the report to the component (element) of the document, each of the font, type size of , expressed position, the meaning of meta tags, etc. can be grasped as added attributes. 또한, 바람직하게는 파싱과 관련하여 출원 전에 공지된 파이어폭스(firefox) 등의 프로그램이 활용될 수 있다. Furthermore, preferably there is in relation to the parsing, such as the Firefox (firefox) known before the application program can be used.

문서를 영역별로 구획하는 단계(S120)는 문서를 파싱한 정보를 이용하여 문서들을 하나 이상의 영역으로 나누는 단계로서 문서를 파싱하는 단계(S110)에서 얻어진 정보를 활용하여 문서의 구성요소가 문서에서 표현되는 위치와 그 표현되는 폭(width) 등을 기준으로 하여 하나 이상의 구성요소를 포함하는 영역을 구성할 수 있다. Step (S120) for dividing a document by each region by using information parsing the document using information obtained in the step (S110) to parse the document as dividing the document into at least one region component is expressed in the document of the document Due to the location and the like based on the width (width) is represented which may constitute a region including one or more components. 일반적으로 구획되는 영역의 형태는 사각형의 형태가 될 것이나, 각 영역의 병합, 분할 등으로 인해 변경될 수 있다. Shape of the area is generally divided into may be changed due to would be in the form of a square, each of the merged area, division and the like.

바람직하게는 위치의 인접성 등을 기준으로 영역들을 병합하거나 하나의 영역을 분할하는 과정이 추가로 포함될 수 있으며 상기 재구성과정에서는 추후 계산과정에서의 효율성을 위해 하나의 문서 내에 포함될 수 있는 영역의 최소, 최대치를 한정하는 조건이 추가로 부가될 수 있다. Preferably may contain further a process of merging of regions on the basis of such proximity to the location, or dividing the one region, and the minimum in the reconstruction process, the area that can be contained in a single document for efficiency in the later calculation, the conditions to limit the maximum value may be further added to.

본문영역을 식별하는 단계(S130)는 하나 이상의 영역으로 구획된 문서에서 어떤 영역이 문서의 주 내용을 포함하는 본문영역에 해당하는지 여부를 평가하기 위한 단계이다. Step (S130) to identify the body regions is a step for evaluating whether or not that body area that includes the main contents of this document in certain areas a document divided into more than one area.

본문영역을 판정하기 위한 판단 인자로서는 영역의 폭과 높이, 문서대비 영역 폭과 높이의 비율, 영역의 문서내 위치, 영역들 간의 유기적 위치 관계, 각 영역의 전체 텍스트 분량 및 해당 영역 내의 링크속성을 가지지 아니한 텍스트의 비 율 등이 있으며, 특히, 웹 문서 등에서는 광고정보 내지는 사용자의 내비게이션을 보조하기 위한 링크속성을 가진 앵커 텍스트는 해당문서가 아닌 그 링크가 참조하는 문서를 대표하는 정보를 가지고 있을 확률이 크기에 각 영역에 포함된 텍스트 중에 링크 속성을 가지지 않는 텍스트의 비율이 중요한 판단 기준이 될 수 있다. Ratio of width and height, document preparation area width and height as the determining factor for determining the text region area, location of document areas, organic positional relationship between the regions, a full-text portions and a link attribute in the corresponding area of ​​the respective regions have which have, and include the ratio of the text, in particular, web pages, etc. is the anchor text with a link property to assist in the navigation of the user naejineun advertising information may have information that represents the document that the link references rather than the document odds are the ratio of the text does not have a link attribute in the text contained in each area, the size can be an important criterion.

상기 링크속성이란 해당 구성요소에 대한 사용자의 클릭 등에 의하여 이벤트가 발생하는 경우를 지칭하는 것으로, 바람직하게는 상기 이벤트에 의하여 수행되는 일련의 동작들이 다른 문서를 참조하기 위한 것인지 또는 해다 구성요소에 대한 단순한 부가 설명을 위해 존재하는 것인지 등에 따라 달리 취급하는 것이 필요하다. The link property is to refer to the case that an event occurs by a user or the like of the clicks on the component, and preferably a series of operations performed by the event on whether or haeda component for referring to other documents to treat different depending on whether that exist for a simple additional explanation is necessary.

문서로부터 구획된 하나 이상의 영역 중에서 본문영역을 결정하기 위해서는 여러 가지 방법이 사용될 수 있다. To determine the text area from one area partitioned from the document can be used in several ways. 바람직하게는 각 영역별로 상기 판단인자를 사용하여 본문적합도를 산출하고 그 산출된 결과를 기준으로 하여 본문영역을 선정할 수 있으며, 상기 본문적합도를 평가치를 산출하는 방법으로는 각 인자들에 가중치를 부여하여 하나의 수식으로 산출하는 방법, 상기 인자들로 신경회로망을 구성하여 학습시키는 방법 및 결정트리를 사용하는 방법 등이 활용될 수 있다. Preferably a weight to calculate body fit by using the determined factor, and that may on the basis of the calculated result of selecting the body region, each factor is a method for calculating an estimate for the body fit for each area It is a method to calculate a single formula, and a method of using the methods and decision trees for learning to configure the neural network to the above factors can be used to give.

제목정보 탐지 영역을 설정하는 단계(S140)는 문서의 제목을 추출하는 데 있어서, 해당 문서의 내용을 표현하고 있는 부분 외의 정보들이 문서 제목추출 과정에 개입하는 것을 방지하기 위한 단계로서 제목후보구가 선정될 영역을 문서의 일부로 제한하는 단계이다. Step (S140) for setting a title, the information detection region is according to extract the title of the document, other than the part representing the content of the document information is a title candidate obtained as a step for preventing intervention in titles extraction a step that limits the area to be selected as part of the document.

일반적인 경우에 문장의 작성은 위에서 아래로 이루어지게 되고, 제목은 본문내용에 위쪽에 본문내용의 시작점과 인접하여 위치한다. Creating the sentences to be fulfilled the general case is from top to bottom, the title is located adjacent to the starting point of the text information to the top of the main content.

따라서 본문영역 자체에 포함된 모든 문자열을 대상으로 제목적합도를 평가하는 방법이 보다 보수적이고 안정적일 수도 있으나, 본문영역 내에서도 본문내용이 시작되는 위치를 식별하여 제목을 탐색할 영역을 본문내용이 시작하는 위치보다 상부로 한정하는 것이 효율적인 방안이 될 수 있다. Therefore, the body region, but also in itself a conservative and stable than the method of assessing a subject fit for all strings that are contained in the text area within the identified where the main content is started to the area you want to explore the subject content starts be limited to the upper portion than the position can be an effective way.

다만, 문서의 제목이 언제나 본문영역 내부에 위치하는 것은 아니므로 바람직하게는 본문영역보다 상부에 위치하는 영역까지도 그 제목 탐색 대상 영역으로 추가하는 것이 바람직하며, 본문영역이나 그 상부영역에 드러나지 아니하더라도 문서에 포함된 메타정보들을 활용하는 것도 추가로 고려될 수 있다. However, it is located inside always the title of the document body areas, even areas which preferably is positioned at the top than the text area, not it is desirable to add to the title search target area, although not revealed in the text area and the upper area It can be considered to be added to take advantage of the metadata embedded in the document. 한 예로 html 문서들의 경우에는 <title></title> 태그 등의 메타정보가 포함되며, 그 내용이 문서의 진정한 제목인가 여부는 별론으로 적어도 제목의 후보로서는 고려될 가치는 있다. In the case of the example, the html document <title> </ title> and contains a meta information for the tags and so on, there is whether or not the contents are applied to the true title of the document is to be considered as valuable candidates for the subject to at least byeolron.

상기 본문내용 위치의 식별과 관하여 좀더 구체적으로 살펴보자면, 일반적인 문서 작성의 경우에서 있어서, 본문내용은 밑줄, 기울임 등의 속성의 부여가 상대적으로 적으며, 두 줄 이상으로 작성되어 문서 전체에서 상대적으로 많은 분량을 차지하는 등의 경향을 보인다. The body If we look information to identify a location and more specific respect, in the case of creating a general document, text information, was granted the properties, such as underline, italic relatively small, written in more than one line is relatively throughout the document tend to occupy such large quantities. 따라서, 유사한 속성을 가지는 구성요소(element) 내지는 텍스트 군집이 본문영역에서 차지하는 상대적 비율이 높다거나, 텍스트의 폭이 본문영역의 폭에 근접하거나 본문영역의 폭 이상이어서 줄 바뀜이 나타난다거나 하는 경우에는 해당 구성요소(element)가 본문내용일 확률이 높은 것으로 판단할 수 있고, 밑줄, bold, 기울임 등의 속성이 빈번히 나타난다거나 해당 구성요소가 표시되는 폭이 본문영역의 폭에 비해 상대적으로 좁은 경우 등에는 해당 구성요소가 본문내용일 확률이 낮은 것으로 판단할 수 있다. Thus, naejineun component (element) having a similar property is the text clustering is high relative percentage of the body regions, or the width of the text close to the body region width or over the width of the text area, then line changes are displayed or if there and the component (element) can be determined by a high probability that the body of information, underline, bold, appears frequently properties of tilting, etc., or if the width is displayed, the component is relatively narrow compared to the width of the text area, etc. It may determine that the component is a low probability of main content.

일 예로 본문영역 내에서 줄바뀜이 반복적으로 일어나는 첫 단락을 본문내용의 시작점으로서 식별한다거나, 본문영역 내에서 최대의 폭을 가진 텍스트 내지 본문영역 내의 가장 긴 단락은 본문내용의 일부로 간주한다는 등의 기준에 의해서도 문서의 실질적인 본문내용이 시작하는 위치로 파악될 수 있다. Handageona identified as the starting point of the day the first paragraph taking place repeatedly changed lines in the text area, for example the body content, criterion, such as having the longest paragraph in the text to the text area, with a maximum width in the body area is considered part of the main content to even be identified as the location where the actual text of the document begins.

다만, 본문영역의 위치로 의심되는 위치가 두 곳 이상인 경우, 상대적으로 아래에 있는 부분을 기준으로 하여 제목 탐지영역을 한정하는 것이 좀더 보수적이고 안정적인 방법일 수 있다. However, if you have more than one location suspected location of the area where the body, it may be more conservative and reliable method based on the section under the heading relatively limited detection area.

제목후보구를 선정하는 단계(S150)는 상기 설정된 제목탐지 영역 내에서 제목후보구들을 선정하는 단계이다. Step (S150) of selecting a title candidate sphere is a step of selecting a title candidate phrases in the subject set the detection area.

상기 제목탐지 영역을 한정하는 단계(S140)를 통해 제목을 탐색하는 영역을 문서의 일부분으로 한정함으로써 문서 전체에 포함된 모든 구성요소를 대상으로 하여 제목적합도를 평가하는 등의 비효율은 상당부분 개선될 것이며, 그 계산과정에 무리가 없다면, 상기 탐색영역 내의 모든 구성요소에 대하여 제목적합도를 산정하여 제목을 선정하는 방법으로도 제목정보 추출이라는 목적을 달성할 수 있다. Inefficiencies, such as by limiting a region for searching the subject using the steps (S140) to limit the subject detection area as a part of the document and for all components included in the entire document evaluates the title fit will be improved significantly will, if there is no stress on the calculations, the method of selecting the subject by calculating the subject fit for all components within the search area also can achieve the goal of extracting the title information.

그러나 계산과정에서의 부담이 개선을 위해 바람직하게는 상기 한정된 제목 탐색영역내에서 1차적으로 제목후보구를 선정하는 단계를 추가적으로 포함할 수 있다. But it may preferably further include the step of selecting a title candidate sphere within the limited search area subject primarily to an improvement in the load of calculation processing. 한 예로 제목적합도에 산출에 사용되는 속성들 중에서 일부만을 고려하여 제목 탐색영역에 포함된 구성요소 중에서 제목일 가능성이 매우 낮은 것들을 배제할 수 있다. As an example consider a few of the attributes that are used to calculate a fit subject may exclude those with very low likelihood of titles among the components contained in the title search area.

또한, 제목후보구를 선정하는 단계(S150)는 유사한 위치정보를 가진 문서들에서 반복여부를 고려하여 제목후보구를 조정하는 단계를 포함할 수 있다. Further, in consideration of the repeated whether in the documents with a step (S150) is similar to the location information to select a title candidate sphere may include a step of adjusting the title candidate sphere.

유사한 위치정보를 가진 문서들이란, 로컬영역에서는 그 위치한 경로정보가 유사한 문서들을 의미하고, 웹 문서들의 경우에 있어서는 URL의 정보가 유사한 문서들을 의미한다. In that is, the document with a similar location information of the local area means that the similar documents in the route information, and in the case of the Web document it refers to the URL information of the similar document. 문서의 파일명을 제외한 최하위 경로정보까지 동일한 문서들을 의미하는 것으로 국한되어 해석할 것은 아니며, 동일한 템플릿 등에 의하여 작성되어 사용자에게 보이는 문서의 구조가 유사한 문서들에 까지 확대 해석될 수 있다. Not necessarily to be limited to mean the same document analysis to lowest path information other than the file name of the document, a structure is created by the same template such as visible to the user document can be extended to the analysis of similar documents.

예를 들어, 이러한 문서들에서 완전히 동일한 형태로 반복되는 문자열의 경우에는 해당 문서만의 내용 또는 특징을 대변한다기보다는 그 그룹의 특징을 나타내는 것으로서 해석될 가능성이 잇는데, 예로서, 웹 문서의 경우 사이트 맵에서의 해당문서의 위치에 대응하는 경로 정보가 문서에 노출되어 반복되는 경우라든지, <title>태그 내에 해당 웹사이트의 최상위 주소만이 동일하게 반복되는 경우가 이에 해당한다. For example, as such a case of completely strings are repeated in the same form in the document, are likely to be interpreted as indicating a feature of that is, rather than one representing the contents or characteristics of only collections itneunde, for example, in the case of a web document If the path information corresponding to the location of the document in the site map is a document that repeated exposure Or, is it that if only the top address of the website is equally repeated in the <title> tag them.

유사한 위치정보를 가지는 문서들에서 반복되는 문자열을 참고하는 것은 단순히, 상기의 무의미한 후보구를 배제하는 목적으로만 활용되는 것은 아니며, 제목적합도를 산출하고 문서의 제목을 결정하는 단계(S160)에도 그 결과가 반영될 수 있다. The reference strings are repeated in the document having similar location information simply and are therefore not to be utilized solely for the purpose of excluding the insignificant candidate hole of the, and in step (S160) for calculating the title fit and to determine the title of the document, It can be reflected in the results. 한 예로 한 문서에서 "한국근대사 - part.1 1950년대"가 제목으로 추출되고 동일한 경로에 위치하는 또 다른 문서에서 같은 위치에 "한국근대사 - part.2 1960년대" 라는 나타나는 경우에는 그 문자열의 일부가 반복된다는 이유만으로 제목후보구에서 배제되어서는 아니 되며, 오히려 제목을 결정하는 단계(S160)서 제목적합도의 산출에 있어서 가중되는 요인으로 반영될 수 있다. In the same location and in the extract - "part.1 1950 Korea's modern history," a title other documents that reside on the same path, for example in the document - if it appears that "Korea's modern history part.2 1960" is part of the string only nine candidates will be excluded from the title that the reason for repetition is not, but rather may reflect factors that are weighted in the calculation of the standing step (S160) that determines the subject heading fit.

제목후보구들에 대해 제목적합도를 산출하고 그를 기준으로 제목을 결정하는 단계(S160)는 상기 단계들에 의하여 추출된 제목후보구들을 평가하여 문서의 제목을 선택하는 과정이다. Step (S160) of calculating the goodness of fit for the title in the title candidate phrases to determine a subject by him is the process of evaluating the title candidate phrases extracted by the above step, select the title of the document.

제목적합도의 평가는 각 제목후보구의 속성들에 가중치를 부여하여 합산하는 방법으로 산출될 수 있으며, 바람직하게는 학습알고리즘을 사용하여 상기 가중치들을 튜닝하는 과정이 추가로 사용될 수도 있다. Evaluation of the title fit may be used to add the step of tuning the weights may be calculated using a method of adding and weighting the respective candidate subject sphere properties, preferably a learning algorithm. 또한, 결정트리 등을 사용하여 최적의 트리구조를 학습하는 방법 등도 고려될 수 있다. It may also be taken into account also how to learn the optimal tree structure using decision trees or the like.

일 예로서 웹 문서의 경우에 상기 산출과정에서 고려될 수 있는 속성치들에 관해 살펴보자면, 제목후보구의 문서상 절대위치, 문서 전체에서의 상대위치, 문자열이 브라우징 될 경우의 그 문단의 절대적 크기, 폰트의 크기, 폰트 웨이트(font weight), 속해 있는 영역 또는 전체 문서의 크기에 대한 폰트의 상대적 크기, 문서내에서의 각 제목후보구가 가지는 폰트의 크기의 순서, 해당 문구가 여러 줄에 걸쳐있는지 여부, 수평 및 수직으로 같은 DOM(Document Object Model)의 개수, 문자열에 붙어 있는 태그명, 제목후보구가 문서에서 출현하는 문단의 순서, 후보문구의 문자열의 길이, 문서내에서 문자열의 foreground color의 빈도의 역순서, 문서 내에서 문자열의 배경색(background color)의 빈도의 역순서 및 문자열의 문서내 발생 확률을 로그값으로 정규화한 값들 중 적어 If we look on the attribute values ​​that can be taken into account in the calculation process in the case of a web page as an example, a title candidate sphere munseosang absolute position, relative position of the entire document, the paragraph absolute size of the font if the strings browsing whether the size, font weight (font weight), each title candidates obtain the order of the size of the font with, the wording in the relative size, the document font for the area or size of the entire document belonging across multiple lines of horizontal, and the number of DOM (document Object Model), such as vertical, people tag attached to the string, title, frequency of candidates obtain the order of the paragraphs that appeared in the article, the length of the string of candidate phrases, foreground color of the character string in the document, less of a reverse order, a fully qualified string background color (background color) in the probability of occurrence document in the reverse order and the frequency of the string in the document to the logarithm values 하나 이상이 사용될 수 있다. There is more than one can be used.

또한, 웹 문서들이 아니라 일반적인 전자적 문서들의 경우에도 상기 열거된 속성들에 대응하는 값들이 제목적합도의 평가에 사용될 수 있다. Also, as the web document it is values ​​corresponding to the properties listed above in the case of general electronic document can be used to evaluate goodness of fit of the subject.

또한, 각각의 제목후보구가 문서 전체의 내용 또는 본문내용에 포함된 정보들과의 내용적 관련성을 평가하여 제목적합도에 반영할 수 있다. In addition, each of the title candidates determined by evaluating the information less relevant with the information contained in the content or text of the entire document can be reflected in the title fit. 한 예로 상기 내용적 관련성은 제목후보구에 포함된 단어들과 본문내용에 속한 단어들 간의 상호정보(mutual information)를 활용하거나 또는 (query)-(query)값 등을 사용하여 평가될 수 있다. As an example the internal volume relationship is utilized, or (query) the mutual information (mutual information) between the words belonging to the words and the text information included in the title candidate sphere may be evaluated by using the (query) values.

또한 바람직하게는 상기 제목적합도가 최상위인 제목후보구들 중에서 하나만을 선택하는 것이 부적당하다고 여겨질 만큼. Also preferably, it is enough to be considered improper that you select only one of the title candidates phrases that fit the top title. 제목적합도의 차이가 근소한 경우라든가, 최상위 제목후보구의 길이가 너무 짧아서 그 대표성이 떨어지는 것으로 판단되는 경우에는 차상위 제목후보구 중 하나가 병기되어 문서의 제목을 형성할 수도 있다. Radeunga if the difference between the subject fit small, if the top-level heading candidate phrase length is determined to be too short falls that representation has been one of the next higher stage of the old candidate subject may form the subject of the document.

도 2a는 본 발명의 실시예에 의하여 문서가 영역들로 구획된 결과의 한 예를 나타내는 도면이다. Figure 2a is a view showing an example of a result of the document is divided into the regions by an exemplary embodiment of the present invention.

예시된 문서는 인터넷 상의 중고차 매매사이트인 SK엔카(www.skencar.com)의 한 페이지로서 해당 페이지는 문서게시자가 작성시에 판매하고자 하는 차량에 대한 정보 이외에도 각종 광고정보 및 해당사이트의 관련정보 등이 병기되어 화면에 표시되어 있다. The illustrated document as a single page of the site, used cars for sale SK Enka (www.skencar.com) on the Internet, the page including information of various information and advertising your site in addition to information about the vehicle to be sold in creating the document publisher this stage can be displayed on the screen. 이 문서를 구문분석하면, 문서 내에 포함된 각 구성요소(element)들과 그 속성을 파악할 수 있다. The analysis of the document syntax can grasp the respective component (element) included in the document and its attributes.

한 예로서 상기 구문분석 결과에 의하여 파악된 구성요소들의 브라우징 되는 폭과 위치를 고려하여 문서를 영역별로 구획하면, 예시된 문서는 도 2a에 도시된 바와 같이 여러 영역으로 구획될 수 있다. If as an example, by dividing a document area in consideration of the width and the location where the browsing of the components identified by the parsed result, the illustrated document may be divided into several areas as shown in Figure 2a.

상기 영역들을 살펴보자면. If you look of the area. 영역A(211)와 영역B(212)는 해당사이트에서 다른 정보들을 보여주는 등이 사용자 편의를 제공하기 위해 구성되는 영역이고, 영역C(213)는 해당 웹사이트에서 광고가 노출되는 영역이다. Region A (211) and region B (212) is such as to show other information in the site area is configured to provide the user-friendliness, the region C (213) is a region to reach the ad in the web site. 영역D(214)는 게시자가 자신이 판매하고자 하는 중고차의 정보 등을 기재한 영역이며, 도면에 도시되지는 않았지만 관계법령에 따라 사이트의 운영주체에 대한 정보가 노출되는 영역이 영역D(214)의 이하에 별도로 존재한다. Area D (214) is a publisher and an area based information, such as used cars, although not shown in the figure, the area where the information on the site operating entity exposure according to the relevant laws zone D (214) to their sales the present separately in the following.

본 발명의 한 실시예에 따라서 상기 영역들 중에서 본문영역을 식별하는 과정을 살펴보자면, 영역D (214)가 상대적으로 폭이 넓고, 전체문서에서 차지하는 위치가 가운데이며, 영역의 면적 및 높이 또한 크고, 다른 영역들은 광고라거나, 해당 사이트내에서의 네비게이션을 도와주기 위한 링크 정보들이 많이 포함되어 있는데 반하여 영역D(210)는 게시자가 자신이 판매하고자하는 중고차량에 대한 설명을 일반 텍스트(plain text)로 기술하고 있으므로, 영역 내의 링크 속성을 가지고 있지 않은 텍스트의 비율이 높게 나타난다. If we look the step of identifying a text region from among the regions in accordance with an embodiment of the present invention, the region D (214) is large and is relatively wide, and the center position in the entire document, the area and height of the area is also large, other areas are advertising rageona, there is included a lot of link information to help make navigation within the site against domain D (210) is a publisher plain text description of the used car you want to own the sales (plain text) since the technology, when the percentage of text that does not have a link properties in the area high. 따라서 결과적으로는 영역D(210)가 본문영역으로 식별된다. Therefore, as a result is identified region D (210) is a body region.

도 2b는 본 발명의 실시예에 의하여 문서에서 제목후보구의 위치가 식별된 결과를 나타내는 도면이다. Figure 2b is a view showing the result of a subject position candidate phrase in the document identified by the embodiment of the present invention. 제목탐지영역을 한정하기 위한 기준으로서 본문영역으로 식별된 영역D(214)내에서 본문내용의 위치를 식별하는 과정이 수행된다. The step of identifying the location of the text information in the area D (214) identified by the body region is performed as a reference for limiting the subject detection area. 한 예로 본문영역(210)의 폭과 유사하고 별다른 속성이 없는 텍스트로서 줄바뀜이 일어나는 경우를 찾아보면 본문내용(220)의 위치는 파악될 수 있다. For example you should look for if the line changes that occur as a text that is similar to the width little property in the body region 210 located in the body content (220) may be identified.

따라서 본문영역으로 식별된 영역D(214)내에서도 본문내용(220)상단이 제목탐지영역이 되며, 추가적으로는 본문영역보다 상단인 영역A(211)가 제목탐지영역이 될 수 있다. Therefore, even in the region D (214) identified by the text information, the text area 220, the top and the subject detection area, additionally has an area A (211) than the top of the body region may be a detection subject region.

단순히 본문영역만을 인식하여, 그 영역 내부에 있는 문자열들 모두에 대해 제목적합도를 평가하는 방법도 가능하나. Simply only the body region recognition, one can also how to evaluate a subject fit for the string everyone inside the area. 계산과정의 부담이 증가하며, 더욱이 이러한 계산과정에서의 부담은 유사한 위치정보를 가진 다른 문서들의 정보를 활용하는 과정에서 기하급수적으로 증가할 수 있다. Increasing the burden of calculation and, moreover, the pressure in this calculation can be increased exponentially in the process of using information from other documents with a similar location.

따라서 바람직하게는 본문영역 내에서 본문내용(220)의 위치를 기준으로 하여 그 상부의 영역에서 1차적으로 구성요소의 폰트 크기, 폰트 색깔, 본문영역과의 거리 등 제목적합도의 평가에 사용되는 속성중 일부만을 사용하여 제목후보구를 추출하면 본문영역의 다른 문자열들에 비해 그 폰트가 크고, bold 속성을 가진 4개의 제목후보구가 선정된다. Therefore, preferably, the body region within the in based on the location of the text information (220) that the components, primarily in the area of ​​the upper font size, font color, attributes that are used in the evaluation of the distance, such as titles fit of the body region When using only a portion of the extracted candidate for the title that nine large font compared to other text string in the region, the four candidates obtain the title with bold attribute is selected.

이들 후보구 모두에 있어 제목적합도를 산출하는 경우에는 후보구2(232)가 가장 폰트사이즈가 크고 폰트의 색깔이 대비되는 속성을 가지고 있으므로 제목으로 선정될 확률이 크다 할 것이다. These candidate obtain in both case of calculating the goodness of fit, the title candidates obtain 2 232 is the font size is large, because it has a property that the color of the font prepared to be greater the chance that the selected title.

또한, 4개의 후보구들 중 후보구2(232)를 제외한 나머지 3개의 후보구들은 해당 중고차 판매사이트에서의 일정한 템플릿에 따라 표기되는 문자열로서, 다른 문서들에서도 동일한 위치에 동일한 형태로 반복되는 정보에 불과하다. In addition, the four candidate phrases of candidate obtain two other three candidate phrases except 232 is a string that is indicated according to a specific template in the used car sales site, the information to be repeated in the same form in the same position in other documents only. 따라서 제목후보구로부터 이들을 배제하거나. Therefore exclude them from the phrase or title candidates. 제목적합도 산출에 부정적으로 반영함으로써 후보구2(232)가 문서의 제목으로 선정되는 과정이 보다 명확해 질 수 있다. By reflecting negatively on the yield title fit candidate has nine two (232) it may become clearer this process to be selected as the title of the document.

도 3은 본 발명의 실시예에 의하여 본문영역 외에서 제목이 선정된 결과를 예시한 도면이다. Figure 3 is a view showing the result of the outside of the body region by an embodiment of the present invention Title selection.

예시된 웹 문서는 '태리'라는 예명을 가진 가수의 '섹시가이(sexy guy)'제목의 곡에 대한 정보를 보여주는 웹 페이지이다. The web page illustrated is a Web page that shows information about the music of 'Sexy Guy (sexy guy)' with the title of the singer of 'tariffs' maiden names. 상기 페이지에서의 영역의 위치, 영역의 폭 및 그 영역 내에서 링크 속성을 가지지 않는 텍스트의 비율등을 고려하여 보면 본문영역은 영역A(310)로 결정된다. In considering the location of the area in the page, and the width ratio of the text does not have a link attribute in the region of the area body of the area it is determined as a region A (310).

상기 영역A(310)의 내부에서도 '섹시가이(sexy guy)'라는 형태로 그 곡명이나. In the interior of the region A (310) the music name or in the form of "hot Guy (sexy guy) '. '아티스트: 태리'라는 형태로 가수명이 노출되지만, 그 현출되는 형태가 다른 정보를 가진 텍스트에 비하여 현격한 차이를 보이지는 못하는바, 단순히 이들을 대상으로 제목 적합도를 평가하는 경우에는 그 적합도의 차이가 크게 구별되지 않을 수 있다. Artist: tariffs, but the singer is exposed in the form of, and if saliency form that evaluates the titles fit in does not show significant differences bars, simply target people as compared to the text with other information, the difference in fitness large can not be distinguished. 이 경우 본문영역 내에서 그 제목적합도를 산출하는 방식을 최적화하는 것보다는 제목 탐지영역을 본문영역의 상단에 위치하는 영역B(311)이나 영역C(312)가지 확대하여 탐색하는 것이 문제를 해결하는 효율적일 수 있으며, 이 경우 영역B(311)에 게시된 '태리싱글 - 섹시가이(Sexy Guy)'가 제목으로 결정되는 것이 바람작하다. In this case, to search an enlarged region B (311) or the region C (312) of optimizing the manner in which to position the subject detection area than the top of the body region calculating the subject fit within the text area to solve the problem It can be effective in this case published in the region B (311) 'tariffs single - sexy Guy (sexy Guy)' is to be determined by the wind jakhada title.

도 4는 본 발명에 따른 문서 정보추출방법을 구현하기 위한 시스템의 구성도 이다. Figure 4 is a block diagram of a system for implementing the document information extraction method according to the invention.

문서를 파싱하는 문서해석부(410)는 문서를 구성요소별로 속성치를 해석하여 영역구획과 제목적합도를 산정하는 기초 자료를 생성한다. A document analysis section (410) to parse the document analyzes the attribute value for a document by the component and generates a basis for estimating the region defined as the title fit. 또한, html 문서들에서 제목속성 즉, <title>태그 내의 정보를 제목후보구 선정부로 전달하는 역할을 수행한다. In addition, the title attribute in the html document, that is, performs the role of the title nine candidates delivered to the selected information in the <title> tag.

문서구획부(420)는 상기 문서해석부(410)에서 파싱한 결과를 이용하여 소정의 기준에 따라 하나 이상의 영역으로 구획하는 역할을 수행하며, 본문영역 식별부(430)는 각 영역의 위치, 폭 및 링크속성을 가지지 않는 텍스트의 비율에 의하여 해당문서의 본문을 가지고 있다고 생각되는 영역을 선정하는 기능을 수행한다. Article compartment 420, and serves to using the result of parsing in the document analysis unit 410, divided into one or more regions according to a predetermined criterion, the body region identification section 430 are located in respective areas, by the ratio of the width of the text does not have a property and link functions to select the area that you think has the body of the document.

본문내용 식별부(440)는 본문영역 내에서 줄바뀜 위치 등을 기준으로 하여 해당문서에서 중심이 되는 내용을 포함하는 문서의 구성요소를 식별한다. Body information identifying unit 440 on the basis of such line changes position within the body region to identify a component of the document containing the information is centered in the article. 식별된 본문내용은 제목정보를 탐지하는 영역을 제한하는 용도로 사용될 수도 있다. The identified body information may be used for the purpose of limiting the area to detect the subject information. 또한 바람직하게는 문서검색 시스템 등에서 검색결과를 표현함에 있어 그 문서의 내용을 요약한 정보로서 상기본문내용이 제공될 수 있다. Also preferably expressed in the search results, etc. Document retrieval system may be the body of information available information as a summary of the contents of that document.

탐지영역 식별부(450)는 문서전체에서 제목후보구를 추출하여 제목적합도를 산정하는 비효율을 제거하기 위해 일반적으로 제목정보가 노출되는 것이 일반적이라고 생각되는 영역으로 그 탐지영역을 한정하는 과정이다. Identifying the detection area portion 450 is a process of defining the detection area to an area that is thought that it is common for general title information is exposed to remove the inefficiency for estimating subject fit to extract the title candidate phrase in the document.

제목 후보구 선정부(460)는 제목탐지영역 내에서 제목적합도를 평가받을 제목후보구를 선정하는 과정이다. Title nine candidate selection unit 460 is the process of selecting candidates for the title to be evaluated nine titles fit in the title detection area. 계산과정 자체의 부담이 없다면 제목탐지영역 내의 모든 구성요소만을 제목후보구로 고려하는 것이 안정적일 수 있으나, 1차적으로 간단한 몇몇의 속성을 고려하여 제목후보구를 적당한 수로 설정하는 것이 효율적일 수 있다. If the burden of computation itself may be a stable it is to consider only the title candidate phrases all components in the detection subject region, in consideration of some simple properties of the primary may be more efficient to set up a title candidate obtain appropriate channel.

제목정보 식별부(470)는 소정의 기준에 의하여 제목적합도를 산출하고 그를 기준으로 하여 해당 문서의 제목을 선정한다. Title information identification unit 470 calculates the title fit by a predetermined criteria and to him on the basis selects the title of the document. 다만, 경우에 따라서는 최상위의 제목후보구 하나만을 제목으로서 선택할 뿐만 아니라 상위의 제목적합도를 가지는 제목후보구를 병기하여 제목정보를 생성하는 역할을 수행하기도 한다. However, in some cases, by staging a title candidate with the top nine titles it fits as well as choose a title for one of the top candidates obtain the title should also serve to generate the title information.

본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 매체를 포함한다. Embodiments of the invention include a computer-readable medium including program instructions to implement various operations embodied by a computer. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. The media may also include, alone or in combination with the program instructions, data files, data structures, and the like. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. The media may also be well-known and available to those skilled in the art things or computer software is especially designed for the present invention. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 자기-광 매체 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. Examples of computer-readable media include hard disks, such as floppy disks, and magnetic tape media, CD-ROM, optical media such as DVD, magneto-store the program instructions, such as optical media, and ROM, RAM, flash memory, and that it is specially configured hardware devices to perform. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. Examples of program instructions include both machine code, such as produced by a compiler, using an interpreter for a high-level language code that can be executed by a computer.

지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명 의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능하므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구범위뿐만이 아니라 특허청구범위와 균등한 것들에 의해 정해져야 한다. So far has been described with respect to specific embodiments according to the present invention, so that to the extent possible in various modifications depart from the scope of the invention, the scope of the invention limited to the described embodiments jeonghaejyeoseo is should not, patent, which will be described later as well as the claims, it should be defined by what equivalent and the claims.

이상과 같이 한정된 실시예와 도면에 의해 설명하였으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. Although the detailed description and specific examples as described above, the present invention is not limited to the embodiment described above, it is possible that various modifications, additions and substitutions from the chair if such a substrate having ordinary skill in the art to which the invention pertains . 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명사상의 범주에 속한다고 할 것이다. Accordingly, the invention is thought to be identified by the claims set out below and their equivalents modifications will to fall within the scope of the inventive idea.

이상의 설명에서 알 수 있는 바와 같이 본 발명에 따르면 문서에서 사용자가 본문으로 인식할 영역의 위치를 식별할 수 있으며, 본문영역과의 상대적 위치를 기준으로 하여 제목후보구를 선정하고, According to the present invention As can be seen from the above description, and to identify the location of the area to the user and recognized by the body in the document, on the basis of the relative position of the body region, and selecting a title candidate areas,

또한 본 발명에 따르면 유사한 위치정보를 가지는 문서들의 집합에서 반복되어 나타날 뿐 본문을 대표하는 정보를 가지지 못하는 문구들을 제목후보구에서 배제함으로서 웹 문서의 작성자의 의도와는 상관없는 문자열이 웹 문서의 제목으로서 표현되는 것을 차단할 수 있는 효과가 있다. In addition, the title of this intention and is unrelated strings of this, according to the invention by the exclusion of not having the information representing the body as experience is repeated in a set of documents having similar location information phrase in the title candidates obtain a web document creator web document it is capable of blocking to be expressed as the effect.

Claims (18)

  1. 문서로부터 정보를 추출하는 방법에 있어서, A method for extracting information from the document,
    문서를 파싱하는 단계; Steps to parse the document;
    상기 파싱정보를 참조하여 상기 문서를 영역별로 구획하는 단계; The step of dividing each region of the document with reference to the parsed information;
    상기 구획된 각 영역에 대해 상기 문서의 본문영역인지를 식별하는 단계; Identifying whether the text area of ​​the document for each zone, the said section;
    상기 식별된 본문영역의 위치를 기준으로 제목 탐지영역을 설정하는 단계; Setting a detection subject region based on the location of the identified text region; And
    상기 설정된 제목 탐지영역에서 하나 이상의 제목후보구를 선정하는 단계; The step of selecting at least one candidate phrase in the title set titles detection area;
    를 포함하는 것을 특징으로 하는 정보 추출방법. Information extraction comprising the method.
  2. 제 1항에 있어서, 상기 본문영역 식별 단계는, The method of claim 1, wherein the identification step the body region,
    상기 구획된 각 영역에 대해 링크속성을 가지지 않는 텍스트의 비율, 전체문서에서 차지하는 영역의 분량, 영역의 크기 및 영역의 위치정보 중 적어도 하나를 포함하는 소정의 기준에 따라 상기 문서의 본문영역을 식별하는 것을 특징으로 하는 정보 추출방법. Depending on the ratio of having no link attributes for each region of the partition text, the whole document the amount of area occupied by the size and area position information predetermined criteria including at least one of the areas identified by the body region of the article information extraction method characterized in that.
  3. 제 1항에 있어서, 상기 제목 탐지영역을 설정하는 단계는, The method of claim 1, further comprising setting the detection subject region,
    상기 식별된 본문영역 내에서 줄바뀜이 발생하는 위치 및 텍스트의 폭 중 적어도 하나를 포함하는 소정의 기준에 따라 본문내용의 위치를 식별한 후, 식별된 본문내용의 위치를 고려하여 상기 제목 탐지영역을 설정하는 것을 특징으로 하는 정보 추출방법. Considering a location of the one of the line changes occur in the identified text area position and width of the text in accordance with predetermined criteria including at least one identified the location of the text information, and then, the identified text information, the subject detection area information extraction method, characterized in that to set.
  4. 제 1항에 있어서, 상기 제목탐지영역을 설정하는 단계는, The method of claim 1, further comprising setting the detection subject region,
    상기 식별된 본문영역 내부 중 소정의 기준에 의하여 식별된 본문내용의 시작점보다 상위에 존재하는 부분 또는 상기 본문영역의 상부에 위치하는 영역의 내부를 포함하여 상기 제목 탐지영역을 설정하는 것을 특징으로 하는 정보 추출방법. Including inside the area which is located on top of the to of the inside the identified text area is present at a higher level than the starting point of the body of information identified by a predetermined reference part or the body region, characterized in that for setting the subject detection area information extraction method.
  5. 제 1항에 있어서, 상기 제목후보구를 선정하는 단계는, The method of claim 1, wherein the step of selecting the candidate subject will obtain,
    각 후보구가 유사한 위치정보를 가지는 문서들에서 반복되는지 여부를 추가적으로 고려하는 것을 특징으로 하는 정보 추출방법. Information extraction method of whether or not the repeat in each candidate document having similar location information, obtain characterized in that it further consideration.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서, The method according to any one of claims 1 to 5,
    상기 제목후보구의 표현속성 및 문서내용과의 관련도 중 적어도 하나를 포함하는 소정의 기준에 의하여 산출된 제목적합도를 산출하는 단계; Calculating a goodness of fit of the title computed by predetermined criteria including at least one of the degree of relevance with the candidate heading sphere representation attributes and document information; And
    상기 산출된 제목 적합도를 기준으로 상기 문서의 제목을 결정하는 단계; Determining a title of the document, based on the calculated subject fit;
    를 더 포함하는 것을 특징으로 하는 정보 추출방법. Method for extracting information according to claim 1, further comprising.
  7. 제 6항에 있어서, 7. The method of claim 6,
    상기 문서는 마크업 언어로 구성되어 있는 것을 특징으로 하고, The article is characterized in that it is composed of a markup language,
    상기 제목후보구를 선정하는 단계는 상기 문서에서 제목속성이 부여된 메타 정보를 상기 제목후보구의 하나로 추가하는 것을 특징으로 하는 정보 추출방법. The step of selecting said title candidates obtain the information extraction method which comprises adding the meta information, the title attributes assigned to it in the document as one the title candidate phrase.
  8. 제 6항에 있어서, 상기 문서의 제목을 결정하는 단계는, The method of claim 6, wherein the step of determining the subject of the document,
    상기 산출된 제목 적합도가 최대인 제목후보구를 상기 문서의 제목으로 결정하는 것을 특징으로 하는 정보 추출방법. Information extraction method characterized in that the calculated goodness of fit is determined subject to the title of the document up to the title candidate sphere.
  9. 제 6항에 있어서, 상기 문서의 제목을 결정하는 단계는, The method of claim 6, wherein the step of determining the subject of the document,
    상기 산출된 제목 적합도가 상위인 둘 이상의 제목후보구를 병기한 것을 상기 문서의 제목으로 결정하는 것을 특징으로 하는 정보 추출방법. Information extraction method of the subject the calculated goodness of fit is the stage two or more title candidates obtain the top characterized in that to determine the title of the document.
  10. 제 6항에 있어서, 상기 제목적합도를 산출하는 단계는, The method of claim 6, wherein the step of calculating the goodness of fit is subject,
    각 후보구가 유사한 위치정보를 가지는 문서들에서 동일 내지는 유사한 형태로 반복되는지 여부를 추가적으로 고려하는 것을 특징으로 하는 정보추출방법. Extracting information, characterized in that in addition to considering whether the repeat in a similar fashion naejineun same in this article the candidates sphere having similar location information method.
  11. 제 1항 내지 제 5항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체. Any one of claims 1 to 5, wherein any one of the method of claim recorded computer readable program for executing a recording medium.
  12. 제 6항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체. The recording a program for executing the method of claim 6. A computer-readable recording medium.
  13. 제 7항 내지 제 10항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체. Claim 7 through Claim 10, wherein the method of claim of any one of the computer readable recording a program for executing the recording medium.
  14. 웹 상의 문서로부터 정보를 추출하는 시스템에 있어서, A system for extracting information from the document on the Web,
    문서를 파싱하는 문서해석부; Document analysis unit to parse the document;
    상기 파싱정보를 참조하여 상기 문서를 영역별로 구획하는 문서구획부; Document partitions for partitioning the document area by referring to the parsed information;
    상기 구획된 각 영역에 대해 상기 문서의 본문영역인지를 식별하는 본문영역 식별부; For each zone of the compartment body area identification unit for identifying whether the text area of ​​the document;
    상기 식별된 본문영역의 위치를 기준으로 제목 탐지영역을 설정하는 탐지영역 설정부; The position relative to the body of the identified area to set the detection subject region detection area setting unit; And
    상기 설정된 제목 탐지영역에서 하나 이상의 제목후보구를 선정하는 제목후보구 선정부; Subject candidates obtain selector for selecting at least one candidate phrase in the title set titles detection area;
    를 포함하는 것을 특징으로 하는 정보 추출 시스템. Information extraction system comprising: a.
  15. 제 14항에 있어서, 상기 본문영역 식별부는, 15. The method of claim 14, identifying the body regions comprises:
    상기 구획된 각 영역에 대해 링크속성을 가지지 않는 텍스트의 비율, 전체문서에서 차지하는 영역의 분량, 영역의 크기 및 영역의 위치정보 중 적어도 하나를 포함하는 소정의 기준에 따라 상기 문서의 본문영역을 식별하는 것을 특징으로 하는 정보 추출 시스템. Depending on the ratio of having no link attributes for each region of the partition text, the whole document the amount of area occupied by the size and area position information predetermined criteria including at least one of the areas identified by the body region of the article information extraction system, characterized in that a.
  16. 제 14항에 있어서, 상기 탐지영역 설정부는, 15. The method of claim 14, wherein the detection area setting unit,
    상기 식별된 본문영역에서 소정의 기준에 의하여 식별된 본문내용의 시작점보다 상위에 존재하는 부분 또는 상기 본문영역의 상부에 위치하는 영역의 내부를 제목 탐지영역에 포함시키는 것을 특징으로 하는 정보 추출 시스템. Information extraction system, comprising a step of including the inside of the area which is located on top of the in the identified text area portion that exists at a higher level than the starting point of the body of information identified by a predetermined standard or the body region in the subject detection area.
  17. 제 14항에 있어서, 15. The method of claim 14,
    상기 선정된 제목후보구들 중 유사한 도메인 영역에서 반복되는 문구로서 소정의 기준을 만족하는 경우, 해당 문구를 상기 제목후보구에서 배제하는 제목후보구 배제부; If they meet the predetermined criteria as a phrase that is repeated in a similar domain regions from the selected title candidate phrases, candidate it obtains the title exclusion section that excludes the candidate phrase in the title sphere;
    를 더 포함하는 것을 특징으로 하는 정보 추출 시스템. An information extraction system according to claim 1, further comprising.
  18. 제 14항 내지 제 17항 중 어느 한 항에 있어서, A method according to any one of claims 14 to 17,
    상기 제목후보구의 표현속성 및 문서내용과의 관련도 중 적어도 하나를 포함하는 소정의 기준에 의하여 산출된 제목적합도를 산출하는 제목적합도 산출부; The title candidate sphere representation attributes and document-related information, and also at least one title fit calculation unit for calculating the goodness of fit subject calculated by the predetermined standard containing of the; And
    상기 산출된 제목적합도를 기준으로 상기 문서의 제목을 결정하는 제목정보 식별부; Title information identifying unit that determines a title of the document, based on the calculated subject fit;
    를 더 포함하는 것을 특징으로 하는 정보 추출 시스템 Information extraction system that is characterized by further comprising:
KR1020060030795A 2006-04-05 2006-04-05 Document information extraction method and system based on body text identification KR100761912B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060030795A KR100761912B1 (en) 2006-04-05 2006-04-05 Document information extraction method and system based on body text identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060030795A KR100761912B1 (en) 2006-04-05 2006-04-05 Document information extraction method and system based on body text identification

Publications (1)

Publication Number Publication Date
KR100761912B1 true KR100761912B1 (en) 2007-09-28

Family

ID=38738753

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060030795A KR100761912B1 (en) 2006-04-05 2006-04-05 Document information extraction method and system based on body text identification

Country Status (1)

Country Link
KR (1) KR100761912B1 (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010096193A2 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8903759B2 (en) 2004-12-03 2014-12-02 Google Inc. Determining actions involving captured information and electronic content associated with rendered documents
US8953886B2 (en) 2004-12-03 2015-02-10 Google Inc. Method and system for character recognition
US8990235B2 (en) 2009-03-12 2015-03-24 Google Inc. Automatically providing content associated with captured information, such as information captured in real-time
US9030699B2 (en) 2004-04-19 2015-05-12 Google Inc. Association of a portable scanner with input/output and storage devices
US9075779B2 (en) 2009-03-12 2015-07-07 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9268852B2 (en) 2004-02-15 2016-02-23 Google Inc. Search engines and systems with handheld document data capture devices
US9275051B2 (en) 2004-07-19 2016-03-01 Google Inc. Automatic modification of web pages
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9454764B2 (en) 2004-04-01 2016-09-27 Google Inc. Contextual dynamic advertising based upon captured rendered text

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203285A (en) 1998-01-14 1999-07-30 Sanyo Electric Co Ltd Document structure analysis device and its method, and recording medium
KR20010075874A (en) * 2000-01-21 2001-08-11 오길록 Method for analyzing structure of treatise typed of document image
JP2003248690A (en) 2003-02-13 2003-09-05 Fuji Xerox Co Ltd Document processing device and method
JP2005234761A (en) 2004-02-18 2005-09-02 Seiko Epson Corp Title determination device, title determination method and its program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203285A (en) 1998-01-14 1999-07-30 Sanyo Electric Co Ltd Document structure analysis device and its method, and recording medium
KR20010075874A (en) * 2000-01-21 2001-08-11 오길록 Method for analyzing structure of treatise typed of document image
JP2003248690A (en) 2003-02-13 2003-09-05 Fuji Xerox Co Ltd Document processing device and method
JP2005234761A (en) 2004-02-18 2005-09-02 Seiko Epson Corp Title determination device, title determination method and its program

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9268852B2 (en) 2004-02-15 2016-02-23 Google Inc. Search engines and systems with handheld document data capture devices
US9454764B2 (en) 2004-04-01 2016-09-27 Google Inc. Contextual dynamic advertising based upon captured rendered text
US9633013B2 (en) 2004-04-01 2017-04-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9514134B2 (en) 2004-04-01 2016-12-06 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9030699B2 (en) 2004-04-19 2015-05-12 Google Inc. Association of a portable scanner with input/output and storage devices
US9275051B2 (en) 2004-07-19 2016-03-01 Google Inc. Automatic modification of web pages
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8903759B2 (en) 2004-12-03 2014-12-02 Google Inc. Determining actions involving captured information and electronic content associated with rendered documents
US8953886B2 (en) 2004-12-03 2015-02-10 Google Inc. Method and system for character recognition
WO2010096193A2 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
WO2010096193A3 (en) * 2009-02-18 2010-10-28 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US9075779B2 (en) 2009-03-12 2015-07-07 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8990235B2 (en) 2009-03-12 2015-03-24 Google Inc. Automatically providing content associated with captured information, such as information captured in real-time
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images

Similar Documents

Publication Publication Date Title
CN101223526B (en) Scoring local search results based on location prominence
CN103136329B (en) More integrated query revised model
US7480858B2 (en) Analyzing webpages using function-based object models for web page display in a mobile device
US7797622B2 (en) Versatile page number detector
US8122345B2 (en) Function-based object model for use in WebSite adaptation
US8037078B2 (en) Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
JP4974529B2 (en) Method and apparatus for detecting page break element in existing document such as header / footer
US8255386B1 (en) Selection of documents to place in search index
JP4726528B2 (en) Suggested related terms for multisense queries
US8375049B2 (en) Query revision using known highly-ranked queries
US20050131872A1 (en) Query recognizer
US8250053B2 (en) Intelligent enhancement of a search result snippet
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
US8706475B2 (en) Method and apparatus for detecting a table of contents and reference determination
US8341520B2 (en) Method and system for spell checking
Moschitti Kernel methods, syntax and semantics for relational text categorization
CN102725759B (en) Semantic directory for search results
US20070130123A1 (en) Content matching
EP1503300A2 (en) Vision-based document segmentation
US20050222989A1 (en) Results based personalization of advertisements in a search engine
US7599926B2 (en) Reputation information processing program, method, and apparatus
US9009134B2 (en) Named entity recognition in query
JP4637181B2 (en) Display of search results based on the document structure
JP5391633B2 (en) Term recommendation to define the ontology space
CN101542475B (en) System and method for searching and matching data having ideogrammatic content

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20120705

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130626

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140725

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150722

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160817

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170726

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180702

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190819

Year of fee payment: 13