KR20190023218A - Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model - Google Patents

Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model Download PDF

Info

Publication number
KR20190023218A
KR20190023218A KR1020170108618A KR20170108618A KR20190023218A KR 20190023218 A KR20190023218 A KR 20190023218A KR 1020170108618 A KR1020170108618 A KR 1020170108618A KR 20170108618 A KR20170108618 A KR 20170108618A KR 20190023218 A KR20190023218 A KR 20190023218A
Authority
KR
South Korea
Prior art keywords
tag
tags
web document
feature
discrimination model
Prior art date
Application number
KR1020170108618A
Other languages
Korean (ko)
Other versions
KR102003487B1 (en
Inventor
김한준
김소현
Original Assignee
서울시립대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울시립대학교 산학협력단 filed Critical 서울시립대학교 산학협력단
Priority to KR1020170108618A priority Critical patent/KR102003487B1/en
Publication of KR20190023218A publication Critical patent/KR20190023218A/en
Application granted granted Critical
Publication of KR102003487B1 publication Critical patent/KR102003487B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

According to an embodiment of the present invention, provided is an apparatus for providing a body tag discrimination model which comprises: a feature extraction unit, with respect to a plurality of tags included in a tag-based web document, generating feature vectors for each of the plurality of tags configured by extracting at least one feature among a first feature which is information on depths at which each of the plurality of tags located from a top tag of the web document is located, a second feature which is information on the number of lower tags of the plurality of tags, a third feature which is information on the density of a text included in each of the plurality of tags, and a fourth feature which is information on a degree at which the text in each of the plurality of tags includes a text included in a title of the web document; and a model learning unit generating a body tag discrimination model which discriminates a body tag in the web document based on the feature vector through a machine learning algorithm.

Description

본문 태그 판별 모델 제공 장치, 방법 및 본문 태그 판별 모델 적용 장치{APPARATUS AND METHOD FOR PROVIDING BODY TAG RECOGNIZING MODEL, AND APPARATUS FOR APPLYING BODY TAG RECOGNIZING MODEL}[0001] APPARATUS AND METHOD FOR PROVIDING BODY TAG RECOGNIZING MODEL, AND APPARATUS FOR APPLYING BODY TAG RECOGNIZING MODEL [0002]

본 발명은 본문 태그 판별 모델 제공 장치, 방법 및 본문 태그 판별 모델 적용 장치에 관한 것으로서, 보다 자세하게는 태그 기반의 웹문서에서 본문 영역의 텍스트를 포함하는 태그를 판별하는 본문 태그 판별 모델 제공 장치, 방법 및 본문 태그 판별 모델 적용 장치 에 관한 것이다.The present invention relates to an apparatus and method for providing a body tag discrimination model, and more particularly, to a body tag discrimination model providing apparatus and method for discriminating a tag including text in a body region from a tag- And a body tag discrimination model applying device.

최근 소셜 네트워크 서비스, 블로그 등의 인터넷 웹문서에 개시된 정보들을 활용하기 위한 전제 단계로서, 웹문서의 본문 영역의 텍스트를 효율적으로 추출하기 위한 연구가 진행되고 있다. 그러나 웹문서에서 주요 정보를 담고 있는 본문 영역의 텍스트를 추출하는 과정은 고려해야 할 요소가 많다. Recently, as a precondition for utilizing the information disclosed in Internet web documents such as social network services and blogs, studies are being conducted to efficiently extract text in a text area of a web document. However, there are many factors to be considered in the process of extracting the text in the text area containing the main information in the web document.

도 1은 블로그 웹문서의 구성을 나타낸 예시도이다. 도 1에 도시된 바와 같이, 블로그 웹문서는 주요 내용을 담고 있는 본문 영역 이외에 광고 영역, 제목 영역, 부가 정보 영역, 날씨 정보 영역, 위치 정보 영역 등과 같은 텍스트 영역을 포함하고 있기 때문에, 태그 기반으로 작성된 웹문서로부터 본문 영역을 포함하는 본문 태그를 다른 영역의 태그들과 정확하게 구별하여 텍스트를 추출할 수 있어야 한다. 1 is an exemplary view showing a configuration of a blog web document. As shown in FIG. 1, the blog web document includes a text area such as an advertisement area, a title area, a side information area, a weather information area, and a location information area in addition to a main text area containing main contents. It is necessary to be able to extract the text tag from the created web document by correctly distinguishing the body tag including the text region from the tags of other regions.

본 발명의 실시예에서 해결하고자 하는 과제는 특정한 알고리즘에 의해 본문 영역에 해당하는 태그를 판별하는 것이 아니라, 형식이 자유로운 태그 기반 웹문서의 성질에 기반하여 웹문서 그 자체의 특징에 기반하여 본문 영역을 포함하는 태그를 판별하는 기술을 제공하는 것이다. The problem to be solved in the embodiment of the present invention is not to identify a tag corresponding to a text region by a specific algorithm but to search for a text region based on a characteristic of a web document itself based on the property of a tag- And a tag for identifying the tag.

다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are intended to provide further explanation of the invention as claimed.

본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 장치는 태그 기반의 웹문서에 포함된 복수의 태그에 대하여, 상기 웹문서의 최상위 태그로부터 상기 복수의 태그 각각이 위치하는 깊이 정보인 제1 피쳐(feature), 상기 복수의 태그 각각이 가지는 하위 태그의 개수 정보인 제2 피쳐, 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보인 제3 피쳐 및 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보인 제4 피쳐 중 적어도 어느 하나 이상의 피쳐를 추출하여 구성한 피쳐 벡터를 상기 복수의 태그 각각마다 생성하는 피쳐 추출부 및 상기 복수의 태그 각각의 피쳐 벡터를 입력 변수로 하고 상기 복수의 태그 각각이 본문 태그인지 여부를 출력 변수로 하여 기계 학습 알고리즘을 통해 학습된 본문 태그 판별 모델을 생성하는 모델 학습부를 포함한다. The apparatus for providing a text tag discrimination model according to an exemplary embodiment of the present invention includes a plurality of tags included in a tag-based web document, a third feature that is density information of a text included in each of the plurality of tags, and a text included in each of the plurality of tags, A feature extraction unit for generating a feature vector for each of the plurality of tags by extracting at least one or more features of a fourth feature that is information about a degree of inclusion of a text included in a title of a document, As an input variable, and whether or not each of the plurality of tags is a body tag is used as an output variable, Including the model learning unit for generating the discrimination model.

이때 상기 깊이 정보는 상기 웹문서에 포함된 태그를 DOM(document object model) 트리 구조로 나타내었을 때, 상기 복수의 태그 각각으로부터 상기 최상위 태그를 향해 연결된 노드의 개수일 수 있다. In this case, the depth information may be the number of nodes connected from the plurality of tags toward the highest tag when a tag included in the web document is represented by a DOM (document object model) tree structure.

또한 상기 피쳐 추출부는 상기 하위 태그로서 <div>, <span>, <a>, <b>, <br>, <font>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>, <img>, <li>, <ul>, <ol>, <p>, <pre>, <q>, <table>, <tr>, <td> 중 적어도 어느 하나만을 상기 하위 태그의 개수로 집계할 수 있다. Also, the feature extracting unit may extract <div>, <span>, <a>, <b>, <font>, <h1>, <h2>, <h3>, <h4>, and < at least one of <h5>, <h6>, <img>, <li>, <ul>, <ol>, <p>, <pre>, <q>, <table>, <tr> Can be counted as the number of the lower tags.

더하여 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보는 상기 웹문서에 포함된 텍스트의 글자 수에 대한 상기 복수의 태그 각각에 포함된 텍스트의 글자 수의 비율일 수 있다. In addition, the density information of the text included in each of the plurality of tags may be a ratio of the number of characters of the text included in each of the plurality of tags to the number of characters of the text included in the web document.

아울러 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보는 상기 복수의 태그 각각에 포함된 모든 단어 개수에 대한 상기 복수의 태그 각각에 포함된 상기 웹문서의 제목에 포함된 단어 개수일 수 있다. The information about the degree of the text included in each of the plurality of tags including the text included in the title of the web document may include information about the number of words included in each of the plurality of tags, The number of words included in the title of the document.

또한 상기 피쳐 추출부는 복수의 웹문서에 대해 상기 복수의 웹문서 각각으로부터 상기 피쳐 벡터를 생성하고, 상기 모델 학습부는 상기 복수의 웹문서 각각으로부터 생성된 상기 피쳐 벡터를 기초로 상기 복수의 웹문서 각각마다 상기 본문 태그 판별 모델을 생성하며, 상기 장치는 상기 복수의 웹문서 각각마다 생성된 상기 본문 태그 판별 모델에 앙상블 알고리즘을 적용하여 소정의 웹문서가 포함하는 태그가 본문 태그에 해당할 확률을 출력하는 앙상블부를 더 포함할 수 있다. The feature extraction unit may generate the feature vector from each of the plurality of web documents with respect to a plurality of web documents, and the model learning unit may classify each of the plurality of web documents based on the feature vector generated from each of the plurality of web documents. The apparatus applies an ensemble algorithm to the body tag discrimination model generated for each of the plurality of web documents to output a probability that a tag included in a predetermined web document corresponds to a body tag And an ensemble portion.

이때 상기 앙상블부는 상기 소정의 웹문서가 포함하는 태그에 대해 상기 복수의 웹문서 각각으로부터 생성된 상기 본문 태그 판별 모델이 판별한 확률의 평균을 상기 확률로 출력할 수 있다. At this time, the ensemble unit may output an average of the probabilities determined by the body tag discrimination model generated from each of the plurality of web documents with respect to a tag included in the predetermined web document, with the probability.

본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 장치로부터 생성된 상기 본문 태그 판별 모델을 이용하는 본문 태그 판별 모델 적용 장치는 태그 기반의 웹문서를 입력 받아 상기 입력 받은 웹문서에 포함된 각각의 태그가 상기 본문 태그에 해당할 확률을 산출하는 상기 본문 태그 판별 모델 및 상기 산출된 확률이 높은 k 개(k는 1 이상의 자연수)의 태그 중 상기 깊이 정보가 가장 큰 태그를 상기 본문 태그로 판별하는 판별부를 포함한다. 이때 상기 k는 4이상 6이하의 자연수일 수 있다. The apparatus for applying a body tag discrimination model using the body tag discrimination model generated from the body tag discrimination model providing apparatus according to an embodiment of the present invention receives a tag-based web document and receives each tag included in the input web document (K is a natural number greater than or equal to 1) having a high probability is determined to be the body tag by using the body tag, . Here, k may be a natural number of 4 or more and 6 or less.

본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 방법은 태그 기반의 웹문서에 포함된 복수의 태그에 대하여, 상기 웹문서의 최상위 태그로부터 상기 복수의 태그 각각이 위치하는 깊이 정보인 제1 피쳐(feature), 상기 복수의 태그 각각이 가지는 하위 태그의 개수 정보인 제2 피쳐, 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보인 제3 피쳐 및 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보인 제4 피쳐 중 적어도 어느 하나 이상의 피쳐를 추출하여 구성한 피쳐 벡터를 상기 복수의 태그 각각마다 생성하는 단계 및 상기 복수의 태그 각각의 피쳐 벡터를 입력 변수로 하고 상기 복수의 태그 각각이 본문 태그인지 여부를 출력 변수로 하여 기계 학습 알고리즘을 통해 학습된 본문 태그 판별 모델을 생성하는 단계를 포함한다. A method for providing a text tag discrimination model according to an exemplary embodiment of the present invention is a method for providing a text tag discrimination model according to an embodiment of the present invention for a plurality of tags included in a tag based web document, a third feature that is density information of a text included in each of the plurality of tags, and a text included in each of the plurality of tags, Generating a feature vector for each of the plurality of tags by extracting at least one or more features of a fourth feature that is information about a degree of inclusion of a text included in a title of a document; And determines whether or not each of the plurality of tags is a body tag as an output variable, And a step of generating a model.

본 발명의 실시예에 따르면, 웹문서의 성질을 잘 반영할 수 있는 태그의 깊이 정보, 하위 태그 개수, 텍스트 밀도, 본문 제목과의 연관성 등으로 구성된 피쳐 벡터를 기초로 학습된 기계 학습 모델을 이용하여 본문 영역을 포함하는 태그를 효율적으로 판별할 수 있다. According to an embodiment of the present invention, a learned machine learning model is used based on a feature vector composed of depth information of a tag, a number of sub-tags, a text density, and a title of a text, The tag including the text area can be efficiently identified.

도 1은 블로그 웹문서의 구성을 나타낸 예시도이다.
도 2는 본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 장치 및 본문 태그 판별 모델 적용 장치의 기능 블럭도이다.
도 3은 본 발명의 일 실시예에 따른 각 태그로부터 생성된 피쳐 벡터의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 웹문서에 포함된 태그를 트리 구조로 나타낸 예시도이다.
도 5는 본 발명의 일 실시예에 따른 기법과 기존 기법을 비교한 실험 결과를 나타내는 그래프이다.
도 6은 본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 방법의 단계를 도시하는 흐름도이다.
1 is an exemplary view showing a configuration of a blog web document.
FIG. 2 is a functional block diagram of a body tag discrimination model providing apparatus and a body tag discrimination model applying apparatus according to an embodiment of the present invention.
3 is an illustration of a feature vector generated from each tag in accordance with an embodiment of the present invention.
4 is a diagram illustrating a tree structure of tags included in a web document according to an exemplary embodiment of the present invention.
5 is a graph illustrating experimental results comparing a technique according to an embodiment of the present invention with an existing technique.
6 is a flowchart illustrating steps of a method of providing a body tag discrimination model according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.  그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. It should be understood, however, that the invention is not limited to the disclosed embodiments, but may be embodied in various forms and should not be construed as limited to the embodiments set forth herein, To fully disclose the scope of the invention to a person skilled in the art, and the scope of the invention is only defined by the claims.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다.  그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.  그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing embodiments of the present invention, a detailed description of well-known functions or constructions will be omitted unless otherwise described in order to describe embodiments of the present invention. The following terms are defined in consideration of the functions in the embodiments of the present invention, which may vary depending on the intention of the user, the intention or the custom of the operator. Therefore, the definition should be based on the contents throughout this specification.

도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.The functional blocks shown in the drawings and described below are merely examples of possible implementations. In other implementations, other functional blocks may be used without departing from the spirit and scope of the following detailed description. Also, while one or more functional blocks of the present invention are represented as discrete blocks, one or more of the functional blocks of the present invention may be a combination of various hardware and software configurations that perform the same function.

또한 어떤 구성 요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성 요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성 요소들을 배제하는 것으로 이해되어서는 안 된다.Also, to the extent that the inclusion of certain elements is merely an indication of the presence of that element as an open-ended expression, it should not be understood as excluding any additional elements.

나아가 어떤 구성 요소가 다른 구성 요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성 요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다. Further, when a component is referred to as being connected or connected to another component, it may be directly connected or connected to the other component, but it should be understood that there may be other components in between.

또한 '제1, 제2' 등과 같은 표현은 복수의 구성들을 구분하기 위한 용도로만 사용된 표현으로써, 구성들 사이의 순서나 기타 특징들을 한정하지 않는다. Also, the expressions such as 'first, second', etc. are used only to distinguish a plurality of configurations, and do not limit the order or other features between configurations.

이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다. Hereinafter, embodiments of the present invention will be described with reference to the drawings.

도 2는 본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 장치(100) 및 본문 태그 판별 모델 적용 장치(200)의 기능 블럭도이다.FIG. 2 is a functional block diagram of an apparatus 100 for providing a body tag discrimination model and an apparatus 200 for applying a body tag discrimination model according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 일 실시예에 따른 본문 태그 판별 모델 제공 장치(100)는 피쳐 추출부(110) 및 모델 학습부(120)를 포함한다. 또한 일 실시예에 따른 본문 태그 판별 모델 제공 장치(100)는 앙상블부(130)를 더 포함할 수 있다. Referring to FIG. 2, an apparatus 100 for providing a text tag discrimination model according to an embodiment of the present invention includes a feature extraction unit 110 and a model learning unit 120. In addition, the body tag discrimination model providing apparatus 100 according to an embodiment may further include an ensemble unit 130.

본문 태그란 태그 기반 언어로 작성된 웹문서에서 본문 텍스트를 포함하는 태그를 의미한다. 태그 기반 언어는 HTML, XML 등이 있으나 이에 한정되지 않는다. 이때 본문은 웹문서를 작성한 작성자의 의도 및 목적이 담겨있는 텍스트를 의미한다. 예를 들면, 웹문서의 작성자는 정보 전달, 일상 생활 기록 등의 의도가 있어 텍스트를 작성할 수 있다. 이와 반대로, 작성자의 의도 및 목적을 포함하지 않는 광고 문구, 링크된 날씨 정보, 위치 정보 등의 텍스트는 본문을 의미하지 않는다. A body tag refers to a tag that includes body text in a web document written in a tag-based language. Tag-based languages include, but are not limited to, HTML, XML, and the like. At this time, the text means text containing the intention and purpose of the creator of the web document. For example, a creator of a web document can create text with the intention of transmitting information, everyday life, and the like. Conversely, text such as ad text that does not include the author's intent and purpose, linked weather information, and location information does not mean the text.

한편, 하나의 웹문서는 복수의 태그를 포함할 수 있다. 이때 하나의 웹문서에서 본문을 포함하는 텍스트는 하나 이상이기 때문에, 하나의 웹문서에 포함된 복수의 태그를 기계 학습 알고리즘의 학습 데이터로 사용하여 하나의 기계 학습 모델을 생성할 수 있다. On the other hand, one web document may include a plurality of tags. At this time, since there is at least one text including the text in one web document, a single machine learning model can be generated by using a plurality of tags included in one web document as learning data of the machine learning algorithm.

이를 위해, 피쳐 추출부(110)는 기계 학습의 학습 데이터로 사용될 웹문서가 포함하는 각각의 태그로부터 기계 학습에 이용될 피쳐(feature)를 각 태그마다 추출하여 피쳐 벡터(feature vector)를 생성한다. To this end, the feature extraction unit 110 extracts, for each tag, features to be used for machine learning from each tag included in the web document to be used as learning data of the machine learning to generate a feature vector .

도 3은 본 발명의 일 실시예에 따른 각 태그로부터 생성된 피쳐 벡터의 예시도이다. 3 is an illustration of a feature vector generated from each tag in accordance with an embodiment of the present invention.

도 3에 도시된 바와 같이, 피쳐 추출부(110)는 웹문서에 포함된 각 태그의 깊이 정보, 각 태그의 하위 태그 개수, 각 태그 내의 텍스트 밀도, 각 태그 내 텍스트의 본문 제목과의 연관성 중 적어도 하나를 피쳐 벡터의 피쳐로서 구성할 수 있고, 이때 각 태그는 학습 데이터로 사용되는 데이터이므로 각 태그가 본문 태그에 해당하는지 여부(도 3, Y/N)가 매핑되어 있을 수 있다. 이에, 위에 열거된 피쳐들을 하나씩 설명하기로 한다.  3, the feature extracting unit 110 extracts the depth information of each tag included in the web document, the number of sub-tags of each tag, the text density in each tag, and the relation between the text title of the text in each tag At least one may be configured as a feature of the feature vector. Since each tag is data used as learning data, it may be mapped to whether each tag corresponds to a main tag (FIG. 3, Y / N). The features listed above will be described one by one.

우선, 피쳐 추출부(110)는 웹문서에 포함된 각각의 태그에 대하여, 웹문서의 최상위 태그로부터 각 태그가 위치하는 깊이 정보를 피쳐 벡터의 제1 피쳐로 구성할 수 있다. 깊이 정보란 웹문서 태그의 상하위 포함관계에 따라 특정 태그가 최상위 태그로부터 종속된 정도를 의미한다.First, the feature extraction unit 110 may configure the depth information of each tag included in the web document, from the top tag of the web document, as the first feature of the feature vector. The depth information indicates the degree to which a specific tag is dependent on the top-most tag according to the inclusion relation of the web document tag.

도 4는 본 발명의 일 실시예에 따른 웹문서에 포함된 태그를 트리 구조로 나타낸 예시도이다. 4 is a diagram illustrating a tree structure of tags included in a web document according to an exemplary embodiment of the present invention.

도 4를 참조하면, 웹문서를 구성하는 태그들은 서로 상하위 관계가 존재한다. 예를 들면, <body> 태그는 <h1> 태그의 상위 태그이고, <h1> 태그는 <body> 태그에 포함되어 있다. 깊이 정보를 보다 쉽게 표현하기 위해 각 태그들의 상하위 관계를 트리 구조로 표현하면 도 4의 아래 부분과 같다. 이러한 트리 구조는 기존에 알려져 있는 DOM(document object model) 트리 구조 변환을 통해 나타낼 수 있다. Referring to FIG. 4, the tags constituting the web document exist in a top-bottom relation with each other. For example, the <body> tag is the parent tag of the <h1> tag, and the <h1> tag is contained in the <body> tag. In order to more easily represent the depth information, the upper and lower relationships of the respective tags are represented by a tree structure as shown in the lower part of FIG. Such a tree structure can be represented through a DOM (document object model) tree structure transformation known in the art.

이때 도 4의 최상위 태그인 <body> 태그의 깊이 정보를 '0'으로 정의하면, <div(article)> 태그는 최상위 태그인 <body> 태그의 직접적인 하위 노드로서 종속되어 있으므로 깊이 정보를 '1'로 정의할 수 있다. 또한 <a> 태그는 최상위 태그인 <body> 태그로부터 <div(article)> 태그를 거쳐 종속되어 있으므로 <a> 태그의 깊이 정보를 '2'로 정의할 수 있다. 더불어 <p> 태그는 최상위 태그인 <body> 태그로부터 <div(article)> 태그 및 <div(content)> 태그를 거쳐 종속되어 있으므로 깊이 정보를 '3'으로 정의할 수 있다. In this case, if the depth information of the <body> tag, which is the top tag of FIG. 4, is defined as '0', the <div (article)> tag is subordinate to the top- '. In addition, since the <a> tag is dependent on the top-level <body> tag through the <div (article)> tag, the depth information of the <a> tag can be defined as '2'. In addition, the <p> tag can be defined as '3' because the <top> tag is dependent on the <body> tag through the <div (article)> tag and the <div (content)> tag.

또한 피쳐 추출부(110)는 웹문서의 각 태그가 가지는 하위 태그의 개수를 피쳐 벡터의 제2 피쳐로 구성할 수 있다. 하위 태그는 특정 태그에 포함 또는 종속되어 있는 태그를 의미한다. 예를 들어, 도 4에서 <div(article)> 태그의 하위 태그는 <div(content)>, <a>, <a>, <a>, <p> 이므로 <div(article)> 태그의 하위 태그 개수는 5개이다. In addition, the feature extraction unit 110 may configure the number of sub-tags of each tag of the web document to be a second feature of the feature vector. A sub-tag is a tag included in or dependent on a specific tag. For example, in FIG. 4, since the subtags of the <div (article)> tag are <div (content)>, <a>, <a>, <a>, <p> The number of tags is five.

이때 피쳐 추출부(110)는 하위 태그로서 <div>, <span>, <a>, <b>, <br>, <font>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>, <img>, <li>, <ul>, <ol>, <p>, <pre>, <q>, <table>, <tr>, <td> 중 적어도 어느 하나의 태그만을 하위 태그의 개수로 집계할 수 있다. 앞에 열거된 태그들은 블로그 HTML에서 주로 사용되는 태그로서 모든 태그를 집계하는 것에 비해 본문 태그를 탐지할 효율이 높기 때문이다. Here, the feature extraction unit 110 extracts <div>, <span>, <a>, <b>,?, <Font>, <h1>, <h2>, <h3>, and <h4> at least one of <h5>, <h6>, <img>, <li>, <ul>, <ol>, <p>, <pre>, <q>, <table>, <tr> Only one of the tags can be counted as the number of the lower tag. The tags listed above are mainly used in blog HTML, because they are more efficient at detecting the body tags than aggregating all the tags.

따라서 위에 열거된 태그들만 하위 태그로 집계하는 경우에, 도 4에서 <div(article)> 태그의 하위 태그는 <div(content)>, <a>, <a>, <a>, <p> 로서, <div(article)> 태그의 하위 태그들은 앞서 열거된 태그의 목록 중 <div>, <a>, <p>에 속하므로 그 개수를 5개로 집계할 수 있다.Thus, in FIG. 4, the subtags of the <div (article)> tag are <div (content)>, <a>, <a>, <a>, <p> , And the subtags of the <div (article)> tag belong to <div>, <a>, <p> among the list of the tags listed above, so that the number can be counted as five.

더불어 피쳐 추출부(110)는 웹문서의 각 태그 내에 포함된 텍스트의 밀도를 피쳐 벡터의 제3 피쳐로 구성할 수 있다. 여기서, 텍스트의 밀도는 웹문서에 포함된 전체 텍스트의 글자 수에 대한 각 태그에 포함된 텍스트의 글자 수의 비율로 정의할 수 있다. 일반적으로 웹문서의 본문 태그의 영역은 광고, 메뉴, 댓글에 해당하는 태그의 영역보다 많은 글자 수의 텍스트를 가지고 있기 때문에 각 태그가 포함하는 텍스트의 밀도를 본문 태그를 판별하기 위한 피쳐로서 사용할 수 있다. In addition, the feature extraction unit 110 may configure the density of the text included in each tag of the web document with a third feature of the feature vector. Here, the density of the text can be defined as a ratio of the number of characters of the text included in each tag to the number of characters of the entire text included in the web document. Generally, since the area of the body tag of a web document has a larger number of texts than the area of the tag corresponding to the advertisement, menu, and comment, the density of the text included in each tag can be used as a feature for determining the body tag have.

아울러 피쳐 추출부(110)는 웹문서의 각 태그가 포함하는 텍스트와 웹문서 제목과의 연관성을 피쳐 벡터의 제4 피쳐로 구성할 수 있다. 여기서, 태그가 포함하는 텍스트와 웹문서 제목과의 연관성은 각 태그가 포함하는 텍스트가 웹문서 제목의 텍스트를 포함하는 비율로 정의할 수 있다. In addition, the feature extraction unit 110 may associate the text included in each tag of the web document with the title of the web document with a fourth feature of the feature vector. Here, the association between the text included in the tag and the title of the web document can be defined as a ratio that the text included in each tag includes the text of the title of the web document.

예를 들어, 이러한 비율은 각 태그 내에 포함된 단어 개수에 대한 위 단어 중 웹문서의 제목에 포함된 단어의 개수의 비율을 통해 연관성을 구할 수 있다. 가령, 웹문서의 제목이 "본문 태그 탐색 방법"이고, 특정 태그 내에 "웹문서에서 본문 태그를 찾는 방법을 소개합니다"라는 텍스트가 포함된 경우, 특정 태그가 포함하는 단어는 '웹문서', '본문', '태그', '방법', '소개'이고, 이 중 웹문서의 제목에 포함된 단어와 일치하는 단어는 '본문', '태그', '방법'이므로, 해당 태그에 웹문서 제목과의 연관성 점수를 3/5=0.6으로 부여할 수 있다. 이처럼 본문 내용은 웹문서의 제목에 포함된 텍스트를 포함할 가능성이 높으므로 각 태그가 웹문서 제목에 포함된 텍스트를 포함하는 정도를 본문 태그를 판별하기 위한 피쳐로서 사용할 수 있다. For example, this ratio can be determined by the ratio of the number of words included in the title of the web document among the above words to the number of words included in each tag. For example, if the title of your web document is "How to navigate the body tags" and the specific text contains the text "Introduce how to find body tags in web documents" , 'Tag', 'Method', and 'Word', 'Tag', 'Method', and 'Introduction' The relevance score to the title can be given as 3/5 = 0.6. As the content of the text is likely to include the text contained in the title of the web document, the degree to which each tag includes the text contained in the title of the web document can be used as a feature for determining the body tag.

모델 학습부(120)는 웹문서로부터 피쳐 추출부(110)가 생성한 피쳐 벡터를 기초로 기계 학습 알고리즘을 통하여 웹문서 내의 본문 태그를 판별하는 본문 태그 판별 모델(210)을 생성한다. The model learning unit 120 generates a body tag discrimination model 210 for discriminating a body tag in a web document through a machine learning algorithm based on a feature vector generated by the feature extraction unit 110 from a web document.

이를 위해, 모델 학습부(120)는 웹문서가 포함하는 각각의 태그로부터 생성된 피쳐 벡터를 기계 학습의 입력 변수로 설정하고, 각각의 태그가 본문 태그인지 여부를 기계 학습의 출력 변수로 설정한 후, 학습을 통하여 본문 태그 판별 모델을 생성할 수 있다. 이를 테면, 모델 학습부(120)는 기계 학습 알고리즘 중 로지스틱 회귀 알고리즘을 통하여 본문 태그 판별 모델(210)을 생성시킬 수 있으나, 사용할 수 있는 기계 학습 알고리즘이 어떠한 하나로 한정되는 것은 아니다. To this end, the model learning unit 120 sets the feature vector generated from each tag included in the web document as an input variable of the machine learning, and sets whether each tag is a body tag as an output variable of the machine learning Then, the body tag discrimination model can be generated through learning. For example, the model learning unit 120 may generate the body tag discrimination model 210 through a logistic regression algorithm among the machine learning algorithms, but the machine learning algorithm that can be used is not limited to any one.

또한 일 실시예에 따르면, 본문 태그 판별 모델 제공 장치(100)는 복수의 웹문서 각각에 대해 복수의 본문 태그 판별 모델(210)을 생성할 수 있다. 이를 위해, 피쳐 추출부(110)는 복수의 웹문서 각각으로부터 피쳐 벡터를 생성하고, 모델 학습부(120)는 복수의 웹문서 각각으로부터 생성된 피쳐 벡터를 기초로 복수의 웹문서 각각마다 본문 태그 판별 모델(210)을 생성할 수 있다. According to an embodiment, the body tag discrimination model providing apparatus 100 can generate a plurality of body tag discrimination models 210 for each of a plurality of web documents. For this purpose, the feature extraction unit 110 generates feature vectors from each of the plurality of web documents, and the model learning unit 120 generates a feature vector for each of the plurality of web documents based on the feature vector generated from each of the plurality of web documents. The discrimination model 210 can be generated.

이때 본 실시예는 복수의 웹문서 각각으로부터 생성된 본문 태그 판별 모델(210)에 앙상블 알고리즘을 적용하여 소정의 웹문서가 포함하는 태그가 본문 태그에 해당할 확률을 출력하는 앙상블부를 더 포함할 수 있다. At this time, the embodiment may further include an ensemble unit for outputting a probability that a tag included in a predetermined web document corresponds to a main tag by applying an ensemble algorithm to the main tag determination model 210 generated from each of the plurality of web documents have.

앙상블부(130)는 복수의 본문 태그 판별 모델(210)이 도출한 확률을 평균하거나, 복수의 본문 태그 판별 모델(210) 중 가장 성능이 좋은 모델을 선별하여 특정 웹문서가 포함하는 태그가 본문 태그일 확률을 하나의 모델을 사용하는 것에 비해 보다 정확하게 도출할 수 있다. 그러나 사용할 수 있는 앙상블 알고리즘은 앞에 기재한 예시에 한정되지 않으며 다양한 앙상블 알고리즘을 적용할 수 있다. The ensemble unit 130 averages the probabilities derived by the plurality of body tag discrimination models 210 or selects the model having the best performance among the plurality of body tag discrimination models 210, Tag probability can be derived more accurately than using one model. However, the available ensemble algorithm is not limited to the example described above, and various ensemble algorithms can be applied.

한편 다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 본문 태그 판별 모델 적용 장치(200)는 본문 태그 판별 모델(210) 및 판별부(220)를 포함한다. 2, an apparatus 200 for applying a body tag discrimination model according to an exemplary embodiment of the present invention includes a body tag discrimination model 210 and a discrimination unit 220. Referring to FIG.

본문 태그 판별 모델(210)은 본 발명의 일 실시예에 따른 본문 태그 판별 모델 적용 장치(200)가 생성한 기계 학습 모델이다. 본문 태그 판별 모델(210)은 태그 기반의 웹문서를 입력 받아 웹문서에 포함된 각 태그가 본문 태그에 해당할 확률을 산출할 수 있다. 이때 본문 태그 판별 모델(210)은 앞선 실시예에서 상술한 방법에 따라 웹문서의 각 태그의 깊이 정보를 같이 산출할 수 있다. The body tag discrimination model 210 is a machine learning model generated by the body tag discrimination model applying apparatus 200 according to an embodiment of the present invention. The body tag discrimination model 210 can receive the tag-based web document and calculate the probability that each tag included in the web document corresponds to the body tag. At this time, the body tag discrimination model 210 can calculate the depth information of each tag of the web document according to the above-described method in the previous embodiment.

판별부(220)는 웹문서의 태그 중 본문 태그일 확률이 높은 순서로 선별된 k 개(k는 1 이상의 자연수)의 태그 중에서 깊이 정보가 가장 큰 태그를 본문 태그로 판별할 수 있다. 예를 들어, 도 2에 도시된 바와 같이 본문 태그 판별 모델(210)에 의해 본문 태그일 확률이 높은 순서로 선별된 k 개의 태그 중 깊이 정보는 tag2가 가장 크므로 판별부(220)는 tag2를 본문 태그로 판별할 수 있다. 이때 k 값을 어느 범위로 두느냐가 산출의 정확성에 큰 영향을 미침을 실험으로 확인할 수 있었고 그 실험 결과는 도 5와 같다. The discrimination unit 220 can discriminate, among the tags of the web document, the tag having the largest depth information among the k tags (k is a natural number of 1 or more) selected in descending order of the probability of the main tag to be the main tag. For example, as shown in FIG. 2, among the k tags selected by the body tag discrimination model 210 in the order of the probability that the body tags are highly likely, tag2 is the largest in depth information, and the discriminator 220 determines tag2 It can be distinguished by the body tag. In this case, it can be confirmed from the experiment that the range of the k value greatly influences the accuracy of the calculation, and the experimental result is as shown in FIG.

도 5는 본 발명의 일 실시예에 따른 기법과 기존 기법을 비교한 실험 결과를 나타내는 그래프이다. 도 5의 실험은 아래 [표 1]에 따른 데이터를 통해 학습 및 테스트가 진행되었고, 각 기계 학습 모델이 산출한 k 개의 후보 중 깊이 정보가 가장 큰 태그를 본문 태그로 선별하여 그 정확성을 통계적으로 분석하였다. 5 is a graph illustrating experimental results comparing a technique according to an embodiment of the present invention with an existing technique. The experiment shown in FIG. 5 was performed through data according to Table 1, and the tag having the largest depth information among the k candidates calculated by each machine learning model was selected as the body tag, and the accuracy thereof was statistically Respectively.

Figure pat00001
Figure pat00001

이때 도 5의 기존기법 1은 "Kohlschutter, Christian, Peter Fankhauser, and Wolfgang Nejdl, "Boilerplate detection using shallow text features"Procedings of the Third ACM International Conference on Web Search and Data Mining, pp.441-450, 2010."에 따른 본문 태그 검출 기법을 사용하였고, 기존기법 2는 "Tomaz K, Evaluating Text Extraction Algorithms [Internet], http://tomazkovacic.com/blog/"의 본문 태그 검출 기법을 사용하였다. In this case, the existing technique 1 of FIG. 5 is described in "Kohlschutter, Christian, Peter Fankhauser, and Wolfgang Nejdl," Boilerplate detection using shallow text features ", Proceedings of the Third ACM International Conference on Web Search and Data Mining, pp.441-450, 2010. "And the existing method 2 uses the body tag detection technique of" Tomaz K, Evaluating Text Extraction Algorithms [Internet], http://tomazkovacic.com/blog/ ".

도 5를 참조하면, 본 발명의 일 실시예에 따른 제안 기법이 기존기법 1, 2에 비해 성능이 우수함을 확인할 수 있었고, 본문 태그 판별 모델 적용 장치(200)의 k 값이 4 이상 6이하인 범위에서 큰 임계적 의의가 있음을 확인할 수 있었다. Referring to FIG. 5, it can be confirmed that the proposed method according to an embodiment of the present invention is superior in performance to the conventional methods 1 and 2. In a case where the k value of the body tag discrimination model applying apparatus 200 is in a range of 4 to 6 It can be seen that there is a big critical significance.

상술한 본 발명의 실시예에 따르면, 웹문서의 성질을 잘 반영할 수 있는 태그의 깊이 정보, 하위 태그 개수, 텍스트 밀도, 본문 제목과의 연관성 등으로 구성된 피쳐 벡터를 기초로 학습된 기계 학습 모델을 이용하여 본문 영역에 해당하는 태그를 효율적으로 판별할 수 있게 한다. According to the embodiment of the present invention described above, the learned machine learning model based on the feature vector including the depth information of tags, the number of sub-tags, the text density, So that the tag corresponding to the text area can be efficiently discriminated.

한편 상술한 실시예가 포함하는 피쳐 추출부(110), 모델 학습부(120), 앙상블부(130), 본문 태그 판별 모델(210) 및 판별부(220)는 이들의 기능을 수행하도록 프로그램된 명령어를 포함하는 메모리, 및 이들 명령어를 수행하는 마이크로프로세서를 포함하는 연산 장치에 의해 구현될 수 있다. Meanwhile, the feature extraction unit 110, the model learning unit 120, the ensemble unit 130, the body tag determination model 210, and the determination unit 220 included in the above- And a microprocessor for carrying out these instructions.

도 6은 본 발명의 일 실시예에 따른 본문 태그 판별 모델(210) 제공 방법의 단계를 도시하는 흐름도이다. 도 6에 따른 본문 태그 판별 모델(210) 제공 방법의 각 단계는 도 2를 통해 설명된 본문 태그 판별 모델(210) 제공에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.FIG. 6 is a flowchart illustrating steps of a method of providing a body tag discrimination model 210 according to an embodiment of the present invention. Each step of the method of providing the text tag discrimination model 210 according to FIG. 6 can be performed by providing the text tag discrimination model 210 described with reference to FIG. 2, and each step will be described below.

우선, 피쳐 추출부(110)는 웹문서에 포함된 각각의 태그에 대하여, 웹문서의 각 태그가 최상위 태그로부터 위치하는 깊이 정보를 제1 피쳐로, 각 태그가 소정의 태그를 자식 태그로 가지는 개수를 피쳐 벡터의 제2 피쳐로, 각 태그 내에 포함된 텍스트의 밀도를 피쳐 벡터의 제3 피쳐로, 각 태그 내에 포함된 텍스트가 웹문서의 제목에 포함된 텍스트를 포함하는 정도를 피쳐 벡터의 제4 피쳐로 구성된 피쳐 벡터를 생성할 수 있다(S610). 이후, 모델 학습부(120)는 피쳐 벡터를 기초로 웹문서 내의 본문 태그를 판별하는 기계 학습 모델인 본문 태그 판별 모델(210)을 생성할 수 있다(S620). 한편, 상술한 각 단계의 주체인 구성 요소들이 해당 단계를 실시하기 위한 과정은 도 2와 함께 설명하였으므로 중복된 설명은 생략한다. First, the feature extraction unit 110 extracts, for each tag included in the web document, the depth information in which each tag of the web document is located from the highest tag as a first feature, and each tag has a predetermined tag as a child tag The second feature of the feature vector, the density of the text contained in each tag as the third feature of the feature vector, and the degree to which the text contained within each tag includes the text contained in the title of the web document, A feature vector composed of a fourth feature may be generated (S610). Thereafter, the model learning unit 120 may generate a body tag discrimination model 210, which is a machine learning model for discriminating a body tag in the web document based on the feature vector (S620). In the meantime, the process of performing the corresponding step of the constituent elements of the above-described steps has been described with reference to FIG. 2, so that redundant description is omitted.

상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.The above-described embodiments of the present invention can be implemented by various means. For example, embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.In the case of hardware implementation, the method according to embodiments of the present invention may be implemented in one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs) , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers, microprocessors, and the like.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드 등이 기록된 컴퓨터 프로그램은 컴퓨터 판독 가능 기록 매체 또는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.In the case of an implementation by firmware or software, the method according to embodiments of the present invention may be implemented in the form of a module, a procedure or a function for performing the functions or operations described above. A computer program recorded with a software code or the like may be stored in a computer-readable recording medium or a memory unit and may be driven by a processor. The memory unit is located inside or outside the processor, and can exchange data with the processor by various known means.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Thus, those skilled in the art will appreciate that the present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the embodiments described above are to be considered in all respects only as illustrative and not restrictive. It is intended that the present invention covers the modifications and variations of this invention provided they come within the scope of the appended claims and their equivalents. .

100: 본문 태그 판별 모델 제공 장치
110: 피쳐 추출부
120: 모델 학습부
130: 앙상블부
200: 본문 태그 판별 모델 적용 장치
210: 본문 태그 판별 모델
220: 판별부
100: Body tag discrimination model providing device
110:
120: Model learning unit
130: Ensemble Department
200: Body tag discrimination model application device
210: Body tag discrimination model
220:

Claims (12)

태그 기반의 웹문서에 포함된 복수의 태그에 대하여, 상기 웹문서의 최상위 태그로부터 상기 복수의 태그 각각이 위치하는 깊이 정보인 제1 피쳐(feature), 상기 복수의 태그 각각이 가지는 하위 태그의 개수 정보인 제2 피쳐, 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보인 제3 피쳐 및 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보인 제4 피쳐 중 적어도 어느 하나 이상의 피쳐를 추출하여 구성한 피쳐 벡터를 상기 복수의 태그 각각마다 생성하는 피쳐 추출부; 및
상기 복수의 태그 각각의 피쳐 벡터를 입력 변수로 하고 상기 복수의 태그 각각이 본문 태그인지 여부를 출력 변수로 하여 기계 학습 알고리즘을 통해 학습된 본문 태그 판별 모델을 생성하는 모델 학습부를 포함하는
본문 태그 판별 모델 제공 장치.
A plurality of tags included in a tag-based web document, a first feature being depth information on which each of the plurality of tags is located from a top tag of the web document, a number of sub- Which is information on a degree that a text included in each of the plurality of tags includes a text included in a title of the web document, and a third feature that is density information of text contained in each of the plurality of tags, A feature extractor for extracting at least one of a plurality of features from the plurality of tags, and generating a feature vector for each of the plurality of tags; And
And a model learning unit that generates a body tag discrimination model learned through a machine learning algorithm using an input variable of the feature vector of each of the plurality of tags and whether each of the plurality of tags is a body tag as an output variable
A body tag discrimination model providing apparatus.
제1항에 있어서,
상기 깊이 정보는,
상기 웹문서에 포함된 태그를 DOM(document object model) 트리 구조로 나타내었을 때, 상기 복수의 태그 각각으로부터 상기 최상위 태그를 향해 연결된 노드의 개수인
본문 태그 판별 모델 제공 장치.
The method according to claim 1,
Wherein,
When a tag included in the web document is represented by a DOM (document object model) tree structure, the number of nodes connected to the highest tag from each of the plurality of tags
A body tag discrimination model providing apparatus.
제1항에 있어서,
상기 피쳐 추출부는,
상기 하위 태그로서 <div>, <span>, <a>, <b>, <br>, <font>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>, <img>, <li>, <ul>, <ol>, <p>, <pre>, <q>, <table>, <tr>, <td> 중 적어도 어느 하나만을 상기 하위 태그의 개수로 집계하는
본문 태그 판별 모델 제공 장치.
The method according to claim 1,
The feature extraction unit may extract,
<H2>, <h3>, <h4>, <h5>, and <h6> tag, at least one of <img>, <li>, <ul>, <ol>, <p>, <pre>, <q>, <table>, <tr>, and <td> Counted as a number
A body tag discrimination model providing apparatus.
제1항에 있어서,
상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보는,
상기 웹문서에 포함된 텍스트의 글자 수에 대한 상기 복수의 태그 각각에 포함된 텍스트의 글자 수의 비율인
본문 태그 판별 모델 제공 장치.
The method according to claim 1,
Wherein the density information of the text included in each of the plurality of tags,
The ratio of the number of characters of the text included in each of the plurality of tags to the number of characters of the text included in the web document
A body tag discrimination model providing apparatus.
제1항에 있어서,
상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보는,
상기 복수의 태그 각각에 포함된 모든 단어 개수에 대한 상기 복수의 태그 각각에 포함된 상기 웹문서의 제목에 포함된 단어 개수인
본문 태그 판별 모델 제공 장치.
The method according to claim 1,
Wherein the information about the degree to which the text included in each of the plurality of tags includes the text included in the title of the web document,
The number of words included in the title of the web document included in each of the plurality of tags with respect to the number of all words included in each of the plurality of tags
A body tag discrimination model providing apparatus.
제1항에 있어서,
상기 피쳐 추출부는,
복수의 웹문서에 대해 상기 복수의 웹문서 각각으로부터 상기 피쳐 벡터를 생성하고,
상기 모델 학습부는,
상기 복수의 웹문서 각각으로부터 생성된 상기 피쳐 벡터를 기초로 상기 복수의 웹문서 각각마다 상기 본문 태그 판별 모델을 생성하고,
상기 장치는,
상기 복수의 웹문서 각각마다 생성된 상기 본문 태그 판별 모델에 앙상블 알고리즘을 적용하여 소정의 웹문서가 포함하는 태그가 본문 태그에 해당할 확률을 출력하는 앙상블부를 더 포함하는
본문 태그 판별 모델 제공 장치.
The method according to claim 1,
The feature extraction unit may extract,
Generating the feature vector from each of the plurality of web documents for a plurality of web documents,
The model learning unit,
Generating the body tag discrimination model for each of the plurality of web documents based on the feature vector generated from each of the plurality of web documents,
The apparatus comprises:
And an ensemble unit for outputting a probability that a tag included in a predetermined web document corresponds to a main tag by applying an ensemble algorithm to the main tag discrimination model generated for each of the plurality of web documents
A body tag discrimination model providing apparatus.
제6항에 있어서,
상기 앙상블부는,
상기 소정의 웹문서가 포함하는 태그에 대해 상기 복수의 웹문서 각각으로부터 생성된 상기 본문 태그 판별 모델이 판별한 확률의 평균을 상기 확률로 출력하는
본문 태그 판별 모델 제공 장치.
The method according to claim 6,
The ensemble unit,
Outputting an average of probabilities determined by the body tag discrimination model generated from each of the plurality of web documents with respect to a tag included in the predetermined web document as the probability
A body tag discrimination model providing apparatus.
제1항 내지 제7항 중 어느 하나의 항의 장치로부터 생성된 상기 본문 태그 판별 모델을 이용하는 본문 태그 판별 모델 적용 장치로서,
태그 기반의 웹문서를 입력 받아 상기 입력 받은 웹문서에 포함된 각각의 태그가 상기 본문 태그에 해당할 확률을 산출하는 상기 본문 태그 판별 모델; 및
상기 산출된 확률이 높은 k 개(k는 1 이상의 자연수)의 태그 중 상기 깊이 정보가 가장 큰 태그를 상기 본문 태그로 판별하는 판별부를 포함하는
본문 태그 판별 모델 적용 장치.
An apparatus for applying a body tag discrimination model using the body tag discrimination model generated from the apparatus according to any one of claims 1 to 7,
The body tag discrimination model that receives a tag-based web document and calculates a probability that each tag included in the input web document corresponds to the body tag; And
(K is a natural number greater than or equal to 1) having the highest probability, the tag having the largest depth information is determined as the body tag
Body tag discrimination model applying device.
제8항에 있어서,
상기 k는,
4이상 6이하의 자연수인
본문 태그 판별 모델 적용 장치.
9. The method of claim 8,
K =
Natural water of 4 to 6
Body tag discrimination model applying device.
태그 기반의 웹문서에 포함된 복수의 태그에 대하여, 상기 웹문서의 최상위 태그로부터 상기 복수의 태그 각각이 위치하는 깊이 정보인 제1 피쳐(feature), 상기 복수의 태그 각각이 가지는 하위 태그의 개수 정보인 제2 피쳐, 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보인 제3 피쳐 및 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보인 제4 피쳐 중 적어도 어느 하나 이상의 피쳐를 추출하여 구성한 피쳐 벡터를 상기 복수의 태그 각각마다 생성하는 단계; 및
상기 복수의 태그 각각의 피쳐 벡터를 입력 변수로 하고 상기 복수의 태그 각각이 본문 태그인지 여부를 출력 변수로 하여 기계 학습 알고리즘을 통해 학습된 본문 태그 판별 모델을 생성하는 단계를 포함하는
본문 태그 판별 모델 제공 방법.
A plurality of tags included in a tag-based web document, a first feature being depth information on which each of the plurality of tags is located from a top tag of the web document, a number of sub- Which is information on a degree that a text included in each of the plurality of tags includes a text included in a title of the web document, and a third feature that is density information of text contained in each of the plurality of tags, Extracting a feature vector from at least one of a plurality of feature vectors for each of the plurality of tags; And
And generating a learned text tag discrimination model through a machine learning algorithm using an input variable of the feature vector of each of the plurality of tags and an output variable of whether each of the plurality of tags is a body tag
A method for providing a body tag discrimination model.
태그 기반의 웹문서에 포함된 복수의 태그에 대하여, 상기 웹문서의 최상위 태그로부터 상기 복수의 태그 각각이 위치하는 깊이 정보인 제1 피쳐(feature), 상기 복수의 태그 각각이 가지는 하위 태그의 개수 정보인 제2 피쳐, 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보인 제3 피쳐 및 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보인 제4 피쳐 중 적어도 어느 하나 이상의 피쳐를 추출하여 구성한 피쳐 벡터를 상기 복수의 태그 각각마다 생성하는 단계; 및
상기 복수의 태그 각각의 피쳐 벡터를 입력 변수로 하고 상기 복수의 태그 각각이 본문 태그인지 여부를 출력 변수로 하여 기계 학습 알고리즘을 통해 학습된 본문 태그 판별 모델을 생성하는 단계를
프로세서로 하여금 수행하게 하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.
A plurality of tags included in a tag-based web document, a first feature being depth information on which each of the plurality of tags is located from a top tag of the web document, a number of sub- Which is information on a degree that a text included in each of the plurality of tags includes a text included in a title of the web document, and a third feature that is density information of text contained in each of the plurality of tags, Extracting a feature vector from at least one of a plurality of feature vectors for each of the plurality of tags; And
Generating a body tag discrimination model learned through a machine learning algorithm using an input variable of each of the plurality of tags and whether or not each of the plurality of tags is a body tag as an output variable,
A computer-readable recording medium having recorded thereon a program for causing a processor to execute the program.
태그 기반의 웹문서에 포함된 복수의 태그에 대하여, 상기 웹문서의 최상위 태그로부터 상기 복수의 태그 각각이 위치하는 깊이 정보인 제1 피쳐(feature), 상기 복수의 태그 각각이 가지는 하위 태그의 개수 정보인 제2 피쳐, 상기 복수의 태그 각각에 포함된 텍스트의 밀도 정보인 제3 피쳐 및 상기 복수의 태그 각각에 포함된 텍스트가 상기 웹문서의 제목에 포함된 텍스트를 포함하는 정도의 정보인 제4 피쳐 중 적어도 어느 하나 이상의 피쳐를 추출하여 구성한 피쳐 벡터를 상기 복수의 태그 각각마다 생성하는 단계; 및
상기 복수의 태그 각각의 피쳐 벡터를 입력 변수로 하고 상기 복수의 태그 각각이 본문 태그인지 여부를 출력 변수로 하여 기계 학습 알고리즘을 통해 학습된 본문 태그 판별 모델을 생성하는 단계를
프로세서가 수행하도록 하는 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
A plurality of tags included in a tag-based web document, a first feature being depth information on which each of the plurality of tags is located from a top tag of the web document, a number of sub- Which is information on a degree that a text included in each of the plurality of tags includes a text included in a title of the web document, and a third feature that is density information of text contained in each of the plurality of tags, Extracting a feature vector from at least one of a plurality of feature vectors for each of the plurality of tags; And
Generating a body tag discrimination model learned through a machine learning algorithm using an input variable of each of the plurality of tags and whether or not each of the plurality of tags is a body tag as an output variable,
A computer program stored in a computer readable recording medium for causing a processor to perform the method.
KR1020170108618A 2017-08-28 2017-08-28 Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model KR102003487B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170108618A KR102003487B1 (en) 2017-08-28 2017-08-28 Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170108618A KR102003487B1 (en) 2017-08-28 2017-08-28 Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model

Publications (2)

Publication Number Publication Date
KR20190023218A true KR20190023218A (en) 2019-03-08
KR102003487B1 KR102003487B1 (en) 2019-10-01

Family

ID=65800683

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170108618A KR102003487B1 (en) 2017-08-28 2017-08-28 Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model

Country Status (1)

Country Link
KR (1) KR102003487B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781407A (en) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 User label generation method and device and computer readable storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271819A (en) * 2008-05-09 2009-11-19 Nec Corp Document search system, document search method and document search program
KR20100061308A (en) * 2008-11-28 2010-06-07 인터내셔널 비지네스 머신즈 코포레이션 Information processing apparatus, database system, information processing method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271819A (en) * 2008-05-09 2009-11-19 Nec Corp Document search system, document search method and document search program
KR20100061308A (en) * 2008-11-28 2010-06-07 인터내셔널 비지네스 머신즈 코포레이션 Information processing apparatus, database system, information processing method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781407A (en) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 User label generation method and device and computer readable storage medium

Also Published As

Publication number Publication date
KR102003487B1 (en) 2019-10-01

Similar Documents

Publication Publication Date Title
US9424524B2 (en) Extracting facts from unstructured text
Rashwan et al. Ontology-based classification of non-functional requirements in software specifications: A new corpus and SVM-based classifier
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
CN109783796B (en) Predicting style break in text content
US20120290293A1 (en) Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
JP2016181252A (en) Language identification on social media
CN103678684A (en) Chinese word segmentation method based on navigation information retrieval
WO2019028990A1 (en) Code element naming method, device, electronic equipment and medium
CN111046656A (en) Text processing method and device, electronic equipment and readable storage medium
JP6217468B2 (en) Multilingual document classification program and information processing apparatus
US8341171B2 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
CN110210038B (en) Core entity determining method, system, server and computer readable medium thereof
Álvarez-Carmona et al. Semantically-informed distance and similarity measures for paraphrase plagiarism identification
WO2012158572A2 (en) Exploiting query click logs for domain detection in spoken language understanding
CN114722141A (en) Text detection method and device
KR102185733B1 (en) Server and method for automatically generating profile
CN116029280A (en) Method, device, computing equipment and storage medium for extracting key information of document
CN114238632A (en) Multi-label classification model training method and device and electronic equipment
Rachman et al. Word Embedding for Rhetorical Sentence Categorization on Scientific Articles.
KR20190023218A (en) Apparatus and method for providing body tag recognizing model, and apparatus for applying body tag recognizing model
Aljamel et al. Domain-specific relation extraction: Using distant supervision machine learning
Esteves et al. Named entity recognition in twitter using images and text
US10387472B2 (en) Expert stance classification using computerized text analytics
US11341188B2 (en) Expert stance classification using computerized text analytics
CN114417870B (en) Method and device for detecting security entity, electronic equipment and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant