KR20170130040A - Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings - Google Patents

Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings Download PDF

Info

Publication number
KR20170130040A
KR20170130040A KR1020160060541A KR20160060541A KR20170130040A KR 20170130040 A KR20170130040 A KR 20170130040A KR 1020160060541 A KR1020160060541 A KR 1020160060541A KR 20160060541 A KR20160060541 A KR 20160060541A KR 20170130040 A KR20170130040 A KR 20170130040A
Authority
KR
South Korea
Prior art keywords
wikipedia
target
attribute
template
infobox
Prior art date
Application number
KR1020160060541A
Other languages
Korean (ko)
Inventor
이문용
장새미
메가와티
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020160060541A priority Critical patent/KR20170130040A/en
Publication of KR20170130040A publication Critical patent/KR20170130040A/en

Links

Images

Classifications

    • G06F17/3089
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F17/211
    • G06F17/248
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Provided is a method for completing a Wikipedia cross-lingual infobox by using DBpedia mapping which comprises the steps of: determining a source Wikipedia of a source language and a target Wikipedia of a target language; determining a template relation having high similarity between a source Wikipedia template and a target Wikipedia template by using DBpedia mapping; determining attribute similarity of a target language having high similarity with an attribute corresponding to the source Wikipedia template; reconfiguring an infobox of the target Wikipedia according to each attribute of the source Wikipedia template; and resetting the infobox of the target Wikipedia.

Description

디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법{Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings}{Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings}

본 발명은 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법에 관한 것으로, 보다 상세하게는 사용자들 협업형태로 제공되는 정보제공 툴인 위키피디아에서의 각 언어별 인포박스의 불일치를 디비피디아를 활용하여 해결하여 보다 풍부하고 정확한 정보를 제공할 수 있는, 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법에 관한 것이다.The present invention relates to a method of completing Wikipedia's cross-language information box using dividea mapping, and more particularly, to an information providing tool provided as a collaborative form of users, which resolves inconsistencies of information boxes of each language in Wikipedia, The present invention relates to a method of completing a Wikipedia-based cross-language information box using a divide-by-page mapping, which can provide richer and more accurate information.

위키피디아는 웹(Web)상에서 누구나 목적에 관계없이 자유롭게 사용할 수 있는 공개형 백과사전으로 위키 문법(Wiki Syntax) 기반의 오픈 커뮤니티 웹사이트이다.Wikipedia is an open-source encyclopedia based on Wiki Syntax that can be freely used by anyone on the Web.

위키피디아 페이지는 아티클(article)이라는 단위로 불리며 하나의 아티클은 독립적인 주제(subject) 혹은 개체(entity)에 대한 설명을 하는 일반 텍스트 부분, 부가적인 정보를 제공하는 이미지, 하이퍼링크, 카테고리, 템플릿 등 다양한 구조화된 텍스트로 구성되어있다. A Wikipedia page is called an article, and an article is a plain text part that describes an independent subject or entity, an image that provides additional information, a hyperlink, a category, a template, etc. It consists of various structured texts.

그 중 템플릿(template)은 위키에서 제공하는 유용한 기능 중 하나로 여러 페이지 내에서 반복적으로 사용되는 특정 부분을 미리 함수처럼 정의해놓고 여러 페이지에서 각 페이지에 맞게 인스턴스만 새롭게 추가하여 동일한 템플릿을 반복적으로 사용하는 것을 말한다. Templates are one of the useful functions provided by wikis. They define specific parts that are repeatedly used in several pages in advance as functions, and repeatedly use the same template by adding new instances to each page on multiple pages. It says.

이것은 프로그래밍 언어에서 외부함수를 불러 사용하는 기능과 동일하다. 위키피디아에서 제공하고 있는 템플릿 중 가장 많이 사용되고 있는 것은 인포박스이다. This is the same as calling a foreign function in a programming language. The most popular template provided by Wikipedia is InfoBox.

인포박스(infobox)는 아티클 상단 부분에 위치하며 하나의 아티클에 대한 요약을 제공하는 일종의 메타데이터로 각 개체에 대한 주요 속성과 그에 대한 값을 기술하는 형태로 작성한다. An infobox is a type of metadata that is located at the top of an article and provides a summary of a single article. It is written in the form of describing key attributes and their values for each object.

그러나 인포박스가 제공하는 정보 수준은 언어와 주제에 따라 상이한 단점이 있다. 즉, 동일한 주제라 하더라도 사용 언어에 따라 인포박스를 통해 제공되는 정보량이 해당 언어에 따라 달라지는(파스타의 영어 위키피디아와 한국어 위키피디아 참고)단점이 있다.However, the level of information provided by InfoBox has different disadvantages depending on language and subject. In other words, even with the same subject, there is a disadvantage that the amount of information provided through InfoBox differs depending on the language, depending on the language used (see Wikipedia Wikipedia and Korean Wikipedia on pasta).

도 1은 위키피디아의 일반적인 정보제공 형태를 나타내는 도면이다. 1 is a diagram showing a general information providing format of Wikipedia.

도 1을 참조하면, 위키피디아는 문서와, 문서에 대한 정보를 나타내는 인포박스로 구성되며, 각 정보는 템플릿으로 구분되어 제공된다. Referring to FIG. 1, Wikipedia comprises a document and an info box representing information about the document, and each information is provided as a template.

도 2는 위키피디아의 인포박스를 나타낸다. Figure 2 shows InfoBox of Wikipedia.

상기 인포박스는 위키피디아 문서에 있는 내용을 반 구조화된(semi-structured) 형태로 정리한 정보를 의미하는데, 각 나라의 언어로 된 위키피디아의 경우 독립적으로 운영되고 있어, 각 위키피디아 페이지 사이의 불완전(incompleteness)하고 불일치(inconsistencies)함이 발생하게 된다.The InfoBox is a semi-structured form of information contained in the Wikipedia article. It is operated independently in the case of Wikipedia in each country's language, and incompleteness between each Wikipedia page ) And inconsistencies occur.

서로 다른 두 언어의 위키피디아 인포박스(cross-language Wikipedia infobox)사이에서 발견되는 3가지 유형의 오류는 다음과 같다. The three types of errors found among the Wikipedia-infobox in two different languages are:

a. 오직 한가지 언어 버전의 위키피디아에서만 인포박스가 존재함a. Only InfoBox exists in only one language version of Wikipedia

b. 각 언어버전의 위키피디아 인포박스가 존재하며, 한 언어버전은 특정 속성(attribute)에 대한 정보가 존재하지만 다른 언어버전에는 정보가 없는 경우 b. There is a Wikipedia infobox for each language version, and one language version has information about an attribute but no other language version

c. 각 언어버전의 위키피디아 인포박스가 존재하며, 동일한 속성에 대한 정보가 존재하지만 서로 모순(contradictory information)된 경우c. If there is a Wikipedia infobox for each language version and information about the same attribute exists but contradictory information

따라서 이러한 문제를 해결하기 위한 방법이 필요하나, 현재까지 이를 해결하기 위한 방법은 개시되지 못한 상황이다.Therefore, a method for solving such a problem is required, but a method for solving the problem has not been disclosed yet.

따라서, 본 발명이 해결하고자 하는 과제는 로 다른 두 언어의 위키피디아 인포박스(cross-language Wikipedia infobox)사이에서 발견되는 오류를 없앨 수 있는, 위키피디아 교차언어 인포박스 완성방법에 관한 것이다.Therefore, the problem to be solved by the present invention relates to a method of completing a Wikipedia cross-language InfoBox that can eliminate errors found between two different languages of a cross-language Wikipedia infobox.

상기 과제를 해결하기 위하여, 본 발명은 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법으로, 소스 언어의 소스 위키피디아와 타겟 언어의 타겟 위키피디아를 결정하는 단계; 디비피디아 매핑을 이용하여 소스 위키피디아 템플릿과 타겟 위키피디아 템플릿 간에서 유사도가 높은 템플릿 관계를 결정하는 단계; 상기 소스 위키피디아 템플릿에 대응하는 속성과 유사도가 높은 타겟 언어의 속성 유사도를 결정하는 단계; 상기 소스 위키피디아 템플릿의 각 속성에 따라 타겟 위키피디아의 인포박스를 재구성하는 단계; 및 상기 타겟 위키피디아의의 인포박스를 재설정하는 단계를 포함하는 것을 특징을 하는 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법을 제공한다. According to an aspect of the present invention, there is provided a method for completing a Wikia cross-language information box using dividea mapping, comprising: determining a source Wikipedia's target Wikipedia and a target Wikipedia target language; Determining a template relationship having a high degree of similarity between a source Wikipedia template and a target Wikipedia template using dividea mapping; Determining an attribute similarity degree of a target language having a similarity to the attribute corresponding to the source wikipedia template; Reconstructing the infobox of the target Wikipedia according to each attribute of the source Wikipedia template; And reconfiguring the InfoBox of the target Wikipedia to provide a method of completing a Wikia cross-language InfoBox using dividea mapping.

본 발명의 일 실시예에서, 상기 탬플릿 간 유사도를 결정하는 단계는, 디비피디아 매핑의 템플릿 매핑(Templet mapping)과 연결된 상기 소스 및 타겟 위키피디아 템플릿과 디비피디아 클래스(class)를 연결하는 단계; 상기 소스 위키피디아 탬플릿과 동일한 디비피디아 클래스로 연결된 상기 타겟 위키피디아의 탬플릿을 결정하는 단계;를 포함한다. In one embodiment of the present invention, the step of determining the degree of similarity between templates comprises the steps of: connecting the source and target Wikipedia templates and divider classes, which are associated with template mapping of divider mapping; And determining the template of the target Wikipedia linked to the same Wikipedia template class as the source Wikipedia template.

본 발명의 일 실시예에서, 상기 속성 유사도는 속성 상관관계, 문서 유사도, 숫자 유사도, 날짜 유사도 및 링크 유사도를 기준으로 결정한다. In one embodiment of the present invention, the attribute similarity is determined based on attribute correlation, document similarity, numerical similarity, date similarity, and link similarity.

본 발명의 일 실시예에서, 상기 속성 유사도는 상기 속성 상관관계, 문서 유사도, 숫자 유사도, 날짜 유사도 및 링크 유사도를 SVM binary classifier를 통해 학습한 후, 입력되는 속성 쌍들이 유사한지 아닌지를 판단하는 방식으로 측정된다. In one embodiment of the present invention, the attribute similarity is determined by learning the attribute correlation, the document similarity, the number similarity, the date similarity, and the link similarity through the SVM binary classifier, .

본 발명의 일 실시예에서, 상기 타겟 템플릿의 인포박스를 재구성하는 단계는, 상기 소스 위키피디아 탬플릿과 탬플릿 유사도가 높은 최빈도 탬플릿을 기준으로 상기 타켓 위키피디아 인포박스를 생성하는 단계; 상기 소스 위키피디아 탬플릿의 속성과 속성 유사도에서 일치하는 속성을 상기 타겟 위키피디아 인포박스의 속성으로 변환하는 단계; 및 속성값 변환방법에 의해 상기 소스 위키피디아 인포박스의 속성값을 상기 타켓 위키피디아의 언어로 된 속성값으로 변환하여 입력하는 단계를 포함한다. In one embodiment of the present invention, the step of reconstructing the infobox of the target template comprises the steps of: generating the target Wikipedia infobox on the basis of the most-favored template having a high degree of template similarity with the source wikipedia template; Converting an attribute matching the attribute of the source wikipedia template and the attribute similarity into an attribute of the target Wikipedia infobox; And converting an attribute value of the source Wikipedia infobox into an attribute value in the language of the target Wikipedia according to an attribute value conversion method.

본 발명의 일 실시예에서, 상기 타겟 템플릿의 인포박스를 재설정하는 단계는, 디비피디아 매핑의 특성 매핑(property mapping) 정보를 통해 동일한 디비피디아 특성(property)과 연결된 소스 위키피디아 속성과 타겟 위키피디아 속성을 연결하는 단계; 상기 연결된 타겟 위키피디아 인포박스 속성에 데이터가 있는지를 판단하는 단계; 및 만약 상기 타겟 위키피디아 인포박스에 데이터가 없는 경우, 연결된 상기 소스 위키피디아 인포박스 속성값에 따라 상기 타겟 위키피디아 인포박스에 속성 데이터를 생성하는 단계를 포함한다. In one embodiment of the present invention, the step of resetting the InfoBox of the target template comprises the steps of: setting a source Wikipedia attribute and a target Wikipedia attribute associated with the same divider property through property mapping information of the divider mapping Connecting; Determining whether there is data in the linked target Wikipedia infobox attribute; And generating attribute data in the target Wikipedia infobox according to the connected source Wikipedia infobox attribute value if the target Wikipedia infobox does not contain data.

본 발명은 서로 다른 언어의 위키피디아 인포박스들 간의 정렬(Infobox Alignment)을 통해 위키피디아 지식의 품질을 향상시킬 수 있으며, 현지화 위키피디아 페이지는 각 나라와 관련된 주제에 대해서는 더 정확한 정보들이 존재하고 이는 영어 위키피디아를 보강하여 품질 향상에 기여할 수 있다. 또한, 서로 다른 언어의 위키피디아 인포박스를 통해 디비피디아를 자동으로 강화하는 방법은 커뮤니티 사용자가 디비피디아의 지식을 확장하기 위해 하는 노력을 줄일 수 있다. The present invention can improve the quality of Wikipedia knowledge through the alignment of Wikipedia infoboxes in different languages, and localized Wikipedia pages have more accurate information on the subjects related to each country, It can reinforce and contribute to quality improvement. In addition, the automatic enhancement of dividefia through Wikipedia's InfoBox in different languages can reduce the efforts of community users to expand their knowledge of Dividefia.

도 1은 위키피디아의 일반적인 정보제공 형태를 나타내는 도면이다.
도 2는 위키피디아의 인포박스를 나타낸다.
도 3 내지 5는 동일 인물에 대하여 두 언어의 위피피디아 인포박스가 불일치하는 것을 나타내는 도면이다.
도 6은 디비피디아 매핑 정보를 나타내는 그림이다.
도 7은 본 발명의 일 실시에에 따른 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법의 단계도이다.
도 8은 상기 템플릿 사전과 속성사전을 정리한 도면이다.
도 9는 위키피디아의 템플릿과 이에 대응하는 디비피디아의 클래스를 연결하여 정렬하는 방법을 설명하는 단계도이다.
도 10은 인포박스의 값(attribute)과 속성(property)를 정렬하는 방법을 설명하는 단계도이다.
도 11은 본 발명의 일 실시에에 따른 타겟 위키피디아의 인포박스를 재구성하는 방법의 단계도이다.
도 12는 본 발명의 일 실시에에 따라 인포박스 생성하여 인포박스 오류를 감소시키는 방법을 설명하는 도면이다.
도 13은 본 발명의 일 실시예에 따른 타겟 위키피디아 인포박스를 확장시키는 방식으로 타겟 템플릿의 인포박스를 재설정하는 방법을 설명하는 단계도이다.
도 14는 본 발명의 일 실시예에 따른 인포박스 확장 방식을 설명하는 도면이다.
도 15는 본 발명의 일 실시에에 따른 값 변환 방식을 설명하는 도면이다.
1 is a diagram showing a general information providing format of Wikipedia.
Figure 2 shows InfoBox of Wikipedia.
Figs. 3 to 5 are diagrams showing inconsistency of the two-language Whipedia infobox for the same person.
6 is a diagram showing divide-by-packet mapping information.
FIG. 7 is a step diagram of a method for completing a Wikia crossword infobox using dividea mapping according to an embodiment of the present invention.
FIG. 8 is a diagram summarizing the template dictionary and the attribute dictionary.
9 is a diagram illustrating a method of associating a template of a Wikipedia with a class of a corresponding divider.
10 is a diagram for explaining a method of aligning the attribute and the property of the InfoBox.
11 is a step diagram of a method of reconstructing an InfoPackage of a target Wikipedia according to an embodiment of the present invention.
12 is a diagram for explaining a method for generating an InfoBox according to an embodiment of the present invention to reduce Infobox error.
13 is a diagram illustrating a method of resetting an infobox of a target template in a manner of extending a target Wikipedia infobox according to an embodiment of the present invention.
FIG. 14 is a view for explaining an information box extending method according to an embodiment of the present invention.
15 is a view for explaining a value conversion method according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명에 대해 구체적으로 살펴보기로 한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

다만, 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 용어가 동일하더라도 표시하는 부분이 상이하면 도면 부호가 일치하지 않음을 미리 말해두는 바이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. Even if the terms are the same, it is to be noted that when the portions to be displayed differ, the reference signs do not coincide.

그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로서 이는 실험자 및 측정자와 같은 사용자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are intended to provide further explanation of the invention as claimed.

본 명세서에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. The terms first, second, etc. in this specification may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.

이하 첨부된 도면을 참조하여 본 발명에 대해 구체적으로 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. In order to facilitate the understanding of the present invention, the same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

본 발명은 상술한 바와 같이 소스 언어 위키피디아(이것은 가장 많은 정보의 인포박스 데이터를 갖는 언어의 위키피디아)와 타겟 언어 위키피디아(이것은 상기 소스 언어 위키피디아의 인포박스에 대응되도록 인포박스를 재구성하여야 하는 언어의 위키피디아)간 불일치를 해소하기 위하여 디비피디아 매핑을 이용한다. The present invention can be applied to a source language Wikipedia (which is the Wikipedia of the language with the most information infobox data) and a target language Wikipedia (which corresponds to the InfoBox of the source language Wikipedia, as described above) ) To resolve the discrepancy.

도 3 내지 5는 동일 인물에 대하여 두 언어의 위피피디아 인포박스가 불일치하는 것을 나타내는 도면이다.Figs. 3 to 5 are diagrams showing inconsistency of the two-language Whipedia infobox for the same person.

도 3을 참조하면, 소스 언어인 영어 위키피디아의 경우 해당 인물에 대한 인포박스가 표시되지만, 타겟 언어인 한국어 위키피디아의 경우 인포박스가 표시되지 않는 경우를 알 수 있다. Referring to FIG. 3, in the case of English Wikipedia, which is a source language, InfoBox for the person is displayed, but it can be seen that InfoBox is not displayed for the target language KoreanWiki.

도 4를 참조하면, 동일 인물의 동일 속성(즉, 출생)에 대하여 두 언어의 인포박스의 값(attribute)가 상이한 경우를 알 수 있다. Referring to FIG. 4, it can be seen that the values of the infobox of the two languages are different for the same attribute (i.e., birth) of the same person.

도 5를 참조하면, 인포박스의 값이 한국어 위키피디아 인포박스에는 존재하나, 영어 위키피디아 인포박스에는 존재하지 않는 경우를 알 수 있다. Referring to FIG. 5, it can be seen that the value of InfoBox is present in the Korean Wikipedia infobox, but not in the English Wikipedia infobox.

즉, 현지화된 위키피디아(Localized Wikipedia)는 영어가 아닌 각 나라의 언어로 구성된 위키피디아를 의미한다.In other words, localized Wikipedia means Wikipedia composed of languages other than English.

영어 위키피디아는 다른 언어로 된 위키피디아와 비교하여 가장 많은 양의 지식을 보유하고 있다 (약 512만8천 문서, 2016년 4월 기준). 하지만, 각 나라의 문화, 역사와 같은 주제에 대해서는 영어위키피디아와 비교하여 현지화된 위키피디아에 더 정확하고 많은 정보들이 포함되어 있다. English Wikipedia has the largest amount of knowledge compared to Wikipedia in other languages (about 5128,000 documents, as of April 2016). However, on topics such as culture and history of each country, it contains more accurate and more information in localized Wikipedia compared to English Wikipedia.

따라서, 이러한 각 언어간 위키피디아 인포박스의 불일치를 해소하기 위하여 본 발명은 위키피디아의 정보들을 구조화된 지식(RDF triples)으로 추출한 지식 베이스인 디비피디아를 이용한다. 위키피디아의 경우 각 언어별로 독립적으로 작성되어 인포박스 탬플릿과 속성들이 서로 달라 같은 의미를 표현하지만 다르게 표기된다. 하지만, 디비피디아의 경우는 이를 정의된 클래스(defined classes)와 속성(properties)으로 연결하여 높은 품질의 지식 베이스를 구축하는데, 특히 본 발명은 각 언어별 디비피비아 또는 위키피디아의 연결 관계를 정리한 디비피디아 매핑을 활용한다. Therefore, in order to solve the inconsistency of the Wikipedia infobox between the respective languages, the present invention utilizes the Wikipedia database which is a knowledge base extracted from structured knowledge (RDF triples) of Wikipedia information. In Wikipedia, it is written independently for each language, and the InfoBox templates and attributes are different from each other, but they are expressed differently. However, in the case of dividefia, a high-quality knowledge base is constructed by connecting the defined classes with properties. In particular, the present invention summarizes the connection relations between the divide- Utilizes dividepia mapping.

디비피디아 매핑은 위키피디아의 탬플릿과 연결되는 디비피디아의 클래스를 정의하는 템플릿 매핑(Template mapping)과, 위키피디아의 각 탬플릿 내의 속성과 연결되는 디비피디아의 속성을 정의하는 속성 매핑(property mapping)을 포함하는데, 도 6은 디비피디아 매핑 정보를 나타내는 그림이다.The divider mapping includes a template mapping that defines the class of the divider that is connected to the template of Wikipedia and an attribute mapping that defines the properties of the divider that is connected to the property in each template of Wikipedia , And FIG. 6 is a diagram showing the mapping information of the divider.

도 6을 참조하면, 템플릿 매핑에 의하여 군인이라는 템플릿을 MililataryPerson이라는 클래스로 정의하며, 아울러 속성 매핑에 의하여 해당 템플릿의 속성과 연결되는 디비피디아의 속성이 연결되는 것을 알 수 있다. Referring to FIG. 6, a template called a soldier is defined as a class called MililataryPerson by template mapping, and attributes of a database connected to an attribute of the corresponding template are connected by attribute mapping.

즉, 본 발명은 서로 다른 언어의 위키피디아 인포박스들 간의 정렬(Infobox Alignment)을 통해 위키피디아 지식의 품질을 향상시킬 수 있으며, 현지화 위키피디아 페이지는 각 나라와 관련된 주제에 대해서는 더 정확한 정보들이 존재하고 이는 영어 위키피디아를 보강하여 품질 향상에 기여할 수 있다. 또한, 서로 다른 언어의 위키피디아 인포박스를 통해 디비피디아를 자동으로 강화하는 방법은 커뮤니티 사용자가 디비피디아의 지식을 확장하기 위해 하는 노력을 줄일 수 있다. That is, the present invention can improve the quality of Wikipedia knowledge through alignment between Wikipedia infoboxes of different languages, and the localized Wikipedia page has more accurate information on subjects related to each country, It can contribute to quality improvement by reinforcing Wikipedia. In addition, the automatic enhancement of dividefia through Wikipedia's InfoBox in different languages can reduce the efforts of community users to expand their knowledge of Dividefia.

이를 위하여, 본 발명은 디비피디아 매핑(DBpedia Mappings)을 기존의 인포박스 탬플릿과 속성을 번역하기 위해 활용하던 사전을 대체하여 사용하며, 디비피디아의 새로운 매핑을 발견하는 동시에 현지화 위키피디아에서 영어 위키피디아로 새로운 지식을 확장할 수 있다.To this end, the present invention uses DBpedia Mappings as a substitute for a dictionary used to translate existing infobox templates and attributes, finds a new mapping of Divipedia, and at the same time, finds new maps from localized Wikipedia to English Wikipedia Knowledge can be extended.

도 7은 본 발명의 일 실시에에 따른 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법의 단계도이다.FIG. 7 is a step diagram of a method for completing a Wikia crossword infobox using dividea mapping according to an embodiment of the present invention.

도 7을 참조하면, 상기 교차언어 인포박스 완성방법은 소스 언어의 소스 위키피디아와 타겟 언어의 타겟 위키피디아를 결정하는 단계(S110); 디비피디아 매핑을 이용하여 소스 위키피디아 템플릿과 타겟 위키피디아 템플릿 간에서 유사도가 높은 템플릿 관계를 결정하는 단계(S120); 상기 소스 위키피디아 템플릿에 대응하는 속성과 유사도가 높은 타겟 언어의 속성 유사도를 결정하는 단계(S130); 상기 소스 위키피디아 템플릿의 각 속성에 따라 타겟 위키피디아의 인포박스를 재구성하는 단계(S140); 및 상기 타겟 위키피디아의의 인포박스를 재설정하는 단계(S150)를 포함한다.Referring to FIG. 7, the cross-language InfoBox complete method includes a step S110 of determining a target Wikipedia of a source language of a source language and a target language of a target language; A step (S120) of determining a template relation having a high degree of similarity between the source wikipedia template and the target wikipedia template using dividea mapping; Determining (S130) an attribute similarity degree of a target language having a degree of similarity to the attribute corresponding to the source wikipedia template; Reconstructing an infobox of the target Wikipedia according to each attribute of the source Wikipedia template (S140); And resetting the InfoBox of the target Wikipedia (S150).

도 8은 상기 템플릿 사전과 속성사전을 정리한 도면이다. FIG. 8 is a diagram summarizing the template dictionary and the attribute dictionary.

즉, 본 발명은 디비피디아 매핑의 템플릿 매핑에서 연결된 위키피디아 템플릿과 디비피디아의 클래스를 연결하여 구성된 템플릿 사전과, 디비피디아 매핑의 속성 매핑(property mapping)에서 두 개의 속성(attribute)이 동일한 디비피디아의 속성으로 연결된 경우, 두 속성은 동의어(synonyms)일 가능성이 높으며, 이 경우 두 속성을 동의어로 연결하여 속성 사전을 구성한다. That is, according to the present invention, a template dictionary constructed by linking a Wikipedia template and a class of a connected Wikipedia template in a template mapping of a divider mapping, and a property dictionary of a divider that has two attributes in the property mapping of the divider mapping. Attribute, the two attributes are likely to be synonyms, in which case the attribute dictionary is constructed by concatenating the two attributes into synonyms.

따라서, 본 발명은 디비피디아 매핑을 통하여 템플릿과 속성의 유사도를 판단하고, 이를 통하여 소스 언어 위키피디아의 인포박스에 대응하도로 타겟 언어 위키피디아의 인포박스를 재구성하므로, 기존의 인포박스 탬플릿과 속성을 번역하기 위해 활용하던 사전을 대체할 수 있다. Accordingly, the present invention determines the similarity of a template and an attribute through a divide mapping and reconfigures the infobox of the target language Wikipedia in correspondence with the infobox of the source language Wikipedia, thereby translating the existing infobox template and the attribute Can be substituted for the dictionary used to do so.

이하 각 단계별 상세 흐름도를 이하 보다 상세히 설명한다. The following detailed flowcharts will be described in more detail below.

도 9는 위키피디아의 템플릿과 이에 대응하는 디비피디아의 클래스를 연결하여 정렬하는 방법을 설명하는 단계도로서, 본 방법을 통하여 서로 다른 언어의 위키피디아 템플릿 사이에서 유사도가 높은 템플릿을 정렬하여 저장한다.FIG. 9 is a diagram illustrating a method of associating and sorting a Wikipedia template and a corresponding dividefia class, and arranges and stores templates having high similarity among Wikipedia templates of different languages through this method.

도 9를 참조하면, 소스 언어 템플릿(소스 템플릿)의 사전검색(dictionary lookup)을 통하여 템플릿간 연결관계를 판단한다. 본 발명에서의 사전 검색은 도 7에서 설명한 바와 같이 템플랫 사전을 검색하여 진행되는 것으로, 이 경우, 디비피다아의 클래스와 연결된 소스 템플릿과 타겟 템플릿이 일대일로 대응하는 경우라면, 두 템플릿간 연결관계는 존재하는 것으로 판단할 수 있다. Referring to FIG. 9, a connection relation between templates is determined through dictionary lookup of a source language template (source template) . To proceed with searching according to the present invention can search the system flat advance, as described in Figure 7, in this case, in case of the source templates and a target template is associated with the class in the DB the blood Oh corresponding one-to-one connection between two templates The relationship can be judged to exist.

만얀 연결관계가 존재하지 않는다면, 도 8에서 도시된 바와 같이 문서 쌍그룹화(Article pair grouping)를 통하여 소스 템플릿을 사용하는 소스 언어로 된 문서(S1)과 상기 소스 언어로 된 문서(S1)와 일치하는 모든 타겟 언어로 된 문서를 검색하여 정렬한다. If there is no concatenation relation, the document S1 in the source language using the source template is matched with the document S1 in the source language through article pair grouping as shown in FIG. Search and sort documents in all target languages.

이후 상기 타겟 언어로 된 문서의 템플릿의 동시 발생 빈도를 계산한다. 만약 특정 템플릿이 많은 빈도수로 발생하는 경우라면, 그 특정 템플릿의 상위 템플릿(k)을 찾은 후, 다시 사전검색을 통하여 상기 소스 템플릿과 타겟 템플릿(k)간에 연결관게가 존재하는지 판단한다. 만약, 연결관계가 없다고 판단하는 경우, 사전 검색을 다시 진행하며, 필요에 따라 새로운 타겟 템플릿을 설정하여 연결관계를 상기 템플릿 사전 검색을 통하여 설정할 수 있다.Then, the concurrent occurrence frequency of the template of the document in the target language is calculated. If a specific template occurs at a high frequency, it is determined whether there is a connection between the source template and the target template k through searching the upper template k of the specific template. If it is determined that there is no connection relation, the pre-search is performed again, and a new target template may be set as needed to set a connection relationship through the template pre-search.

도 10은 인포박스의 값(attribute)과 속성(property)를 정렬하는 방법을 설명하는 단계도이다. 도 10의 방법을 통하여 템플릿의 속성과 유사도가 높은 다른 언어의 속성을 찾게 되는데, 도 10을 참조하면, 상기 방법은 소스 속성으로부터 사전 검색을 통하여 이에 연결된 타겟 속성이 존재하는 경우, 이를 정렬한다. 10 is a diagram for explaining a method of aligning the attribute and the property of the InfoBox. 10, an attribute of another language having a high degree of similarity to the attribute of the template is searched. Referring to FIG. 10, the method arranges target attributes that are linked to the target attribute through a dictionary search from a source attribute.

하지만, 소스 속성과 그대로 연결된 타겟 속성이 없는 경우, 상기 소스 속성과 쌍을 이루는 타겟 후보 속성을 생성하고, 속성 유사도를 측정한다. 상기 속성 유사도는 속성 상관관계, 문서 유사도, 숫자 유사도, 날짜 유사도 및 링크 유사도를 기준으로 결정하며, 본 발명의 일 실시예에서는 상기 속성 상관관계, 문서 유사도, 숫자 유사도, 날짜 유사도 및 링크 유사도 특징으로 SVM binary classifier를 통해 학습한 후, 입력되는 속성 쌍들이 유사한지 아닌지를 판단한다. However, if there is no target attribute directly connected to the source attribute, a target candidate attribute forming a pair with the source attribute is generated and the attribute similarity is measured. The attribute similarity is determined based on an attribute correlation, a document similarity, a number similarity, a date similarity, and a link similarity. In one embodiment of the present invention, the attribute correlation, the document similarity, After learning through SVM binary classifier, it judges whether input attribute pairs are similar or not.

이후 높은 유사도를 갖는 속성을 정렬하여, 속성간 연결관계가 설정된다. Thereafter, the attributes having high similarity are sorted to establish the connection relationship between the attributes.

도 11은 본 발명의 일 실시에에 따른 타겟 위키피디아의 인포박스를 재구성하는 방법의 단계도이다. 11 is a step diagram of a method of reconstructing an InfoPackage of a target Wikipedia according to an embodiment of the present invention.

도 11을 참조하면, 본 발명의 일 실시예에 따른 인포박스 재구성 방법은, 소스 위키피디아 탬플릿과 타겟 위키피디아 탬플릿 간 유사도에 의하여 결정된 최빈도 탬플릿을 기준으로 상기 타켓 위키피디아 인포박스를 생성하는 단계; 상기 소스 위키피디아 탬플릿의 속성과 속성 유사도에서 일치하는 타겟 위키피디아 속성을 상기 타겟 위키피디아 인포박스의 속성으로 입력하는 단계; 및 속성값 변환방법에 의해 상기 소스 위키피디아 인포박스의 속성값을 상기 타켓 위키피디아의 언어로 된 속성값으로 변환하여 입력하는 단계를 포함한다. Referring to FIG. 11, an infobox reconstruction method according to an embodiment of the present invention includes: generating the target Wikipedia infobox on the basis of a most-preferred template determined by a degree of similarity between a source Wikipedia template and a target Wikipedia template; Inputting, as an attribute of the target Wikipedia infobox, a target Wikipedia attribute matching a property of the source Wikipedia template and an attribute similarity of the source Wikipedia template; And converting an attribute value of the source Wikipedia infobox into an attribute value in the language of the target Wikipedia according to an attribute value conversion method.

즉, 본 발명은 소스 위키피디아 템플릿과의 유사도 판단에 의하여 가장 높은 유사도(즉, 최빈도)를 갖는 템플릿을 기준으로 인포박스를 생성하고, 상기 소스 위키피디아 탬플릿의 속성을 타켓 위키피디아 속성으로 입력하고, 이후 이에 따가 각 속서에 대응하는 값을 변환하여 입력한다. That is, according to the present invention, an information box is created based on a template having the highest degree of similarity (i.e., the most degree) by judging similarity with a source Wikipedia template, a property of the source Wikipedia template is input as a target Wikipedia attribute, The value corresponding to each title is then converted and input.

도 12는 본 발명의 일 실시에에 따라 인포박스 생성하여 인포박스 오류를 감소시키는 방법을 설명하는 도면이다. 12 is a diagram for explaining a method for generating an InfoBox according to an embodiment of the present invention to reduce Infobox error.

도 12를 참조하면, 먼저 디비피디아 매핑의 클리스를 기준으로 템플릿을 정렬한다. 상기 정렬은 템플릿 사전 검색을 통하여 템플릿간 연결관계를 유사도를 기준으로 확인하고, 이에 따라 소스 위키피디아 템플릿에 가장 유사한 템플릿이 결정되어 정렬된다. Referring to FIG. 12, first, templates are sorted based on the cleavage of divider mapping. The sorting is performed based on the degree of similarity between the templates through the template advance search, and the template most similar to the source wikipedia template is determined and arranged.

이후 상기 소스 위키피디아 템플릿의 속성에 대응하도록 타겟 위키피디아 템플릿의 인포박스의 속성을 변환한다. 에를 들어 "출생지"라는 속성은 타겟 언어(영어) 템플릿의 "birth_place"로 변환되어 타겟 위키피디아 템플릿의 속성으로 표시되며, 이후 속성값이 변환되어 입력된다.Then, the attribute of the InfoBox of the target Wikipedia template is converted so as to correspond to the attribute of the source Wikipedia template. For example, the attribute "birthplace" is converted into the "birth_place" of the target language (English) template and displayed as an attribute of the target Wikipedia template, and then the attribute value is converted and input.

본 발명에 따른 위키피디아 교차언어 인포박스 완성방법는, 타겟 위키피디아 인포박스를 확장시키는 방식을 제공한다. The method of completing the Wikia cross-language InfoBox according to the present invention provides a way to expand the target Wikipedia InfoBox.

도 13은 본 발명의 일 실시예에 따른 타겟 위키피디아 인포박스를 확장시키는 방식으로 타겟 템플릿의 인포박스를 재설정하는 방법을 설명하는 단계도이다. 13 is a diagram illustrating a method of resetting an infobox of a target template in a manner of extending a target Wikipedia infobox according to an embodiment of the present invention.

도 13을 참조하면, 본 발명의 일 실시예에 따른 타겟 템플릿의 인포박스를 확장하는 방법은, 디비피디아 매핑의 특성 매핑(property mapping) 정보를 통해 동일한 디비피디아 특성(property)과 연결된 소스 위키피디아 속성과 타겟 위키피디아 속성을 연결하는 단계; 상기 연결된 타겟 위키피디아 인포박스 속성에 데이터가 있는지를 판단하는 단계; 및 만약 상기 타겟 위키피디아 인포박스에 데이터가 없는 경우, 연결된 상기 소스 위키피디아 인포박스 속성값에 따라 상기 타겟 위키피디아 인포박스에 속성값을 생성하는 단계를 포함한다. Referring to FIG. 13, a method for extending an infobox of a target template according to an embodiment of the present invention includes: a step of generating a source Wikipedia attribute, which is associated with the same divider property through property mapping information of a divider mapping, And a target Wikipedia attribute; Determining whether there is data in the linked target Wikipedia infobox attribute; And generating an attribute value in the target Wikipedia infobox according to the connected source Wikipedia infobox attribute value if there is no data in the target Wikipedia infobox.

도 14는 본 발명의 일 실시예에 따른 인포박스 확장 방식을 설명하는 도면이다. FIG. 14 is a view for explaining an information box extending method according to an embodiment of the present invention.

도 14를 참조하면, 먼저, 소스와 타겟 템플릿 사이의 속성을 변환한 후, 상기 소스 템플릿에는 있지만 타겟 템플릿에는 없는 속성을 추가한다. 이후 상기 추가된 속성에 대한 속성값(attribute)가 변환되어 입력된다. Referring to FIG. 14, first, an attribute between a source and a target template is transformed, and then an attribute that is present in the source template but not in the target template is added. Then, attribute values of the added attributes are converted and input.

도 15는 본 발명의 일 실시에에 따른 값 변환 방식을 설명하는 도면이다.15 is a view for explaining a value conversion method according to an embodiment of the present invention.

도 15를 참조하면 연결된 속성에 대하여 숫자, 날짜는 바로 타겟 속성값으로 바로 변환되어 입력되나, 문서의 경우의 통상의 번역기 AP에 의하여 변횐되어 타겟 언어 위키피디아 템플릿의 속성값으로 변환된다. 링크의 경우는 다국어 사전 링크에 의하여 변화된 후 번역된 속성값으로 입력된다. Referring to FIG. 15, the number and date of the connected property are directly converted into the target attribute value, but are converted by the normal translator AP in the case of the document and converted into the attribute value of the target language Wikipedia template. In the case of the link, it is changed by the multilingual dictionary link and then input as the translated attribute value.

Claims (6)

디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법으로,
소스 언어의 소스 위키피디아와 타겟 언어의 타겟 위키피디아를 결정하는 단계;
디비피디아 매핑을 이용하여 소스 위키피디아 템플릿과 타겟 위키피디아 템플릿 간에서 유사도가 높은 템플릿 관계를 결정하는 단계;
상기 소스 위키피디아 템플릿에 대응하는 속성과 유사도가 높은 타겟 언어의 속성 유사도를 결정하는 단계;
상기 소스 위키피디아 템플릿의 각 속성에 따라 타겟 위키피디아의 인포박스를 재구성하는 단계; 및
상기 타겟 위키피디아의의 인포박스를 재설정하는 단계를 포함하는 것을 특징을 하는 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법.
As a method of completing a Wikia cross-language InfoBox using Divipedia mapping,
Determining a target Wikipedia of the source language and a target language of the target language;
Determining a template relationship having a high degree of similarity between a source Wikipedia template and a target Wikipedia template using dividea mapping;
Determining an attribute similarity degree of a target language having a similarity to the attribute corresponding to the source wikipedia template;
Reconstructing the infobox of the target Wikipedia according to each attribute of the source Wikipedia template; And
And resetting the infobox of the target Wikipedia. ≪ Desc / Clms Page number 20 >
제 1항에 있어서, 상기 탬플릿 간 유사도를 결정하느 단계는,
디비피디아 매핑의 템플릿 매핑(Templet mapping)과 연결된 상기 소스 및 타겟 위키피디아 템플릿과 디비피디아 클래스(class)를 연결하는 단계;
상기 소스 위키피디아 탬플릿과 동일한 디비피디아 클래스로 연결된 상기 타겟 위키피디아의 탬플릿을 결정하는 단계;를 포함하는 것을 특징으로 하는 위키피디아 교차언어 인포박스 완성방법.
2. The method of claim 1, wherein determining the similarity between the templates comprises:
Linking the source and target Wikipedia templates and divider classes associated with a template mapping of the divider mapping;
And determining the template of the target Wikipedia linked to the same Wikipedia template class as the source Wikipedia template.
제 1항에 있어서,
상기 속성 유사도는 속성 상관관계, 문서 유사도, 숫자 유사도, 날짜 유사도 및 링크 유사도를 기준으로 결정하는 것을 특징으로 하는 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법.
The method according to claim 1,
Wherein the attribute similarity is determined based on attribute correlation, document similarity, number similarity, date similarity, and link similarity.
제 3항에 있어서,
상기 속성 유사도는 상기 속성 상관관계, 문서 유사도, 숫자 유사도, 날짜 유사도 및 링크 유사도를 SVM binary classifier를 통해 학습한 후, 입력되는 속성 쌍들이 유사한지 아닌지를 판단하는 방식으로 측정되는 것을 특징으로 하는 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법.
The method of claim 3,
Wherein the attribute similarity is measured by a method of determining whether the attribute pairs to be input are similar after learning the attribute correlation, document similarity, number similarity, date similarity, and link similarity through an SVM binary classifier, A method of completing Wikia Cross - language InfoBox using Pidia mapping.
제 1항에 있어서, 상기 타겟 템플릿의 인포박스를 재구성하는 단계는.
상기 소스 위키피디아 탬플릿과 탬플릿 유사도가 높은 최빈도 탬플릿을 기준으로 상기 타켓 위키피디아 인포박스를 생성하는 단계;
상기 소스 위키피디아 탬플릿의 속성과 속성 유사도에서 일치하는 속성을 상기 타겟 위키피디아 인포박스의 속성으로 변환하는 단계; 및
속성값 변환방법에 의해 상기 소스 위키피디아 인포박스의 속성값을 상기 타켓 위키피디아의 언어로 된 속성값으로 변환하여 입력하는 단계를 포함하는 것을 특징으로 하는 디비피디아 매핑을 이용한 위키피디아 교차언어 인포박스 완성방법.
The method of claim 1, wherein reconstructing the infobox of the target template comprises:
Creating the target Wikipedia infobox on the basis of the source template template and the template having the highest template similarity;
Converting an attribute matching the attribute of the source wikipedia template and the attribute similarity into an attribute of the target Wikipedia infobox; And
Converting the attribute value of the source Wikipedia infobox into an attribute value of the target Wikipedia language by an attribute value conversion method and inputting the attribute value of the target Wikipedia infobox into the property value of the target Wikipedia.
제 1항에 있어서, 상기 타겟 템플릿의 인포박스를 재설정하는 단계는,
디비피디아 매핑의 특성 매핑(property mapping) 정보를 통해 동일한 디비피디아 특성(property)과 연결된 소스 위키피디아 속성과 타겟 위키피디아 속성을 연결하는 단계;
상기 연결된 타겟 위키피디아 인포박스 속성에 데이터가 있는지를 판단하는 단계; 및
만약 상기 타겟 위키피디아 인포박스에 데이터가 없는 경우, 연결된 상기 소스 위키피디아 인포박스 속성값에 따라 상기 타겟 위키피디아 인포박스에 속성 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 위키피디아 교차언어 인포박스 완성방법.
2. The method of claim 1, wherein resetting the infobox of the target template comprises:
Linking a source Wikipedia attribute and a target Wikipedia attribute associated with the same divider property through property mapping information of the divider mapping;
Determining whether there is data in the linked target Wikipedia infobox attribute; And
And generating attribute data in the target Wikipedia infobox according to the connected source Wikipedia infobox attribute value when the target Wikipedia infobox does not contain data.
KR1020160060541A 2016-05-18 2016-05-18 Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings KR20170130040A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160060541A KR20170130040A (en) 2016-05-18 2016-05-18 Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160060541A KR20170130040A (en) 2016-05-18 2016-05-18 Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings

Publications (1)

Publication Number Publication Date
KR20170130040A true KR20170130040A (en) 2017-11-28

Family

ID=60811167

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160060541A KR20170130040A (en) 2016-05-18 2016-05-18 Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings

Country Status (1)

Country Link
KR (1) KR20170130040A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191462A (en) * 2019-12-30 2020-05-22 北京航空航天大学 Method and system for realizing cross-language knowledge space entity alignment based on link prediction

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191462A (en) * 2019-12-30 2020-05-22 北京航空航天大学 Method and system for realizing cross-language knowledge space entity alignment based on link prediction
CN111191462B (en) * 2019-12-30 2022-02-22 北京航空航天大学 Method and system for realizing cross-language knowledge space entity alignment based on link prediction

Similar Documents

Publication Publication Date Title
CN1578954B (en) Computer language translation and expansion system
Nguyen et al. A pilot study of text-to-SQL semantic parsing for Vietnamese
Tanaka et al. Noun-noun compound machine translation a feasibility study on shallow processing
CN102663129A (en) Medical field deep question and answer method and medical retrieval system
RU2644071C2 (en) Curation of multilingual commercial indicators and synthesis of transliteration
Baldwin et al. PanLex and LEXTRACT: Translating all words of all languages of the world
KR102457821B1 (en) Apparatus and method for supporting decision making based on natural language understanding and question and answer
CN106649457A (en) Data processing frame based on object relation mapping technology
Way et al. wEBMT: developing and validating an example-based machine translation system using the world wide web
JP2018152060A (en) Translation support system, translation support method, and translation support program
JP2020190970A (en) Document processing device, method therefor, and program
KR20220071017A (en) System and Method for Generating Test Document for Context Sensitive Spelling Error Correction Test Document
Zhang et al. Sciencebenchmark: A complex real-world benchmark for evaluating natural language to sql systems
Rossi et al. Applicability and application of machine translation quality metrics in the patent field
KR102251554B1 (en) Method for generating educational foreign language text by adjusting text difficulty
KR20170130040A (en) Method for Completion of Wikipedia Cross-lingual Infobox using DBpedia Mappings
TWI376656B (en) Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
Aceves-Pérez et al. Enhancing cross-language question answering by combining multiple question translations
Ten Hacken Has there been a revolution in machine translation?
ABU OBIED et al. A comparison between rule and dictionary based romanization of Arabic names
CN117667978B (en) Computer system for operating database by Chinese instruction
JP5039114B2 (en) Machine translation apparatus and program
Aransa et al. Semi-supervised transliteration mining from parallel and comparable corpora
CN113297089B (en) Knowledge graph-based mass measurement assistant implementation method