KR101712507B1 - Smart delivery system and method using wearable device - Google Patents

Smart delivery system and method using wearable device Download PDF

Info

Publication number
KR101712507B1
KR101712507B1 KR1020160145372A KR20160145372A KR101712507B1 KR 101712507 B1 KR101712507 B1 KR 101712507B1 KR 1020160145372 A KR1020160145372 A KR 1020160145372A KR 20160145372 A KR20160145372 A KR 20160145372A KR 101712507 B1 KR101712507 B1 KR 101712507B1
Authority
KR
South Korea
Prior art keywords
entity
name
model unit
result
linking
Prior art date
Application number
KR1020160145372A
Other languages
Korean (ko)
Inventor
노웅기
강상우
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020160145372A priority Critical patent/KR101712507B1/en
Application granted granted Critical
Publication of KR101712507B1 publication Critical patent/KR101712507B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • G06F17/30893
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • G06F17/30867
    • G06F17/30882

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an entity name linking system of a microblog. According to an embodiment of the present technology, the present invention has an advantage of increasing the accuracy of entity name linking work within a short-length microblog document by performing entity name linking work in consideration of the interest field of a microblog user, real-time social issue, and contextual information of the microblog by using news article or the like, which is a knowledge base and an external resource other than the knowledge base.

Description

마이크로블로그의 개체명 링킹 시스템. {SMART DELIVERY SYSTEM AND METHOD USING WEARABLE DEVICE } Object linking system of microblog. {SMART DELIVERY SYSTEM AND METHOD USING WEARABLE DEVICE}

본 발명은 마이크로블로그의 개체명 링킹 시스템에 관한 것으로, 더욱 상세하게는 마이크로블로그에서 나타나는 개체명의 중의성을 보다 높은 정확도로 해소하며 개체명 링크 작업을 수행할 수 있는 마이크로블로그의 개체명 링킹 시스템에 관한 것이다.The present invention relates to an object name linking system for a microblog, and more particularly, to an object name linking system for a microblog, which can perform object name linking operations with higher accuracy, .

최근 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 네트워크의 출현 등으로 정보량이 급속도로 늘어나고 있다. 따라서 증가하는 정보들 가운데 필요한 정보를 찾기 위한 다양한 연구들이 진행되고 있다. 정보 추출의 한 분야인 개체명 인식과, 인식된 개체명을 특정 개체에 링킹하는 연구들은 방대한 정보 속에서 의미 있는 지식을 추출하기 위해 활발히 시도되고 있다. 개체 링킹(Entity Linking)은 텍스트에 출현한 개체명을 위키피디아와 같은 지식 베이스의 특정 엔트리에 대응시키는 작업이다.Recently, the amount of information is rapidly increasing due to the development of internet and computing technology, the evolution of mobile devices and sensors, and the emergence of networks. Therefore, various studies are being conducted to find the necessary information among the increasing information. Identification of the entity name, which is an area of information extraction, and linking of the recognized entity name to a specific entity are actively attempted to extract meaningful knowledge in vast amount of information. Entity Linking is the task of mapping entity names in text to specific entries in the knowledge base, such as Wikipedia.

도 1은 지식 베이스를 이용하는 개체 링킹의 예를 도시한다. 도 1에서 왼쪽 텍스트 상자의 굵은 글씨가 중의성을 가지는 개체명“이소라”이고,실선으로 이루어진 화살표가 가리키는“이소라(가수)”가 링킹이 되어야 하는 지식 베이스의 정답 개체명이다. Figure 1 shows an example of object linking using a knowledge base. In Fig. 1, the left text box is the object name "Isoara" having bold characters, and the solid arrow "Isoara (singer)" is the correct object name of the knowledge base to be linked.

중의성 해소를 위해 대상 개체명 인접 문맥정보 와 지식 베이스를 외부자원으로 활용하는데,개체명 인접 문맥 정보의 형태는 지식 베이스의 엔트리가 될 수 있다. 예를 들어,왼쪽 텍스트 상자에서는 “이소라의 프로포즈”가 지식 베이스의 엔트리에 존재하는 개체이고,지식 베이스에서 이소라(가수)가 진행한 프로그램이라는 정보를 제공해 주므로,올바르게 중의성을 해소하게 된다.In order to resolve the ambiguity, the target entity name adjacent context information and the knowledge base are used as external resources. The form of the entity name adjacent context information can be an entry of the knowledge base. For example, in the text box on the left, "Proposal of Lee Soo-Ra" is an entity that exists in the entry of the knowledge base, and it provides the information that the Lee So-young (singer) has performed the program in the knowledge base.

위와 같이 최근 개체 링킹에 대한 연구들은 지식 베이스를 외부 자원으로 사용하여 실세계의 지식과 의미적인 관련도를 통해 중의성을 해소하는데 중점을 두고 있다. As mentioned above, recent studies on object linking have focused on solving the ambiguity through the knowledge and semantic relation of the real world using the knowledge base as an external resource.

한편, 대표적인 마이크로블로그 서비스라고 할 수 있는 트윗(Tweet)을 예로 들면, 사용자들이 실시간으로 140자 이내의 트윗이라는 글을 쓰는 행위를 통해 의사소통하는 공간이며 트윗은 개인의 관심 분야나 일상생활, 사회적 이슈 등의 주제에 대해 실시간으로 빠르게 전파되는 특성을 지닌다.On the other hand, as an example of a tweet that can be described as a typical microblog service, a user communicates through the act of writing a tweet within 140 characters in real time. The tweet is a space of personal interest, daily life, social Issues in real-time.

지식 베이스를 사용한 개체 링킹은 신문기사나 블로그 포스트 등에서는 좋은 성능을 보이지만, 마이크로블로그에서는 짧은 텍스트 길이와 마이크로블로그에서는 위와 같이 지식 베이스에 존재하지 않는 실시간으로 이슈가 되고 있는 주제가 다루어지는 특성 때문에 비교적 낮은 성능을 보이는 문제가 있다. 이에 따라 지식 베이스 이외의 외부 자원을 이용하여 위와 같은 특성을 가지는 마이크로블로그에 있어서의 개체 링킹 성능을 높이기 위한 방안이 필요한 실정이다.Object linking using a knowledge base has a good performance in newspaper articles and blog posts. In micro blogs, however, short text lengths and micro blogs are relatively low because of the nature of subjects that are issues in real time, There is a performance problem. Accordingly, there is a need for a method for enhancing object linking performance in a microblog having the above characteristics by using external resources other than the knowledge base.

1. 한국공개특허(10-2010-00956912)1. Korean patents (10-2010-00956912)

1. 김영식, 함영균, 김지성, 황도삼, 최기선 (2014). 한국어 텍스트의 개체 URI 탐지 : 품사 태깅 독립적 개체명 인식과 중의성 해소, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 100-106.1. Kim Young-sik, Ham Young-kyun, Kim Ji-sung, Hwang Do-sam and Choi Ki-sun (2014). Detection of object URIs in Korean text: Partial tagging Identification of independent object names and elimination of ambiguities, Proceedings of the 26th Annual Conference on Korean and Korean Information Processing, 100-106.

본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 지식베이스 뿐만 아니라 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈 및 마이크로블로그의 문맥적 정보를 고려하여 개체명 링크 작업을 수행하는 마이크로블로그의 개체명 링킹 시스템을 제공하는 데 그 목적이 있다.The object of the present invention is to solve the above problems and to provide an object name linking function of a microblog that performs an object name link operation in consideration of not only a knowledge base but also a context of interest of a microblog user, The purpose of the system is to provide.

본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 마이크로블로그 텍스트를 수집하여 개체명을 인식하는 개체명인식부; 인식된 상기 개체명 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력하는 문맥모델부; 웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력하는 이슈모델부; 및 상기 문맥모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하는 것을 특징으로 한다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a micro blog system, A context modeling unit for outputting a result of the deconvolution according to the analysis of the weighted object names of the pertinent object names in the perceived entity name by using the knowledge base; An issue model unit for collecting news articles from the web, generating a link to a specific entry of the knowledge base with respect to the collected news articles, and outputting a result of deconvolution according to analysis; And a linking model unit for performing an entity name link operation by integrally analyzing the result of decentralization output from the context model unit and the issue model unit.

바람직하게는, 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력하는 유저모델부를 더 포함하고, 상기 링킹모델부는, 상기 문맥모델부, 유저모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하는 것일 수 있다.The linking model unit may further include a user model unit for outputting a result of the deconvolution by collecting and analyzing the web record created by the microblog text publisher, And a linking model unit for performing an entity name link operation by integrally analyzing the output result of the deconvolution.

바람직하게는, 상기 문맥모델부는, 상기 중의성 있는 개체명의 후보 엔트리 각각의 지식베이스 페이지에 대하여 상기 비중의성 개체명의 링크 출현 횟수를 계산함에 따라 중의성 해소 결과를 출력하는 것이고, 상기 유저모델부는, 게시자의 과거 게시글을 웹으로부터 전부 또는 일부를 추출하여 좌최장일치법, uni-gram 또는 bi-gram 자질을 이용함에 따라 지식베이스 엔트리 에 해당하는 개체명이 존재하는 개체명 집합을 구축하고, 추출된 상기 과거 게시글로부터 비중의성 개체명의 추출 빈도에 따라 중의성 해소 결과를 출력하는 것이고, 상기 이슈모델부는, 마이크로블로그 텍스트의 게시 날짜의 소정 일수 전후의 뉴스 기사를 수집하고, 지식베이스 엔트리 페이지의 텍스트와 뉴스 기사 페이지의 텍스트 간의 코사인 유사도를 이용하여 각각의 뉴스 기사에 대하여 특정 지식베이스 엔트리를 링크한 페이지를 기반으로 이슈 스코어링을 함에 따라 중의성 해소 결과를 출력하는 것이고, 상기 링킹모델부는, 상기 문맥모델부, 유저모델부, 이슈모델부의 출력 각각에 대하여 가중치 매개변수를 곱한 결과에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것이고, 상기 지식 베이스로 위키피디아를 이용하는 것일 수 있다.Preferably, the context modeling unit outputs the result of the false elimination by calculating the number of link occurrence count of the weighted entity name for each knowledge base page of each candidate entry of the failed entity name, and the user model unit, Constructs a set of entity names in which the entity name corresponding to the knowledge base entry is obtained by extracting all or part of the publisher's past postings from the web and using the left-most long-match method, uni-gram or bi- gram qualities, Wherein the issue modeling unit collects news articles about a predetermined number of days before and after the publication date of the microblog text, and outputs the text of the knowledge base entry page and the news article Using the cosine similarity between the texts of the pages, Wherein the linking modeling unit outputs a result of the weighted solution by performing issue scoring based on a page linking a specific knowledge base entry with respect to each of the output of the context modeling unit, the user modeling unit, and the issue modeling unit, It is possible to solve the property of the object name according to the result of multiplying the variable, to perform the object name link operation, and to use the Wikipedia as the knowledge base.

바람직하게는, 상기 문맥모델부는,Preferably, the context modeling unit includes:

Figure 112016107293227-pat00001
Figure 112016107293227-pat00001

(<D>는 링킹되는 문서 D에 나타나는 모든 개체 집합,

Figure 112016107293227-pat00002
는 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016107293227-pat00003
는 중의성 개체가 나타나는 문서 D에 존재하는 i번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고, 상기 유저모델부는,
Figure 112016107293227-pat00004
(Where <D> is the set of all entities appearing in linked document D,
Figure 112016107293227-pat00002
Is the j-th candidate entity present in the Wikipedia entry,
Figure 112016107293227-pat00003
Is the i-th weighted entity present in the document D in which the mood entity is represented), and outputs the result of the mood solution having the highest score according to the expression:
Figure 112016107293227-pat00004

(

Figure 112016107293227-pat00005
는 중의성이 해소되어야 하는 개체명에 대하여 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016107293227-pat00006
는 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고, 상기 이슈분석부는,(
Figure 112016107293227-pat00005
Is the j-th candidate entity in the Wikipedia entry for the entity name for which the ambiguity should be resolved,
Figure 112016107293227-pat00006
Is the i-th weighted entity existing in the document in which the mood entity is present), and outputs the result of the mood solution having the highest score according to the equation of (i)

Figure 112016107293227-pat00007
Figure 112016107293227-pat00007

( <D>는 링킹되는 문서 D에 나타나는 모든 개체 집합,

Figure 112016107293227-pat00008
는 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016107293227-pat00009
Figure 112016107293227-pat00010
를 주제로 하는 i번 째 뉴스기사,
Figure 112016107293227-pat00011
는 모든
Figure 112016107293227-pat00012
의 집합,
Figure 112016107293227-pat00013
는 중의성 개체가 나타나는 문서 D에 존재하는 k번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고, 상기 통합분석부는,(Where <D> is the set of all entities appearing in linked document D,
Figure 112016107293227-pat00008
Is the j-th candidate entity present in the Wikipedia entry,
Figure 112016107293227-pat00009
The
Figure 112016107293227-pat00010
The i-th news article on the theme,
Figure 112016107293227-pat00011
All
Figure 112016107293227-pat00012
A set of,
Figure 112016107293227-pat00013
Is a k-th weighted entity existing in the document D in which the mood entity appears, and outputs the result of the mood solution having the highest score in accordance with the expression:

Figure 112016107293227-pat00014
Figure 112016107293227-pat00014

(E는 중의성이 해소되어야 하는 개체명임)의 식에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것일 수 있다.(E is the name of the object whose ambiguity should be resolved), and can perform the object name link operation.

전술한 바와 같은 본 발명에 따르면, 지식베이스와 지식 베이스 이외의 외부 자원인 뉴스 기사 등을 활용하여 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈 및 마이크로블로그의 문맥적 정보를 고려함에 따라 개체명 링크 작업을 수행함으로써 짧은 길이의 마이크로블로그 문서내 개체명 링크 작업의 정확도를 높일 수 있다.As described above, according to the present invention, considering the interest field of the microblog user and the contextual information of the microblog and the real-time social issue using the knowledge base and the news source, which are external resources other than the knowledge base, It is possible to increase the accuracy of the object name linking operation in the short-length microblog document.

도 1은 지식 베이스를 이용하는 개체 링킹의 예를 도시한다.
도 2은 본 발명의 일 실시예에 따른 마이크로블로그 개체명 링킹 시스템의 구조에 대한 개념도를 도시한다.
도 3은 본 발명의 일 실시예에 따른 마이크로블로그의 개체명 링킹 시스템의 블록도를 도시한다.
도 4은 본 발명의 일 실시예에 따른 유저모델의 구조에 대한 개념도를 도시한다.
도 5은 본 발명의 일 실시예에 따른 이슈 모델의 구조에 대한 개념도를 도시한다.
Figure 1 shows an example of object linking using a knowledge base.
FIG. 2 is a conceptual diagram illustrating a structure of a microblog object name linking system according to an embodiment of the present invention.
3 shows a block diagram of an object name linking system of a microblog according to an embodiment of the present invention.
4 shows a conceptual diagram of a structure of a user model according to an embodiment of the present invention.
FIG. 5 shows a conceptual diagram of the structure of an issue model according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention, and the manner of achieving them, will now be described, by way of example only, with reference to the accompanying drawings, in which: References to examples will be clear. It should be noted that the detailed description of known functions and constructions related to the present invention will not be described in detail when it is determined that the gist of the present invention may be unnecessarily blurred.

본 발명에서 엔트리는 개체와 동일한 의미로 사용될 수 있으며 각 페이지의 텍스트가 설명하는 대상을 나타낸다. 또한 페이지의 텍스트 내에는 의미적 관계를 가지는 다른 개체들의 페이지들이 링크로 나타난다. 다시 말해, 위키피디아 개체들 사이에 링크가 존재하면, 개체들은 의미적 관계를 갖는다. 여기서 페이지란 웹 페이지로 이해될 수 있다. 또한 본 발명에서 개체 링킹이란 개체명을 인식하여 링크하는 작업이라고 할 수 있다. 본 발명에서 지식 베이스는 바람직하게는 위키피디아 일 수 있으며, 위키피디아에 적용되는 기술이라고 하더라도 유사한 다른 지식 베이스에 얼마든지 적용가능하며, 마찬가지로 트윗을 예로 들더라도 트윗과 유사한 기타 마이크로블로그 서비스에도 얼마든지 적용이 가능하다.In the present invention, an entry can be used in the same sense as an object, and the text of each page represents an object to be described. Also, pages of other entities that have a semantic relationship appear in the text of the page as links. In other words, if there is a link between Wikipedia entities, entities have a semantic relationship. Here, a page can be understood as a web page. Also, in the present invention, object linking is a task of recognizing and linking object names. In the present invention, the knowledge base is preferably a Wikipedia, and even a technology applied to Wikipedia can be applied to other similar knowledge bases. Likewise, even if a tweet is applied to other microblog services similar to tweets, It is possible.

본 발명에서 제안하는 시스템은 마이크로블로그 사용자의 관심 분야와 실시간 사회적 이슈, 그리고 트윗 발언 내의 문맥적 정보를 고려하는 방법을 적용한다. The system proposed in the present invention applies a method of taking into consideration the interests of a microblog user, real-time social issues, and contextual information in tweet remarks.

도 2는 본 발명의 일 실시예에 따른 마이크로블로그 개체명 링킹 시스템의 구조에 대한 개념도를 도시한다.2 is a conceptual diagram of a structure of a microblog object name linking system according to an embodiment of the present invention.

제안하는 시스템은 도 2을 참조하면 세 가지 모델로 구성될 수 있다. 문맥 모델(Contexual model), 사용자 모델(User model), 이슈 모델(Issue model)로 이루어지고 링킹 모델(Linking model)이 이들을 통합하는 구조이다.The proposed system can be composed of three models with reference to FIG. It consists of a Contextual model, a User model, and an Issue model, and the Linking model integrates them.

문맥 모델은 중의성을 가지는 개체명 주변 문맥의 비중의성 공기 개체들을 사용하여 중의성을 해소할 수 있다. The context model can resolve the ambiguity by using the objects in the context of the context of the object name with the ambiguity.

사용자 모델은 중의성을 해소하고자 하는 개체명을 포함한 트윗을 게시한 사용자의 마이크로블로그 계정의 기록 기타 웹에 존재하는 기록의 전부 또는 일부를 수집하여 중의성을 해소할 수 있다.The user model can record the microblog account of the user who posted the tweet including the name of the entity that wants to solve the ambiguity, and collect the whole or part of the existing record on the web to eliminate the ambiguity.

이슈 모델은 위키피디아와 같은 지식 베이스에서 다루지 않는 자질을 외부 자원인 뉴스 기사로부터 추출할 수 있다.Issue models can extract qualities not covered by a knowledge base such as Wikipedia from news articles that are external resources.

링킹 모델은 세 모델의 출력을 통합 분석하여 가장 가능성이 높은 후보 엔트리를 결정하여 개체명을 링킹한다.The linking model analyzes the output of all three models, determines the most likely candidate entry, and links the object name.

본 발명은 개체명을 인식하는 개체명인식부와 위 각 모델들이 구현된 문맥모델부, 유저모델부, 이슈모델부, 링킹모델부를 포함하여 구성될 수 있다.The present invention may include a context model unit, a user model unit, an issue model unit, and a linking model unit, each of which includes an object name that recognizes an entity name and the above-described respective models.

도 3은 본 발명의 일 실시예에 따른 마이크로블로그의 개체명 링킹 시스템의 블록도를 도시한다.3 shows a block diagram of an object name linking system of a microblog according to an embodiment of the present invention.

도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 마이크로블로그의 개체명 링킹 장치는 개체명인식부(100), 문맥모델부(200), 이슈모델부(300), 링킹모델부(500)를 포함한다. 또한, 유저모델부(400)를 더 포함할 수 있다.3, the object name linking apparatus of a microblog according to an exemplary embodiment of the present invention includes an expression unit 100, a context model unit 200, an issue model unit 300, a linking model unit 500 ). In addition, it may further include a user model unit 400.

개체명인식부(100)는 마이크로블로그 텍스트를 수집하여 개체명을 인식한다. 예를 들면, 개체명인식부(100)는 개체명 링크 작업을 수행하고자 하는 마이크로블로그 텍스트를 웹으로 부터 수집하고, 수집된 마이크로블로그 텍스트에 포함된 개체명을 인식한다.The expression unit 100, which is an object name, collects the microblog text and recognizes the entity name. For example, the food unit 100, which is an object name, collects microblog texts for performing an object name linking operation from the web and recognizes object names included in the collected microblog texts.

개체 링킹을 위해서는 대상으로 하는 개체들을 파악해야 하므로 개체명 인식을 수행한다. 지식 베이스 기반 개체 링킹에서의 개체명 인식은 텍스트 내 모든 가능한 지식 베이스에 존재하는 개체들의 정규화된 명칭들의 후보 엔트리를 추출하는 것일 수 있다. 예를 들면, ‘이소라’라는 개체에 일반적인 개체명 인식에서는 “PER”등의 클래스로 분류하지만, 지식 베이스 개체명 인식에서는 “이소라(가수)”, “이소라(모델)” 등의 개체명으로 후보 엔트리를 추출한다.For object linking, object identification is performed because it is necessary to identify the objects to be targeted. Entity-name recognition in knowledge base-based object linking may be to extract candidate entries of normalized names of entities in all possible knowledge bases in the text. For example, in the object name recognition of the object named 'Isoara', it is classified into the class such as' PER 'in the recognition of the object name, but in the recognition of the knowledge base object name, the object name such as' Extract the entry.

여기에는 텍스트 문서 내 모든 가능한 n-gram 용어들 중 개체명 사전에 해당하는 것들만 추출하는 방법이나, 개체명이 정답으로 부여된 학습문서를 분류기로 학습하여 개체명을 인식하는 방법이 가능할 수 있다. Here, it is possible to extract only those corresponding to the object name dictionary among all possible n-gram terms in the text document, or to learn the object name by learning the learning document to which the object name is correctly assigned as the classifier.

한국어 개체 링킹에 있어서는 각 개체명이 나타날 수 있는 surface form 을 미리 사전으로 구축하여,SVM 을 이용한 개체경계 인식방법을 이용할 수도 있다. 트윗에서의 개체명 인식은 영문 트윗을 대상으로 KNN classifier와 CRF labeler를 하이브리드 방식으로 사용하여 반지도 방식으로 시도할 수도 있다.In Korean language linking, it is possible to construct a surface form in which each object name can appear in advance, and use the object boundary recognition method using SVM. The recognition of the entity name in the tweet can be attempted in a ring way by using the KNN classifier and the CRF labeler in a hybrid manner for an English tweet.

개체명 인식 후에는 정확한 개체 링킹을 위해 인식된 개체명 중 중의성을 가지는 개체명의 중의성 해소가 필요하다.After recognizing the entity name, it is necessary to resolve the identity of the entity name having the correctness among the recognized entity names for accurate object linking.

본 발명의 식에서 E는 중의성이 해소되어야 하는 개체명,

Figure 112016107293227-pat00015
는 위키피디아 엔트리에 존재하는 j번 째 비중의성 개체,
Figure 112016107293227-pat00016
는 E가 링크 될 수 있는 위키피디아 엔트리에 존재하는 j번 째 후보 개체를 의미한다.In the equation of the present invention, E is the name of the object for which the ambiguity is to be resolved,
Figure 112016107293227-pat00015
Is the j-th weighted object in the Wikipedia entry,
Figure 112016107293227-pat00016
Is the j-th candidate entity in the Wikipedia entry where E can be linked.

또한 <D>는 문서 D에 나타나는 모든 개체 집합,

Figure 112016107293227-pat00017
Figure 112016107293227-pat00018
를 주제로 하는 i번 째 뉴스기사,
Figure 112016107293227-pat00019
는 모든
Figure 112016107293227-pat00020
의 집합, [e]는 위키피디아 엔트리 e가 가지는 위키피디아 링크의 집합,
Figure 112016107293227-pat00021
는 각 j번 째 후보 엔트리의 문맥 모델, 유저 모델, 이슈모델의 스코어를 의미한다. Also, <D> is the set of all objects appearing in document D,
Figure 112016107293227-pat00017
The
Figure 112016107293227-pat00018
The i-th news article on the theme,
Figure 112016107293227-pat00019
All
Figure 112016107293227-pat00020
, [E] is the set of Wikipedia links that Wikipedia entry e has,
Figure 112016107293227-pat00021
Is the score of the context model, the user model, and the issue model of each jth candidate entry.

문맥모델부(200)는 개체명인식부(100)에 의해 인식된 개체명들 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력한다.The context modeling unit 200 outputs the result of the deconvolution by analyzing the weighted object names of the surrounding contexts of the object names among the object names recognized by the expression unit 100, which is the object name, using the knowledge base.

문맥모델부(200)는 문맥 정보를 사용한다. 여기서 문맥 정보란, 중의성을 가지는 개체명의 인접한 비중의성 개체명들을 말한다. 예를 들어, 하나의 트윗에 중의성을 가지는 개체명이 존재 할 경우 트윗에 포함된 모든 비중의성 개체명들이 해당된다. The context modeling unit 200 uses context information. Here contextual information refers to contiguous object names of contiguous individuals of the same name. For example, if there is an entity name in a tweet that has a neutrality, all the non-weighted entity names included in the tweet are relevant.

대부분의 위키피디아를 외부자원으로 사용한 종래의 기술에서 사용된 의미 관련도는 인접 용어 집단 뿐 아니라 위키피디아 카테고리 정보도 사용한다. 그러나 위키피디아 카테고리 정보를 사용한 경우 사용하지 않은 경우보다 성능이 낮게 나오는 경우도 있다. The semantic associations used in conventional technologies using most Wikipedia as external resources use Wikipedia category information as well as adjacent term groups. However, when using Wikipedia category information, performance may be lower than when it is not used.

위키피디아의 사용자나 한국어 위키피디아는 영어 위키피디아 보다 비교적 카테고리 정보가 불충분하기 때문에 본 발명의 실시예에서는 카테고리 정보를 사용하지 않을 수 있다.The user of the Wikipedia or the Korean Wikipedia may not use the category information in the embodiment of the present invention because the category information is insufficient relative to the English Wikipedia.

문맥 모델부(200)는 아래 수학식 1과 같은 스코어링 방법을 이용할 수 있다. The context modeling unit 200 may use a scoring method as shown in Equation 1 below.

수학식 1Equation 1

Figure 112016107293227-pat00022
Figure 112016107293227-pat00022

중의성을 가지는 개체명과 인접한 비중의성 개체명의 상호 관계 점수를

Figure 112016107293227-pat00023
로 나타낼 때 문맥 모델부(200)는
Figure 112016107293227-pat00024
가 후보 엔트리들 중에서 가장 높은 점수를 가지는 엔트리를 중의성 해소 결과로 출력할 수 있다.The name of the object having the affinity and the degree of correlation
Figure 112016107293227-pat00023
The context modeling unit 200 determines
Figure 112016107293227-pat00024
Can output the entry having the highest score among the candidate entries as a result of the vanity elimination.

Figure 112016107293227-pat00025
Figure 112016107293227-pat00026
Figure 112016107293227-pat00027
의 가중 합으로 이루어진다.
Figure 112016107293227-pat00028
은 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체
Figure 112016107293227-pat00029
의 위키피디아 페이지에 나타나는 링크와 후보 개체
Figure 112016107293227-pat00030
의 위키피디아 페이지의 링크 정보가 겹치는 횟수를 계산하는 수식이다.
Figure 112016107293227-pat00025
silver
Figure 112016107293227-pat00026
and
Figure 112016107293227-pat00027
.
Figure 112016107293227-pat00028
Is the i-th weighted object
Figure 112016107293227-pat00029
Links appearing on the Wikipedia page of
Figure 112016107293227-pat00030
This is a formula that calculates the number of times the link information of the Wikipedia page is overlapped.

위키피디아에는 동명이인 문서 “disambiguation page”가 있다. 도 0을 참조하면 “이소라” 동명이인 문서에는 세 명의 후보를 가진다. 첫 번째 “이소라”는 대한민국의 모델이고, 두 번째는 대한민국의 가수이다. 마지막 “이소라”는 대한민국 배구 선수이다. 예를 들어, E가 “이소라”라면, 위 식(1)에서 계산된

Figure 112016107293227-pat00031
가 각각 “이소라(가수)”, “이소라(모델)”, “이소라(배구선수)”에 대해 계산되고, 이 때,
Figure 112016107293227-pat00032
는 중의성 개체가 발견된 트윗에서 나타난 비중의성 개체가 된다. 문맥모델부(200)는
Figure 112016107293227-pat00033
가 가장 높은 점수를 가지는 후보 엔트리로 링킹이 가능하도록 중의성 해소 결과로서 출력을 할 수 있으며, 엔트리와 함께 그 점수를 포함하여 출력할 수 있다.Wikipedia has the same name "disambiguation page". Referring to FIG. 0, the document having the same name as &quot; Isola &quot; has three candidates. The first "Isola" is the model of the Republic of Korea, and the second is the singer of the Republic of Korea. The last "Isola" is a Korean volleyball player. For example, if E is "isola," then E
Figure 112016107293227-pat00031
Are computed for "Isola (singer)", "Isola (model)" and "Isola (volleyball player)", respectively,
Figure 112016107293227-pat00032
Becomes a weighted object in the tweet where the mural object is found. The context modeling unit 200
Figure 112016107293227-pat00033
Can be output as a result of the false elimination so that linking to the candidate entry having the highest score can be performed, and the output including the score can be output together with the entry.

또한 본 발명에 따른 마이크로블로그의 개체명 링킹 장치는 유저모델부(300)를 포함할 수도 있다.In addition, the apparatus for linking object names of microblogs according to the present invention may include a user model unit 300.

유저모델부(300)는 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력한다. 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록은 해당 마이크로블로그 뿐만 아니라 기타 여러 웹에서 게시자가 작성한 기록을 포함한다.The user modeling unit 300 outputs the result of the deconvolution according to the collection and analysis of the web record created from the microblog text publisher. Web history written by a microblog text publisher includes records written by the publisher on the microblog as well as other various webs.

트윗과 같은 마이크로블로그는 사용자의 관심 분야에 대해 의사소통이 이루어질 수 있는 특성이 있다. 유저 모델은 이러한 특성을 이용하여 사용자의 행동과 관심분야를 다루기 위해 사용자의 이전 트윗 기록 및 수집 가능한 기타 웹 기록의 전부 또는 일부를 사용할 수 있다. 사용자의 이전 트윗 등에서 나타나는 개체명들에 대해 사용자는 관심과 흥미를 가지고 있다고 가정한다.Micro blogs, such as tweets, are characterized by the ability to communicate about their interests. Using these characteristics, the user model can use all or a portion of the user's previous tweets and other web records that can be collected to deal with the user's behavior and interests. It is assumed that the user has interest and interest in the object names appearing in the user's previous tweet or the like.

도 4는 본 발명에 따른 유저모델부(300)의 구조에 대한 개념도를 도시한다.FIG. 4 shows a conceptual diagram of the structure of the user model unit 300 according to the present invention.

도 4를 참조하여 예를 들면, 유저 모델부(300)가 중의성을 가지는 개체명을 특정 트윗에서 인식하면, 그 트윗을 남긴 사용자의 이전 모든 트윗을 추출한다. 개체 통합 모듈(Entity Intergration module)은 좌최장일치방법과 어절 uni-gram과 bi-gram 자질을 이용하여 미리 구축한 위키피디아 엔트리 사전에 해당하는 개체가 존재하면 추출하여 <D>에 추가한다. D의 위키피디아 엔트리들은 대부분 명사구로 이루어져 있다. 하지만 트윗 데이터의 특성상 노이즈가 많아 형태소 분석의 성능이 떨어지기 때문에 개체 추출시 좌최장일치법을 사용하고 자질로는 어절 uni-gram과 bi-gram을 이용할 수 있다. Referring to FIG. 4, for example, if the user model unit 300 recognizes an object name having a falsehood in a specific tweet, all tweets of the user who left the tweet are extracted. The Entity Intergration module extracts and adds to the <D> if there is a corresponding entry in the Wikipedia entry dictionary built using the left-most matching method and the uni-gram and bi-gram features. D's Wikipedia entries are mostly made up of noun phrases. However, due to the nature of the tweet data, the performance of the morphological analysis deteriorates due to the large number of noises. Therefore, uni-grams and bi-grams can be used as the qualities.

유저모델부(300)는 아래의 수학식 2를 이용하여 유저 모델에 의한 점수를 산출할 수 있다.The user modeling unit 300 can calculate the score of the user model using the following equation (2).

수학식 2Equation 2

Figure 112016107293227-pat00034
Figure 112016107293227-pat00034

도 4의 예에 따라 설명하면, 중의성을 가지는 개체인 “이소라”를 사용자 p2의 트윗에서 발견하고, p2의 모든 과거 트윗 기록을 수집한다. 이 때 수집된 모든 과거 트윗 기록은 D라고 볼 수 있다. 개체 통합 모듈은 과거 p2의 트윗 기록에서 “이소라 (가수)가 출현했던 ”나가수“와 방송사인 ”MBC“와 같은 개체명인

Figure 112016107293227-pat00035
를 추출한다. 이 자질들은 링크 후보 개체인
Figure 112016107293227-pat00036
중 ”이소라 (가수)“가 최종적으로 중의성 해소 결과로 출력될 가능성을 높여준다. 왜냐하면 ”이소라 (가수)“의 위키피디아 페이지에는 ”나가수“와 ”MBC“라는 개체명을 링크로 가지고 있기 때문에
Figure 112016107293227-pat00037
(이소라 (가수))의 점수가 높아지기 때문이다.In accordance with the example of FIG. 4, an entity having a meaningfulness, &quot; isola, &quot; is found in the tweet of the user p2 and collects all past tweets of the p2. All past tweets collected at this time can be viewed as D. The object integration module is an object name such as "Nagasu" in which Iora (singer) appeared and "MBC"
Figure 112016107293227-pat00035
. These qualities are linked candidate objects
Figure 112016107293227-pat00036
(Singer) "is finally output as a result of resolution of ambiguity. Because the Wikipedia page for "Isola (singer)" has a link to the object name "Nagasu" and "MBC"
Figure 112016107293227-pat00037
(Lee So-ra (singer)) score is higher.

이슈모델부(500)는 웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력한다.The issue modeling unit 500 collects news articles from the web, generates a link to a specific entry of the knowledge base for the collected news articles,

이슈모델부(500)는 문맥모델과 유저 모델이 다루지 못하는 실시간 사회적 사건들이나 사소한 대중들이 관심을 가지는 사건들을 다룰 수 있다. 예를 들면, 유명 연예인의 실시간으로 일어난 사건이나 아주 사소한 사건으로 위키피디아와 같은 무거운 지식 베이스에서는 다루지 못하지만 트윗과 같은 마이크로블로그에서는 많이 다루어지는 주제들을 말한다. 뉴스 기사는 위에서 말한 사건들을 다루는 특성을 지니고 있으므로, 이슈모델부(500)는 뉴스 기사를 외부 자원으로 사용한다.The issue model unit 500 can handle contextual models and real-time social events that the user model can not handle, or events that are of interest to the trivial public. For example, events that happen in real time by famous entertainers, or very minor events, are not covered by a heavy knowledge base like Wikipedia, but they are topics that are covered in many blogs such as tweets. Since the news article has the characteristics of dealing with the above-mentioned events, the issue model unit 500 uses the news article as an external resource.

도 5는 본 발명의 일 실시예에 따른 뉴스 링킹 모듈과 개체명 생성 모듈로 구현되는 이슈 모델의 구조에 대한 개념도를 도시한다. 5 is a conceptual diagram illustrating a structure of an issue model implemented by a news linking module and an entity name generation module according to an embodiment of the present invention.

도 5를 참조하면, 이슈모델이 중의성을 가지는 개체명인 “이소라”를 이슈모델과 같은 방법으로 인식하면, 뉴스 링킹 모듈(News linking module)이 인식된 트윗 게시 날짜의 k일 전후로 "이소라”가 제목에 포함 된 뉴스기사를 수집한다. Referring to FIG. 5, when the issue model recognizes the object name "Isora" having the attribute of a substance in the same manner as the issue model, "IsoRa" is recorded in k days of the tweet posting date on which the news linking module is recognized Collect the news articles included in the title.

수집 된 뉴스 기사들은 제목에 나타난 "이소라”의 동명이인 페이지에 나타난 위키피디아 엔트리들“이소라 (가수)”,"이소라 (모델)”,"이소라 (배구선수)”의 페이지에 나타난 텍스트와 코사인 유사도를 통해 특정 후보 엔트리

Figure 112016107293227-pat00038
와 링킹 된다. The collected news articles have texts similar to the text displayed on the pages of Wikipedia entries "Isola (singer)", "Isola (model)" and "Isola (volleyball player) Lt; RTI ID = 0.0 &gt;
Figure 112016107293227-pat00038
Lt; / RTI &gt;

위의 예에서는 후보 엔트리인

Figure 112016107293227-pat00039
,
Figure 112016107293227-pat00040
,
Figure 112016107293227-pat00041
가 각각 "이소라 (가수)”,"이소라 (모델)” 그리고 "이소라 (배구선수)”가 된다. 다시 말해 이슈모델은 뉴스 기사 각각 특정 위키피디아 엔트리와 링크함으로써 뉴스 기사 하나를 하나의 위키피디아 페이지로 취급한다. 각 기사는 후보 엔트리
Figure 112016107293227-pat00042
를 주제로 하는 i번 째 뉴스 기사
Figure 112016107293227-pat00043
가 된다. 개체 생성 모듈(Entity Generative module)은 각 뉴스 기사마다 위키피디아 링크를 생성한다. 신문 기사 속 작은 따옴표는 이름 표시 기능을 가질 수 있고, 이름 표시를 할 때 신문사마다 약간의 차이가 있으나, 책 이름, 영화 이름, 음반 이름, 드라마 이름 등이 작은 따옴표로 묶일 수 있다. 개체 생성 모듈은 뉴스 기사의 작은 따옴표로 명시된 용어들을 의미 있는 개체명으로 가정하고, 모두 링크로 생성할 수 있다. In the above example,
Figure 112016107293227-pat00039
,
Figure 112016107293227-pat00040
,
Figure 112016107293227-pat00041
The issue model will link each news article to a specific Wikipedia entry so that one news article is treated as a single Wikipedia page (eg, Each article has a candidate entry
Figure 112016107293227-pat00042
I-th news article on
Figure 112016107293227-pat00043
. The Entity Generative module creates a Wikipedia link for each news article. Single quotes in a newspaper article can have a name display function, and there are slight differences between newspapers when displaying names, but book names, movie names, album names, and drama names can be enclosed in single quotes. The entity creation module can generate all links, assuming that the terms specified by the single quotation marks of the news article are meaningful entity names.

다음 표 1은 개체 생성 규칙과 도 5의 예에 따라 생성될 수 있는 개체의 예를 보여준다.Table 1 below shows an example of an entity that can be generated according to the entity creation rule and the example of FIG.

표 1Table 1

Figure 112016107293227-pat00044
Figure 112016107293227-pat00044

표 1을 참조하면 “구원의 밥상”은 위키피디아에는 실제로 없는 엔트리이지만, “이소라 (모델)”이 새로 진행하게 된 프로그램의 제목으로, 중의성을 가지는 개체명 “이소라”가

Figure 112016107293227-pat00045
인 “이소라 (모델)”로 링킹 될 수 있는 중요한 개체 정보가 될 수 있다. 두 번째 생성 규칙은 뉴스 기사를 형태소 분석하여 명사 자질만 사용하여, 명사 uni-gram, bi-gram이 위키피디아 개체명 사전에 존재할 경우 추가한다. 예를 들면, “컬투”, “정찬우”, “모델”이 해당된다. 최종적으로 이슈모델부()는 아래의 수학식 3과 같이 후보 엔트리들을 스코어링 한다. 표 1의 예에 따라 적용한다면,
Figure 112016107293227-pat00046
가 “이소라 (모델)”일 때,
Figure 112016107293227-pat00047
는 “이소라 (모델)”을 제목에 포함하는 i번째 뉴스 기사이고, 개체 생성 모듈의 링크 생성 규칙에 의해 뉴스 기사에 링크를 생성하여 트윗을 남긴 사용자의 기록을 모은 트윗 문서 D에 나타나는 비중의성 개체들이 위키피디아 페이지에 나타나는 링크 정보의 동시 출현 횟수를 점수에 반영한다.As shown in Table 1, the "Salvation Table" is actually an entry that does not exist in Wikipedia, but the title of the program that the "
Figure 112016107293227-pat00045
Can be important entity information that can be linked to &quot; isola (model) &quot; The second generation rule uses the noun qualities only, stemming from news articles, and adds nouns uni-grams and bi-grams if they exist in the Wikipedia object name dictionary. For example, "Kultu", "Jeong Chan-woo", "Model" are applicable. Finally, the issue model unit scans the candidate entries as shown in Equation (3) below. If applied according to the example of Table 1,
Figure 112016107293227-pat00046
Is "Isola (model)",
Figure 112016107293227-pat00047
Is the i-th news news item that includes "Isoara (model)" in the title, and is a tweet article in the tweet document D that collects the record of the user who left the tweet by generating a link to the news article by the link generation rule of the object creation module Reflects the number of simultaneous occurrences of link information appearing on the Wikipedia page to the score.

수학식 3Equation 3

Figure 112016107293227-pat00048
Figure 112016107293227-pat00048

링킹모델부(500)는 문맥모델부(200) 및 이슈모델부(400)로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행한다. 또한, 더욱 정확한 개체명 링킹을 위하여 유저모델부(300)로 부터 출력된 중의성 해소 결과를 더 포함하여 문맥모델부(200) 및 이슈모델부(400)의 결과와 함께 통합 분석하여 개체명 링크 작업을 수행할 수도 있다.The linking modeling unit 500 performs an entity name linking operation by performing integrated analysis on the result of decentralization output from the context modeling unit 200 and the issue modeling unit 400. [ In addition, for the more accurate object name linking, the result of the decentralized solution output from the user modeling unit 300 is further integrated and analyzed together with the results of the context modeling unit 200 and the issue modeling unit 400, You can also do the work.

예를 들면 링킹 모델부(500)는 문맥모델부(200), 유저모델부(300), 이슈모델부(400)로부터 출력된 중의성 해소 결과에 포함되는 점수를 통합하여 종합적 관련성이라고 할 수 있는 최종 점수를 계산하는 것일 수 있다. 최종 점수는 아래의 수학식 4과 같이 가중치 매개변수

Figure 112016107293227-pat00049
,
Figure 112016107293227-pat00050
,
Figure 112016107293227-pat00051
를 이용하여 계산할 수도 있다.For example, the linking model unit 500 may integrate the points included in the result of deconvolution outputted from the context model unit 200, the user model unit 300, and the issue model unit 400, It may be to calculate the final score. The final score is calculated using the weight parameter &lt; RTI ID = 0.0 &gt;
Figure 112016107293227-pat00049
,
Figure 112016107293227-pat00050
,
Figure 112016107293227-pat00051
. &Lt; / RTI &gt;

수학식 4Equation 4

Figure 112016107293227-pat00052
Figure 112016107293227-pat00052

가중치 매개변수들은 트위터 사용자들이 문맥 모델, 유저모델 그리고 이슈모델이 고려하는 사용자의 흥미를 트윗에 반영하는 정도, 실시간 이슈를 트윗에 반영하는 정도를 나타내고 이는 실험적으로 실험 성능이 가장 높을 때의 값으로 정할 수 있다.The weight parameters are the degree to which Twitter users reflect the interest of the user considering the context model, user model and issue model, and the degree to reflect the real-time issue in the tweet, Can be determined.

실험 및 평가Experiment and evaluation

본 발명의 일 실시예에서 실험 대상은 위키피디아 동명이인 문서 내에서 중의성을 갖는 사람 개체명이며 실험을 위하여 위키피디아 카테고리 정보를 이용하여 동명이인 개체명 사전을 구축하였다.In the embodiment of the present invention, the experiment object is a person entity name having a meaning in a document having the same name as Wikipedia, and the object name dictionary having the same name is constructed using Wikipedia category information for the experiment.

실험 데이터 구축을 위하여 최근 트윗을 활발히 이용하는 300명의 트윗 사용자 당 5060개씩,총 16367개의 트윗을 수집하였다. 수집된 트윗 들 중 동명이인 개체명 사전에 존재하는 개체명이 포함된 트윗들을 선별하였다. 선별 방법으로는 신뢰성 검증을 위해 3명의 실험자가 동명이인 중 정 답을 태깅할 수 있는 트윗을 대상으로 하였으며 총 248개의 한국어 트윗 데이터를 구축하였다. 수집된 248개의 트윗 데이터 내에 나타난 248명의 동명이인 개체명에는 총 33개 이름의 동명이인이 나타났고, 33개의 이름은 수 집된 트윗 데이터에서는 평균 3.45명의 동명이인이 관측되었고, 위키피디아 문서 내에서는 평균적으로 4.75명의 동명이인이 관측되었다. 이슈모델에 서 사용되는 뉴스기사는 중의성 개체명 을 포함하는 트윗이 등록된 날짜를 기준으로 전후 3일 동안의 분량을 수집하였고, (k=3),

Figure 112016107293227-pat00053
,
Figure 112016107293227-pat00054
,
Figure 112016107293227-pat00055
값은 실험 데이터에 의존적인 매개 변수로 실험적으로 결정하였다.(
Figure 112016107293227-pat00056
=0.4,
Figure 112016107293227-pat00057
=0.35,
Figure 112016107293227-pat00058
=0.25)In order to construct experimental data, we collected 1,6367 tweets totaling 5060 tweets per 300 users who actively use tweets. Among the collected tweets, tweets were selected that include the object names in the object name dictionary having the same name. In order to verify the reliability, three tweets were used to tweet tweets with the same name. Twenty - four Korean tweets were constructed. A total of 33 names with the same name appear in the 248 identical names in the collected 248 tweet data, and an average of 3.45 people in the collected tweet data with 33 names were observed. In the Wikipedia document On average, 4.75 people with the same name were observed. The news articles used in the issue model collected the amounts for three days before and after the registration of the tweets containing the mysterious object names (k = 3)
Figure 112016107293227-pat00053
,
Figure 112016107293227-pat00054
,
Figure 112016107293227-pat00055
The values were determined experimentally as parameters dependent on the experimental data. (
Figure 112016107293227-pat00056
= 0.4,
Figure 112016107293227-pat00057
= 0.35,
Figure 112016107293227-pat00058
= 0.25)

전체 시스템을 위한 지식 베이스는 한국어 위키피디아를 사용하였고,이슈 모델에서 뉴스 기사와 위키피디아 문서의 형태소 분석을 위하여 “Jhannanum”형태소 분석기를 사용하였다. 또한 실험을 진행하기 전에 모든 트윗 데이터와 위키피디아 문서의 불필요한 데이터들을 삭제하는 전처리 작업을 실시하였다.The knowledge base for the whole system used Korean Wikipedia and the "Jhannanum" morpheme analyzer was used for morphological analysis of news articles and Wikipedia documents in the issue model. In addition, pre-processing was performed to delete all the tweet data and the unnecessary data of the Wikipedia document before proceeding with the experiment.

아래 표 2에서는 본 발명의 일 실시예에 따른 시스템의 성능을 평가하기 위하여 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며 각 시스템이 추가 될 때마다 성능을 비교하여 보여준다. 지식 베이스만 사용한 문맥 모델을 베이스라인으로 하여 제안하는 모델들이 각각 추가 되었을 때,성능이 현저히 증가하였고 최종 시스템 성 능은 67.7%을 보였다. 실험 데이터에서 중의성을 가지는 개체명이 평균적으로 4.75명의 동명이인을 나타내는 점을 고려하면 매우 높은 정확도를 보였다.In Table 2 below, an accuracy index (number of data determined by the system as the correct answer / total number of data) is used to evaluate the performance of the system according to an embodiment of the present invention, and the performance is compared for each system added . When the proposed models were added based on the context model using only the knowledge base, the performance was significantly increased and the final system performance was 67.7%. In the experimental data, the accuracy is very high considering that the average individuals with the mean of 4.75 indicate the same name.

표 2Table 2

Figure 112016107293227-pat00059
Figure 112016107293227-pat00059

아래 표 3에서는 본 발명의 일 실시예에 따른 이슈모델부()의 이슈모델이 뉴스 기사를 정답 위키피디아 페이지에 정확하게 링크하는지 측정한 결과를 보여준다. 수집된 836개 뉴스기사는 2명의 실험자가 교차검증을 통하여 직접 뉴스기 사 제목에 나타난 중의성을 가지는 개체명 을 태깅하여 실험하고, 정확도를 측정한 결과 70.2%의 정확도를 보였다.Table 3 below shows the result of measuring whether the issue model of the issue model unit according to an embodiment of the present invention correctly links a news article to an answering Wikipedia page. A total of 836 news articles collected were tagged by two experimen- tal cross-validators and tagged with the correctness of the name of the subject in the news article title, and the accuracy of the experiment was 70.2%.

표 3Table 3

Figure 112016107293227-pat00060
Figure 112016107293227-pat00060

아래 표 4에서는 유저 모델을 추가함으로써 중의성 해소의 정확도를 높인 예를 확인할 수 있다. Table 4 below shows an example of increasing the accuracy of false elimination by adding a user model.

표 4Table 4

Figure 112016107293227-pat00061
Figure 112016107293227-pat00061

표 4의 첫 번째 예를 보면, 트윗 사용자가 평소에 야구를 좋아했음을 이전 트윗에서 추출한 “삼성”, “롯데”, “LG”, “야구장” 등의 개체명을 통해 알 수 있고, 그 중 “삼성”과 “롯데” 개체명은 위키피디아 “김태균(1971)” 페이지에 링크로 나타나므로 중의성 해소에 도움이 될 수 있다. 이슈 모델에서 추가로 추출된 개체명들은 더욱 “김태균(1971)”로 개체 링킹 될 수 있도록 최종 스코어를 높여주었다. 또한 표 4의 두 번째 예를 보면 첫 번째 예와 다르게 유저 모델에서는 단서가 되는 개체명을 추출하지 못하였지만 이슈 모델이 “드라마”, “영화”, “배우”라는 개체명을 추출함으로써 “조인성”이 “조인성(배우)“로 링킹 될 수 있도록 하였다.In the first example in Table 4, it can be seen from the names of objects such as "Samsung", "Lotte", "LG", "Baseball field" extracted from the previous tweet that the user of the tweet usually liked the baseball, The names of the "Samsung" and "Lotte" are linked to the Wikipedia page "Kim Tae-gyun (1971)". Extracted object names from the issue model further increased the final score so that they could be linked to "Kim Tae Kyun (1971)". In the second example of Table 4, unlike the first example, although the object model could not be extracted as a clue in the user model, the "joinability" can be obtained by extracting the object names "drama", "movie" To be linked to "Jo In Sung (actor)".

본 발명의 바람직한 일 실시예에 따르면 3가지 스코어링 모델이 구현된 문맥모델부(200), 유저모델부(300), 이슈모델부(400) 및 이를 통합하는 링킹모델부(500)를 포함하는 마이크로블로그의 개체명 인식 시스템을 제공할 수 있다. 제안된 시스템은 위키피디아와 같은 지식 베이스에서 다루지 않는 사소한 사건이나 실시간 사건들을 뉴스 기사를 외부 자원으로 사용하여 한계를 극복할 수 있고, 사용자 기록을 사용하여 사용자 관심 분야를 고려할 수 있다. According to a preferred embodiment of the present invention, a microcomputer including a context modeling unit 200, a user modeling unit 300, an issue modeling unit 400, and a linking modeling unit 500 integrating the context modeling unit 200, A blog object name recognition system can be provided. The proposed system can overcome the limit by using the news articles as external resources for trivial events or real - time events not covered by the knowledge base such as Wikipedia and can consider the user 's interest by using user records.

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.While the present invention has been particularly shown and described with reference to preferred embodiments thereof, it will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. It will be appreciated that many changes and modifications may be made without departing from the invention. Accordingly, all such appropriate modifications and changes, and equivalents thereof, should be regarded as within the scope of the present invention.

100 : 개체명 인식부
200 : 문맥모델부
300 : 유저모델부
400 : 이슈모델부
500 : 링킹모델부

100: entity name recognition unit
200: Context model part
300: User model part
400: issue model part
500: Linking model part

Claims (4)

마이크로블로그 텍스트를 수집하여 개체명을 인식하는 개체명인식부;
인식된 상기 개체명 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력하는 문맥모델부;
웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력하는 이슈모델부;
마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력하는 유저모델부; 및
상기 문맥모델부, 유저모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하고,
상기 문맥모델부는,
상기 중의성 있는 개체명의 후보 엔트리 각각의 지식베이스 페이지에 대하여 상기 비중의성 개체명의 링크 출현 횟수를 계산함에 따라 중의성 해소 결과를 출력하는 것이고,
상기 유저모델부는,
게시자의 과거 게시글을 웹으로부터 전부 또는 일부를 추출하여 좌최장일치법, uni-gram 또는 bi-gram 자질을 이용함에 따라 지식베이스 엔트리 에 해당하는 개체명이 존재하는 개체명 집합을 구축하고, 추출된 상기 과거 게시글로부터 비중의성 개체명의 추출 빈도에 따라 중의성 해소 결과를 출력하는 것이고,
상기 이슈모델부는,
마이크로블로그 텍스트의 게시 날짜의 소정 일수 전후의 뉴스 기사를 수집하고, 지식베이스 엔트리 페이지의 텍스트와 뉴스 기사 페이지의 텍스트 간의 코사인 유사도를 이용하여 각각의 뉴스 기사에 대하여 특정 지식베이스 엔트리를 링크한 페이지를 기반으로 이슈 스코어링을 함에 따라 중의성 해소 결과를 출력하는 것이고,
상기 링킹모델부는,
상기 문맥모델부, 이슈모델부의 출력 각각에 대하여 가중치 매개변수를 곱한 결과에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것을 특징으로 하는 마이크로블로그의 개체명 링킹 시스템.
Which is an object name that collects micro blog text and recognizes the object name;
A context modeling unit for outputting a result of the deconvolution according to the analysis of the weighted object names of the pertinent object names in the perceived entity name by using the knowledge base;
An issue model unit for collecting news articles from the web, generating a link to a specific entry of the knowledge base with respect to the collected news articles, and outputting a result of deconvolution according to analysis;
A user model unit for outputting a result of decentralization by collecting and analyzing a web record created from a micro blog text publisher; And
And a linking model unit for performing an entity name link operation by integrally analyzing the result of decentralization output from the context model unit, the user model unit, and the issue model unit,
The context modeling unit,
And outputting the result of deconvolution by calculating the number of link occurrence counts of the weighted entity name for each knowledge base page of the candidate entities with the permissible entity name,
The user model unit,
Constructs a set of entity names in which the entity name corresponding to the knowledge base entry is obtained by extracting all or part of the publisher's past postings from the web and using the left-most long-match method, uni-gram or bi- gram qualities, And outputs the result of deconvolution according to the extraction frequency of the non-weighted object name from the post,
The issue model unit,
Collects news articles about a predetermined number of days before the publication date of the microblog text, and generates a page linking a specific knowledge base entry for each news article using the cosine similarity between the text of the knowledge base entry page and the text of the news article page Based on the issue score, it outputs the result of deconvolution,
The linking model unit,
Wherein object name linking is performed by eliminating the identity of the entity name according to a result of multiplying the output of the context model unit and the output of the issue model unit by a weight parameter.
삭제delete 삭제delete 제1항에 있어서,
상기 문맥모델부는,
Figure 112016116316481-pat00081

(<D>는 링킹되는 문서 D에 나타나는 모든 개체 집합,
Figure 112016116316481-pat00082
는 위키피디아 엔트리에 존재하는 j 번 째 후보 개체,
Figure 112016116316481-pat00083
는 중의 성 개체가 나타나는 문서 D에 존재하는 i번 째 비중의성 개체임)
의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,
상기 유저모델부는,
Figure 112016116316481-pat00084

(
Figure 112016116316481-pat00085
는 중의성이 해소되어야 하는 개체명에 대하여 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016116316481-pat00086
는 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체임)
의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,
상기 이슈모델부는,
Figure 112016116316481-pat00087

( <D>는 링킹 되는 문서 D에 나타나는 모든 개체 집합,
Figure 112016116316481-pat00088
는 위키피디아 엔트리에 존재하는 j번 째 후보 개체,
Figure 112016116316481-pat00089
Figure 112016116316481-pat00090
를 주제로 하는 i번 째 뉴스기사,
Figure 112016116316481-pat00091
는 모든
Figure 112016116316481-pat00092
의 집합,
Figure 112016116316481-pat00093
는 중의성 개체가 나타나는 문서 D에 존재하 는 k번 째 비중의성 개체임)
의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,

Figure 112016116316481-pat00094

상기 링킹모델부는,
(E는 중의성이 해소되어야 하는 개체명임)
의 식에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것을 특징으로 하는 마이크로블로그의 개체명 링킹 시스템.


The method according to claim 1,
The context modeling unit,
Figure 112016116316481-pat00081

(Where <D> is the set of all entities appearing in linked document D,
Figure 112016116316481-pat00082
Is the j-th candidate entity present in the Wikipedia entry,
Figure 112016116316481-pat00083
Is the i-th weighted entity present in the document D where the mismatch entity appears)
And outputs the result of deconvolution having the highest score according to the expression of &quot;
The user model unit,
Figure 112016116316481-pat00084

(
Figure 112016116316481-pat00085
Is the j-th candidate entity in the Wikipedia entry for the entity name for which the ambiguity should be resolved,
Figure 112016116316481-pat00086
Is the i-th weighted entity present in the document in which the mismatch entity appears)
And outputs the result of deconvolution having the highest score according to the expression of &quot;
The issue model unit,
Figure 112016116316481-pat00087

(Where <D> is the set of all entities appearing in linked document D,
Figure 112016116316481-pat00088
Is the j-th candidate entity present in the Wikipedia entry,
Figure 112016116316481-pat00089
The
Figure 112016116316481-pat00090
The i-th news article on the theme,
Figure 112016116316481-pat00091
All
Figure 112016116316481-pat00092
A set of,
Figure 112016116316481-pat00093
Is the k-th weighted entity present in the document D where the ambiguous entity appears)
And outputs the result of deconvolution having the highest score according to the expression of &quot;

Figure 112016116316481-pat00094

The linking model unit,
(E is the name of the object whose ambiguity should be resolved)
And the object name linking operation is carried out in the object name linking system of the micro blog.


KR1020160145372A 2016-11-02 2016-11-02 Smart delivery system and method using wearable device KR101712507B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160145372A KR101712507B1 (en) 2016-11-02 2016-11-02 Smart delivery system and method using wearable device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160145372A KR101712507B1 (en) 2016-11-02 2016-11-02 Smart delivery system and method using wearable device

Publications (1)

Publication Number Publication Date
KR101712507B1 true KR101712507B1 (en) 2017-03-07

Family

ID=58411484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160145372A KR101712507B1 (en) 2016-11-02 2016-11-02 Smart delivery system and method using wearable device

Country Status (1)

Country Link
KR (1) KR101712507B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200071689A (en) * 2018-12-11 2020-06-19 서울대학교산학협력단 Apparatus and method for named entity disambiguation based on rdf knowledge base

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1. 김영식, 함영균, 김지성, 황도삼, 최기선 (2014). 한국어 텍스트의 개체 URI 탐지 : 품사 태깅 독립적 개체명 인식과 중의성 해소, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 100-106.
김서현외2. 개체 중의성 해소를 위한 사용자 유사도 기반의 트윗 개체 링킹 기법. 2016.9.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200071689A (en) * 2018-12-11 2020-06-19 서울대학교산학협력단 Apparatus and method for named entity disambiguation based on rdf knowledge base
KR102293071B1 (en) 2018-12-11 2021-08-26 서울대학교산학협력단 Apparatus and method for named entity disambiguation based on rdf knowledge base

Similar Documents

Publication Publication Date Title
CN106776711B (en) Chinese medical knowledge map construction method based on deep learning
US10503828B2 (en) System and method for answering natural language question
US8161059B2 (en) Method and apparatus for collecting entity aliases
US9256679B2 (en) Information search method and system, information provision method and system based on user&#39;s intention
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
CN107544988B (en) Method and device for acquiring public opinion data
WO2015149533A1 (en) Method and device for word segmentation processing on basis of webpage content classification
RU2704531C1 (en) Method and apparatus for analyzing semantic information
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
CN104268192B (en) A kind of webpage information extracting method, device and terminal
Nguyen et al. Statistical approach for figurative sentiment analysis on social networking services: a case study on twitter
TW201826145A (en) Method and system for knowledge extraction from Chinese corpus useful for extracting knowledge from source corpuses mainly written in Chinese
CN109815401A (en) A kind of name disambiguation method applied to Web people search
Maynard et al. Multimodal sentiment analysis of social media
CN112069312A (en) Text classification method based on entity recognition and electronic device
de Albornoz et al. Using an Emotion-based Model and Sentiment Analysis Techniques to Classify Polarity for Reputation.
KR101652433B1 (en) Behavioral advertising method according to the emotion that are acquired based on the extracted topics from SNS document
Hussain et al. A technique for perceiving abusive bangla comments
KR101712507B1 (en) Smart delivery system and method using wearable device
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
Pereira et al. Sentiment retrieval on web reviews using spontaneous natural speech
Maynard et al. Entity-based opinion mining from text and multimedia
Hajjem et al. Building comparable corpora from social networks
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
Scholz et al. Comparing different methods for opinion mining in newspaper articles

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant