KR102191843B1 - 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치 - Google Patents

계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치 Download PDF

Info

Publication number
KR102191843B1
KR102191843B1 KR1020190058991A KR20190058991A KR102191843B1 KR 102191843 B1 KR102191843 B1 KR 102191843B1 KR 1020190058991 A KR1020190058991 A KR 1020190058991A KR 20190058991 A KR20190058991 A KR 20190058991A KR 102191843 B1 KR102191843 B1 KR 102191843B1
Authority
KR
South Korea
Prior art keywords
correct answer
value
probability
observation
sources
Prior art date
Application number
KR1020190058991A
Other languages
English (en)
Other versions
KR20200133568A (ko
Inventor
심규석
정우환
김영훈
Original Assignee
서울대학교산학협력단
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 한양대학교 에리카산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020190058991A priority Critical patent/KR102191843B1/ko
Publication of KR20200133568A publication Critical patent/KR20200133568A/ko
Application granted granted Critical
Publication of KR102191843B1 publication Critical patent/KR102191843B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Abstract

지식 베이스 제공 장치의 지식 베이스 제공을 위한 방법은, 하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하는 단계, 각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하는 단계, 및 상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하는 단계를 포함하고, 상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류된다.

Description

계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치{APPARATUS AND METHOD FOR PROVIDING KNOWLEDGE BASE BY USING HIERARCHICAL INFORMATION}
본 발명은 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치에 관한 것으로, 더욱 상세하게는 복수의 출처(source)로부터 계층 정보를 이용하여 지식 베이스를 제공하기 위한 사실 탐지 방법 및 장치에 관한 것이다.
정보기술의 발전에 따라, 네트워크를 통한 각종 정보를 처리하여 지식 베이스를 구축하고, 이러한 지식 베이스를 기반으로 사용자가 필요로 하는 지식 서비스를 제공하는 기술에 대한 요구가 증가하고 있다. 특히, 지식 서비스를 사용하는 사용자들이 다양한 지식을 추구함에 따라 다양한 출처들로부터 지식이 공유되는 형태로 지식 서비스가 제공되고 있다.
동일한 대상에 대해 다양한 출처들로부터 상이한 관측값을 얻는 경우, 대상에 대한 정답을 추정하여 참값을 찾는 것이 사실 탐지의 문제이다. 이러한 사실 탐지는 지식 데이터 및 출처의 신뢰도를 판단하기 위한 기본이 된다.
종래의 사실 탐지 기술들은 각 데이터 출처별 신뢰도를 추정하고 이를 기반으로 정확한 답을 추정하였다. 이 때, 하나의 대상에 대해 서로 다른 값이 있는 경우 일반적으로 둘 중 하나는 틀린 값이라고 가정을 한다. 하지만, 관측값에 계층구조가 존재하는 경우 실제로는 서로 다른 값이라도 모두 맞는 경우가 있다. 예를 들어, 광화문의 위치가 “종로구” 이기도 하지만, “종로구”를 포함하는 “서울시” 라고 해도 맞는 답이다.
이와 같은 종래의 방법에 따르면, 모든 값을 상호 배타적으로 보기 때문에 정답을 추정하기 위한 근거를 충분히 활용하지 못하는 문제가 발생한다. 예를 들어, 광화문의 위치에 대해 세 개의 출처에서 각각 종로구, 서울시, 부산시라는 값이 관측되었다고 가정하면, 각각의 값이 배타적이라고 보고 빈도에 따라 정답을 추정하는 종래 방법의 경우 세 개의 값에 대해 모두 한번씩만 관측되었기 때문에 정확한 답을 찾기 어려운 문제가 있다.
또한, 계층구조를 고려하지 않는 종래 방법의 경우 출처의 신뢰도가 잘못 평가될 가능성이 높다. 관측값들이 배타적이라고 보는 종래 방법에 따르면 서울시나 종로구라고 게시한 두 개의 출처 중 적어도 하나의 출처는 틀린값을 게시했다고 추정하게 된다. 이 경우, 해당 출처가 맞는 답을 게시했음에도 틀린 답을 게시한 것으로 추정되어 신뢰도가 실제보다 낮게 평가된다. 이처럼 출처의 신뢰도를 잘못 평가하게 되면 다른 대상에 대한 정답을 추정하는데에도 영향을 주어 사실탐지의 정확도를 떨어트리는 문제가 있다.
본 발명은 상술한 종래 기술의 문제점을 해결하기 위해 안출된 것으로, 복수의 출처로부터 계층 정보를 이용한 사실 탐지 확률 모델을 제안하고, 계층 정보를 고려하여 신뢰도 높은 지식 베이스를 구축, 제공하기 위한 사실 탐지 방법 및 장치를 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위하여, 본 발명의 일 측면에 따르면, 지식 베이스 제공 장치의 지식 베이스 제공을 위한 방법으로서, 하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하는 단계, 각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하는 단계, 및 상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하는 단계를 포함하고, 상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류되는 방법이 제공된다.
본 발명의 일 실시 예에 따르면, 상기 평가하는 단계는, 사실 탐지 모델의 파라미터를 초기화하는 단계, 및 상기 파라미터를 업데이트하는 단계를 포함하고, 상기 파라미터는 상기 복수의 출처 각각이 상기 세가지 유형에 속하는 관측값을 게시할 확률 및 상기 하나 이상의 대상에 대해 상기 각각의 관측값이 정답일 확률을 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 평가하는 단계는,수렴 조건을 만족하는지 판단하는 단계를 더 포함하고, 상기 수렴 조건은, 상기 각각의 관측값이 정답일 확률의 평균 변화량이 미리 설정된 임계치 이하이거나, 반복(iteration) 횟수가 특정 횟수 이상인 조건 중 하나 이상을 만족하는 조건일 수 있다.
본 발명의 일 실시 예에 따르면, 상기 수렴 조건을 만족하는 것으로 판단된 경우, 상기 정답을 추정하는 단계로 진행하고, 상기 수렴 조건을 불만족하는 것으로 판단된 경우, 상기 파라미터를 업데이트 하는 단계를 반복할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 파라미터를 업데이트하는 단계는, 기대값 최대화(expectation maximization, EM) 알고리즘을 통해 데이터에서 값을 관찰할 수 없는 은닉 변수 분포를 추정하는 단계; 및 추정된 은닉 변수 분포를 이용하여 상기 사실 탐지 모델의 사후확률을 최대화하는 상기 파라미터를 추정하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 정답을 추정하는 단계는, 상기 업데이트된 파라미터에 기반하여 상기 하나 이상의 대상에 대해 정답일 확률이 가장 높은 값을 선택하는 단계를 포함할 수 있다.
본 발명의 다른 측면에 따르면, 지식 베이스 제공 장치로서, 하나 이상의 프로세서, 및 데이터를 저장하는 데이터베이스를 포함하고, 상기 하나 이상의 프로세서는, 하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하고, 각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하고, 상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하고, 상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류되는 장치가 제공된다.
본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 사실 탐지 모델의 파라미터를 초기화하고, 상기 파라미터를 업데이트하고, 상기 파라미터는 상기 복수의 출처 각각이 상기 세가지 유형에 속하는 관측값을 게시할 확률 및 상기 하나 이상의 대상에 대해 상기 각각의 관측값이 정답일 확률을 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 수렴 조건을 만족하는지 판단하고, 상기 수렴 조건은, 상기 각각의 관측값이 정답일 확률의 평균 변화량이 미리 설정된 임계치 이하이거나, 반복(iteration) 횟수가 특정 횟수 이상인 조건 중 하나 이상을 만족하는 조건일 수 있다.
본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 수렴 조건을 만족하는 것으로 판단된 경우, 상기 정답을 추정하고, 상기 수렴 조건을 불만족하는 것으로 판단된 경우, 상기 파라미터의 업데이트를 반복할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 기대값 최대화 알고리즘을 통해 데이터에서 값을 관찰할 수 없는 은닉 변수 분포를 추정하고, 추정된 은닉 변수 분포를 이용하여 상기 사실 탐지 모델의 사후확률을 최대화하는 상기 파라미터를 추정할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 업데이트된 파라미터에 기반하여 상기 하나 이상의 대상에 대해 정답일 확률이 가장 높은 값을 선택할 수 있다.
본 발명의 다른 일 측면에 따르면, 명령들을 저장하고 있는 저장 매체로서, 상기 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 단계를 수행하도록 설정된 것으로서, 상기 적어도 하나의 단계는, 하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하는 단계, 각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하는 단계, 및 상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하는 단계를 포함하고, 상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류되는 동작을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 저장 매체가 제공된다.
본 발명의 다양한 실시 예들에 따른 지식 베이스 제공을 위한 방법 및 장치는, 복수의 출처에 대한 신뢰도를 보다 정확히 판단할 수 있다. 또한, 복수의 출처로부터 상반된 정보를 얻는 경우 정확히 판단된 출처의 신뢰도에 따라 답을 선택함에 따라 전체로서 사실 탐지의 정확도를 높일 수 있고, 신뢰도 높은 지식 베이스를 구축 및 제공할 수 있다. 뿐만 아니라, 계층 구조를 활용하여 정답을 포함하는 일반화된 정답과 구체적인 정답을 구분함으로써 정보의 유용성이 높은 지식 베이스를 제공할 수 있게 한다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 복수의 출처로부터 지식 베이스를 제공하기 위한 사실 탐지 시스템을 도시한다.
도 2는 본 발명의 일 실시 예에 따른 지식 베이스 제공을 위한 사실 탐지 방법의 흐름도를 도시한다.
도 3은 본 발명의 일 실시 예에 따른 사실 탐지 확률 모델을 통해 정답을 추정하는 흐름도를 도시한다.
도 4는 본 발명의 일 실시 예에 따른 사실 탐지 확률 모델의 데이터 생성 모델을 도시한다.
도 5는 본 발명의 일 실시 예에 따른 복수의 출처별 정확도 및 일반화된 정확도에 대한 측정 결과를 도시한다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.
이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.
본 발명은 계층 구조를 이용한 사실 탐지를 통해 지식 베이스를 제공하기 위한 방법 및 장치에 관한 것이다.
본 명세서에서 사용된 용어들을 살펴보면, 먼저 “대상(object)”은 사실을 찾고자 하는 개체를 의미한다. 이러한 대상의 예로는 “광화문의 위치”, “대통령의 출생지” 등이 있다.
또한, “출처(source)”는 데이터를 게시한 사람 혹은 위치를 의미한다. 예를 들어, 웹 데이터의 경우 웹 사이트나 웹 페이지가 하나의 출처가 될 수 있다.
“관측값”은 특정 출처에서 어떤 대상에 대해 게시한 값을 의미한다.
사실 탐지의 문제는 관심 있는 대상의 집합 O에 대해 출처의 집합 S로부터 얻은 관측값들이 있을 때 모든 대상 o∈O에 대해 정답을 추정하는 참값을 찾는 문제로 정의될 수 있다. 본 발명의 일 실시 예에 따라, 본 명세서에서 사실 탐지의 문제는 정답이 하나인 문제(single-truth)인 경우일 수 있다.
종래의 사실탐지 기술들은 각 데이터 출처별 신뢰도를 추정하고 이를 기반으로 정확한 답을 추정하여 왔다. 출처 s의 신뢰도를
Figure 112019051553081-pat00001
라고 하면 이를 기반으로 대상 o에 대한 정답
Figure 112019051553081-pat00002
가 주어졌을 때 관측값
Figure 112019051553081-pat00003
가 생성될 확률
Figure 112019051553081-pat00004
를 모델링 한다. 그 뒤, <수학식 1>과 같은 우도(likelihood) 함수를 최대화 하는 정답들
Figure 112019051553081-pat00005
과 소스의 신뢰도
Figure 112019051553081-pat00006
를 추정한다.
Figure 112019051553081-pat00007
이때, 각 출처의 신뢰도
Figure 112019051553081-pat00008
를 나타내기 위한 방법으로 “정답을 제공할 확률” 이 널리 이용된다. 이 경우, 정답
Figure 112019051553081-pat00009
가 주어졌을 때 출처 s 는
Figure 112019051553081-pat00010
의 확률로 정답을 게시하고
Figure 112019051553081-pat00011
의 확률로 오답을 게시하게 되어 관측값
Figure 112019051553081-pat00012
가 생성될 확률은 다음의 <수학식 2>와 같이 정의할 수 있다.
Figure 112019051553081-pat00013
이때,
Figure 112019051553081-pat00014
는 대상 o에 대해 정답이 될 수 있는 후보값들의 집합이다.
종래 기술의 경우, 하나의 대상에 대해 서로 다른 값이 있는 경우 둘 중 하나는 틀린 값이라고 가정을 한다. 그러나, 관측값에 계층구조가 존재하는 경우 실제로는 서로 다른 값이라도 모두 맞는 경우가 있다. 예를 들면, 광화문의 위치가 “종로구” 이기도 하지만, “서울시” 라고 해도 “서울시”가 “종로구”를 포함하는 상위 개념이므로 맞는 답이 된다. 이러한 경우 종래의 방법을 이용하면 크게 두 가지 문제점이 발생할 수 있다.
먼저, 모든 값을 상호 배타적으로 보기 때문에 정답을 추정하기 위한 근거를 충분히 활용하지 못한다. 예를 들어, 광화문의 위치에 대해 세 개의 출처에서 각각 종로구, 서울시, 부산시라는 값이 관측되는 경우, 종래의 방법처럼 각각의 값이 배타적이라고 보는 경우 세 개의 관측값이 모두 한번씩만 관측되었기 때문에 보팅(voting)에 의해서는 정확한 답을 찾기가 힘들다. 반면, 종로구가 서울시에 속해 있다는 계층정보를 이용하면 “광화문은 서울시 종로구에 위치해 있다”라는 명제에 반하는 관측값이 “부산”밖에 없기 때문에 서울시 종로구를 광화문의 위치로 추정할 수 있다.
또한, 계층구조를 고려하지 않는 경우 출처의 신뢰도가 잘못 평가될 가능성이 높다. 관측값들이 배타적이라고 가정하면 서울시나 종로구라고 게시한 두 개의 출처 중 적어도 하나의 출처는 틀린 값을 게시했다고 추정하게 된다. 이 경우, 해당 출처가 상위 개념의 맞는 답을 게시했음에도 틀린 답을 게시한 것으로 추정되어 신뢰도가 실제보다 낮게 평가된다. 이처럼 출처의 신뢰도를 잘못 평가하게 되면 다른 대상에 대한 정답을 추정하는 데에도 영향을 주어 사실 탐지의 정확도를 떨어뜨리게 된다.
본 발명은 이와 같은 문제를 해결하기 위해 계층 구조를 이용하여 정답, 정답을 포함하는 일반화된 정답 및 오답으로 관측값을 세분화한 사실 탐지 모델과, 이를 통해 지식 베이스를 제공하는 방법 및 그 장치에 대한 발명을 제안한다.
이러한 지식 베이스 제공 방법 및 장치는 이하의 도 1 내지 도 4를 참조하여 설명된다.
도 1은 본 발명의 일 실시 예에 따른 복수의 출처로부터 지식 베이스를 제공하기 위한 사실 탐지 시스템(100)을 도시한다.
도 1을 참고하면, 본 발명의 일 실시 예에 따른 지식 베이스를 제공하기 위한 사실 탐지 시스템(100)은 지식 베이스 제공 장치(10)와 복수의 출처(40-1, …, 40-n)을 포함한다.
지식 베이스 제공 장치(10)는 네트워크(30)를 통해 복수의 출처(40-1, …, 40-n)와 연결되어 대상에 대한 관측값을 수집할 수 있다. 이 때, 네트워크(30)는 유선 또는 무선 통신 네트워크를 포함할 수 있으며, 예를 들어 인터넷 망을 통해 데이터를 운반하도록 상호 접속된 전기 통신 기기와 장치, 전송로의 결합일 수 있다.
지식 베이스 제공 장치(10)는 사실 탐지 모듈(20)과 DB(database)(22)를 포함할 수 있다. 사실 탐지 모듈(20)은 후술하는 바와 같이 새롭게 제안된 신뢰도 모형 및 사실 탐지 확률 모델의 파라미터를 구해 하나 이상의 대상에 대해 정답을 추정한다. 일 실시 예에 따라, 사실 탐지 모듈(20)은 관심 있는 대상의 집합에 대해 복수의 출처(40-1, …, 40-n)로부터 얻은 관측값으로 신뢰도 모형 및 사실 탐지 확률 모델을 이용하여 정답을 추정하고 DB(22)에 저장하여 지식 베이스를 구축할 수 있다.
DB(22)는 관심 있는 대상의 집합의 하나 이상의 대상에 대해 탐지된 정답 데이터의 집합이다. DB(22)는 사실 탐지 모듈(20)이 물리적 직접 연결 또는 유/무선 네트워크를 통해 액세스(access)할 수 있는 저장 장치에 수록된 데이터의 집합일 수 있다.
본 발명의 일 실시 예에 따른 사실 탐지 모듈(20)은 사용자가 관심 있는 대상의 입력에 대해 응답으로 사실, 즉 정답을 출력하도록 전자 장치 상에 어플리케이션(application) 등의 형태로 구현될 수 있다. 이 때, 사실 탐지 모듈(20)은 상기 전자 장치에서 실행될 수 있고, DB(22)는 상기 전자 장치의 내부 메모리에 저장되거나 외부 저장 장치에서 구축될 수도 있다. 사실 탐지 모듈(20)과 DB(22) 간의 데이터 송수신은 물리적 직접 연결 또는 유/무선 통신 네트워크를 통해 이루어질 수 있다. 사실 탐지 모듈(20)의 동작들은 하나 이상의 프로세서(processor)에 의해 제어될 수 있다. 즉, 사실 탐지 모듈(20)의 동작들이 컴퓨터 프로그램의 형태로 하나 이상의 저장 매체에 저장되어, 하나 이상의 프로세서에 의해 실행되도록 제어될 수 있다. 예를 들어, 상기 전자 장치는 스마트폰, 태블릿(tablet) PC(personal computer), 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑(desktop) PC, 랩탑(laptop) PC, 넷북(netbook) 컴퓨터, 워크스테이션(workstation), 서버(server), PDA(personal digital assistant), 미디어 박스, 게임 콘솔, 전자 사전 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(HMD, head-mounted-device), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식형 회로(implantable circuit) 중 적어도 하나를 포함할 수 있다. 다양한 실시예들에서, 상기 전자 장치는 플렉서블(flexible)하거나, 또는 전술한 다양한 장치들 중 둘 이상의 조합일 수 있다. 다만, 상기 전자 장치는 전술한 기기들에 한정되지 않는다.
본 발명의 일 실시 예에 따른 지식 베이스 제공 장치(10)는 하나 이상의 대상을 입력 받고 정답을 출력하는 입/출력 장치(미도시)를 더 포함할 수 있다. 입/출력 장치는, 예를 들면, 사용자 또는 외부 기기로부터 명령 또는 데이터를 입력 받거나, 또는 지식 베이스 제공 장치(10)의 처리 결과 데이터를 출력할 수 있다. 예를 들어, 입력 장치는 터치 패널, 키보드, 마우스, 펜 센서, 마이크 등을 포함할 수 있고, 출력 장치는 디스플레이, 오디오 등을 포함할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 사실 탐지 방법의 흐름도를 도시한다. 예를 들어, 지식 베이스 제공을 위한 사실 탐지는 지식 베이스 제공 장치(10), 특히 사실 탐지 모듈(20)에 의해 실행될 수 있다.
도 2에 도시된 바와 같이, 사실 탐지의 과정은 복수의 출처로부터 하나 이상의 대상에 대한 관측값 획득 단계(S210), 관측값이 정답일 확률 및 복수의 출처의 신뢰도 평가 단계(S220) 및 평가에 기반한 정답 추정 단계(S230)를 포함한다.
도 2를 참고하면, 지식 베이스 제공 장치(10)는 복수의 출처로부터 하나 이상의 대상에 대한 관측값을 획득한다(S210). 예를 들어, 사실 탐지 모듈(20)은 네트워크(30)를 통해 복수의 출처(40-1, …, 40-n)(예를 들어, Wikipedia, Naver, IMDb 등)로부터 하나 이상의 관심 있는 대상에 대한 관측값을 수집할 수 있다.
이후, 지식 베이스 제공 장치(10)는 관측값이 정답일 확률 및 복수의 출처의 신뢰도를 평가한다(S220). 본 발명의 일 실시 예에 따라, 사실 탐지 모듈(20)은 복수의 출처(40-1, …, 40-n)로부터 획득된 관측값이 정답일 확률 및 각각의 출처의 신뢰도를 후술하는 신뢰도 모델 및 사실 탐지 확률 모델을 통해 평가한다. 이를 위해, 모델 파라미터를 산출하고 업데이트하는 과정이 반복될 수 있다. 이러한 파라미터 업데이트 과정은 정답일 확률의 평균 변화량이 미리 설정된 임계치 이하이거나, 반복(iteration) 횟수가 특정 횟수 이상인 조건 중 하나 이상을 만족하는 경우 수렴된 것으로 판단되고, 다음 단계로 진행할 수 있다.
마지막으로, 지식 베이스 제공 장치(10)는 평가에 기반하여 정답을 추정한다(S230). 본 발명의 일 실시 예에 따라, 사실 탐지 모듈(20)은 획득된 관측값이 정답일 확률 및 각각의 출처의 신뢰도 평가에 기반하여 하나 이상의 대상에 대한 정답을 추정할 수 있다. 예를 들어, 정답일 확률이 가장 높은 관측값이 정답으로 결정될 수 있다. 모든 대상 집합에 대한 정답을 결정하여 DB(22) 또는 별도의 영역에 저장될 수 있고, 이를 통해 지식 베이스가 구축될 수 있다.
상술한 바와 같은 사실 탐지를 통한 지식 베이스 제공을 위해, 본 발명에서는 계층 구조를 활용하기 위한 새로운 신뢰도 모형과 사실 탐지 확률 모델을 제안하고 모델 파라미터를 구해 정답을 찾는 방법을 제시하고자 한다.
신뢰도 모형
종래의 방법은 출처 s가 게시한 값이 정답 혹은 오답 둘 중 하나에 속하고 그 확률은 각각
Figure 112019051553081-pat00015
Figure 112019051553081-pat00016
라고 가정하였다. 그러나, 계층 구조를 고려하여 본 발명에서 제안하는 모델에서는 관측값에 3가지 분류가 존재한다고 가정한다.
첫째는, 정답과 정확하게 일치하는 경우로써 이는 기존 방법에도 있는 분류이다.
두 번째는, 게시한 값이 계층 구조상에서 정답을 포함하는 경우이다. 예를 들어, 정답이 종로구일 때, 관측값이 서울이면 이 관측값은 계층 구조상 정답을 포함하는 상위 개념이므로 두 번째 분류에 속하게 된다. 편의상, 두 번째 분류에 속하는 값은 ‘일반화된 정답’으로 정의하고 후술한다.
마지막 분류는, 정답이나 정답을 포함하는 값이 아닌 경우로 완전히 틀린 값이 관측된 경우이다. 본 발명에서는 각 출처의 신뢰도를 나타내기 위해 출처 s가 게시한 관측값이 위의 세가지 분류에 속할 확률(
Figure 112019051553081-pat00017
,
Figure 112019051553081-pat00018
,
Figure 112019051553081-pat00019
)을 이용한다. 다시 말해, 출처 s가 정답을 구체적이고 정확히 게시할 확률은
Figure 112019051553081-pat00020
, 계층 구조상에서 정답을 포함하는 값(일반화된 정답)을 게시할 확률은
Figure 112019051553081-pat00021
, 잘못된 답을 게시할 확률은
Figure 112019051553081-pat00022
이다. 이를 이용해 출처의 신뢰도를 표현하면 출처의 정확도를 정확히 나타낼 수 있을 뿐만 아니라 출처가 값을 일반화하는 비율까지도 나타낼 수 있다.
사실 탐지 확률 모델
상술한 신뢰도 표현을 바탕으로 정답을 찾기 위한 확률모델은 다음과 같이 구성될 수 있다.
우선 신뢰도를 기반으로 대상 o에 대한 정답
Figure 112019051553081-pat00023
가 주어졌을 때 관측값
Figure 112019051553081-pat00024
가 생성될 확률
Figure 112019051553081-pat00025
를 모델링 한다. 위의 세가지 경우 중 첫 번째에 속하는 경우, 관측값의 값은 정답과 같다(
Figure 112019051553081-pat00026
=
Figure 112019051553081-pat00027
). 두 번째 경우, 계층 구조에서
Figure 112019051553081-pat00028
의 상위에 있는 값들 중 하나를 선택하게 된다. 다시 말해, 일반화된 정답 중 하나가 선택되는데, 일반화된 정답의 집합을
Figure 112019051553081-pat00029
라 하면 그 중 하나가 선택될 확률은
Figure 112019051553081-pat00030
이다. 마지막 세 번째의 경우, 남은 후보값 중에 하나를 선택하게 되므로 그 확률은
Figure 112019051553081-pat00031
이다. 이를 바탕으로 나타낸 관측값
Figure 112019051553081-pat00032
가 생성될 확률은 다음의 <수학식 3>과 같다.
Figure 112019051553081-pat00033
여기서,
Figure 112019051553081-pat00034
는 대상 o에 대한 출처 s에서의 관측값이고,
Figure 112019051553081-pat00035
는 대상 o에 대한 정답이며,
Figure 112019051553081-pat00036
,
Figure 112019051553081-pat00037
,
Figure 112019051553081-pat00038
는 각각 출처 s가 게시한 관측값이 정답, 일반화된 정답 및 정답이나 정답을 포함하는 값이 아닌 경우로 완전히 틀린 값일 경우일 확률을 의미한다.
Figure 112019051553081-pat00039
는 대상 o에 대한 후보값들의 집합이고,
Figure 112019051553081-pat00040
는 일반화된 정답의 집합, 즉 계층 구조상
Figure 112019051553081-pat00041
의 상위에 있는 값들의 집합을 의미한다.
대상 o의 후보값들 간에 계층 구조상 서로 포함 관계가 있는 경우 <수학식 3>과 같이 생성될 확률을 정의할 수 있고, 이러한 대상들의 집합을
Figure 112019051553081-pat00042
라 정의할 수 있다.
반면, 후보값들 간의 포함관계가 없는 경우, 일반화된 정답이 존재하지 않는다. 따라서, 확률의 합이 1이 아닐 수 있기 때문에 집합
Figure 112019051553081-pat00043
에 속하지 않는 대상들에 대해서는 관측값이 생성될 확률을 아래의 <수학식 4>와 같이 정의할 수 있다.
Figure 112019051553081-pat00044
여기서,
Figure 112019051553081-pat00045
는 대상 o에 대한 출처 s에서의 관측값이고,
Figure 112019051553081-pat00046
는 대상 o에 대한 정답이며,
Figure 112019051553081-pat00047
,
Figure 112019051553081-pat00048
,
Figure 112019051553081-pat00049
는 각각 출처 s가 게시한 관측값이 정답, 일반화된 정답 및 정답이나 정답을 포함하는 값이 아닌 경우로 완전히 틀린 값일 경우일 확률을 의미한다.
Figure 112019051553081-pat00050
는 대상 o에 대한 후보값들의 집합을 의미한다.
이 외에,
Figure 112019051553081-pat00051
에 속한 후보값에 대해 정답일 확률을 나타내는 확률 분포인
Figure 112019051553081-pat00052
를 정의할 수 있다. 이때,
Figure 112019051553081-pat00053
는 대상 o에 대해 v가 정답일 확률이다. 또한, 각 소스별 신뢰도를 나타내는 분포인
Figure 112019051553081-pat00054
는 디리클레 분포
Figure 112019051553081-pat00055
를 따르는 것으로 가정할 수 있고, 정답에 대한 확률분포인
Figure 112019051553081-pat00056
는 다른 디리클레 분포인
Figure 112019051553081-pat00057
를 따른다고 가정할 수 있다. 이러한 확률 분포들을 바탕으로 본 발명에서 제안하는 전체 데이터 생성 모델은 도 4와 같이 도시될 수 있고, 이를 바탕으로 관측값
Figure 112019051553081-pat00058
가 생성될 확률은 상기의 <수학식 3>과 같이 나타낼 수 있다.
모델파라미터 추정방법
본 발명의 일 실시 예에 따라, 상술한 모델에서 최대사후확률(maximum a posteriori, MAP) 추정을 통해 모델 파라미터인
Figure 112019051553081-pat00059
Figure 112019051553081-pat00060
를 추정할 수 있다. 우선, 모든 관측값의 집합을 D라 할때 도 4의 생성모델의 사후확률
Figure 112019051553081-pat00061
을 나타내면 다음의 <수학식 5>와 같다.
Figure 112019051553081-pat00062
본 발명에서는 사후확률
Figure 112019051553081-pat00063
를 최대화하는 파라미터
Figure 112019051553081-pat00064
Figure 112019051553081-pat00065
를 찾고, 각 대상별로
Figure 112019051553081-pat00066
가 가장 높은 값을 선택해 대상에 대한 실제 값으로 추정하여 출력한다. 예를 들어, 파라미터를 추정하기 위해 기대값 최대화 (expectation maximization, EM) 알고리즘이 이용될 수 있다.
EM 알고리즘은 은닉변수의 분포를 추정하는 기대값(E) 단계와 사후확률을 최대화 하는 최대화(M) 단계로 구성될 수 있다. 은닉변수란 데이터에서 값을 관찰할 수 없는 변수로써 제안하는 모델에서는 두 가지 종류의 은닉변수가 존재할 수 있다. 첫 번째 은닉 변수는 참값을 나타내는
Figure 112019051553081-pat00067
이다. 두 번째 은닉 변수는 관측값
Figure 112019051553081-pat00068
가 계층 구조상에서 세 가지 경우 (1:정답, 2:일반화된 정답, 3:오답) 중 어떤 경우에 속하는 지를 나타내는
Figure 112019051553081-pat00069
이다. 은닉 변수
Figure 112019051553081-pat00070
Figure 112019051553081-pat00071
의 분포를 나타내기 위한 변수를 각각
Figure 112019051553081-pat00072
Figure 112019051553081-pat00073
라고 할 때 E-단계와 M-단계는 각각 <수학식 6> 및 <수학식 7>에 따라 산출되고 업데이트될 수 있다.
Figure 112019051553081-pat00074
Figure 112019051553081-pat00075
<수학식 6> 및 <수학식 7>과 같은 업데이트 식에서
Figure 112019051553081-pat00076
는 대상 o에 대한 관측값을 게시한 출처의 집합이고,
Figure 112019051553081-pat00077
는 출처 s가 값을 게시한 대상들의 집합이다. 또한,
Figure 112019051553081-pat00078
,
Figure 112019051553081-pat00079
는 대상 o에 대한 후보값들의 집합인
Figure 112019051553081-pat00080
에 속하는 후보값을 나타낸다.
Figure 112019051553081-pat00081
는 후보값 중 계층 구조상에서
Figure 112019051553081-pat00082
의 하위에 있는 값들의 집합이며,
Figure 112019051553081-pat00083
는 후보값 중
Figure 112019051553081-pat00084
Figure 112019051553081-pat00085
를 제외한 값들의 집합이다.
Figure 112019051553081-pat00086
는 계층 구조상
Figure 112019051553081-pat00087
의 상위에 있는 값들의 집합을 의미하고,
Figure 112019051553081-pat00088
는 대상 o의 후보값들 간에 계층 구조상 서로 포함 관계가 있는 경우 이러한 대상들의 집합을 나타낸다.
도 3은 본 발명의 일 실시 예에 따른 사실 탐지 확률 모델을 통해 정답을 추정하는 흐름도를 도시한다. 다시 말해, 도 2의 지식 베이스 제공 방법에서, 상술한 본 발명에서 제안하는 신뢰도 모형 및 사실 탐지 확률 모델을 통한 관측값이 정답일 확률 및 복수의 출처의 신뢰도 평가 단계(S220) 및 평가에 기반한 정답 추정 단계(S230)의 구체적인 흐름이 도시된다.
도 3에 도시된 바와 같이, 사실 탐지 모듈(20)이 S220 및 S230 단계를 수행하는 구체적인 동작은 모델 파라미터를 초기화하는 단계(S310), 기대값(E) 단계(S320), 최대화(M) 단계(S330), 수렴여부 확인 단계(S340) 및 정답 추정 단계(S350)를 포함한다.
도 3을 참조하면, 사실 탐지 모듈(20)은 모델 파라미터를 초기화하는 단계(S310)를 수행한다. 예를 들어, 상술한 모델에서 최대사후확률 추정을 통해 <수학식 5>로부터 사후확률
Figure 112019051553081-pat00089
를 최대화하는 모델 파라미터
Figure 112019051553081-pat00090
Figure 112019051553081-pat00091
를 찾아 평가 및 추정 단계를 수행하기 위함으로, 먼저 모델 파라미터
Figure 112019051553081-pat00092
Figure 112019051553081-pat00093
를 초기화 한다. 여기서,
Figure 112019051553081-pat00094
는 출처 s가 정답을 제공할 확률이고,
Figure 112019051553081-pat00095
는 대상 o에 대한 정답에 대한 확률이다.
이후, 사실 탐지 모듈(20)은 기대값(E) 단계(S320) 및 최대화(M) 단계(S330)를 차례로 수행한다. 즉, 파라미터를 추정하기 위해 EM 알고리즘이 이용될 수 있으면, EM 알고리즘은 은닉변수의 분포를 추정하는 기대값(E) 단계와 사후 확률을 최대화 하는 최대화(M) 단계로 구성된다. 예를 들어, 사실 탐지 모듈(20)은 기대값(E) 단계(S320)에서
Figure 112019051553081-pat00096
Figure 112019051553081-pat00097
를 고정시키고, 상술한 <수학식 6>과 같이 정의되는
Figure 112019051553081-pat00098
Figure 112019051553081-pat00099
를 업데이트 한다. 여기서,
Figure 112019051553081-pat00100
Figure 112019051553081-pat00101
는 은닉 변수
Figure 112019051553081-pat00102
Figure 112019051553081-pat00103
의 분포를 나타내기 위한 파라미터를 의미한다. 그 후, 탐지 모듈(20)은 최대화(M) 단계(S330)에서
Figure 112019051553081-pat00104
Figure 112019051553081-pat00105
를 고정시키고, <수학식 7>과 같이 정의되는
Figure 112019051553081-pat00106
Figure 112019051553081-pat00107
를 업데이트 한다.
다음으로, 사실 탐지 모듈(20)은 수렴여부를 확인하는 단계(S340)를 수행한다. 모델 파라미터를 업데이트하는 E-단계(S320) 및 M-단계(S330)가 무한히 반복하는 것을 막기 위해, 적절한 수렴 조건을 산정할 수 있다. 예를 들어, 정답일 확률의 평균 변화량이 미리 설정된 임계치 이하이거나, 반복(iteration) 횟수가 특정 횟수 이상인 조건 중 하나 이상을 만족하는 경우 수렴된 것으로 판단하고 정답 추정 단계(S350)를 수행한다. 반면에, 상기 수렴 조건을 모두 만족하지 못하는 경우 수렴되지 않은 것으로 판단하고 기대값(E) 단계(S320)로 돌아가 기대값(E) 단계(S320) 및 최대화(M) 단계(S330)를 반복 수행한다.
마지막으로, 사실 탐지 모듈(20)은 업데이트된 모델 파라미터에 기반하여 정답 추정 단계(S350)를 수행한다. 일 실시 예에 따라, 상술한 단계들을 통해 업데이트된 파라미터들에 기반하여 각 대상별로
Figure 112019051553081-pat00108
가 가장 높은 값을 선택해 대상에 대한 실제 값으로 추정하여 정답으로 결정할 수 있다. 대상 O에 대한 정답
Figure 112019051553081-pat00109
는 아래의 <수학식 8>과 같이 산출될 수 있다.
Figure 112019051553081-pat00110
여기서,
Figure 112019051553081-pat00111
는 대상 o에 대한 정답이며,
Figure 112019051553081-pat00112
는 대상 o에 대한 후보값들의 집합,
Figure 112019051553081-pat00113
는 대상 o에 대해 v가 정답일 확률을 의미한다.
상술한 단계들을 통해 하나 이상의 대상에 대한 정확도 높은 정답을 수집하고 지식 베이스를 제공할 수 있으며, 각 출처에 대한 신뢰도를 판단할 수 있다.
상술한 도 2 내지 도 4에서 제안된 본원발명의 사실 탐지 방법인 TDH(Truth Discovery using Hierarchies)의 성능 평가를 위해, TDH를 9개의 다른 알고리즘과 비교한 정확도 측정결과가 <표 1>을 참조하여 이하 설명된다.
이 때, 9개의 비교 대상 사실 탐지 방법은 LCA(Jeff Pasternack and Dan Roth. 2013. Latent Credibility Analysis. In WWW.1009-1020에 제시된 방법), DOCS(Yudian Zheng, Guoliang Li, and Reynold Cheng. 2016. DOCS: a domain-aware crowdsourcing system using knowledge bases. PVLDB 10, 4 (2016), 361-372에 제시된 방법), ASUMS(Valentina Beretta, Sebastien Harispe, Sylvie Ranwez, and Isabelle Mougenot. 2016. How Can Ontologies Give You Clue for Truth-Discovery An Exploratory Study. In WIMS. 15.에 제시된 방법), MDC(Yaliang Li, Nan Du, Chaochun Liu, Yusheng Xie, Wei Fan, Qi Li, Jing Gao, and Huan Sun. 2017. Reliable Medical Diagnosis from Crowdsourcing: Discover Trustworthy Answers from Non-Experts. In WSDM. 253-261에 제시된 방법), ACCU(Xin Luna Dong, Laure Berti-Equille, and Divesh Srivastava. 2009. Integrating conflicting data: the role of source dependence. PVLDB 2, 1 (2009), 550-561에 제시된 방법), POPACCU(Xin Luna Dong, Barna Saha, and Divesh Srivastava. 2012. Less is more: Selecting sources wisely for integration. In PVLDB, Vol. 6. 37-4에 제시된 방법), LFC(Vikas C Raykar, Shipeng Yu, Linda H Zhao, Gerardo Hermosillo Valadez, Charles Florin, Luca Bogoni, and Linda Moy. 2010. Learning from crowds. JMLR 11, Apr (2010), 1297-1322에 제시된 방법), CRH(Qi Li, Yaliang Li, Jing Gao, Bo Zhao, Wei Fan, and Jiawei Han. 2014. Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation. In SIGMOD. 1187-1198에 제시된 방법) 및 관측값이 가장 많은 값을 참값으로 추정하는 방법인 VOTE 방법이다.
<표 1>에서는 6,005명의 유명인들의 출생지에 관한 데이터셋인 BirthPlaces 데이터셋과 785개의 세계문화유산의 위치에 관한 데이터셋인 Heritages 데이터셋을 이용한 실험 결과 정답을 도출하는 정확도를 나타낸다.
BirthPlaces Heritages
TDH 0.8913 0.7414
LCA 0.8834 0.6930
DOCS 0.8828 0.6904
ASUMS 0.8543 0.6229
MDC 0.8263 0.7254
ACCU 0.8137 0.5834
POPACCU 0.8133 0.6561
LFC 0.8085 0.6803
CRH 0.8083 0.6841
VOTE 0.7900 0.6892
<표 1>에 나타난 바와 같이, 본 발명에서 제안하는 사실 탐지 방법인 TDH가 두 가지 데이터셋 모두에서 가장 높은 정확도를 얻는 것을 볼 수 있으며, 사실 탐지의 정확도를 높이고 신뢰도 높은 지식 베이스를 구축 및 제공할 수 있음을 알 수 있다.
또한, 상술한 실험 예를 통해 도 5에서 도시된 바와 같이 복수의 출처별 정확도 및 일반화된 정확도에 대한 측정 결과를 얻을 수 있다. 도 5를 참조하면, 각 출처별로 정확한 정답을 도출하는 정확도와 정답을 포함하여 일반화된 정답을 도출하는 일반화된 정확도를 판단하여 구체적인 정답과 일반화된 정답을 구분하고, 각 출처별 신뢰도를 더욱 세밀하게 관리할 수 있다. 각 출처별로 관측값이 정답일 확률(
Figure 112019051553081-pat00114
)과 일반화된 정답일 확률(
Figure 112019051553081-pat00115
)을 구분하여 판단할 수 있으므로, 출처의 정확한 신뢰도 평가가 가능하다. 예를 들어, 출처 1은 구체적인 정답을 게시할 확률도 높고 정확도가 높은 반면, 출처 2는 일반화된 정답을 게시할 확률이 높지만 구체적인 정답을 게시하는 정확도는 출처 1에 비해 많이 떨어지므로, 출처 1이 출처 2에 비해 구체적인 정답에 대한 더 높은 신뢰도를 보인다고 판단할 수 있다.
이와 같은 계층 구조를 이용한 신뢰도 모형 및 사실 탐지 모델을 통해 사실 탐지의 정확도를 높이고, 출처별 정확도를 구분 관리함으로써 신뢰도 높은 지식 베이스를 구축 및 제공할 수 있다.
상술한 구체적인 실시예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시 예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 다양한 실시예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (13)

  1. 지식 베이스 제공 장치의 지식 베이스 제공을 위한 방법으로서,
    상기 지식 베이스 제공 장치가, 하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하는 단계;
    상기 지식 베이스 제공 장치가, 각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하는 단계; 및
    상기 지식 베이스 제공 장치가, 상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하는 단계를 포함하고,
    상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류되고,
    상기 평가하는 단계는,
    사실 탐지 모델의 파라미터를 초기화하는 단계, 및
    상기 파라미터를 업데이트하는 단계를 포함하고,
    상기 파라미터는 상기 복수의 출처 각각이 상기 세가지 유형에 속하는 관측값을 게시할 확률 및 상기 하나 이상의 대상에 대해 상기 각각의 관측값이 정답일 확률을 포함하는, 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 평가하는 단계는,
    수렴 조건을 만족하는지 판단하는 단계를 더 포함하고,
    상기 수렴 조건은, 상기 각각의 관측값이 정답일 확률의 평균 변화량이 미리 설정된 임계치 이하이거나, 반복(iteration) 횟수가 특정 횟수 이상인 조건 중 하나 이상을 만족하는 조건인, 방법.
  4. 청구항 3에 있어서,
    상기 수렴 조건을 만족하는 것으로 판단된 경우, 상기 정답을 추정하는 단계로 진행하고,
    상기 수렴 조건을 불만족하는 것으로 판단된 경우, 상기 파라미터를 업데이트 하는 단계를 반복하는, 방법.
  5. 청구항 1에 있어서,
    상기 파라미터를 업데이트하는 단계는,
    기대값 최대화(expectation maximization, EM) 알고리즘을 통해 데이터에서 값을 관찰할 수 없는 은닉 변수 분포를 추정하는 단계; 및
    추정된 은닉 변수 분포를 이용하여 상기 사실 탐지 모델의 사후확률(을 최대화하는 상기 파라미터를 추정하는 단계를 포함하는, 방법.
  6. 청구항 1에 있어서,
    상기 정답을 추정하는 단계는,
    상기 업데이트된 파라미터에 기반하여 상기 하나 이상의 대상에 대해 정답일 확률이 가장 높은 값을 선택하는 단계를 포함하는, 방법.
  7. 지식 베이스 제공 장치로서,
    하나 이상의 프로세서; 및
    데이터를 저장하는 데이터베이스를 포함하고,
    상기 하나 이상의 프로세서는, 하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하고, 각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하고, 상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하고,
    상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류되고,
    상기 하나 이상의 프로세서는,
    사실 탐지 모델의 파라미터를 초기화하고, 상기 파라미터를 업데이트하고,
    상기 파라미터는 상기 복수의 출처 각각이 상기 세가지 유형에 속하는 관측값을 게시할 확률 및 상기 하나 이상의 대상에 대해 상기 각각의 관측값이 정답일 확률을 포함하는, 장치.
  8. 삭제
  9. 청구항 7에 있어서,
    상기 하나 이상의 프로세서는,
    수렴 조건을 만족하는지 판단하고,
    상기 수렴 조건은, 상기 각각의 관측값이 정답일 확률의 평균 변화량이 미리 설정된 임계치 이하이거나, 반복(iteration) 횟수가 특정 횟수 이상인 조건 중 하나 이상을 만족하는 조건인, 장치.
  10. 청구항 9에 있어서,
    상기 하나 이상의 프로세서는,
    상기 수렴 조건을 만족하는 것으로 판단된 경우, 상기 정답을 추정하고,
    상기 수렴 조건을 불만족하는 것으로 판단된 경우, 상기 파라미터의 업데이트를 반복하는, 장치.
  11. 청구항 7에 있어서,
    상기 하나 이상의 프로세서는,
    기대값 최대화(expectation maximization, EM) 알고리즘을 통해 데이터에서 값을 관찰할 수 없는 은닉 변수 분포를 추정하고, 추정된 은닉 변수 분포를 이용하여 상기 사실 탐지 모델의 사후확률을 최대화하는 상기 파라미터를 추정하는, 장치.
  12. 청구항 7에 있어서,
    상기 하나 이상의 프로세서는,
    상기 업데이트된 파라미터에 기반하여 상기 하나 이상의 대상에 대해 정답일 확률이 가장 높은 값을 선택하는, 장치.
  13. 지식 베이스 제공을 위한 컴퓨터 프로그램 명령들을 저장하고 있는 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 단계를 수행하도록 설정된 것으로서, 상기 적어도 하나의 단계는,
    하나 이상의 대상에 대해 복수의 출처로부터 각각 관측값을 획득하는 단계;
    각각의 관측값이 정답일 확률 및 상기 복수의 출처 각각의 신뢰도를 평가하는 단계; 및
    상기 평가에 기반하여 상기 하나 이상의 대상에 대한 정답을 추정하는 단계를 포함하고,
    상기 각각의 관측값은 정답과 일치하는 값, 계층 구조상 정답을 포함하는 상위 개념인 값 및 정답과 다르고 계층 구조상 상위 개념이 아닌 값의 세가지 유형 중 어느 하나로 분류되며,
    상기 평가하는 단계는,
    사실 탐지 모델의 파라미터를 초기화하는 단계, 및
    상기 파라미터를 업데이트하는 단계를 포함하고,
    상기 파라미터는 상기 복수의 출처 각각이 상기 세가지 유형에 속하는 관측값을 게시할 확률 및 상기 하나 이상의 대상에 대해 상기 각각의 관측값이 정답일 확률을 포함하는, 컴퓨터 프로그램 명령들을 저장하고 있는 컴퓨터 판독 가능 저장 매체.
KR1020190058991A 2019-05-20 2019-05-20 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치 KR102191843B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190058991A KR102191843B1 (ko) 2019-05-20 2019-05-20 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190058991A KR102191843B1 (ko) 2019-05-20 2019-05-20 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200133568A KR20200133568A (ko) 2020-11-30
KR102191843B1 true KR102191843B1 (ko) 2020-12-17

Family

ID=73642053

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190058991A KR102191843B1 (ko) 2019-05-20 2019-05-20 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102191843B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170235848A1 (en) 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
WO2018229877A1 (ja) 2017-06-13 2018-12-20 日本電気株式会社 仮説推論装置、仮説推論方法、及びコンピュータ読み取り可能な記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5048625B2 (ja) * 2008-10-09 2012-10-17 株式会社日立製作所 異常検知方法及びシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170235848A1 (en) 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
WO2018229877A1 (ja) 2017-06-13 2018-12-20 日本電気株式会社 仮説推論装置、仮説推論方法、及びコンピュータ読み取り可能な記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zheng, Yudian, Guoliang Li, and Reynold Cheng. Docs: a domain-aware crowdsourcing system using knowledge bases. Proceedings of the VLDB Endowment 10.4. 2016.*

Also Published As

Publication number Publication date
KR20200133568A (ko) 2020-11-30

Similar Documents

Publication Publication Date Title
US20200311608A1 (en) Primary key-foreign key relationship determination through machine learning
Zhou et al. Bayesian network approach to multinomial parameter learning using data and expert judgments
Juddoo Overview of data quality challenges in the context of Big Data
CN111708876B (zh) 生成信息的方法和装置
US11151202B2 (en) Exploiting answer key modification history for training a question and answering system
Zhang et al. Influence-aware truth discovery
CN111553279B (zh) 兴趣点的表征学习、识别方法、装置、设备及存储介质
Shahbazi et al. Representation bias in data: a survey on identification and resolution techniques
CN109857457A (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
Zhu et al. Reasoning over higher-order qualitative spatial relations via spatially explicit neural networks
US8650180B2 (en) Efficient optimization over uncertain data
Castelletti et al. Discovering causal structures in Bayesian Gaussian directed acyclic graph models
Zhang et al. Integrating entity attributes for error-aware knowledge graph embedding
CN112765362B (zh) 基于改进自编码器的知识图谱实体对齐方法及相关设备
Yu et al. On Formal Feature Attribution and Its Approximation
KR102191843B1 (ko) 계층 정보를 이용한 지식 베이스 제공을 위한 방법 및 장치
Bai et al. Neural maximum common subgraph detection with guided subgraph extraction
Shastri et al. Development of a data mining based model for classification of child immunization data
Hadiji et al. Computer science on the move: Inferring migration regularities from the web via compressed label propagation
Jung et al. Crowdsourced truth discovery in the presence of hierarchies for knowledge fusion
Niu et al. Entity resolution with attribute and connection graph
Sharma et al. Fine-tuned Predictive Model for Verifying POI Data
CN113705216B (zh) 依赖关系的检测方法、装置及设备
Mathimagal et al. Impact of Social Media Affecting Student's Academic Performance using Opinion Mining
Fang et al. From appearance to essence: Comparing truth discovery methods without using ground truth

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right