KR101757900B1

KR101757900B1 - 지식 베이스의 구축 방법 및 장치

Info

Publication number: KR101757900B1
Application number: KR1020167004142A
Authority: KR
Inventors: 핑저 왕; 지준 천; 페이 롱
Original assignee: 시아오미 아이엔씨.
Priority date: 2015-08-20
Filing date: 2015-12-17
Publication date: 2017-07-14
Also published as: CN105138631B; MX2016004590A; RU2638013C2; RU2016113502A; EP3133504A3; WO2017028422A1; US20170052995A1; JP2017532704A; CN105138631A; EP3133504A2; US10331648B2

Abstract

본 발명은 지식 베이스의 구축 방법 및 장치에 관한 것으로서, 지식 베이스의 구축 방법은, 텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 텍스트 코퍼스에 미리 설정한 엔티티 집합 중 엔티티의 속성 정보가 포함되어 있는 제 1정보를 포함하는지 여부를 판단하는 단계와; 텍스트 코퍼스에 제 1정보를 포함하는 것을 확정할 경우, 제 1정보를 추출하여, 제 1정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축하는 단계를 포함한다. 본 발명의 실시 예는, 지식 베이스를 구축하는 과정에서 인력을 이용하여 지식발굴을 할 필요가 없게 되여 인력을 절약하고 또한 지식 베이스의 구축 속도도 향상시킬 수 있다.

Description

지식 베이스의 구축 방법 및 장치{METHOD AND DEVICE FOR KNOWLEDGE BASE CONSTRUCTION}

본 출원은 중국 출원번호가 201510515887.2이고 출원일자가 2015년8월20일인 중국 특허 출원에 기반하여 제출하였고 상기 중국 특허 출원의 우선권을 주장하는 바, 당해 중국 특허 출원의 전부 내용을 참고로 본 출원에 인용한다.

본 발명은 인공지능 기술에 관련한 것으로서, 특히 지식 베이스의 구축 방법 및 장치에 관한 것이다.

개체명 인식（Named Entity Recognition, 약칭NER）은, "고유 명칭 식별”이라고도 불리며, 텍스트로부터 주로 인명, 지명, 기관명, 고유명칭 등과 같은 특정의미를 가진 개체명을 인식하는 것을 말한다.

음식물의 영양가치는 특수 개체명으로서 영양성분명 및 그 함량을 포함하되, 예를 들어 "탄수화물”,"20g"이다.

현재, 칼럼, 게시판 , 블로그, 뉴스와 백과사전에는 일부 음식물의 영양가치에 대한 소개가 자주 등장하며, 이러한 데이터는 음식물 영양가치의 지식 베이스를 구축하는데 있어서 매우 큰 가치가 있다. 그러나, 인력으로 지식을 발굴하기에는 비교적 방대한 인력을 필요로 하며, 또한 지식 베이스를 구축하는 속도가 느리다.

인력으로 지식 베이스를 구축하는데 인력의 낭비와 속도가 느린 문제점을 해결하기 위해, 본 발명의 실시 예는 지식 베이스의 구축 방법 및 장치를 제공한다.

본 발명의 실시 예에 따른 제 1양태에 따르면, 지식 베이스의 구축 방법을 제공하는 바, 상기 방법은,

텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스에 미리 설정한 엔티티 집합 중 엔티티의 속성 정보가 포함되어 있는 제 1정보를 포함하는지 여부를 판단하는 단계와,

상기 텍스트 코퍼스에 상기 제 1정보를 포함하는 것을 확정할 경우, 상기 제 1정보를 추출하여, 상기 제 1정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 구축하는 단계,

를 포함한다.

일 실시 예에서, 상기 미리 설정한 속성기술모드는 상기 텍스트 코퍼스에 상기 제 1정보를 포함하는지 여부를 확정하는 어휘, 구문 구조 또는 양자의 결합을 포함하고,

상기 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 단계는,

개체명 인식의 알고리즘을 통해, 상기 텍스트 코퍼스로부터 상기 미리 설정한 엔티티 집합 중 엔티티를 포함하는 제 1센텐스집합을 선별하는 단계와,

상기 미리 설정한 속성기술모드 중 상기 어휘, 구문 구조 또는 양자의 결합에 의해 상기 제 1센텐스집합으로부터 미리 설정한 엔티티 집합 중 상기 엔티티의 속성 정보가 포함되어 있는 후보 제 1정보를 획득하는 단계와,

상기 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 후보 제 1정보의 나타나는 횟수가 미리 설정한 역치보다 많을 경우, 상기 후보 제 1정보를 상기 제 1정보로 확정하는 단계를 포함한다.

상기 미리 설정한 속성기술모드에 의해 상기 제 1센텐스집합으로부터 상기 엔티티의 속성 정보가 포함되어 있는 복수의 후보 제 1정보를 획득하는 단계와,

상기 제 1센텐스집합 중 포함하는 상기 엔티티 및 그에 대응하는 복수의 후보 제 1정보를 2원그룹집합으로 구성하는 단계와,

매개 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 2원그룹집합에서 나타난 횟수가 미리 설정한 역치보다 적은 후보 제 1정보가 위치한 2원그룹을 삭제하고, 현재 2원그룹집합에 포함하는 2원그룹요소에 의해 상기 제 1정보를 확정하는 단계를 포함한다.

일 실시 예에서, 상기 방법은,

상기 미리 설정한 속성기술모드와 상기 제 1정보를 토대로, 상기 텍스트 코퍼스에 상기 제 1정보의 속성 정보가 포함되어 있는 제 2정보가 포함하는지 여부를 확정하는 단계와,

상기 텍스트 코퍼스에 상기 제 2정보를 포함하는 것을 확정 할 경우,상기 제 2정보를 추출하여, 상기 제 1정보, 상기 제 2정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 업데이트 하는 단계, 를 더 포함한다.

일 실시 예에서, 상기 미리 설정한 속성기술모드와 상기 제 1정보를 토대로, 상기 텍스트 코퍼스에 제 2정보가 포함되어 있는지 여부를 확정하는 단계는,

상기 미리 설정한 속성기술모드에 따라, 상기 텍스트 코퍼스로부터 상기 제 1정보를 포함하는 제2센텐스집합을 획득하는 단계와,

상기 제2센텐스집합에 양적인 엔티티를 포함할 경우, 상기 양적인 엔티티를 후보 제 2정보로 추출하는 단계와,

상기 엔티티, 상기 제 1정보와 상기 후보 제 2정보를 3원그룹집합으로 구성하는 단계와,

현재 3원그불집합의 매개 엔티티의 매개 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 후보 제 2정보를 현재 엔티티 현재 제 1정보의제 2정보로 확정하는 단계를 포함한다.

본 발명의 실시 예에 따른 제 2양태에 따르면, 지식 베이스의 구축 장치를 제공하는 바, 상기 장치는,

텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스에 미리 설정한 엔티티 집합 중 엔티티의 속성 정보가 포함돼여 있는 제 1정보를 포함하는지 여부를 판단하도록 구성되는 획득판단모듈과,

상기 획득판단모듈이 상기 텍스트 코퍼스에 상기 제 1정보를 포함하는 것을 확정할 경우, 상기 제 1정보를 추출하여,상기 제 1정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 구축하도록 구성되는 제1확정추출첨가모듈,을 포함한다.

상기 획득판단모듈은,

개체명 인식의 알고리즘을 통해, 상기 텍스트 코퍼스로부터 상기 미리 설정한 엔티티 집합 중 엔티티를 포함하는 제 1센텐스집합을 선별하도록 구성되는 선별서브모듈과,

상기 미리 설정한 속성기술모드의 상기 어휘, 구문 구조 또는 양자의 결합에 따라, 상기 선별서브모듈에서 선별한 상기 제 1센텐스집합으로부터 미리 설정한 엔티티 집합 중 상기 엔티티의 속성 정보가 포함되어 있는 후보 제 1정보를 획득하도록 구성되는 획득서브모듈과-,

상기 획득서브모듈이 획득한 상기 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 후보 제 1정보의 나타나는 횟수가 미리 설정한 역치보다 많을 경우, 상기 후보 제 1정보를 상기 제 1정보로 확정하도록 구성되는 통계확정서브모듈을 포함한다.

상기 획득판단모듈은,

상기 미리 설정한 속성기술모드에 따라 상기 선별서브모듈에 의해 선별한 상기 제 1센텐스집합으로부터, 상기 엔티티의 속성 정보가 포함되어 있는 복수의 후보 제 1정보를 획득하도록 구성되는 획득서브모듈과,

상기 제 1센텐스집합에 포함하는 상기 엔티티 및 그에 대응하는 상기 획득서브모듈에 의해 획득한 복수의 후보 제 1정보를 2원그룹집합으로을 구성하는 구성서브모듈과,

매개 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 구성서브모듈이 구성한 상기2원그룹집합에서 나타난 횟수가 미리 설정한 역치보다 적은 후보 제 1정보가 위치한 2원그룹을 삭제하고, 현재 2원그룹집합에 포함하는 2원그룹요소에 의해 상기 제 1정보를 확정하도록 구성되는 통계삭제확정서브모듈을 포함한다.

일 실시 예에서, 상기 장치는,

상기 미리 설정한 속성기술모드와 상기 제 1정보를 토대로, 상기 텍스트 코퍼스에 상기 제 1정보의 속성 정보가 포함되어 있는 제 2정보가 포함되어 있는지 여부를 확정하도록 구성되는 확정모듈과,

상기 확정모듈이 상기 텍스트 코퍼스에 상기 제 2정보를 포함하는 것을 확정할 경우, 상기 제 2정보를 추출하여, 상기 제 1정보,상기 제 2정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 업데이트 하도록 구성되는 제2확정추출추가모듈,을 더 포함한다.

일 실시 예에서, 상기 확정모듈은,

상기 미리 설정한 속성기술모드에 따라, 상기 텍스트 코퍼스로부터 상기 제 1정보를 포함하는 제2센텐스집합을 획득하도록 구성되는 획득서브모듈과,

상기 제2센텐스집합에 양적인 엔티티를 포함할 경우, 상기 양적인 엔티티를 후보 제 2정보로 추출하도록 구성되는 추출서브모듈과,

상기 엔티티, 상기 제 1정보와 상기 추출서브모듈에 의해 추출한 상기 후보제 2정보를 3원그룹집합으로구성하는 구성서브모듈,

상기 구성서브모듈이 구성한 현재 3원그룹집합의 매개 엔티티의 매개 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 후보 제 2정보를 현재 엔티티 현재 제 1정보의 제 2정보로 확정하도록 구성되는 통계확정서브모듈을 포함한다.

본 발명의 실시 예에 따른 제 3양태에 따르면, 지식 베이스의 구축 장치를 제공하는 바, 상기 장치는,

프로세서와,

상기 프로세서에서 실행 가능한 인스트럭션을 저장하는 메모리, 를 포함하는 지식 베이스의 구축 장치에 있어서,

상기 프로세서는,

텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스에 미리 설정한 엔티티 집합 중 엔티티의 속성 정보가 포함되어 있는 제 1정보를 포함하는지 여부를 판단하고,

상기 텍스트 코퍼스에 상기 제 1정보를 포함하는 것을 확정할 경우, 상기 제 1정보를 추출하여, 상기 제 1정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 구축하도록 구성된다.

본 발명의 실시 예에서 제공한 기술수단은 아래와 같은 유익한 효과를 가져온다. 텍스트 코퍼스를 획득하고, 텍스트 코퍼스에 제 1정보를 포함하는 것을 확정할 경우, 제 1정보를 추출하여, 제 1정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써, 지식 베이스의 자동 구축을 완성한다. 따라서, 인력을 이용하여 지식발굴을 할 필요 없게 되여 인력을 절약하고 또한 지식 베이스의 구축 속도도 향상시킨다

획득한 후보 제 1정보의 나타난 횟수를 통계하고, 나타난 횟수가 미리 설정한 역치보다 많은 후보 제 1정보를 제 1정보로 확정하되, 즉 나타난 횟수가 적은 후보 제 1정보를 제거함으로써, 음식물 영양성분에 속하지 않는 물질을 효율적으로 제거할 수 있게 되므로 지식 베이스의 정확성을 향상시킨다.

2원그룹을 통해 엔티티와 제 1정보사이의 관계를 표시함으로써 양자간의 관계가 더욱 명확해져 대응하는 엔티티가 무효한 제 1정보를 삭제하기가 쉽다.

텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확정할 경우, 예를 들어 음식물영양성분의 함량을 포함 한다고 확인 될 경우, 텍스트 코퍼스로부터 제 2정보를 추출하여 제 1정보, 제 2정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써 더욱 완벽하게 지식 베이스의 구축을 완성한다.

3원그룹을 통해 엔티티, 제 1정보와 제 2정보사이의 관계를 표시하고, 3자간의 관계가 더욱 명확해지는 동시에 대응하는 엔티티 제1정보의 제2정보를 획득하기가 더욱 쉽게 되어 제2정보의 정확성을 향상시키고 지식 베이스의 정확성도 향상시킨다. 미리 설정한 속성기술모드의 다양한 내용을 제공함으로써 텍스트 코퍼스로부터 제 1정보를 선별하는 후속처리를 하는데 편의성을 가져다 준다.

이상의 일반적인 설명과 후술되는 세부사항은 단지 예시적인 것일 뿐, 본 발명을 한정하기 위한 것이 아니라는 것을 이해해야 할 것이다.

여기서, 도면은, 명세서에 합병되어 본 명세서의 일부를 구성하여 본 발명에 따른 실시 예를 나타내며, 명세서와 함께 본 발명의 원리를 설명하는 데 사용된다.
도 1은 예시적인 일 실시 예에 따른 지식 베이스의 구축 방법을 나타내는 흐름도이다.
도 2는 예시적인 다른 일 실시 예에 따른 지식 베이스의 구축 방법을 나타내는 흐름도이다.
도 3은 예시적인 일 실시 예에 따른 지식 베이스의 구축 방법의 모식도이다.
도 4는 예시적인 일 실시 예에 따른 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 것을 나타내는 흐름도이다.
도 5는 예시적인 다른 일 실시 예에 따른 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 것을 나타내는 흐름도이다.
도 6은 예시적인 일 실시 예에 따른 텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확정하는 것을 나타내는 흐름도이다.
도 7은 예시적인 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다.
도 8은 예시적인 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다.
도 9는 예시적인 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다.
도 10은 예시적인 또 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다.
도 11은 예시적인 또 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다.
도 12는 예시적인 일 실시 예에 따른 지식 베이스의 구축 장치에 사용되는 블록도이다.

여기서, 예시적 실시 예에 대해 상세하게 설명하고, 이를 첨부되는 도면에서 예시적으로 나타냈다. 하기에서 첨부되는 도면에 대해 설명할 때, 별도로 표시하지 않는 한, 다른 도면의 동일한 숫자는 동일하거나 유사한 구성요소를 나타낸다. 하기의 예시적 실시 예에서 설명한 실시형태는 본 발명과 일치한 모든 실시형태를 의미하는 것은 아니다. 반대로, 이들은 첨부된 특허청구범위에 기재된 본 발명의 일부 양태와 일치한 장치와 방법에 대한 예일 뿐이다.

도 1은, 예시적인 일 실시 예에 따른 지식 베이스의 구축 방법을 나타내는 흐름도이다. 도1에서 나타낸 바와 같이, 상기 지식 베이스의 구축 방법은 서버에 사용할 수 있고 단계S101~S102를 포함한다.

단계S101에서, 텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단한다.

상기 실시 예에 있어서, 미리 설정한 속성기술모드는 텍스트 코퍼스에 제 1정보가 포함되는지 여부를 판단하는 어휘, 구문 구조 또는 그들의 결합을 포함할 수 있고, 제 1정보는 미리 설정한 엔티티 집합의 엔티티의 속성 정보를 포함할 수 있다.。

일 실시 예에서, 미리 설정한 엔티티 집합의엔티티는 음식물, 공기, 운동 등 을 포함하되, 이에 국한 하지는 않는다. 음식물의 속성 정보는 음식물의 영양성분, 공기의 속성 정보는 공기의 구성성분, 운동의 속성 정보는 운동의 매 시간마다 소모된 에너지 등일 수 있다. 이처럼, 제 1정보는 음식물의 영양성분을 포함하되 이에 국한 하지는 않는다.

예를 들어, 상기 실시 예에 있어서, 음식물을 엔티티로서 음식물의 영양가치에 관련된 지식 베이스를 구축하는 예를 들면, 미리 설정한 속성기술모드는 하기 모드 중의 하나 또는 여러 개를 포함할 수 있으되 이에 국한되지는 않는다.

“함*량”（예를 들어, 함당량）,"<함유|함>*<#NUM>그램”（예를 들어, 탄수화물20그램 함유 ）,"*<중|안><함유|함|대량 함유*"（예를 들어, 키위에 대량의 비타민C가 함유）등 이다. 예시적으로, *는 임의의 문자열에 매칭되는 데 사용하는 와일드 카드이고, |는 "또는”을 표시하는 코드이고, <#NUM>는 숫자형식의 문자열에 매칭하는 코드이고, < 와 >는 짝을 이루어 나타나며 복수의 유의어를 포함하는데 사용되며, 예를 들어, <함유|함>*<#NUM>그램은, "함유*<#NUM>그램”또는“함*<#NUM>그램”을 표시한다.

상기 실시 예에 있어서, 서버는 웹 크롤러（Crawler） 의 텍스트 코퍼스를 사용할 수 있고, 상기 미리 설정한 속성기술모드에 따라 텍스트 코퍼스에 음식물의 영양성분을 포함하는 지 여부를 판단한다.

S102에서, 텍스트 코퍼스에 제 1정보를 포함함을 확정 한 경우, 제 1정보를 추출하여 제 1정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축한다.

상기 실시 예에 있어서, 텍스트 코퍼스에 식물의 영양성분을 포함한다고 확정 될 경우, 영양성분을 추출하여 음식물 및 이에 대응한 영양성분을 데이터 베이스에 입력할 수 있다.

상기 지식 베이스의 구축 방법의 실시 예에 있어서, 텍스트 코퍼스를 획득하여, 텍스트 코퍼스에 제 1정보를 포함한다고 확정될 경우, 제 1정보를 추출하여, 제 1정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써, 지식 베이스의 자동 구축을 완성한다. 따라서, 인력을 이용하여 지식발굴을 할 필요 없게 되여 인력을 절약하고 또한 지식 베이스의 구축 속도도 향상시킨다.

도 2는, 예시적인 다른 일 실시 예에 따른 지식 베이스의 구축 방법을 나타내는 흐름도이다. 도2에서 나타낸 바와 같이, 상기 단계S102 이후, 상기 방법은 단계S103~S104를 더 포함한다.

단계S103에서, 미리 설정한 속성기술모드와 제 1정보를 토대로, 텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확인한다.

그 중, , 제 2정보는 제 1정보의 속성 정보를 포함한다. 예를 들어, 제 1정보가 음식물의 영양성분일 경우, 제 1정보의 속성 정보는 영양성분의 함량일 수 있고, 즉 제 2정보가 영양성분의 함량일 수 있다.

상기 실시 예에 있어서, 상기미리 설정한 속성기술모드와 음식물의 영양성분에 따라, 텍스트 코퍼스에 음식물의 영양성분의 함량을 포함하는지 여부를 판단한다.

단계S104에서, 텍스트 코퍼스에 제 2정보를 포함함확정될 경우, 제 2정보를 추출하여, 제 1정보, 제 2정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 업데이트 한다.

상기 실시 예에 있어서, 텍스트 코퍼스에 제 2정보를 포함한다고 확정될 경우, 예를 들어 음식물의 영양성분의 함량을 포함한다고 확정될 경우, 텍스트 코퍼스로부터 제 2정보를 추출하여, 제 1정보,제 2정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써, 지식 베이스의 구축을 완성할 수 있다.

상기 지식 베이스의 구축 방법의 실시 예에 있어서, 텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확인하고, 텍스트 코퍼스에 제 2정보를 포함한다고 확정 될 경우, 제 2정보를 추출하여 제 1정보, 제 2정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써 더욱 완벽하게 지식 베이스의 구축을 완성한다.

음식물의 영양가치와 관련한 지식 베이스를 구축하는 것을 예를 들어, 이하 도 3을 참조하여 본 발명에 대한 예시적인 설명을 한다.

도3에서 나타낸 바와 같이, 설비 31은 크롤러（crawler）를 이용하여 서버32로부터 웹 페이지의 텍스트 코퍼스를 크롤링（Crawling）할 수 있다. 본 실시 예에서, 설비 31은 서버, 또는 개인 컴퓨터（PC）등 설비일 수 있으며 본 발명은 이에 국한되지 않는다. 일 실시 예에서, 서버32는 위키, 바이두(겟똑), 시나（劤읫）, 넷이즈（貢弄） 등의Web서버일 수 있다. 설비 31는 개체명 인식 등의 알고리즘을 통해 텍스트 코퍼스로부터 음식물명을 포함하는 텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 획득한 텍스트 코퍼스에 음식물의 영양성분을 포함하는지 여부를 판단한다. 음식물의 영양성분을 포함할 경우, 음식물의 영양성분을 추출하여, 해당 음식물, 해당 음식물이 대응하는 영양성분을 기반으로 음식물 영양가치 의 지식 베이스를 구축한다. 설비 31는 미리 설정한 속성기술모드와 음식물의 영양성분에 따라 상기 텍스트 코퍼스에 음식물 영양성분의 함량을 포함하는지 여부를 확정할 수도 있다. 텍스트 코퍼스에 음식물 영양성분의 함량을 포함하는 경우, 음식물 영양성분의 함량을 추출하여, 음식물 영양성분의 함량을 지식 베이스에 대응하게 추가하여 음식물 영양가치의 지식 베이스를 구축한다.

도 4는, 예시적인 일 실시 예에 따른 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 것을 나타내는 흐름도이다. 도4에서 나타낸 바와 같이, 상기 방법은 이하 단계를 포함한다.

단계S401에서, 개체명 인식 알고리즘에 따라, 텍스트 코퍼스로부터 미리 설정한 엔티티 집합의 엔티티를 포함하는 제 1센텐스집합을 선별해낸다.

일 실시 예에서, 개체명 인식 알고리즘은, 조건부 임의 필드（Conditional Random Field,CRF）, 사전법과 혼합방법을 포함할 수 있으며 이에 국한되지는 않는다. 미리 설정한 엔티티 집합은, 예를 들어 음식물집합, 공기성분집합, 운동집합 등을 포함할 수 있다.

미리 설정한 엔티티 집합이 음식물집합인 것을 예로 들면, CRF방법을 토대로 텍스트 코퍼스로부터 음식물을 포함하는 제 1센텐스집합을 선별해낼 수 있다. 본 실시예에 있어서, 키워드인식 알고리즘 등을 기반으로 음식물을 포함하는 제 1센텐스집합을 선별해낼 수도 있다.

단계S402에서, 미리 설정한 속성기술모드의 어휘, 구문 구조 또는 이들의 결합에 따라 제 1센텐스집합으로부터 후보 제 1정보를 획득하고, 후보 제 1정보는 미리 설정한 엔티티 집합의 엔티티의 속성 정보를 포함한다.

그 중, , 미리 설정한 속성기술모드는 어휘-문법모드（lexico-syntactic patterns）일수 있고, 어휘-문법모드는 하기 모드 중의 하나 또는 여러 개를 포함할 수 있으되 이에 국한되지는 않는다. "함*량”（예를 들어,함당), "<함유|함>*<#NUM>그램”（예를 들어, 탄수화물20그램 함유）, "*<중|안><함유|함|대량 함유>*"（예를 들어, 키위에 대량의 비타민C가 함유）등 이다.

음식물을 포함하는 제 1센텐스집합을 선별해낸 후, 상기 미리 설정한 속성기술모드에 따라 제 1센텐스집합으로부터 후보영양성분을 획득할 수 있으며, 예를 들어, 카로틴, 비타민, 나트륨, 칼슘을 토마토의 후보 영양성분으로, 카로틴, 비타민 C, 당……을 당근의 후보 영양성분으로, 칼륨, 인, 나트륨, 칼슘, 돌을 쇠고기의 후보 영양성분으로 획득한다.

단계S403에서, 후보 제 1정보의 나타난 횟수를 통계하고, 후보 제 1정보의 나타난 횟수가 미리 설정한 역치보다 많을 경우, 후보제 1정보를 제 1정보로 한다.

미리 설정하는 역치는 수요에 따라 융통성 있게 설정 가능하다. 일 실시 예에서, 미리 설정하는 역치는, 예를 들어1차~10차 등으로 설정할 수 있으나 본 발명은 이에 국한하지 않는다. 구체적인 응용상황에 따라 미리 설정하는 역치는 10차이상의 기타 횟수로 설정할 수 도 있다.

상기 실시 예에 있어서, 미리 설정하는 역치가 2차라고 가정하면, 후보 영양성분의 나타나는 횟수를 통계한 다음, 돌의 나타난 횟수가 1차이고 기타 후보 영양성분의 나타나는 횟수가 1보다 많을 경우, 기타 후보 영양성분을 영양성분으로 확정한다. 이처럼, 음식물 영양성분에 속하지 않는 물질을 효율적으로 제거할 수 있다.

본 발명은 이에 국한되지 않으며, 단계S403는 하기처럼 실시될 수도 있다.

후보 제 1정보의 나타난 횟수를 통계하고, 후보 제 1정보의 나타난 횟수가 미리 설정한 역치보다 적을 경우, 후보제 1정보가 제 1정보가 아니라고 확정하고, 후보 제 1정보의 나타난 횟수가 미리 설정한 역치보다 많거나 같을 경우, 후보 제 1정보를 제 1정보로 확인한다.

상기 실시 예에 있어서, 미리 설정하는 역치는, 예를 들어10차 등으로 설정할 수 있으나 본 발명은 이에 국한하지 않는다. 구체적인 응용상황에 따라 미리 설정하는 역치는 10차이상 또는 10차 이하의 기타 횟수로 설정할 수 도 있다.

상기 실시 예에 있어서, 후보 영양성분의 나타나는 횟수를 통계한 다음, 돌의 나타난 횟수가 1차이고 기타 후보 영양성분의 나타나는 횟수가 10보다 많을 경우, 기타 후보 영양성분을 영양성분으로 확정하고 돌은 영양성분이 아니라고 확인한다. 이처럼, 음식물 영양성분에 속하지 않는 물질을 효율적으로 제거할 수 있다.

이처럼, 상기 과정을 통해, 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단할 수 있다.

상기 실시 예에 있어서, 획득한 후보 제 1정보의 나타난 횟수를 통계하고, 나타난 횟수가 미리 설정한 역치보다 많은 후보 제 1정보를 제 1정보로 확정하되, 즉 나타난 횟수가 적은 후보 제 1정보를 제거함으로써, 음식물 영양성분에 속하지 않는 물질을 효율적으로 제거할 수 있게 되므로 지식 베이스의 정확성을 향상시킨다.

도 5는, 예시적인 다른 일 실시 예에 따른 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 것을 나타내는 흐름도이다. 도5에서 나타낸 바와 같이, 상기 방법은 이하 단계를 포함한다.

단계S501에서, 개체명 인식의 알고리즘에 따라, 텍스트 코퍼스로부터 미리 설정한 엔티티 집합의 엔티티를 포함하는 제 1센텐스집합을 선별해낸다.

단계S502에서, 미리 설정한 속성기술모드에 따라 제 1센텐스집합으로부터 복수의 후보제 1정보를 획득하고, 복수의 후보 제 1정보는 엔티티의 속성 정보를 포함한다.

단계S503에서, 제 1센텐스집합에 포함하는 엔티티와 이에 대응하는 복수의 후보 제 1정보를 2원그룹집합으로 구성 한다.

미리 설정한 엔티티 집합이 음식물 엔티티 집합E라고 가정하면, 텍스트 코퍼스로부터E를 포함하는 센텐스집합을 선별해낼 수 있으며, 그 중, 매칭 성공한 엔티티가 E_i이고, 센텐스의 전후관계 (context)에서 어휘-문법모드를 통해 후보인 영양성분NC를 획득하여, 2원그룹집합T를 구성하며, 2원그룹집합T의 매개의 요소는（E_i,NC_ij）이다. 그 중, E_i에 대응하는 후보 영양성분은 {NC_i1, NC_i2… NC_in}이다.

단계S504에서, 매개의 후보 제 1정보의 나타난 회수를 통계하고 2원그룹집합에서 나타난 횟수가 미리 설정한 역치보다 적은 후보 제 1정보가 위치한 2원그룹을 삭제하고, 현재 2원그룹집합에 포함한 2원그룹요소에 의해 제 1정보를 확정한다.

매개 영양성분NC_ij의 나타나는 횟수를 통계하고, 나타난 횟수가 미리 설정하는 역치 예를 들어2차 보다 적은 영양성분이 위치한 2원그룹을 T에서 삭제하여 새로운 2원그룹집합T를 획득하고, 현재2원그룹집합에 포함한 2원그룹요소를 제 1정보로 확정한다.

상기 실시 예에 있어서, 2원그룹을 통해 엔티티와 제 1정보사이의 관계를 표시함으로써 양자간의 관계가 더욱 명확해져 대응하는 엔티티가 무효한 제 1정보를 삭제하기가 쉽다.

도 6은, 예시적인 일 실시 예에 따른 텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확정하는 것을 나타내는 흐름도이다. 도6에서 나타낸 바와 같이, 상기 방법은 이하 단계를 포함한다.

단계S601에서, 미리 설정한 속성기술모드에 따라, 텍스트 코퍼스로부터 제 1정보를 포함하는 제 2센텐스집합을 획득한다.

상기 실시 예에 있어서, 어휘-문법모드를 통해 텍스트 코퍼스로부터 음식물 영양성분을 포함하는 제 2센텐스집합을 획득할 수 있다.

예를 들어, 텍스트 코퍼스로부터 전후관계에서 E_i와 NC_ij를 포함하는 센텐스집합을 선별해낼 수 있다.

단계S602에서,제 2센텐스집합에 양적인 엔티티를 포함할 경우, 양적인 엔티티를 후보 제 2정보로 추출한다.

영양성분의 함량은 통상적으로 양적인 값이며, 예를 들어 “80그램”, "70%"등 이다. 때문에, 제 2센텐스집합으로부터 양적인 엔티티를 추출하여, 후보 제 2정보를 획득할 수 있다.

또한, 영양성분의 함량은 통상적으로 매100그램마다 계량단위로 하되, 예를 들어, "바나나 과육의 영양가치는 상당히 높다. 매 100그램의 과육마다 탄수화물20그램, 단백질1.2그램, 지방0.6그램을 함유한다”.

단계S603에서, 엔티티, 제 1정보와 후보제 2정보를 3원그룹집합으로 구성 한다.

단계S604에서, 현재 3원그룹집합의 매개 엔티티의 매 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 후보 제 2정보를 현재 엔티티의 현재 제 1정보의 제 2정보로 확정한다.

본 실시 예에서, 엔티티, 제 1정보와 후보 제 2정보를 3원그룹집합으로 구성 한 다음, 현재 3원그룹집합의 매개 엔티티의 매개 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 제2후보정보를 현재 엔티티의 현재 제 1정보의 제 2정보로 할 수 있다.

예를 들어, 제 2센텐스집합으로부터 양적인 엔티티를 추출한 다음, 3원그룹집합T_r를 생성할 수 있다. 해당집합의 매개 요소는（E_i, NC_ij, V_ijk）이며,그 중, E_i에 대응하는 후보 영양성분NC_ij의 함량은 { V_ij1,V_ij2…V_ijm}이다. 그 다음, 모든 E_i의 매 종류의 영양성분NC_ij의 함량V_ijk에 대해, {V_ij1,V_ij2…V_ijm}에서 나타나는 횟수를 통계하고, 나타난 횟수가 제일 높은V_ijk에 대응하는 단 하나의3원그룹을 보류하고, 나머지 V_ijr는 전부 {V_ij1,V_ij2…V_ijm}에서 삭제한다. 즉, 3원그룹T_r에서 삭제하여 새로운3원그룹집합T_r를 획득하고, 현재T_r에 포함하는 후보함량을 대응하는 음식물 영양성분의 함량으로 한다.

3원그룹을 통해 엔티티, 제 1정보와 제 2정보사이의 관계를 표시하고, 3자간의 관계가 더욱 명확해져 대응하는 엔티티의 제1정보의 제2정보를 획득하기가 더욱 쉽다. 예를 들어, 대응하는 음식물 영양성분의 함량을 획득하기가 더욱 쉽다.

텍스트 코퍼스로부터 획득한, 토마토의 비타민A의 함량이 10g인 횟수는50차, 토마토의 비타민A의 함량이 8g인 횟수는 10차, 토마토의 비타민A의 함량이 1g인 횟수는 3차이라고 가정하면, 50차가 최대치이므로, 토마토의 비타민A의 함량이 10g이라고 확정한다.

상기 실시 예에 있어서, 획득한 후보 제 2정보의 나타나는 횟수를 통계하고 나타난 횟수가 제일 많은 후보 제 2정보를 제 2정보로 확정함으로써, 제 2정보의 정확성을 향상하고 지식 베이스의 정확성도 향상한다.

상기 지식 베이스의 구축 방법의 실시 예와 상응하게, 본 발명은 지식 베이스의 구축 장치의 실시 예를 제공한다.

도 7은, 예시적인 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다. 도7에서 나타낸 바와 같이, 지식 베이스의 구축 장치는 획득판단모듈71와 제1확정추출첨가모듈72을 포함한다.

획득판단모듈71은, 텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 확정하도록 구성되며, 제 1정보는 미리 설정한 엔티티 집합의 엔티티의 속성 정보를 포함한다.

제1확정추출첨가모듈72은 획득판단모듈71이 텍스트 코퍼스가 제 1정보를 포함한다고 확정한 경우, 제 1정보를 추출하여, 제 1정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축한다.

도7에서 나타낸 바와 같이, 장치가 지식 베이스를 구축하는 과정은 도 1에서 나타낸 방법의 실시 예를 참조할 수 있다. 때문에, 이에 대한 상세한 설명은 생략한다.

상기 지식 베이스의 구축 장치의 실시 예에 있어서, 획득판단모듈을 통해 텍스트 코퍼스를 획득하여, 제1확정추출첨가모듈에서 텍스트 코퍼스가 제 1정보를 포함한다고 확정될 경우 제 1정보를 추출하여, 제 1정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써, 지식 베이스의 자동 구축을 완성한다. 따라서, 인력을 이용하여 지식발굴을 할 필요 없게 되여 인력을 절약하고 또한 지식 베이스의 구축 속도도 향상시킨다.

도 8은, 예시적인 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다. 도8에서 나타낸 바와 같이, 상기 도7에서 나타낸 실시 예의 기초하에 획득판단모듈71은, 선별서브모듈711, 획득서브모듈712와 통계확정서브모듈713을 포함한다.

선별서브모듈711은, 개체명 인식의 알고리즘을 통해, 텍스트 코퍼스로부터 미리 설정한 엔티티 집합의 엔티티를 포함하는 제 1센텐스집합을 선별하도록 구성된다.

획득서브모듈712은, 미리 설정한 속성기술모드의 어휘, 구문 구조 또는 양자의 결합에 의해, 선별서브모듈711에서 선별한 제 1센텐스집합에서 후보 제 1정보를 획득하도록 구성되며, 후보 제 1정보는 미리 설정한 엔티티 집합의 엔티티의 속성 정보를 포함한다.

통계확정서브모듈713은, 획득서브모듈712이 획득한 후보 제 1정보의 나타나는 횟수를 통계하고, 후보 제 1정보의 나타나는 횟수가 미리 설정하는 역치보다 많을 경우, 후보 제 1정보를 제 1정보로 확정하도록 구성된다.

그 중, 미리 설정한 속성기술모드는, 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 확정하는데 사용되는 어휘, 구문 구조 또는 양자의 결합을 포함한다.

도8에서 나타낸 장치가 지식 베이스를 구축하는 과정은 도 4의 실시 예를 참조할 수 있다. 여기서 이에 대한 상세한 설명은 생략한다.

상기 실시 예에 있어서, 통계확정서브모듈을 통해 획득한 후보 제 1정보의 나타난 횟수를 통계하고, 나타난 횟수가 미리 설정한 역치보다 많은 후보 제 1정보를 제 1정보로 확정하되, 즉 나타난 횟수가 적은 후보 제 1정보를 제거함으로써, 음식물 영양성분에 속하지 않는 물질을 효율적으로 제거할 수 있게 되므로 지식 베이스의 정확성을 향상시킨다.

도 9는, 예시적인 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다. 도9에서 나타낸 바와 같이, 상기 도7에서 나타낸 실시 예의 기초하에 획득판단모듈71은, 선별서브모듈711, 획득서브모듈712, 구성서브모듈713와 통계삭제확정서브모듈714을 포함한다.

획득서브모듈712은, 미리 설정한 속성기술모드에 의해 선별서브모듈711에서 선별한 제 1센텐스집합으로부터 복수의 후보 제 1정보를 획득하도록 구성되며, 복수의 후보 제 1정보는 엔티티의 속성 정보를 포함한다.

구성서브모듈713은, 제 1센텐스집합에 포함하는 엔티티 및 그에 대응하는 획득서브모듈712이 획득한 복수의 후보 제 1정보가 2원그룹집합을 구성 하도록 구성된다.

통계삭제확정서브모듈714은, 매개 후보 제 1정보의 나타나는 횟수를 통계하고, 구성서브모듈713를 통해 구성 된 2원그룹집합에서 나타난 횟수가 미리 설정하는 역치보다 적은 후보 제 1정보가 위치한 2원그룹을 삭제하고, 현재 2원그룹집합에 포함하는 2원그룹요소를 제 1정보로 확정하도록 구성된다.

도9에서 나타낸 장치가 지식 베이스를 구축하는 과정은 도 5의 실시 예를 참조할 수 있다. 여기서 이에 대한 상세한 설명은 생략한다.

도 10은, 예시적인 또 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다. 도10에서 나타낸 바와 같이, 상기 도7에서 나타낸 실시 예의 기초하에 지식 베이스의 구축 장치는 확정모듈73과 제2확정추출추가모듈74을 더 포함한다.

확정모듈73은, 미리 설정한 속성기술모드와 제 1정보를 토대로, 텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확정하도록 구성되며, 제 2정보는 제 1정보의 속성 정보를 포함한다.

제2확정추출추가모듈74은, 확정모듈73이 텍스트 코퍼스에 제 2정보를 포함한다고 확정 한 경우, 제 2정보를 추출하여, 제 1정보, 제 2정보와 제 1정보에 대응하는 엔티티에 따라 지식 베이스를 업데이트하도록 구성된다.

도10에서 나타낸 장치가 지식 베이스를 구축하는 과정은 도 2의 실시 예를 참조할 수 있다. 여기서 이에 대한 상세한 설명은 생략한다.

상기 지식 베이스의 구축 방법의 실시 예에 있어서, 확정모듈을 통해 텍스트 코퍼스에 제 2정보를 포함하는지 여부를 확정하고, 제2확정추출추가모듈을 통해 텍스트 코퍼스가 제 2정보를 포함한다고 확정 할 경우, 제 2정보를 추출하여 제 1정보, 제 2정보와 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축함으로써 더욱 완벽하게 지식 베이스의 구축을 완성한다.

도 11은, 예시적인 또 다른 일 실시 예에 따른 지식 베이스의 구축 장치의 블록도이다. 도11에서 나타낸 바와 같이, 상기 도 10 에서 나타낸 실시 예의 기초하에, 확정모듈73은, 획득서브모듈731, 추출서브모듈732, 구성서브모듈733와 통계확정서브모듈734을 포함할 수 있다.

획득서브모듈731은, 미리 설정한 속성기술모드에 따라, 텍스트 코퍼스로부터 제 1정보를 포함하는 제 2센텐스집합을 획득하도록 구성된다.

추출서브모듈732은, 획득서브모듈731에서 획득한 제 2센텐스집합에 양적인 엔티티가 포함될 경우, 양적인 엔티티를 후보 제 2정보로 추출하도록 구성된다.

구성서브모듈733은, 엔티티, 제 1정보와 추출서브모듈732에 의해 추출된 후보 제 2정보를 3원그룹집합으로 구성 하도록 구성된다.。

통계확정서브모듈734는, 구성서브모듈733를 통해 구성된 현재 3원그룹집합의 매개 엔티티의 매개 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 후보 제 2정보를 현재 엔티티의 현재 제 1정보의 제 2정보로 확정하도록 구성된다.

도11에서 나타낸 장치가 지식 베이스를 구축하는 과정은 도 6의 실시 예를 참조할 수 있다. 여기서 이에 대한 상세한 설명은 생략한다.

상기 실시 예에 있어서, 2원그룹을 통해 엔티티, 제 1정보와 제 2정보사이의 관계를 표시함으로써 3자간의 관계가 더욱 명확해져 대응하는 엔티티 제 1정보의 제 2정보를 획득하기 쉽다.

상기 실시 예 중의 장치에 관하여, 각 모듈, 서브 모듈의 조작을 수행하는 구체적인 방법은 이미 관련된 방법의 실시 예에서 상세히 설명했기에, 여기서 상세한 설명은 생략한다.

도 12는, 예시적인 일 실시 예에 따른 지식 베이스의 구축 장치에 사용되는 블록도이다. 예를 들어, 장치1200은 하나의 서버로 제공될 수 있다. 도12을 참고하면, 장치1200은, 하나 또는 복수의 프로세서를 포함하는 프로세스 부품1222, 메모리1232을 대표로 하는, 프로세스 부품 1222에서 실행 가능한 인스트럭션 예를 들어 애플리케이션 프로그램을 저장하는데 사용하는 메모리자원을 포함한다. 메모리1232에 저장한 애플리케이션 프로그램은 하나 또는 하나 이상의 매개 그룹의 인스트럭션에 대응하는 모듈을 포함한다. 이밖에, 프로세스 부품1222는 인스트럭션을 실행하도록 구성됨으로써 상기 지식 베이스의 구축 방법을 실행한다.

장치1200은, 장치1200의 전원관리를 실행하는 전원 부품1226, 장치1200을 네트워크에 연결하는 유선 혹은 무선 네트워크 인터페이스1250과, I/O 인터페이스 1258를 더 포함할 수 있다. 장치1200는 메모리1232에 저장되는, 예를 들어Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM 혹은 유사 운영체제를 조작할 수 있다.

본 기술영역의 기술자는 본 발명의 명세서 및 공개된 발명을 실천 한 후, 본 발명의 기타 실시방안을 쉽게 생각해 낼 수 있다. 본 출원은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포괄하는 것을 목적으로 하되, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리를 준수하며 본 개시에 공개 되지 않은 본 기술분야의 공지상식 또는 통상적인 기술수단을 포함한다. 명세서와 실시 예는 단지 예시적인 내용으로서 본 발명의 진정한 보호범위와 정신은 이하 청구범위에 기재된다.

유의해야 할 점은, 본 발명은 상기 기재된 내용과 도시된 정확한 도면에 국한되지 않으며, 보호하고자 하는 범위 내에서 여러 수정 혹은 변형을 할 수 있다. 본 발명의 보호범위는 특허청구범위의 보호범위를 기준으로 해야 한다.

Claims

텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스가 제 1정보를 포함하는지 여부를 판단하는 단계와,
상기 텍스트 코퍼스에 상기 제 1정보를 포함하는 것을 확정할 경우, 상기 제 1정보를 추출하여, 상기 제 1정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축하는 단계를 포함하고,
상기 미리 설정한 속성기술모드는 상기 텍스트 코퍼스에 상기 제 1정보를 포함하는지 여부를 확정하는 어휘, 구문 구조 또는 양자의 결합을 포함하고,
상기 제 1 정보는 미리 설정한 엔티티 집합 중의 엔티티의 속성 정보를 포함하는 것을 특징으로 하는 지식 베이스의 구축 방법.
제 1항에 있어서,
상기 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 단계는,
개체명 인식의 알고리즘을 통해, 상기 텍스트 코퍼스로부터 상기 미리 설정한 엔티티 집합 중 엔티티를 포함하는 제 1센텐스집합을 선별하는 단계와,
상기 미리 설정한 속성기술모드 중 상기 어휘, 구문 구조 또는 양자의 결합에 의해 상기 제 1센텐스집합으로부터 미리 설정한 엔티티 집합 중 상기 엔티티의 속성 정보가 포함되어 있는 후보 제 1정보를 획득하는 단계와,
상기 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 후보 제 1정보의 나타나는 횟수가 미리 설정한 역치보다 많을 경우, 상기 후보 제 1정보를 상기 제 1정보로 확정하는 단계,
를 포함하는 것을 특징으로 하는 지식 베이스의 구축 방법.
제 1항에 있어서,
상기 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스에 제 1정보를 포함하는지 여부를 판단하는 단계는,
개체명 인식의 알고리즘을 통해, 상기 텍스트 코퍼스로부터 상기 미리 설정한 엔티티 집합 중 엔티티를 포함하는 제 1센텐스집합을 선별하는 단계와,
상기 미리 설정한 속성기술모드에 의해 상기 제 1센텐스집합으로부터 상기 엔티티의 속성 정보가 포함되어 있는 복수의 후보 제 1정보를 획득하는 단계와,
상기 제 1센텐스집합 중 포함하는 상기 엔티티 및 그에 대응하는 복수의 후보 제 1정보를 2원그룹집합으로 구성하는 단계와,
매개 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 2원그룹집합에서 나타난 횟수가 미리 설정한 역치보다 적은 후보 제 1정보가 위치한 2원그룹을 삭제하고, 현재 2원그룹집합에 포함하는 2원그룹요소에 의해 상기 제 1정보를 확정하는 단계,
를 포함하는 것을 특징으로 하는 지식 베이스의 구축 방법.
제1항 내지 3항 중 어느 한 항에 있어서,
상기 미리 설정한 속성기술모드와 상기 제 1정보를 토대로, 상기 텍스트 코퍼스에 상기 제 1정보의 속성 정보가 포함되어 있는 제 2정보가 포함하는지 여부를 확정하는 단계와,
상기 텍스트 코퍼스에 상기 제 2정보를 포함하는 것을 확정 할 경우, 상기 제 2정보를 추출하여, 상기 제 1정보, 상기 제 2정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 업데이트 하는 단계,
를 더 포함하는 것을 특징으로 하는 지식 베이스의 구축 방법.
제 4항에 있어서,
상기 미리 설정한 속성기술모드와 상기 제 1정보를 토대로, 상기 텍스트 코퍼스에 제 2정보가 포함하는지 여부를 확정하는 단계는,
상기 미리 설정한 속성기술모드에 따라, 상기 텍스트 코퍼스로부터 상기 제 1정보를 포함하는 제2센텐스집합을 획득하는 단계와,
상기 제2센텐스집합에 양적인 엔티티를 포함할 경우, 상기 양적인 엔티티를 후보 제 2정보로 추출하는 단계와,
상기 엔티티, 상기 제 1정보와 상기 후보 제 2정보를 3원그룹집합으로 구성하는 단계와,
현재 3원그불집합의 매개 엔티티의 매개 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 후보 제 2정보를 현재 엔티티의 현재 제 1정보의 제 2정보로 확정하는 단계,
를 포함하는 것을 특징으로 하는 지식 베이스의 구축 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 미리 설정한 속성기술모드는 함*량, <함유|함>*<#NUM>그램,*<중|안><함유|함|대량 함유>* 중 하나 또는 여러 개를 포함하되, *은 임의의 문자열에 매칭되는 와일드 카드이고, |은 “또는”을 표시하는 코드이며, <#NUM>는 숫자형식의 문자열에 매칭되는 코드이고, <,>는 짝을 이루어 나타나며 복수의 유의어를 포함하는데 사용되는 것을 특징으로 하는 지식 베이스의 구축 방법.
텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스가 제 1정보를 포함하는지 여부를 판단하도록 구성되는 획득판단모듈과,
상기 획득판단모듈이 상기 텍스트 코퍼스에 상기 제 1정보를 포함하는 것을 확정할 경우, 상기 제 1정보를 추출하여, 상기 제 1정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축하도록 구성되는 제1확정추출첨가모듈을 포함하고,
상기 미리 설정한 속성기술모드는 상기 텍스트 코퍼스에 상기 제 1정보를 포함하는지 여부를 확정하는 어휘, 구문 구조 또는 양자의 결합을 포함하고,
상기 제 1정보는 미리 설정한 엔티티 집합 중의 엔티티의 속성 정보를 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.
제 7항에 있어서,
상기 획득판단모듈은,
개체명 인식의 알고리즘을 통해, 상기 텍스트 코퍼스로부터 상기 미리 설정한 엔티티 집합 중 엔티티를 포함하는 제 1센텐스집합을 선별하도록 구성되는 선별서브모듈과,
상기 미리 설정한 속성기술모드의 상기 어휘, 구문 구조 또는 양자의 결합에 따라, 상기 선별서브모듈에서 선별한 상기 제 1센텐스집합으로부터, 미리 설정한 엔티티 집합 중 상기 엔티티의 속성 정보가 포함되어 있는 후보 제 1정보를 획득하도록 구성되는 획득서브모듈과,
상기 획득서브모듈이 획득한 상기 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 후보 제 1정보의 나타나는 횟수가 미리 설정한 역치보다 많을 경우, 상기 후보 제 1정보를 상기 제 1정보로 확정하도록 구성되는 통계확정서브모듈,
을 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.
제 7항에 있어서,
상기 획득판단모듈은,
개체명 인식의 알고리즘을 통해, 상기 텍스트 코퍼스로부터 상기 미리 설정한 엔티티 집합 중 엔티티를 포함하는 제 1센텐스집합을 선별하도록 구성되는 선별서브모듈과,
상기 미리 설정한 속성기술모드에 따라 상기 선별서브모듈에 의해 선별한 상기 제 1센텐스집합으로부터, 상기 엔티티의 속성 정보가 포함되어 있는 복수의 후보 제 1정보를 획득하도록 구성되는 획득서브모듈과,
상기 제 1센텐스집합에 포함하는 상기 엔티티 및 그에 대응하는 상기 획득서브모듈에 의해 획득한 복수의 후보 제 1정보를 2원그룹집합으로 구성하는 구성서브모듈과,
매개 후보 제 1정보의 나타나는 횟수를 통계하고, 상기 구성서브모듈이 구성한 상기2원그룹집합에서 나타난 횟수가 미리 설정한 역치보다 적은 후보 제 1정보가 위치한 2원그룹을 삭제하고, 현재 2원그룹집합에 포함하는 2원그룹요소에 의해 상기 제 1정보를 확정하도록 구성되는 통계삭제확정서브모듈,
을 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 미리 설정한 속성기술모드와 상기 제 1정보를 토대로, 상기 텍스트 코퍼스에 상기 제 1정보의 속성 정보가 포함되어 있는 제 2정보가 포함되어 있는지 여부를 확정하도록 구성되는 확정모듈과,
상기 확정모듈이 상기 텍스트 코퍼스에 상기 제 2정보를 포함하는 것을 확정할 경우, 상기 제 2정보를 추출하여, 상기 제 1정보, 상기 제 2정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 상기 지식 베이스를 업데이트 하도록 구성되는 제2확정추출추가모듈,
을 더 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.
제 10항에 있어서,
상기 확정모듈은,
상기 미리 설정한 속성기술모드에 따라, 상기 텍스트 코퍼스로부터 상기 제 1정보를 포함하는 제2센텐스집합을 획득하도록 구성되는 획득서브모듈과,
상기 제2센텐스집합에 양적인 엔티티를 포함할 경우, 상기 양적인 엔티티를 후보 제 2정보로 추출하도록 구성되는 추출서브모듈과,
상기 엔티티, 상기 제 1정보와 상기 추출서브모듈에 의해 추출한 상기 후보 제 2정보를 3원그룹집합으로 구성하는 구성서브모듈과,
상기 구성서브모듈이 구성한 현재 3원그룹집합의 매개 엔티티의 매개 제 1정보에 대해, 대응하는 매개 후보 제 2정보의 나타나는 횟수를 통계하고, 나타난 횟수가 제일 많은 후보 제 2정보를 현재 엔티티의 현재 제 1정보의 제 2정보로 확정하도록 구성되는 통계확정서브모듈,
을 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 미리 설정한 속성기술모드는 함*량,<함유|함>*<#NUM>그램,*<중|안><함유|함|대량 함유>* 중 하나 또는 여러 개를 포함하되, *은 임의의 문자열에 매칭되는 와일드 카드이고,|은 “또는”을 표시하는 코드이며, <#NUM>는 숫자형식의 문자열에 매칭되는 코드이고, <,>는 짝을 이루어 나타내며 복수의 유의어를 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.
프로세서와,
프로세서에서 실행 가능한 인스트럭션을 저장하는 메모리,
를 포함하는 지식 베이스의 구축 장치에 있어서,
상기 프로세서는,
텍스트 코퍼스를 획득하고, 미리 설정한 속성기술모드에 따라 상기 텍스트 코퍼스가 제 1정보를 포함하는지 여부를 판단하고,
상기 텍스트 코퍼스에 상기 제 1정보를 포함하는 것을 확정할 경우, 상기 제 1정보를 추출하여, 상기 제 1정보와 상기 제 1정보에 대응하는 엔티티를 기반으로 지식 베이스를 구축하도록 구성되고,
상기 미리 설정한 속성기술모드는 상기 텍스트 코퍼스에 상기 제 1정보를 포함하는지 여부를 확정하는 어휘, 구문 구조 또는 양자의 결합을 포함하고,
상기 제 1정보는 미리 설정한 엔티티 집합 중의 엔티티의 속성 정보를 포함하는 것을 특징으로 하는 지식 베이스의 구축 장치.