KR101572911B1 - 문서 추천 방법, 문서 선택 방법 및 문서 추천 장치 - Google Patents

문서 추천 방법, 문서 선택 방법 및 문서 추천 장치 Download PDF

Info

Publication number
KR101572911B1
KR101572911B1 KR1020140019957A KR20140019957A KR101572911B1 KR 101572911 B1 KR101572911 B1 KR 101572911B1 KR 1020140019957 A KR1020140019957 A KR 1020140019957A KR 20140019957 A KR20140019957 A KR 20140019957A KR 101572911 B1 KR101572911 B1 KR 101572911B1
Authority
KR
South Korea
Prior art keywords
class
document
document semantic
calculating
entities
Prior art date
Application number
KR1020140019957A
Other languages
English (en)
Other versions
KR20150098719A (ko
Inventor
서효원
함경준
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020140019957A priority Critical patent/KR101572911B1/ko
Publication of KR20150098719A publication Critical patent/KR20150098719A/ko
Application granted granted Critical
Publication of KR101572911B1 publication Critical patent/KR101572911B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

문서 추천 방법은 쿼리를 수신하는 단계, 쿼리와 관련 있는 복수의 문서들을 검색하는 단계, 도메인 온톨로지에 기초하여 문서들의 요약된 정보를 나타내는 주요 클래스 개체들 및 주요 클래스 개체들을 연결하는 관계들을 포함하는 복수의 문서 시맨틱 네트워크들을 생성하는 단계, 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계, 가중치들에 기초하여 문서 시맨틱 네트워크들 중 하나를 선택하는 단계 및 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계를 포함한다.

Description

문서 추천 방법, 문서 선택 방법 및 문서 추천 장치{METHOD OF RECOMMENDING DOCUMENT, METHOD OF SELECTING DOCUMENT AND APPARATUS OF RECOMMENDING DOCUMENT}
본 발명은 도메인 온톨로지에 관한 것으로서, 더욱 상세하게는 도메인 온톨로지에 기초하여 쿼리 및 사용자 프로파일 등에 적합한 문서를 선택 및 추천하는 문서 선택 방법, 문서 추천 방법 및 문서 추천 장치에 관한 것이다.
최근 이미 작성된 엔지니어링 문서들을 재활용하여 제품 설계 시간을 감축시키는 방법들이 사용되고 있다. 그러나, 설계를 담당하는 엔지니어는 설계 목적에 가장 적합한 엔지니어링 문서들을 검색하는데 어려움을 겪고 있다.
쿼리(Query) 및 사용자 프로파일(User profile) 등에 기초하여 상기 검색된 문서들의 적합성에 대한 정확한 평가 방법 및 상기 검색된 문서들 중에서 가장 적합한 문서를 선택 및 추천하는 방법이 필요하다.
상기와 같은 필요를 충족하기 위한 본 발명의 일 목적은 검색된 문서들의 요약된 정보를 나타내는 문서 시맨틱 네트워크들을 생성하고, 상기 생성된 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들에 기초하여 가장 적합한 문서를 선택 및 추천하는 방법을 제공하는 데 있다.
상기와 같은 필요를 충족하기 위한 본 발명의 일 목적은 검색된 문서들의 요약된 정보를 나타내는 문서 시맨틱 네트워크들을 생성하고, 상기 생성된 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들에 기초하여 가장 적합한 문서를 추천하는 장치를 제공하는 데 있다.
상기 일 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 문서 추천 방법은 쿼리(Query)를 수신하는 단계, 상기 쿼리와 관련 있는 복수의 문서들을 검색하는 단계, 도메인 온톨로지(Domain ontology)에 기초하여 상기 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성하는 단계, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산하는 단계, 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택하는 단계 및 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계를 포함한다.
일 실시예에 있어서, 상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는 상기 도메인 온톨로지에 기초하여 상기 문서들을 전처리하여 명확화된 클래스 개체들(Disambiguated class individuals)을 생성하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는 상기 도메인 온톨로지에 기초하여 상기 명확화된 클래스 개체들과 상기 문서들의 요약된 정보와 연관성을 나타내는 중요도 (Importance score)를 계산하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 중요도를 계산하는 단계는 상기 도메인 온톨로지에 기초하여 상기 명확화된 클래스 개체들 간의 관계 및 상기 명확화된 클래스 개체들을 포함하는 온톨로지 내에서 하나의 명확화된 클래스 개체의 하위 구조가 포함하는 서브-파트 관계(Sub-part relationship)의 수에 기초하여 상기 하나의 명확화된 클래스 개체의 구조적 중요도(Structural importance score)를 계산하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 중요도를 계산하는 단계는 상기 문서 내에서의 하나의 명확화된 클래스 개체의 출현 수(Term frequency(TF))에 비례하고, 상기 문서들 중에서 상기 하나의 명확화된 클래스 개체를 포함하는 문서의 수(Document frequency(DF))에 반비례하는 상기 하나의 명확화된 클래스 개체의 TF/IDF 중요도(Term frequency and inverse document frequency importance score)를 계산하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 중요도를 계산하는 단계는 하나의 문서에 포함되는 제1 명확화된 클래스 개체는 상기 도메인 온톨로지 상의 제1 클래스(Class)에 상응하고, 상기 도메인 온톨로지 상에서 상기 제1 클래스와 한계 시맨틱 거리(Limit semantic distance) 내에 존재하는 제2 클래스에 상응하는 상기 하나의 문서 상의 제2 명확화된 클래스 개체의 수에 기초하여 상기 제1 명확화된 클래스 개체의 시맨틱 중요도(Semantic importance score)를 계산하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는 상기 중요도에 기초하여 상기 명확화된 클래스 개체들 중에서 상기 주요 클래스 개체들을 선택하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는 상기 도메인 온톨로지에 기초하여 상기 주요 클래스 개체들을 연결하는 관계들(Relationships)을 생성하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 관계들을 생성하는 단계는 연결 클래스 개체(Bridge class individual)를 상기 주요 클래스 개체들에 포함시켜서, 상기 연결 클래스 개체를 포함하는 주요 클래스 개체들 간의 관계들을 생성하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 문서 시맨틱 네트워크들은 제1 내지 제3 관계들을 포함하고, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는, 상기 문서 시맨틱 네트워크들 상에서 상기 제1 관계의 주체 클래스 개체(Subject class individual)를 주체 클래스 개체로 가지는 상기 제2 관계들의 개수와, 상기 문서 시맨틱 네트워크들 상에서 상기 제1 관계의 주체 클래스 개체를 주체 클래스 개체로 가지고 상기 제1 관계의 객체 클래스 개체(Object class individual)를 객체 클래스 개체로 가지는 상기 제3 관계의 개수에 기초하여 상기 제1 관계의 특별성 가중치(Specificity weight)를 계산하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는, 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계의 주체 클래스 개체의 부품 명세서(Bill of material; BOM) 상의 구조적 레벨 및 상기 하나의 관계의 객체 클래스 개체의 상기 부품 명세서 상의 구조적 레벨에 기초하여 상기 하나의 관계의 정교성 가중치(Elaboration weight)를 계산하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계가 미리 생성된 사용자 프로파일(User profile)에 존재하는지 여부에 따라 상기 하나의 관계의 내부 관심도 가중치(Implicit interest weight)를 계산하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계의 주체 클래스 개체 및 상기 하나의 관계의 객체 클래스 개체가 상기 쿼리에 존재하는지 여부에 따라 상기 하나의 관계의 외부 관심도 가중치(Explicit interest weight)를 계산하는 단계를 포함할 수 있다.
상기 일 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 문서 선택 방법은 도메인 온톨로지(Domain ontology)에 기초하여 복수의 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성하는 단계, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산하는 단계, 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택하는 단계 및 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계를 포함한다.
상기 일 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 문서 추천 장치는 문서 검색부, 문서 시맨틱 네트워크 생성부, 가중치 계산부, 선택부 및 문서 출력부를 포함한다. 상기 문서 검색부는 쿼리(Query)와 관련 있는 복수의 문서들을 검색한다. 상기 문서 시맨틱 네트워크 생성부는 도메인 온톨로지(Domain ontology)에 기초하여 상기 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성한다. 상기 가중치 계산부는 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산한다. 상기 선택부는 상기 가중치에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택한다. 상기 문서 출력부는 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력한다.
본 발명의 실시예들에 따른 문서 추천 방법, 문서 선택 방법 및 문서 추천 방법은 문서들의 요약된 정보를 나타내는 문서 시맨틱 네트워크들을 생성하고, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하여, 상기 문서의 적합도를 정확히 평가할 수 있고, 상기 평가 방법에 기초하여 쿼리 및 사용자 프로파일에 가장 적합한 문서를 선택 및 추천할 수 있다.
도 1은 본 발명의 일 실시예에 따른 문서 시맨틱 네트워크를 이용한 문서 추천 방법을 나타내는 순서도이다.
도 2는 도 1의 순서도에 포함되는 복수의 문서 시맨틱 네트워크들을 생성하는 단계를 나타내는 순서도이다.
도 3은 도메인 온톨로지에 포함되는 온톨로지 정의를 나타내는 블록도이다.
도 4는 도 2의 순서도의 명확화된 클래스 개체들 및 상기 명확화된 클래스 개체들 간의 관계에 의해 구축된 온톨로지를 나타내는 블록도이다.
도 5는 도 2의 순서도에 포함되는 중요도를 계산하는 단계를 나타내는 순서도이다.
도 6은 도 1의 순서도에 포함되는 복수의 문서 시맨틱 네트워크들을 생성하는 단계를 나타내는 도면이다.
도 7은 도 5의 순서도에서 중요도들을 계산하는 단계를 나타내는 도면이다.
도 8은 도 2의 순서도에 포함되는 주요 클래스 개체들을 연결하는 관계들을 생성하는 단계를 구현한 알고리즘을 나타내는 도면이다.
도 9는 도 1의 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계를 나타내는 순서도이다.
도 10은 도 9의 순서도에 따른 문서 시맨틱 네트워크의 가중치를 계산하는 과정을 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 문서 시맨틱 네트워크를 이용한 문서 선택 방법을 나타내는 순서도이다.
도 12는 본 발명의 일 실시예에 따른 문서 시맨틱 네트워크를 이용한 문서 추천 장치를 나타내는 블록도이다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성요소에 대해 사용하였다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시(說示)된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 문서 시맨틱 네트워크를 이용한 문서 추천 방법을 나타내는 순서도이다.
도 1을 참조하면, 문서를 추천하기 위하여 먼저 쿼리(Query)를 수신(S110)한다. 상기 쿼리는 사용자가 검색하고자 하는 단어들로 구성될 수 있다.
다음으로 상기 쿼리와 관련 있는 복수의 문서들을 검색(S120)한다.
다음으로 도메인 온톨로지(Domain ontology)에 기초하여 상기 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성(S130)한다. 복수의 시맨틱 네트워크들을 생성하는 단계(S130)에 대하여 도 2 내지 도 8을 참조하여 후술한다.
다음으로 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산(S140)하고, 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택(S150)하고, 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력(S160)한다. 상기 가중치들을 계산하는 단계(S140), 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택하는 단계(S150) 및 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계(S160)는 도 9 및 10을 참조하여 후술한다.
도 2는 도 1의 순서도에 포함되는 복수의 문서 시맨틱 네트워크들을 생성하는 단계를 나타내는 순서도이다.
도 2를 참조하면, 복수의 문서 시맨틱 네트워크들을 생성(S130)하기 위해, 상기 도메인 온톨로지에 기초하여 상기 문서들을 전처리하여 명확화된 클래스 개체들(Disambiguated class individuals)을 생성(S131)할 수 있다.
문서, 특히 엔지니어링 문서는 작성자의 특성에 따라 유사한 단어에 대하여 다양한 어휘가 사용될 수 있으므로, 문서들 상의 다양한 어휘를 온톨로지 정의(Ontology definition) 및 어휘 데이터 베이스(LEXICON DB)를 사용하여 상기 명확화된 클래스 개체들로 변환한다. 상기 온톨로지 정의는 도 3을 참조하여 후술한다.
다음으로, 도메인 온톨로지에 기초하여 상기 명확화된 클래스 개체들과 상기 문서들의 요약된 정보와 연관성을 나타내는 중요도 (Importance score)를 계산(S132)할 수 있다. 상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는 상기 중요도에 기초하여 상기 명확화된 클래스 개체들 중에서 상기 주요 클래스 개체들을 선택(S133)할 수 있다. 상기 중요도를 계산하는 단계(S132) 및 상기 주요 클래스 개체들을 선택하는 단계(S133)는 도 3 및 5를 참조하여 후술한다.
다음으로, 상기 도메인 온톨로지에 기초하여 상기 주요 클래스 개체들을 연결하는 관계들(Relationships)을 생성(S134)할 수 있다. 상기 관계들을 생성하는 단계(S134)는 도 7 및 8을 참조하여 후술한다.
도 3은 도메인 온톨로지에 포함되는 온톨로지 정의를 나타내는 블록도이다.
도 3을 참조하면, 타원은 클래스를 의미하고, 직사각형은 문자열 또는 정수를 의미하고, 실선은 객체 속성(Object property)을 의미하고, 점선은 정보 속성(Datatype property)을 의미한다. 온톨로지 정의(200)는 Product 클래스(211), Feature 클래스(212), Part 클래스(213), Function 클래스(214), Geometry 클래스(215), Functional_Geo 클래스(216) 및 Performance 클래스(217)를 포함한다. 클래스는 속성의 주체 클래스(Subject class)일 수 있고 또는 속성의 객체 클래스(Object class)일 수 있다.
온톨로지 정의(200)는 주체 클래스로서 Part 클래스(213), 객체 클래스로서 Product 클래스(211)를 포함하는 Has_product_cat 속성을 포함한다. 온톨로지 정의(200)는 주체 클래스로서 Part 클래스(213), 객체 클래스로서 Function클래스(214)를 포함하는 Has_func속성을 포함하고, 주체 클래스로서 Part 클래스(213), 객체 클래스로서 Part클래스(213) 자기 자신을 포함하는 Has_subpart 속성을 포함하고, 주체 클래스로서 Part 클래스(213), 객체 클래스로서 Feature 클래스(212)를 포함하는 Has_feature 속성을 포함하고, 주체 클래스로서 Part 클래스(213), 객체 클래스로서 Geometry 클래스(215), Functional_Geo 클래스(216) 및 Performance 클래스(217)를 포함하는 Has_func_geo 속성을 포함한다. 온톨로지 정의(520)는 주체 클래스로서 Product 클래스(213), 객체 클래스로서 Function 클래스(214)를 포함하는 Has_func 속성을 포함하고, 주체 클래스로서 Product 클래스(213), 객체 클래스로서 Performance 클래스(217)를 포함하는 Has_perf 속성을 포함한다. 온톨로지 정의(200)는 주체 클래스로서 Feature 클래스(212), 객체 클래스로서 Geometry 클래스(215)를 포함하는 Has_geo 속성을 포함한다. 온톨로지 정의(500)는 주체 클래스로서 Functional_Geo 클래스(216), 객체 클래스로서 Geometry 클래스(215)를 포함하는 Has_geo 속성을 포함하고, 주체 클래스로서 Functional_Geo 클래스(216), 객체 클래스로서 Performance 클래스(217)를 포함하는 Has_perf 속성을 포함한다.
온톨로지 정의(200)에 포함된 클래스들(211 내지 217)의 각각은 동의어 문자열 리스트들(221 내지 227)의 각각과의 Has_lexicon 정보 속성들을 포함한다. 온톨로지 정의(200)에 포함된 Part 클래스(213)는 Part 클래스의 부품 명세서(Bill of material; BOM) 상의 구조적 레벨에 대한 정수 값(228)과의 Has_BOM_level 정보 속성을 포함한다.
도 4는 도 2의 순서도의 명확화된 클래스 개체들 및 상기 명확화된 클래스 개체들 간의 관계에 의해 구축된 온톨로지를 나타내는 블록도이다.
도 4를 참조하면, 구축된 온톨로지(300)는 도 2의 순서도의 명확화된 클래스 개체들을 생성(S131)하는 단계를 통해 생성된 명확화된 클래스 개체들(311, 312) 및 상기 명확화된 클래스 개체들(311, 312) 간의 관계들(331)을 포함한다. 상기 명확화된 클래스 개체들(311, 312)은 도 3의 온톨로지 정의(200)의 클래스들을 개체화(Instantiation)한 것이고, 상기 명확화된 클래스 개체들(311, 312) 간의 관계들(311)은 도 3의 온톨로지 정의(200)의 속성들을 개체화한 것이다. 도 1의 순서도의 문서 시맨틱 네트워크는 상기 구축된 온톨로지의 일종이다.
구축된 온톨로지(300)는 Air_Purifier_Assy 클래스 개체(311), O_AP_Assy 클래스 개체(312), I_AP_Assy 클래스 개체, SiroccoFan_Assy 클래스 개체, SF Diameter 클래스 개체, CrossFlowFan_Assy 클래스 개체, O_BLDC_Assy 클래스 개체, O_Filter_Assy 클래스 개체, I_BLDC_Assy 클래스 개체, SF_AirVolume 클래스 개체, CFF_AirVolume 클래스 개체, CFF_Blade 클래스 개체, CFF_Plate 개체, CFF_Shaft 개체, CFF Diameter 개체를 포함한다.
구축된 온톨로지(300)는 Air_Purifier_Assy 클래스 개체와 O_AP_Assy 클래스 개체 간 및 Air_Purifier_Assy 클래스 개체와 I_AP_Assy 클래스 개체 간에 Has_product_cat 속성 개체, 즉 Has_product_cat 관계들(331)을 포함한다. 구축된 온톨로지(300)는 O_AP_Assy 클래스 개체(312)와 CrossFlowFan_Assy 클래스 개체 간, O_AP_Assy 클래스 개체(312)와 O_BLDC_Assy 클래스 개체 간 및 O_AP_Assy 클래스 개체(312)와 O_Filter_Assy 클래스 개체 간에 Has_subpart 관계를 포함한다.
구축된 온톨로지(300)는 Air_Purifier_Assy 클래스 개체와 동의어인 VAPS 문자열과 AP 문자열로 이루어진 동의어 리스트(321) 간의 Has_lexicon 관계를 포함하고, Air_Purifier_Assy 클래스 개체(311)의 1의 값을 가지는 BOM 레벨 값(322) 간의 Has_BOM_level 관계를 포함한다. 구축된 온톨로지(300)는 O_AP_Assy 클래스 개체(312)와 동의어인 Inside AP 문자열, AP 문자열, VAPS 문자열 및 Air Purifier 문자열을 포함하는 동의어 리스트(623) 간의 Has_lexicon 관계를 포함하고, O_AP_Assy 클래스 개체(312)의 2의 값을 가지는 BOM 레벨 값(324) 간의 Has_BOM_level 관계를 포함한다.
구축된 온톨로지(300)에 포함되는 나머지 관계들은 위 설명에 기초하여 이해할 수 있으므로 설명을 생략한다.
도 5는 도 2의 순서도에 포함되는 중요도를 계산하는 단계를 나타내는 순서도이다.
도 5를 참조하면, 상기 중요도를 계산(S132)하기 위해 상기 도메인 온톨로지에 기초하여 상기 명확화된 클래스 개체들 간의 관계 및 상기 명확화된 클래스 개체들을 포함하는 온톨로지 내에서 하나의 명확화된 클래스 개체의 하위 구조가 포함하는 서브-파트 관계(Sub-part relationship)의 수에 기초하여 상기 하나의 명확화된 클래스 개체의 구조적 중요도(Structural importance score)를 계산(S135)할 수 있다.
다음으로, 상기 문서 내에서의 하나의 명확화된 클래스 개체의 출현 수(Term frequency(TF))에 비례하고, 상기 문서들 중에서 상기 하나의 명확화된 클래스 개체를 포함하는 문서의 수(Document frequency(DF))에 반비례하는 상기 하나의 명확화된 클래스 개체의 TF/IDF 중요도(Term frequency and inverse document frequency importance score)를 계산(S136)할 수 있다.
다음으로, 하나의 문서에 포함되는 제1 명확화된 클래스 개체는 상기 도메인 온톨로지 상의 제1 클래스(Class)에 상응하고, 상기 도메인 온톨로지 상에서 상기 제1 클래스와 한계 시맨틱 거리(Limit semantic distance) 내에 존재하는 제2 클래스에 상응하는 상기 하나의 문서 상의 제2 명확화된 클래스 개체의 수에 기초하여 상기 제1 명확화된 클래스 개체의 시맨틱 중요도(Semantic importance score)를 계산(S137)할 수 있다.
상기 구조적 중요도를 계산하는 단계(S135), 상기 TF/IDF 중요도를 계산하는 단계(S136) 및 상기 시맨틱 중요도를 계산하는 단계(S137)는 도 6을 참조하여 후술한다.
도 6은 도 1의 순서도에 포함되는 복수의 문서 시맨틱 네트워크들을 생성하는 단계를 나타내는 도면이다.
도 6을 참조하면, 상기 구조적 중요도를 계산하는 단계(S135)는 다음과 같다. N을 문서의 개수라 하고, 쿼리에 대하여 검색된 문서들의 집합을
Figure 112014016977649-pat00001
이라고 한다면, 문서 dj는
Figure 112014016977649-pat00002
로 표현될 수 있다. I들은 명확화된 클래스 개체들을 의미한다.
Figure 112014016977649-pat00003
Figure 112014016977649-pat00004
가 집합 dj 내 서브-파트 관계(Sub-part relationship)를 가지는 클래스 개체들의 수를 의미한다. 문서 dj의 명확화된 i번째 클래스 개체인
Figure 112014016977649-pat00005
에 대한 구조적 중요도(
Figure 112014016977649-pat00006
)는 다음과 같이 표현될 수 있다.
Figure 112014016977649-pat00007
A 내지 H의 명확화된 클래스 개체들(410)은 온톨로지 정의(200)에 기초하여 관계를 추출(420)하게 되면 온톨로지(430)가 생성된다.
온톨로지 정의(200)에서 상기 A 내지 H 명확화된 클래스 개체들(410)간의 관계를 정의할 수 없는 B 클래스 개체와 G 클래스 개체 간의 관계의 경우, 온톨로지 정의(200)에 기초하여 I 클래스 개체 및 J 클래스 개체를 상기 A 내지 H 명확화된 클래스 개체들(410)에 추가하고, 추가된 클래스 개체들을 포함하는 명확화된 클래스 개체들 간의 관계를 추출하여 온톨로지(430)를 생성한다.
온톨로지(430)의 경우 실선의 관계들은 Has_subpart 관계들이고, 점선은 Has_subpart 외의 관계들이다. 예를 들어 Sub(B)는 G 클래스 개체 및 H 클래스 개체이므로, |Sub(B)|는 2의 값을 가진다. Sub(C)는 E 클래스 개체이므로, |Sub(C)|는 1의 값을 가진다. Sub(A)는 B 클래스 개체, C 클래스 개체, E 클래스 개체, G 클래스 개체 및 H 클래스 개체이므로, |Sub(A)|는 5의 값을 가진다. 따라서 StS(B)는 2/5의 값을 가지고 StS(C)는 3/5의 값을 가진다.
도 5의 TF/IDF 중요도를 계산하는 단계(S136)는 다음과 같다.
Figure 112014016977649-pat00008
에 대한 TF/IDF 중요도(
Figure 112014016977649-pat00009
)는 다음과 같이 표현될 수 있다.
Figure 112014016977649-pat00010
Figure 112014016977649-pat00011
는 문서 dj 내에서
Figure 112014016977649-pat00012
의 출현 수를 의미하고,
Figure 112014016977649-pat00013
는 문서들 D 중에서
Figure 112014016977649-pat00014
를 포함하는 문서의 수를 의미한다. 높은 tf 값과 낮은 df 값을 가질수록
Figure 112014016977649-pat00015
의 값은 증가한다.
도 5의 시맨틱 중요도를 계산하는 단계(S137)는 다음과 같다.
Figure 112014016977649-pat00016
에 대한 시맨틱 중요도(
Figure 112014016977649-pat00017
)는 다음과 같이 표현될 수 있다.
Figure 112014016977649-pat00018
Figure 112014016977649-pat00019
는 온톨로지 정의(200) 상에서
Figure 112014016977649-pat00020
에 상응하는 클래스와
Figure 112014016977649-pat00021
에 상응하는 클래스 간의 최소 호핑(hopping) 수인 시맨틱 거리(Semantic distance; SD)를 의미한다.
Figure 112014016977649-pat00022
은 미리 정해진 한계 시맨틱 거리(Limit semantic distance)를 의미한다.
상기 중요도를 계산하는 단계(S132)의
Figure 112014016977649-pat00023
의 중요도(
Figure 112014016977649-pat00024
)는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00025
w1, w2 및 w3은 각각 0 이상 1이하의 값을 가지고, 모두의 합은 1이 되는 가중치들이다. 중요도(
Figure 112014016977649-pat00026
)에 기초하여 상위 n% 내에 속하는 명확화된 클래스 개체들을 주요 클래스 개체들(Major class individuals)로서 선택(S133)한다.
도 7은 도 5의 순서도에서 중요도들을 계산하는 단계를 나타내는 도면이다.
도 7을 참조하면, 문서들로부터 상기 명확화된 클래스 개체들을 생성하는 단계(S131)를 통해 명확화된 클래스 개체들(510)은 A 내지 H 명확화된 클래스 개체를 포함한다. 상기 주요 클래스 개체들을 선택하는 단계(S133)에서 명확화된 클래스 개체들(510) 중에서 주요 클래스 개체들(520)을 선택한다. 주요 클래스 개체들(520)은 A, D, E, F 및 H 주요 클래스 개체를 포함한다.
온톨로지 정의(200) 내에는 정의되지 않은 주요 클래스 개체들(520) 간의 관계, 예를 들어 A 주요 클래스 개체와 D 주요 클래스 개체 간의 관계 및 D 주요 클래스 개체와 H 주요 클래스 개체 간의 관계,는 생성이 불가능하므로, 온톨로지 정의(200)에 정의된 D 클래스를 개체화한 D 클래스 개체 및 온톨로지 정의(200)에 정의된 J 클래스를 개체화한 J 클래스를 연결 개체들(Bridge class individuals)로서 주요 클래스 개체들(520)에 추가할 수 있다.
상기 주요 클래스 개체들을 연결하는 관계들을 생성하는 단계(S134)는 상기 A, D, E, F, H 주요 클래스 개체들 및 I, J 연결 클래스 개체들 간의 관계를 생성한다. 이 과정은 도 8을 참조하여 후술한다.
문서 시맨틱 네트워크(630)는 A, D, E, F, H 주요 클래스 개체들 및 I, J 연결 클래스 개체들 및 상기 주요 클래스 개체들 및 연결 클래스 개체들 간의 관계들을 포함한다.
도 8은 도 2의 순서도에 포함되는 주요 클래스 개체들을 연결하는 관계들을 생성하는 단계를 구현한 알고리즘을 나타내는 도면이다.
도 8을 참조하면, 알고리즘(600)의 세 번째 줄까지는 문서, 주요 클래스 개체들, 문서 시맨틱 네트워크에 대해 정의 구문을 포함한다. 알고리즘(600)의 네 번째 줄부터 열 번째 줄까지는 상기 변수들을 초기화하는 구문을 포함한다. 알고리즘(600)의 열한 번째 줄부터 스물한 번째 줄까지 문서 시맨틱 네트워크에 포함되는 관계들을 추출하는 구문을 포함한다. 알고리즘(600)의 스물두 번째 줄부터 마지막 줄까지는 연결 클래스 개체들이 필요한 경우를 판단하고, 필요한 경우 연결 클래스 개체를 문서 시맨틱 네트워크에 삽입하는 구문을 포함한다.
도 9는 도 1의 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계를 나타내는 순서도이다.
도 9를 참조하면, 상기 문서 시맨틱 네트워크들은 제1 내지 제3 관계들을 포함하는 경우, 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산(S140)하기 위해 상기 문서 시맨틱 네트워크들 상에서 상기 제1 관계의 주체 클래스 개체(Subject class individual)를 주체 클래스 개체로 가지는 상기 제2 관계들의 개수와, 상기 문서 시맨틱 네트워크들 상에서 상기 제1 관계의 주체 클래스 개체를 주체 클래스 개체로 가지고 상기 제1 관계의 객체 클래스 개체(Object class individual)를 객체 클래스 개체로 가지는 상기 제3 관계의 개수에 기초하여 상기 제1 관계의 특별성 가중치(Specificity weight)를 계산(S141)할 수 있다.
다음으로 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계의 주체 클래스 개체의 부품 명세서(Bill of material; BOM) 상의 구조적 레벨 및 상기 하나의 관계의 객체 클래스 개체의 상기 부품 명세서 상의 구조적 레벨에 기초하여 상기 하나의 관계의 정교성 가중치(Elaboration weight)를 계산(S142)할 수 있다.
다음으로 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계가 미리 생성된 사용자 프로파일(User profile)에 존재하는지 여부에 따라 상기 하나의 관계의 내부 관심도 가중치(Implicit interest weight)를 계산(S143)할 수 있다.
다음으로 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계의 주체 클래스 개체 및 상기 하나의 관계의 객체 클래스 개체가 상기 쿼리에 존재하는지 여부에 따라 상기 하나의 관계의 외부 관심도 가중치(Explicit interest weight)를 계산(S144)할 수 있다.
상기 특별성 가중치를 계산하는 단계(S141), 상기 정교성 가중치를 계산하는 단계(S142), 상기 내부 관심도 가중치를 계산하는 단계(S143) 및 상기 외부 관심도 가중치를 계산하는 단계(S144)는 도 10을 참조하여 후술한다.
도 10은 도 9의 순서도에 따른 문서 시맨틱 네트워크의 가중치를 계산하는 과정을 나타내는 도면이다.
도 10을 참조하면, 문서 시맨틱 네트워크(700)는 제1 문서에 상응하는 제1 문서 시맨틱 네트워크(710), 제2 문서에 상응하는 제2 문서 시맨틱 네트워크(720) 및 제3 문서에 상응하는 제3 문서 시맨틱 네트워크(730)를 포함한다.
특별성 가중치(Specificity weight)를 계산하는 단계(S141)는 다음과 같다. 문서 시맨틱 네트워크(700)에 포함되는 주요 클래스 개체
Figure 112014016977649-pat00027
와 주요 클래스 개체
Figure 112014016977649-pat00028
의 관계는
Figure 112014016977649-pat00029
로 표현된다.
Figure 112014016977649-pat00030
의 특별성 가중치(
Figure 112014016977649-pat00031
)는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00032
Figure 112014016977649-pat00033
는 문서 시맨틱 네트워크(700) 내에서
Figure 112014016977649-pat00034
를 주체 클래스 개체(Subject class individual)로 가지는 관계들의 출현 수를 의미한다.
Figure 112014016977649-pat00035
는 문서 시맨틱 네트워크(700) 내에서
Figure 112014016977649-pat00036
를 주체 클래스 개체로 가지고,
Figure 112014016977649-pat00037
를 객체 클래스 개체(Object class individual)로 가지는 관계들의 출현 수를 의미한다.
O_BLDC_Assy를 주체 클래스 개체로 가지는 관계들은 6개가 존재하므로 R(O_BLDC_Assy)는 6의 값을 가진다. 반면, O_BLDC_Assy를 주체 클래스 개체로 가지고, BLDC_Housing을 객체 클래스 개체로 가지는 관계들은 3개가 존재하므로 r(O_BLDC_Assy, BLDC_Housing)은 3의 값을 가진다. 제1 문서 시맨틱 네트워크(710)의 Has_Subpart(O_BLDC_Assy, BLDC_Housing) 관계의 특별성 가중치는 ln(6/3 + 1)의 값을 가지고, 제1 문서 시맨틱 네트워크(710)의 Has_Perf(O_BLDC_Assy, BLDC_Torque) 관계의 특별성 가중치는 ln(6/2 + 1)의 값을 가지고, 제1 문서 시맨틱 네트워크(710)의 Has_Perf(O_BLDC_Assy, BLDC_RPM) 관계의 특별성 가중치는 ln(6/1 + 1)의 값을 가질 수 있다.
제2 문서 시맨틱 네트워크(720) 및 제3 문서 시맨틱 네트워크(730)들의 관계들의 특별성 가중치 값들은 위 설명에 기초하여 이해할 수 있으므로 설명을 생략한다.
정교성 가중치(Elaboration weight)를 계산하는 단계(S142)는 다음과 같다.
Figure 112014016977649-pat00038
의 정교성 가중치(
Figure 112014016977649-pat00039
)는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00040
Figure 112014016977649-pat00041
Figure 112014016977649-pat00042
의 부품 명세서(Bill of materials) 상의 구조적 레벨을 의미하고,
Figure 112014016977649-pat00043
Figure 112014016977649-pat00044
의 부품 명세서 상의 구조적 레벨을 의미한다.
Figure 112014016977649-pat00045
은 문서 시맨틱 네트워크(700) 내의 주요 클래스 개체들이 가지는 가장 높은 부품 명세서 상의 구조적 레벨을 의미한다.
bom(O_BLDC_Assy)는 3의 값을 가지고, bom(BLDC_Housing)는 4의 값을 가지고, MAX BOM Level은 5의 값을 가지는 경우, 제1 시맨틱 네트워크(710)의 Has_Subpart(O_BLDC_Assy, BLDC_Housing) 관계의 정교성 가중치는 4^2/5의 값을 가지고, 제1 시맨틱 네트워크(710)의 Has_Perf(O_BLDC_Assy, BLDC_Torque) 관계의 정교성 가중치는 3^2/5의 값을 가지고, 제1 시맨틱 네트워크(710)의 Has_Perf(O_BLDC_Assy, BLDC_RPM) 관계의 정교성 가중치는 3^2/5의 값을 가질 수 있다.
제2 문서 시맨틱 네트워크(720) 및 제3 문서 시맨틱 네트워크(730)들의 관계들의 정교성 가중치 값들은 위 설명에 기초하여 이해할 수 있으므로 설명을 생략한다.
내부 관심도 가중치(Implicit interest weight)를 계산하는 단계(S143)는 다음과 같다.
Figure 112014016977649-pat00046
가 미리 정의된 사용자 프로파일(User profile)상에 존재하는 경우
Figure 112014016977649-pat00047
의 내부 관심도 가중치를
Figure 112014016977649-pat00048
로 하고,
Figure 112014016977649-pat00049
가 미리 정의된 사용자 프로파일(User profile)상에 존재하지 않는 경우
Figure 112014016977649-pat00050
의 내부 관심도 가중치를
Figure 112014016977649-pat00051
로 할 수 있다. 내부 관심도 가중치는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00052
외부 관심도 가중치(Explicit interest weight)를 계산하는 단계(S144)는 다음과 같이
Figure 112014016977649-pat00053
가 쿼리 내에 존재하는 경우
Figure 112014016977649-pat00054
의 외부 관심도 가중치를
Figure 112014016977649-pat00055
로 하고,
Figure 112014016977649-pat00056
가 쿼리 내에 존재하지 않는 경우
Figure 112014016977649-pat00057
의 외부 관심도 가중치를
Figure 112014016977649-pat00058
로 할 수 있다. 외부 관심도 가중치는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00059
Figure 112014016977649-pat00060
이 0.8의 값을 가지고, O_BLD_Assy와 BLDC_Housing이 쿼리에 존재하는 경우, 제1 시맨틱 네트워크(710)의 Has_Subpart(O_BLDC_Assy, BLDC_Housing) 관계의 외부 관심도 가중치는 0.8의 값을 가지고, 제1 시맨틱 네트워크(710)의 Has_Perf(O_BLDC_Assy, BLDC_Torque) 관계의 외부 관심도 가중치는 0.2의 값을 가지고, 제1 시맨틱 네트워크(710)의 Has_Perf(O_BLDC_Assy, BLDC_RPM) 관계의 외부 관심도 가중치는 0.2의 값을 가질 수 있다.
제2 문서 시맨틱 네트워크(720) 및 제3 문서 시맨틱 네트워크(730)들의 관계들의 외부 관심도 가중치 값들은 위 설명에 기초하여 이해할 수 있으므로 설명을 생략한다. 제1 문서 시맨틱 네트워크(710), 제2 문서 시맨틱 네트워크(720) 및 제3 문서 시맨틱 네트워크(730)들의 관계들의 내부 관심도 가중치 값들은 위 설 명에 기초하여 이해할 수 있으므로 설명을 생략한다.
문서 시맨틱 네트워크(700)에 포함되는 관계들의 가중치는 특별성 가중치, 정교성 가중치, 내부 관심도 가중치 및 외부 관심도 가중치의 합일 수 있다. 문서 시맨틱 네트워크(700)에 포함되는
Figure 112014016977649-pat00061
관계의 가중치는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00062
k1, k2, k3 및 k4는 각각 0 이상 1이하의 값을 가지고, 모두의 합은 1이 되는 가중치들이다. 제1 문서 시맨틱 네트워크(710), 제2 문서 시맨틱 네트워크(720) 및 제3 문서 시맨틱 네트워크(730)의 적합도(DSNscore)는 다음과 같이 계산될 수 있다.
Figure 112014016977649-pat00063
상기 문서 시맨틱 네트워크들 중 하나를 선택하는 단계(S150)는 [수학식 10]에 따라 문서 시맨틱 네트워크들 중 가장 적합도(DSNscore)가 높은 문서 시맨틱 네트워크를 선택할 수 있다.
[수학식 10]에 따른 문서 시맨틱 네트워크의 적합도는 관계가 많을수록 높은 값을 가지는 특징을 가진다. 따라서, 긴 문서들은 관계를 많이 가질 가능성이 크고, 긴 문서에 상응하는 문서 시맨틱 네트워크의 적합도가 높을 가능성이 크다.
[수학식 11]은 주로 긴 문서가 쓰이는 전기 디자인 단계(Early design stage)에서는 [수학식 10]과 동일하되, 짧은 문서가 많이 쓰이는 후기 디자인 단계(Later design stage)에서는 문서 i에 상응하는 문서 시맨틱 네트워크의 관계의 개수(
Figure 112014016977649-pat00064
)가 큰, 긴 문서의 경우 문서 i에 상응하는 문서 시맨틱 네트워크의 적합도를 낮추어주고, 문서 i에 상응하는 문서 시맨틱 네트워크의 관계의 개수가 작은, 짧은 문서의 경우 문서 i에 상응하는 문서 시맨틱 네트워크의 적합도를 높여준다.
Figure 112014016977649-pat00065
은 검색된 문서들에 상응하는 문서 시맨틱 네트워크들이 포함하는 평균적인 관계들의 개수를 의미한다.
Figure 112014016977649-pat00066
상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계(S160)는 상기 가장 적합도가 높은 문서 시맨틱 네트워크에 상응하는 문서를 출력할 수 있다.
도 11은 본 발명의 일 실시예에 따른 문서 시맨틱 네트워크를 이용한 문서 선택 방법을 나타내는 순서도이다.
도 11을 참조하면, 문서를 선택하기 위해 도메인 온톨로지(Domain ontology)에 기초하여 복수의 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성(S210)한다. 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산(S220)한다. 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택(S230)한다. 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력(S240)한다.
상기 문서 시맨틱 네트워크들을 생성하는 단계(S210), 상기 가중치들을 계산하는 단계(S220), 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택하는 단계(S230) 및 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계(S240)는 도 2 내지 10을 참조하여 전술하였으므로 설명을 생략한다.
도 12는 본 발명의 일 실시예에 따른 문서 시맨틱 네트워크를 이용한 문서 추천 장치를 나타내는 블록도이다.
도 12를 참조하면, 문서 추천 장치(800)는 문서 검색부(810), 문서 시맨틱 네트워크 생성부(820), 가중치 계산부(830), 선택부(840) 및 문서 출력부(850)를 포함한다.
문서 검색부(810)는 쿼리(QUERY)와 관련 있는 복수의 문서들을 검색한다. 문서 시맨틱 네트워크 생성부(820)는 도메인 온톨로지(Domain ontology)에 기초하여 상기 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성한다. 가중치 계산부(830)는 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산한다. 선택부(840)는 상기 가중치에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택한다. 문서 출력부(850)는 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서(DOCUMENT)를 출력한다.
문서 검색부(810), 문서 시맨틱 네트워크 생성부(820), 가중치 계산부(830), 선택부(840) 및 문서 출력부(850)는 도 1 내지 10을 참조하여 이해할 수 있으므로 설명을 생략한다.
본 발명은 다수의 문서들이 생성되는 분화된 여려 과정을 가지는 회사의 시스템에 유용하게 이용될 수 있다. 특히 회사 시스템 상의 엔지니어가 속하지 않은 타 과정의 다수의 문서를 빠르게 이해하고 결정을 내리는데 더욱 유용하게 이용 될 수 있다.
상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (15)

  1. 문서 검색부가 쿼리(Query)를 수신하는 단계;
    상기 문서 검색부가 상기 쿼리와 관련 있는 복수의 문서들을 검색하는 단계;
    문서 시맨틱 네트워크 생성부가 도메인 온톨로지(Domain ontology)에 기초하여 상기 문서들의 요약된 정보를 나타내는 주요 클래스 개체들(Major class individuals) 및 상기 주요 클래스 개체들을 연결하는 관계들(Relationship)을 포함하는 복수의 문서 시맨틱 네트워크들(Document semantic networks)을 생성하는 단계;
    가중치 계산부가 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들(Weights)을 계산하는 단계;
    선택부가 상기 가중치들에 기초하여 상기 문서 시맨틱 네트워크들 중 하나를 선택하는 단계; 및
    문서 출력부가 상기 선택된 문서 시맨틱 네트워크에 상응하는 문서를 출력하는 단계를 포함하고,
    상기 문서 시맨틱 네트워크들은 제1 내지 제3 관계들을 포함하고,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들 상에서 상기 제1 관계의 주체 클래스 개체(Subject class individual)를 주체 클래스 개체로 가지는 상기 제2 관계들의 개수와, 상기 문서 시맨틱 네트워크들 상에서 상기 제1 관계의 주체 클래스 개체를 주체 클래스 개체로 가지고 상기 제1 관계의 객체 클래스 개체(Object class individual)를 객체 클래스 개체로 가지는 상기 제3 관계의 개수에 기초하여 상기 제1 관계의 특별성 가중치(Specificity weight)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  2. 제1 항에 있어서,
    상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 상기 도메인 온톨로지에 기초하여 상기 문서들을 전처리하여 명확화된 클래스 개체들(Disambiguated class individuals)을 생성하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  3. 제2 항에 있어서,
    상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 상기 도메인 온톨로지에 기초하여 상기 명확화된 클래스 개체들과 상기 문서들의 요약된 정보와 연관성을 나타내는 중요도(Importance score)를 계산하는 단계를 더 포함하는 것을 특징으로 하는 문서 추천 방법.
  4. 제3 항에 있어서,
    상기 중요도를 계산하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 상기 도메인 온톨로지에 기초하여 상기 명확화된 클래스 개체들 간의 관계 및 상기 명확화된 클래스 개체들을 포함하는 온톨로지 내에서 하나의 명확화된 클래스 개체의 하위 구조가 포함하는 서브-파트 관계(Sub-part relationship)의 수에 기초하여 상기 하나의 명확화된 클래스 개체의 구조적 중요도(Structural importance score)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  5. 제3 항에 있어서,
    상기 중요도를 계산하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 상기 문서 내에서의 하나의 명확화된 클래스 개체의 출현 수(Term frequency(TF))에 비례하고, 상기 문서들 중에서 상기 하나의 명확화된 클래스 개체를 포함하는 문서의 수(Document frequency(DF))에 반비례하는 상기 하나의 명확화된 클래스 개체의 TF/IDF 중요도(Term frequency and inverse document frequency importance score)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  6. 제3 항에 있어서,
    상기 중요도를 계산하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 하나의 문서에 포함되는 제1 명확화된 클래스 개체는 상기 도메인 온톨로지 상의 제1 클래스(Class)에 상응하고, 상기 도메인 온톨로지 상에서 상기 제1 클래스와 한계 시맨틱 거리(Limit semantic distance) 내에 존재하는 제2 클래스에 상응하는 상기 하나의 문서 상의 제2 명확화된 클래스 개체의 수에 기초하여 상기 제1 명확화된 클래스 개체의 시맨틱 중요도(Semantic importance score)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  7. 제3 항에 있어서,
    상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 상기 중요도에 기초하여 상기 명확화된 클래스 개체들 중에서 상기 주요 클래스 개체들을 선택하는 단계를 더 포함하는 것을 특징으로 하는 문서 추천 방법.
  8. 제7 항에 있어서,
    상기 복수의 문서 시맨틱 네트워크들을 생성하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 상기 도메인 온톨로지에 기초하여 상기 주요 클래스 개체들을 연결하는 관계들(Relationships)을 생성하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  9. 제8 항에 있어서,
    상기 관계들을 생성하는 단계는,
    상기 문서 시맨틱 네트워크 생성부가 연결 클래스 개체(Bridge class individual)를 상기 주요 클래스 개체들에 포함시켜서, 상기 연결 클래스 개체를 포함하는 주요 클래스 개체들 간의 관계들을 생성하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  10. 삭제
  11. 제1 항에 있어서,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계의 주체 클래스 개체의 부품 명세서(Bill of material; BOM) 상의 구조적 레벨 및 상기 하나의 관계의 객체 클래스 개체의 상기 부품 명세서 상의 구조적 레벨에 기초하여 상기 하나의 관계의 정교성 가중치(Elaboration weight)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  12. 제1 항에 있어서,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계가 미리 생성된 사용자 프로파일(User profile)에 존재하는지 여부에 따라 상기 하나의 관계의 내부 관심도 가중치(Implicit interest weight)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  13. 제1 항에 있어서,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들의 적합도를 나타내는 가중치들을 계산하는 단계는,
    상기 가중치 계산부가 상기 문서 시맨틱 네트워크들에 포함되는 하나의 관계의 주체 클래스 개체 및 상기 하나의 관계의 객체 클래스 개체가 상기 쿼리에 존재하는지 여부에 따라 상기 하나의 관계의 외부 관심도 가중치(Explicit interest weight)를 계산하는 단계를 포함하는 것을 특징으로 하는 문서 추천 방법.
  14. 삭제
  15. 삭제
KR1020140019957A 2014-02-21 2014-02-21 문서 추천 방법, 문서 선택 방법 및 문서 추천 장치 KR101572911B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140019957A KR101572911B1 (ko) 2014-02-21 2014-02-21 문서 추천 방법, 문서 선택 방법 및 문서 추천 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140019957A KR101572911B1 (ko) 2014-02-21 2014-02-21 문서 추천 방법, 문서 선택 방법 및 문서 추천 장치

Publications (2)

Publication Number Publication Date
KR20150098719A KR20150098719A (ko) 2015-08-31
KR101572911B1 true KR101572911B1 (ko) 2015-12-02

Family

ID=54059993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140019957A KR101572911B1 (ko) 2014-02-21 2014-02-21 문서 추천 방법, 문서 선택 방법 및 문서 추천 장치

Country Status (1)

Country Link
KR (1) KR101572911B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210406320A1 (en) * 2020-06-25 2021-12-30 Pryon Incorporated Document processing and response generation system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048441A (ja) 2007-08-21 2009-03-05 Univ Of Tokyo 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048441A (ja) 2007-08-21 2009-03-05 Univ Of Tokyo 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法

Also Published As

Publication number Publication date
KR20150098719A (ko) 2015-08-31

Similar Documents

Publication Publication Date Title
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
KR102055899B1 (ko) 맥락을 이용하여 문서를 검색하는 시스템 및 방법
WO2018050022A1 (zh) 应用程序的推荐方法及服务器
JP5387578B2 (ja) 情報分析装置、情報分析方法、及びプログラム
JP5284278B2 (ja) 検索結果を提供する方法およびこの方法を実行するシステム
WO2011078186A1 (ja) 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
US20180114136A1 (en) Trend identification using multiple data sources and machine learning techniques
JP2010020490A (ja) 未訪問地の情報提供装置及び未訪問地の情報提供方法
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
US10198497B2 (en) Search term clustering
CN103324641B (zh) 信息记录推荐方法和装置
CN104951478A (zh) 信息处理方法和信息处理装置
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
US10719663B2 (en) Assisted free form decision definition using rules vocabulary
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
CN110928986A (zh) 法律证据的排序和推荐方法、装置、设备及存储介质
CN103020141A (zh) 一种用于提供搜索结果的方法和设备
KR101572911B1 (ko) 문서 추천 방법, 문서 선택 방법 및 문서 추천 장치
Hao et al. Modeling positive and negative feedback for improving document retrieval
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN106611339B (zh) 种子用户筛选方法、产品的用户影响力评价方法及装置
KR101614843B1 (ko) 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치
US9104755B2 (en) Ontology enhancement method and system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200122

Year of fee payment: 5