KR20110070343A - 온톨로지 구축 방법 - Google Patents

온톨로지 구축 방법 Download PDF

Info

Publication number
KR20110070343A
KR20110070343A KR1020090127142A KR20090127142A KR20110070343A KR 20110070343 A KR20110070343 A KR 20110070343A KR 1020090127142 A KR1020090127142 A KR 1020090127142A KR 20090127142 A KR20090127142 A KR 20090127142A KR 20110070343 A KR20110070343 A KR 20110070343A
Authority
KR
South Korea
Prior art keywords
class
resource
similarity
resources
relationship information
Prior art date
Application number
KR1020090127142A
Other languages
English (en)
Inventor
최은정
김이길
김원우
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020090127142A priority Critical patent/KR20110070343A/ko
Publication of KR20110070343A publication Critical patent/KR20110070343A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

온톨로지 구축 시스템은 복수의 클래스 및 복수의 클래스들간의 관계 정보를 바탕으로 클래스 그래프를 생성하고, 웹 문서에 포함된 텍스트로부터 복수의 리소스 및 복수의 리소스간의 관계 정보를 추출하며, 복수의 리소스 및 복수의 리소스간의 관계 정보를 바탕으로 리소스 그래프를 생성한다. 이후 온톨로지 구축 시스템은 클래스 그래프와 리소스 그래프를 바탕으로 리소스-클래스 쌍의 유사도를 계산하는 단계, 그리고 리소스-클래스 쌍의 유사도를 바탕으로 복수의 리소스와 복수의 클래스간의 관계 정보를 생성한다.
온톨로지, 유사도, 그래프, 노드, 아크

Description

온톨로지 구축 방법{METHOD FOR BUILDING ONTOLOGY}
본 발명은 온톨로지 구축 방법에 관한 것이다. 특히 본 발명은 시스템이 웹 문서를 바탕으로 특정 도메인에 대한 온톨로지를 구축하는 방법에 관한 것이다.
온톨로지는 실세계에 존재하는 지식과 그것들 간의 의미 관계를 체계적으로 표현한 것으로, 온톨로지를 이용하면 자신이 필요로 하는 정보는 물론 관련된 다른 정보까지 얻을 수 있기 때문에 지능형 질의/응답 시스템, 지능형 검색 엔진 등에 활용될 수 있다.
온톨로지는 주로 전문가의 수작업으로 구축되고 있다. 그 이유는 기계가 인산의 복잡한 지식을 이해하고 처리할 수 없기 때문이다. 그러나 수작업으로 온톨로지를 구축하는 데는 막대한 시간과 노력이 소요되고, 수작업의 특성상 오류의 잠재성을 완전히 배제할 수 없다.
이러한 온톨로지 구축에 따른 문제점을 해결하기 위한 방법으로 데이터베이스로부터 온톨로지를 자동으로 생성하는 것이다. 이러한 방법은 비교적 적은 비용과 시간으로 온톨로지를 생성할 수 있으나 그 정보가 데이터베이스로 한정되어 있다는 단점이 있다. 특히, 웹을 사용하는 사용자와 웹 상의 정보가 크게 증가하면서 이를 온톨로지화하려는 시도가 많이 이루어지고 있으며, 일반적인 방법은 미리 정의된 클래스들간의 관계 정보에 해당하는 온톨로지 스키마 기반으로 웹 문서들의 핵심 내용을 트리플로 자동 추출하여 인스턴스 온톨로지를 만드는 것이다.
하지만, 이렇게 생성된 인스턴스 온톨로지의 경우, 인스턴스의 속성 정보는 표현되지만 인스턴스와 클래스간의 관계 정보를 표현하지 못하는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는 웹 문서를 바탕으로 생성된 인스턴스 온톨로지에서 인스턴스와 클래스간의 관계 정보를 표현하지 못하는 문제점을 해결하기 위해 인스턴스와 클래스간의 그래프 구조를 비교하여 인스턴스와 클래스간의 관계 정보를 표현할 수 있는 온톨로지 구축 방법을 제공하는 것이다.
본 발명의 특징에 따른 온톨로지 구축 방법은 시스템이 온톨로지를 구축하는 방법으로써, 미리 저장된 복수의 클래스 및 복수의 클래스들간의 관계 정보를 바탕으로 복수의 클래스에 각각 대응하는 복수의 클래스 노드간의 속성 관계를 아크로 연결한 클래스 그래프를 생성하는 단계, 웹 문서에 포함된 텍스트로부터 복수의 리소스 및 복수의 리소스간의 관계 정보를 추출하는 단계, 복수의 리소스 및 복수의 리소스간의 관계 정보를 바탕으로 복수의 리소스에 각각 대응하는 복수의 리소스 노드간의 속성 관계를 아크로 연결한 리소스 그래프를 생성하는 단계, 클래스 그래프에서 각 클래스 노드를 출발지 노드 또는 도착지 노드로 하는 아크의 개수와 리 소스 그래프에서 각 리소스 노드를 출발지 노드 또는 도착지 노드로 하는 아크의 개수를 바탕으로 리소스-클래스 쌍의 유사도를 계산하는 단계, 그리고 리소스-클래스 쌍의 유사도를 바탕으로 복수의 리소스와 복수의 클래스간의 관계 정보를 생성하는 단계를 포함한다.
본 발명의 다른 특징에 따른 온톨로지 구축 방법은 시스템이 온톨로지를 구축하는 방법으로써, 웹 문서에 포함된 텍스트를 바탕으로 복수의 트리플 데이터를 생성하는 단계, 미리 저장된 복수의 클래스의 각각 속성값을 바탕으로 복수의 트리플 데이터 중 속성값에 대응하는 트리플 데이터를 추출하는 단계, 추출된 트리플 데이터에 포함된 복수의 리소스간의 관계 정보와 복수의 클래스간의 관계 정보를 비교하여 복수의 리소스와 복수의 클래스간의 유사도를 계산하는 단계, 계산된 유사도를 바탕으로 복수의 리소스에서 복수의 클래스 중 어느 하나의 클래스의 인스턴스에 해당하는 리소스를 검출하는 단계, 그리고 어느 하나의 클래스와 검출된 리소스간의 관계 정보를 미리 저장된 온톨로지에 저장하는 단계를 포함한다.
본 발명의 특징에 따르면, 인스턴스간의 관계 정보에 따른 그래프의 구조를 클래스간의 관계정보에 따른 그래프의 구조와 비교하여 인스턴스와 클래스간의 유사도를 계산하여 인스턴스와 클래스간의 관계 정보를 표현함으로써 온톨로지 정보를 확장할 수 있는 효과가 있다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명 이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이제 도면을 참고하여 본 발명의 실시예에 따른 온톨로지 구축 방법에 대해 자세히 설명한다.
먼저 도 1을 참고하여 본 발명의 실시예에 따른 온톨로지 구축 시스템의 구성에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 온톨로지 구축 시스템의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 온톨로지 구축 시스템(100)은 웹 문서 수집부(110), 온톨로지 구축부(130) 및 온톨로지 저장부(150)를 포함한다.
웹 문서 수집부(110)는 인터넷(10)에서 텍스트를 포함하는 웹 문서를 수집 및 저장한다.
온톨로지 구축부(130)는 수집된 웹 문서의 텍스트를 바탕으로 형태소 분석 및 개체명 인식을 통해 트리플 데이터를 생성하고, 생성된 트리플 데이터를 바탕으 로 온톨로지를 구축한다. 이때 온톨로지 구축부(130)는 텍스트를 형태소 단위로 분석하여 즉, 형태소 분석을 통해 품사정보를 획득할 수 있다. 또한 온톨로지 구축부(130)는 텍스트로부터 인명, 지명, 기관명 등과 같은 개체명을 인식하여 즉, 개체명 인식을 통해 개체명을 획득할 수 있다.
온톨로지 저장부(150)는 온톨로지 구축 시스템(100)을 통해 구축하고자 하는 특정 도메인에 대한 스키마 구조를 미리 저장한다.
다음은 도 2를 참고하여 본 발명의 실시예에 따른 온톨로지 구축 시스템(100)이 온톨로지를 구축하는 방법에 대해 설명한다.
도 2는 본 발명의 실시예에 따른 온톨로지 구축 방법을 도시한 도면이다.
도 2에 도시된 바와 같이, 먼저, 웹 문서 수집부(110)는 인터넷(10)에서 텍스트를 포함하는 웹 문서를 수집한다(S110).
예를 들어, 웹 문서 수집부(110)는 "대장금의 장르는 사극이다. 대장금의 배우는 이영애이다."라는 텍스트를 포함하는 웹 문서를 수집할 수 있다.
다음, 온톨로지 구축부(130)는 수집된 웹 문서에 포함된 텍스트를 바탕으로 형태소 분석 및 개체명 인식을 통해 복수의 트리플 데이터를 생성한다(S120). 이때 각 트리플 데이터는 두 개의 리소스(Resource) 및 두 개의 리소스간의 속성 관계에 따른 관계 정보를 포함하며, 각 리소스는 속성값을 가진다.
예를 들어, "대장금의 장르는 사극이다. 대장금의 배우는 이영애이다."라는 텍스트에 대해서, 온톨로지 구축부(130)는 "대장금-장르-사극", "대장금-배우-이영애"라는 트리플 데이터를 생성할 수 있다. 이때 "대장금-장르-사극"에서 "대장금" 과 "사극"은 리소스에 해당하고, "장르"는 관계 정보에 해당한다. 또한 "대장금-배우-이영애"에서 "대장금"과 "이영애"는 리소스에 해당하고, "배우"는 관계 정보에 해당한다.
이후, 온톨로지 구축부(130)는 생성된 복수의 트리플 데이터 중 특정 도메인에서 유의미한 트리플 데이터를 온톨로지 저장부(150)에 저장된 클래스 데이터를 바탕으로 추출한다(S130). 이때 클래스 데이터는 복수의 클래스 및 복수의 클래스간의 속성 관계에 따른 관계 정보를 포함하며, 각 클래스는 속성값을 가진다. 또한 온톨로지 구축부(130)는 클래스 데이터에 포함된 복수의 클래스의 각각의 속성값과 각 트리플 데이터에 포함된 리소스의 속성값을 비교하여 유의미한 트리플 데이터를 추출할 수 있다.
예를 들어, 복수의 트리플 데이터에 대해서, 온톨로지 구축부(130)는 "프로그램-배우-사람", "프로그램-장르-장르"라는 트리플 데이터를 포함하는 클래스 데이터에 따라 "대장금-장르-사극" 및 "대장금-배우-이영애"이라는 트리플 데이터를 추출할 수 있다.
다음, 온톨로지 구축부(130)는 추출된 트리플 데이터를 바탕으로 복수의 리소스와 복수의 리소스간의 속성 관계에 따른 관계 정보를 포함하는 리소스 데이터를 생성한다(S140).
예를 들어, "대장금-장르-사극" 및 "대장금-배우-이영애"이라는 트리플 데이터에 대해서, 온톨로지 구축부(130)는 "사극-장르-대장금-배우-이영애"라는 리소스 데이터를 생성할 수 있다. 이 경우 "사극", "대장금" 및 "이영애"는 리소스에 해당 하고, "장르" 및 "배우"는 관계 정보에 해당한다.
이후, 온톨로지 구축부(130)는 클래스 데이터와 리소스 데이터를 바탕으로 복수의 클래스와 복수의 리소스간의 유사도를 계산한다(S150).
예를 들어, "사극-장르-대장금-배우-이영애"라는 리소스 데이터에 대해서, 온톨로지 구축부(130)는 "사극", "대장금" 및 "이영애"라는 리소스와 "프로그램", "장르" 및 "사람"이라는 클래스간의 유사도를 계산할 수 있다.
다음, 온톨로지 구축부(130)는 계산된 복수의 클래스와 복수의 리소스간의 유사도를 바탕으로 복수의 리소스 중에서 클래스 데이터에 포함된 클래스에 대한 인스턴스에 해당하는 리소스를 검출한다(S160).
예를 들어, "사극", "대장금" 및 "이영애"라는 리소스에 대해서, 온톨로지 구축부(130)는 리소스와 클래스 쌍들간의 유사도에 따라 "프로그램"이라는 클래스에 대한 인스턴스에 해당하는 "대장금"이라는 리소스를 검출할 수 있다.
다음, 온톨로지 구축부(130)는 검출된 리소스, 검출된 리소스와 해당 클래스간의 속성 관계에 따른 관계 정보를 온톨로지 저장부(150)에 저장한다(S170).
예를 들어, "대장금"이라는 검출된 리소스 및 "프로그램-인스턴스-대장금"이라는 관계 정보에 대해서, 온톨로지 구축부(130)는 "대장금"이라는 리소스, 그리고 "대장금"이라는 리소스와 "프로그램"이라는 클래스간의 인스턴스 관계를 온톨로지 저장부(150)에 저장할 수 있다.
이를 통해 온톨로지 구축 시스템(100)은 웹 문서로부터 스키마 구조에 포함된 클래스의 인스턴스를 온톨로지에 추가하여 특정 도메인에 대한 온톨로지를 구축 할 수 있다.
다음은 도 3 및 4를 참고하여 본 발명의 실시예에 따른 온톨로지 구축 시스템(100)이 클래스와 리소스간의 유사도를 계산하는 방법에 대해 설명한다.
도 3은 본 발명의 실시예에 따른 유사도 계산 방법을 도시한 도면이다.
도 3에 도시된 바와 같이, 먼저, 온톨로지 구축부(130)는 클래스 데이터에 포함된 복수의 클래스에 각각 대응하는 복수의 클래스 노드에 대해 클래스 데이터에 포함된 관계 정보에 따라 클래스 노드간의 속성 관계를 방향성을 가지는 연결선으로 연결하여 클래스 그래프를 생성한다(S310).
한편, 온톨로지 구축부(130)는 리소스 데이터에 포함된 복수의 리소스에 각각 대응하는 복수의 리소스 노드에 대해 리소스 데이터에 포함된 관계 정보에 따라 리소스 노드간의 속성 관계를 방향성을 가지는 연결선으로 연결하여 리소스 그래프를 생성한다(S320).
이와 같이 클래스 데이터 및 리소스 데이터는 속성 관계에 따라 그래프 구조로 표현이 가능하다. 이하에서는 두 노드를 연결하는 방향성을 가지는 연결선을 아크라고 하고, 아크의 방향성에 따라 출발지 노드를 오너 노드, 도착지 노드를 멤버 노드라고 한다.
다음, 온톨로지 구축부(130)는 클래스 그래프 및 리소스 그래프를 바탕으로 클래스 그래프 및 리소스 그래프에 각각 대응하는 클래스 아크 행렬 및 리소스 아크 행렬을 생성한다(S330). 이때 온톨로지 구축부(130)는 클래스 그래프에서 각 클래스 노드를 오너 노드 또는 멤버 노드로 하는 아크의 개수, 그리고 리소스 그래프 에서 각 리소스 노드를 오너 노드 또는 멤버 노드로 하는 아크의 개수를 바탕으로 리소스 노드와 클래스 노드간의 유사도를 계산할 수 있다.
이하에서는 도 4를 참조하여 본 발명의 실시예의 하나의 예에 따른 아크 행렬 생성 방법에 대해 설명한다.
이때 클래스 데이터는 "프로그램-배우-사람", "프로그램-PD-사람", "프로그램-갖는다-프로그램", "프로그램-장르-장르" 및 "장르-서브클래스-드라마"라는 트리플 데이터를 포함하고, 리소스 데이터는 "대장금-장르-사극" 및 "대장금-배우-이영애"라는 트리플 데이터를 포함하며, 도 4에서는 해당 클래스 데이터 및 해당 리소스 데이터에 대응하는 클래스 그래프 및 리소스 그래프에 대해 설명한다.
도 4는 본 발명의 실시예의 하나의 예에 따른 클래스 그래프 및 리소스 그래프를 도시한 도면이다.
도 4의 (a)에 도시된 바와 같이, 클래스 그래프(310)는 제1 클래스 노드(이하에서는 'C1'이라고도 함)(311), 제2 클래스 노드(이하에서는 'C2'라고도 함)(312), 제3 클래스 노드(이하에서는 'C3'라고도 함)(313), 제4 클래스 노드(이하에서는 'C4'라고도 함)(314), 제5 클래스 노드(이하에서는 'C5'라고도 함)(315) 및 제6 클래스 노드(이하에서는 'C6'라고도 함)(316)를 포함한다.
제1 아크(311a)는 제3 클래스 노드(313)를 오너 노드로 갖고, 제1 클래스 노드(311)를 멤버 노드로 갖는다.
제2 아크(311b)는 제3 클래스 노드(313)를 오너 노드로 갖고, 제2 클래스 노 드(312)를 멤버 노드로 갖는다.
제3 아크(311c)는 제3 클래스 노드(313)를 오너 노드로 갖고, 제4 클래스 노드(314)를 멤버 노드로 갖는다.
제4 아크(311d)는 제3 클래스 노드(313)를 오너 노드로 갖고, 제5 클래스 노드(315)를 멤버 노드로 갖는다.
제5 아크(311e)는 제3 클래스 노드(313)를 오너 노드로 갖고, 제6 클래스 노드(316)를 멤버 노드로 갖는다.
제6 아크(315a)는 제5 클래스 노드(315)를 오너 노드로 갖고, 제6 클래스 노드(316)를 멤버 노드로 갖는다.
이와 같은 경우, 온톨로지 구축부(130)는 오너 노드일 때의 각 클래스 노드와 멤버 노드일 때의 각 클래스 노드를 각각 행과 열로 갖는 클래스 아크 행렬에서 각 아크의 오너 노드와 멤버 노드에 대응하는 성분을 1로 설정하고, 나머지 성분을 0으로 설정한다.
따라서, 온톨로지 구축부(130)는 수학식 1과 같은 클래스 아크 행렬 "A"를 생성할 수 있다.
Figure 112009078594433-PAT00001
도 4의 (b)에 도시된 바와 같이, 리소스 그래프(330)는 제1 리소스 노드(이하에서는 'R1'이라고도 함)(331), 제2 리소스 노드(이하에서는 'R2'라고도 함)(332) 및 제3 리소스 노드(이하에서는 'R3'라고도 함)(333)를 포함한다.
제1 아크(332a)는 제2 리소스 노드(332)를 오너 노드로 갖고, 제1 리소스 노드(331)를 멤버 노드로 갖는다.
제2 아크(332b)는 제2 리소스 노드(332)를 오너 노드로 갖고, 제3 리소스 노드(333)를 멤버 노드로 갖는다.
이와 같은 경우, 온톨로지 구축부(130)는 오너 노드일 때의 각 리소스 노드와 멤버 노드일 때의 각 리소스 노드를 각각 행과 열로 갖는 리소스 아크 행렬에서 각 아크의 오너 노드와 멤버 노드에 대응하는 성분을 1로 설정하고, 나머지 성분을 0으로 설정한다.
따라서, 온톨로지 구축부(130)는 수학식 2와 같은 리소스 아크 행렬 "B"를 생성할 수 있다.
Figure 112009078594433-PAT00002
다시 도 3을 참조하여 유사도를 계산하는 방법에 대해 설명한다.
이후, 온톨로지 구축부(130)는 클래스 아크 행렬 및 리소스 아크 행렬을 바탕으로 정규화된 유사도 행렬을 계산한다(S340). 이때 온톨로지 구축부(130)는 수 학식 3에 따라 정규화된 유사도 행렬을 계산할 수 있다.
Figure 112009078594433-PAT00003
수학식 3에서, A, AT, B 및 BT는 각각 클래스 아크 행렬, 클래스 아크 행렬의 전치행렬, 리소스 아크 행렬 및 리소스 아크 행렬의 전치 행렬을 나타내고,
Figure 112009078594433-PAT00004
는 유클리드 놈(Euclidean norm) 또는 프로베니우스 놈(Frobenius norm)을 나타낸다. 이때 Zk+1 및 Zk는 각각 리소스 노드와 클래스 노드를 각각 행과 열로 갖고 각 리소스 노드와 클래스 노드 쌍간의 유사도를 성분으로 갖는 (k+1)번째 유사도 행렬 및 k번째 유사도 행렬을 나타낸다. 또한 유사도 행렬의 초기값 "Z0"은 수학식 4와 같이 미리 설정될 수 있다.
Figure 112009078594433-PAT00005
수학식 4는 3개의 리소스 노드와 6개의 클래스 노드간의 유사도 행렬의 초기값을 나타낸다.
다음, 온톨로지 구축부(130)는 정규화된 유사도 행렬의 각 성분의 변화량이 미리 정해진 값 이하인 K번째 최종 유사도 행렬 즉, 최종 유사도 행렬을 계산한다(S350). 이때 온톨로지 구축부(130)는 수학식 3에 따라 k값을 증가시켜 최종 유 사도 행렬을 계산할 수 있다.
이때 도 4에 도시된 클래스 그래프(310) 및 리소스 그래프(330)를 바탕으로 수학식 3에 따라 정규화된 유사도 행렬을 계산 후, 각 성분의 변화량이 0.001 이하인 경우의 최종 유사도 행렬을 계산하면, 최종 유사도 행렬 "Z"는 수학식 5와 같다.
Figure 112009078594433-PAT00006
최종 유사도 행렬이 수학식 5와 같은 경우, 온톨로지 구축부(130)는 유사도가 미리 정해진 임계값 "0.5" 이상인 제2 리소스 노드와 제3 클래스 노드 쌍에 따라 제2 리소스 노드에 대응하는 리소스를 제3 클래스 노드에 대응하는 클래스의 인스턴스로 검출할 수 있고, 해당 리소스 및 해당 리소스와 해당 클래스의 인스턴스 관계에 따른 관계 정보를 온톨로지 저장부(150)에 저장할 수 있다.
이와 같은 온톨로지 구축 방법에 따라 그래프로 표현이 가능한 트리플 데이터를 바탕으로 그래프의 구조적 유사도를 계산하여 클래스와 인스턴스간의 속성 관계를 결정할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 실시예에 따른 온톨로지 구축 시스템의 구성을 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 온톨로지 구축 방법을 도시한 도면이다.
도 3은 본 발명의 실시예에 따른 유사도 계산 방법을 도시한 도면이다.
도 4는 본 발명의 실시예의 하나의 예에 따른 클래스 그래프 및 리소스 그래프를 도시한 도면이다.

Claims (11)

  1. 시스템이 온톨로지를 구축하는 방법에 있어서,
    미리 저장된 복수의 클래스 및 상기 복수의 클래스들간의 관계 정보를 바탕으로 상기 복수의 클래스에 각각 대응하는 복수의 클래스 노드간의 속성 관계를 아크로 연결한 클래스 그래프를 생성하는 단계;
    웹 문서에 포함된 텍스트로부터 복수의 리소스 및 상기 복수의 리소스간의 관계 정보를 추출하는 단계;
    상기 복수의 리소스 및 상기 복수의 리소스간의 관계 정보를 바탕으로 상기 복수의 리소스에 각각 대응하는 복수의 리소스 노드간의 속성 관계를 아크로 연결한 리소스 그래프를 생성하는 단계;
    상기 클래스 그래프에서 각 클래스 노드를 출발지 노드 또는 도착지 노드로 하는 아크의 개수와 상기 리소스 그래프에서 각 리소스 노드를 출발지 노드 또는 도착지 노드로 하는 아크의 개수를 바탕으로 리소스-클래스 쌍의 유사도를 계산하는 단계; 및
    상기 리소스-클래스 쌍의 유사도를 바탕으로 상기 복수의 리소스와 상기 복수의 클래스간의 관계 정보를 생성하는 단계를 포함하는 온톨로지 구축 방법.
  2. 제1항에 있어서,
    상기 관계 정보를 생성하는 단계는
    상기 복수의 리소스 중 어느 하나의 리소스를 상기 복수의 클래스 중 어느 하나의 클래스의 인스턴스로 결정하는 온톨로지 구축 방법.
  3. 제2항에 있어서,
    상기 관계 정보를 생성하는 단계는
    리소스-클래스 쌍의 유사도에 따라 상기 복수의 리소스 중 상기 어느 하나의 클래스의 인스턴스에 해당하는 리소스를 검출하는 단계; 및
    검출된 리소스와 상기 어느 하나의 클래스간의 인스턴스 관계에 따른 관계 정보를 저장하는 단계를 포함하는 온톨로지 구축 방법.
  4. 제1항에 있어서,
    상기 리소스-클래스 쌍의 유사도를 계산하는 단계는
    상기 클래스 그래프를 바탕으로 상기 복수의 클래스 노드의 각각을 행과 열로 갖는 클래스 아크 행렬에서 아크의 존재 유무에 따라 상기 클래스 아크 행렬의 성분을 결정하는 단계;
    상기 리소스 그래프를 바탕으로 상기 복수의 리소스 노드의 각각을 행과 열로 갖는 리소스 아크 행렬에서 아크의 존재 유무에 따라 상기 리소스 아크 행렬의 성분을 결정하는 단계; 및
    상기 클래스 아크 행렬 및 상기 리소스 아크 행렬을 바탕으로 복수의 리소스 노드와 상기 복수의 클래스 노드를 행과 열로 갖는 유사도 행렬을 계산하는 단계를 포함하는 온톨로지 구축 방법.
  5. 제4항에 있어서,
    상기 유사도 행렬의 성분은
    상기 리소스-클래스 쌍의 유사도인 온톨로지 구축 방법.
  6. 제4항에 있어서,
    상기 리소스-클래스 쌍의 유사도를 계산하는 단계는
    상기 유사도 행렬을 정규화하여 정규화된 유사도 행렬을 계산하는 단계를 더 포함하는 온톨로지 구축 방법.
  7. 제4항에 있어서,
    상기 관계 정보를 생성하는 단계는
    상기 유사도 행렬을 바탕으로 상기 복수의 리소스 노드 중 어느 하나의 리소스 노드와 상기 복수의 클래스 노드의 각각간의 유사도 중 값이 가장 큰 클래스 노드를 선택하는 단계; 및
    상기 어느 하나의 리소스 노드에 대응하는 리소스를 선택된 클래스 노드에 대응하는 클래스의 인스턴스로 결정하는 단계를 포함하는 온톨로지 구축 방법.
  8. 시스템이 온톨로지를 구축하는 방법에 있어서,
    웹 문서에 포함된 텍스트를 바탕으로 복수의 트리플 데이터를 생성하는 단계;
    미리 저장된 복수의 클래스의 각각 속성값을 바탕으로 상기 복수의 트리플 데이터 중 상기 속성값에 대응하는 트리플 데이터를 추출하는 단계;
    추출된 트리플 데이터에 포함된 복수의 리소스간의 관계 정보와 상기 복수의 클래스간의 관계 정보를 비교하여 상기 복수의 리소스와 상기 복수의 클래스간의 유사도를 계산하는 단계;
    계산된 유사도를 바탕으로 상기 복수의 리소스에서 상기 복수의 클래스 중 어느 하나의 클래스의 인스턴스에 해당하는 리소스를 검출하는 단계; 및
    상기 어느 하나의 클래스와 검출된 리소스간의 관계 정보를 미리 저장된 온톨로지에 저장하는 단계를 포함하는 온톨로지 구축 방법.
  9. 제8항에 있어서,
    상기 트리플 데이터를 생성하는 단계는
    상기 텍스트를 형태소 단위로 분석하여 획득한 품사정보를 바탕으로 상기 복수의 트리플 데이터 중 어느 하나의 트리플 데이터를 생성하는 온톨로지 구축 방법.
  10. 제8항에 있어서,
    상기 트리플 데이터를 생성하는 단계는
    상기 텍스트로부터 획득한 개체명을 바탕으로 상기 복수의 트리플 데이터 중 어느 하나의 트리플 데이터를 생성하는 온톨로지 구축 방법.
  11. 제8항에 있어서,
    상기 유사도를 계산하는 단계는
    상기 복수의 리소스간의 관계 정보에 대응하는 리소스 그래프와 상기 복수의 클래스간의 관계 정보에 대응하는 클래스 그래프의 그래프 구조를 비교하여 상기 유사도를 계산하는 온톨로지 구축 방법.
KR1020090127142A 2009-12-18 2009-12-18 온톨로지 구축 방법 KR20110070343A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090127142A KR20110070343A (ko) 2009-12-18 2009-12-18 온톨로지 구축 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090127142A KR20110070343A (ko) 2009-12-18 2009-12-18 온톨로지 구축 방법

Publications (1)

Publication Number Publication Date
KR20110070343A true KR20110070343A (ko) 2011-06-24

Family

ID=44401875

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090127142A KR20110070343A (ko) 2009-12-18 2009-12-18 온톨로지 구축 방법

Country Status (1)

Country Link
KR (1) KR20110070343A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101417936B1 (ko) * 2013-03-08 2014-07-16 성균관대학교산학협력단 온톨로지 기반의 전사 아키텍처 구축 시스템 및 방법
KR20160061866A (ko) * 2014-11-24 2016-06-01 한국과학기술원 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101417936B1 (ko) * 2013-03-08 2014-07-16 성균관대학교산학협력단 온톨로지 기반의 전사 아키텍처 구축 시스템 및 방법
KR20160061866A (ko) * 2014-11-24 2016-06-01 한국과학기술원 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법

Similar Documents

Publication Publication Date Title
CN104462084B (zh) 基于多个查询提供搜索细化建议
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN101986296B (zh) 基于语义本体的噪声数据清洗方法
WO2016025412A1 (en) Generating and using a knowledge-enhanced model
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
CN113039539A (zh) 使用ai模型推荐来扩展搜索引擎能力
Zainol et al. Association analysis of cyberbullying on social media using Apriori algorithm
CN104298683A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
Liao et al. Coronavirus pandemic analysis through tripartite graph clustering in online social networks
US20070255666A1 (en) Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture
Harandizadeh et al. Tweeki: Linking named entities on Twitter to a knowledge graph
Jebbara et al. Extracting common sense knowledge via triple ranking using supervised and unsupervised distributional models
KR20110070343A (ko) 온톨로지 구축 방법
Ahad et al. Navigation through citation network based on content similarity using cosine similarity algorithm
Rusu et al. Document visualization based on semantic graphs
US9965766B2 (en) Method to expand seed keywords into a relevant social query
Kumar et al. Efficient structuring of data in big data
Zhou et al. LODDO: using linked open data description overlap to measure semantic relatedness between named entities
Lee et al. Exploiting online social data in ontology learning for event tracking and emergency response
Jin et al. An approach to measuring semantic similarity and relatedness between concepts in an ontology
Perkins Separating the Signal from the Noise: Predicting the Correct Entities in Named-Entity Linking
Sabetghadam et al. Reachability analysis of graph modelled collections
Roy et al. Cognitive canonicalization of natural language queries using semantic strata
Zahia et al. Fuzzy clustering-based approach to derive hierarchical structures from folksonomies
CN110929019B (zh) 信息的展示方法和装置、存储介质、电子装置

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination