KR20010008962A - 개념분류망을 이용한 정보 검색 장치 및 그 방법 - Google Patents

개념분류망을 이용한 정보 검색 장치 및 그 방법 Download PDF

Info

Publication number
KR20010008962A
KR20010008962A KR1019990027068A KR19990027068A KR20010008962A KR 20010008962 A KR20010008962 A KR 20010008962A KR 1019990027068 A KR1019990027068 A KR 1019990027068A KR 19990027068 A KR19990027068 A KR 19990027068A KR 20010008962 A KR20010008962 A KR 20010008962A
Authority
KR
South Korea
Prior art keywords
semantic
classification network
user
data
descriptor
Prior art date
Application number
KR1019990027068A
Other languages
English (en)
Inventor
차건회
박재득
이현아
채영숙
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019990027068A priority Critical patent/KR20010008962A/ko
Publication of KR20010008962A publication Critical patent/KR20010008962A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 정보 검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 자연언어 문장을 통해서 정보를 검색할 수 있도록 하기 위하여 개념분류망을 사용하는 정보 검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 사용자로부터 입력된 질의어를 분석하여 질의어의 의미기술자를 추출하는 제 1 단계; 추출된 상기 의미기술자의 값에 의해 상기 개념분류망에서 색인되는 데이터 개체를 찾아 상기 사용자 질의어의 의미기술자와 상기 데이터 개체의 의미기술자와의 의미유사도를 계산하는 제 2 단계; 의미유사도가 계산된 데이터들에 대해 상기 사용자에게 제시할 결과를 생성하는 제 3 단계; 및 상기 사용자에게 상기 사용자 질의어에 의해 검색된 결과를 제시하는 제 4 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 자연어를 통한 정보 검색에 이용됨.

Description

개념분류망을 이용한 정보 검색 장치 및 그 방법{APPARATUS AND METHOD FOR INFORMATION RETRIEVAL USING ONTOLOGY}
본 발명은 정보 검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 이미지/오디오/비디오 데이터의 상위 수준에서의 정보인 의미(Semantics)를 통해 자신이 원하는 멀티미디어 정보를 얻고자 하는 사용자를 위한 정보 검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
문서나 텍스트를 대상으로 그 문서나 텍스트가 나타내고 있는 의미나 개념을 검색의 키워드로 이용하여 사용자가 자연언어 문장을 통해 검색하는 시스템이나 장치 혹은, 이미지나 비디오 데이터에 대해 그 이미지의 색상, 히스토그램, 형체등과 같은 하위수준의 데이터를 이용하여 검색하는 시스템이나 장치들은 많이 연구되고 발명되어 왔다.
근래들어서는 문서나 텍스트 정보 검색에서의 기법을 이용하여 이미지나 비디오 데이터에 대해서도 그 데이터가 나타내고자 하는 상위 수준의 의미정보(semantics)를 이용하여 검색하려는 연구가 전통적인 하위수준의 신호(signal)중심의 검색 기법과 함께 활발히 진행되고 있다.
종래의 이미지나 비디오 데이터 등에 대한 검색 장치나 방법은 다음과 같은 것들이 있다.
비라지(Virage)는 색깔, 형체, 질감과 같은 시각정보들과 그 밖의 영역 의존적인 특징들에 기반한 이미지 검색 시스템이며 전체 이미지에 대한 키워드를 이용한 검색도 지원한다.
아이비엠(IBM)에서 개발된 큐빅(QBIC) 역시 비라지(Virage)와 비슷하게 시각적인 데이터 및 키워드를 이용한 검색 시스템이며 이미지내의 어떤 특정한 객체에 대한 의미정보를 이용한 검색 기능은 없다.
콜롬비아 대학에서 개발한 비쥬얼식(VisualSeek)은 이미지내에서 각 영역(region)들이 다른 영역과 관련하여 어떠한 색깔로 분포되어 있는지를 통해서 이미지 일치에 의한 검색을 제공하지만 이미지 전체, 또는 이미지 내의 객체들에 대한 의미정보(semantics)를 이용한 검색 기능은 제공하지 않는다.
버클리대에서 수행된 차봇(Chabot) 프로젝트는 캘리포니아 주의 수자원 담당 부서의 방대한 분량의 디지털 이미지를 검색하기 위해 시작되었는데 이미지에 대한 메타정보, 예를 들면 제작자, 키워드, 개념 혹은 색깔의 분포를 이용하여 검색을 수행하며 사용자에게 새로운 개념을 정의하도록 하는 기능도 지원한다.
객체지향적인 그래픽 질의어인 비쥬얼(VISUAL)은 그래픽 인터페이스를 통해 객체지향적인 질의어 명세 모델에 기반하여 질의어를 제시하도록 하고 있으나 특정 영역에 대해 잘 알지 못하는 일반 사용자들이 사용하기에는 너무 어려운 단점이 있다.
미해군사관학교에서 수행된 마리(MARIE) 프로젝트는 이미지의 캡션에 대해서 자연언어 질의어 검색을 지원하는 시스템이며 형체 인식과 같은 몇가지 이미지 처리 기능을 제공한다.
상기한 바와 같은 종래의 검색 장치나 방법은 멀티미디어의 하위 정보와 이와 관련된 의미적 객체에 대한 키워드 검색 정도밖에는 지원하지 못하는 문제점이 있었다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 사용자가 자연언어 문장을 통해서 자신이 원하는 정보를 검색할 수 있도록 하기 위하여 개념분류망을 사용하는 정보 검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 정보 검색 장치에 대한 일실시예 구성도.
도 2 는 본 발명에 이용되는 개념분류망의 일예시도.
도 3a 및 도 3b 는 본 발명에 따른 정보 검색 방법에 대한 일실시예 흐름도.
도 4a 및 도 4b 는 본 발명에 따른 의미기술자 추출 과정에 대한 일실시예 흐름도.
도 5a 및 도 5b 는 본 발명에 이용되는 멀티미디어 데이터에 대한 일예시도.
도 6 은 본 발명에 따른 응답 생성 과정의 일실시예 흐름도.
도 7 은 자연어 질의어, 개념분류망 및 멀티미디어 데이터와의 관계에 대한 예시도.
*도면의 주요 부분에 대한 부호의 설명
11 : 입력문장 분석부 12 : 데이터 저장부
13 : 검색 처리부 101 : 자연어문장 입력장치
102 : 형태소 분석기 103 : 구문 분석기
104 : 의미 분석기 105 : 의미기술자 추출기
106 : 레코드 검색기 107 : 응답 생성기
108 : 출력장치 109 : 사전 저장 장치
110 : 개념분류망 저장장치
111 : 멀티미디어 데이터베이스
상기 목적을 달성하기 위한 본 발명의 장치는, 개념분류망을 이용하여 정보가 나타내고 있는 의미나 개념에 기반하여 검색을 수행하는 정보 검색 장치에 있어서, 사용자로부터의 질의문을 분석하기 위한 데이터와 의미유사도 계산을 위한 데이터와 멀티미디어 데이터를 저장하기 위한 저장수단; 상기 사용자로부터 자연어 질의문을 입력받기 위한 입력수단; 상기 저장수단의 데이터를 참조하여 상기 사용자로부터 입력된 자연어 질의문을 분석하여 의미표현을 제공하기 위한 입력문 분석수단; 상기 입력문 분석수단에서 분석된 의미표현으로부터 의미기술자 값을 추출한 후에 상기 추출된 의미기술자 값과 상기 저장수단의 개념분류망 데이터를 비교하여 의미유사도를 계산하여 상기 저장수단의 데이터를 검색하기 위한 검색 처리수단; 및 상기 검색 처리수단으로부터 생성되는 데이터를 사용자에게 제공하기 위한 출력수단을 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명의 방법은, 개념분류망을 이용한 정보 검색 장치에 적용되는 정보 검색 방법에 있어서, 사용자로부터 입력된 질의어를 분석하여 질의어의 의미기술자를 추출하는 제 1 단계; 추출된 상기 의미기술자의 값에 의해 상기 개념분류망에서 색인되는 데이터 개체를 찾아 상기 사용자 질의어의 의미기술자와 상기 데이터 개체의 의미기술자와의 의미유사도를 계산하는 제 2 단계; 의미유사도가 계산된 데이터들에 대해 상기 사용자에게 제시할 결과를 생성하는 제 3 단계; 및 상기 사용자에게 상기 사용자 질의어에 의해 검색된 결과를 제시하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 대용량 프로세서를 구비한 정보 검색 장치에, 사용자로부터 입력된 질의어를 분석하여 질의어의 의미기술자를 추출하는 제 1 기능; 추출된 상기 의미기술자의 값에 의해 상기 개념분류망에서 색인되는 데이터 개체를 찾아 상기 사용자 질의어의 의미기술자와 상기 데이터 개체의 의미기술자와의 의미유사도를 계산하는 제 2 기능; 의미유사도가 계산된 데이터들에 대해 상기 사용자에게 제시할 결과를 생성하는 제 3 기능; 및 상기 사용자에게 상기 사용자 질의어에 의해 검색된 결과를 제시하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은, 의미기반 자연언어 검색을 위하여 멀티미디어 데이터가 표현하고 있는 의미에 관련된 5개의 기술자(descriptor)를 정의하고 이들 기술자들의 값을 미리 구축된 개념분류망의 기호들중의 하나로 표현함으로써, 사용자의 자연언어 문장으로 표현된 질의어로부터 의미기술자를 추출하고 개념분류망상의 노드들간의 계층구조에 의해 표현되는 의미유사도를 통해 사용자의 질의어에 가장 근접된 멀티미디어 데이터를 검색하여 제공할 수 있는 정보 검색 장치 및 그 방법을 설명하고 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 멀티미디어 정보 자연어 검색 장치에 대한 일실시예 구성도이다.
멀티미디어 정보를 자연어로 검색하는 장치는 자연어문장 입력장치(101), 입력문장 분석부(11), 데이터 저장부(12), 검색 처리부(13) 및 출력장치(108)를 구비한다.
입력문장 분석부(11)는 형태소 분석기(102), 구문 분석기(103) 및 의미 분석기(104)로 이루어지며, 데이터 저장부(12)는 사전 저장 장치(109), 개념분류망 저장장치(110) 및 멀티미디어 데이터베이스(111)로 이루어진다. 또한, 검색 처리부(13)는 의미기술자 추출기(105), 레코드 검색기(106) 및 응답 생성기(107)로 이루어진다.
사용자로부터 자연언어 문장을 통해 표현할 검색 조건을 입력받은 자연어문장 입력장치(101)가 이를 입력문장 처리부(11)로 전달하면, 입력문장 처리부(11)는 사용자로부터 입력된 문장을 받아 데이터 저장부(12)에 있는 사전 저장 장치(109)의 데이터와 비교하여 순차적으로 분석을 하는데, 이때 형태소 분석기(102)에서 형태소 분석을, 구문 분석기(103)에서 구문 분석을, 그리고 의미 분석기(104)에서 의미 분석을 한다.
검색 처리부(13)의 의미기술자 추출기(105)는 의미 분석기(104)로부터 출력된 데이터를 데이터 저장부(12)에 있는 개념분류망 저장장치(110)의 데이터와 비교하여 개념분류망에 의해 표현되어 있는 의미기술자의 값을 추출해낸다.
검색 처리부(13)의 레코드 검색기(106)는 의미기술자 추출기(105)로부터 출력되는 데이터를 데이터 저장부(12)에 있는 개념분류망 저장장치(110)의 데이터와 비교하여 의미유사도를 계산하고, 그 계산 결과에 따라 상기 추출된 의미기술자와 가장 유사한 상기 개념분류망 저장장치(110)의 의미기술자와 동일한 노드에 색인되어 있는 레코드의 검색키 값을 획득한다.
검색 처리부(13)의 응답생성기(107)는 레코드 검색기(106)으로부터 출력되는 데이터로부터 데이터 저장부(12)의 멀티미디어 데이터베이스(111) 내에 저장되어 있는 멀티미디어 데이터를 가져오거나, 사용자의 검색조건을 세분/심화하는 질문 문장을 생성한다.
출력장치(108)는 응답생성기(107)로부터 출력되는 데이터를 사용자에게 제공하게 된다.
상기한 의미기술자에 대해 설명하면 다음과 같다.
의미기술자는 시간기술자(temporal-info), 장소기술자(geographical-info), 객체기술자(component-info), 관계기술자(relation-info), 문맥기술자(context-info)의 5가지 유형이 있다.
시간기술자(temporal-info)는 멀티미디어 데이터가 그 데이터의 원천으로부터 생성될 당시의 시간적 정보를 표현하기 위한 것이고, 장소기술자(geographical-info)는 지리적 정보를 나타내기 위한 것이다. 여기서 데이터의 원천이라 함은 멀티미디어를 생성하는 최초 도구의 대상이 되는 어떤 실제적 객체를 의미한다. 예를 들어 카메라로 어떤 대상을 찍는다면 그 당시의 시간이 시간기술자(temporal-info)가 되는 것이고 그 대상의 위치나 고유지명과 같은 것이 장소기술자(geographical-info)가 되는 것이다.
객체기술자(component-info)는 멀티미디어 데이터 내에 포함되어 있는 의미적 객체 자체에 대한 정보를 표현하기 위한 의미기술자이며, 관계기술자(relation-info)는 상기 객체기술자(component-info)들간의 관계를 기술하기 위한 것이다.
마지막으로 문맥기술자(context-info)는 상기 멀티미디어 데이터의 4가지 유형의 기술자들에 나타나 있는 모든 의미적 개체들의 집합을 포함하고 있지만 그 멀티미디어 데이터내에는 결코 나타나지 않거나 표현되어 있지 않는 의미적 성질을 기술하기 위한 것이다. 문맥기술자(context-info)에 의해 표현되는 의미적 개체들로는 전쟁, 스포츠 대회와 같은 대규모의 집합적 사건들이 포함된다.
도 2 는 본 발명에 이용되는 개념분류망의 일예시도이다.
개념분류망의 최상위 계층의 유형은 사건(event), 지리적 개체(geographical entity), 시간적 개체(temporal entity), 동작(action), 객체(object)의 5가지가 있다.
이렇게 분류되는 개념분류망의 일부분에 대한 예가 도 2에 도시되어 있다.
여기서 "The Han"과 "RIVER"는 이즈 어(Is a) 관계이고, "The Han"과 "KOREA"는 부분(Part of) 관계임이 보여지는데, 이는 개념분류망 내의 한 노드가 여러 개념 분류에 속할 수도 있음을 보여주고 있다.
도 3a 및 도 3b 는 본 발명에 따른 멀티미디어 정보 자연어 검색 방법에 대한 일실시예 흐름도이다.
자연어 문장 입력 장치(101)를 통해 사용자는 자신이 찾고자하는 멀티미디어 데이터가 나타내고 있는 의미적 내용을 표현하고(301) 이렇게 입력된 자연어 문장은 형태소 분석기(102), 구문 분석기(103), 의미 분석기(104)를 거쳐 의미분석 결과를 생성한다(302).
의미분석 결과 생성된 의미표현은, 사용자가 "한강의 이미지를 찾아주세요."라고 입력하였다면 다음과 같이 나타나게 된다.
[imp,
[find,
[and,
term(〈quant,bare,sing〉,X16,[named_string,THE_HAN,X16]),
term(〈quant,bare,sing〉,X20,[image,X20])]]]
의미분석 결과 상기한 바와 같이 만들어진 의미표현은 애매성과 모호성, 중의적 표현이 해결되어 개념분류망에서의 특정 노드를 나타내는 기호로 변환된 부분을 포함하여 표현된 것이다. 의미 분석의 결과 만들어진 의미표현은 형용사, 동사, 명사의 경우에는 개념분류망에서의 노드의 기호로 나타내며 그외의 문법적 기능을 표현하는 기호들은 사전 저장 장치(109)에 저장되어 있는 사전 정보들을 이용하여 나타내게 된다.
상기 의미표현에서 잉여적인 정보를 삭제 또는 통합하여 개념분류망 내의 노드 기호와 의미구조 기호만으로 의미표현을 변환시킨다(303).
이때는 "한강의 이미지를 찾아주세요."라는 질의어에 의해 주어진 상기의 의미표현에서 5개의 의미표현 기호(imp, find, and, THE-HAN, image)가 남게 된다.
사용자로부터 입력된 질의어를 분석하여 만들어진 상기한 바와 같은 의미표현으로부터 여러 유형의 의미기술자들을 추출한다(304). 이때, 입력된 질의어에 대한 의미기술자는 의미기술자의 유형별로 분류되어 관리된다. 또한 이때 추출된 의미기술자 유형의 개수를 N이라 한다.
상기한 "한강의 이미지를 찾아주세요."라는 질의어에 의해 추출되는 의미기술자는 (표 1)과 같다.
문맥기술자(context-info) NULL
장소기술자(geographical-info) THE_HAN
시간기술자(temporal-info) NULL
객체기술자(component-info) NULL
관계기술자(relation-info) NULL
상기한 (표 1)에서는 "THE_HAN"만이 의미기술자로 추출되었다. 개념분류망에서 분류가 가능한 동사인 "find"와 명사인 "image"가 빠졌기 때문인데, 이는 사용자가 입력한 질의에 대해 표현하는 것이지, 질의의 대상을 찾고자 할 때 필요한 것이 아니기 때문이다.
사용자 질의어로부터 의미기술자가 추출된 후 각각의 의미기술자에 의해 색인된 레코드 검색 키 값을 가져온다(305). 본 실시예에서는 의미기술자를 5가지로 분류하였으므로 5가지 분류된 의미기술자에 해당하는 내용에 의해 레코드 검색 키 값을 가져오게 된다.
사용자 질의어로부터 추출된 의미기술자 유형의 개수(N)에 대해, 주어지는 의미기술자 유형의 순서번호를 d라 하고, d를 1로 한다(306). 사용자 질의문에서 추출된 d번째 유형에 따른 의미기술자에 의해 색인된 레코드 키 값의 개수를 M이라 하고, 이 M이 0보다 커서 색인된 레코드가 있는지를 확인한다(307). 확인 결과, 색인된 레코드가 없을 때는 그 의미기술자와 가장 근접된 의미유사도를 갖는 노드를 찾아 그 노드에 의해 색인된 레코드 키 값을 가져온다(308). 이때 색인된 레코드 키 값의 개수 또한 M이라 한다. 색인된 레코드 키 값에 의해 나오는 멀티미디어 데이터의 순서번호를 I라 하고, I를 1로 놓는다(309). 이 멀티미디어 데이터의 순서번호(I)는 색인된 레코드 키 값의 갯 수인 M만큼 커질 수 있다.
의미기술자에 의해 색인된 레코드가 있는지를 확인한 결과, 색인된 레코드가 있으면 색인된 레코드 키 값에 의해 나오는 멀티미디어 데이터의 순서번호(I)를 1로 놓는다(309)
I번째 멀티미디어 데이터와 사용자 질의문의 의미유사도를 계산한다(310). 이때는 I번째 멀티미디어 데이터의 의미기술자 모두와 사용자 질의문에서 추출된 의미기술자 모두를 놓고, 멀티미디어 데이터와 사용자 질의문의 유사정도를 측정하게 되는 것이다.
의미유사도 계산은 우선 의미기술자 분류에 따라 5가지 의미기술자 별로 수행되고 그 후에 전체적으로 멀티미디어 데이터(M)와 검색 질의문(Q) 사이의 의미유사도(SD : Semantic Distance)는 정량적인 측도를 통해 표현된다.
멀티미디어 데이터(M)와 사용자 질의어의 의미유사도는 개념분류망 계층구조상에서 정의된 의미유사도 함수에 의해 계산된다.
멀티미디어 데이터(M)의 장소기술자(geographical-info)와 질의문의 장소기술자(geographical-info)에 대한 의미유사도는 다음의 (수학식 1)과 같이 계산할 수 있다.
여기서, D(M)은 멀티미디어 데이터(M)의 장소기술자(geographical-info)와 질의문의 장소기술자(geographical-info) 사이의 개념적 거리를 말하며, 다음의 (수학식 2)에서 보여지는 바와 같이 구할 수 있다.
여기서, QV는 질의문으로부터 추출한 장소기술자(geographical-info)의 값이고, SV는 멀티미디어 데이터의 장소기술자(geographical-info)의 값이다. L(X)는 개념분류망의 계층구조내의 루트노드로부터 노드 X까지 이르는 에지(edge)의 수이다. 따라서, L(QV)는 루트노드로부터 노드 QV까지 이르는 에지의 수이고. L(SV)는 루트노드로부터 노드 SV까지 이르는 에지의 수이다. 또한, predecessor(X)는 노드 X로부터 루트노드까지 이르는 패스상에 존재하는 노드들의 집합이다.
의미기술자 중 문맥기술자(context-info)에 대한 의미유사도를 구하는 것은 상기한 장소기술자(geographical-info)를 구하는 것과 동일하게 할 수 있다.
의미기술자 중 시간기술자(temporal-info)에 대한 의미유사도는 숫자 혹은 개념분류망의 노드 기호로 표현되는데 숫자로 표현될 때는 년, 월, 일, 시, 분, 초 등을 나타내는 슬롯이 있고, 각 슬롯에 숫자가 채워지게 된다. 이 방식으로 표현된 의미기술자에서의 의미유사도 함수는 수학식으로 표현하면 (수학식 3)과 같다.
여기서, K는 슬롯의 수이고, L은 질의어의 값과 일치하는 수치의 슬롯의 번호이다. 만일 질의어와 일치하는 슬롯이 제일 큰 범위의 값부터 차례로 있으면, 이때는 가장 세밀한 값을 선택한다.
시간기술자(temporal-info) 의미유사도는 때로는 수치값으로 표현되는 것 이외에도 'morning', 'summer' 등과 같이 개념분류망의 노드기호로도 표현될 수 있는데 이때는 상기한 장소기술자(geographical-info)의 의미유사도 구하는 방법과 동일한 방법을 사용한다.
멀티미디어 데이터내에 나타나 있는 의미적 객체를 표현하는 객체기술자(component-info)에 대한 의미유사도는 다음의 (수학식 4)에 도시되어 있는 바와 같이 계산하여 구할 수 있다.
여기서, D(I)는 다음의 (수학식 5)와 같이 구할 수 있다.
여기서, N은 질의문에 표현된 객체의 유형의 수이고, M은 멀티미디어 데이터(M)에 기술된 객체의 유형의 수이며, match(I)은 어떤 한 멀티미디어 데이터(M)의 객체기술자(component-info) 기술자내에 표현된 객체가 질의어에 표현된 객체들과의 '정확히 일치'하는 정도를 나타내는 측도이다. D(i,j)는 개념분류망의 계층구조상의 노드 i와 j의 의미적 거리이며 이는 다음의 (수학식 6)과 같이 구할 수 있다.
여기서, L(i)는 개념분류망의 계층구조내의 루트노드로부터 노드 i까지 이르는 에지(edge)의 수이다.
객체 개념분류망의 노드에는 클래스 개념과 인스턴스 개념 두가지 유형이 있는데 예를 들어 '사람'은 클래스 개념에 속하고 '김대중'은 인스턴스 개념에 속한다. 만약 멀티미디어 데이터(M)의 객체기술자(component-info)내에서 어떤 객체가 개념분류망내의 클래스 개념 노드 i로 표현되어 있고, 질의어에 나타난 어떤 객체가 개념분류망내의 노드 j로 표현되고 이 j가 predecessor(i) 에 속하면 i와 j는 '정확히 일치'하는 것으로 계산된다. 만일 i가 인스턴스 개념이면 i와 j의 스트링 값이 정확히 일치하고 j도 인스턴스 개념일 때, i와 j가 '정확히 일치'하는 것으로 계산된다. 예를 들어 만약 멀티미디어 데이터 M이 a,b,c,d,e와 같은 5개의 의미객체를 포함하고 있고 질의어가 b,e,f,g를 표현하고 있다면 match(I)은 2가 된다.
관계기술자(relation-info)에 대하여는 다음의 (수학식 7)에서 도시된 함수를 사용하여 의미유사도를 계산한다.
여기서, P는 질의어에 표현된 술어 개념(predicative concept)의 수이고, Match(M)은 질의어에 표현된 술어개념과 일치하는 멀티미디어 데이터(M)의 관계기술자(relation-info) 내에 표현된 술어개념의 수이다.
상기한 바와 같이, 5개의 의미기술자에 대해서 각 멀티미디어 데이터의 질의어와의 의미유사도에 대해 계산이 끝나면, 다음의 (수학식 8)에서와 같이 의미기술자간 가중치를 계산하여 그 멀티미디어 데이터에 대한 전체적인 의미유사도를 계산한다.
여기서,는 질의어(Q)로부터 추출한 의미기술자 i의 값이고, N은 질의어로부터 뽑아낸 의미기술자 유형의 수이다. 본 실시예에서는 의미기술자가 5가지 유형으로 나눠지므로, N은 5보다 작거나 같다. 또한,는 멀티미디어 데이터(M)의 의미기술자와 사용자 질의어(Q)의 의미기술자 간의 의미적 유사도이며, weight(M,i)는 멀티미디어 데이터(M)의 의미기술자 i의 데이터내 의미기술자간 가중치이다.
이리하여 d번째 의미기술자 분류에 따라 색인된 레코드 키 값에 해당하는 멀티미디어 데이터 중 I번째 멀티미디어 데이터에 대하여 사용자 질의문과의 의미유사도 계산 과정이 수행된다.
의미유사도 계산 대상인 멀티미디어 데이터의 순서번호(I)가 색인된 레코드 키 값에 따른 멀티미디어 데이터의 개수(M)보다 작은지를 확인한다(311).
멀티미디어 데이터의 순서번호(I)가 색인된 레코드 키 값에 따른 멀티미디어 데이터의 개수(M)보다 작은지를 확인한 결과 I가 M보다 작으면, 의미유사도를 계산하는 대상을 바꾸기 위해, 멀티미디어 데이터 순서번호(I)를 1증가시켜(312), I번째 멀티미디어 데이터와 사용자 질의어와의 의미유사도를 계산하는 과정(310)부터 반복 수행한다.
멀티미디어 데이터의 순서번호(I)가 색인된 레코드 키 값에 따른 멀티미디어 데이터의 개수(M)보다 작은지를 확인한 결과, I가 M보다 작지 않으면, 분류된 의미기술자 유형의 순서번호(d)가 사용자 질의어로부터 분류된 의미기술자 유형의 수(N)보다 작은지를 판단한다(313).
의미기술자 유형의 순서번호(d)가 사용자 질의어로부터 분류된 의미기술자 유형의 수(N)보다 작은지를 판단한 결과, N보다 작으면, 의미기술자 유형의 순서번호(d)를 1 증가시켜(314), d번째 유형에 따른 사용자 질의문에서의 의미기술자에 의해 색인된 레코드 키 값의 개수를 M이라 하고, 이 M이 0보다 커서 색인된 레코드가 있는지를 확인하는 과정(307)부터 반복 수행한다.
분류된 의미기술자 유형의 순서번호 d가 사용자 질의어로부터 분류된 의미기술자 유형의 수(N)보다 작은지를 판단한 결과, N보다 작지 않으면 의미유사도 계산 과정이 모두 수행된 것이므로, 그 결과를 바탕으로 응답생성기(107)에 의해 사용자에게 출력될 형식이 결정되고 구성된다(315). 질의어에 표현된 개념에 의해 색인된 레코드의 수가 사용자에게 출력해주기에 알맞을 정도이면 그 레코드의 키값을 리턴해주며 색인된 레코드의 수가 클 때는 색인된 레코드의 수가 가장 큰 의미기술자에 대하여 개념을 더 세분하는 질문 문장을 생성한다.
응답생성기(107)에서 생성된 응답은 출력수단(108)을 통해 사용자에게 출력된다(316).
도 4a 및 도 4b 는 본 발명에 따른 의미기술자 추출 과정에 대한 일실시예 흐름도이다.
형태소/구문/의미분석을 수행하여 만들어진 의미표현으로부터 5가지 유형의 의미기술자들을 추출하는 과정(304)은 다음과 같다.
의미표현은 개념분류망내의 노드 기호와 그 이외의 것들로 표현되며, 개념분류망 내의 노드 기호는 특정한 의미기술자의 값이 되며 개념분류망 내의 노드 기호에 속하지 않는 기호들은 문법적 기능을 담당하는 것으로서 주로 부사격 조사와 관형격 조사에 해당한다. 따라서 먼저 이 두 가지 유형에 따라 크게 처리가 달라지며 개념분류망 내의 기호일 때는 5가지 의미기술자 유형 중 어디에 속하는가를 먼저 탐색한다.
문법적 기능어에 해당할 경우는 장소격 조사와 시간격 조사와 관형격 조사에 따라 전역변수를 설정한 후, 그 조사성분이 제한하는 부분을 추출하고 재귀적으로 다시 상기 의미기술자 추출 함수를 호출하게 된다.
의미표현의 기호가 개념분류망의 노드 기호일 때는 개념분류망의 최상위 계층의 유형에 따라 의미기술자의 값이 추출되게 된다. 개념분류망의 최상위 계층의 유형은 도 2에서 설명한 바처럼, 사건(event), 지리적 개체(geographical entity), 시간적 개체(temporal entity), 동작(action), 객체(object)의 5가지가 있다.
먼저 사건(Action) 유형에 속할 때는 상기 의미표현 기호는 의미기술자 중 문맥기술자(context-info)의 값으로 할당되고, 지리적 개체(Geography)에 속할 때는 상기 의미표현 기호는 의미기술자 중 장소기술자(geographical-info)의 값으로 할당되며, 시간적 개체(temporal entity)에 속할 때는 상기 의미표현 기호는 의미기술자 중 시간기술자(temporal-info)의 값으로 할당된다.
동작(Action) 유형에 속할 때는 상기 의미표현 기호는 의미기술자 중 관계기술자(relation-info)의 값으로 할당되고, 객체(Object) 유형에 속할 때는 상기 의미표현 기호는 의미기술자 객체기술자(component-info)의 값으로 할당된다.
이를 도면에 나타난 흐름과 함께 설명하면 다음과 같다.
의미분석 결과인 전체 의미표현(R)에서 의미기술자를 추출하는 과정은, 우선 의미표현 기호의 순서를 나타내는 번호(i)를 1로 하고(401), i번째 의미표현 기호를 w로 한다(402). 이때 전체 의미표현 기호의 개수는 N이라 한다. 이제 w에서 의미기술자를 추출할 수 있을지를 확인하게 되는데, 먼저 w가 개념분류망 내의 기호인가를 검사한다(403).
w가 개념분류망 내의 기호인가를 검사한 결과, 개념분류망 내의 기호가 아니면, w가 장소격 조사, 시간격 조사 또는 복합명사 연결어가 아닌지를 분석한다(404).
w가 장소격 조사, 시간격 조사 또는 복합명사 연결어가 아닌지를 분석한 결과, 장소격 조사도, 시간격 조사도, 또는 복합명사 연결어도 아니면 i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 장소격 조사, 시간격 조사 또는 복합명사 연결어가 아닌지를 분석한 결과, 장소격 조사이면 다음에 나올 의미표현 기호는 공간요소(geogra)를 포함하고 있는 것으로 정의하고(405), 전체 의미표현(R) 중 w에 의해 한정되는 부분집합을 찾아, 그것을 전체 의미표현(R)으로 하여(408), 재귀적으로 의미기술자를 추출하는 과정을 호출한다(409). 이때, 의미표현 기호의 순서를 나타내는 번호 i는 전역변수이므로, 그 순서에 대한 번호는 그대로 가져가게 된다.
재귀적으로 호출된 의미기술자 추출 과정이 끝나면 i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 장소격 조사, 시간격 조사 또는 복합명사 연결어가 아닌지를 분석한 결과, 시간격 조사이면 다음에 나올 의미표현 기호는 시간요소(tempor)를 포함하고 있는 것으로 정의하고(406), 전체 의미표현(R) 중 w에 의해 한정되는 부분집합을 찾아, 그것을 전체 의미표현(R)으로 하여(408), 재귀적으로 의미기술자를 추출하는 과정을 호출한다(409). 재귀적으로 호출된 의미기술자 추출 과정이 끝나면 i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 장소격 조사, 시간격 조사 또는 복합명사 연결어가 아닌지를 분석한 결과, 복합명사 연결어이면 다음에 나올 의미표현 기호는 객체요소(compon)를 포함하고 있는 것으로 정의하고(407), 전체 의미표현(R) 중 w에 의해 한정되는 부분집합을 찾아, 그것을 전체 의미표현(R)으로 하여(408), 재귀적으로 의미기술자를 추출하는 과정을 호출한다(409). 재귀적으로 호출된 의미기술자 추출 과정이 끝나면 i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 개념분류망 내의 기호인가를 검사한 결과, 개념분류망 내의 기호이면, w가 개념분류망 중 사건(event) 유형에 속하는지를 확인한다(410).
사건(event) 유형에 속하는지를 확인한 결과, 사건(event) 유형에 속하면 i번째 의미표현 기호인 w는 의미기술자 중 문맥기술자(context-info)에 속하는 값으로 할당하고(411), i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
사건(event) 유형에 속하는지를 확인한 결과, 사건(event) 유형에 속하지 않으면, 이전의 의미표현 기호에 의해 공간요소(geogra)를 포함하고 있는 것으로 정의되었으며, w가 지리적 개체(geographical entity)에 속하는지를 검사한다(412).
w가 지리적 개체(geographical entity)에 속하는지를 검사한 결과, 지리적 개체(geographical entity)에 속하면, i번째 의미표현 기호인 w는 의미기술자 중 장소기술자(geographical-info)에 속하는 값으로 할당하고(413), i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 지리적 개체(geographical entity)에 속하는지를 검사한 결과, 지리적 개체(geographical entity)에 속하지 않으면 이전의 의미표현 기호에 의해 시간요소(temper)를 포함하고 있는 것으로 정의되었으며, w가 시간적 개체(temporal entity)에 속하는지를 판단한다(414).
w가 시간적 개체(temporal entity)에 속하는지를 판단한 결과, 시간적 개체(temporal entity)에 속하면, i번째 의미표현 기호인 w는 의미기술자 중 시간기술자(temporal-info)에 속하는 값으로 할당하고(415), i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 시간적 개체(temporal entity)에 속하는지를 판단한 결과, 시간적 개체(temporal entity)에 속하지 않으면, w가 동작(Action) 유형에 속하는지를 분석한다(416).
w가 동작(Action) 유형에 속하는지를 분석한 결과, 동작(Action) 유형에 속하면 다음에 나올 의미표현 기호는 관계요소(rela)를 포함하고 있는 것으로 정의하고(407), 동작(Action) 유형에 속하는 w의 뒤따라나오는 연관된 의미표현 기호들에 대해 재귀적으로 의미기술자를 추출하는 과정을 수행한다(418). 재귀적으로 수행된 의미기술자 추출 과정이 끝나면 현재 의미기술자를 추출하고 있는 의미표현 기호인 w와 그 w에 관계된 객체(Obj)를 관계기술자(relation-info)에 속하는 값으로 할당하고(419), i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 동작(Action) 유형에 속하는지를 분석한 결과, 동작(Action) 유형에 속하지 않으면, w가 객체(object) 유형에 속하는지를 판단한다(420).
w가 객체(object) 유형에 속하는지를 판단한 결과, 객체(object) 유형에 속하지 않으면, i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
w가 객체(object) 유형에 속하는지를 판단한 결과, 객체(object) 유형에 속하면 i번째 의미표현 기호인 w는 의미기술자 중 객체기술자(component-info)에 속하는 값으로 할당하며(421), 객체들의 집합(obj)에 w를 포함하고(422) i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한다(423).
i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한 결과, 전체 의미표현 기호의 개수(N)보다 작은 값을 갖지 않으면 의미기술자 추출 과정을 종료하여 원래의 과정으로 복귀한다.
i가 전체 의미표현 기호의 개수(N)보다 작은 값을 갖는지를 조사한 결과, 전체 의미표현 기호의 개수(N)보다 작은 값을 갖으면 i를 1 증가시켜(424) i번째 의미표현 기호를 w로 하는 과정(402)부터 반복 수행한다.
도 5a 및 도 5b 는 본 발명에 이용되는 멀티미디어 데이터에 대한 일예시도이다.
도 5a 및 도 5b 는 상기 도 2 에서 예시된 개념분류망의 노드 기호 "THE_HAN"에 의해 색인될 수 있는 멀티미디어 레코드를 예시하고 있다. 또한 이는 본 실시예에서 예로 들고 있는 사용자 질의어 "한강의 이미지를 찾아주세요." 로부터 추출된 멀티미디어 데이터의 예시도를 보여주고 있다.
이렇게 찾아진 멀티미디어 데이터는 의미기술자를 가지고 있다. 도 5a의 데이터에 대한 의미기술자의 값은 다음의 (표 2)와 같다.
문맥기술자(context-info) NULL
장소기술자(geographical-info) THE_HAN
시간기술자(temporal-info) NULL
객체기술자(component-info) PATROL_MAN1, BUILDING
관계기술자(relation-info) inspect(PATROL_MAN1,status(THE_HAN))
도 5b의 데이터에 대한 의미기술자의 값은 다음의 (표 3)과 같다.
문맥기술자(context-info) NULL
장소기술자(geographical-info) THE_HAN
시간기술자(temporal-info) NULL
객체기술자(component-info) BRIDGE
관계기술자(relation-info) NULL
이러한 두개의 멀티미디어 데이터에 대해 가중치가 부여되었다면 하기의 (표 4), (표 5)와 같다. 이 가중치는 사용자 질의어와 찾아진 멀티미디어 데이터와의 의미유사도 계산시에 이용된다.
(표 4)는 도 5a 에 도시된 멀티미디어 데이터의 의미기술자 값에 대하여 가중치가 부여된 것으로 다음과 같다.
문맥기술자(context-info) NULL
장소기술자(geographical-info) THE_HAN;0.5
시간기술자(temporal-info) NULL
객체기술자(component-info) PATROL_MAN1, BUILDING
관계기술자(relation-info) inspect(PATROL_MAN1,status(THE_HAN))
(표 5)는 도 5b 에 도시된 멀티미디어 데이터의 의미기술자 값에 대하여 가중치가 부여된 것으로 다음과 같다.
문맥기술자(context-info) NULL
장소기술자(geographical-info) THE_HAN;1.0
시간기술자(temporal-info) NULL
객체기술자(component-info) BRIDGE
관계기술자(relation-info) NULL
상기와 같이 가중치가 부여됐다면 "한강의 이미지를 찾아주세요."라는 사용자 질의어에 대해서는 도 5b 가 더 높은 의미유사도를 갖게 된다.
도 6 은 본 발명에 따른 응답 생성 과정의 일실시예 흐름도이다.
의미유사도 계산 과정(210)을 거친 후, 사용자에게로의 응답을 생성하는 과정(215)은 다음과 같다.
우선, 사용자 질의어의 의미기술자의 값에 해당하는 노드에 의해 색인된 레코드의 수가 사용자에게 제시하기에는 너무 많은 것이 아닌지를 판단한다(601). 판단 결과, 너무 많은 것이 아니면, 색인된 레코드의 키 값을 결과값으로 할당한다(602). 색인된 레코드의 수가 사용자에게 제시하기에는 너무 많은 것이 아닌지를 판단한 결과, 너무 많으면 현재의 의미기술자의 값으로부터 좀 더 세분하거나 심화된 사용자의 조건을 얻기 위한 응답 질문 문장을 생성하여(604), 결과값에 응답 질문 문장을 할당한다(605).
도 7 은 자연어 질의어, 개념분류망 및 멀티미디어 데이터와의 관계에 대한 예시도이다.
본 발명은, 자연어 질의문장(Natural language query)이 사용자로부터 입력되면 여기에서 의미기술자를 추출하고, 추출된 의미기술자에 해당하는 개념분류망(Domain Ontology)의 노드에서, 이 노드에 연관된 실제 멀티미디어 데이터(MultiMedia Data)를 찾아, 실제 멀티미디어 데이터의 의미기술자를 사용자 질의문장에서 추출된 의미기술자와의 비교를 통해, 실제 멀티미디어 데이터와 자연어 질의문장 간의 의미유사도를 조사하여 사용자에게 제공된다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 사용자가 영어나 한국어와 같은 자연언어 문장을 통해 멀티미디어 정보가 가지고 있는 의미나 개념을 기반으로 검색을 할 수 있어서 기존의 객체 중심의 개념 키워드를 기반한 단순한 의미 검색을 벗어나서 객체들간의 관계와 그 정보에 관계된 위치, 시간 개념과 이들을 전체로 한데 통합한 개념등 의미에 관련된 전반적인 개념에 의해 멀티미디어 정보를 색인함으로써 사용자는 이들 개념에 관계된 의미를 표현하는 자연언어 문장을 자유롭게 사용하여 원하는 정보를 얻을 수 있는 효과가 있다.
또한, 본 발명은, 사용자의 검색 조건에 맞는 데이터가 없을 때는 의미유사도 계산을 통해 사용자가 제시한 의미와 가장 가까운 데이터를 제시하며 사용자의 검색 조건에 일치하는 데이터가 너무 많을 때는 사용자에게 조건을 세분하고 심화하는 질문 문장을 제시함으로써 사용자의 요구조건에 가장 알맞은 멀티미디어 데이터를 효율적으로 제공할 수 있는 효과가 있다.

Claims (12)

  1. 개념분류망을 이용하여 정보가 나타내고 있는 의미나 개념에 기반하여 검색을 수행하는 정보 검색 장치에 있어서,
    사용자로부터의 질의문을 분석하기 위한 데이터와 의미유사도 계산을 위한 데이터와 멀티미디어 데이터를 저장하기 위한 저장수단;
    상기 사용자로부터 자연어 질의문을 입력받기 위한 입력수단;
    상기 저장수단의 데이터를 참조하여 상기 사용자로부터 입력된 자연어 질의문을 분석하여 의미표현을 제공하기 위한 입력문 분석수단;
    상기 입력문 분석수단에서 분석된 의미표현으로부터 의미기술자 값을 추출한 후에 상기 추출된 의미기술자 값과 상기 저장수단의 개념분류망 데이터를 비교하여 의미유사도를 계산하여 상기 저장수단의 데이터를 검색하기 위한 검색 처리수단; 및
    상기 검색 처리수단으로부터 생성되는 데이터를 사용자에게 제공하기 위한 출력수단
    을 포함하여 이루어진 개념분류망을 이용한 정보 검색 장치.
  2. 제 1 항에 있어서,
    상기 입력문 분석수단은,
    상기 입력수단으로부터 제공된 상기 사용자의 자연어 질의문의 형태소 분석을 수행하기 위한 형태소 분석수단;
    상기 사용자 질의문의 구문 분석을 수행하기 위한 구문 분석수단; 및
    상기 사용자 질의문의 의미 분석을 수행하기 위한 의미 분석수단
    을 포함하여 이루어진 개념분류망을 이용한 정보 검색 장치.
  3. 제 1 항에 있어서,
    상기 저장수단은,
    상기 사용자로부터 입력된 질의문 분석에 필요한 데이터를 저장하기 위한 사전 저장수단;
    사용자 질의문으로부터 추출된 의미기술자와 멀티미디어 데이터의 의미기술자 간의 의미유사도 계산을 수행하기 위해 필요한 구조 및 데이터를 저장하기 위한 개념분류망 저장수단; 및
    실제 멀티미디어 데이터를 저장하기 위한 멀티미디어 저장수단
    을 포함하여 이루어진 개념분류망을 이용한 정보 검색 장치.
  4. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 검색처리수단은,
    상기 입력문 분석수단에서 분석된 의미표현으로부터 상기 저장수단의 개념분류망 데이터와 비교하여 개념분류망에 의해 표현되는 의미기술자의 값을 추출하는 의미기술자 추출수단;
    상기 의미기술자 추출수단으로부터 출력되는 데이터를 상기 저장수단의 개념분류망 데이터와 비교하여 의미유사도를 계산한 후에 그 계산 결과에 따라 레코드의 검색 키값을 획득하는 레코드 검색수단; 및
    상기 레코드 검색수단으로부터 출력되는 데이터로부터 상기 저장수단에 저장되어 있는 데이터를 검색하기 위한 응답 생성수단
    을 포함하여 이루어진 개념분류망을 이용한 정보 검색 장치.
  5. 제 4 항에 있어서,
    상기 응답 생성수단은,
    검색된 데이터가 소정의 수보다 많으면 사용자의 검색조건을 세분/심화하는 질문을 생성하는 기능을 더 포함하여 이루어진 개념분류망을 이용한 정보 검색 장치.
  6. 개념분류망을 이용한 정보 검색 장치에 적용되는 정보 검색 방법에 있어서,
    사용자로부터 입력된 질의어를 분석하여 질의어의 의미기술자를 추출하는 제 1 단계;
    추출된 상기 의미기술자의 값에 의해 상기 개념분류망에서 색인되는 데이터 개체를 찾아 상기 사용자 질의어의 의미기술자와 상기 데이터 개체의 의미기술자와의 의미유사도를 계산하는 제 2 단계;
    의미유사도가 계산된 데이터들에 대해 상기 사용자에게 제시할 결과를 생성하는 제 3 단계; 및
    상기 사용자에게 상기 사용자 질의어에 의해 검색된 결과를 제시하는 제 4 단계
    를 포함하여 이루어진 개념분류망을 이용한 정보 검색 방법.
  7. 제 6 항에 있어서,
    상기 제 1 단계는,
    상기 사용자로부터 자연어로 된 질의어를 입력받아 형태소/구문/의미 분석을 수행하여 의미표현을 생성하는 제 5 단계;
    상기 의미표현에서 잉여적인 정보를 삭제 또는 통합하여 개념분류망 내의 노드 기호와 의미구조 기호만으로 의미표현을 변환시키는 제 6 단계; 및
    상기 변환된 의미표현을 분석하여 상기 사용자 질의어의 의미기술자를 추출해내는 제 7 단계
    를 포함하여 이루어진 개념분류망을 이용한 정보 검색 방법.
  8. 제 7 항에 있어서,
    상기 제 7 단계는,
    상기 제 6 단계를 통해 단순화된 상기 의미표현을 한 단어씩 추출하여 변수에 할당하는 제 8 단계;
    상기 변수에서 한 단어를 추출하여 개념분류망 내의 노드의 기호인지를 확인하는 제 9 단계;
    상기 제 9 단계의 확인 결과, 개념분류망 내의 노드 기호이면, 개념분류망의 어떤 유형에 속하는지를 파악하여 의미기술자의 유형으로 값을 할당하는 제 10 단계;
    상기 제 9 단계의 확인 결과, 개념분류망 내의 노드 기호가 아니면, 의미구조 단어이므로 그 쓰임에 따라 임시 변수를 설정하고 상기 의미구조 단어에 의해 제한되는 의미구조의 일부분을 상기 임시 변수에 할당하여 재귀적으로 의미기술자 추출과정을 수행하는 제 11 단계; 및
    상기 변수에 남아있는 단어가 있는지를 판단하여 남아있는 단어가 있으면 상기 제 9 단계부터 반복 수행하는 제 12 단계
    를 포함하여 이루어진 개념분류망을 이용한 정보 검색 방법.
  9. 제 8 항에 있어서,
    상기 제 10 단계는,
    개념분류망 내의 노드 기호인지를 확인한 결과, 개념분류망 내의 노드 기호이면 개념분류망의 어떤 유형에 속하는지를 판단하는 제 13 단계;
    상기 제 13 단계의 판단 결과, 개념분류망의 사건(event) 유형에 속하면 의미기술자 중 문맥기술자(context-info)에 속하는 값으로 할당하는 제 14 단계;
    상기 제 13 단계의 판단 결과, 개념분류망의 장소적 객체(geographical)에 속하고 이전에 의미기술자 추출 단어에 의해 장소요소가 포함되어 있으면 의미기술자 중 장소기술자(geographical-info)의 값으로 할당하는 제 15 단계;
    상기 제 13 단계의 판단 결과, 개념분류망의 시간적 객체(temporal)에 속하고 이전에 의미기술자 추출 단어에 의해 시간요소가 포함되어 있으면 의미기술자 중 시간기술자(temporal-info)의 값으로 할당하는 제 16 단계;
    상기 제 13 단계의 판단 결과, 개념분류망의 동작(action) 유형에 속하면 다음에는 관계요소를 포함하고 있는 것으로 설정하고 변수에 있는 관련된 단어에 대해 의미기술자 추출 과정을 재귀적으로 수행하여 현재의 단어와 연관되는 객체들을 의미기술자 중 관계기술자(relation-info)로 할당하는 제 17 단계; 및
    상기 제 13 단계의 판단 결과, 개념분류망의 객체(object) 유형에 속하면 의미기술자 중 객체기술자(conponent-info)의 값으로 할당하고 객체들의 집합에 포함시키는 제 18 단계
    를 포함하여 이루어진 개념분류망을 이용한 정보 검색 방법.
  10. 제 6 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 제 3 단계는,
    사용자 질의어에 의해 추출된 의미기술자의 값에 해당하는 노드에 의해 색인된 레코드의 수가 상기 사용자에게 제시하기에 적정한 소정의 값보다 작은지를 판단하는 제 19 단계;
    상기 제 19 단계의 판단 결과, 소정의 값보다 작아 상기 사용자에게 제시하기에 적정하면 의미유사도에 따라 적절히 사용자에게 제공할 데이터를 배열하는 제 20 단계; 및
    상기 제 19 단계의 판단 결과, 소정의 값보다 작지 않아 상기 사용자에게 제시하기에 적정하지 못하면 좀더 세분하거나 심화된 사용자의 질의어를 얻기 위한 응답 질의 문장을 생성하는 제 21 단계
    를 포함하여 이루어진 개념분류망을 이용한 멀티미디어 정보 자연어 검색 방법.
  11. 제 10 항에 있어서,
    상기 제 21 단계는,
    색인된 레코드의 수가 상기 사용자에게 제시하기에 적정한 소정의 값보다 작은지를 판단한 결과, 소정의 값보다 작지 않아 상기 사용자에게 제시하기에 적정하지 못하면 색인되어 있는 레코드의 수가 가장 큰 의미기술자를 찾는 제 22 단계; 및
    상기 의미기술자의 값으로부터 좀더 세분하거나 심화된 사용자의 조건을 얻기 위한 응답 질문 문장을 생성하는 제 23 단계
    를 포함하여 이루어진 개념분류망을 이용한 정보 검색 방법.
  12. 대용량 프로세서를 구비한 정보 검색 장치에,
    사용자로부터 입력된 질의어를 분석하여 질의어의 의미기술자를 추출하는 제 1 기능;
    추출된 상기 의미기술자의 값에 의해 상기 개념분류망에서 색인되는 데이터 개체를 찾아 상기 사용자 질의어의 의미기술자와 상기 데이터 개체의 의미기술자와의 의미유사도를 계산하는 제 2 기능;
    의미유사도가 계산된 데이터들에 대해 상기 사용자에게 제시할 결과를 생성하는 제 3 기능; 및
    상기 사용자에게 상기 사용자 질의어에 의해 검색된 결과를 제시하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990027068A 1999-07-06 1999-07-06 개념분류망을 이용한 정보 검색 장치 및 그 방법 KR20010008962A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990027068A KR20010008962A (ko) 1999-07-06 1999-07-06 개념분류망을 이용한 정보 검색 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990027068A KR20010008962A (ko) 1999-07-06 1999-07-06 개념분류망을 이용한 정보 검색 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20010008962A true KR20010008962A (ko) 2001-02-05

Family

ID=19599647

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990027068A KR20010008962A (ko) 1999-07-06 1999-07-06 개념분류망을 이용한 정보 검색 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20010008962A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030006201A (ko) * 2001-07-12 2003-01-23 서정연 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR20030009852A (ko) * 2001-07-24 2003-02-05 에스케이텔레텍주식회사 공기(共起)유사도 사전을 이용한 지능형 메뉴탐색방법 및그 방법을 채택한 휴대전화기
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
KR100643159B1 (ko) * 2004-08-11 2006-11-10 에스케이 텔레콤주식회사 자연어처리를 이용한 사용자 콘텍스트 수집 시스템 및 그방법
KR100685791B1 (ko) * 2004-12-13 2007-02-22 한국전자통신연구원 자연어를 온톨로지 기반 지식으로 변환하는 방법 및 장치
KR100988153B1 (ko) * 2002-03-29 2010-10-18 소니 주식회사 정보 검색 시스템, 정보 처리 장치 및 방법, 정보 검색장치 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
KR20030006201A (ko) * 2001-07-12 2003-01-23 서정연 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR20030009852A (ko) * 2001-07-24 2003-02-05 에스케이텔레텍주식회사 공기(共起)유사도 사전을 이용한 지능형 메뉴탐색방법 및그 방법을 채택한 휴대전화기
KR100988153B1 (ko) * 2002-03-29 2010-10-18 소니 주식회사 정보 검색 시스템, 정보 처리 장치 및 방법, 정보 검색장치 및 방법
KR100643159B1 (ko) * 2004-08-11 2006-11-10 에스케이 텔레콤주식회사 자연어처리를 이용한 사용자 콘텍스트 수집 시스템 및 그방법
KR100685791B1 (ko) * 2004-12-13 2007-02-22 한국전자통신연구원 자연어를 온톨로지 기반 지식으로 변환하는 방법 및 장치

Similar Documents

Publication Publication Date Title
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
US6442540B2 (en) Information retrieval apparatus and information retrieval method
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
GB2575141A (en) Conversational query answering system
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
JP3353829B2 (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
Bhoir et al. Question answering system: A heuristic approach
Martins et al. Challenges and resources for evaluating geographical IR
KR20010008962A (ko) 개념분류망을 이용한 정보 검색 장치 및 그 방법
Tomasic et al. Improving access to environmental data using context information
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
Liu et al. Recognition of collocation frames from sentences
JPH03132872A (ja) 索引情報生成装置
KR101693783B1 (ko) 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법
Luaces et al. An ontology-based index to retrieve documents with geographic information
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Kaladevi et al. Development of Background Ontology for Weather Systems through Ontology Learning
Manad et al. A cleaning algorithm for noiseless opinion mining corpus construction
Katz et al. Viewing the Web as a Virtual Database for Question Answering.
Nogueras-Iso et al. Exploiting disambiguated thesauri for information retrieval in metadata catalogs
Mamede et al. Syntax deep explorer

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination