KR20010056963A

KR20010056963A - 시소러스 자동구축 및 자동검색 방법

Info

Publication number: KR20010056963A
Application number: KR1019990058668A
Authority: KR
Inventors: 서휘; 임진수; 김미정; 손범석
Original assignee: 서휘; 손범석; 김미정; 임진수
Priority date: 1999-12-17
Filing date: 1999-12-17
Publication date: 2001-07-04
Also published as: KR100323208B1

Abstract

수작업에 의해 용어들의 계층을 미리 정의하거나 결정하지 않고 자동으로 용어들의 계층을 형성할 수 있는 시소러스 구축 방법 및 이렇게 구축된 시소러스에 의하여 검색식을 자동구축하는 정보검색방법이 제공된다. 본 발명의 시소러스 구축방법은 '센트로이드는 클러스터를 식별토록 하는 요인이므로 해당 계층에서 동시에 출현하는 용어 중 전체 문헌에서 가장 출현빈도가 낮은 용어가 해당 클러스터를 대표할 수 있다'는 가설 아래 단일어 또는 소수의 용어로 표현토록 하는 센트로이드를 추출한다. 이들 계층들을 순서대로 나열하여 용어간의 계층관계를 표시한다. 이와 같이 계층적으로 구성된 시소러스에 의해, 사용자가 입력한 질의어들을 분석하여 시소러스내의 용어와 비교해서 관련계층들을 시소러스 브라우저 화면으로 제시해주고, 이를 통해 가장 하위어를 핵심어로 선정해 정보를 검색할 수 있도록 한다.

Description

시소러스 자동구축 및 자동검색 방법{Method of automatic construction of thesaurus and method of automatic search}

본 발명은 시소러스 구축 및 검색 방법에 관한 것으로서, 특히 수작업에 의해 용어들의 계층을 미리 정의하거나 결정하지 않고 자동으로 용어들의 계층을 형성할 수 있는 시소러스 구축 방법 및 이렇게 구축된 시소러스에 의하여 검색식을 자동구축하는 정보검색방법에 관한 것이다.

최근 인터넷을 통한 정보검색은 전세계적으로 급격히 확산되고 있고 인터넷을 통해 접할 수 있는 자원의 형태 또한 서지 데이터에서부터 멀티미디어에 이르기까지 매우 다양해지고 있다. 특히 전문검색시스템의 개발은 데이터베이스에 축적된 문헌의 전문(full-text)을 대상으로 필요 정보를 검색하고, 필요한 정보를 담고 있는 전문의 전부 또는 일부분을 볼 수 있다는 점에서 이용자에게 커다란 도움을 주고 있다.

그러나 이용자 요구에 가장 적합한 정보를 검색하기 위해서는 검색시스템의 기본원리인 문헌의 내용표현과 이용자의 질의내용 표현이 완전일치 또는 부분일치가 이루어져야 가능한 것이다. 특히, 현재 정보검색시스템이 안고 있는 문제점은 데이터베이스 내에 이용자 요구에 적합한 문헌들이 축적되어 있음에도 불구하고 색인어와 탐색어와의 불일치로 인해 적합한 문헌이 검색되지 못하는 현상과 요구에부적합한 문헌들이 검색되는 현상이 발생한다는 사실이다.

이러한 문제점을 해결하는데 사용되는 것으로 시소러스(thesaurus)가 있다. 시소러스란 용어(term)간의 동등관계, 계층관계, 관련관계를 서로 대응시켜 적용하는 표준 관계지시기호(relationship indicator)를 이용하여 명확하게 표시하고 식별할 수 있도록 통제한 어휘집을 말한다. 시소러스의 목적은 주로 후조합 정보검색시스템(postcoordinated information storage and retrieval systems)에서 문헌의 색인시 일관성을 유지하고, 기입어(entry term)를 디스크립터(descriptor)로 링크시킴으로써 탐색을 용이하게 하는 것이다. 또한 시소러스는 자유본문탐색(free text searching) 방법에서도 검색효율을 높일 수 있다.

그런데, 아직까지 도서관이나 정보검색 관련 소프트웨어에서 시소러스의 구축을 자동화하는 알고리즘이 적용된 사례가 없다. 따라서, 아직까지도 시소러스를 구축하는데에 많은 수작업의 과정이 요구되고 있다.

한편, 키모토(H. Komoto)와 이와데라(T.Iwadera)는 이용자의 특별한 관심사를 반영하는 동적 시소러스(dynamic thesaurus)를 구축하였다. (H. Kimoto and T. Iwadera. "Construction of a Dynamic Thesaurus and its Use for Associated Information Retrieval." In Proceedings of the 13th International conference on Research and Development in Information Retrieval . New York : The Association for Computing Machinery, 1990, pp. 227-240.)

이들의 연구에서는 이용자가 자신의 정보 요구에 적합한 문헌을 선택하도록 한 다음, 이 표본 적합 문헌으로부터 용어정보를 추출하여 개인별로 동적 시소러스를 구축하였다. 그러나, 동적 시소러스의 구축시에 용어간의 계층관계는 여전히 기존의 수작업으로 편집된 시소러스를 이용하고 있다.

한편, 정보검색시스템에서 온라인으로 시소러스를 이용하기 위해서는 시소러스에 표현된 용어 형태, 용어 사이의 관계 구조 등을 브라우징할 수 있는 시스템이 필요한데, 이를 시소러스 브라우저(thesaurus browser)라고 한다. 시소러스 브라우저는 기존의 시소러스가 색인과 검색과정에서 병행해 사용되는 것과는 달리 온라인서비스에서 최종 이용자가 검색과정에서만 사용하기 위한 목적(자연어 시스템에서 어의적으로 관련된 용어나 동의어를 통제하기 위한 목적)으로 만들어졌기 때문에 탐색시소러스, 사후통제어휘집이라고도 불리워진다.

시소러스 브라우저는 기존의 시소러스와는 달리 탐색자가 용어선정을 표준화하기 위해 사용하는 것이 아니라, 탐색자 마음 속에 있는 용어의 대안어(동의어, 유사어, 반의어, 관련어)를 제공하는 기능을 통해 주제탐색을 지원하는 정보검색 입장에서의 시소러스이므로 이용자에게서 발생하는 질문식과 문제기술의 불확실성, 문헌에 부여된 색인어의 다양성, 정보검색시스템의 복잡성을 해결하고 만족할만한 주제문헌을 찾도록 지원해 주는 것이다.

따라서, 시소러스 브라우저는 탐색자가 단지 하나의 용어를 입력하더라도 이를 근거로 용어의 의미 네트워크에 접근할 수 있도록 해야 하며, 탐색식을 형성하는 과정에서도 색인어들을 적절히 조합한 다양한 탐색식을 제시하는 과정을 통해 자신의 정보 요구를 정확히 기술할 수 있도록 해야 한다. 또한 이용자의 용어 선택을 통해 문헌의 선택을 돕기 위해 문헌에서 추가적인 정보를 제공할 수 있어야 한다.

시소러스 브라우저의 형태는 표현 방법에 따라 평면시소러스 구조, 계층표시/트리 구조, 그래픽 구조, 순열 구조 등으로 나뉘어지며, 한 화면에 2가지 이상의 구조로 표현하기도 한다. 따라서 시소러스는 어떤 형태이던지 특정개념에 관련된 모든 정보를 가능한 쉽고 신속하게 파악할 수 있는 기능을 제공해야 한다.

본 발명의 목적은 각 문헌에 대한 색인어로부터 자동적으로 시소러스를 구축할 수 있는 시소러스 자동 구축방법을 제공하는 것을 목적으로 한다.

본 발명의 다른 목적은 구축된 시소러스로부터 사용자가 문헌의 검색을 용이하게 할 수 있는 시소러스 검색방법을 제공하는 것을 목적으로 한다.

도 1은 완전연결 그래프 클러스터의 형태를 보여주는 도면이다.

도 2는 부분연결 그래프 클러스터의 형태를 보여주는 도면이다.

도 3은 클러스터 구성의 흐름을 보여주는 흐름도이다.

도 4는 센트로이드의 계층 그래프를 보여주는 도면이다.

도 5는 본 발명의 방법을 적용하여 구성한 클러스터의 예를 보여주는 도면이다.

도 6은 시소러스 브라우저의 화면예이다.

도 7은 시소러스의 용어 계층 관계를 보여주는 도면이다.

도 8은 동일 계층 질의어의 확장의 일예이다.

도 9는 분리 계층 질의어의 확장의 일예이다.

도 10은 시소러스에 출현하지 않는 용어의 처리를 보여주는 화면예이다.

도 11은 동일 계층의 검색방법을 보여주는 화면예이다.

도 12는 분리 계층의 검색방법을 보여주는 화면예이다.

도 13은 시소러스에 출현하지 않는 용어의 검색을 보여주는 화면예이다.

도 14은 동일 계층의 피드백 검색시의 화면예이다.

도 15는 분리 계층의 피드백 검색시의 화면예이다.

도 16은 시소러스에 출현하지 않는 용어의 피드백 검색시의 화면예이다.

본 발명의 시소러스 구축방법은 '센트로이드는 클러스터를 식별토록 하는 요인이므로 해당 계층에서 동시에 출현하는 용어 중 전체 문헌에서 가장 출현빈도가 낮은 용어가 해당 클러스터를 대표할 수 있다'는 가설 아래 단일어 또는 소수의 용어로 표현토록 하는 센트로이드를 추출한다. 이들 계층들을 순서대로 나열하여 용어간의 계층관계를 표시함으로써 시소러스를 구축한다.

그리고, 이와 같이 계층적으로 구성된 시소러스에 의해, 사용자가 입력한 질의어들을 분석하여 시소러스내의 용어와 비교해서 관련계층들을 시소러스 브라우저화면으로 제시해주고, 이를 통해 가장 하위어를 핵심어로 선정해 정보를 검색할 수 있도록 한다.

이하, 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.

1. 시소러스의 구축

시소러스를 구축하기 위해서는 먼저 각 문헌에서 사용된 주요 용어를 추출하여야 한다. 이렇게 용어를 추출하는 방법으로는 많은 방법이 제안되고 있다. 본 발명은 구체적인 용어의 자동추출방법과는 상관이 없으며, 색인어가 이미 생성되어 있는 상태에서 이 색인어로부터 시소러스를 구축하는 방법에 관한 것이다. 따라서, 색인어가 이미 생성되어 있다는 가정하에서 시소러스를 구축하는 방법에 대해서 설명한다.

본 발명에서 시소러스의 구축은 먼저, 색인어(디스크립터)로부터 클러스터를 구성한 다음, 구성된 클러스터를 근거로 시소러스의 계층을 자동적으로 구성하도록 하고 있다.

(1) 클러스터 구성 알고리즘

1) 단계별 알고리즘

클러스터를 구성하기 위한 과정 중 각 단계에서 적용한 알고리즘은 다음과 같다. 먼저 마스터 파일을 이용해서 문헌-디스크립터 행렬과 디스크립터-문헌 행렬을 구성한다(단계 S110). 디스크립터-문헌 행렬의 구성은 인버티드 파일 구성 알고리즘을 적용해 색인어의 문헌 출현빈도를 계산한다. 그리고 이를 이용해서 색인어들을 최상위 빈도에서 최하위 빈도순으로 비교해 색인어 간의 완전 연결(포함)여부를 분석한다. 연결 여부에 대한 분석은 동일 문헌 포함여부를 근거한 매칭함수 알고리즘을 적용한다.

클러스터의 구성은 문헌을 가장 많이 포함하고 있는 최상위 디스크립터에 연결된 문헌들을 최정점의 클러스터로 그룹화하고, 이를 근거로 차 순위 디스크립터에 연결된 문헌들을 하부 클러스터로 구성하는 순으로 진행하여, 더 이상 분리되지 않는 최하위 계층 클러스터인 하나의 문헌까지 순차적으로 비교한다. 이 과정은 인버티드 알고리즘과 매칭함수 알고리즘을 적용한다.

단, 클러스터간의 연결은 매칭함수 알고리즘을 이용하되, 가장 인접하는 하위 클러스터는 소속된 문헌들이 상위 클러스터에 소속된 문헌들의 일부와 완전히 일치하는 것으로 한정한다. 이 과정은 부울 논리의 AND 알고리즘을 적용한다.

완전 매칭이 이루어지지 않는 색인어에 포함된 클러스터(문헌)들을 계층화된 클러스터에 연결시키기 위해 다음과 같은 Tanimoto공식을 적용해 유사도 측정을 한다.

여기에서, X와 Y는 문헌을 의미하며, X_T, Y_T는 각 문헌의 특성을 나타내는 용어들을 의미한다. 또한 Xt ∩Yt 는 문헌 X와 Y에서의 공동출현 용어의 수를 의미한다.

측정한 결과를 근거로 가장 유사하다고 판단되는 클러스터의 위에 임의의 클러스터를 만들고, 그 표시는 센트로이드 알고리즘을 이용해 각 클러스터의 센트로이드(색인어들)를 동시에 표현한다. 새로이 구성된 센트로이드에 해당 색인어에 포함된 클러스터(문헌)를 연결한다. 이때 적용되는 알고리즘은 매칭함수 알고리즘이다.

2) 클러스터 구성

도 3을 참조하여 클러스터의 구성절차에 대해서 상세히 설명한다.

가) 디스크립터-문헌 행렬 구성 (단계 S110)

디스크립터-문헌 행렬은 입력시의 마스터 파일을 근거로 구축된 인버티드 파일을 이용하여 구성한다. 이 행렬의 구성은 디스크립터-문헌 벡터 값으로 표현한다. 벡터 값은 디스크립터가 특정 문헌을 포함하면 '1'로 포함하지 않으면 '0'으로 표현하는 방법으로 구성한다.

나) 순위별 디스크립터-문헌 행렬 구성(단계 S120)

순위별 디스크립터-문헌 행렬은 위의 디스크립터-문헌 행렬에서 문헌들의 출현빈도를 근거로 구성한다. 이 행렬의 구성은 디스크립터-문헌 벡터 값으로 표현한다. 벡터 값은 디스크립터가 특정 문헌을 포함하면 '1'로 포함하지 않으면 '0'으로 표현하는 방법으로 구성한다.

다) 완전연결 그래프 형태 클러스터 구성

동일 문헌의 동시출현빈도를 근거로 구성한다. 최상위 빈도 디스크립터(T1)에 연결된 문헌들(D1,D2,D3,D4,D5)을 최상위 클러스터(C1)로 그룹화 한다(단계 S130). 차 순위 빈도 디스크립터(T4)에 연결된 문헌들(D1,D2,D4,D5)은 차순위 클러스터(C2)로 그룹화 한다(단계 S140에서 단계 S160까지).

클러스터의 형태는 완전연결 그래프(클리크)로 한정하므로 만약 차 순위 클러스터에 포함된 문헌들이 상위 클러스터에 포함된 문헌들의 일부와 일치하지 않으면 보다 상위의 클러스터와 비교해 연결시킨다. 이와 같이 완성된 완전연결 그래프 클러스터 형태의 예가 도 1에 도시되어 있다.

라) 부분연결 그래프 형태 클러스터 구성

완전연결 그래프에 포함되지 않은 클러스터 C6=(D1,D2,D4,Di)를 연결시키기 위해 유사치를 측정한다(단계 S200). 유사계수 공식은 Tanimoto 공식을 적용한다(단계 S210).

유사치 측정에 의해 가장 유사한 클러스터(C2, C6)를 연결하고(단계 S220) 소속된 모든 문헌을 포함하고 있는 임의의 클러스터 C7=(D1,D2,D3,D4,D5,Di)을 가상으로 구성한다(단계 S230). 이와 같이 완성된 완전연결 그래프 클러스터 형태의 예가 도 2에 도시되어 있다.

(2) 시소러스 구성

여기에서는 앞에서 계층별로 형성한 클러스터를 근거로 시소러스의 계층을 자동으로 구성하도록 해당 클러스터의 계층을 대표할 수 있는 용어를 표현하는 방법에 대하여 기술한다.

1) 센트로이드 표현

기존의 센트로이드 표현 방법은 앞 단계의 클러스터 구성을 근거로 공통 용어를 나열하는 방식이었다. 이 같은 표현 방식은 센트로이드의 표현을 길어지게 하므로, 핵심 역할보다는 주변 역할을 통해 정보를 검색하도록 해주며, 용어들간의 계층을 식별하기 어렵다는 문제를 발생한다. 따라서 클러스터를 대표하는 센트로이드는 센트로이드가 의미하는 바와 같이 소수의 핵심어(중심어)로 표현되어야 한다.

센트로이드를 시소러스 구성에 활용할 수 있도록 계층별로 소수의 핵심어로 표현하는 방법의 가설은 '센트로이드는 클러스터를 식별토록 하는 요인이므로 해당 계층에서 동시에 출현하는 용어 중 전체 문헌에서 가장 출현빈도가 낮은 용어가 해당 클러스터를 대표할 수 있다'는 것이다.

이 가설을 적용해 앞의 '클러스터 구성작업'에서 형성한 계층 클러스터의 각 계층을 대표하는 디스크립터들을 해당 클러스터의 센트로이드로 표현한다(완전연결은 단계 S130부터 단계 S160까지에서, 부분연결은 단계 S250에서). 계층별로 형성된 클러스터를 단일어 또는 소수의 용어로 표현토록 하는 센트로이드를 추출하는 알고리즘은 다음과 같다. 센트로이드 추출은 클러스터 구성 작업 순서와 동일하게한다.

i) 먼저, 센트로이드는 제일 아래(최하위 문헌 핵심어)부터 위의 순서대로 표현한다.

ii) 최하위 문헌핵심어는 빈도수가 제일 낮은 단어를 중심값으로 표기한다.

iii) 문헌-문헌간 센트로이드(첫번째 클러스터의 센트로이드)는 동시출현 용어 중에서 색인-문헌 인버티드 파일을 근거로 문헌출현빈도가 가장 낮은 색인어로 한다. 단, 출현빈도가 동일할 경우에는 같이 표기한다.

iv) 바로 위의 클러스터(클러스터와 클러스터 그리고 클러스터와 문헌이 연결되어 새로이 형성된 클러스터)의 센트로이드는 소속된 각 문헌에 2회 이상 출현한 색인어를 대상으로 하여,

ⓐ 선정된 색인어 중 앞의 iii) 과정에서 표현된 색인어를 제외시킨다.

ⓑ 나머지 색인어를 '색인-문헌 인버티드 파일'에서 최소빈도의 색인어로 정한다.

v) 단계 iv)를 모든 클러스터에 대해서 완료될 때까지 반복한다.

이상과 같은 알고리즘과 앞에서 제시한 클러스터 구성 작업과정에서 제시한 '순위별 디스크립터-문헌 행렬'과 '완전연결 및 부분연결 그래프로 구성된 클러스터'를 근거로 센트로이드를 표현하면 다음의 <표 3>과 같다.

형성된 센트로이드를 계층 그래프로 연결하는 것은 도 4와 같이 진행된다. 도 4에서 T1에서 T5까지는 완전연결에 의한 센트로이드 표현(도 3의 단계 S110에서 단계 S180까지)이며, Ti는 부분연결에 의한 센트로이드 표현(도 3의 단계 S200에서 단계 S250까지)이다.

이와 같은 가설을 적용한 본 발명의 센트로이드 표현방법을 예를 들어 좀더 상세히 설명하면 다음과 같다.

15개 문헌에 대하여 다음과 같은 색인어가 추출되었다.

(색인어) - 1은 '경계층'이란 색인어를 의미

경계층 1, 경계층크랙 2, 고주파 3, 공 4, 과대응력 5, 과소응력 6, 광탄성 7, 동특성 8, 대칭 9, 두께 10, 민감도 11, 비대칭 12, 선형 13, 설계 14, 세라믹 15, 셀 16, 소성 17, 속도 18, 슬립밴드 19, 애자 20, 에너지 21, 열 22, 열처리23, 유공판 24, 유한요소 25, 응력 26, 응력계수 27, 적분 28, 종형 29, 종형셀 30, 주파수 31, 진동 32, 최적화 33, 축 34, 축대칭 35, 축대칭셀 36, 컴퓨터 37, 크랙 38, 크랙닫힘 39, 크랙열림 40, 크랙전파 41, 크리이프 42, 탄성 43, 표면크랙 44, 피로크랙 45, 하중 46, 합금 47, 행렬 48

(문헌) - 15개 문헌(①~⑮) - 원괄호①은 문헌 번호

그리고, 색인어별 출현 빈도는 다음의 표 4와 같았다.

이 경우에 센트로이드를 표현하는 방법에 대해서 도 5를 참조하여 설명한다. 도 5에서 점선으로 된 박스는 문헌을 나타내며, 박스안의 ①, ②와 같은 원숫자는 문헌을 나타내는 부호이며, 원숫자 옆의 숫자들은 해당 문헌에 포함되어 있는 핵심어를 나타낸다. 즉, ③번 문헌에는 핵심어 8(동특성), 12(비대칭), 21(에너지),...등이 포함되어 있음을 알 수 있다.

또한, 실선 상자안의 숫자는 클러스터를 의미한다. 즉, 도 5에서 2번 클러스터는 문헌 ②와 문헌 ⑩으로 된 클러스터를 나타낸다.

i) 먼저, 센트로이드는 제일 아래(최하위 문헌 핵심어)부터 위의 순서대로 표현한다. 도 5에 이와 같이 표현한 도면이 도시되어 있다.

도 5에서 최하위 문헌은 ②, ⑩, ⑧, ⑪이다. 2번 문헌에서 빈도수가 제일 낮은 단어는 2번 문헌에만 1번 출현하는 "슬립밴드"(19)이므로 2번 문헌의 핵심어는 "슬립밴드"로 설정된다. 마찬가지로, 10번 문헌에 대해서는 "크랙열림"(40), 8번 문헌에 대해서는 "표면크랙"(44), 11번 문헌에 대해서는 "합금"(47)이 설정된다.

예 1) 2번 클러스터 (2번 문헌과 10번 문헌만 연결)

공통출현용어 : 과대응력, 과소응력, 응력, 크랙, 크랙전파, 피로크랙

빈도수 : 과대응력(2회), 과소응력(2회), 응력(8회), 크랙(8회),

크랙전파(4회), 피로크랙(6회)

-> 2번 클러스터의 센트로이드 = 과대응력 또는 과소응력

예 2) 5번 클러스터 (8번 문헌과 11번 문헌만 연결)

공통 출현 용어 (응력, 크랙, 크랙닫힘, 피로크랙, 합금)

빈도수 - 응력(8회), 크랙(8회), 크랙닫힘(4회), 피로크랙(6회),

합금(2회)

-> 5번 클러스터의 센트로이드 = 합금

ⓑ 나머지 색인어를 '색인-문헌 인버티드 파일'에서 최소빈도의 색인어를 센트로이드로 정한다.

예) 7번 클러스터 (2번, 8번, 10번, 11번, 12번 문헌만 연결)

2회 이상 공통 출현 용어 : (과대응력, 과소응력, 응력, 크랙,

크랙닫힘, 크랙전파, 피로크랙, 합금)

빈도수 : 과대응력(2회), 과소응력(2회), 응력(8회), 크랙(8회),

크랙닫힘(5회), 크랙전파(4회), 피로크랙(6회), 합금(2회)

③번 과정 색인어(과대응력, 과소응력, 합금)를 제외 :

응력(8회), 크랙(8회), 크랙닫힘(5회),

크랙전파(4회), 피로크랙(6회)

최소빈도의 문헌 색인어 = 크랙전파(4회)

7번 클러스터의 센트로이드 = 크랙전파

전통적으로 센트로이드의 정의가 문헌들이 소유하고 있는 공통된 색인어이었기 때문에, 종래 방법에 따르면 2번 클러스터에 대해서는 2번 문헌과 10번 문헌이 공통적으로 가지고 있는 색인어들(5, 6, 26, 38, 41, 45)로 센트로이드가 표현된다. 그러나, 본 발명의 방법에 따르면, 클러스터의 표현은 해당 계층의 클러스터가 갖고 있는 색인어 중에서 가장 빈도가 낮은 (전체 문헌에 출현하는 모든 색인어들의 출현빈도를 대상으로) 색인어를 센트로이드로 표현한다. 따라서, 계층별로 형성된 클러스터에 대한 센트로이드의 표현이 단일어로 표현 가능하게 된다.

2) 용어간 계층 표현

위에서 설명한 것처럼, 계층별로 형성된 클러스터에 대한 센트로이드의 표현은 단일어로 표현이 가능하므로 이들 계층들을 순서대로 나열하면 용어간의 계층관계를 다음과 같이 표현할 수 있어 시소러스의 BT, NT 관계를 자동으로 추출할 수 있다.

T₁> T₄or T_i> T_i

> T₄> T₃> T₅

> T₂

2. 시소러스 브라우저

(1) 브라우저 화면 구성

정보를 탐색하는 대부분의 초기 탐색자들은 자신의 정보 욕구를 정확히 표현하지 못하는 경향이 많고, 정보탐색을 대행하는 정보검색 전문가는 특정 주제 분야의 전문 용어를 잘 알지 못하므로 검색효율이 저하되는 문제가 발생한다. 따라서 이 같은 문제점을 해결하기 위해서 앞에서 구축한 용어간의 계층 구조를 화면에 제시해줄 수 있는 시소러스 브라우저가 필요하다.

화면 구성은 계층화된 디스크립터들을 이용자가 입력한 질의어와 가장 일치하는 디스크립터의 계층을 화면에 제시해주는 방법을 채택한다. 화면 표현 방법은 인덴션을 이용하여 도 6과 같이 표현한다.

도 6은 사용자가 다음과 같은 질의어를 입력한 경우의 예이다.

질의어 -----> 크랙의 최대 과소응력을 통한....피로크랙..성능평가

일반적으로 이와 같은 경우에는 다음과 같은 검색전략을 세우게 된다.

일반적 검색전략 --> (크랙 * 과소응력) * 피로크랙 * 성능평가

본 발명에서는 이와 같이 입력된 질의어들을 분석해 시소러스내의 용어와 비교해 관련계층들을 시소러스 브라우저 화면으로 제시해주고, 이를 통해 가장 하위어(과소응력)를 핵심어로 선정해 정보를 검색할 수 있도록 하고 있다. 이와 같이 하면 복잡한 검색전략의 구축이 없이도 원하는 정보를 정확하게 검색할 수 있게 된다.

(2) 검색 알고리즘

여기에서는 앞의 클러스터링 과정에 의해 구축한 시소러스 브라우저를 이용해 정보를 검색하는 방법에 대해 기술한다. 첫 번째 방법은 질의어 확장을 통한 핵심 검색 용어의 추출과정이며, 두 번째 방법은 선정된 검색 용어에 근거한 부울 논리, 매칭함수, 기준치를 이용한 검색 전략의 구축과 탐색작업의 수행과정이며, 세번째 방법은 탐색결과에 대한 이용자의 평가가 불만족스러울 경우, 탐색 결과에 대한 이용자의 만족도 향상을 위해서 수행되는 피드백 탐색이다.

1) 질의어 확장

컴퓨터에 의한 정보검색의 목적은 비적합한 문헌을 가능한 한 배제하고 대량의 적합 문헌들만을 검색해내는 것이다. 이를 위해서는 문헌정보를 표현할 때, 그 표현방법을 이용자의 요구에 적합하도록 해야 한다. 과거 수작업 검색에서의 색인 작업도, 문헌에 할당되는 용어의 선정을 이용자가 질의를 구성할 때 동일한 용어를 사용할 것이란 것을 전제로 구성되어 왔다. 따라서 컴퓨터에 의한 자동검색도 자동색인에 의해 형성한 디스크립터를 위주로 사용해야 검색 성능이 우수해질 것이다.

클러스터링을 이용해 구축한 시소러스 브라우저에서의 질의어 확장 방법은 문헌에서 실제로 빈번히 사용되고 있는 용어로 질의어를 확장하는 것이다. 앞의 클러스터링 과정에서 생성한 용어 집합은 노드 값에 따라 분리되는데, 이 노드들은 부모 노드와 자식 노드의 관계를 형성한다. 즉 상위 노드의 센트로이드 값은 하위 노드의 센트로이드 값보다 상위개념이 되며, 하위 노드의 센트로이드 값은 하위개념이 된다. 이는 도 7과 같이 시소러스의 광위어와 협의어의 관계로 설명된다.

정보요구에 대한 질의어 확장 중 초기 질의어 확장에 관심을 갖는 것은 지식기반 데이터베이스(시소러스 브라우저)를 이용한 정보검색에서는 문헌탐색과 관련된 용어들이 자동화된 정보검색시스템의 구축과정에서 사전에(정보탐색 수행 이전에) 매칭기법과 클러스터링 기법에 의해 개념간의 매핑이 이루어졌기 때문이다. 또한 센트로이드에 포함된 용어들은 용어간의 계층관계, 동위관계, 등가관계 등 개념간의 매핑이 조화를 이룬 분류기호와 같은 성격의 용어들이기 때문이다.

이러한 여러 계층의 질의어를 확장하는 방법에 대해서 설명한다.

가) 동일 계층

동일 계층의 질의어를 확장하는 과정은 질의 내의 출현 명사를 계층화된 시소러스 브라우저의 노드 값에 해당하는 디스크립터들과 대조하는 것으로 시작한다. 시소러스 브라우저는 부울 논리의 AND기능을 통해 입력된 초기 질의어들이 전부 수록되어 있는 센트로이드들을 매칭함수에 의해 서열화해 제시한다. 물론 이 과정에서 이용자의 간섭없이 자동으로 질의어를 확장할 수 있으나, 검색의 결과는 이용자가 스스로 선택한 질의어에 의해 더 만족될 수 있기 때문에 관련 질의어들을 서열화해 제시하도록 한다.

만약 이용자가 검색어에 대한 간섭이 없을 경우에는 도 8처럼 최하위의 용어(경계층크랙)를 검색의 핵심어로 자동 선정한다.

나) 분리 계층

질의어가 동일 계층에 속하지 않고, 분리되어 표현될 경우에는, 도 9에 도시된 것처럼 분리된 각 계층의 용어들을 같이 표기한다. 즉, 도 9에서 질의어는 "크랙닫힘"과 "과대응력"인데, "과대응력"은 "크랙닫힘"과 같은 레벨에 있는 "피로크랙"에 속해 있으므로, 양자는 분리된 계층에 속한다. 이 같은 경우에는 "크랙닫힘"과 "과대응력"을 검색의 핵심어로 선정한다.

다) 시소러스 비출현 용어의 처리

질의어의 일부가 시소러스 내의 동일 계층에 있으나 나머지 일부는 시소러스에 포함되지 않는 용어인 경우에는, 도 10에 도시한 것처럼 시소러스 브라우저의 최하위 용어를 핵심어로 하며, 나머지 일부 용어를 AND로 표기한다.

즉, 도 10에 있어서, 질의어 "경계층크랙"과 "크랙닫힘"은 시소러스 내의 동일 계층에 있다. 그러나, "컴퓨터"는 시소러스에 포함되지 않은 용어이므로, 검색핵심어로서 최하위 용어인 "경계층크랙"을 선정하고, "컴퓨터"를 AND로 표기하고 있다.

2) 정보 탐색

본 발명의 클러스터링을 이용해 구축한 시소러스 브라우저에서의 검색방법은, 최종 이용자가 겪는 탐색의 어려움 중에서 부울 논리를 이용한 검색결과의 축소 및 확대에 필요한 탐색전략과 기법 등에서 발생하는 어려움을 해결한다. 이 과정에서 적용시킨 알고리즘은 부울 논리, 매칭함수, 기준치를 근거한 탐색방법이다.

매칭함수는 질의어 확장에 적용하여 시소러스 브라우저의 개념 노드에 해당하는 센트로이드가 포함하는 용어들을 제시하기 위해 사용한다. 매칭함수는 초기 질의어에 수록된 용어들의 일부가 센트로이드에 포함되어 있지 않더라도 가장 유사한 센트로이드를 검색하도록 해주며, 검색된 확장 질의어 대상들의 서열을 제시하기 위해 적용한다.

부울 논리는 확장된 질의어를 실제 문헌 내에 수록되어 있는 용어들과 대조해 검색하는 과정에서 주로 적용한다. 이 과정에서 질의어들은 모두 AND로 결합해 탐색을 수행한다.

가) 동일 계층 검색

도 8에서와 같이 질의어들이 동일 계층인 경우에는 최하위어인 "경계층크랙"을 이용해 검색을 수행하면 되지만, 특정 어휘 하나만을 입력할 경우에는 잡음이 섞일 우려가 있다. 따라서, 도 11과 같이 동일 계층의 상위어들(선형, 표면크랙, 크랙닫힘, 크랙)을 각각 핵심어(경계층크랙)와 AND로 조합한 후, 이들을 OR로 조합하여 검색식을 구성한다.

나) 분리 계층 검색

도 9에서와 같이 질의어가 동일 계층에 속하지 않고 분리되어 표현되는 경우에는, 도 12에 도시한 것처럼, 분리된 각 계층의 용어들을 같이 표기하여 AND로 묶어서 검색식을 제시한다. 단, 검색결과가 너무 적어 불만족스러울 경우에는 피드백 탐색을 통해 검색식을 확장한다.

다) 시소러스 비출현 용어의 처리

도 10에서와 같이 질의어의 일부가 시소러스내의 동일 계층에 있으나 나머지 일부는 시소러스에 포함되지 않는 용어인 경우에는, 도 13에 도시한 것처럼 시소러스 브라우저의 최하위 용어(경계층크랙)를 핵심어로 하되, 동일계층검색과 관련하여 위에서 설명한 것처럼 동일 계층의 상위어들(선형, 표면크랙, 크랙닫힘, 크랙)을 각각 핵심어(경계층크랙)와 AND로 조합한 후, 이들을 OR로 조합한다. 그리고, 이들과 시소러스에 포함되지 않는 나머지 일부 용어(컴퓨터)를 AND로 표기한다.

3) 피드백 탐색

피드백 탐색은 앞의 검색방법을 적용한 결과가 너무 광범위한 내용이거나 협소한 내용이기 때문에 이용자가 만족하지 못할 때 적용한다. 너무 광범위할 경우에는 하위 계층의 용어로 변환해 검색을 수행하며, 너무 협소할 경우에는 상위 계층의 용어로 변환해 검색을 수행한다. 클러스터링을 이용한 시소러스 브라우저에서의 피드백 탐색은 다음과 같다.

가) 동일계층

동일계층인 경우에는 도 14에 도시한 것처럼 상위계층의 용어로 변환하여 검색을 수행한다. 즉, 핵심어인 "경계층크랙"을 사용하여 도 11에 도시한 것처럼 검색식을 구성하여 검색한 결과가 만족스럽지 못할 때에는 핵심어를 상위계층의 용어인 "선형" 또는 "표면크랙"으로 변환하여 검색식을 구성한다.

나) 분리계층

분리계층에 대한 검색시 대부분의 검색결과가 너무 적게 나올 것이므로 이에 대한 확대 과정이 필요하다. 그 과정은 앞의 동일계층의 방법에서와 유사하게 분리 계층 중 하위계층의 용어를 상위계층으로 확대하는 방법에 의해서 가능하지만, 만약 이용자가 만족해하지 않을 경우에는 계속 동일한 작업이 반복되어져야 한다. 따라서 반복작업을 줄이기 위해서 다른 계층에 속하는 용어(크랙닫힘, 과대응력, 과소응력)를 OR로 묶어 처리한다. 그 결과는 도 15와 같다.

다) 시소러스 비출현 용어

시소러스 비출현용어에 대한 확장 및 축소 방법은 결과가 전혀 안 나올 경우에는 시소러스내의 출현용어만으로 검색식을 구축하는 방법과 시스러스 내의 용어들의 계층을 상향 또는 하향조정해 탐색을 수행함으로써 해결한다. 도 16은 도 13에서 용어를 상향조정(경계층크랙 -> 선형(표면크랙))하여 탐색하는 경우를 보여준다.

이상, 본 발명을 몇가지 실시예를 들어 설명하였지만, 본 발명은 이에 한정되는 것은 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상에서 벗어나지 않으면서 많은 수정과 변경을 가할 수 있음을 이해할 것이다.

본 발명에 따르면, 계층별로 형성된 클러스터에 대한 센트로이드의 표현이 단일어로 표현 가능하게 되므로, 이들 계층들을 순서대로 나열하면 용어간의 계층관계를 표현할 수 있어서, 사전 정보없이도 각 문헌에 대한 색인어로부터 시소러스를 자동으로 구축할 수 있다는 효과가 있다.

또한, 이와 같이 계층적으로 구성된 시소러스에 의해, 사용자가 입력한 질의어들을 분석하여 시소러스내의 용어와 비교해서 관련계층들을 시소러스 브라우저 화면으로 제시해주고, 이를 통해 가장 하위어를 핵심어로 선정해 정보를 검색할 수 있으므로, 복잡한 검색전략의 구축이 없이도 원하는 정보를 정확하게 검색할 수 있다는 효과가 있다.

Claims

문헌별 색인어를 모아놓은 마스터 파일을 사용하여 시소러스를 자동으로 구축하는 방법에 있어서,

(a) 상기 마스터 파일로부터 색인어-문헌 행렬을 구성하는 단계와,

(b) 상기 구성된 색인어-문헌 행렬에서 문헌들의 출현빈도를 근거로 하여 순위별 색인어-문헌 행렬을 구성하는 단계와,

(c) 동일문헌의 동시출현빈도를 근거로 완전연결 그래프 형태의 클러스터를 구성하는 단계와,

(d) 상기 완전연결 그래프에 포함되지 않은 클러스터를 유사치 측정에 의해 연결시켜서 부분연결 그래프 형태의 클러스터를 구성하는 단계와,

(e) 다음의 단계를 거쳐 각 클러스터의 센트로이드를 추출하는 단계:

(e-1) 최하위 클러스터에 대해서 동시출현 용어 중에서 문헌출현빈도가 가장 낮은 색인어를 센트로이드로 정하는 단계,

(e-2) 바로 위의 클러스터에 대하여, 해당 클러스터에 소속된 각 문헌에 2회 이상 출현한 색인어 중에서 이미 센트로이드로 정해진 색인어를 제외한 나머지 색인어 중에서 최소빈도의 색인어를 센트로이드로 정하는 단계,

(e-3) 상기 (e-2) 단계를 모든 클러스터에 대해서 반복하는 단계

를 구비하는 것을 특징으로 하는 시소러스 자동구축방법.
제1항에 있어서,

상기 (e-1) 단계 또는 (e-2) 단계에서 최소빈도의 색인어가 둘 이상인 경우에는 최소빈도의 색인어를 모두 해당 클러스터의 센트로이드로 정하는 것을 특징으로 하는 시소러스 자동구축방법.
제1항에 있어서, 상기 (d) 단계에서의 유사치 측정은,

X와 Y는 문헌을 의미하며, X_T, Y_T는 각 문헌의 특성을 나타내는 용어의 수를 의미하며, X_T∩Y_T는 문헌 X와 Y에서의 공동출현 용어의 수를 의미할 때

에 의해 행해지는 것을 특징으로 하는 시소러스 자동구축방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

(f) 정해진 센트로이드를 순서대로 나열하여 용어간의 계층관계를 표현하는 단계

를 더 포함하는 것을 특징으로 하는 시소러스 자동구축방법.
계층적인 단일 센트로이드로 표현된 시소러스를 사용하여 검색식을 자동으로 구축하여 자동검색하는 방법에 있어서,

사용자가 입력한 질의어들이 동일계층에 속하는지 또는 분리된 계층에 속하는지 또는 시소러스에 포함되어 있지 않은지를 판단하는 단계와,

상기 판단결과, 사용자가 입력한 질의어들이 동일계층에 속하는 경우에는 최하위의 용어를 검색의 핵심어로 선정하고, 동일 계층의 상위어들을 논리곱(AND)으로 조합하여 검색식을 구성하며, 분리계층에 속하는 경우에는 분리된 각 계층의 용어들을 논리곱(AND)으로 조합하여 검색식을 구성하며, 질의어의 일부가 시소러스 내의 동일 계층에 있으나 나머지 일부는 시소러스에 포함되지 않는 용어인 경우에는 최하위 용어를 핵심어로 하되 상기 나머지 일부 용어를 논리곱(AND)으로 조합하여 검색식을 구성하는 단계

를 구비하는 것을 특징으로 하는 자동검색방법.
제5항에 있어서,

사용자가 입력한 상기 질의어들이 동일계층에 속하는 경우에 상기 검색결과가 협소하여 사용자가 재검색을 요청하면, 상위계층의 용어로 검색의 핵심어를 변환하여 검색식을 구성하는 단계

를 더 포함하는 것을 특징으로 하는 자동검색방법.
제5항에 있어서,

사용자가 입력한 상기 질의어들이 분리계층에 속하는 경우에 상기 검색결과가 협소하여 사용자가 재검색을 요청하면, 분리된 각 계층의 용어들을 논리합(OR)으로 조합하여 검색식을 구성하는 단계

를 더 포함하는 것을 특징으로 하는 자동검색방법.
제5항에 있어서,

사용자가 입력한 상기 질의어의 일부가 시소러스 내의 동일 계층에 있으나 나머지 일부는 시소러스에 포함되지 않는 용어인 경우에 상기 검색결과가 협소하여 사용자가 재검색을 요청하면, 시소러스내의 용어만으로 검색식을 구성하는 단계

를 더 포함하는 것을 특징으로 하는 자동검색방법.
제5항에 있어서,

사용자가 입력한 상기 질의어의 일부가 시소러스 내의 동일 계층에 있으나 나머지 일부는 시소러스에 포함되지 않는 용어인 경우에 상기 검색결과가 협소하여 사용자가 재검색을 요청하면, 시소러스내의 용어를 상위계층의 용어로 변환하여 상기 나머지 일부 용어와 논리곱(AND)으로 조합하여 검색식을 구성하는 단계

를 더 포함하는 것을 특징으로 하는 자동검색방법.
계층적으로 형성된 클러스터의 센트로이드를 추출하는 방법에 있어서,

(a) 최하위 클러스터에 대해서 동시출현 용어 중에서 문헌출현빈도가 가장 낮은 색인어를 센트로이드로 정하는 단계,

(b) 바로 위의 클러스터에 대하여, 해당 클러스터에 소속된 각 문헌에 2회이상 출현한 색인어 중에서 이미 센트로이드로 정해진 색인어를 제외한 나머지 색인어 중에서 최소빈도의 색인어를 센트로이드로 정하는 단계,

(c) 상기 (b) 단계를 모든 클러스터에 대해서 반복하는 단계

를 구비하는 것을 특징으로 하는 클러스터의 센트로이드 추출방법.