KR20000001201A

KR20000001201A - 시소러스 컴파일 방법

Info

Publication number: KR20000001201A
Application number: KR1019980021336A
Authority: KR
Inventors: 견종서; 정성영; 백은옥
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1998-06-09
Filing date: 1998-06-09
Publication date: 2000-01-15
Also published as: KR100308011B1

Abstract

단어간의 의미 관계를 수록한 사전인 시소러스를 컴파일하는 방법에 관한 것으로서, 특히 바이너리 연산자와 여러 기호를 이용하여 두 단어 사이의 의미 관계를 기술한 원시 정보를 '단어 1 연산자 단어 2' 형태로 변환하는 단계와, 상기 변환된 입력을 읽어 들이면서 정렬된 단어들의 목록과 대표어 관계를 수록한 테이블을 구성하는 단계와, 상기 단계에서 단어 목록과 대표어 관계를 수록한 테이블이 구성되면 시소러스 구조를 초기화하는 단계와, 상기 초기화된 시소러스 구조에 의미 정보를 기록하는 단계로 이루어져, 의미 정보를 기술한 원시 문자열로부터 검색이 용이한 의미 계층 구조를 생성하고, 이러한 의미 계층구조는 인덱스로 저장하여 기억 장소의 사용을 최소화한다.

Description

시소러스 컴파일 방법

본 발명은 단어의 의미 정보를 기술한 원시 문자열로부터 정보를 검색할 수 있도록 시소러스 사전을 만드는 시소러스 컴파일 방법에 관한 것이다.

컴퓨터로 인간의 자연 언어를 분석하려는 많은 노력이 있어왔다. 자연 언어의 분석은 크게 뜻을 가진 최소의 언어 단위인 형태소(morpheme) 분석, 구문 분석, 의미 분석, 문장에 숨어있는 의미를 찾는 화용 분석으로 나눌 수 있다. 이러한 분석을 위해서는 자연어에 대한 지식 베이스(knowledge base) 구축이 필수적인데 한국어에 대해서는 지금까지 주로 형태소 분석, 구문 분석을 위한 지식 베이스(=필요한 지식을 일정한 포맷으로 정리, 축적한 것.)가 구축되었으며 의미 분석, 화용 분석을 위한 지식 베이스는 많이 구축되지 못했다. 즉, 지능형 인터페이스, 정보 검색의 성능 향상등 많은 분야에 응용될 수 있음에도 이러한 지식 베이스가 많이 구축되지 못한데에는 의미 분석, 화용 분석을 위한 정보를 기술하는 것이 간단하지 않고 또한 이를 처리하는 것이 간단치 않은 것도 하나의 이유라고 할 수 있다.

또한, 시소러스(Thesaurus)는 단어간의 의미 관계를 수록한 지식 베이스를 말하는데, 일반적인 시소러스(예; Roget's 시소러스)는 보통 단어의 동의어, 반의어 정보만을 수록하고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 시소러스에 수록할 정보를 기술하고 사용이 용이한 시소러스 구조를 생성하는 시소러스 컴파일 방법을 제공함에 있다.

본 발명의 다른 목적은 동의어, 반의어 외에도 단어의 상위 개념, 하위 개념과 같은 의미 정보를 체계적으로 수록하고 이를 빠르게 검색할 수 있도록 하는 시소러스 컴파일 방법을 제공함에 있다.

본 발명의 또다른 목적은 시소러스 정보를 저장하는 기억 장소의 사용을 최소화하는 시소러스 컴파일 방법을 제공함에 있다.

도 1은 본 발명의 시소러스에 표현된 단어의 의미 계층 구조를 나타낸 도면

도 2는 본 발명에 따른 시소러스 컴파일 방법을 나타낸 흐름도

도 3a는 단어 목록과 단어 목록의 인덱스의 일예를 보인 도면

도 3b는 도 3a의 단어 목록을 이용해 의미 계층 구조의 일예를 표현한 도면

도 3c는 도 3a의 단어 목록의 인덱스를 이용하여 의미 계층 구조의 일예를 표현한 도면

도 4는 도 3의 의미 계층 구조를 시소러스 엔트리의 배열로 표현한 시소러스 구조를 보인 도면

도 5는 도 4의 시소러스 엔트리의 상세 테이블도

도 6은 본 발명에서 검색 과정의 편이를 위해 생성한 동음이의어 정보를 수록한 배열을 보인 도면

상기와 같은 목적을 달성하기 위한 본 발명에 따른 시소러스 컴파일 방법은, 바이너리 연산자와 여러 기호를 이용하여 두 단어 사이의 의미 관계를 기술한 원시 정보를 '단어 1 연산자 단어 2' 형태로 변환하는 원시 정보 전처리 단계와, 상기 변환된 입력을 읽어 들이면서 정렬된 단어들의 목록과 대표어 관계를 수록한 테이블을 구성하는 단계와, 상기 단계에서 단어 목록과 대표어 관계를 수록한 테이블이 구성되면 시소러스 구조를 초기화하는 단계와, 상기 초기화된 시소러스 구조에 의미 정보를 기록하는 단계를 포함하여 이루어짐을 특징으로 한다.

상기 원시 정보 전처리 단계는 의미 관계의 기술에 사용되는 연산자와 그 속성에 대한 정보를 지정할 수 있음을 특징으로 한다.

상기 테이블 구성 단계는 정렬된 단어들의 목록에 정해지는 인덱스를 이용하여 의미 계층 구조를 표현함을 특징으로 한다.

상기 시소러스 구조는 시소러스 엔트리의 배열로 표현됨을 특징으로 한다.

상기 시소러스 엔트리는 자신과 의미관계가 있는 단어에 대해 의미 관계의 유형 및 해당 단어의 단어 목록에서의 인덱스를 기록함을 특징으로 한다.

상기 시소러스 구조에 의미정보를 기록하는 단계에서 대칭 속성을 갖는 연산자를 처리할 때에는 동시에 인버젼 관계에 해당하는 의미정보도 기록함을 특징으로 한다.

상기 시소러스 구조에 의미정보를 수록하는 단계에서 나눌 수 있는(sharable) 속성을 갖는 연산자를 처리할 때에는 대표어에 의미정보를 기록함을 특징으로 하는 한다.

이러한 시소러스 컴파일러에 의해 의미 정보를 기술한 원시 문자열로부터 검색이 용이한 의미 계층 구조를 생성하고, 이러한 의미 계층구조는 인덱스로 저장하여 기억 장소의 사용을 최소화한다.

본 발명의 다른 목적, 특징 및 잇점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.

이하, 본 발명의 바람직한 실시예를 첨부도면을 참조하여 상세히 설명한다.

도 1은 본 발명에 따른 시소러스 컴파일러의 구조로서, 단어의 동의어 및 상하위 개념의 정보를 수록한 시소러스는 삼림(forest) 또는 멀티-패스(multi-path) 구조를 갖게 된다. 그런데, 이렇게 단어들이 다양한 의미관계로 복잡하게 얽혀 있는 다차원의 정보를 직접 기술하는 것은 쉽지 않다. 따라서, 본 발명에서는 시소러스에 수록할 정보를 기술하고 이를 컴파일하여 시소러스 구조를 생성하는 방법을 제안한다.

즉, 이러한 기능을 하는 프로그램을 시소러스 컴파일러라고 하며, 이 프로그램은 다음의 표 1과 같은 형태의 원시 정보로부터 도 1과 같은 삼림 형태의 계층 구조를 생성한다.

296. 중국음식1 < 식a$# 중국1 ; 음식1

297. 스테이크1 < 양식1 < 식a

298. 분식1 < 식a

299. 댁1 < 건물1 < 구조물1 < 인공물1$ > c 베란다1$ > c 주방1* 집

300. 건물1$ > c 벽1$ > c 지붕1

301. 외식1 < 식사1 < 섭취1 < 생활1$ < 외출1

302. 회식1 < 식사1$ < 사교적 행위1 < 사회적 행위1 < 행위1 < 사건1

여기서, $는 296., 301.과 같은 딜리미터(delimiter) 다음에 오는 단어를 의미하는 기호이고, *는 동의어 관계, #은 단어의 형태소 분석 관계를 기술하는 연산자이다. 이러한 약어는 새로 정할 수도 있고 새로운 의미를 추가할 수도 있다.

원시 정보의 기술은 상기 표 1에서 볼 수 있는바와 같이 두 단어 사이의 관계를 바이너리 연산자(operator)를 이용하여 기술한다. 다시 말해, '단어 1 연산자 단어 2'와 같은 형태로 두 단어 사이의 의미 관계를 기술한다. 의미 관계의 기술에 사용되는 연산자에는 <(Hypernym operator), >(Hyponym operator), <c(Component Holonym operator), #(Morph-Tag operator)등이 있으며 각각의 연산자마다 고유의 속성을 갖는다. 다음에 단어간의 의미 관계를 기술하기 위해 사용되는 연산자와 그 속성의 예를 하기 표 2에 보인다. 사용자는 시소러스 컴파일러에 원시 정보의 기술에 사용한 연산자와 그 속성에 대한 정보를 지정할 수 있고 시소러스 컴파일러는 이 정보를 이용해 적절한 의미 계층 구조를 생성한다. 그리고, 이렇게 지정된 속성들은 의미 정보의 검색에도 이용된다.

Name	Delimiter Symmetric	Inversion	Shareable	Visible
Hypernym(<)	Yes	Hyponym	Yes	Yes
Hyponym(>)	Yes	Hypernym	Yes	Yes
Morph Tag(#)	No		No	Yes

상기 표 2에서 대칭(Symmetric)은 반대되는 개념의 의미관계가 존재함을 나타내고, Sharable(=나눌 수 있는)은 동의어 관계에 있는 모든 단어들에 대해서도 같은 의미관계가 성립함을 의미한다.

이러한 방법으로 기술된 원시정보의 예를 설명하면 다음과 같다. 상기 표 1에서 일련번호 296으로 표시된 '중국음식1 < 식a'는 Hypernym operator(<)에 의해 중국음식 1이라는 단어의 상위 개념은 식 a라는 단어라는 것을 알 수있고, 또한 Hyponym operator(>)는 Hypernym operator와 서로 반대의 의미를 지니므로 중국음식 1이라는 단어는 식 a라는 단어의 하위 개념이 된다는 것을 알 수 있다. 그리고, 아래의 '$# 중국 1:음식 1'이라는 줄은 '$(=중국음식 1)'이라는 단어가 '중국 1'이라는 형태소와 '음식 1'이라는 형태소로 이루어져 있다는 것을 의미한다.

시소러스 컴파일러가 이렇게 기술된 원시정보로부터 의미계층구조를 수록한 구조를 생성하는 과정을 흐름도로 소개하면 도 2와 같다. 원시정보 전처리 단계(201)에서는 표 1과 같은 형태로 입력되는 원시 정보를 '단어 연산자 단어'의 꼴로 변환한다.

예를 들어, 표 1에서 299라는 일련번호로 표시된 정보는 다음과 같이 변환된다.

댁 1 < 건물 1

건물 1 < 구조물 1

구조물 1 < 인공물 1

댁 1 >c 베란다

댁 1 >c 주방 1

댁 1 * 집 1

그리고나서, 단계 202에서는 이렇게 변환된 입력을 읽어 들이면서 정렬된 단어들의 목록과 대표어 관계를 수록한 테이블을 구성한다. 이렇게 단어 목록을 만드는 이유는 기억 장소의 사용을 최소화하기 위해서이다. 예를 들어 시소러스 컴파일러는 도 3a의 단어 목록을 이용해 도 3b와 같은 의미 계층 구조를 표현할 수 있다. 이때, 시소러스 구조를 구성하는 모든 입력 단어를 모아 목록을 만들어 정렬하면 인덱스가 정해진다. 따라서, 본 발명에서는 도 3c와 같이 단어 목록의 인덱스를 이용하여 의미 계층 구조를 표현함에 의해 메모리의 사용량을 줄인다. 여기서, 새로운 단어가 추가될 때에는 도 3a의 목록을 재정렬한 후 재정렬시 정해지는 인덱스로 의미 계층 구조를 표현한다.

이렇게 단어 목록과 대표어 관계를 수록한 테이블을 구성한 다음에는 시소러스 구조를 초기화한다(단계 203).

이때, 상기 시소러스 구조는 도 4와 같이 시소러스 엔트리(Thesaurus entry)의 배열로 표현된다. 상기 시소러스 엔트리는 각각의 인덱스에 해당하는 단어의 내부 구조로서, 도 5에서와 같이 자신과 의미관계가 있는 단어에 대해 의미 관계의 유형 및 해당 단어의 단어 목록에서의 인덱스를 수록한다. 도 4의 예를 보면, 20414번째의 시소러스 엔트리는 '위치 1'이라는 단어를 나타내며 756, 2179번째의 시소러스 엔트리가 상위 개념이며 25548번째의 시소러스 엔트리가 하위 개념이라는 정보를 수록한다. 시소러스 컴파일러는 이러한 구조를 초기화한 다음 '단어 1 연산자 단어 2'꼴의 입력을 읽어들이면서 시소러스 구조에 의미정보를 기록한다(단계 204).

이때, 시소러스 컴파일러는 양방향 검색이 용이하도록 하기 위해 symmetric 속성을 갖는 연산자를 처리할 때에는 동시에 인버젼 관계에 해당하는 의미정보를 기록한다. 예를 들어, '지점 1 < 위치 1'이란 원시 정보를 처리할 때 '지점 1'의 상위 개념으로 '위치 1'을 기록하고 동시에 '위치 1'의 하위 개념으로 '지점 1'을 기록한다. 또한, 연산자가 sharable의 속성을 갖는 경우에는 대표어에 의미정보를 기록한다. 즉, 같은 의미의 단어가 여러개 있을 경우 대표어를 정해 모든 관계를 대표어에 취합하여 기록한다.

그리고, 검색의 편이를 위해서 시소러스 컴파일러는 단어의 목록을 만드는 과정에서 도 6과 같은 동음이의어(polysemy) 정보를 구성할 수도 있다. 일반적으로 하나의 단어에 여러 가지 다른 뜻이 포함될 수 있으므로 시소러스에서는 의미 구분을 위해 단어를 숫자 또는 영문자의 서픽스(suffix)가 부가된 형태로 수록한다. 예를 들어, 시소러스에서 '가구 1'은 책상, 의자와 같은 세간도구를 의미하며 '가구 2'는 세대를 의미한다. 이 polysemy 정보는 특정 철자의 단어에 대해 어떤 의미들이 존재하는가를 확인할 때 사용된다.

이상에서와 같이 본 발명에 따른 시소러스 컴파일 방법에 의하면, 의미 정보를 기술한 원시 문자열로부터 검색이 용이한 의미 계층 구조를 생성하며, 이러한 의미 계층구조는 인덱스로 저장하여 기억 장소의 사용을 최소화한다. 그리고, 이렇게 생성한 의미 계층구조는 정보검색, 기계번역, 지능형 에이전트와 같이 자연어의 이해를 필요로 하는 다양한 응용 분야에서 활용될 수 있다.

Claims

단어간의 의미 관계를 수록한 사전인 시소러스를 컴파일하는 방법에 있어서,

바이너리 연산자와 여러 기호를 이용하여 두 단어 사이의 의미 관계를 기술한 원시 정보를 '단어1 연산자 단어2' 형태로 변환하는 원시 정보 전처리 단계와,

상기 변환된 입력을 읽어 들이면서 정렬된 단어들의 목록과 대표어 관계를 수록한 테이블을 구성하는 단계와,

상기 단계에서 단어 목록과 대표어 관계를 수록한 테이블이 구성되면 시소러스 구조를 초기화하는 단계와,

상기 초기화된 시소러스 구조에 의미 정보를 기록하는 단계를 포함하여 이루어짐을 특징으로 하는 시소러스 컴파일 방법.
제 1 항에 있어서, 상기 원시 정보 전처리 단계는

의미 관계의 기술에 사용되는 연산자와 그 속성에 대한 정보를 지정할 수 있음을 특징으로 하는 시소러스 컴파일 방법.
제 2 항에 있어서,

상기 원시 정보 전처리 단계에서 지정되는 연산자와 그 속성에 대한 정보를 이용해 의미 계층 구조를 생성함을 특징으로 하는 시소러스 컴파일 방법.
제 2 항에 있어서,

상기 원시 정보 전처리 단계에서 지정된 연산자의 속성들은 의미 정보의 검색에도 이용됨을 특징으로 하는 시소러스 컴파일 방법.
제 1 항에 있어서, 상기 테이블 구성 단계는

정렬된 단어들의 목록에 정해지는 인덱스를 이용하여 의미 계층 구조를 표현함을 특징으로 하는 시소러스 컴파일 방법.
제 1 항에 있어서, 상기 시소러스 구조는

시소러스 엔트리의 배열로 표현됨을 특징으로 하는 시소러스 컴파일 방법.
제 6 항에 있어서, 상기 시소러스 엔트리는

각각의 인덱스에 해당하는 단어의 내부 구조임을 특징으로 하는 시소러스 컴파일 방법.
제 6 항에 있어서, 상기 시소러스 엔트리는

자신과 의미관계가 있는 단어에 대해 의미 관계의 유형 및 해당 단어의 단어 목록에서의 인덱스를 기록함을 특징으로 하는 시소러스 컴파일 방법.
제 1 항에 있어서, 상기 시소러스 구조에 의미정보를 기록하는 단계는

대칭 속성을 갖는 연산자를 처리할 때에는 동시에 인버젼 관계에 해당하는 의미정보도 기록함을 특징으로 하는 시소러스 컴파일 방법.
제 9 항에 있어서,

각각의 인덱스에 대해 상위 개념과 하위 개념의 정보를 모두 수록함을 특징으로 하는 시소러스 컴파일 방법.
제 1 항에 있어서, 상기 시소러스 구조에 의미정보를 수록하는 단계는

나눌 수 있는(sharable) 속성을 갖는 연산자를 처리할 때에는 대표어에 의미정보를 기록함을 특징으로 하는 시소러스 컴파일 방법.