KR19980029011A

KR19980029011A - 어휘 자동 분류 장치 및 방법

Info

Publication number: KR19980029011A
Application number: KR1019960048242A
Authority: KR
Inventors: 백은옥; 전혜정; 견종서; 은종진; 강윤선; 서병락; 이희연
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1996-10-25
Filing date: 1996-10-25
Publication date: 1998-07-15
Also published as: KR100206814B1

Abstract

본 발명은 어휘 자동 분류 장치 및 방법에 관한 것으로 특히, 종래와 같은 전문가 시스템을 사용함이 없이 시소러스(thesaurus) 의미 사전을 기반으로 한글로 기술된 임의의 항목을 자연어 처리 과정을 통해 그 의미를 파악하고 그 분류를 자동적으로 수행하도록 창안한 사전을 이용한 자동 분류 장치 및 방법을 제공함에 목적이 있다. 이러한 본 발명은 사요자의 입력으로부터 어휘의 의미 중심을 찾아내는 자연어 처리부(101)와, 자연어의 각 단어를 그 의미에 따라 분류, 저장하고 있는 시소러스 엔지(102)과, 상기 자연어 처리부(101)에서 처리된 어휘의 중심 의미를 상기 시로러스 엔진(102)의 내용을 참조하여 유추하여 해당하는 응용 프로그램에 전달하는 응용 에이전트(103)으로 구성한다.

Description

어휘 자동 분류 장치 및 방법

본 발명은 어휘 자동 분류에 관한 것으로 특히, 항목별 분류가 필요한 작업을 컴퓨터를 사용하여 자동적으로 실행하도록 하는 사전을 이요한 어휘 자동 분류 장치 및 방법에 관한 것이다.

현재와 같이 정보의 홍수로 인해 각 개인이 접하는 정보량이 엄청나게 많은 사회에서는 정보의 관리를 용이하게 할 수 있는 장치의 필요성이 그 어느 때보다 고조되고 있다.

또한, 휴대용 정보통신기기의 급속한 확산으로 사무 또는개잉ㄴ 정보의 저장 및 관리가 지역에 관계없이 수시로 이루어져야 한다.

따라서, 정보 관리를 위하여 입력 정보에 대한 분류 작업을 수행할 수 있는 방법들이 제안되었다.

종래의 자동 분류 작업(automatic classification task)은 금전 출납과 같이 항목별 분류가 필요한 작업이 아니라 고장 진단(fault diagnosis)과 같은 현상으로로부터 그 원인을 찾아내는 일을 주된 대상으로 하였다.

이러한 이유로 종래의 어휘 자동 분류 작업은 주로 규칙 기반 전문가 시스템(rule-based expert system)과 같은 방법을 사용하여 구현되었다.

그러나, 종래에는 금전 출납과 같은 항목별 분류가 필요한 작업의 경우 다루어야 하는 대상의 수가 너무 많고 각 항목과 그 분류 사이에 어떤 인과 관계가 존재한다고 보기 어려우므로 이를 규칙으로 표현하는 것이 비합리적인 단점이 있다.

따라서, 본 발명은 종래의 단점을 개선하기 위하여 종래와 같은 전문가 시스템을 사용함이 없이 시소러스(theasurus) 의미 사전을 기반으로 한글로 기술된 임의의 항목을 자연어 처리 과정을 통해 그 의미를 파악하고 그 분류를 자동적으로 수행하도록 창안한 사전을 이용한 자동 분류 장치 및 방법을 제공함에 목적이 있다.

도 1은 본 발명의 실시예를 보인 블럭도.

도 2는 제1항에 있어서, 전처리기의 구성도.

도 3은 제1항에 있어서, 형태소 분석을 위한 신호 흐름도.

도 4는 제1항에 있어서, 템플리트 생성기의 구성도.

도 5는 본 발명에서 시소러스 엔진을 위한 신호 흐름도.

도 6은 본 발명에서 금전 출납 에이전트의 경우에 대한 신호 흐름도.

* 도면의 주요 부분에 대한 부호의 설명

101 : 자연어 처리부, 102 : 시소러스(thesaurus), 103 : 응용 에이전트, 104 : 프로그램 실행부, 111 : 전처리기, 112 : 형태소 분석기, 113 : 템플리트 생성기, 121 : 토크나이저(tokenizer), 122 : 파서(parser), 123 : 포멧터(formatter), 131 : 셀렉터(selector), 132 : 템플리트 슬롯 필러(template slot filler)

상기의 목적을 달설하기 위하여 본 발명은 사용자의 입력으로부터 어휘의 의미 중심을 찾아내는 자연어 처리부와, 자연어의 각 단어를 그 의미에 따라 분류, 저장하고 있는 시소러스 엔진과, 상기 자연어 처리부에서 처리된 어휘의 중심 의미를 상기 시로러스 엔진의 내용을 참조하여 유추하는 응용 에이너트로 구성함을 특징으로 한다.

상기 자연어 처리부는 사용자의 입력중 특정 부분의 성분을 인식하는 전처리기와, 상기 사용자의 입력을 기본적인 의미 단위로 나누는 형태로 분속기와, 상기 사용자의 입력을 그 의미와 용도에 따라 나누어 하나의 템프리트를 생성하는 템플리트 생성기로 구성한다.

이러한 구성의 본 발명은 입력 정보에 대하여 항목 분류가 가능한지 판단하는 단계와, 상기에서 항목 분류가 가능하면 형태소 분석 결과에 대해 항목 분류가 가능한지 판단하는 단계와, 상기에서 형태소 분석 결과에 대한 항목 분류가 가능하면 다아로그 박스(dialog box)에서 분류 항목을 선택하여 저장하는 단계를 수행한다.

또한, 상기의 목적을 달성하기 위하여 본 발명은 시소러스 엔진을 참조하여 입력 정보의 중심 의미를 분류하는 어휘 자동 분류 장치에 있어서, 시소러스 엔진은 동의어 표시, 상하위 개념 표시, 전체/부분 표시 및 특정 장소에서의 주된 행위 표시 정보를 포함하여 구성한다.

원래 시소러스(thesaurus)란 자동 분류 대상이 되는 모든 항목에 대하여 분류 정보를 일일이 기록할 수 없으므로 이를 상위 수준으로 기록하고 하위에 속하는 항목들은 상위 항목의 분류에 속하도록 하여 자연어의 각단어를 그 의미에 따라 분류해 놓은 것으로, 일반적으로는 사전 형태로 널리 사용되고 있다.

이러한 구성의 시소러스 엔진은 대표어를 검색하는 단계와, 상기에서 검색 결과값을 시소러스 엔진에 부가하는 단계와, 접미어/다의어를 처리하여 결과값의 존재를 판단하는 단계와, 상기에서 결과값이 존재하면 그 검색 결과를 시소러스 엔진에 부가하는 단계와, 상기에서 시소러스 엔진을 검색하여 결과값이 존재하는지 판단하는 단계와, 상기에서 결과값이 존재하면 그 검색 결과를 시소러스 엔진에 부가하고 존재하지 않으면 검색 결과를 반환하는 단계를 수행함을 특징으로 한다.

이하, 본 발명을 도면에 의거 상세히 설명하면 다음과 같다.

본 발명의 실시예는 도 1의 블럭도에 도시한 바와 같이, 자연어의 각 단어를 의미에 따라 분류, 저장하고 있는 시소러스 엔진(102)와, 항목 데이타를 입력받아 중심 의미의 단어를 추출하는 자연어 처리부(101)와, 이 자연어 처리부(101)에서 추출된 정보를 입력받아 상기 시소러스 엔진(102)의 저장 정보를 기준으로 해당 항목을 유추하는 응용 에이전트(103)와, 이 응용 에이전트(103)의 유추 정보를 입력받앙 해당 항목의 프로그램을 실행하는 프로그램 수행부(104)로 구성한다.

상기 자연어 처리부(101)는 사용자의 입력중 수사적인 표현 부분을 정의하는 전처리기(111)와, 이 전처리기(111)에서 처리된 정보를 의미 단위로 분리하는 형태소 분석기 (112)와, 이 형태소 분석기 (112)에서 분리된 정보를 의미와 용도에 따른 항목으로 분리하는 템플리트 생성기(113)로 구성한다.

상기 전처리기(111)는 도2에 도시한 바와 같이, 휴리스틱에 의한 토큰 정보를 기준으로 사용자의 입력을 토큰화하는 토크나이저(Tokenizer)(121)와, 어법에 따라 상기 토크나이저(121)의 출력 데이타에서 원하는 패턴을 분석하는 파서(parser)(122)와, 이 파서(122)의 출력 패턴 또는 상기 토크나이저(121)의 출력 데이터에서 날짜, 시간, 돈, 수량등의 수사적 표현을 정형화된 형태로 변환하는 포멧터(123)로 구성한다.

이와같이 토크나이저(121), 파서(122), 포멧터(123)로 이루어진 전처리기(111)는 템플리트 생성기(123)와 응용 에이전트(103)가 사용자의 입력으로부터 의미의 주요 부분을 추출할 수 있도록 사용자의 입력을 기본적인 의미 단위로 쪼개는 형태소 분석기를 포함하여 구성할 수 있다.

상기 템플리트 생성기(113)는 도4에 도시한 바와 같이, 형태소 분석기(112)의 결과에 따른 압력을 시소러스 엔진(102)에 저장된 의미 정보를 이용하여 제거하고 그 중의 하나를 위치 정보등을 포함하는 여러 휴리스틱에 의한 정보를 이요하여 선택하는 셀렉터(131)와, 이 셀렉터(131)의 출력 정보를 슬롯을 채울 수 있는 여러 패턴들과 사용자들의 특성을 이용하는 룰을 적용하여 템플리트(templater)를 생성하는 템플리트 슬롯 필러(132)로 구성한다.

이와같이 구성한 본 발명의 실시예에 대한 동작 및 작용 효과를 설명하면 다음과 같다.

우선, 사용자가 자연어 형태의 데이타를 자연어 처리부(101)에 입력시키면 의미의 가장 중심이 되는 단어를 추출하는데, 전처리기(111)에서 사용자의 입력중 측정 부분 즉, 수사적인 부분을 응용 프로그램의 필요에 따라 정의하면 형태소 분석기(112)에서 기본적인 의미 단위로 나누는 동작을 하고 그 형태소 분석기(112)에서 의미 단위로 나누어진 데이터는 용도별로 출력되어진다.

예를 들어, 프로그램 실행부(104)에서 실행하고자 하는 응용 프로그램이 금전 출납인 경우 사요자의 입력 데이터가 고속도로 사용료, 1만원라고 하면 이 입력 데이터를 응용 프로그램에 적용할 수 있는 형태로 만들어주기 위해서는 고속도로 사용료가 금전 출납의 항목 분류로는 교통 통신비에 속한다는 것을 알아야 한다.

이때, 자연어 처리부(101)는 고속도로 사용료라는 표현에서 항목 분류의 기준으로 볼 때 의미의 가장 중심이 되는 부분이 도로가 됨을 추출하게 된다.

여기서, 의미의 가장 중심이 되는 부분을 추출하는 이유는 실제로 고속도로 사용료가 교통 통신비라는 정보를 일일이 모든 항목에 대해 표현하는 것은 거의 불가능하기 때문이다.

이에 따라, 음용 에니전트(103)는 도로가 교통과 관계된 정보라는 것을 시소러스 엔진(102)에 저장된 해당 정보에 부가하여 기록하게 된다.

이후, 남산 터널 통과료, 2000원이라는 입력이 들어오는 경우에도 기존의 정보만으로 똑같은 분류가 가능하다.

즉, 자연어 처리부(101)에서 터럴이 의미의 중심 부분이라는 것을 찾아 내면 시소러스 엔진(102)에 이미 저장된 터널이 도로의 일종이라는 정보를 기준으로 응용 에이전트(103)는 터널도 교통과 관계된 것임을 유추하게 되고 이를 프로그램 실행부에 전달하게 된다.

따라서, 응용 에이전트(103)가 터널이 교통을 위한 것임을 유추하여 프로그램 실행부(104)에 전송하게 된다.

상기에서 자연어 처리부(101)를 구성하는 전처리기(111), 형태소 분석기(112) 및 템플리트 생성기(113)의 동작을 설명하면 다음과 같다.

먼저, 전처리기(111)는 사용자의 입력중에서 특정한 부분을 응용 프로그램의 필요에 따라 그 성분을 정의하는 역할을 하며 예를 들어, 금전 출납의 경우에는 사용자의 입력중 지출 액수에 해당하는 부분을 형태소 분석 이전에 미리 인식하는 일을 한다.

이러한 전처리기(111)는 도2와 같이, 사용자의 데이터가 입력되면 토크나이저(Tokenizer)(121)에서 휴리스틱에 의한 토큰 정보를 기준으로 사용자의입력을 토큰화하고 파서(parser)(122)에서 상기 토큰화된 데이터를 원하는 패턴으로 분석하게 된다.

이에 따라, 전처리기(111)는 포멧터(123)에서 파서(122)의 출력 패턴 또는 상기 토크나이저(121)의 출력 데이터에서 날짜, 시간, 금액, 수량등과 같은 수사적 표현을 정형화된 형태로 변환하게 된다.

예로, 고속도로 통해료, 1만원의 경우 전처리기(111)가 1만원을 금액으로 인식하여 고속도료 사용료, 금액 : 1만 + 원과 같이 변환하여 형태소 분석기 (112)에 출력하게 된다.

이러한 전처리기(111)는 사용자의 입력중에서 특정한 성분을 인식하여 템플리트 생성기(113)이나 응용 에이전트(103)의 작업을 가능하게 하며 또한, 수사를 포함하는 표현들을 형태소 분석 이전에서 인식하여 미리 처리할 수 있도록 하므로써 형태소 분석기(112)의 부담을 덜어주는 역할을 한다.

상기와 같은 기능을 갖는 전처리기(111)는 응용 프로그램의 종류에 따라 처리하고자 하는 데이터의 종류도 다르므로 그에 맞게 조정하여야 한다.

또한, 형태소 분서기(112)는 템플리트 생성기(113)와 응용 에이전트(103)가 사용자의 입력으로부터 의미의 중요 부분을 추출할 수 있도록 사요자의 입력을 기본적인 의미 단위로 나누는 기능을 수행한다.

예를 들어, 고속도로 사용료, 1만 +원의 경우 형태소 분석기(113)를 거치면 고속 + 도로 사용 + 료, 금액 : 1만 + 원의 형태로 변환한다.

이러한 기능의 형태소 분석기(112)는 많은 장치들이 공개되어 있으며 어느 것을 사용하여도 본 발명의 장치에 부합될 수 있다.

이 형태소 분석기(112)의 일반적인 실행 과정은 도 3의 신호 흐름과 같다.

즉, 입력 문장을 어절로 분리하고 각 어절에 대해 오른쪽에서 왼쪽으로 분석하여 부분 분석 후보가 불규칙 활요하는지를 판단하게 된다.

이때, 부분 분석 후보가 불규칙 활용인 경우 원형으로 복원하여 부분 분석 후보에 대한 결합을 수행하며 부분 분석 후보가 불규칙 활용이 아닌 경우 그대로 부분 분석 후부에 대한 결합을 수행하게 된다.

이에 따라, 결합 여부의 성공을 판단하여 성공의 경우에는 그대로 분석 후보로 출력하고 결합의 성공이 아닌 경우에는 미등록 어절에 대한 처리를 통해 분석 후보로 출력하게 된다.

그리고, 템플리트 생성기(113)는 입력의 각 부분을 응용 에이전트(103)가 사용할 수 있도록 그 의미와 용도에 따라 나누어서 하나의 템프리트(template)를 생성하는 역할을 수행한다.

예로, 금전 출납의 경우에는 날짜와 항목, 지출액의 세부분만으로도 구성될 수있으며, 전자 수첩의 경우라면 시작 날짜, 마침 날짜, 시작 시간, 마침 시간, 장소, 동반인, 사건등과 같은 부분으로 구성될 것이다.

여기서, 응용 프로그램이 전자 수첩의 경우라면 동반인의 직장 주소나 연락처등을 동반인 슬롯에 포함시킬 수 있다.

즉, 템플리트 생성기(113)는 형태소 분석기(112)에서 고속 + 도로 사용 + 료, 금액 : 1만 + 원이 전달되면 아래와 같은 템플리트를 응용에이전트(103)에 전달한다.

날짜 : 1996년 6월 10일

항목 : 고속 + 도로 사용 + 료

지출액 : 10000

이러한 템플리트 생성기(113)는 도4 와 같이, 형태소 분석기(112)로부터 여러 개의 형태소 분석 결과가 입력되면 셀렉터(selector)(131)가 시소러스 엔진(102)에 저장된 의미 정보를 이용하여 필요한 결과만을 선택하고 그중의 하나를 위치 정보등을 포함하는 여러 휴리스틱에 의한 정보를 이용하여 선택하게 된다.

이에 따라, 템플리트 슬롯 필러(template slot filler)(132)가 슬롯을 체울 수있는 여러 패턴들과 사용자들의 특성을 이용하는 룰을 적용하여 셀렉터(131)에서 선택한 하나의 형태소 분석 결과를 입력으로 템플리트(template)를 생성하여 응용 에이전트(103)에 전달하게 된다.

상기와 같은 동작을 수행하는 자연어 처리부(101)에서 템플리트를 전송받은 응요 에이전트(103)는 시소러스 엔진(102)를 이용하여 해당 정보를 유추하게 된다.

예를 들어, 응용 에이전트(103)가 금전 출납 에이전트인 경우 템플리트(template)에서 항목 슬롯을 분석하여 사용상의 목적어가 고속 + 도로이며 고속 + 도로에서 고속은 도로를 꾸미는 부분이므로 도로가 항목 슬롯의 의미 중심임을 유추하게 된다.

즉, 응용 에이전트(103)는 시소러스 엔진(102)를 참조하여 도로의 금전 출납과 관련한 의미 분류가 교통 통신비로 되어 있고 이를 사용하여 금전 출납 프로그램에게 적절한 형태의 데이터를 전달하게 된다.

상기에서 살펴본 바에 의하면 본 발명에서 전처리기(111), 템플리트 생성기(113) 및 응용 에이전트(103)는 응용 프로그램에 따라 그 내용이 약간씩 수정되어야 하며, 이는 각 부분이 다루어야 하는 데이터의 종류만 다를 뿐 각 부분의 기본적인 작동 과정은 전혀 달라지지 않는다.

그리고, 응용 에이전트(103)에는 하나의 에이전트만이 존재하는 것이 아니라 응용 프로그램에 따라 다수개가 동시에 존재할 수 있다.

만일, 다수개의 에이전트가 조재하는 경우 템플리트의 구성은 각 에이전트에서 필요로 하는 슬롯의 합이 된다.

예를 들어, 금전 출납과 전자 수첩 응용 에이전트가 동시에 존재하는 경우 템플리트를 구성하는 슬롯은 시작 날짜, 마침 날ㅉ, 시작 시간, 마침 시간, 장소, 동반인, 사건, 항목, 지출액으로 이루어진다.

따라서, 템플리트 생성기(113)로부터 전체 슬롯으로 이루어진 템플리트가 응용 에이전트(103)에 전달되면 각 에이전트는 자신과 관련된 슬롯값만을 취하여 처리 결과를 프로그램 실행부(104)로 전달하게 된다.

상기와 같은 동작에 있어서, 자동 분류에 결정적인 기여를 하는 것은 사전 형태로 되어 있는 시소러스(thesaurus)(102)의 내용으로 일반적으로는 해당 자연어로 쓰여진 글을 읽거나 쓰는 사람을 돕기 위하여 동의어를 중심으로 구성되어 있다.

그러나, 자동 분류에 있어서 중요한 의미 정보는 동의어 외에도 상/하위 개념과 전체/부분 개념등 그 종류가 다양하다.

현재 한글 시소러스는 특정 분야의 몇 종류만이 있는 형편이며, 그들도 대부분 외국어로 된 것을 번역한 것으로, 특정 분야가 외국에서 먼저 시작된 것임을 감안할 때 번역본을 사용하는 것이 큰 문제는 아니다.

그러나, 특정 분야 외의 시소러스는 우리의 언어, 그 안에 내재된 문화나 가치관과 직결되어 있으므로 번역본을 사용하는 것은 타당하지 못하다.

따라서, 본 발명에서는 한글 시소러스를 새로이 구축하였다.

본 발명에서 한글 시소러스의 구성은 기존의 시소러스와 같이 일반적으로 표현하는 정보 즉, 동의어 표시, 상하위 개념 표시, 그리고 전체/부분 표시를 가장 기본적인 요소로 포함하였다.

이때, 하나의 표제어는 상위 개념(hypernym)이나 하위 개념(hyponym)을 동시에 여러개 가질 수 있다.

예를 들어, 우유나 유제품이면서 동시에 음료이므로 유제품과 음료를 모두 우유의 상위어로 가지며, 유제품의 하위어는 우유외에도 요구르트 나 치즈등 다양한 어휘를 포함한다.

그리고, 각 표제어가 다른 표제어와 가지는 관계는 상하위 개념 외에도 동의어(synonym) 관계, 전체/부분(holonym/meronym) 관계가 있다.

상기 전체/부분 관계는 더욱 세분하면 구성 요소로서의 부분/전체(component - object)와, 구성원으로서의 부분/전체(member-collection), 그리고 장소 포함 관계에 의한 부분/전체(place-area)로 나뉘며, 이들 부분/전체 관계들도 모두 하난의 표제어에 대해 여러 경우가 존재할 수 있다.

또한, 자동 분류를 위하여 기존의 시소러스에서는 일반적으로 표현하지 않는 정보인 특정 장소에서의 주된 행위를 추가하였다.

예를 들어, 방앗간에서는 곡물의 가공이 주된 행위이고 세탁소의 주된 행위는 의복의 세탁이다.

이때, 행위 및 행위의 대상에 대한 정보들은 한쌍으로 표현되는데, 하나의 장소르 ㄹ나타내는 표제어에 여러 갱의 행위, 대상의 싸이 존재할 수 있으며, 행위의 대상을 특별히 표시할 필요가 업슨 경우도 있는데, 그럴 경우에는 대상의 값을 무효(NULL)로 한다.

결고작으로 한글 시소러스의 한 항목을 구성하는 요소는 아래와 같다.

*, synonym1, synonym2, synonym3,. . . . .

, hypernym1, hypernym2, hypernym3,. . . . . .

, hyponym1, hyponym2, hyponym3,. . . . . .

c, component-holonum1, component-holonym2, component-holonym3,. . . .

c, component-meronym1, component-meronym2, component-meronym3,. .

m, member-holonym1, member-holonym2, member-holonym3. . . . . . . .

m, member-meronym1, member-meronym2, member-meronym3. . . . . .

p, place-holonym1, place-holonym2, place-holonym3, . . . . . . . . . .

p, place-meronym1, place-meronym2, place-meronym3, . . . . . . . .

@, action, object1, object1, action, object2, action, object3, . . . . .

이와같은 시소러스의 엔트리는 여러 응용 에이전트에 의해 액세스되어야하므로 시소러스 엔진은 일정한 응요 인터페이스를 제공하며, 실행 순서는 도5의 신호 흐름과 동일하다.

즉, 대표어(동의어)를 검색하여 결과값이 존재하는 경우 검색 결과를 시소러스 엔진(102)에 추가하고 접미어/다의어 처리를 하여 결과값의 존재를 판단하게 되며, 대표어의 결과값이 존재하지 않는 경우 그대로 덥미어/다의어 처리를 하여 결과값의 존재를 판단하게 된다.

이때, 접미어/다의어 처리의 결과값이 존재하면 검색 결과를 시소러스 엔진에 추가하고 그 시소러스 엔진(102)를 검색하여 결과값의 존재를 판단하며, 접미어/다이어 처리의 결과값이 존재하지 않는 경우 그대로 상기 시소러스 엔진을 검색하여 결과값의 존재를 판단하게 된다.

이에 따라, 결과값이 존재하면 검색 결과를 시소러스 엔진(102)에 추가하며, 결과값이 존재하지 안흔 경우 검색 결과를 반환하게 된다.

이러한 시소러스는 특정 응용 에이전트를 가정하지 않은 매우 일반적인 형태의 사전이다.

이러한 일반적인 형태의 시소러스는 여러 응용 에이전트들이 공통으로 사용할 수 있다는 장점이 있지만 특정 에이전트가 수행하는 일을 지원하기에는 부족한 점이 있을 수 밖에 없다.

예를 들어, 금전 출납 에이전트의 경우 보조 시소러스에 부가적으로 몇가지 정보를 포함시키게 된다.

첫째, 시소러스에 포함된 어휘에 일종의 검사 기능을 추가하였다.

이는 사용자의 입력 어휘에 근거하여 항목 분류를 하는 경우 시소러스에 포함되지는 않았으나, 사용자에 대하여 알고 있는 일반적인 정보를 근거로 분류를 결정할 필요가 있기 때문이다.

이러한 정보는 사용자가 결혼을 하였는지 또는 자녀가 있는지 등이다.

예로, 사요자의 입력이 피아노 학원, 6만원이라고 하면 피아노 학원에 교습비를 낸 것이 사용자의 자녀를 위한 것이라면 교육비, 사용자 자신을 위한 것이라면 교약 오락비가 되어야 한다.

또한, 사용자가 어휘를 정확하게 표현하지 않아 사용자의 입력 내용의 애매성 때문에 의미 분류가 어려운 경우가 있다.

예를 들어, 피아노, 10만원이라고 입력한 경우 글자 그대로 의미 해석을 한다면 이것은 피아노를 사는데에 10만원을 지출한 것이 되지만, 우리가 일상 생활에서 쓰는 용례를 생각한다면 이는 피아노 교습비, 10만원을 줄여서 이와같이 쓴 것일 가능성이 많다.

이런 판단은 피아노를 구입하는 비용이 적어도 얼마 이상이라는 우리의 지식에 근거한 것이다.

이는 자연어를 취급함에 있어서 동음 이의어의 존재는 의미 분류를 어렵게 하는데, 이 경우 사용자가 동음 이의어가 가지는 여러가지 의미중에서 어느 쪽을 편중되게 사용한다는 정보를 기록하여 의미 분류의 근거로 사용하기 위한 것이다.

예를 들어, 사용자가 피아노를 피아노 교습비의 의미로 여러번 사용한다면 피아노라는 어휘가 두가지 의미 즉, 악기로서의 원래의 의미와 피아노 교습비로서의 두가지 의미를 가진 것으로 생각하고, 그 두가지 의미중 한쪽으로 사용자가 편중되게 사용한다는 표시를 빈도수를 기록함으로써 의미 분류를 할 수 있다.

상기와 같은 시소러스를 사용하여 금전 출납 에이전트를 구성하면 우선, 항목 분류에 대한 정보를 보조 시소러스에 포함하는 금전 출납 에이전트는 템플리트 생성기(113)의 출려깅 항목 분류가 가능한지 판단하게 된다. 이에 따라, 분류가 가능하면 금전 출납 에이전트는 자동 분류를 수행하여 프로그램 실행부(104)에 전송하게 되고 그 프로그램 실행부(104)는 해당 응용 프로그램을 구동하여 그 내용을 응용 프로그램에 기록한다.

여기서, 응용 프로그램은 그 응용 인터페이스(API)만 일치되면 어떤 응용 프로그램을 사용하여도 된다.

상기에서 자동 분류를 함에 있어 형태소 분석기(112)에서의 분석 결과로 사용자의 입력을 여러 의미의 단어로 나누는 것이 매우 중요한데, 이는 원래의 시소러스나 보조 시소러스에 모든 단어의 형태를 포함시킬 수 없기 때문이다.

예를 들어, 상요자는 이발을 하는데 7000원을 사용하였다는 것을 이발, 이발료, 이발소, 이발관, 이발 요금등 다양한 표현을 사용하여 입력할 수있어야 하지만 그렇다고 이 모든 경우를 일일이 시소러스에 포함시키는 것은 불가능하다.

따라서, 형태소 분석기(112)를 사용하여 각 입력을 의미의 단위로 나누고 시소러스 엔진(102)에는 가능하면 의미 단위에 해당하는 내용만을 저장시키게 된다.

물론, 의미의 각 부분만을 사용하여 전체적인 의미를 파악하기 어려운 경우에는 복합어가 시소러스의 표제어가 될 수 있다.

이러한 금전 출납 에이전트의 동작은 도6의 신호 흐름과 동일한 과정을 통해 이루어진다.

즉, NTA 에서 금전 출납 에이전트를 구동하면 시소러스 엔진(102)의 내용과 가계부의 사전을 로드(load)하더 Excel 프로그램을 구동하게 된다.

이때, NTA 에서 NTA에 입력된 내용을 가지고 금전 출납 에이전트를 호출하여 가계부 사전과 시소러스 엔진(102)의 내용을 기준으로 템플리트 생성기(113)에서 입력 내역에 대한 항목을 분류하게 된다.

이에 따라, 분류에 대한 정보를 보조 시소러스에 포한하고 있는 금전 출납 에이전트는 템플리트 생성기(113)의 출력을 입력받아 항목 분류가 가능한지를 판단한다.

이때, 항목 분류가 가능하면 금전 출납 에이전트트는 형태소 분석기(112)의 결과에 대하여 가계부 사전과 시소러스 엔진(102)의 내용을 기준으로 항목 분류를 하고 그 결고에 대하여 다시 항목 분류가 가능한지 판단하게 된다.

이에 따라, 항목 분류가 가능하면 다이아로그 박그(Dialog Box)를 표시하여 사용자가 분류 항목을 선택하게 한다.

이후, 항목 분류가 불가능하거나 또는 사용자에 의해 분류 항목을 선택한 경우 Exe1 프로그램에 저장할 수 있는지 판단하게 된다.

만일, Exel 프로그램에 저장할 수 없는 경우 'False' 처리하고, 저장할 수 있으면 저장 동작을 수행한 후 'True' 처리함과 아울러 NTA에서 금전 출납 에이전트를 종료한다.

이후, 가계부 사전과 시소러스 엔진(102)의 내용을 기준으로 항목 분류를 하고 그 결과에 대하여 다시 항목 분류가 간으한지 판단하게 된다.

이후, 항목 분류가 불가능하거나 또는 사용자에 의해 분류 항목을 선택한 경우 Exel 프로그램에 저장할 수 있는지 판단하게 된다.

이 후, 가계부 사전과 시소러스 엔진(102)의 내용을 해제(release)한 후 Exel 프로그램을 종룡하게 된다.

상기에성 응용 프로그램이 금전 출납인 경우에 대하여 설명하였는데, 다른 응용 프로그램의 경우에도 적용하면 입력 정보에 대한 항목 분류를 자동으로 손쉽게 할 수 있다.

예를 들어, 도서관에서의 자료 분류, 사무실에서의 문서 관리 또는 소장하고 있는 음반의 분류와 같은 개인적인 여러 정보 관리도 자동으로 처리할 수 있다.

또한, 항목별 분류로 생각되지 않을 수 있는 출장비의 정산이나 전자 수첩과 같은 응용에도 폭넓게 사용할 수 있다.

상기에서 상세히 설명한 바와 같이 본 발명은 입력 정보의 항목 분류를 위하여 기존의 시로러스에 어휘 검색, 의미 분류 정보, 장소 및 그 장소에서의 주된 행위 정보, 그리고 어휘의 사용 빈도를 부가함으로써 사용자의 입력을 항목별로 정확하게 분류할 수 있어 정보 관리의 용이성을 극대화 하 수 있는 효과가 있다.

Claims

사용자의 입력에서 어휘의 의미 중심을 찾아내는 자연어 처리부와, 자연어의 각 단어를 그 의미에 따라 분류, 저장하고 있는 시소러스 엔진과, 상기 자연어 처리부에서 처리된 어휘의 중심 의미를 상기 시소러스 엔진의 내용을 참조하여 유추하는 응용 에이전트로 구성함을 특징으로 하는 어휘 자동 분류 장치.
사용자의 입력중 특정 부부늬 성분을 인식하는 전처리기와, 상기 사용자의 입력을 기본적인 의미 단위로 나누는 형태소 분석기와, 상기 사용자의 입력을 그 의미와 용도에 따라 나누어 하나의 템플리트를 생성하는 템플리트 생성기와, 상기 템플리트 생성기에서 출력된 템플리트로부터 항목 슬롯의 의미 중심을 유추하는 응용 에이전트와, 이 응용 에이전트에서 유추한 결과를 입력으로 프로그램을 수행하여 자동으로 항목 분류를 실행하는 프로그램 실행부로 구성함을 특징으로 하는 어휘 자동 분류 장치.
시소러스 엔진을 참조하여 입력 정보의 중심 의미를 분류하는 어휘 자동 분류 방법에 있어서, 입력 정보에 대하여 항목 분류가 가능한지 판단하는 제1 ;단계와, 상기에서 항목 분류가 가능하면 형태소 분석 결과에 대해 항목 분류가 가능한디 판단하는 제2 단계와, ㅅ아기에서 형태소 분석 결과에 대한 항목 분류가 가능하면 다아로그 박스(dialog box)에서 분류 항목을 선택하여 저장하는 제3 단계를 수행함을 특징으로 하는 어휘 자동 분류 방법.
시소러스 엔진을 참조하여 입력 정보의 중심 의미를 분류하는 어휘 자동 분류 장치에 있어서, 상기 시소러스 엔진은 동의어 표시, 상하위 개념 표시, 전체/부분 표시 그리고, 특정 장소에서의 주된 행위 및 대상 표시 정보를 포함함을 특징으로 하는 자동 분류 장치.
제 4 항에 있어서, 어휘의 검사 기능, 일반적인 용례, 장소 및 그 장소의 주된 해위 그리고 어휘의 사용 빈도의 정보를 포함하는 보조 시소러스를 시소러스 엔진에 부가하는 것을 특징으로 하는 어휘 자동 분류 장치.
대표어의 존재를 검색하는 제1 단계와, 상기에서 대표어가 존재하면 결과값을 시소러스 엔지넹 부가하고 접미어/다의어를 처리하여 결과값의 존재르 ㄹ판단하는 제2 단계와, 상기에서 접미어/다의어 처리의 결과값이 존재하면 그 검색 결과를 시소러스 엔진에 부가하는 제3 단계와, 상기에서 시소러스 엔진을 검색하여 결과값이 존재하는지 판단하는 제4 단계와, 상기에서 결과값이 존재하면 그 검색 결과를 시소러스 엔진에 부가하고 존재하지 않으면 검색 결과를 반환하는 제5 단계를 수행함을 특징으로 하는 어휘 자동 분류 방법.