KR20070061080A

KR20070061080A - 지식베이스 관리를 위한 지식 정규화 방법 및 장치

Info

Publication number: KR20070061080A
Application number: KR1020060043312A
Authority: KR
Inventors: 황이규; 오효정; 장명길; 왕지현; 이충희; 이창기; 김학수
Original assignee: 한국전자통신연구원
Priority date: 2005-12-08
Filing date: 2006-05-15
Publication date: 2007-06-13

Abstract

본 발명은 정보추출 시스템을 통해 추출되어 지식베이스에 저장되는 지식과, 질의응답 시스템에서 지식베이스를 검색하기 위해 사용하는 검색어의 불일치를 해소하기 위해 지식을 정규화하는 방법 및 장치에 관한 것으로, 대상 테이블 또는 입력된 문자열의 속성에 따라 '시소러스를 이용한 정규화', '사전을 이용한 정규화', '규칙을 이용한 정규화', '유사 문자열 검색을 이용한 정규화' 등의 다양한 정규화 방법을 통해 상기 대상 테이블 또는 입력된 문자열을 정규화하는 것을 특징으로 한다.

따라서, 본 발명에 따르면, 지식의 저장과 검색 과정에서 의미가 동일하지만 표현형태가 조금씩 다른 이형태 지식에 대해서 효과적인 검색이 가능하게 될 뿐만 아니라, 동일한 의미를 갖는 이형태의 문자열을 처리하기 위해 중복적으로 지식을 저장하는 것을 방지할 수 있게 되어 이에 따라 지식베이스의 저장 메모리를 효율적으로 활용할 수 있으며, 사용자가 검색 질의시 통제된 어휘만을 사용하는 불편함을 해소할 수 있다는 효과가 있다.

정보추출, 지식베이스 관리, 질의응답 시스템, 지식 정규화

Description

지식베이스 관리를 위한 지식 정규화 방법 및 장치{Knowledge normalization method and apparatus for Knowledgebase Management}

도 1은 본 발명에 따른 지식 정규화 장치가 적용된 정보추출 시스템 및 질의응답 시스템의 동작을 설명하기 위한 도면이다.

도 2는 본 발명에 따른 지식 정규화 장치의 블록도이다.

도 3은 본 발명에 따른 지식 정규화 방법을 나타낸 흐름도이다.

도 4는 도 3에 있어서 시소러스를 이용한 정규화 단계의 상세 흐름도이다.

도 5는 도 3에 있어서 사전을 이용한 정규화 단계의 상세 흐름도이다.

도 6a 및 도 6b는 도 2에 있어서 약어 사전 DB 및 음차 표기 사전 DB의 일예를 나타낸 도면이다.

도 7은 도 3에 있어서 규칙을 이용한 정규화 단계의 상세 흐름도이다.

도 8은 도 3에 있어서 유사 문자열 검색을 이용한 정규화 단계의 상세 흐름도이다.

도 9는 도 2에 있어서 유사 문자열 사전 DB의 일예를 나타낸 도면이다.

* 도면의 주요부분에 대한 부호의 설명 *

110: 문서 120: 정보추출 시스템

130: 지식베이스 140: 질의응답 시스템

200: 지식 정규화 장치 210: 메모리부

211: 정규화 테이블 212: 시소러스

213: 약어 사전 DB 214: 음차 표기 사전 DB

215: 규칙 패턴 DB 216: 유사 문자열 사전 DB

220: 정규화 제어부 230: 정규화부

231: 시소러스 기반 정규화부 232: 사전 기반 정규화부

233: 규칙 기반 정규화부 234: 유사 문자열 기반 정규화부

본 발명은 지식베이스 관리를 위한 지식 정규화 방법 및 장치에 관한 것으로, 특히 정보추출 시스템에서 정보추출(Information Extraction)의 결과를 지식베이스에 저장할때 또는 질의응답 시스템에서 상기 지식베이스에 저장된 지식을 검색할때, 상기 추출되어 지식베이스에 저장되는 지식과 상기 검색하기 위해 사용하는 검색어의 불일치를 해소하기 위해 지식을 정규화하는 방법에 관한 것이다.

질의응답 시스템에 있어서 정보추출 기술은 대상문서로부터 미리 정해진 몇 가지 속성을 추출하여 데이터베이스에 저장하는 기술을 의미하는 것으로, 사용자의 관심에 적합한 문서들로부터 구체적인 사실이나 관계, 예를 들어, 인명(Person Name), 지명(Location Name), 기관명(Organization Name) 및 시간이나 날짜를 포함하는 문장에서 이들 사이의 관계를 추출하여 이를 데이터베이스에 저장한다.

예를 들어, "신사임당은 감찰 이원수의 부인, 이이의 어머니로 연산군 10년에 강원 강릉에서 태어나 명종 6년에 사망하였다."라는 문장으로부터 정보를 추출한다고 가정하면, 상기 문장으로부터 "신사임당", "이원수", "부인", "이이", "어머니", "연산군 10년", "강원 강릉", "출생" "명종 6년", "사망" 과 같은 정보를 추출할 수 있으며, 추출된 각 데이터는 다음의 표 1, 표 2 및 표 3과 같이 지식베이스의 '출생' 테이블, '사망' 테이블, '관계' 테이블에 각각 저장될 수 있다.

출생 테이블

이름	출생지	출생일
신사임당	강원 강릉	연산군 10년

사망 테이블

이름	사망장소	사망일
신사임당		명종 6년

관계 테이블

이름	관계명	관계값
이원수	부인	신사임당
신사임당	어머니	이이

상기와 같이 지식베이스에 '출생' 테이블, '사망' 테이블, '관계' 테이블이 구축되어 있는 상태에서, 사용자가 "이원수의 아내는 누구인가?" 또는 "강원도에서 태어난 사람은?" 과 같은 질문을 요청하면, 이와 같은 자연어 문장은 자료 검색을 위해 구조화된 데이터베이스 검색 언어인 SQL(structured query language)로 변환되어 그 변환된 SQL에 따라 사용자 질문에 대한 정보가 지식베이스에서 검색되는데, SQL 변환시 저장된 "부인"과 "아내", "강원 강릉"과 "강원도" 사이에는 어휘적 불일치가 발생하기 때문에, 효과적으로 사용자 질문에 대한 정보가 지식베이스에서 검색될 수 없다는 문제점을 갖고 있다.

이러한 어휘적 불일치를 해결하기 위한 것으로, 시소러스(thesaurus)를 활용하여 질의에 포함된 어휘를 확장하여 검색을 시도하는 방법이 개시되어 있지만, 시소러스를 이용한 정보검색 방법은 어떠한 테이블의 어떤 속성에서 시소러스를 이용하여 질의에 포함된 어휘를 확장해야 하는지, 또한 숫자 표현의 경우 "연산군 10년"과 "1504년" 사이의 불일치는 어떻게 처리해야 하는지에 대한 해결 방안이 제시되어 있지 못하여 이로 인해 효과적인 SQL을 생성하기 어렵다.

게다가, 시소러스를 이용한 정보검색 방법은 "인스부르크여, 안녕"이란 노래의 작곡자를 검색하기 위해 사용자가 "<인스부룩이여, 안녕>을 작곡한 사람은?"이라고 입력하면, 이에 따라 해당 질문에 대해서 데이터베이스에 저장된 데이터와 질문에 포함된 검색 단어가 정확히 일치하는 경우에만 검색을 수행하기 때문에, 이들 사이의 몇음절 변이가 있어도 사용자가 원하는 정보를 검색할 수 없다고 하는 한계점을 갖고 있다.

예를 들어, '발명'이라는 데이터베이스 테이블에 '이름: 세종대왕, 발명품: 훈민정음'이라는 정보가 저장되어 있고, 사용자가 '한글을 만든 사람은?'이라고 질문을 한 경우, 질의응답 시스템은 입력된 질문에 해당하는 SQL을 생성하는데, 이 때 SQL 생성 과정에서 단어의 정규화 과정을 거치지 않는다면 'SELECT 이름 FROM 발명 WHERE 발명품=세종'이라는 SQL문을 생성할 것이며, 이로 인해 '세종'과 '세종대왕' 사이에는 어휘적 불일치가 발생하여 '훈민정음'이라는 정보를 검색하지 못하게 될 것이다.

따라서, 자연어 문장을 구조화된 데이터베이스 검색 언어인 SQL로 변환하여 자료를 검색하는 지식베이스 기반의 질의응답 시스템의 성능 향상을 위해서는, 지식베이스에 저장되어 있는 값들과 SQL의 조건문에 나타난 값들 사이의 어휘 불일치 문제를 해결하는 것이 필수적이며, 이를 위해서 지식베이스 구축 및 SQL 생성 과정에서 동일한 의미의 속성값(attribute value, 검색 대상이 되는 항목의 값)들은 동일한 형태로 정규화하는 과정이 필수적으로 요구된다.

본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명의 목적은 정보추출 결과를 지식베이스에 저장할 때 또는 지식베이스에서 지식을 검색할 때, 지식베이스의 스키마 특성을 고려하여 다양한 정규화 방법을 통해 지식 정규화를 수행함으로써, 상기 추출되어 지식베이스에 저장되는 지식과 검색하기 위해 사용하는 검색어의 불일치에 따른 검색 성능 저하를 방지할 수 있는 지식 정규화 방법 및 장치를 제공하는 것이다.

상기 목적을 달성하기 위하여 본 발명에 따른 지식베이스 관리를 위한 지식 정규화 방법은, 정보추출 시스템을 통해 추출된 정보추출 결과를 지식베이스에 저장하기 위한 정규화 방법에 있어서, 상기 정보추출 결과가 기록되는 대상 테이블의 속성에 따라 상기 정보추출 결과에 대한 정규화 방법을 결정하고 이에 대한 우선순위를 결정하는 정규화 방법 및 우선순위 결정 단계; 및 상기 결정된 우선순위에 따라 상기 대상 테이블의 속성에 적합한 다양한 정규화 방법을 통해 상기 대상 테이블에 기록된 정보추출 결과를 정규화하는 지식 정규화 단계를 포함하는 것을 특징으로 한다.

또한, 상기 목적을 달성하기 위하여 본 발명에 따른 지식베이스 관리를 위한 지식 정규화 방법은, 질의응답 시스템에서 지식베이스 검색을 위해 사용하는 검색어의 정규화 방법에 있어서, 상기 검색어의 문자열 속성에 따라 정규화 방법을 결정하고 이에 대한 우선순위를 결정하는 정규화 방법 및 우선순위 결정 단계; 및 상기 결정된 우선순위에 따라 상기 검색어의 문자열 속성에 적합한 다양한 정규화 방법을 통해 상기 검색어 문자열을 정규화하는 지식 정규화 단계를 포함하는 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위하여 본 발명에 따른 지식베이스 관리를 위한 지식 정규화 장치는, 입력된 문자열의 속성에 따른 정규화 방법 및 그 우선순위가 기록된 정규화 테이블이 저장되어 있는 메모리부; 상기 메모리부의 정규화 테이블에 기록된 정보들을 기반으로 상기 입력된 문자열의 속성에 적합한 정규화가 이루어지도록 제어하는 정규화 제어부; 및 상기 정규화 제어부의 제어에 따라 다양한 정규화 방법을 통해 입력된 문자열을 정규화하는 정규화부를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1에 도시된 바와 같이, 본 발명에 따른 지식 정규화 장치가 정보추출 시스템(120)에 적용된 경우, 정보추출 시스템(120)은 입력된 문서(110)로부터 유용한 정보를 추출하여 추출된 정보의 유형에 따라 해당 정보를 정규화하여 지식베이스(130)에 저장한다.

한편, 본 발명에 따른 지식 정규화 장치가 질의응답 시스템(140)에 적용된 경우, 질의응답 시스템(140)은 사용자 질의가 있을 때 지식베이스(130)에 저장된 지식을 검색하기 위해 질의에 포함된 문자열을 정규화하여 이를 SQL로 변환한다.

이하 도 2를 참조하여 본 발명에 따른 지식 정규화 장치의 동작에 대하여 더 자세히 설명하면 다음과 같다.

도 2는 본 발명에 따른 지식 정규화 장치의 블록도이다.

도 2에 도시된 바와 같이, 본 발명에 따른 지식 정규화 장치(200)는, 정규화에 필요한 각종 정보들이 저장되어 있는 메모리부(210)와, 상기 메모리부(210)에 저장된 정보들을 기반으로 입력된 문자열의 속성에 적합한 정규화가 이루어지도록 제어하는 정규화 제어부(220)와, 상기 정규화 제어부(220)의 제어에 따라 다양한 정규화 방법을 통해 입력된 문자열을 정규화하는 정규화부(230)로 구성되어 있으며, 상기 메모리부(210)는 정규화 테이블(211), 시소러스(212), 약어 사전 DB(213), 음차 표기 사전 DB(214), 규칙 패턴 DB(215) 및 유사 문자열 사전 DB(216)를 포함하고, 상기 정규화부(230)는 시소러스 기반 정규화부(231), 사전 기반 정규화부(232), 규칙 기반 정규화부(233) 및 유사 문자열 기반 정규화부(234)를 포함하고 있다.

상기 메모리부(210)의 정규화 테이블(211)에는 입력된 문자열의 속성에 따라 해당 문자열을 정규화하는데 가장 적합한 순서대로 정규화 방법들이 우선순위화되어 나열되어 있다.

즉, 본 발명에서는 입력된 문자열의 속성에 적합한 정규화 방법들을 우선순위화하여 정규화 테이블(211)을 구현해놓고, 문자열이 입력되면 입력된 문자열의 속성을 파악하여 상기 정규화 테이블(211)을 기반으로 그에 적합한 정규화 방법이 선택되도록 함으로써, 입력된 문자열에 대한 정규화 처리를 보다 정확하고 신속하게 수행할 수 있도록 한다.

한편, 상기 메모리부(210)에는 정규화 테이블(211) 외에 정규화 처리에 필요한 각종 정보들이 기록된 데이터베이스들이 저장될 수 있는데, 본 실시예에서는 용어간의 관계가 기록되어 있는 시소러스(212), 빈번하게 축약되어 표현되는 약어들이 기록되어 있는 약어 사전 DB(213), 외국 위인의 이름이나 지명 등과 같이 빈번하게 음차 표기되는 어휘들이 기록되어 있는 음차 표기 사전 DB(214), 날짜 및 시간이나 주소 표현 등과 같이 규칙적인 패턴이 기록되어 있는 규칙 패턴 DB(215) 및 명언이나 격언과 같은 문자열이 기록되어 있는 유사 문자열 사전 DB(216) 등이 메모리부(210)에 포함되어 있는 것을 가정하여 설명하며, 이들 시소러스(212), 약어 사전 DB(213), 음차 표기 사전 DB(214), 규칙 패턴 DB(215) 및 유사 문자열 사전 DB(216)에 대하여는 이하 3 내지 도 9에 관한 설명에서 더 자세히 설명하기로 한다.

상기 정규화 제어부(220)는 상기 메모리부(210)의 정규화 테이블(211)을 기반으로 상기 입력된 문자열의 속성에 적합한 정규화가 이루어지도록 정규화부(230)를 제어하는 역할을 수행한다.

상기 정규화부(230)는 다양한 정규화 방법을 통해 입력된 문자열을 정규화하는데, 상기 정규화부(230)에 포함된 시소러스 기반 정규화부(231), 사전 기반 정규화부(232), 규칙 기반 정규화부(233), 및 유사 문자열 기반 정규화부(234)의 동작에 대하여는 이하 도 3 내지 도 9와 관련된 설명에서 더 자세히 설명하기로 한다.

즉, 본 발명의 지식 정규화 장치에 따르면, 정보추출 결과를 지식베이스에 저장할 때 또는 지식베이스에서 지식을 검색할 때, 지식베이스의 스키마 특성을 고려하여 다양한 정규화 방법을 통해 지식 정규화를 수행함으로써, 상기 추출되어 지식베이스에 저장되는 지식과 검색하기 위해 사용하는 검색어의 불일치에 따른 검색 성능 저하를 방지할 수 있도록 한다.

이하, 본 발명에 따른 지식 정규화 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.

도 3에 도시된 바와 같이, 본 발명에 따른 지식 정규화 방법은, 대상 테이블 및 입력된 문자열의 속성에 따라 적용되어야 하는 정규화 방법을 결정하고 이에 대한 우선순위를 결정하는 정규화 방법 및 우선순위 결정 단계(S310)와, 상기 대상 테이블 및 입력된 문자열이 비정규화 문자열을 포함하는지를 판단하는 단계(S320)와, 상기 결정된 우선순위에 따라 상기 대상 테이블 및 입력된 문자열의 속성에 적합한 다양한 정규화 방법을 호출하여 상기 대상 테이블 및 입력된 문자열을 정규화하는 지식 정규화 단계(S330)로 크게 나뉠 수 있는데, 이하 각 단계에 대하여 더 자세히 설명하면 다음과 같다.

[1] 정규화 방법 및 우선순위 결정 단계(S310)

우선, 도 1에서와 같이 정보추출 시스템(120)으로 문서(110)가 입력된 경우, 입력된 문서(110)의 문자열을 지식베이스(130)의 어떤 테이블에 저장할지, 그리고 그 테이블에 대한 정규화 방법 및 우선순위는 어떻게 할지를 결정하는 단계로, 상기 정규화 테이블(211)을 기반으로 대상 테이블의 속성에 적합한 정규화 방법 및 우선순위가 결정되며, 이에 따라 대상 테이블에 포함된 문자열에 대한 정규화 방법 및 우선순위도 결정된다.

또한, 도 1에서와 같이 질의응답 시스템(140)으로 사용자의 질문이 입력된 경우, 사용자 질문에 포함된 문자열을 어떤 정규화 방법으로 어떤 우선순위에 따라 정규화할 것인지를 결정하는 단계로, 상기 정규화 테이블(211)을 기반으로 입력된 문자열의 속성에 적합한 정규화 방법 및 우선순위가 결정되며, 이에 따라 사용자 질문에 따른 SQL문이 생성된다.

즉, 정보추출 시스템(120)으로 입력된 문서(110)에 포함된 문자열이 지식베이스(130)의 어떤 속성의 테이블에 저장될지에 따라 자동으로 정규화 방법 및 우선순위가 결정되며, 또한, 질의응답 시스템(140)으로 입력된 사용자의 질문에 포함된 문자열이 어떤 속성을 가졌는지에 따라 자동으로 정규화 방법 및 우선순위가 결정된다.

[2] 비정규화 문자열 판단 단계(S320)

사람의 본명과 같은 특정 고유명사나 개인의 비밀번호 등과 같은 정보는 일반적으로 이형태(異形態)가 존재하지 않으며, 이형태로 바뀌었을 경우에는 전혀 다른 의미가 되기 때문에, 따라서 이러한 고유한 특징을 갖는 정보들은 정규화 대상에서 반드시 제외되어야 한다.

이를 위해 본 발명에서는 문자열에 대한 정규화를 수행하기 전에 비정규화 문자열인지 확인하는 단계(S320)를 통해 고유한 의미를 가진 문자열은 비정규화 문자열로 지정되도록 함으로써, 고유한 의미를 갖는 문자열에 대해서는 정규화가 이루어지지 않도록 하며, 이에 따라 잘못된 정규화로 인해 문자열의 고유한 의미가 바뀌는 것을 방지할 수 있도록 한다.

[3] 지식 정규화 단계(S330)

지식 정규화 단계(S330)는 상기 대상 테이블 및 입력된 문자열의 속성에 따라 다양한 정규화 방법을 통해 상기 대상 테이블 및 입력된 문자열을 정규화하는 단계로서, 이 때, 상기 정규화 방법 및 우선순위 결정 단계(S310)를 통해 결정된 정규화 방법 및 우선순위를 기반으로 상기 대상 테이블 및 입력된 문자열의 정규화 가 이루어지게 된다.

상기 지식 정규화 단계(S330)에는 '시소러스를 이용한 정규화 단계(S350)', '사전을 이용한 정규화 단계(S360)', '규칙을 이용한 정규화 단계(S370)', 및 '유사 문자열 검색을 이용한 정규화 단계(S380)'가 포함되는데, 이들 문자열 정규화 방법에 대하여 더 자세히 설명하면 다음과 같다.

(1) 시소러스를 이용한 정규화 단계(S350)

시소러스란 데이터베이스 시스템에 있어서 색인작업과 정보검색에 사용되는 키워드를 통제하고 용어간의 관계를 관리하여 검색효율을 제고시키기 위한 통제 어휘집으로, 이러한 시소러스는 색인작업에서는 표기기준과 동의어 확인에 사용되고 검색작업에서는 검색어 선정에 활용되어 검색효율을 높여줄 수 있는 기능을 갖고 있는데, 이하 도 4를 참조하여 시소러스를 이용한 정규화 단계(S350)에 대하여 더 자세히 설명한다.

도 4는 도 3에 있어서 시소러스를 이용한 정규화 단계(S350)의 상세 흐름도이다.

예를 들어, '사장', '과장'과 같은 직업명이나 '아버지', '삼촌'과 같은 관계명 등과 같은 일반 명사들은 기구축되어 있는 시소러스나 어휘 개념망의 동의어 관계를 이용하여 정규화가 가능한데, 이러한 시소러스를 이용한 정규화는 다음과 같은 절차를 통해 이루어진다.

도 4를 참조하면, 우선, 문자열이 입력되면 해당 문자열을 검색키(key)로 하여 시소러스(212)를 검색한다(S351).

검색키와 일치하는 동일한 문자열이 시소러스(212)에 존재하면 그 문자열에 대한 동의어 집합에서 첫번째 문자열을 추출한 다음(S352~S353), 추출된 첫번째 문자열을 입력된 문자열과 대체한다(S354).

예를 들어, '대표이사'라는 문자열이 시소러스를 이용하여 정규화된다고 가정하고, 시소러스에 '[사장, CEO, 대표이사]'라는 동의어 집합이 존재한다고 가정하면, '대표이사'를 검색키로 하여 시소러스 검색을 수행하면, '[사장, CEO, 대표이사]'라는 동의어 집합이 검색되는데, 이에 따라 동의어 집합의 첫번째 문자열인 '사장'이라는 문자열이 "대표이사"라는 문자열로 대체된다.

(2) 사전을 이용한 정규화 단계(S360)

'사전을 이용한 정규화'를 수행하기 위해서는 세부 사전의 이름과 사전 검색 방법을 수동으로 지정해야 한다.

즉, 대상 테이블의 속성에 대한 정규화 방법을 지정할 때 '사전을 이용한 정규화 + 사전 이름' 정보와 함께 검색 방법까지 지정을 해야 한다.

검색 방법으로는 '완전 매칭(complete matching)'과 '부분 매칭(partial matching)'이 있다. '완전 검색'은 검색키와 완전히 일치하는 문자열을 찾는 방법이고, 부분 매칭은 일부분이라도 일치하는 문자열을 찾는 방법이다.

예를 들어, '인물정보'라는 테이블에 '주소'라는 속성에 '대전시 유성구 가정동'이라는 값이 존재하고, '유성구'라는 문자열을 포함하는 속성값을 찾고자 한다면 ' 유성구 '라는 좌우에 공백 문자가 포함된 문자열을 검색키로 하여 '부분 매칭'을 수행해야 한다.

본 발명에서는 '부분 매칭' 시에 발생하는 오류나 그것의 해결방법은 다루지 않는다. 다만 '사전을 이용한 정규화'라는 항목이 필요하며, 그 항목에는 '완전 매칭', '부분 매칭'과 같은 검색 방법이 지정되고 적용되어야 한다는 것만을 규정한다.

상기 '사전을 이용한 정규화' 방법에 대하여 도 5를 참조하여 더 자세히 설명하면 다음과 같다.

도 5는 도 3에 있어서 사전을 이용한 정규화 단계(S360)의 상세 흐름도이다.

도 5를 참조하면, 우선 '사전을 이용한 정규화'라고 지정된 속성에 해당하는 문자열이 입력되면 입력된 문자열을 검색할 사전을 선택하는데(S361), 이 때, 사전 검색 방법도 함께 선택되는 것이 바람직하다.

여기에서, 상기 입력된 문자열과 함께 사전명 및 사전 검색 방법이 함께 입력된 경우에는 상기 사전 선택 단계(S361)를 생략하는 것도 가능하다.

그 다음, 해당 문자열과 속성을 검색키로 하여 지정된 사전을 지정된 방법에 따라 검색한다(S362).

이 때, 상기 사전 검색시 입력된 문자열 속성에 따라 약어 사전 DB(213) 및 음차 표기 사전 DB(214)를 활용할 수 있는데, 이하 도 6a 및 도 6b를 참조하여 상기 약어 사전 DB(213) 및 음차 표기 사전 DB(214)에 대하여 더 자세히 설명하면 다음과 같다.

도 6a 및 도 6b는 도 2에 있어서 약어 사전 DB(213) 및 음차 표기 사전 DB(214)의 일예를 나타낸 도면이다.

도 6a에 도시된 바와 같이, 예를 들어 '경상북도', '충청남도'과 같은 지역명이나 '전국경제인연합', '한국총학생연합'과 같은 조직명은 '경북', '충북', '전경련', '한총련'과 같이 빈번하게 축약되어 표현된다.

그러므로, 상기와 같은 어휘들을 데이터베이스에 입력하는 과정에서 약어를 풀어 쓰거나 SQL문을 생성하는 과정에서 축약 표현으로 바꾸지 않으면 검색에 실패할 가능성이 매우 높다.

이러한 문제를 해결하기 위해서 본 발명에서는 도 6a와 같이 구성된 약어 사전 DB(213)를 미리 구축하고 이를 기반으로 정규화를 수행하여 정규화의 정확성을 높일 수 있도록 한다.

즉, '약어 사전을 이용한 정규화'라고 지정된 속성에 해당하는 문자열이 입력되면 미리 구축되어 있는 약어 사전 DB(213)를 지정된 방법('완전 매칭' 또는 '부분 매칭')으로 검색하여 해당 문자열을 대체하며, 만약 검색이 실패한다면 입력된 문자열을 대체하지 않고 그대로 사용한다.

한편, 도 6b에 도시된 바와 같이, 'Lincoln', 'Roosevelt'와 같은 외국 위인의 이름이나 'Everest', 'Nile'과 같은 외국 지명은 '링컨', '루스벨트', '에베레스트', '나일'과 같이 빈번하게 음차 표기된다.

그러므로, 데이터베이스에 입력하는 과정에서 음차 표기하거나 SQL문을 생성하는 과정에서 음차 표현으로 바꾸지 않으면 검색에 실패할 가능성이 매우 높다.

이러한 문제를 해결하기 위해서 본 발명에서는 도 6b와 같이 구성된 음차 표기 사전 DB(214)를 미리 구축하고 이를 기반으로 정규화를 수행하여 정규화의 정확 성을 높일 수 있도록 한다.

즉, '음차 표기 사전을 이용한 정규화'라고 지정된 속성에 해당하는 문자열이 입력되면, 미리 구축되어 있는 음차 표기 사전 DB(214)를 지정된 방법('완전 매칭' 또는 '부분 매칭')으로 검색하여 해당 문자열을 대체하며, 만약 검색이 실패한다면 입력된 문자열을 대체하지 않고 그대로 사용한다.

다시 도 5를 참조하면, 상기와 같은 검색 방법에 의해 해당 문자열과 속성을 모두 검색키로 하여 검색을 수행한 결과, 해당 속성의 문자열이 사전에서 검색되지 않으면, 해당 문자열만을 검색키로 하여 다시 검색을 수행하는데(S363~S364), 해당 문자열만을 검색키로 한 검색이 성공하면(S365), 검색된 첫번째 문자열을 입력된 문자열과 대체하여 정규화된 문자열을 출력한다(S366).

만약 해당 문자열과 속성을 모두 검색키로 한 검색이 성공한 경우, 검색된 첫번째 문자열을 입력된 문자열과 대체하여 정규화된 문자열을 출력한다(S366).

한편, 상기 해당 문자열만을 검색키로 하는 검색도 실패한다면 입력된 문자열을 대체하지 않고 그대로 사용한다.

(3) 규칙을 이용한 정규화 단계(S370)

'규칙을 이용한 정규화'를 수행하기 위해서는 규칙의 이름을 수동으로 지정해야 한다. 즉, 대상 테이블에 대한 정규화 방법을 지정할 때 '규칙을 이용한 정규화'라는 정보와 함께 수행할 규칙의 이름을 별도로 지정해야 한다.

예를 들어, '2005년 12월 25일'과 같은 날짜 표현을 '20051225'와 같은 형태로 변환하는 규칙과 '오후 12시 5분'과 같은 시간 표현을 'PM1205'와 같은 형태로 변환하는 규칙은 서로 별개의 규칙이다. 그러므로 '규칙을 이용한 정규화'를 수행하기 위해서는 별도의 규칙들을 구성하여 적용해야 한다.

여기에서, 각 규칙들은 별개의 프로그램을 이용하여 작성할 수도 있고 간단한 패턴 변환을 통하여 이루어질 수도 있다.

본 발명에서는 각각의 규칙을 구성하고 적용하는 방법은 다루지 않는다. 다만 '규칙을 이용한 정규화'라는 항목이 필요하며, 그 항목에는 별개의 규칙 이름이 지정되고 적용되어야 한다는 것만을 규정한다.

상기 '규칙을 이용한 정규화' 방법에 대하여 도 7을 참조하여 더 자세히 설명하면 다음과 같다.

도 7은 도 3에 있어서 규칙을 이용한 정규화 단계(S370)의 상세 흐름도이다.

도 7을 참조하면, 먼저 '규칙을 이용한 정규화'라고 지정된 속성에 해당하는 문자열이 입력되면, 해당 문자열을 지정된 규칙에 따라 변환하는데(S371), 상기 지정된 규칙은 규칙 패턴 DB(215)로부터 로딩되는 것이 바람직하다.

그 다음, 상기 지정된 규칙에 따른 변환이 성공하였는지를 판단하여 변환이 성공한 경우 변환된 문자열을 출력한다(S372~S373).

만약 지정된 규칙에 따라 변환할 수 없으면 입력된 문자열을 그대로 출력한다.

상기와 같은 '규칙을 이용한 정규화'는 다른 정규화 방법들과 빈번하게 같이 사용될 수 있는데, 예를 들어, '대전광역시 유성구 가정동'이라는 문자열은 '규칙을 이용한 정규화'를 통하여 '대전시 유성구 가정동'으로 변환될 수 있으며, '유성 구 가정동'이라는 문자열은 '사전을 이용한 정규화' 방법을 통하여 '대전시 유성구 가정동'으로 변환될 수 있다.

(4) 유사 문자열 검색을 이용한 정규화 단계(S380)

'황금 보기를 돌같이 하라'와 같은 명언이나 '내 죽음을 적에게 알리지 말라'와 같은 유언은 일반적으로 그 표현이 너무 다양하기 때문에, 전술한 바와 같은 '시소러스를 이용한 정규화', '사전을 이용한 정규화', '규칙을 이용한 정규화' 방법으로는 이러한 속성을 가진 문자열을 정규화하는 것은 불가능하다.

그러므로, 상기와 같이 다양한 방식으로 표현될 수 있는 문자열이 질의응답 시스템(140)으로 입력된 경우에는, 기 구축된 문자열들 중에서 입력 문자열과 가장 유사한 것을 검색하여 사용자 질문에 대한 SQL문을 생성해야 한다.

즉, 본 발명에서는 상기와 같은 문자열이 입력된 경우, 기 구축된 문자열들 중에서 입력된 문자열과 가장 유사한 문자열을 검색하여 정규화를 수행하도록 하는데, 이하 도 8을 참조하여 유사 문자열 검색을 이용한 정규화 방법에 대하여 더 자세히 설명하면 다음과 같다.

도 8은 도 3에 있어서 유사 문자열 검색을 이용한 정규화 단계(S380)의 상세 흐름도이다.

도 8을 참조하면, 우선 '유사 문자열 검색을 이용한 정규화'라고 지정된 속성에 해당하는 문자열이 입력되면, 입력된 문자열의 속성에 따라 해당 문자열을 유사 문자열 사전 DB(216)에서 검색하여 입력된 문자열에 대한 후보 문자열의 집합을 생성한다(S381).

여기에서, 상기 유사 문자열 사전 DB(216)에는 빈번하게 사용되는 명언, 유언, 격언 등이 문자열의 속성에 따라 분류되어 저장되어 있는데, 이하 도 9를 참조하여 유사 문자열 사전 DB(216)에 대하여 더 자세히 설명하면 다음과 같다.

도 9는 도 2에 있어서 유사 문자열 사전 DB(216)의 일예를 나타낸 도면이다.

도 9에 도시된 바와 같이, 유사 문자열 사전 DB(216)에는, 예를 들어 '황금 보기를 돌같이 하라', '내 죽음을 적에게 알리지 말라', '하루라도 책을 읽지 않으면 입안에 가시가 돋는다'와 같은 문자열들이 '명언', '격언', '유언' 등과 같은 문자열의 속성에 따라 분류되어 저장되어 있다.

다시 도 8을 참조하면, 상기와 같이 유사 문자열 사전 DB(216)에서 문자열을 검색하여 입력된 문자열에 대한 후보 문자열 집합이 생성되면, 입력된 문자열과 후보 문자열들 사이의 에디트 디스턴스(edit distance)를 측정한다(S382).

여기에서, 에디트 디스턴스란 입력된 문자열과 후보 문자열들 사이의 유사도를 측정하기 위한 값으로, 입력 문자열과 찾고자 하는 문자열 사이에 삽입(insert), 삭제(delete), 변환(replace) 등의 에디트 오퍼레이션(edit operation)이 발생하면 디스턴스(distance)를 1 만큼 부여해 나가는 것을 재귀적으로 수행하여 최소의 에디트 오퍼레이션(edit operation)이 발생한 경우를 두 문자열의 에디트 디스턴스라고 정의하며, 에디트 디스턴스가 클수록 두 문자열의 유사성은 떨어지게 된다.

그 다음, 측정된 에디트 디스턴스의 값이 임계치 이하인지를 확인하는데(S383), 여기에서 상기 임계치 값은 본 발명의 실시 과정에서 당업자에 의해 실 험적으로 결정되는 값으로, 임의적으로 변경이 가능함은 물론이다.

그 다음, 상기 임계치 이하의 에디트 디스턴스를 갖는 문자열들 중에서 가장 작은 에디트 디스턴스를 가지는 후보 문자열을 선택하여 이를 정규화된 문자열로 출력한다(S384).

본 발명에서는 에디트 디스턴스 알고리즘과 같이 유사 문자열을 찾는 특정 알고리즘을 다루지 않는다. 다만 '유사 문자열 검색을 이용한 정규화'라는 항목이 필요하며, 에디트 디스턴스와 같은 알고리즘이 적용되어야 한다는 것만을 규정한다.

상기와 같은 '유사 문자열 검색을 이용한 정규화'는 질의응답 시스템(140)으로 사용자의 질문이 입력되는 경우, 그 질문의 표현이 너무 다양하여 SQL문을 생성할 때 지식베이스(130)에 저장되어 있는 지식과의 어휘적 불일치로 인해 발생할 수 있는 문제점을 해결하는데 특히 유효하게 활용될 수 있는 방법이다.

상기한 바와 같이, 대상 테이블 및 입력된 문자열의 속성에 따라 다양한 정규화 방법을 통해 상기 대상 테이블 및 입력된 문자열을 정규화함으로써, 정보추출 시스템(120)을 통해 추출되어 지식베이스(130)에 저장되는 지식과, 질의응답 시스템(140)에서 지식베이스(130)를 검색하기 위해 사용하는 검색어의 불일치를 해소할 수 있게 되며, 이에 따라 지식의 저장과 검색 과정에서 의미가 동일하지만 표현형태가 조금씩 다른 이형태 지식에 대해서 효과적인 검색이 가능하게 되는 효과가 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으 로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

상기한 바와 같이, 본 발명에 따르면, 정보추출 시스템을 통해 추출되어 지식베이스에 저장되는 지식과, 질의응답 시스템에서 지식베이스를 검색하기 위해 사용하는 검색어의 불일치를 해소할 수 있게 되며, 이에 따라 지식의 저장과 검색 과정에서 의미가 동일하지만 표현형태가 조금씩 다른 이형태 지식에 대해서 효과적인 검색이 가능하게 되는 효과가 있다.

또한, 본 발명에 따르면, 동일한 의미를 갖는 이형태의 문자열을 처리하기 위해 중복적으로 지식을 저장하는 것을 방지할 수 있게 되어 이에 따라 지식베이스의 저장 메모리를 효율적으로 활용할 수 있으며, 사용자가 검색 질의시 통제된 어휘만을 사용하는 불편함을 해소할 수 있다는 효과가 있다.

Claims

정보추출 시스템을 통해 추출된 정보추출 결과를 지식베이스에 저장하기 위한 정규화 방법에 있어서,

상기 정보추출 결과가 기록되는 대상 테이블의 속성에 따라 상기 정보추출 결과에 대한 정규화 방법을 결정하고 이에 대한 우선순위를 결정하는 정규화 방법 및 우선순위 결정 단계; 및

상기 결정된 정규화 방법 및 우선순위에 따라 상기 대상 테이블에 기록된 정보추출 결과를 정규화하는 지식 정규화 단계를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
질의응답 시스템에서 지식베이스 검색을 위해 사용하는 검색어의 정규화 방법에 있어서,

상기 검색어의 문자열 속성에 따라 정규화 방법을 결정하고 이에 대한 우선순위를 결정하는 정규화 방법 및 우선순위 결정 단계; 및

상기 결정된 정규화 방법 및 우선순위에 따라 상기 검색어 문자열을 정규화하는 지식 정규화 단계를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 1항 또는 제 2항에 있어서,

상기 대상 테이블 또는 상기 검색어 문자열이 고유한 의미를 가진 문자열을 포함하는 경우, 상기 대상 테이블 또는 상기 검색어 문자열에 대한 정규화를 생략하는 단계를 더 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 1항 또는 제 2항에 있어서, 상기 지식 정규화 단계는,

시소러스를 이용한 제 1 정규화 단계, 사전을 이용한 제 2 정규화 단계, 규칙을 이용한 제 3 정규화 단계, 유사 문자열 검색을 이용한 제 4 정규화 단계 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 4항에 있어서, 상기 시소러스를 이용한 제 1 정규화 단계는,

상기 대상 테이블에 포함된 문자열 또는 상기 검색어 문자열이 입력되면 해당 문자열을 검색키로 하여 상기 시소러스를 검색하는 단계;

상기 검색키와 일치하는 문자열이 상기 시소러스에 존재하는 경우, 상기 시소러스에서 해당 문자열에 대한 정규화 문자열을 추출하여 출력하는 단계를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 4항에 있어서, 상기 사전을 이용한 제 2 정규화 단계는,

상기 대상 테이블에 포함된 문자열 또는 상기 검색어 문자열이 입력되면 검 색 사전명 및 사전 검색 방법이 설정되는 단계;

상기 입력된 문자열 또는 문자열의 속성을 검색키로 하여 상기 검색 사전을 상기 사전 검색 방법에 따라 검색하는 단계; 및

상기 검색키와 일치하는 문자열이 상기 검색 사전에서 검색되면, 상기 검색 사전에서 해당 문자열에 대한 정규화 문자열을 추출하여 출력하는 단계를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 6항에 있어서, 상기 검색 사전은,

빈번하게 축약되어 표현되는 약어들이 기록되어 있는 약어 사전, 또는 빈번하게 음차 표기되는 어휘들이 기록되어 있는 음차 표기 사전 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 6항에 있어서, 상기 사전 검색 방법은,

완전 매칭 또는 부분 매칭 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 4항에 있어서, 상기 규칙을 이용한 제 3 정규화 단계는,

상기 대상 테이블에 포함된 문자열 또는 상기 검색어 문자열이 입력되면 상기 입력된 문자열을 지정된 규칙에 따라 변환하는 단계; 및

상기 지정된 규칙에 따른 변환이 성공한 경우 상기 변환된 문자열을 정규화 문자열로 출력하는 단계를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
제 4항에 있어서, 상기 유사 문자열 검색을 이용한 제 4 정규화 단계는,

상기 대상 테이블에 포함된 문자열 또는 상기 검색어 문자열이 입력되면 상기 입력된 문자열을 유사 문자열 사전에서 검색하여 상기 입력된 문자열에 대한 후보 문자열들을 생성하는 단계;

상기 입력된 문자열과 상기 후보 문자열들 사이의 에디트 디스턴스(edit distance)를 측정하는 단계; 및

상기 후보 문자열들 중에서 가장 작은 에디트 디스턴스를 가지는 후보 문자열을 선택하여 이를 정규화 문자열로 출력하는 단계를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 방법.
입력된 문자열의 속성에 따른 정규화 방법 및 그 우선순위가 기록된 정규화 테이블이 저장되어 있는 메모리부;

상기 메모리부의 정규화 테이블에 기록된 정보들을 기반으로 상기 입력된 문자열의 속성에 적합한 정규화가 이루어지도록 제어하는 정규화 제어부; 및

상기 정규화 제어부의 제어에 따라 입력된 문자열을 정규화하는 정규화부를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 장치.
제 11항에 있어서, 상기 메모리부는,

용어간의 관계가 기록되어 있는 시소러스;

빈번하게 축약되어 표현되는 약어들이 기록되어 있는 약어 사전 DB;

빈번하게 음차 표기되는 어휘들이 기록되어 있는 음차 표기 사전 DB;

문자열의 규칙적인 패턴이 기록되어 있는 규칙 패턴 DB; 또는

명언/속담/격언 문자열이 기록되어 있는 유사 문자열 사전 DB 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 장치.
제 11항 또는 제 12항에 있어서, 상기 정규화부는,

상기 시소러스에서 상기 입력된 문자열에 대한 정규화 문자열을 검색하여 출력하는 시소러스 기반 정규화부;

상기 약어 사전 DB 또는 상기 음차 표기 사전 DB에서 상기 입력된 문자열에 대한 정규화 문자열을 검색하여 출력하는 사전 기반 정규화부;

상기 규칙 패턴 DB를 기반으로 상기 입력된 문자열을 지정된 규칙에 따라 변환하여 변환된 문자열을 정규화 문자열로 출력하는 규칙 기반 정규화부; 또는

상기 유사 문자열 사전 DB를 기반으로 상기 입력된 문자열에 대한 후보 문자열들 중에서 가장 작은 에디트 디스턴스를 가지는 후보 문자열을 정규화 문자열로 출력하는 유사 문자열 기반 정규화부 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 지식베이스 관리를 위한 지식 정규화 장치.