KR100318762B1

KR100318762B1 - 외래어 음차표기의 음성적 거리 계산방법

Info

Publication number: KR100318762B1
Application number: KR1019990042372A
Authority: KR
Inventors: 최기선; 강병주
Original assignee: 윤덕용; 한국과학기술원
Priority date: 1999-10-01
Filing date: 1999-10-01
Publication date: 2002-01-04
Also published as: KR20010035679A; US6581034B1

Abstract

본 발명은 같은 외국어에서 유래한 음차표기들 사이에서 일어나기 쉬운 자소 변환 패턴을 정의하고, 각 변환 패턴에 그 음성적 거리에 따라 벌점을 부여한 다음, 편집거리 방법에서 사용되는 최소편집거리 계산방법을 적용하여 두 음차표기 사이의 최소음성거리를 계산할수 있도록 함으로써 문서검색 시스템에서 정확한 검색이 이루어질 수 있도록 하는 외래어 음차표기의 음성적 거리 계산방법에 관한 것으로서,

한국어 문서에서 사용되는 다양한 외국어 음차표기에 대해서 동일한 외국어에 대한 다양한 음차표기를 효과적으로 찾아낼 수 있을 뿐만 아니라 문서검색 시스템에서 문서검색 시간을 단축시킴으로써 문서검색 시스템의 성능을 크게 개선시킬 수 있는 효과가 있다.

Description

외래어 음차표기의 음성적 거리 계산방법 { Phonetic distance method for similarity comparison of foreign words }

본 발명은 외래어 음차표기의 음성적 거리 계산방법에 관한 것으로서, 보다 상세하게는 문서검색 시스템에서 음차표기 검색을 효과적으로 수행할 수 있도록 하기 위하여 단어의 철자를 비교하는데 보편적으로 사용되는 편집거리 계산방법을 외국어 음차표기에 적합하도록 개선한 외래어 음차표기의 음성적 거리 계산방법에 관한 것이다.

컴퓨터 분야의 기술이 발전함에 따라 문서보관을 위한 공간을 효율적으로 사용하기 위하여 문서를 서류로서 보관하지 않고 정보데이터로 변환하여 컴퓨터에 저장하는 방법이 보편화되고 있다.

그에 따라 원하는 문서를 신속하게 찾기 위한 문서검색 시스템이 활용되고 있는데, 상기의 문서검색 시스템은 키워드(keyword) 등을 이용하여 유사한 내용을 갖는 문서들을 모두 제시함으로써 사용자의 편의성을 향상시키고 있다.

한편, 최근 외국과의 교류가 증대함에 따라서 한국어 문서에 많은 외국어의 음차표기가 사용되고 있는데, 대부분의 음차표기는 주로 영어에서 온 고유명사나 전문용어이다. 특히, 과학 기술 분야의 경우는 영어 전문용어 대한 한국어 번역이 없기 때문에 음차표기를 사용할 수 밖에 없는 경우가 허다하다. 하지만 외국어에 대한 음차표기에 개인차가 심하여 이들 텍스트에 대한 문서검색에 어려움이 발생하는 문제점이 있다.

예를 들어, 영어 'digital'에 대해 '디지털', '디지탈', '디지틀' 등의 세 가지 음차표기가 혼용되어 사용되고 있다. 상기의 각 음차표기 중에서 '디지털'이 표준표기로 제시되고 있지만 실제로는 '디지탈'이 더욱 빈번히 사용되고 있고, 개인에 따라 '디지틀'도 간혹 사용되고 있다.

상기와 같은 이유로 인해 다양한 음차표기를 포함하는 문서들에 대한 문서검색에서 이를 고려하지 않을 경우 실제로 검색되어야 하는 문서가 검색되지 못하는 경우가 많이 발생하게 되는 문제점이 있다.

이를 해결하기 위한 방법으로써, 같은 외국어에서 유래한 다양한 한국어 음차표기를 같은 등가부류(equivalence class)로 묶어서 검색시에 이를 자동으로 확장해 주는 방법이 제시되고 있다.[참조문헌: Jeong, K. S., Kwon, Y. H., and Myaeng, S. H., 'The Effect of a Proper Handling of Foreign and English Wordsin Retrieving Korean Text', InProceedings of the 2nd International Workshop on Information Retrieval with Asian Languages(IRAL’97), 1997.]

이러한 음차표기 등가부류를 만들기 위해서는 임의의 두 음차표기가 같은 외국어에서 온 것인지 알아내는 방법, 즉 음차표기 사이의 유사도를 비교하는 방법이 필요하다.

상기 음차표기 유사도 비교방법은 음차표기(외래어) 데이타베이스에서 근사검색(approximate search)을 하는데도 반드시 필요한 기술이다. 예를 들어, 외래어로 된 상호명 또는 상품명 검색에 유용하게 사용될 수 있을 것이다.

현재까지 한국어 음차표기의 유사도를 비교하는 방법은 개발된 적이 없고, 언어에 독립적으로 적용될 수 있는 문자열 유사도 비교 방법인 편집거리(edit distance) 방법[참조문헌: Hall, P. and Dowling, G., 'Approximate string matching',Computing Surveys, Vol. 12, No. 4, pp. 381-402, 1980.]이나, N-gram 방법[참조문헌: Zamora, E., Pollock, J., and Zamora, A., 'The use of trigram analysis for spelling error detection',Information Processing & Management, Vol. 17, No. 6, pp. 305-316, 1981.]이 사용되고 있는 실정이다.

상기 문자열 유사도 비교 방법이란 어떤 두 문자열이 철자가 비슷한지를 평가하는 방법인데, 한국어는 표음문자이기 때문에 철자가 비슷하면 유사한 발음을 낼 가능성이 많고 따라서 문자열 유사도 비교 방법이 음차표기의 유사도 비교에 비교적 효과적으로 사용될 수 있었다.

이하, 종래 기술에 의한 외래어 음차표기의 유사도 비교방법을 설명하고자한다.

Fred J. Damerau [참조문헌: Damerau, F., 'A technique for computer detection and correction of spelling errors',Communications of the ACM, 7, pp.171-176, 1964.]는 타이핑 오류를 (1) 한 글자 더하는 경우(삽입), (2) 한 글자 빠트리는 경우(삭제), (3) 한 글자를 다른 글자로 바꾸는 경우(치환), (4) 두 인접한 글자의 순서를 바꾸는 경우(전치) 등의 4가지 경우만 있다고 가정하고 두 단어 사이의 유사도를 두 단어 사이의 최소 타이핑오류의 수로써 측정하는 방법을 제안하였다. 이 메트릭은 Damerau-Levenshtein metric 또는 편집거리 방법(edit distance measure) 이라고 하며, 다음과 같은 순환방정식(recurrent equation)에 의해 두 단어s와t사이의 최소 타이핑 오류의 수를 계산할 수 있다. [참고문헌: Wagner, R. A., 'Order-n correction for regular languages.'Communications of the ACM, Vol. 17, N0. 5, pp. 265-268, 1974.]:

여기서 함수 는 두 글자 사이의 거리이고, 간단하게는 다음의 식을 사용할 수 있다.

상기 거리 함수 d는 목적에 따라 보다 복잡한 식이 사용될 수 있다.

상기와 같은 편집거리 방법을 한국어 음차표기 비교에 적용하는 경우에 '전치'는 타이핑 오류의 경우만 타당하므로 '삽입', '삭제', '치환'의 경우만 고려하는 것이 효과적이다. 그리고 초성 'ㅇ'은 음가가 없기 때문에 'ㅇ'을 제거한 후 비교하는 것이 효과적이다.

그러나, 상기와 같이 언어에 독립적으로 적용될 수 있는 단어 철자 비교 방법인 편집거리 방법이나 N-gram 방법은 음차표기 유사도 비교에 비교적 효과적으로 사용될 수 있지만, 발음 유사도 비교에는 최선의 방법이 아니다. 예를 들어 영어의 '디지틀(digital)'과 '디지트(digit)'는 철자가 아주 비슷한 음차표기이지만 서로 다른 영어에서 온 단어이다. 따라서, 기존의 철자 비교 방법은 이러한 경우 어려움에 처하게 된다.

따라서, 효과적인 음차표기 유사도 비교를 위해서는 그 원어인 외국어의 음운 구조를 고려하여야만 한다. 예를 들어, '로봇(robot)'이 자소 한 개가 다른 '로복' 보다는 자소 두 개가 차이가 나는 '로보트'와 영어식 발음으로 유사하다. 영어 단어의 끝에 오는 음소 /t/는 대개 한국어 음소 /ㅅ*/ 이나 /ㅌㅡ/로 바뀌기 때문이다. 상기에서 '*'표시는 종성자음을 표시한다.

결국, 이상에서 설명한 바와 같은 종래 기술에서는 단어의 철자를 비교하는데는 효과적이나, 발음 유사도를 비교하는 것이 어려워 문서검색 시스템에서 원하지 않는 문서가 검색되거나, 원하는 문서가 검색되지 않는 등의 정확한 검색이 이루어지지 않게 되는 문제점이 발생한다.

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출한 것으로서, 그 목적은 같은 외국어에서 유래한 음차표기들 사이에서 일어나기 쉬운 자소 변환 패턴을 정의하고, 각 변환 패턴에 그 음성적 거리에 따라 벌점을 부여한 다음, 편집거리 방법에서 사용되는 최소편집거리 계산방법을 적용하여 두 음차표기 사이의 최소음성거리를 계산할수 있도록 함으로써 문서검색 시스템에서 정확한 검색이 이루어질 수 있도록 하는 외래어 음차표기의 음성적 거리 계산방법을 제공하는데 있다.

도 1는 본 발명에 의한 따른 외래어 음차표기의 음성적 거리 계산방법의 일실시예를 보여주는 흐름도

상기와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 동일한 외국어에서 유래한 음차표기들 사이에서 발생할 수 있는 자소변환 패턴을 정의하여 치환, 삽입/삭제, 확장/축약의 세가지 패턴으로 정의하고 정의된 각 패턴에 벌점을 부여하여 문서검색 시스템의 데이터베이스에 저장하는 제1 과정;검색어 입력시 상기 제1 과정에서 정의된 자소변환 패턴을 이용하여 입력된 검색어에 대하여 새로운 음차표기를 발생시키면서 각각의 음차표기에 대하여 음성적 거리에 따라 벌점을 부여하는 제2 과정;상기 제2 과정이 수행된 후 최소 편집거리 계산방법을 적용하여 두 음차표기 사이의 최소 음성적 거리를 계산하는 제3 과정; 및상기 제3 과정에서 계산된 음성적 거리가 가장 작은 음차표기를 입력된 검색어의 음차표기와 가장 가까운 음차표기라고 판단하는 제4 과정;을 포함하는 것을 특징으로 한다.

이때, 본 발명의 부가적인 특징에 따르면, 상기 제1 과정에서는 자소변환 패턴을 한 개의 자소가 다른 자소로 바뀌는 치환, 한 개의 자소가 삽입 또는 삭제되는 삽입/삭제, 한 개의 자소가 두 개의 자소로 확장되거나 두 개의 연속된 자소가 하나의 자소로 축약되는 확장/축약의 세 가지로 구분하여 정의하고, 상기 세 가지 유형의 자소변환 패턴은 자음/모음으로 구분하고, 다시 상기 자음은 종성/초성으로 구분하여 정의하는 것이 바람직하다.

또한, 상기 제2 과정에서는 한 음차표기가 다른 음차표기로 변환되기 위해 필요한 최소의 변환조작에 따라 벌점을 부여하는 것이 바람직하다.

본 발명의 상술한 목적과 여러 가지 장점은 이 기술분야에 숙련된 사람들에 의해, 첨부된 도면을 참조하여 후술되는 본 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.

이하, 본 발명에 따른 바람직한 일 실시예를 첨부도면을 참조하여 상세히 설명한다.

일반적으로 두 단어 사이에 얼마만한 편집조작이 필요한지 계산하는 편집거리 방법이 한국어 음차표기의 비교에도 비교적 효과적으로 사용될 수 있지만, 편집거리 방법은 타이핑할 때 가능한 오류의 유형에 근거하고 있기 때문에 음성적 유사도 비교가 필요한 음차표기의 경우에는 여러가지 문제점이 발생한다. 즉, 음차표기의 경우에는 편집거리(edit distance)가 아닌 음성적 거리(phonetic distance)의 비교가 이루어져야 하기 때문에 상기 음성적 거리의 계산이 필요하다.

상기 편집거리 방법에 대응하는 음성적 거리 계산방법을 수행하기 위해서는,먼저 유사한 음차표기들 사이에 어떠한 자소 변환 패턴이 있는지 알아내는 것이 필요하다. 본 출원인은 이를 위해 많은 음차표기 데이타를 관찰하였고, 그 결과 이하의 표 1과 같이 외국어에서 유래된 음차표기들 사이에서 비교적 자주 일어나는 세 가지 유형의 전형적인 자소 변환 패턴을 발견하였다.

상기 표 1의 각 세 가지 변환 패턴 그룹은 자소를 모음/자음으로 구분하고, 자음을 초성/종성을 구분하면 더욱 세분화될 수 있는데, 그 세분화의 정도에 따라서 이하의 표 2와 같이 다양하게 알고리즘을 만들 수 있다.

상기 표 2에서는 자소 변화 패턴의 세분화 정도에 따른 알고리즘의 다양한변이형을 보여주며, 상기 표 2에 제시된 숫자는 벌점을 나타낸다.

상기 표 2에 나타난 바와 같이 알고리즘의 가장 단순한 경우가 기존의 편집거리 알고리즘에 해당하며, 세분화의 정도가 높아질수록 보다 정교하게 음차표기의 유사도를 계산할 수 있게 된다. 즉, 편집거리 알고리즘은 자소의 일치 여부만 고려하였을 경우이고, KPDMv는 모음만을 구분한 경우이고, KPDMvc는 모음/자음을 구분한 경우이며, KPDMvcc는 자음의 초성/종성까지 구분한 경우이며, KPDMec는 확장/축약까지 고려한 경우의 알고리즘이다.

하기의 표 3은 자소 변환 패턴과 구체적인 실례를 보여주고 있다.

상기 표 3에서는 모음을 모음으로 치환하는 경우 벌점 1점, 종성자음을 삭제하는 경우 벌점 2점, 그리고 모음을 모음 및 모음으로 확장하는 경우에 벌점 1점을 부과하는 경우를 예시한 것이다. 이상에서 제시한 바와 같은 자소의 변환 패턴을 이용하여 본 발명에서 음성적 거리를 계산하는 순환방정식이 하기의 표 4에 제시되어 있다.

결국, 알고리즘 KPDMec의 경우 두 음차표기s와t사이의 최소 총 벌점 값은 상기 표 4의 순환방정식(recurrent equation)에 의해 구할 수 있고, 동적 프로그래밍(dynamic programming) 방법을 사용하면 효율적인 계산이 가능하다. 여기서, 거리 함수d1,d2,d3,d4는 하기의 표 5에서 같이 정의할 수 있다.상기 표 4에 기재된 순환방정식은 상술한 Wagner, R.A. 'order-n correction for regular language.' 'Communications of the ACM, Vol. 17, N)5, pp. 265-268, 1974에 기재되어 있는 순환방정식에 단순히 자소변환패턴의 하나인 확장 및 축약패턴에 대한 거리함수(d1,d2,d3,d4)를 변수로 삽입하여 놓은 것으로, 본 발명에서는 치환, 삭제/삽입, 확장/축약에 대한 거리함수 d1,d2,d3,d4값이 가산된 최소 음성거리값들중 가장 작은 최소 음성 거리값을 가지는 음차표기가 입력된 검색어와 가장 유사한 음차표기라 할 수 있는 것이다.

결국, 상기와 같이 계산된 최소 음성거리(minimum phonetic distance)가 가장 작은 음차표기가 검색한 음차표기와 가장 유사한 음차표기라고 판단한다. 다른 알고리즘들의 경우도 같은 방식으로 음성거리를 계산할 수 있다.

한편, 상기 확장/축약 패턴의 경우 이를 모든 자소에 적용하는 것은 여러가지 문제점이 발생될 수 있다. 자소의 변화 패턴을 살펴보면, 'ㅅ*/ㅌㅡ' 변환이 'ㅅ*/ㄴㅡ' 변환보다 일어날 가능성이 훨씬 높다. 실제로 'ㅅ*/ㄴㅡ' 변환은 절대 일어나지 않는다고 단정해도 무리가 없다.

따라서, 보다 성능을 향상시키기 위해서는 확장/축약의 경우 패턴을 만족하는 구체적인 자소 조합 형태에 제한을 가할 필요가 있다. 예를 들어, 하기의 표 6에 포함된 자소 조합의 경우만 패턴을 만족하는 것으로 제한 할 수 있다. 이들 구체적인 자소 조합 형태는 빈번하게 일어난다고 생각되는 것들을 선택하면 된다.

하기의 표 6은 확장/축약 패턴을 만족하는 구체적인 자소 조합을 나타낸다.

상기 표 6의 예는 단지 한국어에서 등가부류에 속하는 음차표기들 사이에서 자주 발생한다고 생각하는 자소 변환 타입들의 일부이다. 결과적으로 상기 표 5의 거리 함수 d3, d4도 지정된 자소 조합을 만족하는 경우만 일치가 되도록 수정되어야 한다.

이하, 첨부된 도 1의 흐름도를 참조하여 본 발명에 의한 외래어 음차표기의 음성적 거리 계산방법의 일 실시예를 설명하고자 한다.

먼저, 시스템의 관리자가 동일한 외국어에서 유래한 음차표기들 사이에서 발생할 수 있는 자소변환 패턴을 정의하여 문서검색 시스템의 데이터베이스에 입력 저장하면(S1 참조), 시스템에서는 상기 정의된 자소변환 패턴을 이용하여 입력된 검색어에 대하여 새로운 음차표기를 발생시키면서 각각의 음차표기에 대하여 음성적 거리에 따라 벌점을 부여한다.(S2 참조)

이때, 상기 자소변환 패턴은 한 개의 자소가 다른 자소로 바뀌는 치환, 한 개의 자소가 삽입 또는 삭제되는 삽입/삭제, 한 개의 자소가 두 개의 자소로 확장되거나 두 개의 연속된 자소가 하나의 자소로 축약되는 확장/축약의 세 가지로 구분하여 정의하고, 상기 세 가지 유형의 자소변환 패턴은 자음/모음으로 구분하고, 다시 상기 자음은 종성/초성으로 구분하여 정의된다. 이때, 시스템의 성능향상을 위하여 확장/축약의 경우에는 상기 표 6과 같은 자소변환 패턴으로 한정한다. 또한, 상기 벌점의 부여는 표 3과 같은 방법으로 이루어진다.

상기의 동작에 의해, 모든 음차표기에 대한 벌점의 부여가 이루어진 후 시스템에서는 공지된 최소 편집거리 계산방법을 적용하여 두 음차표기 사이의 최소 음성적 거리를 계산하게 되고(S3 참조), 상기 계산된 음성적 거리가 가장 작은 음차표기가 입력된 검색어의 음차표기와 가장 가까운 음차표기라고 판단한다.(S4 참조) 이때, 상기 음성적 거리는 표 4의 순환방정식에 의해 구해진다.

본 발명은 특정의 실시예와 관련하여 도시 및 설명하였지만, 첨부된 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도내에서 다양한 개조 및 변화가 가능하다는 것을 당업계에서 통상의 지식을 가진자라면 누구나 쉽게 알 수 있을 것이다.

이상에서 설명한 바와 같은 본 발명에 따른 외래어 음차표기의 음성적 거리 계산방법은 두 음차표기 사이의 음성적 유사도를 비교하여 어떤 음차표기가 같은 외국어 단어에서 온 것인지를 효과적으로 판단할 수 있도록 함으로써, 한국어 문서에서 사용되는 다양한 외국어 음차표기에 대해서 동일한 외국어에 대한 다양한 음차표기를 효과적으로 찾아낼 수 있을 뿐만 아니라 문서검색 시스템에서 문서검색 시간을 단축시킴으로써 문서검색 시스템의 성능을 크게 개선시킬 수 있는 효과가 있다.

Claims

동일한 외국어에서 유래한 음차표기들 사이에서 발생할 수 있는 자소변환 패턴을 정의하여 치환, 삽입/삭제, 확장/축약의 세가지 패턴으로 정의하고 정의된 각 패턴에 벌점을 부여하여 문서검색 시스템의 데이터베이스에 저장하는 제1 과정;

검색어 입력시 상기 제1 과정에서 정의된 자소변환 패턴을 이용하여 입력된 검색어에 대하여 새로운 음차표기를 발생시키면서 각각의 음차표기에 대하여 음성적 거리에 따라 벌점을 부여하는 제2 과정;

상기 제2 과정이 수행된 후 최소 편집거리 계산방법을 적용하여 두 음차표기 사이의 최소 음성적 거리를 계산하는 제3 과정; 및

상기 제3 과정에서 계산된 음성적 거리가 가장 작은 음차표기를 입력된 검색어의 음차표기와 가장 가까운 음차표기라고 판단하는 제4 과정;을 포함하는 것을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
제 1 항에 있어서,

상기 제1 과정에서는 자소변환 패턴을 한 개의 자소가 다른 자소로 바뀌는 치환, 한 개의 자소가 삽입 또는 삭제되는 삽입/삭제, 한 개의 자소가 두 개의 자소로 확장되거나 두 개의 연속된 자소가 하나의 자소로 축약되는 확장/축약의 세 가지로 구분하여 정의하고, 상기 세 가지 유형의 자소변환 패턴은 자음/모음으로 구분하고, 다시 상기 자음은 종성/초성으로 구분하여 정의하고 이러한 각각의 패턴에 벌점을 부과하는 것을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
제 2 항에 있어서,

상기 확장/축약의 경우에는 종성 패턴이 ㅅ, ㄱ, ㅂ, ㅂ, ㄱ, ㄹ일 경우 각각 ㅌㅡ, ㅋㅡ, ㅍㅡ, ㅂㅡ, ㄱㅡ, ㄹㅡ의 초성 +모음으로 확장변환하고, 모음 패턴이 ㅐ, ㅏ, ㅓ, ㅠ, ㅝ, ㅠ, ㅐ일 경우 각각 ㅔㅣ, ㅔㅣ, ㅔㅣ, ㅣㅜ,ㅠㅓ,ㅣㅣ,ㅔㅓ 의 모음+모음으로 확장변환함을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
제 1 항에 있어서,

상기 제2 과정에서는 한 음차표기가 다른 음차표기로 변환되기 위해 필요한 최소의 변환조작에 따라 벌점을 부여하되, 모음을 모음으로 그리고 자음을 자음으로 각각 치환하는 경우에는 1점, 모음을 삽입하거나 삭제하는 경우에는 1점, 종성 자음을 삽입하거나 삭제하는 경우에는 2점, 초성자음을 삽입하거나 삭제하는 경우에는 3점을, 그리고 모음을 모음 + 모음으로 확장하거나 종성자음을 초성자음 및 모음으로 확장하는 경우에는 2점을 각각 벌점으로 부여함을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
청구항5는 삭제 되었습니다.
제 1 항에 있어서,

상기 제3 과정에서는 하기의 순환방정식에 따라 음성적 거리를 구하는 것을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.

이때,d1,d2,d3,d4는 거리함수로서 하기와 같이 정의 됨.
청구항7는 삭제 되었습니다.