KR100318762B1 - 외래어 음차표기의 음성적 거리 계산방법 - Google Patents

외래어 음차표기의 음성적 거리 계산방법 Download PDF

Info

Publication number
KR100318762B1
KR100318762B1 KR1019990042372A KR19990042372A KR100318762B1 KR 100318762 B1 KR100318762 B1 KR 100318762B1 KR 1019990042372 A KR1019990042372 A KR 1019990042372A KR 19990042372 A KR19990042372 A KR 19990042372A KR 100318762 B1 KR100318762 B1 KR 100318762B1
Authority
KR
South Korea
Prior art keywords
phonetic
distance
phoneme
notation
foreign
Prior art date
Application number
KR1019990042372A
Other languages
English (en)
Other versions
KR20010035679A (ko
Inventor
최기선
강병주
Original Assignee
윤덕용
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤덕용, 한국과학기술원 filed Critical 윤덕용
Priority to KR1019990042372A priority Critical patent/KR100318762B1/ko
Priority to US09/483,860 priority patent/US6581034B1/en
Publication of KR20010035679A publication Critical patent/KR20010035679A/ko
Application granted granted Critical
Publication of KR100318762B1 publication Critical patent/KR100318762B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 같은 외국어에서 유래한 음차표기들 사이에서 일어나기 쉬운 자소 변환 패턴을 정의하고, 각 변환 패턴에 그 음성적 거리에 따라 벌점을 부여한 다음, 편집거리 방법에서 사용되는 최소편집거리 계산방법을 적용하여 두 음차표기 사이의 최소음성거리를 계산할수 있도록 함으로써 문서검색 시스템에서 정확한 검색이 이루어질 수 있도록 하는 외래어 음차표기의 음성적 거리 계산방법에 관한 것으로서,
한국어 문서에서 사용되는 다양한 외국어 음차표기에 대해서 동일한 외국어에 대한 다양한 음차표기를 효과적으로 찾아낼 수 있을 뿐만 아니라 문서검색 시스템에서 문서검색 시간을 단축시킴으로써 문서검색 시스템의 성능을 크게 개선시킬 수 있는 효과가 있다.

Description

외래어 음차표기의 음성적 거리 계산방법 { Phonetic distance method for similarity comparison of foreign words }
본 발명은 외래어 음차표기의 음성적 거리 계산방법에 관한 것으로서, 보다 상세하게는 문서검색 시스템에서 음차표기 검색을 효과적으로 수행할 수 있도록 하기 위하여 단어의 철자를 비교하는데 보편적으로 사용되는 편집거리 계산방법을 외국어 음차표기에 적합하도록 개선한 외래어 음차표기의 음성적 거리 계산방법에 관한 것이다.
컴퓨터 분야의 기술이 발전함에 따라 문서보관을 위한 공간을 효율적으로 사용하기 위하여 문서를 서류로서 보관하지 않고 정보데이터로 변환하여 컴퓨터에 저장하는 방법이 보편화되고 있다.
그에 따라 원하는 문서를 신속하게 찾기 위한 문서검색 시스템이 활용되고 있는데, 상기의 문서검색 시스템은 키워드(keyword) 등을 이용하여 유사한 내용을 갖는 문서들을 모두 제시함으로써 사용자의 편의성을 향상시키고 있다.
한편, 최근 외국과의 교류가 증대함에 따라서 한국어 문서에 많은 외국어의 음차표기가 사용되고 있는데, 대부분의 음차표기는 주로 영어에서 온 고유명사나 전문용어이다. 특히, 과학 기술 분야의 경우는 영어 전문용어 대한 한국어 번역이 없기 때문에 음차표기를 사용할 수 밖에 없는 경우가 허다하다. 하지만 외국어에 대한 음차표기에 개인차가 심하여 이들 텍스트에 대한 문서검색에 어려움이 발생하는 문제점이 있다.
예를 들어, 영어 'digital'에 대해 '디지털', '디지탈', '디지틀' 등의 세 가지 음차표기가 혼용되어 사용되고 있다. 상기의 각 음차표기 중에서 '디지털'이 표준표기로 제시되고 있지만 실제로는 '디지탈'이 더욱 빈번히 사용되고 있고, 개인에 따라 '디지틀'도 간혹 사용되고 있다.
상기와 같은 이유로 인해 다양한 음차표기를 포함하는 문서들에 대한 문서검색에서 이를 고려하지 않을 경우 실제로 검색되어야 하는 문서가 검색되지 못하는 경우가 많이 발생하게 되는 문제점이 있다.
이를 해결하기 위한 방법으로써, 같은 외국어에서 유래한 다양한 한국어 음차표기를 같은 등가부류(equivalence class)로 묶어서 검색시에 이를 자동으로 확장해 주는 방법이 제시되고 있다.[참조문헌: Jeong, K. S., Kwon, Y. H., and Myaeng, S. H., 'The Effect of a Proper Handling of Foreign and English Wordsin Retrieving Korean Text', InProceedings of the 2nd International Workshop on Information Retrieval with Asian Languages(IRAL’97), 1997.]
이러한 음차표기 등가부류를 만들기 위해서는 임의의 두 음차표기가 같은 외국어에서 온 것인지 알아내는 방법, 즉 음차표기 사이의 유사도를 비교하는 방법이 필요하다.
상기 음차표기 유사도 비교방법은 음차표기(외래어) 데이타베이스에서 근사검색(approximate search)을 하는데도 반드시 필요한 기술이다. 예를 들어, 외래어로 된 상호명 또는 상품명 검색에 유용하게 사용될 수 있을 것이다.
현재까지 한국어 음차표기의 유사도를 비교하는 방법은 개발된 적이 없고, 언어에 독립적으로 적용될 수 있는 문자열 유사도 비교 방법인 편집거리(edit distance) 방법[참조문헌: Hall, P. and Dowling, G., 'Approximate string matching',Computing Surveys, Vol. 12, No. 4, pp. 381-402, 1980.]이나, N-gram 방법[참조문헌: Zamora, E., Pollock, J., and Zamora, A., 'The use of trigram analysis for spelling error detection',Information Processing & Management, Vol. 17, No. 6, pp. 305-316, 1981.]이 사용되고 있는 실정이다.
상기 문자열 유사도 비교 방법이란 어떤 두 문자열이 철자가 비슷한지를 평가하는 방법인데, 한국어는 표음문자이기 때문에 철자가 비슷하면 유사한 발음을 낼 가능성이 많고 따라서 문자열 유사도 비교 방법이 음차표기의 유사도 비교에 비교적 효과적으로 사용될 수 있었다.
이하, 종래 기술에 의한 외래어 음차표기의 유사도 비교방법을 설명하고자한다.
Fred J. Damerau [참조문헌: Damerau, F., 'A technique for computer detection and correction of spelling errors',Communications of the ACM, 7, pp.171-176, 1964.]는 타이핑 오류를 (1) 한 글자 더하는 경우(삽입), (2) 한 글자 빠트리는 경우(삭제), (3) 한 글자를 다른 글자로 바꾸는 경우(치환), (4) 두 인접한 글자의 순서를 바꾸는 경우(전치) 등의 4가지 경우만 있다고 가정하고 두 단어 사이의 유사도를 두 단어 사이의 최소 타이핑오류의 수로써 측정하는 방법을 제안하였다. 이 메트릭은 Damerau-Levenshtein metric 또는 편집거리 방법(edit distance measure) 이라고 하며, 다음과 같은 순환방정식(recurrent equation)에 의해 두 단어st사이의 최소 타이핑 오류의 수를 계산할 수 있다. [참고문헌: Wagner, R. A., 'Order-n correction for regular languages.'Communications of the ACM, Vol. 17, N0. 5, pp. 265-268, 1974.]:
여기서 함수 는 두 글자 사이의 거리이고, 간단하게는 다음의 식을 사용할 수 있다.
상기 거리 함수 d는 목적에 따라 보다 복잡한 식이 사용될 수 있다.
상기와 같은 편집거리 방법을 한국어 음차표기 비교에 적용하는 경우에 '전치'는 타이핑 오류의 경우만 타당하므로 '삽입', '삭제', '치환'의 경우만 고려하는 것이 효과적이다. 그리고 초성 'ㅇ'은 음가가 없기 때문에 'ㅇ'을 제거한 후 비교하는 것이 효과적이다.
그러나, 상기와 같이 언어에 독립적으로 적용될 수 있는 단어 철자 비교 방법인 편집거리 방법이나 N-gram 방법은 음차표기 유사도 비교에 비교적 효과적으로 사용될 수 있지만, 발음 유사도 비교에는 최선의 방법이 아니다. 예를 들어 영어의 '디지틀(digital)'과 '디지트(digit)'는 철자가 아주 비슷한 음차표기이지만 서로 다른 영어에서 온 단어이다. 따라서, 기존의 철자 비교 방법은 이러한 경우 어려움에 처하게 된다.
따라서, 효과적인 음차표기 유사도 비교를 위해서는 그 원어인 외국어의 음운 구조를 고려하여야만 한다. 예를 들어, '로봇(robot)'이 자소 한 개가 다른 '로복' 보다는 자소 두 개가 차이가 나는 '로보트'와 영어식 발음으로 유사하다. 영어 단어의 끝에 오는 음소 /t/는 대개 한국어 음소 /ㅅ*/ 이나 /ㅌㅡ/로 바뀌기 때문이다. 상기에서 '*'표시는 종성자음을 표시한다.
결국, 이상에서 설명한 바와 같은 종래 기술에서는 단어의 철자를 비교하는데는 효과적이나, 발음 유사도를 비교하는 것이 어려워 문서검색 시스템에서 원하지 않는 문서가 검색되거나, 원하는 문서가 검색되지 않는 등의 정확한 검색이 이루어지지 않게 되는 문제점이 발생한다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출한 것으로서, 그 목적은 같은 외국어에서 유래한 음차표기들 사이에서 일어나기 쉬운 자소 변환 패턴을 정의하고, 각 변환 패턴에 그 음성적 거리에 따라 벌점을 부여한 다음, 편집거리 방법에서 사용되는 최소편집거리 계산방법을 적용하여 두 음차표기 사이의 최소음성거리를 계산할수 있도록 함으로써 문서검색 시스템에서 정확한 검색이 이루어질 수 있도록 하는 외래어 음차표기의 음성적 거리 계산방법을 제공하는데 있다.
도 1는 본 발명에 의한 따른 외래어 음차표기의 음성적 거리 계산방법의 일실시예를 보여주는 흐름도
상기와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 동일한 외국어에서 유래한 음차표기들 사이에서 발생할 수 있는 자소변환 패턴을 정의하여 치환, 삽입/삭제, 확장/축약의 세가지 패턴으로 정의하고 정의된 각 패턴에 벌점을 부여하여 문서검색 시스템의 데이터베이스에 저장하는 제1 과정;검색어 입력시 상기 제1 과정에서 정의된 자소변환 패턴을 이용하여 입력된 검색어에 대하여 새로운 음차표기를 발생시키면서 각각의 음차표기에 대하여 음성적 거리에 따라 벌점을 부여하는 제2 과정;상기 제2 과정이 수행된 후 최소 편집거리 계산방법을 적용하여 두 음차표기 사이의 최소 음성적 거리를 계산하는 제3 과정; 및상기 제3 과정에서 계산된 음성적 거리가 가장 작은 음차표기를 입력된 검색어의 음차표기와 가장 가까운 음차표기라고 판단하는 제4 과정;을 포함하는 것을 특징으로 한다.
이때, 본 발명의 부가적인 특징에 따르면, 상기 제1 과정에서는 자소변환 패턴을 한 개의 자소가 다른 자소로 바뀌는 치환, 한 개의 자소가 삽입 또는 삭제되는 삽입/삭제, 한 개의 자소가 두 개의 자소로 확장되거나 두 개의 연속된 자소가 하나의 자소로 축약되는 확장/축약의 세 가지로 구분하여 정의하고, 상기 세 가지 유형의 자소변환 패턴은 자음/모음으로 구분하고, 다시 상기 자음은 종성/초성으로 구분하여 정의하는 것이 바람직하다.
또한, 상기 제2 과정에서는 한 음차표기가 다른 음차표기로 변환되기 위해 필요한 최소의 변환조작에 따라 벌점을 부여하는 것이 바람직하다.
본 발명의 상술한 목적과 여러 가지 장점은 이 기술분야에 숙련된 사람들에 의해, 첨부된 도면을 참조하여 후술되는 본 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.
이하, 본 발명에 따른 바람직한 일 실시예를 첨부도면을 참조하여 상세히 설명한다.
일반적으로 두 단어 사이에 얼마만한 편집조작이 필요한지 계산하는 편집거리 방법이 한국어 음차표기의 비교에도 비교적 효과적으로 사용될 수 있지만, 편집거리 방법은 타이핑할 때 가능한 오류의 유형에 근거하고 있기 때문에 음성적 유사도 비교가 필요한 음차표기의 경우에는 여러가지 문제점이 발생한다. 즉, 음차표기의 경우에는 편집거리(edit distance)가 아닌 음성적 거리(phonetic distance)의 비교가 이루어져야 하기 때문에 상기 음성적 거리의 계산이 필요하다.
상기 편집거리 방법에 대응하는 음성적 거리 계산방법을 수행하기 위해서는,먼저 유사한 음차표기들 사이에 어떠한 자소 변환 패턴이 있는지 알아내는 것이 필요하다. 본 출원인은 이를 위해 많은 음차표기 데이타를 관찰하였고, 그 결과 이하의 표 1과 같이 외국어에서 유래된 음차표기들 사이에서 비교적 자주 일어나는 세 가지 유형의 전형적인 자소 변환 패턴을 발견하였다.
상기 표 1의 각 세 가지 변환 패턴 그룹은 자소를 모음/자음으로 구분하고, 자음을 초성/종성을 구분하면 더욱 세분화될 수 있는데, 그 세분화의 정도에 따라서 이하의 표 2와 같이 다양하게 알고리즘을 만들 수 있다.
상기 표 2에서는 자소 변화 패턴의 세분화 정도에 따른 알고리즘의 다양한변이형을 보여주며, 상기 표 2에 제시된 숫자는 벌점을 나타낸다.
상기 표 2에 나타난 바와 같이 알고리즘의 가장 단순한 경우가 기존의 편집거리 알고리즘에 해당하며, 세분화의 정도가 높아질수록 보다 정교하게 음차표기의 유사도를 계산할 수 있게 된다. 즉, 편집거리 알고리즘은 자소의 일치 여부만 고려하였을 경우이고, KPDMv는 모음만을 구분한 경우이고, KPDMvc는 모음/자음을 구분한 경우이며, KPDMvcc는 자음의 초성/종성까지 구분한 경우이며, KPDMec는 확장/축약까지 고려한 경우의 알고리즘이다.
하기의 표 3은 자소 변환 패턴과 구체적인 실례를 보여주고 있다.
상기 표 3에서는 모음을 모음으로 치환하는 경우 벌점 1점, 종성자음을 삭제하는 경우 벌점 2점, 그리고 모음을 모음 및 모음으로 확장하는 경우에 벌점 1점을 부과하는 경우를 예시한 것이다. 이상에서 제시한 바와 같은 자소의 변환 패턴을 이용하여 본 발명에서 음성적 거리를 계산하는 순환방정식이 하기의 표 4에 제시되어 있다.
결국, 알고리즘 KPDMec의 경우 두 음차표기st사이의 최소 총 벌점 값은 상기 표 4의 순환방정식(recurrent equation)에 의해 구할 수 있고, 동적 프로그래밍(dynamic programming) 방법을 사용하면 효율적인 계산이 가능하다. 여기서, 거리 함수d1,d2,d3,d4는 하기의 표 5에서 같이 정의할 수 있다.상기 표 4에 기재된 순환방정식은 상술한 Wagner, R.A. 'order-n correction for regular language.' 'Communications of the ACM, Vol. 17, N)5, pp. 265-268, 1974에 기재되어 있는 순환방정식에 단순히 자소변환패턴의 하나인 확장 및 축약패턴에 대한 거리함수(d1,d2,d3,d4)를 변수로 삽입하여 놓은 것으로, 본 발명에서는 치환, 삭제/삽입, 확장/축약에 대한 거리함수 d1,d2,d3,d4값이 가산된 최소 음성거리값들중 가장 작은 최소 음성 거리값을 가지는 음차표기가 입력된 검색어와 가장 유사한 음차표기라 할 수 있는 것이다.
결국, 상기와 같이 계산된 최소 음성거리(minimum phonetic distance)가 가장 작은 음차표기가 검색한 음차표기와 가장 유사한 음차표기라고 판단한다. 다른 알고리즘들의 경우도 같은 방식으로 음성거리를 계산할 수 있다.
한편, 상기 확장/축약 패턴의 경우 이를 모든 자소에 적용하는 것은 여러가지 문제점이 발생될 수 있다. 자소의 변화 패턴을 살펴보면, 'ㅅ*/ㅌㅡ' 변환이 'ㅅ*/ㄴㅡ' 변환보다 일어날 가능성이 훨씬 높다. 실제로 'ㅅ*/ㄴㅡ' 변환은 절대 일어나지 않는다고 단정해도 무리가 없다.
따라서, 보다 성능을 향상시키기 위해서는 확장/축약의 경우 패턴을 만족하는 구체적인 자소 조합 형태에 제한을 가할 필요가 있다. 예를 들어, 하기의 표 6에 포함된 자소 조합의 경우만 패턴을 만족하는 것으로 제한 할 수 있다. 이들 구체적인 자소 조합 형태는 빈번하게 일어난다고 생각되는 것들을 선택하면 된다.
하기의 표 6은 확장/축약 패턴을 만족하는 구체적인 자소 조합을 나타낸다.
상기 표 6의 예는 단지 한국어에서 등가부류에 속하는 음차표기들 사이에서 자주 발생한다고 생각하는 자소 변환 타입들의 일부이다. 결과적으로 상기 표 5의 거리 함수 d3, d4도 지정된 자소 조합을 만족하는 경우만 일치가 되도록 수정되어야 한다.
이하, 첨부된 도 1의 흐름도를 참조하여 본 발명에 의한 외래어 음차표기의 음성적 거리 계산방법의 일 실시예를 설명하고자 한다.
먼저, 시스템의 관리자가 동일한 외국어에서 유래한 음차표기들 사이에서 발생할 수 있는 자소변환 패턴을 정의하여 문서검색 시스템의 데이터베이스에 입력 저장하면(S1 참조), 시스템에서는 상기 정의된 자소변환 패턴을 이용하여 입력된 검색어에 대하여 새로운 음차표기를 발생시키면서 각각의 음차표기에 대하여 음성적 거리에 따라 벌점을 부여한다.(S2 참조)
이때, 상기 자소변환 패턴은 한 개의 자소가 다른 자소로 바뀌는 치환, 한 개의 자소가 삽입 또는 삭제되는 삽입/삭제, 한 개의 자소가 두 개의 자소로 확장되거나 두 개의 연속된 자소가 하나의 자소로 축약되는 확장/축약의 세 가지로 구분하여 정의하고, 상기 세 가지 유형의 자소변환 패턴은 자음/모음으로 구분하고, 다시 상기 자음은 종성/초성으로 구분하여 정의된다. 이때, 시스템의 성능향상을 위하여 확장/축약의 경우에는 상기 표 6과 같은 자소변환 패턴으로 한정한다. 또한, 상기 벌점의 부여는 표 3과 같은 방법으로 이루어진다.
상기의 동작에 의해, 모든 음차표기에 대한 벌점의 부여가 이루어진 후 시스템에서는 공지된 최소 편집거리 계산방법을 적용하여 두 음차표기 사이의 최소 음성적 거리를 계산하게 되고(S3 참조), 상기 계산된 음성적 거리가 가장 작은 음차표기가 입력된 검색어의 음차표기와 가장 가까운 음차표기라고 판단한다.(S4 참조) 이때, 상기 음성적 거리는 표 4의 순환방정식에 의해 구해진다.
본 발명은 특정의 실시예와 관련하여 도시 및 설명하였지만, 첨부된 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도내에서 다양한 개조 및 변화가 가능하다는 것을 당업계에서 통상의 지식을 가진자라면 누구나 쉽게 알 수 있을 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 외래어 음차표기의 음성적 거리 계산방법은 두 음차표기 사이의 음성적 유사도를 비교하여 어떤 음차표기가 같은 외국어 단어에서 온 것인지를 효과적으로 판단할 수 있도록 함으로써, 한국어 문서에서 사용되는 다양한 외국어 음차표기에 대해서 동일한 외국어에 대한 다양한 음차표기를 효과적으로 찾아낼 수 있을 뿐만 아니라 문서검색 시스템에서 문서검색 시간을 단축시킴으로써 문서검색 시스템의 성능을 크게 개선시킬 수 있는 효과가 있다.

Claims (7)

  1. 동일한 외국어에서 유래한 음차표기들 사이에서 발생할 수 있는 자소변환 패턴을 정의하여 치환, 삽입/삭제, 확장/축약의 세가지 패턴으로 정의하고 정의된 각 패턴에 벌점을 부여하여 문서검색 시스템의 데이터베이스에 저장하는 제1 과정;
    검색어 입력시 상기 제1 과정에서 정의된 자소변환 패턴을 이용하여 입력된 검색어에 대하여 새로운 음차표기를 발생시키면서 각각의 음차표기에 대하여 음성적 거리에 따라 벌점을 부여하는 제2 과정;
    상기 제2 과정이 수행된 후 최소 편집거리 계산방법을 적용하여 두 음차표기 사이의 최소 음성적 거리를 계산하는 제3 과정; 및
    상기 제3 과정에서 계산된 음성적 거리가 가장 작은 음차표기를 입력된 검색어의 음차표기와 가장 가까운 음차표기라고 판단하는 제4 과정;을 포함하는 것을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
  2. 제 1 항에 있어서,
    상기 제1 과정에서는 자소변환 패턴을 한 개의 자소가 다른 자소로 바뀌는 치환, 한 개의 자소가 삽입 또는 삭제되는 삽입/삭제, 한 개의 자소가 두 개의 자소로 확장되거나 두 개의 연속된 자소가 하나의 자소로 축약되는 확장/축약의 세 가지로 구분하여 정의하고, 상기 세 가지 유형의 자소변환 패턴은 자음/모음으로 구분하고, 다시 상기 자음은 종성/초성으로 구분하여 정의하고 이러한 각각의 패턴에 벌점을 부과하는 것을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
  3. 제 2 항에 있어서,
    상기 확장/축약의 경우에는 종성 패턴이 ㅅ, ㄱ, ㅂ, ㅂ, ㄱ, ㄹ일 경우 각각 ㅌㅡ, ㅋㅡ, ㅍㅡ, ㅂㅡ, ㄱㅡ, ㄹㅡ의 초성 +모음으로 확장변환하고, 모음 패턴이 ㅐ, ㅏ, ㅓ, ㅠ, ㅝ, ㅠ, ㅐ일 경우 각각 ㅔㅣ, ㅔㅣ, ㅔㅣ, ㅣㅜ,ㅠㅓ,ㅣㅣ,ㅔㅓ 의 모음+모음으로 확장변환함을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
  4. 제 1 항에 있어서,
    상기 제2 과정에서는 한 음차표기가 다른 음차표기로 변환되기 위해 필요한 최소의 변환조작에 따라 벌점을 부여하되, 모음을 모음으로 그리고 자음을 자음으로 각각 치환하는 경우에는 1점, 모음을 삽입하거나 삭제하는 경우에는 1점, 종성 자음을 삽입하거나 삭제하는 경우에는 2점, 초성자음을 삽입하거나 삭제하는 경우에는 3점을, 그리고 모음을 모음 + 모음으로 확장하거나 종성자음을 초성자음 및 모음으로 확장하는 경우에는 2점을 각각 벌점으로 부여함을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
  5. 청구항5는 삭제 되었습니다.
  6. 제 1 항에 있어서,
    상기 제3 과정에서는 하기의 순환방정식에 따라 음성적 거리를 구하는 것을 특징으로 하는 외래어 음차표기의 음성적 거리 계산방법.
    이때,d1,d2,d3,d4는 거리함수로서 하기와 같이 정의 됨.
  7. 청구항7는 삭제 되었습니다.
KR1019990042372A 1999-10-01 1999-10-01 외래어 음차표기의 음성적 거리 계산방법 KR100318762B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990042372A KR100318762B1 (ko) 1999-10-01 1999-10-01 외래어 음차표기의 음성적 거리 계산방법
US09/483,860 US6581034B1 (en) 1999-10-01 2000-01-17 Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990042372A KR100318762B1 (ko) 1999-10-01 1999-10-01 외래어 음차표기의 음성적 거리 계산방법

Publications (2)

Publication Number Publication Date
KR20010035679A KR20010035679A (ko) 2001-05-07
KR100318762B1 true KR100318762B1 (ko) 2002-01-04

Family

ID=19613660

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990042372A KR100318762B1 (ko) 1999-10-01 1999-10-01 외래어 음차표기의 음성적 거리 계산방법

Country Status (2)

Country Link
US (1) US6581034B1 (ko)
KR (1) KR100318762B1 (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295979B2 (en) * 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
US7376752B1 (en) * 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
US7599828B2 (en) * 2005-03-01 2009-10-06 Microsoft Corporation Grammatically correct contraction spelling suggestions for french
DE102005030380B4 (de) * 2005-06-29 2014-09-11 Siemens Aktiengesellschaft Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
EP1855210B1 (en) * 2006-05-11 2018-01-03 Dassault Systèmes Spell checking
US7869657B2 (en) * 2006-06-12 2011-01-11 D & S Consultants, Inc. System and method for comparing images using an edit distance
US8027549B2 (en) * 2006-06-12 2011-09-27 D&S Consultants, Inc. System and method for searching a multimedia database using a pictorial language
US7870140B2 (en) * 2006-06-12 2011-01-11 D&S Consultants, Inc. System and method of incorporating user preferences in image searches
US8255216B2 (en) 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US20080123901A1 (en) * 2006-11-29 2008-05-29 D&S Consultants, Inc. Method and System for Comparing Images Using a Pictorial Edit Distance
US8504546B2 (en) * 2006-11-29 2013-08-06 D&S Consultants, Inc. Method and system for searching multimedia content
US8311341B1 (en) 2006-11-29 2012-11-13 D & S Consultants, Inc. Enhanced method for comparing images using a pictorial edit distance
US7921120B2 (en) 2006-11-30 2011-04-05 D&S Consultants Method and system for image recognition using a similarity inverse matrix
US7773811B2 (en) * 2006-12-06 2010-08-10 D & S Consultants, Inc. Method and system for searching a database of graphical data
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
US8504547B1 (en) 2008-04-23 2013-08-06 Google Inc. Customizing image search for user attributes
US8566076B2 (en) * 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
KR101045762B1 (ko) * 2008-11-03 2011-07-01 한국과학기술원 실시간 시맨틱 어노테이션 장치 및 이를 활용하여 사용자가입력한 자연어 스트링을 실시간으로 의미 가독형 지식 구조 문서로 생성하는 방법
KR101049358B1 (ko) * 2008-12-08 2011-07-13 엔에이치엔(주) 유사어 결정 방법 및 시스템
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US8229965B2 (en) * 2009-06-30 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. System and method for maximizing edit distances between particles
KR101231438B1 (ko) * 2011-05-25 2013-02-07 엔에이치엔(주) 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법
US9594742B2 (en) * 2013-09-05 2017-03-14 Acxiom Corporation Method and apparatus for matching misspellings caused by phonetic variations
WO2015193879A1 (en) * 2014-06-15 2015-12-23 Opisoft Care Ltd. Method and system for searching words in documents written in a source language as transcript of words in an origin language
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
GB2533370A (en) * 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
US20160210353A1 (en) 2015-01-20 2016-07-21 Avaya Inc. Data lookup and operator for excluding unwanted speech search results
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
CN112562675B (zh) * 2019-09-09 2024-05-24 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质
CN112133309B (zh) * 2020-09-22 2021-08-24 掌阅科技股份有限公司 音频和文本的同步方法、计算设备及存储介质
CN112634900A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 话术检测方法和话术检测装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5218536A (en) * 1988-05-25 1993-06-08 Franklin Electronic Publishers, Incorporated Electronic spelling machine having ordered candidate words
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system

Also Published As

Publication number Publication date
KR20010035679A (ko) 2001-05-07
US6581034B1 (en) 2003-06-17

Similar Documents

Publication Publication Date Title
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
US4833610A (en) Morphological/phonetic method for ranking word similarities
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
AU2007268059B2 (en) Method and apparatus for multilingual spelling corrections
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR101425182B1 (ko) 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법
US9110980B2 (en) Searching and matching of data
EP0271664B1 (en) A morphological/phonetic method for ranking word similarities
KR100318763B1 (ko) 외래어 음차표기 유사도 비교 방법
Zahoranský et al. Text search of surnames in some slavic and other morphologically rich languages using rule based phonetic algorithms
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR101694179B1 (ko) 모음 제거 기반 인덱스 생성 방법 및 장치
JP3531222B2 (ja) 類似文字列検索装置
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
QasemiZadeh et al. Adaptive language independent spell checking using intelligent traverse on a tree
JP3369127B2 (ja) 形態素解析装置
KR20140049148A (ko) 형태소 분할에 기반한 품사 태깅 방법 및 그 장치
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
KR20090041897A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
JP2009086911A (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
Bansal et al. Isolated-word Error Correction for Partially Phonemic Languages using Phonetic Cues
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081201

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee