KR20050032759A - 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 - Google Patents

음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 Download PDF

Info

Publication number
KR20050032759A
KR20050032759A KR1020030068711A KR20030068711A KR20050032759A KR 20050032759 A KR20050032759 A KR 20050032759A KR 1020030068711 A KR1020030068711 A KR 1020030068711A KR 20030068711 A KR20030068711 A KR 20030068711A KR 20050032759 A KR20050032759 A KR 20050032759A
Authority
KR
South Korea
Prior art keywords
phonological
phoneme
rule
phonetic
variation
Prior art date
Application number
KR1020030068711A
Other languages
English (en)
Other versions
KR100542757B1 (ko
Inventor
허정
황이규
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030068711A priority Critical patent/KR100542757B1/ko
Publication of KR20050032759A publication Critical patent/KR20050032759A/ko
Application granted granted Critical
Publication of KR100542757B1 publication Critical patent/KR100542757B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

본 발명은 한국어의 언어 및 발음 특성에 따라 각 음운변이 현상에 대한 규칙들을 작성하고, 이를 이용하여 입력 외래어와 동일의미를 갖는 다수의 이형태 음차표기들을 제공함으로써 정보검색, 질의응답시스템 등에서 그 검색 및 응답 성능의 향상을 도모할 수 있는 외래어 음차표기 자동 확장 방법 및 장치에 관한 것이다.
본 발명은 외래어 음차표기 시의 각 음운변이 현상에 대한 규칙들을 생성하고, 각 음운변이 규칙에 대한 가중치를 산출하는 단계; 입력 외래어를 자모의 음소단위로 분할하는 단계; 입력 외래어의 음소열에 해당되는 음운변이 규칙들을 적용하여 다수의 음차표기 후보 음소열들을 생성하는 단계; 각 음차표기 후보 음소열에 그 적용 규칙에 따른 가중치를 부여하여 상위 가중치의 후보 음소열들을 선정 출력하는 단계; 및 선정된 음차표기 후보 음소열에 대한 그 자모의 음소를 합성하여 확장된 외래어 음차표기들을 출력하는 단계;로 이루어진다.

Description

음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법 및 그 장치{Automatic expansion Method and Device for Foreign language transliteration}
본 발명은 외래어 음차표기 자동 확장 방법 및 장치에 관한 것이며, 보다 상세히는 한국어의 언어 및 발음 특성에 따라 음운변이 규칙들을 작성하고, 이를 이용하여 입력 외래어와 동일의미를 갖는 다수의 이형태 음차표기들을 제공하는 외래어 음차표기 자동 확장 방법 및 장치에 관한 것이다.
외래어 음차(音差)표기는 영어, 일본어, 한자 등과 같은 외국어를 도입함에 있어서 그 외국어 발음을 빌려 한국어로 표기하는 것을 말한다.
이러한 음차표기는 '외래어 표기법'규정이나 약속된 '표준어'가 있음에도 불구하고 사용자에 따라 동일 외래어에 대해 다수의 이형태 표기가 이뤄지고 있다. 예를 들면, ‘패킷(packet)’이라는 외래어에 대하여, ‘페킷’, ‘패키트’, ‘팩킷’, ‘펙킷트’ 등과 같은 다양한 이형태의 표기가 혼용되고 있다.
한편, 최근 인터넷 및 네트워크의 보급 등으로 인해 그 사용가치 및 활용도가 증대되고 있는 각종 정보검색 및 질의응답 시스템의 경우, 방대한 문서 및 데이터들 중에서 요청된 검색어 또는 질의어에 대해 정확한 관련정보를 제공하기 위해서는 입력 외래어에 대해 동일한 음차표기들로 자동화 확장하여 검색할 필요가 있다. 예를 들면, "워싱턴"이란 단어를 포함한 문서를 검색하고자 할 경우, 실제 문서에서는 사용자에 따라 다양한 표현형태로 기술될 수 있기 때문에 이를 확장하여, "와싱턴", "워싱튼", "와싱튼", "와싱톤", "워싱톤" 등으로 자동 확장하여 검색하면 그 검색시스템의 성능을 향상시킬 수 있다.
이를 위하여 종래에 외래어 음차표기 자동 확장방법들이 다수 제안된 바 있으며, 이들에 대해 살펴보면 다음과 같다.
즉, 종래 외래어 음차표기 확장방법으로서 "색인 과정에서 동일한 단어이지만 음운표기가 조금씩 다르다고 판단되는 단어들을 하나의 등가부류로 묶어 색인하는 방법"{참고문헌:Jeong, K, S., Kwon, Y. H., and Myaeng, In Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages(IRAL97), 1997.}이 제안된 바 있다. 이는 음소단위의 바이그램 유사도를 이용하여 색인 대상의 두 외래어 사이의 유사도를 측정하여 임계값 이상을 넘으면 같은 부류로 판단하는 방법이다.
또한, 다른 방법으로서, "외래어 음차표기 유사도 비교 방법"{한국출원:10-1999-0036905}가 제안되었으며, 이는 두 음차표기의 유사도를 비교하기 위해 영어발음 유사도 비교 알고리즘인 Soundex 알고리즘{참조문헌: Hall, P., Dowling, G., "Approximate string matching", Computing Surveys, Vol. 12, No. 4, pp. 381-402, 1980}을 한국어에 적용한 것이다.
즉, 단어의 음성적 유사도를 비교하기 위해 음차표기에서 모음을 제거하고 나머지 자음들에 대해 비슷한 발음을 내는 자음에 동일한 코드를 부여하여 코드 스트링이 같으면 유사한 발음으로 판단하는 방법이다.
하지만, 상기 방법은 이미 존재하는 두 외래어 사이의 유사도를 측정하여 동일성 여부를 판별하는 것으로, 정보검색을 위한 색인과정에서 색인 대상인 모든 단어에 대해 기존 색인된 단어와의 유사도를 비교하기 때문에 그 색인시간이 매우 크게 증가되고 결과적으로 검색 성능이 현저하게 저하되는 단점을 갖고 있다.
한편, 또 다른 음차표기 확장 방법으로서, "외래어를 한국어로 표기하기 위한 한국어 표기 방법"{한국출원:10-1999-0050572}이 제안된 바 있으며, 이는 발음기호사전을 이용하여 외래어(영어)를 발음기호로 변환하고 이를 가능한 모든 경우로 분절한 후, 각 분절된 발음단위에 대응하는 한글자모로 표기하고 학습자료를 통한 확률값에 따라 한국어표기로 확장하는 방법이다.
하지만, 상기 방법은 외래어 생성을 위해 통계적 모델을 사용하고 있는데, 이를 위해서는 방대한 학습데이터가 필요하게 된다. 즉, 현 한국어 음소에 대하여 그 분절된 앞,뒤 영어 음소와 선행 한국어 음소를 이용하여 그 발생확률을 계산하기 때문에 학습데이터로서 가능한 많은 영어 및 한국어 쌍이 필요하게 된다. 또한, 영어(‘computer’) 입력으로부터 그 가능한 한국어 음차표현들을 생성하는 방법이기 때문에 한국어(‘컴퓨터') 입력에 대해서는 그 등가의 음차표현을 찾을 수 없게 되고 그 적용이 용이하지 않게 되는 문제점이 있다.
따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 한국어의 음성 및 언어학적 음운변이 현상을 반영하는 음운변이규칙 및 동음가 테이블을 마련하고, 이를 이용하여 입력 외래어에 대해 다양한 이형태 음차표기로 자동 확장함으로써, 정보 검색, 질의응답 시스템 등에 있어서 그 검색 및 응답 성능의 향상을 도모할 수 있는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법 및 장치을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법은, 외래어 음차표기에 따른 음운변이 현상을 분석하여 음운변이 규칙을 생성하고 각 음운변이 규칙들의 가중치를 산출하는 단계; 검색 요청된 외래어에 대해 자음 및 모음의 음소단위로 분할하는 단계; 상기 분할 음소열에서 해당 음운변이 규칙의 존재 여부를 확인하고, 그 규칙에 따라 음운변이를 실행하여 음차표기 후보 음소열들을 생성하는 단계; 상기 음차표기 후보 음소열들에 그 적용된 음운변이 규칙의 가중치를 부여하고 그 결과가 소정 이상인 것을 선정하는 단계; 및 상기 선정된 음차표기 후보 음소열을 각각 음소 합성하여 검색요청 외래어와 동의의 외래어 음차표기들을 출력하는 단계;로 이루어진다.
또한, 상기 본 발명의 목적을 달성하기 위한 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 장치는, 외래어 음차표기 시 발생되는 음운변이 현상의 분석에 의해 생성되는 각 현상별 음운변이 규칙들이 저장 관리되는 음운변이 규칙 DB; 외래어를 포함하는 문서들을 통해 상기 각 음운변이 규칙이 한국어에 나타날 확률 및 외래어에 나타날 확률을 학습하고, 그 비율에 의해 상기 각 규칙들에 대한 가중치 데이터를 산출 저장하는 가중치 산출부; 입력 외래어를 자음과 모음의 음소단위로 분할하는 음소 분할부; 상기 음운변이 규칙 DB를 참조하여 상기 입력 외래어에 해당되는 음운변이 규칙이 존재하는지를 확인하고, 상기 입력 외래어의 음소열에 해당 규칙들을 적용하여 다수의 음차표기 후보 음소열들을 생성하는 음운변이 규칙 처리부; 상기 각 음차표기 후보 음소열에 그 적용 규칙에 따른 가중치를 부여하고, 각 후보 음소열을 그 가중치값 순서로 정렬한 후 소정의 상위 가중치값을 갖는 후보 음소열들을 선정 출력하는 가중치 태깅부; 및 상기 선정된 음차표기 후보 음소열들에 대해 그 자음과 모음의 음소를 합성하여 외래어 음차표기들을 출력하는 음소 합성부;로 구성된다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 외래어 음차표기 자동 확장 장치에 대한 블록 구성도이다.
도 1을 참조하면, 본 발명의 외래어 음차표기 자동 확장장치는, 음소 분할부(10), 음운변이 규칙 처리부(20), 가중치 태깅부(40), 및 음소 합성부(50)로 이루어지며, 음운변이 규칙 DB(30)와 가중치 DB(45)를 구비한다.
본 발명은 일반적인 한국어 음운변이 규칙들 중에서 외래어 음차표기 시 자주 발생하는 현상을 통계적 분석 및 자료 분석을 통해 찾아내어 음운변이 규칙 DB(30)를 구축하고 이러한 음운변이 규칙을 이용하여 외래어 음차표기를 확장하는 것이다.
여기에서 음운변이란 서로 다른 두 개의 음운이 연속적으로 발음될 때 앞뒤의 음운이 상호 영향을 미쳐 그 발음이 변화되는 현상을 말한다. 이러한 음운변이는, 특히 외래어 발음에 있어서, 그 언어적 또는 발음 구조적 특성으로 인해 사용자에 따라 다양한 형태로 이뤄질 수 있다.
이러한 외래어 표기에 따른 음운변이는 크게 음운축약/확장, 음운강약(강세), 음운대체, 음운 삽입/탈락 등으로 분류할 수 있으며, 통계적 분석 등을 토대로 각각의 현상에 대해 일정한 규칙성을 부여할 수 있다.
상기 음운변이 규칙 DB(30)에는 각 현상별 음운변이 규칙 테이블, 즉 음운축약/확장 규칙 테이블(31), 음운 대체 규칙 테이블(32), 음운강약/복원 규칙 테이블(33), 음운삽입/탈락 규칙 테이블(34), 동음가 테이블(35) 등을 구비하고, 각 음운변이 현상에 대한 규칙들을 저장 관리한다.
한편, 외래어 음차표기 시에 발생되는 음운변이 규칙들 각각에 대해 살펴보면 다음과 같다.
먼저, 음운 축약/확장 규칙의 경우, 분절된 앞뒤 음소의 두 음운이 합쳐져서 하나의 음운이나 음절로 소리나는 현상을 음운축약이라 하며, 반대의 현상을 음운확장이라 한다. 이러한 현상은 주로 모음에서 많이 발생하는 것으로, 예를 들면, '카이사르(Caesar)'가 '케사르'로 음차변이되는 현상이다. 즉, 'ㅏ'와 'ㅣ' 음소가 결합하여 'ㅔ' 음소로 축약되며, 반대로 '케사르'를 음운 확장하면 '카이사르'가 된다. 도 3은 이러한 음운 축약/확장에 따른 음운변이 및 규칙들을 예시한 도표도이다.
또한, 음운 대체 현상은 주위 문맥 또는 사용자의 의도에 의해 일부러 모음조화 현상을 파기함으로써 다른 음운으로 대체 또는 혼용하여 사용하는 경우이다. 외국어는 한국어에 비해 모음조화 현상을 만족하지 않아도 되는 발음표현이 많기 때문에 외래어를 음차표현함에 있어서 이러한 음운대체 현상이 자주 발생한다.
예를 들면, '레드포드(redford)'는 '레드퍼드'로 음차표현되어도 그 차이를 느낄 수 없다. 즉, 'ㅡ'와 'ㅗ' 음소와 'ㅡ'와 'ㅓ'음소간의 음운대체 변화는 일반적으로 발생될 수 있다. 도 4에는 이러한 음운대체 현상 및 규칙들에 대해 예시하고 있다.
또한, 음운 강약(강세) 및 복원 현상에 대해 살펴보면, 이러한 음운 강약 현상은 두 개의 안울림소리가 만나면 뒤의 소리가 된소리로 변경되기도 하고, 한국어에 없지만 외래어에는 있는 단어내의 강세(stress) 및 화자의 의도에 따라 음소가 강한 발음이나 거친 발음으로 변화할 때 나타나는 음운변이 현상이다.
예를 들면, '갈브레이스 (Galbraith)'가 '갤브레이스'로 음차표현되는 현상이며, 반대로 '갤브레이스'는 '갈브레이스'로 강세 복원될 수 있다. 도 5는 이와 같은 음운 강약 현상 및 그 규칙들을 예시하고 있는 도표도이다.
또한, 음운 삽입/탈락 현상은 음소와 음소가 결합하면서 발음의 편리를 위해 어느 한 음운을 생략하는 현상을 음운 탈락이라 하며, 반대로 자연스러운 발음을 위해 유사한 음소가 추가되는 현상을 음운 삽입이라 한다.
예를 들면, '데일리(Daily)'의 경우 발음의 편의를 위해 '데이리'로 음운 생략될 수 있다. 도 6에는 이러한 음운 삽입/탈락 현상 및 그 규칙들을 예시하고 있다.
한편, 상기 음운변이 규칙 DB(30)에는 동음가 테이블(35)을 마련하여, 상기와 같은 각 음운변이 규칙을 적용함에 있어서 그 대표음가가 같으면 동일음가로 간주하여 외래어 표기를 확장하게 된다.
즉, 상기 동음가 테이블(35)에는 외래어 발음과정에서 자주 혼동(혼용)되는 동음가들에 대하여 그 대표음을 통해 분류 관리한다. 예를 들면, 외래어 표현에 있어 'ㄱ'은 'ㅋ'이나 'ㄲ'과 단지 사용자의 발성 강세에 따른 차이를 보일 뿐 음소의 값이 같은 경우가 많다. 따라서 상기 음운변이 규칙을 적용함에 있어 대표음가가 같은 동일음들을 통해 외래어 음차표현을 확장하여야 한다. 도 7에는 이와 같은 동음가 테이블(35)의 구성이 예시되어 있다.
한편, 이와 같이 각 음운변이 현상에 대한 규칙들이 마련되면, 각각의 규칙들에 대해 가중치값을 산출하고, 이를 상기 가중치 DB(45)에 저장한다.
다수의 외래어를 포함하는 문서들을 통해 각각의 규칙이 한국어에 나타날 확률 및 외래어에 나타날 확률을 학습하고 다음의 수식 (1)에 의해 각 규칙들에 대한 가중치를 산출하게 된다.
(1)
예를 들면, '갈브레이스'->'갤브레이스'로 음운강세 변이시키는 'ㅏ+ㅡ' --> 'ㅐ+ㅡ' 규칙 r1과, '갈브레이스'->'겔브레이스'로 변이시키는 'ㅏ+ㅡ' --> 'ㅔ+ㅡ' 규칙 r2의 경우, 충분한 분량의 학습문서를 통해 r1 규칙이 생성해 내는 음소열('ㅐ+ㅡ')가 한국어에 나타날 확률과 외래어에 나타날 확률을 계산하고, 또한 r2 규칙에 대해서도 음소열('ㅔ+ㅡ')가 한국어에 나타날 확률과 외래어에 나타날 확률을 계산한 후, 상기 수학식 (1)에 따라 그 비율을 학습하고 각 규칙 r1,r2에 대한 가중치를 산출하게 된다. 이때, 상기 학습문서는 그 포함된 외래어들에 대해서 미리 외래어임을 나타내는 표시를 한 문서이다.
본 발명은, 상기 설명된 바와 같이 각 음운변이 규칙 DB(30)와 각 규칙에 대한 가중치 DB(45)가 구축된 상태에서, 정보검색 또는 질의요청에 의해 외래어가 입력되면 그에 대한 동의의 음차표기들로 확장하고 그 확장 외래어 표기를 토대로 검색 및 응답자료를 제공하게 된다.
도 1에서, 사용자의 검색요청에 따라 외래어가 입력되면, 상기 음소 분할부(10)는 그 입력 외래어를 음소단위로 분할 처리한다. 즉, '컴퓨터'의 경우, ㅋ + ㅓ + ㅁ + ㅍ + ㅠ + ㅌ + ㅓ로 분할한다.
상기 음운변이 규칙 처리부(20)는, 음운축약/확장 처리부(21), 음운 대체 처리부(22), 음운 강약 처리부(23), 음운 삽입/탈락 처리부(24)를 구비하고, 상기 음운변이 규칙 DB(30)의 각 대응 테이블을 참조하여 상기 분할된 음소열에서 해당 변이 규칙이 존재하는지를 검토한다. 이때, 해당 규칙이 존재할 경우 그 규칙에 따라 음운변이를 실행하여 음차표기 후보 음소열을 생성하게 된다.
또한, 각각의 음운변이 처리부들(31~34)은 동음가 테이블(35)을 참조하여 동음가로 변이가 가능한 경우에 대하여도 음운변이를 실행하여 또 다른 후보 음소열을 생성한다.
이러한 과정을 통해서 상기 음운변이 규칙 처리부(20)는 입력 외래어에 대한 다수의 음차표기 후보 음소열들을 가중치 태깅부(40)로 출력하게 된다.
이에 따라, 상기 가중치 태깅부(40)는, 상기 가중치 DB(45)를 참조하여, 각각의 음차표기 후보 음소열들에 대해 그 적용된 변이 규칙에 따라 가중치값을 산출하고, 그 가중치값 순서로 정렬하여 상위의 후보들을 선정하여 출력한다. 이러한 후보 선정은 가중치값이 소정의 임계값이상인 경우로 하거나, 출력후보의 개수에 의해 선정될 수 있다.
이때, 하나의 후보 음소열에 다수의 변이 규칙들이 적용될 수 있으며 이 경우에는 각 적용 규칙에 따른 가중치를 합한 값을 그 후보열의 최종 가중치로 하는 것이 바람직하다. 또한, 당업자로서는 가중치를 합산함에 있어서 동일 변이규칙 내 또는 외부인지 또는 동음가 처리인지 등에 따라 적정의 조절 파라미터값을 부여하여 최종 가중치값를 산출할 수도 있다.
그리고, 상기 음소 합성부(50)는 상기 선정된 음차표기 후보 음소열들을 각각 합성함으로써, 상기 입력 외래어에 대해 확장된 외래어 음차표기들을 출력한다.
한편, 도 2는 본 발명에 따른 외래어 음차표기 자동 확장 과정에 대한 흐름도이다.
도 2에 도시된 바와 같이, 본 발명의 외래어 음차표기 확장 방법은, 먼저 외래어에 대한 통계자료를 분석하여 음운 축약/확장, 음운 대체, 음운 강약 등과 같은 각 음운변이 현상에 대한 음운변이 규칙을 생성하고 이에 대한 음운변이 규칙 DB(30)를 구축하는 단계;(S201) 학습과정 및 상기 수학식 (1)을 적용하여 각 음운변이 규칙들에 대한 가중치를 산출하고 이를 가중치 DB(45)에 저장하는 단계;(S202) 검색요청 시 입력되는 외래어에 대하여 각 음소단위로 분할하는 단계;(S203) 상기 음운변이 규칙 DB(30)를 참조하여 입력 외래어의 음소열에 각 음소변이 규칙을 적용하여 다수의 음차표기 후보 음소열들을 생성하는 단계;(S204) 상기 가중치 DB(45)를 참조하여 상기 생성된 각 후보 음소열들에 대해 그 적용규칙에 따른 가중치값을 계산하는 단계;(S205) 각 후보 음소열들을 가중치 순서로 정렬하고 상위 가중치의 후보 음소열을 선정하는 단계;(S206) 및 상기 선정된 후보들에 대해 각각 그 음소 합성하여 확장된 외래어 표현들을 출력하는 단계;(S207)로 이루어진다.
상술한 바와 같은 본 발명의 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법 및 장치에 따르면, 정보검색 등에서 한국어 음차표기된 외래어 키워드를 모든 가능한 음차표현으로 자동 확장할 수 있어 검색의 재현율을 향상시킬 수 있으며, 질의응답과 같은 시스템에서 외래어 인명이나 지명 등 고유명사를 정답으로 포함하는 경우, 성능 향상에 도움을 줄 수 있다. 또한, 과학 분야 등과 같이 외래어를 많이 포함하는 문서의 자동 분류 등과 같은 응용에서도 중요한 키워드에 대한 클러스터링 등을 효과적으로 수행할 수 있다.
이상에서 설명한 것은 본 발명에 따른 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법 및 장치를 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
도 1은 본 발명에 따른 외래어 음차표기 자동 확장 장치에 대한 블록 구성도.
도 2는 본 발명에 따른 외래어 음차표기 확장 과정에 대한 흐름도.
도 3은 본 발명에 따른 음운 축약/확장 규칙에 대한 예시 도표도.
도 4는 본 발명에 따른 음운 대체 규칙에 대한 예시 도표도.
도 5는 본 발명에 따른 음운 강세(강약) 규칙에 대한 예시 도표도.
도 6은 본 발명에 따른 음운 삽입/탈락 규칙에 대한 예시 도표도.
도 7은 본 발명에 따른 동음가 테이블에 대한 예시 도표도.
<도면의 주요부분에 대한 부호의 설명>
10: 음소 분할부 20: 음운변이 규칙 처리부
21: 음운 축약/확장 처리부 22: 음운 대체 처리부
23: 음운 강약 처리부 24: 음운 삽입/탈락 처리부
30: 음운변이 규칙 DB 40: 가중치 태깅부
45: 가중치 DB 50: 음소 합성부

Claims (11)

  1. 외래어 음차표기에 따른 음운변이 현상을 분석하여 음운변이 규칙을 생성하고 각 음운변이 규칙들의 가중치를 산출하는 단계;
    검색 요청된 외래어에 대해 자음 및 모음의 음소단위로 분할하는 단계;
    상기 분할 음소열에서 해당되는 음운변이 규칙의 존재 여부를 확인하고, 그 규칙에 따라 음운변이를 실행하여 음차표기 후보 음소열들을 생성하는 단계;
    상기 음차표기 후보 음소열들에 그 적용된 음운변이 규칙의 가중치를 부여하고 그 결과가 소정 이상인 것을 선정하는 단계; 및
    상기 선정된 음차표기 후보 음소열을 각각 음소 합성하여 검색요청 외래어와 동의의 외래어 음차표기들을 출력하는 단계;로 이루어지는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  2. 제 1항에 있어서, 상기 음운변이 규칙 생성 및 가중치 산출 단계는, 음운변이 규칙을 생성함에 있어서,
    분절된 앞뒤 음소의 두 음운이 합쳐져서 하나의 음운으로 축약되거나 그 반대로 확장되는 현상에 대한 음운 축약/확장 규칙과, 다른 음운으로 대체 사용되는 음운변이 현상에 대한 음운 대체 규칙과, 음소가 강한 음운이나 거친 음운으로 변이하는 현상에 대한 음운 강약/복원 규칙과, 앞뒤 음소간의 결합에 의해 어느 한 음운이 생략되거나 그 반대의 음운변이 현상에 대한 음운 삽입/탈락 규칙을 생성하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  3. 제 1항에 있어서, 상기 음운변이 규칙 생성 및 가중치 산출 단계는, 음운변이 규칙을 생성함에 있어서,
    외래어 발음과정에서 자주 혼용되는 동일 음가들을 그 대표음을 통해 분류하여 동음가 테이블을 구성하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  4. 제 1항에 있어서, 상기 음운변이 규칙 생성 및 가중치 산출 단계는, 각 음운변이 규칙에 대한 가중치를 산출함에 있어서,
    다수의 외래어를 포함하는 학습문서들을 통해 상기 각 음운변이 규칙들이 한국어에 나타날 확률 및 외래어에 나타날 확률을 학습하고, 그 한국어 학습확률에 대한 외래어 학습확률의 비율로서 각 규칙들에 대한 가중치를 산출하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  5. 제 1항 또는 제 3항에 있어서, 상기 음운변이 규칙 적용 및 음차변이 후보 음소열 생성 단계는,
    상기 음운변이 규칙의 적용에 의해 생성된 각 음차변이 후보 음소열에 대해, 대표음이 같은 음소의 동음가 변이를 실행하여 음차변이 후보 음소열을 추가로 생성하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  6. 제 1항에 있어서, 상기 가중치 부여 및 후보 선정 단계는,
    하나의 음차표기 후보 음소열에 대해 다수의 음운변이 규칙이 적용된 경우, 그 적용 규칙들에 따른 가중치들을 합산한 값을 그 후보 음소열에 대한 가중치값으로 하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  7. 제 1항 또는 제 6항에 있어서, 상기 가중치 부여 및 후보 선정 단계는,
    그 적용 규칙에 따라 각 음차표기 후보 음소열들에 대한 가중치값을 산출하고, 그 가중치값 순서로 정렬하여 소정의 기준값 또는 설정 개수에 의해 상위의 후보들을 선정 출력하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법.
  8. 외래어 음차표기 시 발생되는 음운변이 현상의 분석에 의해 생성되는 각 현상별 음운변이 규칙들이 저장 관리되는 음운변이 규칙 DB;
    외래어를 포함하는 문서들을 통해 상기 각 음운변이 규칙이 한국어에 나타날 확률 및 외래어에 나타날 확률을 학습하고, 그 비율에 의해 상기 각 규칙들에 대한 가중치 데이터를 산출 저장하는 가중치 산출부;
    입력 외래어를 자음과 모음의 음소단위로 분할하는 음소 분할부;
    상기 음운변이 규칙 DB를 참조하여 상기 입력 외래어에 해당되는 음운변이 규칙이 존재하는지를 확인하고, 상기 입력 외래어의 음소열에 해당 규칙들을 적용하여 다수의 음차표기 후보 음소열들을 생성하는 음운변이 규칙 처리부;
    상기 각 음차표기 후보 음소열에 그 적용 규칙에 따른 가중치를 부여하고, 각 후보 음소열을 그 가중치값 순서로 정렬한 후 소정의 상위 가중치값을 갖는 후보 음소열들을 선정하는 가중치 태깅부; 및
    상기 선정된 음차표기 후보 음소열들에 대해 그 자음과 모음의 음소를 합성하여 외래어 음차표기들을 출력하는 음소 합성부;로 구성되는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 장치.
  9. 제 8항에 있어서, 상기 음운변이 규칙 처리부는,
    분할된 앞뒤 음소의 두 음운이 합쳐져서 하나의 음운으로 축약되거나 그 반대로 확장되는 현상에 따른 음운변이 규칙을 처리하는 음운축약/확장 규칙 처리부와,
    다른 음운으로 대체 사용되는 음운변이 현상에 따른 음운변이 규칙을 처리하는 음운대체 규칙 처리부와,
    음소가 강한 음운이나 거친 음운으로 변이하는 현상에 따른 음운변이 규칙을 처리하는 음운강약/복원 규칙 처리부와,
    앞뒤 음소간의 결합에 의해 어느 한 음운이 생략되거나 반대로 음운이 삽입되는 현상에 따른 음운변이 규칙을 처리하는 음운 삽입/탈락 규칙 처리부로 이루어지는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 장치.
  10. 제 8항 또는 9항에 있어서, 상기 음운변이 규칙 처리부는,
    각각의 음운변이 규칙 처리부에서 상기 입력 외래어의 음소열에 그 음운변이 현상에 따른 규칙들의 적용 여부를 확인하고 그에 따라 음차표기 후보 음소열들을 생성함에 있어서, 각 음운변이 규칙 처리부들은 대표음이 같은 동음가 변이를 실행하여 음차표기 후보 음소열을 추가로 생성하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 장치.
  11. 제 8항에 있어서, 상기 가중치 태깅부는,
    어느 한 후보 음소열에 다수의 음운변이 규칙이 적용된 경우, 각 규칙에 따른 가중치들을 합산한 값을 그 후보 음소열에 대한 가중치값으로 하는 것을 특징으로 하는 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 장치.
KR1020030068711A 2003-10-02 2003-10-02 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 KR100542757B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030068711A KR100542757B1 (ko) 2003-10-02 2003-10-02 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030068711A KR100542757B1 (ko) 2003-10-02 2003-10-02 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치

Publications (2)

Publication Number Publication Date
KR20050032759A true KR20050032759A (ko) 2005-04-08
KR100542757B1 KR100542757B1 (ko) 2006-01-20

Family

ID=37237137

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030068711A KR100542757B1 (ko) 2003-10-02 2003-10-02 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치

Country Status (1)

Country Link
KR (1) KR100542757B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007114605A1 (en) * 2006-03-31 2007-10-11 Gwangju Institute Of Science And Technology Acoustic model adaptation methods based on pronunciation variability analysis for enhancing the recognition of voice of non-native speaker and apparatuses thereof
KR101049358B1 (ko) * 2008-12-08 2011-07-13 엔에이치엔(주) 유사어 결정 방법 및 시스템
WO2017082447A1 (ko) * 2015-11-11 2017-05-18 주식회사 엠글리쉬 외국어 독음 및 표시장치와 그 방법, 및 이를 이용한 외국어 리듬 동작 감지 센서 기반의 운동학습장치와 운동학습방법, 이를 기록한 전자매체 및 학습교재
KR20170055146A (ko) * 2015-11-11 2017-05-19 주식회사 엠글리쉬 영어 발음기호를 이용한 외국어 및 자국어 표시장치 및 방법
KR20170059665A (ko) * 2015-11-23 2017-05-31 주식회사 엠글리쉬 외국어 리듬 동작 감지 센서 기반의 운동 학습 장치, 그리고 이를 이용한 운동 학습 방법
KR20170060759A (ko) * 2015-11-25 2017-06-02 주식회사 엠글리쉬 외국어 학습교재
CN108352126A (zh) * 2015-11-11 2018-07-31 株式会社Mglish 外语读音及标记装置及其方法,包括利用其装置和方法的基于外语节奏动作传感器的运动学习装置、运动学习方法以及对其进行记录的电子媒体和学习教材
KR101982490B1 (ko) * 2018-05-25 2019-05-27 주식회사 비즈니스인사이트 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치
CN112185346A (zh) * 2020-09-25 2021-01-05 北京百分点信息科技有限公司 多语种语音关键词检测、模型生成方法及电子设备
KR20210047192A (ko) * 2019-10-21 2021-04-29 (주)나라지식정보 음소 기반 텍스트 검색 장치 및 방법

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US8515753B2 (en) 2006-03-31 2013-08-20 Gwangju Institute Of Science And Technology Acoustic model adaptation methods based on pronunciation variability analysis for enhancing the recognition of voice of non-native speaker and apparatus thereof
WO2007114605A1 (en) * 2006-03-31 2007-10-11 Gwangju Institute Of Science And Technology Acoustic model adaptation methods based on pronunciation variability analysis for enhancing the recognition of voice of non-native speaker and apparatuses thereof
KR101049358B1 (ko) * 2008-12-08 2011-07-13 엔에이치엔(주) 유사어 결정 방법 및 시스템
CN108352126A (zh) * 2015-11-11 2018-07-31 株式会社Mglish 外语读音及标记装置及其方法,包括利用其装置和方法的基于外语节奏动作传感器的运动学习装置、运动学习方法以及对其进行记录的电子媒体和学习教材
WO2017082447A1 (ko) * 2015-11-11 2017-05-18 주식회사 엠글리쉬 외국어 독음 및 표시장치와 그 방법, 및 이를 이용한 외국어 리듬 동작 감지 센서 기반의 운동학습장치와 운동학습방법, 이를 기록한 전자매체 및 학습교재
KR20170055146A (ko) * 2015-11-11 2017-05-19 주식회사 엠글리쉬 영어 발음기호를 이용한 외국어 및 자국어 표시장치 및 방법
US10978045B2 (en) 2015-11-11 2021-04-13 Mglish Inc. Foreign language reading and displaying device and a method thereof, motion learning device based on foreign language rhythm detection sensor and motion learning method, electronic recording medium, and learning material
KR20170059665A (ko) * 2015-11-23 2017-05-31 주식회사 엠글리쉬 외국어 리듬 동작 감지 센서 기반의 운동 학습 장치, 그리고 이를 이용한 운동 학습 방법
KR20170060759A (ko) * 2015-11-25 2017-06-02 주식회사 엠글리쉬 외국어 학습교재
KR101982490B1 (ko) * 2018-05-25 2019-05-27 주식회사 비즈니스인사이트 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치
KR20210047192A (ko) * 2019-10-21 2021-04-29 (주)나라지식정보 음소 기반 텍스트 검색 장치 및 방법
CN112185346A (zh) * 2020-09-25 2021-01-05 北京百分点信息科技有限公司 多语种语音关键词检测、模型生成方法及电子设备

Also Published As

Publication number Publication date
KR100542757B1 (ko) 2006-01-20

Similar Documents

Publication Publication Date Title
US5949961A (en) Word syllabification in speech synthesis system
US8126714B2 (en) Voice search device
JP4328698B2 (ja) 素片セット作成方法および装置
US8504367B2 (en) Speech retrieval apparatus and speech retrieval method
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
JP4887264B2 (ja) 音声データ検索システム
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US20110106792A1 (en) System and method for word matching and indexing
Alsharhan et al. Improved Arabic speech recognition system through the automatic generation of fine-grained phonetic transcriptions
JP2022523883A (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JPWO2007069762A1 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
CN115116428B (zh) 韵律边界标注方法、装置、设备、介质及程序产品
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
Meylan et al. Word forms-not just their lengths-are optimized for efficient communication
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
Singh et al. Text-to-Speech Synthesis system for Punjabi language
CN114333760A (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
Kominek Tts from zero: Building synthetic voices for new languages
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121206

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20131209

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20141229

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee