KR20010004468A - 음성인식을 위한 문맥 종속 유사 음소의 생성 방법 - Google Patents

음성인식을 위한 문맥 종속 유사 음소의 생성 방법 Download PDF

Info

Publication number
KR20010004468A
KR20010004468A KR1019990025147A KR19990025147A KR20010004468A KR 20010004468 A KR20010004468 A KR 20010004468A KR 1019990025147 A KR1019990025147 A KR 1019990025147A KR 19990025147 A KR19990025147 A KR 19990025147A KR 20010004468 A KR20010004468 A KR 20010004468A
Authority
KR
South Korea
Prior art keywords
context
phoneme
phonemes
dependent
frequency
Prior art date
Application number
KR1019990025147A
Other languages
English (en)
Other versions
KR100353858B1 (ko
Inventor
박성준
구명완
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019990025147A priority Critical patent/KR100353858B1/ko
Publication of KR20010004468A publication Critical patent/KR20010004468A/ko
Application granted granted Critical
Publication of KR100353858B1 publication Critical patent/KR100353858B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 음성인식을 위한 문맥 종속 유사 음소의 생성 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 음성 인식시스템에서 유사 음소를 기본 단위로 사용할 때, 종속 유사 음소의 정의시 음소별로 가중치를 다르게 부여하여 특정 음소를 다른 음소들에 비해 세분화함으로써, 음성 인식시 인식률을 향상시키기 위한 문맥 종속 유사 음소의 생성 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 음성 인식시스템에 사용되는 음성의 기본 단위의 하나인 문맥 종속 유사 음소를 생성하는 방법에 있어서, 상기 음성 인식시스템에서 음성을 모델링하기 위하여 사용되는 음성의 기본 단위로 발음상 나타나는 소리를 문자상의 음소와 비슷한 형태로 정의한 유사 음소를 사용할 때, 상기 유사 음소의 전후 음소의 종류에 무관한 문맥 독립 유사 음소들을 정의하는 제 1 단계; 및 상기 문맥 독립 유사 음소들중 특정 음소에 대한 전후 음소의 종류에 따라 가중치를 달리 적용하여 상기 문맥 종속 유사 음소를 세분화하는 제 2 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성 인식 서비스 등에 이용됨.

Description

음성인식을 위한 문맥 종속 유사 음소의 생성 방법{Method for generating context-dependent phonelike units for speech recognition}
본 발명은 음성인식시스템에서 음성을 모델링하기 위하여 사용되는 음성의 기본 단위중 하나인 문맥 종속 유사 음소를 생성하는 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
특히, 본 발명은 유사 음소를 기본 단위로 사용할 경우에(특히, 동일한 음소라도 앞뒤에 어떤 종류의 음소가 위치했는가에 따라 다르게 구분될 수 있는 문맥 종속 유사 음소를 생성할 때), 종속 유사 음소의 정의시 음소별로 가중치를 다르게 부여하여, 결과적으로 특정 음소를 다른 음소들에 비해 세분화함으로써 음성 인식시 인식률을 향상시킬 수 있도록 한 문맥 종속 유사 음소의 생성 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
도 1 은 일반적인 하드웨어 시스템의 구성 예시도이다.
도 1에 도시된 바와 같이, 일반적인 하드웨어 시스템은, 중앙처리 장치(11)와, 중앙처리장치(11)에 연결된 주기억장치(12)와, 주기억장치(12)에 연결된 보조기억장치(13)와, 중앙처리장치에 연결된 입력장치(14) 및 표시장치(15)를 구비한다.
그러나, 상기한 바와 같은 구성을 갖는 컴퓨터 하드웨어 환경은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명은 생략하기로 한다. 다만, 보조기억장치(13)에 탑재되어 음성 인식시스템에서 음소 또는 음절이나 다른 단위를 사용하여 음성의 기본 단위로 정하는 과정에 대해 보다 상세히 설명한다.
우선, 동일한 음소라도 앞뒤에 어떤 종류의 음소가 위치했는가에 따라 다르게 구분될 수 있는 문맥 종속 유사 음소를 생성하기에 앞서, 독립 유사 음소를 정의하여야 한다.
유사 음소는 발음상 나타나는 소리를 문자상의 음소와 비슷한 형태로 정의한 것이다. 그리고, 독립 유사 음소는 그 음소가 앞뒤의 음소에는 상관없이 정의되었음을 의미한다.
예를 들면, "역학"라는 단어의 경우에, 이것을 발음나는 대로 적으면 "여칵"이 되고, 이 단어는 "ㅕ", "ㅋ", "ㅏ", "ㄱ"으로 구성되었다고 볼 수 있다. 여기서, "ㅇ"이 빠진 이유는 모음 앞의 "ㅇ"은 소리값이 없기 때문이다.
이처럼, 유사 음소의 표기 방법은 사용자의 임의로 쓰기 편하게 정하면 된다.
예를 들면, "ㄱ"은 "g"로, "ㅏ"는 "aa"로 표기할 수 있다.
이상에서와 같이, 독립 음소가 정의되면, 이제 독립 음소로부터 문맥 종속 유사 음소를 만들게 된다.
독립 음소는 음절의 종류에 상관없이 정할 수 있지만, 종속 음소는 앞뒤에 놓인 음소의 종류에 따라 다르게 정의된다.
예를 들면, 자음 "ㄱ"을 정의할 경우에 뒤에 오는 모음의 종류에 따라 모두 다른 음소로 정의한다면 "가", "갸", "거", "겨" 등에서의 "ㄱ"이 모두 다른 "ㄱ"으로 정의될 것이고, 이와는 달리 뒤에 오는 몇 개 종류의 모음의 경우에만 다른 "ㄱ"으로 정의하고 나머지에 대해서는 같은 "ㄱ"으로 정의할 수 있는데, 이렇게 한다면 종속 음소의 전체 개수는 줄어들 것이다.
이제, 이러한 음성의 기본 단위의 하나인 문맥 종속 유사 음소의 생성시, 유닛 리덕션(Unit Reduction) 방식에 의한 종래의 문맥 종속 유사 음소 생성 방법에 대해 살펴보면 다음과 같다.
도 2 는 종래의 유닛 리덕션(Unit Reduction) 방식에 의한 문맥 종속 유사 음소 생성 방법에 대한 흐름도이다.
예를 들면, "한국통신", "나비통신공사", "정보통신"과 같은 단어들이 있고 이것들을 독립 유사 음소로 표기할 경우에, "h a n g u g t o ng s i n", "n a b i t o ng s i n g o ng s a", "j v ng b o t o ng s i n"과 같은 식으로 독립 유사 음소를 정의하기로 하자.
이러한 독립 유사 음소에서, "a"에 대한 문맥 종속 유사 음소를 정의하면 "h-a-n", "n-a-b", "s-a-$"가 있고, "g"에 대한 것을 정의하면 "n-g-u", "u-g-t", "n-g-o"가 있고, "i"에 대해서는 "s-i-n", "b-i-t"가 있다.
여기서, "s-a-$"에서 "$"가 의미하는 바는 "a"의 앞 음소만 고려한다는 뜻이다. 유사하게, "h"를 표기하면 "h" 앞에는 음소가 없으므로 뒤의 것만 고려하여 "$-h-a"가 된다. 또한, 다른 음소에 대해서도 같은 방법으로 정의할 수 있다. 이를 일반화하면 문맥 종속 유사 음소(p)는 다음 형태 중의 하나가 된다.
즉, 앞뒤 음소 모두를 고려할 경우에는 "pL-p-pR", 뒤쪽 것만 고려할 때는 "$-p-pR", 앞쪽 것만 고려할 때는 "pL-p-$", 앞뒤 모두 고려하지 않을 때는 "$-p-$"가 된다. 여기서, "$-p-$"의 경우는 독립 유사 음소 "p"와 같다.
그런데, 문맥 종속 유사 음소가 단어에 나타난다고 해서 무조건 그것을 문맥 종속 유사 음소 집합에 포함시키는 것이 아니라, 그 음소가 특정 횟수 이상 나타날 때에만 음소 집합에 포함시킨다. 왜냐하면, 훈련 집합에 나타나는 빈도수가 작으면 그 음소의 모델링에 신뢰성이 떨어지기 때문이다. 따라서, 특정 음소가 임계 횟수(T)보다 클 때에만 문맥 종속 유사 음소 집합에 포함시킨다.
만약, 위의 단어들에 대하여 "T"값을 3으로 정하였다면, 세 번 이상 나타난 음소는 "t-o-ng"밖에 없으므로 다른 음소들에 대해서는 앞뒤 음소중 하나만 고려한 것 또는 독립 음소 자체가 음소 집합에 포함되게 된다. 이러한 규칙을 구체적으로 살펴보면 다음과 같다.
도 2에 도시된 바와 같이, 종래의 유닛 리덕션(Unit Reduction) 방식에 의한 문맥 종속 유사 음소 생성 방법은, 먼저 음성 훈련 집합에서 아직 고려하지 않은 음소 "pL-p-pR"에 대하여 훈련 집합에 나타난 횟수 "c(pL-p-pR)"를 구하여(cnt1)(201) 구한 "c(pL-p-pR)"가 임계 횟수 "T"보다 작은지를 분석한다(cnt1<T)(202).
분석결과, "c(pL-p-pR)"가 임계 횟수 "T" 이상이 되면(cnt1≥T), "c(pL-p-pR)"를 음소 집합에 포함시킨다(203).
분석결과, "c(pL-p-pR)"가 임계 횟수 "T"보다 작을 경우에는(cnt1<T), "c($-p-pR)"를 구하여(cnt2)(204), 구한 "c($-p-pR)"가 임계 횟수 "T"보다 큰지를 검사한다(cnt2>T)(205).
검사결과, "c($-p-pR)"가 임계 횟수 "T"보다 크면(cnt2>T), "$-p-pR"를 음소 집합에 포함시킨다(206).
검사결과, "c($-p-pR)"가 임계 횟수 "T" 이하이면(cnt2≤T), "c(pL-p-$)"를 구하여(cnt3)(207) 구한 "c(pL-p-$)"가 임계 횟수 "T"보다 큰지를 판단한다(cnt3>T)(208).
판단결과, "c(pL-p-$)"가 임계 횟수 "T"보다 크면(cnt3>T), "pL-p-$"를 음소 집합에 포함시킨다(209).
판단결과, "c(pL-p-$)"가 임계 횟수 "T" 이하이면(즉, 위의 모든 경우에 해당되지 않으면)(cnt3≤T), "$-p-$"를 음소 집합에 포함시킨다(210).
상기 단계에 있어서 검사하고자 하는 음소가 이미 음소 집합에 들어 있으면 그 음소에 대해서는 더 이상 검사할 필요가 없고, 아직 고려하지 않은 다른 음소에 대하여 도 2에 있는 과정을 거치면 된다.
상기한 바와 같이, 종래에는 음소를 생성할 때, 음소의 종류에 상관없이 음소의 횟수만을 고려하였다. 즉, 훈련 집합에서 음소가 몇 번 나오느냐에 따라서 문맥 종속 음소를 생성하였다. 이처럼 종래에는 음소의 음운 정보와 이 음소를 사용하는 알고리즘의 특성을 고려하지 않고 음소를 모델링함으로써, 음성 인식률이 떨어뜨려 결과적으로 시스템의 성능을 저하시키는 문제점이 있었다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 음성 인식시스템에서 유사 음소를 기본 단위로 사용할 때, 종속 유사 음소의 정의시 음소별로 가중치를 다르게 부여하여 특정 음소를 다른 음소들에 비해 세분화함으로써, 음성 인식시 인식률을 향상시키기 위한 문맥 종속 유사 음소의 생성 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 일반적인 하드웨어 시스템의 구성 예시도.
도 2 는 종래의 유닛 리덕션(Unit Reduction) 방식에 의한 문맥 종속 유사 음소 생성 방법에 대한 흐름도.
도 3 은 본 발명에 따른 음성인식을 위한 문맥 종속 유사 음소의 생성 방법에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
11 : 중앙처리장치 12 : 주기억장치
13 ; 보조기억장치 14 : 입력장치
15 : 표시장치
상기 목적을 달성하기 위한 본 발명은, 음성 인식시스템에 사용되는 음성의 기본 단위의 하나인 문맥 종속 유사 음소를 생성하는 방법에 있어서, 상기 음성 인식시스템에서 음성을 모델링하기 위하여 사용되는 음성의 기본 단위로 발음상 나타나는 소리를 문자상의 음소와 비슷한 형태로 정의한 유사 음소를 사용할 때, 상기 유사 음소의 전후 음소의 종류에 무관한 문맥 독립 유사 음소들을 정의하는 제 1 단계; 및 상기 문맥 독립 유사 음소들중 특정 음소에 대한 전후 음소의 종류에 따라 가중치를 달리 적용하여 상기 문맥 종속 유사 음소를 세분화하는 제 2 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 프로세서를 구비한 문맥 종속 유사 음소를 생성하는 장치에, 상기 음성 인식시스템에서 음성을 모델링하기 위하여 사용되는 음성의 기본 단위로 발음상 나타나는 소리를 문자상의 음소와 비슷한 형태로 정의한 유사 음소를 사용할 때, 상기 유사 음소의 전후 음소의 종류에 무관한 문맥 독립 유사 음소들을 정의하는 기능; 및 상기 문맥 독립 유사 음소들중 특정 음소에 대한 전후 음소의 종류에 따라 가중치를 달리 적용하여 상기 문맥 종속 유사 음소를 세분화하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
음성 인식시스템에서 음성의 기본 단위로 정할 수 있는 것이 여러 가지가 있다. 예를 들면, 음소를 기본 단위로 사용할 수 있고, 음절이나 다른 단위를 사용할 수도 있다.
본 발명은 음성 인식시스템에 사용되는 음성의 유사 음소를 기본 단위로 사용할 경우에, 특히 동일한 음소라도 앞뒤에 어떤 종류의 음소가 위치했는가에 따라 다르게 구분될 수 있는 문맥 종속 유사 음소를 생성할 때, 음소의 생성 과정에서 음소별로 가중치를 다르게 부여하여 결과적으로 특정 음소를 다른 음소들에 비해 좀 더 세분화하는 작업을 수행함으로써 음성 인식률을 향상시킬 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 3 은 본 발명에 따른 음성인식을 위한 문맥 종속 유사 음소의 생성 방법에 대한 일실시예 흐름도이다.
본 발명에서는 유사 음소를 음성의 기본 단위로 사용할 때 종속 유사 음소의 정의시 음소 개수를 그대로 사용하지 않고 음소의 종류에 따라 가중치를 다르게 곱하게 된다. 이러한 규칙을 구체적으로 살펴보면 다음과 같다.
우선, 동일한 음소라도 앞뒤에 어떤 종류의 음소가 위치했는가에 따라 다르게 구분될 수 있는 문맥 종속 유사 음소를 생성하기에 앞서, 독립 유사 음소를 정의하여야 한다.
도 3에 도시된 바와 같이, 본 발명에 따른 음성인식을 위한 문맥 종속 유사 음소 생성 방법은, 정의된 독립 유사 음소에 대해 문맥 종속 유사 음소의 정의시, 먼저 음성 훈련 집합에서 아직 고려하지 않은 음소 "pL-p-pR"에 대하여 훈련 집합에 나타난 횟수 "c(pL-p-pR)"를 구하고(cnt1)(301), 구한 "c(pL-p-pR)"에 가중치(Wp)를 곱한 값을 "c(pL-p-pR)"의 값으로 한다(cnt2)(302). 여기서, 가중치(Wp)는 "p"가 어떤 음소인가에 따라 결정된다. 즉, 모음의 경우에 더 큰 가중치를 두려고 한다면 "p"가 모음일 때에는 Wp가 1보다 클 것이고, 자음일 때에는 1이 될 것이다.
이후, 가중치(Wp)를 곱한 "c(pL-p-pR)"가 임계 횟수 "T"보다 작은지를 분석한다(cnt2<T)(303).
분석결과, 가중치(Wp)를 곱한 "c(pL-p-pR)"가 임계 횟수 "T" 이상이 되면(cnt2≥T), "c(pL-p-pR)"를 음소 집합에 포함시킨다(304).
분석결과, 가중치(Wp)를 곱한 "c(pL-p-pR)"가 임계 횟수 "T"보다 작을 경우에는(cnt2<T), "c($-p-pR)"를 구하고(cnt3)(305), 구한 "c($-p-pR)"에 가중치(Wp)를 곱한 값을 "c($-p-pR)"의 값으로 한다(cnt4)(306).
다음으로, 가중치(Wp)를 곱한 "c($-p-pR)"가 임계 횟수 "T"보다 큰지를 검사한다(cnt4>T)(307).
검사결과, 가중치(Wp)를 곱한 "c($-p-pR)"가 임계 횟수 "T"보다 크면(cnt4>T), "$-p-pR"를 음소 집합에 포함시킨다(308).
검사결과, 가중치(Wp)를 곱한 "c($-p-pR)"가 임계 횟수 "T" 이하이면(cnt4≤T), "c(pL-p-$)"를 구하고(cnt5)(309), 구한 "c(pL-p-$)"에 가중치(Wp)를 곱한 값을 "c(pL-p-$)"의 값으로 한다(cnt6)(310).
이어서, 가중치(Wp)를 곱한 "c(pL-p-$)"가 임계 횟수 "T"보다 큰지를 판단한다(cnt6>T)(311).
판단결과, 가중치(Wp)를 곱한 "c(pL-p-$)"가 임계 횟수 "T"보다 크면(cnt6>T), "pL-p-$"를 음소 집합에 포함시킨다(312).
판단결과, 가중치(Wp)를 곱한 "c(pL-p-$)"가 임계 횟수 "T" 이하이면(cnt6≤T)(즉, 위의 모든 경우에 해당되지 않으면), "$-p-$"를 음소 집합에 포함시킨다(313).
이상에서와 같이, 본 발명은 종속 음소를 정의할 때 특정 음소들에 가중치를 많이 줌으로써 그 음소들에 대해서 상대적으로 더 많이 세분화할 수 있다. 즉, 일정 개수내의 종속 음소를 만들고자 할 때, 모든 음소들에 대해 동일한 가중치를 두는 것이 아니라 특정 음소에 가중치를 더 줌으로써 음소의 구성비를 다르게 할 수 있다.
예를 들면, 60개의 독립 음소로부터 300개의 종속 음소를 만든다고 할 때, 만약 동일한 가중치하에서는 자음과 모음의 개수가 각각 150개였다면, 모음에 더 많은 가중치를 줄 경우에는 모음의 종속 음소 개수가 150개보다 더 많아지고, 그만큼 자음의 종속 음소 개수는 줄어들 것이다. 이와 같이 하는 이유는 특정 음소들은 음성의 특징을 좀 더 잘 규정하기 때문에 이 음소들을 더 세분화함으로써 인식률을 높일 수 있기 때문이다. 이는 은닉 마르코프 모델(HMM : Hidden Markov Model) 알고리즘을 적용하는 경우에, 자음보다 모음을 잘 모델링할 수 있으므로 모음에 가중치를 좀 더 많이 준다면 모음의 변별력이 커지고, 결과적으로 음성 인식의 향상을 가져오게 된다.
본 실시예에서는 음소를 크게 자음과 모음으로 구분하여 모음 전체에 가중치를 더 많이 주는 것으로 가정하였으나, 경우에 따라 자음에 더 높은 가중치를 주거나, 특정 음소들에만 가중치를 줄 수도 있으며, 음소별로 다양하게 가중치를 줄 수 있도록 구성할 수 있으며, 이러한 경우에도 본 실시예와 동일한 것으로 보아야 함은 자명하다. 즉, 어떤 음소에 얼마만큼의 가중치를 줄 것인지는 여러 경우를 테스트해 보아 가장 높은 인식률을 보이는 방법이 되어야 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명은, 음성을 구성하는 음소들을 세분화함에 있어서 각 음소의 세분화 가중치를 다르게 함으로써 기존에 비해 동일한 수의 음소를 사용하고도 음성의 특징을 좀 더 반영하여 음성 인식률을 높일 수 있어 시스템의 성능을 향상시킬 수 있는 효과가 있다.

Claims (7)

  1. 음성 인식시스템에 사용되는 음성의 기본 단위의 하나인 문맥 종속 유사 음소를 생성하는 방법에 있어서,
    상기 음성 인식시스템에서 음성을 모델링하기 위하여 사용되는 음성의 기본 단위로 발음상 나타나는 소리를 문자상의 음소와 비슷한 형태로 정의한 유사 음소를 사용할 때, 상기 유사 음소의 전후 음소의 종류에 무관한 문맥 독립 유사 음소들을 정의하는 제 1 단계; 및
    상기 문맥 독립 유사 음소들중 특정 음소에 대한 전후 음소의 종류에 따라 가중치를 달리 적용하여 상기 문맥 종속 유사 음소를 세분화하는 제 2 단계
    를 포함하여 이루어진 음성인식을 위한 문맥 종속 유사 음소의 생성 방법.
  2. 제 1 항에 있어서,
    상기 제1 가중치는,
    상기 문맥 종속 유사 음소의 전후 모음 및 자음별 음소에 따라 가변되는 동적 가중치인 것을 특징으로 하는 음성인식을 위한 문맥 종속 유사 음소의 생성 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 단계의 상기 문맥 종속 유사 음소를 세분화하는 과정은,
    일정 개수의 상기 문맥 종속 유사 음소를 생성할 때, 자음 성분의 문맥 종속 유사 음소보다 모음 성분의 문맥 종속 유사 음소를 더 세분화하는 것을 특징으로 하는 음성인식을 위한 문맥 종속 유사 음소의 생성 방법.
  4. 제 3 항에 있어서,
    상기 가중치는,
    자음 성분의 문맥 종속 유사 음소보다 모음 성분의 문맥 종속 유사 음소를 더 세분화하는 경우에, 실질적으로 상기 문맥 종속 유사 음소가 모음일 때 일("1")보다 큰 실수이고, 자음일 때 일("1")인 것을 특징으로 하는 음성인식을 위한 문맥 종속 유사 음소의 생성 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 단계의 상기 문맥 종속 유사 음소를 세분화하는 과정은,
    상기 문맥 종속 유사 음소의 세분화 정도를 다르게 하기 위하여, 세분화시 훈련 집합내의 특정 음소 빈도수에 특정 음소 빈도수보다 큰 상기 가중치를 곱해주거나 더해주는 것을 특징으로 하는 음성인식을 위한 문맥 종속 유사 음소의 생성 방법.
  6. 제 5 항에 있어서,
    상기 제 3 단계는,
    상기 정의된 문맥 독립 유사 음소에 대해 상기 문맥 종속 유사 음소의 정의시, 음성 훈련 집합에서 아직 고려하지 않은 음소("pL-p-pR")에 대하여 훈련 집합에 나타난 제1 빈도수("c(pL-p-pR)")를 구하고, 상기 제1 빈도수("c(pL-p-pR)")에 상기 가중치(Wp)를 곱한 값을 제2 빈도수("c(pL-p-pR)")로 설정하는 제 3 단계;
    상기 제2 빈도수("c(pL-p-pR)")가 소정의 임계치 이상인 경우에, 전후 음소 모두를 고려한 문맥 종속 유사 음소(pL-p-pR)를 상기 음소 집합에 포함시키는 제 4 단계;
    상기 제2 빈도수가 상기 소정의 임계치 미만인 경우에, 제3 빈도수"c($-p-pR)"를 구하고, 상기 제3 빈도수에 상기 가중치(Wp)를 곱한 값을 제4 빈도수("c($-p-pR)")로 설정하는 제 5 단계;
    상기 제4 빈도수("c($-p-pR)")가 상기 소정의 임계치를 초과한 경우에, 후 음소를 고려한 문맥 종속 유사 음소("$-p-pR")를 상기 음소 집합에 포함시키는 제 6 단계;
    상기 제4 빈도수("c($-p-pR)")가 상기 소정의 임계치 이하인 경우에, 제5 빈도수("c(pL-p-$)")를 구하고, 상기 제5 빈도수에 상기 가중치(Wp)를 곱한 값을 제6 빈도수("c(pL-p-$)")로 설정하는 제 7 단계;
    상기 제6 빈도수("c(pL-p-$)")가 상기 소정의 임계치를 초과한 경우에, 전 음소를 고려한 문맥 종속 유사 음소("pL-p-$")를 상기 음소 집합에 포함시키는 제 8 단계; 및
    상기 제6 빈도수("c(pL-p-$)")가 상기 소정의 임계치 이하인 경우에, 전후 음소 모두를 고려하지 않는 문맥 종속 유사 음소("$-p-$")를 상기 음소 집합에 포함시키는 제 9 단계
    를 포함하여 이루어진 음성인식을 위한 문맥 종속 유사 음소의 생성 방법.
  7. 프로세서를 구비한 문맥 종속 유사 음소를 생성하는 장치에,
    상기 음성 인식시스템에서 음성을 모델링하기 위하여 사용되는 음성의 기본 단위로 발음상 나타나는 소리를 문자상의 음소와 비슷한 형태로 정의한 유사 음소를 사용할 때, 상기 유사 음소의 전후 음소의 종류에 무관한 문맥 독립 유사 음소들을 정의하는 기능; 및
    상기 문맥 독립 유사 음소들중 특정 음소에 대한 전후 음소의 종류에 따라 가중치를 달리 적용하여 상기 문맥 종속 유사 음소를 세분화하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990025147A 1999-06-29 1999-06-29 음성인식을 위한 문맥 종속 유사 음소의 생성 방법 KR100353858B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990025147A KR100353858B1 (ko) 1999-06-29 1999-06-29 음성인식을 위한 문맥 종속 유사 음소의 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990025147A KR100353858B1 (ko) 1999-06-29 1999-06-29 음성인식을 위한 문맥 종속 유사 음소의 생성 방법

Publications (2)

Publication Number Publication Date
KR20010004468A true KR20010004468A (ko) 2001-01-15
KR100353858B1 KR100353858B1 (ko) 2002-09-26

Family

ID=19596690

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990025147A KR100353858B1 (ko) 1999-06-29 1999-06-29 음성인식을 위한 문맥 종속 유사 음소의 생성 방법

Country Status (1)

Country Link
KR (1) KR100353858B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069377A (ko) * 2002-02-20 2003-08-27 대한민국(전남대학교총장) 음성인식시스템의 토픽 검출장치 및 방법
KR100557650B1 (ko) * 2002-09-25 2006-03-10 주식회사 케이티 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
WO2007129802A1 (en) * 2006-05-10 2007-11-15 Kt Corporation Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
US7856356B2 (en) 2006-08-25 2010-12-21 Electronics And Telecommunications Research Institute Speech recognition system for mobile terminal

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069377A (ko) * 2002-02-20 2003-08-27 대한민국(전남대학교총장) 음성인식시스템의 토픽 검출장치 및 방법
KR100557650B1 (ko) * 2002-09-25 2006-03-10 주식회사 케이티 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
WO2007129802A1 (en) * 2006-05-10 2007-11-15 Kt Corporation Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
US7856356B2 (en) 2006-08-25 2010-12-21 Electronics And Telecommunications Research Institute Speech recognition system for mobile terminal

Also Published As

Publication number Publication date
KR100353858B1 (ko) 2002-09-26

Similar Documents

Publication Publication Date Title
JP6052814B2 (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US11450313B2 (en) Determining phonetic relationships
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US9558741B2 (en) Systems and methods for speech recognition
JP2008262279A (ja) 音声検索装置
JPWO2008087934A1 (ja) 拡張認識辞書学習装置と音声認識システム
TW202020854A (zh) 語音辨識系統及其方法、與電腦程式產品
Mittal et al. Development and analysis of Punjabi ASR system for mobile phones under different acoustic models
Soboleva et al. Replacing human audio with synthetic audio for on-device unspoken punctuation prediction
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR100353858B1 (ko) 음성인식을 위한 문맥 종속 유사 음소의 생성 방법
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
KR20100069555A (ko) 음성 인식 시스템 및 방법
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
Pisarn et al. An HMM-based method for Thai spelling speech recognition
Lee et al. Special speech recognition approaches for the highly confusing Mandarin syllables based on hidden Markov models
Deng et al. Improved speech modeling and recognition using multi-dimensional articulatory states as primitive speech units
Arısoy et al. A universal human machine speech interaction language for robust speech recognition applications
Yuan et al. Generating Mandarin and Cantonese F0 Contours with Decision Trees and BLSTMs
KR20220059759A (ko) 종단형 음성 인식 방법 및 장치
KR100275446B1 (ko) 음소 인식률을 이용한 기본 음소 설정 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120903

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20130902

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee