KR100557650B1 - 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 - Google Patents

문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 Download PDF

Info

Publication number
KR100557650B1
KR100557650B1 KR1020020058105A KR20020058105A KR100557650B1 KR 100557650 B1 KR100557650 B1 KR 100557650B1 KR 1020020058105 A KR1020020058105 A KR 1020020058105A KR 20020058105 A KR20020058105 A KR 20020058105A KR 100557650 B1 KR100557650 B1 KR 100557650B1
Authority
KR
South Korea
Prior art keywords
phoneme
state
duration information
context
dependent
Prior art date
Application number
KR1020020058105A
Other languages
English (en)
Other versions
KR20040026566A (ko
Inventor
구명완
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020020058105A priority Critical patent/KR100557650B1/ko
Publication of KR20040026566A publication Critical patent/KR20040026566A/ko
Application granted granted Critical
Publication of KR100557650B1 publication Critical patent/KR100557650B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 결정트리 기반 음소 모델 HMM 음성인식 시스템에서 문맥 종속(CD) 음소 지속시간 정보를 이용하여, 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄이기 위한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서, 결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계; 인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계; 결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및 상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 결정트리 기반 HMM 음성인식 시스템 등에 이용됨.
음소, 문맥 종속, 결정트리, 음성인식, HMM

Description

문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법{A speech recognition method using context-dependent phone duration model}
도 1 은 일반적인 음성인식 시스템의 구성 예시도.
도 2 는 본 발명에 따른 음성인식 방법 중 훈련 과정에 대한 일실시예 상세 흐름도.
도 3 은 본 발명에 이용되는 결정트리 기반 음소 모델을 나타낸 일실시예 설명도.
도 4 는 본 발명에 따른 음성인식 방법 중 인식 과정에 대한 일실시예 상세 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
13 : 비터비탐색기 14 : 발음사전
15 : CD 음소모델 데이터베이스 16 : 발화검증기
본 발명은 결정트리 기반 은닉 마르코프 모델(HMM : Hidden Markov Model)음성인식 시스템에서 음성의 지속시간(길이)을 이용하는 방식 중 문맥 종속(CD : Context-Dependent) 음소 지속시간 정보를 이용한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로, 널리 알려진 음성인식 방법으로 HMM을 사용하는 방법이 있다. 여기서, 음성인식 과정으로 비터비(Viterbi) 탐색을 실시하는데, 이는 인식대상 후보 단어들에 대한 미리 훈련하여 구축한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유사한 후보단어를 결정하는 과정이다.
음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소 모델은 일반적인 HMM에 근거한 음성인식 시스템에서 사용되는 모델이다.
그럼, 도 1을 참조하여 일반적인 음소 모델 HMM 음성인식 시스템에 대해 살펴보기로 한다.
도 1 은 일반적인 음성인식 시스템의 구성 예시도이다.
일반적인 음소 모델 HMM 음성인식 시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다.
먼저, 음성이 입력되면, 끝점 검출기(11)에서 음성의 앞두에 있는 묵음 구간 을 제외한 음성구간을 찾는다. 이후에, 특징 추출기(12)에서 앞에서 찾은 음성 구간의 음성신호로부터 음성의 특징을 추출한다.
다음으로, 비터비 탐색기(13)에서 문맥 종속(CD) 음소 모델 데이터베이스(15)로 구성된 발음사전(14)에 등록된 단어들에 대해 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정하여 인식결과를 출력한다.
그런데, 음성인식 시스템에서 음성의 지속시간(길이)을 이용하는 방식은 그동안 많이 연구되어 왔다. 즉, 단어의 지속시간 정보를 이용하는 방식, 음소의 지속시간 정보를 이용하는 방식이 그 대표적인 방법이었다. 현재, 가장 많이 사용되고 있는 방법이 음소 지속시간 정보를 사용하는 방법이다.
음소는 주변 음소의 영향을 받지 않는 문맥 독립(CI : Context-Independent) 음소와 좌/우 음소의 영향을 고려한 문맥 종속(CD) 음소(예를 들면, 트라이 폰)로 나누어 진다.
그런데, 음소 지속시간 정보도 문맥 독립(CI) 음소에 사용할 때 보다 문맥 종속(CD) 음소에 이용하는 것이 더욱 음성인식 성능을 높이게 된다.
최근에는 음성인식 시스템에 결정트리(Decision Tree) 기반 알고리즘이 제안되었으며, 이 방식은 문맥 종속(CD) 음소를 표현하는데 상태 단위를 공유하기 때문에 적은 메모리 양과 인식 속도 향상 및 성능 향상에 도움이 되었다. 그런데, 이 방식은 문맥 독립(CI) 음소 지속시간 정보만 이용하거나 상태 지속시간 정보만 이용할 수 있었다.
그러나, 상태 지속시간 정보는 상태의 지속시간이 너무 짧기 때문에 안정성이 부족하여 성능 향상에 크게 기여하지 못했다. 또한, 문맥 독립(CI) 음소 지속시간보다는 문맥 종속(CD) 음소 지속시간 정보가 음소를 더 잘 표현해 주기 때문에 성능 향상을 기할 수 있음에도 불구하고, 이에 대한 연구가 현재까지는 미비한 상황이다.
따라서, 현재의 기술분야에서는 결정트리 기반 음소 모델 HMM 음성인식 시스템에서 음소를 더 잘 표현할 수 있는 문맥 종속(CD) 음소 지속시간 정보를 이용하여 인식률을 향상하고 인식시간을 감소시킬 수 있는 방안이 필수적으로 요구된다.
본 발명은, 상기한 바와 같은 요구에 부응하기 위하여 제안된 것으로, 결정트리 기반 음소 모델 HMM 음성인식 시스템에서 문맥 종속(CD) 음소 지속시간 정보를 이용하여, 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄이기 위한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서, 결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계; 인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계; 결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및 상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 프로세서를 구비한 결정트리 기반 음소 모델 음성인식 시스템에, 결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 기능; 인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 기능; 결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 기능; 및 상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은 결정트리 기반의 문맥 종속(CD) 음소 지속시간 정보를 이용한 음성인식 방법으로서, 훈련과정을 통해 문맥 종속(CD) 음소내의 상태 단위로 지속시간 정보를 저장해 두고, 인식과정에서 상태 단위 지속시간 정보를 이용해서 문맥 종속(CD) 음소의 지속시간 정보로 변환하여 이를 이용해 인식과정을 수행한다.
즉, 본 발명은 결정트리 기반 HMM 음성인식 시스템에서 문맥 종속(CD) 음소 지속시간 정보를 표현하기 위해서 음소의 상태 지속시간 정보(평균, 분산)를 구해서 저장해 두고, 인식과정에서 음소의 상태 지속시간 정보로부터 문맥 종속(CD) 음 소 지속시간 정보를 구하는 초기 과정을 수행한 후 비터비 탐색과정을 진행한다. 이때, 인식시간은 매 음소가 끝나는 시점에서 기존의 로그 유사도(Likelihood) 값에서 초기 과정에서 구한 정보를 이용한 지속시간 로그 유사도(Likelihood) 값을 더한다.
본 발명에 따르면, 훈련과정에서는 상태 지속시간 정보를 구하고 인식과정에서는 문맥 종속(CD) 음소 지속시간 정보로 변경해서 이용함으로써, 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄일 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
본 발명은 훈련과정(도 2 참조)을 통해 결정트리 기반의 문맥 종속(CD) 음소의 상태 단위 지속시간 정보를 구하고, 인식과정(도 4 참조)에서 상태 단위 지속시간 정보를 문맥 종속(CD) 음소 지속시간 정보로 변환해 이를 이용하여 인식과정을 수행한다.
도 2 는 본 발명에 따른 음성인식 방법 중 훈련 과정에 대한 일실시예 상세 흐름도로서, 훈련과정을 통해 상태 단위 지속시간 정보를 구하는 절차를 나타낸다.
먼저, 결정트리 기반 HMM 파라미터는 "forward-backward" 알고리즘과 "baum-welch" 알고리즘에 의해 구해진다(201,202). 즉, 모든 훈련 데이터(특징 추출된 음성 DB)에 대해 forward-backward 알고리즘을 적용하여 유사도(Likelihood) 값을 구하고(201) baum-welch 알고리즘을 적용하여 HMM 파라미터를 구한다(202).
이후, 구해진 파라미터의 유사도 값과 이전에 구해진 파라미터에 의한 유사도(Likeihood) 값을 비교하여(203), 차이가 작으면 수령된 것으로 가정하고 상태 단위의 지속시간 정보를 구하기 위해 비터비 탐색기를 수행하여 상태 단위로 분할한다(204).
그리고, 이 비터비 탐색기의 결과를 이용해서 음소 단위 HMM 파라미터내의 상태 지속시간 정보를 구한다(205). 이때, 상태 지속시간 정보는 감마 분포(Gamma distribution)를 갖는다고 가정하여, 상태 단위의 평균과 분산 값을 구하여 저장한다.
마지막으로, 결정트리 노드에 HMM 파라미터와 상태 지속시간 정보를 동시에 저장한다(206).
도 3 은 본 발명에 이용되는 결정트리 기반 음소 모델을 나타낸 일실시예 설명도로서, 상태에 관한 HMM 파라미터와 상태 지속시간 정보를 구하는 과정을 나타낸다.
도 3에 도시된 바와 같이, 음소 모델은 B, M, E의 3종류의 상태로 표시되고, 매 상태에서는 질문군에 따라서 문맥 종속(CD) 음소가 표현되도록 한다. 예를 들면, 질문 Q1은 "왼쪽에 모음이 있는가?"라는 질문이 될 수 있으며, 만약 있으면 그때의 HMM 파라미터를 사용하게 된다.
도 3에서는 모든 "ㄱ" 음소의 가능한 상태를 표현하기 위하여 8개의 노드(HMM 파라미터)를 사용한다. 이때, 도 2에서 설명한 알고리즘을 사용하면 8개의 상태에 지속시간 정보(평균, 분산)가 저장된다.
도 3을 보면, 음소 "ㄱ"의 좌우 음소에 따라 8개의 상태값 중 3개의 상태가 정해지게 되므로 문맥 종속(CD) 음소로 사용될 수 있다.
도 4 는 본 발명에 따른 음성인식 방법 중 인식 과정에 대한 일실시예 상세 흐름도로서, 도 3에서 정해진 상태 지속시간 정보를 이용해서 음성인식을 수행하는 절차를 나타낸다.
먼저, 후보 단어를 읽어서 단어를 구성하는 문맥 종속(CD) 음소를 구한다(401).
이후, 결정트리 기반 음소로부터 문맥 종속 음소에 해당하는 상태를 구하여(402), 문맥 종속(CD) 음소(예를 들면, 트라이 폰)를 구성하는 B, M, E 상태에 대한 HMM 파라미터 및 지속시간 정보를 DB로부터 구한다. 그리고, 상태 지속시간 정보를 이용하여 문맥 종속(CD) 음소 지속시간 정보를 하기의 [수학식 1]을 통해 구한다(403).
E[음소 지속시간]
= E[B 상태 지속시간] + E[M 상태 지속시간] + E[E 상태 지속시간]
Var[음소 지속시간]
= Var[B 상태 지속시간] + Var[M 상태 지속시간] + Var[E 상태 지속시간]
상기 [수학식 1]이 성립되기 위해서는 음소 및 B, M, E 상태가 랜덤 배리어블(random variable)하여야 하고, 그때 감마(gamma) 확률 분포를 만족해야 한다. 상기 [수학식 1]에서, E[ ]은 평균을 의미하며, Var[ ]은 분산을 의미한다.
즉, 상태 지속시간 정보로부터 문맥 종속(CD) 음소 지속시간 정보를 쉽게 구하기 위해서, 상태 B, M, E 각각의 지속시간을 독립된 랜덤 프로세서라고 가정하고 문맥 종속(CD) 음소 지속시간을 상태 랜덤 프로세서의 합이라고 가정하여, 상기 [수학식 1]이 성립되도록 랜덤 프로세서의 확률 분포를 감마 함수로 정의한다.
한편, 문맥 종속(CD) 음소 지속시간 정보와 HMM 파라미터를 이용하여 비터비 탐색기를 수행하여(404) 단어, 문장을 인식한다(405). 이때, 비터비 탐색시에 매 음소가 끝나는 프레임에서 음소 지속시간 정보에 의한 로그 유사도 값을 더한다.
본 발명에서 음소는 다이폰 등으로 변경될 수 있다. 그 이유는 음성인식의 기본 단위가 음소, 유사음소, 다이폰 등이 사용될 수 있기 때문이다. 즉, 결정트리 기반 모델링의 경우 음소(기본유니트)단위 지속시간 정보를 만들 때 상태단위 정보를 만들어서 저장하고, 나중에 사용할 때만 음소단위(다이폰도 가능) 지속시간 정보로 변환시켜서 사용 가능하다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치 환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 훈련과정에서는 상태 지속시간 정보를 구하고 인식과정에서 문맥 종속 음소 지속시간 정보로 변경해서 이용함으로써 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄일 수 있는 효과가 있다. 특히, 본 발명은 상태 지속시간 정보로부터 음소 지속시간 정보를 쉽게 변환시킬 수 있도록 음소 지속시간을 랜덤 배리어블(random variable)로 정의하고 이때의 확률 분포를 감마(gamma) 분포로 갖는다고 가정하며 또한 상태(B, M, E)는 서로 독립된 랜덤 프로세스라고 가정함으로써, 결정트리 기반 음소 모델을 이용한 인식 시스템에 한국어 음소 지속시간 정보를 효율적으로 사용할 수 있는 효과가 있다.

Claims (7)

  1. 결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서,
    결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계;
    인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계;
    결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및
    상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계
    를 포함하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
  2. 제 1 항에 있어서,
    상기 문맥 종속 음소는,
    다이폰으로 변경 가능하며, 결정트리 기반 모델링일 경우 음소단위 지속시간 정보를 만들 때 상태단위 정보를 만들어서 저장하고, 추후 사용할 때 음소단위 혹은 다이폰 지속시간 정보로 변환시켜 사용하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
  3. 제 1 항에 있어서,
    상기 결정트리 기반 음소 모델링 훈련과정에서,
    상태 지속시간 정보를 구하기 위하여 은닉 마르코프 모델(HMM) 파라미터를 먼저 구하고, 비터비 탐색기를 수행하여 상태 단위로 분할한 후, 상태 지속시간 정보로서 평균값과 분산값을 구하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
  4. 제 1 항에 있어서,
    상기 음성인식 단계는,
    비터비 탐색을 통해 인식 과정을 수행하되, 비터비 탐색시에 매 음소가 끝나는 프레임에서 음소 지속시간 정보에 의한 로그 유사도 값을 더하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 상태 지속시간 정보로부터 상기 문맥 종속 음소 지속시간 정보를 쉽게 변환시킬 수 있도록,
    음소 지속시간을 랜덤 배리어블(random variable)로 정의하고 이때의 확률 분포를 감마(gamma) 분포로 갖는다고 가정하며, 또한 상태(B, M, E)는 서로 독립된 랜덤 프로세스라고 가정하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 상태 지속시간 정보로부터 상기 문맥 종속 음소 지속시간 정보를 쉽게 구하기 위해서,
    상태(B, M, E) 각각의 지속시간을 서로 독립된 랜덤 프로세서라고 가정하고 상기 문맥 종속 음소 지속시간을 상태 랜덤 프로세서의 합이라고 가정하여 E[음소 지속시간] = E[B 상태 지속시간] + E[M 상태 지속시간] + E(E 상태 지속시간], Var[음소 지속시간] = Var[B 상태 지속시간] + Var[M 상태 지속시간] + Var[E 상태 지속시간]가 성립되도록 랜덤 프로세서의 확률 분포를 감마 함수로 정의하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
  7. 프로세서를 구비한 결정트리 기반 음소 모델 음성인식 시스템에,
    결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 기능;
    인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 기능;
    결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 기능; 및
    상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020020058105A 2002-09-25 2002-09-25 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 KR100557650B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020058105A KR100557650B1 (ko) 2002-09-25 2002-09-25 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020058105A KR100557650B1 (ko) 2002-09-25 2002-09-25 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20040026566A KR20040026566A (ko) 2004-03-31
KR100557650B1 true KR100557650B1 (ko) 2006-03-10

Family

ID=37329039

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020058105A KR100557650B1 (ko) 2002-09-25 2002-09-25 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100557650B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244688A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH1185186A (ja) * 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者音響モデル生成装置及び音声認識装置
KR20000025827A (ko) * 1998-10-14 2000-05-06 이계철 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
KR20010004468A (ko) * 1999-06-29 2001-01-15 이계철 음성인식을 위한 문맥 종속 유사 음소의 생성 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244688A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH1185186A (ja) * 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者音響モデル生成装置及び音声認識装置
KR20000025827A (ko) * 1998-10-14 2000-05-06 이계철 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
KR20010004468A (ko) * 1999-06-29 2001-01-15 이계철 음성인식을 위한 문맥 종속 유사 음소의 생성 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
(1991.4.14 ICASSP 발행, Using phoneme duration and energy contour information *
(1992.3.23 ICASSP 발행, Modeling state durations in hidden Markov models *

Also Published As

Publication number Publication date
KR20040026566A (ko) 2004-03-31

Similar Documents

Publication Publication Date Title
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
US6073095A (en) Fast vocabulary independent method and apparatus for spotting words in speech
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP5533042B2 (ja) 音声検索装置、音声検索方法、プログラム及び記録媒体
EP4018437B1 (en) Optimizing a keyword spotting system
Seymore et al. The 1997 CMU Sphinx-3 English broadcast news transcription system
EP1178466B1 (en) Recognition system using lexical trees
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
CA2303011A1 (en) Speech recognition system for recognizing continuous and isolated speech
US8255220B2 (en) Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database
EP0903730B1 (en) Search and rescoring method for a speech recognition system
JP2011027910A (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
US5764851A (en) Fast speech recognition method for mandarin words
JP4270732B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100557650B1 (ko) 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
JP2938865B1 (ja) 音声認識装置
JP2905686B2 (ja) 音声認識装置
Tabibian et al. Improved dynamic match phone lattice search for Persian spoken term detection system in online and offline applications
Hirsimäki A decoder for large vocabulary continuous speech recognition
Wang et al. Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130205

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140205

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150205

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160203

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170203

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180326

Year of fee payment: 13