KR20010060005A - 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법 - Google Patents

가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법 Download PDF

Info

Publication number
KR20010060005A
KR20010060005A KR1019990068001A KR19990068001A KR20010060005A KR 20010060005 A KR20010060005 A KR 20010060005A KR 1019990068001 A KR1019990068001 A KR 1019990068001A KR 19990068001 A KR19990068001 A KR 19990068001A KR 20010060005 A KR20010060005 A KR 20010060005A
Authority
KR
South Korea
Prior art keywords
mixture
speech recognition
gaussian
probability density
recognition model
Prior art date
Application number
KR1019990068001A
Other languages
English (en)
Other versions
KR100633228B1 (ko
Inventor
박용규
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019990068001A priority Critical patent/KR100633228B1/ko
Publication of KR20010060005A publication Critical patent/KR20010060005A/ko
Application granted granted Critical
Publication of KR100633228B1 publication Critical patent/KR100633228B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 확률밀도 공간을 여러 개의 PGAM 공간으로 나눈 다음 이 공간을 GAM으로 표현한 후 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내는 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 단계; 훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 단계에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 단계; 상기 제 2 단계에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 단계; 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 단계부터 반복 수행하는제 4 단계; 및 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성 인식 시스템 등에 이용됨.

Description

가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법{METHOD FOR PRESENTING GAUSSIAN PROBABILITY DENSITY AND METHOD OF SPEECH RECOGNITION TRAINING FOR OBTAINING THE SAME}
본 발명은 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive mixture)와 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive mixture)를 합쳐서 가우시안 확률밀도를 표현하는 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
도 1 은 일반적인 컴퓨터의 구성예시도이다.
일반적으로 컴퓨터는 입력장치(1), 중앙처리장치(2), 주기억장치(3), 보조기억장치(4) 및 표시장치(5)를 구비한다. 이러한 컴퓨터에서 확률밀도를 표현하는 방법과 이를 이용하여 음성 인식 훈련을 수행하는 방법이 구현된다.
도 2 는 종래의 확률밀도를 표현하기 위한 확률모델의 일예시도이다.
기존에 널리 사용되는 확률모델을 나타낸다. 즉, 2개의 가우시안(Gaussian) 믹스츄어(mixture) 확률분포(PDF)가 중첩되어 1개의 확률분포(PDF)가 되어진 모양(점선)이다.
확률밀도가 다른 2개의 가우시안(Gaussian) 분포가 합쳐질 경우 믹스츄어(mixture) 모델은 각각의 가우시안(Gaussian) 분포에 가중치(weighting)을주어 단순히 합하여 새로운 확률분포(PDF)를 만들어 낸다. 이를 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive mixture) 모델이라 부르며(점선), 2개의 가우시안(Gaussian) 분포중 가장 큰 확률분포만 고려하고 나머지 확률분포를 무시하는 것을 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive mixture) 모델이라 부른다.
가우시안(Gaussian) 밀도(density)의 합으로 확률밀도를 표현하는 경우에 기존 방법은 GAM와 PGAM으로 불린 두 가지 방법이 사용되었다. GAM은 확률 밀도를 가우시안(Gaussian) 밀도(density)의 가중된 합(weighted sum)으로 표현한다. 또한 PGAM은 확률 공간을 가우시안(Gaussian)으로 표현한 후 가장 큰 값을 확률밀도로 나타내고 나머지 확률밀도 값은 무시하는 방식이다.
그런데, 상기한 확률밀도 표현 방식을 이용하여 음성 인식에 적용할 경우에 음성 인식율이 만족할 만큼 높지 못한 문제점이 있었다. 따라서, 음성 인식율 향상을 위한 보다 나은 확률밀도 표현 방식이 요구되고 있다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 확률밀도 공간을 여러 개의 PGAM 공간으로 나눈 다음 이 공간을 GAM으로 표현한 후 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내는 가우시안 확률밀도 표현 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
또한, 본 발명은, 기존 훈련 방식에 오인식된 데이터를 결합하여 초기화하여 상기 가우시안 확률밀도 표현을 얻기 위한 음성 인식 훈련 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 다른 목적이 있다.
도 1 은 일반적인 컴퓨터의 구성예시도.
도 2 는 종래의 확률밀도를 표현하기 위한 확률모델의 일예시도.
도 3 은 본 발명에 따른 확률밀도 모델의 일실시예 설명도.
도 4 는 본 발명에 따른 가우시안 확률밀도 표현 방법에 대한 일실시예 흐름도.
도 5 는 본 발명에 따른 HPGAM을 얻기 위한 음성 인식 훈련 방법에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
1 : 입력장치 2 : 중앙처리장치
3 : 주기억장치 4 : 보조기억장치
5 : 표시장치
상기 목적을 달성하기 위한 본 발명은, 음성 인식 시스템에 적용되는 가우시안 확률밀도 표현 방법에 있어서, 확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 단계; 나뉘어진 상기 파티숀드 가우시안 오토리그레시브 믹스츄어 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)로 표현하는 제 2 단계; 및 가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)로 나타내어 가우시안 확률밀도를 표현하는 제 3 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 프로세서를 구비한 음성 인식 시스템에 있어서, 확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 기능; 나뉘어진 상기 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)로 표현하는 제 2 기능; 및 가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)로 나타내어 가우시안 확률밀도를 표현하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 다른 목적을 달성하기 위한 본 발명은, 음성 인식 시스템에 적용되는 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어을 얻기 위한 음성 인식 훈련 방법에 있어서, 믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 단계; 훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 단계에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 단계; 상기 제 2 단계에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 단계; 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 단계부터 반복 수행하는 제 4 단계; 및 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 프로세서를 구비한 음성 인식 시스템에, 믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 기능; 훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기제 1 기능에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 기능; 상기 제 2 기능에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 기능; 상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 기능부터 반복 수행하는 제 4 기능; 및 상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 3 은 본 발명에 따른 확률밀도 모델의 일실시예 설명도이다.
도 3 은 2개의 확률밀도(PDF) 모델을 나타내고 있다. 12 믹스츄어(mixture)를 가진 기존의 가우시안 오토리그레시브 믹스츄어(GAM) 믹스츄어(mixture) 모델과 4 믹스츄어(mixture) 그룹(group)과 3 믹스츄어(mixture)를 가진 본 발명에서 제안하는 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM) 모델을 나타내고 있다.
본 실시예에서는 확률밀도를 표현하는 방법에 대하여 설명한다. 가우시안(Gaussian) 밀도(density)의 합으로 확률밀도를 표현하는 경우에 기존에는 GAM와 PGAM으로 불린 두 가지 방식이 사용되었다.
GAM은 확률 밀도를 가우시안(Gaussian) 밀도(density)의 가중된 합(weighted sum)으로 표현한다. 또한, PGAM은 학률 공간을 가우시안(Gaussian)으로 표현한 후 가장 큰 값을 확률밀도로 나타내고 나머지 확률밀도 값은 무시하는 방식이다.
본 발명에서 제안한 방식은 위의 두 가지를 결합한 방식으로 확률밀도 공간을 여러 개의 PGAM 공간으로 나눈 다음 이 공간을 GAM으로 표현한 후 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내는 방식이다. 즉 제안한 가우시안(Gaussian) 확률밀도의 표현방법은 GAM와 PGAM을 합쳐놓은 방식으로 우리는 이 방식을 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive mixture)로 부른다.
도 4 는 본 발명에 따른 가우시안 확률밀도 표현 방법에 대한 일실시예 흐름도이다.
우선, 확률밀도 공간을 여러 개의 PGAM 공간으로 나누고(401), 이 공간을 GAM으로 표현한다(402). 그리고, 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내어 가우시안 확률밀도를 표현한다(403).
도 5 는 본 발명에 따른 HPGAM을 얻기 위한 음성 인식 훈련 방법에 대한 일실시예 흐름도이다.
또한, 본 실시예에서는 HPGAM에 대한 훈련(training) 방법에 대하여 설명한다. 이 방식은 기존 훈련 방식에 따라 훈련한 뒤 오 인식된 데이타를 결합하여 새로이 초기화함으로써 HPGAM을 얻는 방식이다. 즉, 도 5 에서 보여진 바와 같이 원하는 믹스츄어(mixture) 개수의 음성 인식모델(1 mixture group and N mixtures)을전통적인 방식으로 구한다음 이 모델로 음성 인식 테스트(test)를 수행한다. 이 음성 인식 결과중 오 인식 단어를 이용하여 새로운 음성 인식모델(1 mixture group and N mixtures)을 구한다. 이 모델을 이전 모델과 결합하여 새로운 음성 인식모델(2 mixture group and N mixtures)을 구하며, 이 모델을 이용하여 훈련을 수행한다. 이후 또다시 이 모델로 음성 인식 테스트(test)를 수행하여 원하는 믹스츄어 그룹(mixture groups)이 얻어질 때까지 반복한다. 이러한 훈련은 기존 훈련의 단점인 초기화에서 발생하는 문제점을 보충해 준다.
이를 도면의 흐름에 따라 설명하면 다음과 같다.
우선, 믹스츄어 그룹 수를 1로 하여 훈련 데이터를 설정하고(501), 이 훈련 데이터에 대한 세그멘탈 k-민스(Segmental k-means) 훈련과 포워드-백워드(forward-backward) 훈련을 수행한다(502).
훈련이 수행된 훈련 데이터에 대해 인식시험을 수행하고(503), 오인식 단어에 대한 세그멘탈 k-민스(Segmental k-means) 훈련과 포워드-백워드(forward-backward) 훈련을 수행한다(504, 505).
오인식 단어를 훈련시켜 얻은 훈련 데이터에 기존의 훈련 데이터를 결합하여 믹스츄어 그룹 개수가 1증가된 새로운 훈련데이터를 얻어(506), 포워드-백워드 훈련을 수행하고(507), 이 훈련 데이터의 믹스츄어 그룹 개수가 원하는 믹스츄어 그룹 개수와 같은지를 판단한다(508). 판단 결과, 같지 않으면 그 숫자에 미치지 않는 것이므로, 훈련 데이터에 대한 인식시험을 수행하는 과정(503)부터 반복 수행한다. 판단 결과, 같으면 훈련 데이터에 대한 음성 인식 훈련 과정을 종료한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 우선 음성 인식율 향상을 위해 기존의 GAM이나 PGAM보다 인식율이 좋은 HPGAM을 보다 수월하게 얻을 수 있으며, 기존 훈련의 단점인 초기화에서 발생하는 문제점을 보충해주는 음성 인식 훈련에 따라 음성 인식율을 향상시킬 수 있는 효과가 있다.

Claims (4)

  1. 음성 인식 시스템에 적용되는 가우시안 확률밀도 표현 방법에 있어서,
    확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 단계;
    나뉘어진 상기 파티숀드 가우시안 오토리그레시브 믹스츄어 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)으로 표현하는 제 2 단계; 및
    가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)으로 나타내어 가우시안 확률밀도를 표현하는 제 3 단계
    를 포함하는 가우시안 확률밀도 표현 방법.
  2. 음성 인식 시스템에 적용되는 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어을 얻기 위한 음성 인식 훈련 방법에 있어서,
    믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 단계;
    훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 단계에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 단계;
    상기 제 2 단계에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 단계;
    상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 단계부터 반복 수행하는 제 4 단계; 및
    상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 단계
    를 포함하는 음성 인식 훈련 방법.
  3. 프로세서를 구비한 음성 인식 시스템에 있어서,
    확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 기능;
    나뉘어진 상기 파티숀드 가우시안 오토리그레시브 믹스츄어 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)로 표현하는 제 2 기능; 및
    가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)로 나타내어 가우시안 확률밀도를 표현하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  4. 프로세서를 구비한 음성 인식 시스템에,
    믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 기능;
    훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 기능에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 기능;
    상기 제 2 기능에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 기능;
    상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 기능부터 반복 수행하는 제 4 기능; 및
    상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990068001A 1999-12-31 1999-12-31 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법 KR100633228B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990068001A KR100633228B1 (ko) 1999-12-31 1999-12-31 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990068001A KR100633228B1 (ko) 1999-12-31 1999-12-31 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법

Publications (2)

Publication Number Publication Date
KR20010060005A true KR20010060005A (ko) 2001-07-06
KR100633228B1 KR100633228B1 (ko) 2006-10-11

Family

ID=19635089

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990068001A KR100633228B1 (ko) 1999-12-31 1999-12-31 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법

Country Status (1)

Country Link
KR (1) KR100633228B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742408B1 (ko) * 2003-03-25 2007-07-24 지멘스 악티엔게젤샤프트 화자 종속 음성 인식 방법 및 음성 인식 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742408B1 (ko) * 2003-03-25 2007-07-24 지멘스 악티엔게젤샤프트 화자 종속 음성 인식 방법 및 음성 인식 시스템

Also Published As

Publication number Publication date
KR100633228B1 (ko) 2006-10-11

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN108922518B (zh) 语音数据扩增方法和系统
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
US11011175B2 (en) Speech broadcasting method, device, apparatus and computer-readable storage medium
CN106098068A (zh) 一种声纹识别方法和装置
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
CN112989108B (zh) 基于人工智能的语种检测方法、装置及电子设备
CN106782529B (zh) 语音识别的唤醒词选择方法及装置
CN111667728B (zh) 语音后处理模块训练方法和装置
Meyer et al. Anonymizing speech with generative adversarial networks to preserve speaker privacy
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
CN117217315B (zh) 一种利用大语言模型生成高质量问答数据的方法及装置
CN110211562A (zh) 一种语音合成的方法、电子设备及可读存储介质
Liu et al. Golden gemini is all you need: Finding the sweet spots for speaker verification
KR100633228B1 (ko) 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법
KR102215593B1 (ko) 확률에 기초하여 이미지에 포함된 한글 문자를 인식할 수 있는 문자 인식 장치 및 그 동작 방법
CN113591472A (zh) 歌词生成方法、歌词生成模型训练方法、装置及电子设备
CN113282509B (zh) 音色识别、直播间分类方法、装置、计算机设备和介质
CN115240696A (zh) 一种语音识别方法及可读存储介质
CN111553173B (zh) 自然语言生成训练方法和装置
CN114400006A (zh) 语音识别方法和装置
CN111081221B (zh) 训练数据选择方法、装置、电子设备及计算机存储介质
CN110334348B (zh) 一种基于纯文本中的文字校验方法
WO2019227613A1 (zh) 样例三元组的获取方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120904

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130904

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee