KR19980082408A - 벡터 양자화 코드북 적응을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템 - Google Patents
벡터 양자화 코드북 적응을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템 Download PDFInfo
- Publication number
- KR19980082408A KR19980082408A KR1019970017307A KR19970017307A KR19980082408A KR 19980082408 A KR19980082408 A KR 19980082408A KR 1019970017307 A KR1019970017307 A KR 1019970017307A KR 19970017307 A KR19970017307 A KR 19970017307A KR 19980082408 A KR19980082408 A KR 19980082408A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- codebook
- vector quantization
- environment
- generate
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 74
- 238000013139 quantization Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000006978 adaptation Effects 0.000 title claims description 10
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 241000747049 Aceros Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 기준 환경을 기술하는 기준 벡터 양자화 코드북을 발생하고 최소한 하나의 2차 환경을 기술하는 최소한 하나의 2차 벡터 양자화 코드북을 발생하기 위한 코드북 발생기(26)을 포함하는 음성 처리 시스템 및 방법이다. 2차 벡터 양자화 코드북들은 기준 벡터 양자화 코드북을 사용하여 발생된다. 기준 벡터 양자화 코드북을 사용하여 트레이닝된 음성 인식기(38)이 또한 포함된다. 전처리기(32)는 공지된 환경으로부터 수집된 입력 음성으로서 받아들이고 기준 벡터 양자화 코드북 및 2차 벡터 양자화 코드북들을 사용하여 이전에 음성 인식기(38)로 입력된 음성을 전처리한다.
Description
본 발명은 음성 처리 분야에 관한 것이며, 특히 벡터 양자화 코드북 적응(vector quantization codebook adaptation)을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템에 관한 것이다.
인공 음성 인식기들의 상태는 트레이닝(training)과 테스팅(testing) 환경들에 따라 불일치되는 특정한 민감도를 나타낸다. 이 민감도는 전화를 통한 명령과 숫자 인식, 및 음성 다이얼링(dialing)과 같은 많은 태스크들(tasks)에서 성능을 저하시킨다. 트레이닝과 테스팅 환경들 사이의 음향 환경 불일치의 결과로 인한 성능 저하는 음성 인식에서 가장 중요한 당면 문제점중의 하나이다. 상기의 문제점은 전기통신 채널을 사용하는 응용분야, 특히 다양한(challenging) 음향 조건들이 항상 존재하는 셀룰러 폰들과 같은 개인 통신 시스템의 폭넓은 이용에서 더 중요성을 갖는다.
잡음이 존재하는 환경들에서의 음성 인식은 중요한 당면 문제점이므로 이의 조사의 중요성이 요구되어 왔다. 261 - 291 페이지의 Speech Communication, 16, 1995 에서 Y. Gong에 의한 Speech Recognition in Noisy Environments : A Survey인 논설에서 타당한 설명으로 요약된 많은 버젼(version)의 문제점들로의 다양한 접근 방법이 존재한다. 또한 다양한 환경들의 직접적인 비교, 예를 들면, A. Acero, Acoustical and Environmental Robustness in Automatic Speech Recognition, Kluwer Academic Publishers, Boston, MA, 1993(하기에 Acero로 언급함) ; F.H. Liu, R.H. Stern, A. Acero, P.J. Moreno, Environment Normalization for Robust Speech Recogniton Using Direct Cepstral Comparision, ICASSP-94, pp. 61-64, 1994. 4(하기에 Liu et al.으로 언급함), 및 R. Schwartz, T. Anastakos, F. Kubala, J. Makhoul, L. Nguyen, G. Zavaliagkos, Comparative Experiments on Large Vocabulary Speech Recognition, New Jersey, 1993. 3(하기에 Schwartz, et al.로 언급함)와 같은 기술 등급들이 존재한다.
카네기 멜론 대학(CMU)의 Acero의 코드워드 종속 셉스트럴 정규화(codeword Dependent Cepstral Normalization : CDDN) 기술은 음성 모델들이 트레이닝된 기준 환경 및 공지된 테스트 환경에 대한 가우시안(Gaussian) 밀도를 가정한다. 그 다음 반복적인 예상-최대화 알고리즘(iterative Expectation-Maximization algorithm)에 의해 공지된 밀도 파라미터들 및 보상 벡터들을 계산한다. 상기의 기술은 예를 들면 테스트 환경으로부터 임의의 트레이닝 데이타를 요구하지 않는, 환경 독립적이나, 또한 계산에 많은 비용이 든다. 대부분의 실질적인 응용들에서, 특히 실시간 응답이 요구될 때, 계산 부하는 과중하다.
그러므로, CMU 그룹은 동시 녹음된 스테레오 음성 데이타가 이용가능한 공지된 테스트 환경의 유사한 형태의 정정을 하는 Liu, et al.을 참조하여 고정된 CDCN(FCDCN)을 채용하였다. 상기의 기술을 공지된 테스트 마이크로폰으로 확장하기 위해, 다중 FCDCN(MFCDCN) 기술이 제안되어 왔다. MFCDCN은 동시 녹음된 스테레오 음성 데이타가 모든 환경에 요구되는 한 세트의 공지된 마이크로폰을 사용한다. 이 매우 중요한 제약은 스튜디오 환경에서 제작된 스테레오 녹음이 이용가능한 마이크로폰들의 상이한 형태들로 이용되는 두 기술들만을 허용해 왔다. 이동 차량 등에서의 셀룰러 전화들과 같은, 실질적으로 중요한 다양한 환경들의 동시 녹음된 데이타를 수집하는 것은 불가능하므로 일반적인 환경의 보상보다는 마이크로폰 보상으로 말할 수 있다.
이와 같이, 음향 환경과 유사한 이전의 정보의 사용 및 음성 인식을 향상시키도록 테스트 환경으로 적응시키는 보상 기술이 요구된다.
본 발명은 공지된 기준 환경과 공지된 2차 환경들의 벡터 양자화 코드북들을 계산하기 위한 코드북 발생기 및 공지된 환경들에서 발생된 벡터 양자화 코드북들을 사용하여 공지된 환경으로부터 수집된 음성을 보상하는 전처리기(preprocessor)를 포함하는 음성 인식 방법 및 시스템이다. 보상된 음성은 음성 인식기로 입력되어, 다음의 처리를 위해서, 기준 벡터 양자화 코드북을 사용하여 트레이닝된다.
본 발명의 목적은 기준 벡터 양자화 코드북을 2차 환경들로 적응시키는 것에 의해서 동시 스테레오 녹음의 요구를 피하는 것이다.
본 발명의 또다른 목적은 계속해서 환경들 사이의 일치를 향상시키도록 이용가능한 환경 코드북들을 테스트 환경에 동적으로 적응시키는 것이다.
본 발명의 상기 및 다른 특징들은 첨부된 도면과 함께 다음의 기술로써 본 기술에 숙련된 자에게 명백할 것이다.
도 1 은 본 발명을 도시한 블럭도.
도 2 는 본 발명에 따른 코드북 발생기를 도시한 블럭도.
도 3 은 본 발명에 따른 코드북 발생기의 동작을 도시한 플로우 차트.
도 4 는 본 발명에 따른 전처리기를 도시한 블럭도.
*도면의 주요 부분에 대한 부호의 설명*
22 : 코드북 특성 벡터 발생기
26 : 코드북 발생기
38 : HMM 음성 인식기
42 : 코드북 설계 모듈
44 : 코드북 어뎁터 모듈
본 발명의 방법 및 시스템은 모델들이 트레이닝된 음성 데이타가 얻어진 환경과 다른 다양한 음향 환경으로부터 음성 입력 수신되는 작업을 위한 음성 인식 성능을 향상시키는 기술을 포함한다. 트레이닝 및 테스팅 환경들에서 불일치하는 인식기들에 기초한 히든 마코브 모델(Hidden Markov Nodel : HMM)의 민감도는 널리 공지되어 있다. 이 민감도는 전화의 명령과 숫자 인식, 및 음성 다이얼링과 같은 많은 작업들에서 성능을 저하시킨다. 본 발명에서 기술된 상기 기술은 입력 음성 벡터들을 변환한 입력 음성 특성 벡터를 전처리해서 음향 환경들과 유사한 이전의 정보 및 실제 테스팅 환경에 대한 온라인(on-line) 적응을 사용하여 모델 환경을 적절하게 조정한다.
McCaw 셀룰러 코퍼스(corpus)에서, 본 발명의 시스템 및 방법에 사용된 기술은 셀룰러 코퍼스의 연속적인 10개의 숫자 인식의 워드 에러를 감소시킨다. 특히, 본 기술은 랜드 라인(land line) 트레이닝된 모델들을 갖는 핸즈프리(hands free) 마이크로폰 음성의 연속적인 10개의 숫자 인식의 워드 에러를 23.8%에서 136%로 감소시키고 화자 종속 음성 전화 문장 에러를 16.5%에서 10.6%로 감소시킨다.
본 발명에 따른 시스템의 한 실시예를 도시하는 블럭도가 도 1 에 도시되어 있다. 본 발명에 사용된 HMM 음성 인식기 38에서, 프레임 에너지와 같은 형태의 광역의, 음성 스펙트럼들 및 그것의 파생물들은 고 차원적 특성 벡터를 형성하도록 연결된다. 주 구성요소 분석이 상기의 고 차원적 벡터 음성에 적용되어 통계적인 편차가 최대인 x축의 서브셋을 선택하는 것에 의해 차원적으로 감소시킨다. 상기의 처리는 도 1 에 도시된 음성 특성 벡터 발생기(22)에 의해 수행된다.
코드북 발생기(26)은 Ф로 표시된 주 구성요소 스패이스(space)에서 음성 특성 벡터들을 위한 벡터 양자화 코드북들을 발생한다. 그러므로, 클래스(class)의 부분들이 그들의 스펙트럼들에 대해서만이 아니라, 다른 많은 방법들에서와 같이, 음성 인식 성능에 대하여 환경에 의해 영향을 받는 방식을 결정하는 스태틱 및 다이나믹 특성들에 관련된다.
음향 환경에서, h는 Xh인 벡터 양자화 코드북에 의해 기술되며, 여기서 Xh= {xh k∈ F, k=1, ... , K}이고, 각각의 코드 벡터는 xh k는 Ф인 주 구성요소 스패이스내의 특성 벡터의 클래스를 나타낸다.
기준 환경의 벡터 양자화 코드벡터 Xref(여기서, Xref= {xh k∈ F, k=1, ... , K})는 일반화된 로이드(Generalized Loyd) 알고리즘(Y. Linde, A. Buzo, R.M. Gray. An Algorithm for Vector Quantizer Design, IEEE Trans. Commun, vol. COM-28, pp. 84-95, 1980. 1 - 하기에 Linde, et al.로 언급함)을 사용하여 코드북 설계 모듈(42)에서 설계된다.
2차 환경들의 벡터 양자화 코드북들에서, x = {Xh, h=1, ... , H}, xref k및 xh k는 동일한 음향 클래스들로 대응되어야 한다. 동시 녹음된 스테레오 데이타베이스에서, 모든 프레임들은 표시되어서 클래스 혼동이 발생하지 않으므로 이것은 자동적으로 만족된다.
본 발명의 코드북 어뎁터 모듈(44)의 실현에서, Liu, et al.레서 주어진 증가적인 갱신들이 2차 환경 코드북을 적응시키는데 사용된다. 그러나, 코드북 어뎁터 모듈(44)은 초기 코드북으로서 사용된 기준 환경을 위한 코드북을 갖는 일반화된 로이드 알고리즘을 사용하여 실현될 수 있다는 것이 또한 예상된다. 본 발명의 코드북 발생기(26)의 제 2 실현은 제 1 실현의 증가적인 갱신 기술의 배치 버젼(batch version)으로서 간주될 것이다. 실제로, 양자 모두 유사한 성능들이 제공되었다. 본 발명의 본 실시예에서, 제 2 실현은 코드북 어뎁터 모듈(44)를 실현하는 데 사용된다.
도 3 은 도 1 에 도시된 코드북 발생기(26)의 동작을 도시한 플로우 차트이다. 만약 판단 블럭(90)에서, 음성 특성 벡터 발생기(22)로부터 수신된 입력 음성 특성 벡터들은 기준 환경으로부터 존재하고, 그 다음 음성 특성 벡터들이 기준 벡터 양자화 코드북을 설계하는데 사용되는 블럭(92)에서 처리를 계속한다. 그 다음, 블럭(94)에서, 결과 기준 벡터 양자화 코드가 데이타 저장기(30)에 저장되고 코드북 발생기(26)에서 처리를 종료한다.
만약 판단 블럭(90)에서, 입력 음성 특성 벡터들이 공지된 2차 환경들중 하나를 나타낸다면, 처리는 기준 벡터 양자화 코드북이 데이타 저장기(30)으로부터 수신된 블럭(96)에서 계속된다. 만약, 판단 블럭(90)에서, 입력 음성 특성 벡터들이 공지된 2차 환경들중 하나를 나타낸다면, 처리는 기준 벡터 양자화 코드북이 데이타 저장기(30)으로부터 수신된 블럭(96)에서 계속된다. 그 다음, 블럭(98)에서, 기준 벡터 양자화 코드북은 2차 벡터 양자화 코드북을 발생하도록 공지된 2차 환경으로부터의 음성 특성 벡터들을 사용하여 적응된다. 블럭(100)에서, 2차 벡터 양자화 코드북은 데이타 저장기(30)에 저장되고 코드북 발생기(26)에서 처리는 종료된다.
도 4 는 전처리기 모듈(32)를 상세히 도시한 블럭도이다. 도 4 에서와 같이, 전처리기 모듈(32)는 보상 모듈(102), 계산 모듈(104), 및 갱신 코드북 모듈(106)을 포함한다.
공지된 테스트 환경으로부터의 입력 음성 특성 벡터(발성의 n번째 프레임)는 x(n)으로 표시된다. 그 다음, 도 1 및 4 의 (32)에 도시된은 다음의 수식에 따라서 보상 모듈(102)에 의해 계산된다.
(여기서 확률 ph k(n)은 n번째 프레임이 코드북 h의 보로노이(Voronoi) 영역 k에 속하는 확률 ph k(n)는 다음의 수식에 따라서 계산 모듈(102)에 의해 계산된다.
발성이 환경 h에 속하는 확률 Ph는 다음의 수식에 따라서 계산 모듈(102)에 의해 계산된다.
(여기서
)
보상 및 인식 동안에, 각각 보상 모듈(102) 및 음성 인식기(38)에 의해 수행되고, 코드북들의 온 라인 적응은 다음의 수식에 따라서 갱신 코드북 모듈(106)에 의해 이루어진다.
(여기서
이고, 여기서)
다음의 실험적인 결과들은 McCaw 셀룰러 코퍼스의 연속적인 숫자 인식 및 음성 전화에서 제공된다. 코퍼스는 핸드헬드(hand-held), 클로즈(close) 대화 마이크로폰 및 랜드 라인 수집된 음성 데이타를 갖는 마이크로폰이 설치된 바이저(visor)인 두가지 형태들의 마이크로폰들의 사용에 의해 셀룰러 채널들에서 수집된 데이타로 구성된다. 코퍼스의 랜드 라인 및 핸드헬드 마이크로폰 일부들은 품질면에서 VAA 코퍼스와 비교하여 거의 장애가 없는 전화이다. 그러나, 코퍼스의 핸즈프리 마이크로폰 일부는 다른 것들보다 매우 노이즈가 많다.
McCaw 데이타 베이스의 화자 종속 부분상의 두가지 실험들은 아래에 기술되어 있다. 제 1 실험은 핸드헬드 마이크로폰상에서 트레이닝된 모델들이 사용될 때 핸즈프리 마이크로폰에 의한 효과를 정규화하는 보상 알고리즘의 효과를 조사한다. 제 2 실험은 더 일반화되고 최종 McCaw 코퍼스 연속 숫자 데이타상의 정규화 및 비정규화된 성능과 비교하여 VAA 코퍼스상에서 트레이닝된 모델을 사용한다.
제 1 실험에서, 시드들(seeds)로서 VAA 모델들을 사용하여 제작되고 McCaw 코퍼스의 핸드헬드 부분으로 갱신된 모델들이 사용되었다. 그러므로, 결과표의 핸드헬드 행은 정확한 클로즈 세트 결과이다. 제 2 실험에서, VAA1 코퍼스 상에서 트레이닝된 유한기간 존속 숫자 모델이 사용되었다.
포함된 코퍼스들은 상기 기록에서 기술된 기술에 의해 정규화된다. 여기서 보고된 결과의 코드북 크기는 16이다. 코드북들은 인식 결과들이 얻어진 모델 트레이닝 세트들로부터 해체된 McCaw 및 코드북에서의 데이타 세트들상에서 트레이닝된다.
제 1 실험의 결과들(핸드헬드 데이타로 갱신된 모델들)이 아래의 표 1 에 기재되어 있다.
[표 1]
핸드헬드(기준) 환경의 에러는 거의 동일하고 핸즈프리 에러는 매우 감소되었다.
제 2 실험의 결과들(VAA상에서만 트레이닝된 모델들)이 아래의 표 2 에 기재되어 있다.
[표 2]
표 2 에서, 기준 환경은 VAA이다. 정규화는 기준 환경과 VAA로 클로즈된 랜드 라인 및 핸드헬드 환경들 방해하지 않는다. 이것은 다시 핸즈프리 에러를 감소시킨다.
유사한 실험이 McCaw 데이타 베이스의 화자 종속 부분에서 반복된다. 다음의 표 3 및 표 4 는 음성 전화 응용에서 10개의 이름들을 각각 발성한 30명의 화자들의 평균 결과들을 요약하고 있다. 랜드라인 경우의 결과를 보여주는 표 3 은 기준 환경으로서 사용된다. 표 4 는 핸드헬드가 기준 환경인 경우의 결과들을 보여준다.
[표 3]
[표 4]
벡터 양자화 코드북들 대신에 연속적인 혼합들(mixtures)의 본 발명에서 사용된 기술의 일반화는 간단하여, 계산들은 증가되고 몇가지의 개선을 얻을 수 있다. 본 발명에 사용된 기술은 원하지 않는 왜곡의 매개변수적인 처리가 어려운 임의의 문제점들에 적용될 수 있고 데이타는 왜곡이 발생한 다양한 유사 조건들에 이용될 수 있다.
[다른 실시예]
본 발명 및 그 장점들이 상세히 기술되었지만, 다양한 변화, 대체, 및 변경들이 첨부된 특허 청구의 범위에 의해 정의된 본 발명의 본질 및 범위로부터 벗어남 없이 가해질 수 있는 것이 이해될 것이다.
내용 없음
Claims (13)
- 기준 환경 및 최소한 하나의 2차 환경을 포함하는 복수의 환경들로부터 음성 신호들을 수집하기 위한 수집기 수단,상기 수집기 수단에 결합되며 상기 수집된 음성으로부터 음성 특성 벡터들을 발생하기 위한 음성 특성 벡터 발생기,상기 음성 특성 벡터 발생기와 결합되어 동작하며 상기 음성 특성 벡터들을 사용하여, 상기 기준 환경으로부터 수집된 음성을 기술하는 기준 벡터 양자화 코드북을 발생하고 상기 최소한 하나의 2차 환경으로부터 수집된 음성을 기술하는 최소한 하나의 2차 벡터 양자화 코드북을 발생하기 위한 코드북 발생기,상기 코드북 발생기와 결합되며 상기 기준 벡터 양자화 코드북 및 상기 최소한 하나의 2차 벡터 양자화 코드북을 저장하기 위한 저장 수단,상기 저장 수단과 결합되고 상기 음성 특성 벡터 발생기와 결합되어 동작하며 상기 기준 벡터 양자화 코드북을 사용하여 코드북 적응(adaptation)을 발생하고, 상기 코드북 적응을 사용하여 확인되지 않은 환경으로부터 수집된 음성 특성 벡터들을 변환하여 보상된 음성 특성 벡터들을 발생하기 위한 전처리기(pre-processor), 및상기 보상된 음성 특성 벡터들을 처리하며 상기 기준 벡터 양자화 코드북을 사용하여 트레이닝된 음성 모델들을 포함하는 음성 인식기를 포함하는 음성 처리 시스템.
- 제 1 항에 있어서, 상기 음성 인식기는 히든 마코브 모델에 기초한 인식기(Hidden Markov Model based recognizer)인 것을 특징으로 하는 음성 처리 시스템.
- 제 1 항에 있어서, 상기 코드북 발생기는 일반화된 로이드 알고리즘(Generalized Lloyd algorithm)을 사용하여 상기 기준 벡터 양자화 코드북을 발생하도록 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 제 1 항에 있어서, 상기 전처리기는 증가적인 갱신(incremental updates)을 사용하여 상기 코드북 적응을 발생하도록 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 제 1 항에 있어서, 상기 전처리기는 초기 코드북을 포함하는 일반화된 로이드 알고리즘을 사용하여 상기 코드북 적응을 발생하도록 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 제 5 항에 있어서, 상기 초기 코드북은 상기 기준 벡터 양자화 코드북인 것을 특징으로 하는 음성 처리 시스템.
- 제 1 항에 있어서, 상기 코드북 발생기는 상기 최소한 하나의 2차 벡터 양자화 코드북을 발생하기 위해서 상기 기준 벡터 양자화 코드북을 적응시키도록 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 제 1 항에 있어서, 상기 전처리기는 다음의 수식(여기서 확률 ph k(n)은 n번째 프레임이 코드북 h의 보로노이(Voronoi) 영역 k에 속하는 확률)에 따라서인 상기 보상된 특성 벡터를 발생하기 위한 보상 모듈을 포함하는 것을 특징으로 하는 음성 처리 시스템.
- 제 8 항에 있어서, 상기 계산 모듈은 다음의 수식(여기서 확률 Ph는 발성(utterance)이 환경 h에 속하는 확률이다)에 따른 상기 확률 ph k(n)를 발생하도록 더 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 제 9 항에 있어서, 상기 계산 모듈은 다음의 수식(여기서)에 따른 상기 확률 Ph를 발생하도록 더 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 제 8 항에 있어서, 상기 전처리기는 갱신 코드북 모듈을 포함하는 것을 특징으로 하는 음성 처리 시스템.
- 제 11 항에 있어서, 상기 갱신 코드북 모듈은 다음의 수식(여기서이고, 여기서)에 따른 상기 2차 벡터 양자화 코드북들을 동적으로 적응하도록 동작할 수 있는 것을 특징으로 하는 음성 처리 시스템.
- 확인되지 않은 환경으로부터 수집된 음성을 처리하기 위한 방법에 있어서,기준 환경으로부터 수집된 음성을 기술한 기준 벡터 양자화 코드북을 발생하는 단계,상기 기준 벡터 양자화 코드북을 사용하여 음성 인식기 내에 포함된 음성 모델들을 트레이닝(training)하는 단계,상기 기준 벡터 양자화 코드북을 사용하여 최소한 하나의 공지된 2차 환경으로부터 수집된 음성을 기술한 최소한 하나의 2차 벡터 양자화 코드북을 발생하는 단계,상기 최소한 하나의 벡터 양자화 코드북을 사용하여 코드북 적응을 발생하는 단계,상기 확인되지 않은 환경으로부터 수집된 음성을 기술한 음성 특성 벡터들을 발생하는 단계,보상된 음성 특성 벡터들을 발생하기 위해 상기 기준 벡터 양자화 코드북 및 상기 코드북 적응을 사용하여 상기 음성 특성 벡터들을 변환하는 단계, 및더 처리를 위해 상기 음성 인식기에 대한 입력으로서 상기 보상된 음성 특성 벡터들을 제공하는 단계를 포함하는 것을 특징으로 하는 음성 처리 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/646,192 US5745872A (en) | 1996-05-07 | 1996-05-07 | Method and system for compensating speech signals using vector quantization codebook adaptation |
US8/646,192 | 1996-05-07 | ||
US08/646192 | 1996-05-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19980082408A true KR19980082408A (ko) | 1998-12-05 |
KR100447558B1 KR100447558B1 (ko) | 2005-01-31 |
Family
ID=24592138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970017307A KR100447558B1 (ko) | 1996-05-07 | 1997-05-06 | 벡터양자화코드북적응을사용하여음성신호들을보상하기위한방법및시스템 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5745872A (ko) |
EP (1) | EP0806761B1 (ko) |
JP (1) | JPH1069290A (ko) |
KR (1) | KR100447558B1 (ko) |
DE (1) | DE69716159T2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100435441B1 (ko) * | 2002-03-18 | 2004-06-10 | 정희석 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US7319954B2 (en) * | 2001-03-14 | 2008-01-15 | International Business Machines Corporation | Multi-channel codebook dependent compensation |
USH2172H1 (en) | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
US7751483B1 (en) | 2004-04-16 | 2010-07-06 | Majesco Entertainment Company | Video codec for embedded handheld devices |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US8775179B2 (en) * | 2010-05-06 | 2014-07-08 | Senam Consulting, Inc. | Speech-based speaker recognition systems and methods |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN107729994B (zh) | 2017-11-28 | 2020-05-26 | 南京地平线机器人技术有限公司 | 执行卷积神经网络中的卷积层的运算的方法和装置 |
CN110648690B (zh) * | 2019-09-26 | 2020-12-15 | 广州三人行壹佰教育科技有限公司 | 一种音频评测方法及服务器 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US5487129A (en) * | 1991-08-01 | 1996-01-23 | The Dsp Group | Speech pattern matching in non-white noise |
JP2979943B2 (ja) * | 1993-12-14 | 1999-11-22 | 日本電気株式会社 | 音声符号化装置 |
US5598505A (en) * | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
-
1996
- 1996-05-07 US US08/646,192 patent/US5745872A/en not_active Expired - Lifetime
-
1997
- 1997-05-06 KR KR1019970017307A patent/KR100447558B1/ko not_active IP Right Cessation
- 1997-05-07 JP JP9117121A patent/JPH1069290A/ja active Pending
- 1997-05-07 DE DE69716159T patent/DE69716159T2/de not_active Expired - Lifetime
- 1997-05-07 EP EP97303087A patent/EP0806761B1/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100435441B1 (ko) * | 2002-03-18 | 2004-06-10 | 정희석 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP0806761A2 (en) | 1997-11-12 |
JPH1069290A (ja) | 1998-03-10 |
EP0806761B1 (en) | 2002-10-09 |
EP0806761A3 (en) | 1998-09-23 |
DE69716159D1 (de) | 2002-11-14 |
KR100447558B1 (ko) | 2005-01-31 |
US5745872A (en) | 1998-04-28 |
DE69716159T2 (de) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Acero et al. | Robust speech recognition by normalization of the acoustic space. | |
Liu et al. | Efficient cepstral normalization for robust speech recognition | |
KR100447558B1 (ko) | 벡터양자화코드북적응을사용하여음성신호들을보상하기위한방법및시스템 | |
JP2733955B2 (ja) | 適応型音声認識装置 | |
Sankar et al. | A maximum-likelihood approach to stochastic matching for robust speech recognition | |
US5806029A (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
EP1526504B1 (en) | Multiple models integration for multi-environment speech recognition | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
US20020165715A1 (en) | Speech recognition method and system | |
US7136815B2 (en) | Method for voice recognition | |
KR19990043998A (ko) | 패턴인식시스템 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
US5943647A (en) | Speech recognition based on HMMs | |
Rahim et al. | Signal bias removal for robust telephone based speech recognition in adverse environments | |
Hilger et al. | Quantile based histogram equalization for online applications | |
Gupta et al. | High-accuracy connected digit recognition for mobile applications | |
Chien et al. | Estimation of channel bias for telephone speech recognition | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
Padmanabhan et al. | Maximum-likelihood nonlinear transformation for acoustic adaptation | |
Ming et al. | A comparative study of methods for handheld speaker verification in realistic noisy conditions | |
Raghavan | Speaker and environment adaptation in continuous speech recognition | |
Sonmez et al. | Robust recognition of cellular telephone speech by adaptive vector quantization | |
CN108986794B (zh) | 一种基于幂函数频率变换的说话人补偿方法 | |
Vasilache et al. | Speaker adaptation of quantized parameter HMMs. | |
Matassoni et al. | Some results on the development of a hands-free speech recognizer for carenvironment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120727 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20130729 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20140730 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 13 |
|
EXPY | Expiration of term |