KR20000004972A - 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치 - Google Patents

음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치 Download PDF

Info

Publication number
KR20000004972A
KR20000004972A KR1019980707581A KR19980707581A KR20000004972A KR 20000004972 A KR20000004972 A KR 20000004972A KR 1019980707581 A KR1019980707581 A KR 1019980707581A KR 19980707581 A KR19980707581 A KR 19980707581A KR 20000004972 A KR20000004972 A KR 20000004972A
Authority
KR
South Korea
Prior art keywords
speech
feature
matrix
input
transform
Prior art date
Application number
KR1019980707581A
Other languages
English (en)
Inventor
벤자민 피터 밀너
Original Assignee
내쉬 로저 윌리엄
브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 내쉬 로저 윌리엄, 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 filed Critical 내쉬 로저 윌리엄
Publication of KR20000004972A publication Critical patent/KR20000004972A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Abstract

본 발명은 음성 인식에서 사용하기 위한 특징 발생 방법 및 장치에 관한 것으로서, 상기 방법은 입력 음성 신호의 프레임의 소정수 n 각각의 로그 프레임 에너지값을 계산하는 단계; 및 입력 음성 신호를 나타내는 시간 행렬을 형성하기 위해 n 로그 프레임 에너지값에 행렬 변환을 적용하는 단계를 포함하며, 행렬 변환은 이산 코사인 변환이 될 수 있는 것을 특징으로 한다.

Description

음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및 음성 인식 방법과 장치
본 발명은 음성 인식에 관한 것으로서, 특히 음성 인식에서 사용되는 특징의 발생에 관한 것이다.
자동화 음성 인식 시스템은 일반적으로 특별한 목적을 위해 설계된다. 예를 들어, 공용으로 액세스되는 서비스에서는 임의의 사용자로부터의 음성을 인식하기 위해 설계된 일반적 음성 인식 시스템을 요구한다. 사용자 고유 데이터와 관련된 자동화 음성 인식기는 사용자를 인식하거나 또는 사용자 요구 아이덴티티를 검증(소위 화자(話者) 인식)하기 위해 사용된다.
자동화 음성 인식 시스템은 마이크로부터의 입력 신호를 직접 또는 간접적으로 (예를 들어 전기통신 링크를 통해) 수신한다. 그리고, 입력 신호는 일반적으로 시변화 입력신호의 적절한(스펙트럼) 특성 표현을 생성하므로써 입력신호를 연속적인 시간 세그먼트 또는 프레임으로 나누는 음성 처리 수단에 의해 처리된다. 스펙트럼 분석의 공통적인 기법은 LPC(linear predictive coding) 및 푸리에(Fourier) 변환이다. 다음, 스펙트럼 측정은 입력신호의 폭넓은 음향 특성을 설명하는 특징의 벡터 또는 한 세트의 특징으로 변환된다. 음성 인식에서 사용되는 대부분의 공통 특징은 MFCCs(mel-frequency cepstral coefficients)이다.
그리고, 특징 벡터는 인식될 어구 또는 단어(또는 그 일부)와 어떠한 방법으로 관련되거나 표현하는 다수의 패턴과 비교된다. 비교 결과는 인식된 것으로 생각되는 단어/어구를 나타낸다.
음성 인식에 관한 패턴 정합 접근은 두 가지 기법-템플릿 정합 또는 통계적 모형화중 하나와 관련된다. 전자의 경우, 템플릿은 워드를 나타내는 일반적인 음성 신호의 스펙트럼 특성을 나타내도록 형성된다. 각각의 템플릿은 음성 기간을 통한 스펙트럼 프레임의 연결이 된다. 따라서 패턴에서의 일반적인 음성 프레임 시퀀스는 평균화 프로시져를 통해 생산되고, 입력 신호는 이들 템플릿과 비교된다. 패턴 프레임의 스펙트럼 특성을 특징짓는 잘 알려지고 널리 사용되는 한가지 통계 방법이 HMM(hidden Markov model) 접근이다. HMM(또는 어떤 다른 타입의 통계 모형)의 기초가 되는 가정은 음성 신호가 매개변수화 임의 프로세스로서 특징지어질 수 있고, 확률적 프로세스의 매개변수가 정확하게 잘 정의된 방법으로 결정될 수 있다는 것이다.
현재의 패턴 정합 기법, 특히 HMMs의 공지된 결함은 특징 추출의 상관 관계의 사용을 위한 유효 매카니즘의 부족이다. 좌우(left-right) HMM은 하나의 상태에서 다른 상태로의 음성 스펙트럼 특징의 시간 전개를 모형화하는 시간 구조를 제공하지만, 각각의 상태에서 관측 벡터는 IID(independent and identically distributed)인 것으로 가정된다. IID 가정이란 연속적인 음성 벡터간에 상관 관계가 전혀 없는 것을 나타낸다. 이것은 각각의 상태에서 음성 벡터가 동일한 평균 접근 시간 및 공분산을 갖는 PDFs(probability density functions)와 관련이 있다는 것을 의미한다. 이것은 또한 각각의 상태에서 스펙트럼적 시간 곡선이 고정된 평균 접근 시간에 임의로 변동하는 커브라는 것을 의미한다. 그러나, 실제로 스펙트럼적 시간 곡선은 명확하게 그것이 하나의 음성 이벤트에서 다른 음성 이벤트로 움직이는 것에 따른 정확한 방향을 갖는다.
IID 가정의 스펙트럼 벡터에 의한 이러한 방해는 HMMs의 성능을 제한한다. 음성 특징으로의 일부 시간인 정보를 포함하는 것은 음성이 고정된 독립적 프로세스이고, 인식 성능을 개선하기 위해 사용될 수 있다는 이러한 가정의 효과를 줄일 수 있다.
특징 벡터로의 시간 정보의 포함을 허용하는 종래 방법에서는 셉트럼(cepstrum)의 제 1 및 제 2 차수 미분계수와 함께 특징 벡터를 증가시킨다. 수학적으로 좀더 묵시적인 음성 다이내믹의 표현은 B.P. Milner 및 S.V. Vaseghi의 "An analysis of cepstral-time feature matrices for noise and channel robust speech recognition"(Proc. Eurospeech, pp 519-522, 1995)에서 설명된 바와 같이 시간 정보를 엔코드하기 위해 코사인 변환을 사용하는 셉트럼적 시간 행렬이다.
셉트럼적 시간 행렬, ct(m,n)은 2-D DCT(Discrete Cosine Transform)을 스펙트럼 시간 행렬에 적용하거나, 또는 1-D DCT를 MFCC(mel-frequency cepstral coefficients) 음성 벡터의 스택화에 적용하므로써 얻어진다. M N차원 로그 필터 뱅크 벡터들은 스펙트럼 시간 행렬, Xt(f,k)을 형성하기 위해 함께 스택되고, 여기서 t는 시간 프레임, f는 필터 뱅크 채널, 그리고 k는 행렬내 시간 벡터이다. 그러면 스펙트럼 시간 행렬은 2차원 DCT를 사용하여 셉트럼적 시간 행렬로 변환된다. 2차원 DCT는 두 개의 1차원 DCTs로 나눠질 수 있기 때문에, 셉트럼적 시간 행렬의 대안적인 구현에서는 M개의 종래 MFCC 벡터로 구성된 행렬의 시간축에 따라 1-D DCT를 사용한다.
본 발명의 제 1 측면에 따르면 입력 음성 신호 프레임의 소정수 n 각각의 대수적 프레임 에너지값을 계산하는 단계; 및 입력 음성 신호를 나타내는 시간인 행렬을 형성하기 위해 n 대수적 프레임 에너지값에 변환 행렬을 적용하는 단계로 이루어지는, 음성 인식에서 사용하기 위한 특징 발생 방법이 제공된다.
증가된 미분계수를 갖는 셉트럼 벡터로 이루어진 명시적 표현과 비교하면, 음성 전이적 다이내믹은 시간 벡터내에서 묵시적으로 생산된다. 따라서, 그러한 행렬에서 열이 이뤄진 모형들은 소음 강도를 개선하기 위한, PMC(parallel model combination)와 같은 기법에서 선형 필터 뱅크 도메인으로의 변환을 허용하여 역변환이 적용될 수 있다는 이점을 갖는다.
변환은 이산 코사인 변환이 될 수 있다. 대개, 시간 행렬은 n 이하의 요소를 포함하도록 끊긴다. 이것은 관련된 계산량을 감소시켜 우수한 성능 결과를 낳는 것으로 밝혀졌다. 행렬의 고정상태(m=0) 행은 생략될 수 있고, 그래서 행렬에 채널 강도 특징을 만드는 선형 회선상태의 채널 왜곡에 의해 어떠한 음성 신호 왜곡을 제거한다.
본 발명은 또한 본 발명의 방법을 발생시키는 특징을 포함하는 음성 인식 방법과 관련된다.
본 발명의 또다른 측면에서,
입력 음성 신호 프레임의 소정수 n 각각의 에너지의 대수를 계산하는 프로세서; 및
입력 음성을 나타내는 시간 행렬을 형성하기 위해 계산되는 n 대수적 에너지값에 변환을 적용하는 프로세서로 이루어지는, 음성 반응 장치에서 사용하기 위한 특징 발생 장치가 제공된다.
본 발명의 특징 발생 수단은 음성 인식 장치에서 사용하기에 적당하고, 또한 그러한 장치에서 사용하기 위한 인식 데이터를 발생시키기에 적당하다.
지금부터 첨부한 도면을 참조하여 예의 방법으로 본 발명을 설명한다.
도 1은 전기통신 환경에서의 음성 인식기의 사용을 개략적으로 나타낸 도면,
도 2는 음성 인식기를 개략적으로 표현한 도면,
도 3은 본 발명에 따른 특징 추출기의 하나의 실시예의 구성요소를 개략적으로 나타낸 도면,
도 4는 KL(Karhunen-Loeve) 변환을 결정하는 단계를 나타내는 도면,
도 5는 도 2의 음성 인식기의 일부를 형성하는 종래 음성 분류기의 구성요소를 개략적으로 나타낸 도면,
도 6은 도 5의 분류기의 작동을 개략적으로 나타내는 흐름도,
도 7은 도 2의 음성 인식기의 일부를 형성하는 종래 시퀀서의 구성요소를 개략적으로 나타낸 블럭도,
도 8은 도 7의 시퀀서의 일부를 형성하는 기억장치내 필드 내용을 개략적으로 나타낸 도면, 및
도 9는 도 7의 시퀀서의 작동을 개략적으로 나타내는 흐름도이다.
도 1을 참조하면, 음성 인식을 포함하는 전기통신 시스템은 일반적으로 (대개 전화 송수화기의 일부를 형성하는) 마이크(1), 전기통신 네트워크(2)(대개 PSTN(public switched telecommunications network)), 네트워크(2)로부터 음성 신호를 수신하기 위해 연결된 음성 인식기(3), 및 음성 인식기(3)와 연결되고 그로부터 음성 인식 신호를 수신하도록 배치되어, 특정한 단어 또는 어구의 인식 또는 인식하지 않음을 나타내며 그에 따른 응답 행위를 취하는 이용 장치(4)로 이루어진다. 예를 들어, 이용 장치(4)는 은행 업무, 정보 서비스 등을 하기 위해 원격 작동 터미널이 될 수 있다.
여러 경우에서, 이용 장치(4)는 일반적으로 사용자의 송수화기 일부를 형성하는 확성기(5)로 네트워크(2)를 통해 전송되는, 사용자에게 들리는 응답을 발생시킬 것이다.
작동중에, 사용자는 마이크(1)로 말하고, 신호는 네트워크(2)를 통해 마이크(1)로부터 음성 인식기(3)로 전송된다.
음성 인식기는 음성 신호를 분석하고, 특정한 단어 또는 어구의 인식 또는 인식하지 않음을 나타내는 신호가 생성되어 이용 장치(4)로 전송되며, 음성 인식 상황에서의 적절한 동작을 취한다.
일반적으로, 음성 인식기(3)는 신호에 의해 취해진 마이크(1)로부터 네트워크(2)를 통한 네트워크(2)로의 루트를 알지 못한다. 매우 다양한 타입 또는 특성의 송수화기중의 하나가 사용될 수 있다. 유사하게, 네트워크(2)내에서, 다양한 전송 경로중 임의의 한 경로가 결정될 수 있고, 무선 링크, 아나로그 및 디지털 경로 등을 포함한다. 따라서, 음성 인식기(3)에 이르는 음성 신호(Y)는 마이크(1)로 수신된 음성 신호(S)에 대응하고, 마이크(1)의 변환 특성, 네트워크(2)로의 링크, 네트워크(2)를 통한 채널, 및 음성 인식기(3)로의 링크와 관련되며, 하나의 전송 특성(H)으로 일괄되고 설계될 수 있다.
일반적으로, 음성 인식기(3)는 음성 신호를 확인하기 위해 음성과 관련된 데이터를 요구할 필요가 있고, 이러한 데이터 확인은 음성 인식기(3)가 그 단어 또는 어구를 위한 인식 데이터를 형성하기 위해 마이크(1)로부터 음성 신호를 수신하는 작동의 트레이닝 모드에서 음성 인식기에 의해 수행된다. 그러나, 음성 인식 데이터를 요구하는 다른 방법 또한 가능하다.
도 2를 참조하면, 음성 인식기는 (디지털 네트워크 또는 아나로그 디지털 변환기로부터) 디지털 형태로 음성을 수신하는 입력(31); 연속적인 디지털 샘플을 연속적인 샘플의 연속적인 프레임으로 나누는 프레임 발생기(32); 샘플의 프레임으로부터 대응하는 특징 벡터를 발생시키는 특징 추출기(33); 연속적인 특징 벡터를 수신하고, 인식 결과를 생성하는 분류기(34); 입력 신호가 가장 큰 유사성을 나타내는 소정의 발음을 결정하는 시퀀서(35); 및 인식 신호가 인식된 음성 발성을 나타내도록 제공되는 출력 포트(35)로 이루어진다.
상기한 바와 같이, 음성 인식기는 일반적으로 트레이닝 단계동안 인식 데이터를 습득한다. 트레이닝동안, 음성 신호는 음성 인식기(3)로 입력되고, 특징은 본 발명에 따른 특징 추출기(33)에 의해 추출된다. 이러한 특징은 잇따른 인식을 위해 음성 인식기(3)에 의해 저장된다. 후술되는 바와 같이, 특징은 음성 처리에서 잘 알려진 기법, 예를 들어 HMMs에 의해 모형화된 임의의 편리한 형태로 저장될 수 있다. 인식동안, 특징 추출기는 공지되지 않은 입력 신호로부터 유사한 특징을 추출하고, 공지되지 않은 신호 특징을 인식될 각각의 단어/어구를 위해 저장된 특징(들)과 비교한다.
간단하게 하기 위해, 인식 단계에서의 음성 인식기의 작동을 후술한다. 트레이닝 단계에서, 추출된 특징은 상기 기술분야에서 잘 알려진 바와 같이 적당한 분류기(34)를 트레인하기 위해 사용된다.
프레임 발생기(32)
프레임 발생기(32)는 예를 들어 초당 8000 샘플의 속도로 음성 샘플을 수신하고, 매 16㎳당 1 프레임의 프레임 속도로 256개 연속적인 샘플로 이루어지는 프레임을 형성하도록 배치된다. 대개, 각각의 프레임은 프레임 가장자리에서 발생된 가짜 인공물을 감소시키기 위해 예를 들어 해밍(Hamming) 윈도우를 이용하여 창이 내어진다(즉, 프레임 가장자리로 향하는 샘플들은 소정의 부가 정수가 곱해진다). 적절한 실시예에서, 프레임은 창을 내는 효과를 개선하도록 (예를 들어 50%씩) 중첩된다.
특징 추출기(33)
특징 추출기(33)는 프레임 발생기(32)로부터 프레임을 수신하고, 각각의 프레임으로부터 특징 또는 특징 벡터를 생성한다. 도 3은 본 발명에 따른 특징 추출기의 실시예를 나타낸다. 다른 특징, 예를 들어 LPC 셉트럼 계수 또는 MFCCs를 생성하기 위해 수단이 추가적으로 제공될 수 있다.
입력 음성 신호의 각각의 프레임 j은 데이터 프레임의 평균 에너지를 계산하는 프로세서(331)로 입력된다, 즉 에너지 계산기 프로세서(331)는:
여기서 xi는 프레임 j내 샘플 i의 에너지값이다.
그리고, 대수 프로세서(332)는 프레임 j을 위한 이 평균값의 로그를 형성한다. 로그 에너지값은 예를 들어 n=7인 n 프레임을 위한 로그 에너지 값을 저장하기에 충분한 길이를 갖는 버퍼(333)로 입력된다. 일단 데이터의 7 프레임 가치가 계산되면, 스택된 데이터는 변환 프로세서(334)로 출력된다.
프레임 에너지 벡터 또는 시간 행렬의 형성에서, 변환 프로세서(334)로 입력된 스택된 로그 에너지값의 스펙트럼 시간 벡터는 변환 행렬로 곱해진다. 즉,
MH=T
여기서 M은 스택된 로그 에너지값의 벡터, H는 시간 정보를 엔코드할 수 있는 변환, T는 프레임 에너지 벡터이다.
변환 H의 행은 시간 정보를 엔코딩하기 위한 기본적인 기능이다. 시간 정보를 엔코딩하는 이러한 방법을 이용하여, 폭넓은 범위의 변환이 시간 변환 행렬 H와 같이 사용될 수 있다.
변환 H은 시간 정보를 엔코드한다, 즉 변환 H는 로그 에너지값 스택의 공분산 행렬이 대각선화되도록 한다. 즉, H에 의해 변환된 로그 에너지값의 공분산 행렬의 대각선에서 벗어난 요소(즉, 주도적이지 않은 대각선)는 제로로 간주된다. 공분산 행렬의 대각선에서 벗어난 요소는 각각의 샘플들간의 상관 관계의 등급을 나타낸다. 이것을 성취하는 최적의 변환이 N.S. Jayant 및 P. Noll의 "Digital coding of waveforms"(Prentice-Hall, 1984)에 설명된 바와 같은 KL(Karhunen-Loeve) 변환이다.
특징 벡터에 의해 전달된 시간 정보를 엔코딩하기 위한 최적의 KL 변환을 찾기 위해서, 연속적인 벡터의 상관관계를 고려한 통계가 필요하다. 그리고, 이러한 상관관계 정보를 사용하여, KL 변환이 계산될 수 있다. 도 4는 음성 데이터로부터 KL 변환을 결정하는 것과 관련된 프로시져를 나타내고 있다.
KL 변환을 정확하게 결정하기 위해, 전체 트레이닝 데이터 세트가 먼저 로그 에너지값으로 매개변수화된다. 시간내에 n개 연속적인 로그 에너지값을 포함하는 벡터 xt가 생성된다:
xt=[ct,ct-1,...,ct+n-1]
트레이닝 세트를 통한 이들 벡터들의 전체 세트로부터, 공분산 행렬 Σxx 로 계산되고, 여기서 μx는 로그 에너지값의 평균 벡터이다.
상기한 바와 같이, 이것은 상관관계 행렬 E{xxT}과 매우 밀접하게 관련되고, 그와 마찬가지로 시간인 음성 다이내믹을 고려한 정보를 포함한다. KL 변환은 공분산 행렬의 고유벡터로부터 결정되고, 예를 들어 단수값 분해를 이용하여 계산될 수 있다.
결과적인 행렬 H는 공분산 행렬의 고유벡터로부터 만들어진다. 이들은 그 각각의 고유값 λi의 크기에 따라 랭크된다. 이 행렬은 KL 유도된 시간 변환 행렬이다.
Legendre, Laguerre 등과 같은 시간 변환 행렬을 생성하기 위해 다른 다항식이 사용될 수 있다. KL 변환은 각각의 트레이닝 데이터 세트를 위한 그자신의 변환을 계산하기 위한 필요성에 의해 복잡해진다. 대신, DCT(Discrete Cosine Transform)도 사용될 수 있다. 이러한 경우, 변환 프로세서(334)는 n 프레임을 위한 로그 에너지값과 관련된 스택된 데이터의 DCT를 계산한다.
1차원 DCT는 다음과 같다:
여기서, f(i) = 프레임 i에서의 로그 에너지값
C(u) = u=0일 경우
= 그렇지 않은 경우 1
u는 0 내지 n-1까지의 정수이다.
변환 프로세서(334)는 데이터의 n 프레임으로부터 발생된 n DCT 계수를 출력한다. 이들 계수들은 입력 신호의 에너지 레벨과 관련된 프레임 에너지 벡터를 형성한다.
프레임 에너지 벡터는 n=7인 경우 예를 들어 프레임 0 내지 6, 1 내지 7, 2 내지 8 등에서 입력 신호의 연속적인 n 프레임 각각을 위해 형성된다. 프레임 에너지 벡터는 음성 프레임을 위한 특징 벡터의 일부를 형성한다. 이러한 특징은 다른 특징, 예를 들어 MFCCs 또는 미분 MFCC를 증대시키기 위해 사용될 수 있다.
분류기(34)
도 5를 참조하면, 분류기(34)는 종래 디자인중의 하나이고, 상기 실시예에서는 HMM 분류 프로세서(341), HMM 상태 메모리(342), 및 모드 메모리(343)로 이루어진다.
상태 메모리(342)는 인식될 다수의 음성 부분 각각에서 상태 필드(3421,3422,...)로 이루어진다. 예를 들어, 상태 필드는 인식될 각각의 워드 음소를 위해 상태 메모리(342)에 제공될 수 있다. 소음/침묵을 위한 상태 필드도 제공될 수 있다.
상태 메모리(342)내 각각의 상태 필드는 모드 메모리(343)내 모드 필드 세트(361,362,...)로의 포인터 어드레스를 저장하는 포인터 필드(3421b,3422b,...)를 포함한다. 각각의 모드 필드 세트는 다수의 모드 필드(3611,3612,...)로 이루어지고, 각각은 질의내 상태를 특징짓는 특징 계수값의 다차원 가우스 분산을 정의한다. 예를 들어, 만일 각각의 특징(예를 들어 본 발명의 에너지 행렬의 7개 계수 및 제 1의 8 MFCC 계수)내에 d 계수가 있는 경우, 각각의 모드를 특징짓는 각각의 모드 필드(3611,3612,...)내에 저장된 데이터는: 상수 C, 한 세트의 d 특징 평균값 μi, 및 한 세트의 d 특징 편차 σi이다; 다시 말해서, 전체 2d+1개이다.
각각의 모드 필드 세트(361,362,...)내 모드 필드(3611,3612,...)의 개수 Ni는 가변적이다. 모드 필드는 트레이닝 단계동안 발생되고, 특징 추출기에 의해 유도된 특징(들)을 나타낸다.
인식하는 동안, 분류 프로세서(34)는 메모리(342)내 각각의 상태 필드를 차례로 읽도록 배치되고, 본 발명의 특징 추출기(33)에 의해 출력된 현재 입력 특징 계수 세트를 사용하여 각각에서 입력 특징 세트 또는 벡터가 대응하는 상태와 대응할 확률을 계산한다. 그렇게 하기 위해, 도 6에 도시된 바와 같이, 프로세서(341)는 그것이 가리키는 모드 메모리(343)내 모드 필드 세트를 액세스하고, 모드 필드 세트내 각각의 모드 필드 j에서의 지정 확률 Pj를 계산하기 위해, 상태 필드내 포인터를 읽도록 배치된다.
다음, 프로세서(341)는 지정 확률 Pj을 합하므로써 상태 확률을 계산한다. 따라서, 분류 프로세서(341)의 출력은 다수의 상태 확률 P이 되고, 상태 메모리(342)내 각각의 상태에서의 상태 확률은 입력 특징 벡터가 각각의 상태와 대응하는 유사성을 나타낸다.
도 6은 분류 프로세서(341)의 작동을 간단하게 설명하고 있다는 것을 알 수 있다. 실제로, 모드 확률 각각은 모드가 대응하는 음소와 관련된 모든 상태 확률의 계산에 사용되도록, 일단 계산되고, 시간으로 저장될 수 있다.
분류 프로세서(341)는 적당하게 프로그램된 DSP(digital signal processing) 장치가 될 수 있고, 특히 특징 추출기(33)와 동일한 DSP 장치가 될 수 있다.
시퀀서(35)
도 7을 참조하면, 시퀀서(35)는 종래 디자인이고, 상기 실시예에서는 각각의 프로세스된 프레임에서 분류 프로세서(341)에 의해 출력된 상태 확률을 저장하는 상태 확률 메모리(353); 상태 시퀀스 메모리(352); 분석 프로세서(351); 및 시퀀서 출력 버퍼(354)로 이루어진다.
상태 시퀀스 메모리(352)는 다수의 상태 시퀀스 필드(3521,3522,...)로 이루어지고, 각각은 상기 실시예에서 하나의 음소 문자열로 이루어지는 인식될 단어 또는 어구 시퀀스에 대응한다. 상태 시퀀스 메모리(352)내 각각의 상태 시퀀스는 도 8에 도시된 바와 같이 다수의 상태 P1,P2,...PN및 각각의 상태에서의 두가지 확률; 반복 확률(Pi1) 및 다음 상태로의 전이 확률(Pi2)로 이루어진다. 따라서, 일련의 프레임과 관련된 관측된 상태 시퀀스는 각각의 상태 시퀀스 모형(3521등)내 각각의 상태 Pi의 일부 반복으로 이루어진다. 예를 들면 다음과 같다.
프레임 번호 1 2 3 4 5 6 7 8 9 ...Z Z+1
상태 P1 P1 P1 P2 P2 P2 P2 P2 P2...Pn Pn
도 9에 도시된 바와 같이, 시퀀스 프로세서(351)는 각각의 프레임에서 분류 프로세서(341)에 의해 출력된 상태 확률 및 상태 확률 메모리(353)내 먼저 저장된 상태 확률을 읽고, 시간내내 일자를 기입하기 위해 가장 유사한 상태 경로를 계산하며, 이것을 상태 시퀀스 메모리(352)내에 저장된 상태 시퀀스 각각과 비교하도록 배치된다.
계산을 위해 S.J. Cox의 "Hidden Markov Models for Automatic Speech Recognition: theory and applications"(British Telecom Technology Journal, 1998, 4, p105)에 일반적으로 설명된 잘 알려진 HMM 기법을 채택한다. 편리하게, 시퀀스 프로세서(351)에 의해 수행된 HMM 프로세싱에서는 공지된 비터비(Viterbi) 알고리즘을 사용한다. 시퀀스 프로세서(351)는 예를 들어 Intel(TM)i-486(TM)마이크로프로세서 또는 Motorola(TM)68000 마이크로프로세서와 같은 마이크로프로세서가 될 수 있거나, 또는 대안적으로 DSP 장치(예를 들어, 상기 프로세서중의 임의의 하나에서 사용된 것과 동일한 DSP 장치)가 될 수 있다.
따라서, (인식될 단어, 어구, 또는 다른 음성 시퀀스에 대응하는) 각각의 상태 시퀀스에서 확률 스코어는 입력 음성의 각각의 프레임에서 시퀀스 프로세서(351)에 의해 출력된다. 예를 들어, 상태 시퀀스는 전화번호부내 이름으로 이루어질 수 있다. 발성의 끝이 검출되는 경우, 가장 확률있는 상태 시퀀스를 나타내는 라벨 신호는 대응하는 이름, 단어 또는 어구가 인식되었는지를 나타내기 위해 시퀀스 프로세서(351)에서 출력 포트(38)로 출력된다.

Claims (10)

  1. 음성 반응 장치에서 사용하기 위한 특징 발생 방법에 있어서,
    입력 음성 신호 프레임의 소정수 n 각각의 대수적 프레임 에너지값을 계산하는 단계; 및 입력 음성 신호를 나타내는 시간인 행렬을 형성하기 위해 n 대수적 프레임 에너지값에 변환 행렬을 적용하는 단계로 이루어지는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    연속적인 특징은 입력 신호의 n 프레임 그룹을 중첩시키는 것을 나타내는 것을 특징으로 하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    변환 행렬은 이산 코사인 변환인 것을 특징으로 하는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    시간 행렬은 n 이하의 요소를 포함하도록 끊기는 것을 특징으로 하는 방법.
  5. 음성을 나타내는 입력 신호를 수신하는 단계;
    입력 음성 신호의 소정수 n 프레임 각각의 대수적 프레임 에너지값을 계산하으로써 특징을 발생시키고, 입력 음성 신호를 나타내는 시간 행렬을 형성하기 위해 n 대수적 프레임 에너지값에 매트릭스 변환을 적용하는 단계;
    발생된 특징과 허용된 발성을 나타내는 인식 데이터를 비교하는 단계; 및
    비교 단계를 기초로 인식 또는 인식하지 않음을 나타내는 단계로 이루어지고,
    상기 입력 신호는 프레임으로 나누어지며, 상기 인식 데이터는 특징과 관련되는 것을 특징으로 하는 음성 인식 방법.
  6. 제 5 항에 있어서,
    변환 프로세서는 n 대수적 에너지값에 이산 코사인 변환을 적용하도록 배치되는 것을 특징으로 하는 음성 인식 방법.
  7. 음성 반응 장치에서 사용하기 위한 특징 발생 장치에 있어서,
    입력 음성 신호 프레임의 소정수 n 각각의 에너지의 대수를 계산하는 프로세서; 및
    입력 음성을 나타내는 시간 행렬을 형성하기 위해 계산되는 n 대수적 에너지값에 변환을 적용하는 프로세서로 이루어지는 것을 특징으로 하는 장치.
  8. 제 7 항에 있어서,
    변환 프로세서는 n 대수적 에너지값에 이산 코사인 변환을 적용하도록 배치되는 것을 특징으로 하는 장치.
  9. 제 7 항 또는 제 8 항에 따른 특징 발생 장치를 포함하는 음성 인식 장치.
  10. 제 1 항에 따라 발생된 특징과 관련된 인식 데이터를 수신하기 위한 입력을 포함하는 음성 인식 장치.
KR1019980707581A 1996-03-29 1997-03-25 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치 KR20000004972A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96302236 1996-03-29
EP96302236.3 1996-03-29

Publications (1)

Publication Number Publication Date
KR20000004972A true KR20000004972A (ko) 2000-01-25

Family

ID=8224867

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980707581A KR20000004972A (ko) 1996-03-29 1997-03-25 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치

Country Status (12)

Country Link
US (1) US6278970B1 (ko)
EP (1) EP0891618B1 (ko)
JP (1) JP4218982B2 (ko)
KR (1) KR20000004972A (ko)
CN (1) CN1121681C (ko)
AU (1) AU712412B2 (ko)
CA (1) CA2247006C (ko)
DE (1) DE69705830T2 (ko)
HK (1) HK1018110A1 (ko)
NO (1) NO984502L (ko)
NZ (1) NZ331431A (ko)
WO (1) WO1997037346A1 (ko)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9824552D0 (en) * 1998-11-09 1999-01-06 Royal Holloway University Of L Data classification apparatus and method thereof
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US6687672B2 (en) * 2002-03-15 2004-02-03 Matsushita Electric Industrial Co., Ltd. Methods and apparatus for blind channel estimation based upon speech correlation structure
US7437397B1 (en) * 2003-04-10 2008-10-14 At&T Intellectual Property Ii, L.P. Apparatus and method for correlating synchronous and asynchronous data streams
WO2004111759A2 (en) * 2003-05-27 2004-12-23 Purdue Research Foundation Applied estimation of eigenvectors and eigenvalues
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7920758B2 (en) * 2006-11-22 2011-04-05 Tektronix, Inc. Measurement apparatus and method of measurement of video spatial scale, offset and cropping
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
US5598504A (en) * 1993-03-15 1997-01-28 Nec Corporation Speech coding system to reduce distortion through signal overlap

Also Published As

Publication number Publication date
NO984502D0 (no) 1998-09-28
DE69705830D1 (de) 2001-08-30
NZ331431A (en) 2000-06-23
AU2168497A (en) 1997-10-22
CN1215491A (zh) 1999-04-28
CA2247006C (en) 2002-09-17
EP0891618A1 (en) 1999-01-20
US6278970B1 (en) 2001-08-21
JP4218982B2 (ja) 2009-02-04
HK1018110A1 (en) 1999-12-10
WO1997037346A1 (en) 1997-10-09
AU712412B2 (en) 1999-11-04
CA2247006A1 (en) 1997-10-09
NO984502L (no) 1998-09-28
CN1121681C (zh) 2003-09-17
JP2000507714A (ja) 2000-06-20
EP0891618B1 (en) 2001-07-25
DE69705830T2 (de) 2002-04-04

Similar Documents

Publication Publication Date Title
KR20000004972A (ko) 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치
Tiwari MFCC and its applications in speaker recognition
US5167004A (en) Temporal decorrelation method for robust speaker verification
US4908865A (en) Speaker independent speech recognition method and system
Murthy et al. Robust text-independent speaker identification over telephone channels
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
KR20010102549A (ko) 화자 인식 방법 및 장치
Karpov Real-time speaker identification
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
US6076058A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
Nijhawan et al. Speaker recognition using support vector machine
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
KR101041035B1 (ko) 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
Olsson Text dependent speaker verification with a hybrid HMM/ANN system
Nijhawan et al. Real time speaker recognition system for hindi words
Bouziane et al. Towards an objective comparison of feature extraction techniques for automatic speaker recognition systems
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
EP0190489B1 (en) Speaker-independent speech recognition method and system
Bub Task adaptation for dialogues via telephone lines
Mahmudovich et al. Image Approach to Uzbek Speech Recognition
Bondre et al. Comparative analysis of different windowing techniques in MFCC speaker recognition

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee