KR101011713B1 - 화자의 압축된 표시를 위한 음성 신호 분석 방법 및 시스템 - Google Patents
화자의 압축된 표시를 위한 음성 신호 분석 방법 및 시스템 Download PDFInfo
- Publication number
- KR101011713B1 KR101011713B1 KR1020067000063A KR20067000063A KR101011713B1 KR 101011713 B1 KR101011713 B1 KR 101011713B1 KR 1020067000063 A KR1020067000063 A KR 1020067000063A KR 20067000063 A KR20067000063 A KR 20067000063A KR 101011713 B1 KR101011713 B1 KR 101011713B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- speech
- speech signal
- speakers
- similarity
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004458 analytical method Methods 0.000 title claims description 18
- 230000001755 vocal effect Effects 0.000 title 1
- 239000013598 vector Substances 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 20
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
Description
본 발명은 음성 신호를 분석하는 방법 및 장치에 관한 것이다.
음성 신호의 분석은 특별히 화자(話者)의 표시 능력을 요구한다. 가우시안의 혼합 모델("Gaussian Mixture Model" 또는 GMM)에 의한 화자의 표시는 화자의 음향 또는 음성 식별에 효과적인 표시이다. 이러한 기술에 따르면, 화자는 소정 크기의 음향 참조 공간에서 소정 수의 가우시안의 가중합계에 의하여 나타난다.
이러한 형식의 표시는 많은 양의 데이터가 유효하고, 그 모델의 변수들의 저장에 있어서 또는 이러한 다수의 변수들 상의 계산의 수행에 있어서 물리적 제약이 존재하지 않을 때 정확하다.
현재, 실제로 IT 시스템에서 화자를 표현하는데 있어서는, 화자가 말하는 시간이 짧고, 이러한 변수에 대한 계산 시간뿐 아니라 이러한 표현에 요구되는 메모리의 크기가 매우 크다는 점이 밝혀졌다.
따라서 정확한 성능을 유지하면서 화자의 표시에 요구되는 변수의 수를 과감하게 감소시키는 방식으로 화자를 표시하려는 시도는 중요하다. 성능(performance) 은 음성 시퀀스의 전체 개수에 대하여 화자에 속하거나 속하지 않는 것으로 인식되지 않는 음성 시퀀스의 에러율로 의미된다.
이것에 관한 해결책이 구체적으로 디. 이. 스투림(D.E. Sturim), 디. 에이. 레이놀드(D.E. Reynold), 이. 싱어(E. Singer) 및 제이. 피. 캠벨(J.E. cambell)에 의한 "앵커 모델을 이용한 대량 오디오 데이터베이스 내의 화자 인덱싱(speaker indexing in large audio databases using anchor models)"이라는 문헌에서 제시되고 있다. 특별히, 저자는 화자가 음향 참조 공간에서 소위 앵커 모델(anchor model)로 불리는, GMM-UBM 모델들이 유용한(UBM은 "Universal Background Model"을 나타낸다) 참조 화자들의 소정 집합의 표시에 대하여 절대적인 방식이 아닌 상대적인 방식으로 표시된다고 제안한다. 화자와 참조 화자들 사이의 근접성은 유클리드 거리(Euclidean distance)에 의하여 평가된다. 이것은 계산 로드를 매우 감소시키지만, 성능은 여전히 제한되고 불충분하다.
상술한 관점에서, 본 발명의 목적은 GMM-UBM 모델에 의한 표시를 사용한 분석과의 비교에 의하여, 수용가능한 성능과, 실시간 응용을 위하여 계산 로드를 감소시킨 경감된 수의 변수들을 가지고, 소정 집합의 기준 화자에 대하여 화자를 표시하는 것에 의하여 음성 신호를 분석하고자 하는 것이다.
다음으로 예를 들면 화자가 인덱싱 키인 경우 대량 데이터베이스의 오디오 문서의 인덱싱을 수행하는 것이 가능하다.
따라서, 본 발명의 일면에 따르면, 소정 모델의 화자(λ)의 음성 표시와 상기 소정 모델의 다수(E)의 참조 화자들의 소정 집합의 음성 표시 사이의 유사성을 나타내는 확률 밀도를 사용하여, 화자(λ)의 음성 신호를 분석하는 방법이 제안되며, 상기 확률 밀도는 그것으로부터 음성 신호 상의 정보를 추출하기 위하여 분석된다.
이것은 사용되는 변수들의 수를 과감하게 감소시키는 것을 가능하게 하고, 이러한 방법을 구현하는 장치들이 실시간으로 동작할 수 있도록 하는 반면, 계산 시간을 감소시키고, 요구되는 메모리의 크기를 감소시킨다.
바람직한 실시예에서, M 가우시안의 혼합을 사용한 크기(D)의 절대 모델(GMM)이 소정 모델로 주어지고, 화자(λ)는 상기 절대적인 모델(GMM)에서의 가우시안 혼합을 위한 가중 계수(αi, i=1 내지 M), 크기 D의 평균 벡터(μi, i=1 내지 M) 및 크기 D×D의 공분산 행렬(∑i, i=1 내지 M)을 포함하는 변수들의 집합에 의하여 나타난다.
바람직한 실시예에서, 화자(λ)의 상기 음성 신호의 표시와 참조 화자들의 음성 표시의 소정 집합 사이의 유사성의 확률 밀도는 크기 E의 평균 벡터(μλ)와 소정 집합의 E 참조 화자들과의 유사성 공간 내에서 평가된 크기 E×E의 공분산 행렬(Σλ)의 가우시안 분포(ψ(μλ, Σλ))에 의하여 나타난다.
바람직한 실시예에서, E 참조 화자들의 소정 집합에 대하여 유사성 공간의 Nλ 벡터들에 의하여 표시되는 음성 신호들의 Nλ 세그먼트들이 존재하는 화자(λ)에 대하여, E 참조 화자들에 대한 화자(λ)의 유사성(ψ(μλ, Σλ))은 E 참조 화자들에 대하여 화자(λ)의 유사성의 공분산 행렬(Σλ) 및 크기 E의 평균 벡터(μλ)의 함수로 정의된다.
본 발명의 다른 측면에 따르면, 오디오 아카이브(archive)의 데이터 베이스뿐 아니라 소정 집합의 E 참조 화자들의 음성 신호들과 소정 모델의 그들의 연관 음성 표시들이 저장되어 있는 데이터 베이스로 이루어지고, 화자의 음성 표시와 E 참조 화자들의 음성 표시의 소정 집합 사이의 유사성의 벡터 표시를 사용한 음성 신호 분석 수단을 포함하는 화자(λ)의 음성 신호의 분석을 위한 시스템이 제안된다.
바람직한 실시예에서, 상기 데이터 베이스는 또한 상기 분석 수단에 의하여 수행된 음성 신호 분석 내용을 저장한다.
본 발명은 오디오 문서의 인덱싱을 위하여 적용될 수 있으나, 화자의 음향 식별이나 화자의 신원 확인과 같은 다른 응용들에 또한 사용될 수 있다.
본 발명의 다른 목적, 표시 및 이점들은 제한되지 않는 예에 의하여 주어지고 오디오 문서 인덱싱 방법 사용의 응용을 도시하는 하나의 첨부된 도면에 관하여 제공되는 후술할 설명을 이해하는 것에 의하여 명백해질 수 있다.
도면은 오디오 데이터 베이스의 인덱싱에 대한 본 발명의 측면에 따른 시스템의 응용을 도시한다.
본 발명은 또한 화자의 음성 식별 또는 화자의 신원 확인, 즉 일반적인 방법으로 음성 신호에서 화자와 관련된 정보의 인식에 적용될 수 있다. 상기 시스템은 예를 들면 화자(λ)에 의하여 발음된 일련의 음성 신호들을 포함하는 요청의 기록 수단(3)에 유선 또는 무선 접속(2)에 의하여 연결된 마이크(1)와 같은 화자의 음성 데이터를 수신하는 수단을 포함한다. 상기 기록 수단(3)은 접속(4)에 의하여 저장 수단(5)에 연결되고, 접속(6)에 의하여 상기 요청의 음향 처리 수단(7)에 연결된다. 이러한 음향 처리 수단은 화자(λ)의 음성 신호들을 화자(λ)를 표현하기 위하여 GMM 모델에 의한 크기 D의 음향 공간에서의 표시로 전환한다.
이러한 표시는 다음 식에 따른 M 가우시안의 가중 합계에 의하여 정의된다:
여기서,
D는 절대적인 GMM 모델의 음향 공간의 크기이며;
X는 크기 D의 음향 벡터, 즉 절대적인 GMM 모델에서 화자(λ)의 음성 신호 시퀀스의 캡스트럴 계수(cepstral coefficient) 벡터이고;
M은 16과 1024 사이에 놓인 일반적으로 2의 승수인 절대적인 GMM 모델의 가우시안 숫자를 나타내며;
bi(x)는 i=1 내지 D인 크기 D의 평균 벡트(μi) 및 크기 D×D의 공분산 행렬(Σi)에 의하여 매개 변수화된 가우시안 밀도를 나타내고;
αi는 i=1 내지 D인 절대적인 GMM 모델에서 가우시안 혼합의 가중 계수를 나타낸다.
요청의 음향 처리 수단(7)은 접속(8)에 의하여 분석 수단(9)에 연결된다. 이들 분석 수단(9)은 선택된 GMM 모델의 상기 화자의 음성 표시와 상기 선택된 GMM 모델의 E 참조 화자들의 음성 표시들 사이의 유사성을 나타내는 확률 밀도 벡터에 의하여 화자를 표현할 수 있다. 게다가 상기 분석 수단(9)은 화자를 확인 및/또는 식별하기 위한 시험을 수행할 수 있다.
이러한 시험을 수행하기 위하여, 상기 분석 수단은 화자와 참조 화자들 사이의 유사성을 나타내는 확률 밀도 벡터의 공식화를 수행한다.
이것은 다음 공식에 의해 화자 신호의 단일 세그먼트(x)의 적절한 표시를 설명하는 것을 의미한다:
여기서,
Wλ는 이 표시 공간에서 세그먼트(x)를 나타내는 소정 집합의 E 참조 화자들의 유사성 공간 벡터이고;
Tx는 말하기 세그먼트(x)의 음향 벡터들 또는 프레임의 숫자이고;
M은 16 내지 1024 사이에 놓인 일반적으로 2의 승수인 상대적인 GMM 모델의 가우시안의 숫자이며;
D는 절대적인 GMM 모델의 음향 공간의 크기이고;
xλ는 크기 D의 음향 벡터, 즉 절대적인 GMM 모델에서 화자(λ)의 음성 신호 시퀀스의 캡스트럴 계수(cepstral coefficient) 벡터이며;
bk(x)는 k=1 내지 D인 크기 D의 평균 벡트(μk) 및 크기 D×D의 공분산 행렬(Σk)에 의하여 매개 변수화된 가우시안 밀도를 나타내고;
αk는 k=1 내지 D인 절대적인 GMM 모델에서 가우시안 혼합의 가중 계수를 나타낸다.
화자(λ)의 말하기 세그먼트(xj)(j=1...., Nλ)의 표시(Wj)에 기초하여, 화자는 다음 관계에 의하여 정의된 매개 변수들(μλ 및 Σλ)의 가우시안 분포(ψ)에 의하여 표시된다:λ
여기서, μi λ는 E 참조 화자들에 대한 화자(λ)의 유사성(ψ(μλ, Σλ))의 크기 E의 평균 벡터(μλ)의 구성요소를 나타내고, Σii λ는 E 참조 화자들에 대한 화자(λ)의 유사성(ψ(μλ,Σλ))의 크기 E×E의 공분산 행렬(Σλ)의 구성요소를 나타낸다.
분석 수단(9)은 접속(10)에 의하여 크기 D의 벡터 형식으로 선택된 GMM 모델에서 E 참조 화자들의 음성 표시들을 계산하는 것을 가능하게 만드는 학습 수단(11)에 연결된다. 학습 수단(11)이 접속(12)에 의하여 소정 집합의 화자들의 음성 신호 및 참조 GMM 모델에서 그들의 연관 음성 표시들을 포함하는 데이터베이스(13)에 연결된다. 상기 데이터베이스는 또한 상기 E 참조 화자들 외에 초기 화자들의 음성 신호의 분석 결과를 저장할 수 있다. 상기 데이터베이스(13)는 접속(14)에 의하여 분석 수단(9)에, 그리고 접속(15)에 의하여 음향 처리 수단(7)에 연결된다.
시스템은 접속(17)에 의하여 상기 음향 처리 수단(7)에, 그리고 접속(18)에 의하여 상기 분석 수단(9)에 연결된 데이터베이스(16)를 더 포함한다. 상기 데이터베이스(16)는 선택된 GMM 모델에서의 연관 음성 표시들뿐 아니라 음성 아이템 형태의 오디오 아카이브를 포함한다. 상기 데이터베이스(16)는 또한 상기 분석 수단(9)에 의하여 계산된 오디오 아이템의 연관 표시들을 저장할 수 있다. 상기 학습 수단(11)은 더하여 접속(19)에 의하여 음향 처리 수단(7)에 연결된다.
사용되는 매개 변수들의 수가 GMM 모델에 대하여 상당히 감소되고, 많은 단 계들이 오프라인에서 수행될 수 있기 때문에 실시간으로 동작할 수 있는 시스템의 동작 방식의 예가 이하에서 설명될 것이다.
학습 모듈(11)은 데이터베이스(13)에 저장된 E 참조 화자들의 음성 신호 및 음향 처리 수단(7)에 의하여 E 참조 화자의 참조 GMM 모델에서 표시를 결정할 것이다. 이 결정은 상술한 관계식 (1) 내지 (3)에 따라 수행된다.이 일련의 E 참조 화자들은 새로운 음향 표시 공간을 나타낼 것이다. GMM 모델에서 상기 E 참조 화자들의 표시들은 예를 들면 데이터베이스(13)와 같은 메모리에 저장된다. 이들은 모두 오프라인에서 수행된다.
음성 데이터가 화자(λ)로부터 예를 들어 마이크(1)를 통하여 수신되면, 그것은 접속(2)을 통하여 접속(4)에 의하여 저장 수단(5)에 이들 데이터의 저장을 수행할 수 있는 기록 수단(3)에 전송된다. 상기 기록 수단(3)은 접속(6)을 통하여 음향 처리 수단에 이 기록을 전송한다. 음향 처리 수단(7)은 상기 관계식(1) 내지 (3)에 미리 나타난 바와 같이 소정 GMM 모델로 화자의 음성 표시를 계산한다.
게다가, 상기 음향 처리 수단(7)은 예를 들면 오프라인에서, 소정 GMM 모델에서 S 시험 화자들 집합과 T 화자들 집합의 음성 표시들을 계산한다. 이 집합들은 구분된다. 이러한 표시들은 데이터베이스(13)에 저장된다. 상기 분석 수단(9)은 예를 들면 오프라인에서, E 참조 화자들에 대한 S 화자들과 T 화자들의 음성 표시를 계산한다. 이 표시는 상술한 바와 같이, E 참조 화자들에 대한 벡터 표시이다. 상기 분석 수단(9)은 또한 예를 들면 오프라인에서, E 참조 화자들에 대한 S 화자들과 T 화자들의 음성 표시 및 오디오 베이스의 화자들의 아이템들의 음성 표시를 수행한다. 이 표시는 E 참조 화자들에 대한 벡터 표시이다.
처리 수단(7)은 소정 GMM 모델에서 화자(λ)의 음성 표시를 화자(λ)의 음성 표시를 계산하는 분석 수단(9)으로 전송한다. 이 표시는 E 참조 화자와의 유사성의 확률 밀도에 의한 표시이다. 그것은 T 화자들의 음성 표시에 의하여 연역적 정보를 추론하는 것에 의하여 계산된다. 특별히, 이러한 연역적 정보의 사용은 심지어 화자의 유용한 음성 세그먼트의 수가 적은 경우에도 신뢰성 있는 추정을 유지하는 것을 가능하게 한다. 연역적 정보는 다음 식에 의하여 도입된다:
여기서,
μλ: E 참조 화자들에 대한 화자(λ)의 유사성(ψ(μλ,Σλ))의 크기 E의 평균 벡터;
Nλ: E 참조 화자들의 소정 집합과의 유사성 공간의 N 벡터들에 의하여 표시되는 화자(λ)의 음성 신호의 세그먼트의 개수;
W: 그것의 행이 E 참조 화자들의 소정 집합과의 유사성 공간의 벡터들에 의하여 표시되는 음성 신호의 세그먼트를 나타내는 크기 E의 벡터들인 i=1 내지 T인 일련의 T 화자들(spk_i)의 모든 초기 데이터 행렬, 각 화자들(spk_i)은 크기 E의 평균 벡터(μ0) 및 크기 E×E의 공분산 행렬(Σ0)에 의하여 표시되는 Ni 개의 음성 세그먼트를 구비한다;
또한, 각 화자를 위하여 단일 공분산 행렬을 취하는 것이 가능하고, 그것에 의하여 상기 행렬을 오프라인에서 직교화(orthogonalized)하는 것을 가능하게 하며, 다음으로 확률 밀도의 계산은 대각 공분산 행렬로 수행될 수 있다. 이 경우 단일 공분산 행렬은 다음 관계식에 따라 정의된다:
여기서,
W는 그것의 행이 E 참조 화자들의 소정 집합과의 유사성 공간의 벡터들에 의하여 표시되는 음성 신호의 세그먼트를 나타내는 크기 E의 벡터들인 i=1 내지 T인 일련의 T 화자들(spk_i)의 모든 초기 데이터의 행렬이며, 각 화자들(spk_i)은 크기 E의 평균 벡터(μ0) 및 크기 E×E의 공분산 행렬(Σ0)에 의하여 표시지어지는 Ni 개의 음성 세그먼트를 구비한다.
다음으로, 분석 수단(9)은 화자의 식별 및/또는 인증 시험에 의하여 요청 음 성 표시들과 데이터베이스의 아이템들의 음성 표시들을 비교할 것이다. 화자 식별 시험은 시험 세그먼트(wx)의 벡터와 오디오 데이터베이스의 아이템들의 표시들 집합 사이의 가능성의 측정을 평가하는 것으로 이루어진다. 식별된 화자는 최대 가능 점수, 즉, S 화자들의 집합 사이로부터의 (14)를 갖는 사람에 대응한다.
화자 인증 시험은 시험 세그먼트(wx)의 벡터와 연역적 정보의 표시의 가능성 점수에 의하여 규준화된 오디오 데이터베이스의 아이템들의 표시들 집합 사이의 가능성 점수를 계산하는 것으로 이루어진다. 상기 점수가 소정 주어진 문턱값을 초과하면 상기 세그먼트는 인증되고, 상기 점수는 다음 관계식에 의하여 주어진다:
화자(λ)가 데이터 베이스의 아이템 내에서 인식될 때마다, 이 아이템은 화자(λ)가 이 오디오 아이템에서 대화하는 것을 확인하는 것을 가능하게 하는 정보에 의하여 인덱싱된다.
본 발명은 또한 화자 인식 또는 화자 식별과 같은 다른 사용에 적용될 수 있다.
화자의 표시를 위하여 요구되는 매개 변수들의 극적인 감소에 의하여 훨씬 적은 기본 동작을 수행하기 때문에 압축된 표시는 계산 비용을 극적으로 감소시키는 것을 가능하게 한다.
예를 들면, 화자의 4초 동안의 말하기 요청 동안, 즉, 16개의 가우시안을 가진 크기 27의 GMM 모델을 위한 250 프레임 동안, 기본 동작의 개수는 540의 인수만큼 감소하고, 이에 의하여 계산 시간을 매우 감소시킨다.
게다가, 화자의 표시를 저장하기 위하여 사용되는 메모리의 크기도 상당히 감소한다.
따라서 본 발명은 계산 시간과 화자의 음성 표시를 저장하기 위한 메모리 크기를 극적으로 감소시키면서 화자의 음성 신호를 분석하는 것을 가능하게 한다.
본 발명의 상세한 설명 내에 포함되어 있음.
Claims (11)
- 소정 모델의 화자(λ)의 음성 표시와 상기 소정 모델의 다수(E)의 참조 화자들의 소정 집합의 음성 표시들 사이의 유사성을 나타내는 확률 밀도가 사용되고, 상기 확률 밀도는 상기 확률 밀도로부터 음성 신호 상의 정보를 추출하기 위하여 분석되는 것을 특징으로 하는 화자(λ)의 음성 신호 분석 방법.
- 제1항에 있어서,M 가우시안의 혼합을 사용한 크기 D의 절대적인 모델(GMM)이 상기 소정 모델로 주어지고, 상기 화자(λ)는 상기 절대적인 모델(GMM)에서의 가우시안 혼합을 위한 가중 계수(αi, i=1 내지 M), 크기 D의 평균 벡터(μi, i=1 내지 M) 및 크기 D×D의 공분산 행렬(∑i, i=1 내지 M)을 포함하는 변수들의 집합에 의하여 표시되는 것을 특징으로 하는 화자(λ)의 음성 신호 분석 방법.
- 제2항에 있어서,상기 화자(λ)의 상기 음성 신호의 표시와 소정 집합의 상기 참조 화자들의 상기 음성 표시들 사이의 유사성의 확률 밀도는 상기 소정 집합의 E 참조 화자들의 유사성 공간으로 추정되는 크기 E×E의 공분산 행렬(Σλ)과 크기 E의 평균 벡터(μλ)의 가우시안 분포(ψ(μλ, Σλ))에 의하여 표시되는 것을 특징으로 하는 화자(λ)의 음성 신호 분석 방법.
- 제3항에 있어서,상기 E 참조 화자들의 소정 집합에 대하여 유사성 공간의 Nλ 벡터들에 의하여 표시되는 음성 신호들의 Nλ 세그먼트들이 존재하는 상기 E 참조 화자들에 대한, 상기 E 참조 화자들에 대한 상기 화자(λ)의 유사성(ψ(μλ, Σλ))은 상기 E 참조 화자들에 대하여 화자(λ)의 유사성의 공분산 행렬(Σλ) 및 크기 E의 평균 벡터(μλ)의 함수로 정의되는 것을 특징으로 하는 화자(λ)의 음성 신호 분석 방법.
- 소정 모델의 화자들의 소정 집합의 음성 신호 및 그들의 연관 음성 표시가 저장된 데이터베이스를 포함하는 화자(λ)의 음성 신호를 분석하기 위한 시스템에 있어서,상기 화자(λ)의 음성 표시와 E 참조 화자들의 음성 표시의 소정 집합들 사이의 유사성을 나타내는 확률 밀도를 사용하는 음성 신호 분석 수단을 포함하는 것을 특징으로 하는 화자(λ)의 음성 신호 분석 시스템.
- 제7항에 있어서,상기 데이터 베이스는 상기 분석 수단에 의하여 수행되는 음성 신호 분석을 더 저장하는 것을 특징으로 하는 화자(λ)의 음성 신호 분석 시스템.
- 제1항 내지 제6항 중 어느 한 항에 청구된 방법을 사용하여 오디오 문서를 인덱싱하는 방법.
- 제1항 내지 제6항 중 어느 한 항에 청구된 방법을 사용하여 화자를 식별하는 방법.
- 제1항 내지 제6항 중 어느 한 항에 청구된 방법을 사용하여 화자를 확인하는 방법.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/FR2003/002037 WO2005015547A1 (fr) | 2003-07-01 | 2003-07-01 | Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060041208A KR20060041208A (ko) | 2006-05-11 |
KR101011713B1 true KR101011713B1 (ko) | 2011-01-28 |
Family
ID=34130575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020067000063A KR101011713B1 (ko) | 2003-07-01 | 2003-07-01 | 화자의 압축된 표시를 위한 음성 신호 분석 방법 및 시스템 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7539617B2 (ko) |
EP (1) | EP1639579A1 (ko) |
JP (1) | JP4652232B2 (ko) |
KR (1) | KR101011713B1 (ko) |
CN (1) | CN1802695A (ko) |
AU (1) | AU2003267504A1 (ko) |
WO (1) | WO2005015547A1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1881443B1 (en) * | 2003-10-03 | 2009-04-08 | Asahi Kasei Kogyo Kabushiki Kaisha | Data processing unit, method and control program |
ATE491202T1 (de) * | 2006-05-16 | 2010-12-15 | Loquendo Spa | Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache |
JP4717872B2 (ja) * | 2006-12-06 | 2011-07-06 | 韓國電子通信研究院 | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
AU2007335251B2 (en) | 2006-12-19 | 2014-05-15 | Validvoice, Llc | Confidence levels for speaker recognition |
CN102237084A (zh) * | 2010-04-22 | 2011-11-09 | 松下电器产业株式会社 | 声音空间基准模型的在线自适应调节方法及装置和设备 |
US8635067B2 (en) * | 2010-12-09 | 2014-01-21 | International Business Machines Corporation | Model restructuring for client and server based automatic speech recognition |
US9595260B2 (en) * | 2010-12-10 | 2017-03-14 | Panasonic Intellectual Property Corporation Of America | Modeling device and method for speaker recognition, and speaker recognition system |
JP6556575B2 (ja) | 2015-09-15 | 2019-08-07 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
CA3172758A1 (en) * | 2016-07-11 | 2018-01-18 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6411930B1 (en) | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
US5793891A (en) * | 1994-07-07 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Adaptive training method for pattern recognition |
JPH08110792A (ja) * | 1994-10-12 | 1996-04-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5790758A (en) * | 1995-07-07 | 1998-08-04 | The United States Of America As Represented By The Secretary Of The Navy | Neural network architecture for gaussian components of a mixture density function |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6029124A (en) * | 1997-02-21 | 2000-02-22 | Dragon Systems, Inc. | Sequential, nonparametric speech recognition and speaker identification |
US6212498B1 (en) * | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6009390A (en) * | 1997-09-11 | 1999-12-28 | Lucent Technologies Inc. | Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition |
US5946656A (en) * | 1997-11-17 | 1999-08-31 | At & T Corp. | Speech and speaker recognition using factor analysis to model covariance structure of mixture components |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
US6954745B2 (en) * | 2000-06-02 | 2005-10-11 | Canon Kabushiki Kaisha | Signal processing system |
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US6754628B1 (en) * | 2000-06-13 | 2004-06-22 | International Business Machines Corporation | Speaker recognition using cohort-specific feature transforms |
-
2003
- 2003-07-01 EP EP03748194A patent/EP1639579A1/fr not_active Withdrawn
- 2003-07-01 JP JP2005507539A patent/JP4652232B2/ja not_active Expired - Fee Related
- 2003-07-01 CN CNA038267411A patent/CN1802695A/zh active Pending
- 2003-07-01 AU AU2003267504A patent/AU2003267504A1/en not_active Abandoned
- 2003-07-01 WO PCT/FR2003/002037 patent/WO2005015547A1/fr active Application Filing
- 2003-07-01 US US10/563,065 patent/US7539617B2/en not_active Expired - Fee Related
- 2003-07-01 KR KR1020067000063A patent/KR101011713B1/ko not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6411930B1 (en) | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
Non-Patent Citations (1)
Title |
---|
Reynolds et al. 'Speaker verification using adapted Gaussian mixture models', Digital signal processing, Vol.10, Nos.1-3, pp.19-41, January 2000 |
Also Published As
Publication number | Publication date |
---|---|
US20060253284A1 (en) | 2006-11-09 |
CN1802695A (zh) | 2006-07-12 |
EP1639579A1 (fr) | 2006-03-29 |
AU2003267504A1 (en) | 2005-02-25 |
JP2007514959A (ja) | 2007-06-07 |
WO2005015547A1 (fr) | 2005-02-17 |
US7539617B2 (en) | 2009-05-26 |
KR20060041208A (ko) | 2006-05-11 |
JP4652232B2 (ja) | 2011-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
US20160071520A1 (en) | Speaker indexing device and speaker indexing method | |
US7783581B2 (en) | Data learning system for identifying, learning apparatus, identifying apparatus and learning method | |
US20100114572A1 (en) | Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program | |
US20020095287A1 (en) | Method of determining an eigenspace for representing a plurality of training speakers | |
CA2652302A1 (en) | Intersession variability compensation for automatic extraction of information from voice | |
CN108875463B (zh) | 多视角向量处理方法和设备 | |
CN112017694B (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
KR102195246B1 (ko) | 음성 신호를 이용한 감정 분류 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN110164417B (zh) | 一种语种向量获得、语种识别的方法和相关装置 | |
US20020143539A1 (en) | Method of determining an eigenspace for representing a plurality of training speakers | |
KR101011713B1 (ko) | 화자의 압축된 표시를 위한 음성 신호 분석 방법 및 시스템 | |
EP1005019B1 (en) | Segment-based similarity measurement method for speech recognition | |
EP1431959A2 (en) | Gaussian model-based dynamic time warping system and method for speech processing | |
KR100682909B1 (ko) | 음성 인식 방법 및 장치 | |
US7516071B2 (en) | Method of modeling single-enrollment classes in verification and identification tasks | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
Luettin et al. | Learning to recognise talking faces | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
Kamble et al. | Spontaneous emotion recognition for Marathi spoken words | |
US20220335928A1 (en) | Estimation device, estimation method, and estimation program | |
JP3058569B2 (ja) | 話者照合方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |