KR100332315B1

KR100332315B1 - Ｃｄｍａ방식 핸드폰에서의 고속 화자 확인

Info

Publication number: KR100332315B1
Application number: KR1019990043333A
Authority: KR
Inventors: 오영환; 장길진
Original assignee: 윤덕용; 한국과학기술원
Priority date: 1999-10-08
Filing date: 1999-10-08
Publication date: 2002-04-12
Also published as: KR20010036359A

Abstract

본 발명은 디지털 휴대통신 핸드셋에서 음성의 전달을 위한 음성 부호화기 (vocoder)에서 주로 사용되는 LSP 계수를 이용한 화자 확인 방법에 관한 것이다.

본 발명의 핸드셋에서의 화자 확인은 먼저 동일한 화자에게 같은 단어를 발성하도록 하여 그 출현 확률을 모델링하는 과정과, 핸드셋 사용이전에 목소리를 입력하도록 하여 수락/거부 여부를 결정하도록 하는 과정에 있어서,

정확한 화자의 발성 모델링을 위해 복잡한 연산이 요구되는 DTW 모델링 기법과 HMM 확률 모델링 기법과, 이를 핸드셋과 같은 실수 연산을 지원하지 않는 기기에 구현하기 위해 고정 소수점 연산 알고리즘을 고안하고 구현하는 과정과, 입력 자료의 특성을 이용하여 빠른 속도를 위한 고속화 기법을 구현하는 과정을 포함하는 CDMA 핸드폰에서의 고속 화자 확인 방법을 제시한다.

본 발명에 의하면 타인에 의한 핸드폰 도용방지, 상거래시 개인확인, 문자통신에서의 사용자 인증, 타인으로부터 개인정보 보호를 제공할 수 있다.

Description

ＣＤＭＡ방식 핸드폰에서의 고속 화자 확인{Fast speaker verification on a CDMA cellular phone}

본 발명은 디지털 휴대 통신 CDMA (Code Division Multiple Access) 기반 핸드폰에서 음성의 전달을 위한 음성 부호화기에서 주로 사용되는 LSP 계수를 이용해 동일한 화자에게 같은 단어를 발성하도록 하여 그 출현 빈도를 확률적으로 모델링하고 핸드셋 사용이전에 목소리를 입력하도록 하여 수락/거부 여부를 결정하도록 하는 사용자의 음성만을 이용한 실시간 사용자 인증을 가능하게 하는 고정 소수점 연산 화자 확인 방법에 관한 것이다.

종래의 기술은 대부분이 화자 확인이 아닌 음성 인식에 관한 것으로서 음성 인식 자동 전화 발신 장치나 사용자의 선택에 의한 이동 단말기의 음성 다이얼링 방법등이었다.

종래의 화자 확인 기술인 DTW(dynamic time warpmg)와 HMM(Hidden Markov Model)은 시간적으로 변하는 신호를 모델링할 수 있는 효과적인 방법으로 일반적으로 HMM기반 화자 확인기는 DTW 기반 화자 확인기보다 뛰어난 성능을 보이고 임의의 입력 자료에 대하여 일반화의 특성이 강하므로 넓은 분야의 화자 확인에서 사용되고 있으며 LSP(Line spectral pair) 파라메타에 의한 방법은 각 차원의 값들이 제한된 값들이고 이전 차원의 값이 현재 차원의 값보다 작은 차수 성질을 가지며 차원과 값을 크기에 상관없이 같은 에러에 대해 거의 같은 민감도를 가져 현재 디지털 음성통신에서 많이 사용되는 선형 분석 기반 보코더(vocoder)에 많이 사용되고 있다.

그러나 상기 종래 기술의 DTW와 HMM 화자확인기술은 학습과정이나 확인과정에서 가장 확률이 높은 패턴을 찾기 위한 탐색 알고리즘이 탐색 공간의 크기가 커질 수록 많은 계산량이 요구되며 특히 사용되는 연산들은 실수형 연산이 대부분을 차지하므로 FPU(Floating Point Unit)이 없는 하드웨어에서는 구현되기 어렵다.

상기 종래 기술의 LSP 파라메타는 디지털 통신에서 사용되는 하드웨어들이 그 크기가 작고 처리능력이 떨어지기 때문에 여러가지 화자확인을 위한 알고리즘들은 빠른 연산시간 문제로 그 개발이 미진하다.

본 발명은 상기 종래기술의 문제점을 해결하기 위해서 발명한 것으로 DTW와 HMM을 저 성능 하드웨어에 구현하기 위하여 정수형 알고리즘을 구현하고 구현과정에서 정수형 연산들의 연산량을 직접적으로 감소시키는 방법과 전체 연산의 수를 감소시키는 방법을 학습과 인식 알고리즘에서 제안하는데 그 목적이 있다.

상기 본 발명의 목적을 달성하기 위한 기술적 사상으로서, 핸드셋에서의 화자 확인은 먼저 동일한 화자에게 같은 단어를 발성하도록 하여 그 출현 빈도를 확률적으로 모델링하는 과정과,

핸드셋 사용이전에 목소리를 입력하도록 하여 수락/거부 여부를 결정하도록 하는 과정에 있어서,

정확한 화자의 발성 모델링을 위해 복잡한 연산이 요구되는 HMM 확률 모델링 기법과,

이를 핸드셋과 같은 실수 연산을 지원하지 않는 기기에 구현하기 위해 고정 소수점 연산 알고리즘을 고안하고 구현하는 과정과,이를 DTW의 인식단계와 HMM의 학습과정에 적용하는 과정과,

입력 자료의 특성을 이용하여 기존의 화자확률 모델링 기법에 빠른 속도를 위한 고속화 기법을 구현하는 과정을 포함하는 CDMA 핸드폰에서의 고속 화자 확인 방법을 제시한다.

도 1은 본 발명의 실시 예를 나타낸 순서도이다.

도 2는 본 발명의 모델링을 하는 과정을 나타내는 순서도이다.

도 3은 모델링 기법인 HMVQM의 학습 알고리즘을 나타내는 순서도이다.

도 4는 문장 고정형 화자확인을 위한 HMVQM의 형태를 나타낸 개념도이다.

도 5은 HMVQM의 구조를 도식화한 개념도이다.

도 6a는 32 비트 고정 소수점 형식을 나타낸 개념도이다.

도 6b는 32비트 부동 소수점 형식을 나타낸 개념도이다.

도 6c, 도 6d는 32비트 형식 두 숫자의 곱의 중간 결과가 모두 31 비트 안에서 이루어지는 분할 형식을 보여주는 개념도이다.

도 7는 코드워드의 빠른 탐색 방법을 나타낸 개념도이다.

도 8은 감소 방법과 감소 비의 관계를 나타내는 그래프이다.

이하, 본 발명의 실시 예에 대한 작용에 대해서 첨부된 도면을 참조하면서 상세히 설명하기로 한다.

도 1은 본 발명의 실시 예에 대한 순서도이다.

도 1에 도시된 바와 같이 핸드셋에서의 화자 확인을 위해 먼저 동일한 화자에게 같은 단어를 발성하도록 하는 과정(S100)과,

그 출현 빈도를 확률적으로 모델링하는 과정(S200)과,

핸드셋 사용이전에 수락/거부 여부를 결정하도록 하는 과정(S300)을 포함한다.

도 4는 도 1의 화자에게 같은 단어를 발성하도록 하는 과정(S100)에서 문장 고정형 화자 확인을 위한 HMVQM(Hidden Markov VQ Model) 형태를 나타낸 개념도이다.

도 4에서 도시된 바와 같이 화자 확인기는 4음절의 숫자음 고립 단어를 이용하여 문장고정형으로 구성되며 모델의 구성은 기본적으로 왼쪽에서 오른쪽으로의 형식이고 묵음구간이 첨가되는 것을 허용하기 위해 시작과 끝 두번째 상태에서 시작과 끝 상태로의 천이를 추가하였다.

도 1의 출현 빈도를 확률적으로 모델링하는 과정(S200)에서 모델링 방법인 DTW(Dynamic Time Warping)는 LSP(Line Spectral Pair) 파라메타를 DP(DynamicProgramming) 정합에 의해 직접 비교하는 방법으로 학습시간은 거의 소요되지 않지만 확인 할 때에는 모든 템플릿(template)들과 비교를 해야 하므로 대체로 실수연산(floating-point operation)이 아닌 정수연산(fixed-point operation)들로 구현되어 연산량이 적고 간단하며 학습에 필요한 음성자료가 적기 때문에 개발이 용이하지만 HMM과 같은 통계적인 방법에 비하여 그 성능이 떨어지고 입력과 저장된 참조 패턴과의 정확한 정합을 위해 정확한 끝점 검출이 필수적이다.

도 2는 도 1의 출현 빈도를 확률적으로 모델링하는 과정을 나타낸 순서도이다.

도 2에 도시된 바와 같이 일반적인 DHMM(Discrete HMM) 방법은 먼저 벡터가 입력되는 과정(S210)과,

입력된 벡터를 VQ(Vector Quantization)하는 과정(S220)과, 코드번호로 변환하는 과정(S230)과,

각 코드에 대한 빈도를 출력확률로 계산하는 과정을 포함한다.

따라서, 학습자료에서 존재하지 않는 코드에 대해서는 그 출력확률이 정해져 있지 않으므로 일반화의 문제가 있지만 그 학습과정이 간단하고 속도도 빠르기 때문에 간단하게 화자확인기를 구현하는데 많이 사용되고 있다.

이러한 DHMM을 모수적으로 개선한 CHMM(Continuous density HMM)은 VQ(Vector Quantization)과정이 필요없이 각 상태마다 벡터의 출력확률을 직접 multivariate Gaussian 확률 분포로 추정하는 방법을 사용한다.

따라서 높은 일반화 성능을 보이기는 하지만 많은 수의 파라미터들을 추정하는 학습과정과 이를 이용하여 확률을 계산하는 과정에서의 연산량이 과도하게 많은 단점이 있다.

HMVQM은 이러한 단점을 개선하기 위한 것으로, CHMM의 출력확률 계산 방법을 단순화하여 VQ 코드에서 가장 가까운 코드와의 왜곡거리로 나타낸다.

도 5는 HMVQM을 나타낸 구조도이다.

도 5에서 도시된 바와 같이 HMVQM의 구조는 VQ 코드북의 Markov chain의 형태를 가진다.

각 상태에서의 출력확률은 비모수적(nonparametric)인 VQ를 사용하므로 파라미터 추정을 위한 연산량이 CHMM에 비해 현저하게 감소되고, 적은 양의 음성자료로도 학습이 가능하다.

또한, 가장 가까운 하나의 코드만을 찾으면 되므로 여러가지 빠른 코드북 서치 기법을 사용할 수 있다.

도 3은 HMVQM의 학습 과정을 나타낸 순서도이다.

도 3에서 도시된 바와 같이 먼저 코드북을 초기화 하는 단계(S150)와,

각 상태에 벡터를 할당하는 단계(S160)와,

DP 매칭 단계(S170)와,

각 상태에 할당된 벡터로 코드북을 재구성하는 단계(S180)와,

수렴할 때까지 반복하는 단계(S190)를 포함한다.

HMVQM의 학습은 비터비 추정(Viterbi estimation) 알고리즘을 사용하였으며 탐색 알고리즘은 수식 1과 같이 로그 연산에 의해 모두 (+)연산으로 대치된다.

log a_ij= log [( # transition from i to j)/( #self transition in i)]

표 1은 이러한 학습과정에서 필요한 연산들을 나타내고 있다.

표 2는 이러한 학습과정에서 필요한 연산의 수와 수행 속도를 나타내고 있다.

표 2에서 나타난 바와 같이 가장 연산량이 많이 필요한 연산은 곱하기 연산과 로그 연산임을 알수 있다.

따라서, 학습시간을 줄이기 위해서는 고정소수점 형식의 곱하기와 고정소수점 형식의 로그 호출을 줄이는 것이 중요하다.

고정 소수점 로그 함수 구현은 빠른 연산을 위해 테이블 맵핑 방법을 이용하였다. 이때, 확률에 대한 로그만을 구하면 되므로 입력은 (0, 1.0)[실수형]=(0, 65536)[고정소수점]으로 제한된다.

또한 로그 함수의 출력에 대한 민감도를 로그 스케일로 가정하면, 출력값에 대한 선형 스케일 테이블을 구성할 수 있다. 테이블 탐색은 정렬된 테이블이므로 바이너리 서치방법을 이용할 수 있고, 일단 탐색이 되면 주위의 두 개의 값을 보간(interpolation)하여 추정된 로그함수의 값을 얻을 수 있다.

로그 함수 추정의 연산량은 40개의 정수연산으로 충분하다.

1 f-log = 4 setup op. + 5 loop * log₂45 + (2[*/] + 4[+-])

= 4 + (5*6) + 6

= 40 iops

정수 연산에서는 소수점 이상/이하의 자리수가 고정되어 있기 때문에 연산 결과가 이를 벗어나는 오버 플로우/언더 플로우 오류를 조심해야 하며 이러한 오류가 발생하였을 경우 연산 결과가 실제 결과와는 완전히 다른 형태로 저장되므로 시스템에 치명적인 오류를 발생시키므로 연산 이전에 그 범위를 검사하거나 연산이 나타나지 않도록 입력의 범위를 조절하는 방법이 있는데 첫 번째 방법은 연산량의 부담이 있으므로 빠른 연산을 위한 정수 연산 구현에서는 적합하지 않다.

LSP 파라메타는 그 범위가 제한되므로 실수 값보다 오류가 더 많이 나타날 수 있다. 이문제를 해결하기 위해서는 입력의 범위를 조절하여 오류를 가능하면 작게 유지해야 한다.

도 6a는 사용된 32 비트 고정 소수점 형식이며 도 6b는 32 비트 부동 소수점 형식을 나타낸다.

도 6a에 도시된 바와 같이 전체 31 비트를 가지고 소수점 이상 부분은 15 비트, 소수점 이하는 16비트를 할당하고 가장 중요한 비트(MSB;Most Significant Bit)는 사인 비트로 할당하였다.

이 형식은 부동 소수점 형식의 exponent 비트가 0인 (소수점이 고정된) 특별한 경우로 생각될 수 있다. 즉, mantissa의 resolution은 8 비트가 더 증가되었지만 exponent의 resolution은 8비트가 감소된 형태로 큰 범위를 표현할 수는 없지만, 하나하나 값의 정확도는 오히려 더 증가된다.

따라서, 표현하는 숫자의 범위가 일정하게 제한되면 Round-off/Truncation 오류를 더 줄일 수 있다.

표 3는 이러한 고정 소수점 연산에 적용될 수 있는 연산들을 정리한 것이다.

표 3에 나타난 바와 같이 먼저 고정소수점을 정수로 변환하기 위해서는 16 비트 쉬프트 연산이 필요하기 때문에 한 번의 정수 연산이 필요하다.

또한 고정 소수점 형식끼리의 덧셈, 뺄셈은 정수 형식과 같기 때문에 한 번의 정수 연산으로 가능하다. 정수와 고정소수점과의 덧셈, 뺄셈은 소수점을 맞추어 주어야 하기 때문에 한번의 변환이 필요하여 2 번의 연산이 소요된다. 그 밖에 정수와 고정소수점간의 곱하기, 나누기는 한번의 연산으로 충분하다.

그런데, 고정소수점 끼리의 곱셈의 경우 직접적으로 곱하기 위해서는 64 비트의 임시공간이 필요하다. 하드웨어에서는 이러한 공간을 할당하지 않을 경우, 연산이 불가능하기 때문에, 두 개의 32 비트를 나누어서 각각이 32 비트 공간에 만족될 수 있도록 해야한다.

이때 1 비트의 사인이 있기 때문에 실제로는 31 비트만을 값의 임시 저장을 위해 사용할 수 있다. 또한 고정 소수점 사이의 나눗셈과 정수/고정소수점 연산은 필요치 않기 때문에 생략한다.

32 비트 고정소수점 곱셈은 먼저 두 개의 고정소수점 형식의 숫자 F1, F2가 있을 때, 그 곱셈은 수식 3과 같이 나눌 수 있다.

F1 = (a+b), F2=(c+d)

F1 F2 = ac + ad + bc+ bd

그러면, 각각의 중간 결과들인 {ac, ad, bc, bd}가 모두 31비트(사인 제외) 안에서 이루어져야 한다.

도 6c, 도 6d는 32 비트 고정소수점 곱하기 분할 형식을 나타내는 개념도이다.

도 6c, 도 6d에서 도시된 바와 같이 a, d는 15비트, b,c는 16 비트의 값을 가진다. 그러면, ac, bd는 각각 31비트, ad는 30비트, bc는 32비트가 되어 적절하게 쉬프트연산을 이용하여 더하면 고정소수점의 곱하기 연산을 구현할 수 있다.

이 때, bc는 32 비트가 되어 오버플로우의 위험이 있지만, 계산상의 편이를위하여 최상위 비트는 0이 된다고 가정하며, 이러한 경우가 일어나지 않도록 입력의 범위를 조절한다.

또한, ab와 bd는 서로 겹치는 비트가 없기 때문에 비트와이즈(bitwise) OR연산으로 덧셈을 치환가능하다. 그러면 곱하기는 수식 4와 같이 곱셈과 덧셈, 쉬프트(SHIFT), 매스크(MASK), OR 연산등으로 풀어쓰는 것이 가능하며, 모두 1개의 정수연산과 수행시간이 같다고 가정하면 18개의 정수연산으로 이루어지게 된다.

따라서 표 3는 표 4과 같이 다시 쓸 수 있다.

두개의 피연산자 F1과 F2의 곱의 절대값이 2의 31승보다 작으면 정수 곱셈 연산만으로 가능하다.

그런데, VQ 코드북 탐색과정에서 필요한 모든 곱하기 연산들은 모두 벡터간의 차이의 제곱의 형태이므로 같은 수를 곱하는 형태로 나타난다.

따라서, 두 개의 입력이 같으므로 첫번째 입력의 범위가 (-(2^31),(2^31))안에 있는지만을 비교하면 입력이 한번의 정수 연산이 필요한 정수 곱만으로 가능한지, 18번의 정수 연산이 필요한 고정소수점 곱이 필요한지 여부를 알 수 있다.

즉, 모든 곱셈의 전에 2번의 비교 연산만으로 결정을 할 수 있다. 고정 소수점 곱의 비율이 전체 실수 곱셈 중에서 r 만큼을 차지할 때 곱셈에 필요한 연산의 수는 표 4와 같이 줄어들게 된다.

1 sun-square = 2 + r * f-mult + (1+r) * 1

= 2 + 18r + 1-r

= 3 + 17r

도 7는 코드워드(codeword)의 빠른 검색 방법을 나타낸 개념도이다.

도 7에서 도시된 바와 같이 각 코드워드(codeword)간의 거리를 미리 계산해놓고 이를 현재 최소 거리와 비교함으로써, 탐색이 필요없는 코드들을 무시할 수 있다.

도 5에서와 같이 현재의 최소거리가 d일때 다음 코드와 현재 코드간의 거리 D(i,j)가 이 값의 2배보다 크면 입력 벡터와 다음 코드와의 거리는 D(i,j)/2보다 클 것이므로 거리를 계산할 필요가 없다. 하지만, 코드북(codebook)을 구축할 때 항상 코드들간의 거리를 미리 계산하는 과정이 필요하다.

수식 6은 코드간의 거리 D(i,j)에 관한 식이다.

탐색을 할 때에는 그 전에 탐색된 코드가 현재의 입력벡터와 유사할 가능성이 높으므로 탐색은 항상 그 전의 탐색된 코드부터 시작한다.

표 6는 상기 빠른 검색 방법을 적용했을 때의 연산량 감소를 나타낸다.

상기 표 6에서 나타난 바와 같이 이 방법에서는 곱하기 연산을 줄이는 방법보다는 그 폭이 적지만 상당히 연산량도 줄였으며 실제 연산시간도 많이 줄었다.

표 7은 상기 빠른 검색 방법과 상기 곱하기 줄이는 방법을 모두 적용하였을 때의 연산량 감소를 나타낸다.

표 7에서 나타난 바와 같이 두 가지 감소 방법을 동시에 적용하면 빠른 탐색법이 미리 거리가 먼 코드를 제외 하기 때문에 실수 곱셈들 중 실제로 곱셈을 해야하는 호출 횟수를 범위를 검사하기 전에 많이 감소시켜 그 비유를 훨씬 크게 줄여서 실제 연산량과 연산시간을 크게 줄였다.

도 8은 감소 방법과 감소 비의 관계를 나타내는 그래프이다.

구현된 고정소수점 화자확인 시스템의 성능을 부동소수점 화자확인기와 비교하기위해 60개의 4음절 숫자음을 입력으로 하고 10차 LSP계수와 10차 델타 LSP 계수를 추출하여 사용하고 화자확인방법은 최적의 일련 상태의 출현확율을 계산하는 비터비(Viterbi)탐색과 모든 가능한 일련 상태의 합으로 출현확율을 계산하는 전방향 탐색 확률을 이용하여 화자 확인 결과를 비교하니 본 화자 확인 시스템이 입력 파라메타의 범위를 효과적으로 제한하였음을 보여준다.

이상의 설명에서 알 수 있는 바와 같이, 본 발명은 디지털 휴대통신 핸드셋에서 음성의 전달을 위한 음성부호화기에서 LSP 계수를 이용해 동일한 화자에게 같은 단어를 발성하도록 하여 그 출현 빈도를 확률적으로 모델링을 통해 핸드셋 사용이전에 목소리를 입력하도록 하여 수락/거부 여부를 결정하도록 하는 음성만을 이용한 사용자 인증을 하는 고정 소수점 연산 고속 화자 확인 기술로서 소규모 하드웨어에서 실시간으로 복잡한 소수점 연산을 빠르게 처리하는 기술을 포함하고 있어 단말기 분실에 따른 타인의 불법 사용 및 무선 데이터 서비스 접촉을 차단할 수 있으며, 사칭이 불가능한 음성을 이용하여 개인 인증을 수행하므로 정보 유출에 따른사생활 침해 및 전자화폐의 도난을 방지 할 수 있고 사용되는 모든 기존 단말기에 손쉽게 이 기술이 소프트웨어 이식 만으로 적용될 수 있는 효과가 있다.

Claims

CDMA(Code Division Multiple Access) 기반 핸드폰에서 사용자의 음성만을 이용하여 실시간 사용자 인증을 가능하게 하는 정수형 고정 소수점 연산 고속 화자 확인 방법에 있어서,

핸드셋에서의 화자 확인을 위해 먼저 동일한 화자에게 같은 단어를 발성하도록 하여 그 출현 확률을 모델링하는 과정과,

핸드셋과 같은 실수 연산을 지원하지 않는 기기에 구현하기 위한 고정 소수점 연산 알고리즘과, 입력자료의 특성을 이용하여 빠른 속도를 위한 고속화 기법을 적용시켜 핸드셋 사용이전에 목소리를 입력하도록 하여 수락/거부 여부를 결정하도록 하는 과정을 포함하는 고속 화자 확인 방법.
삭제
삭제
삭제
청구항 1에 있어서, 상기 고정 소수점 연산 알고리즘은 곱하기 연산을 줄이는 알고리즘을 포함하는 것을 특징으로 하는 고속 화자 확인 방법.
청구항 1에 있어서, 상기 모델링을 하는 과정에서 코드워드간 빠른 탐색 알고리즘을 포함하는 고속 화자 확인 방법.