KR20010086277A

KR20010086277A - 기계를 이용한 오디오 신호의 전송 품질 평가 방법

Info

Publication number: KR20010086277A
Application number: KR1020007014483A
Authority: KR
Inventors: 주릭페로
Original assignee: 추후보정; 아스콤 아게
Priority date: 1998-06-26
Filing date: 1999-06-21
Publication date: 2001-09-10
Also published as: AU4129199A; KR100610228B1; EP1088300B1; CN1132152C; DE59903474D1; HK1039997A1; EP0980064A1; RU2232434C2; CN1315032A; CA2334906C; WO2000000962A1; TW445724B; CA2334906A1; HK1039997B; ES2186362T3; EP1088300A1; US6651041B1

Abstract

소스 신호(예컨대, 음성 샘플)를 음성 코더(1)에 의해 처리하거나 전송하여 수신 신호(코드화 음성 신호)로 변환한다. 소스 신호와 수신 신호를 별개로 예비 처리(2) 및 정신 음향학적 모델링(3)에 의해 처리한다. 그에 뒤이어, 신호의 유사도를 평가하는 거리 계산(4)을 실행한다. 끝으로, 사람의 평가에 필적할 만한 결과를 얻기 위해 MOS 계산(5)을 실행한다. 본 발명에 따르면, 전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산을 계산하고 2개의 스펙트럼의 표준 편차로 나누는 것을 토대로 하여 스펙트럼 유사도 값을 결정하게 된다. 본 발명에 따른 방법은 사람의 청각 프로세스를 고려하면서도 객관적 평가(음성 품질 예측)가 얻어질 수 있도록 한다.

Description

기계를 이용한 오디오 신호의 전송 품질 평가 방법{Method for making a machine-aided assessment of the transmission quality of audio signals}

이동 무선 전화의 보급 및 그 지리적 커버 범위가 점차 증대됨에 따라 음성 채널의 전송 품질을 평가하는 것이 그 중요성을 더해가고 있다.

표준화된 0.3 내지 3.4 ㎑의 주파수 대역에 있는 전기 통신 채널을 경유하여 음성 신호를 완전하게 전송함으로써 약 98 %의 문장 이해도가 제공된다. 그러나, 단말기에 음성 코더를 구비하는 디지털 이동 무선 통신망의 도입으로 인해 음성의 이해도가 상당히 악화될 수 있다. 또한, 그러한 악화의 정도를 결정하는데도 다소 어려움이 있다.

음성 품질은 비트 율, 에코, 또는 볼륨에 비해서는 막연한 용어이다. 음성이 얼마나 양호하게 전송되는지에 따라 직접적으로 고객 만족을 판단할 수 있기 때문에, 코딩 방법은 그 음성 품질와 연관하여 선택되고 최적화될 필요가 있다. 음성 코딩 방법을 평가하기 위해, 매우 정교한 청각 테스트를 실행하는 것이 통상적이다. 따라서, 선택적으로 얻어진 결과(Mean Opinion Score, Mos; 오피니언 평균값)와 가장 잘 상관되는 음성 성능 특징을 적절한 물리 측정량에 의해 측정하는 하드웨어 대체물을 보유하게 되는 것이 바람직하다.

EP 0 644 674 A2는 자동적으로 조정되는 레벨로 사람의 지각과 밀접하게 상관된 평가를 얻도록 할 수 있는 음성 전송로의 전송 품질 평가 방법을 개시하고 있다. 그것은 시스템이 전송 품질을 평가하여 숙련된 테스트 청취자에 의해 사용되는 바와 같은 척도를 적용할 수 있음을 의미한다. 그 핵심 사상은 무극성 통신망(neutral network)을 사용하는데 있다. 무극성 통신망은 음성 샘플을 사용하여 숙련된다. 그 궁극적 효과는 통합된 품질 평가가 이루어지는 것이다. 품질 손실의 이유는 다루어지지 않는다.

현대적 음성 코딩 방법은 데이터 압축를 실행하고, 매우 낮은 비트 율을 사용한다. 그러한 이유로, 예컨대 신호 대 잡음비(SNR)와 같은 간단한 공지의 객관적 방법은 만족할 만한 것이 되지 못한다.

본 발명은 전송하려는 소스 신호의 스펙트럼과 전송된 수신 신호의 스펙트럼을 주파수 영역에서 결정하는 방식의 기계를 이용한 오디오 신호, 특히 음성 신호의 전송 품질 평가 방법에 관한 것이다.

이후의 상세한 설명 및 특허 청구 범위에서는 본 발명의 또 다른 바람직한 실시예 및 본 발명의 특징의 조합에 관해 설명하기로 한다.

예시적인 실시예를 설명하는데 사용되는 첨부 도면 중에서,

도 1은 처리의 원리를 설명하기 위한 개략적인 블록 선도이고;

도 2는 품질 평가를 실행하기 위한 방법의 개별 스텝의 블록 선도이며;

도 3은 해밍 윈도우(Hamming window)의 예를 나타낸 도면이고;

도 4는 주파수/음조 변환을 계산하기 위한 가중 함수를 나타낸 도면이며;

도 5는 전화 필터의 주파수 응답을 나타낸 도면이고;

도 6은 2차원 음장용 등볼륨 곡선을 나타낸 도면이며(Ln은 볼륨이고, N은 음의 크기임);

도 7은 타임 마스킹(time masking)을 개략적으로 나타낸 도면이고;

도 8은 음의 크기 함수(손)를 1 ㎑ 톤의 음 레벨(폰)의 함수로서 나타낸 도면이며;

도 9는 스미어링 함수(smearing function)를 나타낸 도면이고;

도 10은 음성 계수를 소스 신호 중의 음성 비율의 함수의 형태로 나타낸 그래프이고;

도 11은 휴지기에서의 품질을 휴지기에서의 음성 에너지의 함수의 형태로 나타낸 그래프이며;

도 12는 게인 상수를 에너지 비의 함수로서 나타낸 그래프이고;

도 13은 타임 마스킹을 실행하기 위한 가중 계수를 주파수 성분의 함수로서 나타낸 그래프이다.

본 발명의 목적은 사람의 청각 과정을 고려하면서도 객관적인 평가(음성 품질 예측)를 얻을 수 있도록 하는 서두에 언급된 방식의 방법을 제공하는 것이다.

그러한 목적은 청구항 1의 특징부에 정의된 방식으로 달성된다. 본 발명에 따르면, 전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산(covariance)을 계산하고 그 공분산을 상기 2개의 스펙트럼의 표준 편차로 나누는 것을 토대로 하여 스펙트럼 유사도 값을 결정하게 된다.

일련의 범위의 단계화된 음성 샘플에 따른 테스트 및 그와 관련된 청각 판정(MOS)의 결과, 본 발명에 따른 방법을 토대로 하여 청각 값과의 매우 양호한 상관성이 얻어질 수 있는 것으로 나타났다. 본 발명에 따른 방법은 무극성 통신망에 의거한 공지의 방법에 비해 다음과 같은 장점을 수반한다:

기억 자원 및 CPU 자원을 보다 덜 요구함. 그것은 실시간 실행에 있어 중요한 것임.

새로운 음성 샘플을 사용하기 위한 정교한 시스템 숙련을 필요로 하지 않음.

시스템에 고유한 부최적화된 기준(suboptimal reference)이 없음. 본 방법에 의해 측정될 수 있는 가장 양호한 음성 품질은 음성 샘플의 그것과 상응함.

스펙트럼 유사도 값은 수신 신호의 스펙트럼과 소스 신호의 스펙트럼 간의 에너지 비의 함수로서 수신 신호의 에너지가 소스 신호의 에너지보다 더 낮을 때보다는 수신 신호의 에너지가 소스 신호의 에너지보다 더 클 때에 유사도 값을 더욱 크게 감소시키는 계수로 가중되는 것이 바람직하다. 그와 같이 하여, 수신 신호에 있는 여분의 신호 성분이 누락된 신호 성분보다 더 부방향으로 가중된다.

특히 바람직한 실시예에 따르면, 가중 계수는 수신 신호의 신호 에너지에도 의존하여 달라지게 된다. 수신 신호의 스펙트럼 대 소스 신호의 스펙트럼의 에너지 비가 임의의 값일 때에 유사도 값은 수신 신호의 신호 에너지가 높을수록 상응하게 더 큰 정도로 감소된다. 결과적으로, 수신 신호에서의 간섭에 의해 유사도 값에 미쳐지는 영향이 수신 신호의 에너지의 함수로서 제어된다. 그를 위해, 하나는 미리 정해진 임계 값의 아래에 있고 다른 하나는 그 임계 값의 위에 있는 2개 이상의 레벨 윈도우가 정의된다. 바람직한 것은 다수의, 특히 3개의 레벨 윈도우가 임계 값의 위로 규정되는 것이다. 신뢰도 값은 그 안에 수신 신호가 놓여지는 레벨 윈도우에 따라 감소된다. 레벨이 높을수록 더 크게 감소된다.

기본적으로, 본 발명은 임의의 오디오 신호에 사용될 수 있다. 오디오 신호가 비활성기를 포함할 경우(음성 신호의 경우에 전형적인 바와 같이)에 권장할 만한 것은 활성기와 비활성기에 대해 별도로 품질 평가를 실행하는 것이다. 그 에너지기 미리 정해진 임계 값을 초과하는 신호 세그먼트는 활성기로 배정되고, 다른 세그먼트는 휴지기(비활성기)로서 분류된다. 그 경우, 전술된 스펙트럼 유사도는 활성기에 대해서만 계산된다.

비활성기(예컨대, 음성 휴지기)의 경우에는 휴지기 에너지의 함수로서 점차 감소하는 다음의 품질 함수를 사용할 수 있다.

수학식 1에서, A는 적절히 선택된 상수이고, Emax는 최대로 가능한 휴지기 에너지의 값이다.

전송의 전체적인 품질(즉, 실제 전송 품질)은 활성기의 품질과 비활성기의 품질의 가중된 선형 조합에 의해 주어진다. 그 경우, 가중 계수는 활성기가 특히 그 활성기에 유리한 비선형적 방식으로 나타내는 총 신호의 비율에 따라 달라진다.예컨대 50 %의 경우에는 활성기의 품질이 예컨대 90 % 정도로 될 수 있다.

즉, 휴지기 또는 휴지기에서의 간섭은 활성기 신호와는 별개로, 그리고 그에 비해서는 덜 고려된다. 그것은 휴지기에는 실질적으로 정보가 전송되는 것은 아니지만 휴지기에 간섭이 일어나게 되면 불쾌한 것으로서 인지된다는 것을 설명하고 있다.

특히 바람직한 실시예에 따르면, 시간 영역에서 샘플링된 소스 신호와 수신 신호의 값은 수 밀리세컨드 내지 수십 밀리세컨드(예컨대, 16 ㎳)만큼 서로 중첩되는 데이터 프레임에서 조합된다. 그러한 중첩에 의해, 적어도 부분적으로 사람의 청각계에 고유한 타임 마스킹(time masking)이 형성된다.

또한, 주파수 영역으로의 변환 후에 현재 프레임의 스펙트럼에 선행 프레임의 감쇠된 스펙트럼을 합하면 타임 마스킹이 거의 실재적으로 재현되게 된다. 그 경우, 스펙트럼 성분은 상이하게 가중되는 것이 바람직하다. 선행 프레임에 있는 저주파 성분은 고주파 성분보다 더 크게 가중된다.

타임 마스킹을 실행하기 전에 스펙트럼 성분을 α1(예컨대, α= 0.3)의 값으로 지수 함수화시킴으로써 스펙트럼 성분의 압축을 실행하는 것이 권장할 만하다. 그것은 주파수 대역에서 다수의 주파수가 동시에 발생할 경우에 청각계에 과민 반응이 일어나기 때문이다. 즉, 총 볼륨이 개개의 주파수의 합의 볼륨보다 더 큰 것으로서 인지된다. 궁극적인 효과로서, 그것은 성분들이 압축되는 것을 의미한다.

본 발명에 따른 평가 결과와 주관적인 사람 지각과의 사이에 양호한 상관성을 얻기 위한 또 다른 방안은 프레임의 스펙트럼을 비대칭적 "스미어링 함수(smearing function)"로 콘볼루팅하는 것이다. 그러한 수학적 조작은 유사도를 결정하기 전에 소스 신호와 수신 신호의 양자에 모두 적용된다.

스미어링 함수는 주파수/음의 크기 도표에서 그 좌측 에지가 그 우측 에지보다 더 가파른 삼각형 함수로 되는 것이 바람직하다.

스펙트럼은 콘볼루팅하기 전에 ε1(예컨대, ε= 4/3)의 값으로 지수 함수화시킴으로써 부가적으로 확대될 수도 있다. 그에 의해, 사람의 귀의 음의 크기 함수 특성이 모사된다.

이하, 구체화된 예시적인 실시예를 첨부 도면을 참조로 하여 설명하기로 한다.

도 1은 처리의 원리를 나타내고 있다. 음성 샘플은 소스 신호 x(i)로서 사용된다. 그러한 소스 신호 x(i)를 음성 코더(1)에 의해 전송하여 수신 신호 y(i)(코드화 음성 신호)로 변환한다. 전술된 신호들은 디지털 형태이다. 샘플링 주파수는 예컨대 8 ㎑이고, 디지털 양자화는 16 비트로 이루어진다. 데이터 포맷은 PCM(Pulse Code Modulation; 펄스 코드 변조)(압축을 동반하지 않는) 방식인 것이 바람직하다.

소스 신호와 수신 신호를 별개로 예비 처리(2) 및 정신 음향학적 모델링(3)에 의해 처리한다. 그에 뒤이어, 신호의 유사도를 평가하는 거리 계산(4)을 실행한다. 끝으로, 사람의 평가에 필적할 만한 결과를 얻기 위해 MOS 계산(5)을 실행한다.

도 2는 후술될 절차를 명료하게 나타내고 있다. 소스 신호와 수신 신호는 동일한 처리 루트를 따른다. 간단히 하기 위해, 프로세스가 단지 한 차례만 도시되었다. 그러나, 거리 측정 값이 결정될 때까지 2개의 신호가 별개로 취급되는 것은 자명하다.

소스 신호는 그 음성학적 주파수 통계가 진정한 음성에 가능한 한 잘 부합되도록 선택된 문장을 토대로 한다. 문맥상의 청취력을 배제하기 위해, 로가톰(logatom)으로서 지칭되는 뜻이 없는 음절을 사용한다. 음성 샘플은 가능한 한 일정한 음성 레벨로 되어야 한다. 음성 샘플의 길이는 3 내지 8 초(전형적으로 5 초)이다.

신호 조건화: 제1 스텝에서는 소스 신호를 벡터 x(i)에 넣고, 수신 신호를 벡터 y(i)에 넣는다. 2개의 신호는 시간 및 레벨에 대해 동기화될 필요가 있다. 이어서, 각각의 샘플 값으로부터 평균 값을 뺌으로써 DC 성분을 제거한다:

또한, 신호에 있는 불변 게인은 고려되지 않기 때문에, 신호를 공통의 RMS(Root Mean Square; 제곱 평균 값의 제곱근)에 대해 정규화시킨다:

다음 스텝은 프레임을 형성하는 것이다: 양자의 신호를 32 ㎳ 길이의 세그먼트로 분할한다(8 ㎑에서 256 샘플 값). 그러한 프레임은 추후의 모든 처리 스텝에서의 처리 단위가 된다. 프레임 중첩은 50 %인 것이 바람직하다(128 샘플 값).

그에 뒤이어, 헤밍 윈도윙(Hamming windowing)(6)(도 2를 참조)을 실행한다. 제1 처리 스텝에서는 프레임에 대해 시간 가중 처리를 한다. 소위 헤밍 윈도우(hamming window)(도 3을 참조)가 생성되는데, 그것을 프레임의 신호 값에 곱한다.

그러한 윈도윙의 목적은 시간에 따른 무한 신호에 특정 범위의 밖에서 소멸하는(0과 동일함) 윈도우 함수를 곱함으로써 그 시간에 따른 무한 신호를 시간적에 따른 유한 신호로 변환하는 것이다.

이제, 시간 영역에서의 소스 신호 x(t)를 불연속 푸리에 변환(도 2를 참조: DFT(7))에 의해 주파수 영역으로 변환한다. 윈도윙에 의해 생성된 시간에 따른 불연속 수열 x(i)(단, i = 0,1,2,...,N)에 있어서, 주기가 N인 경우에 소스 신호 x(i)에 대한 복소 푸리에 변환C(j)는 다음과 같다:

코드화 신호 또는 수신 신호 y(i)에 대해서도 동일한 복소 푸리에 변환이 이루어진다:

다음 스텝에서는 스펙트럼의 진폭을 계산한다(도 2를 참조: 진폭 산출(8)). 지수 x는 항상 소스 신호를, 그리고 지수 y는 항상 수신 신호를 지시한다:

이어서, 임계 주파수 대역으로의 분할을 실행한다(도 2를 참조: Bark 변환(9)).

그 경우,E. Zwicker, Psychoakustik, 1982에 의한 변형 모델을 사용한다. 사람 귀에 있는 기저막은 주파수 스펙트럼을 임계 주파수 군으로 분할한다. 그러한 주파수 군은 음의 크기를 인지하는데 중요한 역할을 한다. 저주파에서는 주파수 군이 100 ㎐의 일정한 대역 폭으로 되고, 500 ㎐ 를 넘는 주파수에서는 대역 폭이 주파수에 비례하여 증가된다(대역 폭은 각각의 중간 주파수의 약 20%와동일함). 그것은 주파수 대역이 가변적일지라도, 즉 중간 주파수가 각각의 음 이벤트에 의해 정해질지라도 주파수 대역으로 신호를 처리하는 사람의 청력 특성에 대략적으로 부합되는 것이다.

아래의 표 1은 음조 z, 주파수 f, 주파수 군 폭 Δf, 및 FFT 지수 간의 관계를 나타낸 것이다. FFT 지수는 FFT 해상도, 256에 상응한다. 100 내지 4000 ㎐의 대역 폭만이 후속 계산을 위한 관심의 대상이 된다.

Z[Bark]	F(low)[Hz]	△F[Hz]	FFT 지수
0	0	100
1	100	100	3
2	200	100	6
3	300	100	9
4	400	100	13
5	510	110	16
6	630	120	20
7	770	140	25
8	920	150	29
9	1080	160	35
10	1270	190	41
11	1480	210	47
12	1720	240	55
13	2000	280	65
14	2320	320	74
15	2700	380	86
16	3150	450	101
17	3700	550	118
18	4400	700
19	5300	900
20	6400	1100
21	7700	1300
22	9500	1800
23	12000	2500
24	15500	3500

여기에서 적용되는 윈도우는 단순화의 역할을 한다. 모든 주파수 군은 1 Bark의 폭 ΔZ(z)로 된다. Bark 단위의 음조 스케일 z는 다음의 식에 따라 계산된다:

단, f는 [㎑] 단위이고, Z는 [Bark] 단위이다.

1 Bark의 음조 차는 기저막 상의 1.3 밀리미터 섹션(150 헤어 셀)에 해당한다. 실제의 주파수/음조 변환은 다음의 식에 따라 간단히 실행될 수 있다:

l_f[j]는 대역 j에 대한 최초 샘플의 헤르쯔 스케일 단위의 지수이고, l_l[j]는 마지막 샘플의 헤르쯔 스케일 단위의 지수이다. Δf_j는 대역 j의 헤르쯔 단위의 대역 폭을 지시하고 있다. q(f)는 가중 함수이다(도 5를 참조). 불연속 푸리에 변환은 단지 불연속 점에서의 스펙트럼의 값(주파수)만을 제공하기 때문에, 대역의 경계는 각각 그러한 주파수 상에 놓여지게 된다. 대역 경계에서의 값은 단지 각각의 이웃한 윈도우에서의 절반 가중 값으로만 주어진다. 대역 경계는 N*8000/256 ㎐에 있다: N = 3, 6, 9, 13, 16, 20, 25, 29, 35, 41, 47, 55, 65, 74, 86, 101, 118.

0.3 내지 3.4 ㎑의 전화 대역 폭에서는 음조 스케일 상의 17개의 값이 사용되는데, 그 경우에 그들 값은 입력에 해당한다. 결과적으로 얻어지는 128 개의 FFT 값 중에서 0 ㎐ 내지 94 ㎐의 주파수 범위에 해당하는 최초 2개와 3700 ㎐ 내지 4000 ㎐의 주파수 범위에 해당하는 마지막 10개는 생략된다.

이어서, 양자의 신호를 그 주파수 응답이 해당 전화 세트의 수신 곡선에 상응하는 필터로 필터링한다(도 2를 참조: 전화 대역 필터링(10)).

수학식 11에서,Filt[j]는 전화 세트의 주파수 특성 곡선의 대역 j에서의 주파수 응답이다(ITU-T 권장 부록 D/P.830에 따라 정의된 것임).

도 5는 그러한 필터의 (대수) 값을 나타낸 그래프이다.

선택적으로 폰(phon) 곡선을 계산할 수도 있다(도 2를 참조: 폰 곡선 계산(11)). 그와 관련하여 설명한다면 다음과 같다:

임의의 음의 볼륨은 평면 파에서 테스트 개체에 정면으로 입사될 경우에 측정하려는 음과 동일한 볼륨 인지를 유발하는 1 ㎑ 톤(tone)의 음 레벨로서 정의된다(E. Zwicker, Psychoakustik, 1982를 참조). 즉, 상이한 주파수에 대한 등볼륨의 곡선이 인용된다. 그러한 곡선은 도 6에 나타나 있다.

도 6에서 알 수 있는 바와 같이, 예컨대 3 폰의 볼륨 레벨에서의 100 ㎐ 톤은 25 ㏈의 음 레벨로 된다. 그러나, 40 폰의 볼륨 레벨에서는 동일한 톤이 50 ㏈의 음 레벨로 된다. 또한, 예컨대 100 ㎐ 톤의 경우에 음 레벨이 4 ㎑ 톤의 경우에 비해 30 ㏈ 더 커야만 양자가 귀에 동일한 음의 크기를 일으킬 수 있다는 것을 알 수 있다. 본 발명에 따른 모델에서는 신호Px및Py에 상보 함수를 곱함으로써 근사가 이루어지게 된다.

사람의 청력은 하나의 대역에서 동시에 다수의 스펙트럼 성분이 발생할 때에, 즉 총 볼륨이 개개의 볼륨의 선형 합보다 더 크게 인지될 때에 과민 반응을 하게 되므로, 개개의 스펙트럼 성분이 압축된다. 압축된 특정의 음의 크기는 1 손(sone)의 단위량으로 된다. 폰/손 변환(12)(도 2를 참조)을 실행하기 위해, 본 경우에는 Bark 단위의 입력을 멱 지수 α= 0.3으로 압축한다:

바람직한 예시적 실시예의 중요한 특징 중의 하나는 타임 마스킹(time masking)의 모델링이다.

사람의 귀는 매우 가깝게 연속적으로 도달하는 2개의 짧은 테스트 음을 구별할 수 없다. 도 7은 시간 종속 프로세스를 나타내고 있다. 200 ㎳의 지속 시간의 마스커는 짧은 톤 펄스를 마스킹한다. 마스커가 시작되는 시간은 0으로 지시되어 있다. 시간은 좌측에서 마이너스로 된다. 두 번째의 시간 스케일은 마스커가 종료하는 시점에서 시작된다. 마스커가 시작되기 전에는 사전 마스킹이 일어난다. 그 직후는 동시적 마스킹기이고, 마스커의 종료 직후는 사후 마스킹기이다. 사후 마스킹(잔향)에 대한 논리적 설명이 존재한다. 사전 마스킹은 마스커가 시작되기 전에도 일어난다. 청각 인지는 곧바로 일어나지 않는다. 인지를 일으키기 위해서는 처리 시간이 요구된다. 센 음은 빠른 처리에 의해 주어지고, 청력 임계 값에 있는 약한 음은 더 오랜 처리에 의해 주어진다. 사전 마스킹은 약 20 ㎳ 동안 지속되고, 사후 마스킹은 약 100 ㎳ 동안 지속된다. 따라서, 사후 마스킹이 지배적인 작용을 한다. 사후 마스킹은 마스커의 지속 시간 및 마스킹 음의 스펙트럼에 따라 달라진다.

타임 마스킹은 단지 신호 처리에서 프레임을 중첩시키는 것만에 의해 개략적으로 근사된다. 32 ㎳의 프레임 길이(256 샘플 값 및 8 ㎑의 주파수)에서는 중첩 시간이 16 ㎳이다(50 %). 중간 주파수 및 고주파에 대해서는 그 정도로 충분하다. 저주파의 경우에는 그러한 마스킹이 더욱 길어진다(120 ㎳). 이어서, 그러한 타임 마스킹을 선행 프레임의 감쇠된 스펙트럼을 합하는 것으로서 실행한다(도 2를 참조: 타임 마스킹(15)). 그 경우, 감쇠는 각각의 주파수 대역에서 상이하게 이루어진다:

수학식 13에서,coeff(j)는 가중 계수이고, 그것은 다음의 식에 따라 계산된다:

수학식 14에서,Frame length는 예컨대 256 개의 샘플 값에서의 프레임의 길이이고,NoOfBarks는 프레임 내에서의 Bark 값의 수이다(본 경우에 예컨대 17).Fc는 샘플링 주파수이고, η= 0.001이다.

타임 마스킹을 실행하기 위한 주파수 성분의 함수로서의 가중 계수는 도 13의 예에 나타나 있다. 가중 계수가 Bark 지수의 증가에 따라(즉, 주파수의 상승에 따라) 감소되는 것을 명확히 알 수 있다.

본 경우에 있어서, 타임 마스킹은 단지 사후 마스킹의 형태로 제공될 뿐이다. 그와 관련하여, 사전 마스팅은 무시할 만한 정도이다.

또 다른 처리 단계에서는 신호의 스페트럼을 "스미어링(smearing)"한다(도 2를 참조: 주파수 스미어링(13)). 그러한 스미어링의 배경은 사람의 귀가 서로 이웃한 2개의 주파수 상분을 명료하게 구별할 수 없다는데 있다. 주파수 스미어링의 정도는 해당 주파수, 그 진폭, 및 기타의 인자에 따라 달라진다.

귀의 수신 변수는 음의 크기이다. 그것은 측정하려는 음이 표준 음에 비해얼마나 더 세거나 약한지를 가리키는 것이다. 그러한 방식으로 규명된 수신 변수는 비율형 음의 크기(ratio loudness)로서 지칭된다. 1 ㎑의 음 레벨은 표준 음으로서 유용한 것으로 입증되었다. 1 손의 음의 크기는 40 ㏈의 레벨로 된 1 ㎑ 톤에 배정된다.E. Zwicker, Psychoakustik, 1982에서는 음의 크기 함수의 정의가 다음과 같이 기술되어 있다:

도 8은 1 ㎑ 톤에 대한 음의 크기 함수(손)를 음 레벨(폰)의 함수로서 나타낸 것이다.

본 발명에 따른 예시적 실시예의 범위에서는 그러한 음의 크기 함수가 다음과 같이 근사된다:

수학식 16에서, ε= 4/3이다.

본 시점에서 스펙트럼이 확대된다(도 2를 참조: 음의 크기 함수 변환(14)).

이제 존재하게 된 스펙트럼을 계수의 불연속 수열로 콘볼루팅한다(콘볼루션). 그 결과는 주파수 축에 걸친 스펙트럼의 스미어링에 해당한다. 2개의 수열x및y의 콘볼루션은 상대적으로 복잡한 시간 범위에서의 수열의 콘볼루션 또는 그 푸리에 변환의 곱셈에 해당한다. 시간 영역에서는 다음의 식으로 된다:

수학식 17에서,m은 수열x의 길이이고,n은 수열y의 길이이다. 결과c는 k = m + n -1의 길이로 된다. j = max(1, k + 1 -n):min(k, m)이다.

주파수 영역에서는 다음의 식으로 된다:

본 예에서,x는 길이가 17(m =17)인 신호Px"및Py"로 치환되고,y는 길이가 9(n = 9)인 스미어링 함수 Λ로 치환된다. 따라서, 그 결과는 17 + 9 -1 = 25(k = 25)의 길이로 된다.

Λ(f)는 그 형태가 도 9에 도시되어 있는 스미어링 함수이다. 그 스미어링 함수는 비대칭적이다. 좌측 에지는 주파수 성분 1에서의 - 30의 음의 크기로부터 주파수 성분 4에서의 0의 음의 크기까지 상승한다. 이어서, 그 스미어링 함수는 다시 직선으로 주파수 성분 9애서의 - 30의 음의 크기까지 하강한다. 즉, 스미어링 함수는 비대칭적인 삼각형 함수이다.

그와 같이 하여, 정신 음향학적 모델링(3)(도 1을 참조)이 끝나게 된다. 이어서, 품질 계산이 뒤따르게 된다.

소스 신호와 수신 신호의 가중된 스펙트럼 간의 거리를 다음과 같이 계산한다:

수학식 20에서,Q _sp 는 음성기(활성 신호기) 동안의 거리이고Q _pa 는 휴지기(비활성 신호기) 동안의 거리이다.η _sp 는 음성 계수이고,η _pa 는 휴지 계수이다.

우선, 음성이 활성화되어 있는 신호 수열을 찾는 것을 목표로 하여 소스 신호의 신호 분석을 실행한다. 즉, 다음의 식에 따라 소위 에너지 프로파일En _profile 을 형성한다:

SPEECH_THR은 그 미만에서 음성이 비활성화되는 임계 값을 정의하는데 사용된다. 통상, 그것은 AD 변환기의 최대 동적 응답에 대해 + 10 ㏈에 있다. 16 비트 해상도에서는 SPEECH_THR = - 96.3 + 10 = - 86.3 ㏈이다. PACE에서는 SPEECH_THR = - 80 ㏈이다.

품질은 소스 신호와 수신 신호 간의 유사도Q _TOT 에 간접적으로 비례한다.Q _TOT = 1은 소스 신호와 수신 신호가 정확히 동일하다는 것을 의미한다.Q _TOT = 0의 경우에는 그러한 2개의 신호가 거의 유사성이 없게 된다. 음성 계수η _sp 를 다음의 식에 따라 계산한다:

수학식 22에서, μ= 1.01이고,Psp는 음성 비율이다.

도 10에 도시된 바와 같이, 음성 비율이 높아지면 음성 수열의 영향이 더욱 커진다(음성 계수가 더욱 커짐). 예컨대, μ= 1.01 및 Psp = 0.5 (50 %)에서는 음성 계수가η _sp = 0.91이다. 즉, 신호에 있는 음성 수열의 영향은 91 %이고, 휴지수열의 영향은 단지 9 %(100 - 91)에 불과하다. μ= 1.07에서는 음성 수열의 영향이 보다 더 작아진다(80 %).

이어서,다음의 식에 따라 휴지 계수를 계산한다:

휴지기에서의 품질은 음성기에서의 품질과 동일하게 계산되지 않는다.

Q _pa 는 휴지기에서의 신호 에너지를 표현하는 함수이다. 그러한 에너지가 증가할 때에는Q _pa 의 값이 보다 더 작아진다(품질의 열화에 해당함):

k _n 은 미리 정해진 상수이고, 본 경우에는 0.01의 값으로 된다.E _pa 는 수신 신호에 대한 휴지기에서의 RMS 신호 에너지이다. 그러한 에너지는 소스 신호에서의 휴지기의 RMS 신호 에너지보다 더 클 때에만Q _pa 값에 영향을 미친다. 즉,E _pa = max(Eref _pa ,E _pa )이다. 가장 작은E _pa 는 2이다.E _max 는 주어진 디지털 해상도에 대한 최대 RMS 신호 에너지이다(16 비트 해상도의 경우에E _max = 32768). 수학식 24에서의 값 m은E _pa = 2에 대한 상관 계수이고, 그에 따라 그 경우에Q _pa = 1이다. 즉, 그러한 상관 계수를 다음과 같이 계산한다:

E _max = 32768,E _min = 2, 및k _n = 0.01인 경우에 m = 0.003602이다. 밑수 k_n*(k_n+1/k_n)은 실질적으로 적절히 선택된 상수로서 간주될 수 있다.

도 11은 휴지기에서의 신호의 RMS 에너지와Q _pa 간의 관계를 나타내고 있다.

음성기의 품질은 소스 신호의 스펙트럼과 수신 신호의 스펙트럼 간의 "거리(distance)"에 의해 판단된다.

우선, 4개의 레벨 윈도우를 정의한다. 제1 번 윈도우은 - 96.3 ㏈로부터 - 70 ㏈까지, 제2 번 윈도우는 - 70 ㏈로부터 - 46 ㏈까지, 제3 번 윈도우는 - 46 ㏈로부터 - 26 ㏈까지, 그리고 제4 번 윈도우는 - 26 ㏈로부터 0 ㏈까지 각각 연장된다. 그 레벨이 제1 번 윈도우에 놓여지는 신호는 휴지기로서 해석되어Q _sp 의 계산에 산입되지 않는다. 4개의 레벨 윈도우로 세분함으로써 다중 해상도가 제공된다. 그와 유사한 절차가 사람의 귀에서도 일어난다. 즉, 신호에 있는 간섭의 영향을 그 에너지의 함수로서 제어하는 것이 가능하다. 가장 높은 에너지에 해당하는 제4 번 윈도우는 최대의 가중에 의해 주어진다.

음성 프레임 k 및 레벨 윈도우 i에 대한 음성기에서의 소스 신호의 스펙트럼과 수신 신호의 스펙트럼 간의 거리Q _sp (i, k)를 다음과 같이 계산한다:

수학식 26에서,Ex(k)는 프레임k에서의 소스 신호의 스펙트럼이고,Ey(k)는 프레임k에서의 수신 신호의 스펙트럼이다.n은 프레임의 스펙트럼 해상도를 지시하고 있다.n은 시간 프레임에서의 Bark 값의 수(예컨대, 17)에 해당한다. 프레임k에서의 평균 스펙트럼은로 지시되어 있다.G _{i, k} 는 그 값이 에너지 비에 의존하는 프레임 종속 게인 상수 및 윈도우 의존 게인 상수이다.

도 12에는G _{i, k} 가 에너지 비의 함수의 형태로 그래프로 도시되어 있다.

그러한 게인이 1과 동일할 때(수신 신호에서의 에너지가 소스 신호에서의에너지와 동일할 때)에는 역시G _{i, k} = 1이다.

수신 신호에서의 에너지가 소스 신호에서의 에너지와 동일할 때에는G _{i, k} 가 1과 동일하다. 그것은Q _sp 에 영향을 미치지 않는다. 다른 모든 값들이 소스 신호로부터의 보다 더 큰 거리에 해당하는(수신 신호의 품질이 보다 저 낮은) 보다 더 작은G _{i, k} 또는Q _sp 를 유도한다. 수신 신호의 에너지가 소스 신호의 에너지보다 더 클 때, 즉 에너지 비1일 때에는 게인 상수가 다음의 방정식을 따라 거동한다:

에너지 비인 경우에는 다음의 방정식을 따른다:

개개의 레벨 윈도우에 대한ε _HI 및ε _LO 의 값은 아래의 표 2에서 찾아볼 수 있다.

윈도우 번호 i	ε_HI	ε_LO	θ	γ_SD
2	0.05	0.025	0.15	0.1
3	0.07	0.035	0.25	0.3
4	0.09	0.045	0.6	0.6

전술된 게인 상수는 수신 신호에서 과잉 성분을 유발하여 누락된 성분보다 더 큰 정도로 거리를 증대시키게 된다.

수학식 26으로부터, 분자는 공분산 함수에 해당하고, 분모는 2개의 표준 편차의 적에 해당한다는 것을 알 수 있다. 즉,k번째 프레임 및 레벨 인도우 i에 대해 거리는 다음과 같게 된다:

위의 표 2로부터도 알 수 있는 각각의 레벨 윈도우에 대한θ및γ _SD 의 값은개개의Q _sp (i, k)를 단일의 거리 측정 값Q _sp 로 변환하는데 필요로 하게 된다.

그 길이가 상이할 수 있는 3개의Q _sp (i)벡터가 신호의 성분의 함수로서 얻어진다. 제1 근사에 있어서, 각각의 레벨 윈도우에 대한 평균을 다음과 같이 계산한다:

수학식 30에서, N은Q _sp (i)벡터의 길이 또는 각각의 음성 윈도우 i에 대한 음성 프레임의 수이다.

이어서,Q _sp (i)벡터의 표준 편차SD _i 를 다음과 같이 계산한다:

수학식 31에서, SD는 코드화 신호에서의 간섭의 분포를 나타낸다. 버스트형 잡음, 예컨대 펄스 잡음의 경우에는 SD 값이 상대적으로 큰 반면에, 균일하게 분포된 잡음의 경우에는 SD 값이 작게 된다. 사람의 귀도 역시 펄스형 방해를 더욱 강렬하게 인지한다. 그 전형적인 경우는 예컨대 AMPS와 같은 아날로그 전송 통신망에 의해 생긴다

따라서, 신호가 얼마나 잘 분포되어 있는지에 따른 영향은 다음과 같이 이행된다:

최종적으로 다음의 식이 성립한다:

이어서, 음성기의 품질Q _sp 를 다음의 식에 따라 개개의 윈도우 품질의 갖ㅇ 합으로서 계산한다:

가중 계수U _i 는 다음의 식을 사용하여 결정된다:

η _sp 는 수학식 22에 따른 가중 계수이고,p _i 는 윈도우 i에 대한 신호의 가중 소속도(weighted degree of membership)에 해당하고 다음의 식을 사용하여 계산된다:

수학식 36에서,N _i 는 윈도우 i에서의 음성 프레임의 수이고,N _sp 는 음성 프레임의 총 수이며, 모든θ의 합은 1과 동일하다:

즉,의 비 또는θ _i 가 클수록 각각의 음성 프레임에서의 간섭의 중요성이 보다 더 커지게 된다.

물론, 신호 레벨에 종속하지 않는 게인 상수의 경우에는ε _HI ,ε _LO ,θ, 및γ _SD 의 값을 각각의 윈도우에 대해 동일한 것으로서 선택할 수도 있다.

도 2는 거리 측정 값 계산(16)까지의 해당 처리 세그먼트를 나타내고 있다. 품질 계산(17)에서는Q _TOT 의 값(수학식 20)을 수립하게 된다.

그 모든 것은 MOS 계산(5)으로 종착된다. 그러한 변환은Q _TOT 를 정확한 품질 스케일로 표현할 수 있도록 하기 위해 요구되는 것이다. MOS 단위에 따른 품질 스케일은 ITU T P.800 "전송 품질의 주관적 결정 방법(Method for subjectivedetermination of trasmission quality)", 08/96에 정의되어 있다. 통계적으로 의의가 있는 다수의 측정 값을 취한다. 이어서, 모든 측정 값을 도표에 개개의 점으로서 나타낸다. 이어서, 모든 점을 통해 이차 다항식의 형태로 추이 곡선을 그린다.

이제, 그러한MOS _o 값은 미리 정해진 MOS 갑에 해당하게 된다. 가장 양호한 경우에는 2개의 값이 동일하게 된다.

전술된 방법은 공공용 하드웨어 및/또는 소프트웨어로 실행될 수 있다. 전술된 수학식들은 별 어려움이 없이 프로그래밍될 수 있다. 소스 신호의 처리는 미리 실행되고, 단지 예비 처리 및 정신 음향학적 모델링의 결과만이 저장된다. 수신 신호는 예컨대 온라인으로 처리될 수 있다. 신호 스펙트럼 상에서의 거리 계산을 실행하기 위해, 소스 신호의 해당 저장 값을 사용한다.

본 발명에 따른 방법을 다양한 조건 하에서 각종의 음성 샘플로 테스트하였다. 샘플의 길이는 4 내지 16 초로 다양하게 되어 있었다.

실제의 통신망에서 다음의 음성 전송을 테스트하였다.

통상의 ISDN 접속

GSM-FR ↔ISDN 및 단독의 GSM-FR

ADPCM (G.726) 또는 LD-CELP (G.728) 코덱(codec)을 구비하는 DCME 장치를 경유한 각종의 전송

모든 접속을 상이한 음성 레벨로 가행하였다.

시뮬레이션은 다음의 것들을 포함하였다:

각종의 비트 에러율에 따른 CDMA COdec(IS-95)

에코 소거기를 켜 놓은 상태에서의 YDMA Codec(IS-54 및 IS-641)

부가적인 배경 잡으 및 각종의 주파수 응답

각각의 테스트는 일련의 평가 음성 샘플 및 그와 관련된 청각 판정(MOS)으로 이루어진다. 본 발명에 따른 방법과 청각 값 간에는 매우 높은 상관성이 얻어졌다.

요약하여 말한다면,

타임 마스킹의 모델링

주파수 마스킹의 모델링

거리 계산을 위한 전술된 모델

휴지기에서의 거리의 모델링, 및

에너지 비가 품질에 미치는 영향의 모델링에 의해 주관적 지각과 매우 양호하게 상관되는 다목적 평가 시스템이 제공된다.

Claims

전송하려는 소스 신호의 스펙트럼과 전송된 수신 신호의 스펙트럼을 주파수 영역에서 결정하는 방식의 기계를 이용한 오디오 신호, 특히 음성 신호의 전송 품질 평가 방법에 있어서,

전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산을 2개의 스펙트럼의 표준 편차의 적으로 나눔으로써 스펙트럼 유사도 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제1항에 있어서, 수신 신호와 소스 신호 간의 에너지 비의 함수로서 수신 신호의 에너지가 소스 신호의 에너지보다 더 낮은 경우보다는 수신 신호의 에너지가 소스 신호의 에너지보다 더 큰 경우에 스펙트럼 유사도 값을 더욱 크게 감소시키는 게인 계수로 스펙트럼 유사도 값을 가중시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제2항에 있어서, 게인 계수는 수신 신호의 에너지의 함수로서 수신 신호의 에너지가 높을수록 유사도 값을 더욱 크게 감소시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제1항 내지 제3항 중의 어느 한 항에 있어서, 소스 신호와 수신 신호로부터비활성기를 추출하여 잔여 활성기에 대해서만 스펙트럼 유사도 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제4에 있어서, 비활성기에 대해 비활성기의 에너지 Ep의 함수로서 기본적으로 다음의 특성이 있는 품질 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법:

(수학식 1)
제4항 또는 제5항에 있어서, 활성기의 유사도 값과 비활성기의 유사도 값과의 가중 선형 조합에 의해 전송 품질을 계산하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제1항 내지 제6항 중의 어느 한 항에 에 있어서, 주파수 영역으로의 변환 전에 연속 프레임이 50 %까지의 상당한 정도로 중첩되도록 소스 신호와 수신 신호를 시간 프레임으로 각각 분할하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제7항에 있어서, 타임 마스팅을 실행하기 위해, 프레임의 스펙트럼에 선행프레임의 감쇠된 스펙트럼을 더하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제8항에 있어서, 타임 마스팅을 실행하기 전에 스펙트럼 성분을 α1의 값으로 지수 함수화시킴으로써 압축하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제1항 내지 제9항 중의 어느 한 항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
제10항에 있어서, 콘볼루션 전에 스펙트럼의 성분을 ε1의 값으로 지수 함수화시킴으로써 확대시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.