KR100275478B1

KR100275478B1 - 주관적 음질과 상관도가 높은 객관 음질 평가 방법

Info

Publication number: KR100275478B1
Application number: KR1019980017088A
Authority: KR
Inventors: 김영렬; 장호식; 김광훈; 서성희; 김주완
Original assignee: 조정남; 에스케이 텔레콤주식회사
Priority date: 1998-05-13
Filing date: 1998-05-13
Publication date: 2000-12-15
Also published as: KR19990084985A

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 주관적 음질과 상관도가 높은 객관 음질 평가 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 이동통신의 음질을 평가하는데 있어서, 다양한 잡음환경과 채널손상하에서 주관적 음질을 비교적 정확히 추정할 수 있는 객관적인 음질 평가 척도를 추출하고, 추출된 객관적 음질 평가 척도를 이용하여 주관적 음질을 측정할 수 있는 음질 평가 방법을 제공하고자 함.

3. 본 발명의 해결 방법의 요지

본 발명은, 전역 스케일링을 수행하고, 시간 영역 데이터를 주파수 영역으로 바꾼 후에, 주파수 워핑을 수행하는 제 1 단계; 피치전력에너지기울기를 이용하여 국부 스케일링을 수행하고, 음의 세기 워핑을 수행하며, 피치전력에너지기울기를 이용하여 음의 크기 스케일링을 수행하는 제 2 단계; 및 잡음 방해 밀도를 구한후에, 원음과 왜곡음의 피치전력에너지기울기와 전역스케일링인자를 이용하여 비대칭프로세싱을 수행하고, 묵음간격가중을 수행하여 음질을 평가하는 제 3 단계를 포함한다.

4. 발명의 중요한 용도

본 발명은 이동통신 등의 음질 평가에 이용됨.

Description

주관적 음질과 상관도가 높은 객관 음질 평가 방법

본 발명은 이동통신망 등에서 생기는 다양한 잡음환경과 채널손상하에서 주관적 음질을 비교적 정확히 추정할 수 있는 객관적 음질 평가 척도를 사용하여 음질을 평가할 수 있도록 하는 음질 평가 방법에 관한 것이다.

주관적 음질 평가는 사람이 직접 듣고 평가하는 방법으로 이는 크게 명료도(intelligibility) 평가와 자연도(quality) 평가로 나누어진다. 다시 명료도 평가는 진단운검사(DRT : Diagnostic Rhyme Test)와 수정운검사(MRT : Modified Rhyme Test)로 나누어지고, 자연도 평가는 평균평가점검사(MOS : Mean Opinion Score test), 진단합격성평가검사(DAM : Diagnostic Acceptability Measure test) 및 A-B 선호도검사(A-B preference test)로 나누어진다.

진단합격성평가검사(DAM)는 고도로 훈련된 평가자들에게 음성신호, 배경 및 전체 효과등의 항목을 평가할 수 있도록 미리 준비된 문장을 들려주고, 0에서 100까지의 점수를 매기게 한 후 각 점수를 가중합(weighted sum)하는 방식이며, A-B 선호도검사(A-B preference test)는 두 문장을 무작위로 평가자에게 들려주어 어느 문장의 음질이 더 좋은지 평가하게 하는 방법이다.

평균평가점검사(MOS)는 5단계로 음질을 평가하는 방법으로 가장 좋은 상태를 5, 가장 나쁜 상태를 1로하여 평가하는 방법으로 (표 1)은 국제전신전화자문위원회(CCITT : International Telegraph and Telephone Consultative Committee)에 의한 평균평가점검사 평가등급 권고안이다.

등급	음질	왜곡정도
5	최상(Excellent)	감지할 수 없음(Imperceptible)
4	좋음(Good)	약간 감지할 수 있는, 그러나 귀에 거슬리지 않음(Just perceptible but not annoying)
3	보통(Fair)	감지할 수 있는, 그리고 약간 귀에 거슬림(Perceptible and slightly annoying)
2	나쁨(Poor)	귀에 거슬리는, 그러나 불쾌감을 일으키지 않음(annoying but not objectionable)
1	아주나쁨(Unsatisfactory)	매우 귀에 거슬리고, 불쾌감을 일으킴(Very annoy8ing and objectionalble)

객관 음질 평가 척도는 크게 4가지로 나누어진다. 첫번째는 시간영역에서 야기된 편차를 측정하는 방법으로 신호대잡음비(SNR : Signal to Noise Ratio), 분절신호대잡음비(SegSNR : Segmental Signal to Noise Ratio) 등이 이에 해당하고, 두번째는 선형예측부호화법(LPC : Linear Predictive Coding)에 기초한 방법으로 선형예측부호화법, LPC-CD(Linear Predictive Coding-Cepstrum Distance), 대수선형예측부호화법(Log LPC) 등이 있으며, 세번째는 주파수 영역에서의 편차를 측정하는 방법으로 스펙트럼거리(SD : Spectral Distance), 주파수가중스펙트럼거리(FWSD : Frequency Weighted Spectral Distance), 에너지가중스펙트럼거리(EWSD : Energy Weighted Spectral Distance) 등이 있으며, 네번째는 사람 귀의 청각 특성을 모델링하여 측정하는 방법으로서 바크스펙트럼거리(BSD : Bark Spectral Distance), 멜스펙트럼거리(MSD : Mel Spectral Distance) 및 최근 국제전기통신연합(ITU-T : International Telecommunication Union)의 보코더 성능평가를 위한 감지음성품질평가검사(PSQM : Perceptual Speech Quality Measure test) 등이 있다.

이러한 척도들은 응용되는 시스템에 따라 그 성능이 다르게 나타나지만 사람 귀의 청각 모델을 사용한 방법이 다른 방법보다 주관적 음질과의 상관도가 높다고 알려져 있다.

그리고, 서비스 제공회사 입장에서 시스템의 음성 품질을 지속적으로 감시하여 최상의 품질을 제공하는 것은 매우 중요하다. 그러나, 이것을 사람에 의한 주관적 평가로 수행한다면 매우 수고스럽고 비용이 많이 소요될 것이다. 따라서, 다양한 잡음환경과 채널손상하에서 주관적(subjective) 음질을 비교적 정확히 추정할 수 있는 객관적인 척도(objective measure)에 의한 음질을 평가하는 방법의 개발이 요구되어 왔다.

따라서, 상기한 바와 같은 요구에 부응하기 위하여 안출된 본 발명은, 이동통신 등의 음질을 평가하는데 있어서, 다양한 잡음환경과 채널손상하에서 주관적 음질을 비교적 정확히 추정할 수 있는 객관적인 음질 평가 척도를 추출하고, 추출된 객관적 음질 평가 척도를 이용하여 주관적 음질을 측정할 수 있도록 하는 음질 평가 방법을 제공하는데 그 목적이 있다.

도 1 은 본 발명이 적용되는 음질 평가 장치의 구성도.

도 2 는 본 발명의 일실시예에 따른 주관적 음질과 상관도가 높은 객관 음질 평가 방법의 흐름도.

도 3 은 도 2 의 국부 스케일링 과정의 흐름도.

도 4 는 도 2 의 음의 크기 스케일링 과정의 흐름도.

도 5 는 도 2 의 비대칭 프로세싱 과정의 흐름도.

도 6 은 본 발명의 일실시예에 따른 잡음방해값과 평균평가점검사 평가등급과의 상관에 대한 일예시도.

* 도면의 주요 부분에 대한 부호의 설명

110 : 이동모듈 111, 121 : 출력부

112, 122 : 입력부 113, 124 : 저장부

114, 123 : 중앙처리부

115, 116, 125, 126 : 아날로그/디지털 변환부

120 : 유선모듈 127 : 유선전화 접속부

130 : 이동전화 기지국 131 : 이동전화 교환국

132 : 공중전화 교환국 133 : 이동전화 단말장치

상기 목적을 달성하기 위한 본 발명의 방법은, 음질 평가 장치에 적용되는 음질 평가 방법에 있어서, 원음과 왜곡음의 전역 스케일링을 수행하고, 원음과 왜곡음의 시간 영역 데이터를 주파수 영역으로 바꾼 후에, 주파수 워핑을 수행하는 제 1 단계; 원음과 왜곡음의 피치전력에너지기울기를 이용하여 국부 스케일링을 수행하고, 음의 세기 워핑을 수행하며, 원음과 왜곡음의 피치전력에너지기울기를 이용하여 음의 크기 스케일링을 수행하는 제 2 단계; 및 잡음 방해 밀도를 구한후에, 원음과 왜곡음의 피치전력에너지기울기와 전역 스케일링 인자를 이용하여 비대칭 프로세싱을 수행하고, 묵음간격가중을 수행하여 음질을 평가하는 제 3 단계를 포함하여 이루어지는 것을 특징으로 한다.

이하, 도 1 내지 6 을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

주관적 음질을 비교적 정확히 추정할 수 있는 객관 음질 평가 척도로는 사람 귀의 청각 모델을 이용한 방법이 적당하다. 실제 연구 결과도 같은 결과를 보여 준다.

이하, 사람귀의 청각 모델을 이용한 방법중 국제전기통신연합에서 권고한 감지음성품질평가방법을 근간으로 하여 이동전화망에서 생기는 다양한 잡음 및 왜곡을 정확히 평가하는 새로운 방식의 음질평가방법(SKQM : SK speech Quality Measure)을 기술한다.

감지음성품질평가방법은 사람 귀의 청각 특성을 모델링한 것으로 크게 3가지 특징을 갖는다. 첫번째는 사람 귀의 주파수 민감도를 반영하여 주파수 영역을 임계 대역(critical band) 영역으로 변환하는 주파수 워핑(frequency warping)이고, 두번째는 사람의 소리 크기에 대한 민감도가 주파수에 따라 다른 것을 반영한 음의 세기 워핑(intensity warping)이다. 마지막은 사람 귀의 비대칭성을 모델링한 비대칭 프로세싱으로 원음에서 소리가 소실된 때보다 잡음이 첨가되었을 때 더 민감하게 반응하는 것을 반영한다.

새로운 방식의 음질평가방법은 이러한 3가지의 사람 귀의 청각 특성을 고려하고, 또한 이동전화망에서 생기는 다양한 잡음과 음성소실 및 왜곡을 효과적으로 평가하기 위해서 위의 감지음성품질평가방법에 첨가하여 3가지 스케일링(scaling) 방법을 사용한다.

첫번째는 국부 스케일링(local scaling) 방법으로 원음과 왜곡음의 프레임 에너지 차이가 특정 범위내이면 왜곡음에 국부 스케일링(local scaling)을 해주어 원음과 비슷하게 맞춰주나 특정 범위 밖이면 그 차이를 더욱 크게 하여 주관적 음질 척도인 평균평가점검사(MOS)와의 상관도를 높게 하는 방법을 사용한다.

두번째는 음의 크기 스케일링(loudness scaling) 방법으로 음의 세기 워핑(intensity warping) 후에 국부 스케일링(local scaling) 결과를 참조하여 국부 스케일링(local scaling)시 원음과 왜곡음의 차이를 더 크게 한 경우와 초기 음의 크기 스케일링 인자(loudness scaling factor)가 특정 범위 밖인 경우에는 국부 스케일링(local scaling) 효과를 유지하기 위해 음의 크기 스케일링(loudness scaling)을 적용하지 않고 그 이외의 경우에는 음의 크기 스케일링(loudness scaling)을 적용하여 이동전화망에서의 음의 소실 또는 잡음을 효과적으로 모델링하는 방법이다.

마지막 세번째는 사람 귀의 비대칭성을 모델링하는 감지음성품질평가방법(PSQM)을 수정하여 주관적 음질 척도인 평균평가점검사(MOS)와의 상관도를 높게하는 방법이다.

사람의 청각 특성은 주파수에 따라 민감도가 다르며 800 Hz 이상의 주파수에 대해서는 주파수가 증가함에 따라 청각의 분해능이 감소하고, 중간 주파수 영역에서 보다 민감하다. 이러한 특성을 반영한 것이 임계대역(critical band)에 의한 주파수 워핑(frequency warping)이고, 소리 크기 민감도를 반영한 것이 음의 세기 워핑(intensity warping)이며 사람 귀의 비대칭성을 모델링한 것이 비대칭 프로세싱(asymmetry processing)이다.

본 발명에서 명명된 새로운 방식의 음질평가방법은 위와 같은 감지음성품질평가방법의 3가지 특징과 국부 스케일링(local scaling), 음의 크기 스케일링(loudness scaling) 및 비대칭 프로세싱(asymmetry processing) 등을 고려하여 주관적 음질 평가 척도인 평균평가점검사(MOS)와 상관도를 높게하는 방법이다.

도 1 은 본 발명이 적용되는 음질 평가 장치의 구성도이다.

도면에 도시된 바와 같이, 음질 평가 장치는, 이동모듈(110), 유선모듈(120), 이동전화기지국(130), 이동전화교환국(131), 공중전화교환국(132) 및 이동전화단말장치(133)를 구비하고 있다.

그리고, 이동모듈(110)은 출력부(111), 입력부(112), 저장부(113), 중앙처리부(114), 아날로그/디지털변환부(115) 및 디지털/아날로그변환부(116)를 구비하고 있다.

또한, 유선모듈(120)은 출력부(121), 입력부(122), 중앙처리부(123), 저장부(124), 아날로그/디지털변환부(125), 디지털/아날로그변환부(126) 및 유선전화접속부(127)를 구비하고 있다.

이제, 본 발명이 적용되는 음질 평가 장치의 동작을 상세히 살펴보면 다음과 같다.

이동모듈(110)의 저장부(113)와 유선모듈(120)의 저장부(124)에는 원음을 저장한다.

먼저 이동모듈(110)의 저장부(113)에 저장된 원음은 중앙처리부(114)를 거치고, 디지털/아날로그변환부(116)을 거쳐, 이동전화단말장치(133)로 전송된다.

계속하여, 이동전화단말장치(133)는 원음을 이동전화기지국(130)과, 이동전화교환국(131) 및 공중전화교환국(132)을 거쳐 유선모듈(120)의 유선전화접속부(127)로 전송한다.

유선전화접속부(127)는 수신된 음성을 아날로그/디지털변환부(125)를 거쳐 디지털 신호로 변환한 후에, 중앙처리부(123)로 전송한다.

중앙처리부(123)는 수신한 음성을 저장부(124)에 일시저장한 후에, 원음과 비교하여 새로운 방식의 음질평가를 수행하고, 그 결과를 출력부(121)로 출력한다.

또한, 역으로 유선모듈(121)의 중앙처리부(123)는 저장부(124)로부터 저장되어 있는 원음을 읽어와서 디지털/아날로그변환부(126)를 거쳐 아날로그 신호로 변환한 후에, 유선전화접속부(127)로 전송한다.

계속하여, 유선전화접속부(127)는 입력받은 아날로그 음성신호를 공중전화교환국(132), 이동전화교환국(131), 이동전화기지국(130)을 통해 이동전화단말장치(133)로 전송한다.

이동전화단말장치(133)는 음성을 수신하면 이동모듈(110)의 아날로그/디지털 변환부(115)에서 디지털로 변환한 후에, 중앙처리부(114)로 전송한다.

중앙처리부(114)는 입력받은 음성을 일시저장한 후에, 원음과 비교하여 새로운 방식의 음질평가를 수행하고, 그 결과를 출력부(111)로 출력한다.

도 2 는 본 발명의 일실시예에 따른 주관적 음질과 상관도가 높은 객관 음질 평가 방법의 흐름도이다.

본 발명에서 x_i[n], y_i[n]은 각각 8KHz 샘플링(sampling)된 원음과 수신된 왜곡음을 의미하고 i는 i번째 프레임, n은 n번째 샘플을 의미한다. 즉 x_i[n], y_i[n]은 각각 원음과 왜곡음의 i번째 프레임 n번째 샘플을 의미한다.

다음은 각종 변수 및 상수 정의이다.

n = 시간영역 샘플 번호

i = 프레임 번호

k = 고속퓨리에변환후 주파수 번호

j = 임계대역(critical band) 번호

N_b= 임계대역(critical band) 수 = 56

N_f= 프레임 샘플 수 = 256

Δb = 임계대역(critical band) 대역폭 = 0.312

새로운 방식의 음질평가방법은 모두 프레임 단위로 이루어진다. 한 프레임은 256샘플로 구성되고 한 프레임 계산후 다음 프레임은 이전 프레임과 50%중첩된다.

따라서 현 프레임과 다음 프레임은 128샘플 만큼 차이가 난다.

도면에 도시된 바와 같이, 주관적 음질과 상관도가 높은 객관 음질 평가 방법은, 먼저 원음과 왜곡음을 샘플링한 후에(210), 원음과 왜곡음의 시간축 동기화를 수행한다(211).

원음과 왜곡음의 시간축 동기는 원음에 대해 왜곡음을 이동시키면서 동기를 맞춘다.

그리고, 시간축 동기가 맞은 다음에는 원음과 왜곡음의 전체적인 전력을 같게하기 위한 전역 스케일링(global scaling)을 수행한다(212). 전역 스케일링(Global scaling)은 원음의 전체 전력과 왜곡음의 전체 전력을 같게 하는 것으로 전역 스케일링 인자를 왜곡음에 (수학식 2)에서 처럼 곱하여 수행한다.

전역 스케일링 인자(global scaling factor) S_global은 다음 (수학식 1)로 구한다.

계속하여, 전역 스케일링(Global scaling)이 이루어진 다음에는 시간영역 데이터 x_i[n], y_i[n]을 시간-주파수 영역으로 변환한다. 시간영역을 시간-주파수 영역으로 바꾸는 것은 시간영역 데이터에 대해 먼저 해밍 윈도우(Hamming window)를 수행하고(213), 고속퓨리에변환(FFT : Fast Fourier Transform)을 수행함으로서(214) 이루어진다.

해밍 윈도우(Hamming window)는 원음과 왜곡음에 (수학식 3)과 같이 해밍 윈도우(Hamming window) 함수 h[n]을 곱함으로서 이루어진다.

(수학식 3)에서 해밍 윈도우(Hamming window) 함수 h[n]은 다음 (수학식 4)와 같다.

그리고, (수학식 5)는 퓨리에변환후에 함수를 나타낸다.

계속하여, 시간영역 데이터 x_i[n], y_i[n]을 시간-주파수 영역으로 변환한 후에는 원음과 왜곡음의 샘플스펙트럼전력밀도(Sampled Spectral Power Density)를 구한다(215).

샘플스펙트럼전력밀도(SPD)는 시간-주파수 영역 데이터 F_xi(k), F_yi(k)을 제곱함으로써 (수학식 6)을 통하여 얻는다.

위식에서 Re는 실수부분을, Im은 허수부분을 의미한다.

계속하여, 샘플스펙트럼전력밀도를 구한 후에, 주파수 워핑을 수행한다(216).

사람 귀의 주파수 민감도를 반영하여 주파수 영역을 임계대역(critical band) 영역으로 변환하는 주파수 워핑(frequency warping)은 (수학식 7)과 같다.

주파수 영역 전력 P_xi[k], P_yi[k]을 임계대역(critical band) 영역으로 변환한 후의 전력 FW_xi[j], FW_yi[j]를 피치전력세기(pitch power intensity)라 한다.

(수학식 7)에서 Cp는 교정인자(calibration factor)로서 (수학식 8)과 같이 정의된다.

그러나, 보통 교정 인자(calibration factor) Cp는 (수학식 9)의 다음 값으로 주어진다.

또한 Δf_j는 (표 2), (표 3) 및 (표 4)의 임계대역(critical band) j의 헤르쯔대역폭(Hertz bandwidth)이고, Δb는 임계대역(critical band) 대역폭으로서 0.312이다. CB_last[j] 및 CB_first[j]는 (표 2), (표 3) 및 (표 4)와 같다.

대역번(Bandnumber)j	상위 주파수(Upperfrequency)[Hz]	대역에서 첫 번째 퓨리에변환값(First FFT Binin band j)CB_first	대역에서 마지막 퓨리에변환값(Last FFT Binin band j)CB_last	청취 문턱값(Hearing threshold)P₀
0	15.6	0	0	-
1	46.9	1	1	3.89E+07
2	78.1	2	2	1.12E+06
3	109.4	3	3	1.26E+05
4	140.6	4	4	1.86E+04
5	171.9	5	5	6.17E+03
6	203.1	6	6	2.29E+03
7	234.4	7	7	9.33E+02
8	265.6	8	8	4.37E+02
9	296.9	9	9	2.29E+02
10	328.1	10	10	1.29E+02
11	359.4	11	11	7.76E+01

대역 번호(Band number)j	상위 주파수(Upperfrequency)[Hz]	대역에서 첫번째 퓨리에변환값(First FFT Binin band j)CB_first	대역에서 마지막 퓨리에변환값(Last FFT Binin band j)CB_last	청취 문턱값(Hearing threshold)P₀
12	390.6	12	12	4.27E+01
13	421.9	13	13	3.02E+01
14	453.1	14	14	2.19E+01
15	484.8	15	15	1.66E+01
16	519.2	16	16	1.32E+01
17	553.6	17	17	1.07E+01
18	590.8	18	18	8.91E+00
19	631.2	19	20	7.59E+00
20	672.9	21	21	6.31E+00
21	716.6	22	22	5.62E+00
22	760.4	23	24	5.13E+00
23	804.6	25	25	4.68E+00
24	851.4	26	27	4.37E+00
25	898.3	28	28	4.17E+00
26	947.0	29	30	4.07E+00
27	997.0	31	31	3.98E+00
28	1051	32	33	3.98E+00
29	1108	34	35	3.98E+00
30	1168	36	37	3.98E+00
31	1231	38	39	3.98E+00
32	1297	40	41	4.07E+00
33	1366	42	43	4.27E+00
34	1437	44	45	4.47E+00

Bandnumberj	Upperfrequency[Hz]	First FFT Binin band j,CB_first	Last FFT Binin band j,CB_last	Hearing threshold,P₀
35	1509	46	48	4.68E+00
36	1582	49	50	5.01E+00
37	1658	51	53	5.37E+00
38	1736	54	55	5.62E+00
39	1817	56	58	5.89E+00
40	1902	59	60	6.31E+00
41	1991	61	63	6.61E+00
42	2084	64	66	6.92E+00
43	2184	67	69	7.24E+00
44	2289	70	73	7.59E+00
45	2401	74	76	7.76E+00
46	2520	77	80	7.94E+00
47	2647	81	84	7.94E+00
48	2781	85	88	7.94E+00
49	2922	89	93	7.94E+00
50	3069	94	98	8.13E+00
51	3225	99	103	8.13E+00
52	3392	104	108	8.32E+00
53	3572	109	114	8.32E+00
54	3765	115	120	8.32E+00
55	3971	121	127	8.32E+00

각 프레임의 피치전력(pitch power)에너지는 피치전력세기(pitch power intensity)의 합으로서 (수학식 10)과 같다.

(수학식 10)에서 N_b는 임계대역(critical band) 수이다.

계속하여, 주파수 워핑을 수행한 후에, 국부 스케일링을 수행하며(217), 국부 스케일링은 국부스케일링인자(local scaling factor) L_i를 왜곡음의 피치전력세기에 (수학식 11)과 같이 곱하여 수행한다.

계속하여, 음의 세기 워핑을 수행한다(217). 음의 세기 워핑(Intensity warping)은 소리 크기에 대한 민감도가 주파수에 따라 다른 것을 반영한 것으로 (수학식 12)와 같다.

(수학식 12)에서 IW_xi[j], IW_yi[j]가 0보다 작으면 0으로 하고, P_o[j]는 (표 2)의 청취 문턱값(hearing threshold)으로서 사람 귀의 주파수에 따른 소리 크기 문턱값(threshold)이며 C_w는 음의세기워핑교정인자(intensity warping calibration factor)로서 (수학식 13)과 같이 정의 된다.

음의세기워핑교정인자(Intensity warping calibration factor) C_w는 240.05를 사용한다.

음의 세기 워핑(Intensity warping)한 신호 IW_xi[j], IW_yi[j]를 압축음의 세기강도( compressed loudness intensity)라 하고 압축음의 세기강도(compressed loudness intensity)를 전 임계대역(critical band)에 대해 합한 값을 압축손(Compressed Sone)이라 하고 (수학식 14)와 같다.

계속하여, 음의 세기 워핑 수행후에, 음의 크기 스케일링을 수행한다(219). 음의 크기 스케일링은 음의세기스케일링인자(loudness scaling factor) LS_i를 (수학식 15)와 같이 왜곡음에 곱하여 수행한다.

계속하여, 잡음방해밀도를 구한다(220). 잡음방해밀도(noise disturbance density) ND_i[j]는 압축음의 세기강도(compressed loudness intensity) IW_xi[j]와 IP_yi[j]의 차이로서 (수학식 16)과 같다.

계속하여, 비대칭 프로세싱을 수행한다(221). 비대칭 프로세싱은 원음에서 일부 음이 소실되었을 때보다 원음에 다른 성분이 추가되었을 때 더 민감하게 반응하는 사람 귀의 비대칭성을 고려한 것이다. 비대칭성은 묵음구간에서 두드러진다.

즉, 원음에서 일부 시간-주파수 성분이 소실되더라도 여전히 상관성을 갖는 음성인 반면 원음에 새로운 비상관성의 시간-주파수 성분이 첨가된다면 사람 귀는 더 민감하게 반응한다.

비대칭프로세싱인자(Asymmetry processing factor)를 AE_i[j]를 고려하여 잡음방해값(noise disturbance) ND_i를 계산하면 (수학식 17)과 같다.

계속하여, 묵음간격가중을 수행한다(222). 묵음간격가중은 음성의 묵음구간이 주관적 음질에 영향을 미치기 때문에 이것에 대해 고려해주는 것이다. 음성의 묵음은 원음의 프레임 피치전력(pitch power)에너지 FW_xi가 70SPL(Sound Pressure Level)이하일 때로 이는 곧 원음의 프레임 피치전력(pitch power)에너지 FW_xi가 10⁷보다 작을 때이다. 따라서 활성(active) 프레임은 원음의 피치전력(pitch power) 에너지 FW_xi가 70SPL을 초과한 프레임이고 묵음(silent) 프레임은 원음의 피치전력(pitch power) 에너지 FW_xi가 70SPL을 초과하지 못한 프레임이다.

N_act을 활성(active) 프레임의 수라 하고 N_sil을 묵음(silent) 프레임의 수라 하면 활성(active) 프레임의 평균 잡음 음의 세기(noise loudness) NL_act와 묵음(silent) 프레임의 평균 잡음 음의 세기(noise loudness) NL_sil은 (수학식 18)과 같다.

묵음은 그 길이에 따라 미치는 영향이 다르다. 원음이 묵음을 포함하고 있지 않다면 음질에 미치는 영향이 없고 원음이 묵음을 포함하고 있다면 묵음의 길이 만큼 영향을 미친다. 다음 (수학식 19)는 이러한 묵음 길이에 대한 가중치 W_sil를 고려한 잡음방해값(noise disturbance)이다.

(수학식 19)에서 P_sil은 묵음 프레임의 비율, P_act는 활성(active) 프레임의 비율로서 P_sil에 P_act을 더하면 1이 된다.

또한 묵음 길이에 대한 가중치 W_sil은 보통 0.2를 사용하고 W_act는 (수학식 20)과 같다.

그리고, 잡음방해값을 구한후에, 잡음방해값과 평균평가점검사의 평가등급과의 상관도를 참조하여 음질을 평가한 후에(223), 종료한다.

도 3 은 도 2 의 국부 스케일링 과정의 흐름도이다.

새로운 방식의 음질평가방법이 감지음성품질평가방법과 다른 첫번째 특징중 하나인 국부 스케일링(local scaling)은 주관적 음질 척도인 평균평가점검사(MOS)와의 상관도를 높이기 위해 원음과 왜곡음의 차이가 특정 범위 내일 때는 에너지 차이를 보상하지만 특정 범위를 벗어난 경우에는 그 차이를 더욱 크게 하여 주관적 음질이 객관 음질 척도에 반영되게 하는 것이다.

도면에 도시된 바와 같이, 국부 스케일링 과정은, 먼저 각 프레임 피치전력세기(pitch power intensity) 차이를 보상해주기 위한 초기 국부스케일링인자(local scaling factor) L_i(orig)를 (수학식 21)을 사용하여 구하고(310), 원음과 왜곡음의 피치전력에너지기울기를 (수학식 22)를 사용하여 구한다(311).

(수학식 22)에서 preFW_xi, preFW_yi는 이전 프레임 피치전력(pitch power)에너지이고 FW_xi, FW_yi는 현 프레임 피치전력(pitch power)에너지이며 SX_i,SY_i는 각각 원음과 왜곡음의 피치전력 (pitch power)에너지기울기이다.

계속하여, 왜곡음의 피치전력에너지기울기 SY_i가 원음의 피치전력(pitch power)에너지기울기 SX_i보다 C₁배 보다 작거나 C₂배 보다 큰지를 판단한다(312).

판단 결과, 크거나 작으면 초기 국부스케일링인자를 왜곡음에 곱하여, 국부 스케일링을 수행하고(313), 작거나 크면 초기 국부스케일링인자(local scaling factor) L_i(orig)가 1.0보다 큰지를 판단한다(314).

판단 결과, 작거나 같은 경우에는 초기 국부스케일링인자(local scaling factor) L_i(orig)에 C₄를 더하여 국부스케일링인자 L_i를 구하고(317), 왜곡음에 국부스케일링인자를 곱하여 국부 스케일링을 수행하며(318), 큰 경우에는 초기 국부스케일링인자 L_i(orig)에 C₃를 뺀 값을 국부스케일링인자로 한 후에(315), 국부스케일링인자가 0.0보다 작거나 같은지를 판단한다(316).

판단 결과, 작거나 같으면, 초기 국부스케일링인자를 왜곡음에 곱하여 국부 스케일링을 수행하고(313), 크면 왜곡음에 국부스케일링인자를 곱하여 국부 스케일링을 수행한다(318).

여기서 왜곡음의 피치전력(pitch power)에너지기울기가 원음의 피치전력 (pitch power)에너지기울기보다 C₁배 보다 작은 경우는 왜곡음에서 프레임 에러가 발생하여 음성이 소실된 경우를 모델링하기 위한 것이고 왜곡음의 피치전력(pitch power)에너지기울기가 원음의 피치전력(pitch power)에너지기울기보다 C₂배 보다 큰 경우는 왜곡음에 잡음이 첨가된 경우를 모델링하기 위한 것이다. 이렇게 함으로서 이동전화망에서 생기는 프레임 에러에 의한 음의 소실과 잡음에 의한 영향을 객관 음질 평가에 반영한다.

C₁, C₂, C₃, C₄실험예는 (수학식 23)과 같다.

C₁= 0.02

C₂= 3.5

C₃= 10.0

C₄= 10.0

도 4 는 도 2 의 음의 크기 스케일링 과정의 흐름도이다.

새로운 방식의 음질평가방법의 음의 크기 스케일링(loudness scaling)은 국부 스케일링(local scaling) 결과 및 초기 음의세기스케일링인자(loudness scaling factor) LSi(orig)을 참조하여 국부 스케일링(local scaling)시 원음과 왜곡음의 차이를 더 크게 한 경우와 초기 음의세기스케일링인자(loudness scaling factor) LS_i(orig)가 특정 범위 밖인 경우에는 국부 스케일링(local scaling) 효과를 유지하기 위해 음의 크기 스케일링(loudness scaling)을 적용하지 않고 그 이외의 경우에는 음의 크기 스케일링(loudness scaling)을 적용하여 주관적 음질 평가 척도인 평균평가점검사(MOS)와의 상관도를 높게하는 방법이다.

도면에 도시된 바와 같이, 음의 크기 스케일링 과정은, 먼저 초기 음의 크기스케일링인자를 (수학식 25)를 사용하여 구한 후에(410), 왜곡음 피치전력에너지기울기 SY_i가 SX_i배보다 C₁배 작거나 C₂배 큰 경우인지를 판단한다(411).

그리고, 초기 음의세기스케일링인자를 구하기 전에, 압축손을 구하여야 하는데, 음의 세기 워핑(Intensity warping) 신호 IW_xi[j], IW_yi[j]를 압축음의 세기강도(compressed loudness intensity)라 하면, 압축손(Compressed Sone)은 압축음의 세기강도를 전 임계대역(critical band)에 대해 합하여 구하며, (수학식 24)가 이를 나타낸다.

(수학식 25)에서 LS_i(orig)는 초기 음의세기스케일링인자(loudness scaling factor)를 나타낸다.

판단 결과, 작거나 크면 음의 세기스케일링인자를 1.0로 하고(414), 음의 크기 스케일링인자를 왜곡음에 곱하며(415), 크거나 작으면 임의의 인자 C₆보다 작고 임의의 인자 C₅보다 큰지를 판단한다(412).

판단 결과, 작거나 크면 초기 음의 세기스케일링인자를 왜곡음에 곱하고(413), 크거나 작으면 음의 세기스케일링인자를 1.0으로 하고(414), 음의 세기스케일링인자를 왜곡음에 곱한다(415).

C1, C2, C5, C6 실험예는 (수학식 26)과 같다.

C₁= 0.02

C₂= 3.5

C₅= 0.4

C₆= 1.6

도 5 는 도 2 의 비대칭 프로세싱 과정의 흐름도이다.

사람 귀의 특성중의 하나는 원음에서 일부 음이 소실되었을 때보다 원음에 다른 성분이 추가되었을 때 더 민감하게 반응한다. 이러한 사람 귀의 비대칭성을 고려한 것이 비대칭 프로세싱이다. 비대칭성은 묵음구간에서 두드러진다. 즉 원음에서 일부 시간-주파수 성분이 소실되더라고 여전히 상관성을 갖는 음성인 반면 원음에 새로운 비상관성의 시간-주파수 성분이 첨가된다면 사람 귀는 더 민감하게 반응한다.

도면에 도시된 바와 같이, 비대칭 프로세싱 과정은, 초기 비대칭프로세스인자를 (수학식 27)을 사용하여 구한 후에(510), 원음과 왜곡음의 피치전력세기가 모두 청취 문턱값보다 20데시벨(db) 이상 큰지를 판단한다(511).

판단 결과, 크지 않으면, 초기 비대칭 프로세싱 인자를 1.0으로 한 후에(516), 잡음방해값 ND_i를 (수학식 28)을 사용하여 계산하고(515), 종료하며, 크면 초기국부스케일링인자가 임의의 상수 C₇보다 크고 임의의 상수 C₈보다 작은지를 판단한다(512).

판단 결과, 크거나 작으면, 초기 비대칭프로세싱인자를 비대칭인자로 한 후에(517), 비대칭인자가 2.0보다 큰지를 판단한다(518).

판단 결과, 크지 않으면 잡음방해값 ND_i를 (수학식 28)을 사용하여 계산하고(515), 종료하며, 크면 비대칭프로세싱인자를 2.0으로 하고(519), 잡음방해값 ND_i를 (수학식 28)을 사용하여 계산한 후에(515), 종료한다.

한편, 초기 국부스케일링인자가 임의의 상수 C₇보다 크고 임의의 상수 C₈보다 작은지의 판단 결과, 작거나 크면, 전역스케일링인자 S_global이 임의의 상수 C₉보다 큰지를 판단한다(513).

판단 결과, 크면 비대칭프로세싱인자를 2.0으로 한 후에(519), 잡음방해값 ND_i를 (수학식 28)을 사용하여 계산하고(515), 종료하며, 크지 않으면 비대칭프로세싱인자를 임의의 상수 C₁₀로 한 후에(514), 잡음방해값 ND_i를 (수학식 28)을 사용하여 계산하고(515), 종료한다.

한편, C₇, C₈, C₉, C₁₀의 실험예는 (수학식 29)와 같다.

C₇= 0.03

C₈= 30.0

C₉= 1.5

C₁₀= 1.4

도 6 은 본 발명의 일실시예에 따른 잡음방해값과 평균평가점검사 평가등급과의 상관에 대한 일예시도이다.

도면에 도시된 바와 같이, 가로축은 묵음간격가중된 잡음방해값을 나타내고, 세로축은 평균평가점검사 평가등급을 나타내며, 그래프는 잡음방해값과 평균평가점검사 평가등급이 반비례 관계에 있음을 나타내고, 음질이 나쁜 경우에 더 세밀하게 반응하도록 되어 있다.

상기 그래프의 상관도는 0.96으로서 상관도 R은 (수학식 30)를 통하여 얻게 된다.

(수학식 30)에서 Ave는 평균평가점검사 평가등급(MOS) 평균을, MOSm는 m번째 음성 샘플 평균평가점검사 평가등급(MOS)값이고, PMOSm는 m번째 샘플에 대한 예측 평균평가점검사 평가등급(Predictive MOS)으로서 (수학식 31)과 같이 3차식으로 계산된다.

(수학식 31)에서 계수 a, b, c, d는 3차식 곡선으로 부터 구한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.

상기와 같은 본 발명은, 가입자 체감 음질과 밀접한 관계가 있는 객관적 음질 평가 방법에 관한 것으로, 발명실시시 효과적인 가입자 체감 음질 평가가 가능하고, 가입자 체감 음질 평가를 사람이 직접하는 대신 자동적으로 이루어지도록 함으로 신뢰성있는 객관적인 음질 평가가 가능할 뿐만 아니라 음질 평가 비용 절감 효과 및 음질 평가에 있어서 사람이 직접하는 번거로움 등이 제거되는 효과가 있다.

Claims

음질 평가 장치에 적용되는 음질 평가 방법에 있어서,

원음과 왜곡음의 전역 스케일링을 수행하고, 원음과 왜곡음의 시간 영역 데이터를 주파수 영역으로 바꾼 후에, 주파수 워핑을 수행하는 제 1 단계;

원음과 왜곡음의 피치전력에너지기울기를 이용하여 국부 스케일링을 수행하고, 음의 세기 워핑을 수행하며, 원음과 왜곡음의 피치전력에너지기울기를 이용하여 음의 크기 스케일링을 수행하는 제 2 단계; 및

잡음 방해 밀도를 구한후에, 원음과 왜곡음의 피치전력에너지기울기와 전역 스케일링 인자를 이용하여 비대칭 프로세싱을 수행하고, 묵음간격가중을 수행하여 음질을 평가하는 제 3 단계

를 포함하여 이루어진 음질 평가 방법.
제 1 항에 있어서,

상기 제 2 단계의 국부 스케일링 수행 과정은,

초기 국부스케일링인자를 구하고, 원음과 왜곡음의 피치전력에너지기울기를 를 구하는 제 4 단계;

왜곡음의 피치전력에너지기울기가 원음의 피치전력에너지기울기보다 제1 상수배 작거나 제2 상수배 큰지를 판단하는 제 5 단계;

상기 제 5 단계의 판단 결과, 크거나 작으면 초기 국부스케일링인자를 왜곡음에 곱하고, 작거나 크면 초기 국부스케일링인자가 제3 상수보다 큰지를 판단하는 제 6 단계;

상기 제 6 단계의 판단 결과, 작거나 같은 경우에는 초기 국부스케일링인자에 제4 상수를 더하여 국부스케일링인자를 구하고, 왜곡음에 국부스케일링인자를 곱하는 제 7 단계;

상기 제 6 단계의 판단 결과, 큰 경우에는 초기 국부스케일링인자에 제5 상수를 뺀 값을 국부스케일링인자로 한 후에, 국부스케일링인자가 제6 상수보다 작거나 같은지를 판단하는 제 8 단계; 및

상기 제 8 단계의 판단 결과, 작거나 같으면, 초기 국부스케일링인자를 왜곡음에 곱하고, 크면 왜곡음에 국부스케일링인자를 곱하는 제 9 단계

를 포함하여 이루어진 음질 평가 방법.
제 1항 또는 제 2 항에 있어서,

상기 제 2 단계의 음의 크기 스케일링 수행 과정은,

초기 음의 크기 스케일링인자를 구한 후에, 왜곡음 피치전력에너지기울기가 원음 피치전력에너지기울기보다 상기 제1 상수배 작거나 상기 제2 상수배 큰 경우인지를 판단하는 제 10 단계;

상기 제 10 단계의 판단 결과, 작거나 크면 음의 크기 스케일링인자를 상기 제3 상수로 하고, 음의 크기 스케일링인자를 왜곡음에 곱하는 제 11 단계;

상기 제 10 단계의 판단 결과, 크거나 작으면 제7 상수보다 작고 제8 상수보다 큰지를 판단하는 제 12 단계;

상기 제 12 단계의 판단 결과, 작거나 크면 초기 음의 크기 스케일링인자를 왜곡음에 곱하는 제 13 단계; 및

상기 제 12 단계의 판단 결과, 크거나 작으면 음의 크기 스케일링인자를 상기 제3 상수로 하고, 음의 크기 스케일링인자를 왜곡음에 곱하는 제 14 단계

를 포함하여 이루어진 음질 평가 방법.
제 3 항에 있어서,

상기 제 3 단계의 비대칭 프로세싱 수행 과정은,

초기 비대칭프로세스인자를 구한 후에, 원음 또는 왜곡음의 피치전력세기가 청취 문턱값보다 소정값 이상 큰지를 판단하는 제 15 단계;

상기 제 15 단계의 판단 결과, 크지 않으면, 초기 비대칭프로세싱인자를 상기 제3 상수로 한 후에, 잡음방해값을 구하는 제 16 단계;

상기 제 15 단계의 판단 결과, 크면 초기국부스케일링인자가 제9 상수보다 크고 제10 상수보다 작은지를 판단하는 제 17 단계;

상기 제 17 단계의 판단 결과, 크거나 작으면, 초기 비대칭프로세싱인자를 비대칭인자로 한 후에, 비대칭인자가 제11 상수보다 큰지를 판단하는 제 18 단계;

상기 제 18 단계의 판단 결과, 크지 않으면 잡음방해값을 계산하고, 크면 비대칭프로세싱인자를 제11 상수로 하고, 잡음방해값을 계산하는 제 19 단계;

상기 제 17 단계의 판단 결과, 작거나 크면, 전역스케일링인자가 제12 상수보다 큰지를 판단하는 제 20 단계;

상기 제 20 단계의 판단 결과, 크면 비대칭프로세싱인자를 상기 제11 상수로 한 후에, 잡음방해값을 계산하는 제 21 단계; 및

상기 제 20 단계의 판단 결과, 크지 않으면 비대칭프로세싱인자를 제13 상수로 한 후에, 잡음방해값을 계산하는 제 22 단계

를 포함하여 이루어진 음질 평가 방법.