KR100275478B1 - 주관적 음질과 상관도가 높은 객관 음질 평가 방법 - Google Patents

주관적 음질과 상관도가 높은 객관 음질 평가 방법 Download PDF

Info

Publication number
KR100275478B1
KR100275478B1 KR1019980017088A KR19980017088A KR100275478B1 KR 100275478 B1 KR100275478 B1 KR 100275478B1 KR 1019980017088 A KR1019980017088 A KR 1019980017088A KR 19980017088 A KR19980017088 A KR 19980017088A KR 100275478 B1 KR100275478 B1 KR 100275478B1
Authority
KR
South Korea
Prior art keywords
sound
constant
scaling factor
factor
determination
Prior art date
Application number
KR1019980017088A
Other languages
English (en)
Other versions
KR19990084985A (ko
Inventor
김영렬
장호식
김광훈
서성희
김주완
Original Assignee
조정남
에스케이 텔레콤주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조정남, 에스케이 텔레콤주식회사 filed Critical 조정남
Priority to KR1019980017088A priority Critical patent/KR100275478B1/ko
Publication of KR19990084985A publication Critical patent/KR19990084985A/ko
Application granted granted Critical
Publication of KR100275478B1 publication Critical patent/KR100275478B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 주관적 음질과 상관도가 높은 객관 음질 평가 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 이동통신의 음질을 평가하는데 있어서, 다양한 잡음환경과 채널손상하에서 주관적 음질을 비교적 정확히 추정할 수 있는 객관적인 음질 평가 척도를 추출하고, 추출된 객관적 음질 평가 척도를 이용하여 주관적 음질을 측정할 수 있는 음질 평가 방법을 제공하고자 함.
3. 본 발명의 해결 방법의 요지
본 발명은, 전역 스케일링을 수행하고, 시간 영역 데이터를 주파수 영역으로 바꾼 후에, 주파수 워핑을 수행하는 제 1 단계; 피치전력에너지기울기를 이용하여 국부 스케일링을 수행하고, 음의 세기 워핑을 수행하며, 피치전력에너지기울기를 이용하여 음의 크기 스케일링을 수행하는 제 2 단계; 및 잡음 방해 밀도를 구한후에, 원음과 왜곡음의 피치전력에너지기울기와 전역스케일링인자를 이용하여 비대칭프로세싱을 수행하고, 묵음간격가중을 수행하여 음질을 평가하는 제 3 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 이동통신 등의 음질 평가에 이용됨.

Description

주관적 음질과 상관도가 높은 객관 음질 평가 방법
본 발명은 이동통신망 등에서 생기는 다양한 잡음환경과 채널손상하에서 주관적 음질을 비교적 정확히 추정할 수 있는 객관적 음질 평가 척도를 사용하여 음질을 평가할 수 있도록 하는 음질 평가 방법에 관한 것이다.
주관적 음질 평가는 사람이 직접 듣고 평가하는 방법으로 이는 크게 명료도(intelligibility) 평가와 자연도(quality) 평가로 나누어진다. 다시 명료도 평가는 진단운검사(DRT : Diagnostic Rhyme Test)와 수정운검사(MRT : Modified Rhyme Test)로 나누어지고, 자연도 평가는 평균평가점검사(MOS : Mean Opinion Score test), 진단합격성평가검사(DAM : Diagnostic Acceptability Measure test) 및 A-B 선호도검사(A-B preference test)로 나누어진다.
진단합격성평가검사(DAM)는 고도로 훈련된 평가자들에게 음성신호, 배경 및 전체 효과등의 항목을 평가할 수 있도록 미리 준비된 문장을 들려주고, 0에서 100까지의 점수를 매기게 한 후 각 점수를 가중합(weighted sum)하는 방식이며, A-B 선호도검사(A-B preference test)는 두 문장을 무작위로 평가자에게 들려주어 어느 문장의 음질이 더 좋은지 평가하게 하는 방법이다.
평균평가점검사(MOS)는 5단계로 음질을 평가하는 방법으로 가장 좋은 상태를 5, 가장 나쁜 상태를 1로하여 평가하는 방법으로 (표 1)은 국제전신전화자문위원회(CCITT : International Telegraph and Telephone Consultative Committee)에 의한 평균평가점검사 평가등급 권고안이다.
등급 음질 왜곡정도
5 최상(Excellent) 감지할 수 없음(Imperceptible)
4 좋음(Good) 약간 감지할 수 있는, 그러나 귀에 거슬리지 않음(Just perceptible but not annoying)
3 보통(Fair) 감지할 수 있는, 그리고 약간 귀에 거슬림(Perceptible and slightly annoying)
2 나쁨(Poor) 귀에 거슬리는, 그러나 불쾌감을 일으키지 않음(annoying but not objectionable)
1 아주나쁨(Unsatisfactory) 매우 귀에 거슬리고, 불쾌감을 일으킴(Very annoy8ing and objectionalble)
객관 음질 평가 척도는 크게 4가지로 나누어진다. 첫번째는 시간영역에서 야기된 편차를 측정하는 방법으로 신호대잡음비(SNR : Signal to Noise Ratio), 분절신호대잡음비(SegSNR : Segmental Signal to Noise Ratio) 등이 이에 해당하고, 두번째는 선형예측부호화법(LPC : Linear Predictive Coding)에 기초한 방법으로 선형예측부호화법, LPC-CD(Linear Predictive Coding-Cepstrum Distance), 대수선형예측부호화법(Log LPC) 등이 있으며, 세번째는 주파수 영역에서의 편차를 측정하는 방법으로 스펙트럼거리(SD : Spectral Distance), 주파수가중스펙트럼거리(FWSD : Frequency Weighted Spectral Distance), 에너지가중스펙트럼거리(EWSD : Energy Weighted Spectral Distance) 등이 있으며, 네번째는 사람 귀의 청각 특성을 모델링하여 측정하는 방법으로서 바크스펙트럼거리(BSD : Bark Spectral Distance), 멜스펙트럼거리(MSD : Mel Spectral Distance) 및 최근 국제전기통신연합(ITU-T : International Telecommunication Union)의 보코더 성능평가를 위한 감지음성품질평가검사(PSQM : Perceptual Speech Quality Measure test) 등이 있다.
이러한 척도들은 응용되는 시스템에 따라 그 성능이 다르게 나타나지만 사람 귀의 청각 모델을 사용한 방법이 다른 방법보다 주관적 음질과의 상관도가 높다고 알려져 있다.
그리고, 서비스 제공회사 입장에서 시스템의 음성 품질을 지속적으로 감시하여 최상의 품질을 제공하는 것은 매우 중요하다. 그러나, 이것을 사람에 의한 주관적 평가로 수행한다면 매우 수고스럽고 비용이 많이 소요될 것이다. 따라서, 다양한 잡음환경과 채널손상하에서 주관적(subjective) 음질을 비교적 정확히 추정할 수 있는 객관적인 척도(objective measure)에 의한 음질을 평가하는 방법의 개발이 요구되어 왔다.
따라서, 상기한 바와 같은 요구에 부응하기 위하여 안출된 본 발명은, 이동통신 등의 음질을 평가하는데 있어서, 다양한 잡음환경과 채널손상하에서 주관적 음질을 비교적 정확히 추정할 수 있는 객관적인 음질 평가 척도를 추출하고, 추출된 객관적 음질 평가 척도를 이용하여 주관적 음질을 측정할 수 있도록 하는 음질 평가 방법을 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 음질 평가 장치의 구성도.
도 2 는 본 발명의 일실시예에 따른 주관적 음질과 상관도가 높은 객관 음질 평가 방법의 흐름도.
도 3 은 도 2 의 국부 스케일링 과정의 흐름도.
도 4 는 도 2 의 음의 크기 스케일링 과정의 흐름도.
도 5 는 도 2 의 비대칭 프로세싱 과정의 흐름도.
도 6 은 본 발명의 일실시예에 따른 잡음방해값과 평균평가점검사 평가등급과의 상관에 대한 일예시도.
* 도면의 주요 부분에 대한 부호의 설명
110 : 이동모듈 111, 121 : 출력부
112, 122 : 입력부 113, 124 : 저장부
114, 123 : 중앙처리부
115, 116, 125, 126 : 아날로그/디지털 변환부
120 : 유선모듈 127 : 유선전화 접속부
130 : 이동전화 기지국 131 : 이동전화 교환국
132 : 공중전화 교환국 133 : 이동전화 단말장치
상기 목적을 달성하기 위한 본 발명의 방법은, 음질 평가 장치에 적용되는 음질 평가 방법에 있어서, 원음과 왜곡음의 전역 스케일링을 수행하고, 원음과 왜곡음의 시간 영역 데이터를 주파수 영역으로 바꾼 후에, 주파수 워핑을 수행하는 제 1 단계; 원음과 왜곡음의 피치전력에너지기울기를 이용하여 국부 스케일링을 수행하고, 음의 세기 워핑을 수행하며, 원음과 왜곡음의 피치전력에너지기울기를 이용하여 음의 크기 스케일링을 수행하는 제 2 단계; 및 잡음 방해 밀도를 구한후에, 원음과 왜곡음의 피치전력에너지기울기와 전역 스케일링 인자를 이용하여 비대칭 프로세싱을 수행하고, 묵음간격가중을 수행하여 음질을 평가하는 제 3 단계를 포함하여 이루어지는 것을 특징으로 한다.
이하, 도 1 내지 6 을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
주관적 음질을 비교적 정확히 추정할 수 있는 객관 음질 평가 척도로는 사람 귀의 청각 모델을 이용한 방법이 적당하다. 실제 연구 결과도 같은 결과를 보여 준다.
이하, 사람귀의 청각 모델을 이용한 방법중 국제전기통신연합에서 권고한 감지음성품질평가방법을 근간으로 하여 이동전화망에서 생기는 다양한 잡음 및 왜곡을 정확히 평가하는 새로운 방식의 음질평가방법(SKQM : SK speech Quality Measure)을 기술한다.
감지음성품질평가방법은 사람 귀의 청각 특성을 모델링한 것으로 크게 3가지 특징을 갖는다. 첫번째는 사람 귀의 주파수 민감도를 반영하여 주파수 영역을 임계 대역(critical band) 영역으로 변환하는 주파수 워핑(frequency warping)이고, 두번째는 사람의 소리 크기에 대한 민감도가 주파수에 따라 다른 것을 반영한 음의 세기 워핑(intensity warping)이다. 마지막은 사람 귀의 비대칭성을 모델링한 비대칭 프로세싱으로 원음에서 소리가 소실된 때보다 잡음이 첨가되었을 때 더 민감하게 반응하는 것을 반영한다.
새로운 방식의 음질평가방법은 이러한 3가지의 사람 귀의 청각 특성을 고려하고, 또한 이동전화망에서 생기는 다양한 잡음과 음성소실 및 왜곡을 효과적으로 평가하기 위해서 위의 감지음성품질평가방법에 첨가하여 3가지 스케일링(scaling) 방법을 사용한다.
첫번째는 국부 스케일링(local scaling) 방법으로 원음과 왜곡음의 프레임 에너지 차이가 특정 범위내이면 왜곡음에 국부 스케일링(local scaling)을 해주어 원음과 비슷하게 맞춰주나 특정 범위 밖이면 그 차이를 더욱 크게 하여 주관적 음질 척도인 평균평가점검사(MOS)와의 상관도를 높게 하는 방법을 사용한다.
두번째는 음의 크기 스케일링(loudness scaling) 방법으로 음의 세기 워핑(intensity warping) 후에 국부 스케일링(local scaling) 결과를 참조하여 국부 스케일링(local scaling)시 원음과 왜곡음의 차이를 더 크게 한 경우와 초기 음의 크기 스케일링 인자(loudness scaling factor)가 특정 범위 밖인 경우에는 국부 스케일링(local scaling) 효과를 유지하기 위해 음의 크기 스케일링(loudness scaling)을 적용하지 않고 그 이외의 경우에는 음의 크기 스케일링(loudness scaling)을 적용하여 이동전화망에서의 음의 소실 또는 잡음을 효과적으로 모델링하는 방법이다.
마지막 세번째는 사람 귀의 비대칭성을 모델링하는 감지음성품질평가방법(PSQM)을 수정하여 주관적 음질 척도인 평균평가점검사(MOS)와의 상관도를 높게하는 방법이다.
사람의 청각 특성은 주파수에 따라 민감도가 다르며 800 Hz 이상의 주파수에 대해서는 주파수가 증가함에 따라 청각의 분해능이 감소하고, 중간 주파수 영역에서 보다 민감하다. 이러한 특성을 반영한 것이 임계대역(critical band)에 의한 주파수 워핑(frequency warping)이고, 소리 크기 민감도를 반영한 것이 음의 세기 워핑(intensity warping)이며 사람 귀의 비대칭성을 모델링한 것이 비대칭 프로세싱(asymmetry processing)이다.
본 발명에서 명명된 새로운 방식의 음질평가방법은 위와 같은 감지음성품질평가방법의 3가지 특징과 국부 스케일링(local scaling), 음의 크기 스케일링(loudness scaling) 및 비대칭 프로세싱(asymmetry processing) 등을 고려하여 주관적 음질 평가 척도인 평균평가점검사(MOS)와 상관도를 높게하는 방법이다.
도 1 은 본 발명이 적용되는 음질 평가 장치의 구성도이다.
도면에 도시된 바와 같이, 음질 평가 장치는, 이동모듈(110), 유선모듈(120), 이동전화기지국(130), 이동전화교환국(131), 공중전화교환국(132) 및 이동전화단말장치(133)를 구비하고 있다.
그리고, 이동모듈(110)은 출력부(111), 입력부(112), 저장부(113), 중앙처리부(114), 아날로그/디지털변환부(115) 및 디지털/아날로그변환부(116)를 구비하고 있다.
또한, 유선모듈(120)은 출력부(121), 입력부(122), 중앙처리부(123), 저장부(124), 아날로그/디지털변환부(125), 디지털/아날로그변환부(126) 및 유선전화접속부(127)를 구비하고 있다.
이제, 본 발명이 적용되는 음질 평가 장치의 동작을 상세히 살펴보면 다음과 같다.
이동모듈(110)의 저장부(113)와 유선모듈(120)의 저장부(124)에는 원음을 저장한다.
먼저 이동모듈(110)의 저장부(113)에 저장된 원음은 중앙처리부(114)를 거치고, 디지털/아날로그변환부(116)을 거쳐, 이동전화단말장치(133)로 전송된다.
계속하여, 이동전화단말장치(133)는 원음을 이동전화기지국(130)과, 이동전화교환국(131) 및 공중전화교환국(132)을 거쳐 유선모듈(120)의 유선전화접속부(127)로 전송한다.
유선전화접속부(127)는 수신된 음성을 아날로그/디지털변환부(125)를 거쳐 디지털 신호로 변환한 후에, 중앙처리부(123)로 전송한다.
중앙처리부(123)는 수신한 음성을 저장부(124)에 일시저장한 후에, 원음과 비교하여 새로운 방식의 음질평가를 수행하고, 그 결과를 출력부(121)로 출력한다.
또한, 역으로 유선모듈(121)의 중앙처리부(123)는 저장부(124)로부터 저장되어 있는 원음을 읽어와서 디지털/아날로그변환부(126)를 거쳐 아날로그 신호로 변환한 후에, 유선전화접속부(127)로 전송한다.
계속하여, 유선전화접속부(127)는 입력받은 아날로그 음성신호를 공중전화교환국(132), 이동전화교환국(131), 이동전화기지국(130)을 통해 이동전화단말장치(133)로 전송한다.
이동전화단말장치(133)는 음성을 수신하면 이동모듈(110)의 아날로그/디지털 변환부(115)에서 디지털로 변환한 후에, 중앙처리부(114)로 전송한다.
중앙처리부(114)는 입력받은 음성을 일시저장한 후에, 원음과 비교하여 새로운 방식의 음질평가를 수행하고, 그 결과를 출력부(111)로 출력한다.
도 2 는 본 발명의 일실시예에 따른 주관적 음질과 상관도가 높은 객관 음질 평가 방법의 흐름도이다.
본 발명에서 xi[n], yi[n]은 각각 8KHz 샘플링(sampling)된 원음과 수신된 왜곡음을 의미하고 i는 i번째 프레임, n은 n번째 샘플을 의미한다. 즉 xi[n], yi[n]은 각각 원음과 왜곡음의 i번째 프레임 n번째 샘플을 의미한다.
다음은 각종 변수 및 상수 정의이다.
n = 시간영역 샘플 번호
i = 프레임 번호
k = 고속퓨리에변환후 주파수 번호
j = 임계대역(critical band) 번호
Nb= 임계대역(critical band) 수 = 56
Nf= 프레임 샘플 수 = 256
Δb = 임계대역(critical band) 대역폭 = 0.312
새로운 방식의 음질평가방법은 모두 프레임 단위로 이루어진다. 한 프레임은 256샘플로 구성되고 한 프레임 계산후 다음 프레임은 이전 프레임과 50%중첩된다.
따라서 현 프레임과 다음 프레임은 128샘플 만큼 차이가 난다.
도면에 도시된 바와 같이, 주관적 음질과 상관도가 높은 객관 음질 평가 방법은, 먼저 원음과 왜곡음을 샘플링한 후에(210), 원음과 왜곡음의 시간축 동기화를 수행한다(211).
원음과 왜곡음의 시간축 동기는 원음에 대해 왜곡음을 이동시키면서 동기를 맞춘다.
그리고, 시간축 동기가 맞은 다음에는 원음과 왜곡음의 전체적인 전력을 같게하기 위한 전역 스케일링(global scaling)을 수행한다(212). 전역 스케일링(Global scaling)은 원음의 전체 전력과 왜곡음의 전체 전력을 같게 하는 것으로 전역 스케일링 인자를 왜곡음에 (수학식 2)에서 처럼 곱하여 수행한다.
전역 스케일링 인자(global scaling factor) Sglobal은 다음 (수학식 1)로 구한다.
계속하여, 전역 스케일링(Global scaling)이 이루어진 다음에는 시간영역 데이터 xi[n], yi[n]을 시간-주파수 영역으로 변환한다. 시간영역을 시간-주파수 영역으로 바꾸는 것은 시간영역 데이터에 대해 먼저 해밍 윈도우(Hamming window)를 수행하고(213), 고속퓨리에변환(FFT : Fast Fourier Transform)을 수행함으로서(214) 이루어진다.
해밍 윈도우(Hamming window)는 원음과 왜곡음에 (수학식 3)과 같이 해밍 윈도우(Hamming window) 함수 h[n]을 곱함으로서 이루어진다.
(수학식 3)에서 해밍 윈도우(Hamming window) 함수 h[n]은 다음 (수학식 4)와 같다.
그리고, (수학식 5)는 퓨리에변환후에 함수를 나타낸다.
계속하여, 시간영역 데이터 xi[n], yi[n]을 시간-주파수 영역으로 변환한 후에는 원음과 왜곡음의 샘플스펙트럼전력밀도(Sampled Spectral Power Density)를 구한다(215).
샘플스펙트럼전력밀도(SPD)는 시간-주파수 영역 데이터 Fxi(k), Fyi(k)을 제곱함으로써 (수학식 6)을 통하여 얻는다.
위식에서 Re는 실수부분을, Im은 허수부분을 의미한다.
계속하여, 샘플스펙트럼전력밀도를 구한 후에, 주파수 워핑을 수행한다(216).
사람 귀의 주파수 민감도를 반영하여 주파수 영역을 임계대역(critical band) 영역으로 변환하는 주파수 워핑(frequency warping)은 (수학식 7)과 같다.
주파수 영역 전력 Pxi[k], Pyi[k]을 임계대역(critical band) 영역으로 변환한 후의 전력 FWxi[j], FWyi[j]를 피치전력세기(pitch power intensity)라 한다.
(수학식 7)에서 Cp는 교정인자(calibration factor)로서 (수학식 8)과 같이 정의된다.
그러나, 보통 교정 인자(calibration factor) Cp는 (수학식 9)의 다음 값으로 주어진다.
또한 Δfj는 (표 2), (표 3) 및 (표 4)의 임계대역(critical band) j의 헤르쯔대역폭(Hertz bandwidth)이고, Δb는 임계대역(critical band) 대역폭으로서 0.312이다. CBlast[j] 및 CBfirst[j]는 (표 2), (표 3) 및 (표 4)와 같다.
대역번(Bandnumber)j 상위 주파수(Upperfrequency)[Hz] 대역에서 첫 번째 퓨리에변환값(First FFT Binin band j)CBfirst 대역에서 마지막 퓨리에변환값(Last FFT Binin band j)CBlast 청취 문턱값(Hearing threshold)P0
0 15.6 0 0 -
1 46.9 1 1 3.89E+07
2 78.1 2 2 1.12E+06
3 109.4 3 3 1.26E+05
4 140.6 4 4 1.86E+04
5 171.9 5 5 6.17E+03
6 203.1 6 6 2.29E+03
7 234.4 7 7 9.33E+02
8 265.6 8 8 4.37E+02
9 296.9 9 9 2.29E+02
10 328.1 10 10 1.29E+02
11 359.4 11 11 7.76E+01
대역 번호(Band number)j 상위 주파수(Upperfrequency)[Hz] 대역에서 첫번째 퓨리에변환값(First FFT Binin band j)CBfirst 대역에서 마지막 퓨리에변환값(Last FFT Binin band j)CBlast 청취 문턱값(Hearing threshold)P0
12 390.6 12 12 4.27E+01
13 421.9 13 13 3.02E+01
14 453.1 14 14 2.19E+01
15 484.8 15 15 1.66E+01
16 519.2 16 16 1.32E+01
17 553.6 17 17 1.07E+01
18 590.8 18 18 8.91E+00
19 631.2 19 20 7.59E+00
20 672.9 21 21 6.31E+00
21 716.6 22 22 5.62E+00
22 760.4 23 24 5.13E+00
23 804.6 25 25 4.68E+00
24 851.4 26 27 4.37E+00
25 898.3 28 28 4.17E+00
26 947.0 29 30 4.07E+00
27 997.0 31 31 3.98E+00
28 1051 32 33 3.98E+00
29 1108 34 35 3.98E+00
30 1168 36 37 3.98E+00
31 1231 38 39 3.98E+00
32 1297 40 41 4.07E+00
33 1366 42 43 4.27E+00
34 1437 44 45 4.47E+00
Bandnumberj Upperfrequency[Hz] First FFT Binin band j,CBfirst Last FFT Binin band j,CBlast Hearing threshold,P0
35 1509 46 48 4.68E+00
36 1582 49 50 5.01E+00
37 1658 51 53 5.37E+00
38 1736 54 55 5.62E+00
39 1817 56 58 5.89E+00
40 1902 59 60 6.31E+00
41 1991 61 63 6.61E+00
42 2084 64 66 6.92E+00
43 2184 67 69 7.24E+00
44 2289 70 73 7.59E+00
45 2401 74 76 7.76E+00
46 2520 77 80 7.94E+00
47 2647 81 84 7.94E+00
48 2781 85 88 7.94E+00
49 2922 89 93 7.94E+00
50 3069 94 98 8.13E+00
51 3225 99 103 8.13E+00
52 3392 104 108 8.32E+00
53 3572 109 114 8.32E+00
54 3765 115 120 8.32E+00
55 3971 121 127 8.32E+00
각 프레임의 피치전력(pitch power)에너지는 피치전력세기(pitch power intensity)의 합으로서 (수학식 10)과 같다.
(수학식 10)에서 Nb는 임계대역(critical band) 수이다.
계속하여, 주파수 워핑을 수행한 후에, 국부 스케일링을 수행하며(217), 국부 스케일링은 국부스케일링인자(local scaling factor) Li를 왜곡음의 피치전력세기에 (수학식 11)과 같이 곱하여 수행한다.
계속하여, 음의 세기 워핑을 수행한다(217). 음의 세기 워핑(Intensity warping)은 소리 크기에 대한 민감도가 주파수에 따라 다른 것을 반영한 것으로 (수학식 12)와 같다.
(수학식 12)에서 IWxi[j], IWyi[j]가 0보다 작으면 0으로 하고, Po[j]는 (표 2)의 청취 문턱값(hearing threshold)으로서 사람 귀의 주파수에 따른 소리 크기 문턱값(threshold)이며 Cw는 음의세기워핑교정인자(intensity warping calibration factor)로서 (수학식 13)과 같이 정의 된다.
음의세기워핑교정인자(Intensity warping calibration factor) Cw는 240.05를 사용한다.
음의 세기 워핑(Intensity warping)한 신호 IWxi[j], IWyi[j]를 압축음의 세기강도( compressed loudness intensity)라 하고 압축음의 세기강도(compressed loudness intensity)를 전 임계대역(critical band)에 대해 합한 값을 압축손(Compressed Sone)이라 하고 (수학식 14)와 같다.
계속하여, 음의 세기 워핑 수행후에, 음의 크기 스케일링을 수행한다(219). 음의 크기 스케일링은 음의세기스케일링인자(loudness scaling factor) LSi를 (수학식 15)와 같이 왜곡음에 곱하여 수행한다.
계속하여, 잡음방해밀도를 구한다(220). 잡음방해밀도(noise disturbance density) NDi[j]는 압축음의 세기강도(compressed loudness intensity) IWxi[j]와 IPyi[j]의 차이로서 (수학식 16)과 같다.
계속하여, 비대칭 프로세싱을 수행한다(221). 비대칭 프로세싱은 원음에서 일부 음이 소실되었을 때보다 원음에 다른 성분이 추가되었을 때 더 민감하게 반응하는 사람 귀의 비대칭성을 고려한 것이다. 비대칭성은 묵음구간에서 두드러진다.
즉, 원음에서 일부 시간-주파수 성분이 소실되더라도 여전히 상관성을 갖는 음성인 반면 원음에 새로운 비상관성의 시간-주파수 성분이 첨가된다면 사람 귀는 더 민감하게 반응한다.
비대칭프로세싱인자(Asymmetry processing factor)를 AEi[j]를 고려하여 잡음방해값(noise disturbance) NDi를 계산하면 (수학식 17)과 같다.
계속하여, 묵음간격가중을 수행한다(222). 묵음간격가중은 음성의 묵음구간이 주관적 음질에 영향을 미치기 때문에 이것에 대해 고려해주는 것이다. 음성의 묵음은 원음의 프레임 피치전력(pitch power)에너지 FWxi가 70SPL(Sound Pressure Level)이하일 때로 이는 곧 원음의 프레임 피치전력(pitch power)에너지 FWxi가 107보다 작을 때이다. 따라서 활성(active) 프레임은 원음의 피치전력(pitch power) 에너지 FWxi가 70SPL을 초과한 프레임이고 묵음(silent) 프레임은 원음의 피치전력(pitch power) 에너지 FWxi가 70SPL을 초과하지 못한 프레임이다.
Nact을 활성(active) 프레임의 수라 하고 Nsil을 묵음(silent) 프레임의 수라 하면 활성(active) 프레임의 평균 잡음 음의 세기(noise loudness) NLact와 묵음(silent) 프레임의 평균 잡음 음의 세기(noise loudness) NLsil은 (수학식 18)과 같다.
묵음은 그 길이에 따라 미치는 영향이 다르다. 원음이 묵음을 포함하고 있지 않다면 음질에 미치는 영향이 없고 원음이 묵음을 포함하고 있다면 묵음의 길이 만큼 영향을 미친다. 다음 (수학식 19)는 이러한 묵음 길이에 대한 가중치 Wsil를 고려한 잡음방해값(noise disturbance)이다.
(수학식 19)에서 Psil은 묵음 프레임의 비율, Pact는 활성(active) 프레임의 비율로서 Psil에 Pact을 더하면 1이 된다.
또한 묵음 길이에 대한 가중치 Wsil은 보통 0.2를 사용하고 Wact는 (수학식 20)과 같다.
그리고, 잡음방해값을 구한후에, 잡음방해값과 평균평가점검사의 평가등급과의 상관도를 참조하여 음질을 평가한 후에(223), 종료한다.
도 3 은 도 2 의 국부 스케일링 과정의 흐름도이다.
새로운 방식의 음질평가방법이 감지음성품질평가방법과 다른 첫번째 특징중 하나인 국부 스케일링(local scaling)은 주관적 음질 척도인 평균평가점검사(MOS)와의 상관도를 높이기 위해 원음과 왜곡음의 차이가 특정 범위 내일 때는 에너지 차이를 보상하지만 특정 범위를 벗어난 경우에는 그 차이를 더욱 크게 하여 주관적 음질이 객관 음질 척도에 반영되게 하는 것이다.
도면에 도시된 바와 같이, 국부 스케일링 과정은, 먼저 각 프레임 피치전력세기(pitch power intensity) 차이를 보상해주기 위한 초기 국부스케일링인자(local scaling factor) Li(orig)를 (수학식 21)을 사용하여 구하고(310), 원음과 왜곡음의 피치전력에너지기울기를 (수학식 22)를 사용하여 구한다(311).
(수학식 22)에서 preFWxi, preFWyi는 이전 프레임 피치전력(pitch power)에너지이고 FWxi, FWyi는 현 프레임 피치전력(pitch power)에너지이며 SXi,SYi는 각각 원음과 왜곡음의 피치전력 (pitch power)에너지기울기이다.
계속하여, 왜곡음의 피치전력에너지기울기 SYi가 원음의 피치전력(pitch power)에너지기울기 SXi보다 C1배 보다 작거나 C2배 보다 큰지를 판단한다(312).
판단 결과, 크거나 작으면 초기 국부스케일링인자를 왜곡음에 곱하여, 국부 스케일링을 수행하고(313), 작거나 크면 초기 국부스케일링인자(local scaling factor) Li(orig)가 1.0보다 큰지를 판단한다(314).
판단 결과, 작거나 같은 경우에는 초기 국부스케일링인자(local scaling factor) Li(orig)에 C4를 더하여 국부스케일링인자 Li를 구하고(317), 왜곡음에 국부스케일링인자를 곱하여 국부 스케일링을 수행하며(318), 큰 경우에는 초기 국부스케일링인자 Li(orig)에 C3를 뺀 값을 국부스케일링인자로 한 후에(315), 국부스케일링인자가 0.0보다 작거나 같은지를 판단한다(316).
판단 결과, 작거나 같으면, 초기 국부스케일링인자를 왜곡음에 곱하여 국부 스케일링을 수행하고(313), 크면 왜곡음에 국부스케일링인자를 곱하여 국부 스케일링을 수행한다(318).
여기서 왜곡음의 피치전력(pitch power)에너지기울기가 원음의 피치전력 (pitch power)에너지기울기보다 C1배 보다 작은 경우는 왜곡음에서 프레임 에러가 발생하여 음성이 소실된 경우를 모델링하기 위한 것이고 왜곡음의 피치전력(pitch power)에너지기울기가 원음의 피치전력(pitch power)에너지기울기보다 C2배 보다 큰 경우는 왜곡음에 잡음이 첨가된 경우를 모델링하기 위한 것이다. 이렇게 함으로서 이동전화망에서 생기는 프레임 에러에 의한 음의 소실과 잡음에 의한 영향을 객관 음질 평가에 반영한다.
C1, C2, C3, C4실험예는 (수학식 23)과 같다.
C1= 0.02
C2= 3.5
C3= 10.0
C4= 10.0
도 4 는 도 2 의 음의 크기 스케일링 과정의 흐름도이다.
새로운 방식의 음질평가방법의 음의 크기 스케일링(loudness scaling)은 국부 스케일링(local scaling) 결과 및 초기 음의세기스케일링인자(loudness scaling factor) LSi(orig)을 참조하여 국부 스케일링(local scaling)시 원음과 왜곡음의 차이를 더 크게 한 경우와 초기 음의세기스케일링인자(loudness scaling factor) LSi(orig)가 특정 범위 밖인 경우에는 국부 스케일링(local scaling) 효과를 유지하기 위해 음의 크기 스케일링(loudness scaling)을 적용하지 않고 그 이외의 경우에는 음의 크기 스케일링(loudness scaling)을 적용하여 주관적 음질 평가 척도인 평균평가점검사(MOS)와의 상관도를 높게하는 방법이다.
도면에 도시된 바와 같이, 음의 크기 스케일링 과정은, 먼저 초기 음의 크기스케일링인자를 (수학식 25)를 사용하여 구한 후에(410), 왜곡음 피치전력에너지기울기 SYi가 SXi배보다 C1배 작거나 C2배 큰 경우인지를 판단한다(411).
그리고, 초기 음의세기스케일링인자를 구하기 전에, 압축손을 구하여야 하는데, 음의 세기 워핑(Intensity warping) 신호 IWxi[j], IWyi[j]를 압축음의 세기강도(compressed loudness intensity)라 하면, 압축손(Compressed Sone)은 압축음의 세기강도를 전 임계대역(critical band)에 대해 합하여 구하며, (수학식 24)가 이를 나타낸다.
(수학식 25)에서 LSi(orig)는 초기 음의세기스케일링인자(loudness scaling factor)를 나타낸다.
판단 결과, 작거나 크면 음의 세기스케일링인자를 1.0로 하고(414), 음의 크기 스케일링인자를 왜곡음에 곱하며(415), 크거나 작으면 임의의 인자 C6보다 작고 임의의 인자 C5보다 큰지를 판단한다(412).
판단 결과, 작거나 크면 초기 음의 세기스케일링인자를 왜곡음에 곱하고(413), 크거나 작으면 음의 세기스케일링인자를 1.0으로 하고(414), 음의 세기스케일링인자를 왜곡음에 곱한다(415).
C1, C2, C5, C6 실험예는 (수학식 26)과 같다.
C1= 0.02
C2= 3.5
C5= 0.4
C6= 1.6
도 5 는 도 2 의 비대칭 프로세싱 과정의 흐름도이다.
사람 귀의 특성중의 하나는 원음에서 일부 음이 소실되었을 때보다 원음에 다른 성분이 추가되었을 때 더 민감하게 반응한다. 이러한 사람 귀의 비대칭성을 고려한 것이 비대칭 프로세싱이다. 비대칭성은 묵음구간에서 두드러진다. 즉 원음에서 일부 시간-주파수 성분이 소실되더라고 여전히 상관성을 갖는 음성인 반면 원음에 새로운 비상관성의 시간-주파수 성분이 첨가된다면 사람 귀는 더 민감하게 반응한다.
도면에 도시된 바와 같이, 비대칭 프로세싱 과정은, 초기 비대칭프로세스인자를 (수학식 27)을 사용하여 구한 후에(510), 원음과 왜곡음의 피치전력세기가 모두 청취 문턱값보다 20데시벨(db) 이상 큰지를 판단한다(511).
판단 결과, 크지 않으면, 초기 비대칭 프로세싱 인자를 1.0으로 한 후에(516), 잡음방해값 NDi를 (수학식 28)을 사용하여 계산하고(515), 종료하며, 크면 초기국부스케일링인자가 임의의 상수 C7보다 크고 임의의 상수 C8보다 작은지를 판단한다(512).
판단 결과, 크거나 작으면, 초기 비대칭프로세싱인자를 비대칭인자로 한 후에(517), 비대칭인자가 2.0보다 큰지를 판단한다(518).
판단 결과, 크지 않으면 잡음방해값 NDi를 (수학식 28)을 사용하여 계산하고(515), 종료하며, 크면 비대칭프로세싱인자를 2.0으로 하고(519), 잡음방해값 NDi를 (수학식 28)을 사용하여 계산한 후에(515), 종료한다.
한편, 초기 국부스케일링인자가 임의의 상수 C7보다 크고 임의의 상수 C8보다 작은지의 판단 결과, 작거나 크면, 전역스케일링인자 Sglobal이 임의의 상수 C9보다 큰지를 판단한다(513).
판단 결과, 크면 비대칭프로세싱인자를 2.0으로 한 후에(519), 잡음방해값 NDi를 (수학식 28)을 사용하여 계산하고(515), 종료하며, 크지 않으면 비대칭프로세싱인자를 임의의 상수 C10로 한 후에(514), 잡음방해값 NDi를 (수학식 28)을 사용하여 계산하고(515), 종료한다.
한편, C7, C8, C9, C10의 실험예는 (수학식 29)와 같다.
C7= 0.03
C8= 30.0
C9= 1.5
C10= 1.4
도 6 은 본 발명의 일실시예에 따른 잡음방해값과 평균평가점검사 평가등급과의 상관에 대한 일예시도이다.
도면에 도시된 바와 같이, 가로축은 묵음간격가중된 잡음방해값을 나타내고, 세로축은 평균평가점검사 평가등급을 나타내며, 그래프는 잡음방해값과 평균평가점검사 평가등급이 반비례 관계에 있음을 나타내고, 음질이 나쁜 경우에 더 세밀하게 반응하도록 되어 있다.
상기 그래프의 상관도는 0.96으로서 상관도 R은 (수학식 30)를 통하여 얻게 된다.
(수학식 30)에서 Ave는 평균평가점검사 평가등급(MOS) 평균을, MOSm는 m번째 음성 샘플 평균평가점검사 평가등급(MOS)값이고, PMOSm는 m번째 샘플에 대한 예측 평균평가점검사 평가등급(Predictive MOS)으로서 (수학식 31)과 같이 3차식으로 계산된다.
(수학식 31)에서 계수 a, b, c, d는 3차식 곡선으로 부터 구한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은, 가입자 체감 음질과 밀접한 관계가 있는 객관적 음질 평가 방법에 관한 것으로, 발명실시시 효과적인 가입자 체감 음질 평가가 가능하고, 가입자 체감 음질 평가를 사람이 직접하는 대신 자동적으로 이루어지도록 함으로 신뢰성있는 객관적인 음질 평가가 가능할 뿐만 아니라 음질 평가 비용 절감 효과 및 음질 평가에 있어서 사람이 직접하는 번거로움 등이 제거되는 효과가 있다.

Claims (4)

  1. 음질 평가 장치에 적용되는 음질 평가 방법에 있어서,
    원음과 왜곡음의 전역 스케일링을 수행하고, 원음과 왜곡음의 시간 영역 데이터를 주파수 영역으로 바꾼 후에, 주파수 워핑을 수행하는 제 1 단계;
    원음과 왜곡음의 피치전력에너지기울기를 이용하여 국부 스케일링을 수행하고, 음의 세기 워핑을 수행하며, 원음과 왜곡음의 피치전력에너지기울기를 이용하여 음의 크기 스케일링을 수행하는 제 2 단계; 및
    잡음 방해 밀도를 구한후에, 원음과 왜곡음의 피치전력에너지기울기와 전역 스케일링 인자를 이용하여 비대칭 프로세싱을 수행하고, 묵음간격가중을 수행하여 음질을 평가하는 제 3 단계
    를 포함하여 이루어진 음질 평가 방법.
  2. 제 1 항에 있어서,
    상기 제 2 단계의 국부 스케일링 수행 과정은,
    초기 국부스케일링인자를 구하고, 원음과 왜곡음의 피치전력에너지기울기를 를 구하는 제 4 단계;
    왜곡음의 피치전력에너지기울기가 원음의 피치전력에너지기울기보다 제1 상수배 작거나 제2 상수배 큰지를 판단하는 제 5 단계;
    상기 제 5 단계의 판단 결과, 크거나 작으면 초기 국부스케일링인자를 왜곡음에 곱하고, 작거나 크면 초기 국부스케일링인자가 제3 상수보다 큰지를 판단하는 제 6 단계;
    상기 제 6 단계의 판단 결과, 작거나 같은 경우에는 초기 국부스케일링인자에 제4 상수를 더하여 국부스케일링인자를 구하고, 왜곡음에 국부스케일링인자를 곱하는 제 7 단계;
    상기 제 6 단계의 판단 결과, 큰 경우에는 초기 국부스케일링인자에 제5 상수를 뺀 값을 국부스케일링인자로 한 후에, 국부스케일링인자가 제6 상수보다 작거나 같은지를 판단하는 제 8 단계; 및
    상기 제 8 단계의 판단 결과, 작거나 같으면, 초기 국부스케일링인자를 왜곡음에 곱하고, 크면 왜곡음에 국부스케일링인자를 곱하는 제 9 단계
    를 포함하여 이루어진 음질 평가 방법.
  3. 제 1항 또는 제 2 항에 있어서,
    상기 제 2 단계의 음의 크기 스케일링 수행 과정은,
    초기 음의 크기 스케일링인자를 구한 후에, 왜곡음 피치전력에너지기울기가 원음 피치전력에너지기울기보다 상기 제1 상수배 작거나 상기 제2 상수배 큰 경우인지를 판단하는 제 10 단계;
    상기 제 10 단계의 판단 결과, 작거나 크면 음의 크기 스케일링인자를 상기 제3 상수로 하고, 음의 크기 스케일링인자를 왜곡음에 곱하는 제 11 단계;
    상기 제 10 단계의 판단 결과, 크거나 작으면 제7 상수보다 작고 제8 상수보다 큰지를 판단하는 제 12 단계;
    상기 제 12 단계의 판단 결과, 작거나 크면 초기 음의 크기 스케일링인자를 왜곡음에 곱하는 제 13 단계; 및
    상기 제 12 단계의 판단 결과, 크거나 작으면 음의 크기 스케일링인자를 상기 제3 상수로 하고, 음의 크기 스케일링인자를 왜곡음에 곱하는 제 14 단계
    를 포함하여 이루어진 음질 평가 방법.
  4. 제 3 항에 있어서,
    상기 제 3 단계의 비대칭 프로세싱 수행 과정은,
    초기 비대칭프로세스인자를 구한 후에, 원음 또는 왜곡음의 피치전력세기가 청취 문턱값보다 소정값 이상 큰지를 판단하는 제 15 단계;
    상기 제 15 단계의 판단 결과, 크지 않으면, 초기 비대칭프로세싱인자를 상기 제3 상수로 한 후에, 잡음방해값을 구하는 제 16 단계;
    상기 제 15 단계의 판단 결과, 크면 초기국부스케일링인자가 제9 상수보다 크고 제10 상수보다 작은지를 판단하는 제 17 단계;
    상기 제 17 단계의 판단 결과, 크거나 작으면, 초기 비대칭프로세싱인자를 비대칭인자로 한 후에, 비대칭인자가 제11 상수보다 큰지를 판단하는 제 18 단계;
    상기 제 18 단계의 판단 결과, 크지 않으면 잡음방해값을 계산하고, 크면 비대칭프로세싱인자를 제11 상수로 하고, 잡음방해값을 계산하는 제 19 단계;
    상기 제 17 단계의 판단 결과, 작거나 크면, 전역스케일링인자가 제12 상수보다 큰지를 판단하는 제 20 단계;
    상기 제 20 단계의 판단 결과, 크면 비대칭프로세싱인자를 상기 제11 상수로 한 후에, 잡음방해값을 계산하는 제 21 단계; 및
    상기 제 20 단계의 판단 결과, 크지 않으면 비대칭프로세싱인자를 제13 상수로 한 후에, 잡음방해값을 계산하는 제 22 단계
    를 포함하여 이루어진 음질 평가 방법.
KR1019980017088A 1998-05-13 1998-05-13 주관적 음질과 상관도가 높은 객관 음질 평가 방법 KR100275478B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980017088A KR100275478B1 (ko) 1998-05-13 1998-05-13 주관적 음질과 상관도가 높은 객관 음질 평가 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980017088A KR100275478B1 (ko) 1998-05-13 1998-05-13 주관적 음질과 상관도가 높은 객관 음질 평가 방법

Publications (2)

Publication Number Publication Date
KR19990084985A KR19990084985A (ko) 1999-12-06
KR100275478B1 true KR100275478B1 (ko) 2000-12-15

Family

ID=19537272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980017088A KR100275478B1 (ko) 1998-05-13 1998-05-13 주관적 음질과 상관도가 높은 객관 음질 평가 방법

Country Status (1)

Country Link
KR (1) KR100275478B1 (ko)

Also Published As

Publication number Publication date
KR19990084985A (ko) 1999-12-06

Similar Documents

Publication Publication Date Title
AU2005285694B2 (en) Frequency compensation for perceptual speech analysis
Rix Perceptual speech quality assessment-a review
US20040042617A1 (en) Measuring a talking quality of a telephone link in a telecommunications nework
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
AU2007210334A1 (en) Non-intrusive signal quality assessment
JP4263620B2 (ja) システムの伝送品質を測定する方法及びシステム
EP1975924A1 (en) Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system
Ding et al. Non-intrusive single-ended speech quality assessment in VoIP
Ding et al. Measurement of the effects of temporal clipping on speech quality
KR100275478B1 (ko) 주관적 음질과 상관도가 높은 객관 음질 평가 방법
Kim A cue for objective speech quality estimation in temporal envelope representations
US20040228454A1 (en) Method for the performance testing of echo cancellers using an artificial segmented test signal
Ren et al. Assessment of effects of different language in VOIP
WO2002065456A1 (en) System and method for voice quality of service measurement
Egi et al. Objective quality evaluation method for noise-reduced speech
Möller Telephone transmission impact on synthesized speech: quality assessment and prediction
JP5952252B2 (ja) 通話品質推定方法、通話品質推定装置、及びプログラム
Somek et al. Speech quality assessment
Ghimire Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863
Reimes Instrumental assessment of near-end perceived listening effort
Möller Quality of Voice and Audio Transmission Systems
Chan et al. Machine assessment of speech communication quality
Sakano et al. Single-ended estimation of speech intelligibility using the ITU P. 563 feature set
Côté et al. Evaluation of Instrumental Quality Measures for Wideband-Transmitted Speech

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090828

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee