KR101170524B1 - 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체 - Google Patents

음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체 Download PDF

Info

Publication number
KR101170524B1
KR101170524B1 KR1020110035403A KR20110035403A KR101170524B1 KR 101170524 B1 KR101170524 B1 KR 101170524B1 KR 1020110035403 A KR1020110035403 A KR 1020110035403A KR 20110035403 A KR20110035403 A KR 20110035403A KR 101170524 B1 KR101170524 B1 KR 101170524B1
Authority
KR
South Korea
Prior art keywords
envelope
signal
distortion
reference signal
test
Prior art date
Application number
KR1020110035403A
Other languages
English (en)
Other versions
KR20110115984A (ko
Inventor
서정훈
성굉모
전상배
최인용
Original Assignee
서정훈
전상배
성굉모
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서정훈, 전상배, 성굉모 filed Critical 서정훈
Publication of KR20110115984A publication Critical patent/KR20110115984A/ko
Application granted granted Critical
Publication of KR101170524B1 publication Critical patent/KR101170524B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Abstract

기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡(EITDDist)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 단계를 포함하는 음질 측정 방법이 공개된다.

Description

음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체{Method, apparatus, and program containing medium for measurement of audio quality}
본 발명은 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체에 관한 것으로서, 특히 객관적 음질측정기술에 관한 것이다.
객관음질 평가는 심리음향 분야의 중요한 응용분야 중 하나로, 이에 대한 많은 연구가 이루어지고 있다. 이러한 객관음질 평가는 모노와 스테레오 음원의 압축 기법에 대한 품질 평가에 널리 사용되고 있다.
국제 전기 통신 연합의 무선통신 부문(ITU Radiocommunication Sector, 이하 'ITU-R'이라 함)의 단일 채널 오디오 신호 압축 코덱의 음질 평가 방법에 대한 권고안이 채택된 바 있다(ITU-R Recommendation BS. 1387-1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998). 이 권고안은 중/저성능 오디오 압축 코덱 및 멀티채널 오디오 압축 코덱의 음질을 평가하는데 적합하지 않을 수 있다. 그리고, 이 권고안의 객관적인 측정은, 보통 ITU-R BS.1116-1 (Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems)을 적용함으로써 주관적으로 평가되는 어플리케이션들에 대해 촛점을 맞춘다.
한편, 멀티채널 오디오 압축 코덱은 MPEG 표준화 그룹(ISO/IEC/JTC1/SC29/WGll)에서 개발 논의가 활발히 진행 중이며, 여러 기관에서 개발한 코덱이 발표되었는데 이 코덱들의 음질 평가는 'MUSHRA' 기법에 기반한 청취 주관 평가 기법(ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality(MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001)등을 통해 이루어지고 있으며, 이러한 방법을 이용해 수행한 다수의 코덱들에 대한 청취 평가 결과가 발표되었다(ISO/IEC JTC1/SC29/WGll(MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests," ISO/IEC JTC1/SC29/WG11(MPEG), N7139, "Spatial Audio Coding RM0 listening test data").
그러나, 멀티채널 오디오 압축 코덱의 음질을 평가함에 있어서, 청취자가 음질을 직접 청취하여 평가하고, 이에 대한 통계 처리 과정을 거치는 음질 평가 방법은 주관적이므로, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 음질에 대한 일관성있는 측정을 통해 음질 평가를 수행하거나, 혹은 음질 평가 결과를 예측할 수 있도록 하는 방안이 요구된다.
멀티채널 시스템이 보편화되고 멀티채널 압축 기법이 발전함에 따라 멀티채널 오디오 신호에 대한 객관음질 평가에 대한 필요성이 대두되고 있다.
본 발명은 멀티채널 오디오 압축 코덱의 객관적 평가를 위한 평가 인자를 개발하고, 이 평가 인자를 사용하여 오디오 압축 코덱을 평가하는 방법, 장치, 및 이 방법을 수행하기 위한 프로그램을 기록한 매체에 관한 기술을 도출하는 데에 목적을 두고 있다. 그러나 본 발명의 범위가 상술한 목적에 의해 한정되는 것은 아니다.
멀티채널 오디오 신호에 대한 객관음질 평가를 위하여, 기존 ITU-R Rec. BS. 1387-1의 음질 예측 모형을 멀티채널 신호로 확장할 수 있다. 이 확장 모형은 ITU-R Rec. BS. 1387-1에서 사용되는 10개의 음색 요소와 함께, 양이 시간차 왜곡(ITDDist), 양이 크기차 왜곡 (ILDDist), 양이 상관관계 왜곡 (IACCDist)과 같은 최소한 3개의 공간감 요소를 더 사용할 수 있다.
특히, 음상 정위에서의 오차를 예측하기 위한 요소로서 양이 시간차 왜곡(ITDDist, Interaural Time Difference distortion)을 이용할 수 있다. 양이 시간차 왜곡으로서 양이 위상차(Interaural Phase Difference, IPD)가 뚜렷한 저주파 대역에서의 양이 시간차 왜곡 뿐만 아니라, 고주파 대역의 포락선에 대한 양이 시간차왜곡을 사용할 수 있다.
일반적으로 인간이 저주파 음원과 고주파 음원의 위치를 인지할 때, 뇌에서는 서로 다른 처리과정을 거치게 된다. 저주파 음원의 위치 인지에 대해서는 양이 시간차를 사용하게 된다. 저주파 음원 자극에 의해 기저막(basilar membrane)에서 발생하는 자극 패턴(excitation pattern)은 중앙 상올리브핵(Medial Superior Olive, MSO)으로 전달되고, 전달된 신호는 일치 검출 뉴런(coincidence detection neurons)에 의해 처리되어 양이 시간차를 계산하고, 인간은 이를 이용해 음원의 위치를 인지하게 된다.
반면, 고주파 음원에 대해서는 기저막의 자극 패턴이 측면 상올리브핵 (Lateral Superior Olive, LSO)으로 전달되고, 이로 인해 양측 측면 상올리브핵에서는 다른 크기의 전기신호가 발생하게 되고, 발생된 전기신호의 차이에 의해 인간은 고주파 음원의 위치를 인지하게 된다. 하지만, 이러한 양이 크기차 외에, 고주파 음원의 포락선 정보 역시 고주파 음원의 음상 정위에 이용될 수 있다. 특히, 측면 상오리브핵에 존재하는 뉴런은 고주파 전치 신호(high frequency transposed tones)에 대한 민감도를 가진다. 또한, 고주파 전치 신호(high frequency transposed tones)에 대한 청신경 섬유(Auditory Nerve Fiber, ANF)의 신경신호 격발(neural firing) 확률은 저주파 음원에 대한 신경섬유의 격발 확률과 유사하다. 또한 고주파 포락선의 양이 시간차에 대한 민감도는 저주파 음원의 양이 시간차에 대한 민감도와 유사하다. 이러한 점에 비추어 볼 때에, 고주파 영역 포락선의 양이 시간차는 저주파 영역의 양이 시간차와 고주파 영역의 양이 크기차와 함께 음상 정위에 많은 영향을 끼친다고 판단할 수 있다.
본 발명의 일 관점에 따른 기술에서는, 멀티채널 오디오 신호의 객관 평가 인자로서 고주파 포락선의 양이 시간차 왜곡(EITDDist , Envelope Interaural Time Difference distortion)을 사용한다.
본 발명의 일 관점에 따른 음질 측정 방법은, 기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV, Model Output Variable)를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합(combine)하여 음질(audio quality)에 대응하는 값을 출력하는 단계를 포함한다.
이때, 상기 출력하는 단계는 상기 한 개 이상의 모형출력변수를 인공신경망(artificial neural network)에 입력하여 상기 음질에 대응하는 값을 생성하는 단계를 포함할 수 있다.
본 발명의 다른 관점에 따른 컴퓨터로 읽을 수 있는 매체는, 컴퓨터에, 기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 단계를 실행시키기 위한 프로그램을 기록한 것이다.
본 발명의 또 다른 관점에 따른 컴퓨터로 읽을 수 있는 매체는, 기준 신호와 테스트 신호를 비교하여 생성된 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 프로그램을 변경하는 코드를 기록한 컴퓨터로 읽을 수 있는 매체로서, 상기 코드는, 상기 기준 신호와 상기 테스트 신호를 비교하여 얻은 포락선 양이시간차 왜곡을 나타내는 변수가 상기 한 개 이상의 모형출력변수에 포함되도록 상기 프로그램을 변경하도록 되어 있다.
본 발명의 또 다른 관점에 따른 음질 측정 장치는, 기준 신호(reference signal)와 테스트 신호(signal under test)를 비교하여, 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference Distortion)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV)를 생성(produce)하는 모형출력변수 생성수단, 및 상기 한 개 이상의 모형출력변수를 조합(combine)하여 음질(audio quality)에 대응하는 값을 출력하는 출력수단을 포함한다.
이때, 상기 생성수단은 및 상기 출력 수단은, 상기 기준 신호와 상기 테스트 신호를 비교하여 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 단계를 실행시키기 위한 프로그램을 구동할 수 있는 처리장치의 일부일 수 있다.
상술한 본 발명의 다양한 관점에 있어서, 상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
Figure 112011028184302-pat00001
로 주어지며,
Figure 112011028184302-pat00002
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타낼 수 있다.
또한, 상술한 본 발명의 다양한 관점에 있어서, 상기
Figure 112011028184302-pat00003
Figure 112011028184302-pat00004
로 주어지고, 상기
Figure 112011028184302-pat00005
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이시간차(EITD, Envelope Interaural Time Difference)의 차이값을 나타내며, 상기
Figure 112011028184302-pat00006
는 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값이고, 상기
Figure 112011028184302-pat00007
는 상기 기준 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값일 수 있다.
또한, 상술한 본 발명의 다양한 관점에 있어서, 상기 기준 신호는 멀티채널 오디오 신호로부터 생성된 것이고, 상기 테스트 신호는 상기 음질을 측정하고자 하는 테스트 기기(device under test)에 상기 멀티채널 오디오 신호를 통과시켜 생성된 것일 수 있다.
또한, 상술한 본 발명의 다양한 관점에 있어서, 상기 한 개 이상의 모형출력변수 중 적어도 하나는, 상기 기준 신호 및 상기 테스트 신호의 자극 패턴(excitation pattern)을 비교하여 생성될 수 있다.
또한, 상술한 본 발명의 다양한 관점에 있어서, 상기 포락선 양이시간차 왜곡을 나타내는 변수는 상기 기준 신호 및 상기 테스트 신호를 필터 뱅크(filter bank)에 통과시켜 생성한 것일 수 있다.
본 발명에 따르면, 포락선 양이시간차 왜곡에 관한 변수를 이용함으로써, 멀티채널 오디오 코덱의 객관평가 모형의 성능을 높일 수 있다. 본 발명의 범위가 상술한 효과에 의해 제한되는 것은 아니다.
도 1 은 본 발명의 일 실시예에 적용될 수 있는 ITU-R에서 권고하는 멀티채널 오디오 재생 시스템에 대한 구성 예시도이다.
도 2 는 본 발명의 일 실시예에 따른 멀티채널 오디오 압축 코덱의 음질 평가 장치에 대한 구성도이다.
도 3은 10개의 소리 전달 경로를 그래프로 나타낸 것이다.
도 4 는 본 발명의 일 실시예에 따른 음질 평가 장치의 전처리부에 대한 동작 설명도이다.
도 5 는 본 발명의 일 실시예에 따른 멀티채널 오디오 압축 코덱의 음질 평가 방법에 대한 흐름도이다.
도 6은 ILD 왜곡을 계산하는 흐름도이며, 도 7은 본 발명의 일 실시예에 따라 EITD 왜곡을 계산하는 흐름도이다.
도 8은 포락선 추출의 예를 나타낸 것이다.
도 9는 도 7에 따른 EITD 왜곡을 계산하는 흐름을 더 자세히 나타낸 것이다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 더 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
ITU-R Recommendation BS.1116-1, "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems", ITU-R Recommendation BS. 1387-1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998, 과 ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality(MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001 및 ISO/IEC JTC1/SC29/WGll(MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests," ISO/IEC JTC1/SC29/WG11(MPEG), N7139, "Spatial Audio Coding RM0 listening test data"의 내용은 이 문서에 참조로서 포함된다.
일반적으로, 멀티채널 오디오는 프론트 스피커(LF(Left Front), RF(Right Front)), 센터 스피커(C(Center)), 중저음 채널(LEF(Low Frequency Effect)), 리어 스피커(LS(Left Surround), RS(Right Surround))의 6채널(혹은 5.1채널)을 가지는데, 이중 중저음 채널(LEF)은 저역 효과 채널로서 실제 사용하지 않는 경우가 많으므로, 본 발명의 실시예에서는 프론트 스피커(LF, RF), 센터 스피커(C), 리어 스피커(LS, RS)의 다섯 채널만을 사용하기로 한다.
도 1 은 본 발명의 일 실시예에 적용될 수 있는, ITU-R에서 권고하는 멀티채널 오디오 재생 시스템에 대한 구성 예시도이다.
도 1에 도시된 바와 같이, ITU-R에서 권고하는 멀티채널 오디오 재생 시스템은, 5채널 스피커는 청취자(10)를 중심으로 하나의 원주 상에 배치되고, 좌우 프론트 스피커(L, R)와 청취자(10)는 정삼각형을 이루게 되며, 정면의 센터 스피커(C)와 청취자(10)의 거리는 좌우 프론트 스피커(L, R)와 등거리가 되고, 좌우 리어 스피커(LS, RS)는 정면 전방을 0도로 하고 각 100도~120도의 동심원상에 위치할 수 있다.
이와 같은 ITU-R에서 권고하는 표준 배치안에 따른 이유는, 대부분의 소스가 이 배치기준에 적합하게 편집/녹음되어 있으므로, 이 표준 배치안에 따라야 의도한 음질(최상의 음질)을 획득할 수 있기 때문이다.
본 발명의 일 실시예에서는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 청취자(10)를, 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용하여 5채널 스피커(L, R, C, LS, RS)로부터 멀티채널 오디오 신호의 충격 응답을 측정하여, 음질을 평가하기 위한 멀티채널 오디오 압축 코덱의 음질 평가 장치로 대체할 수 있다.
도 2는 본 발명의 일 실시예에 따른 멀티채널 오디오 압축 코덱의 음질 평가 장치에 대한 구성도이다.
도 2에 도시된 바와 같이, 멀티채널 오디오 압축 코덱의 음질 평가 장치(10)는, ITU-R에서 권고하는 표준 멀티 채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호(
Figure 112011028184302-pat00008
)를 생성하기 위한 전처리부(11)와, 전처리부(11)에 의해 생성된 양이 입력 신호(
Figure 112011028184302-pat00009
)의 양이 상관 정도 왜곡(IACCDist), 양이 크기 차이 왜곡(ILDDist), 및 고주파 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference distortion)을 포함하는 모형출력변수들(MOV, Model Output Variables)을 산출하기 위한 출력변수 계산부(12)와, 출력변수 계산부(12)로부터 위의 모형출력변수들을 입력받아, 이를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로부(13)를 포함할 수 있다.
여기서, 양이 상관 정도(IACC: Interaural Cross Correlation)는 양쪽 귀(양이)로 입력되는 신호의 상관 정도를 나타내고, 양이 크기 차이(ILD: Interaural Level Difference)는 양쪽 귀(양이)로 입력되는 신호의 에너지 비율을 나타낼 수 있다. 또한, 고주파 포락선 양이시간차(EITD)는 고주파 대역의 오디오 신호의 포락선이 양쪽 귀로 입력되는 시간의 차이를 나타낼 수 있다.
이하, 본 발명에 따른 멀티채널 오디오 압축 코덱 음질 평가 장치의 구성요소들의 동작을 개략적으로 살펴보면, 평가할 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원의 다섯 채널은 LFtest, RFtest, Ctest, LStest, RStest로 나타내고, 본래 음원의 다섯 채널은 LFref, RFref, Cref, LSref, RSref 로 나타낸다.
본 문서에서 LFtest, RFtest, LFref, RFref는 각각 Ltest, Rtest, Lref, Rref라고 지칭될 수도 있다.
우선 LFtest, RFtest, Ctest, LStest, RStest , LFref, RFref, Cref, LSref, RSref의 총 10개의 신호는 전처리부(11)로 입력되고, 전처리부(11)는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하며, 이들을 합산하여 양이 입력 신호(
Figure 112011028184302-pat00010
)를 산출할 수 있다.
이때, 총 소리 전달 경로는 10개이며, 이는 도 3과 같은 그래프로 나타낼 수 있다. 출력변수 계산부(12)는 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(
Figure 112011028184302-pat00011
)의 양이 상관 정도 왜곡(IACCDist), 양이 크기 차이 왜곡(ILDDist), 고주파 포락선 양이시간차 왜곡(EITDDist)을 포함하는 변수들을 출력변수들로 산출하여, 이 출력변수들을 인공신경망회로부(13)에 입력하고, 인공신경망회로부(13)는 출력변수 계산부(12)로부터 입력된 이 출력변수들을 바탕으로 객관적인 음질 등급(ODG, Objective Difference Grade)을 출력할 수 있다.
여기서, 출력변수 계산부(12)는 수학식 1과 수학식 2를 이용하여 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(
Figure 112011028184302-pat00012
)의 양이 크기 차이 왜곡(ILDDist)을 산출할 수 있다. 압축되지 않은 본래 오디오 신호의 양이 크기 차이(ILD)를 ILDref라 하고, 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 오디오 신호의 양이 크기 차이(ILD)를 ILDtest라 한다. 양이 상관정도(IACC)에 대해서도 이와 같이 명명할 수 있다. 양이 상관 정도(IACC) 및 양이 크기 차이(ILD)는 44100Hz의 주파수로 샘플링되었을 때 2048개의 샘플을 50%씩 중첩하며 진행하는 시간 프레임에서 24개의 청각 임계대역에 대해 각각 계산될 수 있다. 이중 n번째 프레임의 k번째 대역에서 양이 크기 차이 왜곡(ILDDist)은 ILDDist[k,n]으로 표시할 수 있다.
[수학식 1]
Figure 112011028184302-pat00013
여기서, ILDDist는 양이 크기 차이 왜곡(ILDDist)이며, w[k]는 임계 대역 범위에 따라 결정되는 가중치 함수로서, 양이 크기 차이(ILD)에 대한 청각 민감도를 반영할 수 있다.
한편, n번째 시간 프레임에서 전 청각 대역의 양이 크기 차이 왜곡(ILDDist)을 획득하기 위해 수학식 2와 같이 평균할 수 있다.
[수학식 2]
Figure 112011028184302-pat00014
수학식 2와 같이, 전 시간 프레임에 대해 평균함으로써, 해당 멀티채널 압축 코덱의 양이 크기 차이 왜곡(ILDDist)을 계산할 수 있으며, 양이 상관 정도(IACC)에 대해서도 이와 같이 계산할 수 있다. 이때, 양이 상관 정도 왜곡(IACCDist)은 ICCDist로 나타내며, 양이 크기 차이 왜곡(ILDDist) 및 양이 상관 정도 왜곡(ICCDist)은 청취자에 의한 멀티채널 오디오 압축 코덱의 음질 평가(주관적인 평가) 결과와 높은 상관관계를 가지므로, 출력변수 계산부(12)는 이를 출력변수로 여길 수 있으며, 이값과 여타 가능한 다른 출력변수들을 인공신경망회로부(13)에 입력하여 객관성 및 일관성있는 음질 등급을 출력할 수 있다.
출력변수 계산부(12)에서 고주파 포락선 양이시간차 왜곡(EITDDist)을 계산하는 구체적인 방법은 이하 도 8에서 설명한다.
도 4는 본 발명에 따른 음질 평가 장치의 전처리부에 대한 일실시예의 동작 설명도이다.
도 4에 도시된 바와 같이, 음질 평가 장치(10)의 전처리부(11)는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하고, 이들을 합산하여, 양이 입력 신호(
Figure 112011028184302-pat00015
)를 산출할 수 있다.
도 5는 본 발명에 따른 멀티채널 오디오 압축 코덱의 음질 평가 방법에 대한 일실시예 흐름도이다.
먼저, 멀티채널 오디오 압축 코덱의 음질 평가 장치(10)의 전처리부(11)는 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원 및 본래 음원의 충격 응답을 전달함수화하고, 이들을 합산하여 양이 입력 신호(
Figure 112011028184302-pat00016
)를 산출할 수 있다(S501).
이후, 출력변수 계산부(12)는 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(
Figure 112011028184302-pat00017
)의 양이 상관 정도 왜곡(IACCDist), 양이 크기 차이 왜곡(ILDDist), 고주파 포락선 양이시간차 왜곡(EITDDist)을 포함하는 출력변수들을 산출하여(S502), 이 출력변수들을 인공신경망회로부(13)에 입력할 수 있다(S503).
그리고, 인공신경망회로부(13)는 출력변수 계산부(12)로부터 입력된 출력변수들을 바탕으로 음질의 등급을 출력할 수 있다(S504).
도 2의 출력변수 계산부(12)에서는 전처리부(11)에 의해 생성된 양이 입력 신호(
Figure 112011028184302-pat00018
)의 포락선(Envelope)의 양이 시간 차이(EITD, Envelope Interaural Difference)가 더 출력될 수 있다. 포락선의 양이 시간 차이(EITD)는 인공신경망회로부(13)에 더 입력될 수 있다.
공간감 변화에 있어서 음상 위치의 변화로 인해 발생하는 음질 저하(degradation)는 중요한 평가 요소 중의 하나이다. 고전적인 듀플렉스(Duplex) 이론에 따르면 고주파(High Frequency) 성분에 대해서는 양이 크기 차이(ILD)에 의해 그 음상의 위치를 인지할 수 있다. 하지만 최근의 연구들에 의해 양이 크기 차이(ILD) 뿐만 아니라 고주파 성분의 포락선의 양이 시간 차이(EITD) 역시 음상 인지에 영향을 미친다고 알려져 있다.
본 발명의 일 실시예에서는 고주파 성분에 대한 양이 크기 차이(ILD)를 계산하는 방법과 포락선의 양이 시간 차이(EITD)를 계산하는 방법을 제안한다.
멀티채널 오디오의 객관적 성능 평가를 위해서는 음색의 왜곡에 대한 정량적 분석과 더불어 공간감의 왜곡에 대한 정량적 분석이 요구된다. 공간감 왜곡 평가에 있어서 중요한 요소 중의 하나는 음상 정위의 왜곡이다. 인간은 고주파 성분의 음상을 인지함에 있어서 양이 크기 차이(ILD, Interaural Level Difference)와 포락선의 양이 시간 차이(EITD, Envelope Interaural Differnece)를 이용하기 때문에 이 두 개의 성질(feature)에 기반하여 정량적으로 음상 정위 성능을 평가할 수 있다. 양이 크기 차이(ILD)와 포락선의 양이 시간 차이(EITD)는 기준(reference) 신호(예컨데, 원음)와 테스트(test) 신호(예컨대, 코덱에 의해 원음이 부호화 및 복호화된 음)에 대해 각각 계산되며, ILD 왜곡(ILDDist) 및 EITD 왜곡(EITDDist) 값은 기준 신호와 테스트 신호에 대해 해당 차이의 인지적 거리로 계산할 수 있다. 고주파 성분의 ILDEITD를 계산하기 위해서는 우선적으로 멀티채널 음원을 양이 신호로 합성하여야 한다. 양이 신호 합성에는 머리 전달 함수(Head-Related Transfer Functions, HRTFs)가 이용되는데, HRTF는 각 스피커 위치에서 양쪽 귀까지의 음파전달 경로를 의미한다. 이와 같은 방법으로 합성된 양이 신호를 이용하여 고주파 성분의 ILDEITD를 계산할 수 있다.
도 6은 상술한 ILD 왜곡을 계산하는 흐름도이다.
도 6의 양이 합성부(Binaural Synthesis)(601)에서는 상술한 LFtest, RFtest, Ctest, LStest, RStest , 및 LFref, RFref, Cref, LSref, RSref 를 각각 입력받아 기준 신호의 양이 입력 신호(
Figure 112011028184302-pat00019
)와 테스트 신호의 양이 입력 신호(
Figure 112011028184302-pat00020
)를 산출할 수 있다. 도 6의 말초 청각 모형부(pheripheral ear model)(602)에서는 기준 신호의 양이 입력 신호(
Figure 112011028184302-pat00021
)와 테스트 신호의 양이 입력 신호(
Figure 112011028184302-pat00022
)를 각각 입력받아 기준 신호의 자극 패턴(excitation pattern)과 테스트 신호의 자극 패턴을 각각 산출할 수 있다. 도 6의 포락선 추출부(envelop extraction)(603)에서는 기준 신호의 자극 패턴과 테스트 신호의 자극 패턴을 입력받아 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴의 포락선을 각각 산출할 수 있다. 도 6의 인지 모델부(cognition model)(604)에서는 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴을 입력받아 고주파 성분의 ILDDist를 산출할 수 있다.
도 6의 양이 합성부(601)는 도 2의 전처리부(11)에 대응될 수 있다. 도 6의 말초 청각 모형부(602), 포락선 추출부(603), 및 인지 모델부(604)는 도 2의 출력변수 계산부(12)에 포함될 수 있다.
ILD는 ERB 스케일에 한 중심주파수를 가지는 대역통과필터로 구성된 말초 청각 모형(peripheral ear model)을 통과한 귀 입력(ear input) 신호의 에너지 차이로 정의할 수 있고, 이는 수학식 3과 같이 나타낼 수 있다. 말초 청각 모형은 양쪽 귀로 입력되는 신호로부터 두개기부 멤브레인(basilar membrane)에서 발생하는 자극 패턴(excitation pattern)을 계산하는 청각 모형이다.
[수학식 3]
Figure 112011028184302-pat00023
양쪽 귀 입력 신호의 에너지차이가 수학식 3처럼 표현될 수 있지만, 실제 ILD에 의해 뇌에서 발생하는 기작은 이와 차이가 있을 수 있다. 입력 신호의 에너지가 차이가 나는 경우, ILD를 처리하는 IC(Inferior Colliculus)에서는 큰 크기의 입력이 들어오는 귀에 대한 뉴럴 스파이크(neural spike)가 발생하는 빈도가 더 높기 때문에 이에 대한 처리가 필요할 수 있다. IC에서 발생하는 뉴럴 스파이크(neural spike) 수에 대한 모형은 탄젠트 S자 결장함수(tangential sigmoid function)의 형태를 따르기 때문에 계산된 ILD 값은 결장함수에 의해 비선형 변환되고, 이는 수학식 4 및 수학식 5와 같이 표현될 수 있다.
[수학식 4]
Figure 112011028184302-pat00024
[수학식 5]
Figure 112011028184302-pat00025
이 경우 귀 입력(ear input) 신호의 에너지 차에 따라 결장함수의 기울기 (S)는 다른 부호를 갖는데, 왼쪽 귀의 입력이 클 경우는 양의 값, 오른쪽 귀의 입력이 클 경우는 음의 값을 가질 수 있다. 또한 각 주파수 밴드에 따른 IC에서의 뉴럴 스파이크(neural spike) 발생 기작의 민감도를 반영하기 위해 밴드에 따라 각각 다른 기울기를 가질 수 있다. Tk는 결장함수의 역치(threshold) 값인데, ILD의 경우 0의 값을 갖는다. 이후 시간-주파수 분할된 신호에 대해 ILD 왜곡 값은 수학식 6과 같이 계산될 수 있다.
[수학식 6]
Figure 112011028184302-pat00026
최종 ILD 왜곡은 주파수 밴드와 시간 프레임에 걸쳐 평균값을 구함으로써 계산할 수 있고, 이는 수학식 7과 같이 표현할 수 있다. 최종 ILD 왜곡은 ILD로 인한 테스트 신호와 기준 신호 사이의 인지적 거리로 간주될 수 있다.
[수학식 7]
Figure 112011028184302-pat00027

EITD 왜곡은 포락선 양이시간차의 차이로 인해 발생하는 테스트 음원과 참조 음원의 음상위치 차이의 인지적인 거리를 나타낸다. EITD 왜곡은 ILD 왜곡과 함께 고주파 음원의 음상위치 차이로 인해 발생하는 공간감을 평가하는 요소로 사용될 수 있다.
도 7은 EITD 왜곡을 계산하는 흐름을 나타낸 도면이다.
도 7의 양이 합성부(Binaural Synthesis)(701)에서는 상술한 LFtest, RFtest, Ctest, LStest, RStest , 및 LFref, RFref, Cref, LSref, RSref 를 각각 입력받아 기준 신호의 양이 입력 신호(
Figure 112011028184302-pat00028
)와 테스트 신호의 양이 입력 신호(
Figure 112011028184302-pat00029
)를 산출할 수 있다. 양이 합성부(701)는 도 2의 전처리부(11)에 대응될 수 있다.
양이 합성부(701)에서는 머리전달함수(Head Related Transfer Functions, HRTFs)를 이용하여 멀티채널 음원을 양이 신호로 합성하는데, 이를 각각
Figure 112011028184302-pat00030
,
Figure 112011028184302-pat00031
로 표시할 수 있다. 멀티채널 음원 및 양이 신호에서 아래첨자 testref는 각각 평가 신호와 참조신호를 의미한다.
양이 신호 합성에 사용된 머리전달함수는 ITU-R Rec. BS. 1116-1 에 권고된 것과 같은 표준 환경 시청실에서 녹음될 수 있으며, LFE 채널은 모든 음원에 대해 0으로 조정된 것일 수 있다. 5개의 채널 신호로부터 양이 신호를 합성하기 위하여 수학식 8을 이용할 수 있다.
[수학식 8]
Figure 112011028184302-pat00032

수학식 8에서, H CL , H LfL , H RfL , H LsL , H RsL , H CR , H LfR , H RfR , H LsR , H RsR 은 각 스피커에서 양쪽 귀까지의 음파 전달 경로를 나타내는 10개의 양이 공간 전달함수 (Binaural Room Transfer Functions, BRTFs)이며,
Figure 112011028184302-pat00033
,
Figure 112011028184302-pat00034
은 각각 양쪽 귀의 입력 신호를 의미한다.
이와 같은 방식으로 합성된 양이 신호는 말초 청각 모형(peripheral ear model)에 의해 처리될 수 있다. 실제 양쪽 귀로 들어온 입력신호는 중이를 거쳐 달팽이관에서 처리되는데, 이 과정을 모사한 것이 말초 청각 모형이다. 말초 청각 모형 내의 달팽이관 모의장치(cochlea simulator)는 양이 입력신호를 인간의 기저막 (basilar membrane)에서 유모세포(hair cell)를 자극하는 신호로 변환한다. 달팽이관 모의장치는 ERB(Equivalent Rectangular Bandwidth) 스케일에 의해 결정된 중심주파수를 갖는 24개의 대역 통과 필터로 구성된 필터 뱅크로 간주할 수 있고, 이 모의 장치를 통과한 신호는 각 대역 통과 필터를 거친 신호의 자극패턴 (excitation pattern)으로 변환될 수 있다.
도 7의 말초 청각 모형부(phripheral ear model)(702)에서는 기준 신호의 양이 입력 신호(
Figure 112011028184302-pat00035
)와 테스트 신호의 양이 입력 신호(
Figure 112011028184302-pat00036
)를 각각 입력받아 기준 신호의 자극 패턴(excitation pattern)과 테스트 신호의 자극 패턴을 각각 산출할 수 있다.
도 7의 포락선 추출부(envelop extraction)(703)에서는 기준 신호의 자극 패턴과 테스트 신호의 자극 패턴을 입력받아 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴을 각각 산출할 수 있다.
변환된 자극 패턴 중 고주파 영역의 성분들에 대해 이산 힐버트 변환을 적용하여 자극 패턴의 포락선을 추출할 수 있는데, 도 8은 포락선 추출의 예를 나타낸 것이다. 실선은 정파 정류된 자극패턴(full-rectified excitation pattern)을 나타내고, 점선은 추출된 포락선(extracted envelope)을 나타낸다. 추출된 포락선(envelope)의 양이 시간 차이를 계산하여 EITD를 얻을 수 있다.
양이 신호가 ERB-스케일 청각 필터 뱅크를 통과한 후 출력으로 나오는 신호는 시간-주파수 영역에서 세그먼트된(segmented) 신호(x[k,n] 또는 X[k,n])일 수 있다. 이때, k는 주파수 대역 번호, n은 시간 프레임 번호를 나타낸다. 이 신호로부터 이산 힐버트 변환된 값(H{x[k,n]})을 이용해 수학식 9와 같이 신호의 포락선(E[k,n])을 계산할 수 있다. x[k,n]는 r[k,n]라고 표시할 수도 있고, H{x[k,n]}는 i(n)이라고 표시할 수도 있다.
[수학식 9]
Figure 112011028184302-pat00037
수학식 9에서 k는 말초 청각 모형(peripheral ear model)에 의해 분할된 주파수 밴드 인덱스를 의미하며, n은 처리되는 시간 프레임 인덱스를 의미한다.
도 7의 인지 모델부(cognition model)(704)에서는 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴의 포락선을 입력받아 고주파 성분의 EITD 왜곡을 산출할 수 있다.
이렇게 추출된 포락선의 ITD(EITD)는 시간-주파수 분할된 양쪽 귀의 입력 신호에 대해 정규화된 교차 상관 함수(Normalized Cross-Correlation Function, NCF) 를 이용하여 계산할 수 있는데, 이는 수학식 10과 같이 표현할 수 있다.
[수학식 10]
Figure 112011028184302-pat00038
수학식 10에서 E L ,k,n , E R ,k,n 은 양쪽 귀에서 발생하는 자극 패턴의 포락선 신호를 의미하며, d는 샘플단위의 시간 지연, k는 주파수 대역 지수(index), 그리고 n은 시간 프레임 지수를 의미한다. E L ,k,n , E R ,k,n 은 각각 X L ,k,n , X R ,k,n 으로 표시될 수도 있다.
고주파 포락선의 양이 상관계수(Envelope InterAural Cross-correlation Coefficient, EIACC)는 NCF의 최대값으로 정의되고, 양이 시간 차이(Envelope Interaural Time Difference, EITD)는 NCF가 최대값을 가질 때의 시간 지연 값으로 정의될 수 있다. EITDEIACC 는 NCF에 의해 계산될 수 있으며, 각각 시간-주파수분할된 신호에 대해 수학식 11과 수학식 12와 같이 계산될 수 있다.
[수학식 11]
Figure 112011028184302-pat00039
[수학식 12]
Figure 112011028184302-pat00040
수학식 11과 수학식 12에서, 매개변수 Nd의 범위인데, 이론적으로 가능한 양이 시간 차이의 값을 의미한다. EITDEIACC는 각각 참조 신호와 평가 신호에 대해 계산되고, 이 역시 아래첨자 reftest로 나타내었다. 또한, 고주파 포락선에 기반한 음원 방향의 인지적 차이는 단위 원 상에서 두 점 사이의 거리로 근사할 수 있기 때문에 기준 신호와 테스트 신호의 EITD 차이는 수학식 13과 같이 계산할 수 있다. 즉, 테스트 신호와 기준 신호 사이에 발생한 EITD의 차이는 EITD에 해당하는 위상각을 갖는 단위원 상의 두 벡터 사이 차이로 계산될 수 있다. 수학식 13에서 f s 는 표본화 주파수(sampling frequency)를 나타낸다.
[수학식 13]
Figure 112011028184302-pat00041
이와 같은 방법으로 ΔEITD를 계산한 후, 인지적으로 양이 시간차에 의한 음상 정위에 실패할 경우가 고려되어야 한다. EIACC가 매우 낮은 경우, EITD로 인해 인지되는 음원의 방향은 뚜렷하지 않기 때문에 인지되는 음원 방향 검출에 대한 확신도(certainty)를 고려하기 위해 EITD의 차이값에 결정 인자(decision factor)를 적용할 수 있다. 확신도를 모형화하기 위해 탄젠트 S자 결장 함수(Tangential Sigmoid Function)을 사용할 수 있는데, 이 함수는 EIACC 값을 비선형적으로 변환하게 된다. 즉, EIACC값이 너무 낮아 음원의 위치를 인지할 수 없는 경우에 대해 고려하기 위해 EIACC값을 탄젠트 S자 결장 함수를 이용해 비선형 변환할 수 있다. 참조 신호와 평가 신호에 대해 EIACC 값은 수학식 14와 수학식 15에 의해 비선형 변환될 수 있다.
[수학식 14]
Figure 112011028184302-pat00042
[수학식 15]
Figure 112011028184302-pat00043
수학식 14와 수학식 15에서 s와 Tk는 각각 결장함수의 기울기와 역치를 나타내는데, EITD의 경우 기울기는 50, 역치는 각 밴드에서 EITD에 대한 민감도를 반영하기 위해 밴드별로 다른 값을 사용할 수 있다.
결정 인자가 ΔEITD에 적용된 후의 EITD 왜곡은 수학식 16과 같이 계산될 수 있다. 즉, 비선형변환된 EIACC값을 결정인자로 사용하여, EITD 왜곡을 계산할 수 있다.
[수학식 16]
Figure 112011028184302-pat00044
최종 EITD 왜곡은 수학식 17과 같이 전체 주파수 밴드와 시간 프레임에 걸쳐 평균값을 취하여 얻을 수 있다. 즉, EITD 왜곡은 EITD 차이로 인한 기준 신호와 테스트 신호에 대한 음원 위치의 인지적 거리를 의미하는 평균 EITD 왜곡을 나타낸다.
[수학식 17]
Figure 112011028184302-pat00045
상술한 도 7의 말초 청각 모형부(702), 포락선 추출부(703), 및 인지 모델부(704)는 도 2의 출력변수 계산부(12)에 포함될 수 있다.
도 9는 도 7에 따른 EITD 왜곡을 계산하는 흐름을 더 자세히 나타낸 것이다.
양이 합성부(901)에서는 수학식 8과 같은 방식으로 다채널 음원을 양이 신호로 합성할 수 있다. 말초 청각 모형부(902)에서는 기준 신호 및 테스트 신호의 양이 입력 신호를 입력받아 기준 신호의 자극 패턴 및 테스트 신호의 자극 패턴을 산출할 수 있다. 포락선 추출부(903)에서는 수학식 9와 같이 각 신호의 포락선을 계산할 수 있다. 교차상관함수 적용부(904)에서는 포락선을 이용하여 EITDEIACC를 계산할 수 있다. EITD 왜곡 계산부(905)에서는 테스트 신호와 기준 신호의 EITDEIACC를 이용하여 EITD 왜곡 값을 계산할 수 있다. 도 9에서 첨자 R, L, test, ref, k, n 은 각각 우측 채널, 좌측 채널, 테스트 신호, 기준 신호, 주파수 대역 인덱스, 시간 프레임 인덱스를 나타낸다.
수학식 13 내지 수학식 17에 의해 EITD 왜곡을 얻는 방법은 아래의 수학식 18 내지 수학식 19를 이용하는 방식으로 변형될 수 있다.
수학식 11과 같이 기준 신호와 테스트 신호에 대해 각각 계산된 EITD 값으로부터 EITD의 인지적 거리에 해당하는 EITD 왜곡 값을 구하기에 앞서, 수학식 14 및 수학식 15와 같이 EIACC의 값에 탄젠트 S자 결장함수를 이용하여 EIACC 값을 비선형적으로 변환할 수 있다.
이와 같이 비선형 변환된 EIACC 값은 EITD의 가중치 값으로 사용될 수 있다. 가중된 EITD 값으로부터 인지적 EITD의 거리를 계산할 수 있다. 이 경우 가중된 EITD로 인한 음원 방향의 차이는 단위원 상에서 두 점 사이의 유클리드 거리 (Euclidian Distance)로 나타낼 수 있는데, 이는 수학식 18과 같이 계산할 수 있다. 수학식 18에서 ctest[k,n] 및 cref[k,n]은 각각 ptest[k,n]과 pref[k,n]으로 표현될 수도 있다.
[수학식 18]
Figure 112011028184302-pat00046
해당 음원 전체에 대한 최종 EITD 왜곡은 수학식 19와 같이 전체 주파수 밴드와 시간 프레임에 걸쳐 평균을 취함으로써 계산될 수 있다. 최종 EITD 왜곡은 EITD 차이로 인한 기준 신호와 테스트 신호의 인지적 거리를 의미하는 평균 EITD 왜곡을 나타낼 수 있다.
[수학식 19]
Figure 112011028184302-pat00047

본 발명의 일 실시예에 따른 음질 평가 장치는 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호(Binaural input signal)를 생성하기 위한 전처리수단, 상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist: IACC Distortion), 양이 크기 차이 왜곡(ILDDist: ILD Distortion), 포락선 양이시간차이 왜곡(EITDDist)을 포함하는 모형출력변수를 산출하기 위한 출력변수 계산수단, 및 상기 모형출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단을 포함할 수 있다.
다채널 음원에 대한 객관적 음질 평가에 있어서 공간감 인자들의 영향을 고찰하기 위해 우선적으로 주관청취평가가 시행되었다. 본 실험에 사용된 주관청취평가 데이터베이스는 ISO/MPEG 오디오 그룹에 의해 배포된 것으로서 ITU-R Rec. BS. 1534-1 "Multiple Stimulus with Hidden Reference and Anchor(MUSHRA)"에 권고된 바에 따라 시행되었다. 주관청취평가에는 11개 종류의 음원이 사용되었다. 각 음원은 11개의 다른 다채널 오디오 코딩 기법을 이용하여 부호화 및 복호화되어, 결과적으로 주관청취평가를 통해 121개의 아이템이 생성되었다.
표 1은 주관청취평가 결과와 객관평가에 사용되는 14개의 평가인자 사이의 상관계수를 보여준다.
<주관청취평가 결과와 14개 인자들 사이의 상관계수>
평가인자 상관계수
ADB -0.68
NMRtoB -0.51
NLoundB -0.51
AModDif1B -0.45
WModDif1B -0.44
RDF -0.43
EHS -0.43
AModDif2B -0.36
AvgBwRef -0.06
AvgBwTst -0.00
ILDD -0.78
IACCD -0.62
ITDD -0.61
EITDD -0.72
각 상관계수 ρX,Y는 수학식 20과 같이 계산된다.
[수학식 20]
Figure 112011028184302-pat00048
수학식 20에서 X는 MOS, Y는 각 인자의 데이터를 의미하며, 14개의 인자와 주관청취평가 결과의 상관계수는 양이 신호로 합성된 121개의 신호에 대해서 계산되었다. 14개의 평가인자 중 첫 10개는 현재 ITU-R Rec. BS. 1387-1에서 사용되고 있는 모형출력변수이다. 10개의 모형 출력변수와 4개의 공간감 인자는 표 2와 표 3에 각각 요약하였다.
<ITU-R Rec. BS. 1387-1에서 음색 열화에 대한 요인으로 사용되는 모형 출력 변수>
인자 설명
ADB 평균 왜곡 블록 (Averaged distortion block). 왜곡된 블록의 전체 개수에 대한 전체 왜곡의 비
NMRtotB 기만 에너지 (masker energy) 대 평균 잡음 비의 로그 값
EHS 오차의 배음구조
BWRef 참조 신호의 대역폭
BWTest 평가 신호의 대역폭
AModDif1B 평균 변조 차이
AModDif2B 참조 신호에 변조가 거의 없는 경우 변조 변화에 가중치를 준 평균 변조 차이
WinModDifB 창 함수를 적용한 평균 변조 차이
RDF 잡음 대 기반 에너지 비가 기준값 이상인 프레임의 개수
NLoudB 평균 잡음 세기
<공간감 열화를 나타내는 양이 요소>
인자 설명
ITDDist 양이 시간차로 인해 발생하는 평가 신호와 참조 신호의 음원 방향 차이에 대한 인지적 거리
ILDDist 양이 크기차로 인해 발생하는 평가 신호와 참조 신호의 음원 방향 차이에 대한 인지적 거리
IACCDist 양이 상관계수차로 인해 발생하는 평가 신호와 참조 신호의 음원 넓이감 차이에 대한 인지적 거리
EITDDist 고주파 영역 포락선의 양이 시간차로 인해 발생하는 음원 방향 차이에 대한 인지적 거리
모든 인자들은 주관청취평가 결과와 음의 상관관계를 가지기 때문에, 표 1에서 상관계수의 절대값이 클수록 더 좋은 음질 예측 성능을 가진다고 간주할 수 있다. 표 1에서 볼 수 있듯이, EITDDist는 주관청취평가 결과와 상관계수 0.72의 매우 높은 상관관계를 가짐을 알 수 있다. 특히, EITDDist는 주관청취평가 결과와의 상관계수 0.62를 갖는 IACCDist나 상관계수 0.61을 갖는 ITDDist보다 더욱 높은 상관 관계를 갖고 있으며, 기존 10개의 음색 왜곡 인자들보다도 높은 상관관계를 가짐을 확인할 수 있다. 이러한 결과들로부터 고주파 포락선 정보는 다채널 오디오 신호에 의한 공간감 인지와 전체적인 음질에 중요한 역할을 하고 있음을 확인할 수 있다. 또한 기존 ITU-R Rec. BS. 1387-1에서 사용되고 있는 음색 요소와 비교했을 때, 주관청취평가 결과와 4개의 공간감 요소는 유사하거나 더 높은 상관계수를 가짐을 확인할 수 있다. 이러한 결과를 바탕으로 다채널 오디오의 품질 평가에 있어서, 음색뿐만 아니라 공간감 요소 역시 중요함을 확인할 수 있다.
이와 같은 방법으로 계산된 각각의 인자는 다채널 오디오의 객관적 음질 평가를 위한 예측 모델의 입력 인자로서 사용될 수 있다. 다채널 오디오 코딩 시스템의 객관적 음질 예측 모델에 주관청취평가 결과와 높은 상관계수를 갖는 공간감 왜곡 요소를 입력 인자로 추가했을 때 더욱 좋은 예측 성능을 보일 수 있다. EITDDist는 객관적 음질 예측 모델에서 공간감 왜곡을 평가하는 인자로서 사용될 수 있다. 특히, EITDDist는 주관적 청취평가 결과와 높은 상관관계를 가지기 때문에, EITDDist를 음질 예측 모델의 입력 인자로 추가함으로써 다채널 오디오 코딩 시스템의 객관적 음질 예측 모델의 성능을 향상시킬 수 있다.
본 발명을 통해 멀티채널 음원의 객관적 평가를 위한 공간감 인자를 제공함으로써 평가의 성능을 높일 수 있다. 각 공간감 인자를 사용하면 실제 뇌에서의 청각 신호가 처리되는 과정을 수학적으로 모델링하여 인지적인 차이를 반영할 수 있는 평가 모델을 생성할 수 있다.
본 발명의 실시예들에 있어서 인공신경망회로부(13)는 일반적인 디지털 신호 처리부로 대체될 수 있다. 즉, 인공신경망회로부(13)는, 본 발명의 실시예를 설명하기 위하여, 디지털 신호 필터의 일 예로서 제시된 것이다. 따라서, 본 발명의 범위가 여기에 첨부한 도면 및 그 설명에 의해 한정되는 것은 아니다.
본 발명에 따르면, 심리음향적, 생리학적 연구결과를 바탕으로 공간감 인지에 영향을 미치는 요인들을 찾고, 해당 요인들을 수학적 모델에 의해 구현함으로써 멀티채널 오디오 코덱의 객관평가 모델의 성능을 높일 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명된 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(Firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
본 발명은, 단순히 압축 후 복구된 신호의 주파수별 에너지가 본래 신호에 대비해 왜곡된 정도를 수치화한 것과는 다르며, 멀티채널 오디오 재생 환경에서 선별된 청취자가 느끼는 청각적인 평가를 적절한 방법으로 통계 처리한 것과 유사한 결과를 얻기 위한 것이다. 이를 통해 멀티채널 오디오 압축 코덱의 음질에 대한 청취 평가 및 통계 처리 과정을 생략하고, 측정만을 통해 음질 평가를 수행하거나 혹은 음질 평가 결과를 예측할 수 있다.
본 발명의 일 실시예는, 기준 신호을 오디오 압축 코덱에 의해 부호화한 다음 복호화하여 형성한 재생음의 인지된 품질과 기준 신호의 인지된 품질을 객관적으로 비교 평가함으로써 오디오 압축 코덱의 성능을 평가하는 방법 및 장치에 사용할 수 있다.

Claims (13)

  1. 기준 신호(reference signal)와 테스트 신호(signal under test)를 비교하여, 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference Distortion)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV, Model Ouput Variable)를 생성(produce)하는 단계; 및
    상기 한 개 이상의 모형출력변수를 음질(audio quality)에 대응하는 값에 매핑(mapping)하는 단계;
    를 포함하며,
    상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
    Figure 112012029633640-pat00049
    로 주어지며,
    Figure 112012029633640-pat00050
    는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는,
    음질 측정 방법.
  2. 삭제
  3. 청구항 3은(는) 설정등록료 납부시 포기되었습니다.
    제1항에 있어서,
    상기
    Figure 112012029633640-pat00051
    Figure 112012029633640-pat00052
    로 주어지고,
    상기
    Figure 112012029633640-pat00053
    는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이시간차(EITD, Envelope Interaural Time Difference)의 차이값을 나타내며,
    상기
    Figure 112012029633640-pat00054
    는 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값이고,
    상기
    Figure 112012029633640-pat00055
    는 상기 기준 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값인,
    음질 측정 방법.
  4. 청구항 4은(는) 설정등록료 납부시 포기되었습니다.
    제1항에 있어서,
    상기 기준 신호는 멀티채널 오디오 신호로부터 생성된 것이고, 상기 테스트 신호는 상기 음질을 측정하고자 하는 테스트 기기(device under test)에 상기 멀티채널 오디오 신호를 통과시켜 생성된 것인, 음질 측정 방법.
  5. 청구항 5은(는) 설정등록료 납부시 포기되었습니다.
    제1항에 있어서,
    상기 한 개 이상의 모형출력변수 중 적어도 하나는, 상기 기준 신호 및 상기 테스트 신호의 자극 패턴(excitation pattern)을 비교하여 생성되는, 음질 측정 방법.
  6. 청구항 6은(는) 설정등록료 납부시 포기되었습니다.
    제1항에 있어서,
    상기 포락선 양이시간차 왜곡을 나타내는 변수는 상기 기준 신호 및 상기 테스트 신호를 필터 뱅크(filter bank)에 통과시켜 생성한 것인, 음질 측정 방법.
  7. 컴퓨터에,
    기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계; 및
    상기 한 개 이상의 모형출력변수를 음질(audio quality)에 대응하는 값에 매핑(mapping)하는 단계;
    를 실행시키기 위한 프로그램을 기록하였으며,
    상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
    Figure 112012029633640-pat00056
    로 주어지며,
    Figure 112012029633640-pat00057
    는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는,
    컴퓨터로 읽을 수 있는 매체.
  8. 삭제
  9. 청구항 9은(는) 설정등록료 납부시 포기되었습니다.
    기준 신호와 테스트 신호를 비교하여 생성된 한 개 이상의 모형출력변수를 음질에 대응하는 값에 매핑하는 프로그램을 변경하는 코드를 기록한 컴퓨터로 읽을 수 있는 매체로서,
    상기 코드는, 상기 기준 신호와 상기 테스트 신호를 비교하여 얻은 포락선 양이시간차 왜곡을 나타내는 변수가 상기 한 개 이상의 모형출력변수에 포함되도록 상기 프로그램을 변경하도록 되어 있으며,
    상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
    Figure 112012029633640-pat00058
    로 주어지며,
    Figure 112012029633640-pat00059
    는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는,
    컴퓨터로 읽을 수 있는 매체.
  10. 삭제
  11. 청구항 11은(는) 설정등록료 납부시 포기되었습니다.
    기준 신호(reference signal)와 테스트 신호(signal under test)를 비교하여, 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference Distortion)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV, Model Ouput Variable)를 생성(produce)하는 모형출력변수 생성수단; 및
    상기 한 개 이상의 모형출력변수를 음질(audio quality)에 대응하는 값에 매핑하는 매핑수단;
    을 포함하며,
    상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
    Figure 112012029633640-pat00060
    로 주어지며,
    Figure 112012029633640-pat00061
    는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는,
    음질 측정 장치.



  12. 삭제
  13. 삭제
KR1020110035403A 2010-04-16 2011-04-15 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체 KR101170524B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20100035182 2010-04-16
KR1020100035182 2010-04-16
KR20100035579 2010-04-17
KR1020100035579 2010-04-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020120038746A Division KR20120053996A (ko) 2010-04-16 2012-04-13 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체

Publications (2)

Publication Number Publication Date
KR20110115984A KR20110115984A (ko) 2011-10-24
KR101170524B1 true KR101170524B1 (ko) 2012-08-01

Family

ID=44799206

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020110035403A KR101170524B1 (ko) 2010-04-16 2011-04-15 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체
KR1020120038746A KR20120053996A (ko) 2010-04-16 2012-04-13 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020120038746A KR20120053996A (ko) 2010-04-16 2012-04-13 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체

Country Status (2)

Country Link
KR (2) KR101170524B1 (ko)
WO (1) WO2011129655A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259893A (zh) * 2018-03-22 2018-07-06 天津大学 基于双流卷积神经网络的虚拟现实视频质量评价方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857852B (zh) * 2012-09-12 2014-10-22 清华大学 一种声场定量重现控制系统的扬声器回放阵列控制信号的处理方法
CN102857851B (zh) * 2012-09-12 2015-04-15 清华大学 一种用于声品质评价的声像同步系统
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
CN110211610A (zh) * 2019-06-20 2019-09-06 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
CN111935624B (zh) * 2020-09-27 2021-04-06 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
WO2022112594A2 (en) * 2020-11-30 2022-06-02 Dolby International Ab Robust intrusive perceptual audio quality assessment based on convolutional neural networks
WO2023018889A1 (en) * 2021-08-13 2023-02-16 Dolby Laboratories Licensing Corporation Management of professionally generated and user-generated audio content
CN115798518B (zh) * 2023-01-05 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249769A1 (en) 2007-04-04 2008-10-09 Baumgarte Frank M Method and Apparatus for Determining Audio Spatial Quality
US20100054482A1 (en) * 2008-09-04 2010-03-04 Johnston James D Interaural Time Delay Restoration System and Method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829870B1 (ko) * 2006-02-03 2008-05-19 한국전자통신연구원 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249769A1 (en) 2007-04-04 2008-10-09 Baumgarte Frank M Method and Apparatus for Determining Audio Spatial Quality
US20100054482A1 (en) * 2008-09-04 2010-03-04 Johnston James D Interaural Time Delay Restoration System and Method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259893A (zh) * 2018-03-22 2018-07-06 天津大学 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN108259893B (zh) * 2018-03-22 2020-08-18 天津大学 基于双流卷积神经网络的虚拟现实视频质量评价方法

Also Published As

Publication number Publication date
KR20110115984A (ko) 2011-10-24
WO2011129655A3 (en) 2012-03-15
KR20120053996A (ko) 2012-05-29
WO2011129655A2 (en) 2011-10-20

Similar Documents

Publication Publication Date Title
KR101170524B1 (ko) 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체
EP1979900B1 (en) Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
Emiya et al. Subjective and objective quality assessment of audio source separation
US8612237B2 (en) Method and apparatus for determining audio spatial quality
Narbutt et al. AMBIQUAL-a full reference objective quality metric for ambisonic spatial audio
KR101600082B1 (ko) 오디오 신호의 음질 평가 방법 및 장치
JP2022505964A (ja) 方向性音量マップベースのオーディオ処理
Kressner et al. Evaluating the generalization of the hearing aid speech quality index (HASQI)
Seo et al. Perceptual objective quality evaluation method for high quality multichannel audio codecs
JP2013501952A (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
Choi et al. Objective measurement of perceived auditory quality in multichannel audio compression coding systems
Fleßner et al. Subjective and objective assessment of monaural and binaural aspects of audio quality
JP2006325162A (ja) バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
Vanam et al. Evaluating low bitrate scalable audio quality using advanced version of PEAQ and energy equalization approach
Fleßner et al. Quality assessment of multi-channel audio processing schemes based on a binaural auditory model
Gajecki et al. A Fused Deep Denoising Sound Coding Strategy for Bilateral Cochlear Implants
Delgado et al. Energy aware modeling of interchannel level difference distortion impact on spatial audio perception
Zarouchas et al. Modeling perceptual effects of reverberation on stereophonic sound reproduction in rooms
Schäfer et al. Metrics for the evaluation of audio quality
Seo et al. An improved method for objective quality assessment of multichannel audio codecs
Yuhong et al. Auditory attention based mobile audio quality assessment
Baumgartner et al. Predicting Externalization of Anechoic Sounds
Delgado et al. Design Choices in a Binaural Perceptual Model for Improved Objective Spatial Audio Quality Assessment
Zheng et al. On objective assessment of audio quality—A review
Zarouchas et al. Perceptual distortion maps for room reverberation

Legal Events

Date Code Title Description
A201 Request for examination
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150520

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee