KR20110115984A - Method, apparatus, and program containing medium for measurement of audio quality - Google Patents

Method, apparatus, and program containing medium for measurement of audio quality Download PDF

Info

Publication number
KR20110115984A
KR20110115984A KR1020110035403A KR20110035403A KR20110115984A KR 20110115984 A KR20110115984 A KR 20110115984A KR 1020110035403 A KR1020110035403 A KR 1020110035403A KR 20110035403 A KR20110035403 A KR 20110035403A KR 20110115984 A KR20110115984 A KR 20110115984A
Authority
KR
South Korea
Prior art keywords
envelope
signal
distortion
reference signal
test
Prior art date
Application number
KR1020110035403A
Other languages
Korean (ko)
Other versions
KR101170524B1 (en
Inventor
서정훈
성굉모
전상배
최인용
Original Assignee
서정훈
전상배
성굉모
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서정훈, 전상배, 성굉모 filed Critical 서정훈
Publication of KR20110115984A publication Critical patent/KR20110115984A/en
Application granted granted Critical
Publication of KR101170524B1 publication Critical patent/KR101170524B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡(EITDDist)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 단계를 포함하는 음질 측정 방법이 공개된다.Comparing the reference signal with the test signal to generate one or more model output variables including a variable representing an envelope difference time difference distortion ( EITDDist ); and combining the one or more model output variables to a value corresponding to sound quality. The sound quality measurement method comprising the step of outputting is disclosed.

Figure P1020110035403
Figure P1020110035403

Description

음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체{Method, apparatus, and program containing medium for measurement of audio quality}Sound quality measurement method, sound quality measurement device, sound quality measurement program recording medium {Method, apparatus, and program containing medium for measurement of audio quality}

본 발명은 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체에 관한 것으로서, 특히 객관적 음질측정기술에 관한 것이다. The present invention relates to a sound quality measurement method, a sound quality measurement device, a sound quality measurement program recording medium, and more particularly, to an objective sound quality measurement technology.

객관음질 평가는 심리음향 분야의 중요한 응용분야 중 하나로, 이에 대한 많은 연구가 이루어지고 있다. 이러한 객관음질 평가는 모노와 스테레오 음원의 압축 기법에 대한 품질 평가에 널리 사용되고 있다. Objective sound quality evaluation is one of the important applications in psychoacoustic field. Such objective sound quality evaluation is widely used for quality evaluation of compression technique of mono and stereo sound sources.

국제 전기 통신 연합의 무선통신 부문(ITU Radiocommunication Sector, 이하 'ITU-R'이라 함)의 단일 채널 오디오 신호 압축 코덱의 음질 평가 방법에 대한 권고안이 채택된 바 있다(ITU-R Recommendation BS. 1387-1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998). 이 권고안은 중/저성능 오디오 압축 코덱 및 멀티채널 오디오 압축 코덱의 음질을 평가하는데 적합하지 않을 수 있다. 그리고, 이 권고안의 객관적인 측정은, 보통 ITU-R BS.1116-1 (Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems)을 적용함으로써 주관적으로 평가되는 어플리케이션들에 대해 촛점을 맞춘다.Recommendations have been adopted on how to assess the sound quality of single channel audio signal compression codecs in the ITU Radiocommunication Sector (ITU-R) of the International Telecommunication Union (ITU-R Recommendation BS.1387-). 1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998). This recommendation may not be suitable for assessing the sound quality of medium and low performance audio compression codecs and multichannel audio compression codecs. In addition, objective measurement of this Recommendation focuses on applications that are subjectively assessed by applying ITU-R BS.1116-1 (Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems).

한편, 멀티채널 오디오 압축 코덱은 MPEG 표준화 그룹(ISO/IEC/JTC1/SC29/WGll)에서 개발 논의가 활발히 진행 중이며, 여러 기관에서 개발한 코덱이 발표되었는데 이 코덱들의 음질 평가는 'MUSHRA' 기법에 기반한 청취 주관 평가 기법(ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality(MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001)등을 통해 이루어지고 있으며, 이러한 방법을 이용해 수행한 다수의 코덱들에 대한 청취 평가 결과가 발표되었다(ISO/IEC JTC1/SC29/WGll(MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests," ISO/IEC JTC1/SC29/WG11(MPEG), N7139, "Spatial Audio Coding RM0 listening test data").On the other hand, the multi-channel audio compression codec is being actively discussed in the MPEG standardization group (ISO / IEC / JTC1 / SC29 / WGll), and codecs developed by various organizations have been announced. The sound quality evaluation of these codecs is based on the 'MUSHRA' technique. Based on the listening subjective assessment technique (ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001). The results of listening evaluations for a number of codecs performed using the software have been published (ISO / IEC JTC1 / SC29 / WGll (MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests," ISO / IEC JTC1 / SC29 /). WG11 (MPEG), N7139, "Spatial Audio Coding RM0 listening test data").

그러나, 멀티채널 오디오 압축 코덱의 음질을 평가함에 있어서, 청취자가 음질을 직접 청취하여 평가하고, 이에 대한 통계 처리 과정을 거치는 음질 평가 방법은 주관적이므로, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 음질에 대한 일관성있는 측정을 통해 음질 평가를 수행하거나, 혹은 음질 평가 결과를 예측할 수 있도록 하는 방안이 요구된다.However, in evaluating the sound quality of the multi-channel audio compression codec, the sound quality evaluation method in which the listener directly listens and evaluates the sound quality and undergoes statistical processing thereof is subjective. There is a need for a method to omit evaluation and statistical processing, to perform sound quality evaluation through a consistent measurement of sound quality, or to predict a sound quality evaluation result.

멀티채널 시스템이 보편화되고 멀티채널 압축 기법이 발전함에 따라 멀티채널 오디오 신호에 대한 객관음질 평가에 대한 필요성이 대두되고 있다. As the multi-channel system becomes more common and the multi-channel compression technique is developed, the need for objective sound quality evaluation for the multi-channel audio signal is emerging.

본 발명은 멀티채널 오디오 압축 코덱의 객관적 평가를 위한 평가 인자를 개발하고, 이 평가 인자를 사용하여 오디오 압축 코덱을 평가하는 방법, 장치, 및 이 방법을 수행하기 위한 프로그램을 기록한 매체에 관한 기술을 도출하는 데에 목적을 두고 있다. 그러나 본 발명의 범위가 상술한 목적에 의해 한정되는 것은 아니다.The present invention develops an evaluation factor for objective evaluation of a multi-channel audio compression codec, and uses the evaluation factor to describe a method, an apparatus for evaluating an audio compression codec, and a technique for recording a program for performing the method. The purpose is to derive. However, the scope of the present invention is not limited by the above-mentioned object.

멀티채널 오디오 신호에 대한 객관음질 평가를 위하여, 기존 ITU-R Rec. BS. 1387-1의 음질 예측 모형을 멀티채널 신호로 확장할 수 있다. 이 확장 모형은 ITU-R Rec. BS. 1387-1에서 사용되는 10개의 음색 요소와 함께, 양이 시간차 왜곡(ITDDist), 양이 크기차 왜곡 (ILDDist), 양이 상관관계 왜곡 (IACCDist)과 같은 최소한 3개의 공간감 요소를 더 사용할 수 있다. In order to evaluate the objective sound quality of the multi-channel audio signal, the existing ITU-R Rec. BS. The sound quality prediction model of 1387-1 can be extended to a multichannel signal. This extension model is based on ITU-R Rec. BS. In addition to the 10 timbre components used in 1387-1 , at least three more spatial components can be used, such as bilateral time-distortion ( ITDDist ), bilateral magnitude-distortion ( ILDDist ), and bilateral correlation distortion ( ICACCist ). .

특히, 음상 정위에서의 오차를 예측하기 위한 요소로서 양이 시간차 왜곡(ITDDist, Interaural Time Difference distortion)을 이용할 수 있다. 양이 시간차 왜곡으로서 양이 위상차(Interaural Phase Difference, IPD)가 뚜렷한 저주파 대역에서의 양이 시간차 왜곡 뿐만 아니라, 고주파 대역의 포락선에 대한 양이 시간차왜곡을 사용할 수 있다.In particular, a positive time difference distortion ( ITDDist ) may be used as an element for predicting an error in a sound image position. As the positive time difference distortion, not only the positive time difference distortion in the low frequency band where the positive phase difference ( IPD ) is apparent, but also the positive time difference distortion for the envelope of the high frequency band can be used.

일반적으로 인간이 저주파 음원과 고주파 음원의 위치를 인지할 때, 뇌에서는 서로 다른 처리과정을 거치게 된다. 저주파 음원의 위치 인지에 대해서는 양이 시간차를 사용하게 된다. 저주파 음원 자극에 의해 기저막(basilar membrane)에서 발생하는 자극 패턴(excitation pattern)은 중앙 상올리브핵(Medial Superior Olive, MSO)으로 전달되고, 전달된 신호는 일치 검출 뉴런(coincidence detection neurons)에 의해 처리되어 양이 시간차를 계산하고, 인간은 이를 이용해 음원의 위치를 인지하게 된다.In general, when humans recognize the location of low and high frequency sound sources, the brain undergoes different processes. A positive time difference is used for recognizing the location of a low frequency sound source. Excitation patterns generated in the basal membrane by low-frequency sound stimulation are transmitted to the Medial Superior Olive (MSO), and the transmitted signals are processed by coincidence detection neurons. Yang calculates the time difference, and humans use it to recognize the location of the sound source.

반면, 고주파 음원에 대해서는 기저막의 자극 패턴이 측면 상올리브핵 (Lateral Superior Olive, LSO)으로 전달되고, 이로 인해 양측 측면 상올리브핵에서는 다른 크기의 전기신호가 발생하게 되고, 발생된 전기신호의 차이에 의해 인간은 고주파 음원의 위치를 인지하게 된다. 하지만, 이러한 양이 크기차 외에, 고주파 음원의 포락선 정보 역시 고주파 음원의 음상 정위에 이용될 수 있다. 특히, 측면 상오리브핵에 존재하는 뉴런은 고주파 전치 신호(high frequency transposed tones)에 대한 민감도를 가진다. 또한, 고주파 전치 신호(high frequency transposed tones)에 대한 청신경 섬유(Auditory Nerve Fiber, ANF)의 신경신호 격발(neural firing) 확률은 저주파 음원에 대한 신경섬유의 격발 확률과 유사하다. 또한 고주파 포락선의 양이 시간차에 대한 민감도는 저주파 음원의 양이 시간차에 대한 민감도와 유사하다. 이러한 점에 비추어 볼 때에, 고주파 영역 포락선의 양이 시간차는 저주파 영역의 양이 시간차와 고주파 영역의 양이 크기차와 함께 음상 정위에 많은 영향을 끼친다고 판단할 수 있다.
On the other hand, for the high frequency sound source, the stimulation pattern of the basement membrane is transferred to the Lateral Superior Olive (LSO), which causes different size electric signals to be generated at both sides of the upper olive nucleus. By doing this, the human being perceives the position of the high frequency sound source. However, in addition to the magnitude difference, the envelope information of the high frequency sound source may also be used for the sound image positioning of the high frequency sound source. In particular, neurons present in the lateral rib nucleus have a sensitivity to high frequency transposed tones. In addition, the neural firing probability of the auditory fiber (ANF) for high frequency transposed tones is similar to that of the nerve fiber for low frequency sound sources. In addition, the sensitivity of the high frequency envelope to the time difference is similar to the sensitivity of the low frequency sound source to the time difference. In view of this point, it can be judged that the amount of high frequency region envelope has a time difference, and the amount of low frequency region has a large influence on the sound position along with the time difference and the amount of high frequency region.

본 발명의 일 관점에 따른 기술에서는, 멀티채널 오디오 신호의 객관 평가 인자로서 고주파 포락선의 양이 시간차 왜곡(EITDDist , Envelope Interaural Time Difference distortion)을 사용한다.In the technique according to an aspect of the present invention, the amount of high frequency envelope uses an EITDDist ( Envelope Interaural Time Difference distortion) as an objective evaluation factor of a multichannel audio signal.

본 발명의 일 관점에 따른 음질 측정 방법은, 기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV, Model Output Variable)를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합(combine)하여 음질(audio quality)에 대응하는 값을 출력하는 단계를 포함한다. According to an aspect of the present invention, there is provided a sound quality measuring method comprising: generating at least one model output variable (MOV) including a variable representing an envelope positive time difference distortion by comparing a reference signal and a test signal, And outputting a value corresponding to audio quality by combining the one or more model output variables.

이때, 상기 출력하는 단계는 상기 한 개 이상의 모형출력변수를 인공신경망(artificial neural network)에 입력하여 상기 음질에 대응하는 값을 생성하는 단계를 포함할 수 있다.In this case, the output may include inputting the one or more model output variables to an artificial neural network to generate a value corresponding to the sound quality.

본 발명의 다른 관점에 따른 컴퓨터로 읽을 수 있는 매체는, 컴퓨터에, 기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 단계를 실행시키기 위한 프로그램을 기록한 것이다.According to another aspect of the present invention, a computer-readable medium includes: generating, by a computer, one or more model output variables including a variable representing an envelope positive time difference distortion by comparing a reference signal and a test signal, and A program for executing the step of outputting a value corresponding to sound quality by combining the one or more model output variables is recorded.

본 발명의 또 다른 관점에 따른 컴퓨터로 읽을 수 있는 매체는, 기준 신호와 테스트 신호를 비교하여 생성된 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 프로그램을 변경하는 코드를 기록한 컴퓨터로 읽을 수 있는 매체로서, 상기 코드는, 상기 기준 신호와 상기 테스트 신호를 비교하여 얻은 포락선 양이시간차 왜곡을 나타내는 변수가 상기 한 개 이상의 모형출력변수에 포함되도록 상기 프로그램을 변경하도록 되어 있다.According to another aspect of the present invention, a computer-readable medium may include a code for changing a program for outputting a value corresponding to sound quality by combining one or more model output variables generated by comparing a reference signal and a test signal. As a computer-readable medium, the code is adapted to modify the program such that a variable representing an envelope positive time difference distortion obtained by comparing the reference signal with the test signal is included in the one or more model output variables.

본 발명의 또 다른 관점에 따른 음질 측정 장치는, 기준 신호(reference signal)와 테스트 신호(signal under test)를 비교하여, 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference Distortion)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV)를 생성(produce)하는 모형출력변수 생성수단, 및 상기 한 개 이상의 모형출력변수를 조합(combine)하여 음질(audio quality)에 대응하는 값을 출력하는 출력수단을 포함한다. An apparatus for measuring sound quality according to another aspect of the present invention includes a variable indicating an envelope interaural time difference ( EITDDist ) by comparing a reference signal and a signal under test. Model output variable generating means for generating one or more model output variables (MOV), and output means for outputting a value corresponding to audio quality by combining the one or more model output variables. It includes.

이때, 상기 생성수단은 및 상기 출력 수단은, 상기 기준 신호와 상기 테스트 신호를 비교하여 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계, 및 상기 한 개 이상의 모형출력변수를 조합하여 음질에 대응하는 값을 출력하는 단계를 실행시키기 위한 프로그램을 구동할 수 있는 처리장치의 일부일 수 있다.In this case, the generating means and the output means, by comparing the reference signal and the test signal to generate at least one model output variable including a variable representing an envelope positive time difference distortion, and the at least one model It may be part of a processing apparatus capable of driving a program for executing the step of outputting a value corresponding to sound quality by combining output variables.

상술한 본 발명의 다양한 관점에 있어서, 상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist

Figure pat00001
로 주어지며,
Figure pat00002
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타낼 수 있다. In various aspects of the present invention described above, EITDDist, which is a variable representing the time difference distortion of the envelope,
Figure pat00001
Given by
Figure pat00002
May represent an envelope positive time difference distortion generated by comparing the reference signal with a k-th frequency band of an n-th time frame of the test signal.

또한, 상술한 본 발명의 다양한 관점에 있어서, 상기

Figure pat00003
Figure pat00004
로 주어지고, 상기
Figure pat00005
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이시간차(EITD, Envelope Interaural Time Difference)의 차이값을 나타내며, 상기
Figure pat00006
는 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값이고, 상기
Figure pat00007
는 상기 기준 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값일 수 있다.In addition, in various aspects of the present invention described above,
Figure pat00003
Is
Figure pat00004
Given by
Figure pat00005
Denotes a difference value between an envelope difference time difference ( EITD ) in a k-th frequency band of an n-th time frame of the reference signal and the test signal.
Figure pat00006
Is the nonlinear transform value of the envelope coefficient in the k-th frequency band of the n-th time frame of the test signal ( EIACC , Envelope InteAural Cross-correlation Coefficient).
Figure pat00007
The envelope amount in the k th frequency band of the n th time frame of the reference signal may be a nonlinear transform value of the correlation coefficient ( EIACC , Envelope InteAural Cross-correlation Coefficient).

또한, 상술한 본 발명의 다양한 관점에 있어서, 상기 기준 신호는 멀티채널 오디오 신호로부터 생성된 것이고, 상기 테스트 신호는 상기 음질을 측정하고자 하는 테스트 기기(device under test)에 상기 멀티채널 오디오 신호를 통과시켜 생성된 것일 수 있다.In addition, in various aspects of the present invention described above, the reference signal is generated from a multichannel audio signal, and the test signal passes the multichannel audio signal to a device under test to measure the sound quality. It may be generated by.

또한, 상술한 본 발명의 다양한 관점에 있어서, 상기 한 개 이상의 모형출력변수 중 적어도 하나는, 상기 기준 신호 및 상기 테스트 신호의 자극 패턴(excitation pattern)을 비교하여 생성될 수 있다.Also, in various aspects of the present invention described above, at least one of the one or more model output variables may be generated by comparing an excitation pattern of the reference signal and the test signal.

또한, 상술한 본 발명의 다양한 관점에 있어서, 상기 포락선 양이시간차 왜곡을 나타내는 변수는 상기 기준 신호 및 상기 테스트 신호를 필터 뱅크(filter bank)에 통과시켜 생성한 것일 수 있다.In addition, in various aspects of the present invention described above, the variable representing the envelope positive time difference distortion may be generated by passing the reference signal and the test signal through a filter bank.

본 발명에 따르면, 포락선 양이시간차 왜곡에 관한 변수를 이용함으로써, 멀티채널 오디오 코덱의 객관평가 모형의 성능을 높일 수 있다. 본 발명의 범위가 상술한 효과에 의해 제한되는 것은 아니다.According to the present invention, the performance of the objective evaluation model of the multi-channel audio codec can be improved by using a variable relating to the envelope difference time difference distortion. The scope of the present invention is not limited by the above-mentioned effects.

도 1 은 본 발명의 일 실시예에 적용될 수 있는 ITU-R에서 권고하는 멀티채널 오디오 재생 시스템에 대한 구성 예시도이다.
도 2 는 본 발명의 일 실시예에 따른 멀티채널 오디오 압축 코덱의 음질 평가 장치에 대한 구성도이다.
도 3은 10개의 소리 전달 경로를 그래프로 나타낸 것이다.
도 4 는 본 발명의 일 실시예에 따른 음질 평가 장치의 전처리부에 대한 동작 설명도이다.
도 5 는 본 발명의 일 실시예에 따른 멀티채널 오디오 압축 코덱의 음질 평가 방법에 대한 흐름도이다.
도 6은 ILD 왜곡을 계산하는 흐름도이며, 도 7은 본 발명의 일 실시예에 따라 EITD 왜곡을 계산하는 흐름도이다.
도 8은 포락선 추출의 예를 나타낸 것이다.
도 9는 도 7에 따른 EITD 왜곡을 계산하는 흐름을 더 자세히 나타낸 것이다.
1 is an exemplary configuration diagram of a multi-channel audio reproduction system recommended by ITU-R that can be applied to an embodiment of the present invention.
2 is a block diagram of a sound quality evaluation apparatus of a multi-channel audio compression codec according to an embodiment of the present invention.
3 graphically illustrates ten sound transmission paths.
4 is an operation explanatory diagram of a preprocessor of the sound quality evaluation apparatus according to an embodiment of the present invention.
5 is a flowchart illustrating a sound quality estimation method of a multi-channel audio compression codec according to an embodiment of the present invention.
6 is a flowchart for calculating an ILD distortion, and FIG. 7 is a flowchart for calculating an EITD distortion according to an embodiment of the present invention.
8 shows an example of envelope extraction.
9 illustrates the flow of calculating EITD distortion in accordance with FIG. 7 in more detail.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 더 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, whereby those skilled in the art may easily implement the technical idea of the present invention. There will be. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail. Hereinafter, a preferred embodiment of the present invention will be described in detail with reference to the accompanying drawings.

ITU-R Recommendation BS.1116-1, "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems", ITU-R Recommendation BS. 1387-1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998, 과 ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality(MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001 및 ISO/IEC JTC1/SC29/WGll(MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests," ISO/IEC JTC1/SC29/WG11(MPEG), N7139, "Spatial Audio Coding RM0 listening test data"의 내용은 이 문서에 참조로서 포함된다.ITU-R Recommendation BS.1116-1, "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems", ITU-R Recommendation BS. 1387-1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998, and ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001 and ISO / IEC JTC1 / SC29 / WGll (MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests, "ISO / IEC JTC1 / SC29 / WG11 (MPEG), N7139," Spatial Audio Coding RM0 listening test data ", are incorporated herein by reference.

일반적으로, 멀티채널 오디오는 프론트 스피커(LF(Left Front), RF(Right Front)), 센터 스피커(C(Center)), 중저음 채널(LEF(Low Frequency Effect)), 리어 스피커(LS(Left Surround), RS(Right Surround))의 6채널(혹은 5.1채널)을 가지는데, 이중 중저음 채널(LEF)은 저역 효과 채널로서 실제 사용하지 않는 경우가 많으므로, 본 발명의 실시예에서는 프론트 스피커(LF, RF), 센터 스피커(C), 리어 스피커(LS, RS)의 다섯 채널만을 사용하기로 한다.In general, multichannel audio includes front speakers (LF (Left Front), RF (Right Front), center speaker (C (Center)), bass channel (LEF (Low Frequency Effect)), rear speakers (LS (Left Surround)). ), 6 channels (or 5.1 channels) of RS (Right Surround), and since the double bass channel (LEF) is not actually used as a low-frequency effect channel, in the embodiment of the present invention, the front speaker (LF) Only five channels, RF), center speaker (C) and rear speaker (LS, RS) will be used.

도 1 은 본 발명의 일 실시예에 적용될 수 있는, ITU-R에서 권고하는 멀티채널 오디오 재생 시스템에 대한 구성 예시도이다.1 is an exemplary configuration diagram of a multi-channel audio reproduction system recommended by ITU-R, which may be applied to an embodiment of the present invention.

도 1에 도시된 바와 같이, ITU-R에서 권고하는 멀티채널 오디오 재생 시스템은, 5채널 스피커는 청취자(10)를 중심으로 하나의 원주 상에 배치되고, 좌우 프론트 스피커(L, R)와 청취자(10)는 정삼각형을 이루게 되며, 정면의 센터 스피커(C)와 청취자(10)의 거리는 좌우 프론트 스피커(L, R)와 등거리가 되고, 좌우 리어 스피커(LS, RS)는 정면 전방을 0도로 하고 각 100도~120도의 동심원상에 위치할 수 있다.As shown in Fig. 1, in the multi-channel audio reproduction system recommended by the ITU-R, five-channel speakers are arranged on one circumference around the listener 10, and the left and right front speakers (L, R) and the listener are located. 10 forms an equilateral triangle, and the distance between the front center speaker C and the listener 10 is equidistant from the left and right front speakers L and R, and the left and right rear speakers LS and RS are zero degrees in front of the front. It can be located on the concentric circle of 100 degrees to 120 degrees.

이와 같은 ITU-R에서 권고하는 표준 배치안에 따른 이유는, 대부분의 소스가 이 배치기준에 적합하게 편집/녹음되어 있으므로, 이 표준 배치안에 따라야 의도한 음질(최상의 음질)을 획득할 수 있기 때문이다.The reason for this standard arrangement recommended by the ITU-R is that most sources are edited and recorded to meet this placement standard, so that the intended sound quality (best sound quality) can be obtained by following this standard arrangement. .

본 발명의 일 실시예에서는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 청취자(10)를, 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용하여 5채널 스피커(L, R, C, LS, RS)로부터 멀티채널 오디오 신호의 충격 응답을 측정하여, 음질을 평가하기 위한 멀티채널 오디오 압축 코덱의 음질 평가 장치로 대체할 수 있다.In an embodiment of the present invention, a 5-channel speaker (L, R, C) using a microphone that simulates the listener 10 of the standard multichannel audio reproduction system recommended by ITU-R and the human body (head and torso) is used. By measuring the impact response of the multi-channel audio signal from (LS, RS), it can be replaced by the sound quality evaluation device of the multi-channel audio compression codec for evaluating sound quality.

도 2는 본 발명의 일 실시예에 따른 멀티채널 오디오 압축 코덱의 음질 평가 장치에 대한 구성도이다.2 is a block diagram of a sound quality evaluation apparatus of a multi-channel audio compression codec according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 멀티채널 오디오 압축 코덱의 음질 평가 장치(10)는, ITU-R에서 권고하는 표준 멀티 채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호(

Figure pat00008
)를 생성하기 위한 전처리부(11)와, 전처리부(11)에 의해 생성된 양이 입력 신호(
Figure pat00009
)의 양이 상관 정도 왜곡(IACCDist), 양이 크기 차이 왜곡(ILDDist), 및 고주파 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference distortion)을 포함하는 모형출력변수들(MOV, Model Output Variables)을 산출하기 위한 출력변수 계산부(12)와, 출력변수 계산부(12)로부터 위의 모형출력변수들을 입력받아, 이를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로부(13)를 포함할 수 있다.As shown in Fig. 2, the sound quality evaluation device 10 of the multi-channel audio compression codec is input from each channel (L, R, C, LS, RS) of the standard multi-channel audio reproduction system recommended by ITU-R. Based on a multichannel audio signal
Figure pat00008
) And the amount generated by the preprocessor 11 generates an input signal (
Figure pat00009
Model Output Variables (MOV), including positive correlation distortion ( IACCDist ), positive magnitude difference distortion ( ILDDist ), and high-frequency envelope positive time difference distortion ( EITDDist ). It may include an output neural network unit 13 for calculating the output variable calculation unit 12, and the above model output variables from the output variable calculation unit 12, and outputs the grade of sound quality based on this. have.

여기서, 양이 상관 정도(IACC: Interaural Cross Correlation)는 양쪽 귀(양이)로 입력되는 신호의 상관 정도를 나타내고, 양이 크기 차이(ILD: Interaural Level Difference)는 양쪽 귀(양이)로 입력되는 신호의 에너지 비율을 나타낼 수 있다. 또한, 고주파 포락선 양이시간차(EITD)는 고주파 대역의 오디오 신호의 포락선이 양쪽 귀로 입력되는 시간의 차이를 나타낼 수 있다.Here, the degree of bilateral correlation ( IACC ) represents the degree of correlation of the signal input to both ears (sheep), and the amount of interaural level difference (ILD) is input to both ears (sheep). It can represent the energy ratio of the signal to be. In addition, the high frequency envelope difference time difference EITD may represent a difference in time when an envelope of an audio signal of a high frequency band is input to both ears.

이하, 본 발명에 따른 멀티채널 오디오 압축 코덱 음질 평가 장치의 구성요소들의 동작을 개략적으로 살펴보면, 평가할 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원의 다섯 채널은 LFtest, RFtest, Ctest, LStest, RStest로 나타내고, 본래 음원의 다섯 채널은 LFref, RFref, Cref, LSref, RSref 로 나타낸다. Hereinafter, the operation of the components of the apparatus for evaluating sound quality of a multi-channel audio compression codec according to the present invention will be described. Five channels of a sound source encoded and decoded by the multi-channel audio compression codec to be evaluated are LF test , RF test , C test , LS test and RS test are indicated, and the original five channels are represented by LF ref , RF ref , C ref , LS ref , and RS ref .

본 문서에서 LFtest, RFtest, LFref, RFref는 각각 Ltest, Rtest, Lref, Rref라고 지칭될 수도 있다.In this document, LF test , RF test , LF ref , and RF ref may be referred to as L test , R test , L ref , and R ref , respectively.

우선 LFtest, RFtest, Ctest, LStest, RStest , LFref, RFref, Cref, LSref, RSref의 총 10개의 신호는 전처리부(11)로 입력되고, 전처리부(11)는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하며, 이들을 합산하여 양이 입력 신호(

Figure pat00010
)를 산출할 수 있다.First , a total of 10 signals of LF test , RF test , C test , LS test , RS test , LF ref , RF ref , C ref , LS ref , and RS ref are input to the preprocessor 11, and the preprocessor 11 Is a function of the impact response of the sound transmission path measured using a microphone that simulates the human body (head and torso) of the standard multichannel audio playback system recommended by the ITU-R.
Figure pat00010
) Can be calculated.

이때, 총 소리 전달 경로는 10개이며, 이는 도 3과 같은 그래프로 나타낼 수 있다. 출력변수 계산부(12)는 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(

Figure pat00011
)의 양이 상관 정도 왜곡(IACCDist), 양이 크기 차이 왜곡(ILDDist), 고주파 포락선 양이시간차 왜곡(EITDDist)을 포함하는 변수들을 출력변수들로 산출하여, 이 출력변수들을 인공신경망회로부(13)에 입력하고, 인공신경망회로부(13)는 출력변수 계산부(12)로부터 입력된 이 출력변수들을 바탕으로 객관적인 음질 등급(ODG, Objective Difference Grade)을 출력할 수 있다. At this time, the total sound transmission path is ten, which can be represented by a graph as shown in FIG. The output variable calculator 12 has two input signals inputted from the preprocessor 11.
Figure pat00011
) Are computed as output variables including the amount of correlation correlation distortion ( IACCDist ), the magnitude difference distortion ( ILDDist ), and the high frequency envelope quantum time difference distortion ( EITDDist ), and then output these output variables to the artificial neural network unit 13. ), And the artificial neural network unit 13 may output an objective sound grade (ODG) based on the output variables input from the output variable calculator 12.

여기서, 출력변수 계산부(12)는 수학식 1과 수학식 2를 이용하여 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(

Figure pat00012
)의 양이 크기 차이 왜곡(ILDDist)을 산출할 수 있다. 압축되지 않은 본래 오디오 신호의 양이 크기 차이(ILD)를 ILDref라 하고, 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 오디오 신호의 양이 크기 차이(ILD)를 ILDtest라 한다. 양이 상관정도(IACC)에 대해서도 이와 같이 명명할 수 있다. 양이 상관 정도(IACC) 및 양이 크기 차이(ILD)는 44100Hz의 주파수로 샘플링되었을 때 2048개의 샘플을 50%씩 중첩하며 진행하는 시간 프레임에서 24개의 청각 임계대역에 대해 각각 계산될 수 있다. 이중 n번째 프레임의 k번째 대역에서 양이 크기 차이 왜곡(ILDDist)은 ILDDist[k,n]으로 표시할 수 있다.Here, the output variable calculator 12 uses two equations inputted from the preprocessor 11 using equations (1) and (2).
Figure pat00012
) May yield magnitude difference distortion ( ILDDist ). La this size difference (ILD) the amount of the original audio signal that is not compressed ILD ref, and the amount of the audio signal coding and decoding by the multi-channel audio compression codec, and the size difference (ILD) ILD test la. The same can be said for quantity correlation ( IACC ). The amount of positive correlation ( IACC ) and the amount of positive difference ( ILD ) can be calculated for 24 auditory critical bands in a time frame that progresses by 50% overlapping 2048 samples when sampled at a frequency of 44100 Hz. The positive magnitude difference distortion ( ILDDist ) in the k-th band of the n-th frame may be represented by ILDDist [k, n].

[수학식 1] [Equation 1]

Figure pat00013
Figure pat00013

여기서, ILDDist는 양이 크기 차이 왜곡(ILDDist)이며, w[k]는 임계 대역 범위에 따라 결정되는 가중치 함수로서, 양이 크기 차이(ILD)에 대한 청각 민감도를 반영할 수 있다.In this case, ILDDist is a magnitude difference distortion ( ILDDist ), and w [k] is a weight function determined according to a critical band range, and may reflect auditory sensitivity with respect to magnitude difference ( LDD ).

한편, n번째 시간 프레임에서 전 청각 대역의 양이 크기 차이 왜곡(ILDDist)을 획득하기 위해 수학식 2와 같이 평균할 수 있다.Meanwhile, the amount of all auditory bands in the nth time frame may be averaged as in Equation 2 to obtain magnitude difference distortion ( ILDDist ).

[수학식 2] [Equation 2]

Figure pat00014
Figure pat00014

수학식 2와 같이, 전 시간 프레임에 대해 평균함으로써, 해당 멀티채널 압축 코덱의 양이 크기 차이 왜곡(ILDDist)을 계산할 수 있으며, 양이 상관 정도(IACC)에 대해서도 이와 같이 계산할 수 있다. 이때, 양이 상관 정도 왜곡(IACCDist)은 ICCDist로 나타내며, 양이 크기 차이 왜곡(ILDDist) 및 양이 상관 정도 왜곡(ICCDist)은 청취자에 의한 멀티채널 오디오 압축 코덱의 음질 평가(주관적인 평가) 결과와 높은 상관관계를 가지므로, 출력변수 계산부(12)는 이를 출력변수로 여길 수 있으며, 이값과 여타 가능한 다른 출력변수들을 인공신경망회로부(13)에 입력하여 객관성 및 일관성있는 음질 등급을 출력할 수 있다.As shown in equation (2), the former by averaging over the time frames, and the amount of the multi-channel compression codec can calculate the size difference distortion (ILDDist), can be calculated the amount also applies to any degree (IACC). At this time, the positive correlation distortion ( IACCDist ) is represented by ICCDist , and the positive magnitude difference distortion ( ILDDist ) and the positive correlation distortion ( ICCDist ) are the result of the sound quality evaluation (subjective evaluation) of the multi-channel audio compression codec by the listener. Since it has a high correlation, the output variable calculation unit 12 may regard this as an output variable, and input this value and other possible output variables to the artificial neural network unit 13 to output an objectivity and a consistent sound quality grade. have.

출력변수 계산부(12)에서 고주파 포락선 양이시간차 왜곡(EITDDist)을 계산하는 구체적인 방법은 이하 도 8에서 설명한다.A detailed method of calculating the high frequency envelope lag distortion EITDDist in the output variable calculator 12 will be described with reference to FIG. 8.

도 4는 본 발명에 따른 음질 평가 장치의 전처리부에 대한 일실시예의 동작 설명도이다.4 is an operation explanatory diagram of an embodiment of a preprocessor of the sound quality evaluation apparatus according to the present invention.

도 4에 도시된 바와 같이, 음질 평가 장치(10)의 전처리부(11)는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하고, 이들을 합산하여, 양이 입력 신호(

Figure pat00015
)를 산출할 수 있다.As shown in FIG. 4, the preprocessing unit 11 of the sound quality evaluation apparatus 10 measures the amount of the human body (head and torso) of the standard multichannel audio reproduction system recommended by the ITU-R using a microphone. Transmits the shock response of the sound transmission path, sums them up, and adds the positive input signal (
Figure pat00015
) Can be calculated.

도 5는 본 발명에 따른 멀티채널 오디오 압축 코덱의 음질 평가 방법에 대한 일실시예 흐름도이다.5 is a flowchart illustrating a sound quality estimation method of a multi-channel audio compression codec according to the present invention.

먼저, 멀티채널 오디오 압축 코덱의 음질 평가 장치(10)의 전처리부(11)는 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원 및 본래 음원의 충격 응답을 전달함수화하고, 이들을 합산하여 양이 입력 신호(

Figure pat00016
)를 산출할 수 있다(S501).First, the preprocessing unit 11 of the sound quality evaluation apparatus 10 of the multi-channel audio compression codec transfers the shock response of the sound source encoded and decoded by the multi-channel audio compression codec and the original sound source, sums them, and inputs a positive input. signal(
Figure pat00016
) Can be calculated (S501).

이후, 출력변수 계산부(12)는 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(

Figure pat00017
)의 양이 상관 정도 왜곡(IACCDist), 양이 크기 차이 왜곡(ILDDist), 고주파 포락선 양이시간차 왜곡(EITDDist)을 포함하는 출력변수들을 산출하여(S502), 이 출력변수들을 인공신경망회로부(13)에 입력할 수 있다(S503).Thereafter, the output variable calculator 12 receives two input signals from the preprocessor 11.
Figure pat00017
) Are calculated by calculating the output variables including the correlation degree distortion ( IACCDist ), the difference magnitude difference distortion ( ILDDist ), and the high frequency envelope positive time difference distortion ( EITDDist ) (S502). ) Can be entered (S503).

그리고, 인공신경망회로부(13)는 출력변수 계산부(12)로부터 입력된 출력변수들을 바탕으로 음질의 등급을 출력할 수 있다(S504).In addition, the artificial neural network unit 13 may output a sound quality grade based on the output variables input from the output variable calculator 12 (S504).

도 2의 출력변수 계산부(12)에서는 전처리부(11)에 의해 생성된 양이 입력 신호(

Figure pat00018
)의 포락선(Envelope)의 양이 시간 차이(EITD, Envelope Interaural Difference)가 더 출력될 수 있다. 포락선의 양이 시간 차이(EITD)는 인공신경망회로부(13)에 더 입력될 수 있다.
In the output variable calculator 12 of FIG. 2, the amount generated by the preprocessor 11 is determined by the input signal (
Figure pat00018
The time difference EITD (Envelope Interaural Difference) may be further output. The amount of envelope time difference EITD may be further input to the artificial neural network unit 13.

공간감 변화에 있어서 음상 위치의 변화로 인해 발생하는 음질 저하(degradation)는 중요한 평가 요소 중의 하나이다. 고전적인 듀플렉스(Duplex) 이론에 따르면 고주파(High Frequency) 성분에 대해서는 양이 크기 차이(ILD)에 의해 그 음상의 위치를 인지할 수 있다. 하지만 최근의 연구들에 의해 양이 크기 차이(ILD) 뿐만 아니라 고주파 성분의 포락선의 양이 시간 차이(EITD) 역시 음상 인지에 영향을 미친다고 알려져 있다.In the change of spatial feeling, the degradation caused by the change of the position of the sound image is one of the important evaluation factors. According to the classical Duplex theory, the position of the sound image can be recognized by the magnitude difference ( ILD ) for the high frequency component. However, recent studies have shown that not only the magnitude difference ( ILD ) but also the time difference ( EITD ) of the high-frequency envelope influences the recognition of sound images.

본 발명의 일 실시예에서는 고주파 성분에 대한 양이 크기 차이(ILD)를 계산하는 방법과 포락선의 양이 시간 차이(EITD)를 계산하는 방법을 제안한다.In an embodiment of the present invention proposes a method for the amount of how the amount of the high-frequency component calculate the size difference (ILD) and an envelope calculating a time difference (EITD).

멀티채널 오디오의 객관적 성능 평가를 위해서는 음색의 왜곡에 대한 정량적 분석과 더불어 공간감의 왜곡에 대한 정량적 분석이 요구된다. 공간감 왜곡 평가에 있어서 중요한 요소 중의 하나는 음상 정위의 왜곡이다. 인간은 고주파 성분의 음상을 인지함에 있어서 양이 크기 차이(ILD, Interaural Level Difference)와 포락선의 양이 시간 차이(EITD, Envelope Interaural Differnece)를 이용하기 때문에 이 두 개의 성질(feature)에 기반하여 정량적으로 음상 정위 성능을 평가할 수 있다. 양이 크기 차이(ILD)와 포락선의 양이 시간 차이(EITD)는 기준(reference) 신호(예컨데, 원음)와 테스트(test) 신호(예컨대, 코덱에 의해 원음이 부호화 및 복호화된 음)에 대해 각각 계산되며, ILD 왜곡(ILDDist) 및 EITD 왜곡(EITDDist) 값은 기준 신호와 테스트 신호에 대해 해당 차이의 인지적 거리로 계산할 수 있다. 고주파 성분의 ILDEITD를 계산하기 위해서는 우선적으로 멀티채널 음원을 양이 신호로 합성하여야 한다. 양이 신호 합성에는 머리 전달 함수(Head-Related Transfer Functions, HRTFs)가 이용되는데, HRTF는 각 스피커 위치에서 양쪽 귀까지의 음파전달 경로를 의미한다. 이와 같은 방법으로 합성된 양이 신호를 이용하여 고주파 성분의 ILDEITD를 계산할 수 있다.
In order to evaluate objective performance of multi-channel audio, quantitative analysis of tone distortion and quantitative analysis of spatial distortion are required. One of the important factors in evaluating the spatial distortion is the distortion of sound image orientation. Humans are quantitative on the basis of these two characteristics because the amount of interfering difference ( ILD ) and the amount of envelope use temporal difference ( EITD ) in recognizing the sound image of high frequency components. We can evaluate the sound localization performance. The positive magnitude difference ( ILD ) and the positive time difference ( EITD ) of the envelope are used for reference signals (e.g., the original sound) and test signals (e.g., the sound encoded and decoded by the codec). The ILD distortion ( ILDDist ) and the EITD distortion ( EITDDist ) values may be calculated as the cognitive distances of the difference between the reference signal and the test signal. In order to calculate ILD and EITD of high frequency components, multi-channel sound sources must first be synthesized with positive signals. Head-Related Transfer Functions (HRTFs) are used for bipolar signal synthesis, where HRTF refers to the sound propagation path from each speaker position to both ears. The amount synthesized in this way can be used to calculate the high frequency component ILD and EITD .

도 6은 상술한 ILD 왜곡을 계산하는 흐름도이다.6 is a flowchart for calculating the above-described ILD distortion.

도 6의 양이 합성부(Binaural Synthesis)(601)에서는 상술한 LFtest, RFtest, Ctest, LStest, RStest , 및 LFref, RFref, Cref, LSref, RSref 를 각각 입력받아 기준 신호의 양이 입력 신호(

Figure pat00019
)와 테스트 신호의 양이 입력 신호(
Figure pat00020
)를 산출할 수 있다. 도 6의 말초 청각 모형부(pheripheral ear model)(602)에서는 기준 신호의 양이 입력 신호(
Figure pat00021
)와 테스트 신호의 양이 입력 신호(
Figure pat00022
)를 각각 입력받아 기준 신호의 자극 패턴(excitation pattern)과 테스트 신호의 자극 패턴을 각각 산출할 수 있다. 도 6의 포락선 추출부(envelop extraction)(603)에서는 기준 신호의 자극 패턴과 테스트 신호의 자극 패턴을 입력받아 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴의 포락선을 각각 산출할 수 있다. 도 6의 인지 모델부(cognition model)(604)에서는 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴을 입력받아 고주파 성분의 ILDDist를 산출할 수 있다.In the Binaural Synthesis 601 of FIG. 6, the aforementioned LF test , RF test , C test , LS test , RS test , and LF ref , RF ref , C ref , LS ref , and RS ref are respectively input. Take the reference signal amount as the input signal (
Figure pat00019
) And the amount of test signal
Figure pat00020
) Can be calculated. In the peripheral ear model 602 of FIG. 6, the amount of reference signal is determined by the input signal (
Figure pat00021
) And the amount of test signal
Figure pat00022
) Can be respectively input to calculate an excitation pattern of the reference signal and an excitation pattern of the test signal. The envelope extraction unit 603 of FIG. 6 may receive the stimulus pattern of the reference signal and the stimulus pattern of the test signal to calculate an envelope of the stimulus pattern of the reference signal and an envelope of the stimulus pattern of the test signal, respectively. In the recognition model 604 of FIG. 6, an ILDDist of a high frequency component may be calculated by receiving an envelope of a stimulus pattern of a reference signal and a stimulus pattern of a test signal.

도 6의 양이 합성부(601)는 도 2의 전처리부(11)에 대응될 수 있다. 도 6의 말초 청각 모형부(602), 포락선 추출부(603), 및 인지 모델부(604)는 도 2의 출력변수 계산부(12)에 포함될 수 있다.The amount synthesizing unit 601 of FIG. 6 may correspond to the preprocessor 11 of FIG. 2. The peripheral auditory model 602, the envelope extractor 603, and the cognitive model 604 of FIG. 6 may be included in the output variable calculator 12 of FIG. 2.

ILD는 ERB 스케일에 한 중심주파수를 가지는 대역통과필터로 구성된 말초 청각 모형(peripheral ear model)을 통과한 귀 입력(ear input) 신호의 에너지 차이로 정의할 수 있고, 이는 수학식 3과 같이 나타낼 수 있다. 말초 청각 모형은 양쪽 귀로 입력되는 신호로부터 두개기부 멤브레인(basilar membrane)에서 발생하는 자극 패턴(excitation pattern)을 계산하는 청각 모형이다. ILD can be defined as the energy difference of the ear input signal passing through the peripheral ear model, which consists of a bandpass filter with a center frequency on the ERB scale, which can be expressed as have. The peripheral auditory model is an auditory model that calculates an excitation pattern occurring in the basallar membrane from signals input to both ears.

[수학식 3]&Quot; (3) "

Figure pat00023
Figure pat00023

양쪽 귀 입력 신호의 에너지차이가 수학식 3처럼 표현될 수 있지만, 실제 ILD에 의해 뇌에서 발생하는 기작은 이와 차이가 있을 수 있다. 입력 신호의 에너지가 차이가 나는 경우, ILD를 처리하는 IC(Inferior Colliculus)에서는 큰 크기의 입력이 들어오는 귀에 대한 뉴럴 스파이크(neural spike)가 발생하는 빈도가 더 높기 때문에 이에 대한 처리가 필요할 수 있다. IC에서 발생하는 뉴럴 스파이크(neural spike) 수에 대한 모형은 탄젠트 S자 결장함수(tangential sigmoid function)의 형태를 따르기 때문에 계산된 ILD 값은 결장함수에 의해 비선형 변환되고, 이는 수학식 4 및 수학식 5와 같이 표현될 수 있다.Although the energy difference between the input signals of both ears can be expressed as Equation 3, the mechanism generated in the brain by the actual ILD can be different. If the energy of the input signal is different, an Inferior Colliculus (IC) that processes the ILD may need to deal with the neural spike in the ear having a large input. Since the model for the number of neural spikes occurring in the IC follows the form of a tangent sigmoid function, the calculated ILD values are nonlinearly transformed by the colon function, which is represented by equation (4) and (4). It can be expressed as 5.

[수학식 4]&Quot; (4) "

Figure pat00024
Figure pat00024

[수학식 5][Equation 5]

Figure pat00025
Figure pat00025

이 경우 귀 입력(ear input) 신호의 에너지 차에 따라 결장함수의 기울기 (S)는 다른 부호를 갖는데, 왼쪽 귀의 입력이 클 경우는 양의 값, 오른쪽 귀의 입력이 클 경우는 음의 값을 가질 수 있다. 또한 각 주파수 밴드에 따른 IC에서의 뉴럴 스파이크(neural spike) 발생 기작의 민감도를 반영하기 위해 밴드에 따라 각각 다른 기울기를 가질 수 있다. Tk는 결장함수의 역치(threshold) 값인데, ILD의 경우 0의 값을 갖는다. 이후 시간-주파수 분할된 신호에 대해 ILD 왜곡 값은 수학식 6과 같이 계산될 수 있다.In this case, the slope (S) of the colon function has a different sign according to the energy difference of the ear input signal, which has a positive value when the input of the left ear is large and a negative value when the input of the right ear is large. Can be. In addition, to reflect the sensitivity of the neural spike generation mechanism in the IC according to each frequency band may have a different slope for each band. Tk is the threshold of the colon function, which is 0 for ILD . Thereafter, the ILD distortion value for the time-frequency divided signal may be calculated as shown in Equation 6.

[수학식 6]&Quot; (6) "

Figure pat00026
Figure pat00026

최종 ILD 왜곡은 주파수 밴드와 시간 프레임에 걸쳐 평균값을 구함으로써 계산할 수 있고, 이는 수학식 7과 같이 표현할 수 있다. 최종 ILD 왜곡은 ILD로 인한 테스트 신호와 기준 신호 사이의 인지적 거리로 간주될 수 있다.The final ILD distortion can be calculated by obtaining an average value over a frequency band and a time frame, which can be expressed as Equation (7). The final ILD distortion can be regarded as the cognitive distance between the test signal and the reference signal due to the ILD .

[수학식 7][Equation 7]

Figure pat00027

Figure pat00027

EITD 왜곡은 포락선 양이시간차의 차이로 인해 발생하는 테스트 음원과 참조 음원의 음상위치 차이의 인지적인 거리를 나타낸다. EITD 왜곡은 ILD 왜곡과 함께 고주파 음원의 음상위치 차이로 인해 발생하는 공간감을 평가하는 요소로 사용될 수 있다. The EITD distortion represents the cognitive distance between the difference in the image position between the test source and the reference source caused by the difference in the envelope difference time difference. EITD distortion can be used as an element to evaluate the spatial feeling caused by the difference in the image position of high frequency sound source with ILD distortion.

도 7은 EITD 왜곡을 계산하는 흐름을 나타낸 도면이다. 7 is a diagram illustrating a flow of calculating EITD distortion.

도 7의 양이 합성부(Binaural Synthesis)(701)에서는 상술한 LFtest, RFtest, Ctest, LStest, RStest , 및 LFref, RFref, Cref, LSref, RSref 를 각각 입력받아 기준 신호의 양이 입력 신호(

Figure pat00028
)와 테스트 신호의 양이 입력 신호(
Figure pat00029
)를 산출할 수 있다. 양이 합성부(701)는 도 2의 전처리부(11)에 대응될 수 있다. In the Binaural Synthesis 701 of FIG. 7, the above-described LF test , RF test , C test , LS test , RS test , and LF ref , RF ref , C ref , LS ref , and RS ref are respectively input. Take the reference signal amount as the input signal (
Figure pat00028
) And the amount of test signal
Figure pat00029
) Can be calculated. The amount synthesizer 701 may correspond to the preprocessor 11 of FIG. 2.

양이 합성부(701)에서는 머리전달함수(Head Related Transfer Functions, HRTFs)를 이용하여 멀티채널 음원을 양이 신호로 합성하는데, 이를 각각

Figure pat00030
,
Figure pat00031
로 표시할 수 있다. 멀티채널 음원 및 양이 신호에서 아래첨자 testref는 각각 평가 신호와 참조신호를 의미한다.The positive synthesizer 701 synthesizes a multichannel sound source using positive head signals using head related transfer functions (HRTFs), respectively.
Figure pat00030
,
Figure pat00031
As shown in FIG. The subscripts test and ref in the multichannel sound source and positive signal mean the evaluation signal and the reference signal, respectively.

양이 신호 합성에 사용된 머리전달함수는 ITU-R Rec. BS. 1116-1 에 권고된 것과 같은 표준 환경 시청실에서 녹음될 수 있으며, LFE 채널은 모든 음원에 대해 0으로 조정된 것일 수 있다. 5개의 채널 신호로부터 양이 신호를 합성하기 위하여 수학식 8을 이용할 수 있다.The head transfer function used for quantitative signal synthesis is ITU-R Rec. BS. It may be recorded in a standard environment auditorium as recommended in 1116-1, and the LFE channel may be tuned to zero for all sources. Equation 8 may be used to synthesize a bi-signal from five channel signals.

[수학식 8][Equation 8]

Figure pat00032

Figure pat00032

수학식 8에서, H CL , H LfL , H RfL , H LsL , H RsL , H CR , H LfR , H RfR , H LsR , H RsR 은 각 스피커에서 양쪽 귀까지의 음파 전달 경로를 나타내는 10개의 양이 공간 전달함수 (Binaural Room Transfer Functions, BRTFs)이며,

Figure pat00033
,
Figure pat00034
은 각각 양쪽 귀의 입력 신호를 의미한다.In Equation 8, H CL, H LfL, H RfL, H LsL, H RsL, H CR, H LfR, H RfR, H LsR, H RsR is ten quantity representing a sound wave transmission path to both ears from each of the speaker Are the Binaural Room Transfer Functions (BRTFs),
Figure pat00033
,
Figure pat00034
Are the input signals of both ears, respectively.

이와 같은 방식으로 합성된 양이 신호는 말초 청각 모형(peripheral ear model)에 의해 처리될 수 있다. 실제 양쪽 귀로 들어온 입력신호는 중이를 거쳐 달팽이관에서 처리되는데, 이 과정을 모사한 것이 말초 청각 모형이다. 말초 청각 모형 내의 달팽이관 모의장치(cochlea simulator)는 양이 입력신호를 인간의 기저막 (basilar membrane)에서 유모세포(hair cell)를 자극하는 신호로 변환한다. 달팽이관 모의장치는 ERB(Equivalent Rectangular Bandwidth) 스케일에 의해 결정된 중심주파수를 갖는 24개의 대역 통과 필터로 구성된 필터 뱅크로 간주할 수 있고, 이 모의 장치를 통과한 신호는 각 대역 통과 필터를 거친 신호의 자극패턴 (excitation pattern)으로 변환될 수 있다.The positive signal synthesized in this manner can be processed by a peripheral ear model. In fact, the input signal coming into both ears is processed by the cochlea via the middle ear, which simulates this process. Cochlea simulators in peripheral auditory models convert bilateral input signals into signals that stimulate hair cells in the human basal membrane. The cochlear simulator can be thought of as a filter bank consisting of 24 bandpass filters with a center frequency determined by the Equivalent Rectangular Bandwidth (ERB) scale, with the signal passing through the simulator being the stimulus of the signal passing through each bandpass filter. Can be converted into an excitation pattern.

도 7의 말초 청각 모형부(phripheral ear model)(702)에서는 기준 신호의 양이 입력 신호(

Figure pat00035
)와 테스트 신호의 양이 입력 신호(
Figure pat00036
)를 각각 입력받아 기준 신호의 자극 패턴(excitation pattern)과 테스트 신호의 자극 패턴을 각각 산출할 수 있다. In the peripheral ear model 702 of FIG. 7, the amount of reference signal is determined by the input signal (
Figure pat00035
) And the amount of test signal
Figure pat00036
) Can be respectively input to calculate an excitation pattern of the reference signal and an excitation pattern of the test signal.

도 7의 포락선 추출부(envelop extraction)(703)에서는 기준 신호의 자극 패턴과 테스트 신호의 자극 패턴을 입력받아 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴을 각각 산출할 수 있다. The envelope extraction unit 703 of FIG. 7 receives the stimulus pattern of the reference signal and the stimulus pattern of the test signal to calculate the envelope of the stimulus pattern of the reference signal and the stimulus pattern of the test signal, respectively.

변환된 자극 패턴 중 고주파 영역의 성분들에 대해 이산 힐버트 변환을 적용하여 자극 패턴의 포락선을 추출할 수 있는데, 도 8은 포락선 추출의 예를 나타낸 것이다. 실선은 정파 정류된 자극패턴(full-rectified excitation pattern)을 나타내고, 점선은 추출된 포락선(extracted envelope)을 나타낸다. 추출된 포락선(envelope)의 양이 시간 차이를 계산하여 EITD를 얻을 수 있다. An envelope of the stimulus pattern may be extracted by applying a discrete Hilbert transform to components of the high frequency region of the transformed stimulus pattern. FIG. 8 illustrates an example of envelope extraction. The solid line represents the full-rectified excitation pattern, and the dotted line represents the extracted envelope. The amount of envelope extracted can calculate the time difference to obtain the EITD .

양이 신호가 ERB-스케일 청각 필터 뱅크를 통과한 후 출력으로 나오는 신호는 시간-주파수 영역에서 세그먼트된(segmented) 신호(x[k,n] 또는 X[k,n])일 수 있다. 이때, k는 주파수 대역 번호, n은 시간 프레임 번호를 나타낸다. 이 신호로부터 이산 힐버트 변환된 값(H{x[k,n]})을 이용해 수학식 9와 같이 신호의 포락선(E[k,n])을 계산할 수 있다. x[k,n]는 r[k,n]라고 표시할 수도 있고, H{x[k,n]}는 i(n)이라고 표시할 수도 있다.The signal coming into the output after the positive signal passes through the ERB-scale auditory filter bank may be a signal (x [k, n] or X [k, n]) segmented in the time-frequency domain. Where k is a frequency band number and n is a time frame number. Using the discrete Hilbert transformed value H {x [k, n]} from this signal, the envelope E [k, n] of the signal can be calculated as shown in Equation (9). x [k, n] may be represented by r [k, n], and H {x [k, n]} may be represented by i (n).

[수학식 9][Equation 9]

Figure pat00037
Figure pat00037

수학식 9에서 k는 말초 청각 모형(peripheral ear model)에 의해 분할된 주파수 밴드 인덱스를 의미하며, n은 처리되는 시간 프레임 인덱스를 의미한다.In Equation 9, k denotes a frequency band index divided by a peripheral ear model, and n denotes a time frame index to be processed.

도 7의 인지 모델부(cognition model)(704)에서는 기준 신호의 자극 패턴의 포락선과 테스트 신호의 자극 패턴의 포락선을 입력받아 고주파 성분의 EITD 왜곡을 산출할 수 있다. In the recognition model unit 704 of FIG. 7, the envelope of the stimulus pattern of the reference signal and the envelope of the stimulus pattern of the test signal may be input to calculate the EITD distortion of the high frequency component.

이렇게 추출된 포락선의 ITD(EITD)는 시간-주파수 분할된 양쪽 귀의 입력 신호에 대해 정규화된 교차 상관 함수(Normalized Cross-Correlation Function, NCF) 를 이용하여 계산할 수 있는데, 이는 수학식 10과 같이 표현할 수 있다. The extracted ITD ( EITD ) of the envelope can be calculated using a normalized cross-correlation function (NCF) for input signals of both time-frequency-divided ears, which can be expressed as have.

[수학식 10][Equation 10]

Figure pat00038
Figure pat00038

수학식 10에서 E L ,k,n , E R ,k,n 은 양쪽 귀에서 발생하는 자극 패턴의 포락선 신호를 의미하며, d는 샘플단위의 시간 지연, k는 주파수 대역 지수(index), 그리고 n은 시간 프레임 지수를 의미한다. E L ,k,n , E R ,k,n 은 각각 X L ,k,n , X R ,k,n 으로 표시될 수도 있다.In Equation 10, E L , k, n , E R , k, n are envelope signals of stimulus patterns occurring at both ears, d is time delay in sample units, k is frequency band index, and n means time frame index. E L , k, n , E R , k, n may be represented by X L , k, n , X R , k, n , respectively.

고주파 포락선의 양이 상관계수(Envelope InterAural Cross-correlation Coefficient, EIACC)는 NCF의 최대값으로 정의되고, 양이 시간 차이(Envelope Interaural Time Difference, EITD)는 NCF가 최대값을 가질 때의 시간 지연 값으로 정의될 수 있다. EITDEIACC 는 NCF에 의해 계산될 수 있으며, 각각 시간-주파수분할된 신호에 대해 수학식 11과 수학식 12와 같이 계산될 수 있다.Envelope InterAural Cross-correlation Coefficient ( EIACC ) is defined as the maximum value of NCF, and Envelope Interaural Time Difference ( EITD ) is the time delay value when NCF has the maximum value. It can be defined as. EITD and EIACC may be calculated by the NCF, and may be calculated as shown in Equations 11 and 12 for the time-frequency divided signals, respectively.

[수학식 11][Equation 11]

Figure pat00039
Figure pat00039

[수학식 12][Equation 12]

Figure pat00040
Figure pat00040

수학식 11과 수학식 12에서, 매개변수 Nd의 범위인데, 이론적으로 가능한 양이 시간 차이의 값을 의미한다. EITDEIACC는 각각 참조 신호와 평가 신호에 대해 계산되고, 이 역시 아래첨자 reftest로 나타내었다. 또한, 고주파 포락선에 기반한 음원 방향의 인지적 차이는 단위 원 상에서 두 점 사이의 거리로 근사할 수 있기 때문에 기준 신호와 테스트 신호의 EITD 차이는 수학식 13과 같이 계산할 수 있다. 즉, 테스트 신호와 기준 신호 사이에 발생한 EITD의 차이는 EITD에 해당하는 위상각을 갖는 단위원 상의 두 벡터 사이 차이로 계산될 수 있다. 수학식 13에서 f s 는 표본화 주파수(sampling frequency)를 나타낸다.In Equations 11 and 12, the parameter N is in the range of d , and the theoretically possible amount means the value of the time difference. EITD and EIACC are calculated for the reference and evaluation signals, respectively, and are also indicated by the subscripts ref and test . In addition, since the cognitive difference of the sound source direction based on the high frequency envelope may be approximated by the distance between two points on the unit circle, the difference between the EITD of the reference signal and the test signal may be calculated as shown in Equation 13. That is, the EITD difference occurred between the test signal and the reference signal may be calculated as the difference between the two vectors on the unit circle having a phase angle corresponding to EITD. In Equation 13, f s represents a sampling frequency.

[수학식 13][Equation 13]

Figure pat00041
Figure pat00041

이와 같은 방법으로 ΔEITD를 계산한 후, 인지적으로 양이 시간차에 의한 음상 정위에 실패할 경우가 고려되어야 한다. EIACC가 매우 낮은 경우, EITD로 인해 인지되는 음원의 방향은 뚜렷하지 않기 때문에 인지되는 음원 방향 검출에 대한 확신도(certainty)를 고려하기 위해 EITD의 차이값에 결정 인자(decision factor)를 적용할 수 있다. 확신도를 모형화하기 위해 탄젠트 S자 결장 함수(Tangential Sigmoid Function)을 사용할 수 있는데, 이 함수는 EIACC 값을 비선형적으로 변환하게 된다. 즉, EIACC값이 너무 낮아 음원의 위치를 인지할 수 없는 경우에 대해 고려하기 위해 EIACC값을 탄젠트 S자 결장 함수를 이용해 비선형 변환할 수 있다. 참조 신호와 평가 신호에 대해 EIACC 값은 수학식 14와 수학식 15에 의해 비선형 변환될 수 있다.After calculating Δ EITD in this way, it should be taken into account that the cognitively unsuccessful phase misalignment occurs. If the EIACC is very low, the direction of the sound source perceived by the EITD is not clear, so a decision factor can be applied to the difference value of the EITD to take into account the confidence in detecting the perceived sound source direction. have. To model confidence, we can use the tangent sigmoid function, which transforms the EIACC values nonlinearly. That is, EIACC value can be non-linear conversion using an S-shaped colon EIACC value tangent function to account for may not be aware of the location of the sound source is too low. For the reference signal and the evaluation signal, the EIACC value may be nonlinearly converted by Equations 14 and 15.

[수학식 14][Equation 14]

Figure pat00042
Figure pat00042

[수학식 15][Equation 15]

Figure pat00043
Figure pat00043

수학식 14와 수학식 15에서 s와 Tk는 각각 결장함수의 기울기와 역치를 나타내는데, EITD의 경우 기울기는 50, 역치는 각 밴드에서 EITD에 대한 민감도를 반영하기 위해 밴드별로 다른 값을 사용할 수 있다.In equations (14) and (15), s and T k represent the slope and threshold of the colon function, respectively. For EITD , the slope is 50 and the threshold can use different values for each band to reflect sensitivity to the EITD in each band. have.

결정 인자가 ΔEITD에 적용된 후의 EITD 왜곡은 수학식 16과 같이 계산될 수 있다. 즉, 비선형변환된 EIACC값을 결정인자로 사용하여, EITD 왜곡을 계산할 수 있다.The EITD distortion after the determinant is applied to Δ EITD may be calculated as shown in Equation 16. That is, the EITD distortion may be calculated using the nonlinear transformed EIACC value as a determinant.

[수학식 16][Equation 16]

Figure pat00044
Figure pat00044

최종 EITD 왜곡은 수학식 17과 같이 전체 주파수 밴드와 시간 프레임에 걸쳐 평균값을 취하여 얻을 수 있다. 즉, EITD 왜곡은 EITD 차이로 인한 기준 신호와 테스트 신호에 대한 음원 위치의 인지적 거리를 의미하는 평균 EITD 왜곡을 나타낸다.The final EITD distortion can be obtained by taking an average value over the entire frequency band and time frame as shown in Equation 17. In other words, distortion EITD had an average EITD distortion, which means that the distances of the sound source position relative to the reference signal and the test signal due to the difference EITD.

[수학식 17][Equation 17]

Figure pat00045
Figure pat00045

상술한 도 7의 말초 청각 모형부(702), 포락선 추출부(703), 및 인지 모델부(704)는 도 2의 출력변수 계산부(12)에 포함될 수 있다.The above-described peripheral auditory model 702, envelope extractor 703, and cognitive model 704 of FIG. 7 may be included in the output variable calculator 12 of FIG. 2.

도 9는 도 7에 따른 EITD 왜곡을 계산하는 흐름을 더 자세히 나타낸 것이다.9 illustrates the flow of calculating EITD distortion in accordance with FIG. 7 in more detail.

양이 합성부(901)에서는 수학식 8과 같은 방식으로 다채널 음원을 양이 신호로 합성할 수 있다. 말초 청각 모형부(902)에서는 기준 신호 및 테스트 신호의 양이 입력 신호를 입력받아 기준 신호의 자극 패턴 및 테스트 신호의 자극 패턴을 산출할 수 있다. 포락선 추출부(903)에서는 수학식 9와 같이 각 신호의 포락선을 계산할 수 있다. 교차상관함수 적용부(904)에서는 포락선을 이용하여 EITDEIACC를 계산할 수 있다. EITD 왜곡 계산부(905)에서는 테스트 신호와 기준 신호의 EITDEIACC를 이용하여 EITD 왜곡 값을 계산할 수 있다. 도 9에서 첨자 R, L, test, ref, k, n 은 각각 우측 채널, 좌측 채널, 테스트 신호, 기준 신호, 주파수 대역 인덱스, 시간 프레임 인덱스를 나타낸다.The positive synthesizing unit 901 may synthesize a multichannel sound source as a positive signal in the same manner as in Equation (8). The peripheral auditory model unit 902 may receive the input signal from the amounts of the reference signal and the test signal to calculate the stimulation pattern of the reference signal and the stimulation pattern of the test signal. The envelope extractor 903 may calculate an envelope of each signal as shown in Equation (9). The cross correlation function applying unit 904 may calculate the EITD and the EIACC using an envelope. In EITD distortion calculation section 905, using the EITD EIACC and the test signal and the reference signal it is possible to calculate the distortion value EITD. In FIG. 9, the subscripts R, L, test, ref, k, and n represent a right channel, a left channel, a test signal, a reference signal, a frequency band index, and a time frame index, respectively.

수학식 13 내지 수학식 17에 의해 EITD 왜곡을 얻는 방법은 아래의 수학식 18 내지 수학식 19를 이용하는 방식으로 변형될 수 있다.The method for obtaining the EITD distortion by Equations 13 to 17 may be modified in a manner using Equations 18 to 19 below.

수학식 11과 같이 기준 신호와 테스트 신호에 대해 각각 계산된 EITD 값으로부터 EITD의 인지적 거리에 해당하는 EITD 왜곡 값을 구하기에 앞서, 수학식 14 및 수학식 15와 같이 EIACC의 값에 탄젠트 S자 결장함수를 이용하여 EIACC 값을 비선형적으로 변환할 수 있다. Before calculating the EITD distortion value corresponding to the cognitive distance of the EITD from the EITD values calculated for the reference signal and the test signal, respectively, as shown in Equation 11, the tangent S letter to the EIACC value as shown in Equations 14 and 15 The colon function can be used to nonlinearly convert EIACC values.

이와 같이 비선형 변환된 EIACC 값은 EITD의 가중치 값으로 사용될 수 있다. 가중된 EITD 값으로부터 인지적 EITD의 거리를 계산할 수 있다. 이 경우 가중된 EITD로 인한 음원 방향의 차이는 단위원 상에서 두 점 사이의 유클리드 거리 (Euclidian Distance)로 나타낼 수 있는데, 이는 수학식 18과 같이 계산할 수 있다. 수학식 18에서 ctest[k,n] 및 cref[k,n]은 각각 ptest[k,n]과 pref[k,n]으로 표현될 수도 있다.In this way, the nonlinear transformed EIACC value may be used as a weight value of the EITD . The distance of the cognitive EITD can be calculated from the weighted EITD value. In this case, the difference in the sound source direction due to the weighted EITD may be expressed as an Euclidian distance between two points on the unit circle, which may be calculated as shown in Equation 18. In Equation 18, c test [k, n] and c ref [k, n] may be represented by p test [k, n] and p ref [k, n], respectively.

[수학식 18]Equation 18

Figure pat00046
Figure pat00046

해당 음원 전체에 대한 최종 EITD 왜곡은 수학식 19와 같이 전체 주파수 밴드와 시간 프레임에 걸쳐 평균을 취함으로써 계산될 수 있다. 최종 EITD 왜곡은 EITD 차이로 인한 기준 신호와 테스트 신호의 인지적 거리를 의미하는 평균 EITD 왜곡을 나타낼 수 있다.The final EITD distortion for the entire sound source can be calculated by taking the average over the entire frequency band and time frame as shown in Equation 19. The final EITD distortion may represent the average EITD distortion, which means the cognitive distance between the reference signal and the test signal due to the EITD difference.

[수학식 19][Equation 19]

Figure pat00047

Figure pat00047

본 발명의 일 실시예에 따른 음질 평가 장치는 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호(Binaural input signal)를 생성하기 위한 전처리수단, 상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist: IACC Distortion), 양이 크기 차이 왜곡(ILDDist: ILD Distortion), 포락선 양이시간차이 왜곡(EITDDist)을 포함하는 모형출력변수를 산출하기 위한 출력변수 계산수단, 및 상기 모형출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단을 포함할 수 있다.
The sound quality evaluation apparatus according to an embodiment of the present invention is based on a multi-channel audio signal input from each channel (L, R, C, LS, RS) of the multi-channel audio reproduction system (Binaural input signal) Preprocessing means for generating a signal, the generated amount of the input signal includes a degree of correlation distortion ( ICACCist : IACC Distortion), a magnitude difference distortion ( ILDDist : ILD Distortion), the envelope difference time difference distortion ( EITDDist ) Output variable calculation means for calculating the model output variable, and the artificial neural network means for outputting the grade of sound quality based on the model output variable.

다채널 음원에 대한 객관적 음질 평가에 있어서 공간감 인자들의 영향을 고찰하기 위해 우선적으로 주관청취평가가 시행되었다. 본 실험에 사용된 주관청취평가 데이터베이스는 ISO/MPEG 오디오 그룹에 의해 배포된 것으로서 ITU-R Rec. BS. 1534-1 "Multiple Stimulus with Hidden Reference and Anchor(MUSHRA)"에 권고된 바에 따라 시행되었다. 주관청취평가에는 11개 종류의 음원이 사용되었다. 각 음원은 11개의 다른 다채널 오디오 코딩 기법을 이용하여 부호화 및 복호화되어, 결과적으로 주관청취평가를 통해 121개의 아이템이 생성되었다. In order to examine the effect of spatial factors on objective sound quality evaluation for multi-channel sound sources, subjective listening evaluation was conducted first. The subjective audit assessment database used in this experiment was distributed by the ISO / MPEG Audio Group and is available in ITU-R Rec. BS. Implemented as recommended in 1534-1 "Multiple Stimulus with Hidden Reference and Anchor" (MUSHRA). Eleven kinds of sound sources were used for subjective listening evaluation. Each sound source was encoded and decoded using eleven different multichannel audio coding techniques, resulting in 121 items through subjective audit evaluation.

표 1은 주관청취평가 결과와 객관평가에 사용되는 14개의 평가인자 사이의 상관계수를 보여준다.Table 1 shows the correlation coefficient between the subjective listening evaluation results and the 14 evaluation factors used for the objective evaluation.

<주관청취평가 결과와 14개 인자들 사이의 상관계수>Correlation coefficient between subjective listening evaluation result and 14 factors 평가인자Evaluation factor 상관계수Correlation coefficient ADBADB -0.68-0.68 NMRtoBNMRtoB -0.51-0.51 NLoundBNLoundB -0.51-0.51 AModDif1BAModDif1B -0.45-0.45 WModDif1BWModDif1B -0.44-0.44 RDFRDF -0.43-0.43 EHSEHS -0.43-0.43 AModDif2BAModDif2B -0.36-0.36 AvgBwRefAvgBwRef -0.06-0.06 AvgBwTstAvgBwTst -0.00-0.00 ILDDILDD -0.78-0.78 IACCDIACCD -0.62-0.62 ITDDITDD -0.61-0.61 EITDDEITDD -0.72-0.72

각 상관계수 ρX,Y는 수학식 20과 같이 계산된다.Each correlation coefficient ρ X, Y is calculated as shown in Equation 20.

[수학식 20][Equation 20]

Figure pat00048
Figure pat00048

수학식 20에서 X는 MOS, Y는 각 인자의 데이터를 의미하며, 14개의 인자와 주관청취평가 결과의 상관계수는 양이 신호로 합성된 121개의 신호에 대해서 계산되었다. 14개의 평가인자 중 첫 10개는 현재 ITU-R Rec. BS. 1387-1에서 사용되고 있는 모형출력변수이다. 10개의 모형 출력변수와 4개의 공간감 인자는 표 2와 표 3에 각각 요약하였다.In Equation 20, X denotes MOS and Y denotes data of each factor, and the correlation coefficient between 14 factors and subjective listening evaluation was calculated for 121 signals synthesized with positive signals. The first 10 of the 14 evaluators are now ITU-R Rec. BS. This is the model output variable used in 1387-1. Ten model output variables and four spatial factors were summarized in Tables 2 and 3, respectively.

<ITU-R Rec. BS. 1387-1에서 음색 열화에 대한 요인으로 사용되는 모형 출력 변수><ITU-R Rec. BS. Model Output Variables Used as Factors for Tone Degradation in 1387-1 인자factor 설명Explanation ADBADB 평균 왜곡 블록 (Averaged distortion block). 왜곡된 블록의 전체 개수에 대한 전체 왜곡의 비Averaged distortion block. Ratio of total distortion to total number of distorted blocks NMRtotBNMRtotB 기만 에너지 (masker energy) 대 평균 잡음 비의 로그 값Logarithmic value of masker energy to average noise ratio EHSEHS 오차의 배음구조Overtone structure of error BWRefBWRef 참조 신호의 대역폭The bandwidth of the reference signal BWTestBwtest 평가 신호의 대역폭Evaluation Signal Bandwidth AModDif1BAModDif1B 평균 변조 차이Average modulation difference AModDif2BAModDif2B 참조 신호에 변조가 거의 없는 경우 변조 변화에 가중치를 준 평균 변조 차이Average Modulation Difference Weighted Modulation Variations When Reference Signals Have Little Modulation WinModDifBWinModDifB 창 함수를 적용한 평균 변조 차이Average Modulation Difference with Window Function RDFRDF 잡음 대 기반 에너지 비가 기준값 이상인 프레임의 개수Number of frames with noise-based energy ratio above the reference NLoudBNLoudB 평균 잡음 세기Average noise strength

<공간감 열화를 나타내는 양이 요소><Both elements indicating deterioration of space> 인자factor 설명Explanation ITDDistITDDist 양이 시간차로 인해 발생하는 평가 신호와 참조 신호의 음원 방향 차이에 대한 인지적 거리Cognitive distance of sound source direction difference between evaluation signal and reference signal caused by positive time difference ILDDistILDDist 양이 크기차로 인해 발생하는 평가 신호와 참조 신호의 음원 방향 차이에 대한 인지적 거리Cognitive distance of sound source direction difference between evaluation signal and reference signal caused by difference in magnitude IACCDistIACCDist 양이 상관계수차로 인해 발생하는 평가 신호와 참조 신호의 음원 넓이감 차이에 대한 인지적 거리Cognitive distance of the difference in sound source wideness between the evaluation signal and the reference signal caused by positive correlation coefficient aberration EITDDistEITDDist 고주파 영역 포락선의 양이 시간차로 인해 발생하는 음원 방향 차이에 대한 인지적 거리Cognitive distance of sound source direction difference caused by time difference between high frequency region envelope

모든 인자들은 주관청취평가 결과와 음의 상관관계를 가지기 때문에, 표 1에서 상관계수의 절대값이 클수록 더 좋은 음질 예측 성능을 가진다고 간주할 수 있다. 표 1에서 볼 수 있듯이, EITDDist는 주관청취평가 결과와 상관계수 0.72의 매우 높은 상관관계를 가짐을 알 수 있다. 특히, EITDDist는 주관청취평가 결과와의 상관계수 0.62를 갖는 IACCDist나 상관계수 0.61을 갖는 ITDDist보다 더욱 높은 상관 관계를 갖고 있으며, 기존 10개의 음색 왜곡 인자들보다도 높은 상관관계를 가짐을 확인할 수 있다. 이러한 결과들로부터 고주파 포락선 정보는 다채널 오디오 신호에 의한 공간감 인지와 전체적인 음질에 중요한 역할을 하고 있음을 확인할 수 있다. 또한 기존 ITU-R Rec. BS. 1387-1에서 사용되고 있는 음색 요소와 비교했을 때, 주관청취평가 결과와 4개의 공간감 요소는 유사하거나 더 높은 상관계수를 가짐을 확인할 수 있다. 이러한 결과를 바탕으로 다채널 오디오의 품질 평가에 있어서, 음색뿐만 아니라 공간감 요소 역시 중요함을 확인할 수 있다.Since all factors have a negative correlation with the subjective listening evaluation, the greater the absolute value of the correlation coefficient in Table 1, the better the sound quality prediction performance. As can be seen from Table 1, EITDDist has a very high correlation with the subjective listening evaluation result with a correlation coefficient of 0.72. In particular, EITDDist may have a higher correlation than ITDDist having a subjective listening evaluation results and the correlation coefficient of 0.62 the IACCDist or the correlation coefficient of 0.61 which can be confirmed by having a higher than the correlation existing 10 voice distortion factor. From these results, it can be seen that the high frequency envelope information plays an important role in the perception of spatiality and overall sound quality by the multi-channel audio signal. In addition, existing ITU-R Rec. BS. Compared with the tone component used in 1387-1, the subjective audit evaluation result and the four spatial components can be found to have a similar or higher correlation coefficient. Based on these results, it can be seen that not only the timbre but also the spatial elements are important in the quality evaluation of multichannel audio.

이와 같은 방법으로 계산된 각각의 인자는 다채널 오디오의 객관적 음질 평가를 위한 예측 모델의 입력 인자로서 사용될 수 있다. 다채널 오디오 코딩 시스템의 객관적 음질 예측 모델에 주관청취평가 결과와 높은 상관계수를 갖는 공간감 왜곡 요소를 입력 인자로 추가했을 때 더욱 좋은 예측 성능을 보일 수 있다. EITDDist는 객관적 음질 예측 모델에서 공간감 왜곡을 평가하는 인자로서 사용될 수 있다. 특히, EITDDist는 주관적 청취평가 결과와 높은 상관관계를 가지기 때문에, EITDDist를 음질 예측 모델의 입력 인자로 추가함으로써 다채널 오디오 코딩 시스템의 객관적 음질 예측 모델의 성능을 향상시킬 수 있다.
Each factor calculated in this way may be used as an input factor of a prediction model for objective sound quality evaluation of multichannel audio. It is possible to obtain better prediction performance when the spatial distortion factor with high correlation coefficient is added as an input factor to the objective sound quality prediction model of the multichannel audio coding system. EITDDist can be used as a factor for evaluating spatial distortion in an objective sound quality prediction model. In particular, since the EITDDist has a high correlation with the subjective listening evaluation results, the performance of the objective sound quality prediction model of the multi-channel audio coding system can be improved by adding the EITDDist as an input factor of the sound quality prediction model.

본 발명을 통해 멀티채널 음원의 객관적 평가를 위한 공간감 인자를 제공함으로써 평가의 성능을 높일 수 있다. 각 공간감 인자를 사용하면 실제 뇌에서의 청각 신호가 처리되는 과정을 수학적으로 모델링하여 인지적인 차이를 반영할 수 있는 평가 모델을 생성할 수 있다.Through the present invention, it is possible to increase the performance of the evaluation by providing a sense of space for the objective evaluation of the multi-channel sound source. Each spatial factor can be used to mathematically model the processes in which the auditory signal is processed in the real brain to generate an evaluation model that can reflect cognitive differences.

본 발명의 실시예들에 있어서 인공신경망회로부(13)는 일반적인 디지털 신호 처리부로 대체될 수 있다. 즉, 인공신경망회로부(13)는, 본 발명의 실시예를 설명하기 위하여, 디지털 신호 필터의 일 예로서 제시된 것이다. 따라서, 본 발명의 범위가 여기에 첨부한 도면 및 그 설명에 의해 한정되는 것은 아니다.In embodiments of the present invention, the artificial neural network unit 13 may be replaced with a general digital signal processing unit. That is, the artificial neural network unit 13 is presented as an example of the digital signal filter in order to explain the embodiment of the present invention. Accordingly, the scope of the invention is not limited by the accompanying drawings and the description thereof.

본 발명에 따르면, 심리음향적, 생리학적 연구결과를 바탕으로 공간감 인지에 영향을 미치는 요인들을 찾고, 해당 요인들을 수학적 모델에 의해 구현함으로써 멀티채널 오디오 코덱의 객관평가 모델의 성능을 높일 수 있다.According to the present invention, based on psychoacoustic and physiological research results, finding factors that influence spatial cognition and implementing the corresponding factors by mathematical models can improve the performance of the objective evaluation model of the multi-channel audio codec.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.The method of the present invention as described above may be embodied as a program and stored in a computer-readable recording medium (such as a CD-ROM, a RAM, a ROM, a floppy disk, a hard disk, or a magneto-optical disk). Since this process can be easily implemented by those skilled in the art will not be described in more detail.

이상에서 설명된 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.The embodiments described above are the components and features of the present invention are combined in a predetermined form. Each component or feature is to be considered optional unless stated otherwise. Each component or feature may be implemented in a form that is not combined with other components or features. It is also possible to combine some of the components and / or features to form an embodiment of the invention. The order of the operations described in the embodiments of the present invention may be changed. Some configurations or features of certain embodiments may be included in other embodiments, or may be replaced with corresponding configurations or features of other embodiments. It is obvious that the claims may be combined to form an embodiment by combining claims that do not have an explicit citation relationship in the claims or as new claims by post-application correction.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(Firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.Embodiments according to the present invention may be implemented by various means, for example, hardware, firmware, software, or a combination thereof. In the case of a hardware implementation, an embodiment of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs), FPGAs ( Field Programmable Gate Arrays), processors, controllers, microcontrollers, microprocessors, and the like.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.In the case of implementation by firmware or software, an embodiment of the present invention may be implemented in the form of a module, procedure, function, etc. that performs the functions or operations described above. The software code may be stored in a memory unit and driven by a processor. The memory unit may be located inside or outside the processor, and may exchange data with the processor by various known means.

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.It will be apparent to those skilled in the art that the present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. Accordingly, the above detailed description should not be interpreted as limiting in all aspects and should be considered as illustrative. The scope of the invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art to which the present invention pertains. It is not limited by the drawings.

본 발명은, 단순히 압축 후 복구된 신호의 주파수별 에너지가 본래 신호에 대비해 왜곡된 정도를 수치화한 것과는 다르며, 멀티채널 오디오 재생 환경에서 선별된 청취자가 느끼는 청각적인 평가를 적절한 방법으로 통계 처리한 것과 유사한 결과를 얻기 위한 것이다. 이를 통해 멀티채널 오디오 압축 코덱의 음질에 대한 청취 평가 및 통계 처리 과정을 생략하고, 측정만을 통해 음질 평가를 수행하거나 혹은 음질 평가 결과를 예측할 수 있다.The present invention is different from simply quantifying the degree of distortion of the energy of the recovered signal after compression, compared to the original signal, and statistically processing the auditory evaluation felt by the selected listener in a multi-channel audio reproduction environment. To achieve similar results. This eliminates the listening evaluation and statistical processing of the sound quality of the multi-channel audio compression codec, and can perform the sound quality evaluation only through the measurement or predict the sound quality evaluation result.

본 발명의 일 실시예는, 기준 신호을 오디오 압축 코덱에 의해 부호화한 다음 복호화하여 형성한 재생음의 인지된 품질과 기준 신호의 인지된 품질을 객관적으로 비교 평가함으로써 오디오 압축 코덱의 성능을 평가하는 방법 및 장치에 사용할 수 있다.An embodiment of the present invention provides a method for evaluating the performance of an audio compression codec by objectively comparing the perceived quality of a reproduced sound formed by encoding and then decoding a reference signal by using an audio compression codec. Can be used for devices.

Claims (13)

기준 신호(reference signal)와 테스트 신호(signal under test)를 비교하여, 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference Distortion)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV, Model Ouput Variable)를 생성(produce)하는 단계; 및
상기 한 개 이상의 모형출력변수를 음질(audio quality)에 대응하는 값에 매핑(mapping)하는 단계;
를 포함하는,
음질 측정 방법.
One or more model output variables (MOVs) including variables representing an envelope interaural time difference ( EITDDist , Envelope Interaural Time Difference Distortion) by comparing a reference signal and a signal under test. Producing); And
Mapping the at least one model output variable to a value corresponding to audio quality;
Including,
How to measure sound quality.
제1항에 있어서,
상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
Figure pat00049
로 주어지며,
Figure pat00050
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는, 음질 측정 방법.
The method of claim 1,
EITDDist, which is a variable representing the envelope lag distortion,
Figure pat00049
Given by
Figure pat00050
Is an envelope positive time difference distortion generated by comparing the reference signal with a k-th frequency band of an n-th time frame of the test signal.
제2항에 있어서,
상기
Figure pat00051
Figure pat00052
로 주어지고,
상기
Figure pat00053
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이시간차(EITD, Envelope Interaural Time Difference)의 차이값을 나타내며,
상기
Figure pat00054
는 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값이고,
상기
Figure pat00055
는 상기 기준 신호의 n번째 시간 프레임의 k번째 주파수 밴드에서의 포락선 양이 상관계수(EIACC, Envelope InteAural Cross-correlation Coefficient)의 비선형 변환값인,
음질 측정 방법.
The method of claim 2,
remind
Figure pat00051
Is
Figure pat00052
Given by
remind
Figure pat00053
Denotes a difference between an envelope difference time difference ( EITD ) in a k-th frequency band of an n-th time frame of the reference signal and the test signal,
remind
Figure pat00054
Is the nonlinear transform value of the envelope coefficient in the k th frequency band of the n th time frame of the test signal ( EIACC , Envelope InteAural Cross-correlation Coefficient),
remind
Figure pat00055
Is the nonlinear transform value of the envelope coefficient in the k th frequency band of the n th time frame of the reference signal ( EIACC , Envelope InteAural Cross-correlation Coefficient),
How to measure sound quality.
제1항에 있어서,
상기 기준 신호는 멀티채널 오디오 신호로부터 생성된 것이고, 상기 테스트 신호는 상기 음질을 측정하고자 하는 테스트 기기(device under test)에 상기 멀티채널 오디오 신호를 통과시켜 생성된 것인, 음질 측정 방법.
The method of claim 1,
And the reference signal is generated from a multichannel audio signal, and the test signal is generated by passing the multichannel audio signal to a device under test for measuring the sound quality.
제1항에 있어서,
상기 한 개 이상의 모형출력변수 중 적어도 하나는, 상기 기준 신호 및 상기 테스트 신호의 자극 패턴(excitation pattern)을 비교하여 생성되는, 음질 측정 방법.
The method of claim 1,
At least one of the one or more model output variables is generated by comparing an excitation pattern of the reference signal and the test signal.
제1항에 있어서,
상기 포락선 양이시간차 왜곡을 나타내는 변수는 상기 기준 신호 및 상기 테스트 신호를 필터 뱅크(filter bank)에 통과시켜 생성한 것인, 음질 측정 방법.
The method of claim 1,
The variable representing the envelope lag distortion is generated by passing the reference signal and the test signal through a filter bank.
컴퓨터에,
기준 신호와 테스트 신호를 비교하여, 포락선 양이시간차 왜곡을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수를 생성하는 단계; 및
상기 한 개 이상의 모형출력변수를 음질(audio quality)에 대응하는 값에 매핑(mapping)하는 단계;
를 실행시키기 위한 프로그램을 기록한, 컴퓨터로 읽을 수 있는 매체.
On your computer,
Comparing the reference signal with the test signal to generate one or more model output variables including a variable representing an envelope lag distortion; And
Mapping the at least one model output variable to a value corresponding to audio quality;
A computer-readable medium having recorded thereon a program for executing the program.
제7항에 있어서,
상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
Figure pat00056
로 주어지며,
Figure pat00057
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는, 컴퓨터로 읽을 수 있는 매체.
The method of claim 7, wherein
EITDDist, which is a variable representing the envelope lag distortion,
Figure pat00056
Given by
Figure pat00057
Is an envelope positive time difference distortion generated by comparing the reference signal with a k-th frequency band of an n-th time frame of the test signal.
기준 신호와 테스트 신호를 비교하여 생성된 한 개 이상의 모형출력변수를 음질에 대응하는 값에 매핑하는 프로그램을 변경하는 코드를 기록한 컴퓨터로 읽을 수 있는 매체로서,
상기 코드는, 상기 기준 신호와 상기 테스트 신호를 비교하여 얻은 포락선 양이시간차 왜곡을 나타내는 변수가 상기 한 개 이상의 모형출력변수에 포함되도록 상기 프로그램을 변경하도록 되어 있는,
컴퓨터로 읽을 수 있는 매체.
A computer-readable medium that records a code for changing a program that maps one or more model output variables generated by comparing a reference signal with a test signal to values corresponding to sound quality.
The code is adapted to modify the program such that a variable representing an envelope positive time difference distortion obtained by comparing the reference signal and the test signal is included in the one or more model output variables.
Computer-readable media.
제9항에 있어서,
상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
Figure pat00058
로 주어지며,
Figure pat00059
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는, 컴퓨터로 읽을 수 있는 매체.
10. The method of claim 9,
EITDDist, which is a variable representing the envelope lag distortion,
Figure pat00058
Given by
Figure pat00059
Is an envelope positive time difference distortion generated by comparing the reference signal with a k-th frequency band of an n-th time frame of the test signal.
기준 신호(reference signal)와 테스트 신호(signal under test)를 비교하여, 포락선 양이시간차 왜곡(EITDDist, Envelope Interaural Time Difference Distortion)을 나타내는 변수를 포함하는 한 개 이상의 모형출력변수(MOV, Model Ouput Variable)를 생성(produce)하는 모형출력변수 생성수단; 및
상기 한 개 이상의 모형출력변수를 음질(audio quality)에 대응하는 값에 매핑하는 매핑수단;
을 포함하는,
음질 측정 장치.
One or more model output variables (MOVs) including variables representing an envelope interaural time difference ( EITDDist , Envelope Interaural Time Difference Distortion) by comparing a reference signal and a signal under test. Model output variable generating means for producing (); And
Mapping means for mapping the at least one model output variable to a value corresponding to audio quality;
Including,
Sound quality measuring device.
제11항에 있어서,
상기 생성수단은 및 상기 매핑수단은, 상기 생성하는 단계 및 상기 매핑하는 단계를 실행하기 위한 프로그램을 구동하도록 되어 있는 처리장치의 일부인, 음질 측정 장치.
The method of claim 11,
Wherein said generating means and said mapping means are part of a processing device adapted to drive a program for executing said generating and said mapping step.
제11항에 있어서,
상기 포락선 양이시간차 왜곡을 나타내는 변수인 EITDDist
Figure pat00060
로 주어지며,
Figure pat00061
는 상기 기준 신호와 상기 테스트 신호의 n번째 시간 프레임의 k번째 주파수 밴드를 비교하여 생성한 포락선 양이시간차 왜곡을 나타내는, 음질 측정 장치.



The method of claim 11,
EITDDist, which is a variable representing the envelope lag distortion,
Figure pat00060
Given by
Figure pat00061
Is an envelope positive time difference distortion generated by comparing the reference signal with a k-th frequency band of an n-th time frame of the test signal.



KR1020110035403A 2010-04-16 2011-04-15 Method, apparatus, and program containing medium for measurement of audio quality KR101170524B1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020100035182 2010-04-16
KR20100035182 2010-04-16
KR1020100035579 2010-04-17
KR20100035579 2010-04-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020120038746A Division KR20120053996A (en) 2010-04-16 2012-04-13 Method, apparatus, and program containing medium for measurement of audio quality

Publications (2)

Publication Number Publication Date
KR20110115984A true KR20110115984A (en) 2011-10-24
KR101170524B1 KR101170524B1 (en) 2012-08-01

Family

ID=44799206

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020110035403A KR101170524B1 (en) 2010-04-16 2011-04-15 Method, apparatus, and program containing medium for measurement of audio quality
KR1020120038746A KR20120053996A (en) 2010-04-16 2012-04-13 Method, apparatus, and program containing medium for measurement of audio quality

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020120038746A KR20120053996A (en) 2010-04-16 2012-04-13 Method, apparatus, and program containing medium for measurement of audio quality

Country Status (2)

Country Link
KR (2) KR101170524B1 (en)
WO (1) WO2011129655A2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857852B (en) * 2012-09-12 2014-10-22 清华大学 Method for processing playback array control signal of loudspeaker of sound-field quantitative regeneration control system
CN102857851B (en) * 2012-09-12 2015-04-15 清华大学 Sound and image synchronizing system for sound quality evaluation
CN105657633A (en) 2014-09-04 2016-06-08 杜比实验室特许公司 Method for generating metadata aiming at audio object
CN108259893B (en) * 2018-03-22 2020-08-18 天津大学 Virtual reality video quality evaluation method based on double-current convolutional neural network
CN110211610A (en) * 2019-06-20 2019-09-06 平安科技(深圳)有限公司 Assess the method, apparatus and storage medium of audio signal loss
CN111935624B (en) * 2020-09-27 2021-04-06 广州汽车集团股份有限公司 Objective evaluation method, system, equipment and storage medium for in-vehicle sound space sense
WO2022112594A2 (en) * 2020-11-30 2022-06-02 Dolby International Ab Robust intrusive perceptual audio quality assessment based on convolutional neural networks
EP4385012A1 (en) * 2021-08-13 2024-06-19 Dolby Laboratories Licensing Corporation Management of professionally generated and user-generated audio content
CN115798518B (en) * 2023-01-05 2023-04-07 腾讯科技(深圳)有限公司 Model training method, device, equipment and medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829870B1 (en) * 2006-02-03 2008-05-19 한국전자통신연구원 Apparatus and method for measurement of Auditory Quality of Multichannel Audio Codec
US8612237B2 (en) 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
US8233629B2 (en) * 2008-09-04 2012-07-31 Dts, Inc. Interaural time delay restoration system and method

Also Published As

Publication number Publication date
KR20120053996A (en) 2012-05-29
WO2011129655A2 (en) 2011-10-20
WO2011129655A3 (en) 2012-03-15
KR101170524B1 (en) 2012-08-01

Similar Documents

Publication Publication Date Title
KR101170524B1 (en) Method, apparatus, and program containing medium for measurement of audio quality
EP1979900B1 (en) Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
Emiya et al. Subjective and objective quality assessment of audio source separation
US8612237B2 (en) Method and apparatus for determining audio spatial quality
WO2018188424A1 (en) Multichannel signal encoding and decoding methods, and codec
JP5542206B2 (en) Method and system for determining perceptual quality of an audio system
Narbutt et al. AMBIQUAL-a full reference objective quality metric for ambisonic spatial audio
JP2022505964A (en) Directional volume map based audio processing
Kates et al. The hearing-aid audio quality index (HAAQI)
Kressner et al. Evaluating the generalization of the hearing aid speech quality index (HASQI)
KR20100087928A (en) Method and appratus for a evaluation of audio signal quality
Seo et al. Perceptual objective quality evaluation method for high quality multichannel audio codecs
Choi et al. Objective measurement of perceived auditory quality in multichannel audio compression coding systems
Fleßner et al. Subjective and objective assessment of monaural and binaural aspects of audio quality
Gajecki et al. A fused deep denoising sound coding strategy for bilateral cochlear implants
CN101408614B (en) Method and device for measuring binaural sound strong difference ILD critical apperceive characteristic
Vanam et al. Evaluating low bitrate scalable audio quality using advanced version of PEAQ and energy equalization approach
Fleßner et al. Quality assessment of multi-channel audio processing schemes based on a binaural auditory model
Delgado et al. Energy aware modeling of interchannel level difference distortion impact on spatial audio perception
Seo et al. An improved method for objective quality assessment of multichannel audio codecs
Jackson et al. Estimates of Perceived Spatial Quality across theListening Area
Suelzle Electroacoustic and behavioural evaluation of hearing aid digital signal processing features
Delgado et al. Design Choices in a Binaural Perceptual Model for Improved Objective Spatial Audio Quality Assessment
Zheng et al. On objective assessment of audio quality—A review
Yang et al. An improved STI method for evaluating Mandarin speech intelligibility

Legal Events

Date Code Title Description
A201 Request for examination
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150520

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee