KR20070079899A - 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 - Google Patents

멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 Download PDF

Info

Publication number
KR20070079899A
KR20070079899A KR1020060088192A KR20060088192A KR20070079899A KR 20070079899 A KR20070079899 A KR 20070079899A KR 1020060088192 A KR1020060088192 A KR 1020060088192A KR 20060088192 A KR20060088192 A KR 20060088192A KR 20070079899 A KR20070079899 A KR 20070079899A
Authority
KR
South Korea
Prior art keywords
sound quality
amount
distortion
output variable
multichannel audio
Prior art date
Application number
KR1020060088192A
Other languages
English (en)
Other versions
KR100829870B1 (ko
Inventor
서정일
백승권
장인선
강경옥
홍진우
최인용
전상배
성굉모
Original Assignee
한국전자통신연구원
재단법인서울대학교산학협력재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 재단법인서울대학교산학협력재단 filed Critical 한국전자통신연구원
Priority to KR1020060088192A priority Critical patent/KR100829870B1/ko
Priority to US12/278,033 priority patent/US20090171671A1/en
Priority to PCT/KR2007/000610 priority patent/WO2007089130A1/en
Priority to DE602007012051T priority patent/DE602007012051D1/de
Priority to EP07708760A priority patent/EP1979900B1/en
Priority to AT07708760T priority patent/ATE496364T1/de
Publication of KR20070079899A publication Critical patent/KR20070079899A/ko
Application granted granted Critical
Publication of KR100829870B1 publication Critical patent/KR100829870B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 멀티채널 압축 코덱의 음질을 평가함에 있어서, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 음질에 대한 객관성 및 일관성있는 측정을 통해 멀티채널 오디오 재생 환경에서 선별된 청취자가 느끼는 청각적인 평가를 적절한 방법으로 통계 처리한 것과 유사한 평가 결과를 얻도록 하기 위한, 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 음질 평가 장치에 있어서, 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하기 위한 전처리수단; 상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist) 및 출력변수를 산출하기 위한 출력변수 계산수단; 및 상기 산출된 양이 상관 정도 왜곡(IACCDist)과 상기 출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단을 포함함.
4. 발명의 중요한 용도
본 발명은 멀티채널 오디오 재생 시스템 등에 이용됨.
객관적 음질 평가, 멀티채널 오디오 압축 코덱, 오디오, 압축, 코덱, 음질 평가, 양이 입력 신호, 양이 상관 정도, 양이 레벨 차이, 양이 상관 정도 왜곡, 양이 레벨 차이 왜곡, 출력 변수, 음질 등급

Description

멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법{Apparatus and method for measurement of Auditory Quality of Multichannel Audio Codec}
도 1 은 본 발명이 적용되는 ITU-R에서 권고하는 멀티채널 오디오 재생 시스템에 대한 구성예시도,
도 2 는 본 발명에 따른 멀티채널 오디오 압축 코덱의 음질 평가 장치에 대한 일실시예 구성도,
도 3 은 본 발명에 따른 총 소리 전달 경로에 대한 일실시예 설명도,
도 4 는 본 발명에 따른 음질 평가 장치의 전처리부에 대한 일실시예 동작 설명도,
도 5 는 본 발명에 따른 멀티채널 오디오 압축 코덱의 음질 평가 방법에 대한 일실시예 흐름도이다.
* 도면의 주요 부분에 대한 부호 설명
11 : 전처리부 12 : 출력변수 계산부
13 : 인공신경망회로부
본 발명은 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법에 관한 것으로, 보다 상세하게는 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 오디오 신호가 압축 전의 본래 신호에 대비하여 청각적 음질 열화가 발생한 정도를 측정하기 위한, 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법에 관한 것이다.
현재까지 단일 채널 오디오 신호 압축 코덱의 음질 평가 방법에 관한 연구가 오랜 기간 진행되어 왔으며, 국제 전기 통신 연합의 무선통신 부문(ITU Radiocommunication Sector, 이하 'ITU-R'이라 함)의 권고안이 채택된 바 있다(ITU-R Recommendation BS. 1387-1, "Method for objective measurements of perceived audio quality", International Telecommunication Union, Geneva, Switzerland, 1998).
하지만, 이는 중/저성능 오디오 압축 코덱 및 멀티채널 오디오 압축 코덱에는 사용할 수 없다는 한계를 지니고 있다.
한편, 평가의 대상이 될 멀티채널 오디오 압축 코덱은 MPEG 표준화 그룹(ISO/IEC/JTC1/SC29/WGll)에서 개발 논의가 활발히 진행 중이며, 여러 기관에서 개발한 코덱이 발표되었는데 이 코덱들의 음질 평가는 'MUSHRA' 기법에 기반한 청취 주관 평가 기법(ITU-R Recommendation BS. 1534-1, "Method for the Subjective Assessment of Intermediate Sound Quality(MUSHRA)", International Telecommunication Union, Geneva, Switzerland, 2001)을 통해 이루어지고 있으며, 이러한 방법을 이용해 수행한 다수의 코덱들에 대한 청취 평가 결과가 발표되었다(ISO/IEC JTC1/SC29/WGll(MPEG), N7138, "Report on MPEG Spatial Audio Coding RMO Listening Tests," ISO/IEC JTC1/SC29/WG11(MPEG), N7139, "Spatial Audio Coding RMO listening test data").
하지만, 멀티채널 오디오 압축 코덱의 음질을 평가함에 있어서, 청취자가 음질을 직접 청취하여 평가하고, 이에 대한 통계 처리 과정을 거치는 음질 평가 방법은 극히 주관적이므로, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 음질에 대한 일관성있는 측정을 통해 음질 평가를 수행하거나, 혹은 음질 평가 결과를 예측할 수 있도록 하는 방안이 절실히 요구된다.
본 발명은 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 멀티채널 압축 코덱의 음질을 평가함에 있어서, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 음질에 대한 객관성 및 일관성있는 측정을 통해 멀티채널 오디오 재생 환경에서 선별된 청취자가 느끼는 청각적인 평가를 적절한 방법으로 통계 처리한 것과 유사한 평가 결과를 얻도록 하기 위한, 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 음질 평가 장치에 있어서, 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호(Binaural input signal)를 생성하기 위한 전처리수단; 상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist : IACC Distortion) 및 출력변수를 산출하기 위한 출력변수 계산수단; 및 상기 산출된 양이 상관 정도 왜곡(IACCDist)과 상기 출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단을 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은, 음질 평가 장치에 있어서, 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하기 위한 전처리수단; 상기 생성된 양이 입력 신호의 양이 레벨 차이 왜곡(ILDDist : ILD Distortion) 및 출력변수를 산출하기 위한 출력변수 계산수단; 및 상기 산출된 양이 레벨 차이 왜곡(ILDDist)과 상기 출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단을 포함하여 이루어진 것을 특징 으로 한다.
한편, 본 발명은, 음질 평가 방법에 있어서, 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하는 양이 입력 신호 생성단계; 상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist) 및 출력변수를 산출하는 출력변수 산출단계; 및 상기 산출된 양이 상관 정도 왜곡(IACCDist) 및 상기 출력변수를 바탕으로 음질의 등급을 출력하는 단계를 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은, 음질 평가 방법에 있어서, 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하는 양이 입력 신호 생성단계; 상기 생성된 양이 입력 신호의 양이 레벨 차이 왜곡(ILDDist) 및 출력변수를 산출하는 출력변수 산출단계; 및 상기 산출된 양이 레벨 차이 왜곡(ILDDist) 및 상기 출력변수를 바탕으로 음질의 등급을 출력하는 단계를 포함하여 이루어진 것을 특징으로 한다.
본 발명은, 단순히 압축후 복구된 신호의 주파수별 에너지가 본래 신호에 대비해 왜곡된 정도를 수치화한 것과는 다르며, 멀티채널 오디오 재생 환경에서 선별된 청취자가 느끼는 청각적인 평가를 적절한 방법으로 통계 처리한 것과 유사한 결과를 얻기 위한 것이다. 이를 통해 멀티채널 오디오 압축 코덱의 음질에 대한 청취 평가 및 통계 처리 과정을 생략하고, 측정만을 통해 음질 평가를 수행하거나 혹은 음질 평가 결과를 예측할 수 있다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
일반적으로, 멀티채널 오디오는 프론트 스피커(LF(Left Front), RF(Right Front)), 센터 스피커(C(Center)), 중저음 채널(LEF(Low Frequency Effect)), 리어 스피커(LS(Left Surround), RS(Right Surround))의 6채널(혹은 5.1채널)을 가지는데, 이중 중저음 채널(LEF)은 저역 효과 채널로서 실제 사용하지 않는 경우가 많으므로, 여기서는 프론트 스피커(LF, RF), 센터 스피커(C), 리어 스피커(LS, RS)의 다섯 채널만을 사용하기로 한다.
도 1 은 본 발명이 적용되는 ITU-R에서 권고하는 멀티채널 오디오 재생 시스템에 대한 구성예시도이다.
도 1에 도시된 바와 같이, ITU-R에서 권고하는 멀티채널 오디오 재생 시스템은, 5채널 스피커는 청취자(10)를 중심으로 한 원의 선(Line)상에 배치되고, 좌우 프론트 스피커(L, R)와 청취자(10)는 정삼각형을 이루게 되며, 정면의 센터 스피커(C)와 청취자(10)의 거리는 좌우 프론트 스피커(L, R)와 등거리가 되고, 좌우 리어 스피커(LS, RS)는 정면 전방을 0도로 하고 각 100도~120도의 동심원상에 위치하게 된다.
이와 같은 ITU-R에서 권고하는 표준 배치안에 따라야 하는 이유는, 대부분의 소스가 이 배치기준에 적합하게 편집/녹음되어 있으므로, 이 표준 배치안에 따라야 의도한 음질(최상의 음질)을 획득할 수 있기 때문이다.
본 발명에서는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 청취자(10)를 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용하여 5채널 스피커(L, R, C, LS, RS)로부터 멀티채널 오디오 신호의 충격 응답을 측정하여, 음질을 평가하기 위한 멀티채널 오디오 압축 코덱의 음질 평가 장치로 대체한다.
도 2 는 본 발명에 따른 멀티채널 오디오 압축 코덱의 음질 평가 장치에 대한 일실시예 구성도이다.
도 2에 도시된 바와 같이, 멀티채널 오디오 압축 코덱의 음질 평가 장치(10)는, ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호(
Figure 112006065870433-PAT00001
,
Figure 112006065870433-PAT00002
,
Figure 112006065870433-PAT00003
,
Figure 112006065870433-PAT00004
)를 생성하기 위한 전처리부(11)와, 전처리부(11)에 의해 생성된 양이 입력 신호(
Figure 112006065870433-PAT00005
,
Figure 112006065870433-PAT00006
,
Figure 112006065870433-PAT00007
,
Figure 112006065870433-PAT00008
)의 양이 상관 정도 왜곡(IACCDist), 양이 레벨 차이 왜곡(ILDDist) 및 출력변수를 산출하기 위한 출력변수 계산부(12)와, 출력변수 계산부(12)로부터 양이 상관 정도 왜곡(IACCDist), 양이 레벨 차이 왜곡(ILDDist)과 출력변수를 입력받아, 이를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로부(13)를 포함한다.
여기서, 양이 상관 정도(IACC : Interaural Cross Correlation)는 양쪽 귀 (양이)로 입력되는 신호의 상관 정도를 나타내고, 양이 레벨 차이(ILD : Interaural Level Difference)는 양쪽 귀(양이)로 입력되는 신호의 에너지 비율을 나타낸다.
이하, 본 발명에 따른 멀티채널 오디오 압축 코덱 음질 평가 장치의 구성요소들의 동작을 개략적으로 살펴보면, 평가할 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원의 다섯 채널은
Figure 112006065870433-PAT00009
,
Figure 112006065870433-PAT00010
,
Figure 112006065870433-PAT00011
,
Figure 112006065870433-PAT00012
,
Figure 112006065870433-PAT00013
로 나타내고, 본래 음원의 다섯 채널은
Figure 112006065870433-PAT00014
,
Figure 112006065870433-PAT00015
,
Figure 112006065870433-PAT00016
,
Figure 112006065870433-PAT00017
,
Figure 112006065870433-PAT00018
로 나타낸다. 최초
Figure 112006065870433-PAT00019
,
Figure 112006065870433-PAT00020
,
Figure 112006065870433-PAT00021
,
Figure 112006065870433-PAT00022
,
Figure 112006065870433-PAT00023
,
Figure 112006065870433-PAT00024
,
Figure 112006065870433-PAT00025
,
Figure 112006065870433-PAT00026
,
Figure 112006065870433-PAT00027
,
Figure 112006065870433-PAT00028
등 총 10개의 신호는 전처리부(11)로 입력되고, 전처리부(11)는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하며, 이들을 합산하여 양이 입력 신호(
Figure 112006065870433-PAT00029
,
Figure 112006065870433-PAT00030
,
Figure 112006065870433-PAT00031
,
Figure 112006065870433-PAT00032
)를 산출한다.
이때, 총 소리 전달 경로는 10개이며, 이는 도 3과 같은 그래프로 나타낼 수 있다.
출력변수 계산부(12)는 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(
Figure 112006065870433-PAT00033
,
Figure 112006065870433-PAT00034
,
Figure 112006065870433-PAT00035
,
Figure 112006065870433-PAT00036
)의 양이 상관 정도 왜곡(IACCDist)과 양이 레벨 차이 왜곡(ILDDist)을 산출하고, 여타 가능한 다른 변수들을 출력변수로 산출하여, 양이 상관 정도 왜곡(IACCDist), 양이 레벨 차이 왜곡(ILDDist) 및 여타 가능한 다른 출 력변수를 인공신경망회로부(13)에 입력하고, 인공신경망회로부(13)는 출력변수 계산부(12)로부터 입력된 양이 상관 정도 왜곡(IACCDist), 양이 레벨 차이 왜곡(ILDDist) 및 여타 가능한 다른 출력변수를 바탕으로 음질의 등급을 출력한다.
여기서, 출력변수 계산부(12)는 하기의 [수학식 1]과 [수학식 2]를 이용하여 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(
Figure 112006065870433-PAT00037
,
Figure 112006065870433-PAT00038
,
Figure 112006065870433-PAT00039
,
Figure 112006065870433-PAT00040
)의 양이 상관 정도 왜곡(IACCDist)과 양이 레벨 차이 왜곡(ILDDist)을 산출한다. 압축되지 않은 본래 오디오 신호의 양이 레벨 차이(ILD)를
Figure 112006065870433-PAT00041
라 하고, 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 오디오 신호의 양이 레벨 차이(ILD)를
Figure 112006065870433-PAT00042
라 한다. 양이 상관 정도(IACC)에 대해서도 이와 같이 명명할 수 있다. 양이 상관 정도(IACC) 및 양이 레벨 차이(ILD)는 44100Hz의 주파수로 샘플링되었을 때 2048개의 샘플을 50%씩 중첩하며 진행하는 시간 프레임에서 24개의 청각 임계대역에 대해 각각 계산된다. 이중 n번째 프레임의 k번째 대역에서 양이 레벨 차이 왜곡(ILDDist)은
Figure 112006065870433-PAT00043
으로 표시한다.
Figure 112006065870433-PAT00044
여기서,
Figure 112006065870433-PAT00045
는 양이 레벨 차이 왜곡(ILDDist)이며,
Figure 112006065870433-PAT00046
는 임계 대역 범위에 따라 결정되는 가중치 함수로서, 양이 레벨 차이(ILD)에 대한 청각 민감도를 반영한다.
한편, n번째 시간 프레임에서 전 청각 대역의 양이 레벨 차이 왜곡(
Figure 112006065870433-PAT00047
)을 획득하기 위해 하기의 [수학식 2]와 같이 전 시간 프레임에 대해 평균한다.
Figure 112006065870433-PAT00048
상기 [수학식 2]와 같이, 전 시간 프레임에 대해 평균함으로써, 해당 멀티채널 압축 코덱의 양이 레벨 차이 왜곡(
Figure 112006065870433-PAT00049
)를 계산할 수 있으며, 양이 상관 정도(IACC)에 대해서도 이와 같이 계산할 수 있다. 이때, 양이 상관 정도 왜곡(IACCDist)은
Figure 112006065870433-PAT00050
로 나타내며, 양이 레벨 차이 왜곡(
Figure 112006065870433-PAT00051
) 및 양이 상관 정도 왜곡(
Figure 112006065870433-PAT00052
)은 청취자에 의한 멀티채널 오디오 압축 코덱의 음질 평가(주관적인 평가) 결과와 높은 상관관계를 가지므로, 출력변수 계산부(12)는 이를 출력변수로 여길 수 있으며, 이값과 여타 가능한 다른 출력변수들을 인공신경망회로부(13)에 입력하여 객관성 및 일관성있는 음질 등급을 출력할 수 있다.
도 4 는 본 발명에 따른 음질 평가 장치의 전처리부에 대한 일실시예 동작 설명도이다.
도 4에 도시된 바와 같이, 음질 평가 장치(10)의 전처리부(11)는 ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하고, 이들을 합산하여, 양이 입력 신호(
Figure 112006065870433-PAT00053
,
Figure 112006065870433-PAT00054
,
Figure 112006065870433-PAT00055
,
Figure 112006065870433-PAT00056
)를 산출한다.
도 5 는 본 발명에 따른 멀티채널 오디오 압축 코덱의 음질 평가 방법에 대한 일실시예 흐름도이다.
먼저, 멀티채널 오디오 압축 코덱의 음질 평가 장치(10)의 전처리부(11)는 멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원 및 본래 음원의 충격 응답을 전달함수화하고, 이들을 합산하여 양이 입력 신호(
Figure 112006065870433-PAT00057
,
Figure 112006065870433-PAT00058
,
Figure 112006065870433-PAT00059
,
Figure 112006065870433-PAT00060
)를 산출한다(501).
이후, 출력변수 계산부(12)는 전처리부(11)로부터 입력된 두 가지 양이 입력 신호(
Figure 112006065870433-PAT00061
,
Figure 112006065870433-PAT00062
,
Figure 112006065870433-PAT00063
,
Figure 112006065870433-PAT00064
)의 양이 상관 정도 왜곡(IACCDist)과 양이 레벨 차이 왜곡(ILDDist)을 산출하고, 여타 가능한 다른 출력변수를 산출하여(502), 양이 상관 정도 왜곡(IACCDist), 양이 레벨 차이 왜곡(ILDDist) 및 여타 가능한 다른 출력변수를 인공신경망회로부(13)에 입력한다(503).
그리고, 인공신경망회로부(13)는 출력변수 계산부(12)로부터 입력된 양이 상관 정도 왜곡(IACCDist), 양이 레벨 차이 왜곡(ILDDist) 및 여타 가능한 다른 출력변수를 바탕으로 음질의 등급을 출력한다(504).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 멀티채널 압축 코덱의 음질을 평가함에 있어서, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 멀티채널 오디오 압축 코덱의 음질에 대한 객관성 및 일관성있는 측정을 통해 멀티채널 오디오 압축 코덱에 대한 음질 평가를 함으로써, 멀티채널 오디오 압축 코덱 개발자 및 사용자들이 시간, 경제적 부담없이 자신이 개발하거나 혹은 사용하는 멀티채널 오디오 압축 코덱의 음질을 간단하게 평가해볼 수 있는 효과가 있다.
또한, 멀티채널 오디오 압축 코덱의 음질 평가에 대한 결과물은 청취자에 의한 주관적인 평가의 결과를 검증하는 자료로 사용할 수 있는 효과가 있다.

Claims (12)

  1. 음질 평가 장치에 있어서,
    멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하기 위한 전처리수단;
    상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist) 및 출력변수를 산출하기 위한 출력변수 계산수단; 및
    상기 산출된 양이 상관 정도 왜곡(IACCDist)과 상기 출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단
    을 포함하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
  2. 음질 평가 장치에 있어서,
    멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하기 위한 전처리수단;
    상기 생성된 양이 입력 신호의 양이 레벨 차이 왜곡(ILDDist) 및 출력변수를 산출하기 위한 출력변수 계산수단; 및
    상기 산출된 양이 레벨 차이 왜곡(ILDDist)과 상기 출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단
    을 포함하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 전처리수단은,
    ITU-R에서 권고하는 표준 멀티채널 오디오 재생 시스템의 인체(두부 및 상반신)를 모사한 양이 마이크로폰을 이용해 측정한 소리 전달 경로의 충격 응답을 전달함수화하고, 이들을 합산하여 상기 양이 입력 신호를 산출하는 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
  4. 제 3 항에 있어서,
    상기 멀티채널 오디오 신호는,
    멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원 및 본래 음원인 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
  5. 제 3 항에 있어서,
    상기 출력변수 계산수단은,
    상기 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist), 상기 양이 레벨 차이 왜곡(ILDDist)을 [수학식 1]과 [수학식 2]를 이용하여 산출하는 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
    [수학식 1]
    Figure 112006065870433-PAT00065
    [수학식 2]
    Figure 112006065870433-PAT00066
  6. 제 5 항에 있어서,
    상기 양이 상관 정도(IACC)는 양쪽 귀(양이)로 입력되는 신호의 상관 정도를 나타내고, 상기 양이 레벨 차이(ILD)는 양쪽 귀(양이)로 입력되는 신호의 에너지 비율을 나타내는 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
  7. 제 6 항에 있어서,
    상기 인공신경망회로수단은,
    상기 양이 상관 정도 왜곡(IACCDist), 상기 양이 레벨 차이 왜곡(ILDDist) 및 상기 출력변수를 바탕으로 음질의 등급을 출력하는 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 장치.
  8. 음질 평가 방법에 있어서,
    멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하는 양이 입력 신호 생성단계;
    상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist) 및 출력변수를 산출하는 출력변수 산출단계; 및
    상기 산출된 양이 상관 정도 왜곡(IACCDist) 및 상기 출력변수를 바탕으로 음질의 등급을 출력하는 단계
    를 포함하는 멀티채널 오디오 압축 코덱의 음질 평가 방법.
  9. 음질 평가 방법에 있어서,
    멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하는 양이 입력 신호 생성단계;
    상기 생성된 양이 입력 신호의 양이 레벨 차이 왜곡(ILDDist) 및 출력변수를 산출하는 출력변수 산출단계; 및
    상기 산출된 양이 레벨 차이 왜곡(ILDDist) 및 상기 출력변수를 바탕으로 음질의 등급을 출력하는 단계
    를 포함하는 멀티채널 오디오 압축 코덱의 음질 평가 방법.
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 멀티채널 오디오 신호는,
    멀티채널 오디오 압축 코덱에 의해 부호화 및 복호화된 음원 및 본래 음원인 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 방법.
  11. 제 10 항에 있어서,
    상기 양이 상관 정도(IACC)는 양쪽 귀(양이)로 입력되는 신호의 상관 정도를 나타내고, 상기 양이 레벨 차이(ILD)는 양쪽 귀(양이)로 입력되는 신호의 에너지 비율을 나타내는 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 방법.
  12. 제 11 항에 있어서,
    상기 출력변수 산출 단계는,
    상기 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist), 상기 양이 레벨 차이 왜곡(ILDDist)을 [수학식 1]과 [수학식 2]를 이용하여 산출하는 것을 특징으로 하는 멀티채널 오디오 압축 코덱의 음질 평가 방법.
    [수학식 1]
    Figure 112006065870433-PAT00067
    [수학식 2]
    Figure 112006065870433-PAT00068
KR1020060088192A 2006-02-03 2006-09-12 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 KR100829870B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020060088192A KR100829870B1 (ko) 2006-02-03 2006-09-12 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법
US12/278,033 US20090171671A1 (en) 2006-02-03 2007-02-05 Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
PCT/KR2007/000610 WO2007089130A1 (en) 2006-02-03 2007-02-05 Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
DE602007012051T DE602007012051D1 (de) 2006-02-03 2007-02-05 Vorrichtung zur schätzung der tonqualität eines audio-codecs bei mehrkanal und verfahren dafür
EP07708760A EP1979900B1 (en) 2006-02-03 2007-02-05 Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
AT07708760T ATE496364T1 (de) 2006-02-03 2007-02-05 Vorrichtung zur schätzung der tonqualität eines audio-codecs bei mehrkanal und verfahren dafür

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR20060010642 2006-02-03
KR1020060010642 2006-02-03
US83362206P 2006-07-27 2006-07-27
US60/833,622 2006-07-27
KR1020060088192A KR100829870B1 (ko) 2006-02-03 2006-09-12 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20070079899A true KR20070079899A (ko) 2007-08-08
KR100829870B1 KR100829870B1 (ko) 2008-05-19

Family

ID=38600420

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060088192A KR100829870B1 (ko) 2006-02-03 2006-09-12 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법

Country Status (6)

Country Link
US (1) US20090171671A1 (ko)
EP (1) EP1979900B1 (ko)
KR (1) KR100829870B1 (ko)
AT (1) ATE496364T1 (ko)
DE (1) DE602007012051D1 (ko)
WO (1) WO2007089130A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129655A2 (en) * 2010-04-16 2011-10-20 Jeong-Hun Seo Method, apparatus, and program-containing medium for assessment of audio quality

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
US8238563B2 (en) * 2008-03-20 2012-08-07 University of Surrey-H4 System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
US20090238371A1 (en) * 2008-03-20 2009-09-24 Francis Rumsey System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
GB2459012A (en) * 2008-03-20 2009-10-14 Univ Surrey Predicting the perceived spatial quality of sound processing and reproducing equipment
WO2015033603A1 (ja) * 2013-09-09 2015-03-12 日本電気株式会社 情報処理システム、情報処理方法及びプログラム
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
CN107170465B (zh) * 2017-06-29 2020-07-14 数据堂(北京)科技股份有限公司 一种音频质量检测方法及音频质量检测系统
US10777217B2 (en) 2018-02-27 2020-09-15 At&T Intellectual Property I, L.P. Performance sensitive audio signal selection
JP6998823B2 (ja) * 2018-04-13 2022-02-04 日本放送協会 マルチチャンネル客観評価装置及びプログラム
US11205443B2 (en) * 2018-07-27 2021-12-21 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved audio feature discovery using a neural network
KR20200082227A (ko) 2018-12-28 2020-07-08 한국전자통신연구원 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치
WO2020209840A1 (en) * 2019-04-09 2020-10-15 Hewlett-Packard Development Company, L.P. Applying directionality to audio by encoding input data
KR20200127781A (ko) 2019-05-03 2020-11-11 한국전자통신연구원 주파수 복원 기법 기반 오디오 부호화 방법
KR102556096B1 (ko) 2019-11-29 2023-07-18 한국전자통신연구원 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
DE112021007572T5 (de) * 2021-04-23 2024-02-15 Harman International Industries, Incorporated Verfahren und System zum Bestimmen einer Tonqualität eines Audiosystems
CN117795987A (zh) * 2021-08-13 2024-03-29 哈曼国际工业有限公司 用于确定音频系统的频率响应的方法
WO2023018889A1 (en) * 2021-08-13 2023-02-16 Dolby Laboratories Licensing Corporation Management of professionally generated and user-generated audio content

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5043970A (en) * 1988-01-06 1991-08-27 Lucasarts Entertainment Company Sound system with source material and surround timbre response correction, specified front and surround loudspeaker directionality, and multi-loudspeaker surround
ES2165656T3 (es) * 1994-02-25 2002-03-16 Henrik Moller Sintesis binaural, funcion de transferencia respecto a una cabeza, y su utilizacion.
US5870481A (en) * 1996-09-25 1999-02-09 Qsound Labs, Inc. Method and apparatus for localization enhancement in hearing aids
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7567675B2 (en) * 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
US7769183B2 (en) * 2002-06-21 2010-08-03 University Of Southern California System and method for automatic room acoustic correction in multi-channel audio environments
USRE43273E1 (en) * 2002-09-23 2012-03-27 Koninklijke Philips Electronics N.V. Generation of a sound signal
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
US8041041B1 (en) * 2006-05-30 2011-10-18 Anyka (Guangzhou) Microelectronics Technology Co., Ltd. Method and system for providing stereo-channel based multi-channel audio coding

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129655A2 (en) * 2010-04-16 2011-10-20 Jeong-Hun Seo Method, apparatus, and program-containing medium for assessment of audio quality
WO2011129655A3 (en) * 2010-04-16 2012-03-15 Jeong-Hun Seo Method, apparatus, and program-containing medium for assessment of audio quality

Also Published As

Publication number Publication date
DE602007012051D1 (de) 2011-03-03
EP1979900A1 (en) 2008-10-15
EP1979900B1 (en) 2011-01-19
EP1979900A4 (en) 2009-11-11
US20090171671A1 (en) 2009-07-02
KR100829870B1 (ko) 2008-05-19
ATE496364T1 (de) 2011-02-15
WO2007089130A1 (en) 2007-08-09

Similar Documents

Publication Publication Date Title
KR100829870B1 (ko) 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법
Počta et al. Subjective and objective assessment of perceived audio quality of current digital audio broadcasting systems and web-casting applications
KR101170524B1 (ko) 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체
US8612237B2 (en) Method and apparatus for determining audio spatial quality
EP4220639A1 (en) Directional loudness map based audio processing
KR20100087928A (ko) 오디오 신호의 음질 평가 방법 및 장치
Zhu et al. Relationship between Chinese speech intelligibility and speech transmission index under reproduced general room conditions
EP2410516A1 (en) Method and system for the integral and diagnostic assessment of listening speech quality
Guldenschuh et al. Assessment of active noise cancelling headphones
de la Prida et al. Methodology for the subjective evaluation of airborne sound insulation through 2-AC and Thurstonian models
Steeneken et al. Basics of the STI measuring method
Moeller et al. Objective estimation of speech quality for communication systems
JP4113481B2 (ja) 音声品質客観評価装置および音声品質客観評価方法
Sen Predicting foreground SH, SL and BNH DAM scores for multidimensional objective measure of speech quality
Brachmanski Experimental comparison between speech transmission index (STI) and mean opinion scores (MOS) in rooms
Brachmański Estimation of logatom intelligibility with the STI method for polish speech transmitted via communication channels
Kocinski et al. Speech Recognition in an Enclosure with a Long Reverberation Time
Brammer et al. Intelligibility of speech corrupted by nonlinear distortion
Schäfer A system for instrumental evaluation of audio quality
Yuhong et al. Auditory attention based mobile audio quality assessment
Ghimire Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863
Schäfer Sound Quality Assessment of Car Audio Systems
Javed et al. Measuring, modelling and predicting perceived reverberation
Somek et al. Speech quality assessment
Reimes Instrumental assessment of near-end perceived listening effort

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130424

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee