KR20120042989A - 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 - Google Patents

오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20120042989A
KR20120042989A KR1020127003997A KR20127003997A KR20120042989A KR 20120042989 A KR20120042989 A KR 20120042989A KR 1020127003997 A KR1020127003997 A KR 1020127003997A KR 20127003997 A KR20127003997 A KR 20127003997A KR 20120042989 A KR20120042989 A KR 20120042989A
Authority
KR
South Korea
Prior art keywords
loudness
reference signal
level
output signal
signal
Prior art date
Application number
KR1020127003997A
Other languages
English (en)
Other versions
KR101430321B1 (ko
Inventor
존 비렌스
예로엔 반 부트
Original Assignee
네덜란제 오르가니자티에 포오르 토에게파스트-나투우르베텐샤펠리즈크 온데르조에크 테엔오
코닌클리즈케 케이피엔 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네덜란제 오르가니자티에 포오르 토에게파스트-나투우르베텐샤펠리즈크 온데르조에크 테엔오, 코닌클리즈케 케이피엔 엔.브이. filed Critical 네덜란제 오르가니자티에 포오르 토에게파스트-나투우르베텐샤펠리즈크 온데르조에크 테엔오
Publication of KR20120042989A publication Critical patent/KR20120042989A/ko
Application granted granted Critical
Publication of KR101430321B1 publication Critical patent/KR101430321B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법에 관한 것이다. 레퍼런스 신호와 출력 신호는 처리되고 비교된다. 처리는 레퍼런스 신호 및 출력 신호를 서로 대응하는 시간 프레임들로 나누는 단계를 포함한다. 부가적으로, 처리는 고정 강도 레벨을 향하여 레퍼런스 신호의 강도를 스케일링하는 단계 및 이후 레퍼런스 신호 시간 프레임 특성을 결정하기 위하여 스케일링된 레퍼런스 신호 내의 시간 프레임들에서 측정을 수행하는 단계를 포함한다. 이후, 레퍼런스 신호의 강도는 고정 강도 레벨로부터 출력 신호와 관련된 강도 레벨을 향하여 스케일링된다. 나아가, 이 방법에 있어서, 출력 신호의 라우드니스는 지각적 라우드니스 영역 내의 고정 라우드니스 레벨을 향하여 스케일링된다. 이 스케일링 동작에서 레퍼런스 신호 시간 프레임 특성을 이용한다. 마지막으로, 레퍼런스 신호의 라우드니스는 출력 신호 관련 강도 레벨에 대응하는 라우드니스 레벨로부터 지각적 라우드니스 영역 내의 스케일링된 출력 신호의 라우드니스 레벨에 관련된 라우드니스 레벨을 향하여 스케일링된다. 이 스케일링 동작 또한 레퍼런스 신호 시간 프레임 특성을 이용한다.

Description

오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR DETERMINING A PERCEIVED QUALITY OF AN AUDIO SYSTEM}
본 발명은 레퍼런스 신호와 관련하여, 오디오 시스템 예컨대 음성처리장치의 출력 신호의 지각 품질(perceived quality)을 나타내는 품질 인디케이터(indicator)를 결정하기 위한 방법에 관한 것이다. 나아가, 본 발명은 프로세서에 의해 실행될 때 그러한 방법을 수행하도록 적용된 예컨대 컴퓨터 판독가능 매체에 저장된 컴퓨터 실행가능 코드를 포함하는 컴퓨터 프로그램 제품에 관한 것이다. 마지막으로, 본 발명은 레퍼런스 신호로서 이용되는 오디오 시스템의 입력과 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 시스템에 관한 것이다.
오디오 장치의 품질은 주관적으로 또는 객관적으로 결정될 수 있다.
주관적 테스트는 시간 소모적이고, 비용이 많이 들고, 재현하기 어렵다. 그러므로, 객관적 방식으로 오디오 장치의 출력 신호, 특히 음성 신호의 품질을 측정하기 위해서 여러 가지 방법들이 개발되어 왔다. 그러한 방법들에 있어서, 음성 신호 처리 시스템으로부터 수신된 바와 같은 출력 신호의 음성 품질은 레퍼런스 신호(reference signal)와 비교하여 결정된다.
이러한 목적을 위해서 널리 이용되는 현재의 방법은 "Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs"라는 제목의 ITU-T 권고안(Recommendation) P.862에서 설명된 방법이다. ITU-T 권고안 P.862에서, 일반적으로 왜곡되는 신호인, 음성 신호 처리 시스템으로부터의 출력 신호의 품질이 결정된다. 음성 신호 처리 시스템의 출력 신호 및 레퍼런스 신호, 예컨대 입력 신호는 인간의 청각 시스템의 정신물리학적 지각 모델에 따른 표시 신호(representation signal) 상으로 매핑된다. 이러한 신호들을 기초로 하여, 레퍼런스 신호와 비교되는 바와 같은 출력 신호 내의 왜곡을 나타내는 차이 신호(differential signal)가 결정된다. 출력 신호의 지각 품질을 나타내는 품질 인디케이터는 주관적으로 지각된 음성 품질과 높은 코릴레이션(correlation)을 보이는 인디케이터로서 흔히 정의된다. 품질 인디케이터는 주체(인간)가 품질 등급에 대한 자신의 의견을 나타내는 주관적 테스트에서 결정된 바와 같이 MOS(Mean Opinion Score)으로서 흔히 표현된다. 일반적으로, 품질 인디케이터는 테스트 중인 장치로의 입력 신호의 내부 표시와 테스트 중인 장치의 출력 신호의 내부 표시의 비교로부터 도출된다. 내부 표시는 외부의 물리적 영역으로부터의 신호를 내부의 정신물리학적 영역을 향해 변환함으로써 계산될 수 있다. ITU-T 권고안 P.862에서, 정신물리학적 신호 표시의 계산에서 사용된 알고리즘의 핵심은 다음의 주요 연산, 고정된 레벨을 향한 스케일링(scaling), 시간 정렬, 진폭-시간(amplitude-time)에서 파워-시간-주파수(power-time-frequency) 영역으로의 변환, 파워 및 주파수 스케일의 워핑(warping)으로 이루어진다. 이러한 연산들은 라우드니스-시간-피치(loudness-time-pitch) 관점의 내부 표시를 낳고, 이로부터 차이 함수들이 계산될 수 있다. 이후, 이들 차이 함수(difference function)들은 단일한 품질 인디케이터를 도출하기 위해서 이용된다. 그래서, 각각의 음성 파일에 대해서, MOS 스코어(score) 및 품질 인디케이터 스코어를 도출할 수 있는데, 이것은 이들 사이에서 가장 높은 가능성 있는 코릴레이션을 가져야 한다. 일 예로서, 코덱의 입력의 내부 표시와 코덱의 출력의 내부 표시를 비교함으로써 음성 코덱의 품질을 결정할 수 있다. 코덱에 의해서 코딩된 각각의 음성 파일에 대해서, 품질 인디케이터는 엔/디코딩된(en/decoded) 음성 파일을 위해 주관적으로 결정된 MOS 스코어와 높은 코릴레이션을 가져야 하는 숫자를 낳을 것이다. 이후, 차이 신호는, 출력 신호의 청각적 지각의 품질의 측정인 품질 신호를 획득하기 위하여 테스트를 기초로 한 인간의 듣기 지각의 특정 속성들이 모델화된 인지 모델에 따라서 처리된다.
ITU-T 권고안 P.862에 의해서 명백하게 명시된 바와 같이, PESQ는 변화하는 청취 레벨에서 이용될 때 부정확한 예측을 제공하는 것으로 알려져 있다. PESQ는 79 dB SPL(Sonic Pressure Level)의 표준 청취 레벨을 가정하고, 입력 신호에서 최적이 아닌 신호 레벨을 보상한다. 그러므로, 최적 청취 레벨들로부터의 편차의 주관적 효과는 고려되지 않는다. 오늘날의 통신 시스템, 특히 VOIP(Voice-Over-IP) 및 유사 기술을 이용하는 시스템에 있어서, 최적이 아닌 청취 레벨은 매우 빈번하게 발생한다. 그 결과, PESQ는 점점 더 인기가 증가하고 있는, 원격 통신 시스템에서 처리된 음성 신호의 지각의 최적 예측을 빈번히 제공하지 못한다.
객관적 측정에 의해서 결정된 바와 같은 음성 품질과 주관적 테스팅에서 결정된 바와 같은 음성 품질 간에 향상된 코릴레이션을 제공하는 오디오 시스템의 전송 품질을 결정하는 방법을 가지는 것이 요구된다.
이러한 목적을 위해서, 본 발명의 실시 예는 레퍼런스 신호와 관련하여 오디오 시스템, 예컨대 음성처리장치의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법에 관한 것인데, 레퍼런스 신호와 출력 신호는 처리되고 비교되며, 처리는 레퍼런스 신호 및 출력 신호를 서로 대응하는 시간 프레임들로 나누는 단계를 포함하며, 처리는: 고정 강도 레벨을 향하여 레퍼런스 신호의 강도를 스케일링하는 단계; 레퍼런스 신호 시간 프레임 특성을 결정하기 위하여 스케일링된 레퍼런스 신호 내의 시간 프레임들에서 측정을 수행하는 단계; 고정 강도 레벨로부터 출력 신호와 관련된 강도 레벨을 향하여 레퍼런스 신호의 강도를 스케일링하는 단계; 레퍼런스 신호 시간 프레임 특성을 이용하여, 지각적 라우드니스(loudness) 영역 내의 고정 라우드니스 레벨을 향하여 출력 신호의 라우드니스를 스케일링하는 단계; 및 레퍼런스 신호 시간 프레임 특성을 이용하여, 출력 신호 관련 강도 레벨에 대응하는 라우드니스 레벨로부터 지각적 라우드니스 영역 내의 스케일링된 출력 신호의 라우드니스 레벨에 관련된 라우드니스 레벨을 향하여 레퍼런스 신호의 라우드니스를 스케일링하는 단계를 포함한다.
특정 실시 예들에서, 고정 강도 레벨로부터 출력 신호와 관련된 강도 레벨을 향하여 레퍼런스 신호의 강도를 스케일링하는 것은 스케일링 인자와 레퍼런스 신호의 곱셈을 기초로 하고, 스케일링 인자는: 다수의 시간 프레임들에 대해서 평균 레퍼런스 신호 강도 레벨을 결정하는 단계; 평균 레퍼런스 신호 강도 레벨을 결정하기 위하여 이용된 레퍼런스 신호의 시간 프레임들에 대응하는 다수의 시간 프레임들에 대해서 평균 출력 신호 강도 레벨을 결정하는 단계; 평균 레퍼런스 신호 강도 레벨 및 평균 출력 신호 강도 레벨을 기초로 하여 분수를 결정함으로써 예비 스케일링 인자를 도출하는 단계; 예비 스케일링 인자가 역치값보다 더 작으면 예비 스케일링 인자와 같도록 스케일링 인자를 정의하고, 그렇지 않으면 추가적 예비 스케일링 인자에 의존하는 값을 가지고 증가된 예비 스케일링 인자와 같도록 스케일링 인자를 정의함으로써 스케일링 인자를 결정하는 단계에 의해 정의된다.
본 발명의 일부 실시 예들에서, 고정 라우드니스 레벨로의 출력 레벨의 라우드니스 스케일링 전에, 방법은: 출력 신호의 라우드니스 레벨보다 더 높은 라우드니스 레벨을 가진 레퍼런스 신호의 부분에 대해서 출력 신호의 라우드니스 레벨을 향하여 레퍼런스 신호의 라우드니스 레벨을 지역적으로 스케일링하는 단계; 및 이후에, 레퍼런스 신호의 라우드니스 레벨보다 더 높은 라우드니스 레벨을 가진 출력 신호의 부분에 대해서 레퍼런스 신호의 라우드니스 레벨을 향하여 출력 신호의 라우드니스 레벨을 지역적으로 스케일링하는 단계를 더 포함한다. 이러한 지역적 스케일링 동작들의 분리는 시간 클리핑 및 펄스에 기인한 레벨 변화의 개별적인 구현 및/또는 조작을 가능하게 한다.
본 발명의 일부 실시 예들에 있어서, 처리는: 스케일링된 레퍼런스 신호 및 출력 신호를 시간 영역으로부터 시간-주파수 영역을 향하여 변환하는 단계; 레퍼런스 신호로부터 레퍼런스 피치 파워 밀도 함수를 도출하고 출력 신호로부터 출력 피치 파워 밀도 함수를 도출하는 단계; 지역적으로 스케일링된 레퍼런스 피치 파워 밀도 함수를 획득하기 위하여 레퍼런스 피치 파워 밀도 함수를 지역적으로 스케일링하는 단계; 지역적으로 스케일링된 레퍼런스 피치 파워 밀도 함수를 주파수와 관련하여 부분적으로 보상하는 단계; 레퍼런스 라우드니스 밀도 함수 및 출력 라우드니스 밀도 함수를 도출하는 단계를 더 포함하고, 강도 레벨의 차이는 피치 파워 밀도 함수들의 강도 레벨들 간의 차이에 대응하고, 라우드니스 레벨의 차이는 라우드니스 밀도 함수들의 라우드니스 레벨들 간의 차이에 대응하고, 라우드니스 밀도 함수들은 지각 품질에 대한 변화하는 레벨 재생(variable level playback)의 효과의 정량화를 가능하게 하는 밀도 함수들을 나타낸다. 추가적인 실시 예에서, 방법은 레퍼런스 피치 파워 밀도 함수 및 출력 피치 파워 밀도 함수 중 적어도 하나에 대해서 익사이테이션(excitation) 연산을 수행하는 단계를 더 포함한다. 이러한 익사이테이션 연산은 이 신호들 상에서 수행된 변환 동작의 수행 결과로서 주파수 성분의 손상의 보상을 가능하게 할 수 있다.
이 처리는 지역적으로 스케일링된 레퍼런스 피치 파워 밀도 함수를 주파수와 관련하여 보상하는 것 또는 지역적으로 스케일링된 레퍼런스 라우드니스 밀도 함수를 보상하는 것 중의 적어도 하나가 레퍼런스 신호 시간 프레임 특성을 기초로 하여 음성 처리 시스템의 선형 주파수 응답을 추정하는 단계를 포함하는 것을 더 포함할 수 있다. 예를 들어, 특정 역치를 초과하는 평균 강도 레벨을 가진 시간 프레임의 단순 이용이 이 동작들의 성능을 향상시킬 수 있다.
본 발명의 일부 실시 예들에서, 지각적 라우드니스 영역 내의 출력 신호의 라우드니스 레벨과 관련된 라우드니스 레벨을 향하여 스케일링하기 전에, 지각적 라우드니스 영역 내의 레퍼런스 신호는 미리 결정된 노이즈 레벨까지 노이즈를 억압하기 위한 노이즈 억압 동작을 거친다. 미리 결정된 노이즈 레벨은 출력 신호를 위한 이상적 표시로 이용되기에 바람직한 낮은 노이즈 레벨로 고려되는 노이즈 레벨에 대응할 수 있다. 유사하게 또는 부가적으로, 고정 라우드니스 레벨을 향하여 스케일링하기 전에, 지각적 라우드니스 영역 내의 출력 신호는 교란을 나타내는 노이즈 레벨까지 노이즈를 억압하기 위한 노이즈 억압 알고리즘을 거칠 수 있다. 출력 신호의 노이즈 억압은 테스트 중인 장치에 의해 경험되는 교란을 나타내는 노이즈 레벨까지 노이즈를 억압하는 것을 허용할 수 있다.
본 발명의 일부 실시 예들에서, 지각적 라우드니스 영역 내의 레퍼런스 신호 및 출력 신호는 비교 전에 전역적 노이즈 억압을 거친다. 전역적 스케일링 후의 이러한 추가적인 노이즈 억압은 객관적으로 측정된 음성 품질과 주관적 청취 품질 실험에서 획득된 바와 같은 음성 품질 간의 코릴레이션을 추가적으로 향상시킨다는 것을 알아냈다.
본 발명의 일부 실시 예들에서, 본 발명은 또한 프로세서에 의해서 실행될 때 상술한 방법의 실시 예들 중 어느 하나를 수행하도록 적용된 예컨대 컴퓨터 판독가능 매체에 저장된 컴퓨터 실행가능 코드를 포함하는 컴퓨터 프로그램 제품에 관한 것이다.
마지막으로, 본 발명의 일부 실시 예들에서, 본 발명은 또한 레퍼런스 신호로 제공되는 오디오 시스템의 입력 신호(X(t))와 관련하여, 오디오 시스템, 예컨대 음성처리장치의 출력 신호(Y(t))의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 시스템에 관한 것인데, 시스템은: 레퍼런스 신호 및 출력 신호를 전처리하기 위한 전처리 장치; 레퍼런스 신호 및 출력 신호 각각에 대한 표시 신호(R(X), R(Y))를 획득하기 위하여 레퍼런스 신호를 처리하기 위한 제1 처리 장치 및 출력 신호를 처리하기 위한 제2 처리 장치; 차이 신호(D)를 획득하도록 레퍼런스 신호 및 출력 신호의 표시 신호를 결합하기 위한 차이생성 장치; 및 음성 처리 시스템의 지각 품질의 추정을 나타내는 품질 신호(Q)를 획득하기 위하여 차이 신호를 처리하기 위한 모델링 장치를 포함하고, 전처리 장치, 제1 처리 장치, 및 제2 처리 장치는 상술한 방법의 실시 예들 중 어느 하나를 수행하기 위한 처리 시스템을 형성한다.
도 1은 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 시스템을 포함하는 일반적인 셋업(set-up)을 개략적으로 도시하고;
도 2는 PESQ에 따라서 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법을 개략적으로 도시하고;
도 3은 본 발명의 실시 예에 따라서 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법을 개략적으로 도시하고; 그리고,
도 4는 본 발명의 추가적 실시 예에 따라서 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법을 개략적으로 도시한다.
다음은 단지 예로서 주어진, 본 발명의 특정 실시 예들에 대한 설명이다.
설명 전반에 걸쳐서, 용어 "지역적(local)" 및 "전역적(global)"은 신호에 대해 수행되는 연산과 관련하여 사용될 것이다. "지역적" 연산은 예컨대 단일 프레임(frame)에 대해 시간 신호 부분에서 수행되는 연산에 관한 것이다. "전역적" 연산은 전체 신호 상에서 수행되는 연산에 관한 것이다.
설명 전반에 걸쳐서, 용어 "출력(output)" 및 "왜곡된(distorted)"은 음성처리장치와 같은 오디오 시스템의 출력으로부터 비롯된 신호와 관련하여 사용될 수 있다. 설명 전반에 걸쳐서, 용어 "레퍼런스(reference)" 및 "원본(original)"은 오디오 시스템에 대한 입력으로서 제공된 신호와 관련하여 사용될 수 있고, 나아가 이 신호는 출력 또는 왜곡된 신호와 비교될 신호로서 사용될 수 있다.
도 1은 레퍼런스 신호와 관련하여 오디오 시스템 예컨대, 음성처리장치의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 시스템을 포함하는 일반적인 셋업을 개략적으로 도시한다. 이러한 방법은 오디오 시스템의 전송 품질의 객관적 척도를 획득하도록 의도된다. 셋업은 조사 중인 오디오 시스템(10), 예컨대 통신 네트워크, 네트워크 엘리먼트, 또는 네트워크나 이동국 내 음성처리장치를 포함한다. 또한, 셋업은 오디오 시스템의 전송 품질을 측정하기 위한 시스템(20)을 포함하는데, 이하 품질 측정 시스템(20)이라고 한다.
품질 측정 시스템(20)은 두 개의 입력 신호를 수신하도록 배열된다. 제1 입력 신호는 품질 측정 시스템(20)에 직접 제공되는(즉, 오디오 시스템(10)을 통해서 제공되지 않음) 음성 신호 X(t)이고, 레퍼런스 신호로 이용된다. 제2 입력 신호는 오디오 시스템(10)에 의해 영향을 받는 음성 신호 X(t)에 대응하는 음성 신호 Y(t)이다. 품질 측정 시스템(20)은 오디오 시스템(10)을 통한 음성 링크의 지각 품질의 추정을 나타내는 출력 품질 신호 Q를 제공한다.
이 실시 예에서, 품질 측정 시스템(20)은 출력 신호 Q가 제공될 수 있도록 두 개의 입력 신호 X(t), Y(t)를 처리하기 위해서 전처리부(20a), 처리부(20b), 및 신호 결합부(20c)를 포함한다.
전처리부(20a)는 전처리된 신호 X P (t)Y P (t)를 획득하기 위해, 고정 레벨 스케일링(fixed level scaling) 및 시간 정렬(time alignment)과 같은 하나 이상의 전처리 동작을 수행하도록 배열된다. 도 1이 단일한 전처리 장치(30)를 도시하지만, 음성 신호 X(t) 및 음성 신호 Y(t)에 대해서 분리된 전처리 장치를 가지는 것 또한 가능하다.
품질 측정 시스템(20)의 처리부(20b)는 인간의 청각 시스템의 정신물리학적 지각 모델에 따라서 표시 신호 상으로 전처리된 신호를 매핑하도록 배열된다. 전처리된 신호 X P (t)는 표시 신호 R(X)를 획득하기 위하여 제1 처리 장치(40a)에서 처리되고, 전처리된 신호 Y P (t)는 표시 신호 R(Y)를 획득하기 위하여 제2 처리 장치(40b)에서 처리된다. 제1 처리 장치(40a) 및 제2 처리 장치(40b)는 단일한 처리 장치 내에 수용될 수 있다.
품질 측정 시스템(20)의 신호 결합부(20c)는 차이생성(differentiation) 장치(50)를 이용하여 차이 신호 D를 획득하기 위해서 표시 신호 R(X), R(Y)를 결합하도록 배열된다. 마지막으로, 모델링 장치(60)는 품질 신호 Q를 획득하도록 인간의 특정 속성이 모델링된 모델에 따라서 차이 신호 D를 처리한다. 인간의 속성, 예컨대 인지 속성은 다수의 인간 주체와 함께 수행된 주관적 청취 테스트를 통해서 획득될 수 있다.
전처리 장치(30), 제1 처리 장치(40a), 및 제2 처리 장치(40b)는 이후에 더욱 상세하게 설명되는 바와 같이 본 발명의 실시 예들을 수행하기 위해 이용될 수 있는 처리 시스템을 형성할 수 있다. 처리 시스템 또는 그 구성요소들은 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 프로세서 또는 소프트웨어나 펌웨어 형태로 컴퓨터 실행가능 코드를 동작시키기 위한 컴퓨터 장치의 형태를 취할 수 있다. 컴퓨터 장치는 예컨대, 프로세서 및 프로세서와 통신하게 연결된 메모리를 포함할 수 있다. 메모리의 예들은 ROM(Read-Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 및 플래시 메모리를 포함하되 이에 한정되지는 않는다.
컴퓨터 장치는 외부 사용자들에 의한 명령 또는 통지의 입력을 가능하게 하는 사용자 인터페이스를 더 포함할 수 있다. 사용자 인터페이스의 예들은 마우스, 키보드, 및 터치 스크린을 포함하되, 이에 한정되지 않는다.
컴퓨터 장치는 컴퓨터 판독가능 매체, 예컨대 CD ROM(Compact Disc Read-Only Memory), DVD(Digital Video Disc), 또는 다른 유형의 알려진 컴퓨터-판독가능 데이터 운반체에 저장된 컴퓨터 실행가능 코드를 적재(load)하도록 배열될 수 있다. 이러한 목적을 위해서 컴퓨터 장치는 판독 유닛(unit)을 포함할 수 있다.
컴퓨터 판독가능 매체에 저장된 컴퓨터 실행가능 코드는, 컴퓨터 장치의 메모리로 코드를 적재한 후에, 이하에서 설명된 본 발명의 실시 예들을 수행하도록 적용될 수 있다.
대안적으로 또는 부가적으로, 본 발명의 그러한 실시 예들은 컴퓨터 장치상에서 실행될 때 그러한 방법을 수행하도록 컴퓨터 실행가능 코드를 포함하는 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 이후, 컴퓨터 장치의 메모리로 컴퓨터 실행가능 코드를 적재한 후 컴퓨터 장치의 프로세서에 의해서 방법이 수행될 수 있다.
그래서, 객관적 지각 측정 방법은 음성 코덱, 전화 링크, 및 모바일 핸드셋과 같은 오디오 시스템의 주관적인 지각 품질을 예측하기 위한 목적을 가지고 컴퓨터 프로그램에서 주체의 소리 지각을 모방한다. 테스트 중인 장치의 입력 및 출력의 물리적 신호들은 인간의 두뇌 안의 내부 표시에 가능한 가깝게 매치(match)하는 정신물리학적 표시들 상으로 매핑된다. 테스트 중인 장치의 품질은 내부 표시에서의 차이들을 기초로 하여 판단된다. 현재 이용가능한 가장 잘 알려진 객관적 지각 측정 방법은 PESQ(Perceptual evaluation of speech quality; 음성 품질의 지각 평가)이다.
도 2는 ITU-T 권고안 P.862에서 규정된 바와 같은 PESQ(이하, PESQ라고 함)에 따라서 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법을 개략적으로 도시한다. PESQ는 도 1에서 개략적으로 도시된 바와 같은 셋업에서 이용될 수 있다. PESQ에서, 레퍼런스 신호 X(t)는 오디오 시스템, 예컨대 통신 시스템과 같은 음성 처리 시스템을 통하여 X(t)를 통과시킨 결과인 출력 신호 Y(t)와 비교된다. PESQ 스코어라고도 하는, PESQ의 출력 품질 신호는 주관적 청취 테스트에서 주체의 의해 Y(t)에 주어질 지각 품질의 예측이다. PESQ 스코어는 소위 MOS(mean opinion score)의 형태를 취한다. 이러한 목적을 위해서, PESQ 출력은 MOS와 같은 스케일, 즉 -0.5 내지 4.5의 범위에서 하나의 숫자상으로 매핑되지만, 대부분의 경우에 출력 범위는 1.0와 4.5 사이에 있을 것이고, 이것은 ACR(Absolute Category Rating) 청취 품질 실험에서 발견되는 MOS 값들의 일반적인 범위이다.
PESQ에서 전처리는, 신호 X S (t), Y S (t)를 각각 획득하기 위기 위한 신호 X(t), Y(t) 양쪽 모두의 레벨 정렬뿐 아니라, 신호 X IRSS (t), Y IRSS (t)를 각각 획득하기 위한 IRS(Intermediate Reference System) 필터링(filtering)을 포함한다. 레벨 정렬은 PESQ 79 dB SPL에서 고정 레벨을 향한 강도의 스케일링을 포함한다. 전송 품질을 측정하는 방법이 통신 시스템 엘리먼트, 예컨대 모바일 전화 등의 필터링에 상대적으로 둔감하다는 것을 보장하기 위해서 IRS 필터링이 수행된다. 마지막으로, 레퍼런스 신호 X IRSS (t)Y IRSS (t) 간의 시간 지연이 결정되어 시간-천이 출력 신호 Y IRSS ' (t)를 낳는다. 이제, 레퍼런스 신호와 출력 신호 사이의 비교는 동일한 시간에 대해 발생한다고 가정된다.
인간의 귀는 시간-주파수(time-frequency) 변환을 수행한다. PESQ에서, 이것은 시간 신호 X IRSS (t)Y IRSS ' (t) 상에서 해닝 윈도우(Hanning window)를 가지고 숏텀(short term) FFT(Fast Fourier Transform)를 수행함으로써 모델링된다. 해닝 윈도우는 전형적으로 32 ms의 사이즈를 가진다. 인접한 시간 윈도우(이하, 프레임이라고 함)들은 전형적으로 50% 만큼 중첩된다. 위상 정보는 버려진다. 복소 FFT 성분의 실수부 제곱 및 허수부 제곱의 합, 즉 파워 스펙트럼은 파워 표시 PX WIRSS (f) n PY WIRSS (f) n 을 획득하기 위해서 이용되며, 여기서 n은 고려 중인 프레임을 나타낸다. 파워 표시는 주파수 대역으로 나눠지며, 이하 FFT-대역(FFT-band)이라고 한다.
인간의 청각 시스템은 높은 주파수에서보다 낮은 주파수에서 더 정밀한 주파수 해상도를 가진다. 피치 스케일(pitch scale)은 이 현상을 반영하는데, 이러한 이유로 PESQ는 주파수를 피치 스케일로, 이 경우에는 소위 바크 스케일(Bark scale)로 워핑하게 한다. (이산(discrete)) 주파수 축의 전환은 바크-대역(Bark-band), 전형적으로 24를 형성하기 위하여 FFT-대역을 버리는 것을 포함한다. 결과적으로 얻어진 신호는 피치 파워 밀도 또는 피치 파워 밀도 함수라고 하고, PPX WIRSS (f) n PPY WIRSS (f) n 로 표시된다. 피치 파워 밀도 함수는 지각 주파수를 고려하여 인간의 청각 시스템에서 오디오 신호의 정신물리학적 표시에 유사한 내부 표시를 제공한다.
테스트될 오디오 시스템에서 필터링을 처리하기 위해서, 레퍼런스의 파워 스펙트럼 및 출력 피치 파워 밀도는 시간에 걸쳐서 평균이 내어진다. 부분적 보상 인자는 출력 스펙트럼 대 레퍼런스 스펙트럼의 비로부터 계산된다. 이후, 각각의 프레임 n의 레퍼런스 피치 파워 밀도 PPX WIRSS (f) n 는 레퍼런스를 출력 신호에 이퀄라이즈(equalize)하기 위하여 이러한 부분적 보상 인자와 곱해진다. 이것은 역으로 필터링된 레퍼런스 피치 파워 밀도 PPX' WIRSS (f) n 를 초래한다. 가벼운(mild) 필터링은 거의 인식되지 않는 반면 심한(severe) 필터링은 청취자를 방해할 수 있기 때문에 이러한 부분적 보상이 이용된다. 출력 신호는 ACR 청취 실험에서 주체에 의해서 판단되는 것이기 때문에 레퍼런스 신호 상에서 보상이 수행된다.
숏텀 이득(gain) 변화에 대하여 보상하기 위해서, 지역적 스케일링 인자가 계산된다. 이후, 지역적 스케일링 인자는 지역적으로 스케일링된 피치 파워 밀도 함수 PPY' WIRSS (f) n 을 획득하기 위해서 출력 피치 파워 밀도 함수 PPY WIRSS (f) n 와 곱해진다.
레퍼런스 신호 상에서 수행된 필터링에 대한 부분적 보상 및 출력 신호 상에서 수행된 숏텀 이득 변화에 대한 부분적 보상 이후에, 레퍼런스 및 저하된 피치 파워 밀도는 즈위커의 법칙(Zwicker's law)을 이용하여 손 라우드니스 스케일(Sone loudness scale)로 변환된다. 결과적으로 얻어진 2차원 어레이 LX (f) n LY (f) n 는 각각 레퍼런스 신호 및 출력 신호에 대한 라우드니스 밀도 함수라고 한다. LX(f) n 에 대해서, 이것은 다음과 같이 의미한다:
Figure pct00001
여기서, P 0 (f)는 절대 청각 역치(threshold)이고, S l 은 라우드니스 스케일링 인자이고,
Figure pct00002
는, 소위 즈위커 파워(Zwicker power)인데, 약 0.23의 값을 가진다. 라우드니스 밀도 함수는 라우드니스 지각을 고려하여 인간의 청각 시스템에서 오디오 신호의 내부 정신물리학적 표시를 나타낸다.
이후, 레퍼런스 및 출력 라우드니스 밀도 함수 LX (f) n , LY (f) n 는 뺄셈이 수행되어 차이 라우드니스 밀도 함수 D(f) n 를 낳는다. 지각적 뺄셈(perceptual subtraction) 이후에, 지각 품질 척도는 교란 척도(disturbance measure) D 및 비대칭(asymmetric) 교란 척도 D A 양쪽 모두를 고려함으로써 도출될 수 있다. 나아가, PESQ와 관련된 세부사항들은 ITU-T 권고안 P.862에서 찾을 수 있다.
도 3은 본 발명의 실시 예에 따라서 레퍼런스 신호의 관점에서 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법을 개략적으로 도시한다. IRS-필터링(IRS-filtering)과 같은 전처리 동작 및 시간 지연 이후에, 레퍼런스 신호 및 출력 신호 양쪽 모두는 시간 영역 내의 신호에서 지각적 시간-주파수 영역 내의 신호로 변환된다.
이것은 PESQ와 관련하여 도 2에서 도시된 것과 유사한 방식으로 수행될 수 있다. 다시 말해, 우선 레퍼런스 신호와 출력 신호를 서로 대응하는 시간 프레임들로 나누기 위해서 윈도우잉(windowing) 함수, 예컨대 해닝 윈도우가 실행된다. 이후, FFT가 시간 영역에서 시간-주파수 영역으로 신호를 변환하기 위해서 시간 프레임 상에서 수행된다. FFT 이후에, 지각적 주파수 영역이라고도 지칭되는 지각적 시간-주파수 영역에서 표시를 획득하기 위하여 신호가 피치 스케일, 예컨대 바크(Bark)에서의 주파수 스케일로 워핑한다.
도 2에서 개략적으로 도시된 바와 같이 PESQ에서 취해진 접근법과는 대조적으로, 도 3에서 개략적으로 도시된 방법은 레벨 변화, 특히 소위 전역적 재생(play back) 레벨 변화를 고려한다. 전역적 재생 레벨을 고려함으로써, 특히 재생 레벨이 ITU-T 권고안 P.862에 따른 계산에서 이용된 표준화된 재생 레벨과 일치하지 않는 경우들에 있어서 품질 인디케이터의 정확성은 현저하게 증가할 수 있다. 다시 말해, 전역적 재생 레벨이 표준 레벨보다 더 높거나 낮은 어플리케이션들에 대해서, 객관적으로 획득된 품질 인디케이터와 주관적으로 획득된 품질 간의 코릴레이션이 개선된다. 그러한 상이한 전역적 재생 레벨은, 예컨대 음향적 피드백(acoustic feedback)을 방지하기 위하여 VOIP(Voice-over-IP) 시스템에서 종종 사용된다.
강도 레벨 변화를 고려할 수 있도록 하기 위해서, 전처리에서 출력 신호 상에서 수행된 레벨 정렬 동작이 존재하지 않는다. 하지만, 이하에서 명백하게 되는 바와 같이, 전역적 재생 레벨과는 무관하게 레퍼런스 신호와 관련하여 정보를 획득하는 것이 바람직하다. 달리 말해, 그러한 정보를 획득하기 위하여, 레퍼런스 신호의 전체 강도 레벨은 품질 예측을 하길 바라는 모든 주관적 테스트들에 대해서 동일해야 한다.
이러한 이유로, 레퍼런스 신호는 고정 강도 레벨(fixed intensity level)을 향하여 전역적으로 스케일링된다. 레퍼런스 신호의 스케일링은 도 3에서 개략적으로 도시된 바와 같이, 변환 전에, 즉 시간 영역에서 수행될 수 있다. 이와 달리, 레퍼런스 신호는 (지각적) 시간-주파수 영역을 향한 변환 후에 스케일링될 수 있다.
고정 강도 레벨을 향한 레퍼런스 신호의 스케일링 후에, 레퍼런스 신호 특성을 획득하기 위하여 스케일링된 레퍼런스 함수 내에서 시간 프레임 상에서 측정이 수행된다. 특히, 이러한 시간 프레임들의 강도 레벨, 예컨대 평균 강도 레벨 또는 그 안의 피크 강도 레벨에 대한 신호 특성들은 수행된 측정을 기초로 하여 결정된다.
프레임 레벨 검출이라고도 하는 프레임 레벨 측정 이후에, 스케일링된 레퍼런스 신호는 출력 신호와 관련된 강도 레벨을 향하여 스케일링된다. 바람직하게는, 이 스케일링은 음성 신호가 두드러지는 주파수 대역만을, 예컨대 400과 3500 Hz 사이의 대역을 이용한다. 앞에서의 고정 강도 레벨을 향한 레퍼런스 신호의 스케일링의 결과로서 레퍼런스 신호와 출력 신호 간의 강도 레벨 차이가 존재할 수 있어서, 신뢰할 수 있는 품질 인디케이터를 획득하는 것이 불가능하게 될 수 있기 때문에 이 스케일링 동작이 수행된다. 스케일링된 레퍼런스 신호의 스케일링은, 지각 품질에 대한 전역적 재생 레벨의 효과의 평가를 가능하게 하는, 스케일링된 레퍼런스 신호와 출력 신호 간의 강도 레벨 차이를 생성하는 것을 목적으로 한다. 그래서, 수행된 스케일링 동작은 스케일링된 레퍼런스 신호와 출력 신호 간의 강도 레벨 차이를 부분적으로 보상한다. 특정 역치값을 초과하는 레벨 차이는, 예컨대 누군가가 자신의 재생 장치의 볼륨을 낮은 강도 레벨로 설정한 경우, 전체적으로 낮은 표현 레벨의 효과를 모델링하는 것이 가능하도록 완전히 보상될 수는 없다. 낮은 레벨 음성 재생은 예컨대, 음향 반향(acoustic echo) 제어의 고장을 처리하기 위해서 VOIP 시스템에서 흔히 이용된다.
소프트 스케일링(soft scaling) 알고리즘, 즉 파워의 작은 편차가 바람직하게는 시간 프레임당 보상되고, 더욱 큰 편차는 레퍼런스 신호와 출력 신호 간의 파워 비율(power ratio)에 의존하여 부분적으로 보상되는 식으로 처리될 신호를 스케일링하는 알고리즘이 스케일링에서 이용될 수 있다. 소프트 스케일링의 사용과 관련된 더욱 상세한 내용은 US 특허 출원 2005/159944, US 특허 7,313,517, 및 US 특허 7,315,812에서 찾을 수 있으며, 모두 본 출원인에게 양도된 것이며, 여기에서 참조에 의해 통합된다(incorporated by reference).
전역적 스케일링 동작 이후에, 레퍼런스 신호는 도 2를 참조하여 설명된 바와 같이 주파수 보상을 거친다. 유사하게, 출력 신호는 지역적 스케일링 동작을 거친다. 지역적 스케일링은 또한 도 3에서 개략적으로 도시된 바와 같이 레퍼런스 신호에 대하여 수행될 수 있다. 이후, 레퍼런스 신호 및 출력 신호 양쪽 모두는 도 2에서 도시된 PESQ를 참조하여 설명된 바와 같이 라우드니스 스케일로의 강도 워핑(intensity warping)을 거친다. 이제, 레퍼런스 신호 및 출력 신호는 지각적 라우드니스 영역에서 표현된다.
도 2에서 도시된 PESQ와는 대조적으로, 지각적 라우드니스 영역에서 출력 신호 및 레퍼런스 신호 양쪽 모두는 추가적인 스케일링 동작을 거칠 수 있다. 이 지점까지, 출력 신호의 신호 레벨은 현저하게 변하지 않았으며, 출력 신호의 매우 낮은 레벨은 이제 내부 표시에서 한계적(marginal) 차이만을 초래할 것이다. 이것은 품질 추정에 있어서 에러로 이어진다.
이러한 목적을 위해서, 우선, 출력 신호는 고정 라우드니스 레벨로 스케일링된다. 고정 라우드니스 레벨은 주관적 청취 품질 실험에서 수행되는 교정(calibration) 실험에 의해서 결정될 수 있다. 최초의 전역적 레벨 교정이 ITU-T 권고안 P.861 및/또는 P.862에서 설명된 바와 같이 레퍼런스 신호를 위해서 이용된다면, 그러한 고정 라우드니스 레벨은 무차원(dimensionless) 내부 라우드니스 관련 스케일링 숫자 20 근처에 있다.
출력 신호의 라우드니스 레벨 스케일링의 결과로 출력 신호와 레퍼런스 신호 사이의 라우드니스 레벨 차이가 존재해서, 신뢰할만한 품질 인디케이터가 결정될 수 없다. 이러한 바람직하지 않은 예상을 극복하기 위해서, 레퍼런스 신호의 라우드니스 레벨 또한 스케일링될 필요가 있다. 그러므로, 출력 신호의 라우드니스 레벨의 스케일링 후에, 레퍼런스 신호의 라우드니스 레벨은 스케일링된 출력 신호와 관련된 라우드니스 레벨을 향하여 스케일링된다. 이제, 레퍼런스 신호 및 출력 신호 양쪽 모두는 오디오 시스템의 전송 품질의 객관적 척도를 획득하기 위해 필요한 지각적으로 관련된 내부 표시를 계산하기 위해 이용될 수 있는 라우드니스 레벨을 가진다.
지각적 라우드니스 영역에서 수행된 전역적 스케일링 동작에서, 레퍼런스 및 출력 신호 양쪽의 평균 라우드니스가 이용될 수 있다. 이 신호들의 평균 라우드니스는 프레임 레벨 검출 동안 측정된 바와 같은 레퍼런스 신호에서의 강도 레벨이 추가적 역치값, 예컨대 음성 활성 기준값(speech activity criterion value)을 초과하는 시간 프레임에 대해서 결정될 수 있다. 음성 활성 기준값은 절대 청각 역치에 대응할 수 있다. 음성 활성 기준값이 이용된다면, 이 프레임들은 음성 프레임들이라고 할 수 있다. 출력 신호에 대해서, 계산 목적상, 강도 레벨이 추가적 역치값을 초과하는 시간 프레임에 대응하는 시간 프레임이 고려된다. 그래서, 음성 활성 기준값을 이용하는 실시 예에서, 레퍼런스 신호의 평균 라우드니스는 음성 프레임과 관련하여 결정되는 반면, 출력 신호의 평균 라우드니스는 레퍼런스 신호 내 음성 프레임에 대응하는 시간 프레임과 관련하여 결정된다.
도 3에서, 마지막으로, 레퍼런스 신호 및 출력 신호는 지각적 뺄셈이 수행된다. 이것은, 도 2를 참조로 설명되고 PESQ으로부터 알려진 방식으로 수행될 수 있다. 다시 말해, 전체적 저하(degradation)를 나타내는 인디케이터 D n 및 추가된 저하를 나타내는 인디케이터 DA n 이 병렬적으로 결정된다.
도 3에서 도시된 바와 같은 방법은 양쪽 인디케이터 D n , DA n 의 계산에 관한 상이한 접근법을 허용한다. 도 3에서 도시된 바와 같은 방법을 두 번 수행하는 것이 가능한데, 즉 한 번은 전체적 저하에 대한 품질을 나타내는 품질 인디케이터를 결정하기 위한 것이고, 다른 한 번은 레퍼런스 신호와 비교하여 추가된 저하에 대한 품질을 나타내는 품질 인디케이터를 결정하기 위한 것이다. 이 방법을 두 번 수행하는 것은 상이한 유형의 왜곡에 대한 계산의 최적화를 가능하게 한다. 이러한 최적화는 객관적으로 측정된 음성 품질과 주관적 청취 품질 실험에서 획득된 바와 같은 음성 품질 간의 코릴레이션을 현저하게 향상시킨다.
이 방법이 두 번 수행된 실시 예에서, 프레임 레벨 검출의 결과는 달리 이용될 수 있다. 예를 들어, 시간 프레임의 선택은 예컨대 상이한 음성 활성 역치값을 기초로 하여 다를 수 있다.
도 4는 본 발명의 추가적 실시 예에 따라서 레퍼런스 신호와 관련하여 오디오 시스템의 출력 신호의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 방법을 개략적으로 도시한다. 이 방법에서, 레퍼런스 신호 및 출력 신호 양쪽 모두는 전처리 단계, 예컨대 도 2를 참조로 하여 설명되고 PESQ로부터 알려진 바와 같은 IRS-필터링 및 시간 지연을 거친다. 윈도우잉 함수, 예컨대 PESQ로부터 알려진 바와 같은 해닝 윈도우의 사용과 결합해서 짧은 고속 푸리에 변환(fast Fourier transform)을 사용하여 신호의 시간-주파수 표시를 획득하기 전에, 레퍼런스 신호는 고정된 레벨로 전역적으로 스케일링된다. 고정된 레벨을 향한 전역적 스케일링은 PESQ에서 사용된 레벨 정렬과 유사하다. 하지만, 이 경우에 레퍼런스 신호만이 이러한 식으로 스케일링된다. 출력 신호는 이 단계에서 스케일링되지 않는다. 고정된 레벨은 양쪽 귀에 동일하게(diotically) 또는 양쪽 귀에 다르게(dichotically) 제시된 음성 조각(speech fragment)에 대해 약 73 dB SPL의 레벨과 일치하고, 모노로(monotically) 제시된 음성 조각에 대해 약 79 dB SPL의 레벨과 일치한다. 출력 신호는 내부 표시가 주관적 테스트에서 이용된 실제 음향 레벨에 대응하는 방식으로 인자를 가지고 스케일링된다.
윈도우잉 함수, 예컨대 해닝 윈도우를 통해서 선택된 시간 윈도우 상에서 수행된 FFT에 기인한 파워-주파수(power-frequency) 표시를 획득한 후에, 레퍼런스 신호는 레퍼런스 신호와 출력 신호 사이의 강도 레벨 차이를 단지 부분적으로 보상하는 알고리즘을 가지고 출력 신호를 향하여 스케일링된다. 남아 있는 차이는 지각 전송 품질에 대한 강도의 영향을 추정하기 위해 이용될 수 있다.
실시 예에서, 고정 강도 레벨로부터 출력 신호에 관련된 강도 레벨을 향한 레퍼런스 신호의 강도의 스케일링은 스케일링 인자와 레퍼런스 신호의 곱셈을 기초로 할 수 있다. 이러한 스케일링 인자는 레퍼런스 및 출력 신호의 적어도 일부에 대한 평균 신호 강도 레벨을 결정함으로써 도출될 수 있다. 이후, 평균 레퍼런스 신호 강도 레벨 및 평균 출력 신호 강도 레벨은 예비(preliminary) 스케일링 인자를 획득하기 위한 분수(fraction) 계산에서 이용될 수 있다. 마지막으로, 만일 예비 스케일링 인지가 역치값보다 더 작으면 예비 스케일링 인자와 같도록 스케일링 인자를 정의하고, 그렇지 않으면 추가적인 예비 스케일링 인자에 의존하는 값을 가지고 증가된 예비 스케일링 인자와 같도록 스케일링 인자를 정의함으로써 스케일링 인자가 결정될 수 있다.
출력 신호의 강도 레벨을 향한 전역적 스케일링 이후에, 레퍼런스 신호는 도 2에서 PESQ을 참조하여 설명된 것과 동일한 접근법을 이용하여 지각적 시간-주파수 영역에서의 지역적 스케일링 및 부분적 주파수 보상을 거친다. 도 4에서 도시된 실시 예에서 지역적 스케일링이 레퍼런스 신호를 참조하여 수행되지만, 예컨대 도 2에서 도시된 방식으로 출력 신호에 대하여 이러한 지역적 스케일링 단계를 적용하는 것이 마찬가지로 동등하게 가능하다. 지역적 스케일링 동작의 목적은 숏텀 이득 변화의 보상과 관련이 있다. 레퍼런스 신호 또는 출력 신호 중 어느 것이 선택될지는 구체적인 적용에 따라서 좌우될 것이다. 레퍼런스 신호는 일반적으로 주관적 품질 측정에서 테스트 주체에게 제시되지 않기 때문에, 일반적으로 레퍼런스 신호가 보상된다.
실시 예에서, 제1 부분적 주파수 보상은 소위 소프트 스케일링 알고리즘을 이용한다. 소프트 스케일링 알고리즘에서, 파워의 작은 편차들이 바람직하게는 시간 프레임당 보상되고 더욱 큰 편차들은 레퍼런스 신호와 출력 신호 간의 파워 비율에 의존하여 부분적으로 보상되는 식으로 스케일링함으로써, 처리될 신호 즉 레퍼런스 신호 또는 출력 신호가 향상된다. 소프트 스케일링의 사용과 관련된 더욱 상세한 내용은 US 특허 출원 2005/159944, US 특허 7,313,517, 및 US 특허 7,315,812에서 찾을 수 있으며, 모두 본 출원인에게 양도된 것이며, 여기에서 참조에 의해 통합된다.
바람직하게는, 이제 익사이테이션(excitation) 단계가 레퍼런스 신호 및 추력 신호 양쪽에서 수행되는데, 이 신호들에 대해 위도우잉 함수, 예컨대 해닝 윈도우를 가지고 앞서 고속 푸리에 변환의 수행결과로서의 주파수 성분의 손상(smearing)을 보상하기 위한 것이다. 익사이테이션 단계는 양쪽 신호의 표시를 첨예하게 하기 위한 셀프 마스킹 곡선(self masking curve)을 이용해서 수행된다. 이러한 셀프 마스킹 곡선의 계산과 관련하여 더욱 상세한 내용은 예컨대, 논문 "A perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation", by J.G. Beerends and J.A. Stemerdink, J. Audio Eng. Soc, Vol. 40, No. 12 (1992) pp. 963 - 978에서 찾을 수 있다. 이 논문에서, 익사이테이션이 계산되고, 품질은 손상된 익사이테이션 표시를 이용해서 결정된다. 일 실시 예에서, 계산된 익사이테이션은 이후에 그 차례에서 첨예하게 된 시간-주파수 표시를 얻기 위해서 사용될 수 있는 셀프 마스킹 곡선을 도출하기 위해 이용된다. 가장 간단한 형태에 있어서, 셀프 마스킹 곡선은 익사이테이션 곡선의 일부에 대응한다.
도 2를 참조로 하여 설명되고 PESQ에서 이용된 바와 같이 라우드니스 스케일로의 강도 워핑 이후에, 레퍼런스 신호 및 출력 신호는 라우드니스 영역에서 지역적으로 스케일링된다. 우선, 출력 신호보다 소리가 더 큰(louder) 레퍼런스 신호의 부분들이 스케일링된다. 이후, 레퍼런스 신호보다 소리가 더 큰 출력 신호의 부분들이 스케일링된다.
이러한 지역적 스케일링 동작들의 분리는 시간 클리핑(time clipping) 및 펄스(pulse)에 기인한 레벨 변화의 개별적인 구현 및/또는 조작을 가능하게 한다. 레퍼런스 신호의 부분이 출력 신호의 대응 부분보다 소리가 더 크면, 이러한 차이는 예컨대 누락된 프레임에 의해 초래된 시간 클리핑에 기인할 수 있다. 시간 클리핑의 지각적 효과를 정량화하기 위해서, 레퍼런스 신호는 (비대칭) 교란 차이 계산을 위해 최적이라고 고려되는 레벨로 스케일 다운(scale down)된다. 출력 신호에서의 이러한 지역적 스케일링 동작은 또한 (비대칭) 교란 차이 계산에 대해서 더욱 최적인 레벨까지 출력 신호에서의 노이즈를 억압한다. 주관적 지각 품질에 대한 노이즈의 영향은 출력 신호 상에서 노이즈 억압 동작과 이러한 지역적 스케일링을 결합함으로써 더욱 정확하게 추정될 수 있다.
다음으로, 제2 부분적 주파수 보상이 수행될 수 있다. 이러한 주파수 보상은 PESQ에서와 유사한 방식으로 수행될 수 있는데, 하지만 이제 라우드니스 영역에서 이용된다. 실시 예에서, 제2 부분적 주파수 보상은 제1 부분적 주파수 보상을 참조하여 앞서 논의된 바와 같은 소프트 스케일링 알고리즘을 이용한다. 제2 부분적 주파수 보상의 이용은 객관적으로 측정된 음성 품질과 주관적 청취 품질 실험에서 획득된 바와 같은 음성 품질 간의 코릴레이션을 더욱 향상시킨다.
상술한 바와 같이, 제1 부분적 주파수 보상 및 제2 부분적 주파수 보상은 도 2를 참조하여 설명된 바와 같이 PESQ에서 이용된 부분적 주파수 보상과 유사할 수 있다. 그러므로, 이러한 주파수 보상들은, 기초가 된 테스트 중인 시스템의 선형 주파수 응답의 추정을 포함하여, 평균을 내는 연산을 이용할 수 있다. 일부 실시 예들에서, 레퍼런스 신호 강도 레벨값이 역치값, 예컨대 음성 활성 기준값보다 더 큰 프레임들에서만 추정이 수행된다. 도 4의 방법으로부터 쉽게 이해되는 바와 같이, 음성 프레임의 이러한 선택은 프레임 레벨 검출 동작에서 검출된 레벨을 기초로 할 수 있다.
바람직하게는, 이 지점에서 레퍼런스 신호 및 출력 신호 양쪽 모두의 고대역(high band)들이 영(zero)으로 설정되는데, 이들은 결정될 지각 전송 품질에 무시할만한 정도의 영향을 가지는 것으로 드러났기 때문이다. 게다가, 출력 신호의 저대역(low band)들의 강도 레벨은 레퍼런스 신호의 유사한 대역의 강도 레벨을 향하여 지역적으로 스케일링된다. 예를 들어, 바크(Bark) 23 및 그 이상에 관련된 모든 대역들은 영으로 설정될 수 있는 반면, 바크 0 내지 5에 관련된 출력 신호에서의 바크 대역들이 스케일링될 수 있다. 그래서, 레퍼런스 신호에서 바크 0 ~ 22에 관련된 바크 대역들과 출력 신호에서 바크 6 내지 22에 관련된 바크 대역은 이들 연산의 어느 하나에도 종속되지 않는다.
이 지점까지, 출력 신호의 신호 레벨은 현저하게 변화되지 않았으며, 출력 신호의 매우 낮은 레벨은 이제 내부 표시에서 한계적 차이만을 초래할 것이다. 이것은 품질 추정에 있어서 에러로 이어진다. 그러므로, 레퍼런스 신호 및 출력 신호 양쪽 모두는 오디오 시스템의 전송 품질의 객관적 척도를 획득하기 위해서 필요한 지각적으로 관련된 내부 표시를 계산하기 위해서 이용될 수 있는 레벨을 향하여 전역적으로 스케일링된다. 첫째로, 출력 신호의 전역적 레벨은 고정 내부 라우드니스 레벨을 향하여 스케일링된다. 만일 최초의 전역적 레벨 교정이 ITU-T 권고안 P.861 및/또는 P.862에서 설명된 바와 같이 레퍼런스 신호를 위해서 이용된다면, 그러한 고정 라우드니스 레벨은 무차원 내부 라우드니스 관련 스케일링 숫자 20 근처에 있다. 둘째로, 레퍼런스 신호의 레벨은 도 3을 참조하여 설명된 것과 동일한 이유로서 유사한 방식으로 출력 신호의 대응하는 레벨을 향하여 스케일링된다.
마지막으로, 도 2를 참조하여 설명된 방법과 유사하게, 레퍼런스 신호 및 출력 신호는 뺄셈이 수행되어 차이 신호를 낳는다. 지각적 뺄셈 이후에, 예컨대 도 2에서 도시되고 ITU-T 권고안 P.862에서 설명된 방식으로 지각 품질 척도가 도출될 수 있다.
이와 달리, 이 방법이 두 번 수행될 수 있다. 한 번은 레퍼런스 신호와 비교하여 전체적 저하에 대한 품질을 나타내는 품질 인디케이터를 결정하기 위한 것이고, 다른 한 번은 레퍼런스 신호와 비교하여 추가된 저하에 대한 품질을 나타내는 품질 인디케이터를 결정하기 위한 것이다.
본 발명의 일부 실시 예들에서, 방법은 하나 이상의 노이즈 억압 단계를 더 포함한다. 오디오 시스템의 전송 품질, 특히 음성 품질에 대한 노이즈의 영향은 지역적 레벨 및/또는 지역적 스펙트럼 변화에 의존한다. PESQ에서, 이러한 영향은 정확하게 고려되지 않는다. PESQ는 단지 노이즈의 영향을 근사적으로 정량화하는 레벨로 노이즈를 억압하기 위해서 프레임당 지역적 파워 레벨을 이용한다. 하나 이상의 노이즈 억압 단계는 오디오 시스템의 전송 품질을 예측함에 있어서 상당한 향상을 제공할 수 있다.
실시 예에서, 이러한 노이즈 억압은 손(Sone) 라우드니스 스케일로의 강도 워핑 후에 레퍼런스 신호 상에서 수행된다. 이러한 노이즈 억압 동작은 미리 결정된 노이즈 레벨까지 노이즈를 억압하기 위해서 배열될 수 있다. 이후, 미리 결정된 노이즈 레벨은 출력 신호를 위한 이상적 표시로 이용되기에 바람직한 낮은 노이즈 레벨로 고려되는 노이즈 레벨에 대응할 수 있다.
유사하게, 일 실시 예에서, 이러한 노이즈 억압은 손 라우드니스 스케일로의 강도 워핑 후에 출력 상에서 수행된다. 이러한 경우에, 노이즈 억압 동작은 예컨대, 테스트 중인 장치, 예컨대 도 1에서의 오디오 시스템(10)에 의해서 경험되는 교란을 나타내는 노이즈 레벨까지 노이즈를 억압하도록 배열될 수 있다.
일부 다른 실시 예들에서, 파선(dashed line)에 의해서 도 3에서 개략적으로 도시된 바와 같은 전역적 스케일링 이후에, 레퍼런스 신호 및 출력 신호는 추가적인 노이즈 억압 동작을 더 거친다. 전역적 스케일링 이후의 이러한 추가적 노이즈 억압은 객관적으로 측정된 음성 품질과 주관적 청취 품질 실험에서 획득된 바와 같은 음성 품질 간의 코릴레이션을 더욱 향상시킨다.
하나 이상의 노이즈 억압 단계를 이용하는 일부 실시 예들에서, 스케일링된 레퍼런스 신호 내의 시간 프레임들의 결정된 강도 레벨 파라미터들은 하나 이상의 노이즈 억압 계산에 포함될 출력 신호 내의 시간 프레임을 선택하기 위해 이용될 수 있다. 예를 들어, 스케일링된 레퍼런스 신호 내의 시간 프레임들은 특정 역치값, 예컨대 무음(silence) 기준값 아래에 있는 강도값을 기초로 하여 계산을 위해 선택될 수 있다. 강도값이 무음 기준값 아래에 있는 스케일링된 레퍼런스 신호 내의 시간 프레임은 무음 프레임이라고 지칭할 수 있다. 그래서, 출력 신호 내의 선택된 시간 프레임들은 스케일링된 레퍼런스 신호 내의 무음 프레임에 대응한다. 바람직하게는, 이러한 선택 과정은 일련의 연속적인 무음 프레임, 예컨대 8 무음 프레임들을 식별함으로써 진행된다. 이러한 일련의 연속적인 무음 프레임은 무음 구간이라고 지칭할 수 있다. 무음 프레임 및 특히 무음 구간 내의 무음 프레임 내에서 측정된 강도 레벨은 고려 중인 레퍼런스 신호에서 본질적으로 존재하는 노이즈 레벨을 표현한다. 다시 말해, 테스트 중인 장치의 영향이 존재하지 않는다.
본 발명은 상술한 특정 실시 예들을 참조하여 설명되었다. 이 실시 예들은 당업자에게 잘 알려진 다양한 변형 및 대안적 형태가 가능하다는 점이 인식될 것이다.

Claims (11)

  1. 레퍼런스 신호와 관련하여 오디오 시스템, 예컨대 음성처리장치의 출력 신호의 지각 품질(perceived quality)을 나타내는 품질 인디케이터(indicator)를 결정하기 위한 방법으로서, 레퍼런스 신호와 출력 신호는 처리되고 비교되며, 처리는 레퍼런스 신호 및 출력 신호를 서로 대응하는 시간 프레임들로 나누는 단계를 포함하며, 처리는:
    - 고정 강도 레벨(fixed intensity level)을 향하여 레퍼런스 신호의 강도를 스케일링(scaling)하는 단계;
    - 레퍼런스 신호 시간 프레임 특성을 결정하기 위하여 스케일링된 레퍼런스 신호 내의 시간 프레임들에서 측정을 수행하는 단계;
    - 고정 강도 레벨로부터 출력 신호와 관련된 강도 레벨을 향하여 레퍼런스 신호의 강도를 스케일링하는 단계;
    - 레퍼런스 신호 시간 프레임 특성을 이용하여, 지각적 라우드니스(loudness) 영역 내의 고정 라우드니스 레벨을 향하여 출력 신호의 라우드니스를 스케일링하는 단계; 및
    - 레퍼런스 신호 시간 프레임 특성을 이용하여, 출력 신호 관련 강도 레벨에 대응하는 라우드니스 레벨로부터 지각적 라우드니스 영역 내의 스케일링된 출력 신호의 라우드니스 레벨에 관련된 라우드니스 레벨을 향하여 레퍼런스 신호의 라우드니스를 스케일링하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서, 고정 강도 레벨로부터 출력 신호와 관련된 강도 레벨을 향하여 레퍼런스 신호의 강도를 스케일링하는 것은 스케일링 인자와 레퍼런스 신호의 곱셈을 기초로 하고, 스케일링 인자는:
    - 다수의 시간 프레임들에 대해서 평균 레퍼런스 신호 강도 레벨을 결정하는 단계;
    - 평균 레퍼런스 신호 강도 레벨을 결정하기 위하여 이용된 레퍼런스 신호의 시간 프레임들에 대응하는 다수의 시간 프레임들에 대해서 평균 출력 신호 강도 레벨을 결정하는 단계;
    - 평균 레퍼런스 신호 강도 레벨 및 평균 출력 신호 강도 레벨을 기초로 하여 분수를 결정함으로써 예비 스케일링 인자를 도출하는 단계;
    - 예비 스케일링 인자가 역치값보다 더 작으면 예비 스케일링 인자와 같도록 스케일링 인자를 정의하고, 그렇지 않으면 추가적 예비 스케일링 인자에 의존하는 값을 가지고 증가된 예비 스케일링 인자와 같도록 스케일링 인자를 정의함으로써 스케일링 인자를 결정하는 단계에 의해 정의되는 것을 특징으로 하는 방법.
  3. 상기 청구항들 중 어느 한 항에 있어서, 고정 라우드니스 레벨로 출력 신호의 라우드니스를 스케일링하기 전에, 방법은:
    - 출력 신호의 라우드니스 레벨보다 더 높은 라우드니스 레벨을 가진 레퍼런스 신호의 부분에 대해서 출력 신호의 라우드니스 레벨을 향하여 레퍼런스 신호의 라우드니스 레벨을 지역적으로 스케일링하는 단계; 및
    - 이후에, 레퍼런스 신호의 라우드니스 레벨보다 더 높은 라우드니스 레벨을 가진 출력 신호의 부분에 대해서 레퍼런스 신호의 라우드니스 레벨을 향하여 출력 신호의 라우드니스 레벨을 지역적으로 스케일링하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 상기 청구항들 중 어느 한 항에 있어서, 처리는:
    - 스케일링된 레퍼런스 신호 및 출력 신호를 시간 영역으로부터 시간-주파수 영역을 향하여 변환하는 단계;
    - 레퍼런스 신호로부터 레퍼런스 피치 파워 밀도 함수를 도출하고 출력 신호로부터 출력 피치 파워 밀도 함수를 도출하는 단계;
    - 지역적으로 스케일링된 레퍼런스 피치 파워 밀도 함수를 획득하기 위하여 레퍼런스 피치 파워 밀도 함수를 지역적으로 스케일링하는 단계;
    - 지역적으로 스케일링된 레퍼런스 피치 파워 밀도 함수를 주파수와 관련하여 부분적으로 보상하는 단계;
    - 레퍼런스 라우드니스 밀도 함수 및 출력 라우드니스 밀도 함수를 도출하는 단계를 더 포함하고,
    강도 레벨의 차이는 피치 파워 밀도 함수들의 강도 레벨들 간의 차이에 대응하고,
    라우드니스 레벨의 차이는 라우드니스 밀도 함수들의 라우드니스 레벨들 간의 차이에 대응하고,
    라우드니스 밀도 함수들은 지각 품질에 대한 변화하는 레벨 재생의 효과의 정량화를 가능하게 하는 밀도 함수들을 나타내는 것을 특징으로 하는 방법.
  5. 제 4 항에 있어서, 방법은 레퍼런스 피치 파워 밀도 함수 및 출력 피치 파워 밀도 함수 중 적어도 하나에 대해서 익사이테이션(excitation) 연산을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. 제 3 항 내지 제 5 항 중 어느 한 항에 있어서, 지역적으로 스케일링된 레퍼런스 피치 파워 밀도 함수를 주파수와 관련하여 보상하는 것 및 지역적으로 스케일링된 레퍼런스 라우드니스 밀도 함수를 보상하는 것 중의 적어도 하나는 레퍼런스 신호 시간 프레임 특성을 기초로 하여 음성 처리 시스템의 선형 주파수 응답을 추정하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 상기 청구항들 중 어느 한 항에 있어서, 지각적 라우드니스 영역 내의 출력 신호의 라우드니스 레벨과 관련된 라우드니스 레벨을 향하여 스케일링하기 전에, 지각적 라우드니스 영역 내의 레퍼런스 신호는 미리 결정된 노이즈 레벨까지 노이즈를 억압하기 위한 노이즈 억압 동작을 거치는 것을 특징으로 하는 방법.
  8. 상기 청구항들 중 어느 한 항에 있어서, 고정 라우드니스 레벨을 향하여 스케일링하기 전에, 지각적 라우드니스 영역 내의 출력 신호는 교란을 나타내는 노이즈 레벨까지 노이즈를 억압하기 위한 노이즈 억압 알고리즘을 거치는 것을 특징으로 하는 방법.
  9. 상기 청구항들 중 어느 한 항에 있어서, 지각적 라우드니스 영역 내의 레퍼런스 신호 및 출력 신호는 비교 전에 전역적 노이즈 억압을 거치는 것을 특징으로 하는 방법.
  10. 프로세서에 의해서 실행될 때, 청구항 제 1 항 내지 제 9 항 중 어느 한 항에 의하여 정의된 방법을 수행하도록 적용된 예컨대, 컴퓨터 판독가능 매체에 저장된 컴퓨터 실행가능 코드를 포함하는 컴퓨터 프로그램 제품.
  11. 레퍼런스 신호로서 이용되는 오디오 시스템의 입력 신호(X(t))와 관련하여, 오디오 시스템(10), 예컨대 음성처리장치의 출력 신호(Y(t))의 지각 품질을 나타내는 품질 인디케이터를 결정하기 위한 시스템(20)으로서, 시스템은:
    - 레퍼런스 신호 및 출력 신호를 전처리하기 위한 전처리 장치(30);
    - 레퍼런스 신호 및 출력 신호 각각에 대한 표시 신호(R(X), R(Y))를 획득하기 위하여 레퍼런스 신호를 처리하기 위한 제1 처리 장치(40a) 및 출력 신호를 처리하기 위한 제2 처리 장치(40b);
    - 차이 신호(D)를 획득하도록 레퍼런스 신호 및 출력 신호의 표시 신호를 결합하기 위한 차이생성 장치(50); 및
    - 음성 처리 시스템의 지각 품질의 추정을 나타내는 품질 신호(Q)를 획득하기 위하여 차이 신호를 처리하기 위한 모델링 장치(60)를 포함하고, 전처리 장치, 제1 처리 장치, 및 제2 처리 장치는 청구항 제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행하기 위한 처리 시스템을 형성하는 것을 특징으로 하는 시스템.
KR1020127003997A 2009-08-14 2010-08-09 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 KR101430321B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP09010501 2009-08-14
EP09010501.6 2009-08-14
EP10161830 2010-05-04
EP10161830.4 2010-05-04
PCT/EP2010/061542 WO2011018430A1 (en) 2009-08-14 2010-08-09 Method and system for determining a perceived quality of an audio system

Publications (2)

Publication Number Publication Date
KR20120042989A true KR20120042989A (ko) 2012-05-03
KR101430321B1 KR101430321B1 (ko) 2014-08-13

Family

ID=42985662

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127003997A KR101430321B1 (ko) 2009-08-14 2010-08-09 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템

Country Status (8)

Country Link
US (1) US8818798B2 (ko)
EP (1) EP2465113B1 (ko)
JP (1) JP5542206B2 (ko)
KR (1) KR101430321B1 (ko)
CN (1) CN102576535B (ko)
DK (1) DK2465113T3 (ko)
ES (1) ES2531556T3 (ko)
WO (1) WO2011018430A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873762B2 (en) * 2011-08-15 2014-10-28 Stmicroelectronics Asia Pacific Pte Ltd System and method for efficient sound production using directional enhancement
EP2733700A1 (en) * 2012-11-16 2014-05-21 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal
EP4060661B1 (en) 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
CN106887233B (zh) * 2015-12-15 2020-01-24 广州酷狗计算机科技有限公司 音频数据处理方法及系统
JP6461064B2 (ja) * 2016-09-28 2019-01-30 本田技研工業株式会社 音響特性校正方法
CN107452399B (zh) * 2017-09-18 2020-09-15 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法及装置
CN109903752B (zh) * 2018-05-28 2021-04-20 华为技术有限公司 对齐语音的方法和装置
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
US11456007B2 (en) 2019-01-11 2022-09-27 Samsung Electronics Co., Ltd End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization
WO2021042538A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2005155A (en) * 1932-02-23 1935-06-18 Bolton C Moise Tube expanding mill
JPH0784596A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 符号化音声の品質評価方法
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
ATE315820T1 (de) 2001-10-01 2006-02-15 Koninkl Kpn Nv Verbessertes verfahren zur ermittlung der qualität eines sprachsignals
ATE339676T1 (de) 2002-03-08 2006-10-15 Koninkl Kpn Nv Verfahren und system zur messung der übertragungsqualität eines systems
DE60319666T2 (de) * 2003-01-21 2009-04-02 Psytechnics Ltd. Verfahren zur Qualitätsbestimmung eines Audiosignals
EP1465156A1 (en) * 2003-03-31 2004-10-06 Koninklijke KPN N.V. Method and system for determining the quality of a speech signal
DE60305306T2 (de) * 2003-06-25 2007-01-18 Psytechnics Ltd. Vorrichtung und Verfahren zur binauralen Qualitätsbeurteilung
US7240252B1 (en) * 2004-06-30 2007-07-03 Sprint Spectrum L.P. Pulse interference testing in a CDMA communication system
ATE405922T1 (de) * 2004-09-20 2008-09-15 Tno Frequenzkompensation für die wahrnehmungsbezogene sprachanalyse
AU2005299410B2 (en) * 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
DE602005007620D1 (de) * 2005-12-14 2008-07-31 Ntt Docomo Inc Vorrichtung und Verfahren zur Bestimmung der Übertragungspolitik für mehrere und verschiedenartige Anwendungen
EP1975924A1 (en) * 2007-03-29 2008-10-01 Koninklijke KPN N.V. Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system
DE602007007090D1 (de) * 2007-10-11 2010-07-22 Koninkl Kpn Nv Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems

Also Published As

Publication number Publication date
WO2011018430A1 (en) 2011-02-17
KR101430321B1 (ko) 2014-08-13
JP2013501952A (ja) 2013-01-17
US8818798B2 (en) 2014-08-26
CN102576535A (zh) 2012-07-11
EP2465113A1 (en) 2012-06-20
DK2465113T3 (en) 2015-04-07
ES2531556T3 (es) 2015-03-17
EP2465113B1 (en) 2014-12-24
CN102576535B (zh) 2014-06-11
JP5542206B2 (ja) 2014-07-09
US20120143601A1 (en) 2012-06-07

Similar Documents

Publication Publication Date Title
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
US9025780B2 (en) Method and system for determining a perceived quality of an audio system
EP2048657B1 (en) Method and system for speech intelligibility measurement of an audio transmission system
CN106663450B (zh) 用于评估劣化语音信号的质量的方法及装置
CN104919525B (zh) 用于评估退化语音信号的可理解性的方法和装置
US10249318B2 (en) Speech signal processing circuit
US8566082B2 (en) Method and system for the integral and diagnostic assessment of listening speech quality
EP1465156A1 (en) Method and system for determining the quality of a speech signal
EP1975924A1 (en) Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system
Reimes et al. The relative approach algorithm and its applications in new perceptual models for noisy speech and echo performance
EP2388779B1 (en) Method for estimating speech quality
Egi et al. Objective quality evaluation method for noise-reduced speech

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170727

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190725

Year of fee payment: 6