KR20140104423A - 조화성 기반 단일 채널 음성 품질 추정 기법 - Google Patents

조화성 기반 단일 채널 음성 품질 추정 기법 Download PDF

Info

Publication number
KR20140104423A
KR20140104423A KR1020147015195A KR20147015195A KR20140104423A KR 20140104423 A KR20140104423 A KR 20140104423A KR 1020147015195 A KR1020147015195 A KR 1020147015195A KR 20147015195 A KR20147015195 A KR 20147015195A KR 20140104423 A KR20140104423 A KR 20140104423A
Authority
KR
South Korea
Prior art keywords
frame
frequency
harmonic
calculating
component
Prior art date
Application number
KR1020147015195A
Other languages
English (en)
Other versions
KR102132500B1 (ko
Inventor
웨이-지 첸
젱규 장
재모 양
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20140104423A publication Critical patent/KR20140104423A/ko
Application granted granted Critical
Publication of KR102132500B1 publication Critical patent/KR102132500B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

일반적으로 단일 채널 오디오 신호 중의 오디오 프레임의 인간 음성 품질을 추정하는 단계를 포함하는 음성 품질 추정 기법의 실시예에 대해서 기술한다. 프레임의 조화 성분의 표현이 합성되고 또한 이를 사용하여 프레임의 비조화 성분을 계산한다. 합성된 조화 성분의 표현 및 비조화 성분은 이후에 조화 대 비조화비(HnHR, harmonic to non-harmonic ratio)를 계산하는데 사용된다. 이 HnHR은 사용자의 음성의 품질을 표시하며, 또한 프레임의 음성 품질의 추정으로 지정된다. 일 구현례에 있어서, HnHR을 사용하여 사용자의 음성 품질이 수용 불가능하다고 간주되는 품질 미만의 최소 음성 품질 기준값을 확립한다. 이후에, HnHR이 기준값 미만에 들어가는 지에 기초하여 사용자로의 피드백이 제공된다.

Description

조화성 기반 단일 채널 음성 품질 추정 기법{HARMONICITY-BASED SINGLE-CHANNEL SPEECH QUALITY ESTIMATION}
본 발명은 음성 품질 추정 기법에 관한 것으로, 더욱 상세하게는 조화성 기반 단일 채널 음성 품질 추정 기법에 관한 것이다.
폐쇄된 공간 내의 원격 음원으로부터의 음향 신호는 실내 임펄스 응답(RIR, room impulse response)에 따라서 변동되는 반향음을 생성한다. 공간 내의 반향 레벨을 감안하여 관측된 신호 중의 인간 음성의 품질 추정은 귀중한 정보를 제공한다. 예를 들면, 인터넷 프로토콜을 통한 음성 통신(VOIP, voice over Internet protocol) 시스템, 화상 회의 시스템, 핸즈프리 전화, 음성 제어 시스템 및 청취 보조 장치 등과 같은 전형적인 음성 통신 시스템에 있어서, 생성된 신호 중의 음성이 실내의 반향에도 불구하고 인식 가능한 지를 아는 것이 유리하다.
본 명세서에서 설명되는 음성 품질 추정 기법의 실시예는 일반적으로 단일 채널 오디오 신호 중의 오디오 프레임의 인간 음성 품질을 추정하는 단계를 포함한다. 예시적인 일 실시예에 있어서, 일 프레임의 오디오 신호가 입력되고 이 프레임의 기본 주파수가 추정된다. 또한, 이 프레임은 시간 도메인에서 주파수 도메인으로 변환된다. 이후에, 변환된 프레임의 조화 성분이 계산되며, 비조화 성분 역시 계산된다. 이후에, 조화 및 비조화 성분을 사용하여 조화 대 비조화비(HnHR, harmonic to non-harmonic ratio)가 계산된다.
이 HnHR은 이 비율을 계산하는데 사용된 단일 채널 오디오 신호 내에서의 사용자의 음성 품질을 나타낸다. 그렇기 때문에, HnHR은 프레임의 음성 품질의 추정으로 지정된다.
일 실시예에 있어서, 사용자에게 피드백을 제공하기 위해서 오디오 신호의 프레임의 추정 음성 품질이 사용된다. 이는 일반적으로 캡쳐된 오디오 신호를 입력하는 단계와, 이후에 오디오 신호의 음성 품질이 소정의 수용 가능한 레벨 미만에 들어가는지를 결정하는 단계를 포함한다. 오디오 신호의 음성 품질이 소정의 수용 가능한 레벨 미만에 들어간다면, 사용자에게 피드백이 제공된다. 일 구현례에 있어서, HnHR을 사용하여 신호 중의 사용자의 음성의 품질이 수용 불가능하다고 간주되는 품질 미만의 최소 음성 품질 기준값을 확립한다. 이후에 소정 갯수의 연속된 오디오 프레임이 소정의 음성 품질 기준값을 초과하지 않는 계산된 HnHR을 갖는지에 기초하여 사용자로의 피드백이 제공된다.
본 발명의 내용 항목은 이하의 발명을 실시하기 위한 구체적인 내용의 항목에서 더 기술될 개념을 선택하여 단순화된 형식으로 소개하기 위해 제공되는 것임에 주목하여야 한다. 본 발명의 내용 항목은 특허청구범위에 기재된 발명의 대상의 주요 특징 또는 핵심 특징을 밝히고자 의도된 것이 아니며, 특허청구범위의 발명의 대상의 범위를 결정함에 있어서 도움을 주기 위한 것으로 사용되도록 의도된 것도 아니다.
본 명세서의 구체적인 각 특징, 각 측면, 및 각 장점은 이하의 발명의 상세한 설명, 첨부 특허청구범위, 및 부속 도면을 참조하여 더욱 잘 이해할 수 있을 것이다.
도 1은 본 명세서에서 설명되는 음성 품질 추정 기법 실시예를 구현하기 위한 예시적인 계산 프로그램 아키텍처를 나타낸다.
도 2는 반향 테일 간격에서의 합성된 조화 성분 신호의 에너지가 점진적으로 감소하는 예시적인 프레임 기반 진폭 가중치 인자의 그래프이다.
도 3은 반향 신호의 프레임의 음성 품질을 추정하기 위한 프로세스의 일 실시예를 일반적으로 개괄하는 흐름도이다.
도 4는 캡쳐된 단일 채널 오디오 신호 내의 인간 음성의 품질에 대해 오디오 음성 캡쳐 시스템의 사용자에게 피드백을 제공하기 위한 프로세스의 일 실시예를 일반적으로 개괄하는 흐름도이다.
도 5a 및 도 5b는 오디오 신호의 음성 품질이 소정의 레벨 미만에 들어가는지를 결정하기 위한 도 4의 프로세스 단계의 일 구현례를 일반적으로 개괄하는 흐름도이다.
도 6은 본 명세서에서 설명되는 음성 품질 추정 기법 실시예를 구현하기 위한 예시적인 시스템을 구성하는 범용 계산 장치를 묘사하는 다이아그램이다.
후술하는 음성 품질 추정 기법 실시예의 상세한 설명에 있어서, 본 명세서의 일부를 이루는 부속 도면을 참조하여, 예시에 의해서 본 발명의 기법이 실시될 수 있는 구체적인 실시예를 설명한다. 기타 실시예를 사용할 수 있고 또한 본 발명의 기법의 범위로부터 이탈하지 않고도 구조적인 변경도 가능함을 이해하여야 한다.
1.0 음성 품질 추정
일반적으로, 본 명세서에서 설명되는 음성 품질 추정 기법의 실시예는 자신의 음성 품질과 관련하여 사용자에게 피드백을 자동적으로 제공함으로써 사용자 경험을 개선할 수 있다. 잡음 레벨, 잔향 손실(echo leak), 게인 레벨 및 반향과 같은 많은 인자가 인식된 음성의 품질에 영향을 미치고 있다. 그 중에서, 가장 큰 흥미있는 주제는 반향이다. 여태까지, 관측된 음성만 사용하여 반향의 양을 측정하는 방법은 알려지지 않았다. 본 명세서에서 설명되는 음성 품질 추정 기법 실시예는 이를 측정할 수 있는 계량 방법을 제공하며, 이 계량 방법은 단일 오디오 채널을 나타내는 신호로부터의 관측된 음성 샘플만을 사용하여 맹목적으로(즉, 비교를 위해서 "깨끗한" 신호를 필요로 하지 않고서) 반향을 측정한다. 이는 상당한 양의 배경 잡음이 존재하는 경로를 포함하는 다양한 실내 환경에서 발화자와 센서의 임의적인 위치에 대해서 가능한 것으로 확인되었다.
더욱 상세하게는, 본 명세서에서 설명되는 음성 품질 추정 기법 실시예는 관측된 단일 채널 오디오 신호의 조화성을 맹목적으로 추출하여 사용자의 음성의 품질을 추정한다. 조화성은 인간 목소리 음성의 고유한 성질이다. 상술한 바와 같이, 실내의 반향 조건 및 발화자와 센서간의 거리에 따르는 관측된 신호의 품질에 대한 정보는 유용한 피드백을 사용자에게 제공한다. 상술한 조화성의 일부 설명은 후술하는 각 항목에서 더욱 상세하게 설명된다.
1.1 신호 모델링
반향(reverberation)은 밀폐된 공간 내의 발신원으로부터 센서까지의 음향의 다중 경로 전파 프로세스에 의해서 모델링될 수 있다. 일반적으로, 수신된 신호는 두 개의 성분, 즉, 초기 반향 (및 직접 경로 음향), 및 후기 반향으로 분해될 수 있다. 직접 음향에 바로 이어서 도달하는 초기 반향은 음향을 강화하며 또한 음성 이해도를 결정하는 유용한 성분이다. 이 초기 반향이 발화자와 센서의 위치에 따라 변동된다는 사실 때문에, 이 초기 반향은 공간의 체적과 발화자의 거리에 대한 정보를 제공한다. 후기 반향은 직접 음향의 도달 이후 지연 시간이 더 긴 반사로부터 초래되며, 이 후기 반향은 음성의 이해도를 약화시킨다. 이들 유해한 효과는 일반적으로 음원과 센서 사이의 거리가 길어질수록 증가하게 된다.
1.1.1 반향 신호 모델
h(n)으로 표기되는 실내 임펄스 응답(RIR, room impulse response)은 실내에서의 센서와 발화자 사이의 음향 속성을 나타낸다. 상술한 바와 같이, 반향 신호는 두 개의 부분, 즉, (직접 경로를 포함하는) 초기 반향 및 후기 반향의 두 개의 부분으로 분할될 수 있고, 다음 수학식 1로 나타낼 수 있다.
Figure pct00001
여기에서, h e (t)h l (t)는 각각 RIR의 초기 및 후기 반향이다. 파라미터 T 1 은 응용 분야 또는 목적으로 하는 선호도에 따라서 조정될 수 있다. 일 구현례에 있어서, T 1 은 미리 정해지며 또한 50 ms 내지 80 ms의 사이에 있다. 반향 신호(x(t))는 무잔향 음성 신호(s(n)) 및 h(n)의 컨볼루션 연산(convolution operation)에 의해서 획득되며, 다음과 같이 표현될 수 있다.
Figure pct00002
직접 음향은 자유장(free-field)을 통해서 임의의 반사없이 수신된다. 초기 반향 x e (t)T 1 시간 주기 동안 하나 이상의 표면으로부터 반사되는 음향으로 이루어져 있다. 초기 반향은 실내의 크기 및 발화자와 센서의 위치 정보를 포함하고 있다. 긴 지연을 갖는 반사로부터 초래되는 기타 음향은 후기 반향 x l (t)이며, 이 후기 반향은 음성의 이해도를 약화시킨다. 후기 반향은 지수 함수적으로 감쇠하는 가우스 모델에 의해서 표현될 수 있다. 따라서, 초기 및 후기 반향은 상호 관련되어 있지 않다고 가정하는 것이 합리적이다.
1.1.2 조화 신호 모델
음성 신호는 다음과 같이 조화 신호([[EQ]]) 및 비조화 신호([[EQ]])의 합으로서 모델링될 수 있다.
Figure pct00003
조화 성분은 음성 신호의 (음성과 같은) 준주기성 성분을 구성하고 있고, 반면에 비조화 성분은 음성 신호의 (마찰음 또는 흡기 잡음, 및 성문 여기에 의해서 초래되는 각 기간 변동과 같은) 비주기성 성분을 구성하고 있다. 조화 신호 S h (t)의 (준)주기성은 주파수가 기본 주파수 F 0 의 정수배에 대응하는 K-사인파 성분의 합으로서 근사 모델링된다. A k (t)θ k (t)가 제 k 조화 성분의 진폭 및 위상이라고 가정하면, 조화 신호는 다음과 같이 나타낼 수 있다.
Figure pct00004
여기에서,
Figure pct00005
는 제 k 조화 성분의 위상의 도함수이고 또한
Figure pct00006
F 0 이다. 일반성을 상실하지 않으면서, A k (t)θ k (t)는 시간 지수 n 0 부근에서 신호(S(f))의 단시간 푸리에 변환(STFT, short time Fourier transform)으로부터 유도될 수 있으며, 다음 수학식 5와 같이 주어진다.
Figure pct00007
여기에서,
Figure pct00008
은 조화 신호의 시간 변동 특성을 만족하는 충분히 짧은 분석창이다.
1.2 조화 대 비조화비 추정
상술한 신호 모델이 주어졌다면, 음성 품질 추정 기법의 일 구현례는 단일 채널 음성 추정 접근법을 포함하며, 이 구현례는 관측된 신호의 조화 및 비조화 성분 사이의 비(ratio)를 사용한다. 조화 대 비조화비(HnHR)를 한정한 이후에, 이상적인 HnHR이 표준 실내 음향 파라미터에 대응하는 지를 알 수 있게 된다.
1.2.1 실내 음향 파라미터
ISO 3382 표준은 몇 가지 실내 음향 파라미터를 한정하고 있으며 또한 공지의 실내 임펄스 응답(RIR)을 사용하여 각 파라미터를 어떻게 측정하는지에 대해서 규정하고 있다. 이들 파라미터 중에서, 본 명세서에서 설명되는 음성 품질 추정 기법 실시예는 유리하게는 부분적으로는 실내 조건을 잘 표현할 수 있다는 것 뿐만 아니라 발화자와 센서의 거리 역시 잘 표현할 수 있는 것 때문에 반향 시간(T60) 및 선명도(C50, C80) 파라미터를 채택하였다. 반향 시간(T60)은 여기가 종료된 이후에 음향 에너지가 60 dB로 감쇠되는데 필요한 시간 간격으로서 정의된다. 이 값은 실내의 체적과 전체 반향의 양과 밀접하게 관련되어 있다. 하지만, 음성 품질은 또한, 동일한 실내에서 측정되는 경우에라도, 센서와 발화자 간의 거리에 의해서도 변동될 수 있다. 선명도 파라미터는 하기의 수학식으로 주어지는 바와 같이 초기 및 후기 반향 사이의 임펄스 응답의 로그 함수적 에너지 비로서 정의된다.
Figure pct00009
여기에서, 일 실시예에 있어서, C#은 C50을 가리키며 또한 음성의 선명도를 나타내는데 사용된다. C80은 음악에 더욱 적합하며 또한 음악의 선명도를 포함하는 실시예에서 사용될 수 있음에 주목하여야 한다. 또한 #가 (예컨대, 4 밀리초와 같이) 매우 작은 경우, 선명도 파라미터는 직접 반향 에너지비(DRR, direct-to-reverberant energy ratio)의 양호한 근사가 되며, 이는 발화자로부터 센서까지의 거리의 정보를 제공한다. 실제로는, 선명도 지수는 거리와 밀접하게 관련되어 있다.
1.2.2 반향 신호 조화 성분
실제 시스템에 있어서, h(n)은 미지이며 또한 정확한 RIR을 맹목적으로 추정하는 것은 매우 어려운 일이다. 그러나, 관측된 신호의 조화 및 비조화 성분 사이의 비는 음성 품질에 대한 유용한 정보를 제공한다. 수학식 1, 수학식 2, 및 수학식 3을 사용하면, 관측된 신호 x(t)는 다음 수학식 7에서와 같이 조화 성분 x eh (t) 및 비조화 성분 x nh (t)으로 분해될 수 있다.
Figure pct00010
여기에서, *은 컨볼루션 연산을 나타낸다. x eh (t)는 몇 개의 반사와 짧은 지연의 합으로 이루어지는 조화 신호의 초기 반향이다. h e (t)의 길이가 기본적으로 짧기 때문에, x eh (t)는 저주파수대에서는 조화 신호로 볼 수 있다. 따라서, x eh (t)는 수학식 4에서와 유사하게 조화 신호로서 모델링할 수 있게 된다. x lh (t)x n (t)는 각각 조화 신호의 후기 반향 및 잡음이 포함된 신호 s n (t)의 반향이다.
1.2.3 조화 대 비조화비( HnHR , Harmonic To Non - Harmonic Ratio )
초기대 후기 신호비(ELR, early-to-late signal ratio)는 음성 품질과 관련된 실내 음향 파라미터 중의 하나로서 고려될 수 있다. 이상적으로는, h(t)s(t)가 독립적이라고 가정하면, ELR은 다음 수학식 8과 같이 나타내어질 수 있다.
Figure pct00011
여기에서, E{ }는 기대값 연산자를 나타낸다. 실제로는, 수학식 8은 ((수학식 2에서와 같이) r이 50 ms인 경우에) C50이 되며, 반면에 x e (t)x l (t)는 실제적으로는 미지이다. 수학식 2 및 수학식 7로부터, 신호대 잡음비(SNR, signal-to-noise ratio)가 적절한 경우 s n (t)s h (t)에 비해서 훨씬 에너지가 작기 때문에, x eh (t)x nh (t)는, 각각, x e (t)x l (t)를 추종하는 것으로 가정할 수 있다. 따라서, 수학식 9에서 주어진 조화 대 비조화비(HnHR)는 ELR 값에 대한 대체로서 간주될 수 있다.
Figure pct00012
1.2.4 HnHR 추정 기법
본 명세서에서 설명되는 음성 품질 추정 기법 실시예를 구현하기 위한 예시적인 계산 프로그램 아키텍처를 도 1에 나타내었다. 이 아키텍처는 (후술하는 예시적인 운영 환경 항목에서 설명되는 것과 같은) 컴퓨팅 장치에 의해서 실행될 수 있는 다양한 프로그램 모듈을 포함하고 있다.
1.2.4.1 이산 푸리에 변환 및 피치 추정
더욱 상세하게는, 각각의 프레임(l)에 대해서 100 개의 반향 신호(
Figure pct00013
)가 먼저 이산 푸리에 변환(DFT, discrete Fourier transform) 모듈(102) 및 피치 추정 모듈(104)로 입력된다. 일 실시예에 있어서, 프레임 길이는 10 밀리초 연장된 한(Hanning) 창문 함수를 갖는 32 밀리초로 설정된다. 피치 추정 모듈(104)은 프레임(100)의 기본 주파수(F 0 )(106)를 추정하며, 또한 이 추정을 DFT 모듈(102)로 제공한다. F 0 는 임의의 적절한 방법을 사용하여 계산될 수 있다.
DFT 모듈(102)은 프레임(100)을 시간 도메인으로부터 주파수 도메인으로 변환하며, 이후에 기본 주파수(F 0 )(106)의 소정의 정수배(k)에 각각 대응하는 결과 주파수 스펙트럼 내의 각 주파수의 크기 및 위상(
Figure pct00014
)(108)을 출력한다. 일 구현례에 있어서, DFT의 크기는 프레임 길이보다 4 배 더 길다는 것에 주목하여야 한다.
1.2.4.2 서브 조화 대 조화비
크기 및 위상값(108)은 서브 조화 대 조화비(SHR, sub harmonic-to-harmonic ratio) 모듈(110)에 입력된다. SHR은 이들 값을 사용하여 현재 고려 중인 프레임에 대한 서브 조화 대 조화비(SHR (l))(112)를 계산한다. 일 실시예에 있어서, 이는 다음과 같이 수학식 10을 사용하여 달성된다.
Figure pct00015
여기에서, k는 정수이고 또한 k와 소정의 주파수 범위 사이의 기본 주파수(F 0 )(106)와의 곱을 유지하는 값 사이에 걸쳐 있다. 일 실시예에 있어서, 소정의 주파수 범위는 50 - 5000 Hz이다. 이 계산에 의해서, 잡음이 포함되어 있는 반향 환경에서 강인한(robust) 성능을 제공하는 것으로 밝혀졌다. 더 높은 주파수대는 무시되는데, 이는 조화성이 상대적으로 낮고 또한 추정된 조화 주파수가 저주파수대에서와 비교하여 오류가 있을 수 있기 때문임에 주목하여야 한다.
1.2.4.3 가중치 조화 성분 모델링
기본 주파수(F 0 )(106) 및 크기 및 위상값(108)과 함께, 가중치 조화 모델링 모듈(114)로 고려 중인 프레임에 대한 서브 조화 대 조화비(SHR (l))(112)가 제공된다. 가중치 조화 모델링 모듈(114)은 각각의 조화 주파수에서 추정된 F 0 (106) 및 크기 및 위상을 사용하여, 이하에서 간단하게 설명하는 바와 같이, 시간 도메인 내의 조화 성분(x eh (t))을 합성하게 된다. 하지만, 먼저 입력 프레임의 반향 테일 간격의 조화성은 음성의 발화가 시작한 순간 이후에 점진적으로 감소하고 또한 무시될 수 있음에 주목하여야 한다. 예를 들면, 음성 활동 검출(VAD, voice activity detection) 기법을 채택하여 DFT 모듈에 의해서 생성된 진폭값이 소정의 절사 기준값 미만에 들어가는지를 식별할 수 있다. 진폭값이 절사 기준값 미만에 들어가게 되는 경우, 처리될 프레임에서 제외된다. 절사 기준값은 반향 테일과 관련되는 조화 주파수가 전형적으로 기준값 미만에 들어가도록 설정되며, 따라서 테일 고조파(harmonics)는 제거된다. 하지만, 반향 테일 간격은 상술한 HnHR에 악영향을 미치는데, 이는 후기 반향 성분이 이 간격 내에 포함되어 있기 때문이라는 점 또한 주목하여야 한다. 따라서, 모든 테일 고조파를 제거하는 대신에, 일 실시예에 있어서, 반향 테일 간격 내의 합성된 조화 성분 신호의 에너지를 점진적으로 감소시키도록 하기 위해서 프레임 기반 진폭 가중치 인자가 적용된다. 일 실시예에 있어서, 이 인자는 다음 수학식 11에서와 같이 계산된다.
Figure pct00016
여기에서,
Figure pct00017
는 가중치 파라미터이다. 실험된 실시예에 있어서, 다른 값을 또한 사용할 수 있지만,
Figure pct00018
를 5로 설정하게 되면 만족스런 결과가 생성된다는 것을 발견하였다. 상술한 가중치 함수는 도 2에 그래프로 나타내었다. 도면으로부터 알 수 있는 바와 같이, SHR이 (W(l) = 1.0임에 따라서) 7 dB을 초과하면 최초의 조화 모델은 유지되며, 또한 SHR이 7 dB 미만이면 조화 모델링된 신호의 진폭은 점진적으로 감소하게 된다.
상술한 구성이 주어졌다면, 수학식 4를 참조하고 또한 가중치 인자(W(l))를 사용하여 다음 수학식 12에서와 같이 일련의 샘플 시간 동안의 시간 도메인 조화 성분(x eh (t))이 합성된다.
Figure pct00019
여기에서,
Figure pct00020
는 고려 중인 프레임에 대해 합성된 시간 도메인 조화 성분이다. 일 실시예에 있어서, 일련의 샘플링 시간(t)에서
Figure pct00021
를 생성하기 위해서 샘플링 주파수는 16 kHz를 채택하였음에 주목하여야 한다. 프레임에 대해 합성된 시간 도메인 조화 성분은 이후에 추가적인 처리를 위해서 주파수 도메인으로 변환된다. 이를 위해서 다음 수학식 13과 같이 변환된다.
Figure pct00022
여기에서,
Figure pct00023
는 고려 중인 프레임에 대해 합성된 주파수 도메인 조화 성분이다.
1.2.4.4 비조화 성분 추정
또한, 합성된 주파수 도메인 조화 성분(
Figure pct00024
)(116)과 함께, 크기 및 위상값(108)이 비조화 성분 추정 모듈(118)로 제공된다. 비조화 성분 추정 모듈(118)은 각각의 조화 주파수에서의 진폭과 위상 및 합성된 주파수 도메인 조화 성분(
Figure pct00025
)(116)을 사용하여 주파수 도메인 비조화 성분(
Figure pct00026
)(120)을 계산한다. 일반성을 상실하지 않으면서, 조화 및 비조화 신호 성분은 상호 무관한 것으로 간주될 수 있다. 따라서, 비조화 부분의 스펙트럴 분산(spectral variance)은, 일 구현례에 있어서, 스펙트럴 공제법으로부터 다음 수학식 14와 같이 유도될 수 있다.
Figure pct00027
1.2.4.5 조화 대 비조화비
합성된 주파수 도메인 조화 성분(
Figure pct00028
)(118) 및 주파수 도메인 비조화 성분(
Figure pct00029
)(120)은 HnHR 모듈(122)로 제공된다. HnHR 모듈(122)은 수학식 9의 개념을 사용하여 HnHR(124)을 추정한다. 더욱 상세하게는, 일 프레임에 대한 HnHR(124)은 다음 수학식 15와 같이 계산된다.
Figure pct00030
일 실시예에 있어서, 수학식 15는 다음과 같이 간략화된다.
Figure pct00031
여기에서, f는 기본 주파수의 소정의 정수배에 각각 대응하는 프레임의 주파수 스펙트럼 내의 각 주파수를 가리킨다.
신호 프레임을 분리하여 보는 것 대신에, HnHR(124)은 하나 또는 그 이상의 선행 프레임을 감안하여 평활화(smooth)될 수 있음에 주목하여야 한다. 예를 들면, 일 구현례에 있어서, 평활화 HnHR은 다음과 같이 0.95의 망각 인자를 갖는 1 차 재귀 평균 기법을 사용하여 계산된다.
Figure pct00032
일 실시예에 있어서, 수학식 17은 다음 수학식 18과 같이 간략화된다.
Figure pct00033
1.2.4.6 예시적인 프로세스
상술한 컴퓨팅 프로그램 아키텍처는 본 명세서에서 설명된 음성 품질 추정 기법 실시예를 구현하는데 유리하게 사용될 수 있다. 일반적으로, 단일 채널 오디오 신호 중의 오디오 프레임의 음성 품질을 추정하는 것은 프레임을 시간 도메인으로부터 주파수 도메인으로 변환하는 단계와, 이후에 변환된 프레임의 조화 및 비조화 성분을 계산하는 단계를 포함한다. 이후에, 조화 대 비조화비(HnHR, harmonic to non-harmonic ratio)가 계산되며, 이 비는 프레임의 음성 품질의 추정을 나타낸다.
더욱 구체적으로, 도 3을 참조하면, 반향 신호 중의 프레임의 음성 품질을 추정하기 위한 일 구현례가 도시되어 있다. 프로세스는 신호의 프레임을 입력하는 단계(프로세스 단계(300)) 및 프레임의 기본 주파수를 추정하는 단계(프로세스 단계(302))로부터 시작한다. 또한 입력된 프레임은 시간 도메인으로부터 주파수 도메인으로 변환된다(프로세스 단계(304)). 이후에, 기본 주파수(즉, 조화 주파수)의 소정의 정수배에 각각 대응하는 프레임의 결과 주파수 스펙트럼 내의 각 주파수의 크기 및 위상이 계산된다(프로세스 단계(306)). 다음으로, 이 크기 및 위상값을 사용하여 입력 프레임에 대한 서브 조화 대 조화비(SHR, sub harmonic-to-harmonic ratio)를 계산한다(프로세스 단계(308)). 이후에, 기본 주파수 및 크기 및 위상값과 함께, SHR을 사용하여 반향 신호 프레임의 조화 성분의 표현을 합성한다(프로세스 단계(310)). 상술한 크기 및 위상값 및 합성된 조화 성분이 프로세스 단계(312)에서 주어졌다면, 이후에, 반향 신호 프레임의 비조화 성분이 (예를 들면, 스펙트럴 공제 기법에 의해서) 계산된다. 이후에, 조화 및 비조화 성분을 사용하여 조화 대 비조화비(HnHR)를 계산한다(프로세스 단계(314)). 상술한 바와 같이, HnHR은 입력 프레임의 음성 품질을 나타낸다. 따라서, 계산된 HnHR은 프레임의 음성 품질의 추정으로 지정된다(프로세스 단계(316)).
1.3 사용자로의 피드백
상술한 바와 같이, HnHR은 이 비를 계산하는데 사용된 단일 채널 오디오 신호 내의 사용자의 음성의 품질을 나타내고 있다. 이는 HnHR을 사용하여 미만인 경우 신호 내의 사용자의 음성 품질이 수용 불가능하다고 간주되는 최소 음성 품질 기준값을 확립할 수 있는 기회를 제공한다. 실제 기준값은 일부 응용 분야에서는 더 높은 품질을 요구하기 때문에 응용 분야에 따라서 달라질 수 있다. 필요 이상의 실험없이도 응용 분야에 대해서 용이하게 기준값을 확립할 수 있기 때문에, 그 확립에 대해서 본 명세서에서는 상세하게 기술하지 않기로 한다. 하지만, 잡음이 없는 조건을 포함하는 실험된 일 실시예에 있어서, 최소 음성 품질 기준값은 주관적으로 수용 가능한 결과로서 10 dB로 설정되었다.
최소 음성 품질 기준값이 주어졌다면, 캡쳐된 오디오 신호의 음성 품질이 소정 갯수의 연속적인 오디오 프레임이 기준값을 초과하지 않는 계산된 HnHR을 가질 때마다 수용 가능한 레벨 미만에 들어가는 지의 피드백이 사용자에게 제공될 수 있다. 이 피드백은 임의의 적절한 형태일 수 있으며 - 예를 들면, 시각적, 청각적, 촉각적 형태 등일 수 있다. 피드백은 또한 캡쳐된 오디오 신호의 음성 품질을 개선하기 위해서 사용자에게 지시하는 것을 포함할 수 있다. 예를 들면, 일 구현례에 있어서, 피드백은 사용자가 오디오 캡쳐 장치에 더 가까이 이동하도록 요청하는 것을 포함할 수 있다.
1.3.1 예시적인 사용자 피드백 프로세스
선택적으로 추가된 피드백 모듈(126)을 사용하면(도면에서는 그 선택적인 속성을 나타내도록 하기 위해서 점선의 상자로 나타냄), 캡쳐된 오디오 신호 내의 사용자의 음성의 품질이 소정의 기준값 미만으로 들어가는지를 사용자에게 피드백을 제공하기 위해서 상술한 도 1의 컴퓨팅 프로그램 아키텍처를 유리하게 사용할 수 있다. 더욱 상세하게는, 도 4를 참조하면, 캡쳐된 단일 채널 오디오 신호 내의 인간 음성의 품질에 대해 오디오 음성 캡쳐 시스템의 사용자에게 피드백을 제공하기 위한 프로세스의 일 구현례가 도시되어 있다.
프로세스는 캡쳐된 오디오 신호를 입력하는 단계와 함께 시작한다(프로세스 단계(400)). 캡쳐된 오디오 신호는 모니터되며(프로세스 단계(402)), 또한 오디오 신호의 음성 품질이 소정의 수용 가능한 레벨 미만에 들어가는 지를 주기적으로 결정한다(프로세스 단계(404)). 그렇지 않다면, 프로세스 단계(402 및 404)는 반복된다. 하지만, 이후에 오디오 신호의 음성 품질이 소정의 수용 가능한 레벨 미만으로 떨어졌다고 결정되면, 사용자에게 피드백이 제공된다(프로세스 단계(406)).
오디오 신호의 음성 품질이 소정의 레벨 미만으로 떨어졌는지를 결정하는 단계는 도 3과 관련하여 설명한 바와 같이 상당히 동일하게 수행된다. 더욱 상세하게는, 도 5a 및 도 5b를 참조하면, 그와 같은 프로세스의 일 구현례는 먼저 오디오 신호를 오디오 프레임으로 분할하는 단계를 포함한다(프로세스 단계 500). 본 예시적인 프로세스의 구현에 있어서 오디오 신호는 실시간으로 캡쳐될 수 있음에 주목하여야 한다. 이전에 선택되지 않은 오디오 프레임은 가장 오래된 것으로부터 시작하여 시간 순서대로 선택된다(프로세스 단계 502). 프로세스의 실시간 구현례에 있어서 생성되므로, 프레임은 시간 순서대로 분할되고 또한 선택될 수 있음에 주목하여야 한다.
다음으로, 선택된 프레임의 기본 주파수가 추정된다(프로세스 단계(504)). 선택된 프레임 또한 시간 도메인으로부터 주파수 도메인으로 변환되어 프레임의 주파수 스펙트럼을 생성한다(프로세스 단계(506)). 이후에, 기본 주파수(즉, 조화 주파수)의 소정의 정수배에 각각 대응하는 선택된 프레임의 주파수 스펙트럼 내의 각 주파수의 크기 및 위상이 계산된다(프로세스 단계(508)).
다음으로, 이 크기 및 위상값을 사용하여 선택된 프레임에 대한 서브 조화 대 조화비(SHR)를 계산한다(프로세스 단계(510)). 이후에, 기본 주파수 및 크기 및 위상값과 함께, SHR을 사용하여 선택된 프레임의 조화 성분의 표현을 합성한다(프로세스 단계(512)). 상술한 크기 및 위상값 및 합성된 조화 성분이 주어졌다면, 이후에, 선택된 프레임의 비조화 성분이 계산된다(프로세스 단계(514)). 이후에, 조화 및 비조화 성분을 사용하여 선택된 프레임에 대한 조화 대 비조화비(HnHR)를 계산한다(프로세스 단계(516)).
선택된 프레임에 대해서 계산된 HnHR이 소정의 최소 음성 품질 기준값과 동일하거나 이를 초과하는지는 다음에 결정된다(프로세스 단계(518)). 그러하다면, 이후에 프로세스 단계(502 내지 518)는 반복된다. 그렇지 않다면, 이후에, 프로세스 단계(520)에서, 소정 갯수의 바로 직전의 프레임(예컨대, 30 개의 직전 프레임)에 대해서 계산된 HnHR 또한 소정의 최소 음성 품질 기준값과 동일하거나 이를 초과하는데 실패하였는지를 결정한다. 그러하지 않다면, 이후에 프로세스 단계(502 내지 520)는 반복된다. 하지만, 소정 갯수의 바로 직전의 프레임에 대해서 계산된 HnHR이 소정의 최소 음성 품질 기준값과 동일하거나 초과하는데 실패하게 되는 경우라면, 이후에, 오디오 신호의 음성 품질이 소정의 수용 레벨 미만에 들어가게 되는 것으로 간주하게 되며, 또한 사용자에게 이 효과에 대해서 피드백이 제공된다(프로세스 단계(522)). 이후에, 프로세스 단계(502 내지 522)는 이 프로세스가 활성화되어 있는 이상 적절하게 반복된다.
2.0 예시적인 운영 환경
본 명세서에서 설명된 음성 품질 추정 기법 실시예는 다양한 유형의 일반적임 목적 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성의 범위 내에서 동작 가능하다. 도 6은 본 명세서에서 설명된 것과 같은 음성 품질 추정 기법 실시예의 다양한 실시예에 및 요소들이 구현될 수 있는 일반적인 목적의 컴퓨터 시스템의 간략화된 예를 나타내고 있다. 도 6에서 파선 또는 점선으로 나타낸 임의의 상자는 간략화된 컴퓨팅 장치의 다른 실시예를 나타내고 있으며, 이들 다른 실시예의 임의의 실시예 또는 모든 실시예는, 이하에서 설명되는 바와 같이, 본 문서 전체에 걸쳐서 설명된 기타 다른 실시예와 조합되어 사용될 수 있음을 주목하여야 한다.
예를 들면, 도 6은 간략화된 컴퓨팅 장치(10)를 나타내는 일반적인 시스템 다이아그램을 나타낸다. 이와 같은 컴퓨팅 장치는 적어도 일부의 최소한의 컴퓨팅 능력을 갖는 장치에서 전형적으로 발견될 수 있으며, 여기에는 개인용 컴퓨터, 서버 컴퓨터, 소지형 컴퓨팅 장치, 랩톱 또는 모바일 컴퓨터, 휴대폰 또는 PDA와 같은 통신 장치, 멀티 프로세서 시스템, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그램 가능 소비자 가전, 네트워크 PC, 미니 컴퓨터, 메인 프레임 컴퓨터, 오디오 또는 비디오 매체 플레이어 등이 포함될 수 있으며, 이에 한정되지는 않는다.
본 명세서에서 설명되는 음성 품질 추정 기법의 실시예를 어떤 장치에서 구현하도록 하기 위해서는, 이 장치가 충분한 계산 능력 및 시스템 메모리를 가지고 있어서 기본적인 계산 연산이 가능하여야 한다. 특히, 도 6에 나타낸 바와 같이, 계산 능력은 일반적으로 하나 또는 그 이상의 연산 장치(12)에 의해서 도시되어 있으며, 또한 하나 또는 그 이상의 GPU(14)를 포함할 수도 있고, 이들의 어느 한쪽 또는 양쪽은 시스템 메모리(16)와 통신 가능하다. 일반적인 컴퓨팅 장치의 처리 장치(12)는 DSP, VLIW, 또는 기타 마이크로 컨트롤러와 같은 특수 마이크로프로세서일 수 있거나, 또는 멀티 코어 CPU 내의 전용 GPU 기반의 코어를 포함하는 하나 또는 그 이상의 연산 코어를 갖는 통상적인 CPU일 수도 있음에 주목한다.
이에 더하여, 도 6의 간략화한 컴퓨팅 장치는 또한, 예를 들면, 통신 인터페이스(18)와 같은 기타 컴포넌트를 포함할 수도 있다. 도 6의 간략화한 컴퓨팅 장치는 또한 하나 또는 그 이상의 통상적인 컴퓨터 입력 장치(20)(예컨대, 포인팅 장치, 키보드, 오디오 입력 장치, 비디오 입력 장치, 촉각 입력 장치, 유선 또는 무선 데이터 전송을 수신하기 위한 장치 등)를 포함할 수 있다. 도 6의 간략화한 컴퓨팅 장치는 또한, 예를 들면, 하나 또는 그 이상의 통상적인 표시 장치(24) 및 기타 컴퓨터 출력 장치(22)(예컨대, 오디오 출력 장치, 비디오 출력 장치, 유선 또는 무선 데이터 전송을 전송하기 위한 장치 등)를 포함할 수 있다. 범용 컴퓨터를 위한 전형적인 통신 인터페이스(18), 입력 장치(20), 출력 장치(22), 및 스토리지 장치(26)는 본 기술 분야에서 통상의 지식을 가진 자에게는 공지되어 있으며, 본 명세서에서는 상세하게 설명하지 않음에 주목한다.
또한 도 6의 간략화된 컴퓨팅 장치는 다양한 컴퓨터 판독 가능 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 스토리지 장치(26)를 통해서 컴퓨터(10)에 의해서 액세스 가능한 임의의 가능한 매체일 수 있으며 또한 컴퓨터 판독 가능 또는 컴퓨터 실행 가능 인스트럭션, 자료 구조, 프로그램 모듈, 또는 기타 데이터와 같은 정보를 저장하기 위한 탈착식(28) 및/또는 비탈착식(30) 중의 하나인 휘발성 및 비휘발성 매체를 모두 포함하고 있다. 예시로서, 컴퓨터 판독 가능 매체는 컴퓨터 스토리지 매체 및 통신 매체를 포함할 수 있으나, 이에 한정되지는 않는다. 컴퓨터 스토리지 매체는 컴퓨터 또는 기계 판독 가능 매체 또는 DVD, CD, 플로피 디스크, 테이프 드라이브, 하드 드라이브, 광학 드라이브, 솔리드 스테이트 메모리 장치, RAM, ROM, EPROM, 플래시 메모리 또는 기타 메모리 기술, 자기 카세트, 자기 테이프, 자기 디스크 스토리지, 또는 기타 자기 스토리지 장치와 같은 스토리지 매체, 또는 소정의 정보를 저장하는데 사용될 수 있고 또한 하나 또는 그 이상의 컴퓨팅 장치에 의해서 액세스 가능한 임의의 기타 장치가 포함될 수 있으나, 이에 한정되지는 않는다.
컴퓨터 판독 가능 또는 컴퓨터 실행 가능 인스트럭션, 자료 구조, 프로그램 모듈 등과 같은 정보의 유지는 또한 상술한 다양한 통신 매체 중의 임의의 하나를 사용하여 하나 또는 그 이상의 변조 데이터 신호 또는 반송파, 또는 기타 전송 메커니즘 또는 통신 프로토콜을 부호화하여 달성될 수 있으며 또한 임의의 유선 또는 무선 정보 전달 메커니즘을 포함하고 있다. "변조 데이터 신호" 또는 "반송파"라는 용어는 일반적으로 어떤 신호를 의미하는 용어로서, 하나 또는 그 이상의 이 신호의 특성이 설정되거나 변경되는 방식으로 이 신호 중에 정보가 부호화된 것을 의미함에 주목한다. 예를 들면, 통신 매체는 하나 또는 그 이상의 변조 데이터 신호를 반송하는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 하나 이상의 변조 데이터 신호 또는 반송파를 송신 및/또는 수신하기 위한 음향, RF, 적외선, 레이저, 및 기타 무선 매체와 같은 무선 매체를 포함하고 있다. 또한, 임의의 상술한 것을 조합한 것 역시 통신 매체의 범위 내에 포함되어져야 한다.
또한, 본 명세서에서 설명된 다양한 음성 품질 추정 기법 실시예의 일부 또는 전체, 또는 그 일부분을 구현한 소프트웨어, 프로그램, 및/또는 컴퓨터 프로그램 제품은 컴퓨터 실행 가능 인스트럭션 또는 기타 자료구조의 형태로 컴퓨터 또는 기계 판독 가능 매체 도는 저장 장치 및 통신 매체의 임의의 원하는 조합으로부터 저장, 수신, 송신, 또는 판독될 수 있다.
최종적으로, 본 명세서에서 설명된 다양한 음성 품질 추정 기법 실시예는 프로그램 모듈과 같은 컴퓨팅 장치에 의해서 실행되는 컴퓨터 실행 가능한 인스트럭션의 일반 맥락에서 추가로 설명될 수도 있다. 일반적으로, 프로그램 모듈은 특정한 작업을 수행하거나 특정한 추상 데이터 유형을 구현한 루틴, 프로그램, 객체, 컴포넌트, 자료 구조 등을 포함하고 있다. 본 명세서에서 설명된 각 실시예는 또한 하나 또는 그 이상의 원격 처리 장치에 의해서 태스크가 수행되는 분산형 컴퓨팅 환경, 또는 하나 또는 그 이상의 통신 네트워크를 통해서 링크된 하나 또는 그 이상의 장치의 클라우드(cloud)에서 실시될 수도 있다. 분산 컴퓨팅 환경에 있어서, 프로그램 모듈은 메모리 스토리지 장치를 포함하는 로컬 및 원격 컴퓨터 스토리지 매체 모두에 위치할 수 있다. 또한, 상술한 인스트럭션은 부분적으로 또는 전체적으로 하드웨어 로직 회로로서 구현될 수 있으며, 프로세서를 포함할 수도 있고 포함하지 않을 수도 있다.
3.0 기타 실시예
지금까지 설명한 음성 품질 추정 기법 실시예는 캡쳐된 오디오 신호로부터 유도된 각각의 프레임을 처리하였으나, 이는 이런 경우만일 필요는 없다. 일 실시예에서, 각각의 오디오 프레임이 처리되기 전에, VAD 기법을 채택하여 프레임과 관련된 신호의 출력이 소정의 최소 출력 기준값 미만인지를 결정할 수도 있다. 프레임의 신호 출력이 소정의 최소 출력 기준값 미만인 경우, 이 프레임에는 육성 활동이 없다고 간주되며, 또한 이 프레임은 추가 처리에서 제외된다. 이는 처리 비용의 감소 및 처리 속도의 증가를 불러올 수 있다. 이 소정의 최소 출력 기준값은 반향 테일과 관련된 대부분의 조화 주파수가 통상적으로 이 기준값을 초과하도록 설정되며, 따라서 상술한 이유 때문에 테일 고조파가 보존됨을 주목하여야 한다. 일 구현례에 있어서, 소정의 최소 출력 기준값은 평균 신호 출력의 3 %로 설정된다.
발명의 상세한 설명의 전체에 걸친 상술한 실시예 중의 임의의 실시예 또는 전체 실시예는 임의의 조합을 통해서 추가적인 합성 실시예를 형성할 수 있도록 할 수 있음에 주목하여야 한다. 또한, 본 발명의 청구 대상은 구조적인 특징 및/또는 방법적인 동작에 특유한 표현을 이용하여 설명되었지만, 첨부 특허청구범위에서 정의된 본 발명의 청구 대상은 전술한 구체적인 특징이나 동작으로 한정되는 것이 아님을 이해하여야 한다. 오히려, 전술한 구체적인 특징과 동작은 특허청구범위를 구현하는 예시적인 형태로서 개시된 것이다.

Claims (10)

  1. 인간 음성 성분(human speech component)을 포함하는 단일 채널 오디오 신호 내의 오디오 프레임의 음성 품질을 추정하기 위한 컴퓨터 구현 프로세스에 있어서,
    컴퓨터를 사용하여,
    상기 오디오 신호의 프레임을 입력하는 단계와,
    상기 입력된 프레임을 시간 도메인으로부터 주파수 도메인으로 변환하는 단계와,
    변환된 상기 프레임의 조화 성분(harmonic component)을 계산하는 단계와,
    변환된 상기 프레임의 비조화 성분을 계산하는 단계와,
    조화 대 비조화비(HnHR, harmonic to non-harmonic ratio)를 계산하는 단계와,
    계산된 상기 HnHR을 단일 채널 오디오 신호 내의 상기 입력된 프레임의 음성 품질의 추정치로서 지정하는 단계
    를 포함하는, 컴퓨터 구현 프로세스.
  2. 인간 음성 성분을 포함하는 단일 채널 오디오 신호 내의 오디오 프레임의 음성 품질을 추정하기 위한 컴퓨터 구현 프로세스에 있어서,
    컴퓨터를 사용하여,
    상기 오디오 신호의 프레임을 입력하는 단계와,
    상기 입력된 프레임의 상기 기본 주파수를 추정하는 단계와,
    상기 프레임의 주파수 스펙트럼을 생성하기 위해서 상기 입력된 프레임을 상기 시간 도메인으로부터 상기 주파수 도메인으로 변환하는 단계와,
    상기 기본 주파수의 소정의 정수배에 각각 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 각 주파수의 크기 및 위상값을 계산하는 단계와,
    상기 계산된 크기 및 위상값에 기초하여 상기 입력된 프레임에 대한 서브 조화 대 조화비(SHR)를 계산하는 단계와,
    상기 기본 주파수 및 상기 크기 및 상기 위상값과 함께, 상기 계산된 SHR에 기초하여 상기 입력된 프레임의 조화 성분의 표현을 합성하는 단계와,
    상기 합성된 조화 성분 표현과 함께, 상기 크기 및 위상값에 기초하여 상기 입력된 프레임의 비조화 성분을 계산하는 단계와,
    상기 합성된 조화 성분 표현 및 상기 비조화 성분에 기초하여 조화 대 비조화비(HnHR)를 계산하는 단계와,
    계산된 상기 HnHR을 단일 채널 오디오 신호 내의 상기 입력된 프레임의 음성 품질의 추정치로서 지정하는 단계
    를 포함하는, 컴퓨터 구현 프로세스.
  3. 제 2 항에 있어서,
    상기 계산된 크기 및 위상값에 기초하여 상기 입력된 프레임에 대한 상기 서브 조화 대 조화비(SHR)를 계산하는 단계는,
    상기 기본 주파수의 상기 소정의 정수배에 각각 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 각 주파수에 대해서 계산된 상기 크기값의 합을 상기 기본 주파수의 상기 소정의 정수배에 각각 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 각 주파수에 대해서 계산된 크기값의 합으로 나눈 몫이 0.5 미만이 되도록 계산하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
  4. 제 2 항에 있어서,
    상기 기본 주파수 및 상기 크기 및 위상값과 함께, 상기 계산된 SHR에 기초하여 상기 입력된 프레임의 상기 조화 성분의 상기 표현을 합성하는 단계는,
    진폭 가중치 인자(W(l))가 상기 프레임의 반향 테일 구간에서의 상기 프레임의 상기 조화 성분 신호의 상기 합성 표현의 에너지가 점진적으로 감소하도록 계산하는 단계와,
    수학식
    Figure pct00034
    - 여기에서, l은 고려 중인 프레임, t는 샘플 시간값, F 0 는 기본 주파수, k는 기본 주파수의 정수배, K는 최대 정수배, 및 S는 프레임에 대응하는 시간 도메인 신호임 - 을 사용하여 일련의 샘플에 대해서 프레임의 시간 도메인 조화 성분(
    Figure pct00035
    )을 합성하는 단계와,
    상기 기본 주파수의 상기 소정의 정수배에 각각 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 각각의 주파수(f)에서 상기 프레임(l)에 대해서 합성 주파수 도메인 조화 성분(
    Figure pct00036
    )을 생산하기 위해서 이산 푸리에 변환(DFT, discrete Fourier transform)을 채택하여 상기 프레임에 대한 상기 합성된 시간 도메인 조화 성분(
    Figure pct00037
    )을 주파수 도메인으로 변환하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
  5. 제 4 항에 있어서,
    상기 진폭 가중치 인자(W(l))를 계산하는 단계는,
    제 4 승까지 계산된 상기 SHR을 제 4 승까지 계산된 SHR 더하기 소정의 가중치 파라미터의 합으로 나눈 몫을 계산하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
  6. 제 4 항에 있어서,
    상기 합성된 조화 성분 표현과 함께, 상기 크기 및 위상값에 기초하여 상기 입력된 프레임의 상기 비조화 성분을 계산하는 단계는,
    상기 기본 주파수의 소정의 정수부에 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 각각의 주파수에 대해서, 서로 다른 값을 생성하기 위해서 상기 주파수와 관련된 상기 합성된 주파수 도메인 조화 성분으로부터 상기 주파수에서의 상기 프레임의 상기 계산된 크기값을 빼는 단계와,
    상기 생성된 서로 다른 값으로부터 비조화 성분 기대값을 계산하기 위해서 기대값 연산자 함수를 이용하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
  7. 제 6 항에 있어서,
    상기 HnHR을 계산하는 단계는,
    상기 기본 주파수의 상기 정수배에 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 상기 주파수와 관련된 상기 합성된 주파수 도메인 조화 성분으로부터 조화 성분 기대값을 계산하기 위해서 기대값 연산자 함수를 사용하는 단계와,
    상기 계산된 조화 성분 기대값을 상기 계산된 비조화 성분 기대값으로 나눈 몫을 계산하는 단계와,
    상기 몫을 상기 HnHR로 지정하는 단계를 포함하는,
    컴퓨터 구현 프로세스.

  8. 제 4 항에 있어서,
    상기 HnHR을 계산하는 단계는,
    상기 오디오 신호의 하나 이상의 선행 프레임에 대해서 계산된 상기 HnHR의 일부를 사용하여 평활화한 평활화 HnHR을 계산하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
  9. 제 8 항에 있어서,
    상기 합성된 조화 성분 표현과 함께, 상기 크기 및 위상값에 기초하여 상기 입력된 프레임의 상기 비조화 성분을 계산하는 단계는,
    상기 기본 주파수의 소정의 정수부에 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 각각의 주파수에 대해서, 서로 다른 값을 생성하기 위해서 상기 주파수와 관련된 상기 합성된 주파수 도메인 조화 성분으로부터 상기 주파수에서의 상기 프레임의 상기 계산된 크기값을 빼는 단계와,
    상기 생성된 서로 다른 값으로부터 비조화 성분 기대값을 계산하기 위해서 기대값 연산자 함수를 이용하는 단계와,
    상기 현재의 프레임에 대한 평활화된 비조화 성분 기대값을 생성하기 위해서 상기 현재의 프레임에 대해서 계산된 상기 비조화 성분 기대값에 대한 상기 현재 프레임의 바로 직전의 상기 오디오 신호의 상기 프레임에 대해 계산된 평활화된 비조화 성분 기대값의 소정 백분율을 더하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
  10. 제 9 항에 있어서,
    상기 평활화 HnHR을 계산하는 단계는,
    상기 기본 주파수의 상기 정수배에 대응하는 상기 프레임의 상기 주파수 스펙트럼 내의 상기 주파수와 관련된 상기 합성된 주파수 도메인 조화 성분으로부터 조화 성분 기대값을 계산하기 위해서 기대값 연산자 함수를 사용하는 단계와,
    상기 현재의 프레임에 대한 평활화된 비조화 성분 기대값을 생성하기 위해서 상기 현재의 프레임에 대해서 계산된 상기 비조화 성분 기대값에 대한 상기 현재 프레임의 바로 직전의 상기 오디오 신호의 상기 프레임에 대해 계산된 평활화된 비조화 성분 기대값의 소정 백분율을 더하는 단계와,
    상기 평활화된 조화 성분 기대값을 상기 평활화된 비조화 성분 기대값으로 나눈 몫을 계산하는 단계와,
    상기 몫을 상기 평활화 HnHR로서 지정하는 단계를 포함하는,
    컴퓨터 구현 프로세스.
KR1020147015195A 2011-12-09 2012-11-30 조화성 기반 단일 채널 음성 품질 추정 기법 KR102132500B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/316,430 2011-12-09
US13/316,430 US8731911B2 (en) 2011-12-09 2011-12-09 Harmonicity-based single-channel speech quality estimation
PCT/US2012/067150 WO2013085801A1 (en) 2011-12-09 2012-11-30 Harmonicity-based single-channel speech quality estimation

Publications (2)

Publication Number Publication Date
KR20140104423A true KR20140104423A (ko) 2014-08-28
KR102132500B1 KR102132500B1 (ko) 2020-07-09

Family

ID=48109789

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147015195A KR102132500B1 (ko) 2011-12-09 2012-11-30 조화성 기반 단일 채널 음성 품질 추정 기법

Country Status (6)

Country Link
US (1) US8731911B2 (ko)
EP (1) EP2788980B1 (ko)
JP (1) JP6177253B2 (ko)
KR (1) KR102132500B1 (ko)
CN (1) CN103067322B (ko)
WO (1) WO2013085801A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
JP5740353B2 (ja) * 2012-06-05 2015-06-24 日本電信電話株式会社 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム
CN105308681B (zh) * 2013-02-26 2019-02-12 皇家飞利浦有限公司 用于生成语音信号的方法和装置
KR101892643B1 (ko) 2013-03-05 2018-08-29 애플 인크. 하나 이상의 청취자들의 위치에 기초한 스피커 어레이의 빔 패턴의 조정
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
CN104485117B (zh) * 2014-12-16 2020-12-25 福建星网视易信息系统有限公司 一种录音设备检测的方法及其系统
CN106332162A (zh) * 2015-06-25 2017-01-11 中兴通讯股份有限公司 话务测试系统及方法
US10264383B1 (en) 2015-09-25 2019-04-16 Apple Inc. Multi-listener stereo image array
CN105933835A (zh) * 2016-04-21 2016-09-07 音曼(北京)科技有限公司 基于线性扬声器阵列的自适应3d声场重现方法及系统
CN106356076B (zh) * 2016-09-09 2019-11-05 北京百度网讯科技有限公司 基于人工智能的语音活动性检测方法和装置
CN107221343B (zh) * 2017-05-19 2020-05-19 北京市农林科学院 一种数据质量的评估方法及评估系统
KR102364853B1 (ko) * 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템
CN107818797B (zh) * 2017-12-07 2021-07-06 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN109994129B (zh) * 2017-12-29 2023-10-20 阿里巴巴集团控股有限公司 语音处理系统、方法和设备
CN111179973B (zh) * 2020-01-06 2022-04-05 思必驰科技股份有限公司 语音合成质量评价方法及系统
CN112382305B (zh) * 2020-10-30 2023-09-22 北京百度网讯科技有限公司 调节音频信号的方法、装置、设备和存储介质
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041593A (ja) * 2005-08-01 2007-02-15 Samsung Electronics Co Ltd 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
US20070239437A1 (en) * 2006-04-11 2007-10-11 Samsung Electronics Co., Ltd. Apparatus and method for extracting pitch information from speech signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US20040213415A1 (en) 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR100827153B1 (ko) 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
CN101416237B (zh) 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
US20080229206A1 (en) 2007-03-14 2008-09-18 Apple Inc. Audibly announcing user interface elements
KR20100044424A (ko) 2008-10-22 2010-04-30 삼성전자주식회사 이동 기반 유성음 측정 방법 및 시스템
US8218780B2 (en) 2009-06-15 2012-07-10 Hewlett-Packard Development Company, L.P. Methods and systems for blind dereverberation
CN104252862B (zh) 2010-01-15 2018-12-18 Lg电子株式会社 处理音频信号的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041593A (ja) * 2005-08-01 2007-02-15 Samsung Electronics Co Ltd 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
US20070239437A1 (en) * 2006-04-11 2007-10-11 Samsung Electronics Co., Ltd. Apparatus and method for extracting pitch information from speech signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Eiji Yumoto, et al. Harmonics-to-noise ratio as an index of the degree of hoarseness. The journal of the Acoustical Society of America. 1982.* *

Also Published As

Publication number Publication date
US8731911B2 (en) 2014-05-20
JP6177253B2 (ja) 2017-08-09
CN103067322A (zh) 2013-04-24
WO2013085801A1 (en) 2013-06-13
JP2015500511A (ja) 2015-01-05
CN103067322B (zh) 2015-10-28
EP2788980A4 (en) 2015-05-06
EP2788980A1 (en) 2014-10-15
KR102132500B1 (ko) 2020-07-09
EP2788980B1 (en) 2018-12-26
US20130151244A1 (en) 2013-06-13

Similar Documents

Publication Publication Date Title
KR102132500B1 (ko) 조화성 기반 단일 채널 음성 품질 추정 기법
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JP2013130857A (ja) 音響処理装置
JP2012515939A (ja) 信号の信号特性の変化を記載しているパラメータを得る装置、方法およびコンピュータプログラム
JP2014115377A (ja) 音響処理装置
JP5034734B2 (ja) 音処理装置およびプログラム
JP6265903B2 (ja) 信号雑音減衰
KR101971268B1 (ko) 오디오 코딩 방법 및 관련 장치
Gamper et al. Predicting word error rate for reverberant speech
JP2010220087A (ja) 音響処理装置およびプログラム
US20150162014A1 (en) Systems and methods for enhancing an audio signal
JP2014532891A (ja) オーディオ信号ノイズ減衰
JP6299279B2 (ja) 音響処理装置および音響処理方法
JP6171558B2 (ja) 音響処理装置
GB2549103A (en) A speech processing system and speech processing method
JP5772723B2 (ja) 音響処理装置および分離マスク生成装置
JP2015169901A (ja) 音響処理装置
JP6036141B2 (ja) 音響処理装置
JP2014230017A (ja) エコー抑圧装置およびエコー抑圧方法
JP2013250356A (ja) 係数設定装置および雑音抑圧装置
WO2022068440A1 (zh) 啸叫抑制方法、装置、计算机设备和存储介质
JP6191238B2 (ja) 音響処理装置および音響処理方法
JP2015004959A (ja) 音響処理装置
Park Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)