KR20110044990A - 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 - Google Patents

특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20110044990A
KR20110044990A KR1020117002693A KR20117002693A KR20110044990A KR 20110044990 A KR20110044990 A KR 20110044990A KR 1020117002693 A KR1020117002693 A KR 1020117002693A KR 20117002693 A KR20117002693 A KR 20117002693A KR 20110044990 A KR20110044990 A KR 20110044990A
Authority
KR
South Korea
Prior art keywords
spectral
feature
control information
frequency band
band
Prior art date
Application number
KR1020117002693A
Other languages
English (en)
Other versions
KR101266894B1 (ko
Inventor
크리스천 우래
올리버 헬머스
번하드 그릴
팔코 리더부쉬
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20110044990A publication Critical patent/KR20110044990A/ko
Application granted granted Critical
Publication of KR101266894B1 publication Critical patent/KR101266894B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

음성 향상 필터(12)에 대한 제어 정보를 얻기 위한 오디오 신호 처리 장치는, 다수의 단시간 스펙트럼 표현들 중 단시간 스펙트럼 표현의 다수의 주파수 대역 중의 주파수 대역 당 적어도 일 이상의 특성을 추출하기 위한 특성 추출기(14)를 포함한다. 여기서 상기 적어도 일 이상의 특성은 상기 주파수 대역의 단시간 스펙트럼 표현을 나타낸다. 상기 장치는 추가적으로, 오디오 신호의 시간 부분에 대한 음성 향상 필터를 위한 제어 정보를 구하기 위한 조합 매개변수를 사용하는 각각의 주파수 대역에 대한 적어도 하나의 특성을 조합하는, 특성 조합기(15)를 포함한다. 상기 특성 조합기는 신경 네트워크 회귀분석 수단을 사용할 수 있으며, 이는 신경 네트워크를 위한 트레이닝 단계에서 결정된 조합 매개변수를 기반으로 한다.

Description

특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING AN AUDIO SIGNAL FOR SPEECH EMHANCEMENT USING A FEATURE EXTRAXTION}
본 발명은 오디오 신호 프로세싱 분야, 특히 오디오 신호의 음성 향상 분야로서, 따라서 향상된 신호는 개량된 객관적 혹은 주관적 음성 명료도(speech intelligibility)를 갖는, 음성 콘텐츠를 갖는다.
음성 향상은 서로 다른 애플리케이션에서 적용된다. 두드러진 애플리케이션은 보청기(hearing aids)에서 디지털 신호 프로세싱의 사용이다. 보청기에서 디지털 신호 프로세싱은 청각 장애의 재활을 위한 신규의, 효과적인 수단을 제공한다. 높은 음향 신호 품질은 별도로, 디지털 보청기는 특정한 음성 프로세싱 전략의 구현을 허용한다. 이러한 많은 전략에 대하여, 음향 환경에서의 음성 대 잡음 비율(speech-to-noise ratio, SNR)의 추정이 바람직하다. 구체적으로, 음성 프로세싱을 위한 복잡한 알고리즘이 특정 음향 환경을 위하여 최적화되는 적용이 고려되는데, 그러나 그러한 알고리즘은 특정 가정을 충족시키지 않는 상황이 될 수 있다. 이는 특히 조용한 환경 혹은 음성 대 잡음 비율이 특정 임계값(threshold) 아래인 경우에서 프로세싱 산물(artifact)을 도입할 수 있는 잡음 감소 기법을 위하여 유효하다. 압축 알고리즘 및 증폭의 파라미터에 대한 최적 선택은 음성 대 잡음 비율에 의존할 수 있는데, 따라서 음성 대 잡음 비율 계산에 따른 파라미터 설정의 적용은 편익을 제공하는 데 도움이 된다. 게다가, 음성 대 잡음 비율의 계산은 위너 필터링(Wiener filtering) 혹은 스펙트럼 차감법(spectral subtraction)과 같은, 잡음 감소 기법을 위한 제어 파라미터로서 직접적으로 사용될 수 있다.
다른 적용은 영화 사운드의 음성 향상 분야이다. 많은 사람들이 영화의 음성 콘텐츠를 이해하는데 어려움, 예를 들면 청각 장애로 인한, 어려움을 갖는다. 영화의 줄거리를 따라가기 위하여, 예를 들면 독백, 대화, 발표(announcement), 나래이션(narration)의, 오디오 트랙(audio track)의 관련 음향을 이해하는 것이 중요하다. 난청의 사람들은 때때로 예를 들면 환경적 잡음 및 음악의, 배경 사운드가 음성과 관련하여 매우 높은 레벨에서 존재하는 것을 경험한다. 이러한 경우에 있어서, 음성의 레벨을 증가시키고 배경 사운드를 감소시키거나 혹은, 일반적으로, 전체 레벨과 관련된 음성 신호의 레벨을 증가시키는 것이 바람직하다.
음성 향상의 두드러진 접근은 도 3에 도시한 것과 같이, 또한 단시간 스펙트럼 감쇄(spectral attenuation)로 언급되는, 스펙트럼 가중치(spectral weighting)이다. 출력 신호(y[k])는 부대역 신호 내의 잡음 에너지에 따른 입력 신호(x[k])의 부대역 신호(X(ω))를 감소시킴으로써 계산된다.
다음에서 입력 신호(x[k])는 바람직한 음향 신호(s[k]) 및 배경 잡음(b[k])의 가산 혼합(additive micture)으로 가정한다.
[수학식 1]
x[k]=s[k]+b[k]
음성 향상은 음향의 객관적 명료도 및/또는 주관적 품질에서의 개량이다.
입력 신호의 주파수 도메인(frequency domain) 표현은 단시간 푸리에 변환(Short-term Fourier Transform, STFT), 다른 시간-주파수 변환들 혹은 30에서 나타낸 것과 같은 필터 뱅크(filter bank)의 수단에 의해 계산된다. 그리고 나서 입력 신호는 방정식 (2)에 따라 주파수 도메인에서 필터되는데, 필터의 주파수 반응(G(ω))은 잡음 에너지가 감소되는 것과 같이 계산된다. 출력 신호는 시간-주파수 변환 혹은 필터 뱅크 각각의 역 프로세싱(inverse processing)의 수단에 의해 계산된다.
[수학식 2]
Y(ω)=G(ω)X(ω)
적절한 스펙트럼 가중치(G(ω))는 입력 신호 스펙트럼(X(ω)) 및 잡음 스펙트럼(
Figure pct00001
)의 계산을 사용하거나 혹은, 등가로(equivalently), 선형 부대역 음성 대 잡음 비율(
Figure pct00002
)을 사용하여 각각의 스펙트럼 값에 대하여 단계 31에서 계산된다. 가중된 스펙트럼 값은 다시 32에서 시간 도메인으로 변환된다. 잡음 억제 법칙의 유명한 예는 스펙트럼 차감법(S. Boll, "스펙트럼 차감법을 사용하는 음성에서 음향 잡음의 억제(Suppression of acoustic noise in speech using spectral subtraction)", IEEE Trans . on Acoustics , Speech , and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979) 및 위너 필터링이다. 입력 신호는 음성 및 잡음 신호의 가산 혼합이며 음성 및 신호가 무상관(uncorrelated)이라고 가정할 때, 스펙트럼 차감 방법에 대한 이익 값(gain value)이 방정식 (3)에 주어진다.
Figure pct00003
유사한 가중치가 방정식 (4)에 따라 선형 부대역 음성 대 잡음 비율(
Figure pct00004
)의 계산으로부터 유래한다.
Figure pct00005
이전에 스펙트럼 차감법에 대한 다양한 확장이 제안되었는데, 주로 과차감 인자(oversubtraction factor) 및 스펙트럼 플로어 파라미터(spectrum floor parameter, M. Berouti, R. Schwartz, J. Makhoul, "음향 잡음에 의해 오류가 생긴 음성의 향상(Enhancement of speech corrupted by acoustic noise)" Proc . of the IEEE Int . Conf . on Acoustics , Speech , and Signal Processing , ICASSP, 1979), 일반화 형태(J. Lim, A. Oppenheim, "잡음 음성의 향상 및 대역폭 압축(Ennhancement and bandwidth compression of noisy speech)", Proc . of the IEEE, vol 67, no. 12, pp. 1586-1604, 1979), 인식 기준(예를 들면, N. Virag, "인간 청각 시스템의 마스킹 속성을 기초로 한 단일 채널 음성 향상(Single channel speech enhancement based on masking properties of the human auditory system)", IEEE Trans . Speech and Audio Proc ., vol. 7, no. 2, pp. 126-137, 1999) 및 다중 대역 스펙트럼 차감법(예를 들면, S. Kamath, P. Loizou, "유색 잡음에 의해 오류가 생긴 음성을 향상시키기 위한 다중 대역 스펙트럼 차감 방법(A multi-band spectral subtraction method for enhancing speech corrupted by colored noise)", Proc . of the IEEE Int . Conf . Acoust . Speech Signal Processing, 2002)에 관한 것이다. 그러나, 스펙트럼 가중치 방법의 중요한 부분은 순시 잡음 스펙트럼(instantaneous noise spectrum) 혹은 부대역 신호 대 잡음 비의 계산이며, 이는 만약 잡음이 불안정하면 특히 오류가 생기는 경향이 있다. 잡음 계산의 오류는 잔류 잡음, 음성 구성요소 혹은 음악 잡음의 왜곡(distortion, "음질을 갖는 워블링(Warbling with tonal quality, P. Loizou, Speech Enhancement : Theory and Practice , CRC Press, 2007)"과 같이 설명된 산물)에 이른다.
잡음 계산에 대한 간단한 접근은 음성 일시정지(speech pause) 동안에 잡음 스펙트럼을 측정하고 평균을 내는 것이다. 이러한 접근은 만약 잡음 스펙트럼이 음성 활동 동안의 시간에 걸쳐 변경되고 음성 일시정지의 감지가 실패하면 만족할만한 결과를 산출하지 않는다. 음성 활동 동안에도 잡음 스펙트럼을 계산하기 위한 방법은 과거에 제안되어 왔으며 2007년 P. Loizou의 음성 향상: 이론 및 실습(Speech Enhancement : Theory and Practice , CRC Press)에 따라 다음과 같이 분류될 수 있다.
ㆍ 최소 트래킹(tracking) 알고리즘
ㆍ 시간 회귀적(time-recursive) 평균 알고리즘
ㆍ 히스토그램(histogram) 기반 알고리즘
최소 통계를 사용하는 잡음 스펙트럼의 계산은 1994년 R. Martin의 "최소 통계를 기초로 한 스펙트럼 차감법(Spectral subtraction based on minimum statistics), Proc . of EUSIPCO , Edingburgh , UK"에서 제안되었다. 방법은 각각의 부대역에서 신호 에너지의 지역 최저점의 트래킹을 기초로 한다. 잡음 계산에 대한 비선형 업데이트 규칙 및 빠른 업데이트가 1995년 G. Doblinger의 "부대역에서 스펙트럼 최소 트래킹에 의한 계산적으로 효율적인 음성 향상(Computationally Efficient Speech Enhancement By Spectral Minima Tracking In Subbands)", Proc . of Eurospeech , Madrid , Spain에서 제안되었다.
시간 회귀적 평균 알고리즘은 특정 주파수 대역에서 계산된 음성 대 잡음 비율이 매우 낮을 때마다 잡음 스펙트럼을 계산하고 업데이트한다. 이는 과거의 소음 계산 및 현재 스펙트럼의 가중 평균을 회귀적으로 계산함으로써 수행된다. 가중치는 음성이 존재하는 확률의 함수로서 혹은 예를 들면 2002년 I. Cohen의 "강력한 음성 향상을 위한 최소 제어 회귀적 평균에 의한 잡음 계산(Noise estimation by minima controlled recursive averaging for robust speech enhancement)", IEEE Signal Proc . Letters, vol. 9, no. 1, pp. 12-15, 및 2003년 L. Lin, W. Holms, E. Ambikairajah의 "음성 향상을 위한 잡음 계산 알고리즘(Adaptive noise estimaton algorithm for speech enhancement)", Electronic Letters, vol. 39, no. 9, pp. 754-755에서의, 특정 주파수 대역에서 계산된 음성 대 잡음 비율의 함수로서 결정된다.
히스토그램 기반 방법은 부대역 에너지의 히스토그램이 때때로 바이모달(bimodal)이라는 가정에 의존한다. 큰 저-에너지 모드는 음성이 없는 단편(segment) 혹은 음성의 저-에너지 단편을 갖는 에너지 값을 축적한다. 고-에너지 모드는 유성음(voiced speech) 및 잡음을 갖는 단편의 에너지 값을 축적한다. 특정 부대역에서의 잡음 에너지는 저-에너지 모드로부터 결정된다(H. hinrich, C. Ehrlicher, "강력한 음성 인식을 위한 잡음 계산 기술(Noise estimation techniques for robust speech recognition)", Proc . of the IEEE Int . Conf . on Acoustics, Speech , and signal Processing , ICASSP , Detroit, USA, 1995). 최근의 포괄적인 조사로, 그것은 2007년 P. Loizou의 음성 향상: 이론 및 실습(Speech Enhancement: Theory and Practice , CRC Press)에 참조된다.
진폭 변조(amplitide modulation) 특성을 사용하는 지도 학습(supervised learning)을 기초로 한 부대역 음성 대 잡음 비율의 계산을 위한 방법이 J. Tchorz, B. Kollmeier의 "잡음 억제의 적용을 갖는 진폭 변조 분석을 기초로 한 음성 대 잡음 비율 계산(SNR Estimation based on amplitude modulation analysis with application to noise suppression)", IEEE Trans . On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003, 및 M. Kleinschmidt, V. Hohmann의 "청각 특성 프로세싱을 사용하는 부대역 음성 대 잡음 비율 계산(Sub-band SNR estimation using auditory feature processing)", Speech Communication : Special Issue on Speech Processing for Hearing Aids, vol. 39, pp. 47-64, 2003에서 보고되었다.
음성 향상에 대한 다른 접근은 피치 동기식 필터링(pitch-synchronous filtering, 예를 들면 R. Frazier, S. samsam, L. Braida, A. Oppenheim의 "적응 필터링에 의한 음성의 향상(Enhancement of speech by adaptive filtering)", Proc. of the IEEE Int . Conf . on Acoustics , Speech , and signal Processing , ICASSP, Philadephia, USA, 1976에서), 스펙트럼-시간 변조(Spectro Temporal Modulation, STM)의 필터링(예를 들면, N. Mesgarani, S. Shamma의 "스펙트럼-시간 변조의 필터링을 기초로 한 음성 향상(Speech enhancement based on filtering the spectro-tempotal modulations)", Proc . of the IEEE Int . Conf . on Acoustics , Speech , and signal Processing , ICASSP , Philadephia, USA, 2005에서), 및 입력 신호의 정현파(sinusoidal) 모델 표현을 기초로 한 필터링(예를 들면, J. Jensen, J. Hensen의 "제약적인 반복적 정현파 모델을 사용하는 음성 향상(Speech enhancement using a constrained iterative sinusoidal model)" IEEE Trans . on Speech and Audio Processing, vol. 9, no. 7, pp. 731-740, 2001에서)이다.
J. Tchorz, B. Kollmeier의 "잡음 억제의 적용을 갖는 진폭 변조 분석을 기초로 한 음성 대 잡음 비율 계산(SNR Estimation based on amplitude modulation analysis with application to noise suppression)", IEEE Trans . On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003, 및 M. Kleinschmidt, V. Hohmann의 "청각 특성 프로세싱을 사용하는 부대역 음성 대 잡음 비율 계산(Sub-band SNR estimation using auditory feature processing)", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol. 39, pp. 47-64, 200312, 13에서 보고된 것과 같은 진폭 변조 특성을 사용하는 지도 학습을 기초로 한 부대역 음성 대 잡음 비율의 계산을 위한 방법은 두 개의 스펙트로그램 프로세싱 단계를 필요로 한다는 점에서 불리하다. 첫 번째 스펙트로그램 프로세싱 단계는 시간-도메인 오디오 신호의 시간/주파수 스펙트로그램을 생성하는 것이다. 그리고 나서, 변조 스펙트로그램을 생성하기 위하여, 스펙트럼 도메인으로부터의 스펙트럼 정보를 변조 도메인으로 변환하는, 또 다른 "시간/주파수" 변환이 필요하다. 본래의 시스템적 지연 및 어떠한 변환 알고리즘에 내재하는 시간/주파수 해상도 문제 때문에 이러한 부가적인 변환 작동은 문제점을 초래한다.
이러한 과정의 부가적인 결과는 잡음이 불안정하며 다양한 잡음 신호가 발생하는 상황에서 잡음 계산이 매우 비정확하다는 것이다.
본 발명의 목적은 음성 향상을 위한 개량된 개념을 제공하는 것이다.
첫 번째 양상에 따라, 이러한 목적은 음성 향상 필터를 위한 제어 정보를 획득하기 위하여, 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하며 복수의 단시간 스펙트럼 표현을 위한 복수의 주파수 대역의 각각의 주파수 대역에서 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양(spectral shape)을 표현하는 적어도 하나의 특성을 추출하기 위한 특성 추출기(feature extractor); 및 오디오 신호의 시간 부에 대하여 음성 향상 필터를 위한 제어 정보를 획득하기 위하여 결합 파라미터를 사용하여 각각의 주파수 대역에 대하여 적어도 하나의 특성을 결합하기 위한 특성 결합기(feature combiner)를 포함하는, 오디오 신호를 프로세싱하기 위한 장치에 의해 달성된다.
두 번째 양상에 따라, 이러한 목적은 음성 향상 필터를 위한 제어 정보를 획득하기 위하여, 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하는 단계; 복수의 단시간 스펙트럼 표현에 대하여 복수의 주파수 대역의 각각의 주파수 대역에서, 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특성을 추출하는 단계; 및 오디오 신호의 시간 부에 대하여 음성 향상 필터를 위한 제어 정보를 획득하기 위하여 결합 파라미터를 사용하여 각각의 주파수 대역에 대하여 적어도 하나의 특성을 결합하는 단계를 포함하는, 오디오 신호를 프로세싱하기 위한 방법에 의해 달성된다.
세 번째 양상에 따라, 이러한 목적은 오디오 신호의 시간 부를 표현하는 복수의 대역에 대한 필터 제어 정보를 획득하기 위하여 오디오 신호를 프로세싱하기 위한 장치; 및 오디오 신호의 대역이 제어 정보를 기초로 한 다른 대역과 관련하여 가변적으로 감쇄하도록 제어가능한, 제어가능한 필터(controllable filter)를 포함하는, 오디오 신호에서 음성 향상을 위한 장치에 의해 달성된다.
네 번째 양상에 따라, 이러한 목적은 오디오 신호의 시간 부를 표현하는 복수의 대역에 대하여 필터 제어 정보를 획득하기 위한 오디오 신호를 프로세싱하기 위한 방법; 및 오디오 신호의 대역이 제어 정보를 기초로 한 다른 대역과 관련하여 가변적으로 감쇄하도록 하기 위하여 필터를 제어하는 단계를 포함하는, 오디오 신호에서의 음성 향상의 방법에 의해 달성된다.
다섯 번째 양상에 따라, 이러한 목적은 주파수 대역 당 음성 향상 필터를 위한 제어 정보 알려져 있는, 교육 오디오 신호( training audio signal)의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하며, 복수의 단시간 스펙트럼 표현에 대하여 복수의 주파수 대역의 각각의 주파수 대역에서, 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특성을 추출하기 위한, 특성 추출기(feature extractor); 및 중간 결합 파라미터를 사용하여 제어 정보를 계산하고, 중간 결합 파라미터를 변경하고, 변경된 제어 정보를 알려진 제어 정보와 비교하며, 변경된 중간 결합 파라미터가 알려진 제어 정보와 더 잘 매치하는 제어 정보를 야기할 때, 중간 결합 파라미터를 업데이트(updating)하기 위하여, 각각의 주파수 대역에 대하여 적어도 하나의 특성을 갖는 특성 결합기를 피딩(feeding)하기 위한 최적화 컨트롤러(optimization controller)를 포함하는, 특성 결합기의 결합 파라미터를 결정하기 위하여 특성 결합기를 교육하기 위한 장치에 의해 달성된다.
여섯 번째 양상에 따라, 이러한 목적은 주파수 대역 당 음성 향상 필터를 위한 제어 정보 알려져 있는, 교육 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하는 단계; 복수의 단시간 스펙트럼 표현에 대하여 복수의 주파수 대역의 각각의 주파수 대역에서, 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특성을 추출하는 단계; 각각의 주파수 대역에 대하여 적어도 하나의 특성을 갖는 특성 결합기를 피딩하는 단계; 중간 결합 파라미터를 사용하여 제어 정보를 계산하는 단계; 중간 결합 파라미터를 변경하는 단계; 변경된 제어 정보를 알려진 제어 정보와 비교하는 단계; 변경된 중간 결합 파라미터가 알려진 제어 정보와 더 잘 매치하는 제어 정보를 야기할 때, 중간 결합 파라미터를 업데이트하는(updating) 단계:를 포함하는, 특성 결합기의 결합 파라미터를 결정하기 위하여 특성 결합기를 교육하기 위한 방법에 의해 달성된다.
일곱 번째 양상에 따라, 본 발명은 컴퓨터 상에 구동될 때, 본 발명의 방법 중의 하나를 실행하기 위한 컴퓨터 프로그램에 의해 달성된다.
본 발명은 특정 대역 내의 오디오 신호의 스펙트럼 모양 상의 밴드와이즈(band-wise) 정보가 음성 향상 필터를 위한 제어 정보를 결정하기 위하여 매우 우 유용한 파라미터라는 사실에 기초를 둔다. 특히, 복수의 대역 및 복수의 그 다음의 단시간 스펙트럼 표현을 위한 밴드와이즈 결정 스펙트럼 모양 정보 특성은 오디오 신호의 음성 향상 프로세싱을 위하여 오디오 신호의 유용한 특성 설명을 제공한다. 구체적으로, 스펙트럼 모양의 세트는, 각각의 스펙트럼 모양 특성이 바크 대역(Bark band) 혹은, 일반적으로, 이미 각각의 대역에 대한 신호/잡음 비율을 결정하기 위한 유용한 특성 세트를 제공하는 주파수 범위에 걸쳐서 다양한 대역폭을 갖는 대역과 같은, 복수의 스펙트럼 대역의 대역과 관련된 특성을 갖는다. 이를 위하여, 복수의 대역에 대한 스펙트럼 모양 특성은 각각의 대역에 대한 오디오 신호의 시간 부에 대한 음향 향상 필터를 위한 제어 정보를 획득하기 위하여 결합 파라미터를 사용하여 이러한 특성들을 결합하기 위한 특성 결합기를 통하여 프로세스된다. 바람직하게는, 특성 결합기는 많은 결합 파라미터에 의해 제어되는, 신경 네트워크를 포함하는데, 상기 이러한 결합 파라미터는 실제로 음성 향상 필터링을 실행하기 전에 실행되는, 교육 단계( training phase )에서 결정된다. 구체적으로, 신경 네트워크는 신경 네트워크 회귀 방법(neural network regression method)을 실행한다. 구체적인 장점은 결합 파라미터가 실제의 음성 향상 오디오 자료( audio material)와는 다를 수 있는, 오디오 자료를 사용하는 교육 단계 내에서 결정되며, 따라서 교육 단계는 단일 시간만을 실행하여야만 하며, 이러한 교육 단계 후에, 결합 파라미터가 고정되어 설정되며 교육 신호의 음향 특성에 비교할만한, 음성을 갖는 각각의 알 수 없는 오디오 신호에 적용될 수 있다는 것이다. 그러한 음성 특성은 예를 들면, 언어(language) 혹은 유럽 언어 대 아시아 언어와 같은, 언어의 그룹 등일 수 있다.
바람직하게는, 본 발명의 개념은 특성 추출 및 신경 네트워크를 사용하여 음향의 특성을 학습함으로써 잡음을 계산하는데, 상기 본 발명의 추출된 특성은 효과적이며 쉬운 방법으로 추출할 수 있는, 낮은 레벨의 스펙트럼 특성이며, 따라서 본 발명의 개념은 특히 잡음이 불안정하며 다양한 잡음 신호가 발생하는 상황에서도, 정확한 잡음 및 음성 대 잡음 비율의 제공에 유리하다.
도 1은 본 발명의 일 실시예로써 오디오 신호를 처리하기 위한 장치 또는 방법에 대한 블록도이다.
도 2는 본 발명의 최선 실시예에 따른 특성 조합장치를 개발하기 위한 장치 또는 방법에 대한 블록도이다.
도 3은, 본 발명의 최선 실시예에 따른 음성 향상 장치 및 방법을 도시한 블록도이다.
도 4는, 특성 조합장치를 트레이닝(training)하고, 최적화된 조합 매개변수를 사용한 신경 네트워크 회귀분석을 적용하기 위한 진행 순서에 대한 개괄을 도시한 것이다.
도 5는, SNR의 기능으로써 이익 인자를 도시하는 도면으로써, 여기서 상기 적용된 이익(굵은선)이, 스펙트럼 삭감 이득(점선) 및 위너 필터(Wiener filter, 굵은 점선)과 비교된다.
도 6은, 주파수 대역에 대한 특성 및 모든 대역폭에서 바람직하게 추가되는 특성에 대한 개괄이다.
도 7은, 본 발명의 최선 실시예에 있어서 특성 추출기를 도시하기 위한 흐름도이다.
도 8은, 본 발명의 최선 실시예에 있어서 주파수 값에 대한 이익 인자를 계산하는 방법 및 이에 이어지는 음성 향상된 오디오 신호 부분에 대한 계산하는 방법에 대한 흐름도를 도시한 것이다.
도 9는, 스펙트럼 가중의 일례를 도시한 것으로써, 여기서 입력 시간 신호, 계산된 서브밴드 SNR, 보간 이후의 주파수 빈(frequency bin) 내에서의 추정된 SNR, 스펙트럼 가중치 및 처리된 시간 신호가 도시되어 있다.
도 10은, 본 발명의 최선 실시예에 있어서 멀티레이어 신경 네트워크(multilayer neural network)를 이용한 특정 조합장치에 대한 도식적인 블록도이다.
도 1은 음성 향상 필터(12)를 위한 제어 정보(11)를 얻기 위한 하나의 오디오 신호(10)를 처리하는 장치에 대해 도시한 것이다. 상기 음성 향상 필터는 다양한 실시예가 있을 수 있다. 예를 들어 음성 향상된 오디오 출력 신호(13)을 얻기 위해 복수의 주파수 대역의 각각에 대해서, 주파수 대역 당 제어 정보를 사용하는 상기 오디오 신호(10)을 필터링하기 위한 제어 가능한 필터 등을 들 수 있다. 추후 설명하듯이 상기 제어 가능한 필터는 또한 일실시예에 있어서 시간/주파수 변환을 할 수도 있다 .여기서 개별적으로 계산된 이익 인자는, 순차적으로 수행되는 주파수/시간 변환이 뒤따르는 스펙트럼 값 또는 스펙트럼 대역에 적용된다.
도 1 에 도시된 상기 장치는, 상기 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 구하기 위해서, 그리고 복수의 단시간 스펙트럼 표현에 대해서 복수의 주파수 대역의 중의 각각의 주파수 대역 내에서 적어도 하나 이상의 특성을 추출하기 위한 특성 추출기(14)를 포함할 수 있다. 여기서 적어도 하나의 특성이, 복수의 주파수 대역 내의 하나의 주파수 대역 내에서 단시간 스펙트럼 표현(spectral representation)의 스펙트럼 형상을 표현한다. 추가적으로, 상기 특성 추출기(14)는 일실시예에 있어서 스펙트럼 형상 특성과는 다른 특성을 추출할 수도있다. 상기 특성 추출기(14)의 출력에 있어서, 오디오 단 시간 스펙트럼에 대한 몇몇 특성들이 존재한다. 여기서 이러한 몇몇 특성들은, 복수의, 적어도 10 또는 바람직하게는 더 많은, 예를 들어 20 에서 30의 주파수 대역 중의 각각의 주파수 대역에 대한 스펙트럼 형상 특성을 포함한다. 이러한 특성들은 그 상태 그대로 사용되거나 또는, 각각의 밴드에 대해서 미처리 특성 또는 평균화된 특성을 구하고, 이를 통해서 모든 이러한 미처리 및/또는 평균화된 특성이 상기 특성 조합장치(15)에 입력될 수 있도록 하기 위해서, 이들이 평균 프로세스 또는 다른 프로세스, 예를 들어 기하 평균, 산술 평균 또는 중간값 프로세스 또는 다른 통계학적인 수치 프로세스(예를 들어 분산, 사행도 등)를 사용하여 처리될 수 있다. 상기 특성조합장치(15)는, 조합 매개변수를 이용하여 상기 복수의 스펙트럼 형상 특성 및 바람직하게는 추가적인 특성들을 조합한다. 여기서 상기 매개변수는 매개변수입력(16)을 통하여 제공되거나 또는, 매개변수입력(16)이 불필요하도록 상기 특성조합장치(15) 내의 하드웨어에 내장되어 있거나 또는 하드웨어에 프로그램되어 있을 수 있다. 상기 특성조합장치의 출력에서, 상기 복수의 주파수 대역 또는 상기 복수의 서브밴드의 각각의 주파수 대역 또는 “서브밴드”을 위한 음성 향상 필터에 대한 제어 정보가, 상기 오디오 신호의 시간 부분을 위해 구해진다.
바람직하게는, 일실시예에 있어서 상기 특성조합장치(15)는 신경 네트워크 회귀분석 회로일 수 있다. 그러나 상기 특성조합장치는 또한 일실시예에 있어서 어떠한 산술적으로 또는 통계학적으로 제어되는 특성조합장치일 수도 있다. 이는 상기 특성추출기(14)에 의한 상기 특성의 출력값에 대해 조합 작용을 적용한다. 그럼으로써 마지막에는 상기 요청되는 제어 정보, 예를 들어 대역 방식의(band-wise) SNR 값 또는 대역 방식의 이익 인자가 도출된다. 신경 네트워크 애플리케이션의 일실시예에 있어서, 상기 트레이닝 단계(상기 트레이닝 단계는 예시들로부터 학습이 수행되는 단계를 의미한다)가 요구된다. 이러한 트레이닝 단계에서, 상기 특성 조합장치(15)를 트레이닝하기 위한 장치가 도 2에 도시된 바와 같이 사용된다. 특히, 도 2는 상기 특성 조합장치의 조합 매개변수를 결정하기 위한 특성 조합장치(15)를 트레이닝하기 위한 이러한 장치를 도시하고 있다. 결론적으로, 도 2에 도시된 장치는 특성 추출기(14)를 포함하고 있다. 바람직하게는 상기 특성추출기는 도 1에 도시된 특성추출기(14)와 동일하다. 더욱이 상기 특성조합장치(15)는 또한 도 1에 도시된 특성 조합장치(15)와도 동일하다.
도 1에 추가하여, 상기 도 2에 도시된 장치는 최적화 제어장치(20)를 포함한다. 이는, 21에서 지시하고 있는 오디오 신호를 트레이닝 하기 위한 제어 정보를 입력 받아 수신한다. 상기 트레이닝 단계는 잘 알려진 오디오 신호 트레이닝을 기초로 하여 수행된다. 상기 알려진 오디오 신호 트레이닝은, 각각의 대역 내에서 알려진 음성/잡음 비율을 포함한다. 상기 음성 부분 및 상기 잡음 부분은, 예를 들어, 서로 분리되어 제공되고, 상기 대역에 대한 실제 SNR은, 예를 들어 상기 습득 작용 중에 플라이(fly)에서 측정된다. 특히 상기 최적화 제어장치(20)은 상기 특성 조합장치를 제어하기 위해서 구동하며, 그럼으로써 상기 특성 조합장치는 상기 특성추출기(14)로부터 상기 특성들을 입력받는다. 이러한 특성 및 선행되는 반복 실행으로부터 도출된 중간 조합 매개변수를 기초로 하여, 상기 특성 조합장치(15)는 제어 정보(11)을 연산한다. 이러한 제어 정보(11)는 상기 최적화 제어장치로 전송되고, 상기 최적화 제어장치(20) 내에서 상기 트레이닝 오디오 신호에 대한 제어 정보(21)과 비교된다. 상기 중간 조합 매개변수는 상기 최적화 제어장치(20)의 지시에 따라 변화하고, 이러한 변화된 조합 매개변수를 사용하여 다른 제어 정보가 상기 특성조합장치(15)에 의해서 계산된다. 상기 다른 제어 정보가 상기 트레이닝 오디오 신호(21)에 대한 제어 정보에 더 적합하다면, 상기 최적화 제어장치(20)은 상기 조합 매개변수를 업데이트하고 이러한 업데이트된 조합 매개변수(16)를 상기 특성 조합장치로 송신하여, 중간 조합 변수로써 다음 실행에서 사용되게 한다. 대안적으로 또는 추가적으로 상기 업데이트된 조합 매개변수는 또 다른 사용을 위하여 메모리에 저장될 수 있다.
도 4는 신경 네트워크 회귀분석 방법 내에서의 특성 추출을 사용하여 스펙트럼 가중 프로세스에 대한 개괄에 대해 도시한 것이다. 상기 신경 네트워크의 상기 매개변수 w는, 트레이닝 단계에서 상기 트레이닝 아이템 xt[k]으로부터 얻은 레퍼런스 서브밴드 SNR 값 Rt 및 특성을 이용해서 연산된다. 이에 대해서 도 4의 왼쪽에 도시되어 있다. 상기 잡음 추정 및 음성 향상 필터링이 상기 도 4 우측에 도시되어 있다. 상기 제안된 개념은 스펙트럼 가중의 접근을 따르고, 상기 스펙트럼 가중치의 연산에 대한 새로운 방법을 사용한 것이다. 상기 잡음 평가는 총괄관리되는 습득 방법을 기반으로 하고, 진보된 특성 모임을 사용한 것이다. 상기 특성은 음조 및 잡음 신호 요소를 차별하는 것을 목적으로 한다. 더구나, 상기 제안된 특성은, 장시간 신호 스케일에서 신호 속성값의 진보를 고려한 것이다.
상기 여기서 표현된 잡음 추정 방법은 다양한 비고정적인 배경 사운드를 다룰 수 있다. 비고정적인 배경 잡음 내에서의 로버스트 SNR 추정은, 도 4에 도시된 특성 추철 및 신경 네트워크 회귀분석 방법에 의해서 구해진다. 상기 실수(實數) 가중치는, 주파수 대역 내의 SNR의 추정을 통해 연산된다. 여기서 상기 대역의 간격은 바크스케일(Bark scale)에 대해 근사치를 계산한다. 상기 SNR 추정에 대한 스펙트럼 해상도는, 대역 내의 스펙트럼 형상의 측정을 가능하게 하기에는 다소 굵은 편이다.
상기 도 4의 좌측은, 일반적으로 오직 한번 수행되는 트레이닝 단계에 상응한다. 상기 도 4의 좌측에 도시된 절차, 트레이닝(41)은, 도 2의 최적화 제어장치(20)에 입력되는 트레이닝 오디오 신호에 대한 제어 정보(21)을 생성하는 레퍼런스 SNR 연산 블록(21)을 포함한다. 도 4에서 트레이닝 측의 상기 특성 추출 장치(14)는, 도 2의 특성 추출기(14)에 상응한다. 특히, 도 2는, 음성 부분 및 배경 부분을 포함하는 트레이닝 오디오 신호를 수신하는 것으로 도시되어 있다. 유용한 레퍼런스(reference)를 수행할 수 있도록, 상기 배경 부분 bt 및 상기 음성 부분 st는 서로 분리해서 처리가 가능하고, 특성 추출 장치(14)로 입력되기 전에 합산자(43)에 의해서 합산될 수도 있다. 그러므로 상기 합산자(43)의 출력은 도 2에 도시된 특성 추출기(14)에 입력되는 트레이닝 오디오 신호에 상응한다.
상기 신경 네트워크 트레이닝 장치(15, 20)은 블록(15, 20)에 상응하고, 도 2에 도시된 것 같이 상응하는 연결 또는 일실시예에 있어서 다른 유사한 연결은 일련의 조합 매개변수 w가 되고, 이는 메모리(40)에 저장될 수 있다. 이러한 조합 매개변수는 이어서, 상기 기술적 특성이 도 4의 애플리케이션(42)을 통하여 제시된 것처럼 적용된다면, 도 1의 특성 조합장치(15)에 상응하는 신경 네트워크 회귀분석 장치(15)에서 사용된다. 도 4의 상기 스펙트럼 가중 장치는 도 1의 제어가능한 필터(12) 및 도 4의 상기 특성 추출기(14)에 상응하고, 우측은 도 1의 상기 특성추출기(14)에 상응한다.
이어서 제안된 개념의 간단한 실시예가 상세히 토론될 것이다. 도 4의 상기 특성 추출 장치(14)는 다음과 같이 기능한다.
일련의 21 다른 특성은, 상기 서브밴드 SNR을 추정하기 위한 최선의 특성 집단을 식별하기 위하여 조사된다. 이러한 특성들은 다양한 설정에서 조합되고, 목적적인 측정 및 비전형적인 청취에 의해서 평가된다. 이러한 특성 선택 처리는, 스텍트럼 에너지, 스펙트럼 플럭스, 스펙트럼 평탄도(flatness), 스펙트럼 사행도, LPC 및 RASTA-PLP 계수를 포함하는 특성 집단이 된다. 상기 스펙트럼 에너지, 플럭스, 평탄도 및 사행도 특성은 상기 중요한 대역 스케일에 상응하는 스펙트럼 계수로부터 연산된다.
상기 특성이 도 6에 따라 상세히 설명되어 있다. 추가적으로 특성들은 스펙트럼 에너지의 델타 특성 및 저역 통과 필터링된 스펙트럼 에너지 및 스펙트럼 플럭스의 델타-델타 특성이다.
블록 15, 20 또는 도 4의 15 내에서 사용거나 또는 바람직하게는 도 1 또는 도 2 내의 특성조합장치(15)에서 사용되는 신경 네트워크의 구조에 대해 도 10을 참조하여 설명한다. 특히 상기 바람직한 신경 네트워크는 하나의 층의 입력 뉴런(100)을 포함하고 있다. 일반적으로 n 입력 뉴런이 사용될 수 있는데, 예를 들어 각각의 입력 특성에 하나의 뉴런이 사용될 수 있다. 상기 신경 네트워크는 더구나, p 숨겨진 층 뉴런을 구비하는 숨겨진 층(120)을 포함하고 있다. 일반적으로 P는 n보다 작고, 바람직하게는 상기 숨겨진 층은 50 뉴런을 구비한다. 출력 면에서, 상기 신경 네트워크는 q 출력 뉴런을 구비한 출력 층(104)를 포함한다. 특히, 상기 출력 뉴런의 개수는, 각각의 출력 뉴런이 각각의 주파수 대역에 대해 SNR(speech-to-noise ratio) 정보 등의 각각의 주파수 대역에 대한 제어 정보를 제공하도록, 상기 주파수 대역의 개수와 동일하다. 예를 들어 만약 25 다른 주파수 대역이 존재하고, 바람직하게 낮은 주파수에서 높은 주파수로 증가하는 대역폭을 구비하고 있다면, 상기 출력 뉴런의 숫자 q는 25일 것이다. 그러므로 상기 신경 네트워크는 상기 연산된 저레벨 특성으로부터 서브밴드 SNR을 추정하기 위해 적용될 수 있다. 상기 신경 네트워크는, 상술한 바와 같이 220 입력 뉴런 및 50개의 뉴런을 구비한 하나의 숨겨진 층(102)을 구비한다. 상기 출력 뉴런의 숫자는 주파수 대역의 숫자와 동일하다. 바람직하게는 상기 숨겨진 뉴런은 활성함수를 포함하는데, 이는 쌍곡선 탄젠트(tangent)이고, 상기 출력 뉴런의 활성 함수는 아이덴터티(identity)이다.
일반적으로 상기 층(120 또는 140)의 각각의 뉴런은, 모든 상응하는 입력을 수신하는데, 이러한 입력은 층 120의 측면에서는 모든 입력 뉴런의 출력이다. 그러므로, 층 120 또는 140의 각각의 뉴런은 가중 매개변수가 상기 조합 매개변수에 상응하는, 가중된 합산을 수행한다. 상기 숨겨진 층은 상기 매개변수에 더하여 편향된 값을 포함한다. 그러므로 상기 편향된 값은 또한 상기 조합 매개변수에 속한다. 특히 각각의 입력은 그것의 상응하는 조합 매개변수 및 가중 작업의 출력에 의해서 가중되고, 도 10의 일례 상자(160)에 도시되어 있는 바와 같이, 각각의 뉴런으로 합산자(108)로 입력된다. 상기 합산자의 출력 또는 뉴런에의 입력은 비선형 함수(110)을 포함할 수 있는데, 이는, 경우에 따라 일례로 상기 숨은 층 내의 하나의 뉴런의 출력 및/또는 입력에 위치할 수 있다.
상기 신경 네트워크의 가중치는, 깨끗한 음성 신호 및 배경 잡음의 혼합물 내에서 트레이닝된다. 여기서 음성 신호 및 배경 잡음의 혼합물의 레퍼런스 SNR이 상기 분리된 신호를 사용하여 연산된다. 상기 트레이닝 절차가 도 4의 좌측에 도시되어 있다. 음성 및 잡음은 아이템 당 3 dB의 SNR과 혼합되고 상기 특성 추출기로 입력된다. 이러한 SNR은 시간 및 광역대역폭 SNR 값에 대해서는 상수이다. 상기 데이터 집단은, 각각 2.5초 길이의 48 음성 신호 및 48 잡음 신호의 2304 조합들로 구성되어 있다. 상기 음성 신호는 7개 언어로 구성된 다른 음성자로부터 기인한 것이다. 상기 잡음 신호는, 자동차 소음, 군중 소음 및 다양한 자연 환경에서 녹음된 것이다.
몇몇 스펙트럼 가중 법칙에 있어서, 상기 신경 네트워크의 상기 출력에 대해 두 가지 정의가 적절하다. 상기 신경 네트워크는, 시간에 따라 변하는 서브밴드 SNR R
Figure pct00006
를 사용해서 또는 (상기 SNR값에서 도출된) 스펙트럼 가중치
Figure pct00007
로써 트레이닝된다. 참조값으로써 서브밴드 SNR을 통한 시뮬레이션은 더 좋은 목적적인 결과 및 스펙트럼 가중치에 의해 트레이닝된 이윤에 비교되는 형식적인 청취 내에서 더 나은 등급을 산출한다. 상기 신경 네트워크는 100회 반복 싸이클을 사용해서 트레이닝된다. 트레이닝 알고리즘은 이러한 작업에서 사용되며, 이것은 SCG(scaled conjugate gradients)을 기반으로 한다.
상기 스펙트럼 가중 작업(12)의 바람직한 일실시예에 대해서 이하 상술한다.
상기 추정된 서브밴드 SNR의 추정값은, 상기 입력 스펙트럼들의 주파수 해상도로 선형적으로 보간되고, 선형 비율
Figure pct00008
로 변환된다. 상기 선형 서브밴드 SNR은, 추정 오류로부터 비롯된 아티팩트(artifact)를 감소하기 위해서 IIR 로패스 필터링(IIR low-pass filtering)을 통해서 시간 및 주파수에 따라 부드럽게 처리된다. 주파수에 따른 상기 로패스 필터링은, 더욱이 써큘라 콘볼루션(circular convolution)을 감소하기 위해서도 필요하다. 이는, 만약 상기 스펙트럼 가중의 맥박 응답이 DFR 프레임의 길이를 초과하는 경우에 발생한다. 이러한 작업은 두 번 수행되는데, 상기 두번째 필터링은 역순으로 행해져(상기 마지막 샘플부터 시작한다) 마지막 필터는 0 단계이다.
도 5는, 상기 SNR의 함수로써의 상기 이익 인자를 도시한다. 상기 적용된 이익(굵은선)은 상기 스펙트럼 감축 이익(점선) 및 상기 위너 필터(대쉬선)과 비교된다.
상기 스펙트럼 가중치는 -18 dB의 한도 내에서, 방정식 5 내의, 변형된 스펙트럼 감축 방법에 따라 연산된다.
Figure pct00009
상기 매개변수 알파=3.5 및 베타=1는 실험적으로 결정된다. 0 dB SNR 이상의 이러한 특별한 감쇠는, 잔류 노이즈의 비용 측면에서 상기 음성 신호의 변형을 차단하기 위해 선택된 것이다. 상기 SNR의 함수로써의 상기 감쇠 커브가 도 5에 도시되어 있다.
도 9는 상기 입력 또는 출력 신호, 상기 추정된 서브밴드 SNR 및 상기 스펙트럼 가중치의 일례를 도시하고 있다.
특히, 도 9는 스펙트럼 가중치의 일례(: 입력 시간 신호, 추정 서브밴드 SNR, 보간법 이후의 주파수 빈 내의 추정 SNR, 스펙트럼 가중치 및 처리된 시간 신호)가 도시되어 있다.
도 6은 상기 특성추출기(14)로부터 추출된 바람직한 특성에 대한 개괄이 도시되어 있다. 상기 특성추출기는, 각각의 저해상도에 대해서, 하나의 특성이 주파수 대역 내에서 단 시간 스펙트럼 표현의 스펙트럼 형상을 나타낼 때, SNR 또는 이익 값이 요청되는 각각의 25 주파수 대역에 대한, 주파수 대역을 선호한다. 상기 대역 내의 상기 스펙트럼 형상은 상기 대역 내의 에너지 분포를 나타내고, 몇몇 다른 계산 방법을 통하여 시행된다.
바람직하게는 스펙트럼 형상 특성은 상기 스펙트럼 평탄도 측정(spectral flatness measure, SFM)이고, 이것은 상기 스펙트럼 값의 기하평균을 상기 스펙트럼값의 산술 평균으로 나눈 값이다. 기하평균/산술평균 정의에 있어서, n번째 루트 작업 또는 평균 작업을 수행하기 전에 대역 내에서 각각의 스펙트럼 값에 지수가 적용될 수 있다.
일반적으로 스펙트럼 평탄도 측정은 또한, 분모에서 상기 SFM을 위한 계산 방정식의 각각의 스펙트럼 값을 처리하기 위한 지수가, 상기 분모를 위해 사용되는 지수보다 클 때, 계산될 수 있다. 그래서, 양 분모 및 분자는 산술 값 계산 방정식을 포함할 수 있다. 전형적으로 상기 분자의 지수는 2이고 상기 분모의 지수는 1이다. 일반적으로, 상기 분자에 사용되는 지수는, 일반적인 스펙트럼 평탄도 측정값을 얻기 위하여, 오직 상기 분모에서 사용된 지수보다 커야 한다.
에너지가 대역 내의 하나의 단일 스펙트럼 값에 집중되어 있는 경우에 있어서, 예를 들어 SFM 값이 1과 동일한 반면에, 에너지가 동등하게 상기 전체적인 주파수 대역에 걸쳐 분포되어 있는 대역에 대한 SFM은 1 보다 작고, 많은 주파수 선에 있어서 0에 가까운 작은 값으로 접근한다는 이러한 계산은 자명한 것이다. 그러므로, 높은 SFM 값은, 상기 에너지가 상기 밴드 내의 특정한 위치에 집중한 대역을 지시하고, 반면에 작은 SFM 값은 상기 밴드 내에서 에너지가 동등하게 분산되어 있는 것을 지시한다.
다른 스펙트럼 형태 특성은, 중앙값 주변에서 분포의 비대칭성을 측정하는 상기 스펙트럼 사행도를 포함한다. 다른 특성은, 어떤 주파수 대역 내에서 단 시간 주파수 표현의 스펙트럼 형태와 관련이 있다.
상기 스펙트럼 형태가 주파수 대역을 위해 계산되는 반면에, 다른, 도 6에 도시되고 이하 상술되는 바와 같이 마찬가지로 주파수 대역을 위해 계산되는 특성들이 존재한다. 그리고 추가적인 특성이 존재하는데, 이는 주파수 대역을 위해 반드시 계산될 필요는 없으나 전체적인 대역폭을 위해서 계산되어야 한다.
스펙트럼 에너지
상기 스펙트럼 에너지는 각각의 시간 프레임 및 주파수 대역에 대하여 계산되고, 상기 프레임의 전제적인 에너지에 의해 정규화된다. 추가적으로 상기 스펙트럼 에너지는 제2 순서 IIR 필터를 이용해서 시간에 걸쳐서 로패스 필터링된다.
스펙트럼 플럭스
상기 스팩트럼 플럭스 SF는 연속되는 프레임(20)의 스펙트럼 간의 비유사성으로 정의되고, 종종 거리 함수의 평균에 의해서 실시된다. 이러한 작업에 있어서, 상기 스펙트럼 플럭스는, 스펙트럼 계수
Figure pct00010
, 시간 프레임 인덱스 m, 서브밴드 인덱스 r, 주파수 밴드 lu의 상한 및 하한을 구비한 방정식 6을 따른다.
스펙트럼 평탄도 측정
벡터의 평탄도 또는 스펙트럼의 조성(이는 스펙트럼의 평탄도와 역으로 관련되어 있다)에 대한 연산에 대한 다양한 정의가 존재한다. 여기서 사용되는 이러한 스펙트럼 평탄도 측정 SFM은, 방정식 7에 나타나는 서브밴드 신호의 L 스펙트럼 계수의 기하 평균 및 산술 평균의 비율로서 연산된다.
Figure pct00012
스펙트럼 사행도
분포도의 사행도는 중심 주변의 비댕칭성을 측정하고, 그것의 표준 편차의 세제곱에 의해 나눠진 랜덤 변수의 제3 중앙 모멘트로써 정의된다.
선형 예측 계수(Linear Prediction Coefficients; LPC)
상기 LPC는 올폴 필터(all-pole filter)의 계수이고, 상기 올폴필터는, 상기 제곱 편차
Figure pct00013
를 최소화 하는 선행 값으로부터 시간 계열의 현행값
Figure pct00014
를 예측한다.
Figure pct00015
상기 LPC는 자동 상관 방법에 의해서 연산된다.
멜-주파수 셉스트랄 계수(Mel-frequency cepstral coefficients, MFCC)
상기 지수 스펙트럼들은, 각각의 주파수 대역에 대한 단위 가중치를 포함하는 삼각 가중 함수를 사용하여 상기 멜-스케일(mel-scale)을 따라서 포장된다. 상기 MFCC는 로그를 취하고 이산 여신 변환(Discrete Cosine Transform, DCT)을 연산함으로써 연산된다.
RASTA-PLP 계수(Relative spectra perceptual linear prediction coefficients)
RASTA-PLP 계수[H. Hermansky, N. Morgan, “RASTA Processing of Speech”, IEEE Trans. On Speech and Audio Processing, vol. 2, no. 4, pp. 578-589, 1994 참조]는, 다음의 단계를 통하여 상기 지수 스펙트럼으로부터 연산된다.
1. 스펙트럼 계수에 대한 대용량 압축(Magnitude compression)
2. 시간에 걸친 서브밴드 에너지의 밴드 패스 필터링
3. 상기 스텝2의 역처리에 관련된 대용량 확장(Magnitude expansion)
4. 동일 소리 세기 커브(loudness curve)에 상응하는 가중치의 곱셈
5. 상기 계수의 0.33 제곱승에 의한 소리 세기 느낌의 시뮬레이션
6. 자동 상관 방법에 의해 스펙트럼을 도출하는 올폴 모델의 연산
PLP 계수(Perceptual linear prediction (PLP) coefficients)
상기 PLP 계수는 상기 RASTA-PLP와 유사하나, 단계 1 내지 3은 적용하지 않고 연산된다. [H. Hermansky, "Perceptual Linear Predictive Analysis for Speech", J. Ac. Soc. Am., vol. 87, no. 4, pp. 1738 ~ 1752, 1990 참조].
델타 특성
델타 특성은, 종래 자동 음성 인식 및 오디오 콘텐츠 범주화에 성공적으로 적용되었다. 여기서, 9개의 샘플의 길이를 포함하는 선형 경사를 포함하는 특성의 시간 시퀀스를 감으면서 연산된다. (여기서 상기 샘플링된 특성 시간 계열의 비율은 상기 STFT의 프레임 비율과 동일하다) 델타-델타 특성은 상기 델타 작용을 상기 델타 특성에 적용함으로써 얻을 수 있다.
상술한 바와 같이, 인간의 청취 시스템의 지각 상황과 유사한 저해상도 주파수 대역의 대역 분리가 구비되는 것이 바람직하다. 그러므로 로그 밴드 분리 또는 바크(Bark) 유사 밴드 분리가 바람직하다. 이는 낮은 중앙 주파수를 구비한 대역은 고 중앙 주파수를 구비한 대역보다 더 가늘다. 상기 스펙트럼 평탄도 측정의 계산에 있어서, 예를 들어 합산 작용은 값 q에서 연장된다. 여기서 q는, 일반적으로 대역 내의 가장 낮은 주파수 값이고, 상기 수치값 u로 확장된다. 상기 u는, 기정의된 대역 내에서 가장 높은 스펙트럼 값이다. 더 좋은 스펙트럼 평탄도 측정을 위해서, 바람직하게는 가장 낮은 밴드에서, 더 낮은 및/또는 더 높은 인접 주파수 대역으로부터 얻은 적어도 일부 또는 모두의 스펙트럼값을 사용할 수 있다. 이는, 예를 들어서, 제2 대역에 대한 상기 스펙트럼 평탄도 측정은, 제2 대역의 스펙트럼 값을 사용하고, 추가적으로 제1 대역 및/또는 제3 대역의 스펙트럼 값을 사용함으로써 연산된다. 바람직한 일실시예에 있어서 상기 제1 대역 또는 상기 제2 대역의 스펙트럼 값이 사용될 뿐만 아니라, 상기 제1 대역 및 상기 제3 대역의 스펙트럼 값도 사용된다. 이는, 상기 제2 대역에 대해서 SFM을 계산할 때, 방정식 (7)의 q값이 lr 에서부터 제1 대역의 제1 (가장 낮은) 스펙트럼값과 동일하게 연장되고, ur 는 상기 제3 대역의 가장 큰 스펙트럼값과 동일하게 연장된다는 것을 의미한다. 그러므로, 더 높은 숫자의 스펙트럼값을 기반으로 하는 스펙트럼 형상 특성은, 밴드 그 자체 내의 스펙트럼 값의 숫자가 충분해서 lr 및 ur 가 상기 동일한 저해상도의 주파수 대역으로부터 스펙트럼 값을 지시할 수 있는 특정 대역폭까지 계산될 수 있다.
상기 상기 특성 추출기로부터 추출된 선형 예측 계수에 따르면, 방정식 (8)의 LPC aj 또는, 상기 제곱오류 값 뿐만 아니라 상기 계수가 상기 특성추출기로부터 추출된 상기 LPC 특성에 영향을 주도록 하기 위해서 정규화 인자를 곱하거나 또는 더하는 것 같은 상기 계수 및 상기 오류 값의 최적화 또는 조합 이후에 잔류한 상기 잔류/오류 값을 사용하는 것이 바람직하다.
상기 스펙트럼 형상 특성의 이점은, 그것은 저차원 특성이라는 것이다. 예를 들어 상기 10 복소수 또는 실수 스펙트럼 값을 구비한 주파수 대역폭을 고려하였을 때, 모든 이러한 10 복소수 또는 실수 스펙트럼 값의 사용은 유용하지 않거나 또는 연산 리소스의 낭비일 수 있다. 그러므로, 상기 스펙트럴 형태 특성은 추출되는데, 1 차원을 구비하고 있고, 상기 처리되지 않은 데이터의 차원보다 낮다. 예를 들어, 상기 에너지를 고려하였을 때, 10 제곱 스펙트럼 계수가 존재하는 한, 상기 처리되지 않은 데이터는 10 차원을 구비하고 있다. 효과적으로 사용될 수 있는 상기 스펙트럼 형태 특성을 추출하기 위해서, 스펙특럼 특성은 추출되는데, 그것은 처리되지 않은 데이터의 차원보다 더 작은 차원을 구비하고 있고, 바람직하게는 1 또는 2 차원을 구비하고 있다. 처리전 데이터의 관점에서 유사한 차원 감축은, 예를 들어 주파수 대역의 스펙트럼 엔벨롭(envelope)에 대한 저레벨 다항식을 적용할 때 구해질 수 있다. 예를 들어 오직 둘 또는 세개의 매개변수가 적용될 때, 그때 상기 스펙트럼 형사 특성은, 다항식 또는 또는 다른 매개변수화된 시스템의 둘 또는 세 개의 매개변수를 포함한다. 일반적으로 모든 매개변수은 유용하다. 여기서 상기 매개변수는 주파수 대역 내의 에너지의 분포를 지시하고, 처리되지 않은 데이터에 비해 5% 이하 또는 최소한 50% 이하 또는 오직 30% 이하의 차원을 구비한다.
상기 스펙트럼 형상 특성 하나만의 사용으로 이미, 오디오 신호를 처리하기 위한 장치가 이롭게 작동한다는 것은 발견되었으나, 적어도 추가적인 밴드형 특성 (band-wise feature) 사용하는 것이 바람직하다. 개선된 결과를 제공하는데 유용한 상기 추가적인 밴드형 특성은 밴드 당 스펙트럼 에너지임이 도시되어 있다. 여기서 밴드 당 스펙트럼 에너지는 각각의 시간 프레임 및 주파수 대역에 대해서 연산되고, 상기 프레임의 전체적인 에너지에 의해서 정규화된다. 이러한 특성은 저패스 필터링될 수도 있고 아닐 수도 있다. 추가적으로, 상기 대역 당 스펙트럼 에너지 특성 및 대역 당 스펙트럼 플럭스 특성에 추가하여 상기 대역 당 스펙트럼 형상 특성이 사용될 때, 상기 스펙트럼 플럭스를 추가하는 것은, 창작적인 장치의 작동을 이롭게 향상시켜서, 좋은 작용을 하게 하는 효과적인 절차를 얻을 수 있다는 것을 알 수 있다.
상기 스펙트럼 에너지 특성의 관점에서 설명한 바와 같이, 시간에 걸친 이러한 특성의 저패스 필터링 또는 시간에 대한 이동하는 평균 정규화 방법의 적용은, 적용될 수 있으나 반드시 적용되어야 하는 것은 아니다. 종래의 경우에 있어서, 예를 들어 상응하는 대역에 대한 상기 5가지 선행 스펙트럼 형상 특성들의 평균이 계산되고, 이러한 계산의 결과가, 현행 프레임 내의 현행 밴드에 대한 스펙트럼 형상 특성으로써 사용될 수 있다. 그러나 이러한 평균은 또한 양방향으로 적용될 수도 있다. 그럼으로써 평균값을 내는 동작에 있어서, 과거로부터의 특성 뿐만 아니라 미래로부터의 특성까지 현재의 특성을 계산하기 위해 사용될 수 있다.
이어소 도 7 및 도 8을 참조하여, 도 1, 도 2 또는 도 4에 도시되었던 특성 추출기(14)의 바람직한 일 실시예에 대해서 설명할 것이다. 제1 단계에서 오디오 신호가, 단계 70에서 제시된 바와 같이 오도이 샘플링 값의 블록을 제공하기 위하여 윈도우화된다. 바람직하게는 오버래핑(overlap)이 적용된다. 이는, 하나의 오디오 샘플 및 이와 동일한 오디오 샘플이 상기 오버래핑 범위 덕분에 두 개의 연속된 프레임 내에서 발생한다는 것을 의미하고, 이러한 영역에서 오디오 샘플링 값의 관점으로는 50%의 오버래핑이 바람직하다. 단계 71에서는 윈도우화된 오디오 샘플링 값의 블록의 시간/주파수 변환이, 고해상도의 제1 해상도를 포함하는 주파수 표현을 구하기 위해서 수행된다. 마지막으로는, 효율적ㅇ니 FFT에 의해 실시되는 단시간 푸리에 변환(STFT)이 구해진다. 단계 71이 오디오 샘플링 값이ㅡ 일시적으로 연속되는 블록에 수회 적용될 때, 기술적으로 알려진 스펙트럼도(spectrogram)가 구해진다. 단계 72에서는, 상기 고해상도 스펙트럼 정보, 즉 고해상도 스펙트럼 값이 그룹화되어 저해상도 주파수 대역이 된다. 예를 들어 1024 또는 2048 입력값의 FFT가 적용될 때, 1024 또는 2048 스펙트럼 값이 존재하나, 그러한 고해상도는 요구되지도 않고 의도되지도 않는다. 대신다 상기 그룹화된 단계 72는 고해상도 스펙트럼을, 예를 들어 바크 대역 또는 로그 밴드 분할로부터 알려진 다양한 대역폭을 구비한 대역 등의 작은 숫자의 대역들로 분리하게 된다. 그리고, 그룹화하는 단계(72)에 이어서 상기 스펙트럼 특성 및, 바람직하게는, 다른 특성들의 계산 단계(73)가 각각의 저해상도 대역에 대하여 수행된다. 도 7에 도시되어 있지 않음에도 불구하고, 상기 전체적인 주파수 대역에 관련된 추가적인 특성은, 단계 70에서 구해진 데이터를 이용해서 계산될 수 있다. 왜냐하면 이러한 전채 대역폭 특성에 있어서, 단계 71 및 단계 72에 의해 구해진 스펙트럼 분리 결과들이 요구되지 않기 때문이다.
단계 73에서, m 차원 스펙트럼 형상 특성이 구해지는데, 여기서 m은 n 보다 작으며, 바람직하게는 주파수 대역 당 1 또는 2이다. 이는, 상기 단계 72 이후에 나타난 상기 주파수 대역에 대한 정보는, 상기 특성 추출기 작용에 의한 73 단계 이후에 존재하는 저 차원 정보로 압축된다.
도 7에 도시된 바와 같이, 단계 71 및 단계 72 주변에, 상기 시간/주파수 변환 및 그룹화는 다른 작용으로 대체될 수 있다. 단계 70의 출력은, 예를 들어 출력에 있어서 25 서브밴드 신호가 구해도록 하기 위해서 구현된 저해상도 필터 뱅크를 통해 필터링될 수 있다. 각각의 서브밴드에 대한 상기 고해상도 분석은 상기 스펙트럼 형상 특성 계산을 위한 처리전 데이터를 구하기 위해서 수행될 쉬 있다. 예를 들어 이것은 서브밴드 신호에 대한 FFT 분석 또는 또 다른 캐스케이드된 필터 뱅크 같은 서브밴드 신호의 다른 분석에 의해서 행해진다.
도 8은, 도 1의 제어가능한 필터 또는 도 3에 도시되거나 또는 도 4의 12에 도시된 스펙트럼 가중 특성을 구현하기 위한 바람직한 절차를 도시한 것이다. 단계 80에 나타난 것처럼, 도 4의 신경 네트워크 회귀분석 블록(15)에 의해 출력되는 서브밴드 SNR 값 등의 상기 저해상도 밴드형 제어 정보를 결정하기 위한 단계에 이어서, 단계 81의 고해상도에 대한 선형 보간이 수행된다.
이것은 도 3의 단계 30에서 수행되거나 또는 단계 71에서 수행된 단시간 푸리에 변환 또는 단계 71 및 72의 오른쪽에 나타난 또 다른 절차에 의해 구해진 각각의 스펙트럼 값에 대한 가중 인자를 최종적으로 구하기 위함이다. 단계 81에 이어서, 각각의 스펙트럼 값에 대한 SNR 값이 구해진다. 그러나 이러한 SNR 값은 여전히 로그 도메인 내에 있고, 단계 82는 상기 로그 도메인을 각각의 고해상도 스펙트럼값을 위한 선형 도메인으로 변환시킨다.
단계 83에서, 고 해상도에서 각각의 스펙트럼 값에 대한 상기 선행 SNR값은, 시간 및 주파수에 따라 예를 들어 IIR 로패스 필터 또는, 이와는 다르게 어떠한 이동하는 평균화 작용이 적용될 수 있는 FIR 로패스 필터 등을 사용해서 부드럽게 된다. 단계 84에서는, 각각의 고해상도 주파수값에 대한 상기 스펙트럼 가중치는 상기 부드러워진 선형 SNR 값에 의하여 계산된다. 이러한 계산은, 단계 84의 각각의 고해상도 주파수값이 선형 도메인 내에서 연산되는 반면에, 도 5에 도시된 함수가 로그 형태로 주어졌음에도 불구하고 도 5에 도시된 함수에 의존한다.
단계 85에서 각각의 스펙트럼 값은 상기 정해진 스펙트럼 가중치에 의해서 곱해져서, 고해상도의 스펙트럼값이 구해진다. 여기서 상기 고해상도 스펙트럼값은 일련의 스펙트럼 가중치에 의해서 곱해진 것이다. 이러한 처리된 스펙트럼은 단계 86에서 변환된 주파수-시간이다. 상기 애플리케이션 시나리오에 의존하고 단계 80에서 사용된 오버래핑에 의존하여, 크로스 페이딩 작용이, 아티팩트를 구획하는 주소에 대한 두 개의 연속되는 주파수-시간 변환 단계에 의해 구해진 시간 도메인 오디오 샘플링 값의 두 블록 사이에서 행해진다.
추가적인 윈도우화가 서큘라 콘볼루션 아티팩트(circular convolution artifact)를 감소하기 위해 적용될 수 있다.
단계 86의 결과는 오디오 샘플링값의 블록이며, 이것은, 상기 음성이 음성 향상이 수행되지 않은 상응하는 오디오 신호에 비교하여 더 좋은 것으로 인식될 수 있는, 향상된 음성 성과를 갖는다.
본 발명의 실시를 위한 요구에 있어서, 본 발명은 하드웨어 또는 소프트웨어로 구현될 수 있다. 일실시예에 있어서 본 발명은 디지털 저장 수단, 특히 전자적으로 읽을 수 있는 제어 신호가 저장될 수 있고, 본 발병이 수행될 수 있는 프로그램이 가능한 컴퓨터 시스템과 함께 작용하는 디스크, DVD 또는 CD를 이용하여 수행될 수 있다. 일반적으로, 본 발명은 그러므로 장치가 읽을 수 있는 수단에 저장된 프로그램 코드를 구비한 컴퓨터 프로그램 제품이며, 여기서 상기 프로그램 코드는, 상기 컴퓨터 프로그램은 컴퓨터 상에서 구동될 때 본 방법을 수행하기 위하여 구동된다. 한편으로, 상기 본 발명은, 그러므로, 컴퓨터 프로그램이 컴퓨터에서 구동될 때 본 발명의 방법 중 적어도 일 이상이 수행되기 위한 프로그램 코드를 구비한다.
상기 일실시예는 단지 본 발명의 원리를 설명하기 위한 것일 뿐이다. 여기서 설명된 상기 배치 및 세부 내용의 수정 및 변형은 당업자에게는 자명한 것이라고 이해된다. 그러므로, 본 발명의 권리범위는, 본 발명에 첨부된 특허청구범위에 따라서 해석되어야지 여기서 설명되고 묘사된 상기 실시예에 의해서 제시된 특별한 세부 내용에 따라 해석되어서는 안 될 것이다.

Claims (17)

  1. 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하며 복수의 단시간 스펙트럼 표현을 위한 복수의 주파수 대역의 각각의 주파수 대역에서 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특징을 추출하기 위한 특징 추출기; 및
    오디오 신호의 시간 부에 대하여 음성 향상 필터를 위한 제어 정보를 획득하기 위하여 결합 파라미터를 사용하여 각각의 주파수 대역에 대하여 적어도 하나의 특징을 결합하기 위한 특징 결합기를 포함하는, 음성 향상 필터를 위한 제어 정보를 획득하기 위하여 오디오 신호를 프로세싱하기 위한 장치.
  2. 제 1항에 있어서,
    상기 특징 추출기는 스펙트럼 모양과 다른 단시간 스펙트럼 표현의 특징을 표현하는 적어도 하나의 부가적인 특징을 추출하도록 작동되고,
    상기 특징 결합기는 적어도 하나의 부가적인 특징 및 결합 파라미터를 사용하는 각각의 주파수 대역에 대한 적어도 하나의 특징을 결합하도록 작동하는 것을 특징으로 하는 장치.
  3. 제 1항에 있어서,
    상기 특징 추출기는 시간 인스턴트의 시퀀스를 위하여, 스펙트럼 표현의 시퀀스가 획득되는 주파수 변환 작동을 적용하도록 작동하며, 상기 스펙트럼 표현은 균일하지 않은 대역폭을 갖는 주파수 대역을 가지며, 상기 대역폭은 주파수 대역의 중심 주파수가 증가함에 따라 더 커지는 것을 특징으로 하는 장치.
  4. 제 1항에 있어서,
    상기 특징 추출기는 첫 번째 특징으로서, 대역 내의 에너지 분포를 표현하는 대역 당 스펙트럼 평면성 측정을 계산하도록 작동하거나, 혹은 두 번째 특징으로서, 대역 당 스펙트럼 표현이 유래하는 신호 프레임의 전체 에너지를 기초로 하는 정규화된 에너지를 측정하도록 작동하며, 및
    상기 특징 결합기는 대역 혹은 대역 당 정규화된 에너지에 대한 스펙트럼 평면성 측정을 사용하도록 작동하는 것을 특징으로 하는 장치.
  5. 전 항 중 어느 한 항에 있어서,
    상기 특징 추출기는 부가적으로 각각의 대역에 대하여, 시간-연속적 스펙트럼 표현 사이의 유사성 혹은 비유사성을 표현하는 스펙트럼 플럭스 측정 혹은 중심 주위의 비대칭성을 펴현하는 스펙트럼 왜도 측정을 추출하도록 작동하는 것을 특징으로 하는 장치.
  6. 제 1항에 있어서, 상기 특징 추출기는 부가적으로 선형 예측 계수 에러 신호, 미리 정의된 순서까지의 선형 예측 계수 혹은 선형 예측 계수 에러 신호 및 선형 예측 계수의 결합을 포함하는 선형 예측 계수 특징을 추출하도록 작동하거나 혹은 상기 특징 추출기는 부가적으로 지각 선형 예측 계수 혹은 상대 분광-지각 선형 예측 계수 혹은 멜-주파수 켑스트럴 계수 혹은 델타 특징을 추출하도록 작동하는 것을 특징으로 하는 장치.
  7. 제 6항에 있어서, 상기 특징 추출기는 각각의 주파수 대역에 대한 스펙트럼 모양을 표현하는 적어도 하나의 특징을 추출하기 위하여 사용되는 오디오 샘플을 포함하는, 시간-도메인 오디오 샘플의 블록을 위한 선형 예측 계수 특징을 계산하도록 작동하는 것을 특징으로 하는 장치.
  8. 제 1항에 있어서, 상기 특징 추출기는 하나 혹은 두 개의 바로 가까이에 인접하는 주파수 대역의 스펙트럼 정보 및 주파수 대역만의 스펙트럼 정보를 사용하는 주파수 대역에서 스펙트럼의 모양을 계산하도록 작동하는 것을 특징으로 하는 장치.
  9. 제 1항에 있어서, 상기 특징 추출기는 오디오 샘플의 블록 당 각각의 특징에 대하여 처리되지 않은 특징 정보를 추출하도록 작동하며 주파수 대역에 대하여 적어도 하나의 특징을 획득하기 위하여 주파수 대역에서 처리되지 않은 특징 정보의 시퀀스를 결합하도록 작동하는 것을 특징으로 하는 장치.
  10. 제 1항에 있어서, 특징 추출기는 각각의 주파수 대역에 대하여, 스펙트럼 값의 수를 계산하도록 작동하며 적어도 하나의 특징이 주파수 대역에서의 스펙트럼 값의 수보다 적은 차원을 갖도록 스펙트럼 모양을 표현하는 적어도 하나의 특징을 획득하기 위하여 스펙트럼 값의 수를 결합하도록 작동하는 것을 특징으로 하는 장치.
  11. 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하는 단계;
    복수의 단시간 스펙트럼 표현에 대하여 복수의 주파수 대역의 각각의 주파수 대역에서, 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특징을 추출하는 단계; 및
    오디오 신호의 시간 부에 대하여 음성 향상 필터를 위한 제어 정보를 획득하기 위하여 결합 파라미터를 사용하여 각각의 주파수 대역에 대하여 적어도 하나의 특징을 결합하는 단계를 포함하는, 음성 향상 필터를 위한 제어 정보를 획득하기 위하여 오디오 신호를 프로세싱하기 위한 방법.
  12. 오디오 신호의 시간 부를 표현하는 복수의 대역에 대한 필터 제어 정보를 획득하기 위하여 제 1항에 따른 오디오 신호를 프로세싱하기 위한 장치; 및
    오디오 신호의 대역이 제어 정보를 기초로 한 다른 대역과 관련하여 가변적으로 감쇄하도록 제어가능한, 제어가능한 필터를 포함하는, 오디오 신호에서 음성 향상을 위한 장치.
  13. 제 13항에 있어서, 상기 프로세싱을 위한 장치는 제어 정보가 제공되기 위한 스펙트럼 해상도보다 높은 해상도를 갖는 스펙트럼 정보를 제공하는 시간 주파수 변환기를 포함하며; 및
    상기 장치는 부가적으로 제어가능한 필터의 제어가능한 필터 파라미터가 설정되는 것을 기초로 한 후-처리된 제어 정보를 획득하기 위하여 제어 정보를 높은 해상도에 삽입하며 삽입된 제어 정보를 보간하기 위한 제어 정보 후-프로세서를 포함하는 것을 특징으로 하는 장치.
  14. 오디오 신호의 시간 부를 표현하는 복수의 대역에 대한 필터 제어 정보를 획득하기 위하여 제 11항에 따른 오디오 신호를 프로세싱하기 위한 방법; 및
    오디오 신호의 대역이 제어 정보를 기초로 한 다른 대역과 관련하여 가변적으로 감쇄하도록 하기 위하여 필터를 제어하는 단계를 포함하는, 오디오 신호에서의 음성 향상의 방법.
  15. 주파수 대역 당 음성 향상 필터를 위한 제어 정보로 알려져 있는, 교육 오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하며, 복수의 단시간 스펙트럼 표현에 대하여 복수의 주파수 대역의 각각의 주파수 대역에서, 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특징을 추출하기 위한, 특징 추출기; 및
    각각의 주파수 대역에 대하여 적어도 하나의 특징을 갖는 특징 결합기를 피딩하고, 중간 결합 파라미터를 사용하여 제어 정보를 계산하고, 중간 결합 파라미터를 변경하고, 변경된 제어 정보를 알려진 제어 정보와 비교하며, 변경된 중간 결합 파라미터가 알려진 제어 정보와 더 잘 매치하는 제어 정보를 야기할 때, 중간 결합 파라미터를 업데이트하기 위한 최적화 컨트롤러를 포함하는, 특징 결합기의 결합 파라미터를 결정하기 위하여 특징 결합기를 교육하기 위한 장치.
  16. 주파수 대역 당 음성 향상 필터를 위한 제어 정보로 알려져 있는, 트레이닝오디오 신호의 단시간 스펙트럼 표현의 시간 시퀀스를 획득하는 단계;
    복수의 단시간 스펙트럼 표현에 대하여 복수의 주파수 대역의 각각의 주파수 대역에서, 복수의 주파수 대역의 주파수 대역에서 단시간 스펙트럼 표현의 스펙트럼 모양을 표현하는 적어도 하나의 특징을 추출하는 단계;
    각각의 주파수 대역에 대하여 적어도 하나의 특징을 갖는 특징 결합기를 피딩하는 단계;
    중간 결합 파라미터를 사용하여 제어 정보를 계산하는 단계;
    중간 결합 파라미터를 변경하는 단계;
    변경된 제어 정보를 알려진 제어 정보와 비교하는 단계;
    변경된 중간 결합 파라미터가 알려진 제어 정보와 더 잘 매치하는 제어 정보를 야기할 때, 중간 결합 파라미터를 업데이트하는(updating) 단계를 포함하는, 특징 결합기의 결합 파라미터를 결정하기 위하여 특징 결합기를 교육하기 위한 방법.
  17. 컴퓨터 상에 구동될 때, 제 11, 14 혹은 16항에 따른 방법을 실행하기 위한 컴퓨터 프로그램.
KR1020117002693A 2008-08-05 2009-08-03 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 KR101266894B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US8636108P 2008-08-05 2008-08-05
US61/086,361 2008-08-05
US10082608P 2008-09-29 2008-09-29
US61/100,826 2008-09-29
EP08017124.2 2008-09-29
EP08017124.2A EP2151822B8 (en) 2008-08-05 2008-09-29 Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
PCT/EP2009/005607 WO2010015371A1 (en) 2008-08-05 2009-08-03 Apparatus and method for processing an audio signal for speech enhancement using a feature extraction

Publications (2)

Publication Number Publication Date
KR20110044990A true KR20110044990A (ko) 2011-05-03
KR101266894B1 KR101266894B1 (ko) 2013-05-24

Family

ID=49170422

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117002693A KR101266894B1 (ko) 2008-08-05 2009-08-03 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법

Country Status (13)

Country Link
US (1) US9064498B2 (ko)
EP (1) EP2151822B8 (ko)
JP (1) JP5666444B2 (ko)
KR (1) KR101266894B1 (ko)
CN (1) CN102124518B (ko)
AU (1) AU2009278263B2 (ko)
CA (1) CA2732723C (ko)
ES (1) ES2678415T3 (ko)
HK (1) HK1159300A1 (ko)
MX (1) MX2011001339A (ko)
RU (1) RU2507608C2 (ko)
TR (1) TR201810466T4 (ko)
WO (1) WO2010015371A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101677137B1 (ko) * 2015-07-17 2016-11-17 국방과학연구소 변조 스펙트로그램을 이용한 수중 방사체의 데몬 및 lofar 특징을 동시 추출하는 방법 및 장치
KR102093929B1 (ko) * 2018-12-05 2020-03-26 중앙대학교 산학협력단 Cim 기반의 시스템 건전성 진단을 위한 장치 및 방법
KR102096588B1 (ko) * 2018-12-27 2020-04-02 인하대학교 산학협력단 음향 장치에서 맞춤 오디오 잡음을 이용해 사생활 보호를 구현하는 기술
KR20200085041A (ko) * 2019-01-04 2020-07-14 순천향대학교 산학협력단 언어재활 기반 발성 음성 평가 장치 및 방법
KR20200104019A (ko) * 2019-02-26 2020-09-03 한미란 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램
US10923136B2 (en) * 2018-12-19 2021-02-16 Institute Of Automation, Chinese Academy Of Sciences Speech extraction method, system, and device based on supervised learning auditory attention
KR20210116066A (ko) * 2020-03-17 2021-09-27 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP2012163919A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
US9589580B2 (en) 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
JP2012235310A (ja) * 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
US9984676B2 (en) * 2012-07-24 2018-05-29 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
JP6234060B2 (ja) * 2013-05-09 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US9443533B2 (en) * 2013-07-15 2016-09-13 Rajeev Conrad Nongpiur Measuring and improving speech intelligibility in an enclosure
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103474072B (zh) * 2013-10-11 2016-06-01 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
US10360901B2 (en) * 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
CN110265059B (zh) 2013-12-19 2023-03-31 瑞典爱立信有限公司 估计音频信号中的背景噪声
WO2015122785A1 (en) * 2014-02-14 2015-08-20 Derrick Donald James System for audio analysis and perception enhancement
US10176824B2 (en) * 2014-03-04 2019-01-08 Indian Institute Of Technology Bombay Method and system for consonant-vowel ratio modification for improving speech perception
PT3136384T (pt) * 2014-04-25 2019-04-22 Ntt Docomo Inc Dispositivo de conversão do coeficiente de previsão linear e método de conversão do coeficiente de previsão linear
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
BR112017003218B1 (pt) 2014-12-12 2021-12-28 Huawei Technologies Co., Ltd. Aparelho de processamento de sinal para aprimorar um componente de voz dentro de um sinal de áudio multicanal
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
DK3118851T3 (da) * 2015-07-01 2021-02-22 Oticon As Forbedring af støjende tale baseret på statistiske tale- og støjmodeller
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN105611477B (zh) * 2015-12-27 2018-06-01 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
CN108604452B (zh) * 2016-02-15 2022-08-02 三菱电机株式会社 声音信号增强装置
EP3220367A1 (en) * 2016-03-14 2017-09-20 Tata Consultancy Services Limited System and method for sound based surveillance
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US11003987B2 (en) * 2016-05-10 2021-05-11 Google Llc Audio processing with neural networks
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
JP6563874B2 (ja) * 2016-08-16 2019-08-21 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
EP3301675B1 (en) 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parameter prediction device and parameter prediction method for acoustic signal processing
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US10504538B2 (en) 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
US10381020B2 (en) 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
DE102017212431A1 (de) * 2017-07-20 2019-01-24 Robert Bosch Gmbh Verfahren und Vorrichtung zur Verarbeitung eines Signals
US11270198B2 (en) * 2017-07-31 2022-03-08 Syntiant Microcontroller interface for audio signal processing
US20190066657A1 (en) * 2017-08-31 2019-02-28 National Institute Of Information And Communications Technology Audio data learning method, audio data inference method and recording medium
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
US10283140B1 (en) 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN110580910B (zh) * 2018-06-08 2024-04-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
US11341983B2 (en) 2018-09-17 2022-05-24 Honeywell International Inc. System and method for audio noise reduction
US10998872B2 (en) 2018-10-24 2021-05-04 Gracenote, Inc. Methods and apparatus for audio equalization
CN110008972B (zh) * 2018-11-15 2023-06-06 创新先进技术有限公司 用于数据增强的方法和装置
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
CN111369986A (zh) * 2018-12-26 2020-07-03 成都启英泰伦科技有限公司 一种智能安全传输语音系统及方法
KR20200080913A (ko) 2018-12-27 2020-07-07 서울과학기술대학교 산학협력단 자기상관계수를 이용한 심층신경망 기반 신호처리 방법 및 장치
EP3694229A1 (en) * 2019-02-08 2020-08-12 Oticon A/s A hearing device comprising a noise reduction system
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
WO2020209840A1 (en) * 2019-04-09 2020-10-15 Hewlett-Packard Development Company, L.P. Applying directionality to audio by encoding input data
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
KR20200137561A (ko) * 2019-05-30 2020-12-09 국방과학연구소 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
JPWO2021019643A1 (ko) * 2019-07-29 2021-02-04
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN117975976A (zh) * 2019-09-18 2024-05-03 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556123B (zh) 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
US11587575B2 (en) * 2019-10-11 2023-02-21 Plantronics, Inc. Hybrid noise suppression
JP7348812B2 (ja) * 2019-10-31 2023-09-21 東京都公立大学法人 雑音抑制装置、雑音抑制方法及び音声入力機器
CN111223493B (zh) * 2020-01-08 2022-08-02 北京声加科技有限公司 语音信号降噪处理方法、传声器和电子设备
CN111259776B (zh) * 2020-01-13 2023-04-18 浙江大学 一种基于同步平均主成分时频分析的确定性信号提取方法
CN113140225B (zh) * 2020-01-20 2024-07-02 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备及存储介质
KR20210101670A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 음질 개선 방법 및 이를 이용한 전자 장치
US11521637B1 (en) * 2020-08-19 2022-12-06 Amazon Technologies, Inc. Ratio mask post-filtering for audio enhancement
CN111986660A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种神经网络子带建模的单通道语音增强方法、系统及存储介质
US20220101864A1 (en) * 2020-09-25 2022-03-31 Descript, Inc. Training generative adversarial networks to upsample audio
CN112349277B (zh) * 2020-09-28 2023-07-04 紫光展锐(重庆)科技有限公司 结合ai模型的特征域语音增强方法及相关产品
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
GB202018375D0 (en) * 2020-11-23 2021-01-06 Rossi Lisa Audio signal processing systems and methods
US11475869B2 (en) 2021-02-12 2022-10-18 Plantronics, Inc. Hybrid noise suppression for communication systems
CN115116469B (zh) * 2022-05-25 2024-03-15 腾讯科技(深圳)有限公司 特征表示的提取方法、装置、设备、介质及程序产品
CN115116446A (zh) * 2022-06-21 2022-09-27 成都理工大学 一种噪声环境下说话人识别模型构建方法
GB2625772A (en) * 2022-12-23 2024-07-03 Airbus Defence & Space Ltd Determination of signal characteristics
GB2625773A (en) * 2022-12-23 2024-07-03 Airbus Defence & Space Ltd Determination of signal characteristics

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822742A (en) 1989-05-17 1998-10-13 The United States Of America As Represented By The Secretary Of Health & Human Services Dynamically stable associative learning neural network system
JP3084721B2 (ja) * 1990-02-23 2000-09-04 ソニー株式会社 雑音除去回路
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
JP3247011B2 (ja) 1994-04-12 2002-01-15 富士通株式会社 セル配置改善装置及び方法
SE505175C2 (sv) 1994-12-01 1997-07-07 Ericsson Telefon Ab L M Förfarande och telekommunikationssystem för att åstadkomma ett abonnentstyrt uppkopplingsförlopp i ett telekommunikationsnät
US5960391A (en) 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
DE60104091T2 (de) * 2001-04-27 2005-08-25 CSEM Centre Suisse d`Electronique et de Microtechnique S.A. - Recherche et Développement Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
JP3933909B2 (ja) * 2001-10-29 2007-06-20 日本放送協会 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
AU2003904207A0 (en) 2003-08-11 2003-08-21 Vast Audio Pty Ltd Enhancement of sound externalization and separation for hearing-impaired listeners: a spatial hearing-aid
US7890323B2 (en) * 2004-07-28 2011-02-15 The University Of Tokushima Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer
RU52536U1 (ru) * 2005-12-08 2006-03-27 Общество с ограниченной ответственностью "Филком" Цифровой модуль преобразования речи
DE602006005684D1 (de) * 2006-10-31 2009-04-23 Harman Becker Automotive Sys Modellbasierte Verbesserung von Sprachsignalen
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
JP2010539792A (ja) * 2007-09-12 2010-12-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチ増強
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101677137B1 (ko) * 2015-07-17 2016-11-17 국방과학연구소 변조 스펙트로그램을 이용한 수중 방사체의 데몬 및 lofar 특징을 동시 추출하는 방법 및 장치
KR102093929B1 (ko) * 2018-12-05 2020-03-26 중앙대학교 산학협력단 Cim 기반의 시스템 건전성 진단을 위한 장치 및 방법
US10923136B2 (en) * 2018-12-19 2021-02-16 Institute Of Automation, Chinese Academy Of Sciences Speech extraction method, system, and device based on supervised learning auditory attention
KR102096588B1 (ko) * 2018-12-27 2020-04-02 인하대학교 산학협력단 음향 장치에서 맞춤 오디오 잡음을 이용해 사생활 보호를 구현하는 기술
KR20200085041A (ko) * 2019-01-04 2020-07-14 순천향대학교 산학협력단 언어재활 기반 발성 음성 평가 장치 및 방법
KR20200104019A (ko) * 2019-02-26 2020-09-03 한미란 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램
KR20210116066A (ko) * 2020-03-17 2021-09-27 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치

Also Published As

Publication number Publication date
CN102124518A (zh) 2011-07-13
WO2010015371A1 (en) 2010-02-11
RU2011105976A (ru) 2012-08-27
CA2732723A1 (en) 2010-02-11
TR201810466T4 (tr) 2018-08-27
EP2151822B8 (en) 2018-10-24
EP2151822B1 (en) 2018-04-25
JP2011530091A (ja) 2011-12-15
MX2011001339A (es) 2011-05-10
HK1159300A1 (en) 2012-07-27
CN102124518B (zh) 2013-11-06
JP5666444B2 (ja) 2015-02-12
AU2009278263B2 (en) 2012-09-27
US9064498B2 (en) 2015-06-23
US20110191101A1 (en) 2011-08-04
KR101266894B1 (ko) 2013-05-24
ES2678415T3 (es) 2018-08-10
CA2732723C (en) 2016-10-11
EP2151822A1 (en) 2010-02-10
RU2507608C2 (ru) 2014-02-20
AU2009278263A1 (en) 2010-02-11

Similar Documents

Publication Publication Date Title
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
US10504539B2 (en) Voice activity detection systems and methods
RU2552184C2 (ru) Устройство для расширения полосы частот
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
JP6014259B2 (ja) ノイズ削減利得の百分位数フィルタリング
JP5127754B2 (ja) 信号処理装置
US20100198588A1 (en) Signal bandwidth extending apparatus
JPH0916194A (ja) 音声信号の雑音低減方法
JP2003517624A (ja) 低ビットレート・スピーチ・コーダのためのノイズ抑圧
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN108682432B (zh) 语音情感识别装置
JP5443547B2 (ja) 信号処理装置
Routray et al. A context aware-based deep neural network approach for simultaneous speech denoising and dereverberation
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
CN111755025A (zh) 一种基于音频特征的状态检测方法、装置及设备
Surendran et al. Variance normalized perceptual subspace speech enhancement
CN113593604A (zh) 检测音频质量方法、装置及存储介质
Uhle et al. Speech enhancement of movie sound
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
US20160372132A1 (en) Voice enhancement device and voice enhancement method
Satriawan et al. Feature-based noise robust speech recognition on an Indonesian language automatic speech recognition system
BRPI0911932B1 (pt) Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica
Farrokhi Single Channel Speech Enhancement in Severe Noise Conditions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170510

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180510

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190508

Year of fee payment: 7