KR101163411B1 - 지각 모델을 사용한 스피치 개선 - Google Patents
지각 모델을 사용한 스피치 개선 Download PDFInfo
- Publication number
- KR101163411B1 KR101163411B1 KR1020097019500A KR20097019500A KR101163411B1 KR 101163411 B1 KR101163411 B1 KR 101163411B1 KR 1020097019500 A KR1020097019500 A KR 1020097019500A KR 20097019500 A KR20097019500 A KR 20097019500A KR 101163411 B1 KR101163411 B1 KR 101163411B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- noise
- subband
- gain
- components
- Prior art date
Links
- 230000000873 masking effect Effects 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 36
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007480 spreading Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 11
- 230000001629 suppression Effects 0.000 description 42
- 238000004364 calculation method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 102000007469 Actins Human genes 0.000 description 1
- 108010085238 Actins Proteins 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011438 discrete method Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
본 발명은 오디오 신호 처리에 관한 것이다. 보다 특히, 본 발명은 노이즈 환경에서 스피치 개선 및 정화에 관한 것이다.
다음 공개물들은 각각 전체적으로 참조로써 통합된다.
[1] 에스. 에프. 볼, "스펙트럼 감산을 이용하여 스피치에서 음향 노이즈의 압축", IEEE Trans. Acoust., Speech, Signal Processing, vol.27, pp. 113-120, 1979년 4월.
[2] 비. 위드로우와 에스. 디. 스턴스, Adaptive Singal Processing. Englewood Cliffs, NJ: Prentice Hall, 1985.
[3] 와이. 에프라임과 디. 말라 "최소 평균 제곱 에러 최소 시공간 진폭 추정기를 이용한 스피치 개선", IEEE Trans. Acoust., Speech, Signal Processing, vol.32, pp. 1109-1121, 1984년 12월.
[4] 와이. 에프라임과 디. 말라 "최소 평균 제곱 에러 로그-스펙트럼 진폭 추정기를 이용한 스피치 개선", IEEE Trans. Acoust., Speech, Signal Processing, vol.33, pp. 443-445, 1985년 12월.
[5] 피. 제이. 울프와 에스. 제이. 갓실, "오디오 신호 개선을 위한 에프라임 및 말라 억제 규칙에 대한 효과적인 대체물들", EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051, 2003.
[6] 알. 마틴, "최소 통계에 기초한 스펙트럼 감산", Proc. EUSIPCO, 1994, pp.1182-1185.
[7] 이. 테하르트, "가상 피치 계산", Hearing Research, pp.155-182, 1, 1979.
[8] ISO/IEC JTC1/SC29/WG11, Information technology - 약 1.5 Mbit/s까지에서 디지털 저장 미디어에 대한 동화상들 및 연관된 오디오의 코딩 - 파트3: Audio, IS 11172-3, 1992
[9] 제이. 존스톤, "지각가능한 노이즈 기준들을 이용하는 오디오 신호들의 변환 코딩", IEEE J. Select. Areas Commun, vol. 6, pp.314-323, 1988년 2월.
[10] 에스.구스타프손, 피. 잭스, 피 배리, "백그라운드 노이즈 특성들을 보존하는 새로운 음향심리학적 동기된 오디오 개선 알고리즘", Proceeding of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98
[11] 이 후, 및 피. 씨. 로이주, "주파수 도메인 스피치 개선에서 음향심리학적 모델 통합", IEEE Signal Processing Letter, pp.270-273, vol. 11, no. 2, 2004년 2월
[12] 엘. 린, 더블유. 에이치. 홀름즈, 및 이. 앰비카이라자, "위너 필터링 의 지각가능한 변경을 이용하는 스피치 노이즈 제거", Electronics Letter, pp 1486-1487, vol. 38, 2002년 11월.
우리는 노이즈 세계에서 살고있다. 환경 노이즈는 어디에나 있고, 자연 소스들 및 인간 활동들로부터 발생한다. 음성 통신 동안, 환경 노이즈들은 의도된 스피치 신호와 동시에 전송되어, 수신 품질에 악영향을 미친다. 이 문제는 원하지 않는 노이즈 성분들을 제거하는 스피치 개선 기술들에 의해 완화되어, 보다 깨끗하고 보다 명료한 신호를 형성한다.
대부분의 스피치 개선 시스템들은 적응성 필터링 동작의 다양한 형태들에 의존한다. 상기 시스템들은 높은 SNR(Sinal-to-Noise-Ratios)을 가진 것을 보존하면서 낮은 신호-대-노이즈-비율들(SNR)을 가진 노이즈 스피치 신호의 시간/주파수(T/F) 영역들을 감소시킨다. 스피치의 필수적인 성분들은 따라서 보존되고 노이즈 성분은 크게 감소된다. 일반적으로, 상기 필터링 동작은 디지털 신호 처리(Digital Signal Processing; DSP) 칩 같은 계산 장치에 의해 디지털 도메인에서 수행된다.
서브대역 도메인 처리는 상기 적응성 필터링 동작들이 구현되는 바람직한 방식들 중 하나이다. 요약하여, 시간 도메인에서 불변의 스피치 신호는 이산 퓨리에 변환(Discrete Fourier Transform; DFT) 같은 필터뱅크를 사용함으로써 다양한 서브대역들로 변환된다. 각각의 서브대역 내의 신호들은 스피치 및 노이즈의 공지된 통계적 특성들에 따라 바람직한 양으로 추후 억제된다. 최종적으로, 서브대역 도메인에서 노이즈 억제 신호들은 개선된 스피치 신호를 형성하기 위하여 인버스 필 터뱅크를 사용함으로써 시간 도메인으로 변환되고, 그 품질은 억제 과정의 항목들에 크게 의존한다.
통상적인 종래 기술 스피치 개선 장치의 예는 도 1에 도시된다. 입력은 아날로그 스피치 신호를 디지털화하여 생성되고 명확한 스피치 및 노이즈 둘다를 포함한다. 이런 불변의 오디오 신호 y(n)(여기서 n=0,1,...,∞는 시간 인덱스임)는 필터뱅크 기능부("분석 필터뱅크")(12)의 분석 필터뱅크로 전송되어, 다중 서브대역 신호들 (여기서 k는 서브대역 수이고, m은 각각의 서브대역 신호의 시간 인덱스)을 형성한다. 서브대역 신호들은 분석 필터뱅크(12)의 다운-샘플링 동작으로 인해 y(n)과 비교하여 더 낮은 샘플링 레이트들을 가질 수 있다. 억제 규칙 장치 또는 기능부("억제 규칙")(14)에서, 각각의 서브대역의 노이즈 레벨은 노이즈 분산(variance) 추정기를 사용함으로써 추정된다. 추정된 노이즈 레벨에 기초하여, 적당한 억제 이득들 gk은 결정되고, 다음과 같이 서브대역 신호들에 적용된다:
억제 이득들의 애플리케이션은 곱셈기 심볼(16)에 의해 심볼로 도시된다. 마지막으로, 서브대역 신호들 은 개선된 스피치 신호 을 형성하기 위하여 합성 필터뱅크 또는 필터뱅크 기능부("합성 필터뱅크")(18)에 전송된다. 표현의 간략화를 위하여, 도 1은 다중 서브대역 신호들 k 중 하나에만 억제 이득을 생성 및 적용하는 항목들을 도시한다.
명확하게, 스피치 개선 시스템의 품질은 그의 억제 방법에 크게 의존한다. 스펙트럼 감산(참고문헌 [1]), 위너 필터(참고문헌 [2]), MMSE-STSA(참고문헌 [3]), 및 MMSE-LSA(참고문헌 [4])은 이전에 제안된 방법들의 예들이다. 억제 규칙들은 출력이 평균 제곱 에러(MSE) 같은 특정 왜곡 기준들 측면들에서 스피치 성분에 가능한 한 가깝도록 설계된다. 결과적으로, 노이즈 성분 레벨은 감소되고, 스피치 성분은 우세하다. 그러나 본래의 오디오 신호로부터 스피치 성분이나 노이즈 성분 어느 하나를 분리하는 것은 매우 어렵고 최소화 방법들은 합리적인 통계적 모델에 의존한다. 결과적으로, 최종 개선된 스피치 신호는 그의 근본이 되는 통계 모델 및 이로부터 유도된 억제 규칙들 만큼 우수하다.
그럼에도 불구하고, 노이즈없는 출력을 재생하는 것은 거의 불가능하다. 지각 가능한 잔류 노이즈는 노이즈 성분을 완벽하게 추적하여 억제하기 위한 임의의 억제 방법이 극히 어렵기 때문에 존재한다. 게다가, 억제 동작 자체는 최종 스피치 신호에 영향을 미치고, 그의 품질 및 명료성에 악영향을 미친다. 일반적으로, 강한 감쇠를 갖는 억제 규칙은 보다 작은 노이즈 출력을 유도하지만 결과적인 스피치 신호는 보다 왜곡된다. 반대로, 보다 완화된 감쇠를 갖는 억제 규칙은 덜 왜곡된 스피치를 형성하지만 적당한 노이즈 감소 비용 측면에서 덜 바람직하다. 상기 반대 관심사들을 최적으로 밸런싱하기 위하여, 주의깊은 트레이드-오프들이 이루어져야 한다. 종래 기술 억제 규칙들은 이런 방식으로 상기 문제에 접근하지 않고 최적 배런스는 아직 달성되지 않았다.
많은 스피치 개선 시스템에 대한 다른 문제점은 "뮤지컬 노이즈"이다(참고문 헌 [1]). 이런 처리 가공물은 서브대역 도메인 필터링 동작의 부산물이다. 잔류 노이즈 성분들은 크기에서 큰 변동을 나타내고, 만약 충분히 억제되지 않으면, 랜덤한 주파수들을 가진 강하고, 폭주 뮤지컬 톤들로 변환된다.
스피치 및 노이즈 성분들로 이루어진 오디오 신호의 스피치는 개선된다. 오디오 신호는 시간 도메인에서 주파수 도메인의 다수의 서브대역들로 변환된다. 오디오 신호의 서브대역들은 제어에 응답하여 상기 서브대역들 중 하나의 이득을 적응성으로 감소시키는 것을 포함하는 방식으로 처리된다. 상기 제어는 서브대역에서 오디오 신호(특히, 인입 오디오 샘플들)의 노이즈 성분들 크기의 추정들로부터 적어도 부분적으로 유도된다. 최종적으로, 처리된 오디오 신호는 개선된 스피치 성분들을 가진 오디오 신호를 제공하기 위하여, 주파수 도메인에서 시간 도메인으로 변환된다. 제어는 각각의 서브대역들의 마스킹 임계값으로부터 적어도 부분적으로 유도될 수 있다. 마스킹 임계값은 음향심리학 마스킹 모델에 대한 오디오 신호의 스피치 성분들의 크기들의 추정들의 적용 결과이다. 제어는 서브대역에서 노이즈 성분들(인입 오디오 샘플에서) 크기의 추정이 서브대역의 마스킹 임계값을 초과할 때 서브대역 이득이 추가로 감소되게 할 수 있다.
제어는 또한 이득을 적용한 후 서브대역에서 노이즈 성분들(인입 오디오 샘플들에서)의 크기 추정이 서브대역에서 마스킹 임계값이거나 상기 임계값에 미달하도록 서브대역 이득이 감소되게 할 수 있다. 이득 감소량은 스피치 왜곡 정도 대 지각가능한 노이즈 정도를 밸런싱하는 가중 계수(weighting factor)에 응답하여 감소될 수 있다. 가중 계수는 선택할 수 있는 설계 파라미터일 수 있다. 오디오 신호의 스피치 성분들의 크기들의 추정들은 인접 주파수 서브대역들에 스피치 성분들의 에너지를 분배하기 위한 확산 함수에 적용될 수 있다.
본 발명의 상기된 양태들은 상기 방법들을 수행하도록 구성된 방법들 또는 장치들로서 구현될 수 있다. 컴퓨터-판독 가능 매체에 저장된 컴퓨터 프로그램은 컴퓨터가 상기 방법들 중 임의의 것을 수행하게 할 수 있다.
본 발명의 목적은 노이즈 성분을 충분히 억제하면서 스피치 성분의 충실도를 보존할 수 있는 스피치 개선을 제공하는 것이다.
본 발명의 다른 목적은 뮤지컬 노이즈의 효과들을 제거할 수 있는 스피치 개선을 제공하는 것이다.
본 발명의 이들 및 다른 특징들 및 장점들은 다음 상세한 설명 및 첨부된 청구항들에서 보다 명백하게 나타나거나 명백하게 될 것이다. 특징들 및 장점들은 첨부된 청구항들에 특히 지적된 명령들 및 결합들에 의해 구현 및 얻어질 수 있다. 게다가, 본 발명의 특징들 및 장점들은 이후에 나타나는 바와 같이 본 발명의 실무에 의해 학습될 수 있거나 상세한 설명으로부터 명백하게 될 것이다.
도 1은 일반적인 스피치 개선 장치의 기능 블록도.
도 2는 본 발명의 양태들에 따른 지각-모델-기반 스피치 개선 장치의 예의 기능 블록도.
도 3은 도 2의 지각-모델-기반 스피치 개선 동작을 이해하는데 유용한 흐름 도.
여기에 사용된 바와 같은 두문자어들 및 용어들의 용어풀이는 부록 A에 제공된다. 각각의 정의들과 함께 심볼들의 리스트는 부록 B에 제공된다. 부록 A 및 부록 B는 본 출원의 통합 부분이며 일부를 형성한다.
본 발명은 스피치 개선 시스템들에서 노이즈 감소 및 스피치 왜곡의 반대 관심사들을 밸런싱하는 능력 부족 문제를 처리한다. 요약하여, 임베딩된 스피치 성분은 추정되고 마스킹 임계값은 그로부터 구성된다. 임베딩된 노이즈 성분의 추정이 이루어지고, 추후 억제 이득들의 계산에 사용된다. 본 발명의 양태들에 따른 방법을 실행하기 위해, 다음 엘리먼트들이 사용될 수 있다:
1) 오디오 신호에서 노이즈 성분 크기의 추정,
2) 오디오 신호에서 노이즈 분산의 추정,
3) 오디오 신호에서 스피치 성분 크기의 추정,
4) 오디오 신호에서 스피치 분산 추정,
5) 음향심리학 모델, 및
6) 억제 이득 계산.
엘리먼트들(1 내지 4)의 추정들이 결정되는 방식은 본 발명에서 중요하지 않다.
본 발명의 양태들에 따른 예시적인 장치는 도 2에 도시된다. 여기서, 오디오 신호는 복소수 사인 곡선으로 프로토타입 로우-패스 필터(prototype low-pass filter)를 변조함으로써 다중 주파수 서브대역들의 신호들로 변환되는 이산 퓨리에 변환(DFT)과 같은 필터뱅크 또는 필터뱅크 기능부("분석 필터뱅크")(22)에 적용된다. 추후 출력 서브대역 신호는 서브대역 분석 필터로 입력 신호를 컨벌빙(convolving)함으로써 생성되어, 보다 낮은 레이트로 다운-샘플링된다. 따라서, 각각의 서브대역의 출력 신호는 입력 신호의 주어진 주파수 범위를 나타내는 정보를 포함하는 크기들 및 위상들을 갖는 복소수 계수들의 세트이다.
서브대역 신호들은 그 후 스피치 성분 크기 추정기 또는 추정기 기능부("스피치 크기 추정기")(24) 및 노이즈 성분 크기 추정기 또는 추정기 기능부("노이즈 크기 추정기")(26)에 공급된다. 둘다가 본래의 오디오 신호에 임베딩되기 때문에, 상기 추정들은 통계 모델들 및 선행 계산들에 의존한다. 본 발명의 양태들의 이런 예시적인 실시예에서, 최소 평균 제곱 에러(Minimum Mean Square Error; MMSE) 전력 추정기(참고문헌 [5])가 사용될 수 있다. 기본적으로, MMSE 전력 추정기는 우선 각각 통계적 모델들 및 불변의 오디오 신호에 기초하여 스피치 및 노이즈 성분들의 확률 분포를 결정한다. 노이즈 성분은 그 후 추정 에러의 평균 제곱을 최소화하는 값으로 결정된다.
도 2에 표시된 스피치 분산("스피치 분산 추정")(36) 및 노이즈 분산("노이즈 분산 추정")(38)은 본 발명을 수행하기 위해 요구된 소자들의 상기 리스트의 아이템들(4, 2)에 대응한다. 그러나, 본 발명 자체는 이들 양들을 얻기 위하여 사용된 방법의 특정 항목들에 의존하지 않는다.
음향심리학 모델("음향심리학 모델")(28)은 마스커 신호들(masker signals) 로서 추정된 스피치 성분들을 사용함으로써 다른 주파수 서브대역들에 대한 마스킹 임계값을 계산하기 위해 사용된다. 마스킹 임계값의 특정 레벨들은 인접한 주파수 서브대역들에 마스커 신호의 에너지를 분배하는 확산 함수의 적용 후 결정될 수 있다.
이후, 각각의 서브대역에 대한 억제 이득은 추정된 노이즈 성분이 계산된 마스킹 임계값과 비교되는 억제 이득 계산기 또는 계산("억제 이득 계산")(30)에 의해 결정된다. 실제로, 보다 강한 감쇠들은 마스킹 임계값 레벨과 비교하여 보다 강한 노이즈 성분들을 가진 서브대역 신호들에 적용된다. 이 예에서, 각각의 서브대역에 대한 억제 이득은 마스킹 임계값의 레벨로 노이즈 성분 크기를 감쇠시키기에 충분한 억제량에 의해 결정된다. 억제 이득 계산 시 노이즈 성분 추정기의 포함은 중요한 단계이다; 이것 없이 억제 이득은 노이즈 성분의 평균 레벨에 의해 구동되어, "뮤지컬 노이즈"로서 공지된 현상과 연관된 것과 같은 가짜 피크들을 억제할 수 없다.
억제 이득은 스피치 왜곡 정도 대 지각가능한 노이즈 정도를 밸런싱하는 가중 계수에 응답하여 가능한 감소에 영향을 받고 노이즈 성분이 정확하게 추적되도록 샘플 단위로 업데이트된다. 이것은 스피치 성분의 과억제를 감소시키고 스피치 왜곡 및 노이즈 억제 사이의 보다 우수한 트레이드-오프를 달성하게 한다.
마지막으로, 억제 이득들은 서브대역 신호들에 적용된다. 억제 이득들의 적용은 곱셈기 심볼(32)에 의해 심볼로 도시된다. 이후, 억제된 서브대역 신호들은 합성 필터뱅크 또는 필터뱅크 기능부("합성 필터뱅크")(34)에 전송되고 여기서 시 간-도메인 개선된 스피치 성분은 생성된다. 일반적인 처리의 전체적인 흐름도는 도 3에 도시된다.
여기에서 다양한 실시예들에 도시되고 기술된 다양한 장치들, 기능들 및 처리들은 여기에서의 도면들에 도시된 것과 다른 방식으로 결합 또는 분리될 수 있다는 것이 명백하게 될 것이다. 예를 들어, 컴퓨터 소프트웨어 명령 시퀀스들에 의해 구현될 때, 도 2 및 도 3의 모든 기능부들은 적당한 디지털 신호 처리 하드웨어에서 운용하는 멀티스레드(multithreaded) 소프트웨어 명령 시퀀스들에 의해 구현될 수 있고, 상기 경우 도면들에 도시된 실시예들에서 다양한 장치들 및 기능부들은 소프트웨어 명령들의 부분들에 대응할 수 있다.
스피치 및 노이즈 성분들의 추정(도 3, 44, 48)
본 발명에 따른 예시적인 스피치 개선기에 입력된 입력 신호는 스피치 성분 x(n), 및 노이즈 성분 d(n)의 선형 결합으로 가정된다.
y(n) = x(n) + d(n) (1)
여기서 n = 0, 1, 2, ...는 시간 인덱스이다. 분석 필터뱅크(22)(도 2)는 다음("분석 필터뱅크를 사용하여 노이즈 입력 신호 y(n)로부터 서브대역 신호 Yk(m) 생성, k=1,...,k")(42)(도 3)과 같이 입력 신호를 서브대역 도메인으로 변환한다:
여기서 m은 서브대역 도메인의 시간 인덱스이고, k는 서브대역 인덱스이고, K는 서브대역들의 총 수이다. 필터뱅크 변환으로 인해, 일반적으로 서브대역 신호 들은 시간-도메인 신호보다 낮은 샘플링 레이트를 가진다. 이런 예시적인 실시예에서, 이산 퓨리에 변환(DFT) 변조 필터뱅크가 사용된다. 따라서, 출력 서브대역 신호들은 복소수 값들을 가지며, 추가로 다음과 같이 표현될 수 있다:
및
스피치 성분 및 노이즈 성분이 및 의 분산들을 가진 수정되지 않은 제로-평균 복소수 가우시안인 것을 가정하면, 입력 오디오 신호에 기초하여 각각의 인입 오디오 샘플에 대한 양쪽 성분들의 크기들을 추정하는 것은 가능하다. 추정된 크기는 다음과 같이 표현한다:
1. 참조문헌 [3]에서 도입된 MMSE STSA(최소-평균-제곱-에러 짧은-시간-스펙트럼-크기) 추정기는 다음과 같다:
2. 참조문헌 [5]에서 도입된 MMSE 스펙트럼 전력 추정기는 다음과 같다:
3. 마지막으로, 참조문헌 [4]에서 도입된 MMSE 로그-STSA 추정기는 다음과 같다:
상기에서, 다음 정의들이 사용된다:
및
여기서 및 는 일반적으로 각각 이전 및 이후 신호-대-노이즈 비율들(SNR) 로서 해석된다. 다른 말로, "이전" SNR은 가정된(실제로 공지되지 않은 동안) 스피치 분산(따라서 "이전"이라 함) 대 노이즈 분산의 비율이다. "이후" SNR은 관찰된 신호(따라서 "이후"라 함)의 크기 대 노이즈 분산의 제곱 비율이다.
이런 모델 구성에서, 상기된 스피치 성분 추정기들은 이득 함수들에서 로 이전 을 대체하고 로 이후 을 대체함으로써 인입 오디오 샘플의 노이즈 성분을 추정하기 위해 사용될 수 있다. 즉,
스피치 분산 추정 및 노이즈 분산 추정(도 2, 36, 38)
상기 이득 함수들을 계산하기 위하여, 분산들 및 은 서브대역 입력 신호 Yk로부터 얻어져야 한다. 이것은 도 2(스피치 분산 추정 36 및 노이즈 분산 추정 38)에 도시된다. 고정 노이즈에 대해, 는 초기 "무 성(silence)" 부분 또는 전송부로부터 쉽게 추정된다, 즉 스피치 시작 전에 쉽게 추정된다. 비-고정 노이즈에 대해, 의 추정은 일시중지 기간들 동안 업데이트되거나 참조문헌 [6]에서 제안된 최소-통계 알고리즘을 사용하여 업데이트될 수 있다. 의 추정은 참조문헌 [3]에서 제안된 결정-이산 방법에 따라 각각의 시간 인덱스 m에 대해 업데이트될 수 있다:
스피치 및 노이즈 성분들의 상기 추정 방식들은 예시적으로만 제공된다. 보다 간단하거나 보다 정교한 모델들은 애플리케이션에 따라 사용될 수 있다. 다중 마이크로폰 입력들은 또한 노이즈 크기들의 보다 우수한 추정을 얻기 위해 사용될 수 있다.
마스킹 임계값의 계산(도 3, 46)
일단 스피치 성분의 크기들이 추정되었다면, 연관된 마스킹 임계값은 음향심리학 모델을 사용하여 계산될 수 있다. 상기 방법을 도시하기 위하여, 마스커 신호들이 각각의 서브대역의 중심 주파수에 배치된 순수 음색 신호들이고, 의 크기들을 가지는 것이 가정된다. 이런 간략화를 사용하여, 각각의 서브대역에 대한 마스킹 임계값 mk을 계산하기 위한 다음 과정이 유도된다:
1. 스피치 전력은
에 따라 사운드 압력 레벨(Sound Pressure Level; SPL) 도메인으로 전환되고, 여기서 전력 정규화 항 PN은 합리적인 재생 볼륨을 가정함으로써 선택된다.
2. 마스킹 임계값은 개별 마스커들로부터 계산된다:
여기서 fi는 Hz의 서브대역 j의 중심 주파수를 나타낸다. z(f)는 하기 방정식에 따라 맵핑하는 바크 주파수(Bark frequency)에 대한 선형 주파수(f)를 나타내고:
SF(i,j)는 서브대역 j로부터 서브 대역 i로의 확산 함수이다.
예를 들어, ISO/IEC MPEG-1 오디오 음향심리학 모델 Ⅰ(참조문헌 [8])에서 제공된 확산 함수는 다음과 같다:
얻어진 마스킹 레벨은 추가로 정규화된다:
정규화된 임계값은 다음과 같이 글로벌 마스킹 임계값을 형성하기 위하여 절대 청취 임계값(참조문헌 [7])과 결합된다:
마스킹 임계값 mk은 다른 음향심리학 모델들을 사용하여 얻어질 수 있다. 다른 확률들은 (참조문헌 [8]) 및 (참조문헌 [9])에 기술된 음향심리학 모델 Ⅰ및 Ⅱ를 포함한다.
억제 이득의 계산(도 3, 50)
비용 함수는 하부 모난 괄호들에 의해 표시된 바와 같은 두 개의 엘리먼트들을 가진다. 용어 "스피치 왜곡(speech distortion)"은 억제 이득 gk의 적용 전 및 후 스피치 성분 크기들의 로그 사이의 차이다. 용어 "지각가능한 노이즈(perceptible noise)"는 마스킹 임계값의 로그 및 억제 이득 gk의 적용 후 추정된 노이즈 성분 크기의 로그 사이의 차이이다. "지각가능한 노이즈" 용어는 만약 노이즈 성분의 로그가 억제 이득의 적용 후 마스킹 임계값 아래로 가면 없어진다.
비용 함수는 다음과 같이 추가로 표현될 수 있다:
방정식 (25)에서 스피치 왜곡 항 대 지각가능한 노이즈 항의 상대적 중요성은 가중 계수 βk에 의해 결정되고, 여기서
이다.
최적 억제 이득은 방정식 (25)에 의해 표현된 바와 같은 비용 함수를 최소화한다.
βk에 관련하여 Ck의 도함수는 영으로 설정되고 제 2 도함수는 양으로서 검증되고, 다음 규칙을 형성한다:
방정식 (28)은 다음과 같이 해석될 수 있다: Gk가 βk=0로 비용 함수 Ck를 최소화하는 억제 이득인 것을 가정하자, 즉 스피치 왜곡이 고려되지 않는 경우에 대응한다:
명확하게, 이기 때문에, Gk 적용 후 서브대역 신호에서 노이즈의 전력은 마스킹 임계값보다 크지 않을 것이다. 따라서, 마스킹되고 가청할 수 없게 될 것이다. 다른 말로, 만약 스피치 왜곡이 고려되지 않으면, 즉 방정식 (25)에서 "스피치 왜곡" 항은 에 의해 제로이면, Gk는 가청 가능성의 임계값으로 또는 그 아래로 마스킹되지 않은 노이즈 성분을 억제하는 것이 필요한 최적 억제 이득이다.
그러나, 만약 스피치 왜곡이 고려되면, Gk는 더 이상 최적이 아니고 왜곡은 발생할 수 있다. 이를 피하기 위해, 최종 억제 이득 gk은 가중 계수 가 지각가능한 노이즈 정도에 대해 스피치 왜곡 정도를 밸런싱하는(방정식 25 참조) 지수 계수 에 의해 추가로 변형된다. 가중 계수 는 스피치 개선기의 설계자에 의해 선택될 수 있다. 또한 상기 가중 계수는 신호 종속적일 수 있다. 따라서, 가중 계수 는 방정식(25)에서 스피치 왜곡 항 및 노이즈 억제 항 사이의 상대적 중요도를 정의하고, 차례로 변형 정도를 방정식 (29)의 "비-스피치" 억제 이득으로 유도한다. 다른 말로, 의 값이 커질수록, "스피치 왜곡"이 억제 이득 gk의 결정을 보다 잘 나타낸다.
결과적으로, 는 결과적으로 개선된 신호 품질을 결정하는데 중요한 역할을 한다. 일반적으로, 의 값들이 커질수록 왜곡된 스피치가 작게 유도되지만 잔여 노이즈가 많아진다. 반대로, 의 값이 작아질수록, 보다 많은 노이즈가 제거되지만 스피치 성분에서 보다 많은 왜곡 비용이 발생한다. 실제로, 의 값은 필요할 때 조절될 수 있다.
이후, 서브대역 신호들 은 개선된 스피치 신호 ("합성 필터뱅크를 사용하여 로부터 개선된 스피치 신호 생성")를 형성하기 위하여 이용할 수 있다(54). 시간 인덱스 m은 1씩(; 56) 진행되고 도 3의 처리는 반복된다.
구현
본 발명은 하드웨어 또는 소프트웨어, 또는 이들의 결합(예를 들어, 프로그램 가능한 논리 어레이들)로 구현될 수 있다. 반대로 지정되지 않으면, 본 발명의 일부로서 포함된 처리들은 임의의 특정 컴퓨터 또는 다른 장치에 본래 관련되지 않는다. 특히, 다양한 범용 머신들은 여기에서의 지침들에 따라 쓰여진 프로그램들이 사용되거나, 요구된 방법 단계들을 수행하기 위하여 보다 특정화된 장치(예를 들어, 통합 회로들)를 구성하기에 보다 편리할 수 있다. 따라서, 본 발명은 각각 적어도 하나의 처리기, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 엘리먼트들 포함), 적어도 하나의 입력 장치 또는 포트, 및 적어도 하나의 출력 장치 또는 포트를 포함하는 하나 또는 그 이상의 프로그램 가능 컴퓨터 시스템들을 실행하는 하나 또는 그 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기에 기술된 기능들을 수행하고 출력 정보를 생성하기 위하여 입력 데이터에 인가된다. 출력 정보는 공지된 방식으로 하나 또는 그 이상의 출력 장치들에 인가된다.
각각의 상기 프로그램은 컴퓨터 시스템과 통신하기 위하여 임의의 목표된 컴퓨터 언어(머신, 어셈블리, 또는 하이 레벨 절차, 논리, 또는 객체 지향 프로그래밍 언어들)로 구현될 수 있다. 임의의 경우, 언어는 컴파일링되거나 해석된 언어일 수 있다.
각각의 상기 컴퓨터 프로그램은 바람직하게 저장 미디어 또는 장치가 여기에 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성 및 동작시키기 위해 범용 또는 특수 목적 프로그램 가능 컴퓨터에 의해 판독할 수 있는 저장 미디어 또는 장치(예를 들어, 고형 상태 메모리 또는 미디어, 또는 자기 또는 광학 미디어)에 저장되거나 다운로드될 수 있다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성된 컴퓨터-판독 가능 저장 매체로서 구현되는 것으로 고려될 수 있고, 여기서 이렇게 구성된 저장 매체는 여기에 기술된 기능들을 수행하기 위하여 특정 및 미리 규정된 방식으로 컴퓨터 시스템이 동작하게 한다.
본 발명의 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위에서 벗어나지 않고 다양한 변형들이 이루어질 수 있다는 것이 이해될 것이다. 예를 들어, 여기에 기술된 단계들 중 몇몇은 순서에 무관하고, 따라서 기술된 것과 다른 순서로 수행될 수 있다.
부록 A
두문자어들 및 용어들의 용어풀이
DFT 이산 퓨리에 변환
DSP 디지털 신호 처리
MSE 평균 제곱 에러
MMSE-STSA 최소 MSE 짧은 시간 스펙트럼 크기
MMSE-LSA 최소 MSE 로그-스펙트럼 크기
SNR 신호 대 노이즈 비율
SPL 사운드 압력 레벨
T/F 시간/주파수
부록 B
심볼들의 리스트
Yk(m) 서브대역 신호 k
Xk(m) 서브대역 k의스피치 성분
Dk(m) 서브대역 k의 노이즈 성분
Claims (9)
- 스피치 및 노이즈 성분들로 이루어진 오디오 신호의 스피치 성분들을 개선하기 위한 방법에 있어서,시간 도메인으로부터 주파수 도메인 내 다수의 서브대역들로 상기 오디오 신호를 변환하는 단계,상기 오디오 신호의 서브대역들을 처리하는 단계로서, 제어에 응답하여 상기 다수의 서브대역들 중 적어도 하나의 서브대역의 이득을 적응적으로 감소시키는 것을 포함하고, 상기 제어는 상기 적어도 하나의 서브대역 내 상기 오디오 신호의 노이즈 성분들의 크기의 추정으로부터 적어도 부분적으로 유도되고, 상기 이득은 스피치 왜곡 항과 지각 가능한 노이즈 항을 포함하는 비용 함수를 최소화하고, 상기 비용함수에서 상기 지각 가능한 노이즈 항에 대한 상기 스피치 왜곡 항의 상대적 중요도가 가중 계수에 의해 결정되고, 상기 스피치 왜곡 항은 상기 이득의 적용 전과 후의 스피치 성분 크기들의 함수에서의 차이로부터 유도되고, 상기 지각 가능한 노이즈 항은 마스킹 임계값의 함수 및 상기 이득의 적용 후 추정된 노이즈 성분 크기의 함수 사이의 차이로부터 유도되는, 상기 처리 단계, 및스피치 성분들이 개선된 오디오 신호를 제공하기 위하여 주파수 도메인으로부터 시간 도메인으로 상기 처리된 오디오 신호를 변환하는 단계를 포함하는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 1 항에 있어서,상기 제어는 또한 음향심리학 마스킹 모델에 상기 오디오 신호의 스피치 성분들의 크기들의 추정들의 적용으로부터 발생하는 서브대역들 중 각각의 서브대역들 내 마스킹 임계값으로부터 적어도 부분적으로 유도되는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 2 항에 있어서,서브대역의 노이즈 성분들의 크기의 추정이 상기 서브대역의 마스킹 임계값을 초과할 때, 상기 제어는 상기 서브대역의 이득이 감소되게 하는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 3 항에 있어서,상기 제어는, 이득 변화를 적용한 후 노이즈 성분들의 크기의 추정이 서브대역 내 마스킹 임계값 이하가 되도록 상기 서브대역의 이득이 감소되게 하는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 3 항 또는 제 4 항에 있어서,이득의 감소량은 지각 가능한 노이즈 정도에 대한 스피치 왜곡의 정도를 밸런싱하는 가중 계수에 응답하여 감소되는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 5 항에 있어서,상기 가중 계수는 선택 가능한 설계 파라미터인, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,상기 오디오 신호의 스피치 성분들의 크기들의 추정들은 인접한 주파수 서브대역들에 상기 스피치 성분들의 에너지를 분배하기 위한 확산 함수에 적용되는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
- 제 1 항 내지 제 4 항 중 어느 한 항에 따른 방법들을 수행하도록 구성된, 장치.
- 컴퓨터로 하여금 제 1 항 내지 제 4 항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 프로그램을 기록한 컴퓨터 판독가능한 기록매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US91898607P | 2007-03-19 | 2007-03-19 | |
US60/918,986 | 2007-03-19 | ||
PCT/US2008/003453 WO2008115445A1 (en) | 2007-03-19 | 2008-03-14 | Speech enhancement employing a perceptual model |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090123891A KR20090123891A (ko) | 2009-12-02 |
KR101163411B1 true KR101163411B1 (ko) | 2012-07-12 |
Family
ID=39512550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097019500A KR101163411B1 (ko) | 2007-03-19 | 2008-03-14 | 지각 모델을 사용한 스피치 개선 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8560320B2 (ko) |
EP (1) | EP2130019B1 (ko) |
JP (1) | JP5260561B2 (ko) |
KR (1) | KR101163411B1 (ko) |
CN (1) | CN101636648B (ko) |
TW (1) | TWI421856B (ko) |
WO (1) | WO2008115445A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540964B2 (en) | 2016-11-16 | 2020-01-21 | Samsung Electronics Co., Ltd. | Method and apparatus for processing natural language, method and apparatus for training natural language processing model |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
CA2648237C (en) | 2006-04-27 | 2013-02-05 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
RU2413357C2 (ru) | 2006-10-20 | 2011-02-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Обработка динамических свойств аудио с использованием перенастройки |
CN101790758B (zh) | 2007-07-13 | 2013-01-09 | 杜比实验室特许公司 | 用于控制音频信号的信号处理的设备和方法 |
GB2454208A (en) * | 2007-10-31 | 2009-05-06 | Cambridge Silicon Radio Ltd | Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data |
WO2009086174A1 (en) | 2007-12-21 | 2009-07-09 | Srs Labs, Inc. | System for adjusting perceived loudness of audio signals |
TWI503816B (zh) * | 2009-05-06 | 2015-10-11 | Dolby Lab Licensing Corp | 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術 |
US8538042B2 (en) * | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
JP5672437B2 (ja) * | 2010-09-14 | 2015-02-18 | カシオ計算機株式会社 | 雑音抑制装置、雑音抑制方法およびプログラム |
US10230346B2 (en) | 2011-01-10 | 2019-03-12 | Zhinian Jing | Acoustic voice activity detection |
JP5177239B2 (ja) * | 2011-01-21 | 2013-04-03 | 沖電気工業株式会社 | コンテキストアウェアシステム及びイベントデータ生成方法 |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
EP2828854B1 (en) | 2012-03-23 | 2016-03-16 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
EP2747081A1 (en) * | 2012-12-18 | 2014-06-25 | Oticon A/s | An audio processing device comprising artifact reduction |
EP2992605B1 (en) * | 2013-04-29 | 2017-06-07 | Dolby Laboratories Licensing Corporation | Frequency band compression with dynamic thresholds |
CN103632677B (zh) * | 2013-11-27 | 2016-09-28 | 腾讯科技(成都)有限公司 | 带噪语音信号处理方法、装置及服务器 |
US9437212B1 (en) * | 2013-12-16 | 2016-09-06 | Marvell International Ltd. | Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
CN103714825A (zh) * | 2014-01-16 | 2014-04-09 | 中国科学院声学研究所 | 基于听觉感知模型的多通道语音增强方法 |
JP6361156B2 (ja) * | 2014-02-10 | 2018-07-25 | 沖電気工業株式会社 | 雑音推定装置、方法及びプログラム |
CN103824562B (zh) * | 2014-02-10 | 2016-08-17 | 太原理工大学 | 基于心理声学模型的语音后置感知滤波器 |
WO2015130283A1 (en) * | 2014-02-27 | 2015-09-03 | Nuance Communications, Inc. | Methods and apparatus for adaptive gain control in a communication system |
WO2015191470A1 (en) | 2014-06-09 | 2015-12-17 | Dolby Laboratories Licensing Corporation | Noise level estimation |
US9940945B2 (en) * | 2014-09-03 | 2018-04-10 | Marvell World Trade Ltd. | Method and apparatus for eliminating music noise via a nonlinear attenuation/gain function |
RU2673390C1 (ru) * | 2014-12-12 | 2018-11-26 | Хуавэй Текнолоджиз Ко., Лтд. | Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале |
CN105390134B (zh) * | 2015-10-20 | 2019-01-11 | 河海大学 | 一种基于子带vts的模型自适应方法 |
CN106782608B (zh) * | 2016-12-10 | 2019-11-05 | 广州酷狗计算机科技有限公司 | 噪声检测方法及装置 |
CN110168640B (zh) * | 2017-01-23 | 2021-08-03 | 华为技术有限公司 | 用于增强信号中需要分量的装置和方法 |
US11380347B2 (en) * | 2017-02-01 | 2022-07-05 | Hewlett-Packard Development Company, L.P. | Adaptive speech intelligibility control for speech privacy |
US11416742B2 (en) | 2017-11-24 | 2022-08-16 | Electronics And Telecommunications Research Institute | Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function |
US10827265B2 (en) * | 2018-01-25 | 2020-11-03 | Cirrus Logic, Inc. | Psychoacoustics for improved audio reproduction, power reduction, and speaker protection |
CN111370017B (zh) * | 2020-03-18 | 2023-04-14 | 苏宁云计算有限公司 | 一种语音增强方法、装置、系统 |
CN111883166B (zh) * | 2020-07-17 | 2024-05-10 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
US11159888B1 (en) | 2020-09-18 | 2021-10-26 | Cirrus Logic, Inc. | Transducer cooling by introduction of a cooling component in the transducer input signal |
US11153682B1 (en) | 2020-09-18 | 2021-10-19 | Cirrus Logic, Inc. | Micro-speaker audio power reproduction system and method with reduced energy use and thermal protection using micro-speaker electro-acoustic response and human hearing thresholds |
CN112951265B (zh) * | 2021-01-27 | 2022-07-19 | 杭州网易云音乐科技有限公司 | 音频处理方法、装置、电子设备和存储介质 |
WO2022256577A1 (en) * | 2021-06-02 | 2022-12-08 | Board Of Regents, The University Of Texas System | A method of speech enhancement and a mobile computing device implementing the method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2768547B1 (fr) * | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de debruitage d'un signal de parole numerique |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US7492889B2 (en) * | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
US20080071540A1 (en) * | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
-
2008
- 2008-03-14 KR KR1020097019500A patent/KR101163411B1/ko active IP Right Grant
- 2008-03-14 JP JP2009554541A patent/JP5260561B2/ja active Active
- 2008-03-14 US US12/531,691 patent/US8560320B2/en active Active
- 2008-03-14 WO PCT/US2008/003453 patent/WO2008115445A1/en active Application Filing
- 2008-03-14 EP EP08742106A patent/EP2130019B1/en active Active
- 2008-03-14 TW TW097109059A patent/TWI421856B/zh active
- 2008-03-14 CN CN2008800088655A patent/CN101636648B/zh active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540964B2 (en) | 2016-11-16 | 2020-01-21 | Samsung Electronics Co., Ltd. | Method and apparatus for processing natural language, method and apparatus for training natural language processing model |
Also Published As
Publication number | Publication date |
---|---|
JP5260561B2 (ja) | 2013-08-14 |
TW200842824A (en) | 2008-11-01 |
CN101636648B (zh) | 2012-12-05 |
TWI421856B (zh) | 2014-01-01 |
US8560320B2 (en) | 2013-10-15 |
EP2130019A1 (en) | 2009-12-09 |
JP2010521715A (ja) | 2010-06-24 |
KR20090123891A (ko) | 2009-12-02 |
WO2008115445A1 (en) | 2008-09-25 |
CN101636648A (zh) | 2010-01-27 |
US20100076769A1 (en) | 2010-03-25 |
EP2130019B1 (en) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101163411B1 (ko) | 지각 모델을 사용한 스피치 개선 | |
KR101141033B1 (ko) | 스피치 개선을 위한 노이즈 분산 추정기 | |
AU771444B2 (en) | Noise reduction apparatus and method | |
Soon et al. | Noisy speech enhancement using discrete cosine transform | |
US7359838B2 (en) | Method of processing a noisy sound signal and device for implementing said method | |
CA2382175C (en) | Noisy acoustic signal enhancement | |
JP5275748B2 (ja) | 動的ノイズ低減 | |
EP2191465A1 (en) | Speech enhancement with noise level estimation adjustment | |
WO2009035614A1 (en) | Speech enhancement with voice clarity | |
JP2004502977A (ja) | サブバンド指数平滑雑音消去システム | |
Shao et al. | A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system | |
JP2016038551A (ja) | 雑音抑圧装置、方法及びプログラム | |
Upadhyay et al. | A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments | |
Hirsch et al. | Robust Speech Recognition by Combining a Robust Feature Extraction with an Adaptation of HMMs. | |
Canazza et al. | Real time comparison of audio restoration methods based on short time spectral attenuation | |
Wang et al. | Time-Frequency Thresholding: A new algorithm in wavelet package speech enhancement | |
Schmitt et al. | Single Channel Noise Reduction for Hands Free Operation in Automotive Environments | |
Kirubagari et al. | A noval approach in speech enhancement for reducing noise using bandpass filter and spectral subtraction | |
Krishnamoorthy et al. | Processing noisy speech for enhancement | |
Narayanam | Perceptual Wavelet packet transform based Wavelet Filter Banks Modeling of Human Auditory system for improving the intelligibility of voiced and unvoiced speech: A Case Study of a system development | |
Kamaraju et al. | Speech Enhancement Technique Using Eigen Values |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150623 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160623 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170627 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180626 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190625 Year of fee payment: 8 |