KR101715198B1 - 가변 전력 예산을 이용한 음성 강화 방법 - Google Patents
가변 전력 예산을 이용한 음성 강화 방법 Download PDFInfo
- Publication number
- KR101715198B1 KR101715198B1 KR1020150161778A KR20150161778A KR101715198B1 KR 101715198 B1 KR101715198 B1 KR 101715198B1 KR 1020150161778 A KR1020150161778 A KR 1020150161778A KR 20150161778 A KR20150161778 A KR 20150161778A KR 101715198 B1 KR101715198 B1 KR 101715198B1
- Authority
- KR
- South Korea
- Prior art keywords
- spectrum
- speech
- far
- equivalent
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002787 reinforcement Effects 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims abstract description 116
- 230000000873 masking effect Effects 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 10
- 230000001965 increasing effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
본 발명에 따른 음성 강화 방법은 원단측 사용자에 의해 수신된 신호를 고속 푸리에 변환하여 원단 음성 스펙트럼을 구하는 단계, 근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계, 상기 원단 신호 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계 및 상기 이득을 상기 원단 음성 스펙트럼에 적용하여 강화된 원단 음성 스펙트럼을 도출하는 단계를 포함하고, 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계에서는 음성 신호의 송수신에 사용되는 전력 예산이 배경 잡음 스펙트럼에 따라 가변되도록 설정될 수 있다.
Description
본 발명은 근단 배경 잡음에 의한 부분 마스킹 효과를 극복하기 위해 가변 전력 예산을 이용하는 음성 강화 방법에 관한 것이다.
사용자가 통화를 하거나 음악을 들을 때, 사용자측에 존재하는 잡음은 사용자의 귀에 직접 도달하여 상대방 음성의 음질을 저하시키며, 사용자가 체감하는 음성 신호의 크기가 감소되어 가해성과 명료성이 떨어지게 되며, 잡음이 커질수록 음성을 듣기가 더 어려워진다.
주변 잡음의 파워 스펙트럼을 추정할 수는 있지만 이를 제어할 수 없는 상황에서 수신자측으로 들리는 음성 신호를 강화하는 방법이 제안되고 있다. 간단하게 음성의 전체 파워를 높이는 방법은 잡음의 주파수 특성을 고려했을 때 바람직한 방법이라 할 수 없으며, 신호의 주파수 성분을 증폭하여 각 대역에서 잡음이 신호에 의해 완전히 마스킹되게 하는 방법도 제안되었으나, 이는 잡음이 심한 경우에 원래의 소리보다 지나치게 큰 소리로 만드는 단점이 있다.
또한, 음성의 명료성 색인(speech intelligibility index)을 최적화하는 음성 강화 기법이 제안되었다. 음성 명료성 색인은 여러 실험을 통해 주파수 대역별로 그 특징이 정해져 있으며, 이를 통해 음성 신호의 명확한 인지(명료성)가 가능하도록 설계한 것이다. 즉, 원단 신호(송신자측에서의 신호)의 명료성을 극대화함으로써 근단 잡음에 노출된 수신자가 음성을 명료하게 들을 수 있도록 하는 방법이나, 이는 제한된 전력 예산을 사용하기 때문에 실제 적용되기에 한계가 있다.
본 발명은 수신자측에 근단 잡음이 존재할 때 수신자측으로 들리는 음성 신호의 명료성 색인을 최적화하는 방법을 기반으로 하여, 근단 잡음에 의해 음성 및 음향 신호가 부분 마스킹되는 현상을 방지하는 음성 강화 기법을 제공하는데 그 목적이 있다.
본 발명의 실시예에 따른 음성 강화 방법은, 원단측 사용자에 의해 수신된 신호를 고속 푸리에 변환하여 원단 음성 스펙트럼을 구하는 단계; 근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계; 상기 원단 신호 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계; 및 상기 이득을 상기 원단 음성 스펙트럼에 적용하여 강화된 원단 음성 스펙트럼을 도출하는 단계를 포함하고, 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계에서는 음성 신호의 송수신에 사용되는 전력 예산이 배경 잡음 스펙트럼에 따라 가변되도록 설정될 수 있다.
그리고, 상기 원단 음성 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계는, 근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계를 수행한 후에 필터 뱅크의 이득을 1로 설정하기 위한 정규화 팩터값을 구하는 단계와, 상기 정규화 팩터값으로 상기 원단 음성 스펙트럼을 등가 음성 스펙트럼으로 변환하는 단계와, 상기 정규화 팩터값으로 상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계를 포함할 수 있다.
그리고, 상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계 이후에 근단측에 존재하는 잡음에 의한 마스킹 스펙트럼을 구하는데 필요한 마스킹 팩터를 도출하는 단계를 포함할 수 있다.
그리고, 상기 등가 잡음 스펙트럼과 마스킹 팩터를 참조하여 등가 마스킹 스펙트럼을 도출하는 단계를 포함할 수 있다. 상기 등가 마스킹 스펙트럼을 도출한 후에, 상기 원단 음성 스펙트럼과 상기 등가 마스킹 스펙트럼을 이용하여 주파수 영역에서 대역별로 비중을 부과하기 위한 가중치로 활용하기 위한 주파수 대역별 가중치를 도출하는 단계를 포함할 수 있다.
실시예는 근단 잡음의 정도에 따라 상기 전력 예산 변경시키기 위한 전력 예산 파라미터인 α값이 정의되며, 상기 α는 근단 잡음이 음성 신호에 비해 큰 환경에서 증가하고 근단 잡음이 음성 신호에 비해 작은 환경에서는 감소되도록 설정될 수 있다.
본 발명에 따르면, 근단측으로 들리는 음성 신호의 명료성 색인을 최적화하는 음성 강화 기법에 따른 알고리즘을 사용함으로써, 근단측에 존재하는 잡음을 직접적으로 제어할 수 없는 상황에서 근단측으로 들리는 음성의 명료성을 향상시켜 원단측의 사용자가 의도하는 바를 더욱 쉽게 인식할 수 있도록 한다.
도 1은 일반적인 음성 강화 방법을 사용한 통신 시스템을 나타낸 도면
도 2는 실시예에 따른 음성 강화 방법의 흐름도
도 3은 실시예에 따른 음성 강화 방법의 구체적인 방법을 나타낸 순서도
도 2는 실시예에 따른 음성 강화 방법의 흐름도
도 3은 실시예에 따른 음성 강화 방법의 구체적인 방법을 나타낸 순서도
이하 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세하게 설명하지만, 본 발명의 실시예에 의해 제한되거나 한정되는 것은 아니다. 본 발명을 설명함에 있어서, 공지된 기능 혹은 구성에 대해 구체적인 설명은 본 발명의 요지를 명료하게 하기 위해 생략될 수 있다.
도 1은 일반적인 음성 강화 방법을 사용한 통신 시스템을 나타낸 도면이다.
도 1을 참조하면, 원단측 사용자에게서 발생되는 음성 신호인 원단 입력 신호를 s(n)이라 하고, 근단측 사용자의 모바일 기기에 구비된 마이크를 통해 측정되는 근단 잡음 신호를 n(n) 가정한다. 실시예는 스마트폰과 같은 모바일 기기를 통해 근단측과 원단측에 위치하는 사용자간에 음성 신호를 통신하는 환경을 예시로 한 음성 강화 방법에 대해 설명한다. 이하에서 근단측 사용자는 현재 가까운 위치에서 음성을 송수신하는 사용자이며, 원단측 사용자는 먼거리에서 근단측 사용자와 음성을 송수신하는 사용자로 이해될 수 있다.
원단 신호는 근단측 사용자와 통화를 하는 상대방이 보내는 음성 신호, 근단 신호는 현재 위치에서 보내는 음성 신호, 근단 잡음은 현재 위치에 존재하는 배경 잡음, 원단 잡음은 원단측 사용자의 환경에 존재하는 배경 잡음인 것으로 가정한다.
원단 입력 신호와 근단 잡음 신호는 참조 신호로서 음성 강화 모듈의 입력 신호로 들어가고, 음성 신호의 명료성 색인을 최적화하는 알고리즘을 통해 근단측의 모바일 기기에 마련된 스피커로 명료성이 향상된 강화 음성 신호인 s(n)를 출력하게 된다.
실시예는 상기 음성 강화 모듈에서 수행되는 음성 강화 알고리즘을 제안하며, 음성 강화 알고리즘을 통해 근단측의 사용자로 전달되는 음성 신호의 명료성을 더욱 향상시켜 근단측 사용자가 원단측 사용자의 의도를 명확히 파악할 수 있도록 하는데 목적이 있다.
도 2는 실시예에 따른 음성 강화 시스템을 대략적으로 나타낸 것이다.
도 2를 참조하면, 원단측 사용자에게서 들리는 원단 음성 신호 s(n)와 근단측 사용자 주변에 존재하는 배경 잡음인 근단 잡음 신호 n(n)은 시간, 주파수 대역에서의 분석을 위해 음성 명료성 기반의 주파수 대역 필터를 거쳐 각각 Si(n), Ni(n)으로 변환되고, 이 값들은 주파수 영역에서의 이득 계산 모듈에서 처리될 수 있다.
이득 계산 모듈은 근단 잡음 신호의 마스킹 효과에 따른 등가 마스킹 스펙트럼을 계산하여 주파수 대역별로 가중치를 구하고, 음성 명료성 색인에 따른 음성 강화를 위해 원단 음성 신호를 등가 음성 스펙트럼으로 변환한다. 실시예는 등가 음성 스펙트럼을 계산한 후에 전력 예산을 계산하는 과정을 거치는데, 전력 예산을 가변적으로 설정할 수 있도록 파라메터를 설정하고 상한선과 하한선을 가지도록 설정하여 정해진 범위 안에서 전력 예산이 설정되도록 하는 것을 특징으로 한다.
설정된 전력 예산과 주파수 대역별 가중치 및 등가 마스킹 스펙트럼 신호를 참조하여 음성 명료성 색인에 기반한 최적화된 등가 음성 스펙트럼 신호를 구하고, 최종적인 시변 이득을 도출한다.
상기 시변 이득을 등가 음성 스펙트럼에 곱해주면, 배경 잡음의 영향에 의해 감소되는 음성의 명료성을 보완해줄 수 있는 강화된 음성 스펙트럼이 도출되고 이를 다시 시간축에 해당하는 음성 신호로 변환하는 과정을 거치면 최종적인 강화된 음성 신호를 얻을 수 있다.
도 3은 실시예에 따른 음성 강화 방법의 구체적인 방법을 나타낸 순서도이다.
도 3을 참조하면, 실시예의 음성 강화 방법은 수신된 신호로부터 원단 음성 스펙트럼을 구하는 단계(S10)가 수행될 수 있다. S10 단계에서는 현재 사용자에게 음성 신호를 보내는 원단측 사용자의 환경에 잡음이 없다고 가정하고, 원단 음성 신호를 시간별, 주파수별로 분석하기 위해 고속 푸리에 변환(fast Fourier transform)을 취하여 원단 음성 스펙트럼을 도출한다.
이어서, 근단측 사용자의 디바이스에 마련된 마이크로부터 수집된 배경 잡음으로부터 배경 잡음 스펙트럼을 구하는 단계(S20)가 수행될 수 있다. S20 단계에서는 근단측과 원단측의 통신 시스템에서 음성 신호를 매개하는 마이크로부터 얻어지며, 이를 고속 푸리에 변환을 취함으로써 도출될 수 있다.
이어서, 정규화 팩터(normalization factor)를 계산하는 S30 단계가 수행될 수 있다. 상기 정규화 팩터는 필터 뱅크의 이득을 1로 맞춰주기 위한 수식으로 다음과 같이 나타내질 수 있다.
여기서 n은 샘플 각인, L은 윈도우 길이, h는 윈도우 함수를 의미한다.
이어서, 등가 음성 스펙트럼을 계산하는 S40 단계가 수행될 수 있다. 음성 명료성 색인(speech intelligibility index, SII)은 등가 음성 스펙트럼(Ei(k)과 등가 잡음 스펙트럼(Ni(k)에 의해 얻어지기 때문에, 실시예와 같이 SII를 기반으로 하는 음성 강화 방법에서는 S10 단계에서 얻어진 원단 음성 스펙트럼을 등가 음성 스펙트럼으로 변환시켜야 한다. 원단 음성 스펙트럼(Ei(k))은 S20 단계에서 도출된 정규화 팩터값(gu)을 참조하여 등가 음성 스펙트럼으로 변환될 수 있고 이를 수학식으로 나타내면 다음과 같다.
여기서, Φss,i(k)는 원단 음성 스펙트럼, Δfi는 주파수 대역폭, k는 샘플 색인, i는 대역 순번을 나타낸다.
이어서, 등가 잡음 스펙트럼을 계산하는 S50단계가 수행될 수 있다. S40단계와 마찬가지로, 음성 명료성 색인(speech intelligibility index, SII)은 등가 음성 스펙트럼(Ei(k)과 등가 잡음 스펙트럼(Ni(k)에 의해 얻어지기 때문에, 실시예와 같이 SII를 기반으로 하는 음성 강화 방법에서는 S20 단계에서 얻어진 근단 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환시켜야 한다.
근단 잡음 스펙트럼(Ni(k))은 S20 단계에서 도출된 정규화 팩터값(gu)을 참조하여 등가 잡음 스펙트럼으로 변환될 수 있고 이를 수학식으로 나타내면 다음과 같다.
여기서, Φnn,i(k)는 원단 잡음 스펙트럼, Δfi는 주파수 대역폭, k는 샘플 색인, i는 대역 순번을 나타낸다.
이어서, 잡음에 의한 마스킹 팩터를 구하는 S60단계가 수행될 수 있다. 상기 마스킹 팩터는 등가 마스킹 스펙트럼을 계산하는데 필요한 변수로, 상기 마스킹 팩터는 Ci=-80dB+0.6[Ni+10log(Δfi)]와 같이 표현될 수 있다.
이어서, 등가 마스킹 스펙트럼을 구하는 S70단계가 수행될 수 있다. 상기 등가 마스킹 스펙트럼은 최적화된 등가 음성 스펙트럼을 계산시에 필요한 주파수 대역별 가중치를 얻기 위해 필요한 변수로서 잡음에 의한 마스킹에 대한 정보를 가지고 있다. 상기 등가 마스킹 스펙트럼은 S50단계에서 도출된 등가 잡음 스펙트럼과 S60단계에서 도출된 등가 마스킹 팩터를 참조하여 도출될 수 있다. 등가 마스킹 스펙트럼은 다음의 수학식으로 표현될 수 있다.
이어서, 주파수 대역별 가중치를 구하는 S80단계가 수행될 수 있다. 상기 주파수 대역별 가중치는 최적화된 등가 음성 스펙트럼을 얻기 위해 필요한 변수로서, 주파수 영역에서 대역별로 비중을 부과하기 위한 가중치로 활용될 수 있다. 상기 대역별 가중치는 대역별 중요도 함수, 표준 음성 스펙트럼 및 등가 마스킹 스펙트럼 신호를 참조하여 계산될 수 있으며, 상기 대역별 중요도 함수와 표준 음성 스펙트럼은 기발표된 ANSI S3.5-1997에 기재된 사항을 참조하였으며, 주파수 대역별 가중치는 다음과 같은 수학식으로 표현될 수 있다.
(γi: 주파수 대역별 가중치, Ii: 대역별 중요도 함수, Ui=표준 음성 스펙트럼)
이어서, 가변 전력 예산을 구하는 S90단계가 수행될 수 있다. 실시예에서는 종래와는 달리 제한된 전력 예산으로 음성 신호의 송수신을 실시하지 않고, 근단 잡음의 정도에 따라 통신 시스템이 자동으로 근단 잡음에 적응될 수 있도록 전력 예산을 가변적으로 조절하는 가변 파라미터 α를 도입하였다.
근단 잡음의 정도를 측정할 수 있는 지표로는 신호 대 잡음비(SNR)이 대표적이며, 근단 잡음이 음성 신호보다 상대적으로 크게 나타나는 환경에서 가변 파라미터 α는 증가하며, 근단 잡음이 음성 신호에 비해 상대적으로 작은 환경에서 가변 파라미터 α는 감소하도록 설정될 수 있다. 상기 가변 파라미터는 측정되는 근단 잡음의 크기에 따라 그 값이 유동적으로 변경될 수 있다.
실시예는 음성 신호의 송수신시 전력 예산을 가변적으로 적용하지만, 사용자의 설정에 따라 모바일 기기의 무분별한 전력소모를 방지하기 위해 상기 가변 파라미터 α의 최대값이 설정될 필요가 있으며, 즉 원단 음성의 강화되는 정도를 일정 수준으로 제어할 필요가 있다. 또한, 가변 파라미터 α의 최소값은 원단 음성의 신호대 잡음비를 고려하여 1로 설정될 수 있다. 이를 수학식으로 표현하면 다음과 같다.
(α: 가변 파라미터, imax: 대역 색인 최대값)
이어서, 최적화된 등가 음성 스펙트럼을 구하는 S100단계가 수행될 수 있다. 상기 S90 단계에서 설정된 가변 파라미터 α값에 의해 전력 예산이 결정되면, 상기 전력 예산에 따라 등가 마스킹 스펙트럼, 주파수 대역별 가중치를 참조하여 원단 신호의 명료성을 부분적으로 향상시키는 등가 음성 스펙트럼이 계산될 수 있다.
상기 등가 음성 스펙트럼에 대한 초기화를 실시하고, 조건에 따른 반복 연산에 따라 등가 음성 스펙트럼을 반복적으로 최적화할 수 있다. 실시예에서는 등가 마스킹 스펙트럼에 15dB을 더한 값보다 등가 음성 스펙트럼이 큰 경우에 등가 마스킹 스펙트럼에 15dB을 더한 값을 최적화된 등가 음성 스펙트럼으로 설정하였으며, 상기의 경우가 아닐 때에는 이전에 설정된 전력 예산값으로 등가 음성 스펙트럼을 계산하였다.
이어서, 왜곡 감소를 처리하는 단계(S110)가 수행될 수 있다. 실시예에서 주어진 가변 전력 예산 내에서 등가 음성 스펙트럼을 최적화하고, 남은 전력 예산은 명료도 최적화 기반의 음성 강화 후에 발생할 수 있는 음성의 부자연스러움을 줄이기 위해 왜곡 감소를 처리하는데 사용될 수 있다. 상기 S110 단계는 최적화된 등가 음성 스펙트럼에 표준 음성 스펙트럼을 참조함으로써 왜곡이 감소된 등가 음성 스펙트럼을 구할 수 있다.
이어서, 시변 이득을 구하는 S120단계가 수행될 수 있다. 증폭기를 사용하여 변화된 신호 전력의 세기인 시변 이득은 전력 예상이 결정된 후 최적화된 등가 음성 스펙트럼과 전력 예산이 결정되기 전의 등가 음성 스펙트럼을 대비하여 계산될 수 있다.
이어서, 음성 스펙트럼을 강화시키는 S130단계가 수행될 수 있다. 상기 S120단계에서 얻어진 시변 이득은 가변된 전력 예산에 의해 도출된 값으로서, 원단 음성 스펙트럼에 상기 시변 이득을 곱해주면, 원든 음성 스펙트럼은 강화된 원단 음성 스펙트럼으로 값이 변경된다.
이어서, 역 고속 푸리에 변환을 수행하여 강화된 음성을 얻는 S140단계가 수행될 수 있다. S10~S30단계에서는 근단 신호 및 원단 신호에 시간별, 주파수별 분석을 위해 고속 푸리에 변환을 하여 스펙트럼으로 이루어진 신호를 도출하였다. 이를 원래의 신호로 변환하기 위해서는 역 고속 푸리에 변환을 강화된 원단 음성 스펙트럼에 적용함으로써 강화된 음성 신호를 획득할 수 있다.
실시예의 음성 강화 기법은 근단측에 배경 잡음이 존재하여도 상술한 바와 같은 음성 강화 알고리즘을 통해 근단 잡음에 의한 영향이 최소화되도록, 전력 예산을 설정하여 원단 음성 신호의 명료성을 향상시키기 때문에 근단 측 사용자는 원단 측 사용자의 음성 및 의도를 보다 쉽게 인식할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (10)
- 원단측 사용자에 의해 수신된 신호를 고속 푸리에 변환하여 원단 음성 스펙트럼을 구하는 단계;
근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계;
상기 원단 신호 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계; 및
상기 이득을 상기 원단 음성 스펙트럼에 적용하여 강화된 원단 음성 스펙트럼을 도출하는 단계를 포함하고,
음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계에서는 음성 신호의 송수신에 사용되는 전력 예산이 배경 잡음 스펙트럼에 따라 가변되도록 설정되며,
근단 잡음의 정도에 따라 상기 전력 예산을 변경시키기 위한 전력 예산 파라미터인 α값이 정의되고, 상기 α값은 근단 잡음이 음성 신호에 비해 큰 환경에서 증가하고 근단 잡음이 음성 신호에 비해 작은 환경에서 감소되는 음성 강화 방법. - 제 1항에 있어서,
상기 원단 음성 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계는,
근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계를 수행한 후에 필터 뱅크의 이득을 1로 설정하기 위한 정규화 팩터값을 구하는 단계와, 상기 정규화 팩터값으로 상기 원단 음성 스펙트럼을 등가 음성 스펙트럼으로 변환하는 단계와, 상기 정규화 팩터값으로 상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계를 포함하는 음성 강화 방법. - 제 2항에 있어서,
상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계 이후에 근단측에 존재하는 잡음에 의한 마스킹 스펙트럼을 구하는데 필요한 마스킹 팩터를 도출하는 단계를 수행하는 음성 강화 방법. - 제 3항에 있어서,
상기 등가 잡음 스펙트럼과 마스킹 팩터를 참조하여 등가 마스킹 스펙트럼을 도출하는 단계를 수행하는 음성 강화 방법. - 제 4항에 있어서,
상기 등가 마스킹 스펙트럼을 도출한 후에,
상기 원단 음성 스펙트럼과 상기 등가 마스킹 스펙트럼을 이용하여 주파수 영역에서 대역별로 비중을 부과하기 위한 가중치로 활용하기 위한 주파수 대역별 가중치를 도출하는 단계를 포함하는 음성 강화 방법. - 삭제
- 제 1항에 있어서,
상기 전력 예산 파라미터인 α값은 하한값이 1이며, 상한값은 소정의 값으로 일정한 범위를 갖도록 설정되는 음성 강화 방법. - 제 5항에 있어서,
상기 전력 예산이 설정된 후에, 상기 전력 예산에 따라 상기 등가 마스킹 스펙트럼, 상기 주파수 대역별 가중치 및 원단 음성 신호를 참조하여, 상기 원단 음성 신호의 명료성을 최적화시킨 등가 음성 스펙트럼을 도출하는 단계가 수행되는 음성 강화 방법. - 제 8항에 있어서,
상기 원단 음성 신호의 명료성을 최적화시킨 등가 음성 스펙트럼을 도출하는 단계 이후에,
상기 최적화시킨 등가 음성 스펙트럼과 전력 예산을 고려하기 전의 등가 음성 스펙트럼을 비교하여 시변 이득을 구하는 단계를 수행하는 음성 강화 방법. - 제 9항에 있어서,
상기 시변 이득을 상기 원단 음성 스펙트럼에 곱하여 원단측에서 전달되는 음성 신호를 강화시키는 음성 강화 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150161778A KR101715198B1 (ko) | 2015-11-18 | 2015-11-18 | 가변 전력 예산을 이용한 음성 강화 방법 |
US15/355,678 US10242691B2 (en) | 2015-11-18 | 2016-11-18 | Method of enhancing speech using variable power budget |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150161778A KR101715198B1 (ko) | 2015-11-18 | 2015-11-18 | 가변 전력 예산을 이용한 음성 강화 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101715198B1 true KR101715198B1 (ko) | 2017-03-10 |
Family
ID=58410915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150161778A KR101715198B1 (ko) | 2015-11-18 | 2015-11-18 | 가변 전력 예산을 이용한 음성 강화 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10242691B2 (ko) |
KR (1) | KR101715198B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380347B2 (en) * | 2017-02-01 | 2022-07-05 | Hewlett-Packard Development Company, L.P. | Adaptive speech intelligibility control for speech privacy |
US10991377B2 (en) * | 2019-05-14 | 2021-04-27 | Goodix Technology (Hk) Company Limited | Method and system for speaker loudness control |
CN112669870B (zh) * | 2020-12-24 | 2024-05-03 | 北京声智科技有限公司 | 语音增强模型的训练方法、装置和电子设备 |
CN114241800B (zh) * | 2022-02-28 | 2022-05-27 | 天津市北海通信技术有限公司 | 一种智能报站辅助系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6859531B1 (en) * | 2000-09-15 | 2005-02-22 | Intel Corporation | Residual echo estimation for echo cancellation |
US20020147585A1 (en) * | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
US7242763B2 (en) * | 2002-11-26 | 2007-07-10 | Lucent Technologies Inc. | Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems |
US7515704B2 (en) * | 2004-01-05 | 2009-04-07 | Telukuntla Krishna Prabhu N V R | Method, apparatus and articles incorporating a step size control technique for echo signal cancellation |
US20080312916A1 (en) * | 2007-06-15 | 2008-12-18 | Mr. Alon Konchitsky | Receiver Intelligibility Enhancement System |
US8645129B2 (en) * | 2008-05-12 | 2014-02-04 | Broadcom Corporation | Integrated speech intelligibility enhancement system and acoustic echo canceller |
EP2845189B1 (en) * | 2012-04-30 | 2018-09-05 | Creative Technology Ltd. | A universal reconfigurable echo cancellation system |
US20140003635A1 (en) * | 2012-07-02 | 2014-01-02 | Qualcomm Incorporated | Audio signal processing device calibration |
CN102801861B (zh) * | 2012-08-07 | 2015-08-19 | 歌尔声学股份有限公司 | 一种应用于手机的语音增强方法和装置 |
JP2014106247A (ja) * | 2012-11-22 | 2014-06-09 | Fujitsu Ltd | 信号処理装置、信号処理方法および信号処理プログラム |
US9385779B2 (en) * | 2013-10-21 | 2016-07-05 | Cisco Technology, Inc. | Acoustic echo control for automated speaker tracking systems |
EP3080975B1 (en) * | 2013-12-12 | 2017-07-12 | Koninklijke Philips N.V. | Echo cancellation |
JP6295722B2 (ja) * | 2014-02-28 | 2018-03-20 | 沖電気工業株式会社 | エコー抑圧装置、プログラム及び方法 |
-
2015
- 2015-11-18 KR KR1020150161778A patent/KR101715198B1/ko active IP Right Grant
-
2016
- 2016-11-18 US US15/355,678 patent/US10242691B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
Bastian Sauert et al., ‘Near end listening enhancement optimized with respect to speech intelligibility index and audio power limitations’, EUSIPCO-2010, pp.1919~1923, August 2010.* * |
Also Published As
Publication number | Publication date |
---|---|
US10242691B2 (en) | 2019-03-26 |
US20170140772A1 (en) | 2017-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102512311B1 (ko) | 이어버드 스피치 추정 | |
US10575104B2 (en) | Binaural hearing device system with a binaural impulse environment detector | |
EP3122072B1 (en) | Audio processing device, system, use and method | |
CN106507258B (zh) | 一种听力装置及其运行方法 | |
US9699554B1 (en) | Adaptive signal equalization | |
EP3337190B1 (en) | A method of reducing noise in an audio processing device | |
US7835773B2 (en) | Systems and methods for adjustable audio operation in a mobile communication device | |
US20110125494A1 (en) | Speech Intelligibility | |
WO2004077806A1 (en) | Audibility enhancement | |
KR20210102333A (ko) | 음성 검출을 위한 방법들 및 시스템들 | |
KR101715198B1 (ko) | 가변 전력 예산을 이용한 음성 강화 방법 | |
KR102004460B1 (ko) | 블루투스 회로와 디지털 신호 처리를 이용한 디지털 히어링 디바이스 | |
US9875754B2 (en) | Method and apparatus for pre-processing speech to maintain speech intelligibility | |
US10362412B2 (en) | Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device | |
US8756055B2 (en) | Systems and methods for improving the intelligibility of speech in a noisy environment | |
JP7023173B2 (ja) | 音声明瞭度に基づく聴覚機器とそれに関連した方法 | |
WO2020035158A1 (en) | Method of operating a hearing aid system and a hearing aid system | |
US11445307B2 (en) | Personal communication device as a hearing aid with real-time interactive user interface | |
CN110136734B (zh) | 使用非线性增益平滑以降低音乐伪声的方法和音频噪声抑制器 | |
US11438712B2 (en) | Method of operating a hearing aid system and a hearing aid system | |
US10111012B2 (en) | Hearing aid system and a method of operating a hearing aid system | |
JP2019146153A (ja) | マルチバンドリミッタを有する聴覚保護装置および関連する方法 | |
US11527232B2 (en) | Applying noise suppression to remote and local microphone signals | |
US20240144947A1 (en) | Near-end speech intelligibility enhancement with minimal artifacts | |
Premananda et al. | Speech enhancement to overcome the effect of near-end noise in mobile phones using psychoacoustics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 4 |