KR101715198B1 - 가변 전력 예산을 이용한 음성 강화 방법 - Google Patents

가변 전력 예산을 이용한 음성 강화 방법 Download PDF

Info

Publication number
KR101715198B1
KR101715198B1 KR1020150161778A KR20150161778A KR101715198B1 KR 101715198 B1 KR101715198 B1 KR 101715198B1 KR 1020150161778 A KR1020150161778 A KR 1020150161778A KR 20150161778 A KR20150161778 A KR 20150161778A KR 101715198 B1 KR101715198 B1 KR 101715198B1
Authority
KR
South Korea
Prior art keywords
spectrum
speech
far
equivalent
signal
Prior art date
Application number
KR1020150161778A
Other languages
English (en)
Inventor
박준형
신종원
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020150161778A priority Critical patent/KR101715198B1/ko
Priority to US15/355,678 priority patent/US10242691B2/en
Application granted granted Critical
Publication of KR101715198B1 publication Critical patent/KR101715198B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

본 발명에 따른 음성 강화 방법은 원단측 사용자에 의해 수신된 신호를 고속 푸리에 변환하여 원단 음성 스펙트럼을 구하는 단계, 근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계, 상기 원단 신호 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계 및 상기 이득을 상기 원단 음성 스펙트럼에 적용하여 강화된 원단 음성 스펙트럼을 도출하는 단계를 포함하고, 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계에서는 음성 신호의 송수신에 사용되는 전력 예산이 배경 잡음 스펙트럼에 따라 가변되도록 설정될 수 있다.

Description

가변 전력 예산을 이용한 음성 강화 방법{Speech Reinforcement Method Using Selective Power Budget}
본 발명은 근단 배경 잡음에 의한 부분 마스킹 효과를 극복하기 위해 가변 전력 예산을 이용하는 음성 강화 방법에 관한 것이다.
사용자가 통화를 하거나 음악을 들을 때, 사용자측에 존재하는 잡음은 사용자의 귀에 직접 도달하여 상대방 음성의 음질을 저하시키며, 사용자가 체감하는 음성 신호의 크기가 감소되어 가해성과 명료성이 떨어지게 되며, 잡음이 커질수록 음성을 듣기가 더 어려워진다.
주변 잡음의 파워 스펙트럼을 추정할 수는 있지만 이를 제어할 수 없는 상황에서 수신자측으로 들리는 음성 신호를 강화하는 방법이 제안되고 있다. 간단하게 음성의 전체 파워를 높이는 방법은 잡음의 주파수 특성을 고려했을 때 바람직한 방법이라 할 수 없으며, 신호의 주파수 성분을 증폭하여 각 대역에서 잡음이 신호에 의해 완전히 마스킹되게 하는 방법도 제안되었으나, 이는 잡음이 심한 경우에 원래의 소리보다 지나치게 큰 소리로 만드는 단점이 있다.
또한, 음성의 명료성 색인(speech intelligibility index)을 최적화하는 음성 강화 기법이 제안되었다. 음성 명료성 색인은 여러 실험을 통해 주파수 대역별로 그 특징이 정해져 있으며, 이를 통해 음성 신호의 명확한 인지(명료성)가 가능하도록 설계한 것이다. 즉, 원단 신호(송신자측에서의 신호)의 명료성을 극대화함으로써 근단 잡음에 노출된 수신자가 음성을 명료하게 들을 수 있도록 하는 방법이나, 이는 제한된 전력 예산을 사용하기 때문에 실제 적용되기에 한계가 있다.
본 발명은 수신자측에 근단 잡음이 존재할 때 수신자측으로 들리는 음성 신호의 명료성 색인을 최적화하는 방법을 기반으로 하여, 근단 잡음에 의해 음성 및 음향 신호가 부분 마스킹되는 현상을 방지하는 음성 강화 기법을 제공하는데 그 목적이 있다.
본 발명의 실시예에 따른 음성 강화 방법은, 원단측 사용자에 의해 수신된 신호를 고속 푸리에 변환하여 원단 음성 스펙트럼을 구하는 단계; 근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계; 상기 원단 신호 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계; 및 상기 이득을 상기 원단 음성 스펙트럼에 적용하여 강화된 원단 음성 스펙트럼을 도출하는 단계를 포함하고, 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계에서는 음성 신호의 송수신에 사용되는 전력 예산이 배경 잡음 스펙트럼에 따라 가변되도록 설정될 수 있다.
그리고, 상기 원단 음성 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계는, 근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계를 수행한 후에 필터 뱅크의 이득을 1로 설정하기 위한 정규화 팩터값을 구하는 단계와, 상기 정규화 팩터값으로 상기 원단 음성 스펙트럼을 등가 음성 스펙트럼으로 변환하는 단계와, 상기 정규화 팩터값으로 상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계를 포함할 수 있다.
그리고, 상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계 이후에 근단측에 존재하는 잡음에 의한 마스킹 스펙트럼을 구하는데 필요한 마스킹 팩터를 도출하는 단계를 포함할 수 있다.
그리고, 상기 등가 잡음 스펙트럼과 마스킹 팩터를 참조하여 등가 마스킹 스펙트럼을 도출하는 단계를 포함할 수 있다. 상기 등가 마스킹 스펙트럼을 도출한 후에, 상기 원단 음성 스펙트럼과 상기 등가 마스킹 스펙트럼을 이용하여 주파수 영역에서 대역별로 비중을 부과하기 위한 가중치로 활용하기 위한 주파수 대역별 가중치를 도출하는 단계를 포함할 수 있다.
실시예는 근단 잡음의 정도에 따라 상기 전력 예산 변경시키기 위한 전력 예산 파라미터인 α값이 정의되며, 상기 α는 근단 잡음이 음성 신호에 비해 큰 환경에서 증가하고 근단 잡음이 음성 신호에 비해 작은 환경에서는 감소되도록 설정될 수 있다.
본 발명에 따르면, 근단측으로 들리는 음성 신호의 명료성 색인을 최적화하는 음성 강화 기법에 따른 알고리즘을 사용함으로써, 근단측에 존재하는 잡음을 직접적으로 제어할 수 없는 상황에서 근단측으로 들리는 음성의 명료성을 향상시켜 원단측의 사용자가 의도하는 바를 더욱 쉽게 인식할 수 있도록 한다.
도 1은 일반적인 음성 강화 방법을 사용한 통신 시스템을 나타낸 도면
도 2는 실시예에 따른 음성 강화 방법의 흐름도
도 3은 실시예에 따른 음성 강화 방법의 구체적인 방법을 나타낸 순서도
이하 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세하게 설명하지만, 본 발명의 실시예에 의해 제한되거나 한정되는 것은 아니다. 본 발명을 설명함에 있어서, 공지된 기능 혹은 구성에 대해 구체적인 설명은 본 발명의 요지를 명료하게 하기 위해 생략될 수 있다.
도 1은 일반적인 음성 강화 방법을 사용한 통신 시스템을 나타낸 도면이다.
도 1을 참조하면, 원단측 사용자에게서 발생되는 음성 신호인 원단 입력 신호를 s(n)이라 하고, 근단측 사용자의 모바일 기기에 구비된 마이크를 통해 측정되는 근단 잡음 신호를 n(n) 가정한다. 실시예는 스마트폰과 같은 모바일 기기를 통해 근단측과 원단측에 위치하는 사용자간에 음성 신호를 통신하는 환경을 예시로 한 음성 강화 방법에 대해 설명한다. 이하에서 근단측 사용자는 현재 가까운 위치에서 음성을 송수신하는 사용자이며, 원단측 사용자는 먼거리에서 근단측 사용자와 음성을 송수신하는 사용자로 이해될 수 있다.
원단 신호는 근단측 사용자와 통화를 하는 상대방이 보내는 음성 신호, 근단 신호는 현재 위치에서 보내는 음성 신호, 근단 잡음은 현재 위치에 존재하는 배경 잡음, 원단 잡음은 원단측 사용자의 환경에 존재하는 배경 잡음인 것으로 가정한다.
원단 입력 신호와 근단 잡음 신호는 참조 신호로서 음성 강화 모듈의 입력 신호로 들어가고, 음성 신호의 명료성 색인을 최적화하는 알고리즘을 통해 근단측의 모바일 기기에 마련된 스피커로 명료성이 향상된 강화 음성 신호인 s(n)를 출력하게 된다.
실시예는 상기 음성 강화 모듈에서 수행되는 음성 강화 알고리즘을 제안하며, 음성 강화 알고리즘을 통해 근단측의 사용자로 전달되는 음성 신호의 명료성을 더욱 향상시켜 근단측 사용자가 원단측 사용자의 의도를 명확히 파악할 수 있도록 하는데 목적이 있다.
도 2는 실시예에 따른 음성 강화 시스템을 대략적으로 나타낸 것이다.
도 2를 참조하면, 원단측 사용자에게서 들리는 원단 음성 신호 s(n)와 근단측 사용자 주변에 존재하는 배경 잡음인 근단 잡음 신호 n(n)은 시간, 주파수 대역에서의 분석을 위해 음성 명료성 기반의 주파수 대역 필터를 거쳐 각각 Si(n), Ni(n)으로 변환되고, 이 값들은 주파수 영역에서의 이득 계산 모듈에서 처리될 수 있다.
이득 계산 모듈은 근단 잡음 신호의 마스킹 효과에 따른 등가 마스킹 스펙트럼을 계산하여 주파수 대역별로 가중치를 구하고, 음성 명료성 색인에 따른 음성 강화를 위해 원단 음성 신호를 등가 음성 스펙트럼으로 변환한다. 실시예는 등가 음성 스펙트럼을 계산한 후에 전력 예산을 계산하는 과정을 거치는데, 전력 예산을 가변적으로 설정할 수 있도록 파라메터를 설정하고 상한선과 하한선을 가지도록 설정하여 정해진 범위 안에서 전력 예산이 설정되도록 하는 것을 특징으로 한다.
설정된 전력 예산과 주파수 대역별 가중치 및 등가 마스킹 스펙트럼 신호를 참조하여 음성 명료성 색인에 기반한 최적화된 등가 음성 스펙트럼 신호를 구하고, 최종적인 시변 이득을 도출한다.
상기 시변 이득을 등가 음성 스펙트럼에 곱해주면, 배경 잡음의 영향에 의해 감소되는 음성의 명료성을 보완해줄 수 있는 강화된 음성 스펙트럼이 도출되고 이를 다시 시간축에 해당하는 음성 신호로 변환하는 과정을 거치면 최종적인 강화된 음성 신호를 얻을 수 있다.
도 3은 실시예에 따른 음성 강화 방법의 구체적인 방법을 나타낸 순서도이다.
도 3을 참조하면, 실시예의 음성 강화 방법은 수신된 신호로부터 원단 음성 스펙트럼을 구하는 단계(S10)가 수행될 수 있다. S10 단계에서는 현재 사용자에게 음성 신호를 보내는 원단측 사용자의 환경에 잡음이 없다고 가정하고, 원단 음성 신호를 시간별, 주파수별로 분석하기 위해 고속 푸리에 변환(fast Fourier transform)을 취하여 원단 음성 스펙트럼을 도출한다.
이어서, 근단측 사용자의 디바이스에 마련된 마이크로부터 수집된 배경 잡음으로부터 배경 잡음 스펙트럼을 구하는 단계(S20)가 수행될 수 있다. S20 단계에서는 근단측과 원단측의 통신 시스템에서 음성 신호를 매개하는 마이크로부터 얻어지며, 이를 고속 푸리에 변환을 취함으로써 도출될 수 있다.
이어서, 정규화 팩터(normalization factor)를 계산하는 S30 단계가 수행될 수 있다. 상기 정규화 팩터는 필터 뱅크의 이득을 1로 맞춰주기 위한 수식으로 다음과 같이 나타내질 수 있다.
Figure 112015112471882-pat00001
여기서 n은 샘플 각인, L은 윈도우 길이, h는 윈도우 함수를 의미한다.
이어서, 등가 음성 스펙트럼을 계산하는 S40 단계가 수행될 수 있다. 음성 명료성 색인(speech intelligibility index, SII)은 등가 음성 스펙트럼(Ei(k)과 등가 잡음 스펙트럼(Ni(k)에 의해 얻어지기 때문에, 실시예와 같이 SII를 기반으로 하는 음성 강화 방법에서는 S10 단계에서 얻어진 원단 음성 스펙트럼을 등가 음성 스펙트럼으로 변환시켜야 한다. 원단 음성 스펙트럼(Ei(k))은 S20 단계에서 도출된 정규화 팩터값(gu)을 참조하여 등가 음성 스펙트럼으로 변환될 수 있고 이를 수학식으로 나타내면 다음과 같다.
Figure 112015112471882-pat00002
여기서, Φss,i(k)는 원단 음성 스펙트럼, Δfi는 주파수 대역폭, k는 샘플 색인, i는 대역 순번을 나타낸다.
이어서, 등가 잡음 스펙트럼을 계산하는 S50단계가 수행될 수 있다. S40단계와 마찬가지로, 음성 명료성 색인(speech intelligibility index, SII)은 등가 음성 스펙트럼(Ei(k)과 등가 잡음 스펙트럼(Ni(k)에 의해 얻어지기 때문에, 실시예와 같이 SII를 기반으로 하는 음성 강화 방법에서는 S20 단계에서 얻어진 근단 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환시켜야 한다.
근단 잡음 스펙트럼(Ni(k))은 S20 단계에서 도출된 정규화 팩터값(gu)을 참조하여 등가 잡음 스펙트럼으로 변환될 수 있고 이를 수학식으로 나타내면 다음과 같다.
Figure 112015112471882-pat00003
여기서, Φnn,i(k)는 원단 잡음 스펙트럼, Δfi는 주파수 대역폭, k는 샘플 색인, i는 대역 순번을 나타낸다.
이어서, 잡음에 의한 마스킹 팩터를 구하는 S60단계가 수행될 수 있다. 상기 마스킹 팩터는 등가 마스킹 스펙트럼을 계산하는데 필요한 변수로, 상기 마스킹 팩터는 Ci=-80dB+0.6[Ni+10log(Δfi)]와 같이 표현될 수 있다.
이어서, 등가 마스킹 스펙트럼을 구하는 S70단계가 수행될 수 있다. 상기 등가 마스킹 스펙트럼은 최적화된 등가 음성 스펙트럼을 계산시에 필요한 주파수 대역별 가중치를 얻기 위해 필요한 변수로서 잡음에 의한 마스킹에 대한 정보를 가지고 있다. 상기 등가 마스킹 스펙트럼은 S50단계에서 도출된 등가 잡음 스펙트럼과 S60단계에서 도출된 등가 마스킹 팩터를 참조하여 도출될 수 있다. 등가 마스킹 스펙트럼은 다음의 수학식으로 표현될 수 있다.
Figure 112015112471882-pat00004
이어서, 주파수 대역별 가중치를 구하는 S80단계가 수행될 수 있다. 상기 주파수 대역별 가중치는 최적화된 등가 음성 스펙트럼을 얻기 위해 필요한 변수로서, 주파수 영역에서 대역별로 비중을 부과하기 위한 가중치로 활용될 수 있다. 상기 대역별 가중치는 대역별 중요도 함수, 표준 음성 스펙트럼 및 등가 마스킹 스펙트럼 신호를 참조하여 계산될 수 있으며, 상기 대역별 중요도 함수와 표준 음성 스펙트럼은 기발표된 ANSI S3.5-1997에 기재된 사항을 참조하였으며, 주파수 대역별 가중치는 다음과 같은 수학식으로 표현될 수 있다.
Figure 112015112471882-pat00005
i: 주파수 대역별 가중치, Ii: 대역별 중요도 함수, Ui=표준 음성 스펙트럼)
이어서, 가변 전력 예산을 구하는 S90단계가 수행될 수 있다. 실시예에서는 종래와는 달리 제한된 전력 예산으로 음성 신호의 송수신을 실시하지 않고, 근단 잡음의 정도에 따라 통신 시스템이 자동으로 근단 잡음에 적응될 수 있도록 전력 예산을 가변적으로 조절하는 가변 파라미터 α를 도입하였다.
근단 잡음의 정도를 측정할 수 있는 지표로는 신호 대 잡음비(SNR)이 대표적이며, 근단 잡음이 음성 신호보다 상대적으로 크게 나타나는 환경에서 가변 파라미터 α는 증가하며, 근단 잡음이 음성 신호에 비해 상대적으로 작은 환경에서 가변 파라미터 α는 감소하도록 설정될 수 있다. 상기 가변 파라미터는 측정되는 근단 잡음의 크기에 따라 그 값이 유동적으로 변경될 수 있다.
실시예는 음성 신호의 송수신시 전력 예산을 가변적으로 적용하지만, 사용자의 설정에 따라 모바일 기기의 무분별한 전력소모를 방지하기 위해 상기 가변 파라미터 α의 최대값이 설정될 필요가 있으며, 즉 원단 음성의 강화되는 정도를 일정 수준으로 제어할 필요가 있다. 또한, 가변 파라미터 α의 최소값은 원단 음성의 신호대 잡음비를 고려하여 1로 설정될 수 있다. 이를 수학식으로 표현하면 다음과 같다.
Figure 112015112471882-pat00006
(α: 가변 파라미터, imax: 대역 색인 최대값)
이어서, 최적화된 등가 음성 스펙트럼을 구하는 S100단계가 수행될 수 있다. 상기 S90 단계에서 설정된 가변 파라미터 α값에 의해 전력 예산이 결정되면, 상기 전력 예산에 따라 등가 마스킹 스펙트럼, 주파수 대역별 가중치를 참조하여 원단 신호의 명료성을 부분적으로 향상시키는 등가 음성 스펙트럼이 계산될 수 있다.
상기 등가 음성 스펙트럼에 대한 초기화를 실시하고, 조건에 따른 반복 연산에 따라 등가 음성 스펙트럼을 반복적으로 최적화할 수 있다. 실시예에서는 등가 마스킹 스펙트럼에 15dB을 더한 값보다 등가 음성 스펙트럼이 큰 경우에 등가 마스킹 스펙트럼에 15dB을 더한 값을 최적화된 등가 음성 스펙트럼으로 설정하였으며, 상기의 경우가 아닐 때에는 이전에 설정된 전력 예산값으로 등가 음성 스펙트럼을 계산하였다.
이어서, 왜곡 감소를 처리하는 단계(S110)가 수행될 수 있다. 실시예에서 주어진 가변 전력 예산 내에서 등가 음성 스펙트럼을 최적화하고, 남은 전력 예산은 명료도 최적화 기반의 음성 강화 후에 발생할 수 있는 음성의 부자연스러움을 줄이기 위해 왜곡 감소를 처리하는데 사용될 수 있다. 상기 S110 단계는 최적화된 등가 음성 스펙트럼에 표준 음성 스펙트럼을 참조함으로써 왜곡이 감소된 등가 음성 스펙트럼을 구할 수 있다.
이어서, 시변 이득을 구하는 S120단계가 수행될 수 있다. 증폭기를 사용하여 변화된 신호 전력의 세기인 시변 이득은 전력 예상이 결정된 후 최적화된 등가 음성 스펙트럼과 전력 예산이 결정되기 전의 등가 음성 스펙트럼을 대비하여 계산될 수 있다.
이어서, 음성 스펙트럼을 강화시키는 S130단계가 수행될 수 있다. 상기 S120단계에서 얻어진 시변 이득은 가변된 전력 예산에 의해 도출된 값으로서, 원단 음성 스펙트럼에 상기 시변 이득을 곱해주면, 원든 음성 스펙트럼은 강화된 원단 음성 스펙트럼으로 값이 변경된다.
이어서, 역 고속 푸리에 변환을 수행하여 강화된 음성을 얻는 S140단계가 수행될 수 있다. S10~S30단계에서는 근단 신호 및 원단 신호에 시간별, 주파수별 분석을 위해 고속 푸리에 변환을 하여 스펙트럼으로 이루어진 신호를 도출하였다. 이를 원래의 신호로 변환하기 위해서는 역 고속 푸리에 변환을 강화된 원단 음성 스펙트럼에 적용함으로써 강화된 음성 신호를 획득할 수 있다.
실시예의 음성 강화 기법은 근단측에 배경 잡음이 존재하여도 상술한 바와 같은 음성 강화 알고리즘을 통해 근단 잡음에 의한 영향이 최소화되도록, 전력 예산을 설정하여 원단 음성 신호의 명료성을 향상시키기 때문에 근단 측 사용자는 원단 측 사용자의 음성 및 의도를 보다 쉽게 인식할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 원단측 사용자에 의해 수신된 신호를 고속 푸리에 변환하여 원단 음성 스펙트럼을 구하는 단계;
    근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계;
    상기 원단 신호 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계; 및
    상기 이득을 상기 원단 음성 스펙트럼에 적용하여 강화된 원단 음성 스펙트럼을 도출하는 단계를 포함하고,
    음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계에서는 음성 신호의 송수신에 사용되는 전력 예산이 배경 잡음 스펙트럼에 따라 가변되도록 설정되며,
    근단 잡음의 정도에 따라 상기 전력 예산을 변경시키기 위한 전력 예산 파라미터인 α값이 정의되고, 상기 α값은 근단 잡음이 음성 신호에 비해 큰 환경에서 증가하고 근단 잡음이 음성 신호에 비해 작은 환경에서 감소되는 음성 강화 방법.
  2. 제 1항에 있어서,
    상기 원단 음성 스펙트럼 및 배경 잡음 스펙트럼으로부터 음성 명료성 색인에 기반한 모듈을 사용하여 이득을 계산하는 단계는,
    근단측 사용자의 모바일 기기에 마련된 마이크에 의해 수집된 배경 잡음 스펙트럼을 구하는 단계를 수행한 후에 필터 뱅크의 이득을 1로 설정하기 위한 정규화 팩터값을 구하는 단계와, 상기 정규화 팩터값으로 상기 원단 음성 스펙트럼을 등가 음성 스펙트럼으로 변환하는 단계와, 상기 정규화 팩터값으로 상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계를 포함하는 음성 강화 방법.
  3. 제 2항에 있어서,
    상기 배경 잡음 스펙트럼을 등가 잡음 스펙트럼으로 변환하는 단계 이후에 근단측에 존재하는 잡음에 의한 마스킹 스펙트럼을 구하는데 필요한 마스킹 팩터를 도출하는 단계를 수행하는 음성 강화 방법.
  4. 제 3항에 있어서,
    상기 등가 잡음 스펙트럼과 마스킹 팩터를 참조하여 등가 마스킹 스펙트럼을 도출하는 단계를 수행하는 음성 강화 방법.
  5. 제 4항에 있어서,
    상기 등가 마스킹 스펙트럼을 도출한 후에,
    상기 원단 음성 스펙트럼과 상기 등가 마스킹 스펙트럼을 이용하여 주파수 영역에서 대역별로 비중을 부과하기 위한 가중치로 활용하기 위한 주파수 대역별 가중치를 도출하는 단계를 포함하는 음성 강화 방법.
  6. 삭제
  7. 제 1항에 있어서,
    상기 전력 예산 파라미터인 α값은 하한값이 1이며, 상한값은 소정의 값으로 일정한 범위를 갖도록 설정되는 음성 강화 방법.
  8. 제 5항에 있어서,
    상기 전력 예산이 설정된 후에, 상기 전력 예산에 따라 상기 등가 마스킹 스펙트럼, 상기 주파수 대역별 가중치 및 원단 음성 신호를 참조하여, 상기 원단 음성 신호의 명료성을 최적화시킨 등가 음성 스펙트럼을 도출하는 단계가 수행되는 음성 강화 방법.
  9. 제 8항에 있어서,
    상기 원단 음성 신호의 명료성을 최적화시킨 등가 음성 스펙트럼을 도출하는 단계 이후에,
    상기 최적화시킨 등가 음성 스펙트럼과 전력 예산을 고려하기 전의 등가 음성 스펙트럼을 비교하여 시변 이득을 구하는 단계를 수행하는 음성 강화 방법.
  10. 제 9항에 있어서,
    상기 시변 이득을 상기 원단 음성 스펙트럼에 곱하여 원단측에서 전달되는 음성 신호를 강화시키는 음성 강화 방법.
KR1020150161778A 2015-11-18 2015-11-18 가변 전력 예산을 이용한 음성 강화 방법 KR101715198B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150161778A KR101715198B1 (ko) 2015-11-18 2015-11-18 가변 전력 예산을 이용한 음성 강화 방법
US15/355,678 US10242691B2 (en) 2015-11-18 2016-11-18 Method of enhancing speech using variable power budget

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150161778A KR101715198B1 (ko) 2015-11-18 2015-11-18 가변 전력 예산을 이용한 음성 강화 방법

Publications (1)

Publication Number Publication Date
KR101715198B1 true KR101715198B1 (ko) 2017-03-10

Family

ID=58410915

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150161778A KR101715198B1 (ko) 2015-11-18 2015-11-18 가변 전력 예산을 이용한 음성 강화 방법

Country Status (2)

Country Link
US (1) US10242691B2 (ko)
KR (1) KR101715198B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380347B2 (en) * 2017-02-01 2022-07-05 Hewlett-Packard Development Company, L.P. Adaptive speech intelligibility control for speech privacy
US10991377B2 (en) * 2019-05-14 2021-04-27 Goodix Technology (Hk) Company Limited Method and system for speaker loudness control
CN112669870B (zh) * 2020-12-24 2024-05-03 北京声智科技有限公司 语音增强模型的训练方法、装置和电子设备
CN114241800B (zh) * 2022-02-28 2022-05-27 天津市北海通信技术有限公司 一种智能报站辅助系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859531B1 (en) * 2000-09-15 2005-02-22 Intel Corporation Residual echo estimation for echo cancellation
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
US7242763B2 (en) * 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
US7515704B2 (en) * 2004-01-05 2009-04-07 Telukuntla Krishna Prabhu N V R Method, apparatus and articles incorporating a step size control technique for echo signal cancellation
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
EP2845189B1 (en) * 2012-04-30 2018-09-05 Creative Technology Ltd. A universal reconfigurable echo cancellation system
US20140003635A1 (en) * 2012-07-02 2014-01-02 Qualcomm Incorporated Audio signal processing device calibration
CN102801861B (zh) * 2012-08-07 2015-08-19 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
US9385779B2 (en) * 2013-10-21 2016-07-05 Cisco Technology, Inc. Acoustic echo control for automated speaker tracking systems
EP3080975B1 (en) * 2013-12-12 2017-07-12 Koninklijke Philips N.V. Echo cancellation
JP6295722B2 (ja) * 2014-02-28 2018-03-20 沖電気工業株式会社 エコー抑圧装置、プログラム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bastian Sauert et al., ‘Near end listening enhancement optimized with respect to speech intelligibility index and audio power limitations’, EUSIPCO-2010, pp.1919~1923, August 2010.* *

Also Published As

Publication number Publication date
US10242691B2 (en) 2019-03-26
US20170140772A1 (en) 2017-05-18

Similar Documents

Publication Publication Date Title
KR102512311B1 (ko) 이어버드 스피치 추정
US10575104B2 (en) Binaural hearing device system with a binaural impulse environment detector
EP3122072B1 (en) Audio processing device, system, use and method
CN106507258B (zh) 一种听力装置及其运行方法
US9699554B1 (en) Adaptive signal equalization
EP3337190B1 (en) A method of reducing noise in an audio processing device
US7835773B2 (en) Systems and methods for adjustable audio operation in a mobile communication device
US20110125494A1 (en) Speech Intelligibility
WO2004077806A1 (en) Audibility enhancement
KR20210102333A (ko) 음성 검출을 위한 방법들 및 시스템들
KR101715198B1 (ko) 가변 전력 예산을 이용한 음성 강화 방법
KR102004460B1 (ko) 블루투스 회로와 디지털 신호 처리를 이용한 디지털 히어링 디바이스
US9875754B2 (en) Method and apparatus for pre-processing speech to maintain speech intelligibility
US10362412B2 (en) Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device
US8756055B2 (en) Systems and methods for improving the intelligibility of speech in a noisy environment
JP7023173B2 (ja) 音声明瞭度に基づく聴覚機器とそれに関連した方法
WO2020035158A1 (en) Method of operating a hearing aid system and a hearing aid system
US11445307B2 (en) Personal communication device as a hearing aid with real-time interactive user interface
CN110136734B (zh) 使用非线性增益平滑以降低音乐伪声的方法和音频噪声抑制器
US11438712B2 (en) Method of operating a hearing aid system and a hearing aid system
US10111012B2 (en) Hearing aid system and a method of operating a hearing aid system
JP2019146153A (ja) マルチバンドリミッタを有する聴覚保護装置および関連する方法
US11527232B2 (en) Applying noise suppression to remote and local microphone signals
US20240144947A1 (en) Near-end speech intelligibility enhancement with minimal artifacts
Premananda et al. Speech enhancement to overcome the effect of near-end noise in mobile phones using psychoacoustics

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 4