KR20080064557A - 음성 신호의 명료도를 향상시키는 장치 및 방법 - Google Patents

음성 신호의 명료도를 향상시키는 장치 및 방법 Download PDF

Info

Publication number
KR20080064557A
KR20080064557A KR1020070001598A KR20070001598A KR20080064557A KR 20080064557 A KR20080064557 A KR 20080064557A KR 1020070001598 A KR1020070001598 A KR 1020070001598A KR 20070001598 A KR20070001598 A KR 20070001598A KR 20080064557 A KR20080064557 A KR 20080064557A
Authority
KR
South Korea
Prior art keywords
signal
received
voice signal
voice
band
Prior art date
Application number
KR1020070001598A
Other languages
English (en)
Other versions
KR101414233B1 (ko
Inventor
최창규
황광일
홍선기
성영훈
김연배
김용
이상훈
정홍
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070001598A priority Critical patent/KR101414233B1/ko
Priority to US11/984,421 priority patent/US9099093B2/en
Publication of KR20080064557A publication Critical patent/KR20080064557A/ko
Application granted granted Critical
Publication of KR101414233B1 publication Critical patent/KR101414233B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성 신호의 명료도를 향상시키는 장치 및 방법에 관한 것으로서, 본 발명의 실시예에 따른 음성 신호의 명료도를 향상시키는 방법은 수신자 환경의 배경 잡음 신호를 분석하는 (a) 단계와, 수신된 음성 신호를 비음성, 무성음 및 유성음으로 분류하는 (b) 단계 및 상기 분석한 잡음 신호를 기초로 하여 상기 분류된 무성음 또는 유성음을 강화하는 (c) 단계를 포함한다.
명료도, 음성 신호 처리

Description

음성 신호의 명료도를 향상시키는 장치 및 방법{Apparatus and method for improving speech intelligibility}
도 1은 본 발명의 기본 개념을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 신호의 명료도를 향상시키는 장치의 개략적인 구조를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성 신호의 명료도를 향상시키는 장치의 구체적인 구조를 나타내는 도면이다.
도 4a 내지 도 4c는 유성음, 무성음 및 비음성간의 특성을 비교하는 그래프이다.
도 5는 본 발명의 일 실시예에 따라 무성음을 강화하는 방법을 나타내는 플로우 차트이다.
도 6은 본 발명의 일 실시예에 따라 유성음을 강화하는 방법을 나타내는 플로우 차트이다.
<도면의 주요 부분에 관한 부호의 설명>
210: 음성 신호 분리 모듈
220: 프레임 세기 추출 모듈
222: 프레임 세기 조절 모듈
230: 밴드 세기 추출 모듈
232: 밴드 세기 조절 모듈
234: 프레임 세기 조절 모듈
240: 잡음 밴드 세기 추출 모듈
242: 잡음 프레임 세기 추출 모듈
250: 음성 신호 연결 모듈
본 발명은 음성 신호의 명료도 향상에 관한 것으로서, 잡음 환경에서 음성 신호를 수신할 때, 수신한 음성 신호의 명료도를 향상시킴으로써 주위에 잡음이 있더라도 상대방의 음성을 보다 쉽게 인식할 수 있는 방법 및 장치에 관한 것이다.
종래에는 음성 신호의 명료도를 향상시키기 위하여 음성과 잡음이 섞여 있는 상태에서 음성 신호와 잡음 신호를 분리하거나, 음성 신호의 파워(power)만을 올리는 방식을 이용하였다.
그런데, 이러한 방식의 대부분은 송화자 측에서 이루어지기 때문에, 수화자 측에 심한 잡음이 존재하는 경우에는 음성 신호의 명료도가 낮아져 상대방의 음성을 인식하기 어렵게 된다. 이는 수화자 측 주위의 잡음이 직접 수화자의 귀로 들어가기 때문에 수화자는 귀로 직접 들어오는 잡음에 대해서는 별도의 신호 처리를 행할 수 없기 때문이다.
따라서, 많은 잡음이 존재하는 수신자 측에도 음성 신호의 명료도를 향상시키는 방법이 필요하게 되었다.
본 발명은 수신자 측 주위에 존재하는 잡음을 실시간으로 분석하고 그 결과를 이용하여 음성을 처리함으로써 음성 신호의 명료도를 향상시키는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 신호의 명료도를 향상시키는 장치는 수신자 측 배경 잡음 신호를 수신 및 분석하는 측정부와, 수신된 음성 신호를 비음성, 무성음 및 유성음으로 분류하고, 상기 분류 결과 및 상기 분석 결과를 기초로 상기 수신된 음성 신호를 강화하는 음성 신호 변환부 및 상기 강화된 음성 신호를 출력하는 스피커를 포함한다.
또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 신호의 명료도를 향상시키는 장치는 수신된 음성 신호를 비음성, 유성음 및 무성음으로 분리하는 음성 신호 분리 모듈과, 상기 수신된 음성 신호가 유성음인 경우, 상기 수신된 음성 신호의 밴드별 밴드 세기를 수신된 잡음 신호의 밴드별 밴드 세기를 기초로 조절하는 밴드 세기 조절 모듈 및 상기 밴드 세기 조절 모듈에 의해 증폭된 음성 신호의 프레임 세기를 상기 잡음 신호의 프레임 세기를 기초로 조절하는 제1 프레임 세기 조절 모듈을 포함한다.
또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 신호의 명료도를 향상시키는 방법은 수신되는 음성 신호 및 배경의 잡음 신호를 분석하는 (a) 단계와, 상기 수신된 음성 신호를 비음성, 무성음 및 유성음으로 분류하는 (b) 단계 및 상기 분석한 잡음 신호를 기초로 하여 상기 분류된 무성음 또는 유성음을 강화하는 (c) 단계를 포함한다.
또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 신호의 명료도를 향상시키는 방법은 수신된 음성 신호를 비음성, 유성음 및 무성음으로 분리하는 (a) 단계와, 상기 수신된 음성 신호가 유성음인 경우, 상기 수신된 음성 신호의 밴드별 밴드 세기를 수신된 잡음 신호의 밴드별 밴드 세기를 기초로 조절하는 (b) 단계 및 상기 조절에 의해 증폭된 음성 신호의 프레임 세기를 상기 잡음 신호의 프레임 세기를 기초로 조절하는 (c) 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
이하, 본 발명의 실시예들에 의하여 음성 신호의 명료도를 향상시키는 장치 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑제되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명에서는 음성 신호와 잡음 신호가 섞여 있는 것이 아니라 잡음 신호가 나중에 섞일 것을 미리 예상하여 잡음 신호에 강하게 음성 신호를 처리하는 것을 주요한 기술적 사상으로 한다.
즉, 휴대용 단말기를 이용한 통화의 경우 송화자 측에서 보낸 음성이 잡음이 없는 상태로 수화자 측에 도달했을 때, 수화자 측 주위 환경이 심한 잡음에 노출된 경우를 가정하여 주변 잡음을 실시간으로 분석한 후, 음성 신호를 잡음에 강하도록 처리하여 음성 신호의 명료도를 높이는 방식인데 이를 도 1에서 도시하고 있다.
도 1을 참조하면, 송신 측 휴대용 단말기(110)에서 음성 신호(115)가 수신 측 휴대용 단말기(120)로 전송된다. 이때 송신 측 주변 환경은 매우 조용한 상태로 가정하면 송신 측 휴대용 단말기(110)에서 보내는 음성 신호(115)는 잡음이 전혀 없는 깨끗한 음성이다. 송신 측 화자가 발성한 음성은 수신 측 휴대용 단말기(120)로 전송되어 수신 측의 청자(130)가 인식해야 하는데 이 때 수신 측 주변에 심한 잡음(140)이 있어 인식하기가 어려운 상황에 본 발명이 적용되는 것이다.
이를 위해 본 발명에서는 주변 잡음(140)을 수신 측 휴대용 단말기(120)의 마이크를 이용하여 실시간으로 수신한다. 그리고 나서, 수신한 잡음(140)을 음성 신호(115)와 비교, 분석한 후, 잡음(140)과 섞일 것을 예상하여 미리 잡음에 강하도록 음성 신호(115)를 처리함으로써 명료도가 향상된 음성 신호(125)가 청자(130)에게 인식되는 것이다.
도 2는 본 발명의 일 실시예에 따른 음성 신호의 명료도를 향상시키는 장치의 개략적인 구조를 나타내는 도면이다.
도 2를 참조하면, 음성 신호의 명료도를 향상시키는 장치(200)는 수신된 음성 신호 S(t)를 명료도가 향상된 음성 신호
Figure 112007001385413-PAT00001
으로 변환시키는 음성 신호 변환부(203), 향상된 음성 신호
Figure 112007001385413-PAT00002
를 제공하는 스피커(205), 주변의 잡음 신호를 수신하는 마이크(201) 및 수신된 잡음 신호를 측정하는 측정부(204)를 포함한다.
이 때, 'T1'으로 표시되는 블록은 시간 영역에서의 음성 또는 잡음 신호를 주파수 영역에서의 음성 또는 잡음 신호로 변화시키는 블록을 나타내고, 'T2'로 표시되는 블록은 분석된 잡음 신호를 기초로 수신된 음성 신호 S(t)를 명료도가 향상된 음성 신호
Figure 112007001385413-PAT00003
으로 강화시키는 블록을 나타낸다.
음성 신호 변환부(203)는 입력된 음성 신호를 비음성, 무성음 및 유성음으로 분류하고, 분류 결과와 잡음의 밴드(band) 별 에너지 정보를 이용하여 입력된 음성 신호를 강화하게 된다.
측정부(204)는 T1 블록을 이용하여 시간 영역에서의 잡음 신호를 주파수 영 역에서의 잡음 신호로 변화시키고, 잡음의 에너지를 밴드(band) 별로 분리한 후, 밴드 별 에너지 정보를 음성 신호 변환부(203)로 제공한다.
도 3은 본 발명의 일 실시예에 따른 음성 신호의 명료도를 향상시키는 장치의 구체적인 구조를 나타내는 도면이다.
도 3을 참조하면, 음성 신호의 명료도를 향상시키는 장치(200)는 음성 신호 분리 모듈(210), 프레임 세기 추출 모듈(220), 프레임 세기 조절 모듈(222), 밴드 세기 추출 모듈(230), 밴드 세기 조절 모듈(232), 프레임 세기 조절 모듈(234), 잡음 밴드 세기 추출 모듈(240), 잡음 프레임 세기 추출 모듈(242), 음성 신호 연결 모듈(250)을 포함한다.
음성 신호 분리 모듈(210)은 수신한 음성 신호를 비음성(silence), 무성음(unvoiced speech) 그리고 유성음(voiced speech)으로 분리한다.
프레임 세기 추출 모듈(220)은 소정의 시간 간격으로 나뉘어진 음성 프레임의 세기(power)를 추출한다.
프레임 세기 조절 모듈(222)은 잡음의 프레임 세기를 기초로 상기 추출된 음성 프레임의 세기를 조절한다.
밴드 세기 추출 모듈(230)은 음성의 밴드 세기(band power)를 추출하고, 밴드 세기 조절 모듈(232)은 잡음 밴드 세기를 기초로 추출된 밴드 세기를 조절한다. 프레임 세기 조절 모듈(234)은 잡음 프레임 세기를 기초로 상기 조절된 음성의 밴드 세기를 조절한다.
잡음 밴드 세기 추출 모듈(240)은 입력된 잡음 신호로부터 밴드 세기를 추출 하고, 잡음 프레임 세기 추출 모듈(242)은 잡음 프레임의 세기를 추출한다.
음성 신호 연결 모듈(250)은 비음성, 무성음 그리고 유성음으로 분리되었던 음성을 합쳐서 명료도가 향상된 음성 신호를 출력한다.
이하, 도 3에서 도시된 각 모듈들간의 동작을 구체적으로 설명하도록 한다.
우선 음성 신호 분리 모듈(210)로 입력되는 음성 신호는 윈도우 처리되어 입력된다. 윈도우 처리(window process)는 음성 신호 처리 분야에서 일반적으로 사용하는 방법으로서 수신된 음성 신호를 일정한 시간 간격의 프레임으로 나누는 것을 의미한다. 예를 들어, 프레임 크기(frame size)를 32ms로 하고, 16ms 마다 오버랩(overlap)되도록 윈도우 처리를 수행할 수 있는 것이다.
음성 신호 분리 모듈(210)로 프레임 단위의 음성 신호가 입력되면 입력된 음성 신호는 비음성, 무성음 그리고 유성음으로 분리된다. 비음성, 무성음 그리고 유성음 각각은 잡음에 영향을 받는 정도가 다르기 때문에 미리 분리를 하여 각각 처리를 하기 위함이며, 이후 음성 신호 연결 모듈(250)에 의해 다시 합쳐지게 된다.
음성을 세 부분(비음성, 무성음, 유성음)으로 나누기 위해 신호의 에너지(energy), 신호의 자기상관 계수(autocorrelation coefficient) 그리고 신호의 제로 크로싱 비율(zero-crossing rate)과 같은 세가지 특성을 이용하였으며, 도 4a에서는 신호의 에너지(energy) 특성을, 도 4b에서는 신호의 자기상관 계수(autocorrelation coefficient) 특성을, 도 4c에서는 신호의 제로 크로싱 비율(zero-crossing rate) 특성을 도시하고 있다.
한편, 신호의 에너지는 [수학식 1]과 같이, 신호의 자기상관 계수는 [수학식 2]와 같이 표현될 수 있다.
Figure 112007001385413-PAT00004
Figure 112007001385413-PAT00005
[수학식 1] 및 [수학식 2]에서 s(n)은 샘플링되어 디지털화된 음성 신호를 나타내고, N은 프레임 크기를 나타낸다.
도 4a를 참조하면, 에너지의 경우 비음성 부분이 제일 작게 나타나고 무성음, 유성음 순으로 큰값을 가지게 된다.
도 4b를 참조하면, 자기상관 계수(autocorrelation coefficient)는 무성음이 제일 작게 나타나고 비음성, 유성음 순으로 나타나게 된다.
도 4c를 참조하면, 제로 크로싱은 유성음이 제일 작게 나타나고 비음성, 무성음 순으로 큰 값을 가지게 된다.
이러한 특징을 이용하기 위해 미리 유성음, 무성음, 비음성으로 분류된 데이 터 베이스를 이용하여 각각의 분류마다 에너지, 제로 크로싱 비율, 그리고 자기상관 계수(autocorrelation coefficient)의 평균과 분산 행렬(covariance matrix)를 구하는 학습을 시킨다.
이 학습 결과와 송신 측에서 보낸 음성 신호의 세가지 특성(에너지, 제로 크로싱 비율, 그리고 자기상관 계수)을 이용하여 현재 음성신호를 세 부분(비음성, 유성음, 무성음)으로 분리하게 되는 것이다.
입력된 음성을 비음성, 무성음, 유성음으로 나누는 보다 구체적인 방법은 논문 [Bishnu S. Atal, and Lawrence R. Rabiner "A Pattern Recognition Approach to Voiced-Unvoiced-Silence Classification with Applications to Speech Recognition" IEEE Transactions on Acoustics, Speech, and Signal Processing, vol.ASSP-24, no.3, june 1976]을 참조할 수 있으며, 음성을 비음성, 무성음 그리고 유성음으로 분리하는 어떠한 종래 기술도 본 발명에 적용이 가능하다.
분리된 음성 중에서 비음성은 송신 측의 화자가 말을 하고 있지 않는 경우로서 이 경우는 아무런 처리가 필요없게 된다.
분리된 음성 중에서 무성음은 도 5에 도시된 플로우 차트에서와 같이 처리되고, 유성음은 도 6에 도시된 플로우 차트에서와 같이 처리된다.
우선, 도 3 및 도 5를 참조하면, 프레임 세기 추출 모듈(220)은 분리된 무성음 음성 신호에 대하여 고속 푸리에 변환(Fast Fourie Transform, 이하 'FFT'라 칭하기로 함)을 수행한다(S520).
예를 들어, FFT 이전의 음성 신호를 [수학식 3]과 같이 표현하면, FFT 이후 의 음성 신호는 [수학식 4]와 같이 표현될 수 있다.
Figure 112007001385413-PAT00006
Figure 112007001385413-PAT00007
이 때, [수학식 3]과 [수학식 4]에서 L=2M의 관계를 갖게 되는데, 이는 변환된 주파수 영역에서의 신호는 복소 공액(complex conjugate) 관계로서 대칭인 신호로 표현되기 때문에 신호 처리 분야에서는 L개를 사용하지 않고 L/2 (=M)개만 사용하기 때문이다. 또한, M개의 신호 중에서 인덱스가 0인 신호는 직류 성분으로서 신호 처리에는 사용되지 않으므로 실제로 주파수 영역에서 사용되는 신호는 하나의 프레임당 M-1 개가 되는 것이다.
예를 들어 프레임 크기가 32ms 인 경우, 16kHz의 샘플링 주파수를 이용한다면 512 포인트의 FFT가 수행되므로 L=512, M=216이 되며, 실제로 주파수 영역에서 사용되는 신호는 32ms 크기의 프레임의 경우 215개가 되는 것이다.
그리고 나서, 프레임 세기 조절 모듈(222)은 신호 대 잡음비(Signal to Noise Ratio, 이하, 'SNR'이라 칭하기로 한다)를 연산하는데, SNR은 [수학식 5]와 같이 표현될 수 있다(S530).
Figure 112007001385413-PAT00008
여기에서,
Figure 112007001385413-PAT00009
,
Figure 112007001385413-PAT00010
로 정의되며 Ps는 음성 신호의 세기를 나타내고, Pn는 잡음 신호의 세기를 나타낸다. Ps는 프레임 세기 추출 모듈에 의해 연산되어 제공될 수 있고, Pn은 잡음 신호에 대하여 윈도우 처리 및 S520 단계와 동일한 방법을 이용하여 잡음 프레임 세기 추출 모듈(242)에 의해 제공될 수도 있다.
이 때, 프레임 세기 조절 모듈(222)은 음성 프레임 세기와 잡음 프레임 세기를 비교하여(S540) 음성 세기가 잡음 세기보다 큰 경우, 즉, SNR이 1보다 큰 경우에는 프레임 세기를 조절하기 위해 제1 연산을 수행하고(S550), 그렇지 않은 경우에는 제2 연산을 수행한다(S560).
제1 연산과 제2 연산은 각각 프레임 세기를 조절하는 세기 이득(power gain)을 얻기 위한 것으로서, 세기 이득을 G라고 하면, 제1 연산의 경우 [수학식 6]과 같이, 제2 연산의 경우 [수학식 7]과 같이 연산될 수 있다.
Figure 112007001385413-PAT00011
Figure 112007001385413-PAT00012
상기 제1 연산 또는 제2 연산에 의해 강화된 무성음은 [수학식 8]과 같이 표현될 수 있다.
Figure 112007001385413-PAT00013
[수학식 6]과 [수학식 7]을 살펴보면, 현재의 음성 신호 구간 즉, 현재의 프레임에 무성음이 존재하는 경우, 무성음의 신호 세기가 수화자 측 주변의 잡음 세기보다 큰 경우에는 그대로 무성음의 신호 세기를 유지하고, 그렇지 않은 경우에는 주변의 잡음 세기만큼 무성음의 신호 세기를 증가시키는 것으로 이해될 수 있다.
이와 같이 프레임 세기 조절 모듈(222)이 제1 연산 또는 제2 연산을 통하여 프레임 세기를 조절하게 되면 주파수 영역에서의 강화된 음성 신호가 생성되고, 다시 역 FFT(Reverse FFT)에 의해 시간 영역에서의 강화된 음성 신호로 변환되어 음성 신호 연결 모듈(250)로 제공된다.
한편, 분리된 음성 중에서 유성음은 도 6에 도시된 플로우 차트에서와 같이 처리된다.
우선, 도 3 및 도 6을 참조하면, 밴드 세기 추출 모듈(230)은 분리된 유성음 음성 신호에 대하여 FFT를 수행한다(S620). FFT 이전의 음성 신호와 FFT 이후의 음성 신호는 [수학식 3]과 [수학식 4]와 같이 표현될 수 있다.
그리고 나서, FFT에 의한 주파수 영역에서의 음성 신호를 멜 스케일(Mel scale)로 밴드(band)를 구성한다(S630). 예를 들어, FFT에 의한 주파수 영역에서의 음성 신호가 i개의 주파수 성분을 갖는 경우, 첫번째 주파수 성분을 제1 밴드로 하고, 두번째 주파수 성분을 제2 밴드로 하고, 세번째와 네번째 주파수 성분을 제3 밴드로 하는 것과 같은 방식으로 i개의 주파수 성분을 n개의 밴드(단, n는 i보다 작거나 같음)로 구분하는 것을 의미한다. 즉, 본 발명에서의 밴드(band)는 주파수 그룹으로 이해될 수 있다. 이와 같은 방식으로 잡음 신호에 대해서도 n개의 밴드를 구성할 수 있다.
그리고 나서, 밴드 세기 조절 모듈(232)은 SNR 및 밴드 이득(band gain)을 연산하는데(S640), SNR은 [수학식 5]와 같이 표현될 수 있고, 밴드 이득은 각각의 밴드별로 [수학식 9]와 같이 표현될 수 있다.
Figure 112007001385413-PAT00014
여기서
Figure 112007001385413-PAT00015
는 실험을 통해 결정되는 상수를 나타내고,
Figure 112007001385413-PAT00016
는 i번째 밴드를 구성하는 주파수 성분들을 나타내는 인덱스 b의 집합을 나타낸다. 본 발명에서의 밴드는 멜 스케일(Mel scale)로 구성되었기 때문에 밴드의 크기는 모두 다른 값을 갖을 수 있다. 그리고, 잡음 신호에 대한 밴드별 세기는 잡음 밴드 세기 추출 모듈(240)에 의해 제공될 수 있다.
이 때, 밴드 세기 조절 모듈(232)은 [수학식 9]에 의해 얻은 각 밴드별 밴드 이득에 따라 음성 신호를 증폭시키는데, 밴드별 밴드 이득의 조절에 의해 변환된 음성 신호의 프레임 세기는 [수학식 10]과 같이 정의될 수 있다.
Figure 112007001385413-PAT00017
프레임 세기 조절 모듈(234)은 음성 프레임 세기와 잡음 프레임 세기를 비교함으로써(S650) 상기 증폭된 음성 신호를 처리하게 된다.
만일, 음성 프레임 세기가 잡음 프레임 세기보다 큰 경우, 즉, SNR이 1보다 큰 경우에는 프레임 세기를 조절하기 위해 제3 연산을 수행하고(S660), 그렇지 않은 경우에는 제4 연산을 수행한다(S670).
제3 연산과 제4 연산은 각각 프레임 세기를 조절하는 세기 이득(power gain)을 얻기 위한 것으로서, 세기 이득을 G'라고 하면, 제3 연산의 경우 [수학식 11]과 같이, 제4 연산의 경우 [수학식 12]와 같이 연산될 수 있다.
Figure 112007001385413-PAT00018
Figure 112007001385413-PAT00019
즉, 현재 프레임에서 음성의 세기가 잡음의 세기보다 크면 원래 음성의 세기를 유지하도록 각 i번째 밴드에 [수학식 11]에서의 이득
Figure 112007001385413-PAT00020
을 곱하고, 그렇지 않은 경우에는 [수학식 12]에서의 이득
Figure 112007001385413-PAT00021
을 곱한다.
특히, 잡음의 세기가 음성의 세기보다 크게 되면 잡음 신호에 의해 음성이 마스킹되는 현상이 일어난다. 이러한 마스킹 현상을 피하기 위해서는 음성 신호의 세기를 높여야 하는데 잡음의 세기만큼 음성의 세기를 높이면 마스킹 현상이 완화될 수 있다.
따라서, 음성 신호의 세기를 잡음의 세기만큼 높이기 위해 음성의 각 i번째 밴드에 [수학식 12]에서의 이득
Figure 112007001385413-PAT00022
을 곱하고, 이로 인하여 잡음 환경에서도 수신되는 음성의 명료도가 향상되는 것이다.
상기 제3 연산 또는 제4 연산에 의해 강화된 유성음은 [수학식 13]과 같이 표현될 수 있다.
Figure 112007001385413-PAT00023
이와 같이 프레임 세기 조절 모듈(234)이 제3 연산 또는 제4 연산을 통하여 프레임 세기를 조절하게 되면 주파수 영역에서의 강화된 음성 신호가 생성되고, 다시 역 FFT(Inverse FFT)에 의해 시간 영역에서의 강화된 음성 신호로 변환되어 음성 신호 연결 모듈(250)로 제공된다.
한편, 본 명세서에서는 휴대용 단말기를 실시예로서 설명하고 있으나, 본 발명의 기술적 사상은 이에 한정되는 것이 아니며, 음성 신호가 제공되는 각종 단말기, 전자 제품 등에 적용가능하다. 예를 들어 텔레비전을 통하여 뉴스 프로그램을 시청할 때 주변 잡음이 심한 경우 상기 텔레비전에 대하여 본 발명의 적용이 가능하다.
또한, 본 명세서에서 언급되는 '모듈'이라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어 드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
본 발명을 따르게 되면 수화자 측 주위에 많은 잡음이 존재하더라도 전송되는 음성 신호의 명료도를 향상시킴으로써 상대방의 음성을 보다 쉽게 인식할 수 있는 효과가 있다.

Claims (16)

  1. 수신자 환경의 배경 잡음 신호를 분석하는 측정부;
    수신된 음성 신호를 비음성, 무성음 및 유성음으로 분류하고, 상기 분류 결과 및 상기 배경 잡음 신호에 대한 분석 결과를 기초로 상기 수신된 음성 신호를 강화하는 음성 신호 변환부; 및
    상기 강화된 음성 신호를 출력하는 스피커를 포함하는 음성 신호의 명료도를 향상시키는 장치.
  2. 제1항에 있어서,
    상기 수신된 음성 신호가 비음성인 경우, 상기 음성 신호 변환부는 상기 수신된 음성 신호를 그대로 상기 스피커로 전달하는, 음성 신호의 명료도를 향상시키는 장치.
  3. 제1항에 있어서,
    상기 수신된 음성 신호가 무성음인 경우, 상기 음성 신호 변환부는 상기 수신된 잡음 신호의 프레임 에너지 정보를 이용하여 상기 수신된 음성 신호를 강화하는, 음성 신호의 명료도를 향상시키는 장치.
  4. 제1항에 있어서,
    상기 수신된 음성 신호가 유성음인 경우, 상기 음성 신호 변환부는 상기 수신된 잡음 신호의 밴드 별 에너지 정보를 이용하여 상기 수신된 음성 신호를 강화하는, 음성 신호의 명료도를 향상시키는 장치.
  5. 제4항에 있어서,
    상기 음성 신호 변환부는 상기 수신된 잡음 신호의 프레임 에너지 정보를 이용하여 상기 수신된 음성 신호를 강화하는, 음성 신호의 명료도를 향상시키는 장치.
  6. 수신된 음성 신호를 비음성, 유성음 및 무성음으로 분리하는 음성 신호 분리 모듈;
    상기 수신된 음성 신호가 유성음인 경우, 상기 수신된 음성 신호의 밴드별 밴드 세기를 수신된 수신자 환경의 배경 잡음 신호의 밴드별 밴드 세기를 기초로 조절하는 밴드 세기 조절 모듈; 및
    상기 밴드 세기 조절 모듈에 의해 증폭된 음성 신호의 프레임 세기를 상기 배경 잡음 신호의 프레임 세기를 기초로 조절하는 제1 프레임 세기 조절 모듈을 포함하는, 음성 신호의 명료도를 향상시키는 장치.
  7. 제6항에 있어서,
    상기 수신된 음성 신호가 무성음인 경우, 상기 수신된 무성음 음성 신호의 프레임 세기를 상기 잡음 신호의 프레임 세기를 기초로 조절하는 제2 프레임 세기 모듈을 더 포함하는, 음성 신호의 명료도를 향상시키는 장치.
  8. 제6항에 있어서,
    상기 분리된 음성 신호를 연결하는 음성 신호 연결 모듈을 더 포함하는, 음성 신호의 명료도를 향상시키는 장치.
  9. 수신자 환경의 배경 잡음 신호를 분석하는 (a) 단계;
    수신된 음성 신호를 비음성, 무성음 및 유성음으로 분류하는 (b) 단계; 및
    상기 분석한 수신자 환경의 배경 잡음 신호를 기초로 하여 상기 분류된 무성음 또는 유성음을 강화하는 (c) 단계를 포함하는 음성 신호의 명료도를 향상시키는 방법.
  10. 제9항에 있어서,
    상기 수신된 음성 신호가 비음성인 경우, 상기 수신된 음성 신호를 그대로 스피커로 전달하는 (d) 단계를 더 포함하는 음성 신호의 명료도를 향상시키는 방법.
  11. 제9항에 있어서,
    상기 수신된 음성 신호가 무성음인 경우, 상기 (c) 단계는 상기 수신된 잡음 신호의 프레임 에너지 정보를 이용하여 상기 수신된 음성 신호를 강화하는 단계를 포함하는, 음성 신호의 명료도를 향상시키는 방법.
  12. 제9항에 있어서,
    상기 수신된 음성 신호가 유성음인 경우, 상기 (c) 단계는 상기 수신된 잡음 신호의 밴드 별 에너지 정보를 이용하여 상기 수신된 음성 신호를 강화하는 단계를 포함하는, 음성 신호의 명료도를 향상시키는 방법.
  13. 제12항에 있어서,
    상기 (c) 단계는 상기 수신된 잡음 신호의 프레임 에너지 정보를 이용하여 상기 수신된 음성 신호를 강화하는 단계를 더 포함하는, 음성 신호의 명료도를 향상시키는 방법.
  14. 수신된 음성 신호를 비음성, 유성음 및 무성음으로 분리하는 (a) 단계;
    상기 수신된 음성 신호가 유성음인 경우, 상기 수신된 음성 신호의 밴드별 밴드 세기를 수신된 수신자 환경의 배경 잡음 신호의 밴드별 밴드 세기를 기초로 조절하는 (b) 단계; 및
    상기 조절에 의해 증폭된 음성 신호의 프레임 세기를 상기 배경 잡음 신호의 프레임 세기를 기초로 조절하는 (c) 단계를 포함하는, 음성 신호의 명료도를 향상시키는 방법.
  15. 제14항에 있어서,
    상기 수신된 음성 신호가 무성음인 경우, 상기 수신된 무성음 음성 신호의 프레임 세기를 상기 잡음 신호의 프레임 세기를 기초로 조절하는 (d) 단계를 더 포함하는, 음성 신호의 명료도를 향상시키는 방법.
  16. 제14항에 있어서,
    상기 분리된 음성 신호를 연결하는 (e) 단계를 더 포함하는, 음성 신호의 명료도를 향상시키는 방법.
KR1020070001598A 2007-01-05 2007-01-05 음성 신호의 명료도를 향상시키는 장치 및 방법 KR101414233B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070001598A KR101414233B1 (ko) 2007-01-05 2007-01-05 음성 신호의 명료도를 향상시키는 장치 및 방법
US11/984,421 US9099093B2 (en) 2007-01-05 2007-11-16 Apparatus and method of improving intelligibility of voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070001598A KR101414233B1 (ko) 2007-01-05 2007-01-05 음성 신호의 명료도를 향상시키는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20080064557A true KR20080064557A (ko) 2008-07-09
KR101414233B1 KR101414233B1 (ko) 2014-07-02

Family

ID=39595026

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070001598A KR101414233B1 (ko) 2007-01-05 2007-01-05 음성 신호의 명료도를 향상시키는 장치 및 방법

Country Status (2)

Country Link
US (1) US9099093B2 (ko)
KR (1) KR101414233B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943597B2 (en) 2018-02-26 2021-03-09 Lg Electronics Inc. Method of controlling volume in a noise adaptive manner and apparatus implementing thereof

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
FR2932920A1 (fr) * 2008-06-19 2009-12-25 Archean Technologies Procede et appareil de mesure de l'intelligibilite d'un dispositif de diffusion sonore
US20120123769A1 (en) * 2009-05-14 2012-05-17 Sharp Kabushiki Kaisha Gain control apparatus and gain control method, and voice output apparatus
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
JP6482173B2 (ja) * 2014-01-20 2019-03-13 キヤノン株式会社 音響信号処理装置およびその方法
CN103915103B (zh) * 2014-04-15 2017-04-19 成都凌天科创信息技术有限责任公司 语音质量增强系统
US11443169B2 (en) * 2016-02-19 2022-09-13 International Business Machines Corporation Adaptation of model for recognition processing
US11587575B2 (en) * 2019-10-11 2023-02-21 Plantronics, Inc. Hybrid noise suppression
US11475869B2 (en) 2021-02-12 2022-10-18 Plantronics, Inc. Hybrid noise suppression for communication systems

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3894195A (en) * 1974-06-12 1975-07-08 Karl D Kryter Method of and apparatus for aiding hearing and the like
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
WO1997010586A1 (en) 1995-09-14 1997-03-20 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
GB9714001D0 (en) 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
JP2000022568A (ja) 1998-07-03 2000-01-21 Nippon Columbia Co Ltd 受信装置
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
DE60034212T2 (de) * 1999-01-07 2008-01-17 Tellabs Operations, Inc., Naperville Verfahren und vorrichtung zur adaptiven rauschunterdrückung
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7539614B2 (en) * 2003-11-14 2009-05-26 Nxp B.V. System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
JP4185866B2 (ja) 2004-01-14 2008-11-26 富士通株式会社 音響信号処理装置および音響信号処理方法
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US7426464B2 (en) * 2004-07-15 2008-09-16 Bitwave Pte Ltd. Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
KR101116363B1 (ko) * 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
US8484035B2 (en) * 2007-09-06 2013-07-09 Massachusetts Institute Of Technology Modification of voice waveforms to change social signaling

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943597B2 (en) 2018-02-26 2021-03-09 Lg Electronics Inc. Method of controlling volume in a noise adaptive manner and apparatus implementing thereof

Also Published As

Publication number Publication date
KR101414233B1 (ko) 2014-07-02
US9099093B2 (en) 2015-08-04
US20080167863A1 (en) 2008-07-10

Similar Documents

Publication Publication Date Title
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
US7035797B2 (en) Data-driven filtering of cepstral time trajectories for robust speech recognition
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
EP3038106B1 (en) Audio signal enhancement
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN108108357B (zh) 口音转换方法及装置、电子设备
CN108597505A (zh) 语音识别方法、装置及终端设备
US8364475B2 (en) Voice processing apparatus and voice processing method for changing accoustic feature quantity of received voice signal
Ganapathy et al. Temporal envelope compensation for robust phoneme recognition using modulation spectrum
CN111883135A (zh) 语音转写方法、装置和电子设备
US7917359B2 (en) Noise suppressor for removing irregular noise
Itoh et al. Environmental noise reduction based on speech/non-speech identification for hearing aids
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
JPH09179585A (ja) 音声認識をする方法とシステム
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
Hussain et al. A Novel Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
CN113012684A (zh) 一种基于语音分割的合成语音检测方法
VH et al. A study on speech recognition technology
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
US20230217194A1 (en) Methods for synthesis-based clear hearing under noisy conditions
KR20040073145A (ko) 음성인식기의 성능 향상 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170522

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180518

Year of fee payment: 5