KR20170129211A - 음성 신호를 처리하기 위한 방법 및 장치 - Google Patents

음성 신호를 처리하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20170129211A
KR20170129211A KR1020177029724A KR20177029724A KR20170129211A KR 20170129211 A KR20170129211 A KR 20170129211A KR 1020177029724 A KR1020177029724 A KR 1020177029724A KR 20177029724 A KR20177029724 A KR 20177029724A KR 20170129211 A KR20170129211 A KR 20170129211A
Authority
KR
South Korea
Prior art keywords
signal
power spectrum
recorded
calculating
power
Prior art date
Application number
KR1020177029724A
Other languages
English (en)
Other versions
KR101981879B1 (ko
Inventor
하오레이 위안
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20170129211A publication Critical patent/KR20170129211A/ko
Application granted granted Critical
Publication of KR101981879B1 publication Critical patent/KR101981879B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

단말기의 기술 분야에 관련된, 음성 신호를 처리하기 위한 방법 및 장치가 개시된다. 음성 신호를 처리하기 위한 방법은 : 기록 신호 ―기록 신호는 적어도 잡음 신호 및 에코 신호를 포함함― 및 음성 신호를 획득하는 단계(301); 기록 신호 및 음성 신호에 따라 루프 전달 함수를 계산하는 단계(302); 기록 신호, 음성 신호, 및 루프 전달 함수에 따라, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계(303); 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계(304); 주파수 가중 계수에 기초하여 음성 신호의 주파수 채널 번호 진폭 값을 조정하는 단계(S305); 및 조정된 음성 신호를 출력하는 단계(306)를 포함한다. 음성 신호를 처리하기 위한 방법 및 장치에서, 스피커가 과부하되지 않고 원래의 방송 신호의 동적 진폭이 손상되지 않도록 보장하는 것을 전제로, 방송 신호의 주파수 채널 번호 진폭 값이 잡음 신호 및 방송 신호의 주파수 분포에 따라 자동으로 조정됨으로써, 음성 명료도를 현저하게 향상시킨다.

Description

음성 신호를 처리하기 위한 방법 및 장치
본 출원은, 참조에 의해 그 전체 내용이 본 명세서에 포함되는, 2015년 11월 4일 중국 특허청에 출원된 발명의 명칭이 "METHOD AND APPARATUS FOR PROCESSING VOICE SIGNAL"인 중국 특허 출원 제201510741057.1호에 대한 우선권을 주장한다.
본 개시 내용은 단말기 기술 분야에 관한 것으로, 특히, 음성 신호 처리 방법 및 장치에 관한 것이다.
음성 명료도(speech intelligibility)는 사용자가 사운드 시스템으로부터 전달된 음성 신호를 이해하는 백분율을 의미한다. 예를 들어, 사운드 시스템이 100 단어를 전송하지만 사용자가 50 단어만 이해했다면, 시스템의 음성 명료도는 50%이다. 휴대형 모바일 단말기가 점차 소형화됨에 따라, 모바일 단말기에 의해 출력될 수 있는 최대 사운드 출력이 점차적으로 감소한다. 따라서, 모바일 단말기를 이용하는 사용자의 통신 동안에 음성 명료도는 영향을 받는다. 음성 명료도는 모바일 단말기의 성능을 측정하는데 있어서 중요한 지표이다. 따라서, 모바일 단말기가 음성 신호를 처리하여 음성 명료도를 향상시키는 방법이 모바일 단말기의 개발에 대한 열쇠가 된다.
현재, 모바일 단말기, 사용자 및 잡음 소스를 포함하는 일반적인 음향 응용 시나리오에서, 자동 이득 제어 알고리즘을 이용함으로써 음성예정 신호가 검출되고, 음성예정 신호 내의 작은 신호가 증폭되고, 증폭된 신호는 전기 신호로 변환되고, 전기 신호는 스피커에 전달된다. 증폭된 후, 스피커로 전송된 전기 신호는 스피커에 의해 허용되는 최대 값에 도달한다. 스피커가 최대 출력에 기초하여 동작할 때, 스피커는 최대 출력 음압 레벨에서 음성 신호를 출력한다.
본 개시내용의 구현 프로세스에서, 발명자는 관련 기술이 적어도 다음과 같은 문제점을 갖는다는 것을 발견했다 :
일반적으로, 음성 신호의 평균 변동 진폭은 피크 변동 진폭보다 훨씬 작다. 정상적인 음성 신호에 의한 여기 동안, 정상적으로 동작할 때, 최대 정격 출력이 1 와트인 스피커는 일반적으로 최대 정격 출력의 약 10 %(즉, 0.1W)에 불과한 평균 출력을 갖는다. 정상 동작 상태에서, 스피커에 입력되는 전기 신호의 진폭이 더 증가되면, 음성 신호에서 큰 진폭을 갖는 신호 부분은 스피커에 과부하를 야기하여 포화된 왜곡을 초래하고, 음성 명료도 및 선명도를 감소시킨다. 또한, 음성 신호의 작은 신호만이 증폭된다면, 음성 신호의 유효 동적 범위가 좁아진다. 따라서, 음성 명료도는 크게 향상될 수 없다.
관련 기술의 문제점을 해결하기 위해, 본 출원의 실시예들은 음성 신호 처리 방법 및 장치를 제공한다. 기술적 해결책은 다음과 같다:
한 양태에 따르면, 음성 신호 처리 방법이 제공되며, 이 방법은 다음과 같은 단계들을 포함한다:
적어도 잡음 신호 및 에코 신호를 포함하는 기록된 신호, 및 음성 신호를 획득하는 단계;
상기 기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
상기 기록된 신호, 상기 음성 신호, 및 상기 루프 전달 함수에 따라, 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼을 계산하는 단계;
상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계;
상기 주파수 가중 계수에 기초하여 상기 음성 신호의 주파수 진폭을 조정하는 단계; 및
상기 조정된 음성 신호를 출력하는 단계.
또 다른 양태에 따르면, 음성 신호 처리 장치가 제공되며, 이 장치는:
적어도 하나의 프로세서; 및
상기 프로세서에 의해 실행될 때, 동작들을 수행하도록 상기 장치를 구성하는 프로그램 명령어를 저장한 메모리를 포함하고, 상기 동작들은 다음과 같은 단계들을 포함한다:
적어도 잡음 신호 및 에코 신호를 포함하는 기록된 신호 및 음성 신호를 획득하는 단계;
상기 기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
상기 기록된 신호, 상기 음성 신호, 및 상기 루프 전달 함수에 따라, 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼을 계산하는 단계;
상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계;
상기 주파수 가중 계수에 기초하여 상기 음성 신호의 주파수 진폭을 조정하는 단계; 및
상기 조정된 음성 신호를 출력하는 단계.
본 출원의 실시예들에서 제공되는 기술적 해결책은 다음과 같은 유익한 효과를 가져온다 :
음성 신호의 주파수 진폭은, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 붕괴되지 않는 것을 보장하면서 잡음 신호 및 음성 신호의 상대적인 주파수 분포에 따라 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
본 출원의 실시예들의 기술적 해결책을 더욱 명확하게 설명하기 위해, 실시예들을 예시하기 위한 첨부된 도면들이 이하에서 간략하게 설명된다. 명백히, 이하의 설명에서의 도면들은 본 출원의 일부 실시예일 뿐이며, 본 기술분야의 통상의 기술자라면 창조적인 노력없이 첨부된 도면들에 기초하여 다른 도면들을 도출할 수 있을 것이다.
도 1은 본 출원의 한 실시예에 따른 음성 신호 처리 방법의 구현 환경의 개략도이다;
도 2는 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법의 시스템 아키텍쳐의 도면이다;
도 3은 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법의 플로차트이다;
도 4는 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법의 플로차트이다;
도 5는 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법에 대응하는 신호 흐름의 개략도이다;
도 6는 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법의 플로차트이다;
도 7은 본 출원의 또 다른 실시예에 따른 음성 신호 처리 장치의 개략적 구조도이다;
도 8은 본 출원의 또 다른 실시예에 따른 음성 신호 처리 단말기의 개략적 구조도이다.
본 개시내용의 목적, 기술적 해결책, 및 이점을 더욱 명확하게 하기 위해, 첨부된 도면들을 참조하여 본 출원의 실시예들을 상세히 설명한다. 명백하게, 설명된 실시예들은 본 출원의 모든 실시예가 아니라 일부의 실시예들일 뿐이다. 창조적 노력없이 본 출원의 실시예들에 기초하여 본 기술분야의 통상의 기술자에 의해 얻어지는 다른 모든 실시예들은 본 출원의 보호 범위 내에 든다.
음성 인스턴트 메시징 애플리케이션(App)은, VoIP(Voice over Internet Protocol) 통화 또는 네트워크 음성 회의를 하는데 이용될 수 있는 애플리케이션이며, 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 및 착용형 전자 제품 등의 모바일 단말 디바이스에 널리 설치된다. 모바일 단말기가 점차적으로 소형화됨에 따라, 모바일 단말 디바이스 내의 마이크로 스피커에 의해 출력될 수 있는 최대 사운드 파워는 병목 현상을 겪는다.
모바일 단말 디바이스에 의해 출력되는 최대 사운드 파워가 병목 현상에 직면하는 주된 이유들로는 다음과 같은 2가지 양태를 포함한다 :
제1 양태에서, 기존의 전기-음향 증폭 기술에 따르면, 음파는 주로 3개의 부분: 전력 증폭기, 스피커, 및 스피커 박스에 따라 생성된다. 모바일 단말 디바이스의 스피커는, 스피커와 스피커 박스의 물리적 크기가 음파의 파장에 정비례하는 경우에만 가능한 한 효율적으로 전기-대-사운드 변환을 구현할 수 있다. 그러나, 휴대형 모바일 디바이스가 점차 소형화됨에 따라, 모바일 단말기의 크기는 대개 음파의 파장보다 훨씬 작다. 예로서 파장이 340 Hz인 음파를 이용하면, 가능한 한 효율적으로 사운드-대-전기 변환을 구현하려면, 모바일 단말기의 크기가 적어도 1 미터가 될 필요가 있다. 따라서, 스피커의 소형화는 모바일 단말기에 의해 출력되는 최대 사운드 파워를 감소시킨다. 또한, 현재 흔하게 이용되는 가동 코일 스피커(moving coil speaker)는 진동판(diaphragm)이 충분한 움직임 공간을 갖도록 보장하는 소정의 두께를 가질 필요가 있다. 그러나, 모바일 단말기가 점차적으로 소형화되고 더 얇아짐에 따라, 모바일 단말기에서의 일체형 음향 설계는 물리적 크기에 의해 제한된다. 결과적으로, 모바일 단말기에 의해 출력되는 최대 사운드 파워가 제한된다.
제2 양태에서, 모바일 단말기에 설치된 음성 인스턴트 메시징 앱은 일반적으로 운영 체제에서 실행되며, 하드웨어 음량 제어는 운영 체제에 의해 제공되는 애플리케이션 프로그래밍 인터페이스(Application Programming Interface; API)를 이용하여 구현될 필요가 있다. 오디오 입력 및 출력의 경우, 현재 주류 구현 방법은 다음과 같다: 음성 인스턴트 메시징 앱은 운영 체제에게 오디오 구성 모드가 요구된다는 것을 통보한다. 운영 체제는 관련된 하드웨어를 구성한다. 구성이 완료된 후, 음성 인스턴트 메시징 앱은 음성 신호에 대응하는 데이터를 운영 체제의 기록 API에 정기적으로 기록하고, 운영 체제의 기록 API로부터 데이터를 판독한다. 그러나, 운영 체제에 의해 지원되는 오디오 구성 모드들의 타입들은 제한되어 있다. 제한된 오디오 구성 모드들은 모바일 단말기 제조사에 의해 하드웨어 최하위 계층(펌웨어)에서 구현된다. 앱의 하드웨어 출력 음량 조절은 이러한 요인에 의해 제한된다. 또한, 하드웨어 벤더(vendor)는 대개 통상적인 이용 시나리오에 대해서만 최하위 계층 오디오 최적화를 수행하고, 모바일 단말기 제조사는 일반적으로 극한적인 환경(예를 들어, 큰 주변 잡음이 있는 환경)에서의 이용 시나리오에 대한 목표된 최적화를 수행하지 않는다(예를 들어, 모바일 단말기 제조사는 일반적으로 하드웨어 출력 음량을 증가시킬 수 있는 전용 소프트웨어 인터페이스를 제공하지 않는다).
출력 음량을 내림차순으로 배열하면, 흔한 모바일 단말기는 : 노트북 컴퓨터, 태블릿 컴퓨터, (핸즈프리 모드의) 스마트폰, 착용형 디바이스 등이다. 그러나, 모바일 단말기를 이용하는 통신 동안에, 모바일 단말기에 의해 수신되는 주변 잡음의 문제는 역으로 변화한다 : 대개, 노트북 컴퓨터는 실내에서 빈번하게 이용되며, 노트북 컴퓨터에서 수신되는 잡음은 주로 실내의 저-데시벨의 작은 소음이다; 태블릿 컴퓨터와 스마트폰은 공공 장소와 같은 실외에서 빈번하게 이용되며, 태블릿 컴퓨터와 스마트폰에 의해 수신되는 잡음은 주로 높은-데시벨의 큰 소음이다; 착용형 디바이스는 신체에 장시간 착용되고 대부분의 소음 시나리오에서 이용되며 착용형 디바이스에 의해 수신되는 잡음은 가장 복잡하다. 모바일 단말기가 점차 소형화됨에 따라, 모바일 단말기에 의해 수신되는 주변 잡음의 문제는 더욱 명백해지고, 이것은 모바일 단말기를 이용한 통신 동안 사용자 경험에 상당한 영향을 미친다.
모바일 단말기에 의해 출력되는 최대 사운드 파워가 병목 현상에 직면하게 되는 문제점을 해결하기 위해, 본 출원의 실시예들은, 모바일 단말기의 하드웨어를 변경하지 않고 음성 신호를 처리함으로써 음성 명료도를 향상시키는 방법을 제공한다. 본 출원의 실시예들에서 제공되는 방법에 따르면, 잡음이 많은 시나리오에서도, 모바일 단말기 사용자는 통화 중에 피어단(peer end)의 음성 내용을 여전히 분명하게 들을 수 있다.
도 1은 본 출원의 한 실시예에 따른 음성 신호 처리 방법 및 장치의 구현 환경의 개략도이다. 도 1을 참조하면, 구현 환경은 3개의 음향 엔티티 : 모바일 단말기(P), 사용자(U), 및 잡음 소스(N)를 포함하고, 사운드 출력 및 입력 디바이스들 : 스피커(S) 및 마이크로폰(M)을 더 포함한다. 모바일 단말기(P)는, 하나 이상의 음성 인스턴트 메시징 앱이 설치된 모바일 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 착용형 디바이스 등일 수 있다. 음성 인스턴트 메시징 앱에 기초하여, 사용자는 언제 어디서나 다른 사용자와 통신할 수 있다. 스피커(S) 및 마이크로폰(M)은 모바일 단말기에 내장될 수 있고, 외부 사운드 박스, 외부 스피커, Bluetooth 스피커, 또는 Bluetooth 헤드셋 등의 외부 디바이스로서의 모바일 단말기에 접속될 수 있다. 마이크로폰(M)은, 잡음 소스(N)에 의해 방출된 잡음, 사용자(U)의 말하는 음성, 및 스피커(S)에 의해 재생된 사운드를 포함한 사운드를 전체 시나리오에서 픽업할 수 있다. 사용자가 음성 인스턴트 메시징 소프트웨어를 이용하여 피어단의 사용자와 통신할 때, 모바일 단말기는 피어단에 의해 전송된 재생될 (구분을 위해 이하에서는 음성 신호라고 간단하게 지칭되는) 재생예정 음성 신호를 수신한다. 음성 신호는, 처리된 후, 스피커에 의해 음파로 변환되고, 공기에 의해 사용자(U)에게 전달되고, 사용자(U)에 의해 감지된다. 동시에, 잡음 소스(N)에 의해 방출된 음파는 사용자(U)에게 전달되고 또는 사용자(U)에 의해 감지된다. 잡음 소스(N)에 의해 방출된 음파는 사용자(U)를 간섭하고, 모바일 단말기의 음성 명료도를 저하시킨다.
음향 분야에서, 음향심리학적 마스킹 효과 원리에 따르면, 주파수는 비슷하지만 진폭이 크게 다른 2개의 신호가 동시에 나타날 때, 진폭이 더 큰 신호는 진폭이 더 작은 신호를 마스킹한다. 즉, 잡음 소스(N)에 의해 방출되는 잡음이 강할 때, 사용자(U)는 스피커(S)에 의해 재생되는 음성 내용을 명확하게 들을 수 없다. 이 경우, 스피커(S)의 출력을 높이려면, 스피커(S)는 더 큰 물리적 크기를 가질 필요가 있고, 이것은 모바일 단말기의 소형화, 경량화, 및 박형화의 설계와 상충된다. 이에 비추어, 본 개시내용에서는, 음향심리학적 마스킹 효과를 이용하여 잡음 신호에 의해 야기되는 음성 신호에 대한 간섭 문제가 해결된다.
일반적으로, 음성 신호 및 잡음 신호는 단일-주파수 신호가 아니고, 이들은 각각 상이한 대역 범위를 점유하며, 주파수에서의 그들의 에너지 분포는 균일하지 않다. 잡음 신호에서 에너지가 가장 약한 f_weak로서 기록된 주파수는, 음성 신호와 잡음 신호의 파워 스펙트럼을 비교함으로써 발견될 수 있다. 이 실시예에서, 스피커의 출력 전력이 초과되지 않는 조건 하에서, 음성 신호는 에너지가 f_weak 근처에 집중되어 재생된다; 또한, 스피커가 과부하되는 것을 방지하기 위해 주파수 f_weak로부터 멀리 떨어진 음성 신호의 에너지는 감쇠된다. 이러한 처리 방식에서, f_weak 부근의 주파수에서, 잡음 신호는 음성 신호에 의해 마스킹되고, 음성 신호의 내용은 사용자에 의해 감지된다. f_weak로부터 멀리 떨어진 주파수에서, 음성 신호는 여전히 잡음 신호에 의해 마스킹된다. 결론적으로, 강화된 음성 신호는 일부 주파수에서 잡음 신호를 마스킹하여, 잡음이 전체 음성 신호를 마스킹하지 않게 하고, 이 경우 사용자는 음성 신호의 내용을 명확하게 들을 수 있다.
도 2는 본 출원에 따른 음성 신호 처리 방법의 시스템 아키텍쳐의 도면이다. 도 2를 참조하면, 시스템 아키텍쳐는, 사용자(U), 스피커(S), 마이크로폰(M), 및 다양한 기능 모듈을 포함한다. 기능 모듈들은, 신호 검출 및 분류 모듈, 스펙트럼 추정 모듈, 루프 전달 함수 계산 모듈, 음성 명료도 추정 모듈 등을 포함한다. 스펙트럼 추정 모듈은 구체적으로, 음성 활성도 검출 모듈, 잡음 파워 스펙트럼 모듈, 및 에코 파워 스펙트럼 모듈을 포함할 수 있다. 시스템의 모듈들의 기능들과 모듈들 사이의 관계는 다음과 같다:
마이크로폰(M)은, 이 실시예에서 (x로서 기록된) 기록된 신호라고 불리는 주변 사운드를 픽업하고, 기록된 신호 x를 신호 검출 및 분류 모듈에 전송하도록 구성된다.
신호 검출 및 분류 모듈은, 기록된 신호를 검출 및 분류하고, 3가지 타입의 신호 : 사용자(U)가 말할 때의 음성 신호(근단 신호 v로서 기록됨), 잡음 소스(N)에 의해 방출된 잡음 신호(잡음 신호 n으로서 기록됨), 스피커(S)가 사운드를 재생할 때 마이크로폰(M)에 의해 기록되는 신호(에코 신호 e로서 기록됨)를 출력한다.
스펙트럼 추정 모듈은, 잡음 신호의 파워 스펙트럼, 에코 신호의 파워 스펙트럼, 및 근단 신호의 파워 피쳐 값(power feature value)을 계산하도록 구성된다. 잡음 신호의 파워 스펙트럼은, Pn으로 표현될 수 있고, 에코 신호의 파워 스펙트럼은 Pe로 표현될 수 있고, 근단 신호의 파워 피쳐 값은
Figure pct00001
로 표현될 수 있다.
Figure pct00002
는 2가지 상태: 참과 거짓을 갖는다. = 참일 때, 이것은 현재 시점에 근단 신호가 있다는 것을 나타낸다, 즉, 사용자(U)가 말하고 있다는 것을 나타낸다;
Figure pct00004
= 거짓일 때, 이것은 현재 시점에 근단 신호가 없다는 것을 나타낸다, 즉, 사용자(U)가 말하고 있지 않거나, 잡음 신호 또는 에코 신호가 사용자(U)의 말하는 음성보다 분명히 더 크다는 것을 나타낸다.
루프 전달 함수 계산 모듈은, 음성 신호 y 및 마이크로폰에 의해 검출된 기록된 신호 x에 따라 경로 "주파수 가중 필터--스피커--음장--마이크로폰" 상에,
Figure pct00005
로서 기록된, 전달 함수를 계산하도록 구성된다.
음성 명료도 추정 모듈은,
Figure pct00006
,
Figure pct00007
, Pn, 및 Pe 따라 ("SII"라고도 알려진) 음성 명료도 지수를 결정하도록 구성되고, 또한 주파수 가중 필터(W)의 주파수 가중 계수를 계산하도록 구성된다.
도 2를 참조하면, 사용자, 모바일 단말기, 및 잡음 소스의 특정한 공간적 위치들은, 실제 응용 동안에 결정될 수 없고, 음성 신호 및 기록된 신호는 마이크로폰(M)의 위치가 아니라 사용자(U)의 귀 위치에서 SII를 최대화하도록 처리된다. 이 문제를 해결하기 위해, 이 실시예에서 제공된 방법에서는, 근사 처리가 적용된다. 이하의 설명의 용이성을 위해, 본 출원의 이 실시예에서, 스피커(S)와 사용자(U)의 귀 사이의 사운드 전달 경로의 길이는 h1로 표시되고, 잡음 소스(N)와 사용자 귀 사이의 사운드 전달 경로의 길이는 h2로 표시되고, 잡음 소스(N)과 마이크로폰(M) 사운드 전달 경로의 길이는 h3으로 표시되고, 사용자(U)의 입과 마이크로폰(M) 사이의 사운드 전달 경로의 길이는 h4로 표시되고, 마이크로폰(M)과 스피커(S) 사이의 사운드 전달 경로의 길이는 h5로 표시된다. 본 출원의 이 실시예에서 이용된 근사는 다음과 같다 :
(1). 마이크로폰에 의해 픽업된 잡음은 사용자에 의해 감지된 잡음과 거의 동일하다고 가정된다, 즉,
Figure pct00008
.
(2). 스피커로부터 나오고 마이크로폰에 의해 픽업되는 에코는 스피커에 의해 재생되고 사용자에 의해 감지되는 사운드와 거의 같다고 가정된다, 즉,
Figure pct00009
.
상기 근사 조건이 충족된다는 조건 하에서, 사용자(U)의 위치에서 최대 음성 명료도를 계산하는 문제는 마이크로폰(M)의 위치에서 최대 음성 명료도를 계산하는 문제로 변환될 수 있다.
상기 선택사항적 기술적 해결책들은 임의의 방식으로 결합되어 본 개시내용의 선택사항적 실시예들을 형성할 수 있다. 상세사항이 여기서 하나씩 더 설명되지는 않는다.
도 3은 본 출원의 한 실시예에 따른 음성 신호 처리 방법의 플로차트이다. 도 3을 참조하면, 이 실시예에서 제공되는 방법은 다음과 같은 단계들을 포함한다:
301. 기록된 신호 및 음성 신호를 획득한다, 예를 들어, 근단으로부터 기록된 신호를 수집하고, 피어단에 의해 전송된 음성 신호(즉, 음성 신호)를 수신한다. 기록된 신호는 적어도 잡음 신호 및 에코 신호를 포함한다.
302. 기록된 신호와 음성 신호에 따라 루프 전달 함수를 계산한다.
303. 기록된 신호, 음성 신호, 및 루프 전달 함수에 따라 에코 신호의 파워 스펙트럼과 잡음 신호의 파워 스펙트럼을 계산한다.
304. 에코 신호의 파워 스펙트럼과 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산한다.
305. 주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정한다.
306. 조정된 음성 신호를 출력한다.
본 출원의 이 실시예에서 제공되는 방법에 따르면, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 방해받지 않도록 보장하면서 잡음 신호와 음성 신호의 상대적인 주파수 분포에 따라 음성 신호의 주파수 진폭이 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
본 출원의 또 다른 실시예에서, 기록된 신호 및 음성 신호에 따른 루프 전달 함수를 계산하는 단계는 다음과 같은 단계들을 포함한다:
기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수를 계산하는 단계;
음성 신호의 주파수 영역 자기상관 함수를 계산하는 단계; 및
기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수 및 음성 신호의 주파수 영역 자기상관 함수에 따라 상기 루프 전달 함수를 계산하는 단계.
본 출원의 또 다른 실시예에서, 기록된 신호의 파워 스펙트럼은 다음과 같은 공식을 기록된 신호에 적용함으로써 계산된다 :
Figure pct00010
여기서, P x 는 기록된 신호의 파워 스펙트럼이고, X(n)은 n번째 시점에서 수집된 기록된 신호에 관해 푸리에 변환을 수행함으로써 획득된 벡터이고, .^2는 X(n) 내의 각각의 벡터 요소의 제곱을 구하는데 이용된다.
본 출원의 또 다른 실시예에서, 기록된 신호, 음성 신호, 및 루프 전달 함수에 따라 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계는, 다음과 같은 단계들을 포함한다:
기록된 신호의 파워 스펙트럼을 계산하는 단계;
루프 전달 함수 및 음성 신호에 따라 에코 신호의 추정된 스펙트럼 값을 계산하는 단계;
에코 신호의 추정된 스펙트럼 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하는 단계; 및
기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여, 잡음 신호의 파워 스펙트럼을 획득하는 단계.
본 출원의 또 다른 실시예에서, 에코 신호의 추정된 값의 제곱을 계산하기 전에, 에코 신호의 파워 스펙트럼을 획득하기 위해, 이 방법은 다음과 같은 단계들을 더 포함한다:
기록된 신호의 파워 피쳐 값, 음성 신호의 파워 피쳐 값, 및 에코 신호의 파워 피쳐 값을 계산하는 단계;
기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정하는 단계; 및
기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값이 제2 임계값보다 크고, 에코 신호의 파워 피쳐 값이 제3 임계값보다 클 때, 에코 신호의 추정된 스펙트럼 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하는 단계.
본 출원의 또 다른 실시예에서, 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득하기 전에, 이 방법은 다음과 같은 단계들을 더 포함한다:
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정하는 단계;
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 작을 때, 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득하는 단계.
본 출원의 또 다른 실시예에서, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계는 다음과 같은 단계들을 포함한다:
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성하는 단계; 및
에코 신호의 파워 스펙트럼이 변하지 않은 상태 하에서, 음성 명료도 지수의 최대 값에 따라 주파수 가중 계수를 획득하는 단계.
도 4는 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법의 플로차트이다. 도 4를 참조하면, 이 실시예에서 제공되는 방법은 다음과 같은 단계들을 포함한다.
401. 모바일 단말기는 근단으로부터의 기록된 신호를 수집하고 피어단에 의해 전송된 음성 신호를 수신한다.
근단은 모바일 단말기가 현재 위치해 있는 환경이다. 모바일 단말기에 의해 근단으로부터 기록된 신호를 수집하는 방식은 : 마이크로폰을 시작하는 단계, 마이크로폰을 이용하여 현재의 환경에서 사운드 신호를 수집하는 단계, 및 마이크로폰에 의해 수집된 사운드 신호를 기록된 신호로서 이용하는 단계를 포함하지만 이것으로 제한되는 것은 아니다. 기록된 신호는, 잡음 신호, 에코 신호, 근단 신호 등을 포함한다. 이 실시예에서, 기록된 신호는 x로 표시될 수 있고, 잡음 신호는 n으로 표시될 수 있고, 에코 신호는 e로 표시될 수 있으며, 근단 신호는 v로 표시될 수 있다.
피어단은 마이크로폰을 이용하여 피어단 사용자의 음성 신호를 수집하고, 수집된 음성 신호를 처리한 후 네트워크를 이용하여 수집된 음성 신호를 모바일 단말기에 전송한다. 모바일 단말기 상의 인스턴트 메시징 앱은 피어단에 의해 전송된 음성 신호를 수신하고, 피어단에 의해 음성 신호로서 전송된 음성 신호를 이용한다. 피어단은, 음성 인스턴트 메시징 앱을 이용하여 모바일 단말기와 통신하는 또 다른 모바일 단말기일 수 있다. 이 실시예에서, 음성 신호는 y로 나타낼 수 있다.
선택사항으로서, 음성 인스턴트 메시징 앱의 이용 적시성을 향상시키기 위해, 모바일 단말기 측의 마이크로폰은 미리설정된 시간 길이마다 한번씩 기록된 신호를 수집하고, 피어단측의 마이크로폰도 역시, 미리설정된 시간마다 한번씩 음성 신호를 수집하고, 수집된 음성 신호를 모바일 단말기에 전송한다. 미리설정된 시간 길이는, 10 밀리초(ms), 20 ms, 50 ms 등일 수 있다.
이 실시예에서, 근단으로부터 모바일 단말기에 의해 수집된 기록된 신호, 및 피어단에 의해 전송된 음성 신호는, 본질적으로 시간 영역 신호이다. 이하에서 계산의 용이성을 위해, 이 실시예에서 제공된 방법에 따라, 수집된 기록된 신호 및 수신된 음성 신호는 푸리에 변환 등의 방법을 이용하여 별도로 추가 처리되어, 시간 영역 형태의 기록된 신호를 주파수 영역의 기록된 신호로 변환하고, 시간 영역 형태의 음성 신호를 주파수 영역의 음성 신호로 변환한다. 이 실시예에서, 주파수 영역 형태의 기록된 신호는 이용된 푸리에 변환 포인트의 수와 동일한 벡터 길이를 갖는 열 벡터(column vector)이고, X로 표시될 수 있다; 주파수 영역 형태의 음성 신호도 역시, 이용된 푸리에 변환 포인트의 수와 동일한 벡터 길이를 갖는 열 벡터이며, Y로 표시될 수 있다.
선택사항으로서, 시간 영역의 기록된 신호 및 음성 신호에 관해 푸리에 변환을 수행한 후에 획득되는 주파수 영역 형태의 기록된 신호 및 주파수 영역 형태의 음성 신호는 동일한 치수를 갖는다.
402. 모바일 단말기는 기록된 신호와 음성 신호에 따라 루프 전달 함수를 계산한다.
이 실시예에서, 기록된 신호 및 음성 신호에 따라 루프 전달 함수를 계산할 때, 모바일 단말기는 다음과 같은 단계들 4021 내지 4023을 수행할 수 있다.
4021. 모바일 단말기는 기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수를 계산한다.
교차-상관 함수는 2개의 신호 사이의 상관의 정도를 나타내는데 이용된다. 기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수를 획득할 때, 모바일 단말기는 다음과 같은 수학식 <1>을 이용할 수 있다:
Figure pct00011
여기서, r_xy는 기록된 신호와 음성 신호 사이의 교차-상관 함수이고, E[.]는 예상된 연산자이며, .*는 요소 단위로 하나씩 벡터들을 곱하는데 이용된다. 예를 들어, = {a1, a2, a3, a4}이고 = {b1, b2, b3, b4}이면, .* = {a1 b1, a2 b2, a3 b3, a4 b4}이다.
4022. 모바일 단말기는 음성 신호의 주파수 영역 자기상관 함수를 획득한다.
자기상관 함수는 신호와 그 신호의 지연 신호 사이의 상관의 정도를 나타내는데 이용된다. 음성 신호의 주파수 영역 자기상관 함수를 획득할 때, 모바일 단말기는 다음과 같은 수학식 <2>를 이용할 수 있다:
Figure pct00012
R_yy는 음성 신호의 주파수 영역 자기상관 함수이고, 심볼 *는 행렬 곱셈 연산을 나타내며, 심볼 '는 공액 전치 연산을 나타내고, Y(n)은 n번째 시점에 수집된 음성 신호에 관해 푸리에 변환을 수행한 후에 획득되는 벡터이고, Y(n-k)는 (n-k)번째 시점에서 수집된 음성 신호에 관해 푸리에 변환을 수행한 후에 획득되는 벡터이며(k = [0, Kmax], k∈Z, 즉 k는 정수임), 시스템 차수는 Kmax의 값에 의해 결정된다.
4023. 단계 4021에서 획득된 기록 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수와 단계 4022에서 획득된 음성 신호의 주파수 영역 자기상관 함수에 기초하여, 모바일 단말기는 다음과 같은 식 <3>을 적용하여 루프 전달 함수를 계산할 수 있다:
Figure pct00013
여기서, H_loop는 루프 전달 함수이고, 심볼 ^-1은 행렬 역 연산을 나타낸다.
403. 모바일 단말기는 기록된 신호의 파워 스펙트럼 및 음성 신호의 파워 스펙트럼을 획득한다.
모바일 단말기는 다음과 같은 수학식 <4>를 기록된 신호에 적용하여 기록된 신호의 파워 스펙트럼을 계산할 수 있다:
Figure pct00014
여기서, P x 는 기록된 신호의 파워 스펙트럼이고, X(n)은 n번째 시점에서 수집된 기록된 신호에 관해 푸리에 변환을 수행함으로써 획득된 벡터이고, .^2는 X(n) 내의 각각의 벡터 요소의 제곱을 구하는데 이용된다.
예를 들어, n번째 시점에서 수집된 기록된 신호 X(n) = {a1, a2, a3, …, an}이고, 모바일 단말기는, 수학식
Figure pct00015
를 적용하여 P x = {a1 2, a2 2, a3 2, …, an 2}를 획득할 수 있다.
모바일 단말기는 다음과 같은 수학식 <5>를 음성 신호에 적용하여 음성 신호의 파워 스펙트럼을 계산할 수 있다:
Figure pct00016
여기서, P y 는 음성 신호의 파워 스펙트럼이고, Y(n)은 n번째 시점에서 수집된 음성 신호에 관해 푸리에 변환을 수행함으로써 획득된 벡터이고, .^2는 Y(n) 내의 각각의 벡터 요소의 제곱을 구하는데 이용된다.
예를 들어, n번째 시점에서 수집된 음성 신호 Y(n) = {b1, b2, b3, …, bn}이고, 모바일 단말기는, 수학식
Figure pct00017
를 적용하여 P y = {b1 2, b2 2, b3 2, …, bn 2}를 획득할 수 있다.
404. 모바일 단말기는 루프 전달 함수 및 음성 신호에 따라 에코 신호의 추정된 값을 계산한다.
모바일 단말기는 다음과 같은 수학식 <6>을 적용하여 루프 전달 함수 및 음성 신호에 따라 에코 신호의 추정된 값을 계산할 수 있다:
Figure pct00018
여기서 E(n)은 에코 신호의 추정된 값이다.
405. 모바일 단말기는, 기록된 신호의 파워 피쳐 값, 음성 신호의 파워 피쳐 값, 및 에코 신호의 파워 피쳐 값을 획득한다.
기록된 신호의 파워 피쳐 값은 기록된 신호의 파워 스펙트럼을 측정하며, 기록된 신호의 파워 스펙트럼을 처리함으로써 획득될 수 있다. 이 실시예에서, 기록된 신호의 파워 피쳐 값은
Figure pct00019
로 표시될 수 있다.
Figure pct00020
는 2-값 상태이고, 2가지 상태 : 참과 거짓을 가진다.
Figure pct00021
= 참일 때, 이것은 기록된 신호가 강하다는 것을 나타낸다;
Figure pct00022
= 거짓일 때, 이것은 기록된 신호가 약하다는 것을 나타낸다.
음성 신호의 파워 피쳐 값은 음성 신호의 파워 스펙트럼을 측정하며, 음성 신호의 파워 스펙트럼을 처리함으로써 획득될 수 있다. 이 실시예에서, 음성 신호의 파워 피쳐 값은
Figure pct00023
로 표시될 수 있다.
Figure pct00024
는 2-값 상태이고, 2가지 상태 : 참과 거짓을 가진다.
Figure pct00025
= 참일 때, 이것은 음성 신호가 강하다는 것을 나타낸다;
Figure pct00026
= 거짓일 때, 이것은 음성 신호가 약하다는 것을 나타낸다.
에코 신호의 파워 피쳐 값은 에코 신호의 파워 스펙트럼을 측정한다. 이 실시예에서, 에코 신호의 파워 피쳐 값은
Figure pct00027
로 표시될 수 있다.
Figure pct00028
는 2-값 상태이고, 2가지 상태 : 참과 거짓을 가진다.
Figure pct00029
= 참일 때, 이것은 에코 신호가 강하다는 것을 나타낸다;
Figure pct00030
= 거짓일 때, 이것은 에코 신호가 약하다는 것을 나타낸다. 여기서, 에코 신호의 파워 피쳐 값을 구할 때, 에코 신호의 추정된 값에 따라 에코 신호의 파워 스펙트럼이 미리 계산되어, 에코 신호의 파워 스펙트럼을 처리함으로써 에코의 파워 피쳐 값을 구할 수 있다는 점에 유의해야 한다. 여기서 에코 신호의 계산된 파워 스펙트럼은 에코 신호의 추정된 파워 스펙트럼이다. 에코 신호의 파워 스펙트럼이 여기서 에코 신호의 계산된 파워 스펙트럼인지는 다음과 같은 단계 406을 수행함으로써 추가로 결정될 필요가 있다.
406. 모바일 단말기는 기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정한다. "예"이면, 단계 407이 수행된다.
잡음 신호와 근단 신호를 구별하기 위해, 이 실시예에서, 신호 검출 및 분류 모듈과 음성 활성도 검출 메커니즘이 이용되어, 기록된 신호의 파워 피쳐 값, 에코 신호의 파워 피쳐 값 및 음성 신호의 파워 피쳐 값에 따라 시간에 기초하여 (배경 잡음을 포함한) 근단 신호와 비근단 신호를 구분하여 잡음 신호의 파워 스펙트럼을 획득한다. 구체적인 결정 동안에, 모바일 단말기는, 기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 에코 신호의 파워 피쳐 값이 에코 신호는 제3 임계값보다 큰지를 결정할 필요가 있다. 제1 임계값, 제2 임계값, 및 제3 임계값은 미리설정된 임계값이다. 이 실시예에서, 제1 임계값은 Tx로 표시될 수 있고, 제2 임계값은 Ty로 표시될 수 있으며, 제3 임계값은 Te로 표시될 수 있다. 제1 임계값, 제2 임계값, 및 제3 임계값의 더 작은 값들은, 모바일 단말기가 잡음에 더욱 민감하다는 것을 나타낸다. 반면에, 모바일 단말기는 잡음이 큰 에너지를 가질 때에만 잡음에 반응한다.
결정 프로세스는, 다음과 같은 수학식 <7>로 표시될 수 있다:
Figure pct00031
Figure pct00032
일반적으로, 마이크로폰을 이용하여 모바일 단말기에 의해 수집된 기록된 신호는 근단 신호를 포함하지 않을 수도 있다. 기록된 신호가 근단 신호를 포함하는지를 더 결정하기 위해, 다음과 같은 수학식 <8>이 결정에 이용될 수 있다 :
Figure pct00033
즉, 모바일 단말기의 스피커가 사운드를 재생하지 않고(즉,
Figure pct00034
= 거짓), 아무런 에코 신호도 검출되지 않을 때(즉,
Figure pct00035
= 거짓), 마이크로폰에 의해 수집된 기록된 신호는 비-근단 신호이고, 이 경우, 사용자는 말하고 있는 중이다. 그 외의 경우, 이것은 사용자가 말하고 있지 않다는 것을 나타낸다.
결정 프로세스서, 기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값은 제2 임계값보다 크고, 에코 신호의 파워 피쳐 값은 제3 임계값보다 크다고 결정된다면, 다음과 같은 단계 407이 수행된다. 기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값은 제2 임계값보다 크며, 에코 신호의 파워 피쳐 값은 제3 임계값보다 작거나 같다고 결정되거나; 또는 기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값이 제2 임계값보다 작거나 같다고 결정되면, 이 때 획득된 기록된 신호 및 음성 신호는 무시된다.
407. 모바일 단말기는 에코 신호의 추정된 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득한다.
기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값이 제2 임계값보다 크며, 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰 경우, 모바일 단말기는 에코 신호의 추정된 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득한다. 다음과 같은 수학식 <9>가 구체적인 계산에 적용될 수 있다.
Figure pct00036
여기서 Pe는 에코 신호의 파워 스펙트럼이다.
408. 모바일 단말기는 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정한다. "예"이면, 단계 409가 수행된다.
단계 407에 기초하여, 모바일 단말기는, 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 더 결정하여, 잡음 신호의 파워 스펙트럼을 획득한다.
결정 프로세스에서, 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 작다고 결정되면, 다음과 같은 단계 409가 수행된다. 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 크거나 같다고 결정된다면, 이 때 획득된 기록된 신호 및 음성 신호는 무시된다.
409. 모바일 단말기는 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득한다.
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 작다고 결정되면, 근단 신호가 검출되지 않은 것으로 간주될 수 있다, 즉, 사용자가 말하고 있지 않다. 이 경우, 모바일 단말기는 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득한다. 구체적인 구현 동안에, 다음과 같은 수학식 <10>을 참조한다:
Figure pct00037
여기서 Pn은 잡음 신호의 파워 스펙트럼이다.
410. 모바일 단말기는 에코 신호의 파워 스펙트럼과 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산한다.
에코 신호의 파워 스펙트럼과 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산할 때, 모바일 단말기는 다음과 같은 단계들 4101 내지 4102를 수행할 수 있다.
4101: 모바일 단말기는 에코 신호의 파워 스펙트럼과 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성한다.
음향 분야에서, 음성 명료도 지수(SII)는 복수의 표준을 갖는다. 이 실시예에서, ASNI-S3.5의 표준-4가 계산에 이용된다. 표준-4에서, 음성 명료도 지수는 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 독립 변수로서 이용하는 함수로서 표현될 수 있다. 따라서, 모바일 단말기가 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산한 후에, 음성 명료도 지수가 구성될 수 있다. 구성된 음성 명료도 지수에 대해, 다음과 같은 공식 <11>을 참조한다:
Figure pct00038
여기서, imax는 분할된 대역들의 총 수이고, i는 imax 내의 임의의 대역이며, SII는 음성 명료도 지수이고, Pe i 는 i번째 대역에서의 에코 신호의 파워 스펙트럼이고, Pn i 는 i번째 대역에서의 잡음 신호의 파워 스펙트럼이며, Pu i 는 i번째 대역에서의 표준-강도 음성의 파워 스펙트럼이고, Ii는 대역 분할 가중치이며, Pd i 는 중간 변수로서, 다음과 같은 수학식 <12>로 표시될 수 있다.
Figure pct00039
여기서, fk는 i번째 대역에서 k번째 주파수를 나타내고, C k 는 중간 변수이며, 다음과 같은 수학식 <13>으로 표시될 수 있다.
Figure pct00040
여기서, Pe k 는 k번째 주파수에서 에코 신호의 파워 스펙트럼이고, Pn k 는 k번째 주파수에서의 잡음 신호의 파워 스펙트럼이다.
Pui 및 Ii의 구체적인 값들에 대해서는 ANSI-S3.5의 표준 [4]에 명시된 수치를 참조하거나, 이 값들은 필요에 따라 설계 인력에 의해 결정될 수 있다는 점에 유의해야 한다.
4102. 에코 신호의 파워 스펙트럼이 변하지 않은 상태에서, 모바일 단말기는 음성 명료도 지수의 최대 값을 계산하여 주파수 가중 계수를 획득한다.
이 실시예에서, 주파수 가중 계수는 모바일 단말기의 주파수 가중 필터의 계수이고, 모바일 단말기에 의해 출력되는 음성 신호의 주파수 진폭을 조정하는데 이용된다. 상이한 순간에 모바일 단말기에 의해 계산되는 주파수 강조 계수들은 상이하다.
단계 4101에서 구축된 음성 명료도 지수의 관찰시에, 음성 명료도 지수는 에코 신호의 파워 스펙트럼과 잡음 신호의 파워 스펙트럼을 독립 변수로 이용하는 함수이다, 즉, 음성 명료도 지수는 2개의 변수를 갖는다는 것을 알 수 있다. 이 경우, 음성 명료도 지수의 최대 값을 계산하는 것은 어렵다. 따라서, 이 실시예에서 제공되는 방법에서, 근사 계산이 수행된다. n번째 시점에서의 잡음 신호의 파워 스펙트럼은 (n-1)번째 시점에서의 잡음 신호의 파워 스펙트럼과 대략 동일하다고 가정된다. 이런 방식으로, n번째 시점에서의 주파수 가중 계수를 계산할 때, 모바일 단말기는 (n-1)번째 시점에서 계산된 잡음 신호의 파워 스펙트럼을 직접 이용할 수 있다. 이러한 처리 방식에서, 모바일 단말기는, 음성 명료도 지수를, 에코 신호의 파워 스펙트럼을 독립 변수로서 이용하는 함수로 변환한다.
스피커에 의해 사용자에게 재생되는 음성의 음성 명료도를 개선하기 위해, 스피커를 이용하여 음성 신호를 재생하기 전에, 모바일 단말기는 주파수 가중 필터를 이용하여 음성 신호를 처리하고, 명시된 주파수에서의 음성의 진폭을 증가시켜 음성 신호의 에너지를 증가시킨다. 모바일 단말기의 크기에 의해 제한되기 때문에, 재생 동안에 스피커의 최대 사운드 파워는 최대 값을 갖는다. 스피커가 과부하되는 것을 방지하기 위해서, 이 실시예에서, 구축된 음성 명료도 지수에 기초하여 주파수 가중 계수가 계산될 때, 주파수 가중 필터의 강조의 전후에 에코 신호의 파워 스펙트럼은 변하지 않는다고 가정된 다음, 음성 명료도 지수의 최대 값이 계산된다. 이러한 방법은 수학적으로 제약 조건에서의 극값 해(extremum solution)라 불린다. 극값 해는 다음과 같은 수학식 <14>로 표시될 수 있다:
Figure pct00041
여기서, Pei는 강화 전의 i번째 주파수에서의 에코 신호의 파워 스펙트럼이고, Pe'i는 강화 후의 i번째 주파수에서의 에코 신호의 파워 스펙트럼이며, 수학식
Figure pct00042
은 에코 신호의 파워 스펙트럼이 강화 전후에 변하지 않는 것을 보장함으로써, 스피커가 과부하되지 않도록 보장한다.
신호가 주파수 가중 필터에 의해 처리된 후에, 전기 신호가 얻어지고, 전기 신호는 스피커에 의해 음파로 변환될 필요가 있다는 점에 유의해야 한다. 상이한 모델들의 모바일 단말기들의 스피커는 출력 주파수 응답이 상이하다. 상이한 모바일 단말기들의 스피커들의 출력 주파수 응답을 획득하려면, 각각의 모바일 통신 단말기의 스피커가 측정되고, 동작 동안에 보정 및 보상될 필요가 있다. 따라서, 하드웨어 단편화 문제가 야기된다. 이 문제점을 피하기 위해, 이 실시예에서 제공되는 방법에서, 스피커의 주파수 응답에 관한 직접 측정을 생략하기 위해 다음과 같은 방법이 이용된다.
수학식 <6>을 관찰하면, 루프 전달 함수
Figure pct00043
를 이용함으로써 E(n)Y(n) 사이의 맵핑 관계가 확립될 수 있다는 것을 알 수 있다. 이 실시예에서, 스피커의 주파수 응답은
Figure pct00044
로서 기록되고, 마이크로폰의 주파수 응답은
Figure pct00045
로서 기록되며, 수학식 <6>에 따라, 다음과 같은 공식이 획득될 수 있다:
Figure pct00046
수학식 <15>의 경우, 수학식 <14>의 극값 해는 편미분 해로 변환될 수 있다. 음성 명료도 지수의 변곡점은 수학식 <15>의 편미분을 계산함으로써 획득될 수 있다. 구체적인 프로세스에 대해, 다음과 같은 수학식 <16>을 참조한다:
Figure pct00047
||2은 주파수 가중 계수이고,
Figure pct00048
은 수학식 <3>을 이용하여 획득될 수 있고, Py i 는 수학식 <5>를 이용하여 획득될 수 있고, SII는 수학식 <11>을 이용하여 획득될 수 있다.
현재 시점의 ||2은 수학식 <16>을 계산함으로써 획득될 수 있다.
411. 모바일 단말기는 주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정한다.
모바일 단말기는 결정된 주파수 가중 계수에 기초하여 음성 명료도 지수를 동적으로 추적 및 조정하여, 잡음 신호의 파워 스펙트럼 Pn 및 에코 신호의 파워 스펙트럼 Pe에서의 변화에 자동으로 적응한다.
412. 모바일 단말기는 조정된 음성 신호를 출력한다.
현재 시점에 모바일 단말기에 의해 출력되는 음성 신호의 명료도를 향상시키기 위해, 모바일 단말기는, 현재 시점 이전에 출력된 음성 신호 및 대응하는 주파수 가중 계수와 조합하여 다음과 같은 수학식 <17>에 따라, 현재 시점에 출력되는 음성 신호를 결정한다:
Figure pct00049
여기서, z(n)은 출력 음성 신호이고,
Figure pct00050
는 시간 영역에서의 값으로서 n번째 시점에 계산된 주파수 가중 계수에 대응하는 값이며, max는 주파수 가중 필터 W의 차수와 동일하며, y(n-k)는, 강조 이전의 (n-k)번째 시점에서의 음성 신호의 값이다.
이 단계에서, 모바일 단말기에 의해 출력되는 조정된 음성 신호는 잡음 신호를 마스킹할 수 있다. 따라서, 조정된 음성 신호가 재생될 때, 사용자는 음성 신호의 내용을 명확하게 들을 수 있다.
도 5는 본 출원의 한 실시예에 따른 음성 신호 처리 방법에 대응하는 신호 흐름을 도시한다. 도 5에 도시된 바와 같이, 획득된 기록된 신호 X 및 음성 신호 Y에 기초하여, 모바일 단말기는, 기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수 r_xy와 음성 신호의 주파수 영역 자기상관 함수 R_yy에 따라 루프 전달 함수
Figure pct00051
를 계산할 수 있다. 모바일 단말기는 음성 신호 및 루프 전달 함수에 따라 에코 신호의 추정된 값
Figure pct00052
을 계산할 수 있다. 또한, 모바일 단말기는, 기록된 신호의 파워 피쳐 값, 음성 신호의 파워 피쳐 값, 및 에코 신호의 파워 피쳐 값에 따라 음성 활성 검출 메커니즘을 이용하여 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산한 다음, 음성 명료도 지수의 최대 값을 계산하여, 주파수 가중 계수를 획득하고, 마지막으로 주파수 가중 필터를 이용하여 주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정하고, 조정된 음성 신호를 출력한다.
도 6은 본 출원의 또 다른 실시예에 따른 음성 신호 처리 방법의 플로차트이다. 이 방법은 소프트웨어에 의해 구현될 수 있다. 음성 인스턴트 메시징 앱이 시작될 때, 모바일 단말기는 근단으로부터 마이크로폰에 의해 수집된 기록된 신호 x 및 피어단에 의해 전송된 음성 신호 y를 정기적으로 획득하고, 기록된 신호의 파워 스펙트럼 x 및 음성 신호의 파워 스펙트럼 y 를 계산하고, 상기 수학식 <3>에 기초하여 루프 전달 함수
Figure pct00053
를 계산한다. 루프 전달 함수를 결정한 후, 모바일 단말기는 상기 수학식 <6>에 따라 에코 신호의 추정된 값 E(n)을 계산할 수 있다. 또한, 에코 신호, 근단 음성 신호, 및 잡음 신호는 동일한 마이크로폰에 의해 수집되어, 시간적으로 중첩된다. 따라서, 기록된 신호는 분류되고, 상기 수학식 <9>에 따라 에코 파워 스펙트럼 Pe를 계산하고, 상기 수학식 <10>에 따라 잡음 파워 스펙트럼 Pn을 계산할 필요가 있다. 그 다음, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수 SII가 구축되고, 음성 명료도 SII의 최대 값을 계산함으로써 주파수 스펙트럼 강조 계수 W가 획득될 수 있다. 최종적으로, 상기 수학식 <17>에 따라 강화된 음성 신호가 계산되고, 스피커에 출력되며, 스피커에 의해 재생을 위한 사운드로 변환된다.
이 방법은 음성 인스턴트 메시징 앱 레벨에서 구현되거나, 또는 운영 체제 레벨에서 구현되거나, 하드웨어 칩의 펌웨어에 내장될 수 있다는 점에 유의해야 한다. 본 출원의 이 실시예에서 제공되는 음성 신호 처리 방법은 3가지 레벨 각각에 적용 가능하고, 유일한 차이점은 동일한 음성 신호 처리 방법이 구체적으로 실행되는 모바일 단말 시스템에서의 레벨에 있다.
본 개시내용이 모바일 단말기를 예로서 이용하여 설명되지만, 본 기술분야의 통상의 기술자라면 본 개시내용이 데스크탑 컴퓨터 등의 다른 단말 디바이스에도 적용될 수 있다는 점에 유의해야 한다. 또한, 상기 음성 신호는 피어단으로부터 수신될 수 있다. 예를 들어, 단말 디바이스는 무선 또는 유선 네트워크를 이용하여 또 다른 단말 디바이스(즉, 피어 디바이스)로부터 음성 신호를 수신한다. 대안으로서, 음성 신호는 단말 디바이스에 국지적으로 저장된 음성 신호일 수 있다. 또한, 상기 설명은 음성 인스턴트 메시징 앱을 예로서 이용하여 제공되고 있지만, 본 기술분야의 통상의 기술자라면, 상기 음성 인스턴트 메시징 앱은 임의의 다른 음성 재생 앱으로 대체될 수 있다는 것을 이해할 수 있을 것이다.
이 방법은 음성 명료도를 향상시키는데 이용될 수 있을 뿐만 아니라, 다른 콘텐츠의 오디오 신호를 개선하는데에도 역시 이용될 수 있다는 점에 유의해야 한다. 예를 들어, 착신음 또는 알람의 경고음은 상이한 주변 잡음에 따라 자동으로 강화되어, 강화된 경고 사운드를 더욱 명확하게 사용자가 들을 수 있어서, 주변 잡음으로부터의 간섭을 극복할 수 있다.
잡음 시나리오에 적용되는 것 외에도, 이 방법은 또한 비-잡음 환경에 적용될 수 있다는 점에 유의해야 한다. 예를 들어, A와 B는 서로 가깝고 동시에 통화중에 있다. A는 a와 대화하고 있고 B는 b와 대화하고 있다. A와 B가 가깝기 때문에, A의 말하는 음성은 B의 듣기를 방해하고, B의 말하기 음성도 A의 듣기를 방해한다. 본 개시내용에서 제공되는 방법은 이러한 음성 충돌 시나리오에서도 역시 이용될 수 있다. 이 시나리오에서, A 측의 모바일 단말기는 B의 음성을 잡음 신호로서 이용하고, a의 음성을 강화될 필요가 있는 신호로서 이용한다; 유사하게, B 측의 모바일 단말기는 A의 음성을 잡음 신호로서 이용하고, b의 음성을 강화할 필요가 있는 신호로서 이용한다.
본 출원의 이 실시예에서 제공되는 방법에 따르면, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 방해받지 않도록 보장하면서 잡음 신호와 음성 신호의 상대적인 주파수 분포에 따라 음성 신호의 주파수 진폭이 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
도 7을 참조하여, 본 출원의 실시예는 음성 신호 처리 장치의 개략적 구조도를 제공한다. 이 장치는 다음과 같은 모듈들을 포함한다:
근단으로부터 기록된 신호 ―기록된 신호는 적어도 잡음 신호 및 에코 신호를 포함함― 를 수집하도록 구성된 수집 모듈(701);
피어단에 의해 전송된 음성 신호를 수신하도록 구성된 수신 모듈(702);
기록된 신호 및 음성 신호에 따라 루프 전달 함수를 계산하도록 구성된 제1 계산 모듈(703);
기록된 신호의 파워 스펙트럼을 계산하도록 구성된 제2 계산 모듈(704);
기록된 신호의 파워 스펙트럼, 음성 신호, 및 루프 전달 함수에 따라 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하도록 구성된 제3 계산 모듈(705);
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하도록 구성된 제4 계산 모듈(706);
주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정하도록 구성된 조정 모듈(707); 및
조정된 음성 신호를 출력하도록 구성된 출력 모듈(708).
본 출원의 또 다른 실시예에서, 제1 계산 모듈(703)은, 기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수를 계산하고; 음성 신호의 주파수 영역 자기상관 함수를 계산하며; 기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수와 음성 신호의 주파수 영역 자기상관 함수에 따라 루프 전달 함수를 계산하도록 구성된다.
본 출원의 또 다른 실시예에서, 제2 계산 모듈(704)은 기록된 신호에 다음과 같은 공식을 적용하여 기록된 신호의 파워 스펙트럼을 계산하도록 구성된다 :
Figure pct00054
여기서, x 는 기록된 신호의 파워 스펙트럼이고, X(n)은 n번째 시점에서 수집된 기록된 신호에 관해 푸리에 변환을 수행함으로써 획득된 벡터이고, .^2는 X(n) 내의 각각의 벡터 요소의 제곱을 구하는데 이용된다.
본 출원의 또 다른 실시예에서, 제3 계산 모듈(705)은, 루프 전달 함수 및 음성 신호에 따라 에코 신호의 추정된 스펙트럼 값을 계산하고; 에코 신호의 추정된 스펙트럼 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하며; 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득하도록 구성된다.
본 출원의 또 다른 실시예에서, 이 장치는 :
기록된 신호의 파워 피쳐 값, 음성 신호의 파워 피쳐 값, 및 에코 신호의 파워 피쳐 값을 계산하도록 구성된 제5 계산 모듈; 및
기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정하도록 구성된 제1 결정 모듈을 더 포함하고;
제3 계산 모듈(705)은 : 기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값이 제2 임계값보다 크며, 에코 신호의 파워 피쳐 값이 제3 임계값보다 클 때, 에코 신호의 추정된 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하도록 구성된다.
본 출원의 또 다른 실시예에서, 이 장치는 :
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정하도록 구성된 제2 결정 모듈을 더 포함하고;
제3 계산 모듈(705)은 : 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 작을 때, 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득하도록 구성된다.
본 출원의 또 다른 실시예에서, 제4 계산 모듈(706)은, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성하고; 에코 신호의 파워 스펙트럼이 변하지 않은 상태 하에서, 음성 명료도 지수의 최대 값에 따라 주파수 가중 계수를 획득하도록 구성된다.
결론적으로, 본 출원의 이 실시예에서 제공되는 장치에 따르면, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 방해받지 않도록 보장하면서 잡음 신호와 음성 신호의 상대적인 주파수 분포에 따라 음성 신호의 주파수 진폭이 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
도 8을 참조하면, 도 8은 본 출원의 한 실시예에 따른 음성 신호 처리 단말기의 개략적인 구조도이다. 이 단말기는 상기 실시예에서 제공된 음성 신호 처리 방법을 구현하도록 구성될 수 있다. 구체적으로 :
단말기(800)는, 무선 주파수(RF) 회로(110), 하나 이상의 컴퓨터 판독가능한 저장 매체를 포함하는 메모리(120), 입력 유닛(130), 디스플레이 유닛(140), 센서(150), 오디오 회로(160), WiFi(wireless fidelity) 모듈(170), 하나 이상의 처리 코어를 포함하는 프로세서(180), 및 전원(190)을 포함할 수 있다. 본 기술분야의 통상의 기술자라면, 도 8에 도시된 단말기의 구조가 단말기에 대한 제한을 구성하지 않으며, 단말기는 도면에 도시된 것보다 많거나 적은 컴포넌트를 포함하거나, 일부 컴포넌트들이 결합되거나, 상이한 컴포넌트 배치가 이용될 수 있다는 것을 이해할 수 있을 것이다.
RF 회로(110)는 정보 수신 및 전송 프로세스 또는 통화 프로세스 동안에 신호를 수신 및 전송하도록 구성될 수 있다. 특히, RF 회로(110)는 기지국으로부터 다운링크 정보를 수신한 다음, 다운링크 정보를 처리를 위해 프로세서(180)에 전달하고, 관련된 업링크 데이터를 기지국에 전송한다. 대개, RF 회로(110)는, 안테나, 적어도 하나의 증폭기, 튜너, 하나 이상의 발진기, 가입자 식별 모듈(SIM) 카드, 트랜시버, 커플러, 저잡음 증폭기(LNA) 및 듀플렉서를 포함하지만, 이것으로 제한되는 것은 아니다. 추가로, RF 회로(110)는 또한, 무선 통신에 의해 네트워크 및 또 다른 디바이스와 통신할 수 있다. 무선 통신은, GSM(Global System for Mobile communications), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), 전자 메일, SMS(Short Messaging Service)를 포함한 그러나 이것으로 제한되지 않는 임의의 통신 표준 또는 프로토콜을 이용할 수 있다.
메모리(120)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(180)는, 메모리(120)에 저장된 소프트웨어 프로그램 및 모듈을 실행하여 다양한 기능 애플리케이션 및 데이터 처리를 구현한다. 메모리(120)는 주로, 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은, 운영 체계, 적어도 하나의 기능, (사운드 재생 기능 및 이미지 디스플레이 기능 등의)에 의해 요구되는 애플리케이션 프로그램을 저장할 수 있다. 데이터 저장 영역은, 단말기(800)의 이용에 따라 생성된 (오디오 데이터 및 주소록 등의) 데이터를 저장할 수 있다. 또한, 메모리(120)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리, 또는 다른 휘발성 솔리드-스테이트 저장 디바이스 등의, 비휘발성 메모리를 포함할 수 있다. 대응적으로, 메모리(120)는, 프로세서(180) 및 입력 유닛(130)의 메모리(120)로의 액세스를 제공하도록, 메모리 제어기를 더 포함할 수 있다.
입력 유닛(130)은, 입력된 숫자 또는 문자 정보를 수신하고, 사용자 설정 및 기능 제어에 관련된 키보드, 마우스, 조이스틱, 광학 또는 트랙볼 신호 입력을 생성하도록 구성될 수 있다. 구체적으로는, 입력 유닛(130)은 터치-감지 표면(131) 및 또 다른 입력 디바이스(132)를 포함할 수 있다. 터치스크린 또는 터치 패널로도 지칭될 수 있는 터치-감지 표면(131)은, (손가락 또는 스타일러스 등의 임의의 적절한 물체 또는 부속물을 이용하여 터치-감지 표면(131) 상의 또는 그 부근의 사용자의 동작 등의) 터치-감지 표면 상의 또는 그 부근의 사용자의 터치 동작을 수집하고, 미리설정된 프로그램에 따라 대응하는 접속 장치를 구동할 수 있다. 선택사항으로서, 터치-감지 표면(131)은 2개의 부분: 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는, 사용자의 터치 방향을 검출하고, 터치 동작에 의해 발생된 신호를 검출하여, 그 신호를 터치 제어기에 전달한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 터치 검출 정보를 터치 지점 좌표로 변환한 다음, 터치 지점 좌표를 프로세서(180)에 전송한다. 게다가, 터치 제어기는 프로세서(180)로부터 전송된 명령을 수신하여 실행할 수 있다. 또한, 터치-감지 표면(131)은, 저항식, 용량식, 적외선, 또는 표면 음파형 터치-감지 표면일 수 있다. 터치-감지 표면(131) 외에도, 입력 유닛(130)은 또 다른 입력 디바이스(132)를 더 포함할 수 있다. 구체적으로는, 또 다른 입력 디바이스(132)는, 물리적 키보드, (음량 제어 키 또는 스위치 키 등의) 기능 키, 트랙 볼, 마우스, 및 조이스틱 중 하나 이상을 포함할 수 있지만, 이것으로 제한되는 것은 아니다.
디스플레이 유닛(140)은, 사용자에 의해 입력된 정보 또는 사용자를 위해 제공된 정보, 및 단말기(800)의 다양한 그래픽 사용자 포트를 디스플레이하도록 구성될 수 있다. 그래픽 사용자 포트는, 그래프, 텍스트, 아이콘, 비디오, 및 이들의 임의의 조합에 의해 형성될 수 있다. 디스플레이 유닛(140)은 디스플레이 패널(141)을 포함할 수 있다. 선택사항으로서, 디스플레이 패널(141)은, 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 등을 이용하여 구성될 수 있다. 또한, 터치-감지 표면(131)은 디스플레이 패널(141)을 덮을 수 있다. 터치-감지 표면(131) 상에서 또는 그 부근에서 터치 동작을 검출한 후, 터치-감지 표면(131)은 터치 동작을 프로세서(180)에 전달하여 터치 이벤트의 타입을 결정한다. 그 다음, 프로세서(180)는 터치 이벤트의 타입에 따라 대응하는 시각적 출력을 디스플레이 패널(141) 상에 제공한다. 도 8에서는, 터치-감지 표면(131)과 디스플레이 패널(141)이 입력 및 출력 기능을 구현하기 위해 2개의 분리된 부분으로서 이용되고 있지만, 일부 실시예에서는, 터치-감지 표면(131)과 디스플레이 패널(141)은 입력 및 출력 기능을 구현하기 위해 통합될 수도 있다.
단말기(800)는, 광학 센서, 움직임 센서, 및 기타의 센서 등의, 적어도 하나의 센서(150)를 더 포함할 수 있다. 구체적으로는, 광 센서는, 주변광 센서 및 근접 센서를 포함할 수 있다. 주변광 센서는 주변광의 밝기에 따라 디스플레이 패널(141)의 휘도를 조정할 수 있다. 근접 센서는, 단말기(800)가 귀쪽으로 이동될 때 디스플레이 패널(141) 및/또는 백라이트를 스위치 오프할 수 있다. 한 타입의 움직임 센서로서, 중력 가속도 센서는 다양한 방향(일반적으로 3 축)에서 가속도의 크기를 검출할 수 있고, 정적일 때 중력의 크기 및 방향을 검출할 수 있으며, (예를 들어, 수평 스크린과 수직 스크린 사이의 전환, 관련된 게임, 및 자력계의 제스쳐 캘리브레이션 등의) 모바일 전화 제스쳐의 적용, (만보기 및 노크 등의) 진동 식별의 관련된 기능을 식별하도록 구성될 수 있다. 단말기(800)에서 구성될 수 있는 자이로스코프, 기압계, 습도계, 온도계, 및 적외선 센서 등의 기타의 센서는 여기서 더 설명되지 않는다.
오디오 회로(160), 스피커(161), 및 마이크로폰(162)은, 사용자와 단말기(800) 사이에 오디오 인터페이스를 제공할 수 있다. 오디오 회로(160)는, 수신된 오디오 데이터로부터 변환된 수신된 전기 신호를 스피커(161)에 전송할 수 있다. 스피커(161)는 출력을 위해 전기 신호를 음성 신호로 변환한다. 반면, 마이크로폰(162)은 수집된 사운드 신호를 전기 신호로 변환한다. 오디오 회로(160)는, 전기 신호를 수신하여 전기 신호를 오디오 데이터로 변환하고, 오디오 데이터를 처리를 위해 프로세서(180)에 출력한다. 그 다음, 프로세서(180)는, RF 회로(110)를 이용하여, 예를 들어 또 다른 단말기에 오디오 데이터를 전송하거나, 오디오 데이터를 추가 처리를 위해 메모리(120)에 출력한다. 오디오 회로(160)는, 주변 이어폰과 단말기(800) 사이에 통신을 제공하도록 이어 플러그 잭(earplug jack)을 더 포함할 수 있다.
WiFi는 근거리 무선 전송 기술에 속한다. 단말기(800)는, WiFi 유닛(170)을 이용하여, 사용자가 전자메일을 송수신하고, 웹 페이지를 브라우징하고, 사용자에게 무선 광대역 인터넷 액세스를 제공하는 스트림 미디어 등에 액세스하는 것을 도울 수 있다. 도 8에서는 와이파이 모듈(170)을 도시하고 있지만, WiFi 모듈은 단말기(800)의 필요한 구성에 속하지 않으며, 본 출원의 본질의 범위를 변경하지 않고서도 요구에 따라 무시될 수 있다는 것을 이해할 수 있을 것이다.
프로세서(180)는 단말기(800)의 제어 센터이며, 각종 인터페이스 및 회선을 이용하여 모바일 전화의 다양한 부분들에 접속한다. 메모리(120)에 저장된 소프트웨어 프로그램 및/또는 모듈을 실행하고, 메모리(120)에 저장된 데이터를 호출함으로써, 프로세서(180)는 단말기(800)의 다양한 기능 및 데이터 처리를 수행하고, 그에 의해 모바일 전화에 관한 전반적인 모니터링을 수행한다. 선택사항으로서, 프로세서(180)는 하나 이상의 처리 코어를 포함할 수 있다. 선택사항으로서, 프로세서(180)는 애플리케이션 프로세서와 모뎀을 통합할 수 있다. 애플리케이션 프로세서는 주로, 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 처리한다. 모뎀은 주로 무선 통신을 처리한다. 상기 모뎀 프로세서는 프로세서(180)에 통합되지 않을 수도 있다는 것을 이해할 수 있을 것이다.
단말기(800)는 컴포넌트들에 전력을 공급하기 위한 (배터리 등의) 전원(190)을 더 포함한다. 바람직하게는, 전원은 전원 관리 시스템을 이용하여 프로세서(180)에 논리적으로 접속됨으로써, 전원 관리 시스템을 이용하여 충전, 방전, 전력 소비 관리 등의 기능을 구현할 수 있다. 전원(190)은, 직류 또는 교류 전원, 재충전 시스템, 정전 검출 회로, 전원 변환기 또는 인버터, 전원 상태 표시기, 및 기타 임의의 컴포넌트들 중 하나 이상을 더 포함할 수 있다.
도시되지는 않았지만, 단말기(800)는, 카메라, Bluetooth 모듈 등을 더 포함할 수 있고, 여기서는 더 이상 설명되지 않는다. 구체적으로는, 이 실시예에서, 단말기(800)의 디스플레이 유닛은 터치 스크린 디스플레이이고, 단말기(800)는 메모리 및 하나 이상의 프로그램을 더 포함한다. 하나 이상의 프로그램은 메모리에 저장되고 하나 이상의 프로세서에 의해 실행되도록 구성된다.
하나 이상의 프로그램은 다음과 같은 동작들을 수행하는데 이용되는 명령어를 포함한다 :
적어도 잡음 신호 및 에코 신호를 포함하는 기록된 신호 및 음성 신호를 획득하는 단계;
기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
기록된 신호, 음성 신호, 및 루프 전달 함수에 따라, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계;
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계;
주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정하는 단계; 및
조정된 음성 신호를 출력하는 단계.
전술된 내용이 제1 가능한 구현이라고 가정하면, 제1 가능한 구현에 기초하여 제공되는 제2 가능한 구현에서, 기록된 신호는 단말 디바이스의 마이크로폰을 이용하여 수집된 사운드 신호이다.
제2 가능한 구현에 기초하여 제공되는 제3 가능한 구현에서, 조정된 음성 신호를 출력하는 단계는 단말 디바이스의 스피커를 이용하여 조정된 음성 신호를 재생하는 단계를 포함한다. 음성 신호는, 네트워크를 이용하여 단말 디바이스에 의해 수신되거나 국지적으로 저장되어 스피커를 이용하여 재생되는 음성 신호이다.
제3 가능한 구현에 기초하여 제공되는 제4 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
기록된 신호 및 음성 신호에 따라 루프 전달 함수를 계산하는 단계는 :
기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수를 계산하는 단계;
음성 신호의 주파수 영역 자기상관 함수를 계산하는 단계; 및
기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수 및 음성 신호의 주파수 영역 자기상관 함수에 따라 루프 전달 함수를 계산하는 단계를 포함하거나; 또는
단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
다음과 같은 단계를 포함한, 기록된 신호의 파워 스펙트럼을 계산하는 단계:
기록된 신호에 다음과 같은 수학식을 적용하여 기록된 신호의 파워 스펙트럼을 계산하는 단계:
Figure pct00055
여기서, x 는 기록된 신호의 파워 스펙트럼이고, X(n)은 n번째 시점에서 수집된 기록된 신호에 관해 푸리에 변환을 수행함으로써 획득된 벡터이고, .^2는 X(n) 내의 각각의 벡터 요소의 제곱을 구하는데 이용된다.
제3 가능한 구현에 기초하여 제공되는 제5 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
기록된 신호, 음성 신호, 및 루프 전달 함수에 따라, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계는 :
기록된 신호의 파워 스펙트럼을 계산하는 단계;
루프 전달 함수 및 음성 신호에 따라 에코 신호의 추정된 스펙트럼 값을 계산하는 단계;
에코 신호의 추정된 스펙트럼 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하는 단계; 및
기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여, 잡음 신호의 파워 스펙트럼을 획득하는 단계를 더 포함한다.
제5 가능한 구현에 기초하여 제공되는 제6 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
에코 신호의 추정된 값의 제곱을 계산하여, 에코 신호의 파워 스펙트럼을 획득하기 이전에,
기록된 신호의 파워 피쳐 값, 음성 신호의 파워 피쳐 값, 및 에코 신호의 파워 피쳐 값을 계산하는 단계;
기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정하는 단계; 및
기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값이 제2 임계값보다 크고, 에코 신호의 파워 피쳐 값이 제3 임계값보다 클 때, 에코 신호의 추정된 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하는 단계.
제6 가능한 구현에 기초하여 제공되는 제7 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여, 잡음 신호의 파워 스펙트럼을 획득하는 단계 이전에,
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정하는 단계;
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 작을 때, 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득하는 단계를 수행하는 단계.
제3 가능한 구현에 기초하여 제공되는 제8 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계는 다음과 같은 단계들을 포함한다:
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성하는 단계; 및
에코 신호의 파워 스펙트럼이 변하지 않은 상태 하에서, 음성 명료도 지수의 최대 값에 따라 주파수 가중 계수를 획득하는 단계.
본 출원의 이 실시예에서 제공되는 단말기에 따르면, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 방해받지 않도록 보장하면서 잡음 신호와 음성 신호의 상대적인 주파수 분포에 따라 음성 신호의 주파수 진폭이 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
본 출원의 실시예는 컴퓨터 판독가능한 저장 매체를 더 제공한다. 컴퓨터 판독가능한 저장 매체는 상기 실시예에서 메모리에 포함된 컴퓨터 판독가능한 저장 매체, 또는 단독으로 존재하고 단말기 내에 어셈블링되지 않는 저장 매체일 수 있다. 컴퓨터 판독가능한 저장 매체는 하나 이상의 프로그램을 저장한다. 하나 이상의 프로그램은 하나 이상의 프로세서에 의해 실행되어 음성 신호 처리 방법을 수행한다. 이 방법은 다음과 같은 단계들을 포함한다:
적어도 잡음 신호 및 에코 신호를 포함하는 기록된 신호 및 음성 신호를 획득하는 단계;
기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
기록된 신호, 음성 신호, 및 루프 전달 함수에 따라, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계;
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계;
주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정하는 단계; 및
조정된 음성 신호를 출력하는 단계.
전술된 내용이 제1 가능한 구현이라고 가정하면, 제1 가능한 구현에 기초하여 제공되는 제2 가능한 구현에서, 기록된 신호는 단말 디바이스의 마이크로폰을 이용하여 수집된 사운드 신호이다.
제2 가능한 구현에 기초하여 제공되는 제3 가능한 구현에서, 조정된 음성 신호를 출력하는 단계는 스피커를 이용하여 조정된 음성 신호를 재생하는 단계를 포함한다. 음성 신호는, 네트워크를 이용하여 단말 디바이스에 의해 수신되거나 국지적으로 저장되어 스피커를 이용하여 재생되는 음성 신호이다.
제3 가능한 구현에 기초하여 제공되는 제4 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
기록된 신호 및 음성 신호에 따라 루프 전달 함수를 계산하는 단계는 :
기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수를 계산하는 단계;
음성 신호의 주파수 영역 자기상관 함수를 계산하는 단계; 및
기록된 신호와 음성 신호 사이의 주파수 영역 교차-상관 함수 및 음성 신호의 주파수 영역 자기상관 함수에 따라 루프 전달 함수를 계산하는 단계를 포함하거나; 또는
단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
다음과 같은 단계를 포함한, 기록된 신호의 파워 스펙트럼을 계산하는 단계:
기록된 신호에 다음과 같은 수학식을 적용하여 기록된 신호의 파워 스펙트럼을 계산하는 단계:
Figure pct00056
여기서, x 는 기록된 신호의 파워 스펙트럼이고, X(n)은 n번째 시점에서 수집된 기록된 신호에 관해 푸리에 변환을 수행함으로써 획득된 벡터이고, .^2는 X(n) 내의 각각의 벡터 요소의 제곱을 구하는데 이용된다.
제3 가능한 구현에 기초하여 제공되는 제5 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
기록된 신호, 음성 신호, 및 루프 전달 함수에 따라, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계는 :
기록된 신호의 파워 스펙트럼을 계산하는 단계;
루프 전달 함수 및 음성 신호에 따라 에코 신호의 추정된 스펙트럼 값을 계산하는 단계;
에코 신호의 추정된 스펙트럼 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하는 단계; 및
기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여, 잡음 신호의 파워 스펙트럼을 획득하는 단계를 더 포함한다.
제5 가능한 구현에 기초하여 제공되는 제6 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
에코 신호의 추정된 값의 제곱을 계산하여, 에코 신호의 파워 스펙트럼을 획득하기 이전에,
기록된 신호의 파워 피쳐 값, 음성 신호의 파워 피쳐 값, 및 에코 신호의 파워 피쳐 값을 획득하는 단계;
기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정하는 단계; 및
기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 음성 신호의 파워 피쳐 값이 제2 임계값보다 크고, 에코 신호의 파워 피쳐 값이 제3 임계값보다 클 때, 에코 신호의 추정된 값의 제곱을 계산하여 에코 신호의 파워 스펙트럼을 획득하는 단계.
제6 가능한 구현에 기초하여 제공되는 제7 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여, 잡음 신호의 파워 스펙트럼을 획득하는 단계 이전에,
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정하는 단계;
기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 에코 신호의 파워 피쳐 값이 제3 임계값보다 작을 때, 기록된 신호의 파워 스펙트럼으로부터 에코 신호의 파워 스펙트럼을 감산하여 잡음 신호의 파워 스펙트럼을 획득하는 단계를 수행하는 단계.
제3 가능한 구현에 기초하여 제공되는 제8 가능한 구현에서, 단말기의 메모리는 다음과 같은 동작들을 수행하기 위한 명령어를 더 포함한다 :
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계는 다음과 같은 단계들을 포함한다:
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성하는 단계; 및
에코 신호의 파워 스펙트럼이 변하지 않은 상태 하에서, 음성 명료도 지수의 최대 값에 따라 주파수 가중 계수를 획득하는 단계.
본 출원의 이 실시예에서 제공되는 컴퓨터 판독가능한 저장 매체에 따르면, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 방해받지 않도록 보장하면서 잡음 신호와 음성 신호의 상대적인 주파수 분포에 따라 음성 신호의 주파수 진폭이 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
본 출원의 실시예는 그래픽 사용자 인터페이스를 제공한다. 그래픽 사용자 인터페이스는 음성 신호 처리 단말기에서 이용되고, 음성 신호 처리 단말기는, 터치 디스플레이, 메모리, 및 하나 이상의 프로그램을 실행하도록 구성된 하나 이상의 프로세서를 포함하며, 그래픽 사용자 인터페이스는 하기 단계들을 포함한다:
적어도 잡음 신호 및 에코 신호를 포함하는 기록된 신호 및 음성 신호를 획득하는 단계;
기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
기록된 신호, 음성 신호, 및 루프 전달 함수에 따라, 에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼을 계산하는 단계;
에코 신호의 파워 스펙트럼 및 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계;
주파수 가중 계수에 기초하여 음성 신호의 주파수 진폭을 조정하는 단계; 및
조정된 음성 신호를 출력하는 단계.
본 출원의 이 실시예에서 제공되는 그래픽 사용자 인터페이스에 따르면, 스피커가 과부하되지 않고 원래의 음성 신호의 동적 진폭이 방해받지 않도록 보장하면서 잡음 신호와 음성 신호의 상대적인 주파수 분포에 따라 음성 신호의 주파수 진폭이 자동으로 조정되어, 음성 명료도를 상당히 향상시킨다.
또한, 상기 실시예에서 제공된 음성 신호 처리 장치의 음성 신호 처리는 상기 기능 모듈들의 분할만을 예로서 이용하여 설명된다는 것을 주의해야 한다. 실제 응용에서, 상기 기능들은 필요에 따라 다른 기능 모듈들에 할당하여 완성될 수 있다. 즉, 음성 신호 처리 장치의 내부 구조는 상이한 기능 모듈들로 분할되어, 전술된 기능들의 전부 또는 일부를 완수할 수 있다. 또한, 상기 실시예에서 제공되는 음성 신호 처리 장치는 음성 신호 처리 방법과 동일한 개념에 기초한다. 그 구체적인 구현 프로세스에 대해서는, 방법 실시예를 참조하고, 상세사항은 여기서는 다시 설명되지 않는다.
본 기술분야의 통상의 기술자라면, 상기 실시예들의 단계들의 전부 또는 일부는 하드웨어를 이용하여 구현되거나, 관련 하드웨어에게 지시하는 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다. 프로그램은 컴퓨터-판독가능한 저장 매체에 저장될 수 있다. 저장 매체는, 판독 전용 메모리, 자기 디스크, 광학 디스크 등일 수 있다.
상기 설명은 본 출원의 바람직한 실시예일 뿐이며, 본 출원을 제한하기 위한 것은 아니다. 본 개시내용의 사상 및 원리 내에서 이루어진 임의의 수정, 동등한 대체, 또는 개선은, 본 개시내용의 보호 범위 내에 속해야 한다.

Claims (18)

  1. 음성 신호 처리 방법으로서,
    기록된 신호 ―상기 기록된 신호는 적어도 잡음 신호 및 에코 신호(echo signal)를 포함함― 및 출력예정 음성 신호를 획득하는 단계;
    상기 기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
    상기 기록된 신호, 상기 음성 신호, 및 상기 루프 전달 함수에 따라, 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼을 계산하는 단계;
    상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수(frequency weighted coefficient)를 계산하는 단계;
    상기 주파수 가중 계수에 기초하여 상기 음성 신호의 주파수 진폭을 조정하는 단계; 및
    상기 조정된 음성 신호를 출력하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 기록된 신호는 단말 디바이스의 마이크로폰을 이용하여 수집된 사운드 신호인, 방법.
  3. 제1항에 있어서, 상기 조정된 음성 신호를 출력하는 단계는, 단말 디바이스의 스피커를 이용하여 상기 조정된 음성 신호를 재생하는 단계를 포함하고, 상기 음성 신호는 상기 스피커를 통해 재생되는 신호로서, 네트워크를 이용하여 상기 단말 디바이스에 의해 수신되거나 상기 단말 디바이스에 국지적으로 저장된 신호인, 방법.
  4. 제3항에 있어서, 상기 기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계는 :
    상기 기록된 신호와 상기 음성 신호 사이의 주파수 영역 교차-상관 함수(frequency domain cross-correlation function)를 계산하는 단계;
    상기 음성 신호의 주파수 영역 자기상관 함수(frequency domain autocorrelation function)를 계산하는 단계; 및
    상기 기록된 신호와 상기 음성 신호 사이의 상기 주파수 영역 교차-상관 함수 및 상기 음성 신호의 상기 주파수 영역 자기상관 함수에 따라 상기 루프 전달 함수를 계산하는 단계
    를 포함하는, 방법.
  5. 제3항에 있어서, 상기 기록된 신호, 상기 음성 신호, 및 상기 루프 전달 함수에 따라 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼을 계산하는 단계는:
    상기 기록된 신호의 파워 스펙트럼을 계산하는 단계;
    상기 루프 전달 함수 및 상기 음성 신호에 따라 상기 에코 신호의 추정된 스펙트럼 값을 계산하는 단계;
    상기 에코 신호의 상기 추정된 스펙트럼 값의 제곱을 계산하여 상기 에코 신호의 파워 스펙트럼을 획득하는 단계; 및
    상기 기록된 신호의 파워 스펙트럼으로부터 상기 에코 신호의 파워 스펙트럼을 감산하여, 상기 잡음 신호의 파워 스펙트럼을 획득하는 단계
    를 포함하는, 방법.
  6. 제5항에 있어서,
    상기 기록된 신호의 파워 피쳐 값(power feature value), 상기 음성 신호의 파워 피쳐 값, 및 상기 에코 신호의 파워 피쳐 값을 계산하는 단계; 및
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 상기 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정하는 단계
    를 더 포함하고;
    상기 에코 신호의 상기 추정된 스펙트럼 값의 제곱을 계산하여 상기 에코 신호의 파워 스펙트럼을 획득하는 단계는 :
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 상기 음성 신호의 파워 피쳐 값이 제2 임계값보다 크고, 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 클 때, 상기 에코 신호의 상기 추정된 스펙트럼 값의 제곱을 계산하여 상기 에코 신호의 파워 스펙트럼을 획득하는 단계를 수행하는 단계를 포함하는, 방법.
  7. 제6항에 있어서,
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정하는 단계를 더 포함하고;
    상기 기록된 신호의 파워 스펙트럼으로부터 상기 에코 신호의 파워 스펙트럼을 감산하여, 상기 잡음 신호의 파워 스펙트럼을 획득하는 단계는 :
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 작을 때, 상기 기록된 신호의 파워 스펙트럼으로부터 상기 에코 신호의 파워 스펙트럼을 감산하여 상기 잡음 신호의 파워 스펙트럼을 획득하는 단계를 포함하는, 방법.
  8. 제3항에 있어서, 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계는 :
    상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성하는 단계; 및
    상기 에코 신호의 파워 스펙트럼이 변하지 않은 상태 하에서, 상기 음성 명료도 지수의 최대 값에 따라 상기 주파수 가중 계수를 획득하는 단계를 포함하는, 방법.
  9. 제1항에 있어서, 상기 단말 디바이스는 주파수 가중 필터 및 마이크로폰을 포함하고, 상기 주파수 가중 계수는, 상기 음성 신호가 상기 주파수 가중 필터 및 상기 스피커를 통과한 후 상기 마이크로폰에 의해 검출되는 상기 음성 신호의 비율을 나타내는, 방법.
  10. 음성 신호 처리 장치로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 장치로 하여금 동작들을 수행하게 하는 프로그램 명령어들을 저장한 메모리
    를 포함하고, 상기 동작들은 :
    기록된 신호 ―상기 기록된 신호는 적어도 잡음 신호 및 에코 신호를 포함함― 및 출력예정 음성 신호를 획득하는 단계;
    상기 기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계;
    상기 기록된 신호, 상기 음성 신호, 및 상기 루프 전달 함수에 따라, 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼을 계산하는 단계;
    상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계;
    상기 주파수 가중 계수에 기초하여 상기 음성 신호의 주파수 진폭을 조정하는 단계; 및
    상기 조정된 음성 신호를 출력하는 단계
    를 포함하는 장치.
  11. 제10항에 있어서, 상기 기록된 신호는 단말 디바이스의 마이크로폰을 이용하여 수집된 사운드 신호인, 장치.
  12. 제10항에 있어서, 상기 조정된 음성 신호를 출력하는 단계는, 스피커를 이용하여 상기 조정된 음성 신호를 재생하는 단계를 포함하고, 상기 음성 신호는 상기 스피커를 통해 재생되는 신호로서, 네트워크를 이용하여 단말 디바이스에 의해 수신되거나 상기 단말 디바이스에 국지적으로 저장된 신호인, 장치.
  13. 제12항에 있어서, 상기 기록된 신호 및 상기 음성 신호에 따라 루프 전달 함수를 계산하는 단계는 :
    상기 기록된 신호와 상기 음성 신호 사이의 주파수 영역 교차-상관 함수를 계산하는 단계;
    상기 음성 신호의 주파수 영역 자기상관 함수를 계산하는 단계; 및
    상기 기록된 신호와 상기 음성 신호 사이의 상기 주파수 영역 교차-상관 함수 및 상기 음성 신호의 상기 주파수 영역 자기상관 함수에 따라 상기 루프 전달 함수를 계산하는 단계
    를 포함하는, 장치.
  14. 제12항에 있어서, 상기 기록된 신호, 상기 음성 신호, 및 상기 루프 전달 함수에 따라 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼을 계산하는 단계는:
    상기 기록된 신호의 파워 스펙트럼을 계산하는 단계;
    상기 루프 전달 함수 및 상기 음성 신호에 따라 상기 에코 신호의 추정된 스펙트럼 값을 계산하는 단계;
    상기 에코 신호의 상기 추정된 스펙트럼 값의 제곱을 계산하여 상기 에코 신호의 파워 스펙트럼을 획득하는 단계; 및
    상기 기록된 신호의 파워 스펙트럼으로부터 상기 에코 신호의 파워 스펙트럼을 감산하여, 상기 잡음 신호의 파워 스펙트럼을 획득하는 단계
    를 포함하는, 장치.
  15. 제12항에 있어서, 또한,
    상기 기록된 신호의 파워 피쳐 값, 상기 음성 신호의 파워 피쳐 값, 및 상기 에코 신호의 파워 피쳐 값을 계산하고;
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 큰지, 상기 음성 신호의 파워 피쳐 값이 제2 임계값보다 큰지, 및 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 큰지를 결정하고;
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 크고, 상기 음성 신호의 파워 피쳐 값이 제2 임계값보다 크고, 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 클 때, 상기 에코 신호의 추정된 스펙트럼 값의 제곱을 계산하여 상기 에코 신호의 파워 스펙트럼을 획득하는 단계를 수행하도록 구성된 장치.
  16. 제12항에 있어서, 또한,
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작은지, 및 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 작은지를 결정하고;
    상기 기록된 신호의 파워 피쳐 값이 제1 임계값보다 작고 상기 에코 신호의 파워 피쳐 값이 제3 임계값보다 작을 때, 상기 기록된 신호의 파워 스펙트럼으로부터 상기 에코 신호의 파워 스펙트럼을 감산하여 상기 잡음 신호의 파워 스펙트럼을 획득하도록 구성된 장치.
  17. 제12항에 있어서, 상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 주파수 가중 계수를 계산하는 단계는 :
    상기 에코 신호의 파워 스펙트럼 및 상기 잡음 신호의 파워 스펙트럼에 따라 음성 명료도 지수를 구성하는 단계; 및
    상기 에코 신호의 파워 스펙트럼이 변하지 않은 상태 하에서, 상기 음성 명료도 지수의 최대 값에 따라 상기 주파수 가중 계수를 획득하는 단계를
    포함하는, 장치.
  18. 컴퓨팅 디바이스의 프로세서에 의해 실행될 때, 상기 디바이스로 하여금, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행하게 하는 프로그램 명령어들을 저장한 컴퓨터 판독가능한 저장 매체.
KR1020177029724A 2015-11-04 2016-05-27 음성 신호를 처리하기 위한 방법 및 장치 KR101981879B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510741057.1 2015-11-04
CN201510741057.1A CN105280195B (zh) 2015-11-04 2015-11-04 语音信号的处理方法及装置
PCT/CN2016/083622 WO2017075979A1 (zh) 2015-11-04 2016-05-27 语音信号的处理方法及装置

Publications (2)

Publication Number Publication Date
KR20170129211A true KR20170129211A (ko) 2017-11-24
KR101981879B1 KR101981879B1 (ko) 2019-05-23

Family

ID=55149085

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177029724A KR101981879B1 (ko) 2015-11-04 2016-05-27 음성 신호를 처리하기 위한 방법 및 장치

Country Status (7)

Country Link
US (2) US10586551B2 (ko)
EP (1) EP3373300B1 (ko)
JP (1) JP6505252B2 (ko)
KR (1) KR101981879B1 (ko)
CN (1) CN105280195B (ko)
MY (1) MY179978A (ko)
WO (1) WO2017075979A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026233A (ko) * 2020-08-25 2022-03-04 서울과학기술대학교 산학협력단 음성 구간 검출 방법

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280195B (zh) 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US20170330563A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Speech from Distributed Microphones
CN106506872B (zh) * 2016-11-02 2019-05-24 腾讯科技(深圳)有限公司 通话状态检测方法及装置
WO2018054171A1 (zh) 2016-09-22 2018-03-29 腾讯科技(深圳)有限公司 通话方法、装置、计算机存储介质及终端
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN106878575B (zh) * 2017-02-24 2019-11-05 成都喜元网络科技有限公司 残留回声的估计方法及装置
CN107833579B (zh) * 2017-10-30 2021-06-11 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质
CN108200526B (zh) * 2017-12-29 2020-09-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN110390947B (zh) * 2018-04-23 2024-04-05 北京京东尚科信息技术有限公司 声源位置的确定方法、系统、设备和存储介质
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN111048118B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048096B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111128194A (zh) * 2019-12-31 2020-05-08 云知声智能科技股份有限公司 一种提高在线语音识别效果的系统及方法
CN112203188B (zh) * 2020-07-24 2021-10-01 北京工业大学 一种自动音量调节方法
CN111986688A (zh) * 2020-09-09 2020-11-24 北京小米松果电子有限公司 一种提高语音清晰度的方法、装置及介质
CN112259125B (zh) * 2020-10-23 2023-06-16 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
US11610598B2 (en) * 2021-04-14 2023-03-21 Harris Global Communications, Inc. Voice enhancement in presence of noise
CN112820311A (zh) * 2021-04-16 2021-05-18 成都启英泰伦科技有限公司 一种基于空间预测的回声消除方法及装置
CN114822571A (zh) * 2021-04-25 2022-07-29 美的集团(上海)有限公司 一种回声消除方法、装置、电子设备和存储介质
CN113178192B (zh) * 2021-04-30 2024-05-24 平安科技(深圳)有限公司 语音识别模型的训练方法、装置、设备及存储介质
CN115665642B (zh) * 2022-12-12 2023-03-17 杭州兆华电子股份有限公司 一种噪声消除方法及系统
DE202023103428U1 (de) 2023-06-21 2023-06-28 Richik Kashyap Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010072937A (ko) * 1999-06-24 2001-07-31 요트.게.아. 롤페즈 음향 에코 및 잡음 제거 적응 필터
US20090225980A1 (en) * 2007-10-08 2009-09-10 Gerhard Uwe Schmidt Gain and spectral shape adjustment in audio signal processing

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04100460A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 電話機の歪測定方法
JP3397269B2 (ja) * 1994-10-26 2003-04-14 日本電信電話株式会社 多チャネル反響消去方法
IL115892A (en) * 1994-11-10 1999-05-09 British Telecomm Interference detection system for telecommunications
JP3420705B2 (ja) * 1998-03-16 2003-06-30 日本電信電話株式会社 エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体
EP0980064A1 (de) * 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
AU2001283205A1 (en) * 2000-08-07 2002-02-18 Apherma Corporation Method and apparatus for filtering and compressing sound signals
US7171003B1 (en) * 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
DE10157535B4 (de) * 2000-12-13 2015-05-13 Jörg Houpert Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
JP3864914B2 (ja) * 2003-01-20 2007-01-10 ソニー株式会社 エコー抑圧装置
EP1591995B1 (en) * 2004-04-29 2019-06-19 Harman Becker Automotive Systems GmbH Indoor communication system for a vehicular cabin
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
CN1321400C (zh) * 2005-01-18 2007-06-13 中国电子科技集团公司第三十研究所 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
WO2006111370A1 (en) 2005-04-19 2006-10-26 Epfl (Ecole Polytechnique Federale De Lausanne) A method and device for removing echo in a multi-channel audio signal
US8223979B2 (en) * 2005-08-02 2012-07-17 Koninklijke Philips Electronics N.V. Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
EP1931169A4 (en) * 2005-09-02 2009-12-16 Japan Adv Inst Science & Tech POST-FILTER FOR A MICROPHONE MATRIX
EP1927192B1 (en) * 2005-09-20 2010-12-22 Telefonaktiebolaget LM Ericsson (publ) Method for measuring speech intelligibility
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
JP4509126B2 (ja) * 2007-01-24 2010-07-21 沖電気工業株式会社 エコーキャンセラ及びエコーキャンセル方法
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
EP2048657B1 (en) * 2007-10-11 2010-06-09 Koninklijke KPN N.V. Method and system for speech intelligibility measurement of an audio transmission system
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
DK2563045T3 (da) * 2011-08-23 2014-10-27 Oticon As Fremgangsmåde og et binauralt lyttesystem for at maksimere en bedre øreeffekt
CN102306496B (zh) * 2011-09-05 2014-07-09 歌尔声学股份有限公司 一种多麦克风阵列噪声消除方法、装置及系统
CN102510418B (zh) * 2011-10-28 2015-11-25 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
CN103578479B (zh) * 2013-09-18 2016-05-25 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN103606374A (zh) * 2013-11-26 2014-02-26 国家电网公司 一种瘦终端的噪音消除和回声抑制方法及装置
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US20180358032A1 (en) * 2017-06-12 2018-12-13 Ryo Tanaka System for collecting and processing audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010072937A (ko) * 1999-06-24 2001-07-31 요트.게.아. 롤페즈 음향 에코 및 잡음 제거 적응 필터
US20090225980A1 (en) * 2007-10-08 2009-09-10 Gerhard Uwe Schmidt Gain and spectral shape adjustment in audio signal processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026233A (ko) * 2020-08-25 2022-03-04 서울과학기술대학교 산학협력단 음성 구간 검출 방법

Also Published As

Publication number Publication date
US10924614B2 (en) 2021-02-16
WO2017075979A1 (zh) 2017-05-11
US20200168237A1 (en) 2020-05-28
US10586551B2 (en) 2020-03-10
EP3373300A1 (en) 2018-09-12
KR101981879B1 (ko) 2019-05-23
MY179978A (en) 2020-11-19
JP2018517167A (ja) 2018-06-28
CN105280195A (zh) 2016-01-27
EP3373300B1 (en) 2020-09-16
EP3373300A4 (en) 2019-07-31
CN105280195B (zh) 2018-12-28
JP6505252B2 (ja) 2019-04-24
US20170365270A1 (en) 2017-12-21

Similar Documents

Publication Publication Date Title
KR101981879B1 (ko) 음성 신호를 처리하기 위한 방법 및 장치
US10609483B2 (en) Method for sound effect compensation, non-transitory computer-readable storage medium, and terminal device
EP3547659B1 (en) Method for processing audio signal and related products
JP5876154B2 (ja) 雑音を制御するための電子デバイス
CN108540900B (zh) 音量调节方法及相关产品
CN108668009B (zh) 输入操作控制方法、装置、终端、耳机及可读存储介质
US10878833B2 (en) Speech processing method and terminal
US20230008818A1 (en) Sound masking method and apparatus, and terminal device
CN111385714B (zh) 扬声器的音圈温度确定方法、电子设备及存储介质
CN109616135B (zh) 音频处理方法、装置及存储介质
US20140341386A1 (en) Noise reduction
CN111343540B (zh) 一种钢琴音频的处理方法及电子设备
CN111314560A (zh) 一种调整声音响度的方法及通信终端
CN110995909B (zh) 一种声音补偿方法及装置
CN114040285A (zh) 耳机的前馈滤波器参数生成方法、设备、耳机及存储介质
CN111541975B (zh) 音频信号的调节方法及电子设备
CN116994596A (zh) 啸叫抑制方法、装置、存储介质及电子设备
CN108810787B (zh) 基于音频设备的异物检测方法和装置、终端
WO2023284406A1 (zh) 一种通话方法及电子设备
CN115884030A (zh) 降噪方法、装置、耳机设备、存储介质及芯片
CN110139181B (zh) 音频处理方法、装置、耳机、终端设备及存储介质
CN108551648B (zh) 质量检测方法和装置、可读存储介质、终端
KR20220017080A (ko) 음성 신호를 처리하는 방법 및 이를 이용한 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right