KR102282366B1 - 음성 향상 방법 및 그 장치 - Google Patents

음성 향상 방법 및 그 장치 Download PDF

Info

Publication number
KR102282366B1
KR102282366B1 KR1020140063112A KR20140063112A KR102282366B1 KR 102282366 B1 KR102282366 B1 KR 102282366B1 KR 1020140063112 A KR1020140063112 A KR 1020140063112A KR 20140063112 A KR20140063112 A KR 20140063112A KR 102282366 B1 KR102282366 B1 KR 102282366B1
Authority
KR
South Korea
Prior art keywords
voice
received signal
signal
enhancement
user
Prior art date
Application number
KR1020140063112A
Other languages
English (en)
Other versions
KR20140142149A (ko
Inventor
조재연
추이웨이웨이
이승열
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US14/895,808 priority Critical patent/US10431241B2/en
Priority to PCT/KR2014/004840 priority patent/WO2014196769A1/ko
Priority to EP14807150.9A priority patent/EP3002753B1/en
Priority to CN201480044082.8A priority patent/CN105453174A/zh
Publication of KR20140142149A publication Critical patent/KR20140142149A/ko
Priority to US16/287,749 priority patent/US10529360B2/en
Priority to US16/691,813 priority patent/US11043231B2/en
Application granted granted Critical
Publication of KR102282366B1 publication Critical patent/KR102282366B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

음성 향상 장치의 상부에 배치된 복수의 마이크로폰 및 프로세서를 포함하고, 프로세서는 복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하고, 수신한 신호의 방향을 추정하고, 수신한 신호의 추정된 방향이 소정 방향인지 여부를 결정하고, 추정된 방향이 소정 방향이라고 결정하면, 수신한 신호가 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하고, 수신한 신호가 사용자 발화와 연관된다고 결정하면, 수신한 신호를 빔 포밍(beamforming)하여 소정 방향으로부터 수신한 신호가 강조되도록 하고, 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하고, 추정된 방향이 소정 방향이 아니라고 결정하면, 수신한 신호가 사용자 발화와 연관되는지 여부를 결정하는 것 및 수신한 신호를 빔 포밍하여 출력하는 것을 비활성화하는, 음성 향상 장치가 개시된다.

Description

음성 향상 방법 및 그 장치{Method and apparatus of enhancing speech}
본 발명은 단일 또는 다중 마이크로폰을 이용한 음성 향상 방법 및 그 장치에 관한 것이다. 또한, 음성 향상 기술을 위하여 함께 사용하는 음성 탐지 기술 및 화자 방향 탐지 기술을 적용한 음성 향상 방법 및 그 장치에 관한 것이다.
음성 인식 기술은 사용자 등이 입력하는 음성 신호를 소정 언어에 대응하는 신호로 인식하는 기술로, 예를 들어, 음성 인식 내비게이션, 휴대폰, TV 등과 같이 소정 전자기기의 동작 제어 등을 위하여 이용될 수 있다.
음성 인식의 인식율 향상을 위하여, 입력된 음성 신호에 섞여 있는 잡음을 제거하여 순수한 음성 신호를 추출하는 기술인 음성 향상(speech enhancement) 기술이 이용될 수 있다. 음성 향상(speech enhancement) 관련 기술로는 특정 방향으로부터의 음성에 집중하고 주변 잡음은 제거하는 빔포밍(beamforming), 정적 잡음을 제거하는 잡음 억제(noise suppression) 등을 예로 들 수 있다.
본 발명의 실시예들은, 잡음 제거를 위하여 화자 발성 구간 및 위치 정보를 음성 향상에 사용하는 방법을 제시하기 위한 것이다. 본 발명의 실시예들은, 음성 탐지 정보에 의한 방향 추정 및 음성 향상을 제어하는 기술과 함께 방향 정보에 의한 음성 향상 기술을 제시하기 위한 것이다.
본 발명의 일 실시예에 따른 음성 향상 장치는, 적어도 하나 이상의 마이크를 포함하는 센서부, 상기 센서부의 신호를 사용하여 화자의 음성을 탐지하는 음성 탐지부, 상기 센서부의 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정부, 및 상기 마이크로 입력된 화자의 음성을 향상하는 음성 향상부를 포함하고, 상기 음성 탐지부는, 상기 음성 탐지의 결과에 기초하여 상기 방향 추정부 및 상기 음성 향상부의 동작을 제어하고, 상기 방향 추정부는, 상기 방향 정보를 상기 음성 향상부에 전달할 수 있다.
본 발명의 일 실시예에 따른 음성 향상 장치는, 적어도 하나 이상의 마이크를 포함하는 센서부, 상기 센서부의 신호를 사용하여 화자의 음성을 탐지하는 음성 탐지부, 상기 센서부의 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정부, 및 상기 마이크로 입력된 화자의 음성을 향상하는 음성 향상부를 포함하고, 상기 방향 추정부는, 상기 방향 추정의 결과에 기초하여 상기 음성 탐지부의 동작을 제어하고, 상기 방향 정보를 상기 음성 향상부에 전달하고, 상기 음성 탐지부는, 상기 음성 탐지의 결과에 기초하여 상기 음성 향상부의 동작을 제어할 수 있다.
상기 센서부는, 마이크, 카메라, 및 골전도 중 적어도 하나 이상을 포함하고, 상기 음성 탐지부는, 상기 마이크의 신호를 사용하여 음성 성분의 유무를 탐지하거나, 상기 카메라의 신호를 사용하여 화자의 입술 움직임을 탐지하거나, 상기 골전도의 신호를 사용하여 화자의 발성 유무를 탐지하거나, 또는, 상기 마이크, 상기 카메라, 및 상기 골전도 중 둘 이상을 결합하여 음성을 탐지할 수 있다.
상기 센서부는, 두 개 이상의 마이크 및 카메라 중 적어도 하나 이상을 포함하고, 상기 방향 추정부는, 상기 두 개 이상의 마이크의 신호의 차이를 사용하여 방향을 추정하거나, 상기 카메라의 신호를 사용하여 화자의 얼굴 인식 또는 화자의 입술 움직임 탐지를 사용하여 방향을 추정할 수 있다.
상기 음성 향상부는, 적어도 하나 이상의 필터를 포함하고, 상기 음성 탐지부에 의해 음성이 탐지된 경우, 상기 적어도 하나 이상의 필터의 계수를 업데이트하고, 상기 음성 탐지부에 의해 음성이 탐지되지 않은 경우, 잡음 모델링을 위한 잡음을 추정할 수 있다.
상기 음성 향상부는, 상기 방향 추정부로부터 전달받은 방향 정보를 사용하여, 원하는 신호 소스가 각 마이크에 도달하는 시간의 조정, 마이크 간 편차의 보정, 신호 소스들의 분리 중 적어도 하나 이상을 수행할 수 있다.
상기 센서부는, 마이크, 카메라, 골전도, 근접 센서, 적외선 센서, 가속도 센서, 및 초음파 중 적어도 하나 이상을 포함할 수 있다.
상기 음성 탐지의 결과에 의해, 상기 방향 추정부는 온(on) 및 오프(off)가 제어될 수 있다.
상기 방향 추정의 결과에 의해, 상기 음성 탐지부는 온 및 오프가 제어될 수 있다.
본 발명의 일 실시예에 따른 음성 향상 방법은, 화자의 음성을 탐지하는 음성 탐지 단계, 상기 음성 탐지 단계의 상기 음성 탐지의 결과에 기초하여, 입력된 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정 단계, 및 상기 음성 탐지 단계의 상기 음성 탐지의 결과에 기초하여, 상기 방향 추정 단계의 상기 방향 정보를 사용하여 화자의 음성을 향상하는 음성 향상 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 음성 향상 방법은, 입력된 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정 단계, 상기 방향 추정 단계의 상기 방향 추정의 결과에 기초하여, 화자의 음성을 탐지하는 음성 탐지 단계, 및 상기 음성 탐지 단계의 상기 음성 탐지의 결과에 기초하여, 상기 방향 추정 단계의 상기 방향 정보를 사용하여 화자의 음성을 향상하는 음성 향상 단계를 포함할 수 있다.
상기 음성 탐지 단계는, 마이크의 신호를 사용하여 음성 성분의 유무를 탐지하거나, 카메라의 신호를 사용하여 화자의 입술 움직임을 탐지하거나, 골전도의 신호를 사용하여 화자의 발성 유무를 탐지하거나, 또는, 상기 마이크의 신호, 상기 카메라의 신호, 및 상기 골전도의 신호 중 둘 이상을 결합하여 음성을 탐지할 수 있다.
상기 방향 추정 단계는, 두 개 이상의 마이크의 신호의 차이를 사용하여 방향을 추정하거나, 카메라의 신호를 사용하여 화자의 얼굴 인식 또는 화자의 입술 움직임 탐지를 사용하여 방향을 추정할 수 있다.
상기 음성 향상 단계는, 적어도 하나 이상의 필터를 사용하여 음성을 향상하고, 상기 음성 탐지 단계에 의해 음성이 탐지된 경우, 상기 적어도 하나 이상의 필터의 계수를 업데이트하고, 상기 음성 탐지 단계에 의해 음성이 탐지되지 않은 경우, 잡음 모델링을 위한 잡음을 추정할 수 있다.
상기 음성 향상 단계는, 상기 방향 추정 단계의 상기 방향 정보를 사용하여, 원하는 신호 소스가 각 마이크에 도달하는 시간의 조정, 마이크 간 편차의 보정, 신호 소스들의 분리 중 적어도 하나 이상을 수행할 수 있다.
상기 입력된 신호는, 마이크, 카메라, 골전도 센서, 근접 센서, 적외선 센서, 가속도 센서, 및 초음파 센서 중 적어도 하나 이상으로부터의 신호일 수 있다.
상기 음성 탐지 단계의 상기 음성 탐지 여부에 의해, 상기 방향 추정 단계에서 상기 방향 추정의 개시 여부를 결정할 수 있다.
상기 방향 추정 단계의 상기 방향 추정 여부에 의해, 상기 음성 탐지 단계에서 상기 음성 탐지의 개시 여부를 결정할 수 있다.
본 발명은, 일 실시예에 따른 음성 향상 방법을 컴퓨터로 실행시키기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 포함할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 향상 장치(10)의 개략적인 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 음성 향상 장치(20)의 개략적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 음성 향상 방법의 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 향상 방법의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 휴대폰 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 TV 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 태블릿 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 8은 본 발명의 다른 실시예에 따른 웨어러블 디바이스 용의 음성 향상 장치(20)를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 헤드셋 또는 보청기 용의 음성 향상 장치(10)를 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
사용자는 기기를 어떤 장소에 어떤 자세로 위치시키든지 상관없이 기기를 사용하기를 원한다. 본 발명의 실시예들은 다중 마이크를 이용한 음성 향상 기술을 실제 기기에 적용하고자 할 때 필요한 기술이다. 또한, 사용자가 발성하는 순간에 사용자의 방향을 찾아서 음성을 향상시키고자 한다.
도 1은 본 발명의 일 실시예에 따른 음성 향상 장치(10)의 개략적인 블록도이다.
도 1을 참조하면, 음성 향상 장치(10)는 센서부(11), 음성 탐지부(12), 방향 추정부(13), 및 음성 향상부(14)를 포함한다.
센서부(11)는 적어도 하나 이상의 마이크를 포함한다. 센서부(11)는 마이크 이외에 카메라, 골전도, 근접 센서, 적외선 센서, 가속도 센서, 초음파 등을 포함할 수 있다.
음성 탐지부(12, SD: speech detection)는 센서부(11)의 신호를 사용하여 화자의 음성을 탐지한다. 예컨대, 음성 탐지부(12)는 마이크 또는 기타 센서를 통해 사용자의 발성 유무를 탐지한다.
방향 추정부(13, TDE: target direction estimation)는 센서부(11)의 신호를 사용하여 화자의 방향을 추정하고, 추정된 방향을 나타내는 방향 정보를 생성한다. 예컨대, 방향 추정부(13)는 센서부(11)의 다중 마이크 또는 카메라의 영상을 통해 사용자의 위치를 파악한다.
음성 향상부(14, ENH: speech enhancement)는 마이크로 입력된 화자의 음성을 향상한다. 구체적으로, 음성 향상부(14)는 사용자의 발성 유무 및 방향 정보를 전달받고, 전달된 사용자의 발성 유무 및 방향 정보를 이용하여 음성신호를 향상한다.
음성 탐지부(12)는 음성 탐지의 결과에 기초하여 방향 추정부(13) 및 음성 향상부(14)의 동작을 제어한다. 음성 탐지부(12)로부터 방향 추정부(13)에 전달되는 제어 정보 C1은 방향 추정부(13)의 온(on) 및 오프(off)를 제어할 수 있다. 음성 탐지부(12)로부터 음성 향상부(14)에 전달되는 제어 정보 C2는 음성 향상부(14)의 필터 업데이트를 제어할 수 있다.
방향 추정부(13)는 방향 정보를 음성 향상부(14)에 전달한다. 방향 추정부(13)로부터 음성 향상부(14)에 전달되는 정보 τ는 사용자의 방향 정보를 나타낸다.
센서부(11)로부터 음성 탐지부(12)에 전달되는 입력으로, 마이크 신호 외에도 카메라, 골전도 정보 등을 이용할 수 있다. 센서부(11)로부터 방향 추정부(13)에 전달되는 입력으로, 마이크 신호 외에도 카메라 센서 정보 등을 이용할 수 있다. 센서부(11)로부터 음성 향상부(14)에 전달되는 입력은, 마이크 신호를 이용할 수 있다.
음성 탐지부(12)에서 음성을 탐지하는 방법으로는, 마이크의 신호를 사용하여 음성 성분의 유무를 탐지하는 방법, 즉, 음성을 이용한 VAD(voice activity detection) 외에도 카메라의 신호를 사용하여 화자의 입술 움직임을 탐지하거나, 골전도의 신호를 사용하여 화자의 발성 유무를 탐지할 수 있고, 또한 이들을 복합한 멀티모달 형태로 음성을 탐지할 수 있다.
방향 추정부(13)에서 음성의 방향을 추정하는 방법으로는, 두 개 이상의 마이크의 신호의 차이를 사용하여 방향을 추정하는 방법, 즉, 음성을 이용한 DOA(direction of arrival), TDOA(time difference of arrival) 외에도 화자의 얼굴 인식, 화자의 입술 움직임 탐지, 제스처 인식 등을 사용하여 방향을 추정할 수 있고, 또한 이들을 복합한 멀티모달 형태로 음성의 방향을 추정할 수 있다.
음성 향상부(14)는 적어도 하나 이상의 필터를 포함할 수 있다. 음성 탐지부(12)에 의해 음성이 탐지된 경우, 필터의 계수를 업데이트하고, 음성 탐지부(12)에 의해 음성이 탐지되지 않은 경우, 잡음 모델링을 위한 잡음을 추정할 수 있다. 또한, 음성 향상부(14)는 방향 추정부(13)로부터 전달받은 방향 정보를 사용하여, 원하는 신호 소스가 각 마이크에 도달하는 시간의 조정, 마이크 간 편차의 보정, 신호 소스들의 분리 중 적어도 하나 이상을 수행할 수 있다.
음성 향상 장치(10)는 다음과 같이 동작할 수도 있다. 음성인식 또는 통화 모드가 준비된 상황에서 사용자가 발성을 하면 음성 탐지부(12)가 탐지한다. 사용자 발성이 탐지되는 구간에서 음성 탐지부(12)는 제어 정보 C1으로 방향 추정부(13)를 온(on)하여 발성하는 동안의 사용자 방향을 찾아 방향 정보 τ를 음성 향상부(14)로 전달한다. 이 때, 음성 향상부(14)의 필터 업데이트를 막아 음성 왜곡을 방지할 수도 있다. 음성 향상부(14)는 전달받은 방향 정보 τ로 채널 간 딜레이를 보정하고, 제어 정보 C2로 필터 업데이트를 조절하면서 음성 향상을 수행한다.
음성 향상 장치(10)는 음성 탐지부(12)에 의해 음성이 발생한 것을 탐지한 경우에만, 방향 추정부(13)에서 방향을 찾으므로, 화자의 방향을 확실하게 찾을 수 있다. 음성이 발생하지도 않은 상태에서 방향을 찾을 경우, 노이즈 등의 영향에 의하여 부정확한 방향을 추정할 가능성이 있다. 음성 향상부(14)는 확실한 방향 정보를 사용하여 음성 향상을 수행할 수 있다. 따라서, 음성 향상 장치(10)에 의하여, 방향 추정 성능 및 방향 정보를 이용하는 음성 향상 성능이 향상될 수 있다. 또한, 음성의 발생이 탐지되지 않은 경우에는 방향 추정부(13)와 음성 향상부(14)의 작동을 쉬게 할 수 있으므로, 음성 향상 장치의 컴퓨팅 파워에서도 이득을 얻을 수 있다.
도 2는 본 발명의 다른 실시예에 따른 음성 향상 장치(20)의 개략적인 블록도이다.
도 2를 참조하면, 음성 향상 장치(20)의 센서부(21), 음성 탐지부(22), 방향 추정부(23), 및 음성 향상부(24)는 도 1의 음성 향상 장치(10)의 센서부(11), 음성 탐지부(12), 방향 추정부(13), 및 음성 향상부(14)와 유사하다. 이하, 음성 향상 장치(20)가 음성 향상 장치(10)과 다른 부분에 대하여 설명한다.
음성 향상 장치(20)는 음성 탐지부(22) 및 방향 추정부(23)의 구성이 음성 향상 장치(10)의 음성 탐지부(12) 및 방향 추정부(13)의 구성과 차이가 있다. 구체적으로, 제어 정보 C1의 방향이 음성 향상 장치(10)와 음성 향상 장치(20)에서 상반된다.
방향 추정부(23)는 방향 추정의 결과에 기초하여 음성 탐지부(22)의 동작을 제어한다. 방향 추정부(23)로부터 음성 탐지부(22)에 전달되는 제어 정보 C1은 음성 탐지부(22)의 온(on) 및 오프(off)를 제어할 수 있다.
음성 향상 장치(20)에 의하면, 방향을 먼저 추정함으로써, 탐지되는 음성 중 장치의 동작과 관련된 음성을 선별하여 처리할 수 있다. 예컨대, 시계 형태의 웨어러블 디바이스에는 화자의 음성으로서 웨어러블 디바이스에 입력하기 위한 음성 뿐만 아니라, 일상 대화 등도 계속적으로 입력될 수 있다. 이 때, 화자의 일상 대화는 웨어러블 디바이스의 동작과는 관련이 없을 가능성이 높다. 웨어러블 디바이스의 동작과 관련이 있는 화자의 음성은 화자가 웨어러블 디바이스의 화면을 보면서 말할 때의 음성일 가능성이 높다. 따라서, 음성 향상 장치(20)의 경우, 카메라 센서 정보 등을 이용하여 방향 추정부(23)에서 화자의 방향을 추정할 수 있는 경우, 즉, 화자가 화면을 보고 있을 경우에, 음성 탐지부(22)에서 음성을 탐지하도록 함으로써, 음성 향상 장치(20)의 사용과 관련될 가능성이 높은 음성을 선별할 수 있다. 또한, 방향이 추정되지 않은 경우에는 음성 탐지부(23)와 음성 향상부(24)의 작동을 쉬게 할 수 있으므로, 음성 향상 장치의 컴퓨팅 파워에서도 이득을 얻을 수 있다.
이하, 도 3 및 4를 통해 본 발명의 음성 향상 방법의 실시예들을 설명한다.
도 3은 본 발명의 일 실시예에 따른 음성 향상 방법의 흐름도이다.
단계 31에서, 화자의 음성을 탐지한다.
단계 32에서, 음성 탐지 유무를 판단한다. 음성이 탐지되지 않은 것으로 판단될 경우(단계 32의 아니오), 단계 31로 돌아간다.
단계 32에서 음성이 탐지된 것으로 판단될 경우(단계 32의 예), 단계 33에서, 입력된 신호를 사용하여 화자의 방향을 추정하고, 추정된 방향을 나타내는 방향 정보 τ를 생성한다.
단계 32에서 음성이 탐지된 것으로 판단될 경우(단계 32의 예), 단계 34에서, 단계 33의 방향 정보 τ를 사용하여 화자의 음성을 향상한다.
따라서, 도 3의 음성 향상 방법에 의하면, 음성이 발생한 것을 탐지한 경우에만, 방향을 찾으므로, 화자의 방향을 확실하게 찾을 수 있다. 또한, 음성이 발생한 것이 탐지되지 않은 경우에는 방향 추정과 음성 향상을 수행하지 않을 수 있으므로, 컴퓨팅 파워에서도 이득을 얻을 수 있다.
도 4는 본 발명의 다른 실시예에 따른 음성 향상 방법의 흐름도이다.
단계 41에서, 입력된 신호를 사용하여 화자의 방향을 추정하고, 추정된 방향을 나타내는 방향 정보를 생성한다.
단계 42에서, 방향 추정 여부를 판단한다. 방향이 추정되지 않은 것으로 판단될 경우(단계 42의 아니오), 단계 41로 돌아간다.
단계 42에서 방향이 추정된 것으로 판단될 경우(단계 42의 예), 단계 43에서, 화자의 음성을 탐지한다.
단계 44에서, 음성 탐지 유무를 판단한다. 음성이 탐지되지 않은 것으로 판단될 경우(단계 44의 아니오), 단계 41로 돌아간다.
음성이 탐지된 것으로 판단될 경우(단계 44의 예), 단계 45에서, 단계 41의 방향 정보 τ를 사용하여 화자의 음성을 향상한다.
따라서, 도 4의 음성 향상 방법에 의하면, 화자의 방향을 추정할 수 있는 경우, 음성을 탐지하도록 함으로써, 음성 향상에 사용될 가능성이 높은 음성을 선별할 수 있다. 또한, 방향이 추정되지 않은 경우에는 음성 탐지와 음성 향상을 수행하지 않을 수 있으므로, 컴퓨팅 파워에서도 이득을 얻을 수 있다.
이하, 본 발명의 음성 향상 장치에 의한 잡음 감소를 설명한다.
화자의 방향과 잡음 방향이 서로 다른 상황에서 일정한 레벨의 정적 잡음(예컨대, 사인파 및 백색잡음 각각의 경우)을 재생한다. 예컨대, 잡음의 레벨을 10이라고 가정한다.
먼저, 화자의 발성이 없는 상태에서 솔루션 입출력을 확인해 본다. 이 경우, 예컨대, 입력신호 잡음 레벨은 10이고, 출력신호 잡음 레벨은 8 정도가 출력될 수 있다. 이 때, 화자의 음성이 탐지되지 않으므로, 방향 추정과 음성 향상은 수행되지 않고, 그 대신에 음성 향상부에서는 잡음 모델링을 수행할 수 있다.
다음, 화자가 발성한 이후의 솔루션 입출력을 확인해 본다. 이 경우, 예컨대, 입력신호 잡음 레벨은 10이고, 출력신호 잡음 레벨은 3 정도가 출력될 수 있다. 이 때, 화자의 음성이 탐지되므로, 방향 추정과 음성 향상이 수행된다. 방향 추정에 의해 생성된 방향 정보를 사용하여 음성 향상이 이루어지므로, 화자의 방향에 포커싱(focusing)하여 화자의 음성에 보다 집중할 수 있고, 잡음 방향의 신호의 영향을 억제할 수 있기 때문에 결과적으로 출력신호에서 잡음 레벨이 감소된다.
따라서, 본 발명의 음성 향상 장치에 의하면, 화자의 발성 전후에 동일한 레벨의 잡음이 존재하고 입력되더라도, 출력신호 잡음 레벨에 있어서는 차이가 발생하게 된다. 화자의 발성이 없는 경우에는 일정 레벨의 잡음이 출력되므로 잡음 모델링을 수행할 수 있고, 화자의 발성이 있는 경우에는 잡음 레벨이 억제되므로 화자의 음성을 향상할 수 있다.
이하, 도 5 내지 도 9를 통해 본 발명의 음성 향상 장치가 디바이스에서 구현되는 다양한 실시예들을 설명한다.
도 5는 본 발명의 일 실시예에 따른 휴대폰 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 5의 음성 향상 장치의 구조는 도 1의 기본 블록 구조를 갖는 음성 향상 장치와 거의 동일하다. 도 5의 휴대폰의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, 휴대폰의 상단부 측과 하단부 측에 마이크가 위치할 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다. 휴대폰 용의 음성 향상 장치(10)의 음성 탐지부(12)와 방향 추정부(13)에서는 마이크의 음성 정보를 이용할 수 있다.
도 6은 본 발명의 일 실시예에 따른 TV 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 6의 TV의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, TV의 상단부 측에 복수의 마이크가 배열될 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다. 또한, TV는 미도시한 카메라를 구비할 수 있다. TV는 마이크와 카메라를 사용함으로써, 예컨대, 화상 통화 기능 등의 멀티미디어 기능을 수행할 수 있다. 사용자는 TV의 전방에서 음성 인식 또는 화상 통화를 할 수 있다. 이 때, TV 용의 음성 향상 장치의 음성 탐지부(12)와 방향 추정부(13)에서는 음성 정보와 카메라의 화상 정보를 모두 사용할 수 있다.
도 7은 본 발명의 일 실시예에 따른 태블릿(Tablet) 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 7의 태블릿의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, 태블릿의 하단부 측에 복수의 마이크가 배열될 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다. 태블릿의 경우 사용자의 사용 행태가 다양하기 때문에, 사용 행태에 따른 하이브리드 방식을 채택할 수 있다. 먼저, 태블릿 용의 음성 향상 장치의 음성 탐지부(12)는 음성 정보에 의하여 음성을 탐지한다. 그 다음, 카메라 정보를 통해 얼굴 인식이 가능할 경우, TV 용의 음성 향상 장치에서의 시나리오와 마찬가지로, 태블릿 용의 음성 향상 장치의 음성 탐지부(12)와 방향 추정부(13)에서는 음성 정보와 카메라의 화상 정보를 모두 사용할 수 있다. 한편, 얼굴 인식이 불가능한 경우, 휴대폰 용의 음성 향상 장치에서의 시나리오와 마찬가지로, 태블릿 용의 음성 향상 장치의 음성 탐지부(12)와 방향 추정부(13)에서는 마이크의 음성 정보를 이용할 수 있다.
도 8은 본 발명의 다른 실시예에 따른 웨어러블(wearable) 디바이스 용의 음성 향상 장치(20)를 나타낸 도면이다.
웨어러블 디바이스의 경우, 사용자가 웨어러블 디바이스를 사용 중일 때, 통상 사용자의 얼굴이 웨어러블 디바이스를 향하게 된다. 또한, 사용자의 얼굴이 웨어러블 디바이스를 향하고 있을 때, 사용자의 발화에 대한 인식률이 높아질 수 있다. 즉, 웨어러블 디바이스의 경우, 카메라 정보로 얼굴 인식이 되는 경우에만 전처리 동작을 하는 것을 제약사항으로 포함시킴으로써, 음성 탐지의 효율을 보다 높일 수 있다. 따라서, 도 8의 웨어러블 디바이스 용의 음성 향상 장치의 구조는 도 2의 블록 구조를 갖는 음성 향상 장치와 거의 동일하다. 도 8의 웨어러블 디바이스의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, 웨어러블 디바이스의 좌측 상단부와 우측 하단부에 복수의 마이크가 배열될 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다.
웨어러블 디바이스 용의 음성 향상 장치의 방향 추정부(23)는 카메라 화상 정보를 사용하여 얼굴 인식 여부를 알린다. 그 다음, 얼굴 인식한 경우, 음성 탐지부(22)와 음성 향상부(24)가 동작한다. 얼굴 인식하지 못할 경우, 음성 탐지부(22)와 음성 향상부(24)는 동작하지 않는다. 한편, 웨어러블 디바이스가 단일 마이크를 갖는 경우 방향 추정부(23)의 방향 정보 τ가 음성 향상부(24)로 전달되지 않는다.
도 9는 본 발명의 일 실시예에 따른 헤드셋(headset) 또는 보청기(hearing aid) 용의 음성 향상 장치(10)를 나타낸 도면이다.
사용자가 발화할 경우, 소리는 공기 중으로 전달될 뿐만 아니라, 사용자의 두개골 등을 통해서도 소리가 전달될 수 있다. 사용자의 머리에 직접 접하여 착용하는 헤드셋 또는 귀에 직접 접하여 착용하는 보청기의 경우, 이와 같이 사용자의 두개골을 통하여 전달되는 골전도를 검출할 수 있다. 따라서, 헤드셋 또는 보청기 용의 음성 향상 장치의 음성 탐지부(12)는 음성 정보 외에 골전도 센서 정보를 이용하여 음성 탐지를 할 수 있다.
본 발명은 사용자가 발성하는 순간에 사용자의 방향을 찾아서 음성을 향상시키는 기술로서, 음성구간과 비음성구간을 구분하여 동작하는 효율적이면서 고성능을 보장하는 음성 향상 방법에 관한 것이다. 본 발명은 휴대폰 이외에도 TV, 태블릿, 보청기 등에 음성 향상 방법을 적용할 수 있다. 특히, 최근에 시계, 반지, 안경 등 신체부착 방식의 컴퓨팅 장치(웨어러블 컴퓨터(wearable computer) 또는 웨어러블 디바이스(wearable device))가 점차 주목받으며 산업계에서 제품 형태로 나타나고 있는데, 이와 결합한다면 효율적인 저전력 알고리즘으로 기여할 수 있다.
한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이제까지 본 발명에 대하여 바람직한 실시 예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로 상기 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.
10 : 음성 향상 장치 11 : 센서부
12 : 음성 탐지부 13 : 방향 추정부
14 : 음성 향상부 20 : 음성 향상 장치
21 : 센서부 22 : 음성 탐지부
23 : 방향 추정부 24 : 음성 향상부

Claims (19)

  1. 음성 향상 장치에 있어서,
    상기 음성 향상 장치의 상부에 배치된 복수의 마이크로폰; 및
    프로세서를 포함하고,
    상기 프로세서는 상기 복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하고,
    상기 수신한 신호의 방향을 추정하고,
    상기 수신한 신호의 상기 추정된 방향이 소정 방향인지 여부를 결정하고,
    상기 추정된 방향이 상기 소정 방향이라고 결정하면, 상기 수신한 신호가 상기 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하고, 상기 수신한 신호가 상기 사용자 발화와 연관된다고 결정하면, 상기 수신한 신호를 빔 포밍(beamforming)하여 상기 소정 방향으로부터 수신한 신호가 강조되도록 하고, 상기 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하고,
    상기 추정된 방향이 상기 소정 방향이 아니라고 결정하면, 상기 수신한 신호가 상기 사용자 발화와 연관되는지 여부를 결정하는 것 및 상기 수신한 신호를 빔 포밍하여 출력하는 것을 비활성화하는, 음성 향상 장치.
  2. 제1 항에 있어서, 상기 음성 향상 장치는 스크린을 더 포함하고,
    상기 프로세서는 사용자가 상기 음성 향상 장치의 상기 스크린을 보면서 발화하는 것에 기초하여, 상기 수신한 신호의 상기 추정된 방향이 상기 소정 방향인지 여부를 결정하는, 음성 향상 장치.
  3. 음성 향상 장치에서 수행하는 음성 향상 방법에 있어서,
    복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하는 단계;
    상기 수신한 신호의 방향을 추정하는 단계;
    상기 수신한 신호의 상기 추정된 방향이 소정 방향인지 여부를 결정하는 단계;
    상기 추정된 방향이 상기 소정 방향이라고 결정하면,
    상기 수신한 신호가 상기 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하는 단계;
    상기 수신한 신호가 상기 사용자 발화와 연관된다고 결정하면, 상기 수신한 신호를 빔 포밍(beamforming)하여 상기 소정 방향으로부터 수신한 상기 수신한 신호가 강조되도록 하는 단계;
    상기 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하는 단계; 및
    상기 추정된 방향이 상기 소정 방향이 아니라고 결정하면, 상기 수신한 신호가 상기 사용자 발화와 연관되는지 여부를 결정하는 단계 및 상기 수신한 신호를 빔 포밍하여 출력하는 단계를 비활성화시키는 단계를 포함하는, 음성 향상 장치에서 수행하는 음성 향상 방법.
  4. 제3 항에 있어서, 상기 수신한 신호의 상기 추정된 방향이 상기 소정 방향인지 여부를 결정하는 단계는 사용자가 상기 음성 향상 장치의 스크린을 보면서 발화할 때의 상기 사용자의 방향에 기초하여 수행되는, 음성 향상 장치에서 수행하는 음성 향상 방법.
  5. 복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하는 단계;
    상기 수신한 신호의 방향을 추정하는 단계;
    상기 수신한 신호의 상기 추정된 방향이 소정 방향인지 여부를 결정하는 단계;
    상기 추정된 방향이 상기 소정 방향이라고 결정하면,
    상기 수신한 신호가 상기 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하는 단계;
    상기 수신한 신호가 상기 사용자 발화와 연관된다고 결정하면, 상기 수신한 신호를 빔 포밍(beamforming)하여 상기 소정 방향으로부터 수신한 신호가 강조되도록 하는 단계;
    상기 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하는 단계; 및
    상기 추정된 방향이 상기 소정 방향이 아니라고 결정하면, 상기 수신한 신호가 상기 사용자 발화와 연관되는지 여부를 결정하는 단계 및 상기 수신한 신호를 빔 포밍하여 출력하는 단계를 비활성화시키는 단계를 포함하는, 음성 향상 장치에서 수행하는 음성 향상 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
KR1020140063112A 2013-06-03 2014-05-26 음성 향상 방법 및 그 장치 KR102282366B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US14/895,808 US10431241B2 (en) 2013-06-03 2014-05-30 Speech enhancement method and apparatus for same
PCT/KR2014/004840 WO2014196769A1 (ko) 2013-06-03 2014-05-30 음성 향상 방법 및 그 장치
EP14807150.9A EP3002753B1 (en) 2013-06-03 2014-05-30 Speech enhancement method and apparatus for same
CN201480044082.8A CN105453174A (zh) 2013-06-03 2014-05-30 话音增强方法及其装置
US16/287,749 US10529360B2 (en) 2013-06-03 2019-02-27 Speech enhancement method and apparatus for same
US16/691,813 US11043231B2 (en) 2013-06-03 2019-11-22 Speech enhancement method and apparatus for same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361830310P 2013-06-03 2013-06-03
US61/830,310 2013-06-03
US201361875200P 2013-09-09 2013-09-09
US61/875,200 2013-09-09

Publications (2)

Publication Number Publication Date
KR20140142149A KR20140142149A (ko) 2014-12-11
KR102282366B1 true KR102282366B1 (ko) 2021-07-27

Family

ID=52459821

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140063112A KR102282366B1 (ko) 2013-06-03 2014-05-26 음성 향상 방법 및 그 장치

Country Status (5)

Country Link
US (3) US10431241B2 (ko)
EP (1) EP3002753B1 (ko)
KR (1) KR102282366B1 (ko)
CN (1) CN105453174A (ko)
WO (1) WO2014196769A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117793A1 (ko) * 2015-01-23 2016-07-28 삼성전자 주식회사 음성 향상 방법 및 시스템
JP6592940B2 (ja) * 2015-04-07 2019-10-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10395644B2 (en) * 2016-02-25 2019-08-27 Panasonic Corporation Speech recognition method, speech recognition apparatus, and non-transitory computer-readable recording medium storing a program
US10566007B2 (en) * 2016-09-08 2020-02-18 The Regents Of The University Of Michigan System and method for authenticating voice commands for a voice assistant
CN107123429A (zh) * 2017-03-22 2017-09-01 歌尔科技有限公司 音频信号的自动增益控制方法和装置
KR101989127B1 (ko) * 2017-05-31 2019-09-30 네이버랩스 주식회사 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
CN109036445B (zh) * 2017-06-12 2020-10-13 杭州萤石网络有限公司 麦克风mic传感器的音源增益值的调整方法及运动相机
CN108564962B (zh) * 2018-03-09 2021-10-08 浙江大学 基于四面体麦克风阵列的无人机声音信号增强方法
CN110575051B (zh) * 2018-06-11 2022-03-18 佛山市顺德区美的电热电器制造有限公司 一种烹饪设备及烹饪设备的控制方法、装置和存储介质
CN109346075A (zh) * 2018-10-15 2019-02-15 华为技术有限公司 通过人体振动识别用户语音以控制电子设备的方法和系统
US11057721B2 (en) * 2018-10-18 2021-07-06 Sonova Ag Own voice detection in hearing instrument devices
CN109410957B (zh) * 2018-11-30 2023-05-23 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN111629301B (zh) 2019-02-27 2021-12-31 北京地平线机器人技术研发有限公司 用于控制多个扬声器播放音频的方法、装置和电子设备
CN110121129B (zh) * 2019-06-20 2021-04-20 歌尔股份有限公司 耳机的麦克风阵列降噪方法、装置、耳机及tws耳机
US11765522B2 (en) 2019-07-21 2023-09-19 Nuance Hearing Ltd. Speech-tracking listening device
US12081943B2 (en) 2019-10-16 2024-09-03 Nuance Hearing Ltd. Beamforming devices for hearing assistance
US11557307B2 (en) * 2019-10-20 2023-01-17 Listen AS User voice control system
WO2024018400A2 (en) * 2022-07-20 2024-01-25 Q (Cue) Ltd. Detecting and utilizing facial micromovements
CN116092501B (zh) * 2023-03-14 2023-07-25 深圳市玮欧科技有限公司 语音增强方法、语音识别方法、说话人识别方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101060183B1 (ko) * 2009-12-11 2011-08-30 한국과학기술연구원 임베디드 청각 시스템 및 음성 신호 처리 방법
US20130060571A1 (en) * 2011-09-02 2013-03-07 Microsoft Corporation Integrated local and cloud based speech recognition

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114422B (fi) 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US6577333B2 (en) * 2000-12-12 2003-06-10 Intel Corporation Automatic multi-camera video composition
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7039199B2 (en) * 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
US7174022B1 (en) 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
CA2473195C (en) 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US20070038448A1 (en) * 2005-08-12 2007-02-15 Rini Sherony Objection detection by robot using sound localization and sound based object classification bayesian network
US8068619B2 (en) 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
JP5249207B2 (ja) * 2006-06-23 2013-07-31 ジーエヌ リザウンド エー/エス 適応性のある方向性信号処理を備えた補聴装置
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US20100098266A1 (en) * 2007-06-01 2010-04-22 Ikoa Corporation Multi-channel audio device
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8335324B2 (en) 2008-12-24 2012-12-18 Fortemedia, Inc. Method and apparatus for automatic volume adjustment
US8351617B2 (en) 2009-01-13 2013-01-08 Fortemedia, Inc. Method for phase mismatch calibration for an array microphone and phase calibration module for the same
US8275148B2 (en) 2009-07-28 2012-09-25 Fortemedia, Inc. Audio processing apparatus and method
US8626498B2 (en) 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
CN101853667B (zh) * 2010-05-25 2012-08-29 无锡中星微电子有限公司 一种语音降噪装置
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
US8311817B2 (en) 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
US9031259B2 (en) 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
CN102969002B (zh) 2012-11-28 2014-09-03 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
US9048942B2 (en) * 2012-11-30 2015-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for reducing interference and noise in speech signals
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101060183B1 (ko) * 2009-12-11 2011-08-30 한국과학기술연구원 임베디드 청각 시스템 및 음성 신호 처리 방법
US20130060571A1 (en) * 2011-09-02 2013-03-07 Microsoft Corporation Integrated local and cloud based speech recognition

Also Published As

Publication number Publication date
US20190198042A1 (en) 2019-06-27
EP3002753B1 (en) 2021-09-15
US10431241B2 (en) 2019-10-01
US10529360B2 (en) 2020-01-07
US20160111113A1 (en) 2016-04-21
EP3002753A1 (en) 2016-04-06
US11043231B2 (en) 2021-06-22
US20200098385A1 (en) 2020-03-26
EP3002753A4 (en) 2017-01-25
WO2014196769A1 (ko) 2014-12-11
KR20140142149A (ko) 2014-12-11
CN105453174A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
KR102282366B1 (ko) 음성 향상 방법 및 그 장치
US11343607B2 (en) Automatic active noise reduction (ANR) control to improve user interaction
US10149049B2 (en) Processing speech from distributed microphones
US9324322B1 (en) Automatic volume attenuation for speech enabled devices
US10325614B2 (en) Voice-based realtime audio attenuation
JP6531776B2 (ja) 音声対話システムおよび音声対話方法
KR102488285B1 (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
US20180005632A1 (en) Locating individuals using microphone arrays and voice pattern matching
WO2018193826A1 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
WO2017166495A1 (zh) 一种语音信号处理方法及装置
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
US12033654B2 (en) Sound pickup device and sound pickup method
KR102208536B1 (ko) 음성인식 장치 및 음성인식 장치의 동작방법
EP3539128A1 (en) Processing speech from distributed microphones
WO2024123364A1 (en) Annotating automatic speech recognition transcription

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant