KR102282366B1

KR102282366B1 - 음성 향상 방법 및 그 장치

Info

Publication number: KR102282366B1
Application number: KR1020140063112A
Authority: KR
Inventors: 조재연; 추이웨이웨이; 이승열
Original assignee: 삼성전자주식회사
Priority date: 2013-06-03
Filing date: 2014-05-26
Publication date: 2021-07-27
Also published as: US20190198042A1; EP3002753B1; US10431241B2; US10529360B2; US20160111113A1; EP3002753A1; US11043231B2; US20200098385A1; EP3002753A4; WO2014196769A1; KR20140142149A; CN105453174A

Abstract

음성 향상 장치의 상부에 배치된 복수의 마이크로폰 및 프로세서를 포함하고, 프로세서는 복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하고, 수신한 신호의 방향을 추정하고, 수신한 신호의 추정된 방향이 소정 방향인지 여부를 결정하고, 추정된 방향이 소정 방향이라고 결정하면, 수신한 신호가 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하고, 수신한 신호가 사용자 발화와 연관된다고 결정하면, 수신한 신호를 빔 포밍(beamforming)하여 소정 방향으로부터 수신한 신호가 강조되도록 하고, 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하고, 추정된 방향이 소정 방향이 아니라고 결정하면, 수신한 신호가 사용자 발화와 연관되는지 여부를 결정하는 것 및 수신한 신호를 빔 포밍하여 출력하는 것을 비활성화하는, 음성 향상 장치가 개시된다.

Description

음성 향상 방법 및 그 장치{Method and apparatus of enhancing speech}

본 발명은 단일 또는 다중 마이크로폰을 이용한 음성 향상 방법 및 그 장치에 관한 것이다. 또한, 음성 향상 기술을 위하여 함께 사용하는 음성 탐지 기술 및 화자 방향 탐지 기술을 적용한 음성 향상 방법 및 그 장치에 관한 것이다.

음성 인식 기술은 사용자 등이 입력하는 음성 신호를 소정 언어에 대응하는 신호로 인식하는 기술로, 예를 들어, 음성 인식 내비게이션, 휴대폰, TV 등과 같이 소정 전자기기의 동작 제어 등을 위하여 이용될 수 있다.

음성 인식의 인식율 향상을 위하여, 입력된 음성 신호에 섞여 있는 잡음을 제거하여 순수한 음성 신호를 추출하는 기술인 음성 향상(speech enhancement) 기술이 이용될 수 있다. 음성 향상(speech enhancement) 관련 기술로는 특정 방향으로부터의 음성에 집중하고 주변 잡음은 제거하는 빔포밍(beamforming), 정적 잡음을 제거하는 잡음 억제(noise suppression) 등을 예로 들 수 있다.

본 발명의 실시예들은, 잡음 제거를 위하여 화자 발성 구간 및 위치 정보를 음성 향상에 사용하는 방법을 제시하기 위한 것이다. 본 발명의 실시예들은, 음성 탐지 정보에 의한 방향 추정 및 음성 향상을 제어하는 기술과 함께 방향 정보에 의한 음성 향상 기술을 제시하기 위한 것이다.

본 발명의 일 실시예에 따른 음성 향상 장치는, 적어도 하나 이상의 마이크를 포함하는 센서부, 상기 센서부의 신호를 사용하여 화자의 음성을 탐지하는 음성 탐지부, 상기 센서부의 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정부, 및 상기 마이크로 입력된 화자의 음성을 향상하는 음성 향상부를 포함하고, 상기 음성 탐지부는, 상기 음성 탐지의 결과에 기초하여 상기 방향 추정부 및 상기 음성 향상부의 동작을 제어하고, 상기 방향 추정부는, 상기 방향 정보를 상기 음성 향상부에 전달할 수 있다.

본 발명의 일 실시예에 따른 음성 향상 장치는, 적어도 하나 이상의 마이크를 포함하는 센서부, 상기 센서부의 신호를 사용하여 화자의 음성을 탐지하는 음성 탐지부, 상기 센서부의 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정부, 및 상기 마이크로 입력된 화자의 음성을 향상하는 음성 향상부를 포함하고, 상기 방향 추정부는, 상기 방향 추정의 결과에 기초하여 상기 음성 탐지부의 동작을 제어하고, 상기 방향 정보를 상기 음성 향상부에 전달하고, 상기 음성 탐지부는, 상기 음성 탐지의 결과에 기초하여 상기 음성 향상부의 동작을 제어할 수 있다.

상기 센서부는, 마이크, 카메라, 및 골전도 중 적어도 하나 이상을 포함하고, 상기 음성 탐지부는, 상기 마이크의 신호를 사용하여 음성 성분의 유무를 탐지하거나, 상기 카메라의 신호를 사용하여 화자의 입술 움직임을 탐지하거나, 상기 골전도의 신호를 사용하여 화자의 발성 유무를 탐지하거나, 또는, 상기 마이크, 상기 카메라, 및 상기 골전도 중 둘 이상을 결합하여 음성을 탐지할 수 있다.

상기 센서부는, 두 개 이상의 마이크 및 카메라 중 적어도 하나 이상을 포함하고, 상기 방향 추정부는, 상기 두 개 이상의 마이크의 신호의 차이를 사용하여 방향을 추정하거나, 상기 카메라의 신호를 사용하여 화자의 얼굴 인식 또는 화자의 입술 움직임 탐지를 사용하여 방향을 추정할 수 있다.

상기 음성 향상부는, 적어도 하나 이상의 필터를 포함하고, 상기 음성 탐지부에 의해 음성이 탐지된 경우, 상기 적어도 하나 이상의 필터의 계수를 업데이트하고, 상기 음성 탐지부에 의해 음성이 탐지되지 않은 경우, 잡음 모델링을 위한 잡음을 추정할 수 있다.

상기 음성 향상부는, 상기 방향 추정부로부터 전달받은 방향 정보를 사용하여, 원하는 신호 소스가 각 마이크에 도달하는 시간의 조정, 마이크 간 편차의 보정, 신호 소스들의 분리 중 적어도 하나 이상을 수행할 수 있다.

상기 센서부는, 마이크, 카메라, 골전도, 근접 센서, 적외선 센서, 가속도 센서, 및 초음파 중 적어도 하나 이상을 포함할 수 있다.

상기 음성 탐지의 결과에 의해, 상기 방향 추정부는 온(on) 및 오프(off)가 제어될 수 있다.

상기 방향 추정의 결과에 의해, 상기 음성 탐지부는 온 및 오프가 제어될 수 있다.

본 발명의 일 실시예에 따른 음성 향상 방법은, 화자의 음성을 탐지하는 음성 탐지 단계, 상기 음성 탐지 단계의 상기 음성 탐지의 결과에 기초하여, 입력된 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정 단계, 및 상기 음성 탐지 단계의 상기 음성 탐지의 결과에 기초하여, 상기 방향 추정 단계의 상기 방향 정보를 사용하여 화자의 음성을 향상하는 음성 향상 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 음성 향상 방법은, 입력된 신호를 사용하여 화자의 방향을 추정하고, 상기 추정된 방향을 나타내는 방향 정보를 생성하는 방향 추정 단계, 상기 방향 추정 단계의 상기 방향 추정의 결과에 기초하여, 화자의 음성을 탐지하는 음성 탐지 단계, 및 상기 음성 탐지 단계의 상기 음성 탐지의 결과에 기초하여, 상기 방향 추정 단계의 상기 방향 정보를 사용하여 화자의 음성을 향상하는 음성 향상 단계를 포함할 수 있다.

상기 음성 탐지 단계는, 마이크의 신호를 사용하여 음성 성분의 유무를 탐지하거나, 카메라의 신호를 사용하여 화자의 입술 움직임을 탐지하거나, 골전도의 신호를 사용하여 화자의 발성 유무를 탐지하거나, 또는, 상기 마이크의 신호, 상기 카메라의 신호, 및 상기 골전도의 신호 중 둘 이상을 결합하여 음성을 탐지할 수 있다.

상기 방향 추정 단계는, 두 개 이상의 마이크의 신호의 차이를 사용하여 방향을 추정하거나, 카메라의 신호를 사용하여 화자의 얼굴 인식 또는 화자의 입술 움직임 탐지를 사용하여 방향을 추정할 수 있다.

상기 음성 향상 단계는, 적어도 하나 이상의 필터를 사용하여 음성을 향상하고, 상기 음성 탐지 단계에 의해 음성이 탐지된 경우, 상기 적어도 하나 이상의 필터의 계수를 업데이트하고, 상기 음성 탐지 단계에 의해 음성이 탐지되지 않은 경우, 잡음 모델링을 위한 잡음을 추정할 수 있다.

상기 음성 향상 단계는, 상기 방향 추정 단계의 상기 방향 정보를 사용하여, 원하는 신호 소스가 각 마이크에 도달하는 시간의 조정, 마이크 간 편차의 보정, 신호 소스들의 분리 중 적어도 하나 이상을 수행할 수 있다.

상기 입력된 신호는, 마이크, 카메라, 골전도 센서, 근접 센서, 적외선 센서, 가속도 센서, 및 초음파 센서 중 적어도 하나 이상으로부터의 신호일 수 있다.

상기 음성 탐지 단계의 상기 음성 탐지 여부에 의해, 상기 방향 추정 단계에서 상기 방향 추정의 개시 여부를 결정할 수 있다.

상기 방향 추정 단계의 상기 방향 추정 여부에 의해, 상기 음성 탐지 단계에서 상기 음성 탐지의 개시 여부를 결정할 수 있다.

본 발명은, 일 실시예에 따른 음성 향상 방법을 컴퓨터로 실행시키기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 포함할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 향상 장치(10)의 개략적인 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 음성 향상 장치(20)의 개략적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 음성 향상 방법의 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 향상 방법의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 휴대폰 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 TV 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 태블릿 용의 음성 향상 장치(10)를 나타낸 도면이다.
도 8은 본 발명의 다른 실시예에 따른 웨어러블 디바이스 용의 음성 향상 장치(20)를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 헤드셋 또는 보청기 용의 음성 향상 장치(10)를 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

사용자는 기기를 어떤 장소에 어떤 자세로 위치시키든지 상관없이 기기를 사용하기를 원한다. 본 발명의 실시예들은 다중 마이크를 이용한 음성 향상 기술을 실제 기기에 적용하고자 할 때 필요한 기술이다. 또한, 사용자가 발성하는 순간에 사용자의 방향을 찾아서 음성을 향상시키고자 한다.

도 1은 본 발명의 일 실시예에 따른 음성 향상 장치(10)의 개략적인 블록도이다.

도 1을 참조하면, 음성 향상 장치(10)는 센서부(11), 음성 탐지부(12), 방향 추정부(13), 및 음성 향상부(14)를 포함한다.

센서부(11)는 적어도 하나 이상의 마이크를 포함한다. 센서부(11)는 마이크 이외에 카메라, 골전도, 근접 센서, 적외선 센서, 가속도 센서, 초음파 등을 포함할 수 있다.

음성 탐지부(12, SD: speech detection)는 센서부(11)의 신호를 사용하여 화자의 음성을 탐지한다. 예컨대, 음성 탐지부(12)는 마이크 또는 기타 센서를 통해 사용자의 발성 유무를 탐지한다.

방향 추정부(13, TDE: target direction estimation)는 센서부(11)의 신호를 사용하여 화자의 방향을 추정하고, 추정된 방향을 나타내는 방향 정보를 생성한다. 예컨대, 방향 추정부(13)는 센서부(11)의 다중 마이크 또는 카메라의 영상을 통해 사용자의 위치를 파악한다.

음성 향상부(14, ENH: speech enhancement)는 마이크로 입력된 화자의 음성을 향상한다. 구체적으로, 음성 향상부(14)는 사용자의 발성 유무 및 방향 정보를 전달받고, 전달된 사용자의 발성 유무 및 방향 정보를 이용하여 음성신호를 향상한다.

음성 탐지부(12)는 음성 탐지의 결과에 기초하여 방향 추정부(13) 및 음성 향상부(14)의 동작을 제어한다. 음성 탐지부(12)로부터 방향 추정부(13)에 전달되는 제어 정보 C₁은 방향 추정부(13)의 온(on) 및 오프(off)를 제어할 수 있다. 음성 탐지부(12)로부터 음성 향상부(14)에 전달되는 제어 정보 C₂는 음성 향상부(14)의 필터 업데이트를 제어할 수 있다.

방향 추정부(13)는 방향 정보를 음성 향상부(14)에 전달한다. 방향 추정부(13)로부터 음성 향상부(14)에 전달되는 정보 τ는 사용자의 방향 정보를 나타낸다.

센서부(11)로부터 음성 탐지부(12)에 전달되는 입력으로, 마이크 신호 외에도 카메라, 골전도 정보 등을 이용할 수 있다. 센서부(11)로부터 방향 추정부(13)에 전달되는 입력으로, 마이크 신호 외에도 카메라 센서 정보 등을 이용할 수 있다. 센서부(11)로부터 음성 향상부(14)에 전달되는 입력은, 마이크 신호를 이용할 수 있다.

음성 탐지부(12)에서 음성을 탐지하는 방법으로는, 마이크의 신호를 사용하여 음성 성분의 유무를 탐지하는 방법, 즉, 음성을 이용한 VAD(voice activity detection) 외에도 카메라의 신호를 사용하여 화자의 입술 움직임을 탐지하거나, 골전도의 신호를 사용하여 화자의 발성 유무를 탐지할 수 있고, 또한 이들을 복합한 멀티모달 형태로 음성을 탐지할 수 있다.

방향 추정부(13)에서 음성의 방향을 추정하는 방법으로는, 두 개 이상의 마이크의 신호의 차이를 사용하여 방향을 추정하는 방법, 즉, 음성을 이용한 DOA(direction of arrival), TDOA(time difference of arrival) 외에도 화자의 얼굴 인식, 화자의 입술 움직임 탐지, 제스처 인식 등을 사용하여 방향을 추정할 수 있고, 또한 이들을 복합한 멀티모달 형태로 음성의 방향을 추정할 수 있다.

음성 향상부(14)는 적어도 하나 이상의 필터를 포함할 수 있다. 음성 탐지부(12)에 의해 음성이 탐지된 경우, 필터의 계수를 업데이트하고, 음성 탐지부(12)에 의해 음성이 탐지되지 않은 경우, 잡음 모델링을 위한 잡음을 추정할 수 있다. 또한, 음성 향상부(14)는 방향 추정부(13)로부터 전달받은 방향 정보를 사용하여, 원하는 신호 소스가 각 마이크에 도달하는 시간의 조정, 마이크 간 편차의 보정, 신호 소스들의 분리 중 적어도 하나 이상을 수행할 수 있다.

음성 향상 장치(10)는 다음과 같이 동작할 수도 있다. 음성인식 또는 통화 모드가 준비된 상황에서 사용자가 발성을 하면 음성 탐지부(12)가 탐지한다. 사용자 발성이 탐지되는 구간에서 음성 탐지부(12)는 제어 정보 C₁으로 방향 추정부(13)를 온(on)하여 발성하는 동안의 사용자 방향을 찾아 방향 정보 τ를 음성 향상부(14)로 전달한다. 이 때, 음성 향상부(14)의 필터 업데이트를 막아 음성 왜곡을 방지할 수도 있다. 음성 향상부(14)는 전달받은 방향 정보 τ로 채널 간 딜레이를 보정하고, 제어 정보 C₂로 필터 업데이트를 조절하면서 음성 향상을 수행한다.

음성 향상 장치(10)는 음성 탐지부(12)에 의해 음성이 발생한 것을 탐지한 경우에만, 방향 추정부(13)에서 방향을 찾으므로, 화자의 방향을 확실하게 찾을 수 있다. 음성이 발생하지도 않은 상태에서 방향을 찾을 경우, 노이즈 등의 영향에 의하여 부정확한 방향을 추정할 가능성이 있다. 음성 향상부(14)는 확실한 방향 정보를 사용하여 음성 향상을 수행할 수 있다. 따라서, 음성 향상 장치(10)에 의하여, 방향 추정 성능 및 방향 정보를 이용하는 음성 향상 성능이 향상될 수 있다. 또한, 음성의 발생이 탐지되지 않은 경우에는 방향 추정부(13)와 음성 향상부(14)의 작동을 쉬게 할 수 있으므로, 음성 향상 장치의 컴퓨팅 파워에서도 이득을 얻을 수 있다.

도 2는 본 발명의 다른 실시예에 따른 음성 향상 장치(20)의 개략적인 블록도이다.

도 2를 참조하면, 음성 향상 장치(20)의 센서부(21), 음성 탐지부(22), 방향 추정부(23), 및 음성 향상부(24)는 도 1의 음성 향상 장치(10)의 센서부(11), 음성 탐지부(12), 방향 추정부(13), 및 음성 향상부(14)와 유사하다. 이하, 음성 향상 장치(20)가 음성 향상 장치(10)과 다른 부분에 대하여 설명한다.

음성 향상 장치(20)는 음성 탐지부(22) 및 방향 추정부(23)의 구성이 음성 향상 장치(10)의 음성 탐지부(12) 및 방향 추정부(13)의 구성과 차이가 있다. 구체적으로, 제어 정보 C₁의 방향이 음성 향상 장치(10)와 음성 향상 장치(20)에서 상반된다.

방향 추정부(23)는 방향 추정의 결과에 기초하여 음성 탐지부(22)의 동작을 제어한다. 방향 추정부(23)로부터 음성 탐지부(22)에 전달되는 제어 정보 C₁은 음성 탐지부(22)의 온(on) 및 오프(off)를 제어할 수 있다.

음성 향상 장치(20)에 의하면, 방향을 먼저 추정함으로써, 탐지되는 음성 중 장치의 동작과 관련된 음성을 선별하여 처리할 수 있다. 예컨대, 시계 형태의 웨어러블 디바이스에는 화자의 음성으로서 웨어러블 디바이스에 입력하기 위한 음성 뿐만 아니라, 일상 대화 등도 계속적으로 입력될 수 있다. 이 때, 화자의 일상 대화는 웨어러블 디바이스의 동작과는 관련이 없을 가능성이 높다. 웨어러블 디바이스의 동작과 관련이 있는 화자의 음성은 화자가 웨어러블 디바이스의 화면을 보면서 말할 때의 음성일 가능성이 높다. 따라서, 음성 향상 장치(20)의 경우, 카메라 센서 정보 등을 이용하여 방향 추정부(23)에서 화자의 방향을 추정할 수 있는 경우, 즉, 화자가 화면을 보고 있을 경우에, 음성 탐지부(22)에서 음성을 탐지하도록 함으로써, 음성 향상 장치(20)의 사용과 관련될 가능성이 높은 음성을 선별할 수 있다. 또한, 방향이 추정되지 않은 경우에는 음성 탐지부(23)와 음성 향상부(24)의 작동을 쉬게 할 수 있으므로, 음성 향상 장치의 컴퓨팅 파워에서도 이득을 얻을 수 있다.

이하, 도 3 및 4를 통해 본 발명의 음성 향상 방법의 실시예들을 설명한다.

도 3은 본 발명의 일 실시예에 따른 음성 향상 방법의 흐름도이다.

단계 31에서, 화자의 음성을 탐지한다.

단계 32에서, 음성 탐지 유무를 판단한다. 음성이 탐지되지 않은 것으로 판단될 경우(단계 32의 아니오), 단계 31로 돌아간다.

단계 32에서 음성이 탐지된 것으로 판단될 경우(단계 32의 예), 단계 33에서, 입력된 신호를 사용하여 화자의 방향을 추정하고, 추정된 방향을 나타내는 방향 정보 τ를 생성한다.

단계 32에서 음성이 탐지된 것으로 판단될 경우(단계 32의 예), 단계 34에서, 단계 33의 방향 정보 τ를 사용하여 화자의 음성을 향상한다.

따라서, 도 3의 음성 향상 방법에 의하면, 음성이 발생한 것을 탐지한 경우에만, 방향을 찾으므로, 화자의 방향을 확실하게 찾을 수 있다. 또한, 음성이 발생한 것이 탐지되지 않은 경우에는 방향 추정과 음성 향상을 수행하지 않을 수 있으므로, 컴퓨팅 파워에서도 이득을 얻을 수 있다.

도 4는 본 발명의 다른 실시예에 따른 음성 향상 방법의 흐름도이다.

단계 41에서, 입력된 신호를 사용하여 화자의 방향을 추정하고, 추정된 방향을 나타내는 방향 정보를 생성한다.

단계 42에서, 방향 추정 여부를 판단한다. 방향이 추정되지 않은 것으로 판단될 경우(단계 42의 아니오), 단계 41로 돌아간다.

단계 42에서 방향이 추정된 것으로 판단될 경우(단계 42의 예), 단계 43에서, 화자의 음성을 탐지한다.

단계 44에서, 음성 탐지 유무를 판단한다. 음성이 탐지되지 않은 것으로 판단될 경우(단계 44의 아니오), 단계 41로 돌아간다.

음성이 탐지된 것으로 판단될 경우(단계 44의 예), 단계 45에서, 단계 41의 방향 정보 τ를 사용하여 화자의 음성을 향상한다.

따라서, 도 4의 음성 향상 방법에 의하면, 화자의 방향을 추정할 수 있는 경우, 음성을 탐지하도록 함으로써, 음성 향상에 사용될 가능성이 높은 음성을 선별할 수 있다. 또한, 방향이 추정되지 않은 경우에는 음성 탐지와 음성 향상을 수행하지 않을 수 있으므로, 컴퓨팅 파워에서도 이득을 얻을 수 있다.

이하, 본 발명의 음성 향상 장치에 의한 잡음 감소를 설명한다.

화자의 방향과 잡음 방향이 서로 다른 상황에서 일정한 레벨의 정적 잡음(예컨대, 사인파 및 백색잡음 각각의 경우)을 재생한다. 예컨대, 잡음의 레벨을 10이라고 가정한다.

먼저, 화자의 발성이 없는 상태에서 솔루션 입출력을 확인해 본다. 이 경우, 예컨대, 입력신호 잡음 레벨은 10이고, 출력신호 잡음 레벨은 8 정도가 출력될 수 있다. 이 때, 화자의 음성이 탐지되지 않으므로, 방향 추정과 음성 향상은 수행되지 않고, 그 대신에 음성 향상부에서는 잡음 모델링을 수행할 수 있다.

다음, 화자가 발성한 이후의 솔루션 입출력을 확인해 본다. 이 경우, 예컨대, 입력신호 잡음 레벨은 10이고, 출력신호 잡음 레벨은 3 정도가 출력될 수 있다. 이 때, 화자의 음성이 탐지되므로, 방향 추정과 음성 향상이 수행된다. 방향 추정에 의해 생성된 방향 정보를 사용하여 음성 향상이 이루어지므로, 화자의 방향에 포커싱(focusing)하여 화자의 음성에 보다 집중할 수 있고, 잡음 방향의 신호의 영향을 억제할 수 있기 때문에 결과적으로 출력신호에서 잡음 레벨이 감소된다.

따라서, 본 발명의 음성 향상 장치에 의하면, 화자의 발성 전후에 동일한 레벨의 잡음이 존재하고 입력되더라도, 출력신호 잡음 레벨에 있어서는 차이가 발생하게 된다. 화자의 발성이 없는 경우에는 일정 레벨의 잡음이 출력되므로 잡음 모델링을 수행할 수 있고, 화자의 발성이 있는 경우에는 잡음 레벨이 억제되므로 화자의 음성을 향상할 수 있다.

이하, 도 5 내지 도 9를 통해 본 발명의 음성 향상 장치가 디바이스에서 구현되는 다양한 실시예들을 설명한다.

도 5는 본 발명의 일 실시예에 따른 휴대폰 용의 음성 향상 장치(10)를 나타낸 도면이다.

도 5의 음성 향상 장치의 구조는 도 1의 기본 블록 구조를 갖는 음성 향상 장치와 거의 동일하다. 도 5의 휴대폰의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, 휴대폰의 상단부 측과 하단부 측에 마이크가 위치할 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다. 휴대폰 용의 음성 향상 장치(10)의 음성 탐지부(12)와 방향 추정부(13)에서는 마이크의 음성 정보를 이용할 수 있다.

도 6은 본 발명의 일 실시예에 따른 TV 용의 음성 향상 장치(10)를 나타낸 도면이다.

도 6의 TV의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, TV의 상단부 측에 복수의 마이크가 배열될 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다. 또한, TV는 미도시한 카메라를 구비할 수 있다. TV는 마이크와 카메라를 사용함으로써, 예컨대, 화상 통화 기능 등의 멀티미디어 기능을 수행할 수 있다. 사용자는 TV의 전방에서 음성 인식 또는 화상 통화를 할 수 있다. 이 때, TV 용의 음성 향상 장치의 음성 탐지부(12)와 방향 추정부(13)에서는 음성 정보와 카메라의 화상 정보를 모두 사용할 수 있다.

도 7은 본 발명의 일 실시예에 따른 태블릿(Tablet) 용의 음성 향상 장치(10)를 나타낸 도면이다.

도 7의 태블릿의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, 태블릿의 하단부 측에 복수의 마이크가 배열될 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다. 태블릿의 경우 사용자의 사용 행태가 다양하기 때문에, 사용 행태에 따른 하이브리드 방식을 채택할 수 있다. 먼저, 태블릿 용의 음성 향상 장치의 음성 탐지부(12)는 음성 정보에 의하여 음성을 탐지한다. 그 다음, 카메라 정보를 통해 얼굴 인식이 가능할 경우, TV 용의 음성 향상 장치에서의 시나리오와 마찬가지로, 태블릿 용의 음성 향상 장치의 음성 탐지부(12)와 방향 추정부(13)에서는 음성 정보와 카메라의 화상 정보를 모두 사용할 수 있다. 한편, 얼굴 인식이 불가능한 경우, 휴대폰 용의 음성 향상 장치에서의 시나리오와 마찬가지로, 태블릿 용의 음성 향상 장치의 음성 탐지부(12)와 방향 추정부(13)에서는 마이크의 음성 정보를 이용할 수 있다.

도 8은 본 발명의 다른 실시예에 따른 웨어러블(wearable) 디바이스 용의 음성 향상 장치(20)를 나타낸 도면이다.

웨어러블 디바이스의 경우, 사용자가 웨어러블 디바이스를 사용 중일 때, 통상 사용자의 얼굴이 웨어러블 디바이스를 향하게 된다. 또한, 사용자의 얼굴이 웨어러블 디바이스를 향하고 있을 때, 사용자의 발화에 대한 인식률이 높아질 수 있다. 즉, 웨어러블 디바이스의 경우, 카메라 정보로 얼굴 인식이 되는 경우에만 전처리 동작을 하는 것을 제약사항으로 포함시킴으로써, 음성 탐지의 효율을 보다 높일 수 있다. 따라서, 도 8의 웨어러블 디바이스 용의 음성 향상 장치의 구조는 도 2의 블록 구조를 갖는 음성 향상 장치와 거의 동일하다. 도 8의 웨어러블 디바이스의 예에서는 ○로 표시한 위치에 마이크가 위치할 수 있다. 예컨대, 웨어러블 디바이스의 좌측 상단부와 우측 하단부에 복수의 마이크가 배열될 수 있다. 다만, 마이크의 위치와 갯수는 이에 한정되지 않고, 다양한 위치에 배치될 수 있다.

웨어러블 디바이스 용의 음성 향상 장치의 방향 추정부(23)는 카메라 화상 정보를 사용하여 얼굴 인식 여부를 알린다. 그 다음, 얼굴 인식한 경우, 음성 탐지부(22)와 음성 향상부(24)가 동작한다. 얼굴 인식하지 못할 경우, 음성 탐지부(22)와 음성 향상부(24)는 동작하지 않는다. 한편, 웨어러블 디바이스가 단일 마이크를 갖는 경우 방향 추정부(23)의 방향 정보 τ가 음성 향상부(24)로 전달되지 않는다.

도 9는 본 발명의 일 실시예에 따른 헤드셋(headset) 또는 보청기(hearing aid) 용의 음성 향상 장치(10)를 나타낸 도면이다.

사용자가 발화할 경우, 소리는 공기 중으로 전달될 뿐만 아니라, 사용자의 두개골 등을 통해서도 소리가 전달될 수 있다. 사용자의 머리에 직접 접하여 착용하는 헤드셋 또는 귀에 직접 접하여 착용하는 보청기의 경우, 이와 같이 사용자의 두개골을 통하여 전달되는 골전도를 검출할 수 있다. 따라서, 헤드셋 또는 보청기 용의 음성 향상 장치의 음성 탐지부(12)는 음성 정보 외에 골전도 센서 정보를 이용하여 음성 탐지를 할 수 있다.

본 발명은 사용자가 발성하는 순간에 사용자의 방향을 찾아서 음성을 향상시키는 기술로서, 음성구간과 비음성구간을 구분하여 동작하는 효율적이면서 고성능을 보장하는 음성 향상 방법에 관한 것이다. 본 발명은 휴대폰 이외에도 TV, 태블릿, 보청기 등에 음성 향상 방법을 적용할 수 있다. 특히, 최근에 시계, 반지, 안경 등 신체부착 방식의 컴퓨팅 장치(웨어러블 컴퓨터(wearable computer) 또는 웨어러블 디바이스(wearable device))가 점차 주목받으며 산업계에서 제품 형태로 나타나고 있는데, 이와 결합한다면 효율적인 저전력 알고리즘으로 기여할 수 있다.

한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이제까지 본 발명에 대하여 바람직한 실시 예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로 상기 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.

10 : 음성 향상 장치 11 : 센서부
12 : 음성 탐지부 13 : 방향 추정부
14 : 음성 향상부 20 : 음성 향상 장치
21 : 센서부 22 : 음성 탐지부
23 : 방향 추정부 24 : 음성 향상부

Claims

음성 향상 장치에 있어서,
상기 음성 향상 장치의 상부에 배치된 복수의 마이크로폰; 및
프로세서를 포함하고,
상기 프로세서는 상기 복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하고,
상기 수신한 신호의 방향을 추정하고,
상기 수신한 신호의 상기 추정된 방향이 소정 방향인지 여부를 결정하고,
상기 추정된 방향이 상기 소정 방향이라고 결정하면, 상기 수신한 신호가 상기 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하고, 상기 수신한 신호가 상기 사용자 발화와 연관된다고 결정하면, 상기 수신한 신호를 빔 포밍(beamforming)하여 상기 소정 방향으로부터 수신한 신호가 강조되도록 하고, 상기 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하고,
상기 추정된 방향이 상기 소정 방향이 아니라고 결정하면, 상기 수신한 신호가 상기 사용자 발화와 연관되는지 여부를 결정하는 것 및 상기 수신한 신호를 빔 포밍하여 출력하는 것을 비활성화하는, 음성 향상 장치.
제1 항에 있어서, 상기 음성 향상 장치는 스크린을 더 포함하고,
상기 프로세서는 사용자가 상기 음성 향상 장치의 상기 스크린을 보면서 발화하는 것에 기초하여, 상기 수신한 신호의 상기 추정된 방향이 상기 소정 방향인지 여부를 결정하는, 음성 향상 장치.
음성 향상 장치에서 수행하는 음성 향상 방법에 있어서,
복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하는 단계;
상기 수신한 신호의 방향을 추정하는 단계;
상기 수신한 신호의 상기 추정된 방향이 소정 방향인지 여부를 결정하는 단계;
상기 추정된 방향이 상기 소정 방향이라고 결정하면,
상기 수신한 신호가 상기 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하는 단계;
상기 수신한 신호가 상기 사용자 발화와 연관된다고 결정하면, 상기 수신한 신호를 빔 포밍(beamforming)하여 상기 소정 방향으로부터 수신한 상기 수신한 신호가 강조되도록 하는 단계;
상기 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하는 단계; 및
상기 추정된 방향이 상기 소정 방향이 아니라고 결정하면, 상기 수신한 신호가 상기 사용자 발화와 연관되는지 여부를 결정하는 단계 및 상기 수신한 신호를 빔 포밍하여 출력하는 단계를 비활성화시키는 단계를 포함하는, 음성 향상 장치에서 수행하는 음성 향상 방법.
제3 항에 있어서, 상기 수신한 신호의 상기 추정된 방향이 상기 소정 방향인지 여부를 결정하는 단계는 사용자가 상기 음성 향상 장치의 스크린을 보면서 발화할 때의 상기 사용자의 방향에 기초하여 수행되는, 음성 향상 장치에서 수행하는 음성 향상 방법.
복수의 마이크로폰 중 하나 이상의 마이크로폰을 통해 신호를 수신하는 단계;
상기 수신한 신호의 방향을 추정하는 단계;
상기 수신한 신호의 상기 추정된 방향이 소정 방향인지 여부를 결정하는 단계;
상기 추정된 방향이 상기 소정 방향이라고 결정하면,
상기 수신한 신호가 상기 음성 향상 장치의 동작을 제어하기 위한 사용자 발화와 연관되는지 여부를 결정하는 단계;
상기 수신한 신호가 상기 사용자 발화와 연관된다고 결정하면, 상기 수신한 신호를 빔 포밍(beamforming)하여 상기 소정 방향으로부터 수신한 신호가 강조되도록 하는 단계;
상기 빔 포밍된 신호를 출력하여 음성 인식이 수행되도록 하는 단계; 및
상기 추정된 방향이 상기 소정 방향이 아니라고 결정하면, 상기 수신한 신호가 상기 사용자 발화와 연관되는지 여부를 결정하는 단계 및 상기 수신한 신호를 빔 포밍하여 출력하는 단계를 비활성화시키는 단계를 포함하는, 음성 향상 장치에서 수행하는 음성 향상 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제