KR20210102333A

KR20210102333A - 음성 검출을 위한 방법들 및 시스템들

Info

Publication number: KR20210102333A
Application number: KR1020217021297A
Authority: KR
Inventors: 브렌튼 스틸; 데이비드 와츠
Original assignee: 시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date: 2018-12-10
Filing date: 2019-12-10
Publication date: 2021-08-19
Also published as: GB2594180B; US10861484B2; GB2594180A; WO2020120944A1; GB202108277D0; CN113383385A; US20200184996A1

Abstract

실시예들은 일반적으로, 이어버드의 골 전도된 신호 센서로부터 골 전도된 신호를 수신하기 위한 적어도 하나의 신호 입력 컴포넌트; 실행가능 코드를 저장하는 메모리; 및 메모리에 액세스하고 실행가능 코드를 실행하도록 구성된 프로세서를 포함하는 디바이스에 관한 것이다. 실행가능 코드를 실행하는 것은 프로세서로 하여금, 골 전도된 신호를 수신하게 하고; 수신된 골 전도된 신호에 대한 적어도 하나의 음성 메트릭을 결정하게 하고 - 음성 메트릭은 골 전도된 신호의 입력 레벨 및 골 전도된 신호에 대한 잡음 추정치에 기초함 -; 음성 메트릭을 음성 메트릭 임계치와 비교하는 것에 적어도 부분적으로 기초하여, 골 전도된 신호에서의 음성의 존재의 확실성의 레벨을 표시하는 음성 확실성 표시자를 업데이팅하게 하고; 음성 확실성 표시자에 기초하여 적어도 하나의 신호 감쇠 인자를 업데이팅하게 하고; 그리고 신호 감쇠 인자를 음성 레벨 추정치에 적용함으로써 업데이팅된 음성 레벨 추정치 출력을 생성하게 한다.

Description

음성 검출을 위한 방법들 및 시스템들

설명된 실시예들은 일반적으로 음성 검출을 수행하기 위한 방법들 및 시스템들에 관한 것이다. 특히, 실시예들은 음성 캡처(speech capture) 기능들을 위한 잡음 감소를 가능하게 하기 위하여 음성 검출을 수행하는 것에 관한 것이다.

헤드셋들은 사용자가 음악 또는 오디오를 사적으로 청취하거나, 핸즈프리(hands-free) 전화 호출을 행하거나, 보이스 커맨드(voice command)들을 보이스 인식 시스템으로 전달하기 위한 인기있는 방법이다. 이어버드(earbud)들을 포함하는 광범위한 헤드셋 폼팩터(form factor)들, 즉, 헤드셋들의 유형들이 이용가능하다. 이용 중일 때의 이어버드의 인-이어 포지션(in-ear position)은 이 폼팩터에 대한 특정한 도전들을 제시한다. 이어버드의 인-이어 포지션은 디바이스의 기하구조를 과도하게 제약하고, 빔 포밍(beam forming) 또는 사이드로브 상쇄(sidelobe cancellation)와 같은 기능들에 대하여 종종 요구되는 바와 같이, 마이크로폰들을 넓게 떨어져서 위치결정하기 위한 능력을 상당히 제한한다. 추가적으로, 무선 이어버드들에 대하여, 작은 폼팩터는 배터리 크기 및 이에 따라 전력 예산에 대한 상당한 제한들을 둔다. 또한, 외이도(ear canal) 및 귓바퀴(pinna)의 해부구조는 사용자의 입으로부터, 외이도 내에 배치될 때의 이어버드의 마이크로폰들까지의 음향 신호 경로를 다소 차단하여, 근처의 다른 사람의 보이스들로부터 사용자의 자신의 보이스를 구별하는 작업의 어려움을 증가시킨다.

음성 캡처는 일반적으로, 헤드셋 사용자의 보이스가 캡처되고 다른 사람의 보이스들을 포함하는 임의의 주변 잡음이 최소화되는 상황을 지칭한다. 이 이용 케이스에 대한 보편적인 시나리오들은 사용자가 보이스 호출을 행하고 있거나 음성 인식 시스템과 상호작용하고 있을 때이다. 이 시나리오들의 둘 모두는 음성 캡처를 위한 기초적인 알고리즘들에 대해 엄격한 요건들을 둔다. 보이스 호출들에 대하여, 전화 표준들 및 사용자 요건들은 전형적으로, 잡음 감소의 상대적으로 높은 레벨들이 우수한 사운드 품질로 달성될 것을 요구한다. 유사하게, 음성 인식 시스템들은 전형적으로, 가능한 한 많은 잡음을 제거하면서, 오디오 신호가 최소의 변형을 가질 것을 요구한다. 사용자가 발화(speak)하고 있는지 또는 그렇지 않은지 여부에 따라, 알고리즘의 동작이 변경되는 것이 중요한 수 많은 신호 프로세싱 알고리즘들이 존재한다. 따라서, 신호에서의 음성의 존재 또는 부재를 결정하기 위한 입력 신호의 프로세싱인 보이스 활성 검출은 종종, 보이스 캡처(voice capture) 및 다른 이러한 신호 프로세싱 알고리즘들의 중요한 양태이다.

그러나, 붐(boom)들, 펜던트(pendant)들, 수프라-오랄(supra-aural) 헤드셋들과 같은 더 대형 헤드셋들에서도, 디바이스의 빔포머(beamformer)의 빔 내에서 위치결정되는 다른 사람들로부터의 음성과 같은 배경 잡음을 신뢰성 있게 무시하는 것은 종종 매우 어렵고, 그 결과, 이러한 다른 사람들의 음성 잡음은 사용자 단독의 보이스 캡처의 프로세스를 변질시킬 수 있다. 보이스 캡처의 이러한 그리고 다른 양태들은 이어버드들로 달성하기가 특히 어려운데, 이것은 이어버드들이 사용자의 입 근처에 위치결정된 마이크로폰을 가지지 않고, 따라서, 이러한 마이크로폰 위치결정으로부터 기인하는 상당히 개선된 신호 대 잡음 비율로부터 이익을 얻지 못한다는 이유 때문인 것을 포함한다.

음성 검출을 위한 종래의 방법들 및 시스템들과 연관된 하나 이상의 결점들 또는 단점들을 해결하거나 개선하는 것, 또는 적어도 이에 대한 유용한 대안을 제공하는 것이 희망된다.

본 명세서 내에 포함되었던 문서들, 액트(act)들, 재료들, 디바이스들, 물품들 등의 임의의 논의는, 이 사안들 중의 임의의 것 또는 전부가 종래 기술의 기초의 일부를 형성하거나, 이 사안들 중의 임의의 것 또는 전부가 이 출원의 각각의 청구항의 우선일 전에 존재하였으므로, 본 개시내용에 관련된 분야에서의 보편적인 일반적 지식이었다는 인정으로서 취해지지 않아야 한다.

이 명세서의 전반에 걸쳐, 단어 "포함한다(comprise)", 또는 "포함한다(comprises)" 또는 "포함하는(comprising)"과 같은 변형들은 기재된 엘리먼트(element), 정수(integer), 또는 단계(step), 또는 엘리먼트들, 정수들 또는 단계들의 그룹의 포함을 암시하지만, 임의의 다른 엘리먼트, 정수, 또는 단계, 또는 엘리먼트들, 정수들, 또는 단계들 그룹의 제외를 암시하지는 않는 것으로 이해될 것이다.

이 명세서에서, 엘리먼트가 옵션들의 리스트 중의 "적어도 하나"일 수 있다는 설명은 엘리먼트가 열거된 옵션들 중의 임의의 하나일 수 있거나, 열거된 옵션들 중의 2 개 이상의 임의의 조합일 수 있다는 것이 이해되어야 한다.

일부 실시예들은 디바이스에 관한 것으로, 디바이스는:

이어버드의 골 전도된 신호 센서(bone conducted signal sensor)로부터 골 전도된 신호(bone conducted signal)를 수신하기 위한 적어도 하나의 신호 입력 컴포넌트;

실행가능 코드를 저장하는 메모리; 및

메모리에 액세스하고 실행가능 코드를 실행하도록 구성된 프로세서를 포함하고, 여기서, 실행가능 코드를 실행하는 것은 프로세서로 하여금:

골 전도된 신호를 수신하게 하고;

수신된 골 전도된 신호에 대한 적어도 하나의 음성 메트릭(speech metric)을 결정하게 하고 - 음성 메트릭은 골 전도된 신호의 입력 레벨 및 골 전도된 신호에 대한 잡음 추정치에 기초함 -;

음성 메트릭을 음성 메트릭 임계치와 비교하는 것에 적어도 부분적으로 기초하여, 골 전도된 신호에서의 음성의 존재의 확실성의 레벨을 표시하는 음성 확실성 표시자(speech certainty indicator)를 업데이팅하게 하고;

음성 확실성 표시자에 기초하여 적어도 하나의 신호 감쇠 인자(signal attenuation factor)를 업데이팅하게 하고, 그리고

신호 감쇠 인자를 음성 레벨 추정치에 적용함으로써 업데이팅된 음성 레벨 추정치 출력을 생성하게 한다.

일부 실시예들에 따르면, 프로세서는 골 전도된 신호의 입력 레벨과 골 전도된 신호에 대한 잡음 추정치 사이의 차이에 기초하여 음성 메트릭을 결정하도록 구성된다. 일부 실시예들에서, 잡음 추정치는 프로세서가 최소 제어된 재귀적 평균화(minima controlled recursive averaging)(MCRA) 윈도우를 수신된 골 전도된 신호에 적용함으로써 결정된다.

일부 실시예들에서, 프로세서는 신호를 주파수 대역들로 분할하기 위하여 고속 푸리에 변환(fast Fourier transform)(FFT)을 수신된 골 전도된 신호에 적용하도록 추가로 구성된다.

일부 실시예들에 따르면, 프로세서는 이전에 결정된 음성 확실성 표시자에 기초하여 음성 메트릭 임계치를 선택하도록 구성된다. 일부 실시예들에서, 프로세서는 높은 음성 메트릭 임계치 및 낮은 음성 메트릭 임계치로부터 음성 메트릭 임계치를 선택하도록 구성되고, 여기서, 높은 음성 메트릭 임계치는 음성 확실성 표시자가 음성 확실성 임계치보다 더 낮을 경우에 선택되고, 낮은 음성 메트릭 임계치는 음성 확실성 표시자가 음성 확실성 임계치보다 더 높을 경우에 선택된다. 일부 실시예들에서, 음성 확실성 임계치는 제로(zero)이다.

일부 실시예들에 따르면, 청구항들 제1항 내지 제7항 중 어느 한 항의 디바이스로서, 여기서, 프로세서는 음성 메트릭이 음성 메트릭 임계치보다 더 클 경우에 행오버 지연(hangover delay)을 구현하기 위하여 음성 확실성 표시자를 업데이팅하고, 음성 메트릭이 음성 메트릭 임계치보다 더 크지 않을 경우에 미리 결정된 감분량(decrement amount)만큼 음성 확실성 표시자를 감분(decrement)시키도록 구성된다. 일부 실시예들에서, 프로세서는 0.1 내지 0.5 초 사이의 행오버 지연을 구현한다.

일부 실시예들에서, 프로세서는 음성 메트릭이 음성 메트릭 임계치보다 더 큰 것으로 결정될 경우에 적어도 하나의 신호 감쇠 인자를 제로로 재설정하도록 추가로 구성된다.

일부 실시예들에서, 프로세서는 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치 외부에 있는 것으로 결정할 경우에 적어도 하나의 신호 감쇠 인자를 업데이팅하도록 구성된다. 일부 실시예들에 따르면, 미리 결정된 음성 확실성 임계치는 제로이고, 여기서, 적어도 하나의 신호 감쇠 인자는 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치 이하일 경우에 업데이팅된다.

일부 실시예들에 따르면, 적어도 하나의 신호 감쇠 인자를 업데이팅하는 것은 신호 감쇠 스텝 값만큼 신호 감쇠 인자를 증분(increment)시키는 것을 포함한다.

일부 실시예들에서, 적어도 하나의 신호 감쇠 인자는 고주파수 신호 감쇠 인자 및 저주파수 신호 감쇠 인자를 포함하고, 여기서, 고주파수 신호 감쇠 인자는 미리 결정된 임계치 초과인 골 전도된 신호의 주파수들에 적용되고, 저주파수 신호 감쇠 인자는 미리 결정된 임계치 미만인 골 전도된 신호의 주파수들에 적용된다. 일부 실시예들에 따르면, 미리 결정된 임계치는 500 Hz 내지 1500 Hz 사이이다. 일부 실시예들에서, 미리 결정된 임계치는 600 Hz 내지 1000 Hz 사이이다.

일부 실시예들에 따르면, 적어도 하나의 신호 감쇠 인자를 음성 레벨 추정치에 적용하는 것은 적어도 하나의 신호 감쇠 인자만큼 음성 레벨 추정치를 감소시키는 것을 포함한다.

일부 실시예들에서, 이어버드는 무선 이어버드이다.

일부 실시예들에서, 골 전도된 신호 센서는 가속도계를 포함한다.

일부 실시예들에 따르면, 골 전도된 신호 센서는 이어버드가 사용자의 외이도에 있을 때에 사용자의 외이도의 벽에 기계적으로 결합되도록 이어버드 상에 위치결정된다.

일부 실시예들은 이어버드의 외부 마이크로폰으로부터 마이크로폰 신호를 수신하기 위한 적어도 하나의 신호 입력 컴포넌트를 더 포함하고; 여기서, 프로세서는 마이크로폰 신호에 기초하여 음성 레벨 추정치를 생성하도록 추가로 구성된다. 일부 실시예들에 따르면, 프로세서는 최종적인 출력 신호를 생성하기 위하여, 업데이팅된 음성 레벨 추정치 출력 및 잡음 추정치에 기초하여 잡음 억압(noise suppression)을 마이크로폰 신호에 적용하도록 추가로 구성된다. 일부 실시예들에서, 프로세서는 최종적인 출력 신호를 외부 컴퓨팅 디바이스로 통신하도록 추가로 구성된다.

일부 실시예들은 이전에 설명된 실시예들의 디바이스 및 외부 컴퓨팅 디바이스를 포함하는 시스템에 관한 것이다.

일부 실시예들은 방법에 관한 것으로, 방법은:

이어버드의 골 전도된 신호 센서로부터 골 전도된 신호를 수신하는 단계;

수신된 골 전도된 신호에 대한 적어도 하나의 음성 메트릭을 결정하는 단계 - 음성 메트릭은 골 전도된 신호의 입력 레벨 및 골 전도된 신호에 대한 잡음 추정치에 기초하여 결정됨 -;

음성 메트릭을 음성 메트릭 임계치와 비교하는 것에 적어도 부분적으로 기초하여, 골 전도된 신호에서의 음성의 존재의 확실성의 레벨을 표시하는 음성 확실성 표시자(speech certainty indicator)를 업데이팅하는 단계;

음성 확실성 표시자에 기초하여, 적어도 하나의 신호 감쇠 인자를 업데이팅하는 단계; 및

신호 감쇠 인자를 신호 음성 레벨 추정치에 적용함으로써 업데이팅된 음성 레벨 추정치 출력을 생성하는 단계를 포함한다.

일부 실시예들에서, 음성 메트릭은 골 전도된 신호의 입력 레벨과 골 전도된 신호에 대한 잡음 추정치 사이의 차이에 기초하여 결정될 수 있다.

일부 실시예들에 따르면, 잡음 추정치는 최소 제어된 재귀적 평균화(MCRA) 윈도우를 수신된 골 전도된 신호에 적용함으로써 결정된다.

일부 실시예들은 신호를 주파수 대역들로 분할하기 위하여 고속 푸리에 변환(FFT)을 수신된 골 전도된 신호에 적용하는 단계를 더 포함한다.

일부 실시예들에서, 음성 메트릭 임계치는 이전에 결정된 음성 확실성 표시자에 기초하여 선택된다. 일부 실시예들은 높은 음성 메트릭 임계치 및 낮은 음성 메트릭 임계치로부터 음성 메트릭 임계치를 선택하는 단계를 더 포함하고, 여기서, 높은 음성 메트릭 임계치는 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치보다 더 낮을 경우에 선택되고, 낮은 음성 메트릭 임계치는 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치보다 더 높을 경우에 선택된다. 일부 실시예들에서, 미리 결정된 음성 확실성 임계치는 제로이다.

일부 실시예들에 따르면, 음성 확실성 표시자는 음성 메트릭이 음성 메트릭 임계치보다 더 클 경우에 행오버 지연을 구현하기 위하여 업데이팅되고, 음성 메트릭이 음성 메트릭 임계치보다 더 크지 않을 경우에 미리 결정된 감분량만큼 감분된다. 일부 실시예들에서, 프로세서는 0.1 내지 0.5 초 사이의 행오버 지연을 구현한다.

일부 실시예들은 음성 메트릭이 음성 메트릭 임계치보다 더 큰 것으로 결정될 경우에 적어도 하나의 신호 감쇠 인자를 제로로 재설정하는 단계를 더 포함한다.

일부 실시예들은 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치 외부에 있을 경우에 적어도 하나의 신호 감쇠 인자를 업데이팅하는 단계를 더 포함한다. 일부 실시예들에 따르면, 미리 결정된 음성 확실성 임계치는 제로이고, 적어도 하나의 신호 감쇠 인자는 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치 이하일 경우에 업데이팅된다.

일부 실시예들에서, 적어도 하나의 신호 감쇠 인자를 업데이팅하는 단계는 신호 감쇠 스텝 값만큼 신호 감쇠 인자를 증분시키는 단계를 포함한다.

일부 실시예들에 따르면, 적어도 하나의 신호 감쇠 인자는 고주파수 신호 감쇠 인자 및 저주파수 신호 감쇠 인자를 포함하고, 여기서, 고주파수 신호 감쇠 인자는 미리 결정된 임계치 초과인 골 전도된 신호의 주파수들에 적용되고, 저주파수 신호 감쇠 인자는 미리 결정된 임계치 미만인 골 전도된 신호의 주파수들에 적용된다. 일부 실시예들에서, 미리 결정된 임계치는 500 Hz 내지 1500 Hz 사이이다. 일부 실시예들에서, 미리 결정된 임계치는 600 Hz 내지 1000 Hz 사이이다.

일부 실시예들은 이어버드의 외부 마이크로폰으로부터 마이크로폰 신호를 수신하는 단계; 및 마이크로폰 신호에 기초하여 음성 레벨 추정치를 결정하는 단계를 더 포함한다. 일부 실시예들은 최종적인 출력 신호를 생성하기 위하여, 업데이팅된 음성 레벨 추정치 출력 및 잡음 추정치에 기초하여 잡음 억압을 마이크로폰 신호에 적용하는 단계를 더 포함한다. 일부 실시예들은 최종적인 출력 신호를 외부 컴퓨팅 디바이스로 통신하는 단계를 더 포함한다.

일부 실시예들은 명령들을 저장하는 비-일시적 컴퓨터 판독가능 매체에 관한 것으로, 명령들은, 프로세서에 의해 실행될 때, 프로세서로 하여금, 일부 이전에 설명된 실시예들의 방법을 수행하게 한다.

실시예들은 예로서, 그리고 동반 도면들을 참조하여, 이하에서 더욱 상세하게 설명되고:
도 1은 전화 및/또는 오디오 재생을 위한 무선 이어버드들을 포함하는 시스템을 예시하고;
도 2는 하나의 실시예에 따른, 이어버드의 시스템 개략도이고;
도 3은 도 2의 이어버드의 상세한 시스템 개략도이고;
도 4는 일부 실시예들에 따른, 도 3의 이어버드의 이어버드 잡음 감소 프로세스를 위한 흐름도이고;
도 5는 도 3의 이어버드를 더욱 상세하게 도시하는 시스템 개략도이고;
도 6은 도 4의 이어버드 잡음 감소 프로세스를 더욱 상세하게 도시하는 흐름도이고; 그리고
도 7a 및 도 7b는 발명의 하나의 실시예에 대한 평균 의견 점수(Mean Opinion Score)(MOS) 결과들을 도시한다.

설명된 실시예들은 일반적으로 음성 검출을 수행하기 위한 방법들 및 시스템들에 관한 것이다. 특히, 실시예들은 음성 캡처 기능들을 위한 잡음 감소를 가능하게 하기 위하여 음성 검출을 수행하는 것에 관한 것이다.

도 1은 전화 및/또는 오디오 재생을 위한 무선 이어버드들의 이용을 위한 시스템(100)을 예시하고, 시스템은 디바이스(110) 및 양쪽 무선 이어버드들(120, 130)을 포함한다. 스마트폰 또는 오디오 플레이어 등일 수 있는 디바이스(110)는 양쪽 무선 이어버드들(120, 130)과 통신하도록 배열된다. 예시적인 목적들을 위하여, 이어버드들(120, 130)은 사용자(105)의 귀 외부에 도시된다. 그러나, 이용 시에, 각각의 이어버드(120, 130)는 이어버드(120, 130)의 본체가 사용자(105)의 개개의 귀의 귀조가비(concha) 및/또는 외이도 내에 실질적으로 또는 전체적으로 존재하도록 배치된다. 이어버드들(120, 130)은 사용자(105)의 귀 상에 또는 내에 편안하게 맞도록 그리고 사용자(105)의 귀에 의해 지지되도록 하기 위하여 임의의 적당한 형태를 각각 취할 수 있다. 일부 실시예들에서, 이어버드(120, 130)의 본체는 귀조가비를 넘어서서, 예컨대, 부분적으로 또는 완전히 개개의 귓바퀴의 외부 주위에 연장되는 후크 또는 지지 부재(도시되지 않음)에 의해 추가로 지지될 수 있다.

도 2는 일부 실시예들에 따른 이어버드(120)의 개략적인 예시도이다. 이어버드(130)는 유사하게 구성될 수 있고, 별도로 설명되지는 않는다. 이어버드(120)는 마이크로폰(210)을 포함한다. 예를 들어, 마이크로폰(210)은 이어버드가 정위치에 있을 때에 외부 음향 신호들을 수신하도록 이어버드(120)의 본체 상에 위치결정될 수 있다. 일부 실시예들에 따르면, 마이크로폰(210)은 빔포밍 잡음 감소와 같은 프로세스들이 이어버드(120)에 의해 착수되는 것을 허용할 수 있는 복수의 마이크로폰들을 포함할 수 있다. 그러나, 일부 실시예들에서, 이어버드(120)의 작은 크기는 구현될 수 있는 마이크로폰들의 최대 수 및 마이크로폰 이격에 대해 제한을 둘 수 있다. 사운드가 귓바퀴에 의해 부분적으로 차단되거나 확산되는 사용자의 외이도 내에서의 이어버드(120)의 위치결정은 또한, 예를 들어, 붐-장착된 마이크로폰과 같은 상이한 유형의 마이크로폰에서 이러한 프로세스들을 수행하는 것과 비교할 때, 빔포밍과 같은 프로세스들의 효율을 제한할 수 있다.

마이크로폰(210)은 적당한 프로세서(220)와 통신한다. 마이크로폰(210)으로부터의 마이크로폰 신호는 적당한 프로세서(220)로 전달된다. 이어버드(120)는 일부 실시예들에서 작은 크기일 수 있으므로, 제한된 배터리 전력이 이용가능할 수 있고, 이것은 프로세서(220)가 오직 저전력 및 연산적으로 간단한 오디오 프로세싱 기능들을 실행하는 것을 요구할 수 있다.

이어버드(120)는 골 전도된 신호 센서(230)를 더 포함한다. 골 전도된 신호 센서(230)는, 이어버드(120) 상에서 장착될 수 있는데, 예를 들어, 외이도 내로 삽입되고 이용 시에 외이도의 벽에 대하여 실질적으로 가압될 수 있는 이어버드(120)의 일부 상에 위치될 수 있다. 일부 실시예들에 따르면, 골 전도된 신호 센서(230)는 사용자의 외이도의 벽에 기계적으로 결합되도록 이어버드(120)의 본체 내에 장착될 수 있다. 골 전도된 신호 센서(230)는 골 전도된 신호들, 및 특히, 성도(vocal tract)와 외이도 사이에 개재된 골 및 조직에 의해 전도된 바와 같은 사용자의 자신의 음성을 검출하도록 구성된다. 음향 전도가 다른 신체 조직을 통해 발생할 수 있고 골 전도된 신호 센서(230)에 의해 감지된 신호에 부분적으로 기여할 수 있더라도, 이러한 신호들은 골 전도된 신호들로서 본 명세서에서 지칭된다.

일부 실시예들에 따르면, 골 전도된 신호 센서(230)는 하나 이상의 가속도계들을 포함할 수 있다. 일부 실시예들에 따르면, 골 전도된 신호 센서(230)는 추가적으로 또는 대안적으로, 일부 실시예들에서 인-이어 마이크로폰들일 수 있는 하나 이상의 마이크로폰들을 포함할 수 있다. 이러한 인-이어 마이크로폰들은 가속도계와 달리, 외이도 내에서 반향(reverberate)되는 골 전도된 신호들의 음향 반향(acoustic reverberation)들을 수신할 것이고, 이어버드를 지나서 외이도 내로의 외부 잡음의 누설을 또한 수신할 것이다. 그러나, 이어버드는 이러한 외부 잡음의 상당한 차단을 제공하고, 또한, 채용될 때의 능동 잡음 상쇄(active noise cancellation)(ANC)는 외이도 내부에 존재하는 골 전도된 신호의 레벨을 상당히 감소시키지 않고도, 외이도 내부의 외부 잡음의 레벨을 추가로 감소시킬 것이어서, 인-이어 마이크로폰은 실제로, 본 발명에 따라 음성 추정을 보조하기 위하여 매우 유용한 골-전도된 신호들을 캡처할 수 있다는 점이 인식된다. 추가적으로, 이러한 인-이어 마이크로폰들은 외부 마이크로폰(210)과 하드웨어 레벨에서 정합될 수 있고, 골 전도된 신호 센서보다 더 넓은 스펙트럼을 캡처할 수 있고, 따라서, 하나 이상의 인-이어 마이크로폰들의 이용은 골 전도된 신호 센서(들)의 이용에 대한 상당히 상이한 구현 도전들을 제시할 수 있다.

골 전도된 신호 센서(230)는 대안적인 실시예들에서, 귀조가비에 결합될 수 있거나, 사용자의 외이도 또는 귀조가비 내에서 귀와 신뢰성 있게 접촉하는 이어버드(120)의 본체의 임의의 일부 상에 장착될 수 있다. 이어버드(120)와 같은 이어버드의 이용은 외이도와의 신뢰성 있는 직접적인 접촉과, 그러므로, 외이도의 벽에서 측정된 바와 같은 골 전도된 음성의 진동 모델에 대한 기계적 결합을 허용한다. 이것은 전화와 같은 모바일 디바이스가 접촉을 행할 수 있는 외부 관자놀이(temple), 뺨(cheek), 또는 두개골(skull)과 대조적이다. 귀 외부의 해부구조의 일부들로부터 유도된 골 전도된 음성 모델은 설명된 실시예들과 비교하여 음성 추정을 위하여 상당히 덜 신뢰성 있는 신호를 생성한다는 점이 인식된다. 또한, 이어버드(120)와 같은 무선 이어버드에서의 골 전도된 신호 센서(230)와 같은 골 전도 센서의 이용은 음성 추정을 수행하기 위하여 충분하다는 점이 인식된다. 이것은 핸드셋 또는 귀 외부의 헤드셋과 달리, 무선 이어버드들로부터의 골 전도된 신호의 본질이 사용자 맞춤(user fit), 사용자 액션들, 및 사용자 이동들에 대하여 주로 정적이기 때문이다. 예를 들어, 골 전도 센서의 보상은 맞춤 또는 근접성에 대하여 요구되지 않는다. 따라서, 골 전도 센서에 대한 위치로서의 외이도 또는 귀조가비의 선택은 본 발명을 위한 핵심 조력자이다. 궁극적으로, 본 발명은 그 다음으로, 사용자 음성의 시간적 및 스펙트럼적 특성들을 최상으로 식별하는 그 신호의 변환을 유도하는 것에 주목한다.

일부 실시예들에 따르면, 이어버드(120)는 무선 이어버드이다. 유선 이어버드가 이용될 수 있지만, 유선 개인용 오디오 디바이스들에 부착된 액세서리 케이블은 골 전도된 신호 센서(230)에 대한 외부 진동의 중요한 소스(source)이다. 액세서리 케이블은 또한, 골 전도된 음성으로 인한 외이도의 진동들을 감쇠시킬 수 있는 디바이스(120)의 유효 질량(effective mass)을 증가시킨다. 케이블을 제거하는 것은 또한, 골 전도된 신호 센서(230)를 실장하기 위한 순응성 매체(compliant medium)에 대한 필요성을 감소시킨다. 감소된 중량은 골 전도된 음성으로 인한 외이도 진동과의 순응성(compliance)을 증가시킨다. 그러므로, 이어버드(120)가 무선일 경우에, 골 전도된 신호 센서(230)의 배치에 대한 제한이 없거나 이러한 배치에 대한 제한들이 대단히 감소된다. 유일한 요건은 골 전도된 신호 센서(230)가 이어버드(120)의 외부 실장부와 강성 접촉을 행한다는 것이다. 따라서, 실시예들은 골 전도된 신호 센서(230)를 이어버드(120)의 실장부 내부의 인쇄 회로 기판(printed circuit board)(PCB) 상에, 또는 강성 봉(rigid rod)을 통해 이어버드 커널(earbud kernel)에 결합된 귀-후방(behind-the-ear)(BTE) 모듈에 장착하는 것을 포함할 수 있다.

마이크로폰(210)의 포지션은 일반적으로, 사용자가 이어버드(120)를 착용하고 있을 때에 사용자의 귀에 근접해 있다. 그러므로, 마이크로폰(210)은 사용자의 입으로부터 상대적으로 멀고, 결과적으로, 낮은 신호-대-잡음 비율(signal-to-noise ratio)(SNR)을 겪는다. 이것은, 주 보이스 마이크로폰이 사용자의 입에 훨씬 더 근접해 있고, 사용자가 전화/펜던트를 어떻게 잡는지의 차이들은 넓은 범위의 SNR을 야기시킬 수 있는 핸드셋 또는 펜던트 유형 헤드셋과 대조적이다. 본 실시예에서는, 사용자의 입과 이어버드(120)를 포함하는 귀 사이의 기하구조가 고정되므로, 주어진 환경적 잡음 레벨에 대한 마이크로폰(210) 상의 SNR은 그렇게 가변적이지 않다. 그러므로, 마이크로폰(210) 상의 음성 레벨과 골 전도된 신호 센서(230) 상의 음성 레벨 사이의 비율은 선험적으로 알려진다. 마이크로폰(210) 및 골 전도된 신호 센서(230)의 음성 레벨들 사이의 비율을 아는 것은 진정한 음성 추정치와 골 전도 센서 신호 사이의 관계를 결정하기 위하여 유용하다.

일부 실시예들에 따르면, 골 전도된 신호 센서(230)와 사용자의 외이도 사이의 충분한 접촉도(degree of contact)는 이어버드(120)의 작은 중량으로 인해 제공될 수 있다. 이어버드(120)는 외이도 내의 음성으로 인한 진동의 힘이 골 전도된 신호 센서들(230)의 최소 감도를 초과할 정도로 충분히 작을 수 있다. 이것은 큰 질량을 가지는 외부 헤드셋 또는 전화 핸드셋과 대조적이고, 이것은 골 전도된 진동들이 디바이스에 용이하게 결합하는 것을 방지할 수 있다.

이하에서 더욱 상세하게 설명된 바와 같이, 프로세서(220)는, 골 전도된 신호 센서(230)로부터 골 전도 센서 신호를 수신하고, 마이크로폰(210)에 의해 생성된 마이크로폰 신호를 조절하기 위하여 수신된 골 전도 센서 신호를 이용하도록 구성된 신호 프로세싱 디바이스이다. 프로세서(220)는 보이스 호출의 송신된 신호로서의 이용을 위하여 및/또는 자동적 음성 인식(automatic speech recognition)(ASR)에서의 이용을 위하여 조절된 신호를 마스터 디바이스(110)로 무선으로 전달하도록 추가로 구성될 수 있다. 이어버드(120)와 마스터 디바이스(110) 사이의 통신들은 예를 들어, 저 에너지 블루투스(Bluetooth) 또는 다른 무선 프로토콜들을 통해 착수될 수 있다. 대안적인 실시예들은 위에서 논의된 단점들을 갖지만, 유선 이어버드들을 사용할 수 있고 배선에 의해 통신할 수 있다. 이어버드(120)는 프로세서(220)와 통신하는 스피커(240)를 또한 포함할 수 있다. 스피커(240)는 프로세서(220)로부터 수신된 명령들에 기초하여 음향 신호들을 사용자의 외이도 내로 플레이하도록 구성될 수 있다. 프로세서(220)는 마스터 디바이스(110)로부터, 보이스 호출의 수신 신호와 같은 신호들을 수신할 수 있고, 이 신호들을 재생을 위하여 스피커(240)로 통신할 수 있다.

이어버드들(120)의 이용 동안에, 사용자의 보이스를 캡처하고 주변 잡음을 감소시키는 것은 종종 필요하거나 바람직하다. 이것의 예는 사용자가 전화 호출에 참여하고 있거나, 보이스 커맨드들을 디바이스(110)에 주기 위하여 이어버드들(120)을 이용하고 있을 때이다. 이전에 알려진 알고리즘들이 헤드셋 사용자의 보이스를 캡처하기 위하여 존재하지만, 이 알고리즘들은 특히, 잡음이 근처에서 발화하는 또 다른 사람이 있을 때, 주변 잡음들로부터 사용자의 보이스를 구별하기 위하여 종종 분투한다. 그 결과는 헤드셋 사용자가 말하고 있지 않을 때에도, 캡처된 오디오가 많은 비-정적 잡음 돌파(non-stationary noise breakthrough)를 포함할 수 있다는 것이다. 품질 메트릭들에서, 이것은 오디오가 열악한 잡음 평균 의견 점수(Noise Mean Opinion Score)(NMOS)를 가지는 것으로 귀착될 수 있다.

도 3 내지 도 6을 참조하여 이하에서 설명된 시스템 및 방법은 잡음 감소에서의 이용을 위한 더 정확한 음성 추정치를 제공하기 위하여, 마이크로폰(210)에 의해 캡처된 데이터와 조합하여 골 전도된 신호 센서(230)에 의해 캡처된 데이터를 이용하여, 프로세싱된 오디오는 이전에 알려진 시스템들보다 더 적은 잡음 돌파들을 가지는 것으로 귀착된다.

특히, 설명된 실시예들은 골 전도된 신호 센서(230)에 의해 생성된 음성 추정 유도된 센서 신호에 기초하여, 2진 온-오프(binary on-off) 방식이 아니라, 제어된 등급화된 방식으로 적용되어야 할 잡음 감소를 제공한다. 보이스 활성 검출의 2진 프로세스와 대조적으로, 도 3 내지 도 6을 참조하여 설명된 바와 같은 음성 추정은 골 전도된 신호 센서(230)로부터 수신된 센서 신호에 기초한 음성 추정, 및 임의의 보이스 활성 검출의 부재 시에, 마이크로폰(210)으로부터 수신된 마이크로폰 신호에 바이어싱을 적용하는 프로세스를 수반한다.

정확한 음성 추정치들은 음성 개량 메트릭들의 범위 상에서의 더 양호한 성능을 초래할 수 있다. 보이스 활성 검출(voice activity detection)(VAD)은 음성 추정치를 개선시키는 하나의 방법이지만, 잡음성 신호들에서의 음성의 존재 또는 부재를 2진 방식으로 식별하는 불완전한 관념에 본래 의존한다. 설명된 실시예들은 골 전도된 신호 센서(230)가 음성 또는 잡음 존재의 2진 표시자에 의존하지 않으면서, 음성 개량을 직접적으로 구동하기 위하여 유도되고 이용될 수 있는 적당한 무잡음 음성 추정치(noise-free speech estimate)를 캡처할 수 있다는 점을 인식한다. 다수의 해결책들은 이 인식으로부터 뒤따른다.

도 3은 일부 실시예들에 따라, 이어버드(120)의 시스템 내의 프로세서(220)의 구성을 더욱 상세하게 도시하는 시스템(300)을 예시한다. 도 3의 실시예는 보통의 신호 대 잡음 비율(SNR) 조건들에서, 개선된 비-정적 잡음 감소가 VAD 없이, 음성 추정치들 단독으로 달성될 수 있다는 것을 인식한다. 이것은 보이스 활성 검출이 음성의 존재와 음성의 부재 사이를 판별하기 위하여 이용되고, VAD로부터의 개별 2진 판정 신호는 오디오 신호에 대해 작용하는 잡음 억압기를 게이팅(gate), 즉, 턴온 및 턴오프하기 위하여 이용되는 접근법들과는 구분된다. 도 3의 실시예는 골 전도된 신호 센서(230)에 의해 생성된 신호 또는 이것으로부터 유도된 일부 신호가 정확한 음성 추정들이 마이크로폰(210)에 의해 생성된 마이크로폰 신호로부터 획득될 수 없는 음향 조건들에서도, 충분히 정확한 음성 추정치들을 획득하도록 의존될 수 있다는 것을 인식한다. 이러한 실시예들에서의 VAD의 생략은 이어버드 프로세서(220) 상의 연산 부담을 최소화하는 것에 기여한다.

시스템(300)은 하나 이상의 마이크로폰들(210) 및 하나 이상의 골 전도된 신호 센서들(230)을 포함한다. 마이크로폰(210)으로부터의 마이크로폰 신호들은 잡음 억압기(noise suppressor)(310)에 의해 조절되고, 그 다음으로, 디바이스(110)로의 무선 통신과 같이, 출력(350)으로 전달된다. 잡음 억압기(310)는 임의의 VAD에 의한 임의의 온-오프 게이팅 없이, 음성 추정 모듈(320)에 의해 계속적으로 제어된다. 음성 추정 모듈(320)은 하나 이상의 골 전도된 신호 센서들(230)로부터, 그리고 임의적으로, 또한, 마이크로폰들(210) 및/또는 다른 골 전도된 신호 센서들 및 마이크로폰들로부터 입력들을 취한다.

이러한 실시예들에서의 골 전도 센서(230) 내의 가속도계의 이용은, 상업적 가속도계들에서의 잡음 바닥이 제1 근사화로서, 스펙트럼적으로 평탄하기 때문에 특히 유용하다. 상업적 가속도계들은 공진 주파수에 이르기까지 음향적으로 투명한 경향이 있고, 따라서, 환경적 잡음으로 인해 신호를 조금 디스플레이하거나 전혀 디스플레이하지 않는다. 그러므로, 골 전도된 신호 센서(230) 내의 가속도계의 잡음 분포는 음성 추정 프로세스에 대해 선험적으로 업데이팅될 수 있다. 이것은 복잡한 잡음 모델의 동영학(dynamics)에 의한 간섭 없이, 진정한 음성 신호의 시간적 및 스펙트럼적 본질의 모델링을 허용한다. 실험들은 심지어 테더링된 또는 유선 이어버드들이 케이블 탄력(cable bounce)와 같은 이벤트들로 인한 잡음의 시간적 및 스펙트럼적 동영학에서의 단기 변경들로 인해 복잡한 잡음 모델을 가질 수 있다는 것을 보여준다. 대조적으로, 정합된 신호가 조절 파라미터의 설계를 위한 요건이 아니므로, 무선 이어버드(120)에서의 골 전도 스펙트럼 엔빌로프(bone conduction spectral envelope)에 대한 정정들은 요구되지 않는다.

음성 추정 모듈(320)은 마이크로폰(들)(210) 및 골 전도된 신호 센서들(230)에서의 어떤 신호 보장들에 기초하여 음성 추정을 수행할 수 있다. 이어버드(120)에서의 골 전도 스펙트럼 엔빌로프에 대한 정정들이 중량 특징 중요도에 대해 수행될 수 있지만, 정합된 신호는 마이크로폰(210)에 의해 생성된 마이크로폰 신호에 적용되어야 할 조절 파라미터의 설계를 위한 요건이 아니다. 외이도의 골 전도 모델에서의 센서 비-이상성(non-ideality)들 및 비-선형성(non-linearity)들은 정정이 적용될 수 있는 다른 이유들이다.

다수의 골 전도된 신호 센서들(230)을 채용하는 실시예들은 사용자 음성에 대한 더 많은 정보를 추출하기 위하여 외이도에서의 골 전도된 음성으로부터 발생하는 진동의 직교적 모드들을 활용하도록 구성될 수 있다. 이러한 실시예들에서, 외이도에서 골 전도된 음성의 다양한 양상들을 캡처하는 문제는 이어버드(120)의 실장부에서 직교적으로 배열된 다수의 골 전도된 신호 센서들의 이용에 의해, 또는 다수의 독립적인 직교적 축들을 가지는 단일 골 전도된 신호 센서(230)에 의해 해결된다.

일부 실시예들에 따르면, 음성 추정 모듈(320)은 골 전도된 신호 센서(230)로부터 수신된 신호를 프로세싱할 수 있고, 이것은 이하에서 더욱 상세하게 설명된 바와 같은 필터링 및 다른 프로세싱 단계들을 수반할 수 있다. 그 다음으로, 프로세싱된 신호는 클린 음성 추정치(clean speech estimate), 선험적 SNR, 및/또는 모델 계수들과 같은, 사용자 음성의 단일 또는 멀티채널 표현을 포함할 수 있는 음성 추정치 출력(340)을 결정하기 위하여 음성 추정 모듈(320)에 의해 이용될 수 있다. 음성 추정치 출력(240)은 마이크로폰들(210)에 의해 생성된 마이크로폰 신호들을 바이어싱하여 잡음 억압을 음성에서의 검출된 갭들에 적용하기 위하여 잡음 억압기(310)에 의해 이용될 수 있다.

골 전도된 신호 센서들(230)에 의해 생성된 신호의 프로세싱 및 결과적인 조절은 골 전도된 신호에서의 음성 활성에 관계 없이 발생할 수 있다. 그러므로, 프로세싱 및 조절은 잡음 감소 프로세스를 위한 음성 추정치를 유도할 시에 음성 검출 프로세스 또는 잡음 모델링(VAD) 프로세스의 어느 하나에 종속적이지 않다. 무선 이어버드(120)에서 외이도 진동들을 측정하는 골 전도된 신호 센서(230)의 잡음 통계들은 핸드셋 이용 케이스와 달리, 양호하게-정의된 분포를 가지는 경향이 있다. 설명된 실시예들은 이것이 골 전도된 신호 센서(230)로부터 수신된 신호에 기초하여 음성 추정 모듈(320)에 의해 수행되어야 할 연속적인 음성 추정을 정당화한다는 것을 인식한다. 입으로부터의 마이크로폰(210)의 거리로 인해, 마이크로폰(210) SNR이 이어버드(210)에서 더 낮을 것이지만, 음성 샘플들의 분포는 입에 대한 이어버드 및 마이크로폰(210)의 고정된 포지션으로 인해 핸드셋 또는 펜던트의 분산보다 더 낮은 분산을 가질 것이다. 이것은 집합적으로, 조절 파라미터 설계 및 음성 추정 모듈(320)에 의해 수행된 음성 추정 프로세스들에서 이용되어야 할 사용자 음성 신호의 선험적 지식을 형성한다.

도 3의 실시예는 마이크로폰(210) 및 골 전도된 신호 센서(230)가 잡음 억압 목적들을 위한 음성 추정을 개선시킬 수 있다는 것을 인식한다. 음성 추정치는 단일 골 전도된 신호 센서(210)의 별도의 축들로부터의 신호들의 임의의 조합으로부터 유도될 수 있다. 음성 추정치는 시간 도메인 또는 주파수 도메인 신호들로부터 유도될 수 있다. 마스터 디바이스(110)에서가 아니라 이어버드(120) 내에서 프로세싱을 착수함으로써, 프로세서(220)는 제조 시에 구성될 수 있고, 구성은 이어버드(120)의 기하구조의 정밀한 지식에 기초하여 수행될 수 있다.

이하에서 더욱 상세하게 설명된 바와 같이, 음성의 비-2진 가변 특성이 골 전도된 신호 센서(230)에 의해 생성된 신호로부터 결정되기 전에, 신호는 관찰된 조건들, 음소(phoneme), 센서 대역폭, 및/또는 왜곡에 대하여 정정될 수 있다. 정정들은 승수 또는 오프셋을 예를 들어, 각각의 빈(bin) 값에 적용하는 것과 같이, 각각의 스펙트럼 빈(spectral bin)과 연관된 일련의 정정들을 착수하는 선형 맵핑을 수반할 수 있다.

일부 실시예들에 따르면, 음성 추정 모듈(320)은 다음의 기법들 중의 하나 이상을 적용할 수 있다: 신호들의 지수함수적 필터링(누설 적분기(integrator); 신호 값들의 이득 함수; 고정된 정합 필터(FIR 또는 스펙트럼 이득 함수); 적응적 정합(LMS 또는 입력 신호 구동된 적응); 맵핑 함수(코드북); 및 추정 루틴을 업데이팅하기 위하여 2차 통계들을 이용하는 것. 추가적으로, 음성 추정치들은 입력 신호들의 상이한 진폭들, 또는 잡음 레벨들과 같은 입력 신호들의 다른 메트릭에 대한 상이한 신호들로부터 유도될 수 있다. 예를 들어, 골 전도된 신호 센서(230)의 잡음 바닥은 마이크로폰(210) 잡음 바닥보다 훨씬 더 높을 수 있고, 따라서 일부 명목상 레벨 미만일 수 있다. 골 전도된 신호 센서 정보는 더 이상 유용하지 않을 수 있고, 음성 추정치는 마이크로폰-구동된 신호로 전이(transition)할 수 있다. 입력 신호들의 함수로서의 음성 추정치는 전이 영역들 상에서 구간별(piecewise) 또는 연속적일 수 있다. 추정은 방법에서 변동될 수 있고, 전달 곡선의 각각의 영역을 갖는 상이한 신호들에 의존할 수 있다. 이것은 잡음 억압 장기 SNR 추정치, 잡음 억압 선험적 SNR 감소, 또는 이득 백-오프(gain back-off)와 같은 이용 케이스에 의해 결정될 것이다. 음성 추정 모듈(320)의 동작에 대한 추가의 세부사항은 도 4 내지 도 6을 참조하여 이하에서 설명된다.

도 4는 프로세서(220)에 의해 수행된 바와 같은 이어버드 음성 추정 프로세스에 대한 흐름도이다. 단계(410)에서, 프로세서(220)는 마이크로폰(210) 및 골 전도된 신호 센서(230)에 의해 생성된 신호들을 취득하고 샘플링한다. 단계(420)에서, 프로세서(220)는 마이크로폰(210) 및 골 전도된 신호 센서(230)에 의해 생성된 신호들의 특징 추출을 수행하기 위하여 특징 추출 모듈들(321 및 322)을 실행한다. 단계(430)에서, 프로세서(220)는 마이크로폰(210) 및 골 전도된 신호 센서(230)에 의해 생성된 신호들의 음성 모델들을 획득하기 위하여 음성 모델 모듈들(323 및 324)을 실행한다. 단계(440)에서, 프로세서(220)는 마이크로폰(210) 및 골 전도된 신호 센서(230)에 의해 생성된 신호들의 음성 모델들에 기초하여 음성 모델 조절 파라미터들을 획득하기 위하여 조절 파라미터 모듈(326)을 실행한다. 단계(450)에서, 프로세서(220)는 사용자 음성 추정치(340)를 유도하기 위하여, 조절 파라미터 모듈(326)에 의해 생성된 조절 파라미터들을 이용하여 공기 전도 음성 모델 모듈(air conduction speech model module)(323)에 의해 생성된 마이크로폰 음성 모듈을 조절하기 위하여 음성 추정 모듈(328)을 실행한다.

도 5는 시스템(300)을 더욱 상세하게 도시한다. 마이크로폰들(210), 골 전도된 신호 센서들(230), 및 잡음 억압기(310)는 도 3에서 도시된 바와 같이 예시된다. 음성 추정 모듈(320)의 컴포넌트들이 더욱 상세하게 도시된다.

음성 추정 모듈(320)은 마이크로폰 특징 추출 모듈(321) 및 골 전도된 신호 센서 특징 추출 모듈(322)을 포함한다. 특징 추출 모듈들(321 및 322)은 신호로부터 잡음 추정치들과 같은 특징들을 추출하기 위하여, 각각 마이크로폰들(210) 및 골 전도된 신호 센서들(230)로부터 수신된 신호들을 프로세싱할 수 있다. 일부 실시예들에 따르면, 특징 추출 모듈들(321 및 322)은 예를 들어, 마이크로폰(210) 및 골 전도된 신호 센서(230)의 열적 잡음의 추정치들을 결정하도록 구성될 수 있다.

마이크로폰 특징 추출 모듈(321) 및 골 전도된 신호 센서 특징 추출 모듈(322)의 둘 모두는 각각 단시간 푸리에 변환(short-time Fourier transform)(STFT) 모듈(510 및 530)을 포함할 수 있다. STFT 모듈들(510 및 530)은 개개의 인입 신호에 대한 중첩-추가(overlap-add) 고속 푸리에 변환(FFT)을 수행하도록 구성될 수 있다. 일부 실시예들에 따르면, FFT 크기는 512일 수 있다. 일부 실시예들에 따르면, FFT는 해닝 윈도우(Hanning window)를 이용할 수 있다. 일부 실시예들에 따르면, FFT는 dB 도메인에서 수행될 수 있다. 일부 실시예들에 따르면, 인입 신호의 FFT는 인입 신호의 로그-이격된 채널 그룹들로 그룹화될 수 있다. FFT는 시간-도메인에서 수행될 수 있고, 결과들은 신호들을 주파수 대역들로 분리하도록 그룹화될 수 있다. 다양한 유형들의 그룹들이 이용될 수 있다. 일부 실시예들에서는, 신호를 주파수 대역들로 분할하는 무한-기간 임펄스 응답(Infinite-duration Impulse Response)(IIR) 필터 뱅크, 워핑된(warped) FFT, 웨이블릿 필터 뱅크(wavelet filter bank), 또는 다른 유형의 FFT가 이용될 수 있다.

음성 추정 모듈(320)은 공기 전도 음성 모델 모듈(323) 및 골 전도 음성 모델 모듈(324)을 더 포함한다. 공기 전도 음성 모델 모듈(323)은 특징 추출 모듈(321)을 통해 마이크로폰(210)으로부터 수신된 프로세싱된 신호로부터 음성 모델을 유도할 수 있다. 골 전도 음성 모델 모듈(323)은 특징 추출 모듈(322)을 통해 골 전도된 신호 센서(230)로부터 수신된 프로세싱된 신호로부터 음성 모델을 유도할 수 있다.

공기 전도 음성 모델 모듈(323)은 특징 추출 모듈(321)로부터 수신된 신호에 기초하여 마이크로폰 음성 추정치(525)를 결정하기 위한 음성 추정 모듈(520)을 포함할 수 있다. 마이크로폰 음성 추정치(525)는 음성 레벨 추정치일 수 있다. 음성 추정 모듈(520)은 제공된 신호의 음성 엔빌로프들을 최상으로 표현하는 선택된 시간 상수들을 갖는 스펙트럼 크기 값들의 필터링된 버전을 결정하는 것에 기초하여, 마이크로폰 음성 추정치(525)를 결정하도록 구성될 수 있다. 일부 실시예들에 따르면, 누설 적분기는 음성의 상승 및 하강을 모델링하기 위하여 이용될 수 있다. 일부 실시예들에서, 스펙트럼 크기들의 비-선형적 변환은 개연성 있는 음성 주파수들을 확대하고 덜 가능성 있는 주파수들을 압축하기 위하여 수행될 수 있다. 일부 실시예들에 따르면, 음성 모델 모듈(323)은 신호-대-잡음 비율(SNR) 감소를 비-선형적 변환으로서 추가로 수행할 수 있다. 음성 모델 모듈(323)은, dB인 레벨로서 출력될 수 있는, 관심 있는 각각의 주파수에 대한 전력 레벨들의 어레이를 출력할 수 있다.

골 전도 음성 모델 모듈(324)은 잡음 추정 모듈(540)을 포함할 수 있다. 잡음 추정 모듈(540)은 특징 추출 모듈(322)로부터 수신된 신호의 잡음 추정치를 업데이팅하도록 구성될 수 있다. 이것은 최소 제어된 재귀적 평균화(MCRA) 윈도우를 수신된 신호에 적용하는 방법을 통한 것일 수 있다. 일부 실시예들에서는, 1 초 내지 5 초 사이의 MCRA 윈도우가 이용될 수 있다. 일부 실시예들에 따르면, MCRA 윈도우의 기간은 더 많은 비-정적성(non-stationarity)을 캡처하기 위하여 변동될 수 있다. 기간의 선택은 충분히 고속으로 응답하는 것과, 골 전도 센서에 의해 생성된 열적 잡음을 올바르게 추적하는 것 사이의 절충일 수 있고, 따라서, 기간은 잡음 바닥을 포착하기 위하여 음성에서의 갭들을 캡처하는 것을 노력하도록 설정되어야 한다. 값을 너무 낮게 설정하는 것은 음성이 잡음으로서 추적되는 것으로 귀착될 수 있는 반면, 값을 너무 높게 설정하는 것은 프로세싱 지연으로 귀착될 것이다.

신호는 시간에서는, 0.001의 충돌까지의 시간(time-to-collision)(Ttc)을 이용하여, 그리고 주파수에서는, 0.5 X_n + 0.25(X_n _-1 + X_n ₊ ₁)에 의해 정의된 구간별 사다리꼴(piecewise trapezoid)을 이용하여 양방에서 필터링될 수 있다.

골 전도 음성 모델 모듈(324)은 음성 메트릭 모듈(550)을 더 포함할 수 있다. 음성 메트릭 모듈(550)은 잡음 추정 모듈(540)에 의해 계산된 잡음 추정치에 기초하여 음성 메트릭을 유도하도록 구성될 수 있다. 일부 실시예들에 따르면, 음성 메트릭은 공식들에 따라 계산될 수 있다:

여기서, N_max 및 N_min은 음성 메트릭 K가 그 상에서 결정되는 주파수 범위를 정의한다. X는 골 전도된 신호 센서(230)로부터 수신된 신호의 현재의 입력 레벨을 정의하고, B는 잡음 추정 모듈(540)에 의해 계산된 바와 같은 잡음 추정치이다. 이것에 기초하여, 신호에서의 잡음의 비교 레벨이 더 높을수록, 음성 메트릭이 더 낮아서, 음성 메트릭은 프로세싱되고 있는 음성 신호의 강도 및/또는 명확성의 반영이다.

음성 메트릭 모듈(550)은 "음성"과 "음성 없음" 상태 사이의 전환을 감소시키기 위하여, 음성이 현재 검출되고 있을 경우에 더 낮은 임계치가 적용되도록 하기 위하여, 히스테리시스(hysteresis)를 음성 메트릭 임계치에 적용하도록 추가로 구성될 수 있다. 예를 들어, 일부 실시예들에서, 음성 확실성 표시자로서 저장될 수 있는 현재의 음성 활성 레벨이 제로보다 더 큰 것(음성 활성이 발생하고 있을 가능성이 있음을 표시함)으로 결정될 경우에는, 낮은 음성 메트릭 임계치가 설정될 수 있다. 현재의 음성 활성 또는 음성 확실성 표시자가 제로인 것(여기서, 음성 활성은 발생하고 있을 가능성이 없음)으로 결정될 경우와 같이, 현재의 음성 활성 또는 음성 확실성 표시자가 제로보다 더 크지 않을 경우에는, 높은 음성 메트릭 임계치가 설정될 수 있다. 일부 실시예들에 따르면, 낮은 음성 메트릭 임계치는 대략 2.5 dB 내지 3.0 dB일 수 있다. 일부 실시예들에 따르면, 높은 음성 메트릭 임계치는 대략 3 dB 내지 3.5 dB일 수 있다. 일부 실시예들에 따르면, 임계치들은 골 전도 센서 감도에 따라 적응될 수 있다. 일부 실시예들에 따르면, 이용된 골 전도 센서의 감도가 더 높을수록, 임계치가 더 높을 수 있다.

골 전도 음성 모델 모듈(324)은 음성 활성 모듈(560)을 더 포함할 수 있다. 음성 활성 모듈(560)은 음성 활성 값을 조건적으로 업데이팅하고, 요구될 때에 바이어스 값을 재설정하도록 구성될 수 있다. 바이어스 값은 음성 활성이 제로인 것으로 결정될 때에 적용된 값일 수 있고, 일부 실시예들에서, 신호 감쇠 인자일 수 있다. 음성 활성 모듈(560)은 음성 메트릭 모듈(550)에 의해 적용된 히스테리시스에 기초하여 결정된 바와 같이, 음성 메트릭 K가 특정한 미리 결정된 임계치 범위 내에 있는지 여부를 체크하도록 구성될 수 있다. 음성 메트릭 K가 임계치보다 더 큰 것으로 결정되어, 신호에서의 음성의 존재를 표시할 경우에, 음성 활성 값은 행오버 지연을 구현하기 위하여 행오버 값을 저장하도록 업데이팅된다. 행오버 값은 음성이 잡음 억압이 음성에서의 작은 갭들에서 발생하는 것을 회피하도록 결론내린 후에 버퍼를 제공하기 위하여 규칙적인 간격으로 증분되거나 감분되는 값일 수 있다. 행오버 값, 행오버 증분 또는 감분량, 및 증분 또는 감분 주파수는 미리 결정된 시간량의 지연을 구현하기 위하여 설정될 수 있다. 일부 실시예들에서는, 대략 0.1 초 내지 0.5 초인 행오버 지연이 구현될 수 있다. 일부 실시예들에 따르면, 약 0.2 초의 행오버 지연이 구현될 수 있다. 행오버 지연은 하나의 발화된 음소의 평균 길이와 대략적으로 동일한 기간인 것으로 선택될 수 있다.

음성 메트릭 K가 임계치보다 더 큰 것으로 결정되어, 신호에서의 음성의 존재를 표시할 경우에, 음성 활성 모듈(560)은 신호 감쇠 인자들일 수 있는 주파수 바이어스 값들을 제로로 재설정하도록 추가로 구성될 수 있다. 주파수 바이어스 값들은 이하에서 더욱 상세하게 설명된 바와 같이, 고주파수 바이어스 값 및 저주파수 바이어스 값을 포함할 수 있다. 고주파수 바이어스 값은 고주파수 신호 감쇠 인자로서 저장될 수 있고, 저주파수 바이어스 값은 저주파수 신호 감쇠 인자로서 저장될 수 있다.

음성 메트릭이 낮은 음성 메트릭 임계치보다 더 낮은 것으로 결정되어, 신호에서의 음성의 결여를 표시할 경우에, 음성 활성 값은 행오버 카운터(hangover counter)를 구현하기 위하여 감분될 수 있다. 위에서 설명된 바와 같이, 이것은 음성이 잡음 억압이 음성에서의 작은 갭들에서 발생하는 것을 회피하도록 결론내린 후에 버퍼를 제공한다. 일부 실시예에 따르면, 활성 값은 프레임당 1 카운트만큼 감분될 수 있다. 일부 실시예들에서, 프레임들은 4 ms 프레임들일 수 있다. 일부 실시예들에 따르면, 음성 활성 값은 제로 미만이 되도록 허용되지 않는다.

조절 파라미터 모듈(326)은 모듈들(323 및 324)에 의해 유도된 음성 모델들을 수신할 수 있고, 마이크로폰(210)에 의해 생성된 마이크로폰 신호에 적용되어야 할 조절 파라미터들을 결정할 수 있다. 예를 들어, 조절 파라미터 모듈(326)은 마이크로폰(210)으로부터 유도된 음성 추정 신호에 적용하기 위한 바이어싱의 양을 결정할 수 있다.

조절 파라미터 모듈(326)은 음성 활성 대 바이어스 맵핑 모듈(570)을 포함할 수 있다. 맵핑 모듈(570)은 주파수 바이어스 값들을, 음성 활성 모듈(560)에 의해 결정된 음성 활성으로 맵핑하도록 구성될 수 있다. 특히, 맵핑 모듈(570)은 음성 활성 값이 제로로 감분되어, 음성 활성이 검출되지 않고 행오버 카운터에 의해 구현된 버퍼 주기가 만료되었다는 것을 표시할 경우에, 주파수 바이어스 값들을 업데이팅하도록 구성될 수 있다. 음성 활성 값이 제로와 동일한 것으로 결정될 경우에, 고주파수 바이어스 값은 고주파수 스텝 값만큼 증분될 수 있고, 저주파수 바이어스 값은 저주파수 스텝 값만큼 증분될 수 있다. 일부 실시예들에 따르면, 고주파수 바이어스는 5 dB에서 캡핑될 수 있고, 저주파수 바이어스는 15 dB에서 캡핑될 수 있다. 일부 실시예들에 따르면, 고주파수 스텝 값은 초당 10 dB의 고주파수 업데이트 레이트를 야기시키도록 구성될 수 있다. 일부 실시예들에 따르면, 저주파수 스텝 값은 초당 40 dB의 저주파수 업데이트 레이트를 야기시키도록 구성될 수 있다.

맵핑 모듈(570)은 음성 추정치 출력(340)을 결정하기 위하여, 주파수 바이어스 값들을 음성 추정 모듈(520)에 의한 마이크로폰 음성 추정치(525) 출력에 추가로 적용할 수 있다. 음성 추정치 출력(340)은 업데이팅된 음성 레벨 추정치 출력일 수 있다. 일부 실시예들에 따르면, 현재의 입력 레벨 X는 0 내지 미리 결정된 바이어스 크로스오버 주파수(bias crossover frequency) f_c 사이의 주파수들 상에서 저주파수 바이어스 값만큼 감분될 수 있고, X는 미리 결정된 바이어스 크로스오버 주파수 f_c와 신호에서의 최대 주파수 사이의 주파수들 상에서 고주파수 바이어스 값만큼 감분될 수 있다. 일부 실시예들에 따르면, 바이어스 크로스오버 주파수는 500 Hz 내지 1500 Hz 사이일 수 있다. 일부 실시예들에서, 바이어스 크로스오버 주파수는 600 Hz 내지 1000 Hz 사이일 수 있다. 일부 실시예들에서, 바이어스 크로스오버 주파수는 약 700 Hz일 수 있다.

음성 추정 모듈(328)은 음성 추정치 출력(340)을 생성하기 위하여, 음성 추정 모듈(520)에 의해 생성된 음성 추정 출력을, 맵핑 모듈(570)에 의해 생성된 바이어싱된 음성 추정치와 조합할 수 있다. 특히, 음성 추정 모듈(328)은 조절 파라미터 모듈(326)에 의해 결정된 조절 파라미터들을, 공기 전도 음성 모델 모듈(323)에 의해 생성된 음성 모델에 적용하도록 구성될 수 있다. 그 다음으로, 음성 추정치 출력(340)은 잡음 억압을 마이크로폰들(210)에 의해 생성된 신호에 적용하기 위하여, 잡음 추정치와 함께, 잡음 억압기(310)에 의해 이용될 수 있어서, 프로세서(220)에 의해 디바이스(110)로 통신되어야 할 최종적인 출력 신호(350)를 생성할 수 있다.

도 6은 프로세서(220)에 의해 실행된 바와 같은 잡음 억압의 방법을 예시하는 플로우차트(600)를 도시한다.

단계(605)에서, 골 전도된 신호 센서(230)로부터의 신호는 프로세서(220)에 의해 취득된다. 단계(610)에서는, 취득된 신호가 다운샘플링된다. 일부 실시예들에 따르면, 다운샘플링은 48 kHz에서 수행될 수 있다. 다운샘플링 주파수는 샘플링의 레이트 및 샘플링 디바이스의 신호 경로에 기초하여 선택될 수 있다. 단계(615)에서는, 다운샘플링된 신호가 필터링된다. 일부 실시예들에 따르면, 필터링은 고역 통과 필터를 이용하여 수행될 수 있다. 일부 실시예들에 따르면, 고역 통과 필터는 6차 버터워스 필터(butterworth filter)일 수 있다. 일부 실시예들에 따르면, 필터는 80 Hz 내지 120 Hz 사이의 차단을 가질 수 있다. 차단은 비-음성 활성을 억압하도록 선택될 수 있다.

단계(620)에서는, 도 5의 STFT 모듈(530)을 참조하여 위에서 설명된 바와 같이, 주파수 분석이 수행된다. 주파수 분석은 개개의 인입 신호에 대한 중첩-추가 고속 푸리에 변환(FFT)을 이용하여 수행될 수 있다. 일부 실시예들에 따르면, FFT 크기는 512일 수 있다. 일부 실시예들에 따르면, FFT는 해닝 윈도우를 이용할 수 있다. 일부 실시예들에 따르면, FFT는 dB 도메인에서 수행될 수 있다. 일부 실시예들에 따르면, FFT는 인입 신호의 로그-이격된 채널 그룹들에 대해 수행될 수 있다.

단계(625)에서는, 도 5의 잡음 추정 모듈(540)을 참조하여 위에서 설명된 바와 같이, 잡음 추정치가 업데이팅된다. 잡음 추정치는 MCRA 윈도우를 수신된 신호에 적용함으로써 업데이팅될 수 있다. 일부 실시예들에서는, 5 초 MCRA 윈도우가 이용될 수 있다. 신호는 시간에서는, 0.001의 충돌까지의 시간(Ttc)을 이용하여; 그리고 주파수에서는, 0.5 X_n + 0.25(X_n _-1 + X_n ₊ ₁)에 의해 정의된 구간별 사다리꼴을 이용하여 양방에서 필터링될 수 있다.

단계(630)에서는, 도 5의 음성 메트릭 모듈(550)을 참조하여 위에서 설명된 바와 같이, 음성 메트릭이 유도된다. 음성 메트릭은 잡음 추정 모듈(540)에 의해 계산된 잡음 추정치에 기초하여 유도될 수 있다. 일부 실시예들에 따르면, 음성 메트릭은 공식들에 따라 계산될 수 있다:

여기서, N_max 및 N_min은 음성 메트릭 K가 그 상에서 결정되는 주파수 범위를 정의한다. X는 골 전도된 신호 센서(230)로부터 수신된 신호의 현재의 입력 레벨을 정의하고, B는 잡음 추정 모듈(540)에 의해 계산된 바와 같은 잡음 추정치이다.

단계(635)에서는, 도 5의 음성 메트릭 모듈(550)을 참조하여 위에서 설명된 바와 같이, 히스테리시스가 음성 메트릭 임계치에 적용될 수 있다. 예를 들어, 일부 실시예들에서, 현재의 음성 활성이 제로보다 더 큰 것으로 결정될 경우에, 낮은 음성 메트릭 임계치가 설정될 수 있다. 현재의 음성 활성이 제로인 것으로 결정될 경우와 같이, 현재의 음성 활성이 제로보다 더 크지 않을 경우에, 높은 음성 메트릭 임계치가 설정될 수 있다. 일부 실시예들에 따르면, 낮은 음성 메트릭 임계치는 대략 2.5 dB일 수 있다. 일부 실시예들에 따르면, 높은 음성 메트릭 임계치는 대략 3 dB일 수 있다.

단계(640)에서, 프로세서(220)는 계산된 음성 메트릭이 계산된 임계치 제한 범위 내에 있는지 여부를 결정한다. 특히, 프로세서(220)는 계산된 음성 메트릭 K가 단계(635)에서 수행된 히스테리시스에 의해 선택된 음성 메트릭 임계치보다 더 높은지 여부를 결정할 수 있다. 음성 메트릭이 임계치 제한 범위 내에 있어서, 음성이 검출된다는 것을 표시할 경우에, 프로세서(220)는 행오버 지연을 구현하기 위하여 행오버 값을 저장하기 위한 음성 활성 값을 업데이팅함으로써 단계(645)를 실행한다. 행오버 값은 음성이 잡음 억압이 음성에서의 작은 갭들에서 발생하는 것을 회피하도록 결론내린 후에 버퍼를 제공하기 위하여 규칙적인 간격으로 증분되거나 감분되는 값일 수 있다. 행오버 값, 행오버 증분 또는 감분량, 및 증분 또는 감분 주파수는 미리 결정된 시간량의 지연을 구현하기 위하여 설정될 수 있다. 일부 실시예들에서는, 대략 0.1 초 내지 0.5 초인 행오버 지연이 구현될 수 있다. 일부 실시예들에 따르면, 약 0.2 초의 행오버 지연이 구현될 수 있다. 행오버 지연은 하나의 발화된 음소의 평균 길이와 대략적으로 동일한 기간인 것으로 선택될 수 있다.

프로세서(220)는 추후에, 주파수 바이어스 값들이 제로로 재설정되는 단계(655)를 실행할 수 있다. 주파수 바이어스 값들은 위에서 설명된 바와 같이, 고주파수 바이어스 값 및 저주파수 바이어스 값을 포함할 수 있다.

음성 메트릭이 임계치 제한 범위 내에 있지 않아서, 음성의 결여를 표시할 경우에, 프로세서(220)는 음성 활성 값이 음성의 결론부에서 버퍼를 구현하기 위하여 감분될 수 있는 단계(650)를 실행할 수 있다. 일부 실시예들에 따르면, 음성 활성 값은 제로 미만이 되도록 허용되지 않는다.

단계들(650 또는 655) 후에, 프로세서(220)는 단계(660)를 수행한다. 단계(660)에서, 프로세서(220)는 음성 활성 값이 제로와 동일한지 또는 그렇지 않은지 여부를 결정함으로써, 음성 활성이 검출되는지 여부를 결정한다. 음성이 검출된 것으로 결정되지 않고 버퍼 주기가 만료되었으므로, 음성 활성 값이 제로와 동일한 것으로 결정될 경우에, 프로세서(220)는 단계(670)를 실행하도록 구성될 수 있다. 단계(670)에서, 고주파수 바이어스 값은 고주파수 스텝 값만큼 증분될 수 있고, 저주파수 바이어스 값은 저주파수 스텝 값만큼 증분될 수 있다. 일부 실시예들에 따르면, 고주파수 바이어스는 5 dB에서 캡핑될 수 있고, 저주파수 바이어스는 15 dB에서 캡핑될 수 있다. 일부 실시예들에 따르면, 고주파수 스텝 값은 초당 10 dB의 고주파수 업데이트 레이트를 야기시키도록 구성될 수 있다. 일부 실시예들에 따르면, 저주파수 스텝 값은 초당 40 dB의 저주파수 업데이트 레이트를 야기시키도록 구성될 수 있다.

음성이 검출된 것으로 결정되므로, 음성 활성 값이 제로와 동일하지 않은 것으로 결정될 경우에, 프로세서(220)는 단계(665)를 실행하도록 구성될 수 있다.

단계(660) 또는 단계(670) 후에, 프로세서(220)는 단계(675)를 수행한다. 단계(675)에서, 바이어스 값들은 음성 추정치 출력(340)을 결정하기 위하여, 마이크로폰 음성 추정치(525)에 적용된다. 음성 추정치 출력(340)은 업데이팅된 음성 레벨 추정치 출력일 수 있다. 일부 실시예들에 따르면, 마이크로폰 음성 추정치(525)는 0 내지 미리 결정된 바이어스 크로스오버 주파수 f_c 사이의 주파수들 상에서 저주파수 바이어스 값만큼 감분될 수 있고, X는 미리 결정된 바이어스 크로스오버 주파수 f_c와 신호에서의 최대 주파수 사이의 주파수들 상에서 고주파수 바이어스 값만큼 감분될 수 있다. 일부 실시예들에 따르면, 바이어스 크로스오버 주파수는 500 Hz 내지 1500 Hz 사이일 수 있다. 일부 실시예들에서, 바이어스 크로스오버 주파수는 600 Hz 내지 1000 Hz 사이일 수 있다. 일부 실시예들에서, 바이어스 크로스오버 주파수는 약 700 Hz일 수 있다.

도 7a 및 도 7b는 마이크로폰(210)으로부터의 선험적 음성 엔빌로프가 골 전도된 신호 센서(230)로부터 유도된 값들을 이용하여 바이어싱될 때에 개선을 도시하는, 도 6의 실시예에 대한 객관적인 평균 의견 점수(MOS) 결과들을 도시한다. 측정들은 음성 MOS(speech MOS)(S-MOS) 및 잡음 MOS(noise MOS)(N-MOS) 값들을 획득하기 위한 3퀘스트(3Quest) 방법론을 이용하여 다수의 상이한 정적 및 비-정적 잡음 유형들에서 수행된다.

핸드셋들과 같은 다른 애플리케이션들에서는, 조합된 추정치들에서의 골 전도 및 마이크로폰 스펙트럼 추정치들이 핸드셋 이용 케이스가 센서 신호 품질이 매우 열악하도록 강제할 경우에 제로로 떨어질 수 있는 시간 및 주파수 기여분을 가지지만, 이것은 본 실시예들의 무선 이어버드 애플리케이션에서는 그러하지 않다. 대조적으로, 이어버드 폼팩터에서의 마이크로폰(210) 및 골 전도된 신호 센서(230)의 선험적 음성 추정치들은 연속적인 방법으로 조합될 수 있다. 예를 들어, 이어버드(120)가 사용자에 의해 착용되고 있으면, 골 전도된 신호 센서 센서 모델은 일반적으로, 사용자 음성을 나타내는 신호를 조절 파라미터 설계 프로세스에 항상 제공할 것이다. 이와 같이, 마이크로폰 음성 추정치는 이 파라미터에 의해 연속적으로 조절되고 있다.

설명된 실시예들은 이어버드(120) 내에서 존재하기 위한 음성 추정 모듈(320) 및 잡음 억압기 모듈(310)을 제공하지만, 대안적인 실시예들은 그 대신에 또는 추가적으로, 마스터 디바이스(110)에 의해 제공되어야 할 이러한 기능성을 제공할 수 있다. 따라서, 이러한 실시예들은 이어버드들(120, 130)과 비교하여, 마스터 디바이스(110)의 상당히 더 큰 프로세싱 역량들 및 전력 예산을 사용할 수 있다.

이어버드(120)는 추가의 디지털 신호 프로세서(들), 플래시 메모리, 마이크로제어기들, 블루투스 라디오 칩 또는 등가물 등과 같은 도시되지 않은 다른 엘리먼트들을 더 포함할 수 있다.

청구된 전자 기능성은 인쇄 회로 기판 상에 장착된 개별 컴포넌트들에 의해, 또는 집적 회로들의 조합에 의해, 또는 애플리케이션-특정 집적 회로(application-specific integrated circuit)(ASIC)에 의해 구현될 수 있다. 무선 통신들은 전자기 또는 음향 파들이 와이어를 따르는 것이 아니라, 대기 또는 자유 공간을 통해 신호를 반송하는 통신들, 모니터링, 또는 제어 시스템을 지칭하는 것으로서 이해되어야 한다.

대응하는 참조 부호들은 도면들 전반에 걸쳐 대응하는 컴포넌트들을 표시한다.

본 개시내용의 넓은 일반적인 범주로부터 이탈하지 않으면서, 수 많은 변형들 및/또는 수정들이 위에서 설명된 실시예들에 대해 행해질 수 있다는 것이 본 기술분야의 통상의 기술자들에 의해 인식될 것이다. 그러므로, 본 실시예들은 모든 측면들에서 한정적인 것이 아니라 예시적인 것으로 고려되어야 한다.

Claims

디바이스로서,
이어버드의 골 전도된 신호 센서(bone conducted signal sensor)로부터 골 전도된 신호(bone conducted signal)를 수신하기 위한 적어도 하나의 신호 입력 컴포넌트;
실행가능 코드를 저장하는 메모리; 및
상기 메모리에 액세스하고 상기 실행가능 코드를 실행하도록 구성된 프로세서
를 포함하고, 상기 실행가능 코드를 실행하는 것은, 상기 프로세서로 하여금,
상기 골 전도된 신호를 수신하게 하고;
상기 수신된 골 전도된 신호에 대한 적어도 하나의 음성 메트릭(speech metric)을 결정하게 하고 - 상기 음성 메트릭은 상기 골 전도된 신호의 입력 레벨 및 상기 골 전도된 신호에 대한 잡음 추정치에 기초함 -;
상기 음성 메트릭을 음성 메트릭 임계치와 비교하는 것에 적어도 부분적으로 기초하여, 상기 골 전도된 신호에서의 음성의 존재의 확실성의 레벨을 표시하는 음성 확실성 표시자(speech certainty indicator)를 업데이팅하게 하고;
상기 음성 확실성 표시자에 기초하여 적어도 하나의 신호 감쇠 인자(signal attenuation factor)를 업데이팅하게 하고,
상기 신호 감쇠 인자를 음성 레벨 추정치에 적용함으로써 업데이팅된 음성 레벨 추정치 출력을 생성하게 하는, 디바이스.
제1항에 있어서, 상기 프로세서는 상기 골 전도된 신호의 상기 입력 레벨과 상기 골 전도된 신호에 대한 잡음 추정치 사이의 차이에 기초하여 상기 음성 메트릭을 결정하도록 구성되는, 디바이스.
제2항에 있어서, 상기 잡음 추정치는 상기 프로세서가 최소 제어된 재귀적 평균화(minima controlled recursive averaging)(MCRA) 윈도우를 상기 수신된 골 전도된 신호에 적용함으로써 결정되는, 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 프로세서는 상기 신호를 주파수 대역들로 분할하기 위하여 고속 푸리에 변환(fast Fourier transform)(FFT)을 상기 수신된 골 전도된 신호에 적용하도록 추가로 구성되는, 디바이스.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 프로세서는 이전에 결정된 음성 확실성 표시자에 기초하여 상기 음성 메트릭 임계치를 선택하도록 구성되는, 디바이스.
제5항에 있어서, 상기 프로세서는 높은 음성 메트릭 임계치 및 낮은 음성 메트릭 임계치로부터 상기 음성 메트릭 임계치를 선택하도록 구성되고, 상기 높은 음성 메트릭 임계치는 상기 음성 확실성 표시자가 음성 확실성 임계치보다 더 낮을 경우에 선택되고, 상기 낮은 음성 메트릭 임계치는 상기 음성 확실성 표시자가 음성 확실성 임계치보다 더 높을 경우에 선택되는, 디바이스.
제6항에 있어서, 상기 음성 확실성 임계치는 제로인, 디바이스.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 프로세서는 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 더 클 경우에 행오버 지연(hangover delay)을 구현하기 위하여 상기 음성 확실성 표시자를 업데이팅하고, 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 더 크지 않을 경우에 미리 결정된 감분량(decrement amount)만큼 상기 음성 확실성 표시자를 감분(decrement)시키도록 구성되는, 디바이스.
제8항에 있어서, 상기 프로세서는 0.1 내지 0.5 초 사이의 행오버 지연을 구현하는, 디바이스.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 프로세서는 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 더 큰 것으로 결정될 경우에 상기 적어도 하나의 신호 감쇠 인자를 제로로 재설정하도록 추가로 구성되는, 디바이스.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 프로세서는 상기 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치 외부에 있는 것으로 결정할 경우에 상기 적어도 하나의 신호 감쇠 인자를 업데이팅하도록 구성되는, 디바이스.
제11항에 있어서, 상기 미리 결정된 음성 확실성 임계치는 제로이고, 상기 적어도 하나의 신호 감쇠 인자는 상기 음성 확실성 표시자가 상기 미리 결정된 음성 확실성 임계치 이하일 경우에 업데이팅되는, 디바이스.
제1항 내지 제12항 중 어느 한 항에 있어서, 상기 적어도 하나의 신호 감쇠 인자를 업데이팅하는 것은 신호 감쇠 스텝 값만큼 상기 신호 감쇠 인자를 증분시키는 것을 포함하는, 디바이스.
제1항 내지 제13항 중 어느 한 항에 있어서, 상기 적어도 하나의 신호 감쇠 인자는 고주파수 신호 감쇠 인자 및 저주파수 신호 감쇠 인자를 포함하고, 상기 고주파수 신호 감쇠 인자는 미리 결정된 임계치 초과인 상기 골 전도된 신호의 주파수들에 적용되고, 상기 저주파수 신호 감쇠 인자는 상기 미리 결정된 임계치 미만인 상기 골 전도된 신호의 주파수들에 적용되는, 디바이스.
제14항에 있어서, 상기 미리 결정된 임계치는 500 Hz 내지 1500 Hz 사이인, 디바이스.
제14항 또는 제15항에 있어서, 상기 미리 결정된 임계치는 600 Hz 내지 1000 Hz 사이인, 디바이스.
제1항 내지 제16항 중 어느 한 항에 있어서, 상기 적어도 하나의 신호 감쇠 인자를 상기 음성 레벨 추정치에 적용하는 것은 상기 적어도 하나의 신호 감쇠 인자만큼 상기 음성 레벨 추정치를 감소시키는 것을 포함하는, 디바이스.
제1항 내지 제17항 중 어느 한 항에 있어서, 상기 이어버드는 무선 이어버드인, 디바이스.
제1항 내지 제18항 중 어느 한 항에 있어서, 상기 골 전도된 신호 센서는 가속도계를 포함하는, 디바이스.
제1항 내지 제19항 중 어느 한 항에 있어서, 상기 골 전도된 신호 센서는 상기 이어버드가 상기 사용자의 외이도에 있을 때에 상기 사용자의 상기 외이도의 벽에 기계적으로 결합되도록 상기 이어버드 상에 위치결정되는, 디바이스.
제1항 내지 제20항 중 어느 한 항에 있어서, 상기 이어버드의 외부 마이크로폰으로부터 마이크로폰 신호를 수신하기 위한 적어도 하나의 신호 입력 컴포넌트를 더 포함하고; 상기 프로세서는 상기 마이크로폰 신호에 기초하여 상기 음성 레벨 추정치를 생성하도록 추가로 구성되는, 디바이스.
제21항에 있어서, 상기 프로세서는 최종적인 출력 신호를 생성하기 위하여, 상기 업데이팅된 음성 레벨 추정치 출력 및 잡음 추정치에 기초하여 잡음 억압(noise suppression)을 상기 마이크로폰 신호에 적용하도록 추가로 구성되는, 디바이스.
제22항에 있어서, 상기 프로세서는 상기 최종적인 출력 신호를 외부 컴퓨팅 디바이스로 통신하도록 추가로 구성되는, 디바이스.
시스템으로서,
제23항의 상기 디바이스 및 상기 외부 컴퓨팅 디바이스를 포함하는 시스템.
방법으로서,
이어버드의 골 전도된 신호 센서로부터 골 전도된 신호를 수신하는 단계;
상기 수신된 골 전도된 신호에 대한 적어도 하나의 음성 메트릭을 결정하는 단계 - 상기 음성 메트릭은 상기 골 전도된 신호의 입력 레벨 및 상기 골 전도된 신호에 대한 잡음 추정치에 기초하여 결정됨 -;
상기 음성 메트릭을 음성 메트릭 임계치와 비교하는 것에 적어도 부분적으로 기초하여, 상기 골 전도된 신호에서의 음성의 존재의 확실성의 레벨을 표시하는 음성 확실성 표시자를 업데이팅하는 단계;
상기 음성 확실성 표시자에 기초하여, 적어도 하나의 신호 감쇠 인자를 업데이팅하는 단계; 및
상기 신호 감쇠 인자를 신호 음성 레벨 추정치에 적용함으로써 업데이팅된 음성 레벨 추정치 출력을 생성하는 단계
를 포함하는, 방법.
제25항에 있어서, 상기 음성 메트릭은 상기 골 전도된 신호의 상기 입력 레벨과 상기 골 전도된 신호에 대한 잡음 추정치 사이의 차이에 기초하여 결정되는, 방법.
제26항에 있어서, 상기 잡음 추정치는 최소 제어된 재귀적 평균화(MCRA) 윈도우를 상기 수신된 골 전도된 신호에 적용함으로써 결정되는, 방법.
제25항 내지 제27항 중 어느 한 항에 있어서, 상기 신호를 주파수 대역들로 분할하기 위하여 고속 푸리에 변환(FFT)을 상기 수신된 골 전도된 신호에 적용하는 단계를 더 포함하는, 방법.
제25항 내지 제28항 중 어느 한 항에 있어서, 상기 음성 메트릭 임계치는 이전에 결정된 음성 확실성 표시자에 기초하여 선택되는, 방법.
제29항에 있어서, 높은 음성 메트릭 임계치 및 낮은 음성 메트릭 임계치로부터 상기 음성 메트릭 임계치를 선택하는 단계를 더 포함하고, 상기 높은 음성 메트릭 임계치는 상기 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치보다 더 낮을 경우에 선택되고, 상기 낮은 음성 메트릭 임계치는 상기 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치보다 더 높을 경우에 선택되는, 방법.
제30항에 있어서, 상기 미리 결정된 음성 확실성 임계치는 제로인, 방법.
제25항 내지 제31항 중 어느 한 항에 있어서, 상기 음성 확실성 표시자는 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 더 클 경우에 행오버 지연을 구현하기 위하여 업데이팅되고, 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 더 크지 않을 경우에 미리 결정된 감분량만큼 감분되는, 방법.
제32항에 있어서, 상기 프로세서는 0.1 내지 0.5 초 사이의 행오버 지연을 구현하는, 방법.
제25항 내지 제33항 중 어느 한 항에 있어서, 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 더 큰 것으로 결정될 경우에 상기 적어도 하나의 신호 감쇠 인자를 제로로 재설정하는 단계를 더 포함하는, 방법.
제25항 내지 제34항 중 어느 한 항에 있어서, 상기 음성 확실성 표시자가 미리 결정된 음성 확실성 임계치 외부에 있을 경우에 상기 적어도 하나의 신호 감쇠 인자를 업데이팅하는 단계를 더 포함하는, 방법.
제35항에 있어서, 상기 미리 결정된 음성 확실성 임계치는 제로이고, 상기 적어도 하나의 신호 감쇠 인자는 상기 음성 확실성 표시자가 상기 미리 결정된 음성 확실성 임계치 이하일 경우에 업데이팅되는, 방법.
제25항 내지 제36항 중 어느 한 항에 있어서, 상기 적어도 하나의 신호 감쇠 인자를 업데이팅하는 단계는 신호 감쇠 스텝 값만큼 상기 신호 감쇠 인자를 증분시키는 단계를 포함하는, 방법.
제25항 내지 제37항 중 어느 한 항에 있어서, 상기 적어도 하나의 신호 감쇠 인자는 고주파수 신호 감쇠 인자 및 저주파수 신호 감쇠 인자를 포함하고, 상기 고주파수 신호 감쇠 인자는 미리 결정된 임계치 초과인 상기 골 전도된 신호의 주파수들에 적용되고, 상기 저주파수 신호 감쇠 인자는 상기 미리 결정된 임계치 미만인 상기 골 전도된 신호의 주파수들에 적용되는, 방법.
제38항에 있어서, 상기 미리 결정된 임계치는 500 Hz 내지 1500 Hz 사이인, 방법.
제38항 또는 제39항에 있어서, 상기 미리 결정된 임계치는 600 Hz 내지 1000 Hz 사이인, 방법.
제25항 내지 제40항 중 어느 한 항에 있어서, 상기 적어도 하나의 신호 감쇠 인자를 상기 음성 레벨 추정치에 적용하는 단계는 상기 적어도 하나의 신호 감쇠 인자만큼 상기 음성 레벨 추정치를 감소시키는 단계를 포함하는, 방법.
제25항 내지 제41항 중 어느 한 항에 있어서, 상기 이어버드의 외부 마이크로폰으로부터 마이크로폰 신호를 수신하는 단계; 및 상기 마이크로폰 신호에 기초하여 음성 레벨 추정치를 결정하는 단계를 더 포함하는, 방법.
제42항에 있어서, 최종적인 출력 신호를 생성하기 위하여, 상기 업데이팅된 음성 레벨 추정치 출력 및 잡음 추정치에 기초하여 잡음 억압을 상기 마이크로폰 신호에 적용하는 단계를 더 포함하는, 방법.
제43항에 있어서, 상기 최종적인 출력 신호를 외부 컴퓨팅 디바이스로 통신하는 단계를 더 포함하는, 방법.
비-일시적 컴퓨터 판독가능 매체로서,
프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 제25항 내지 제44항 중 어느 한 항의 방법을 수행하게 하는 명령들을 저장하는 비-일시적 컴퓨터 판독가능 매체.