KR20210029816A

KR20210029816A - 보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어

Info

Publication number: KR20210029816A
Application number: KR1020217004294A
Authority: KR
Inventors: 데이비드 구나완; 글렌 엔. 딕킨스
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2018-07-12
Filing date: 2019-07-10
Publication date: 2021-03-16
Also published as: US11500610B2; US20210232360A1; WO2020014371A1; JP2021524697A; EP3821429B1; EP3821429A1; KR102466293B1; JP6942282B2; CN112384975A

Abstract

오디오 디바이스에 대한 송신 제어 장치 및 방법. 오디오 디바이스는 마이크로폰 이외의 소스를 사용하여 방해요소를 결정하고, 이를 사용하여 이득을 계산하고 송신 결정을 내린다. 이득을 사용하면 송신 결정을 스스로 사용하는 것보다 더 미묘한 방해요소 완화를 가져올 수 있다.

Description

보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어

관련 출원에 대한 상호 참조

본 출원은 2018년 7월 12일 출원된 미국 가출원 제62/697,010호 및 2018년 7월 12일 출원된 유럽특허출원 제18183034.0호에 대한 우선권을 주장하며, 이들 각각은 그 전체가 본원에 참조로 포함된다.

본 발명은 오디오 처리, 특히 통신 시스템을 위한 송신 제어에 관한 것이다.

본원에서 달리 명시되지 않는 한, 이 섹션에서 설명되는 접근 방식은 본 출원의 청구범위에 대한 선행 기술이 아니며 이 섹션에 포함됨에 의해 선행 기술인 것으로 인정되지 않는다.

음성 활동 검출(VAD; voice activity detection)은 음성 및 노이즈의 혼합을 포함하는 신호에서 음성의 존재에 대한 바이너리(binary) 또는 확률적 인디케이터를 결정하기 위한 기술이다. 흔히 음성 활동 검출의 성능은 분류 또는 감지의 정확성을 기반으로 한다. 불연속 송신에 대한 접근 방식으로부터 혜택을 받는 시스템에서 신호 송신 결정을 제어하거나 음성 인식의 성능을 향상시키기 위한 음성 활동 검출 알고리즘의 사용에 의해 연구 작업이 동기 부여를 받는다. 음성 활동 검출은 노이즈 억제 시스템에서의 이득 계수의 필터링과 같은 특정 알고리즘 튜닝(algorithmic tuning), 에코 적응(echo adaption) 및 노이즈 추정(noise estimation)과 같은 신호 처리 기능을 제어하는데도 사용된다.

음성 활동 검출의 출력은, 후속 제어 또는 메타데이터를 위해 직접 사용될 수 있고/있거나 실시간 오디오 신호에서 작동하는 오디오 처리 알고리즘의 속성(nature)을 제어하는데 사용될 수 있다.

음성 활동 검출에 대한 대상이 되는 하나의 특정 애플리케이션은 송신 제어의 영역이다. 음성 비활성 기간 동안 엔드포인트가 송신을 중단하거나 감소된 데이터 레이트 신호를 송신할 수 있는 통신 시스템의 경우, 음성 활동 검출기의 설계 및 성능은 시스템의 인식되는 품질에 중요하다. 이러한 검출기는, 궁극적으로 이진 의사결정을 내려야 하며, 짧은 시간 프레임에서 관찰할 수 있는 많은 피처(features)에서, 낮은 레이턴시(latency)를 달성하기 위해, 실질적으로 중첩되는 음성 및 노이즈의 특성들이 존재한다는 근본적인 문제에 예속된다. 따라서 이러한 검출기는, 잘못된 결정으로 인해 원하는 음성을 소실할 가능성과 오(false) 경보의 빈발(prevalence) 사이의 트레이드오프에 지속적으로 직면해야 한다. 낮은 레이턴시, 감도 및 특이성이라는 상반되는 요구 조건은, 완전히 최적의 해결 방안이 없거나, 또는 적어도, 시스템의 효율성 또는 최적성이 애플리케이션 및 예상되는 입력 신호에 따라 달라지는 동작 랜드스케이프(landscape)를 만든다.

미국 출원공개 제2015/0032446호는, 송신 제어 결정을 내리기 위해, 단기 음성 활동 검출을 오디오 피처의 장기간 취합(aggregation)과 결합하는 시스템에 대해 논의하고 있다.

미국 출원공개 제2010/0145689호는, 음성 세그먼트 동안에 키스트로크 노이즈를 억제하기 위해, 키스트로크의 청각 검출과 함께 키스트로크 이벤트 검출을 사용하는 것에 대해 논의하고 있다.

많은 기존 시스템이 갖는 하나의 문제는, 마이크로폰을 사용하여 수집된 음향 정보를 주로 고려한다는 것이다. 마이크로폰 이외의 요소를 사용하여 방해요소(nuisance)를 검출하는 시스템에 대한 요구가 있다.

많은 기존 시스템이 갖는 또 다른 문제는, 청각 신호 내에서 각각의 방해요소 이벤트의 영향을 감소시키기 위해 각각의 방해요소 이벤트를 개별적으로 고려한다는 것이다. 보다 미묘한 방해요소 결정을 내리기 위해 방해요소 이벤트를 취합하는 시스템에 대한 요구가 있다.

상기한 문제 및 해결 방안의 부족을 감안할 때, 여기에서 설명되는 실시형태는 시간에 따른 방해요소 이벤트를 취합하고, 송신 결정 자체에 추가하여 송신의 이득을 제어하는 것과 관련한 것이다.

일 실시형태에 따르면, 방법은 오디오 디바이스에 대한 송신 제어를 수행한다. 방법은 마이크로폰을 사용하여 오디오 입력을 수신하는 단계를 포함한다. 방법은 마이크로폰 이외의 소스를 사용하여 보조 입력을 수신하는 단계를 더 포함한다. 방법은 음성 활동 신뢰 레벨을 생성하기 위해 오디오 입력에 대해 음성 활동 검출을 수행하는 단계를 더 포함한다. 방법은 방해요소 레벨을 생성하기 위해 시간이 지남에 따라 보조 입력을 취합하는 단계를 더 포함한다. 방법은 송신 결정 레벨 및 이득 레벨을 생성하기 위해 음성 활동 신뢰 레벨 및 방해요소 레벨을 결합하는 단계를 더 포함한다.

송신 결정 레벨이 송신을 나타내면, 방법은, 수정된 오디오 입력을 얻기 위해 오디오 입력에 이득 레벨을 적용하는 단계, 및 수정된 오디오 입력을 송신하는 단계를 더 포함한다.

보조 입력은 복수의 보조 입력일 수 있고, 마이크로폰 이외의 소스는 마이크로폰 이외의 복수의 소스일 수 있다.

마이크로폰 이외의 소스는 진동 센서, 시스템 이벤트 로그, 가속도계, 컴포넌트 활동 로그 및 이차 입력 로그 중 하나일 수 있다. 시스템 이벤트 로그는 키보드 누름 이벤트 및 마우스 클릭 이벤트를 기록(log)할 수 있다. 오디오 디바이스는 팬을 포함할 수 있으며, 컴포넌트 활동 로그는 팬의 팬 속도를 기록할 수 있다. 이차 입력 로그는 오디오 디바이스와 연결된 연결된 디바이스와 관련된 정보를 기록할 수 있다.

음성 활동 신뢰 레벨 및 방해요소 레벨을 결합하는 단계는 송신 결정 레벨 및 이득 레벨을 생성하기 위해 음성 활동 신뢰 레벨, 방해요소 레벨 및 파 엔드 활동 레벨을 결합하는 단계를 포함할 수 있다.

이득 레벨은 음성 활동 신뢰 레벨과 방해요소 레벨의 선형 결합일 수 있다.

방해요소 레벨은 복수의 방해요소 레벨일 수 있다. 이득 레벨은 음성 활동 신뢰 레벨과 복수의 방해요소 레벨의 선형 결합일 수 있다.

다른 실시형태에 따르면, 비일시적 컴퓨터 판독가능 매체는, 프로세서에 의해 실행될 때 위에서 논의된 방법들 중 하나 이상을 포함하는 처리를 실행하도록 장치를 제어하는 컴퓨터 프로그램을 저장한다.

다른 실시형태에 따르면, 장치는 오디오 디바이스에 대한 송신 제어를 수행한다. 장치는 마이크로폰, 마이크로폰 이외의 소스, 프로세서 및 메모리를 포함한다. 프로세서는 마이크로폰을 사용하여 오디오 입력을 수신하도록 오디오 디바이스를 제어하도록 구성된다. 프로세서는 마이크로폰 이외의 소스를 사용하여 보조 입력을 수신하도록 오디오 디바이스를 제어하도록 더 구성된다. 프로세서는 음성 활동 신뢰 레벨을 생성하기 위해 오디오 입력에 대한 음성 활동 검출을 수행하도록 오디오 디바이스를 제어하도록 더 구성된다. 프로세서는 방해요소 레벨을 생성하기 위해 시간이 지남에 따라 보조 입력을 취합하도록 오디오 디바이스를 제어하도록 더 구성된다. 프로세서는 송신 결정 레벨 및 이득 레벨을 생성하기 위해 음성 활동 신뢰 레벨 및 방해요소 레벨을 결합하도록 오디오 디바이스를 제어하도록 더 구성된다.

디바이스는 송신기를 더 포함할 수 있다. 송신 결정 레벨이 송신을 나타내면, 프로세서는, 수정된 오디오 입력을 얻기 위해 오디오 입력에 이득 레벨을 적용하고 수정된 오디오 입력을 송신하기 위해 송신기를 제어하도록 오디오 디바이스를 제어하도록 더 구성된다.

장치는 키보드를 더 포함할 수 있고, 마이크로폰 이외의 소스는 키보드 누름 이벤트를 기록하는 시스템 이벤트 로그일 수 있다.

장치는 팬을 더 포함할 수 있고, 마이크로폰 이외의 소스는 팬의 팬 속도를 기록하는 컴포넌트 활동 로그일 수 있다.

장치는 방법과 관련하여 위에서 논의된 것과 유사한 세부 사항을 포함할 수 있다.

다음의 상세한 설명 및 첨부 도면은, 여러 구현의 특성 및 이점에 대한 추가적인 이해를 제공한다.

도 1은 송신 제어 시스템(100)의 블록도이다.
도 2는 오디오 디바이스에 대한 송신 제어 방법(200)의 흐름도이다.
도 3은 오디오 디바이스(300)의 블록도이다.
도 4는 음성 활동 검출기(400)의 블록도이다.

여기서는 바이노럴 오디오 처리를 위한 기술이 설명된다. 다음의 설명에서, 설명의 목적으로, 본 발명의 완전한 이해를 제공하기 위해 다수의 실시예 및 특정 세부 사항이 제시된다. 그러나 청구범위에 의해 규정되는 본 발명은, 이들 실시예의 특징 중 일부 또는 전부를 단독으로 또는 아래에 설명되는 다른 특징들과 조합하여 포함하여도 되고, 여기에서 설명되는 특징들 및 개념의 수정 및 등가물을 추가로 포함할 수 있음은 당업자에게 명백할 것이다.

다음 설명에서는 다양한 방법, 프로세스 및 절차에 대해 상세히 설명한다. 특정 단계들이 특정 순서로 설명될 수 있지만 이러한 순서는 주로 편의성과 명확성을 위한 것이다. 특정 단계는, 2회 이상 반복될 수 있고, (다른 단계들이 다른 순서로 달리 설명되더라도) 그러한 다른 단계들 이전 또는 이후에 일어날 수 있으며, 다른 단계들과 병렬로 일어날 수 있다. 두 번째 단계가 시작되기 전에 첫 번째 단계가 완료되어야 하는 경우에만, 두 번째 단계가 첫 번째 단계를 따를 것이 요구된다. 그러한 상황은 문맥상 명확하지 않을 경우 구체적으로 적시될 것이다.

본 문서에서는 "및", "또는" 및 "및/또는"이라는 용어가 사용된다. 이러한 용어는 포괄적인 의미를 갖는 것으로 해석되어야 한다. 예를 들어, "A 및 B"는 적어도 다음을 의미할 수 있다: "A와 B 둘 모두", "적어도 A와 B 둘 모두". 다른 예로서, "A 또는 B"는 적어도 다음을 의미할 수 있다: "적어도 A", "적어도 B", "A와 B 둘 모두", "적어도 A와 B 둘 모두". 다른 예로서, "A 및/또는 B"는 적어도 다음을 의미할 수 있다: "A 및 B", "A 또는 B". "배타적인 또는이 의도된 경우 구체적으로 기재된다(예를 들어, "A 또는 B" 중 하나, "A 및 B 중 최대 하나").

이 문서에서는 "방해요소"라는 용어를 사용한다. 일반적으로, 방해요소라는 용어는 시스템의 원하는 입력과는 상이한 입력을 일컫는 데 사용된다. 시스템의 원하는 입력은 실시형태에 따라 달라질 것이며, 이는 또한 방해요소로 분류되는 것에 영향을 미칠 것이다. 예를 들어, 통신 엔드포인트의 경우, 원하는 입력은 일반적으로 음성이고; 방해요소는 음성으로 잘못 분류되거나 음성에 부정적인 영향을 미칠 수 있는 다른 소리이다. 방해요소는 원하는 애플리케이션에 어떻게 부정적인 영향을 미치는 지에 의해 판단된다. 원격회의 환경에서는 누군가가 말하지 않을 때 종종 방해요소가 더해지며; 그들이 적어도 말하기를 시도하거나 회의의 중요한 부분에 있는 경우, 방해 소리도 허용될 수 있으며 그다지 방해요소가 되지는 않는다. 원격회의 엔드포인트에서의 주요 방해요소는 누군가가 말하지 않을 때 소리가 새는 것이다. 많은 시스템은 방해요소를 만드는 사람에게 피드백을 제공하지 않는다 - 사실 그들은 방해 소리를 들을 수 없는 유일한 사람이고 따라서 아이러니하게도 그들이 방해요소임을 인식하지 못한다. 대부분의 경우, 원치않는 소리는 무음의 사용자로부터 나오고 - 따라서 방해요소의 이 아이디어이다.

도 1은 송신 제어 시스템(100)의 블록도이다. 송신 제어 시스템(100)은 음성 활동 검출기(102), 취합기(104) 및 결합기(106)를 포함한다. 송신 제어 시스템(100)은 랩톱 컴퓨터, 통신 엔드포인트(endpoint)(예를 들어, 스피커폰) 등과 같은 오디오 디바이스의 컴포넌트로서 구현될 수 있다. 오디오 디바이스는 (간결성을 위해) 도시되지 않은 다른 컴포넌트를 포함할 수 있다.

음성 활동 검출기(102)는 오디오 입력(110)을 수신하고, 오디오 입력(110)에 대한 음성 활동 검출을 수행하고, 오디오 입력(110)의 음성 활동 신뢰 레벨(112)을 생성한다. 오디오 입력(110)은 마이크로폰(도시되지 않음)과 같은 오디오 디바이스의 다른 컴포넌트에 의해 캡처될 수 있다. 음성 활동 검출기(102)는 결합기(106)에 음성 활동 신뢰 레벨(112)을 제공한다. 음성 활동 신뢰 레벨(112)은 0과 1 사이의 범위일 수 있으며, 0은 음성 활동 검출 가능성이 낮음(또는 없음)을 나타내고 1은 음성 활동 검출 가능성이 높음을 나타낸다.

취합기(104)는 보조 입력(114)을 수신하고, 시간이 지남에 따라 보조 입력(114)을 취합하고, 취합된 보조 입력(114)에 기초하여 방해요소 레벨(116)을 생성한다. 취합기(104)는 결합기(106)에 방해요소 레벨(116)을 제공한다.

일반적으로 보조 입력(114)은 마이크로폰 이외의 오디오 디바이스의 컴포넌트로부터의 입력에 대응한다. 이러한 다른 컴포넌트는 (마이크로폰 이외의) 오디오 디바이스 컴포넌트로부터의 이벤트 로그와 함께 센서를 포함한다. 따라서, 보조 입력의 수는 오디오 디바이스의 세부사항에 따라 변동한다. 예를 들어, 키보드와 팬을 포함하는 랩톱 컴퓨터 실시형태의 경우, 보조 입력은 (키 클릭을 나타내는) 키보드로부터의 이벤트 로그 및 (예를 들어, 팬 속도 데이터를 포함하는) 팬으로부터의 디바이스 활동 로그를 포함할 수 있다. 보조 입력에 대한 상세한 내용은 후속하는 섹션에서 제공된다.

보조 입력(114)은 복수의 보조 입력일 수 있고, 취합기(104)는 복수의 보조 입력 각각을 취합할 수 있다. 취합기(104)는 복수의 취합기일 수 있으며, 각각은 복수의 보조 입력 각각을 취합한다. 방해요소 레벨(116)은 복수의 보조 입력 각각에 각각 대응하는, 복수의 방해요소 레벨일 수 있다.(도면이 복잡해지는 것을 회피하기 위해, 보조 입력(114), 취합기(104) 및 방해요소 레벨(116)은 한 번 도시되지만, 복수의 요소인 것으로 간주될 수 있다.) 취합기(104)는, 복수의 방해요소 레벨을 결합기(106)에 개별적인 방해요소 레벨로서 제공할 수 있거나, 결합된 방해요소 레벨로 그들을 결합할 수 있다.

결합기(106)는 음성 활동 신뢰 레벨(112) 및 방해요소 레벨(116)을 결합하여 송신 결정 레벨(120) 및 이득 레벨(122)을 생성한다.(송신 결정 레벨(120) 및 이득 레벨(122)은 오디오 디바이스의 다른 컴포넌트에 제공되고, 추가 작업을 제어한다.) 송신 결정 레벨(120)은 이진값일 수 있으며, "0"은 오디오 입력(110)이 송신되지 않아야 됨을 나타내고 "1"은 오디오 입력(110)이 송신되어야 함을 나타낸다. 일반적으로, 음성 활동 신뢰 레벨(112)이 높고 방해요소 레벨(116)이 낮으면, 송신 결정 레벨(120)은 오디오 입력(110)이 송신되어야 함을 나타낸다. 음성 활동 신뢰 레벨(112)이 낮고 방해요소 레벨(116)이 높으면, 송신 결정 레벨(120)은 오디오 입력(110)이 송신되지 않아야 됨을 나타낸다.

이득 레벨(122)은 오디오 입력(110)에 적용될 이득에 대응한다. 일반적으로, 이득은 양(증가 또는 부스트(boost)) 또는 음(감소 또는 감쇠)일 수 있다. 여기서, 이득 레벨(122)은 일반적으로 감쇠이다. 이득 레벨(122)은, 단지 송신 결정 레벨(120)을 사용하는 것보다 오디오 입력(110)의 송신에 대해 보다 더 미묘한 제어를 가능하게 한다. 예를 들어, 음성 활동 신뢰 레벨(112)이 높지도 않고 낮지도 않다면, 높은 방해요소 레벨(116)은 이득 레벨(122)이 높아지는 결과를 가져오고, 낮은 방해요소 레벨(116)은 이득 레벨(122)이 낮아지는 결과를 가져올 수 있다. 입력 오디오(110) 및 취합된 보조 입력(114)의 음성 활동 둘 모두에 기초하여 동작함으로써, 그리고 송신 결정 레벨(120) 및 이득 레벨(122) 둘 모두를 생성함으로써, 결합기(106)는 많은 기존 시스템보다 더 미묘한 방해요소 결정을 수행한다.

이 미묘한 결정은 여러 요인(factors)을 포함한다. 하나의 요인은 송신 제어 시스템(100)이 개별 방해요소 이벤트의 검출에 사용되는 기간보다 긴 기간을 사용한다는 것이다. 이는, 다른 활동의 특성(nature), 계속 진행 중인 컨퍼런스 또는 다른 컨퍼런스 참가자간의 쌍방향성의 측면에서 그 맥락 및 의미를 또한 고려함으로써 개별 방해요소 이벤트의 범주화(categorization)를 개선한다. 개별적인 방해 소리 이벤트에 급작스럽게 작용하여 각각을 제거하는 대신에 이 접근 방식을 사용함으로써 송신 제어 시스템(100)은, 참가자들이 협력적으로 통신하고 있는 정도 또는 지속적인 음성이 없는 상태에서 노이즈가 발생할 경우에 전형적인 명백한 오디오 방해요소인 것에 기초하여 참가자를 제거하거나 회의에 복귀시키도록 보다 확실성을 갖고 진행한다.

(보조 입력(114)이 마이크로폰에 의해 또한 검출될 수 있는 이벤트(예를 들어, 또한 시끄러운 키보드 누름 이벤트)에 대응하는 경우에도, 취합은, 개별 키 누름 이벤트가 많은 기존 시스템에서의 경우와 같이 오디오 입력(110)으로부터 직접적으로 제거되지 않음을 의미한다.)

또한 결합기(106)는, 파 엔드 활동 레벨(130)에 기초하여 송신 결정 레벨(120) 및 이득 레벨(122)을 생성할 수 있다. 파 엔드 활동 레벨(130)은 이진값일 수 있으며, "1"은 파 엔드 활동을 나타내고 "0"은 파 엔드 활동이 없음을 나타내며; 또는 파 엔드 활동 레벨(130)은 0과 1 사이의 범위일 수 있다. 파 엔드 활동 레벨(130)은 파 엔드로부터 파생된 활동, 신호 또는 피처에 기초할 수 있다. 예를 들어, 파 엔드 활동 또는 들어오는 신호 상에 현저한 신호가 있다고 여기자. 이러한 경우에, 특히, 자연스러운 대화 또는 음성 상호 작용이 예상되는 패턴이나 관련되는 관계가 없다면, 로컬 엔드포인트에서의 활동이 방해요소를 나타낼 가능성이 더 높다. 예를 들어, 음성 시작(onset)은 파 엔드로부터의 활동의 종료 후 또는 종료 가까이에서 일어나야 한다. 파 엔드 활동 레벨(130)이 현저하고 지속적인 음성 활동을 나타내는 곳에서 발생하는 짧은 버스트(burst)는 방해요소 상태를 나타낼 수 있다.

결합기(106)가 음성 활동 신뢰 레벨(112), 방해요소 레벨(116) 및 파 엔드 활동 레벨(130)을 결합하는 방법에 대한 구체적인 세부 사항은, 송신 제어 시스템(100)을 포함하는 오디오 디바이스의 특정 실시형태에 따라 달라질 수 있으며; 이들 특정 세부 사항은 후속하는 섹션에서 상세히 설명한다. 간단히 말하자면, 결합기(106)는, 송신하기로 한다는 전체 결정(송신 결정 레벨(120))을 결정하고, 추가적으로 외부로 나가는 오디오에 적용될 각각의 블록에서 이득(이득 레벨(122))을 출력한다. 이득은 두 가지 기능 중 하나 이상을 달성하기 위해 존재한다. 첫 번째 기능은, 식별된 음성 세그먼트 전후에 신호가 무음 상태로 돌아가는 자연스러운 음성 표현(voice phrasing)을 달성하는 것이다. 이는 페이드 인 정도(보통 20-100ms 정도) 및 페이드 아웃 정도(보통 100-2000ms 정도)를 포함한다. 일 실시형태에서 10ms(또는 단일 블록)의 페이드 인 및 300ms의 페이드 아웃이 효과적일 수 있다. 두 번째 기능은, 최근 누적된 통계로 인해 음성 프레임 시작 검출이 무성 비정상 노이즈 이벤트(unvoiced non-stationary noise event) 또는 기타 장애와 관련될 가능성이 있는 방해요소 상태에서 발생하는 송신된 프레임의 영향을 감소시키는 것이다.

도 2는 오디오 디바이스에 대한 송신 제어 방법(200)의 흐름도이다. 방법(200)은, 송신 제어 시스템(100)(도 1 참조)에 의해, 또는 송신 제어 시스템(100)을 포함하는 오디오 디바이스에 의해 수행될 수 있다. 방법(200)은, 송신 제어 시스템(100)의 동작을 제어하기 위해, 방법 단계들 중 하나 이상에 대응하는 하나 이상의 컴퓨터 프로그램을 실행하는 프로세서에 의해 구현될 수 있다.

단계 202에서, 마이크로폰을 사용하여 오디오 입력이 수신된다. 일례로서, 스피커폰은, 마이크로폰을 포함하며, 마이크로폰을 사용하여 주변 소리에 대응하는 오디오 입력을 수신한다.

단계 204에서, 보조 입력은 마이크로폰 이외의 소스를 사용하여 수신된다. 위에서 논의된 바와 같이, 보조 입력은 마이크로폰 이외의 복수의 소스로부터의 복수의 보조 입력일 수 있다. 일례로서, 랩톱 컴퓨터는 키보드를 포함할 수 있으며, 소스는 키 누름을 기록하는 이벤트 로그이고; 보조 입력(114)은 키 누름이다. 다른 예로서, 랩탑 컴퓨터는 또한, 팬을 포함할 수 있고, 제2 소스는 팬의 작동 파라미터를 기록하는 디바이스 활동 로그이고; 제2 보조 입력(114)은 팬 속도이다.

단계 206에서, 음성 활동 신뢰 레벨을 생성하기 위해 오디오 입력에 대해 음성 활동 검출이 수행된다. 예를 들어, 음성 활동 검출기(102)(도 1 참조)는, 음성 활동 신뢰 레벨(112)을 생성하기 위해 오디오 입력(110)에 대한 음성 활동 검출을 수행할 수 있다.

단계 208에서, 보조 입력은 시간이 지남에 따라 취합되어 방해요소 레벨을 생성한다. 예를 들어, 취합기(104)(도 1 참조)는 시간이 지남에 따라 보조 입력(114)을 취합하여 방해요소 레벨(116)을 생성할 수 있다. 위에서 언급된 바와 같이, 보조 입력은 복수의 보조 입력일 수 있고, 방해요소 레벨(116)은 복수의 방해요소 레벨일 수 있다.

단계 210에서, 송신 결정 레벨 및 이득 레벨을 생성하기 위해 음성 활동 신뢰 레벨 및 방해요소 레벨이 결합된다. 예를 들어, 결합기(106)(도 1 참조)는 송신 결정 레벨(120) 및 이득 레벨(122)을 생성하기 위해 음성 활동 신뢰 레벨(112) 및 방해요소 레벨(116)을 결합할 수 있다.

추가 옵션으로서, 파 엔드 활동 레벨은, 송신 결정 레벨 및 이득 레벨을 생성하기 위해 음성 활동 신뢰 레벨 및 방해요소 레벨과 결합될 수 있다. 예를 들어, 결합기(106)(도 1 참조)는, 파 엔드 활동 레벨(130)을 수신할 수 있고, 송신 결정 레벨(120) 및 이득 레벨(122)을 얻도록 그의 결합 처리에서 파 엔드 활동 레벨(130)을 포함할 수 있다.

송신 결정 레벨이 송신을 나타내지 않는 경우(예를 들어, 0), 방법은 단계 202로 돌아간다. 송신 결정 레벨이 송신을 나타내는 경우(예를 들어, 1), 방법은 단계 212 및 단계 214로 계속된다. 일례로서, 오디오 디바이스는 송신 제어 시스템(100)으로부터 송신 결정 레벨(120)(도 1 참조)을 수신할 수 있다.

단계 212에서, 수정된 오디오 입력이 얻어지도록 이득 레벨이 오디오 입력에 적용된다. 일례로서, (도 1의 송신 제어 시스템(100)을 포함하는) 오디오 디바이스는 수정된 오디오 입력이 얻어지도록 오디오 입력(110)에 이득 레벨(122)을 적용할 수 있다.

단계 214에서, 수정된 오디오 입력이 송신된다. 일례로서, (도 1의 송신 제어 시스템(100)을 포함하는) 오디오 디바이스는 수정된 오디오 입력을 송신할 수 있다.

시간이 지남에 따라 방해요소를 측정하기 위해 보조 입력(또는 다수의 보조 입력)을 취합함으로써, 그리고 (시간이 지남에 따른 방해요소에 기초하여) 오디오 입력에 대해 이득을 생성하고 적용함으로써, 실시형태는 보다 미묘한 송신 제어 프로세스를 구현한다.

도 3은 오디오 디바이스(300)의 블록도이다. 오디오 디바이스(300)는 송신 제어 시스템(100)(도 1 참조)을 구현할 수 있거나, 방법(200)의 단계들 중 하나 이상을 수행할 수 있다(도 2 참조). 오디오 디바이스(300)의 예는, 통신 엔드포인트(예를 들어, 스피커폰), 랩톱 컴퓨터, 휴대폰, 스피커와 마이크로폰을 구비한 헤드셋, 스피커와 마이크로폰을 구비한 이어폰(earpiece) 등을 포함한다. 오디오 디바이스(300)는, 버스(314)에 의해 연결되는 프로세서(302), 메모리(304), 입/출력 인터페이스(306), 라우드 스피커(308), 마이크로폰(310) 및 보조 컴포넌트(312)를 포함한다. 오디오 디바이스(300)는 (간결성을 위해) 도시되지 않은 다른 컴포넌트를 포함할 수 있다.

프로세서(302)는, 일반적으로, 오디오 디바이스(300)의 동작을 제어한다. 프로세서(302)는 송신 제어 시스템(100)(도 1 참조)의 기능을 구현할 수 있다. 예를 들어, 프로세서는, 음성 활동 검출기(102)(도 1 참조)의 음성 활동 검출 기능, 취합기(104)의 취합 기능, 및 결합기(106)의 결합 기능을 수행할 수 있다. 프로세서(302)는, 예를 들어 하나 이상의 컴퓨터 프로그램을 실행함으로써, 방법(200)(도 2 참조)의 하나 이상의 단계를 수행하도록 오디오 디바이스(300)를 제어할 수 있다.

메모리(304)는, 일반적으로, 오디오 디바이스(300)에 의해 생성되고 사용되는 데이터를 저장한다. 이 데이터는, 프로세서(302)에 의해 실행되는 컴퓨터 프로그램, 오디오 디바이스(300)의 입력 및 출력 신호에 대응하는 데이터(예를 들어, 오디오 입력(110)), 오디오 디바이스(300)의 동작 중 생성된 데이터(예를 들어, 보조 입력(114)), 오디오 디바이스(300)에 의해 생성된 중간 데이터(예를 들어, 음성 활동 신뢰 레벨(112), 방해요소 레벨(116), 송신 결정 레벨(120), 및 이득 레벨 (122)) 등을 포함할 수 있다.

입/출력 인터페이스(306)는, 일반적으로, 오디오 디바이스(300)를 다른 디바이스에 인터페이싱하고 오디오 디바이스(300)와 다른 디바이스 사이에서 신호를 교환한다. 예를 들어, 입/출력 인터페이스(306)는 파 엔드 활동 레벨(130)을 수신하고 수정된 오디오 입력(320)을 송신한다. 예를 들어, 오디오 디바이스(300)가 통신 엔드포인트(예를 들어, 스피커폰)일 경우, 파 엔드 활동 레벨(130)은 하나 이상의 원격 통신 엔드포인트로부터 수신되며; 수정된 오디오 입력(320)은, 하나 이상의 원격 통신 엔드포인트에 의한 출력에 대한, 이득(122)에 의해 수정된 오디오 입력(110)에 상당한다. 또한 입/출력 인터페이스(306)는, 다른 디바이스와 다른 신호를 교환할 수 있다; 예를 들어 다른 디바이스는, 오디오 디바이스(300)가 라우드스피커(308)로부터 출력하도록, 캡처한 오디오 신호를 송신할 수 있다. 입/출력 인터페이스(306)는 유선 또는 무선 송신기를 포함할 수 있다.

라우드스피커(308)는, 일반적으로, 오디오 디바이스(300)의 오디오 출력(322)을 출력한다. 예를 들어, 오디오 디바이스(300)가 통신 엔드포인트일 경우, 오디오 출력(322)은 입/출력 인터페이스(306)를 통해 원격 통신 엔드포인트로부터 수신된 오디오 신호를 포함한다. 다른 예로서, 오디오 디바이스(300)가 헤드셋일 경우, 오디오 출력(322)은 수정된 오디오 입력(320)에 대응하는 측음(side tone)을 포함한다(측음은 연결이 활성 상태임을 사용자가 인식하는 것을 돕기 때문임).

마이크로폰(310)은, 일반적으로, 오디오 입력(110)을 포함하여 오디오 디바이스(300) 근방에서 오디오를 캡처한다.

보조 컴포넌트(312)는, 일반적으로, 보조 입력(114)을 생성한다. 위에서 논의된 바와 같이, 보조 컴포넌트(312)는 센서 또는 오디오 디바이스(300)의 다른 컴포넌트일 수 있다. 보조 입력(114)은, (예를 들어, 컴포넌트의 경우) 보조 입력(114)의 동작의 결과일 수 있거나, (예를 들어, 센서의 경우) 보조 컴포넌트의 출력 그 자체일 수 있다. 예를 들어, 보조 컴포넌트(312)가 키보드일 경우, 보조 입력(114)은 (메모리(304)에 의해 로그에 저장될 수 있는) 키 누름 데이터에 대응한다. 다른 예로서, 보조 컴포넌트(312)가 진동 센서일 경우, 보조 입력(114)은 오디오 디바이스(300)의 진동에 대한 (메모리(304)에 의해 로그에 저장될 수 있는) 센서 데이터에 대응한다.

도 3에서는 오디오 디바이스(300)의 각 컴포넌트 중 하나만이 도시되어 있지만, 이러한 설명은 주로 설명을 용이하게 하기 위한 것이다. 오디오 디바이스(300)의 컴포넌트의 수는 실시형태의 폼 팩터에 따라 원하는대로 조정될 수 있다. 예를 들어, 보조 컴포넌트(312)는 키보드, 팬 및 가속도계와 같은 복수의 보조 컴포넌트일 수 있다.

오디오 디바이스의 컴포넌트의 배열은 실시형태의 폼 팩터에 따라 원하는대로 조정될 수 있다. 예를 들어, 오디오 디바이스(300)는 휴대폰 및 헤드셋과 같은 두 개의 디바이스를 포함할 수 있다.

도 4는 음성 활동 검출기(400)의 블록도이다. 음성 활동 검출기는 일 실시형태에서 음성 활동 검출기(102)(도 1 참조)로서 사용될 수 있다. 다른 실시형태에서, 음성 활동 검출기(102)의 세부 사항은 도 4에 도시된 것과는 상이할 수 있으며; 주된 관심사는 음성 활동 검출기(102)가 음성 활동 신뢰 레벨(112)을 생성한다는 것이며, 이는 도 4에 도시된 방식과는 다른 방식으로 수행될 수 있다. 그러나, 도 4에 나타낸 세부 사항은 음성 활동 신뢰 레벨(112)에 대한 강건한(robust) 결과를 제공한다. 일반적으로 음성 활동 검출기(400)는, 보다 큰 간격(수 개의 블록 또는 프레임, 또는 온라인 에버리징(online averaging))에 걸친 피처의 취합 및 이러한 피처로부터 통계의 추가적 생성을 사용하며, 이러한 피처를 사용한 규칙을, 약간의 레이턴시를 갖고 음성의 존재를 나타내기 위해 적용한다. 음성 활동 검출기(400)는 변환 및 밴드 블록(401), 조화(harmonicity) 블록(402), 스펙트럼 플럭스(spectral flux) 블록(403), 노이즈 모델 블록(404), 에너지 피처 블록(405), 기타 피처 블록(406), 취합 블록(408) 및 음성 검출 블록(409)을 포함한다.

변환 및 밴드 블록(401)은 오디오 입력(110)의 신호 스펙트럼 파워를 나타 내기 위해 주파수 기반 변환 및 지각적으로 이격된 밴드의 세트를 사용한다. 음성에 대한 변환 서브-밴드의 초기 블록 사이즈 또는 샘플링은, 예를 들어 8 내지 160ms의 범위에 있으며, 하나의 특정 실시형태에서 20ms의 값이 유용하다.

조화 블록(402)은 오디오 입력(110)으로부터 조화 피처를 추출하고, 추출된 조화 피처를 취합 블록(408)에 제공한다. 스펙트럼 플럭스 블록(403)은 오디오 입력(110)으로부터 스펙트럼 플럭스 피처를 추출하고, 추출된 스펙트럼 플럭스 피처를 취합 블록(408)에 제공한다.

노이즈 모델 블록(404)은 오디오 입력(110l)의 보다 장기적 피처를 취합하지만, 이는 직접적으로 사용되지 않는다. 오히려 밴드의 순간 스펙트럼은 취합 블록(408)에 제공되는 에너지 측정을 생성하기 위해 노이즈 모델과 비교된다.

에너지 피처 블록(405)은 오디오 입력(110)으로부터 에너지 피처를 추출하고, 추출된 에너지 피처를 취합 블록(408)에 제공한다.

다른 피처 블록(406)은 다른 블록에 의해 처리된 것 이외의 일부 피처를 추출한다. 이들 다른 피처는 특정 실시형태 또는 다른 설계 기준에 기초하여 선택될 수 있다. 다른 특징의 예는 오디오 입력(110)의 정규화된 스펙트럼 및 오디오 입력(110)의 절대 에너지를 포함한다.

취합 블록(408)은 단일 블록과 연관된 쇼트(short) 피처로부터 데이터를 수집, 필터링 또는 취합하고, 추가 훈련되거나 조정된(tuned) 규칙에 대한 피처로서 다시 사용될 통계 및 피처의 세트를 생성한다. 일례에서, 취합 블록(408)은 데이터와 평균(mean) 및 분산(variance)을 스택(stack)한다. 대안적으로, 취합 블록(408)은 온라인 통계(예를 들어, 평균 및 분산에 대한 무한 임펄스 응답(IIR; Infinite Impulse Response))을 사용할 수 있다.

음성 검출 블록(409)은 음성 활동 신뢰 레벨(112)을 생성하기 위해 오디오 입력의 보다 큰 영역에 걸친 음성의 존재에 관한 지연된 결정을 생성한다. 통계의 시간 상수 또는 프레임에 대한 예시적인 사이즈는 240ms 정도이며, 100 내지 2000ms 범위의 값이 적용될 수 있다. 이 출력은 초기 시작 후 음성의 존재 유무에 기초하여 오디오의 프레임의 연속 또는 완료를 제어하는 데 사용된다. 음성 검출 블록(409)은 취합된 피처 및 통계에서 레이턴시 및 추가 정보가 제공되므로 시작 규칙보다 더 구체적이고 민감하다.

그 외에 음성 활동 검출기(400)의 세부 사항은 미국 출원공개 제2015/0032446호에 기재된 바와 같을 수 있다.

보조 컴포넌트 및 보조 입력

(도 1의 보조 입력(114), 도 2의 단계 204, 도 3의 보조 컴포넌트(312) 등에 관하여) 위에서 논의된 바와 같이, 보조 입력의 다수의 유형을 생성할 수 있는 다수의 유형의 보조 컴포넌트가 있을 수 있다. 이러한 보조 입력은 (예를 들어, 마이크로폰에 의해 직접 캡처되지 않는다는 점에서) 오디오 입력(110)과는 상이하지만, 여전히 방해요소에 관여하거나 이를 나타낼 수 있다. 보조 입력은 하나 이상의 이벤트 로그에 저장될 수 있다. 보조 입력은 진동 데이터, 시스템 이벤트 데이터, 가속 데이터, 컴포넌트 활동 데이터 및 이차 디바이스 데이터를 포함할 수 있다.

진동 데이터는 진동 센서에 의해 생성된 데이터에 대응한다. 예를 들어, 보조 컴포넌트(312)(도 3 참조)가 진동 센서일 경우, 진동 데이터는 오디오 디바이스(300)의 진동에 대응한다. 일반적으로 진동은, 음성에 의해 유발되는 진동과는 상이한 기계적 진동에 대응하고, 따라서 마이크로폰에 의해 캡처된 신호와 상이하다. 예를 들어, 오디오 디바이스(300)가 테이블 위에 있고 누군가가 테이블을 두드릴 경우, 이 기계적 진동은 진동 센서에 의해 감지된다. 진동 센서는 압전 센서일 수 있다.

시스템 이벤트 데이터는 오디오 디바이스(300)의 컴포넌트의 동작과 관련된 이벤트에 대응한다. 예를 들어, 키보드를 포함하는 랩탑 컴퓨터일 경우, 시스템 이벤트 데이터는 예를 들어 키보드 드라이버 시스템 또는 시스템 BIOS(Basic Input/Output Operating System)에 의해 캡처된 키보드 누름 이벤트에 대응한다. 유사하게 마우스의 경우, 시스템 이벤트 데이터는 마우스 클릭 이벤트에 대응한다. 시스템 이벤트의 결과는 마이크로폰에 의해서도 검출될 수 있지만(예를 들어, 타이핑이 시끄러울 경우), 취합되는 시스템 이벤트 데이터는 마이크로폰으로부터 입수되지 않는다.

가속 데이터는 가속도계에 의해 생성된 데이터에 대응한다. 일례로서, 오디오 디바이스(300)가 움직임이 심할 경우, 이는 음성 송신 상태보다 방해요소 상태(예를 들어, 바람 소리 등)를 더 많이 나타낼 수 있다. 유사하게, 오디오 디바이스(300)가 바닥에 떨어질 경우, 가속 데이터는 음성 송신 상태보다 방해요소 상태를 더 많이 나타낼 것이다.

컴포넌트 활동 데이터는 방해요소를 생성시킬 수 있는 오디오 디바이스(300)의 컴포넌트들의 활동 데이터에 대응한다. 하나의 예는 팬이며, 팬에 대한 컴포넌트 활동 데이터는 팬 속도와 같은 활동을 나타낸다. 또 다른 예는 하드디스크 드라이브이며, 하드디스크 드라이브에 대한 컴포넌트 활동 데이터는 드라이브 회전 여부, 데이터 액세스 수행 등과 같은 활동을 나타낸다. 시스템 이벤트 데이터와 유사하게, 컴포넌트 활동 데이터는 컴포넌트 드라이버 또는 시스템 BIOS에 의해 캡처될 수 있다.

이차 디바이스 데이터는, 오디오 디바이스(300)와는 별개이지만, 이와 관련되는 컴포넌트의 활동에 대응한다. 예를 들어, 랩톱 컴퓨터(오디오 디바이스(300))는 랩톱의 화면을 투사하기 위해 프로젝터에 연결될 수 있으며; 프로젝터는 그 작동 중에 보통 팬을 실행하므로, 이차 디바이스 데이터는 프로젝터가 연결되어 있거나, 또는 프로젝터의 팬이 활성화되어 있음을 나타낼 수 있다. 다른 예로서, 통신 엔드포인트(오디오 디바이스(300))는 키보드에 연결될 수 있으며; (시스템 이벤트 데이터와 유사하게) 이차 디바이스 데이터는 키보드가 연결되어 있거나, 또는 키보드 누름 이벤트가 일어나고 있음을 나타낼 수 있다.

취합 및 결합

(예를 들어, 도 1의 취합기(104), 도 2의 단계 208 등과 관련하여) 위에서 논의된 바와 같이, 보조 입력(114)은 시간이 지남에 따라 취합되어 방해요소 레벨(116)을 생성한다. 결합기(106)(도 1 참조)는 취합을 행하기 위해 취합기(104)와 함께 작동할 수 있다. 취합의 파라미터는 일반적으로 증가량, 감소량 및 감쇠 시간(decay time)을 포함한다. 또한 방해요소 레벨(116)의 취합은, 토크 버스트(talk burst)가 종료되었는지 여부와 같은 추가 파라미터에 기초할 수 있다. 이러한 파라미터의 값은 일반적으로 보조 입력 및 오디오 디바이스의 세부 사항에 따라 구성되며 원하는대로 조정될 수 있다.

예를 들어, 방해요소 레벨(116)은 최소값과 최대값 사이의 범위일 수 있다. 방해요소 레벨(116)은 최소값에서 시작한다. 보조 입력(114)에 존재하는 각각의 이벤트는 증가량씩 방해요소 레벨(116)을 증가시킨다(그러나 최대값보다 높지는 않음). 감쇠 시간의 각각의 간격 후에, 방해요소 레벨(116)은 감소량씩 감소된다(그러나 최소값 미만은 아님).

보조 입력(114)이 키보드 누름에 대응하는 경우의 구체예는 다음과 같다. 방해요소 레벨(116)은 0과 1 사이의 범위일 수 있고, (보조 입력(114)에 의해 제공되는 바와 같이) 각각의 키보드 누름 이벤트에 대해 0.2씩 증분될 수 있고, 10초의 시간 상수로 감쇠할 수 있다. 또한, (예를 들어, 음성 활동 신뢰 레벨(112)이 60%를 초과하는 것으로 나타내지는 바와 같이) 높은 레벨의 음성 활동을 갖는 토크 버스트의 끝에서, 감쇠 시간(감쇠 상수)이 1초로 줄어든다.

보조 입력(114)이 진동에 대응하는 경우의 또 다른 구체예는 다음과 같다. 방해요소 레벨(116)은 0과 1 사이의 범위일 수 있고, (보조 입력(114)에 의해 제공되는 바와 같이) 진동 측정이 규정된 임계값을 초과할 때마다 0.1씩 증분될 수 있으며, 10초의 시간 상수로 감쇠될 수 있다.

보조 입력(114)이 가속도에 대응하는 경우의 또 다른 구체예는 다음과 같다. 방해요소 레벨(116)은 0과 1 사이의 범위일 수 있고, (보조 입력(114)에 의해 제공되는 바와 같이) 가속 측정이 규정된 임계값을 초과할 때마다 0.1씩 증분될 수 있으며, 10초의 시간 상수로 감쇠될 수 있다.

보조 입력(114)이 팬 속도에 대응하는 경우의 또 다른 구체예는 다음과 같다. 방해요소 레벨(116)은 0과 1 사이의 범위일 수 있고; 제1 임계값 아래의 (보조 입력(114)에 의해 제공되는 바와 같은) 팬 속도 값은 0에 대응하고, 제2 임계값 위의 팬 속도 값은 1에 대응하며, 제1 임계값과 제2 임계값 사이의 팬 속도 값은 0과 1 사이에서 선형적으로 매핑된다.

위에 언급된 바와 같이, 보조 입력(114)(도 1 참조)은 다수의 보조 입력들 중 하나일 수 있다. 예를 들어, 보조 컴포넌트(312)(도 3 참조)는 각각 대응하는 보조 입력(114)을 생성하는 다수의 보조 컴포넌트들 중 하나일 수 있다. 취합기(104)는 다수의 보조 입력에 관한 다수의 옵션들 중 하나 이상을 구현할 수 있다. 하나의 옵션은, 취합기(104)는, 결합기(106)에 제공하는 대응하는 다수의 방해요소 레벨로 다수의 보조 입력을 취합할 수 있다는 것이다. 또 다른 옵션은, 취합기(104)는, 결합기(106)에 제공하는 결합된 방해요소 레벨로 다수의 방해요소 레벨들 중 하나 이상을 결합할 수 있다는 것이다. 예를 들어, 취합기(104)가 제1 보조 입력 및 제2 보조 입력을 수신하고, 제1 방해요소 레벨 및 제2 방해요소 레벨을 생성하는 경우, 취합기는, 제1 및 제2 방해요소 레벨을 선형으로 결합하여 결합된 방해요소 레벨을 생성할 수 있다. 또 다른 옵션은, 취합기(104)는, 방해요소 레벨(116)로서 다수의 방해요소 레벨의 최대 방해요소 레벨을 제공한다는 것이다.

위에서 논의된 바와 같이, 결합기(106)(도 1 참조)는 송신 결정 레벨(120) 및 이득 레벨(122)을 생성하기 위해 음성 활동 신뢰 레벨(112) 및 방해요소 레벨(116)을 결합한다. 예를 들어, 음성 활동 신뢰 레벨(112)이 높고(예를 들어, 80% 초과) 방해요소 레벨(116)이 낮은 경우(예를 들어, 20% 아래[범위가 0 내지 1일 경우 0.2]), 송신 결정 레벨(120)은 오디오 입력(110)이 송신되어야 함을 나타낸다. 음성 활동 신뢰 레벨(112)이 낮고(예를 들어, 20% 아래) 방해요소 레벨(116)이 높은 경우(예를 들어, 80% 초과), 송신 결정 레벨(120)은 오디오 입력(110)이 송신되지 않아야 함을 나타낸다. 음성 활동 신뢰 레벨(112)이 높지도 않고 낮지도 않은 경우, 결합기(106)는 이득 레벨(122)을 생성하기 위해 음성 활동 신뢰 레벨(112)과 방해요소 레벨(116)을 결합한다. 일반적으로 이득 레벨(122)은, 음성 활동 신뢰 레벨(112)이 주어졌을 때, 시간이 지남에 따른 방해요소 레벨(116)의 취합에 따라 계산된다.

하나의 옵션은 결합기(106)가 음성 활동 신뢰 레벨(112)과 방해요소 레벨(116)의 선형 결합을 수행하는 것이다. 예를 들어, 음성 활동 신뢰 레벨(112)이 50%이고 방해요소 레벨이 20%일 경우, 이득 레벨(122)은 40%일 수 있다.(이득 40%는, 수정된 오디오 입력(320)의 레벨이 오디오 입력(110)의 레벨의 40%임을 의미한다.) 다른 예로서, 음성 활동 신뢰 레벨(112)이 50%이고 방해요소 레벨이 80%일 경우, 이득 레벨(122)은 10%일 수 있다. 이들 예에서 이득 레벨은, 100%에서 방해요소 레벨을 감산한 나머지와 음성 활동 신뢰 레벨을 곱한 것으로서 계산된다.

방해요소 레벨(116)이 (예를 들어, 다수의 보조 소스로부터의 이벤트의 취합으로부터 얻어진) 복수의 방해요소 레벨일 때, 결합기(106)는 먼저 (선형 결합, 최대값 등을 사용하여) 결합된 방해요소 레벨로 다수의 방해요소 레벨을 결합할 수 있으며, 이어서 결합된 방해요소 레벨과 음성 활동 신뢰 레벨(112)의 선형 결합을 수행할 수 있다.

위에서 논의된 바와 같이, 결합기(106)는, 음성 활동 신뢰 레벨(112) 및 방해요소 레벨(116)을 생성할 때 파 엔드 활동 레벨(130)을 고려할 수도 있다. 일 실시형태에 따르면, 파 엔드 활동 레벨(130)은 이진값일 수 있다. 파 엔드 활동 레벨(130)이 높을 때, 결합기(106)는 음성 활동 신뢰 레벨(112)에 대해, 그리고 방해요소 레벨(116)에 대해 감소(예를 들어, 20%)를 적용할 수 있다. 파 엔드 활동 레벨(130)이 낮을 때, 결합기(106)는 음성 활동 신뢰 레벨(112)과 방해요소 레벨(116)을 정상적으로 결합할 수 있다.

다른 실시형태에 따르면, 파 엔드 활동 레벨(130)은 0과 1 사이의 범위일 수있다. 파 엔드 활동 레벨(130)이 낮을 때(예를 들어, 0.2 아래), 결합기(106)는 "0" 이진값에 관련하여 전술한 바와 같이 동작할 수 있다. 파 엔드 활동 레벨(130)이 높을 때(예를 들어, 0.8 위), 결합기(106)는 "1" 이진값에 관련하여 전술한 바와 같이 동작할 수 있다. 파 엔드 활동 레벨(130)이 낮지도 않고 높지도 않을 때(예를 들어, 0.2와 0.8 사이), 결합기(106)는, 음성 활동 신뢰 레벨(112)에 대해, 그리고 방해요소 레벨(116)에 대해 선형 감소(예를 들어, 파 엔드 활동 레벨(130)이 0.8에 있을 때 최대 20%에 도달)를 적용할 수 있다.

예시적 실시형태

일 예시적 실시형태는 원격회의 환경에서 사용되는 랩톱 컴퓨터이다. 랩톱 컴퓨터는 보조 컴포넌트(312)(도 3 참조)로서 팬 및 키보드를 갖는다. 취합기(104)(도 1 참조)는 팬으로부터의 보조 입력(114)을 [0, 1] 범위의 제1 방해요소 레벨로 취합하고, 키보드로부터의 보조 입력(114)을 [0, 1] 범위의 제2 방해요소 레벨로 취합하고, 결합기(106)에 방해요소 레벨(116)로서 그들 둘의 선형 결합을 제공한다.

다른 예시적 실시형태는 원격회의 엔드포인트. 예를 들어 스피커폰이다. 스피커폰은 보조 컴포넌트(312)(도 3 참조)로서 가속도계 및 진동 센서를 갖는다. 취합기(104)(도 1 참조)는 가속도계로부터의 보조 입력(114)을 [0, 1] 범위의 제1 방해요소 레벨로 취합하고, 진동 센서로부터의 보조 입력(114)을 [0, 1] 범위의 제2 방해요소 레벨로 취합하고, 결합기(106)에 방해요소 레벨(116)로서 그들 둘의 최대값을 제공한다.

구현 세부 사항

실시형태는 하드웨어, 컴퓨터 판독가능 매체에 저장된 실행 가능한 모듈, 또는 둘 모두의 조합(예를 들어, 프로그래머블 논리 어레이)으로 구현될 수 있다. 달리 명시되지 않는 한, 실시형태에 의해 실행되는 단계는, 특정 실시형태에 있을 수 있지만, 본질적으로 어느 특정한 컴퓨터 또는 다른 장치와 관련될 필요는 없다. 특히, 다양한 범용 기계가 본 명세서의 교시에 따라 작성된 프로그램과 함께 사용될 수 있거나, 또는 요구되는 방법 단계들을 수행하기 위해 보다 전문화된 장치(예를 들어, 집적 회로)를 구성하는 것이 보다 편리할 수 있다. 따라서 실시형태는, 적어도 하나의 프로세서, (휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함하는) 적어도 하나의 데이터 저장 시스템, 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 각각 포함하는 하나 이상의 프로그램 가능한 컴퓨터 시스템 상에서 실행하는 하나 이상의 컴퓨터 프로그램으로 구현될 수 있다. 프로그램 코드는 본원에 설명된 기능을 수행하고 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 공지된 방식으로 하나 이상의 출력 디바이스에 적용된다.

이러한 각각의 컴퓨터 프로그램은, 바람직하게는, 본원에 설명된 절차를 수행하기 위해 컴퓨터 시스템에 의해 저장 매체 또는 디바이스가 판독될 때 컴퓨터를 컨피겨링하고 동작시키기 위해, 범용 또는 특수 목적의 프로그램 가능한 컴퓨터에 의해 판독 가능한 저장 매체 또는 디바이스(예를 들어, 고체 상태 메모리 또는 매체, 또는 자기 또는 광학 매체)에 저장되거나 다운로드 된다. 또한 본 발명적 시스템은, 컴퓨터 프로그램으로 구성된 컴퓨터 판독가능 저장 매체로서 구현되는 것으로 간주될 수 있으며, 이렇게 컨피겨링된 저장 매체는 컴퓨터 시스템이 본원에 설명된 기능을 수행하기 위해 특정되고 미리 규정된 방식으로 작동하게 한다.(소프트웨어 그 자체 및 무형 또는 일시적 신호는 그들이 특허될 수 없는 청구대상인 경우 제외된다.)

상기 설명은 본 발명의 양태가 어떻게 구현될 수 있는지의 예와 함께 본 발명의 여러 실시형태를 예시한다. 상기 실시예 및 실시형태는 유일한 실시형태로 간주되어서는 안되며, 다음의 청구범위에 의해 규정되는 본 발명의 유연성 및 이점을 설명하기 위해 제시된다. 상기 개시 및 다음의 청구범위에 기초하여, 다른 배열, 실시형태, 구현 및 등가물이 당업자에게 명백할 것이며 청구범위에 의해 규정된 본 발명의 사상 및 범위를 일탈하지 않고 채용될 수 있다.

본 발명의 다양한 양태는 다음 열거된 예시적인 실시형태(EEE)들로부터 인식될 수 있다:

1.

오디오 디바이스에 대한 송신 제어 방법으로서, 상기 방법은:

마이크로폰을 사용하여 오디오 입력을 수신하는 단계;

상기 마이크로폰 이외의 소스를 사용하여 보조 입력을 수신하는 단계;

음성 활동 신뢰 레벨을 생성하기 위해 상기 오디오 입력에 대해 음성 활동 검출을 수행하는 단계;

방해요소 레벨을 생성하기 위해 시간이 지남에 따라 상기 보조 입력을 취합하는 단계; 및

송신 결정 레벨 및 이득 레벨을 생성하기 위해 상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨을 결합하는 단계를 포함하는, 방법.

2.

예시적인 실시형태 1에 있어서,

상기 송신 결정 레벨이 송신을 나타내는 경우:

상기 오디오 입력에 상기 이득 레벨을 적용하여 수정된 오디오 입력을 얻는 단계; 및

상기 수정된 오디오 입력을 송신하는 단계를 더 포함하는, 방법.

3.

예시적인 실시형태 1 또는 2에 있어서,

상기 보조 입력은 복수의 보조 입력이고, 상기 마이크로폰 이외의 상기 소스는 상기 마이크로폰 이외의 복수의 소스인, 방법.

4.

예시적인 실시형태 1 내지 3 중 어느 하나에 있어서,

상기 마이크로폰 이외의 상기 소스는 진동 센서, 시스템 이벤트 로그, 가속도계, 컴포넌트 활동 로그 및 이차 입력 로그 중 하나인, 방법.

5.

예시적인 실시형태 4에 있어서,

상기 시스템 이벤트 로그는 키보드 누름 이벤트 및 마우스 클릭 이벤트를 기록(log)하는, 방법.

6.

예시적인 실시형태 4에 있어서,

상기 오디오 디바이스는 팬(fan)을 포함하고, 상기 컴포넌트 활동 로그는 상기 팬의 팬 속도를 기록(log)하는, 방법.

7.

예시적인 실시형태 4에 있어서,

상기 이차 입력 로그는 상기 오디오 디바이스에 연결된 연결 디바이스와 관련된 정보를 기록(log)하는, 방법.

8.

예시적인 실시형태 1 내지 7 중 어느 하나에 있어서,

상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨을 결합하는 단계는:

상기 송신 결정 레벨 및 상기 이득 레벨을 생성하기 위해, 상기 음성 활동 신뢰 레벨, 상기 방해요소 레벨 및 파 엔드(far end) 활동 레벨을 결합하는 단계를 포함하는, 방법.

9.

예시적인 실시형태 1 내지 8 중 어느 하나에 있어서,

상기 이득 레벨은 상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨의 선형 결합인, 방법.

10.

예시적인 실시형태 1 내지 9 중 어느 하나에 있어서,

상기 방해요소 레벨은 복수의 방해요소 레벨인, 방법.

11.

예시적인 실시형태 10에 있어서,

상기 이득 레벨은 상기 음성 활동 신뢰 레벨과 상기 복수의 방해요소 레벨의 선형 결합인, 방법.

12.

프로세서에 의해 실행될 때, 예시적인 실시형태 1 내지 11 중 어느 하나의 방법을 포함하는 처리를 실행하도록 장치를 제어하는 컴퓨터 프로그램을 저장하는, 비일시적인 컴퓨터 판독가능 매체.

13.

오디오 디바이스에 대한 송신 제어를 위한 장치로서, 상기 장치는:

마이크로폰;

상기 마이크로폰 이외의 소스;

프로세서; 및

메모리

를 포함하고,

상기 프로세서는, 상기 마이크로폰을 사용하여 오디오 입력을 수신하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,

상기 프로세서는, 상기 마이크로폰 이외의 상기 소스를 사용하여 보조 입력을 수신하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,

상기 프로세서는, 음성 활동 신뢰 레벨을 생성하기 위해 상기 오디오 입력에 대한 음성 활동 검출을 수행하도록 상기 오디오 디바이스를 제어하도록 구성되고,

상기 프로세서는, 방해요소 레벨을 생성하기 위해 시간이 지남에 따라 상기 보조 입력을 취합하도록 상기 오디오 디바이스를 제어하도록 구성되고,

상기 프로세서는, 송신 결정 레벨 및 이득 레벨을 생성하기 위해 상기 음성 활동 신뢰 레벨 및 상기 방해요소 레벨을 결합하도록 상기 오디오 디바이스를 제어하도록 구성되는, 장치.

14.

예시적인 실시형태 13에 있어서,

송신기를 더 포함하고, 상기 송신 결정 레벨이 송신을 나타내는 경우:

상기 프로세서는, 수정된 오디오 입력을 얻기 위해 상기 오디오 입력에 상기 이득 레벨을 적용하도록 상기 오디오 디바이스를 제어하도록 구성되고;

상기 프로세서는, 상기 수정된 오디오 입력을 송신하기 위해 상기 송신기를 제어하도록 구성되는, 장치.

15.

예시적인 실시형태 13 또는 14에 있어서,

상기 마이크로폰 이외의 복수의 소스를 더 포함하고,

상기 마이크로폰 이외의 상기 복수의 소스는 상기 마이크로폰 이외의 상기 소스를 포함하고,

상기 보조 입력은 복수의 보조 입력인, 장치.

16.

예시적인 실시형태 13 내지 15 중 어느 하나에 있어서,

상기 마이크로폰 이외의 상기 소스는 진동 센서, 시스템 이벤트 로그, 가속도계, 컴포넌트 활동 로그 및 이차 입력 로그 중 하나인, 장치.

17.

예시적인 실시형태 13 내지 16 중 어느 하나에 있어서,

키보드를 더 포함하고,

상기 마이크로폰 이외의 상기 소스는 키보드 누름 이벤트를 기록(log)하는 시스템 이벤트 로그인, 장치.

18.

예시적인 실시형태 13 내지 17 중 어느 하나에 있어서,

팬을 더 포함하고,

상기 마이크로폰 이외의 상기 소스는 상기 팬의 팬 속도를 기록(log)하는 컴포넌트 활동 로그인, 장치.

19.

예시적인 실시형태 13 내지 18 중 어느 하나에 있어서,

상기 프로세서는, 상기 송신 결정 레벨 및 상기 이득 레벨을 생성하기 위해 상기 음성 활동 신뢰 레벨, 상기 방해요소 레벨 및 파 엔드 활동 레벨을 결합하도록 상기 오디오 디바이스를 제어하도록 더 구성되는, 장치.

20.

예시적인 실시형태 13 내지 19 중 어느 하나에 있어서,

상기 이득 레벨은 상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨의 선형 결합인, 장치.

Claims

오디오 디바이스에 대한 송신 제어 방법으로서, 상기 방법은:
마이크로폰을 사용하여 오디오 입력을 수신하는 단계;
상기 마이크로폰 이외의 소스를 사용하여 보조 입력을 수신하는 단계;
음성 활동 신뢰 레벨을 생성하기 위해 상기 오디오 입력에 대해 음성 활동 검출을 수행하는 단계;
상기 보조 입력에 존재하는 개별적인 방해요소 이벤트를 검출하는 단계;
방해요소 레벨을 생성하기 위해 시간이 지남에 따라 상기 방해요소 이벤트를 취합하는 단계; 및
송신 결정 레벨 및 이득 레벨을 생성하기 위해 상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨을 결합하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 송신 결정 레벨이 송신을 나타내는 경우:
수정된 오디오 입력을 얻기 위해 상기 오디오 입력에 상기 이득 레벨을 적용하는 단계; 및
상기 수정된 오디오 입력을 송신하는 단계를 더 포함하는, 방법.
제1항 또는 제2항에 있어서,
상기 보조 입력은 복수의 보조 입력이고, 상기 마이크로폰 이외의 상기 소스는 상기 마이크로폰 이외의 복수의 소스인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 마이크로폰 이외의 상기 소스는 진동 센서 및 가속도계 중 하나인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 마이크로폰 이외의 상기 소스는 시스템 이벤트 로그, 컴포넌트 활동 로그 및 이차 입력 로그 중 하나인, 방법.
제5항에 있어서,
상기 시스템 이벤트 로그는 키보드 누름 이벤트 및 마우스 클릭 이벤트를 기록(log)하는, 방법.
제5항에 있어서,
상기 오디오 디바이스는 팬(fan)을 포함하고, 상기 컴포넌트 활동 로그는 상기 팬의 팬 속도를 기록(log)하는, 방법.
제5항에 있어서,
상기 이차 입력 로그는 상기 오디오 디바이스에 연결된 연결 디바이스와 관련된 정보를 기록(log)하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨을 결합하는 단계는:
상기 송신 결정 레벨 및 상기 이득 레벨을 생성하기 위해, 상기 음성 활동 신뢰 레벨, 상기 방해요소 레벨 및 파 엔드(far end) 활동 레벨을 결합하는 단계를 포함하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 이득 레벨은 상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨의 선형 결합인, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 방해요소 레벨은 복수의 방해요소 레벨인, 방법.
제11항에 있어서,
상기 이득 레벨은 상기 음성 활동 신뢰 레벨과 상기 복수의 방해요소 레벨의 선형 결합인, 방법.
프로세서에 의해 실행될 때, 제1항 내지 제12항 중 어느 한 항의 방법을 포함하는 처리를 실행하도록 장치를 제어하는 컴퓨터 프로그램을 저장하는, 비일시적인 컴퓨터 판독가능 매체.
오디오 디바이스에 대한 송신 제어를 위한 장치로서, 상기 장치는:
마이크로폰;
상기 마이크로폰 이외의 소스;
프로세서; 및
메모리
를 포함하고,
상기 프로세서는, 상기 마이크로폰을 사용하여 오디오 입력을 수신하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,
상기 프로세서는, 상기 마이크로폰 이외의 상기 소스를 사용하여 보조 입력을 수신하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,
상기 프로세서는, 음성 활동 신뢰 레벨을 생성하기 위해 상기 오디오 입력에 대한 음성 활동 검출을 수행하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,
상기 프로세서는, 상기 보조 입력에 존재하는 개별적인 방해요소 이벤트를 감지하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,
상기 프로세서는, 방해요소 레벨을 생성하기 위해 시간이 지남에 따라 상기 방해요소 이벤트를 취합하기 위해 상기 오디오 디바이스를 제어하도록 구성되고,
상기 프로세서는, 송신 결정 레벨 및 이득 레벨을 생성하기 위해 상기 음성 활동 신뢰 레벨 및 상기 방해요소 레벨을 결합하도록 상기 오디오 디바이스를 제어하도록 구성되는, 장치.
제14항에 있어서,
송신기를 더 포함하고, 상기 송신 결정 레벨이 송신을 나타내는 경우:
상기 프로세서는, 수정된 오디오 입력을 얻기 위해 상기 오디오 입력에 상기 이득 레벨을 적용하도록 상기 오디오 디바이스를 제어하도록 구성되고;
상기 프로세서는, 상기 수정된 오디오 입력을 송신하기 위해 상기 송신기를 제어하도록 구성되는, 장치.
제14항 또는 제15항에 있어서,
상기 마이크로폰 이외의 복수의 소스를 더 포함하고,
상기 마이크로폰 이외의 상기 복수의 소스는 상기 마이크로폰 이외의 상기 소스를 포함하고,
상기 보조 입력은 복수의 보조 입력인, 장치.
제14항 내지 제16항 중 어느 한 항에 있어서,
상기 마이크로폰 이외의 상기 소스는 진동 센서 및 가속도계 중 하나인, 장치.
제14항 내지 제16항 중 어느 한 항에 있어서,
상기 마이크로폰 이외의 상기 소스는 시스템 이벤트 로그, 컴포넌트 활동 로그 및 이차 입력 로그 중 하나인, 장치.
제14항 내지 제18항 중 어느 한 항에 있어서,
키보드를 더 포함하고,
상기 마이크로폰 이외의 상기 소스는 키보드 누름 이벤트를 기록(log)하는 시스템 이벤트 로그인, 장치.
제14항 내지 제19항 중 어느 한 항에 있어서,
팬을 더 포함하고,
상기 마이크로폰 이외의 상기 소스는 상기 팬의 팬 속도를 기록(log)하는 컴포넌트 활동 로그인, 장치.
제14항 내지 제20항 중 어느 한 항에 있어서,
상기 프로세서는, 상기 송신 결정 레벨 및 상기 이득 레벨을 생성하기 위해 상기 음성 활동 신뢰 레벨, 상기 방해요소 레벨 및 파 엔드 활동 레벨을 결합하도록 상기 오디오 디바이스를 제어하도록 더 구성되는, 장치.
제14항 내지 제21항 중 어느 한 항에 있어서,
상기 이득 레벨은 상기 음성 활동 신뢰 레벨과 상기 방해요소 레벨의 선형 결합인, 장치.