KR100736246B1

KR100736246B1 - 통신 디바이스에서 스피커폰 동작을 위한 시스템 및 그 방법

Info

Publication number: KR100736246B1
Application number: KR1020057001469A
Authority: KR
Inventors: 패트릭 데사이; 알리 베부디안; 친 팬. 웡
Original assignee: 모토로라 인코포레이티드
Priority date: 2002-07-26
Filing date: 2003-07-24
Publication date: 2007-07-06
Also published as: GB2407744B; JP2005534258A; CN1692618A; AU2003256725A1; WO2004012426A1; GB0502502D0; GB2407744A; KR20050029280A

Abstract

본 발명은 한방향만의 전송 모드를 사용하더라도, 통상적인 대화에 더 가깝도록 스피커폰 동작을 관리하는 지능을 갖는 셀룰러 전화기나 다른 통신 디바이스를 제공한다. 마이크로폰 경로(128) 및 스피커 경로(130)는 각 채널의 에너지 및 다른 특성들을 평가하기 위해 이중 음성 활동 검출기들(114, 118)을 사용하여 연속적으로 모니터링될 수 있고, 동적 기준에 따라 한 경로나 다른 경로로 전환할 수 있다. 잡음이 많은 환경에서, 조기 탈락을 피하기 위해서 전환을 허용하기 전에 행타임(hangtime)이 적용될 수 있다. 채널의 포착을 트리거하는데 사용되는 다른 기준들은 그것 이하에서 스피커 경로(130)가 자동으로 바뀌는 낮은 임계값을 제거하도록 조정될 수 있다.

통신 채널, 스피커 폰, 통신 디바이스

Description

통신 디바이스에서 스피커폰 동작을 위한 시스템 및 그 방법{System and method for speakerphone operation in a communications device}

본 발명은 통신 분야에 관한 것이며, 보다 상세하게는 셀룰러 전화기 또는 다른 통신 디바이스에서 명료하고 보다 신뢰할 수 있는 스피커폰 동작을 발생시키는 기술들에 관한 것이다.

편리하고 효과적인 스피커폰 동작은 셀룰러 핸드셋들 및 다른 통신 디바이스들에서 바람직한 특징이 되고 있다. 교통 안전과 관련하여 지역 사회들은 운전중 셀룰러 전화기를 손에 들고 사용하는 동작을 금지하는 경우가 있다. 스피커폰 특징이 장착된 핸드셋들 및 다른 디바이스들은 사용자들이 통상적인 대화들 및 다른 전화 액세스를 여전히 수행하면서 차량 내의 휴식 장소나 다른 장소에 디바이스를 둘 수 있다.

그러나, 셀룰러 전화기에 효과적인 스피커폰 기능을 장착하는 것은 단순한 통합 작업은 아니다. 하나의 실질적인 어려움은 많은 셀룰러 전화기들이 유닛을 더 컴팩트하게 하기 위해서 서로 수 인치 내에 이어폰 스피커 및 통합된 마이크로폰 모두를 포함하는 소형 디바이스들이라는 점이다. 그러므로, 스피커 경로 및 마이크로폰 경로 모두가 동시에 활성화되는 이중형 동작은, 스피커의 출력이 공기 및 케이스 진동을 통해 마이크로폰에 전해지기 때문에, 바람직하지 않은 피드백을 발생시킬 수 있다. 이러한 피드백 문제는 시끄러운 차나 실내에서와 같이 스피커 볼륨들을 높이면 더욱더 악화된다.

셀룰러 전화기 또는 다른 디바이스 상의 마이크로폰 경로에 접속될 수 있고, 스피커로부터 발산되는 피드백 에너지의 일부를 제거할 수 있는 에코 소거 회로들은 공지되어 있다. 불행히도, 에코 소거 회로들은 현재 단지 약 35dB를 소거할 수 있고, 스피커로부터의 에너지는 내장된 마이크로폰에 의해 전달되는 에너지보다 35dB 이상 높을 수 있으므로, 에코 소거 회로들이 포함되더라도, 에코 및 피드백이 여전히 발생한다.

스피커폰 문제에 대한 하나의 해결책은 핸드셋 내에서 스피커 및 마이크로폰을 물리적으로 서로 분리시키려는 시도이다. 예를 들면, 스피커로부터 마이크로폰에 직접 영향을 미치는 소리를 적게 하기 위해서 스피커폰 동작을 위해 사용되는 스피커를 핸드셋의 배면 부분에 놓을 수 있다. 그러나, 이러한 배치는 스피커에서 얼굴을 돌린 사용자가 소리를 듣기 어렵게 하고, 스피커 에너지의 일부 양은 셀룰러 또는 다른 케이스를 통해 마이크로폰으로 전해질 것이다.

피드백에 대한 다른 해결책은 스피커 경로 및 마이크로폰 경로가 동시에 동작되는 것을 방지하는 것이다. 이러한 단방향형의 동작은 직접 피드백을 불가능하게 하지만, 한방향만으로 통신이 되게 하며, 이는 양쪽 단부의 사용자들이 그들의 이야기의 끝을 신호로 알리고, 응답을 기다리기를 요청한다. 보다 효과적이고 자연스러운 스피커폰 동작이 바람직하다. 다른 문제점들도 존재한다.

당업계의 이러한 문제점 및 다른 문제점들을 극복하는 본 발명은, 한 관점에서는, 대화 음성의 인지되는 품질을 여전히 보존하면서 바람직하지 않은 에코 및 피드백을 감소시키기 위해서 내장 지능이 디바이스의 스피커 경로 및 마이크로폰 경로를 동시에 관리하는 통신 디바이스에서 스피커폰 동작 시스템 및 그 방법에 관한 것이다. 본 발명의 일 실시예에서, 셀룰러 전화기 핸드셋 또는 다른 디바이스와 같은 통신 디바이스는 스피커 경로 및 마이크로폰 경로에서의 신호 에너지 및 다른 특성들을 동시에 모니터링하고, 동적 임계값들 또는 다른 적합한 기준 또는 다른 기준에 기초하여 한 경로 또는 다른 경로에 제어를 부여하기 위해 이중 음성 활동 검출 회로들을 포함할 수 있다. 다른 실시예들에서, 평균 배경 잡음보다 큰 잡음에 의해 야기된 조기 탈락은 마이크로폰 경로로 제어를 이관하기 전에, 최단 간격이 경과할 때까지 스피커 경로를 개방 상태로 유지하는 행타임(hangtime) 파라미터들을 적용시킴으로써 방지될 수 있다. 스피커 경로로부터 마이크로폰 경로로 또는 그 역으로 제어의 변화를 트리거하는데 적용되는 기준은 그것 이하에서는 스피커 경로가 바뀌어 자동적으로 제어가 마이크로폰 경로로 건네지는 낮은 임계값을 제거하는 것을 포함하는 본 발명의 실시예들에서 채택될 수 있다.

본 발명은 첨부한 도면들을 참조하여 기술될 것이며, 동일한 소자들에는 동일한 번호들을 붙였다.

도 1은 본 발명의 일 실시예에 따라, 스피커폰 동작을 포함하는 양방향 통신 플랫폼.

도 2(A) 내지 2(C)는 본 발명의 일 실시예에 따라, 상이한 관점에서 인바운드 및 아웃바운드 음성의 처리를 도시하는 도면.

도 3은 본 발명의 일 실시예에 따라, 스피커폰 제어 동작을 도시하는 도면.

도 4(A) 및 4(B)는 본 발명의 일 실시예에 따라, 상이한 관점에서 인바운드 및 아웃바운드 음성의 처리를 도시하는 도면.

도 5는 본 발명의 일 실시예에 따라, 인바운드 및 아웃바운드 음성 엔벨로프들을 도시하는 도면.

도 6은 본 발명의 일 실시예에 따라, 동적 인바운드 브레이크인 임계값 및 다른 음성 처리를 도시하는 도면.

도 7은 본 발명의 일 실시예에 따라, 동적 브레이크인 임계값 및 다른 음성 처리를 사용하는 인바운드 브레이크인 경우들을 도시하는 도면.

도 8은 본 발명의 일 실시예에 따라, 스피커폰 제어 동작을 도시하는 도면.

도 9(A) 및 9(B)는 본 발명의 일 실시예에 따라, 상이한 관점에서 인바운드 및 아웃바운드 음성의 처리를 도시하는 도면.

도 10(A) 및 10(B)는 본 발명의 일 실시예에 따라, 상입된 행타임을 포함하는 아웃바운드 및 인바운드 경로의 처리를 도시하는 도면.

도 11은 본 발명의 일 실시예에 따라, 스피커폰 제어 동작을 도시하는 도면.

도 12(A) 및 12(B)는 본 발명의 일 실시예에 따라, 상이한 관점에서 인바운드 및 아웃바운드 음성의 처리를 도시하는 도면.

도 13은 잡음이 있는 상태의 종래의 원단(far-end) 처리에 따라, 스피커 경로 활성화를 도시하는 도면.

도 14(A) 및 14(B)는 본 발명의 일 실시예에 따라, 잡음이 있는 상태의 스피커 경로 활성화를 도시하는 도면.

도 1은 본 발명의 일 실시예에 따라 스피커폰 기능을 갖는 통신 디바이스의 아키텍쳐를 예시한다. 도 1에 예시된 디바이스는 예를 들면 셀룰러 전화기 핸드셋, 네트워크 보이스 오버 IP(VoIP) 또는 ISDN 전화기 디바이스와 같은 음성-인에이블된 유선 또는 무선 디바이스, 양방향 무선 통신 디바이스, 모뎀 또는 하이브리드 전화기/모뎀 디바이스, 스피커폰 베이스를 통해 공중 전화 교환망(PSTN)에 접속된 유선 또는 무선 전화기, 또는 다른 통신 디바이스들 또는 플랫폼들일 수 있거나 또는 이들을 포함할 수 있다. 일반적으로, 예시된 아키텍쳐에 따라, 통신 디바이스는 마이크로폰(102) 또는 다른 음향 또는 다른 입력 변환기를 포함하는 마이크로폰 경로(128), 및 스피커(120) 또는 다른 음향 또는 다른 출력 변환기를 포함하는 스피커 경로(130)를 포함할 수 있다. 실시예들에서, 일반적으로, 2개의 변환기들간의 피드백을 방지하기 위해서, 마이크로폰 경로(128) 및 스피커 경로(130) 중 하나만이 동시에 활성화될 수 있다. 다른 실시예들에서는 다른 모드들이 가능하다. 마이크로폰 경로(128)는 때때로 인바운드 또는 근단(near-end) 채널이라 부를 수 있고, 스피커 경로(130)는 아웃바운드 또는 원단(far-end) 채널이라 부를 수 있다.

마이크로폰 경로(128) 내의 마이크로폰(102)은 마이크로폰(102)의 출력을 적절히 올리거나 감쇠시키기 위해서 마이크로폰 이득 제어(104)에 접속될 수 있다. 마이크로폰 이득 제어(104)의 출력은 스피커(120)로부터 마이크로폰(102)에 누설되는 에코를 포함한 임의의 피드백의 일부를 제거하기 위해서 에코 소거기(106)에 통신될 수 있다. 에코 소거기(106)는 예를 들면 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 에코 소거기(106)는 예를 들면 오끼(Oki) 반도체사 또는 다른 제조업체들이 제조한 전용 집적 회로와 같은 시판 부품들을 사용하거나, 또는 모토로라사(Motorola Corp.)가 제조한 DSP 56000 부류와 같은 디지털 신호 처리기에서, 텍사스 인스트루먼츠사(Texas Instruments Inc.) 또는 다른 제조업체들이 제조한 디지털 신호 프로세서들에서 이용가능한 에코 소거기 모듈과 같은 소프트웨어 모듈을 사용하여 구현될 수 있다. 실시예들에서, 에코 소거기(106)는 예를 들면 국제 원격 통신 연합(ITU) 표준 G.165 또는 다른 소거 알고리즘 또는 기술에 관련되거나 포함되는 공지된 에코 소거 알고리즘들을 포함하거나 또는 구현할 수 있다. 실시예들에서, 에코 소거기(106)는 35dB 이상의 에코나 다른 피드백을 감소시킬 수 있지만, 전형적으로 마이크로폰(102)에 의해 발생되는 신호 에 존재하는 피드백 전부를 제거할 수 없다.

에코 소거기(106)의 출력은 무선 전송 또는 다른 전송을 위해서, 음성 입력을 압축하거나 또는 그렇지 않으면 처리하는 음성 인코더(108)에 통신할 수 있다. 음성 인코더(108)는 공지된 음성 압축 또는 예를 들어 ITU G.711, G.723, G.726, G.729과 같은 ITU 표준이나 다른 프로토콜들에 관련되거나 포함되는 알고리즘과 같은 다른 알고리즘을 사용하여 구현될 수 있다. 이러한 표준들 또는 프로토콜들은 예를 들면 8KHz로 샘플링된 2.5ms 프레임의 디지털화된 전화 대역폭 음성 또는 오디오 신호들을 인코딩하는 낮은-지연 코드-여기된 선형 예측(LD-CELP) 음성 코딩 알고리즘, 또는 다른 디지털화 또는 다른 기술들을 포함하거나 또는 구현할 수 있다. 다른 음성 압축/압축 해제(codec) 알고리즘들, 소프트웨어 또는 표준들이 사용될 수 있다. 음성 인코더(108)는 프로그램 가능한 디지털 신호 프로세서들 또는 다른 구성요소들을 사용하는 것을 포함한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 마찬가지로 구현될 수 있다.

음성 인코더(108)에 의해 사용자의 음성 입력이 인코딩된 후, 인코딩된 음성은 모뎀 전송 모듈(110)로 통신될 수 있다. 모뎀 전송 모듈(110)은 예를 들면 800/900 MHz, 1.9GHz 또는 다른 셀룰러, PCS 또는 음성 통신 또는 다른 통신용의 다른 주파수 스펙트럼으로 무선 전송을 생성하는 안테나 또는 다른 공기 또는 다른 인터페이스를 통해 무선 전송 또는 다른 전송용의 인코딩된 신호를 생성할 수 있다.

수신기 측 상에서, 모뎀 수신기 모듈(126)은 무선 캐리어 신호들을 포착하여 다운컨버트 및/또는 복조시키기 위해서, 셀룰러 안테나 또는 무선 주파수(RF) 또는 다른 무선 또는 다른 에너지의 다른 소스에 마찬가지로 결합될 수 있다. 모뎀 수신기 모듈(126)은 복조된 수신 신호를 음성 디코더(124)로 통신할 수 있다. 음성 디코더(124)는 일반적으로 예를 들면 다른 셀룰러 핸드셋 또는 다른 디바이스의 원격 사용자로부터의 원단 음성을 압축 해제하기 위해서, 음성 인코더(108)와는 반대 유형의 동작을 수행할 수 있다. 음성 디코더(124)의 출력은 스피커 이득 제어(122)에 통신되어, 셀룰러 핸드셋 또는 다른 변환기 내의 이어폰 스피커와 같은 스피커(120)를 구동하기 위해서 디코딩된 음성의 증폭 또는 감쇠를 제공한다. 음성 디코더(124)의 출력은 에코 검출 및 소거 처리를 수행하기 위해서 에코 소거기(106)로 통신될 수도 있다.

도 1에 예시된 바와 같은 본 발명의 실시예들에서, 마이크로폰 경로(128) 및 스피커 경로(130)는 각각 통신 디바이스의 스피커폰 동작을 모니터링하고 관리하기 위해 다른 회로에 결합될 수 있다. 보다 상세하게, 에코 소거기(106)의 출력은 인바운드 음성 활동 검출기(VAD)(114)에 통신될 수도 있다. 음성 디코더(124)의 출력은 마찬가지로 아웃바운드 음성 활동 검출기(VAD)(118)로 통신될 수 있다. 인바운드(VAD)(114) 및 아웃바운드(VAD)(118) 각각은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합을 사용하여 구현될 수도 있다. 인바운드(VAD)(114) 및 아웃바운드(VAD)(118)는 예를 들면 각각 마이크로프로세서, 디지털 신호 프로세서 또는 다른 프로세서들을 사용하여 구현될 수 있다. (VAD)(114) 및 (VAD)(118)는 각각 배경 잡음 또는 다른 유형의 잡음과는 반대로, 음성 에너지 엔벨로프, 음성 샘플, 음성 있음 또는 다른 유형의 음성 검출 신호 또는 정보의 존재를 식별하는데 사용되는 기능들을 생성할 수 있다. 인바운드(VAD)(114) 및 아웃바운드(VAD)(118)는 예를 들면 ITU G.711, G.723, G.726, G.729 또는 다른 표준들에 따르거나 또는 그와 관련된 ITU 표준들 또는 다른 표준들에 관련되거나 또는 그에 포함된 것들과 같은 음성 검출 알고리즘들을 수행하도록 프로그램될 수 있다. 인바운드(VAD)(114) 및 아웃바운드(VAD)(118)는 이들 사이의 직접 통신을 허용할 수도록 함께 결합될 수 있다.

각 인바운드(VAD)(114) 및 아웃바운드(VAD)(118)의 출력은 이중 중재기(116)로 통신될 수 있다. 이중 중재기(116)는 스피커폰 및 다른 동작을 강화시키기 위해서 마이크로폰 경로(128), 스피커 경로(130) 및 다른 자원들의 활성화를 중재하고 관리하는 감독 업무들을 수행하기 위해서 마이크로프로세서 또는 디지털 신호 프로세서와 같은 하드웨어를 사용하여 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수도 있다. 이중 중재기(116)는 예를 들면 인바운드(근단, 또는 통신 디바이스를 손에 들고 쓰는 사용자) 음성 에너지는 의미가 있지만 아웃바운드(원단, 또는 멀리 떨어진 사용자) 음성 에너지는 무시될 수 있는 경우에, 예들을 결정할 수 있어, 이중 중재기(116)가 로컬 음성을 포착하도록 마이크로폰 경로(128)를 활성화시킬 수 있는 한편, 원단 사용자는 말하고 있지 않거나 통신하고 있지 않은 것으로 해석되기 때문에, 스피커 경로(130)를 불활성화시키거나 또는 뮤트 상태로 할 수 있다.

반대로, 인바운드 (VAD)(114)에 의해 검출된 인바운드 음성 에너지가 무시될 수 있지만 아웃바운드 (VAD)(118)에 의해 검출된 아웃바운드 음성 에너지는 의미가 있는 경우에, 이중 중재기(116)는 원단 사용자의 음성이 스피커(120)를 통해 들릴 수 있도록, 마이크로폰 경로(128)를 불활성화시키는 한편, 스피커 경로(130)를 활성화시킬 수 있다.

다른 한편, 인바운드(VAD)(114) 및 아웃바운드(VAD)(118) 모두가 이들 각각의 경로내에서 의미 있는 음성 에너지를 검출하는 기간 동안, 이중 중재기(116)는 어떤 경로를 활성화시킬지 결정하기 위해서 선택적 기준을 적용할 수 있다. 도 2(A) 내지 2(C)에 예시된 바와 같이, 인바운드(VAD)(114)(도 2(B)) 및 아웃바운드(VAD)(118)(도 2(A)) 모두가 이들 각각의 검출 임계값들보다 큰 음성 에너지 및 를 검출하고, 게이트 기능으로서 도시된 음성 검출 신호를 포함한 이중 중재기(116)의 존재를 검출한 경우 간격이 발생할 수 있다.

도 2(C)에 예시된 바와 같이, VAD 신호들 모두가 활성화될 때, 이중 중재기(116)는 한 경로 또는 다른 경로를 활성화시킬지를 선택할 수 있다. 이 도면에 예시된 바와 같이, 실시예들에서, 이중 중재기(116)는 추정되는 음성 신호에 의해 나타나는 에너지의 절대값이 아웃바운드 (VAD)(118)의 출력보다 작더라도, 음성이 마이크로폰(102)에서 인지되는 경우, 제어를 마이크로폰 경로(128)(인바운드 채널)로 옮길 수 있다. 사용자가 마이크로폰(102)의 근처에서 보통 음성으로 말하더라도, 마이크로폰 경로(128)내의 음성 내용의 에너지가 전형적으로 스피커 경로(130)내의 음성 내용의 에너지보다 상당히 적을 수 있기 때문에, 이러한 결정 기준이 적용될 수 있고, 그 세기는 단지 셀룰러 핸드셋 또는 다른 디바이스가 사용자로부터 멀리 떨어진 장소에 놓일 때만 감소한다.

이러한 유형의 동작은 대화 중에 근단 사용자의 음성과 원단 사용자의 음성 사이의 변환을 이음매 없이 허용할 수 있고, 채널 록아웃과 같은 아티팩트들을 방지할 수 있다. 실시예들에서, 예시된 바와 같이, 이중 중재기(116)는 하드웨어, 소프트웨어 또는 펌웨어 또는 이들의 조합으로 구현될 수 있는 통신 잡음 발생 및 치환 모듈(112)과 통신할 수도 있다. 통신 잡음 발생 및 치환 모듈(112)은 경로의 전환 중 백색 잡음 또는 다른 비교적 쾌적한 또는 무해한 소리들을 출력하여 마이크로폰 경로(128) 및 스피커 경로(130) 모두가 뮤트 상태가 되었을 경우 또는 다른 시점과 같은 데드 스폿을 출력하기 위해서, 마이크로폰 이득 제어(104) 및 스피커 이득 제어(122)와 통신할 수도 있다. 다른 실시예들에서 또는 다른 조건들 하에서, 이중 중재기(116)는 결정 처리를 위해 사용되는 상이한 고정 또는 동적 기준 하에서 마이크로폰 경로(128) 또는 스피커 경로(130)로 제어를 부여할 수 있다.

도 3에 예시된 실시예에서, 예를 들면 마이크로폰 경로(128)에 제어를 부여하기 위해 사용되는 임계값은 음성 인코더에 의해 발생되는 에너지 및 다른 파라미터들에 기초하여 동적으로 계산될 수 있다. 단계(302)에서, 처리가 시작될 수 있다. 단계(304)에서, 마이크로폰(102)으로부터의 마이크로폰 샘플들 및 스피커(120)로부터의 스피커 샘플들이 에코 소거기(106)로 통신될 수 있다. 단계(306)에서, 음성 인코더(108)는 에코 소거기(106)의 출력을 처리할 수 있다. 단계(308)에서, 스피커 경로(130)를 뮤트 상태로 두면서 "ib_break_in_thresh"라고 불리며 마이크로폰 경로(128)에 제어를 부여하는 것을 결정하기 위해서 사용되는 브레이크-인(break-in) 임계값은 현재의 이산적인 음성 프레임(n)에 대한 아웃바운드 음성(또는 스피커) 에너지 및 음성 인코더 파라미터들에 기초하여 동적으로 계산될 수 있다. 실시예들에서, 그러한 계산은 다음 계산들이거나 또는 그것을 포함할 수 있다:

알고리즘 1

여기서: ob_r0(n)= 프레임 n에 대한 아웃바운드 음성 에너지;

n = 현재 음성 프레임

β= 에너지 스칼라; 및

α= 감쇠 속도

단계(310)에서, 음성 인코더(108)의 출력은 실시예들에서는 인바운드(VAD)(114)와 통합될 수 있거나 인바운드(VAD)(114)에 인터페이스될 수 있는 인바운드 음성 엔벨로프 발생기(132)에 통신될 수 있다. 인바운드 음성 엔벨로프 발생기(132)는 마이크로폰 경로(128)의 신호의 이동 평균 또는 음성 에너지의 다른 표시와 같은 음성 에너지를 나타내는 이동 엔벨로프를 생성할 수 있다. 또한 아웃바운드(VAD)(118)와 통합될 수 있거나 아웃바운드(VAD)(118)에 인터페이스될 수 있는 아웃바운드 음성 엔벨로프 발생기(134)는 마찬가지로 스피커 경로(130)의 신호에 기초하여 엔벨로프 출력을 생성할 수 있다.

단계(312)에서, 결과로 얻어진 음성 엔벨로프는 현재 인바운드 브레이크-인 임계값(ib_break_in_thresh)과 비교될 수 있다. 인바운드 음성의 엔벨로프가 그러한 임계값을 초과하는 경우, 처리는 이중 중재기(116)가 스피커 경로(130)를 뮤트 상태로 하고, 마이크로폰 경로(128)를 활성화시키거나 또는 비뮤트 상태로 하여 근단 사용자의 음성이 포착되고, 원단 사용자로 통신될 수 있게 하는 단계(314)로 진행된다. 인바운드 음성의 엔벨로프가 인바운드 브레이크-인 임계값(ib_break_in_thresh)을 초과하지 않는 경우, 처리는 시간의 현재 프레임에 대한 처리가 종료될 수 있고, 그에 이어 처리가 반복될 수 있고, 다른 업무들로 진행되거나 또는 종료될 수 있는 단계(316)로 진행된다.

도 4(A) 및 4(B)는 각각 도 3에 예시된 실시예에 따라 생성되는 스피커 샘플들 및 에코-소거된 마이크로폰 샘플들을 예시한다. 도 5는 그러한 실시예에 따라 생성되는 인바운드 및 아웃바운드 신호들을 위한 예시적인 음성 엔벨로프를 예시한다. 이 도면에 예시된 바와 같이, 몇몇 시점에서는 인바운드 신호가 아웃바운드 신호를 초과할 수 있지만, 다른 시점에서는, 아웃바운드 신호가 인바운드 신호보다 크게 될 수 있다.

도 6은 예시적인 인바운드 동적 브레이크-인 임계값에 대한 아웃바운드(스피커 경로(130)) 음성 에너지의 오버레이, 및 비교를 위해 역시 도시된 고정 인바운드 브레이크-인 임계값을 예시한다. 그 도면에 예시된 바와 같이, 인바운드 브레이크-인 임계값은 알고리즘 1의 파라미터들의 동적 함수를 형성할 수 있거나, 또는 그렇지 않으면, 적어도 일부는 인바운드 음성이 경합하는 아웃바운드 음성 에너지를 추적하는 시변 임계값을 초래한다. 따라서, 아웃바운드 음성 에너지가 비교적 높은 간격 동안, 인바운드 브레이크-인 임계값은 비교적 높은 플라토우(plateau)까지 상승하고, 채널을 포착하기 위해서 마이크로폰(102)에서의 근단 음성의 세기를 더욱 커지게 한다. 반대로, 인바운드 브레이크-인 임계값은 아웃바운드 음성 에너지가 감소하는 기간 동안 이완될 수 있어, 비교적 유연한 근단 음성은, 고정 임계값 시도와 달리, 마이크로폰 경로(128)를 활성화시킬 수 있다.

도 7은 인바운드 음성 엔벨로프, 인바운드 브레이크-인 동적 임계값 및 도 3에 나타낸 실시예에 따라 생성된 인바운드 브레이크-인의 예를 예시한다. 이 도면에 예시된 바와 같이, 인바운드 브레이크-인의 예들은 결과적으로 비교적 조용한 아웃바운드 채널이 인바운드 브레이크-인 임계값을 낮은 레벨로 구동하여 마이크로폰 경로(128)가 채널이 거의 에너지가 없는 음성조차 적절히 포착할 수 있도록 하는 기간 동안에 발생할 수 있다.

인코딩된 음성이 변동이 많거나 또는 진폭의 큰 진동 또는 다른 아티팩트들을 포함할 때, 그러한 경우에, 이러한 입력들은 마이크로폰 경로(128)와 스피커 경로(130) 사이의 급속한 전환을 유발할 수 있거나, 또는 다른 "레이스" 또는 다른 바람직하지 못한 상태들을 유발할 수 있다. 도 8에 예시된 본 발명의 실시예에서, 이중 중재기(116) 및 다른 협력 구성요소들은 마이크로폰 경로(128)로부터 스피커 경로(130)로 또는 그 역으로 제어를 옮길 수 있게 하기 전에, 지연 간격 또는 행타임을 삽입할 수 있다. 행타임의 도입은 근단 및 원단 음성 중 하나 또는 이들 모두가 급속히 변화하는 진폭들을 포함할 때 그러한 레이스 상태들을 방지하도록 작용할 수 있다.

도 8에 도시된 바와 같이, 단계(802)에서 처리가 시작될 수 있다. 단계(804)에서, 마이크로폰(102)으로부터의 근단 샘플들은 음성 인코더(108)에 의해 처리될 수 있다. 단계(806)에서, 원단 사용자로부터의 아웃바운드 음성은 음성 디코더(124)에 의해 처리될 수 있다. 단계(808)에서, 에코 소거기(106)는 에코 및 다른 피드백 아티팩트들을 억제하기 위해서, 음성 인코더(108) 및 음성 디코더(124)의 출력들을 수신할 수 있다. 단계(810)에서, 에코-소거된 인바운드 음성 및 디코딩된 아웃바운드 음성은 각각 음성 에너지 엔벨로프들 또는 다른 함수들을 생성하기 위해서, 인바운드 음성 엔벨로프 발생기(132) 및 아웃바운드 음성 엔벨로프 발생기(134)로 통신될 수 있다.

단계(812)에서, 예를 들면 도 3에 예시된 실시예에 따라 또는 다른 방식으로 인바운드 브레이크-인 임계값(ib_break_in_threshold) 및 아웃바운드 브레이크-인 임계값(ob_break_in_threshold)이 발생될 수 있다. 단계(814)에서, 인바운드 행타임(ib_hang_time) 및 아웃바운드 행타임(ob_hang_time) 중 적어도 하나는 감소될 수 있거나 또는 통신 디바이스가 시동(startup) 또는 리셋 동작과 같은 초기화 모드에 있는 경우 초기값들로 설정될 수 있다. 단계(816)에서, 스피커 경로(130)가 활성화되는지 여부에 대한 결정이 이루어질 수 있다. 스피커 경로(130)가 활성화되지 않은 경우, 처리는 마이크로폰 경로(128)가 활성화되는지 여부에 대한 결정이 이루어질 수 있는 단계(818)로 진행될 수 있다.

마이크로폰 경로(128)가 활성화되지 않은 경우, 처리는 마이크로폰 경로(128)가 활성화될 수 있거나 또는 비뮤트 상태가 될 수 있는 한편, 스피커 경로(130)는 불활성화될 수 있거나 또는 뮤트 상태가 될 수 있는 단계(822)로 진행될 수 있다. 단계(822) 후, 제어는 현재 프레임에 대한 처리가 종료될 수 있는 단계(840)로 진행될 수 있고, 그 후 처리가 반복될 수 있거나, 또는 다른 업무들로 진행되거나 또는 종료된다.

단계(818)에서의 결정이 마이크로폰 경로(128)이 작동하고 있다고 하는 경우, 처리는 아웃바운드 음성 엔벨로프(ob_env)가 아웃바운드 브레이크-인 임계값(ob_break_in_threshold)보다 큰지에 대한 결정이 이루어지는 단계(820)로 진행될 수 있다. 아웃바운드 음성 엔벨로프(ob_env)가 아웃바운드 브레이크-인 임계값(ob_break_in_threshold)보다 큰 경우, 처리는 인바운드 행타임(ib_hang_time)이 만료되었는지에 대한 결정이 이루어지는 단계(824)로 진행될 수 있다. 인바운드 행타임(ib_hang_time)이 만료되지 않은 경우, 처리는 다시 마이크로폰 경로(128)가 활성화되거나 비뮤트 상태로 될 수 있는 한편, 스피커 경로(130)가 불활성화되거나 또는 뮤트 상태로 될 수 있는 단계(822)로 진행될 수 있다.

단계(824)에서, 인바운드 행타임(ib_hangtime)이 만료된 경우, 처리는 아웃바운드 행타임(ob_hangtime)이 스피커 경로(130)에 대해서 행타임 주기를 시작하도록 설정될 수 있는 단계(826)로 진행될 수 있다. 아웃바운드 행타임(ob_hangtime)은 예를 들면 4초 또는 실시예에 따른 다른 값과 같은 일정 양의 시간으로 설정될 수 있다. 실시예들에서, 아웃바운드 행타임은 예를 들면 이전의 인바운드 또는 아웃바운드 행타임들, 인바운드 또는 아웃바운드 경로들내에서 검출된 음성 에너지 또는 다른 변수들의 함수로서 동적으로 계산될 수 있거나 또는 설정될 수 있다. 단계(828)에서 마이크로폰 경로(128)는 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 한편, 스피커 경로(130)는 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있고, 그 후 제어는 시간의 현재 프레임에 대한 처리를 종료할 수 있는 단계(840)로 진행될 수 있고, 그에 이어 처리는 반복될 수 있거나, 다음 업무들로 진행될 수 있거나 또는 종료된다.

단계(820)에서 아웃바운드 음성 엔벨로프(ob_env)가 아웃바운드 브레이크-인 임계값(ob_break_in_threshold)을 초과하지 않는 것으로 결정된 경우, 처리는 마이크로폰 경로(128)가 다시 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있는 한편, 스피커 경로(130)가 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 단계(822)로 진행될 수 있다. 이어서, 제어는 시간의 현재 프레임에 대한 처리가 종료될 수 있는 단계(840)로 진행될 수도 있고, 그에 이어 처리는 반복될 수 있거나, 다른 업무들로 진행될 수 있거나 또는 종료될 수 있다.

단계(816)에서 스피커 경로(130)가 작동하고 있다고 판단된 경우, 처리는 인바운드 엔벨로프(ib_envelope)가 인바운드 브레이크-인 임계값 (ib_break_in_threshold)을 초과하는지에 대한 결정이 이루어질 수 있는 단계(830)으로 진행될 수 있다. 인바운드 엔벨로프(ib_envelope)가 인바운드 브레이크-인 임계값 (ib_break_in_threshold)을 초과하지 않는 경우, 처리는 스피커 경로(130)가 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있는 한편, 마이크로폰 경로(128)가 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 단계(832)로 진행될 수 있다. 그러한 단계에 이어, 제어는 시간의 현재 프레임에 대한 처리가 종료될 수 있는 단계(840)로 진행될 수도 있고, 그에 이어 처리는 반복될 수 있거나, 다른 업무들로 진행될 수 있거나 또는 종료될 수 있다.

단계(830)에서 인바운드 엔벨로프(ib_envelope)가 인바운드 브레이크-인 임계값 (ib_break_in_threshold)을 초과한다는 결정이 이루어진 경우, 처리는 아웃바운드 행타임(ob_hangtime)이 만료되었는지 여부에 대한 결정이 이루어질 수 있는 단계(834)로 진행될 수 있다. 아웃바운드 행타임(ob_hangtime)이 만료되지 않은 경우, 처리는 마찬가지로 스피커 경로(130)가 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있는 한편, 마이크로폰 경로(128)가 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 단계(832)로 진행될 수 있다.

단계(834)에서, 아웃바운드 행타임(ob_hangtime)이 만기되었다는 결정이 이루어진 경우, 처리는 인바운드 행타임이 4초 또는 실시예에 따른 다른 값과 같은 일정량의 시간으로 설정될 수 있는 단계(836)로 진행될 수 있다. 실시예들에서, 인바운드 행타임은 예를 들면 이전의 인바운드 또는 아웃바운드 행타임들, 인바운드 또는 아웃바운드 경로들내에서 검출된 음성 에너지 또는 다른 변수들의 함수로서 동적으로 계산될 수 있거나 또는 설정될 수 있다. 이어서, 처리는 스피커 경로(130)가 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 한편, 마이크로폰 경로(128)가 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있는 단계(838)로 진행될 수 있다. 그 단계 후, 제어는 시간의 현재 프레임에 대한 처리를 종료할 수 있는 단계(840)로 진행될 수 있고, 그에 이어 처리는 반복될 수 있거나, 다음 업무들로 진행될 수 있거나 또는 종료된다.

도 8에 예시된 본 발명의 실시예에서, 마이크로폰 경로(128) 또는 스피커 경로(130)로의 제어의 부여는 따라서 1개 이상의 기준에 의존할 수 있다. 이러한 기준은 음성 엔벨로프 임계값들의 초과를 포함할 수 있지만, 다른 경로에서의 활성과 무관하게 현재 활성 경로가 제어될 수 있는 동안의 행타임을 삽입시킬 수 있다. 인바운드 및 아웃바운드 행타임들은 실시예들에서 고정되거나 또는 동적일 수 있고, 상태들에 따라 증가되거나 또는 감소될 수 있다. 예를 들면, 잡음 또는 다른 파라미터들을 증가시키는 기간 동안, 행타임들 중 하나 또는 모두가 증가될 수 있거나, 또는 잡음 또는 다른 파라미터들을 감소시키는 기간 동안, 행타임들 중 하나 또는 모두가 감소될 수 있다. 음성 또는 다른 상호 작용에서의 보다 큰 연속성이 그에 따라 달성될 수 있다.

도 9(A)는 스피커(120)로부터의 음성 샘플들을 예시하고, 도 9(B)는 도 8에 예시된 실시예에 따라 한 관점에서 처리될 수 있는 마이크로폰(102)으로부터의 음성 샘플들을 예시한다. 도 10(A)는 아웃바운드 브레이크-인 임계값 (ob_break_in_threshold)과 함께 결과의 아웃바운드 음성 엔벨로프(ob_env)를 예시한다.

도 10(A)는 마이크로폰 경로(128)내의 활기 있는 음성의 존재에서 불구하고, 스피커 경로(130)가 제어 유지될 수 있고 계속 활성화될 수 있는 동안의 아웃바운드 행타임(ob_hangtime) 간격의 적용을 예시한다. 반대로, 도 10(B)는 인바운드 브레이크-인 임계값(ib_break_in_threshold)과 함께 인바운드 음성 엔벨로프(ib_env)를 예시한다. 도 10(B)는 또한 스피커 경로(130) 내의 활기 있는 음성의 존재에도 불구하고 마이크로폰 경로(128)가 제어 유지될 수 있고 계속 활성화될 수 있는 인바운드 행타임(ib_hangtime) 간격의 적용을 예시한다. 이들 지연 간격들의 도입은 스피커폰 동작 동안 근단 및 원단 사용자들에 대한 연속성의 각각을 증가시킬 수 있다.

예를 들면 도시 지역들과 같은 특히 잡음이 많은 환경에서, 잡음이 많은 음성 메시지를 재생하는 동안 또는 다른 시간에, 자동차 창문을 열면, 꽤 명료한 음성이 존재하더라도 마찰음들 또는 다른 신호 성분들이 스피커 경로(130)를 뮤트 상태가 되게 트리거하는 경향이 있을 수 있다. 이는 한 관점에서, 원단 사용자의 입력이 잡음으로 저하될 때 스피커 경로(130)를 오프로 하도록 통상적으로 의도되는 아웃바운드 뮤팅 임계값의 혼선으로 인해 이루어질 수 있다. 도 11에 예시된 본 발명의 일 실시예에서, 이러한 효과는 한 관점에서 아웃바운드 오프 임계값(ob_off_threshold)을 제거하고, 스피커 경로(130)를 임계값보다 작게 오프하도록 구성하기보다는 오히려 마이크로폰 경로(128)가 활기있는 음성을 포함할 때까지 스피커 경로(130)가 채널을 점유하도록 허용함으로써 해결될 수 있다.

이 도면에 도시된 바와 같이, 처리는 단계(1102)에서 시작할 수 있다. 단계(1104)에서, 마이크로폰(102)으로부터의 근단 샘플들은 음성 인코더(108)에 의해 처리될 수 있다. 단계(1106)에서, 원단 사용자로부터의 아웃바운드 음성은 음성 디코더(124)에 의해 처리될 수 있다. 단계(1108)에서, 에코 소거기(106)는 음성 인코더(108) 및 음성 디코더(124)의 출력들을 수신하여 에코 및 기타 피드백 아티팩트들을 억제할 수 있다. 단계(1110)에서, 에코-소거된 인바운드 음성 및 디코딩된 아웃바운드 음성은 인바운드 음성 엔벨로프 발생기(132) 및 아웃바운드 음성 엔벨로프 발생기(134) 각각으로 통신되어 음성 에너지 엔벨로프들 또는 다른 함수들을 발생시킬 수 있다.

단계(1112)에서, 인바운드 온 임계값(ib_on_threshold) 및 아웃바운드 온 임계값(ob_on_threshold)은 예를 들면 도 3에 예시된 실시예에 따라 발생될 수 있다. 단계(1114)에서, 이중 중재기(1116)는 경로들의 현재 음성 엔벨로프들에 따라, 마이크로폰 경로(128) 또는 스피커 경로(130)를 잠그기 위해 제어 로직을 적용시킬 수 있다.

단계(1116)에서, 아웃바운드 엔벨로프(ob_env)가 아웃바운드 온 임계값(ob_on_threshold)을 초과하는지에 대한 결정이 이루어진다. 아웃바운드 엔벨로프(ob_env)가 아웃바운드 온 임계값(ob_on_threshold)을 초과하지 않는 경우, 처리는 인바운드 엔벨로프(ib_env)가 인바운드 온 임계값(ib_on_threshold)을 초과하는지 여부에 대한 결정이 이루어지는 단계(1118)로 진행될 수 있다. 인바운드 엔벨로프(ib_env)가 인바운드 온 임계값을 초과하는 경우, 처리는 스피커 경로(130)가 잠겼는지 여부, 즉, 무선 셀룰러 또는 다른 접속과 같은 통신 채널을 현재 제어하고 있는지 여부에 대한 결정이 이루어지는 단계(1120)로 진행될 수 있다. 스피커 경로(130)가 잠긴 경우, 마이크로폰 경로(128) 및 스피커 경로(130)의 상태는 단계(1102)에서 처리의 시작으로부터 변화되지 않은 상태로 둘 수 있고, 제어는 현재 프레임에 대한 처리가 종료될 수 있는 단계(1128)로 진행될 수 있고, 그 후 처리는 반복될 수 있거나, 또는 다른 업무들로 진행되거나 또는 종료된다.

단계(1120)에서의 결정이 스피커 경로(130)가 잠겨 있지 않다고 하는 경우, 처리는 스피커 경로(130)가 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 한편, 마이크로폰 경로(128)가 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있는 단계(1122)로 진행될 수 있다. 이어서, 처리는 마찬가지로 반복을 위해 단계(1128)로 진행될 수 있거나, 다른 업무들로 진행될 수 있거나, 또는 종료될 수 있다.

단계(1118)에서의 결정이 인바운드 엔벨로프(ib_env)가 인바운드 온 임계값(ib_on_threshold)을 초과하지 않는다고 하는 경우, 처리는 반복을 위해 단계(1128)로 진행될 수 있거나, 다른 업무들로 진행될 수 있거나, 또는 종료될 수 있다.

단계(1116)에서의 결정이 아웃바운드 엔벨로프(ob_env)가 아웃바운드 온 임계값(ob_on_threshold)을 초과한다고 하는 경우, 처리는 마이크로폰 경로(128)가 잠겼는지 여부에 대한 결정이 이루어지는 단계(1124)로 진행될 수 있다. 마이크로폰 경로(128)가 잠기지 않은 경우, 제어는 스피커 경로(130)가 활성화될 수 있거나 또는 비뮤트 상태로 될 수 있는 한편, 마이크로폰 경로(128)가 불활성화될 수 있거나 또는 뮤트 상태로 될 수 있는 단계(1126)로 진행될 수 있다. 이어서, 처리는 반복을 위해 단계(1128)로 진행될 수 있거나, 다른 업무들로 진행될 수 있거나, 또는 종료될 수 있다. 마찬가지로, 단계(1124)에서 결정이 마이크로폰 경로(128)가 잠겼다고 하는 경우, 마이크로폰 경로(128) 및 스피커 경로(130)의 상태는 단계(1102)에서 처리 상태로부터 변화되지 않은 상태로 둘 수 있고, 제어는 반복을 위해 단계(1128)로 진행될 수 있거나, 다른 업무들로 진행될 수 있거나, 또는 종료될 수 있다.

도 12(A)는 마찰음들 및 디른 잡음 성분들을 포함하는 스피커(120)로부터의 샘플들을 예시하고, 도 12(B)는 예를 들면 도 11에 예시된 실시예에 따라 함께 처리될 수 있는 마이크로폰(102)으로부터의 샘플들을 동시에 예시한다. 도 13은 마찰음 및 다른 잡음 아티팩트들로 인해 온 상태와 오프 상태 사이의 스피커 경로(130)의 고속 전환을 포함하여, 본 발명의 이점 없이 그러한 신호들에 따라 동작될 때 발생할지도 모르는 스피커폰 제어를 예시한다.

도 14(A)는 다른 한편으로 스피커 경로(130)가 일부는 아웃바운드 오프 임계값이 제거되기 때문에, 비교적 잡음이 많은 배경 주기 동안에서조차 채널의 제어를 유지하고, 스피커 경로(130)가 활성 상태를 유지하도록 할 수 있는 도 11에 예시된 본 발명의 실시예에 따른 결과의 스피커폰 동작을 예시한다. 변동이 많거나 또는 중단된 전환 대신에, 마이크로폰 경로(128)가 도 14(B)에 예시된 바와 같이, 인바운드 온 임계값을 초과하는 활기 있는 음성으로 인해 채널의 제어를 적절히 중단할 때까지 스피커 경로는 활성화되게 남겨 진다. 보다 원만하고 보다 연속적인 대화가 결과로 얻어진다.

본 발명에 따른 스피커폰 동작 시스템 및 그 방법에 대한 상기 설명이 예시되었으며, 구성의 변화들 및 구현이 당업계의 숙련자들에게 발생할 것이다. 예를 들면, 본 발명은 일반적으로 인바운드(VAD)(114) 및 아웃바운드(VAD)(118)의 형태로 이산적인 음성 검출기들을 포함하는 것으로서 기재되어 있지만, 실시예들에서 2개의 음성 활동 검출기들의 기능들 또는 이들 기능들의 일부는 하나의 부분 내에 또는 하나의 소프트웨어 모듈 내에 조합될 수 있다. 2개 이상의 경로들이 본 발명에 따라 관리될 수도 있다. 마찬가지로, 본 발명은 에코 소거기(106)를 포함하는 인바운드 경로에 관련하여 기재하였지만, 실시예들에서 다른 유형의 잡음 억제기들이 구현될 수 있거나, 또는 실시예들에서 구성요소들이 누락되거나 또는 변형될 수 있다.

마찬가지로 본 발명이 작동시킬 수 있는 통신 디바이스는 셀룰러 전화기이거나 또는 이를 포함할 수 있지만, 유선 또는 무선 전화기들, 양방향 무선들, 무선 전화기들을 위한 기지국, 802.11a, 802.11b, 802.11g와 같은 네트워크-인에이블된 무선 통신 디바이스들, 또는 다른 단거리 또는 장거리 전화 통신 또는 다른 유닛들, 또는 다른 장비와 같은 다른 통신 플랫폼들로 구성될 수 있음에 주의해야 한다.

더욱이, 본 발명은 일반적으로 스피커폰 동작을 통솔하는 전자 지능이 셀룰러 전화기 또는 다른 통신 디바이스와 통합되는 스피커폰 아키텍쳐에 의해 기재되어 있지만, 다른 실시예들에서 지능이 통신 디바이스에 결합된 부착물 내에 내장될 수 있거나 또는 공유될 수 있다. 예를 들면, 지능은 분리 가능한 배터리, 헤드폰 디바이스, 테이블탑 또는 다른 고정되거나 또는 비착용형 스피커폰 유닛 내에 또는 다른 악세서리들 또는 부품들 내에 내장될 수 있거나 또는 공유될 수 있다. 예를 들면, 지능은 셀룰러 전화기에 결합된 차량 오디오 시스템을 통해 스피커폰을 동작시킬 수 있다.

통신 디바이스에 스피커폰 기능을 부가하거나 또는 강화시키는 분리 가능하거나 또는 결합 가능한 유닛의 경우에, 애드-온(add-on) 디바이스에 내장된 지능은 RS-232와 작은 직렬 포트, 범용 직렬 버스(USB), 또는 범용 비동기 수신기/송신기(UART) 접속, 적외선 데이터(IrDA) 포트, 무선 주파수 링크 또는 다른 직렬, 병렬 또는 다른 데이터 포트들 또는 다른 접속들과 같은 인터페이스들을 통해 통신 디바이스의 전자 장치들과 통신할 수 있다. 그러므로, 본 발명의 범위는 다음 특허 청구의 범위에 의해서만 제한되도록 의도된다.

Claims

통신 디바이스에서 스피커폰 동작을 관리하는 시스템에 있어서:

상기 통신 디바이스의 인바운드 경로와 통신하도록 구성되고, 상기 인바운드 경로 내의 신호에 기초하여 적어도 제 1 음성 데이터를 생성하는 제 1 음성 활동 검출기;

상기 통신 디바이스의 아웃바운드 경로와 통신하도록 구성되고, 상기 아웃바운드 경로 내의 신호에 기초하여 적어도 제 2 음성 데이터를 생성하는 제 2 음성 활동 검출기; 및

상기 제 1 음성 활동 검출기 및 상기 제 2 음성 활동 검출기와 통신하고, 상기 제 1 음성 데이터 및 상기 제 2 음성 데이터 중 적어도 하나에 기초하여 상기 인바운드 경로 및 상기 아웃바운드 경로 중 적어도 하나를 제어하는 프로세서를 포함하며,

상기 제 1 음성 데이터는 제 1 음성 에너지 신호, 이동 평균인 제 1 음성 엔벨로프, 제 1 음성 샘플, 및 제 1 음성 존재 신호 중 적어도 하나를 포함하며,

상기 제 2 음성 데이터는 제 2 음성 에너지 신호, 이동 평균인 제 2 음성 엔벨로프, 제 2 음성 샘플, 및 제 2 음성 존재 신호 중 적어도 하나를 포함하는, 스피커폰 동작 관리 시스템.
제 1 항에 있어서,

상기 통신 디바이스는 셀룰러 전화기, 음성-인에이블 네트워크 디바이스 및 전화기 디바이스 중 적어도 하나를 포함하는, 스피커폰 동작 관리 시스템.
삭제
삭제
제 1 항에 있어서,

상기 프로세서에 의해 수행되는 제어는 상기 제 1 음성 데이터와 제 2 음성 데이터의 비교에 기초하여 통신 채널의 제어를 상기 인바운드 경로 및 상기 아웃바운드 경로 중 하나에 부여하는 것을 포함하는, 스피커폰 동작 관리 시스템.
제 5 항에 있어서,

상기 통신 채널은 무선 통신 채널을 포함하는, 스피커폰 동작 관리 시스템.
삭제
통신 디바이스에서 스피커폰 동작을 관리하는 시스템에 있어서:

상기 통신 디바이스의 인바운드 경로와 통신하도록 구성되고, 상기 인바운드 경로 내의 신호에 적용된 적어도 제 1 음성 임계값에 기초하여 적어도 제 1 음성 검출 신호를 생성하는 제 1 음성 활동 검출기;

상기 통신 디바이스의 아웃바운드 경로와 통신하도록 구성되고, 상기 아웃바운드 경로 내의 신호에 적용된 적어도 제 2 음성 임계값에 기초하여 적어도 제 2 음성 검출 신호를 생성하는 제 2 음성 활동 검출기; 및

상기 제 1 음성 활동 검출기 및 상기 제 2 음성 활동 검출기와 통신하고, 적어도 상기 제 1 음성 검출 신호 및 상기 제 2 음성 검출 신호의 비교에 기초하여 상기 인바운드 경로 및 상기 아웃바운드 경로 중 적어도 하나를 제어하는 프로세서를 포함하며,

상기 제 1 음성 검출 신호는 나타날 수 있는(assertable) 제 1 음성 존재 신호를 포함하고, 상기 제 2 음성 검출 신호는 나타날 수 있는 제 2 음성 존재 신호를 포함하며,

상기 나타날 수 있는 제 1 음성 존재 신호는 제 1 음성 신호 에너지와 이동 평균인 제 1 음성 신호 엔벨로프 중 적어도 하나를 제 1 동적 음성 임계값과 비교함으로써 생성되고,

상기 나타날 수 있는 제 2 음성 존재 신호는 제 2 음성 신호 에너지와 이동 평균인 제 2 음성 신호 엔벨로프 중 적어도 하나를 제 2 동적 음성 임계값과 비교함으로써 생성되는, 스피커폰 동작 관리 시스템.
삭제
삭제