KR100884425B1

KR100884425B1 - 외부 오디오 품질이 개선된 스피커폰을 제공하는 방법 및 전화

Info

Publication number: KR100884425B1
Application number: KR1020077004514A
Authority: KR
Inventors: 마크 에이. 보일롯; 알리 베흐부디안; 프래틱 브이. 데사이
Original assignee: 모토로라 인코포레이티드
Priority date: 2004-08-25
Filing date: 2005-08-23
Publication date: 2009-02-19
Also published as: KR20070032084A

Abstract

전화가 스피커폰 모드에서 동작할 때 외부 오디오를 제공하기 위한 전화(310) 및 방법이 제공된다. 제1 유닛 타입 식별자(360)를 포함하는 제1 데이터 유닛(350)은 전화에 의해 수신될 수 있다. 제1 유닛 타입 식별자는 제1 데이터 유닛내에 포함된 오디오 데이터의 타입의 지시자일 수 있다. 예컨대, 제1 유닛 타입 식별자는 오디오 데이터가 음악 또는 비음악 오디오 데이터인지를 나타낼 수 있다. 제1 유닛 타입 식별자가 예컨대 오디오 데이터가 음악 데이터인 것을 나타내는 값인 제1 값을 가진다면, 제1 데이터 유닛으로부터 재생된 언뮤팅된 외부 오디오가 제공될 수 있고, 음성 활성 검출이 디스에이블될 수 있다. 또한, 외부 오디오가 뮤팅될 수 있다.

전화, 스피커폰, 오디오 트랜스듀서, 무선통신 네트워크, 보코더

Description

외부 오디오 품질이 개선된 스피커폰을 제공하는 방법 및 전화{METHOD AND TELEPHONE FOR PROVIDING SPEAKERPHONE HAVING IMPROVED OUTBOUND AUDIO QUALITY}

본 발명은 일반적으로 전화에 관한 것으로, 특히, 스피커폰의 기능을 갖는 전화에 관한 것이다.

모바일 전화는 종종 사용자가 헤드셋의 사용없이 핸드-프리 구성으로 전화를 사용할 수 있는 스피커폰 모드를 포함한다. 모바일 전화가 스피커폰 모드에 있을 때, 그 입력 오디오 트랜스듀서의 감도는 증가한다. 전화의 출력 오디오 트랜스듀서의 출력 레벨 역시 증가한다. 따라서, 사용자는 전화가 단거리에 떨어져 배치될지라도 전화를 통해 계속 통신할 수 있다.

전화의 출력 트랜스듀서로부터의 외부(outbound) 오디오가 전화의 입력 트랜스듀서로 피드백되며 이에 따라 원 오디오 소스에 피드백되는 것을 방지하기 위하여, VAD(voice activity detector)는 음성 패턴이 출력 오디오 트랜스듀서에 의해 재생중일 때 전화의 입력 오디오를 뮤트(mute)시키는데 전형적으로 사용된다. 음성 패턴이 외부 오디오에 존재하지 않을 때에는, 전화 사용자가 통화를 시작하고 있다고 예상된다. 이에 따라, VAD는 그 후 입력 오디오를 언뮤트(unmute)하고 외부 오디오를 뮤트한다.

외부 오디오의 뮤팅 및 언뮤팅(muting and unmuting)이, 음성 패턴이 외부 오디오에 존재하는지의 여부에 달려있기 때문에, VAD는 통화자가 통화를 중지하고 대답을 대기할 때 이에 포함된 음성 패턴과 사일런트(silent) 간격들 사이를 구별할 수 있어야만 한다. 이를 위해, VAD는 에너지 및 주기성과 같은 음성 패턴에 대한 일반적인 통계를 전형적으로 이용한다. 때때로, 외부 오디오는, 예컨대 전화 사용자가 통화중일 때, 음악 신호를 포함한다. 음악 신호는 음성 패턴보다 훨씬 복잡하고, VAD는 통상 음성 패턴과 사일런트 간격들로부터 음악 신호를 구별하는데 어려움이 있다. 결과적으로, VAD는 외부 오디오를 간헐적으로 뮤팅 및 언뮤팅하여, 매우 성가신 조잡한 사운드를 갖는 외부 오디오를 생성한다.

본 발명은 스피커폰 모드에서 동작하는 전화에 외부 오디오를 제공하는 방법 및 시스템에 관한 것이다. 더욱 특히, 전화가 수신한 음악 데이터는, 종래의 전화에서 일어난다고 알려진 간헐적인 외부 오디오 신호의 뮤팅 및 언뮤팅없이, 외부 오디오로서 재생될 수 있다. 동작시, 제1 유닛 타입 식별자를 포함하는 제1 데이터 유닛은 전화에 의해 수신될 수 있다. 예컨대, 모뎀은 제1 데이터 유닛을 수신하기 위해 전화에 제공될 수 있다.

제1 유닛 타입 식별자는 제1 데이터 유닛에 포함된 오디오 데이터의 타입의 지시자일 수 있다. 예컨대, 제1 유닛 타입 식별자는 오디오 데이터가 음악 또는 비음악 오디오 데이터인지를 나타낼 수 있다. 제1 유닛 타입 식별자가 예컨대 오디오 데이터가 음악 데이터인 것을 나타내는 값인 제1 값을 가진다고 결정된다면, 제1 데이터 유닛으로부터 재생된 언뮤팅된 외부 오디오는 예컨대 전화의 데이터 유닛 제어기에 의해 제공될 수 있다. 데이터 유닛 제어기는 또한 전화의 음성 활성 검출을 디스에이블할 수 있으며, 외부 오디오가 언뮤팅인 중에 내부(inbound) 오디오를 뮤팅할 수 있다.

외부 오디오가 언뮤팅되는 동안, 출력 트랜스듀서 이득 제어기는 외부 오디오의 SPL(sound pressure level)을 제1 레벨에서 제2 레벨로 주기적으로 감소시킬 수 있다. 외부 오디오의 SPL은 제1 레벨에서 제2 레벨로 점차 감소될 수 있다. 데이터 유닛 제어기는 외부 오디오의 SPL이 제2 레벨에 있을 때 내부 오디오를 언뮤팅할 수 있다. SPL이 감소된 후, SPL은 제2 레벨에서 제1 레벨로 점차 증가할 수 있다.

제2 값, 예컨대 오디오 데이터가 비음악 데이터인 것을 나타내는 값을 갖도록 결정된 제2 유닛 타입 식별자를 포함하는 제2 데이터 유닛을 수신시, 데이터 유닛 제어기는 음성 활성 검출을 가능하게 한다. 데이터 유닛 제어기는 또한 외부 오디오를 뮤팅할 수 있으며, 외부 오디오가 뮤팅되는 동안 내부 오디오를 언뮤팅할 수 있다.

본 발명의 바람직한 실시예는 이하 첨부된 도면을 참고로 후술된다.

도 1은 본 발명의 일 실시예에 따르는, 스피커폰 모드에서 동작하는 전화 내의 외부 오디오의 개선된 사운드 품질을 도시한 순서도이다.

도 2는 본 발명의 일 실시예에 따르는, 전화에 내부 스피치가 존재하는지를 검출하는 순서도를 도시한다.

도 3은 본 발명의 이해에 유용한 통신 네트워크의 블럭도이다.

도 4는 본 발명의 일 실시예에 따르는, 스피커폰 처리 시스템의 블럭도이다.

본 발명은 스피커폰 모드에서 동작하는 전화에 외부 오디오를 제공하는 방법 및 시스템에 관한 것이다. 더욱 특히, 전화가 수신한 음악 데이터는, 종래 전화에서 일어난다고 알려진, 외부 오디오 신호의 간헐적인 뮤팅 및 언뮤팅없이, 외부 오디오로서 재생될 수 있다. 이하 정의되는 바와 같이, 외부 오디오는 전화에 연결된 출력 오디오 트랜스듀서에 의해 재생되는 오디오이다. 내부 오디오는 전화에 연결된 입력 오디오 트랜스듀서에 의해 검출된 오디오이다.

스피커폰 모드에서 동작하는 전화로부터 외부 오디오 사운드 품질을 개선하는 방법(100)을 도시한 순서도가 도 1에 도시된다. 단계 105에서 시작하여, 전화는 오디오 데이터를 포함하는 데이터 유닛을 수신할 수 있다. 이하 정의되는 바와 같이, 용어 "데이터 유닛"은 네트워크 내의 발신지와 목적지 사이에 라우팅되는 데이터의 유닛을 의미한다. 예컨대, 네트워크가 무선 통신 네트워크와 같은 프레임 기저 네트워크인 경우, 데이터 유닛은 프레임일 수 있다. 네트워크가 인터넷과 같은 패킷 스위칭형 네트워크인 경우, 데이터 유닛은 패킷일 수 있다.

각 데이터 유닛은 유닛 타입 식별자를 포함할 수 있다. 유닛 타입 식별자는 데이터 유닛에 포함된 오디오 데이터의 타입을 식별하는데 사용될 수 있다. 유닛 타입 식별자는 데이터 유닛 헤더, 데이 유닛 트레일러, 또는 그밖의 데이터 유닛에 저장될 수 있다. 매우 단순한 형태로, 유닛 타입 식별자는 데이터 유닛이 음악 데이터를 포함하는지를 식별하는 단일 비트 플래그일 수 있다. 예컨대, 플래그를 1의 값으로 설정하면, 음악 데이터가 데이터 유닛에 존재한다는 것을 나타낸다. 보다 복잡한 형태로, 유닛 타입 식별자는 복수의 비트를 포함하여, 식별될 수 있는 오디오 데이터 카테고리의 보다 넓은 범위를 제공한다. 예컨대, 유닛 타입 식별자는 데이터 유닛에 포함된 오디오 데이터가 음성, 톤, 사일런스, 또는 식별될 수 있는 다른 타입의 오디오를 나타내는지를 식별할 수 있다.

단계 110으로 진행하면, 데이터 유닛은 데이터 유닛에 포함된 다른 데이터로부터 유닛 타입 식별자를 구별하도록 파싱(parsing)될 수 있고, 유닛 타입 식별자는 평가될 수 있다. 무선 통신 시스템에서, 비음악 데이터는 음악 데이터와는 다르게 종종 인코딩된다. 예컨대, 비음악 데이터는 일반적으로 보코더(vocoder)를 이용하여 인코딩된다. 당업자에게 공지된 바와 같이, 많은 수의 보코더 알고리즘이 이용가능하다. 이런 알고리즘의 예는 GSM(Global System for Mobile Communication), AMBE(adaptive multiband excitation), VSELP(vector-sum excited linear prediction) 등을 포함한다. 이런 알고리즘은 소정 데이터 레이트 동안 비음악 데이터의 고해상도 재생을 가능하게 한다.

비록 보코더 알고리즘이 음성 및 다른 오디오 신호를 잘 인코딩하도록 작용할 수 있을지라도, 음악 신호는 보코더에 의해 인코딩되는데 너무 복잡한 경향이 있다. 따라서, 보코더가 음악 신호를 인코딩하는데 사용된다면, 많은 음악 데이터는 인코딩 프로세스 동안 상실되어, 매우 왜곡되게 들리는 음악 신호를 가져오게 된다. 결국, 음악 신호는 예컨대, 파형 인코딩, 또는 MIDI(Musical Instrument Digital Interface), MP3(MPEG-1 Audio Layer-3), 오그 보비스(Ogg Vorbis), WMA(Windows Media Audio), 리얼 오디오, 또는 AAC(Advanced Audio Coding) 등과 같은 오디오 압축 알고리즘인, 다른 오디오 압축 스킴을 이용하여 전형적으로 인코딩된다. 이런 스킴은 논-스피치(non-speech) 오디오 신호를 인코딩하는데 보다 적합하나, 보코더 알고리즘으로 인코딩된 스피치의 품질과 비견할 오디오 품질을 달성하기 위해서는 보다 높은 데이터 레이트가 요구된다.

이에 따라, 결정 박스 115를 참고하면, 오디오 데이터를 디코딩하는데 사용되는 디코딩 스킴은 유닛 타입 식별자의 값에 기초하여 선택될 수 있다. 따라서, 유닛 타입 식별자의 값이 음악 데이터와 상관되지 않는다면, 데이터 유닛에 포함된 오디오 데이터는 비음악 데이터로서 디코딩될 수 있어, 단계 120에 도시된 바와 같이 비음악 신호를 생성한다. 단계 125로 계속가면, 음성 활성 검출 로직은 비음악 신호에 적용될 수 있어, 전화의 출력 트랜스듀서에 의해 생성된 외부 오디오가 전화의 입력 트랜스듀서로 다시 피딩되는 것을 방지하는데 요구되는 바와 같이 내부 및 외부 오디오를 뮤팅 및 언뮤팅한다. 이런 음성 활성 검출의 구현은 당업자에게는 공지되어 있다.

결정 박스 115를 다시 참고하면, 유닛 타입 식별자가 음악 데이터와 상관되는 경우, 단계 130에서, 데이터 유닛에 포함된 오디오 데이터는 음악 데이터로서 디코딩될 수 있어, 음악 신호를 생성한다. 오디오 데이터를 인코딩하는데 사용되는 스킴과 호환가능한 디코딩 스킴이 사용될 수 있다. 단계 135로 진행하면, 내부 오디오는 뮤팅될 수 있고, 외부 오디오는 언뮤팅될 수 있다. 내부 오디오 및 외부 오디오는 음성 활성 검출 로직이 내부 오디오 및 외부 오디오를 뮤팅 및 언뮤팅하기 위해 적용될 수 있는 시간에, 데이터 유닛이 비음악 데이터를 포함하고 있다고 나타내는 유닛 타입 식별자를 포함하는 다른 데이터 유닛이 수신될 때까지. 이들 각각의 상태에서 유지할 수 있다.

특별히, 음악 신호가 외부 오디오로서 생성될 때 음성 활성 검출 로직의 사용을 디스에이블링하는 것이 이롭게 된다. 특히, 음악 신호의 처리 동안 음성 활성 검출이 사용될 때 전형적으로 일어나는 간헐적인 뮤팅의 바람직하지 않은 효과없이 음악 신호가 재생되게 된다. 이는 스피커폰 작동 동안 보다 즐거운 청취 경험을 제공할 수 있다.

일부 경우에, 제1 전화는 시끄러운 환경, 예컨대 큰 음악을 틀어놓은 클럽에서 사용될 수 있다. 따라서, 제1 전화로부터 생성된 외부 오디오용 오디오 데이터는 음악으로서 인코딩된다. 고로, 제1 전화와 통신하는 제2 전화상의 내부 오디오는, 전화 사용자들이 통화를 유지하고자 할지라도, 단계 135에 따라 뮤팅된다. 사용자들이 이런 조건이 존재할 때 통화를 시도하는지를 결정하기 위하여, 심지어 유닛 타입 식별자가 음악 데이터와 상관되고 외부 오디오가 언뮤팅될 때조차도, 내부 오디오 신호가 제2 전화에 존재하는지를 주기적으로 검출하는 것이 바람직하다. 이런 프로세스는 도 2의 순서도에 도시된다.

도 2는 내부 오디오 신호가 존재하는 지를 검출하기 위해 주기적으로 언뮤팅되는 방법(200)을 도시한다. 또한, 외부 오디오의 SPL은 내부 오디오가 언뮤팅될 때 외부 오디오의 피드백을 감소시키기 위하여 제1 레벨에서 제2 레벨로 감소될 수 있다. 이 방법(200)은 유닛 타입 식별자의 값이 음악 데이터와 상관될 때 구현될 수 있다.

단계 205에서 시작하여, 외부 오디오의 SPL은 제1 레벨에서 제2 레벨로 감소될 수 있다. 예컨대, SPL은 6dB만큼 감소할 수 있다. 그럼에도, 본 발명은 이에 제한되지 않고 임의의 SPL 감소량이 구현될 수 있다. 특히, 외부 오디오의 SPL에서 감소는 볼륨 변화의 사용자 인지를 최소화하기 위한 특정 주기에 걸쳐 구현될 수 있다. 예컨대, SPL은 약 50밀리초 내지 1초의 주기에 걸쳐 감소할 수 있다.

외부 오디오의 SPL이 제2 레벨에 도달할 때, 내부 오디오는 언뮤팅될 수 있다. 그 후 내부 오디오는 예컨대, VAD에 의해 샘플링될 수 있어, 단계 210에 도시된 바와 같이, 내부 스피치가 존재하는지를 결정한다. 결정 박스 215 및 단계 220로 진행하여, 내부 스피치가 존재하지 않으면, 외부 오디오의 SPL은 제2 레벨에서 제1 레벨로 다시 증가할 수 있으며, 내부 오디오는 다시 뮤팅될 수 있다. 이전과 같이, SPL 변화는 변화의 사용자 인지를 최소화하기 위한 특정 주기에 걸쳐 구현될 수 있다.

단계 225에서, 시간 지연은 단계 205, 210 및 215가 반복되기 전에 구현될 수 있다. 시간 지연은 예컨대 약 2초 내지 15초 사이의 범위에 있을 수 있다. 이에 따라, 사용자가 통화를 시작한다면, 그 스피치의 단지 일부분만이 뮤팅될 것이다. 일 구현에서, 시간 지연은 외부 오디오의 SPL이 감소 또는 증가되는 주기의 적어도 2배일 수 있다.

결정 박스 215와 단계 230을 다시 참조하면, 스피치가 내부 오디오에 존재한다면, 외부 오디오는 뮤팅될 수 있고, 내부 오디오의 언뮤팅은 내부 스피치가 중지되거나 또는 특정 시간량이 지날 때까지 유지될 수 있다. 단계 220으로 계속 진행하면, 내부 오디오는 다시 뮤팅될 수 있고, 외부 오디오의 SPL은 그 이전 레벨로 복귀될 수 있다. 방법(200)은 유닛 타입 식별자가 음악 데이터와 상관되는 동안 계속될 수 있다.

도 3은 전술한 방법이 구현될 수 있는 통신 네트워크(300)의 예를 도시한다. 통신 네트워크(300)는 유선 및/또는 무선 통신 링크를 포함할 수 있다. 예컨대, 통신 네트워크(300)는 모바일 무선 통신 네트워크, 셀룰러 전화 통신 네트워크, PSTN(Public Switched Telephone Network), PSPN(Public Switched Packet Network), WAN(Wide Area Network), LAN(Local Area Network), 인트라넷, 인터넷, 또는 오디오 데이터를 양방향으로 전파하는데 적합한 임의의 다른 통신 네트워크일 수 있다.

전화(310)는 통신 네트워크(300)의 노드로서 제공될 수 있다. 전화(310)는 스피커폰 모드에서 동작할 수 있는 임의의 2-웨이(way) 통신 디바이스일 수 있다. 예컨대, 전화(310)는 상호접속 및/또는 디스패치 능력을 갖는 모바일 전화, PDA(personal digital assistant), VoIP(voice over IP), 또는 ISDN(integrated services digital network) 전화 디바이스, 또는 임의의 다른 적당한 2-웨이 통신 디바이스일 수 있다. 전화(310)는 데이터 유닛 제어 로직(330)을 포함할 수 있다. 데이터 제어 로직(330)은 전술한 방법을 구현하는데 사용될 수 있다.

동작시, 전화(310)는 통신 네트워크(330)를 통해 전화 및/또는 콜 처리 시스템(340)과 통신가능하게 링크될 수 있다. 전화/콜 처리 시스템(340)은 오디오 데이터를 포함하는 적어도 하나의 데이터 유닛(350)을 전화(310)에 전파할 수 있다. 데이터 유닛(350)은 또한, 주지된 바와 같이, 데이터 유닛(350)내에 포함된 오디오 데이터의 타입을 식별하는 유닛 타입 식별자(360)를 포함할 수 있다. 전화(310)는, 전화(310)가 스피커폰 모드에서 동작할 때, 내부 및 외부 오디오를 처리하기 위한 스피커폰 처리 시스템(320)를 포함할 수 있다. 스피커폰 처리 시스템(320)은, 유닛 타입 식별자(360)를 평가하고, 전술한 바와 같이, 데이터 유닛(350)내에 포함된 오디오 데이터를 음악 데이터 또는 비-음악 데이터로서 처리할 지를 결정하기 위한 데이터 유닛 제어 로직(330)을 더 포함할 수 있다.

스피커폰 처리 시스템(320)의 일 실시예에 대한 예가 도 4에 도시된다. 그러나, 스피커폰 처리 시스템은 임의의 수많은 시스템 구조를 이용하여 구현될 수 있고, 본 발명은 이러한 측면에서 제한되는 것은 아니라는 것을 알아야 한다. 스피커폰 처리 시스템(320)은 내부 채널 경로(405) 및 외부 채널 경로(410)를 포함할 수 있다. 내부 채널 경로(405)는 예컨대, 마이크로폰과 같은 입력 트랜스듀서(415) 및 입력 트랜스듀서 이득 제어기(420)를 포함할 수 있다. 내부 채널 경로(405)는 또한 반향소거기(echo canceller)(425), 인코더(430), 송신 모뎀(435) 및 내부 음성 활성 검출기(VAD)(440)를 포함할 수 있다. 유사하게, 외부 채널 경로(410)는 수신 모뎀(445), 디코더(450), 및 외부 VAD(455), 출력 트랜스듀서 이득 제어기(460) 및 외부 트랜스듀서(465)를 포함할 수 있다. 데이터 유닛 제어 기(470) 및 듀플렉서 아비터(duplexer arbiter)(475)는 내부 채널 경로(405) 및 외부 채널 경로(410) 모두에 동작가능하게 연결될 수 있다. 이와 유사하게, 컴포트 노이즈 생성 및 치환 유닛(480)은 내부 채널 경로(405) 및 외부 채널 경로(410) 모두에 동작가능하게 연결될 수 있다. 컴포트 노이즈 생성 및 치환 유닛(480)은 또한 도시된 바와 같이 듀플렉서 아비터(475)에 동작가능하게 연결될 수 있다.

반향 소거기, 인코더, 디코더, 송/수신 모뎀 및 컴포트 노이즈 생성 및 치환 유닛 모두는 상업적으로 이용가능하고, 그 구현물은 당업자에게 잘 알려져 있다. 데이터 유닛 제어기(470)는 하드웨어, 소프트웨어, 펌웨어, 또는 하드웨어, 소프트웨어 및/또는 펌웨어의 조합으로 구현될 수 있다. 예컨대, 데이터 유닛 제어기(470)는 CPU, 디지털 신호 처리기(DSP), ASIC(application specific integrated circuit)와 같은 프로세서 또는 여기 개시된 데이터 유닛 제어기 기능을 수행하기에 적합한 임의의 다른 프로세서를 포함할 수 있다. 또한, 데이터 유닛 제어기(470)는, 듀플렉서 아비터(475), 내부 VAD(440), 외부 VAD(455), 디코더(450), 및/또는 임의의 다른 전화 회로 콤포넌트를 포함하는 집적 회로(IC)내에 포함돨 수 있다. 또한, 소프트웨어 및/또는 펌웨어가 프로세서에 의해 실행되기 위한 데이터 저장기(도시되지 않음)에 제공될 수 있다. 이와 함께, 데이터 유닛 제어기(470), 듀플렉스 아비터(475), 내부 VAD(440), 외부 VAD(455) 및 디코더(450)는 도 3의 데이터 유닛 제어 로직(330)을 형성할 수 있다.

스피커폰 모드에서 동작할 때, 내부 오디오(485)는 입력 트랜스듀서(415)에 의해 수신될 수 있고, 입력 오디오 신호로서 입력 트랜스듀서 이득 제어기(420)로 전송되고, 이것은 내부 오디오 신호의 진폭을 조절할 수 있다. 다음에 입력 오디오 신호는 반향소거기에 전송될 수 있고, 이것은 또한 디코더(450)로부터 외부 오디오 신호를 수신하고, 출력 트랜스듀서(465)로부터 입력 트랜스듀서(415)로 커플링하는 외부 오디오(490)에 기인하여 존재하는 임의의 피드백의 일부를 제거한다. 다음에 내부 오디오 신호는 인코더(430)에 전파되어 송신 모뎀(435)에 의한 송신을 위해 데이터 유닛으로 인코딩된다. 주목할 만한 것은, 인코더는 비-음악 오디오 신호를 인코딩하는 보코더와 같은 비-음악 인코더 및 음악 오디오 신호를 인코딩하는 파형 인코더와 같은 음악 인코더를 포함할 수 있다는 것이다. 인코더(430)는 또한 인코딩되는 오디오 데이터의 타입을 식별하기 위해 유닛 타입 식별자를 각각의 데이터 유닛으로 인코딩할 수 있다.

외부 채널 경로(410)에서, 수신 모뎀(445)은 데이터 유닛을 포함하는 인코딩된 외부 신호를 수신하고, 인코딩된 신호를 디코더(450)로 전송할 수 있다. 디코더(450)는 보코더와 같은 비-음악 디코더 및 파형 디코더와 같은 음악 디코더를 포함할 수 있다. 디코더(450)는 데이터 유닛을 파싱하고, 데이터 유닛에 포함된 유닛 타입 유닛 타입 식별자를 평가할 수 있다. 특정 데이터 유닛내의 유닛 타입 식별자가 데이터 유닛내에 포함된 오디오 데이터가 비-음악 데이터임을 나타내면, 디코더는 비-음악 외부 오디오 신호를 생성하기 위해 이에 따라 데이터를 디코딩할 수 있다. 비-음악 외부 오디오 신호는 출력 트랜스듀서 이득 제어기(460)로 전송될 수 있고, 다음에 외부 오디오(490)를 생성하기 위해 외부 트랜스듀서(465)로 전송될 수 있다.

디코더는 또한 오디오 데이터가 비-음악임을 데이터 유닛 제어기(470)에 나타낼 수 있다. 데이터 유닛 제어기(470)는 다음에, 스피커폰 처리 시스템(320)내에서 음성 활성 검출을 인에이블하도록 듀플렉스 아비터(475)에 명령할 수 있다. 반향소거기(425)는 전형적으로 단지 출력 트랜스듀서(465)로부터 입력 트랜스듀서(415)로 커플링하는 외부 오디오(490)에 기인하여 존재하는 피드백의 일부를 제거할 수 있기 때문에, 음성 활성 검출은 통상적으로 스피커폰 모드에서 동작하는 전화에서 이용된다. 따라서, 내부 VAD(440), 외부 VAD(455) 및 듀플렉스 아비터(475)는 스피커폰 동작동안 피드백 제어를 개선하도록 제공된다.

동작중에, 반향소거기(425)의 출력은 내부 VAD(440)에 전송될 수 있다. 디코더(450)로부터의 비-음악 외부 오디오 신호는 유사하게 외부 VAD(455)에 전송될 수 있고, 이것은 또한 VAD(440, 455)간에 직접 통신을 허용하도록 내부 VAD(440)에 통신가능하게 링크될 수 있다. VAD(440, 455)는 각각 배경 또는 다른 타입의 노이즈에 대향하는, 스피치 정보를 식별하는데 이용되는 스피치 검출 신호를 생성할 수 있다.

내부 VAD(440) 및 외부 VAD(455)의 각각으로부터의 스피치 검출 신호는 듀플렉스 아비터(475)와 통신될 수 있다. 듀플렉스 아비터(475)는, 내부 오디오(485) 및 외부 오디오(490)를 뮤팅 및 언뮤팅할 때를 결정하기 위해 스피치 검출 신호를 처리할 수 있다. 예컨대, 내부 VAD(440)에 의해 검출된 내부 오디오 신호가 중요하고 이에 반해 외부 VAD(455)에 의해 검출된 외부 오디오 신호는 무시할만하면, 이것은 통신 세션의 원거리 단부에서의 사용자가 말이 없는 반면 전화의 사용자(근 단부 사용자)가 말을 하고 있음을 나타낸다. 따라서, 듀플렉스 아비터(475)는 내부 채널 경로(405)를 활성화하여 내부 오디오(485)를 캡쳐하고, 이에 반해 외부 오디오(490)를 뮤트하기 위해 외부 채널 경로(410)를 비활성화 또는 뮤팅한다. 외부 채널 경로(410)의 비활성화 또는 뮤팅은 외부 채널 경로(410)내의 회로 경로를 차단하거나 출력 트랜스듀서 이득 제어기(460)의 이득을 감소시켜 달성된다.

반대로, 내부 VAD(440)에 의해 검출된 내부 오디오 신호가 무시할만하고, 이에 반해 외부 VAD(455)에 의해 검출된 외부 오디오 신호가 중요하면, 듀플렉스 아비터(475)는 내부 오디오(485)를 뮤팅하기 위해 내부 채널 경로(405)를 비활성화 또는 뮤팅하는 반면 외부 오디오(490)는 언뮤팅할 수 있다. 내부 채널 경로(405)의 비활성화 또는 뮤팅은 내부 채널 경로(405)내의 회로 경로를 차단하거나 입력 트랜스듀서 이득 제어기(420)의 이득을 감소시켜 달성된다. 따라서, 원거리 단부 사용자의 스피치는, 그 사용자에 대한 외부 오디오(490) 피드백의 위험을 최소화시키면서 출력 트랜스듀서(465)를 통해 들을 수 있다.

한편, 내부 VAD(440) 및 외부 VAD(455)가 그 각각의 채널 경로(405, 410)에서 중요한 오디오 신호를 검출하는 시간 간격동안, 듀플렉스 아비터(475)는 어느 채널 경로가 활성화되고, 어느 채널 경로가 비활성화될지를 결정하기 위한 선택적인 기준을 적용할 수 있다.

수신 모뎀(445)에 의해 수신된 인코딩된 외부 신호가, 데이터 유닛이 음악 데이터를 포함함을 나타내는 유닛 타입 식별자를 갖는 데이터 유닛을 포함하면, 디코더(450)는 음악 외부 오디오 신호를 생성하기 위해 이에 따라 데이터를 디코딩할 수 있다. 음악 외부 오디오 신호는 또한 출력 트랜스듀서 이득 제어기(460)에 전송될 수 있고, 다음에 외부 오디오(490)를 생성하도록 출력 트랜스듀서(465)로 전송된다.

또한, 디코더(450)는 오디오 데이터가 음악이라는 것을 데이터 유닛 제어기(470)에 나타낼 수 있다. 다음에, 데이터 제어 유닛(470)은 스피커폰 처리 시스템(320)내의 음성 활성 검출을 디스에이블하도록 듀플렉스 아비터(475)에 지시할 수 있다. 게다가, 데이터 제어 유닛(470)은, 외부 채널 경로(410)를 언뮤팅하고 내부 채널 경로(405)를 뮤팅하도록 듀플렉스 아비터(475)에 지시할 수 있다. 따라서, 주지된 바와 같이, 음악 신호는, 음악 신호를 처리하는 동안 음성 활성 검출이 이용될 때 전형적으로 발생하는 쵸피(choppy) 사운드없이 재생될 수 있다.

전술한 바와 같이, 내부 오디오 신호가 존재하는지를 검출하기 위해 주기적으로 내부 오디오(485)를 언뮤팅하는 것이 바람직하다. 이러한 것이 발생할 때, 출력 트랜스듀서 이득 제어기(460)는, 내부 오디오가 언뮤팅될 때 외부 오디오의 피드백을 감소시키기 위해 제1 레벨에서 제2 레벨로 외부 오디오(490)의 SPL을 감소시킬 수 있다. 유사하게, 출력 트랜스듀서 이득 제어기(460)는 또한 내부 오디오(485)가 다시 뮤팅될 때 외부 오디오(490)의 SPL을 제2 레벨에서 제1 레벨로 증가시킬 수 있다. 출력 트랜스듀서 이득 제어기(460)는 변화에 대한 사용자의 감지를 최소화하기 위해 점진적으로 SPL 변화를 구현할 수 있다.

본 발명은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합을 통해 실현될 수 있다. 본 발명은 하나의 시스템에 집중화된 방식 또는 몇몇 상호접 속된 시스템간에 상이한 엘리먼트가 확산되어 있는 분산방식으로 구현될 수 있다. 임의의 종류의 처리 장치 또는 여기 개시된 방법을 수행하는데 적합한 다른 장치도 적절하다. 하드웨어 및 소프트웨어의 전형적인 조합은, 로딩되고 실행될 때, 여기 개시된 방법을 수행하는 처리 장치를 제어하는 애플리케이션을 갖는 처리 장치가 될 수 있다.

본 발명은 또한 애플리케이션 프로그램 제품에 임베딩될 수 있고, 이것은 여기 개시된 방법의 구현례를 가능하게 하는 모든 특징을 포함하고, 처리 장치에 로딩될 때 이러한 방법들을 수행할 수 있다. 본 컨텍스트의 애플리케이션 프로그램은 임의의 언어로 된 임의의 표현, a) 다른 언어, 코드, 또는 주석으로의 변환; b) 상이한 자료 형태의 재생의 양자 모두 또는 그 중 하나와 직접 또는 그 이후에 특정 기능을 정보 처리 능력을 갖는 시스템이 수행하도록 의도된 명령의 세트에 대한 코드 또는 주석을 의미한다.

본 발명은 그 사상 또는 필수적인 속성으로 벗어남이 없이 다른 형태로 구현될 수 있다. 따라서, 본 발명의 범위를 나타내는 것으로서, 전술한 명세서보다는 다음의 특허청구범위를 참조할 수 있다.

Claims

스피커폰 모드에서 동작하는 전화에서 외부(outbound) 오디오를 제공하기 위한 방법으로서,

제1 유닛 타입 식별자를 포함하는 제1 데이터 유닛을 수신하는 단계와,

상기 제1 유닛 타입 식별자가 제1 값을 갖는지에 대한 결정에 응답하여, 상기 제1 데이터 유닛으로부터 재생된 언뮤팅된(unmuted) 외부 오디오를 제공하는 단계 - 상기 언뮤팅된 외부 오디오를 제공하는 단계는 상기 전화내에서 음성 활성 검출을 디스에이블하는 단계를 포함함 - 와,

제2 유닛 타입 식별자를 포함하는 제2 데이터 유닛을 수신하는 단계와,

상기 제2 유닛 타입 식별자가 제2 값을 갖는지에 대한 결정에 응답하여, 상기 전화내에서 상기 음성 활성 검출을 인에이블하는 단계

를 포함하는 외부 오디오 제공 방법.
제1항에 있어서,

상기 제1 유닛 타입 식별자를 상기 제1 데이터 유닛내에 포함된 오디오 데이터의 타입의 지시자(indicator)로서 선택하는 단계를 더 포함하는 외부 오디오 제공 방법.
제1항에 있어서,

상기 외부 오디오가 언뮤팅인 동안 내부 오디오를 뮤팅하는 단계를 더 포함하는 외부 오디오 제공 방법.
제1항에 있어서,

상기 제2 유닛 타입 식별자를 상기 제2 데이터 유닛내에 포함된 오디오 데이터의 타입의 지시자로서 선택하는 단계를 더 포함하는 외부 오디오 제공 방법.
제1항에 있어서,

상기 음성 활성 검출을 인에이블하는 단계는 상기 외부 오디오를 뮤팅하는 단계를 더 포함하는 외부 오디오 제공 방법.
제5항에 있어서,

상기 외부 오디오가 뮤팅되는 동안 상기 내부 오디오를 언뮤팅하는 단계를 더 포함하는 외부 오디오 제공 방법.
제1항에 있어서,

제1 레벨에서 제2 레벨로 상기 외부 오디오의 SPL(sound pressure level)을 주기적으로 감소시키는 단계를 더 포함하는 외부 오디오 제공 방법.
제7항에 있어서,

상기 외부 오디오의 상기 SPL이 상기 제2 레벨일 때 상기 내부 오디오를 언뮤팅하는 단계를 더 포함하는 외부 오디오 제공 방법.
제7항에 있어서,

상기 외부 오디오의 SPL을 감소시키는 단계는 상기 제1 레벨에서 상기 제2 레벨로 상기 외부 오디오의 상기 SPL을 단계적으로 감소시키는 단계를 더 포함하는 외부 오디오 제공 방법.
제9항에 있어서,

상기 SPL을 단계적으로 감소시키는 단계 이후, 상기 SPL을 증가시키는 단계를 더 포함하는 외부 오디오 제공 방법.
제10항에 있어서,

상기 SPL을 증가시키는 단계는 상기 제2 레벨에서 상기 제1 레벨로 상기 SPL을 단계적으로 증가시키는 단계를 포함하는 외부 오디오 제공 방법.
스피커폰 동작 모드를 갖는 전화로서,

제1 유닛 타입 식별자를 포함하는 제1 데이터 유닛을 수신하기 위한 모뎀과,

상기 제1 유닛 타입 식별자가 제1 값을 갖는지에 대한 결정에 응답하여 상기 제1 데이터 유닛으로부터 재생된 언뮤팅된 외부 오디오를 제공하기 위한 데이터 유닛 제어기를 포함하고,

상기 데이터 유닛 제어기는 상기 전화의 음성 활성 검출을 디스에이블하며, 상기 모뎀은 제2 유닛 타입 식별자를 포함하는 제2 데이터 유닛을 수신하고, 상기 데이터 유닛 제어기는 상기 제2 유닛 타입 식별자가 제2 값을 갖는지에 대한 결정에 응답하여 상기 음성 활성 검출을 인에이블하는, 스피커폰 동작 모드를 갖는 전화.
제12항에 있어서,

상기 제1 유닛 타입 식별자는 상기 제1 데이터 유닛에 포함된 오디오 데이터의 타입을 나타내는, 스피커폰 동작 모드를 갖는 전화.
제12항에 있어서,

상기 데이터 유닛 제어기는 상기 외부 오디오가 언뮤팅되는 동안 내부 오디오는 뮤팅하는, 스피커폰 동작 모드를 갖는 전화.
제12항에 있어서,

상기 제2 유닛 타입 식별자는 상기 제2 데이터 유닛에 포함된 오디오 데이터의 타입을 나타내는, 스피커폰 동작 모드를 갖는 전화.
제12항에 있어서,

상기 데이터 유닛 제어기는 상기 외부 오디오를 뮤팅하는, 스피커폰 동작 모드를 갖는 전화.
제16항에 있어서,

상기 데이터 유닛 제어기는 상기 외부 오디오가 뮤팅되는 동안 상기 내부 오디오를 언뮤팅하는, 스피커폰 동작 모드를 갖는 전화.
제12항에 있어서,

제1 레벨에서 제2 레벨로 상기 외부 오디오의 SPL을 주기적으로 감소시키는 출력 트랜스듀서 이득 제어를 더 포함하는, 스피커폰 동작 모드를 갖는 전화.
제18항에 있어서,

상기 데이터 유닛 제어기는 상기 외부 오디오의 상기 SPL이 상기 제2 레벨일 때 상기 내부 오디오를 언뮤팅하는, 스피커폰 동작 모드를 갖는 전화.
제18항에 있어서,

상기 출력 트랜스듀서 이득 제어는 상기 제1 레벨에서 상기 제2 레벨로 상기 외부 오디오의 상기 SPL을 단계적으로 감소시키는, 스피커폰 동작 모드를 갖는 전화.
제20항에 있어서,

상기 출력 트랜스듀서 이득 제어는 상기 SPL이 감소된 후 상기 SPL을 단계적으로 증가시키는, 스피커폰 동작 모드를 갖는 전화.
제21항에 있어서,

상기 출력 트랜스듀서 이득 제어는 상기 제2 레벨에서 상기 제1 레벨로 상기 SPL을 단계적으로 증가시키는, 스피커폰 동작 모드를 갖는 전화.