KR101085042B1 - 컨퍼런스 세션 중에 신호들을 믹싱하는 네트워크 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체 - Google Patents

컨퍼런스 세션 중에 신호들을 믹싱하는 네트워크 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체 Download PDF

Info

Publication number
KR101085042B1
KR101085042B1 KR1020097015674A KR20097015674A KR101085042B1 KR 101085042 B1 KR101085042 B1 KR 101085042B1 KR 1020097015674 A KR1020097015674 A KR 1020097015674A KR 20097015674 A KR20097015674 A KR 20097015674A KR 101085042 B1 KR101085042 B1 KR 101085042B1
Authority
KR
South Korea
Prior art keywords
signals
participants
signal
mixing
speaking
Prior art date
Application number
KR1020097015674A
Other languages
English (en)
Other versions
KR20090104073A (ko
Inventor
라우라 락소넨
유씨 비롤라이넨
파이비 발베
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20090104073A publication Critical patent/KR20090104073A/ko
Application granted granted Critical
Publication of KR101085042B1 publication Critical patent/KR101085042B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2094Proximity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/30Determination of the location of a subscriber
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm

Abstract

컨퍼런스 세션을 수행하기 위해 네트워크에 관한 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체가 제공된다. 이 방법은 참가자의 음성 통신의 대표신호들의 다수를 수신하는 것을 포함할 수 있다. 이에 관하여, 신호들은 여러 위치들 중 한 곳의 복수 참가자들의 복수 단말기로부터 수신될 수 있는데, 상기 단말기들의 적어도 일부 각각은 다른 단말들의 적어도 일부와 독립적으로 음성 통신을 할 수 있도록 구성된다. 본 태양에서의 상기 방법은 발언활동을 분류한다. 컨퍼런스 세션중에 발언의 중단이 생기거나 또는 하나 이상의 적극적으로 발언하는 참가자가 있는 경우 이러한 분류의 기준이 될 수 있다. 각각의 참가자의 신호는 적어도 하나의 믹싱된 신호로 믹싱될 수 있는데, 이는 하나 이상의 서로 다른 위치의 하나 이상의 서로 다른 참가자들에게로의 출력을 위한 것으로서, 상기 신호는 상기 발언활동의 분류를 기반으로 믹싱된다.

Description

컨퍼런스 세션 중에 신호들을 믹싱하는 네트워크 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체{Network entity, method and computer readable storage medium for mixing signals during a conference session}
본 발명은 일반적으로 컨퍼런스 세션을 수행하는 시스템과 방법에 관한 것이다. 더 상세하게는, 컨퍼런스 세션의 수행 중에 특정 위치의 참가자들의 신호를 믹싱하는 시스템과 방법에 관한 것이다.
컨퍼런스 콜은 전화상으로 이루어지는데, 보통 적어도 셋 이상이 참가한다. 전형적으로 컨퍼런스 콜은 분산 방식과 집중 방식으로 배치될 수 있다. 분산 배치에 있어서 세 당사자간에 컨퍼런스 콜을 성립시키기 위해서, 예를 들면, 시작당사자측이 첫번째 상대당사자에게 전화를 연결한다. 시작당사자측과 첫 상대당사자측의 통화가 이루어지면 한쪽 당사자측이 다른 당사자측과의 전화를 연결한 채로 두번째 상대당사자측의 두번째 통화를 시작한다. 두 각각의 당사자측과 두번째 상대당사자측의 전화가 이루어지면 각각의 당사자측은 첫번째 통화와 두번째 통화를 잇는 것으로써 (연결시키는 것으로써) 컨퍼런스 콜을 성립시킬 수 있다. 따라서 하나의 컨퍼런스 콜은 시작당사자측, 첫번째 상대당사자측, 두번째 상대당사자측을 모두 포함하게 된다.
분산 배치 대신에 컨퍼런스 콜은 오퍼레이터에 의해 제공되는 컨퍼런스 콜 서비스를 사용하여 집중 배치에 의해 성립될 수 있다. 그러한 배치는, 예를 들어 시작당사자측이 오퍼레이터에 컨퍼런스 콜 서비스 요청을 할 수 있는데, 오퍼레이터는 시작시각, 예상 컨퍼런스 콜 지속시간 그리고 기타 컨퍼런스 콜 관련한 정보 등과 같은 하나이상의 파라미터를 식별하는 역할을 한다. 그에 대한 응답에서 오퍼레이터는 컨퍼런싱 서버의 콜링 넘버를 요청된 컨퍼런스 콜에 할당하는데 이러한 콜링 넘버는 그 후에 컨퍼런스 콜 참가자에게 분배된다 (예를 들어 시작당사자측, 첫번째 상대당사자측, 두번째 상대당사자측 기타 등등). 그러면 컨퍼런스 콜은 참가자들이 개별적으로 콜링 넘버를 통해 컨퍼런싱 서버에 전화를 할 때 성립된다. 그리고 이러한 전화들을 잇는(연결하는) 컨퍼런싱 서버는 이로써 여러 참가자들을 하나의 컨퍼런스 콜에 참가시킬 수 있는 것이다.
컨퍼런스 세션을 수행하기 위한 분산 배치 또는 집중 배치에 있어서 기술들이 발전해왔지만, 통상적으로 현존하는 기술을 발전시키는 것이 바람직하다.
상기 발명의 배경을 고려했을 때 본 발명의 바람직한 실시예는 복수의 위치에 있는 참가자들 사이의 컨퍼런스 세션을 수행하기 위한 개선된 네트워크의 엔티티, 방법, 컴퓨터 프로그램을 제공한다. 본 발명의 바람직한 실시예의 일 태양에 따르면 컨퍼런스 세션을 수행하는 방법은 참가자들의 음성 통신을 표현하는 복수의 신호를 수신하는 것을 포함한다. 이 점에 관하여, 그 신호들은 하나 이상의 위치에 있는 각각의 복수의 참가자들의 복수 단말기로부터 수신된다. 필요한 경우 하나 이상의 다른 위치의 근접 네트워크 외의 하나 이상의 참가자로부터 수신될 수도 있다. 적어도 상기 단말기들의 일부 각각은 적어도 일부 다른 단말기들에 독립하여 음성통신을 위해 구성될 수 도 있다. 나아가 필요하면, 한 위치의 각 참가자들의 단말기들은 각 위치의 근접 네트워크내에 포함될 수도 있다.
이 관점에서의 방법은 컨퍼런스 세션중에 발언의 중단이 생기거나 또는 한명이상의 적극적으로 발언하는 참가자가 있는 경우 등의 기준에 따라 발언활동을 분류하게 되는데 이는 컨퍼런스 세션중에 수신된 신호에 기초한다. 하나의 위치에서의 복수의 각 참가자들의 신호, 이를테면 상기 근접 네트워크 내의 신호들은 하나 이상의 위치의 하나 이상의 다른 참가자들, 이를테면 근접 네트워크 외의 하나 이상의 참가자들에게 송신되기 위해 적어도 하나의 혼합신호로 믹싱될 수 있다. 이 점에서 상기 신호들은 발언활동의 분류에 기초하여 믹싱될 수 있는 것이다.
보다 상세하게는, 상기 각 신호들은 믹싱테이블의 이득값들의 집합에 따라 믹싱되고, 이 믹싱테이블에서 상기 복수의 이득값들은 0보다 클 수 있다. 상기 믹싱테이블은 이처럼 이득값을 포함하고, 상기 신호들은 이 이득값에 따라서 믹싱된다. 또 이 믹싱테이블은 복수의 믹싱테이블 중에서 발언의 분류에 기하여 선택가능하다. 이 점에서, 발언활동은 하나의 복수 클래스로 분류되며, 각각의 클래스는 특정 믹싱테이블과 결합된다. 이러한 경우 신호들을 믹싱하는 것은 발언활동이 분류된 클래스에 대하여 믹싱테이블을 선택하는 것과 신호를 선택된 믹싱테이블에 따라 믹싱하는 것을 포함하게 된다.
상기 방법은 나아가 하나 이상의 특징에 기초하여 각각의 참가자들의 신호들에 대해 순위를 매기는 것을 포함할 수 있다. 상기 방법에서 믹싱된 신호들은 순위가 매겨진 신호들을 구성한다. 이러한 경우 신호들의 순위에 기초가 되는 상기 특징들은 높은 순위의 신호들이 적극적으로 발언하는 참가자의 더 높은 존재가능성을 반영하도록 할 수 있다. 또한 이러한 경우에 신호들을 믹싱하는 것은 이득값 집합의 이득값들에 각 참가자들의 각 신호들을 결합하는 것을 포함할 수 있다. 상기 신호들은 그리하여 이득값 집합의 더 큰 이득값이 더 높은 순위의 신호과 결합되도록 순위가 매겨진다.
본 발명의 바람직한 실시예의 다른 태양에서는, 컨퍼런스 세션을 수행하기 위하여 발전된 네트워크 엔티티와 컴퓨터로 읽을 수 있는 저장 매체가 제공된다. 그러므로 본 발명의 바람직한 실시예는 컨퍼런스 세션을 수행하기 위하여 네트워크 엔티티, 방법 그리고 컴퓨터로 읽을 수 있는 저장 매체를 제공한다. 위에서 적시되었고 아래서 더욱 상세하게 설명될 본 발명의 바람직한 실시예에서의 상기 네트워크 엔티티, 방법 그리고 컴퓨터로 읽을 수 있는 저장 매체는 이전의 기술에서 밝혀진 문제들을 해결하고 더 나은 이점을 제공할 수 있다.
본 발명이 일반적인 용어로 설명된 뒤에 첨부된 도면들이 참조될 것이다. 이 도면들은 반드시 축척에 따라 그려질 필요는 없다.
도 1은 본 발명의 바람직한 실시예에 따른 단말기와 시스템의 어느 한 종류에 관한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따 단말기, 컴퓨팅 시스템 그리고 /또 는 컨퍼런싱 서버로서 작동가능한 엔티티의 개략적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 이동국을 포함하는 단말기의 대략적인 블록도이다.
도 4는 컨퍼런싱 서버를 통하여 컨퍼런스 세션을 수행하는 복수의 참가자에 대한 기능 블록도이다.
도 5와 6은 본 발명의 바람직한 실시예의 믹서에 관한 기능 블록도이다.
도 7은 본 발명의 바람직한 실시예에 따라 컨퍼런스 세션을 성립하고 수행하는 방법의 다양한 단계들을 도시하는 흐름도이다.
이제 본 발명은 본 발명의 바람직한 실시예들이 도시되어 있는 도면을 참조하여 더 완전하게 설명될 것이다. 본 발명은 그러나 다른 많은 형태로 구현될 수 있고 여기에 적시된 실시예에 국한되도록 해석되어선 안된다. 오히려, 이러한 실시예들은 당해 명세서가 상세하고 완전하도록, 그리고 당업자들에게 발명의 범위를 완전하게 전달하도록 제공되는 것이다. 동일한 번호들은 동일한 구성요소들을 지칭한다.
도 1을 참조하면, 본 발명으로부터 이익을 얻을 수 있는 단말기와 시스템의 어느 한 종류의 도면이 제시된다. 본 발명의 실시예의 시스템, 방법, 컴퓨터로 읽을 수 있는 저장 매체는 주로 이동통신 애플리케이션과 관련되어 설명될 것이다. 하지만, 본 발명의 실시예들의 시스템, 방법 및 컴퓨터로 읽을 수 있는 저장 매체가 이동통신 산업 및 이동통신 산업 외의 분야 모두, 다양한 다른 애플리케이션들과 관련하여 이용될 수 있다. 예를 들어 본 발명의 실시예들의 시스템, 방법, 컴퓨터로 읽을 수 있는 저장 매체는 유선 그리고/또는 무선 네트워크(예를 들어, 인터넷) 애플리케이션과 관련하여 이용될 수 있다.
도시된 바와 같이, 하나 이상의 단말기들(10)은 각각 기지 사이트 또는 기지국(BS)(14)에 신호를 전송하거나, 그곳들로부터 신호를 수신하기 위해 하나의 안테나(12)를 포함한다. 상기 기지국은 모바일 스위칭 센터(MSC)(16)와 같은 네트워크를 작동시키는데 필요한 요소들을 각각 포함하는 하나이상의 셀룰러 또는 모바일 네트워크의 일부분이다. 당업자들에게 잘 알려져 있는 바와 같이 모바일 네트워크는 기지국/MSC/인터워킹 기능(BMI)으로서 언급될 수도 있다. 작동 시에 MSC는 단말기로 전화를 하거나 받을 때 단말기로의 그리고 단말기로부터의 콜을 라우팅 할 수 있다. 상기 MSC는 단말기가 전화 중일 때 육상통신 간선에의 연결을 제공할 수도 있다. 게다가, 상기 MSC는 단말기로의 그리고 단말기로부터의 메시지 전달을 제어할 수 있고, 또한 단말기에 대한 메시징 센터로의 그리고 메시징 센터로부터의 메시지 전달을 제어할 수 있다.
상기 MSC(16)은 근거리 통신망(LAN), 도시지역 네트워크(MAN) 그리고/또는 광역 통신망(WAN)와 같은 데이터 네트워크에 연결될 수 있다. 상기 MSC는 직접적으로 상기 데이터 네트워크에 연결될 수 있다. 그러나 하나의 통상적인 실시예에서 상기 MSC는 GTW(18)에 연결되고, 상기 GTW는 인터넷(20)과 같은 WAN에 연결된다. 차례로 프로세싱 요소(예를 들어, 퍼스널 컴퓨터, 서버 컴퓨터 또는 이와 유사한 것)와 같은 장치들은 인터넷을 통하여 단말기(10)에 연결된다. 예를 들어 아래 설 명된 바와 같이, 상기 프로세싱 요소들은, 컴퓨터 시스템(22) (도 1에서 두 개 도시), 컨퍼런싱 서버(24) (도 1에서 한 개 도시) 또는 이와 유사한 것과 결합된 하나 이상의 프로세싱 요소들을 포함할 수 있다.
상기 BS(14)는 시그널링 GPRS(범용 전파 서비스) 서포트 노드(SGSN)(26)에 연결 될 수도 있다. 당업자에게 잘 알려진 바와 같이, 상기 SGSN은 통상적으로 패킷 교환 서비스에 있어 상기 MSC와 유사한 기능을 수행할 수 있다. 상기 MSC와 같은 SGSN은 인터넷(20)과 같은 데이터 네트워크에 직접적으로 연결 될 수 있다. 그러나, 더욱 통상적인 일 실시예에서는 상기 SGSN은 GPRS 코어 네트워크와 같은 패킷교환 코어 네트워크에 연결된다. 상기 패킷교환 코어 네트워크는 GTW GPRS 서포트 노드(GGSN)(30)와 같은 또 다른 GTW에 연결되고, 상기 GGSN은 상기 인터넷에 연결된다. 상기 GGSN 뿐만 아니라, 상기 패킷교환 코어 네트워크도 GTW(18)에 연결될 수 있다. 또한 상기 GGSN은 메시징 센터에 연결될 수 있다. 이 점에서, 상기 MSC와 같은 상기 GGSN과 상기 SGSN은 MMS 메시지와 같은 메시지의 전달을 제어할 수 있는 것이다. 상기 GGSN과 SGSN은 단말기에 대한 메시징 센터로의 그리고 메시징 센터로부터의 메시지의 전달을 제어할 수 있다.
게다가 상기 SGSN(26)을 상기 GPRS 코어 네트워크(28)과 상기 GGSN(30)에 연결함으로써, 컴퓨팅 시스템(22) 그리고/또는 컨퍼런싱 서버(24)와 같은 장치들은 상기 인터넷(20), SGSN 그리고 GGSN을 통하여 상기 단말기(10)에 연결될 수 있다. 이 점에서 컴퓨팅 시스템 그리고/또는 컨퍼런싱 서버와 같은 장치들은 상기 SGSN, GPRS 그리고 GGSN을 통하여 상기 단말기와 통신할 수 있는 것이다. 직접적 또는 간 접적으로 상기 단말기들이나 다른 장치들(예를 들어, 컴퓨팅 시스템, 컨퍼런싱 서버, 기타 등등)을 상기 인터넷에 연결함으로써, 상기 단말기들은 상기 단말기의 다양한 기능을 수행하기 위해 하이퍼텍스트 전송 프로토콜(HTTP) 등에 따라 다른 장치나 또 다른 이들과 통신할 수 있다.
가능한 모든 모바일 네트워크의 모든 요소들이 여기에 도시되고 설명되지 않을 지라도, 상기 단말기(10)가 하나 이상 서로 다른 종류의 하나 이상의 네트워크와 BS(14)를 통하여 연결 될 수 있다는 점을 유념하여야 한다. 이 점에서 상기 네트워크(들)은 어떠한 하나 이상의 여러 1세대(1G), 2세대(2G), 2.5G 그리고 /또는 3세대(3G) 이동통신 프로토콜 또는 이와 유사한것에 따라 통신을 지원할 수 있다. 예를 들어, 하나 이상의 상기 네트워크(들)은 2G 무선 통신 프로토콜 IS-136 (TDMA), GSM, 그리고 IS-95 (CDMA).에 따라 통신을 지원할 수 있다. 또한, 예를 들어 하나 이상의 상기 네트워크(들)은 2.5G 무선 통신 프로토콜 GPRS, 향상된 데이터 GSM 환경(EDGE), 또는 이와 유사한 것에 따라 통신을 지원할 수 있다. 나아가, 예를 들어 하나 이상의 상기 네트워크(들)은 광대역 부호 분할 다중 접속(WCDMA)방식의 무선접속 기술을 사용하는 유니버설 모바일 텔레폰 시스템(UMTS) 네트워크와 같은 3G 무선 이동통신 프로토콜에 따라 통신을 지원 할 수 있다. TACS 뿐만이 아니라 어떤 협대역 AMPS(NAMPS) 네트워크(들)은 또한 본 발명의 실시예로부터 이익을 얻을 수 있다. 이중 및 고차 이동국(예를 들어, 디지털/아날로그 또는 TDMA/CDMA/아날로그 전화기)의 경우도 그러하다.
상기 단말기(10)는 나아가 하나이상의 무선 액세스 포인트들(AP들)(32)에 연 결될 수도 있다. 상기 AP들은 예를 들어 무선 주파수(RF), 블루투스(BT), 적외선 통신(IrDA) 또는 IEEE 802.11 (예를 들어, 802.11a, 802.11b, 802.11g, 802.11n, 기타 등등)과 같은 무선 LAN(WLAN) 기술들, IEEE 802.16과 같은 WiMAX 기술들, 그리고/또는 IEEE 802.15과 같은 울트라 와이드밴드(UWB) 기술들 또는 이와 유사한 기술들을 포함한 하나 이상의 서로 다른 무선 네트워킹 기술들에 따라 상기 단말기와 통신하도록 설정된 액세스 포인트들을 포함할 수 있다. 상기 AP들은 인터넷(20)에 연결될 수도 있다. 상기 MSC(16)와 같이 상기 AP들은 상기 인터넷에 직접적으로 연결될 수 있는 것이다. 그러나 일 실시예에서, 상기 AP들은 GTW(18)를 통하여 간접적으로 인터넷에 연결된다. 상기 단말기와 상기 컴퓨팅 시스템(22), 컨퍼런싱 서버(24), 그리고/또는 하나이상의 다른 장치들을 상기 인터넷에 직접 또는 간접적으로 연결됨으로써, 상기 단말기들은 다른 이 또는 상기 컴퓨터 시스템 등과 통신할 수 있다. 그리하여 데이터나 컨텐츠 및 이와 유사한 것을 상기 컴퓨팅 시스템에 송신 및/또는 상기 컴퓨팅 시스템으로부터 수신하는 등의 상기 단말기의 다양한 기능을 수행하게 된다. 여기 쓰인 “데이터”, “컨텐츠”, “정보” 또는 이와 유사한 용어들은 본 발명의 실시예에 따라 송신, 수신, 저장되도록 설정된 데이터를 지칭하기 위해 서로 교환적으로 쓰일 수 있다. 그러므로 이런 어떠한 용어의 사용도 본 발명의 사상과 범위를 제한하는 것으로 여겨져서는 안된다.
도 1에서 보여지지는 않더라도, 상기 인터넷(20)을 통하여 상기 단말기(10)가 컴퓨팅 시스템들(22)에 연결되는 것에 부가하거나 대신하여, 상기 단말기들과 컴퓨터 시스템은 다른 것과도 연결되어 예를 들면, RF, BT, IrDA 또는 LAN, WLAN, WiMAX 그리고/또는 UWB 기술 등을 포함한 하나 이상의 서로 다른 유무선 통신 기술에 따라 통신할 수 있다. 하나 이상의 상기 컴퓨터 시스템은 부가적 또는 대안적으로 컨텐츠를 저장하도록 설정된 탈착식 메모리를 포함할 수 있다. 이러한 컨텐츠들은 후에 상기 단말기들에게 전송될 수 있다. 나아가 상기 단말기(10)는 프린터, 디지털 프로젝터 그리고/또는 다른 멀티미디어 캡처링, 제작 그리고/또는 저장 장치(예를 들어, 다른 단말기들)와 같은 하나 이상의 전기장치와 연결될 수 있다. 상기 컴퓨팅 시스템(22)와 같이, 상기 단말기는 예를 들면, RF, BT, IrDA 또는 USB, LAN, WLAN, WiMAX 그리고/또는 UWB 기술 등을 포함한 하나 이상의 서로 다른 유무선 통신 기술 등에 따라 상기 이동식 전기장치들과 통신하도록 설정될 수 있다.
이제 도 2를 참조하면, 단말기(10), 컴퓨팅 시스템(22) 그리고/또는 컨퍼런싱 서버(24)로서 작동가능한 엔티티의 블록도가 본 발명의 일 실시예와 함께 보여진다. 개별적인 엔티티로서 보여짐에도 불구하고 어떤 실시예에서는 하나이상의 엔티티들이 상기 엔티티들과 논리적으로는 분리되나, 함께 위치한 하나이상의 단말기, 컨퍼런싱 서버 그리고/또는 컴퓨팅 시스템을 지원할 수 있다. 예를 들어, 하나의 엔티티는 논리적으로 분리되어 있지만, 함께 위치한, 컴퓨팅 시스템과 컨퍼런싱 서버를 지원할 수 있다. 또한 예를 들어, 하나의 엔티티는 논리적으로 분리되어 있지만, 함께 위치한, 단말기와 컴퓨팅 시스템을 지원할 수 있다. 나아가, 예를 들어, 하나의 엔티티는 논리적으로 분리되있지만, 함께 위치한, 단말기와 컨퍼런싱 서버를 지원할 수 있다.
단말기(10), 컴퓨팅 시스템(22) 그리고/또는 컨퍼런싱 서버(24)로 작동가능 한 상기 엔티티는 여기에 도시되고 설명된 것보다 더욱 특정된 것을 포함한 본 발명의 바람직한 실시예에 따라 하나 이상의 기능을 수행하기 위한 다양한 수단들을 포함한다. 그러나 이러한 하나 이상의 상기 엔티티들은 하나 이상의 기능들을 수행하기 위해 본 발명의 사상과 범위에서 벗어남이 없이 대체적인 수단을 포함할 수 있다. 더욱 상세하게는, 예를 들어 도 2에 도시된 바와 같이, 상기 엔티티는 메모리(36)에 연결된 프로세서(34)를 포함한다. 상기 메모리는 휘발성 그리고/또는 비휘발성 메모리를 포함하고, 통상적으로 컨텐츠, 데이터 또는 이와 유사한 것을 저장한다. 예를 들어, 상기 메모리는 통상적으로 상기 엔티티로부터 송신되거나 수신된 컨텐츠를 저장한다. 또한 예를 들어, 상기 메모리는 통상적으로 본 발명의 실시예들에 따라 상기 엔티티의 작업과 결합된 단계들을 수행하는 상기 프로세서에 대한 클라이언트 애플리케이션, 명령 등을 저장한다. 아래 설명할 바와 같이, 예를 들어, 상기 메모리는 클라이언트 애플리케이션(들)을 저장할 수 있다.
여기 설명된 바와 같이, 상기 클라이언트 애플리케이션(들)은 각각의 상기 엔티티들에 의해 작동되는 소프트웨어를 각각 포함한다. 그러나 여기에 설명된, 이러한 하나 이상의 상기 클라이언트 애플리케이션은 본 발명의 사상과 범위를 벗어나지 않고, 대안적으로 펌웨어나 하드웨어를 포함할 수도 있다는 점이 이해되어야 한다. 그리하여, 일반적으로, 상기 단말기(10), 컴퓨팅 시스템(22) 그리고/또는 컨퍼런싱 서버(24)는 하나 이상의 클라이언트 애플리케이션(들)의 다양한 기능을 수행하기 위하여 하나 이상의 논리요소를 포함할 수 있다. 상기 논리요소들은 하나 이상의 서로 다른 방법으로 구체화될 수 있다. 이 점에 관해서, 하나 이상의 클라 이언트 애플리케이션의 상기 기능들을 수행하는 상기 논리요소들은 하나 이상의 집적회로 인테그랄들을 포함한 집적회로 어셈블리내에 구체화되거나 그렇지 않으면 각각의 네트워크 엔티티(예를 들어, 단말기, 컴퓨팅 시스템, 컨퍼런싱 서버 등등) 또는 더 상세하게 말하자면, 예를 들어, 상기 각 네트워크 엔티티의 프로세서(34)와의 통신 내에서 구체화될 수도 있다.
집적회로를 설계하는 것은 대체로 고도로 자동화된 공정이다. 이 점에 관해서, 논리 수준의 설계로부터 반도체 기판에 식각되고 형성될 준비가 된 반도체 회로 설계로 변환시키기 위한 복잡하고 강력한 소프트웨어 도구들이 이용 가능하다. 이러한 소프트웨어 도구들은 잘 확립된 설계 규칙뿐만 아니라 미리 저장된 설계 모듈의 거대 라이브러리를 이용하여 자동적으로 반도체 칩에 도선을 경로화하고 구성요소들을 배치한다. 일단 반도체 회로에 대한 상기 설계가 완성되면 표준화된 전자 형식(예를 들어, Opus, GDSII, 또는 이와 유사한 것)을 갖춘 상기 결과의 설계는 패브리케이션을 위해 반도체 패브리케이션 설비 또는 “팹(fab)”에 전송된다.
상기 메모리(36)에 부가하여, 상기 프로세서(34)는 적어도 하나의 인터페이스 또는 데이터, 콘텐츠 또는 이와 유사한 것의 디스플레이, 전송 그리고/또는 수신을 위한 다른 수단에 연결될 수 있다. 이 점에 관하여, 상기 인터페이스(들)은 적어도 하나의 통신 인터페이스(38) 또는 데이터, 콘텐츠 또는 이와 유사한 것의 전송 그리고/또는 수신을 위한 다른 수단을 포함할 수 있다. 아래 설명된 바와 같이, 예를 들어, 상기 통신 인터페이스(들)은 첫번째 네트워크에의 연결을 위한 첫번째 통신 인터페이스, 그리고 두번째 네트워크에의 연결을 위한 두번째 통신 인터 페이스를 포함할 수 있다. 상기 통신 인터페이스(들)에 부가하여, 상기 인터페이스(들)은 적어도 하나의 사용자 인터페이스를 포함할 수 있는데, 이 사용자 인터페이스는 하나 이상의 이어폰 그리고/또는 스피커들(39), 디스플레이(40), 그리고 또는 사용자 입력 인터페이스(42)를 포함할 수 있다. 상기 사용자 입력 인터페이스는, 차례로, 즉 상기 엔티티가 사용자로부터 데이터를 수신할 수 있도록 마이크로폰, 키패드, 터치 디스플레이, 조이스틱 또는 다른 입력장치와 같은 많은 장치들 중의 어떤 것도 포함할 수 있다.
도 3은 본 발명의 실시예로부터 이익을 얻을 단말기(10)의 한 가지 종류를 도시한다. 그러나 여기에 도시되고 설명되는 상기 단말기는 본 발명에서 이득을 얻을 한가지 종류의 단말기의 예시일 뿐이라는 것을 유념하여야 하며, 그러므로, 본 발명의 범위를 제한하는 것으로 여겨져서는 안된다. 상기 단말기의 몇가지 실시예들이 도시되고 설명되지만, PDA들, 페이저들 , 랩톱 컴퓨터들 그리고 다른 종류의 전기적 시스템과 같은 다른 유형의 단말도 당연히 본 발명을 즉시 채택할 수 있다.
상기 단말기(10)는 여기에 더욱 상세하게 설명될 본 발명의 바람직한 실시예에 따른 하나 이상의 기능들을 수행하는 다양한 수단들을 포함한다. 하지만, 상기 단말기는 본 발명의 사상과 범위로부터 벗어나지 않으면서 이와 유사한 기능들을 수행하는 하나 이상의 대체적인 수단을 포함할 수도 있다는 사실을 유념하여야 한다. 더욱 상세하게는, 예를 들어, 도 3에 도시된, 안테나(12)에 부가하여 상기 단말기(10)는 트랜스미터(44), 리시버(46) 그리고 트랜스미터와 리시버 각각으로부터 신호를 전송하고 수신하는 컨트롤러(48)를 포함한다. 이 신호들은 상기 응용 셀룰 러 시스템의 무선 인터페이스 표준에 따른 시그널링 정보와 사용자의 발언 그리고 또는 사용자 생성 데이터들을 포함한다. 이 점에 관하여, 상기 단말기는 하나 이상의 무선 인터페이스 표준, 통신 프로토콜, 변조 타입 그리고 접속 타입으로 작동하도록 구성될 수 있다. 더욱 상세하게는, 상기 단말기는 임의의 수의 1세대(1G), 2세대(2G), 2.5G 그리고/또는 3세대(3G) 통신 프로토콜 또는 이와 유사한 것에 따라 작동하도록 구성될 수 있다. 예를 들어 상기 단말기는 2G 무선 통신 프로토콜 IS-1 36 (TDMA), GSM, 그리고 IS-95 (CDMA)에 따라 작동하도록 구성될 수 있다. 또한, 예를 들어, 상기 단말기는 2.5G 무선 통신 프로토콜 GPRS, 향상된 데이터 GSM 환경(Enhanced Data GSM Environment; EDGE) 또는 이와 유사한 것에 따라 작동하도록 구성될 수 있다. 나아가 예를 들어, 상기 단말기는 광대역 다중 접속(WCDMA) 무선 접속 기술을 사용하는 유니버설 이동 전화 시스템 (UMTS)네트워크와 같은 3G 무선 통신에 따라 작동하도록 구성될 수 있다. 이중 또는 더 상위의 이동국 (예를 들어, 디지털/아날로그 또는 TDMA/CDMA/아날로그 전화기)의 경우에 그런 것처럼, TACS 뿐만이 아니라 일부 협대역 AMPS (NAMPS) 이동 단말기는 이 발명의 교시로부터 이익을 얻을 수 있다.
상기 컨트롤러(48)는 상기 단말기(10)의 상기 오디오와 논리 함수를 구현하기 위해 필요한 상기 회로소자를 포함한 것을 유념하여야 한다. 예를 들어, 상기 컨트롤러는 디지털 신호 프로세서 장치, 마이크로프로세서 장치, 그리고 다양한 아날로그-디지털 컨버터, 디지털-아날로그 컨버터 그리고 다른 지원회로를 포함할 수 있다. 상기 상기 단말기의 컨트롤 그리고 신호 프로세싱 기능은 그들 각각의 성능 에 따라 이러한 장치들 사이에 배치된다. 상기 컨트롤러는 부가적으로 내부 보이스 코더(VC), 그리고 내부 데이터 모뎀(DM)을 포함할 수 있다. 나아가, 상기 컨트롤러는 아래 설명할 메모리에 저장될 하나 이상의 소프트웨어 프로그램들을 작동시키기 위한 기능을 포함 할 수 있다. 예를 들어, 상기 컨트롤러는 종래의 웹 브라우저와 같은 연결 프로그램을 작동시키도록 구성될 수 있다. 연결 프로그램은 예를 들어 HTTP 그리고 또는 무선 응용 통신규약(Wireless Application Protocol; WAP)에 따라 상기 단말기가 웹 컨텐츠들을 전송하고 수신할 수 있도록 허용할 수 있다.
상기 단말기(10)는 사용자 인터페이스를 포함하는데, 이 사용자 인터페이스는 하나 이상의 이어폰 그리고/또는 스피커(50), 링어(ringer)(52), 디스플레이(54) 그리고 사용자 입력 인터페이스를 포함하며, 사용자 인터페이스에 포함되는 이 모든 것은 상기 컨트롤러(48)에 연결된다. 상기 사용자 입력 인터페이스는 상기 단말기가 데이터를 수신하도록 허락하고, 마이크로폰(56), 키패드(58), 터치 디스플레이 그리고 또는 다른 입력 장치와 같이 단말기가 데이터를 수신하도록 허락하는 임의의 수의 장치들을 포함할 수 있다. 키패드를 포함하는 실시예에서, 상기 키패드는 상기 단말기를 작동시키는데 쓰이는 종래의 수치(0-9)에 대한 키와 그와 관련된 키 (#, *) 및 기타 키를 포함한다. 도시되지 않을지라도, 상기 단말기는 감지 가능한 출력으로서의 기계적인 진동을 선택적으로 제공하는 것뿐만 아니라 상기 단말기를 작동시키는데 필요한 상기 다양한 회로들에 전력을 제공하기 위한 진동 배터리 팩과 같은 배터리를 포함할 수 있다.
상기 단말기(10)는 데이터를 공유 그리고/또는 획득하기 위한 하나 이상의 수단을 포함할 수 있다. 예를 들어, 상기 단말기는 상기 데이터가 RF기술에 따라 전기장치에서 공유 및/또는 획득되도록 단거리 무선 주파수 (RF) 송수신기 또는 인테로게이터(60)를 포함할 수 있다. 상기 단말기는 부가적으로 혹은 대안적으로, 적외선 (IR) 송수신기(62), 그리고/또는 블루투스 스페셜 인터레스트 그룹(the Bluetooth Special Interest Group)에 의해 개발된 Bluetooth 브랜드 무선 기술을 사용하여 작동하는 블루투스 (BT) 송수신기(64)와 같은 다른 단거리 송수신기를 포함할 수도 있다. 상기 단말기는 그리하여 부가적으로 또는 대안적으로 이러한 기술들에 따라 전기 장치들로부터 데이터를 송수신하도록 구성될 수 있다. 도시되지 않을지라도, 상기 단말기는 부가적으로 또는 대안적으로 WLAN, WiMAX, UWB 및 이와 유사한 것을 포함하는 다수의 다른 무선 네트워킹 기술들에 따라 전기장치들로부터 데이터를 송수신하도록 구성될 수 있다.
상기 단말기(10)는 나아가 가입자 식별 모듈 (SIM) (66), 착탈식 사용자 식별모듈 (R-UIM) 또는 이와 유사한 것과 같은 메모리를 포함할 수 있으며, 이것들은 일반적으로 이동통신 가입자에 관련시킨 정보 요소들을 저장한다. SIM에 부가하여, 상기 단말기는 다른 착탈식 및/또는 고정식 메모리를 포함할 수도 있다. 이 점에 관하여, 상기 단말기는 데이터의 임시 기억 장치를 위한 캐시 영역을 포함하는 휘발성 랜덤 액세스 메모리(RAM)과 같은, 휘발성 메모리(68)를 포함할 수 있다. 상기 단말기는 또한 다른 비휘발성 메모리(70)을 포함할 수 있으며, 이는 내장 및/또는 탈착될 수 있다. 상기 비휘발성 메모리는 부가적으로 또는 대안적으로 EEPROM, 플래시 메모리 또는 이와 유사한 것을 포함한다. 상기 메모리는 상기 단말기의 상기 기능들을 구현하기 위해 상기 단말기에 의해 사용되는 수많은 양의 정보 및 데이터의 어떤 것도 저장할 수 있다. 예를 들어, 상기 메모리들은 상기 MSC(16)과 같은 상기 이동국을 식별할 수 있는 국제 이동 장비 식별 (IMEI) 코드, 국제 이동 가입자 식별 (IMSI) 코드, 이동국 통합 서비스 디지털 네트워크(MSISDN) 코드 (무선통신 단말기 넘버), 접속 설정 프로토콜(SIP) 어드레스 또는 이와 유사한 것과 같은, 식별자를 저장할 수 있다. 게다가, 상기 메모리들은 상기 단말기에서 작동하도록 구성된 하나 이상의 클라이언트 애플리케이션을 저장할 수 있다.
본 발명의 바람직한 실시예에 따라, 컨퍼런스 세션은 컨퍼런싱 서버(24)를 통한 분산 또는 집중 배치하에 복수의 장치(예를 들어, 단말기(10), 컴퓨팅 시스템(22), 기타 등등)를 통하여 복수의 참가자들 사이에 성립될 수 있다. 참가자들은 각각 적어도 하나의 참가자를 포함하는 복수의 원격위치에 위치할 수 있다. 복수의 참가자를 포함하는 위치 중에서 적어도 하나에서의 참가자들은 근접 네트워크를 형성하거나, 반대로 공통의 음향공간 안에 위치할 수 있다. 상기 컨퍼런스 세션 동안, 상기 참가자들의 장치는 그에 인접한 음향이나 발언활동을 수집하여 이를 표현하는 신호들을 생성할 수 있다. 그러면 상기 신호들은 상기 컨퍼런스 세션에의 다른 참가자들과 통신하기 위한 출력신호에 믹싱될 수 있다.
도 4는 컨퍼런스 세션을 성립하고 실행하는 복수의 컨퍼런스 참가자(72)들의 기능 블록도이다. 위에 표시한 바와 같이, 적어도 상기 참가자중 일부는 상기 컨퍼런스 세션 동안 통신을 수행하는 각각의 장치들과 연관될 수 있다. 따라서, 아래 설명된, “참가자”라는 단어는 어떤 한 참가자 자체 그리고/또는 상기 참가자와 연관된 장치를 말한다. 보여진 바대로, 상기 컨퍼런스 세션은 컨퍼런싱 서버(24)를 통하여 집중 배치로 구성된다. 그러나 필요하다면 상기 컨퍼런스 세션은 대안적으로 컨퍼런싱 서버 없이 분산 배치하에 성립되고 수행될 수도 있다는 점을 유념하여야 한다. 상기 컨퍼런스 세션의 특정한 배치방법과는 상관없이, 상기 참가자는 각각 적어도 하나의 참가자를 포함한 복수의 원격 위치(74)에 위치한다.
하나 이상의 상기 원격 위치(74)에, 각 위치의 상기 참가자들(72)의 적어도 일부가 음성통신의 교환을 위해 근접 네트워크(76)를 구성할 수 있다. 여기에 사용된 것처럼, “음성 통신”은 각 참가자들로부터의 신호에 의해 운반되거나 대표되는 음성 및/또는 음향 통신을 지칭한다. 유사하게, “발언활동”은 일반적으로 음성 및/또는 다른 음향을 지칭한다.
상기 근접 네트워크(76)는 RF, BT, IrDA 그리고/또는 LAN, WLAN, WiMAX 및/또는 UWB기술과 같은 수많은 상이한 무선 및/또는 유선 네트워킹 기술과 같은 수많은 서로 다른 통신 기술에 따라서 설립될 수 있다. 근접 네트워크 내에서, 상기 참가자들 중의 하나는 상기 하나 이상의 참가자가 음성통신 교환에 대하여 슬레이브로 기능하는 동안 마스터로써 기능할 수 있다. 이 점에 관해서는, 아래 설명된 것처럼, 근접 네트워크의 상기 마스터는 각각의 근접 네트워크에 있는 상기 참가자와 각각의 근접 네트워크 밖에 있는 상기 참가자 사이의 음성 통신의 교환 또는 다른 전송을 제어하도록 정해질 수 있다. 도 4에 도시된 바와 같이, 예를 들면 제1 위치는 참가자 72a-72c를 포함하며, 거기서 참가자 72a와 72b가 슬레이브로서 기능하고, 참가자 72c가 마스터로서 기능한다.
상기 컨퍼런스 세션동안, 그 안에서 각각의 근접 네트워크(76)을 포함하는 참가자들(72)이 다수의 서로 다른 방법으로 음성 통신을 교환할 수 있다. 예를 들어, 근접 네트워크의 상기 참가자들중 적어도 일부는 상기 각각의 근접 네트워크와 독립적으로 참가자들 중 하나(예를 들어, 상기 마스터)를 경유하거나 참가자들과 통신중인 다른 엔티티를 경유하여 음성 통신을 교환할 수 있다. 상기 근접 네트워크 내의 상기 참가자들중 하나의 상기 장치 또는 또 다른 장치가 스피커폰으로서 작용할 수 있는 경우가 그러하다. 또한, 예를 들어, 근접 네트워크의 상기 참가자들의 전체가 아닌 일부의 경우, 그들은 근접 네트워크와 상기 참가자들중 하나(예를 들어, 마스터)를 경유하거나 근접 네트워크 내이고 상기 참가자들과 통신중인 또 다른 엔티티를 경유하여 다른 참가자들과 음성 통신을 교환할 수 있다. 근접 네트워크 내의 참가자들은 임의의 수의 서로 다른 방법으로 음성 통신을 교환할 수 있다는 것을 유념하여야 한다.
각각의 근접 네트워크(76)에서 상기 참가자들(72)을 위한 컨퍼런스 세션의 수행을 용이하게 하기 위해, 마스터(예를 들어, 72c)는 각각의 근접 네트워크의 근접 네트워크의 상기 참가자들(72)의 음성 통신을 전달하거나, 그렇지 않으면, 각 근접 네트워크의 참가자들 (72)의 음성 통신을 나타내고, 그리고 각 참가자들 및/또는 상기 근접 네트워크 외부의 참가자들 (예를 들면, 참가자 72d)로의 출력을 위해 그 신호들을 믹싱하기 위해 믹서(78)를 작동시키도록 구성될 수 있다. 여기에서 도시되고 설명된 것처럼, 상기 믹서(78)은 각각의 네트워크 엔티티에 의하여 작동가능한 소프트웨어를 포함한다. 믹서가 본 발명의 사상과 범위를 벗어나지 않고, 대안적으로 펌웨어 또는 하드웨어를 포함할 수 있다는 것을 유념해야 한다. 또한, 믹서가 상기 근접 네트워크의 상기 마스터에 로컬화되어 있는 것으로 도시되고 설명되더라도, 상기 컨퍼런싱 서버(24)에서 그러한 것처럼 믹서는 선택적으로 상기 마스터로부터 분배될 수 있다. 나아가, 여기 도시되고 설명된 것처럼 음성통신(또는 음성 통신을 전달하거나, 이를 표현하는 신호들)은 하나 이상의 참가자들로부터 하나 이상의 참가자들에게 제공되고, 교환되며 전달된다. 여기서 쓰인 “제공”, “교환” 그리고 “전달” 등의 단어는 본 발명의 사상과 범위를 벗어나지 않는 한도 내에서 음성 통신을 이동시키거나 복제하는 등의 뜻도 포함한다는 점을 유념해야 한다.
본 발명의 바람직한 실시예에 따라서, 상기 믹서(78)는 특정한 위치에서 참가자들(72)의 상기 신호들을 근접 네트워크(76)안으로 믹싱하도록 구성될 수 있다. 이 신호들은 각각의 통신 채널을 통해 서로 전달되고, 상기 각각의 근접 네트워크 밖의 다른 위치들의 참가자들에 대한 통신을 위한 출력에 믹싱될 수 있다. 이 점에 관하여, 믹싱된 출력은 다음 방법과 같이, 상기 입력 신호의 가중합을 포함할 수 있다.
Figure 112009045458199-pct00001
앞부분에서, sout은 상기 출력 신호를 나타내고, n=1,2…N은 상기 특정 위치 에서의 각 참가자들의 에 대한 N개의 채널을 나타내며, sn은 (N명의 참가자들중 n번째의) n번째 입력채널로부터의 신호를 나타내고, gn은 n번째 입력채널로부터 상기 신호에 주어진 가중치나 이득값을 나타낸다. 여기 설명된 바와 같이 상기 참가자들로부터의 신호들은 각 채널을 통하여 통신된다. 그러므로 “신호” 및 채널”은 참가자의 채널을 통한 신호의 의미로 대신하여 또는 혼합되어 사용될 수 있다.
상기 각 신호에 주어진 이득값은 다수의 서로 다른 요인들에 의존할 수 있는데, 예를 들어 이러한 요인들은 상기 채널들 및/또는 발언활동의 순위가 될 수 있다. 이 점에 관하여, 상기 신호들은 각각의 근접 네트워크(76) 내에 참가자의 장치들(72) 근처의 발언활동도의 대략적인 인접성에 따라 순위가 매겨질 수 있다. 상기 순위가 매겨진 신호들에 대한 이득값은 발언활동의 클래스를 따로 정의한 믹싱 테이블로부터 얻어질 수 있다. 상기 발언활동의 분류는 예를 들어 다음과 같이 이루어진다.
a) 발언의 중단 (적극적으로 발언하는 참가자가 없는 경우)
b) 트랜스미터 발언 (하나의 적극적으로 발언하는 참가자가 있는 로컬지역에 있는 경우)
c) 동시 발언 (여러 명의 적극적으로 발언하는 참가자들이 로컬지역에 있는 경우)
d) 리시버 발언 (하나의 적극적인 발언하는 참가자가 원격지역에 있는 경우)
e) 이중 발언 (적극적인 발언하는 참가자들이 로컬 및 원격지역에 있는 경우)
f) 동시/이중 발언 (여러 명의 적극적인 발언하는 참가자가 로컬지역에 있고, 하나 이상의 적극적인 발언하는 참가자들이 원격지역에 있는 경우)
이러한 믹싱 테이블은 다수의 서로 다른 방법 및 서로 다른 원칙에 의해 설계될 수 있다. (각각의 근접 네트워크 (76) 내에 또는 외부에) 적극적으로 발언하는 참가자가 없는 곳에서의 발언의 중단 동안에는, 예를 들어, 상기 이득이 거의 0이 되거나, 0에 가깝도록 셋팅되고 그리고/또는 모든 이득값이 거의 0으로 셋팅된 출력에 컴포트 노이즈가 더해질 수 있다.
트랜스미터 발언 동안, 예를 들면, 각각의 근접 네트워크(76)에 있는 그 참가자들(72)의 신호들은 (근접 네트워크 내에서) 적극적으로 발언하는 것 같은 참가자의 신호가 제1순위로 매겨지도록 그들의 상대적인 강도에 따라서 순위가 매겨질 수 있다. 제1순위 신호는 그 신호가 가장 바람직한 신호 대 잡음비(SNR)와 잔향 조건을 가질 가능성이 높기 때문에 가장 큰 이득값을 부여받을 수 있다. 그리고 나서 상기 랭킹 절차의 신뢰도에 따라, 다른 신호의 이득값은 거의 0 또는 근접한 0에 셋팅될 수 있다. 이점에 관해서는 상기 랭킹 절차가 비-최적 신호를 전송할 위험도가 낮은 등의 높은 신뢰도를 가진다면, 다른 신호들에 대한 이득값은 거의 0에 셋팅될 수 있다. 그러나 비-최적 신호를 전송할 위험도가 더 높아지는 등의 더 낮은 신뢰도를 가진다면, 다른 신호들에 대한 이득값은 0에 가까운 값이 셋팅될 것이다. 예를 들어, 상기 랭킹 절차가 높은 신뢰도를 가진다면, 다른 신호들의 이득값이 제1순위 신호의 이득값의 대략 0-30%에 셋팅될 수 있다; 또는 상기 랭킹 절차가 더 낮은 신뢰도를 가진다면, 다른 신호들의 이득값이 제1순위 신호의 이득값의 대략 70-90%에 셋팅될 수 있다.
트랜스미터 발언과 유사하게, 동시 발언 동안에는, 예를 들면, 각각의 근접 네트워크(76)내의 그 참가자들(72)의 상기 신호들은 (근접 네트워크 내에서) 적극적으로 발언하는 것 같은 참가자의 신호가 최고 순위로 매겨지도록 그들 상대적인 강도에 따라서 순위가 매겨진다. 상기 최고순위의 신호는 그 신호가 가장 바람직한 SNR과 잔향 조건을 가질 가능성이 높기 때문에 가장 큰 이득값을 부여 받을 수 있다. 동시에 발언하는 참가자들의 증가를 허용하는 것은 출력값을 파악하는데 어려움을 증가시키므로 최고순위로 매겨진 신호들의 수는 미리 정해진 발언하는 참가자들의 수에 제한될 수 있다. 예를 들면, 로컬 지역에 존재하는 동시 발언하는 참가자들의 수는 가장 강한 2개의 신호가 제1순위와 제2순위로 매겨지도록 둘로 제한되고, 그 둘은 가장 큰 이득값을 부여 받도록 할 수 있다. 그리고 다시, 트랜스미터 발언과 유사하게, 다른 신호들의 이득값은 랭킹 절차의 신뢰도에 따라 거의 0 또는 0에 가깝게 셋팅된다.
근접 네트워크(76)내의 참가자들 중 아무도 적극적으로 발언하는 자가 없는 곳의 리시버 발언 동안에는, 예를 들면, 이러한 참가자들의 신호들의 이득값이 낮은 값에 셋팅될 수 있고, 필요하다면(그리고 특히 이득값이 0에 가깝게 셋팅된 경우). 상기 출력에 컴포트 노이즈가 추가될 수 있다.
이중 발언 동안에는, 예를 들면, 각각의 근접 네트워크(76)에 있는 그 참가자들(72)의 신호들은 (근접 네트워크 내에서) 적극적으로 발언하는 것 같은 참가자의 신호가 제1순위로 매겨지도록 그들의 상대적인 강도에 따라서 순위가 매겨질 수 있다. 제1순위 신호는 그 신호가 가장 바람직한 신호 대 잡음비(SNR)와 잔향 조건을 가질 가능성이 높기 때문에 가장 큰 이득값을 부여받을 수 있다. 다른 신호의 이득값은 제1순위신호의 이득값보다 낮지만, 트랜스미터 발언의 경우의 이러한 다른 신호보다는 높게 셋팅될 것이다. 이는 에코 제거 알고리즘이 상기 신호를 보다 쉽게 잘라내기 시작할 수 있도록 위함이며, 여러 신호들을 서밍함으로서, 신호들을 믹싱하는 것이 적어도 일부 범위에서 이러한 바람직하지 않은 효과를 보상해준다.
그리고 동시/이중 발언 동안에는, 각각의 근접 네트워크(76)에 있는 참가자들(72)의 상기 신호들의 순위가 매겨질 수 있다. 최고 순위의 신호에는 동시 발언의 경우와 유사한 방법으로 이득값이 부여되며, 그 외의 신호의 이득값의 경우에는 에코 제거에 관해 발생 가능한 문제들을 해결하기 위해 이중 발언의 경우와 유사한 방법으로 셋팅된다.
상기 근접 네트워크 참가자의 신호에 이득값을 할당하고, 상기 결과적 가중치 적용 신호를 서밍하는 것에 대하여 나아가, 상기 믹서(78)는 하나 이상의 그 신호의 볼륨 레벨을 이퀄라이징하기 위한 자동볼륨조정(AVC) 기능을 포함할 수 있다. 상기 신호 볼륨 레벨은 신호를 이퀄라이징하는 하는 단계를 통하여 신호를 믹싱하기 전에 이퀄라이징된다. 상기 같은 믹싱 알고리즘은 AVC 기능을 포함하는 경우뿐만 아니라 AVC기능을 포함하지 않는 사례에도 적용될 수 있다. 적절한 사례에서 언 제 신호 볼륨 레벨이 이퀄라이징되는 지에 상관없이 다양한 신호레벨은 음성 활성 감지(voice activity detection; VAD) 그리고/또는 동시 발언 감지(simultaneous talk detection; STD) 정보에 기반하여 이퀄라이징될 수 있다. 트랜스미터 발언의 경우에는, 예를 들면, 제1순위 신호의 레벨은 미리 정의된 목적 레벨에 이퀄라이징될 수 있다. 그리고 동시 발언의 경우에, 예를 들면, 최고 순위 신호들(예를 들어, 2개의 최상위 순위 신호)이 미리 정의된 목적 레벨에 이퀄라이징될 수 있다.
도 5는 본 발명의 바람직한 일 실시예에 따른 믹서(78)의 기능 블록도를 나타낸다. 초기에, 믹서가 광대역 (fs = 16 kHz) 그리고/또는 협대역 (fs = 8 kHz) 및 또는 다수의 다른 대역폭에 대한 작동을 위해 구성될 수 있다는 점을 유념해야 한다. 또한 상기 믹서가 다수의 서로 다른 방법으로 포맷이 지정된 발언 신호들을 믹싱하기 위해 구성될 수 있다는 점도 주의해야 한다. 일 실시예에서, 예를 들면, 상기 믹서는 대략 10ms 와 30ms 사이의 임의의 길이의 프레임으로 구성된 발언 신호들을 믹싱하도록 구성될 수 있다.
도 5에 도시된 바와 같이, 상기 믹서(78)은 컨퍼런스 세션 동안 근접 네트워크(76)내의 각 참가자들(72) (예를 들면, 참가자 72a, 72b와 72c)로부터 (TX 입력으로 도시된) 신호를 수신하도록 구성된 특징추출요소(80), (TX-VAD로 나타난) 음성활성감지(VAD) 요소(82) 및 동시발언감지(STD) 요소(84)를 포함할 수 있다. 이러한 신호는 근접 네트워크 내에 참가자 사이의 음성 통신을 전달하거나 표현할 수 있다.
상기 특징추출요소(78)는 각각의 신호로부터 설명적 특징 또는 특징벡터의 집합을 추출하거나 그렇지 않다면 결정하도록 구성될 수 있다. (특정 참가자를 위한) 입력 채널에 대한 각 특징값은 절대적인 값으로 이루어질 수 있다. 다양한 사례에서, 그러나, 하나 이상의 특징값은 (다른 입력 채널로부터의 대응되는 특징값에 대해 상대적인) 상대적인 값으로 이루어질 수도 있다. 그리고 특징추출요소가 각각의 신호로부터 임의의 특징들을 추출하거나 결정하기 위해 구성되더라도, 일 실시예에서의 상기 특징들은, 예를 들면, 프레임 에너지 비율, 신호-대-잡음비 (SNR)와 단기 대 장기(short-term-to-long-term) 에너지 비율을 포함한다.
N번째 입력 채널로부터의 신호의 프레임에 대한 프레임 에너지 비율은 현재 프레임과 바로 직전 프레임의 에너지의 비율로 이루어질 수 있다. 이 점에 관해서는, 가장 큰 프레임 에너지는 적극적으로 발언하는 참가자의 장치에 해당하는 상기 근접 네트워크(76)내의 참가자의 장치에 가까운 발언활동과 가장 근접하는 참가자 장치들(72)의 채널과 결합될 수 있다. 또한 침묵 또는 발언의 중단 후의 음성 버스트의 시작은 상술한 발언활동에서 가장 가까운 참가자의 장치에서 관찰될 수 있고, 그처럼, 상기 프레임 에너지 비율은 도착 시간 지연(time-delay-of-arrival, TDOA) 측정의 대략적인 추정치라고 생각할 수 있다. 식으로 표현한다면, n번째 참가자(n번째 입력 채널로부터의)로부터의 신호 sn의 k번째 프레임에 대한 프레임 에너지 비율은 다음과 같이 결정된다 :
Figure 112009045458199-pct00002
앞에서, ERn(k) 는 프레임 에너지 비율을 나타내고, E[]는 에너지를 나타낸다. 상기 프레임 에너지 비율이 프레임 기반의 특징이므로, 프레임 에너지 비율의 정확도는 프레임의 길이가 증가함에 따라 감소할 수 있다.\는 것에 또한 유의해야 한다.
n번째 입력 채널로부터의 신호의 프레임에 대한 SNR은 전체 에너지(신호와 잡음 에너지를 포함한 )에 대한 신호 에너지의 비율로 이루어 질 수 있다. 상기 에너지 비율 특징과 유사하게, 가장 큰 SNR은 적극적으로 발언하는 참가자의 장치에 해당하는 상기 근접 네트워크(76)내의 참가자의 장치 가까이의 발언활동과 가장 근접하는 참가자 장치들(72)의 채널과 결합될 수 있다. 식으로 표현하면, n번째 참가자(n번째 입력 채널로부터의)로부터의 신호 sn의 k번째 프레임에 대한 SNR은 다음과 같이 결정된다 :
Figure 112009045458199-pct00003
앞에서, SNRn(Ic)는 SNR을 나타낸다; E[sn(k)]는 신호 에너지와 잡음 에너지를 포함한 신호 sn의 k 번째 프레임의 총 에너지값을 표현한다; 그리고
Figure 112009045458199-pct00004
는 k번째 프레임의 추정된 배경 잡음 에너지를 표현한다. 상기 추정된 배경 잡음 에너지는, 예를 들면, 최소 통계값 테크닉등 을 포함하는 여러 다른 방법으로 계산되거나 결정될 수 있다.
n번째 입력 채널로부터의 신호의 프레임에 대한 상기 단기 대 장기 에너지 비율은 그것 각각이 인피닛-임펄스 응답(IIR)-필터드 프레임에너지로 구성된 단기 대 장기 프레임 에너지의 비율로 이루어 질 수 있다. 프레임 에너지 비율과 SNR과 유사하게, 단기 대 장기 에너지 비율은 적극적으로 발언하는 참가자의 장치에 해당하는 상기 근접 네트워크(76)내의 참가자의 장치 가까이의 발언활동과 가장 근접하는 참가자 장치들(72)의 채널과 결합 될 수 있다. 식으로 표현하면, (상기 n번째 입력 채널로부터의) 상기 n번째 참가자로부터의 상기 신호 sn의 k번째 프레임에 대한 단기 대 장기 에너지 비율은 다음과 같이 결정될 수 있다 :
Figure 112009045458199-pct00005
앞에서, ERshort - to - long ,n(k)는 상기 단기 대 장기 에너지 비율을 나타내고, EIIR-short,n[sn(k)] 및 EIIR - long ,n[sn(k)]는 각각 IIR-필터드, 단기 및 장기 프레임 에너지를 나타낸다. 상기 프레임 에너지는 여러 가지 방법으로 계산되거나 결정될 수 있다. 일 실시예에서, 예를 들면, 상기 프레임 에너지는 다음 HR 필터로부터 결정된다.
Figure 112009045458199-pct00006
앞에서, a는 증가하는 에너지의 어택 타임 상수(한번 감지된, 신호의 에너지가 그것의 최종값의 미리 정의된 퍼센테이지에 도달하기 위해 필요한 시간)와 감소하는 에너지의 릴리즈 상수(신호의 에너지가 최종값으로부터 미리 정의된 퍼센테이지까지 감소하는데 필요한 시간)을 나타낸다. 상기 어택/릴리즈 타임 상수는 각각의 단기 대 장기 에너지에 대해 임의의 수의 여러 다른 방법으로 선택될 수 있으나, 바람직한 일 실시예에서, 단기 에너지를 결정하기 위한 어택/릴리즈 상수는 장기 에너지를 결정하기 위한 어택/릴리즈 상수보다 낮게 셋팅될 수 있다.
VAD 요소(82)(제1 VAD 요소)와 STD 요소(84)는 각각의 신호에 기초하여 로컬 발언활동 (예를 들어, 근접 네트워크(76)내에 있는 참가자(72) 사이의 활동)을 분류하기 위해 구성될 수 있다. 이점에 관해서, 상기 VAD요소는 발언의 중단 또는 트랜스미터 발언으로서의 발언활동을 분류하기 위해 구성될 수 있고, 상기 STD 요소는 동시발언으로서의 발언활동을 분류하기 위해 구성될 수 있다. 유사하게, 상기 믹서(78)는 나아가 발언의 중단이나 리시버 발언으로서의 원격 발언활동을 분류하기 위해 (RX-VAD로 나타내어진) 제2 VAD 요소(86)를 포함할 수 있고, 이중 발언으로서의 로컬 및 원격 발언으로서의 발언활동을 분류하기 위해 이중 발언 감지(DTD) 요소(88) 역시 포함할 수 있다.
상기 VAD, STD와 DTD 요소(82, 84, 86, 88)가 임의의 수의 서로 다른 방법으 로 이루어진 있는 로컬 그리고/또는 원격 발언활동을 분류하기 위해 구성될 수 있고, 이들 중 적어도 일부는 당업자들에게 잘 알려져 있다. 더욱 상세하게는, 예를 들어 VAD 요소는 단기 신호에너지가 대략적인 배경 잡음 에너지와 비교되도록 하는 에너지 기반의 방법에 따라 상기 n번째 입력채널로부터 발언의 중단 또는 트랜스미터/리시버 발언으로서의 상기 신호의 프레임을 분류하기 위해 구성될 수 있다. 이러한 경우, 상기 신호의 프레임은 단기 에너지가 대략적인 배경 잡음 에너지보다 작거나 같을때에 발언의 중단으로 분류될 수 있다.
제2 VAD 요소(86)에 의해 수신된 근접 네트워크(76) 밖에 있는 참가자들(72)의 신호의 프레임을 위해, 제2 VAD 요소는 발언의 중단을 표현하는 0으로 셋팅된 VAD 플래그(VADRx(k))나 리시버 발언을 표현하는 1로 셋팅된 VAD 플래그를 출력할 수 있다. 제1 VAD 요소(82)는 유사하게 N개의 입력 채널 (VADn(k), n = 1, 2,... N ) 각각에 대해 VAD플래그를 셋팅할 수 있다. 그러나 모든 각각의 VAD플래그를 출력하는 것을 대신하여, 제1 VAD 요소가 근접 네트워크 안에 있는 모든 참가자(72)에 대한 집합적인 로컬 발언활동을 대표하는 VAD 플래그 (VADTx(k))를 출력할 수 있다. 이 플래그는, 예를 들면 입력 채널 중의 어떤 것이 1로 셋팅되었다는 뜻의 1로 셋팅될 수 있다. 그렇지 않은 경우에는 0으로 셋팅된다. 식으로 표현할 때, 제1 VAD 플래그의 출력은 입력 채널들의 VAD 플래그의 불리안 유니언으로 셋팅된다.
Figure 112009045458199-pct00007
추가로 도시된 것처럼, 제1 VAD 요소(82)의 출력은 다음에 기반한 하나 이상의 특징의 추출을 용이하게 하기 위한 특징 추출 요소(80)에 의하여 수신될 수 있다. 예를 들면, VAD 플래그는 오직 적극 발언((VADTx(k)=1) 동안 SNR 근사값을 갱신하는 방법에 의한 SNR을 결정하는 특징 추출 요소에 의해 수신될 수 있다.
DTD 요소(88)는, 예를 들면, 제1 및 제2 VAD 요소(82, 86) (VADn(K)와 VADTx(k) )의 출력에 기반하여 로컬 및 원격 발언활동으로부터 이중발언을 분류할 수 있다. VAD 요소와 유사하게, 근접 네트워크내 있는 하나 이상의 참가자들의 신호의 프레임과 이에 대응하는 근접 네트워크 밖에 하나 이상의 참가자로부터의 신호의 프레임에 대해, 상기 DTD 요소는 프레임의 분류 중 이중 발언을 표현하는 1 또는 그렇지 않은 경우 0으로 셋팅된 DTD 플래그 (DTD(k))를 출력할 수 있다. 더욱 상세하게는, 예를 들어, 제1 및 제2 VAD 요소의 플래그가 모두 1로 셋팅되었다면 DTD 플래그도 1로 셋팅될 수 있으며, 그렇지 않은 경우에는 0으로 셋팅될 것이다. 식으로 표현할 때, DTD 요소의 출력이 제1 및 제2 VAD 요소로부터 VAD 플래그의 불리안 인터섹션으로서 셋팅될 수 있다 :
Figure 112009045458199-pct00008
상기 STD 요소(84)는 예를 들면, ICA (independent component analysis; 독립 구성요소 분석)과 같은 블라인드-소스 분리 기술에 기반하여 발언활동으로부터 동시 발언을 분류해 낼 수 있다. 부가적으로 또는 대안적으로, STD 요소는 기본 주 파수 측정을 계산하기 위하여 구성될 수 있는데, 이 추정으로부터 동시에 적극적으로 발언하는 참가자들이 식별될 수 있다. VAD와 DTD 요소(82, 86 및 88)과 유사하게, STD 요소는 프레임의 분류를 표시하여 동시 발언과 같은 음성 활동 분류에는 1로, 그렇지 않은 경우에는 0으로 셋팅된 STD 플래그 ( STD (K) )를 출력할 수 있다.
VAD, STD와 DTD 요소(82, 84, 86 및 88)에 부가하여, 믹서(78)는 나아가 각각의 프레임 sn(k) (n = 1, 2,... N) 에 대한 근접 네트워크 참가자(72)의 신호를 순위를 매기고; 그리고 순위가 매겨진 신호 srank -r(k) (r= 1, 2, 3,...R=N) 를 출력하는 신호 랭킹 요소(90)를 포함할 수 있다. ;한다. 신호 랭킹 요소는 임의의 서로 다른 방법들로 이루어진 이 로컬 신호에 대해 순위를 매기기 위해 구성될 수 있다. 일 실시예에서, 예를 들면, 신호 랭킹 요소는 로컬 발언활동 (예를 들면, 근접 네트워크 참가자 장치 근처의 발언활동)에 대한 각 근접 네트워크 참가자 장치의 대략적인 인접성의 순서에 의해 신호에 대하여 순위를 매길 수 있다. 이 점에 관하여, 상기 신호 랭킹 요소는 그것들의 프레임 에너지 비율 ERn(K), 신호 대 잡음비 SNRn(k), 및/또는 단기 대 장기 에너지 비율 ERshort - to - long ,n(k)와 같은 하나 이상의 그것들의 추출된 특징들에 기반하여 순위를 매길수 있다.
더 상세하게는, 예를 들면, 프레임 에너지 비율이 미리 정의된 제1임계값을 초과하면 (그리고 이전 프레임 k-1에서는 그렇지 않고), 가장 큰 프레임 에너지 비 율을 가지는 입력 채널 신호 (즉, ERn(K) = ERMax(K))가 제1순위로 매겨지고 (즉, srank-1(k)), 상기 각 입력 채널 신호는 가장 큰 신호대 잡음비 (즉, SNRn(k)= SNRMax(k) ) 와 단기 대 장기 에너지 비율 (즉, ERshort - to - long ,n(k)= ERshort - to - long , Max(k) )을 가진다. 이 점에 관해서는, 참가자가 발언을 시작할 때, 이전의 프레임은 오직 배경 잡음의 에너지만 포함하고 현재 프레임은 배경잡음에너지와 발언 에너지 모두를 포함하기 때문에 에너지 비율의 값은 갑자기 증가할 수 있다 (ERn(K) > ERn(K-1)). 미리 정의된 제1임계값을 초과하는 것은 발언 및 단순히 소음이 아닌 것을 포함하는 프레임으로 해석될 수 있다.
가장 큰 프레임에너지 비율이 미리 정의된 제1임계값을 초과하고 (이전 프레임 k-1에서는 그렇지 않고) 각각의 입력 채널이 가장 큰 신호 대 잡음비 및 단기 대 장기 에너지비율을 가진 경우, 그 입력 채널은 제1순위로 매겨진다. 두번째로 큰 프레임 에너지 비율을 가진 입력채널은 그 프레임 에너지 비율이 미리 정의된 제2임계값을 초과할 경우, 제2순위로 매겨진다 (즉, srank -2(k)). 이러한 경우에, 미리 정의된 제2임계값은 미리 정의된 제1임계값과 같을 수도 있고 다를 수도 있다. 각 입력 채널의 두번째로 큰 프레임 에너지 비율이 미리 정의된 제2임계값을 초과하지 않을 경우, 입력 채널이 덴-커런트 (then-current) 최대 에너지 비율 (즉, ERMax(k-1))을 가짐을 근거로 제1순위가 매겨졌다면 그리고 입력 채널이 현재 프레임 k에 대하여 제1순위가 매겨지지 않는다면, 바로 전 프레임에 대하여 제1순위가 매겨진 입력 채널 신호(예를 들어, srank-1(k-1))는 이제 제2순위로 매겨진다. 이 조건들이 충족되지 않는 경우에는 이전 프레임에 대해 제2순위로 매겨진 입력 채널 신호가 현재 프레임 k에 대해 제1순위를 가지지 않는다면 이전 프레임 대해 제2순위로 매겨진 입력 채널 신호(즉, srank -2(k-1))는 제2순위 채널로 유지될 수 있다. 그리고 이전 프레임에 대해 제2순위를 가진 입력채널 신호가 현재 프레임에 대해 제1순위가 매겨지지 않았다면 제1순위의 입력 채널 신호의 SNR 이외의 가장 큰 SNR을 가진 입력 채널 신호(예들 들어, 두번째 큰 SNR)에 제2순위가 매겨진다.
입력채널을 제1순위로 매기는 것으로 돌아와서, 가장 큰 프레임 에너지 비율이 미리 정의된 제1임계값을 초과하지 않는 것으로 가정하거나 (또는 이전 프레임은 초과), 가장 큰 프레임 에너지 비율을 가진 입력 채널 신호가 가장 큰 SNR이나 단기 대 장기 에너지 비율을 가지지 않는다고 가정하자. 이러한 경우에는, 어택 타임 후에 각각의 입력 채널 신호가 가장 큰 단기 대 장기 에너지 비율을 가지면 (즉, ERshort - to - long ,n(k)= ERshort - to - long , Max(k)), 가장 큰 신호 대 잡음비(SNR) (즉, SNRn(k)= SNRMax(k) ))는 제1순위로 매겨진다. 그렇지 않으면, 이전 프레임에서 제1순위로 매겨진 입력 채널 신호 (즉, srank -1(k-1))는 제1순위 신호 (즉, srank -1(k))로 유지된다. 제2순위로 매겨진 입력 채널 신호 (즉, srank -2(k))은, 이전 프레임에 대하여 제1순위로 매겨진 제1 순위 입력 채널 신호 확인과 그것이 덴-커런트 최대 에너지 비율 (즉, ERMax(k-1))을 가짐에 기반하여 제1순위로 매겨졌는지 여부의 확인을 시작으로 하여, 상기와 비슷한 방법으로 결정될 수 있다.
상술된 기술은 남아있는 입력 채널 신호에 대하여 세번째부터 N번째 순위를 매기는데 계속 사용될 수 있다. 그러나, 대신하여, 세번째부터 N번째순위에 대하여, 남아있는 입력 채널 신호 각각의 SNR 특징에 기반하여, 가장 큰 SNR을 가진 것부터 가장 작은 SNR을 가진 신호 순으로 순위를 매길 수도 있다.
신호 랭킹 요소(90)가 입력 채널 신호의 순위를 매기면서 또는 매긴 후, 상기 신호 랭킹 요소는 그 순위와 그 순위에 대응하는 믹싱 이득값의 집합에 따라 신호들을 믹싱하기 위하여 순위가 매겨진 입력 채널 신호를 믹싱 요소(92)에 출력할 수 있다. 위에 적시한 바와 마찬가지로, 믹싱 이득값의 집합은, 그에 따라서 순위가 매겨진 입력 채널 신호가 믹싱되고, 또한 그 집합은 상기 VAD, STD, DTD 요소(82, 84, 86 및 88)에 의하여 결정되어진 발언활동의 특정 클래스에 기반한 믹싱 테이블로부터 획득될 수 있다. 이 점에 관하여, 신호 랭킹 요소는 발언활동의 각 클래스에 대하여 믹싱 테이블을 유지할 수 있고, 이 클래스에 따라 믹싱 테이블은 상기 원칙에 기반하여 설계 될 수 있다. 6명의 근접 네트워크 참가자(72)의 경우에 6개의 입력 채널(N=R=6)이 존재하고, 예를 들면, 발언활동의 각 클래스에 대한 이득값 테이블[g1 g2 g3 g4 g5 g6]은 다음과 같다
a) 발언의 중단: [1 0.2 0 0 0 0] (컴포트 노이즈가 더해진 경우: [0 0 0 0 0 0 ]);
b) 트랜스미터 발언: [0 0.7 0 0 0 0];
c) 동시 발언: [1 1 0.7 0 0 0]
d) 리시버 발언: [1 0.2 0 0 0 0] (컴포트 노이즈가 더해진 경우: [0 0 0 0 0 0 ]);
e) 이중 발언: [1 0.8 0.7 0 0 0]; 그리고
f) 동시/이중 발언: [1 1 0.7 0 0 0]
현재 프레임 k에 대한 발언활동의 분류로부터 적정한 믹싱 테이블을 확인한 수, 믹싱 요소(92)는 순위가 매겨진 입력 채널 신호의 가중합을 계산하여, 이 신호들을 믹싱할 수 있다. 더욱 상세하게 그리고 식으로 표현하면, 믹싱 요소는 다음 식에 따라서 순위가 매겨인 입력 채널 신호들은 출력 smix(k)으로 믹싱할 수 있다.
Figure 112009045458199-pct00009
상기 식으로부터, 이득값 gr 모두가 1로 셋팅되면, 상기 출력은 (합계 프로세스를 구현하는) 순위가 매겨진 입력 채널 신호의 비-가중합에 대응한다. 그리고 제1순위의 입력 채널 신호 srank -1(k)만이 결합된, 0이 아닌 이득값 g1 (즉, 1보다 큰 모든 r에 대하여, gr=0), 그리고 이 이득값이 1로 셋팅된 경우 (즉, g1=1)에만, 상기 출력은 (싱글-셀렉션 프로세스를 구현하는) 제1순위 입력 채널 신호에 대응한다.
상기 믹서(78)의 상술한 요소는 프레임 단위를 기반으로 하여 기능할 수 있다. 그렇기 때문에, 추출된 특징의 값 및 발언활동의 분류, 그로 인한 순위와 믹싱은 프레임 단위로 변할 수 있다. 그러나, 이러한 경우에, 한 어떤 이득값 집합에서 다른 이득값 집합으로의 변화 또는 특정 순위의 입력 채널 신호에 대한 이득값에서 다른 이득값으로의 변화는, 변화하는 이득값의 기울기를 정의하는 파라미터에 따라 평탄하게 구현될 수 있다.
상기 설명한 바와 같이, 믹서(78)는 나아가 신호 볼륨 레벨을 이퀄라이징하기 위해 자동 볼륨 조절(AVC)기능을 구현할 수 있다. 도 6은 본 발명의 또 다른 바람직한 실시예에 따라 나아가 AVC 요소(94)를 포함하는 믹서의 기능 블록도를 도시한다. 본 실시예에서의 믹서는 도 5의 실시예에서와 비슷한 방법으로 기능한다. 그러나, 도 5의 믹서와는 다르게, 도 6의 AVC 요소는 믹싱 요소(92)의 믹싱작업 전에 순위가 매겨진 입력 채널 신호를 이퀄라이징 하도록 설계될 수 있다. 상기 AVC 요소는 임의의 여러 다른 기술에 의해 순위가 매겨진 입력 채널 신호를 이퀄라이징하도록 구성될 수 있는데, 이 기술들의 적어도 일부는 당업자들에게 잘 알려져 있는 것이다. 더 상세하게는, 예를 들어, 상기에서 순위가 매겨진 입력 채널 신호들을 이퀄라이징하는 기술은 타임-도메인 기반의 기술을 포함할 수 있는데, 이 기술은 제1 VAD(82)가 프레임을 트랜스미터 발언(VADTx=1)으로 분류하거나 STD(84)가 프레임을 동시 발언으로 분류한 경우에 미리 정의된 이득값에 의해 상기 프레임에 대한 하나 이상의 입력 채널 신호의 레벨을 조정한다. 이러한 상기 기술에서의 미리 정 의된 이득값은 장기 신호 레벨과 목적 레벨로부터 측정 될 수 있는데, 이는 제1순위의 입력 채널 신호의 레벨을 트랜스미터 발언의 목적 레벨로 가져오거나 최상위 순위의 입력 채널 신호들(예를 들어, 최상위 두 순위의 입력 채널 신호들)의 레벨을 동시 발언의 목적 레벨로 가져오는 등의 방법으로 이루어진다.
도 7은 복수의 위치(74)에서의 다수의 참가자들(72)사이에 이루어지는 컨퍼런스 세션을 성립하고 수행하는 방법에서의 다양한 단계를 포함하는 흐름도이다. 일반성을 잃지 않고 예시의 목적을 달성하기 위하여, 상기 컨퍼런스 세션의 참가자들은 도 4에 도시된 두 위치에 위치한 복수의 참가자들 72a-72d 를 포함한다. 여기서 참가자들 72a-72c 는 제1 위치에 위치하고 참가자 72d는 제2 위치에 위치한다. 이제, 블록(100)에 도시된 바대로, 본 발명의 바람직한 일 실시예에 따른 방법은 상기 각 위치에서의 근접 네트워크(76)을 구성하는 하나 이상의 위치의 참가자들을 포함한다. 예를 들어, 제1위치의 참가자들 72a-72c는 제1위치에서 블루투스 네트워크를 설립할 수 있고, 여기서 참가자 72c는 근접 네트워크의 마스터로서, 참가자들 72a 및 72b는 슬레이브로서 기능한다.
근접 네트워크(들)(76)이 각 위치(74)에 설립되기 전, 설립된 후에 또는 설립될 때에 상기 위치의 참가자들(72)은 블록 102에 도시된 것처럼, 그들 사이에 컨퍼런스 세션을 설립할 수 있다. 상기 컨퍼런스 세션은 임의의 서로 다른 여러 방법으로 설립될 수 있는데, 이는 도 4에 도시된 바와 같이 컨퍼런싱 서버(24)를 통한 분산 배치 또는 집중 배치 방법을 포함한다. 참가자들 사이에 어떠한 방식으로 컨퍼런스 세션이 성립되었는지에 상관 없이, 컨퍼런스 세션은 서로 간에 음성 통신을 교환하는 참가자들과 함께 기능을 발휘하거나, 참가자들에 의해 수행된다. 컨퍼런스 세션이 수행되면, 참가자들은 블록 104에 도시된 바와 같이 각 참가자들의 장치와 가까운 발언활동을 표현하는 각 신호들을 생성하고 교환할 수 있다. 신호들은 각 참가자의 적절한 사용자 입력 인터페이스 요소(예를 들어, 마이크로폰(56) )에 의해 감지된 음향을 이용하는 등의 방식과 같은, 임의의 서로 다른 여러 방법들에 의하여 생성될 수 있다는 점을 유념하여야 한다.
또한, 각 참가자들에게 인접한 발언활동을 표현하는 신호들은 여러 방법으로 교환될 수 있다. 예를 들어, 신호들은 각 위치에서의 발언활동이 각각의 참가자의 적절한 사용자 인터페이스 요소(예를 들면, 스피커(39,50) 기타 등등)에 의해서 출력될 수 있도록 각 위치 사이의 채널을 통하여 교환될 수 있다. 그러나, 본 발명의 바람직한 실시예에 따르면 근접 네트워크 안의 참가자들의 신호는 상기 근접 네트워크 밖의 참가자들에 의한 응답을 위한 싱글 채널에서 믹싱되고 출력될 수 있다.
더욱 상세하게, 상기 근접 네트워크(76)의 마스터의 믹서(78)는 근접 네트워크의 마스터 및 슬레이브에 의해서 생성된 신호들을 믹싱할 수 있고, 하나 이상의 채널의 하나 이상의 믹싱된 신호들을 출력할 수 있다. 이는 각각의 위치(74)와 다른 위치 간의 모노 채널의 믹싱된 신호들을 출력하는 등의 방식으로 이루어 진다. 그리하여, 근접 네트워크 밖의 참가자들로부터 신호를 수신하는 것에 부가하여 (블록 106 참조), 근접 네트워크의 마스터, 더 상세하게는 마스터의 믹서는 블록 108에 도시된 것처럼 근접 네트워크의 각 슬레이브로부터 신호를 수신할 수 있다. 도 4에 도시된 것처럼, 예를 들면 마스터 참가자 72c는 제2 위치의 참가자 72d에 의해 생성된 신호 뿐만 아니라 제1위치에서의 근접 네트워크 내에 있는 각 슬레이브 참가자 72a-72b로부터의 신호(예를 들면 근접 네트워크를 통하여 수신된 슬레이브 신호) 또한 수신할 수 있다.
상기 근접 네트워크(76)의 마스터는 상기 근접 네트워크의 안과 밖의 다른 참가자(72)로부터의 신호를 수신하며, 각각의 믹서(78)는 블록 110에 도시된 바에 같이, 컨퍼런스 세션의 발언활동을 분류할 수 있다. 이 점에 관하여, 상기 믹서는, 예를 들어 발언활동을 발언의 중단, 트랜스미터 발언, 리시버 발언, 이중 발언, 동시/이중발언으로 분류한다. 컨퍼런스 세션의 발언활동을 분류하고 나서, 상기 믹서는 블록 112에 도시된 바와 같이, 상기 근접 네트워크 내의 (상기 마스터와 슬레이브(들)을 포함한) 참가자들의 신호들을 믹싱한다. 상기 믹서는 (각 신호들의 순위를 매기는 것을 포함하여) 상술한 방법과 같은, 서로 다른 여러 방법으로 신호를 믹싱할 수 있다. 그 후에, 믹서는 다른 위치의 근접 네트워크 바깝의 참가자들의 응답에 대한 믹싱된 신호를 출력할 수 있는데, 이것에 의해 적어도 부분적으로, 블록 114에 도시된 바와 같이, 컨퍼런스 세션의 참가자들 사이의 신호 교환을 수행하게 된다.
블록 116에 도시된 바와 같이, 상기 세션은 계속 신호들을 생성하고 교환하는 참가자들(72)과 함께 계속되는데, 이는 상기 근접 네트워크(76) 바깥의 참가자들과의 교환에 대한 싱글 출력에 네트워크 내의 참가자들의 신호를 믹싱하는 근접 네트워크의 마스터를 포함한다. 컨퍼런스 세션의 하나 이상의 지점에서, 하나 이상의 참가자들은 컨퍼런스 세션을 끝내고 싶어할 수 있다. 이러한 경우에, 그 참가자 들은 블록 118에 도시된 것처럼, 컨퍼런스 세션에 대한 그들의 연결을 종료시킬 수 있다. 컨퍼런스 세션의 종료는 (컨퍼런싱 서버를 포함하는 경우에) 이전에 성립되었던 참가자와 컨퍼런싱 서버(24)간의 통신 세션을 종료시킬 수 있다.
상술된 바와 같이, 상기 믹서(78)는 각각의 입력 채널 신호를 공급하는 다수의 참가자들(72)을 지원한다. 상기 믹서는 다양한 수의 입력 채널 신호들을 지원할 수 있는데, 이 신호들의 수는 새로운 참가자가 컨퍼런스 세션에 참여하거나 기존의 참가자가 컨퍼런스 세션을 종료하거나 컨퍼런스 세션에서 종료되었을 때, 급하게 변할 수 있다는 점을 유념해야 한다. 나아가 상기 믹서는, 나아가, 다른 입력 채널 신호들과의 믹싱으로부터 빠지게 된 남아있는 입력 채널 신호와 함께, 입력 채널 신호들의 부분집합에의 믹싱을 제한하도록 설정될 수 있다.
또한 상술하였듯이, 하나 이상의 원격 위치(74)에서, 각각의 위치(공통의 음향 공간)의 참가자들(72)의 적어도 일부는, 각각의 근접 네트워크(76)의 참가자들 신호를 믹싱하는 믹서(78)를 작동시키도록 구성된 마스터 참가자(예를 들어, 참가자 72c)들과 함께, 음성 통신 교환을 위한 근접 네트워크를 성립할 수 있다. 그러나, 다른 구성에서는, 상기 믹서가 믹싱될 신호를 가진 참가자로부터 원격에 위치한 참가자 내에서 작동하도록 구체화되거나 그렇지 않으면 작동하다록 구성될 수도 있다. 또한 다른 구성에서는 믹서가 컨퍼런싱 서버(24)내에서 작동하도록 설계될 수 있다. 이러한 경우에, 예를 들어, 참가자들은, 패킷 또는 회로-교환 기반 기술에 따라, 그들의 신호를 믹싱하기 위한 믹서를 포함한 원격 엔티티(예를 들어, 그들로부터 떠어져 원격에 위치한 참가자 또는 컨퍼런싱 서버)에 연결할 수 있다. 또 다른 구성에서, 상기 믹서는 컨퍼런싱 서버(24) 내에서 동작하도록 구체화되거나 그렇지 않으면 동작하도록 구성될 수 있다. 그런 경우, 예를 들면, 상기 참가자들은 패킷 또는 회선 교환 기반의 기술에 따라서 원격 엔티티에 접속할 수 있다. 이 점에 관하여, 참가자들은 그들의 신호를 믹싱하도록 구성된 믹서를 포함한 컨퍼런싱 서버에 3G 콜을 할 수 있다.
본 발명의 일 태양에 따르면, 상기 참가자들(72)(예를 들어, 단말기(10), 컴퓨팅 시스템 22 , 기타 등등) 및/또는 컨퍼런싱 서버(24)와 같은 상기 시스템의 하나 이상의 엔티티에 의해 수행되는 기능은, 다양한 수단, 즉 상술한 여러 것들을 포함한 하드웨어 및 또는 펌웨어 단독 및/또는 컴퓨터로 읽을 수 있는 저장 매체(예를 들어, 믹서(78))의 통제하에 수행된다. 본 발명의 실시예들의 하나 이상의 기능을 수행하기 위한 상기 컴퓨터 프로그램 생성물은 비휘발성 저장 매체와 같은 컴퓨터가 해독 가능한 저장 매체와 컴퓨터가 해독가능한 상기 저장 매체에 내장된 일련의 컴퓨터 명령 같은 컴퓨터가 해독가능한 프로그램 코드를 포함한 소프트웨어를 포함한다.
이 점에 관하여, 도 5, 6 및 7은 본 발명에 따른 방법, 시스템 및 프로그램 생성물의 기능 블록도와 흐름도이다. 상기 기능 블록도와 흐름도에서의 각 단계, 블록 및 블록들의 조합들은 다양한 수단, 즉 하드웨어, 펌웨어 및/또는 하나 이상의 컴퓨터 프로그램 명령을 포함한 소프트웨어 등에 의해 구현될 수 있음을 유념해야 한다. 또한 이러한 모든 컴퓨터 프로그램 명령은 장치를 생산하기 위한 컴퓨터 또는 다른 프로그래밍 가능한 장치들 (즉, 하드웨어) 등에 탑재되어, 상기 컴퓨터 또는 다른 프로그래밍가능한 장치에서 실행되는 상기 명령들은 상기 기능블록도나 흐름도의 블록(들) 또는 단계(들)에서 상세화된 기능들을 구현하기 위한 수단들을 만들 수 있을 유념한다. 이 컴퓨터 프로그램 명령들은 컴퓨터가 해독가능한 메모리에 저장되어 컴퓨터나 다른 프로그래밍 가능한 장치들이 특정한 방법으로 동작하도록 지시하여 컴퓨터로 해독가능한 상기 메모리에 저장된 명령어들이 상기 기능블록도나 흐름도의 블록(들) 또는 단계(들)에 상세화된 기능을 구현하는 물품을 생산하도록 한다. 또한 상기 컴퓨터 프로그램 명령은 컴퓨터 또는 다른 프로그래밍가능한 장치들에 탑재되어 컴퓨터 또는 다른 프로그래밍가능한 장치들에서 일련의 작업 단계들이 실행되어 컴퓨터로 구현된 프로세스를 생산하도록 하여 컴퓨터나 다른 프로그래밍가능한 장치에서 실행되는 상기 명령어들이 기능블록도나 흐름도의 블록(들) 또는 단계(들)에서 상세화된 기능들을 구현하는 단계를 제공하도록 한다.
따라서 기능블록도 및 흐름도의 블록(들) 또는 단계(들)들은 상세화된 기능이나 이러한 상세화된 기능을 수행하는 프로그램 명령 수단을 실행하는 단계의 조합, 또는 상세화된 기능을 수행하는 수단의 조합을 지원한다. 기능블록도 및 흐름도의 하나 이상의 블록들 또는 단계들 또는 이 블록이나 단계들의 조합은 상기 상세화된 기능이나 단계를 수행하는 특별한 목적의 하드웨어 기반의 컴퓨터 시스템 또는 특별한 목적의 하드웨어 및 컴퓨터 명령에 의해 구현될 수 있다는 점에 유념하여야 한다.
본 발명의 많은 변형들 및 다른 실시예들은 상기한 설명들 및 관련된 도면들에 제시된 교시의 이익을 가지는 본발명이 관련된 당업자에게 떠오를 것이다. 그러므로, 본 발명이 개시된 특정 실시예들에 한정되지 않는다는 것은 이해될 것이며 변형들 및 다른 실시예들이 첨부된 청구항들의 범위 내에 포함된다는 것 또한 이해될 것이다. 특정 용어들이 여기에서 사용될 지라도, 이러한 용어들은 단지 일반적이고 설명을 위해 사용되며 한정하기 위한 것은 아니다.
본 발명은 컨퍼런스 세션을 수행하는 분야에서 사용될 수 있으며, 특히 컨퍼런스 세션의 수행 중에 특정 위치의 참가자들의 신호를 믹싱하는 분야에서 사용될 수 있다.

Claims (32)

  1. 복수의 위치에서의 참가자들간의 컨퍼런스 세션을 수행하는 네트워크 엔티티로서,
    상기 네트워크 엔티티는,
    수신기; 및
    프로세서를 포함하며,
    상기 수신기는 상기 참가자들의 음성 통신을 표현하는 복수의 신호들을 수신하도록 구성되며, 상기 신호들은 상기 위치들 중 하나에서 각각의 복수 참가자들의 복수 단말기로부터 수신되며, 그렇지 않으면 상기 단말기 중에 적어도 일부의 각각은 다른 단말기 중 적어도 일부와 독립적으로 음성 통신을 하도록 구성되며,
    상기 프로세서는 상기 컨퍼런스 세션중에 발언의 중단 또는 하나 이상의 적극적으로 발언하는 참가자들에 따라 상기 컨퍼런스 세션의 발언활동을 분류하도록 구성되고,
    상기 프로세서는 하나 이상의 다른 위치들에 있는 하나 이상의 다른 참가자들에게로의 출력을 위한 적어도 하나의 믹싱된 신호로 각 참가자들의 신호들을 믹싱하도록 구성되며,
    상기 신호들은 상기 발언활동의 분류에 기반하여 믹싱되는, 네트워크 엔티티.
  2. 제1항에 있어서,
    상기 프로세서는 믹싱 테이블의 이득값 집합에 따라 상기 각 참가자들의 상기 신호들을 믹싱하도록 구성되고,
    상기 믹싱 테이블은 상기 발언활동의 상기 분류에 기반한 복수의 믹싱 테이블로부터 선택가능한, 네트워크 엔티티.
  3. 제2항에 있어서,
    상기 신호들이 그에 따라 믹싱된 상기 이득값의 집합이 0 보다 큰 복수의 이득값들을 포함하는, 네트워크 엔티티.
  4. 제2항에 있어서,
    상기 프로세서는 발언활동을 복수의 클래스들 중의 하나로 분류하도록 구성되고,
    상기 복수의 믹싱 테이블이 발언활동에 대한 복수의 클래스들 각각에 대응하는 믹싱 테이블을 포함하며,
    상기 프로세서는, 상기 발언활동이 분류되는 상기 클래스에 대한 상기 믹싱 테이블을 선택하고 그 선택된 믹싱 테이블에 따라 신호를 믹싱하는 것을 포함하여, 신호를 믹싱하도록 구성되는, 네트워크 엔티티.
  5. 제1항에 있어서,
    상기 프로세서는 상기 각 참가자들의 상기 신호에 대한 순위를 매기도록 더 구성되며, 이러한 순위는 상기 신호의 하나 이상의 특징들에 기반한 것이고,
    상기 하나 이상의 특징들은 적극적으로 발언하는 참가자의 존재 가능성을 반영하여 더 높은 순위의 신호가 적극적으로 발언하는 참가자의 더 높은 존재가능성을 반영하도록 하며,
    상기 프로세서는 상기 순위가 매겨진 신호들을 믹싱하도록 구성된, 네트워크 엔티티.
  6. 제2항에 있어서,
    상기 프로세서는 상기 각 참가자들의 각 신호들에 상기 이득값들의 집합 중의 이득값들을 결합시키는 것을 포함하여 상기 신호들을 믹싱하도록 구성되며,
    상기 프로세서는 상기 이득값들의 집합중 더 큰 이득값이 더 높은 순위의 신호와 결합될 수 있게 상기 신호에 대해 순위를 매기도록 구성되는, 네트워크 엔티티.
  7. 제1항에 있어서,
    상기 수신기는 하나 이상의 다른 위치들에 있는 하나 이상의 다른 참가자들로부터의 복수의 신호들을 더 포함하는 복수의 신호들을 수신하도록 구성되며,
    상기 프로세서는 상기 수신된 신호들에 기반하여 상기 발언활동을 분류하도록 구성되는, 네트워크 엔티티.
  8. 제1항에 있어서,
    상기 수신기는 상기 위치들 중 하나에서의 근접 네트워크 내의 각각의 복수 참가자들의 복수 단말기들로부터의 복수 신호들을 수신하도록 구성되며,
    상기 프로세서는 상기 근접 네트워크 내의 각각의 복수 참가자들의 상기 신호들을 하나 이상의 다른 위치들의 상기 근접 네트워크 밖의 하나 이상의 다른 참가자들에게로의 출력을 위한 적어도 하나의 믹싱된 신호로 믹싱하도록 구성되는, 네트워크 엔티티.
  9. 복수의 위치에서의 참가자들간의 컨퍼런스 세션을 수행하는 네트워크 엔티티로서, 제1수단 및 제2수단 및 제3수단을 포함하고,
    상기 제1수단은 상기 참가자들의 음성통신을 표현하는 복수의 신호들을 수신하도록 구성되며, 상기 신호들은 상기 위치들 중 하나에서의 각 복수 참가자들의 복수 단말기로부터 수신되고, 상기 단말기들 중 적어도 일부의 각각은 다른 단말기들 중 적어도 일부와 독립적으로 음성통신을 하도록 구성되며,
    상기 제2수단은 상기 컨퍼런스 세션 동안 발언의 중단이나 하나 이상의 적극적으로 발언하는 참가자들에 따라 상기 컨퍼런스 세션의 발언활동을 분류하도록 구성되고,
    상기 제3수단은 상기 각 참가자들의 상기 신호들을 하나 이상의 다른 위치들의 하나 이상의 다른 참가자들에게로의 출력에 대한 적어도 하나의 믹싱된 신호로 믹싱되도록 구성되며, 상기 신호들은 상기 발언활동의 분류에 기반하여 믹싱되는, 네트워크 엔티티.
  10. 제9항에 있어서,
    상기 제3수단은 믹싱 테이블로부터의 이득값의 집합에 따라 각 참가자들의 상기 신호들을 믹싱하도록 구성되며, 상기 믹싱 테이블은 상기 발언활동의 분류에 기반하여 복수의 믹싱 테이블들로부터 선택가능한, 네트워크 엔티티.
  11. 제10항에 있어서,
    상기 신호들이 그에 따라 믹싱하는 상기 이득값들의 집합은 0보다 큰 복수의 이득값들을 포함하는, 네트워크 엔티티.
  12. 제10항에 있어서,
    상기 제2수단은 발언활동을 복수의 클래스들 중 하나로 분류하도록 구성되며, 상기 복수의 믹싱 테이블들은 발언활동의 복수 클래스들 각각에 대응하는 믹싱 테이블을 포함하고,
    상기 제3수단은 상기 발언활동이 분류되는 상기 클래스에 대한 상기 믹싱 테이블을 선택하고 그 선택된 믹싱 테이블에 따라 신호를 믹싱하는 것을 포함하여, 신호를 믹싱하도록 구성된, 네트워크 엔티티.
  13. 제10항에 있어서,
    상기 네트워크 엔티티는 제4 수단을 더 포함하고,
    상기 제4수단은 상기 각 참가자들의 상기 신호에 대한 순위를 매기도록 구성되며, 이러한 순위는 상기 신호의 하나 이상의 특징들에 기반한 것이고,
    상기 하나 이상의 특징들은 적극적으로 발언하는 참가자의 존재 가능성을 반영하여 더 높은 순위의 신호가 적극적으로 발언하는 참가자의 더 높은 존재가능성을 반영하도록 하며,
    이 경우 상기 제3 수단은 순위가 매겨진 신호들을 믹싱하도록 구성되는, 네트워크 엔티티.
  14. 제13항에 있어서,
    상기 제3수단은 상기 각 참가자들의 각 신호들에 상기 이득값들의 집합 중의 상기 이득값을 결합시키는 단계를 포함하여 상기 신호들을 믹싱하도록 구성되며,
    상기 제4수단은 상기 이득값들의 집합중 더 큰 이득값이 더 높은 순위의 신호와 결합될 수 있게 상기 신호에 대해 순위를 매기도록 구성되는, 네트워크 엔티티.
  15. 제9항에 있어서,
    상기 제1수단은 하나 이상의 다른 위치들에 있는 하나 이상의 다른 참가자들로부터의 복수의 신호들을 더 포함하는 복수의 신호들을 수신하도록 구성되며,
    상기 제2수단은 상기 수신된 신호들에 기반하여 상기 발언활동을 분류하도록 구성되는, 네트워크 엔티티.
  16. 제9항에 있어서,
    상기 제1수단은 상기 위치들 중 하나에서의 근접 네트워크 내의 각각의 복수 참가자들의 복수 단말기들로부터의 복수 신호들을 수신하도록 구성되며,
    상기 제3수단은 상기 근접 네트워크 내의 각각의 복수 참가자들의 상기 신호들을 하나 이상의 다른 위치들의 상기 근접 네트워크 밖의 하나 이상의 다른 참가자들에게로의 출력을 위한 적어도 하나의 믹싱된 신호로 믹싱하도록 구성되는, 네트워크 엔티티.
  17. 네트워크 엔티티가 복수의 위치에서의 참가자들간의 컨퍼런스 세션을 수행하는 방법으로서, 상기 방법은,
    음성 통신을 표현하는 복수의 신호들을 수신하며 [상기 신호들은 상기 위치들 중 하나에서의 각각의 복수 참가자들의 복수 단말기로부터 수신되며, 상기 단말기 중에 적어도 일부의 각각은 다른 단말기 중 적어도 일부와 독립적으로 음성 통신을 하도록 구성된다];
    상기 컨퍼런스 세션중에 발언의 중단 또는 하나 이상의 적극적으로 발언하는 참가자들에 따라 상기 컨퍼런스 세션의 발언활동을 분류하고; 그리고
    하나 이상의 다른 위치들에 있는 하나 이상의 다른 참가자들에게로의 출력을 위한 적어도 하나의 믹싱된 신호로 각 참가자들의 신호들을 믹싱하는 것을 포함하는 [상기 신호들은 상기 발언활동의 분류에 기반하여 믹싱된다], 방법.
  18. 제17항에 있어서,
    상기 신호들을 믹싱하는 것은 믹싱 테이블의 이득값 집합에 따라 상기 각 참가자들의 상기 신호들을 믹싱하는 것을 포함하고,
    상기 믹싱 테이블은 상기 발언활동의 상기 분류에 기반한 복수의 믹싱 테이블로부터 선택가능한, 방법.
  19. 제18항에 있어서,
    상기 신호들이 그에 따라 믹싱된 상기 이득값의 집합이 0 보다 큰 복수의 이득값들을 포함하는, 방법.
  20. 제18항에 있어서,
    발언활동을 분류하는 것은 발언활동을 복수의 클래스들 중의 하나로 분류하도록 하는 것을 포함하며, 상기 복수의 믹싱 테이블은 발언활동에 대한 복수의 클래스들 각각에 대응하는 믹싱 테이블을 포함하며,
    상기 신호들을 믹싱하는 것은 상기 발언활동이 분류되는 상기 클래스에 대한 상기 믹싱 테이블을 선택하고 그 선택된 믹싱 테이블에 따라 신호를 믹싱하는 것을 포함하는, 방법.
  21. 제18항에 있어서, 상기 방법은,
    상기 각 참가자들의 상기 신호에 대한 순위를 매기는 것을 더 포함하며, 이러한 순위는 상기 신호의 하나 이상의 특징들에 기반한 것이고, 상기 하나 이상의 특징들은 적극적으로 발언하는 참가자의 존재 가능성을 반영하여 더 높은 순위의 신호가 적극적으로 발언하는 참가자의 더 높은 존재가능성을 반영하도록 하며,
    상기 신호들을 믹싱하는 것은 순위가 매겨진 신호들을 믹싱하는 것을 더 포함하는, 방법.
  22. 제21항에 있어서,
    상기 신호들을 믹싱하는 것은 상기 각 참가자들의 각 신호들에 상기 이득값들의 집합 중의 이득값들을 결합시키는 것을 포함하며,
    상기 신호들에 대한 순위를 매기는 것은 상기 이득값들의 집합중 더 큰 이득값이 더 높은 순위의 신호와 결합될 수 있게 상기 신호에 대해 순위를 매기는 것을 포함하는, 방법.
  23. 제17항에 있어서,
    복수 신호들을 수신하는 것은 하나 이상의 다른 위치들에 있는 하나 이상의 다른 참가자들로부터의 복수의 신호들을 수신하는 것을 더 포함하며,
    발언활동을 분류하는 것은 상기 수신된 신호들에 기반하여 발언활동을 분류하는 것을 포함하는, 방법.
  24. 제17항에 있어서,
    복수의 신호들을 수신하는 것은 상기 위치들 중 하나에서의 근접 네트워크 내의 각각의 복수 참가자들의 복수 단말기들로부터의 복수 신호들을 수신하는 것을 포함하며,
    상기 신호들을 믹싱하는 것은 상기 근접 네트워크 내의 각각의 복수 참가자들의 상기 신호들을 하나 이상의 다른 위치들의 상기 근접 네트워크 밖의 하나 이상의 다른 참가자들에게로의 출력을 위한 적어도 하나의 믹싱된 신호로 믹싱하는 것을 포함하는, 방법.
  25. 복수의 위치에서의 참가자들간의 컨퍼런스 세션을 수행하는 컴퓨터 프로그램을 저장하는, 컴퓨터로 읽을 수 있는 저장 매체로서,
    상기 컴퓨터 프로그램은 컴퓨터가 해독가능한 프로그램 코드 부분을 포함하고,
    상기 컴퓨터가 해독가능한 프로그램 코드 부분은 제1실행가능부분, 제2실행가능부분 및 제3실행가능부분을 포함하며,
    상기 제1실행가능부분은 상기 참가자들의 음성통신을 표현하는 복수의 신호들을 수신하도록 구성되며, 상기 신호들은 상기 위치들 중 하나에서의 각 복수 참가자들의 복수 단말기로부터 수신되고, 상기 단말기들 중 적어도 일부는 다른 단말기들 중 적어도 일부와 독립적으로 음성통신을 하도록 구성되며;
    상기 제2실행가능부분은 상기 컨퍼런스 세션 동안 발언의 중단이나 하나 이상의 적극적으로 발언하는 참가자들에 따라 상기 컨퍼런스 세션의 발언활동을 분류하도록 구성되고;
    상기 제3실행가능부분은 상기 각 참가자들의 상기 신호들을 하나 이상의 다른 위치들의 하나 이상의 다른 참가자들에게로의 출력에 대한 적어도 하나의 믹싱된 신호로 믹싱되도록 구성되며, 상기 신호들은 상기 발언활동의 분류에 기반하여 믹싱되는, 컴퓨터로 읽을 수 있는 저장 매체.
  26. 제25항에 있어서,
    상기 제3 실행가능부분은 믹싱 테이블로부터의 이득값의 집합에 따라 각 참가자들의 상기 신호들을 믹싱하도록 구성되며, 상기 믹싱 테이블은 상기 발언활동의 분류에 기반하여 복수의 믹싱 테이블들로부터 선택가능한, 컴퓨터로 읽을 수 있는 저장 매체.
  27. 제26항에 있어서,
    상기 신호들이 그에 따라 믹싱하는 상기 이득값들의 집합은 0보다 큰 복수의 이득값들을 포함하는, 컴퓨터로 읽을 수 있는 저장 매체.
  28. 제26항에 있어서,
    상기 제2실행가능부분은 발언활동을 복수의 클래스들 중 하나로 분류하도록 구성되며, 상기 복수의 믹싱 테이블들은 발언활동의 복수 클래스들 각각에 대응하는 믹싱 테이블을 포함하고, 그리고
    상기 제3실행가능부분은 상기 발언활동이 분류되는 상기 클래스에 대한 상기 믹싱 테이블을 선택하고 그 선택된 믹싱 테이블에 따라 신호를 믹싱하는 것을 포함하여, 신호를 믹싱하도록 구성되는, 컴퓨터로 읽을 수 있는 저장 매체.
  29. 제26항에 있어서,
    상기 컴퓨터가 해독가능한 프로그램 코드 부분은 제4 실행가능부분을 더 포함하고,
    상기 제4실행가능부분은 상기 각 참가자들의 상기 신호에 대한 순위를 매기도록 구성되며, 이러한 순위는 상기 신호의 하나 이상의 특징들에 기반한 것이고, 상기 하나 이상의 특징들은 적극적으로 발언하는 참가자의 존재 가능성을 반영하여 더 높은 순위의 신호가 적극적으로 발언하는 참가자의 더 높은 존재가능성을 반영하도록 하며,
    상기 제3 수단은 순위가 매겨진 신호들을 믹싱하도록 구성되는, 컴퓨터로 읽을 수 있는 저장 매체.
  30. 제29항에 있어서,
    상기 제3실행가능부분은 상기 각 참가자들의 각 신호들에 상기 이득값들의 집합 중의 상기 이득값을 결합시키는 단계를 포함하여 상기 신호들을 믹싱하도록 구성되며,
    상기 제4실행가능부분은 상기 이득값들의 집합중 더 큰 이득값이 더 높은 순위의 신호와 결합될 수 있게 상기 신호에 대해 순위를 매기도록 구성되는, 컴퓨터로 읽을 수 있는 저장 매체.
  31. 제25항에 있어서,
    상기 제1실행가능부분은 하나 이상의 다른 위치들에 있는 하나 이상의 다른 참가자들로부터의 복수의 신호들을 더 포함하는 복수의 신호들을 수신하도록 구성되며,
    상기 제2실행가능부분은 상기 수신된 신호들에 기반하여 상기 발언활동을 분류하도록 구성되는, 컴퓨터로 읽을 수 있는 저장 매체.
  32. 제25항에 있어서,
    상기 제1실행가능부분은 상기 위치들 중 하나에서의 근접 네트워크 내의 각각의 복수 참가자들의 복수 단말기들로부터의 복수 신호들을 수신하도록 구성되며,
    상기 제3실행가능부분은 상기 근접 네트워크 내의 각각의 복수 참가자들의 상기 신호들을 하나 이상의 다른 위치들의 상기 근접 네트워크 밖의 하나 이상의 다른 참가자들에게로의 출력을 위한 적어도 하나의 믹싱된 신호로 믹싱하도록 구성되는, 컴퓨터로 읽을 수 있는 저장 매체.
KR1020097015674A 2006-12-27 2007-12-12 컨퍼런스 세션 중에 신호들을 믹싱하는 네트워크 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체 KR101085042B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/616,351 US8218460B2 (en) 2006-12-27 2006-12-27 Network entity, method and computer program product for mixing signals during a conference session
US11/616,351 2006-12-27
PCT/IB2007/003883 WO2008084310A1 (en) 2006-12-27 2007-12-12 Network entity, method and computer program product for mixing signals during a conference session

Publications (2)

Publication Number Publication Date
KR20090104073A KR20090104073A (ko) 2009-10-05
KR101085042B1 true KR101085042B1 (ko) 2011-11-21

Family

ID=39402061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097015674A KR101085042B1 (ko) 2006-12-27 2007-12-12 컨퍼런스 세션 중에 신호들을 믹싱하는 네트워크 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체

Country Status (5)

Country Link
US (1) US8218460B2 (ko)
EP (1) EP2098056A1 (ko)
KR (1) KR101085042B1 (ko)
CN (1) CN101573954A (ko)
WO (1) WO2008084310A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275323B1 (en) * 2006-07-14 2012-09-25 Marvell International Ltd. Clear-channel assessment in 40 MHz wireless receivers
US8363820B1 (en) * 2007-05-17 2013-01-29 Plantronics, Inc. Headset with whisper mode feature
EP2441072B1 (en) 2009-06-08 2019-02-20 Nokia Technologies Oy Audio processing
US9154730B2 (en) * 2009-10-16 2015-10-06 Hewlett-Packard Development Company, L.P. System and method for determining the active talkers in a video conference
KR101624652B1 (ko) * 2009-11-24 2016-05-26 삼성전자주식회사 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치, 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
KR101820741B1 (ko) * 2011-06-01 2018-01-23 삼성전자주식회사 이동통신 단말에서 티디엠에이 노이즈 저감 방법 및 장치
GB2493801B (en) * 2011-08-18 2014-05-14 Ibm Improved audio quality in teleconferencing
US8989058B2 (en) * 2011-09-28 2015-03-24 Marvell World Trade Ltd. Conference mixing using turbo-VAD
CN102404546A (zh) * 2011-10-28 2012-04-04 广东威创视讯科技股份有限公司 会议音频系统
US8982849B1 (en) 2011-12-15 2015-03-17 Marvell International Ltd. Coexistence mechanism for 802.11AC compliant 80 MHz WLAN receivers
RU2642353C2 (ru) * 2012-09-03 2018-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
WO2014043024A1 (en) * 2012-09-17 2014-03-20 Dolby Laboratories Licensing Corporation Long term monitoring of transmission and voice activity patterns for regulating gain control
US8914007B2 (en) 2013-02-27 2014-12-16 Nokia Corporation Method and apparatus for voice conferencing
CN106031141B (zh) 2014-02-28 2017-12-29 杜比实验室特许公司 会议中使用改变视盲的感知连续性
EP3111626B1 (en) 2014-02-28 2021-09-22 Dolby Laboratories Licensing Corporation Perceptually continuous mixing in a teleconference
US9866596B2 (en) 2015-05-04 2018-01-09 Qualcomm Incorporated Methods and systems for virtual conference system using personal communication devices
US9906572B2 (en) * 2015-08-06 2018-02-27 Qualcomm Incorporated Methods and systems for virtual conference system using personal communication devices
US10015216B2 (en) 2015-08-06 2018-07-03 Qualcomm Incorporated Methods and systems for virtual conference system using personal communication devices
CN106558314B (zh) * 2015-09-29 2021-05-07 广州酷狗计算机科技有限公司 一种混音处理方法和装置及设备
US9959887B2 (en) * 2016-03-08 2018-05-01 International Business Machines Corporation Multi-pass speech activity detection strategy to improve automatic speech recognition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4558180A (en) 1983-10-25 1985-12-10 At&T Bell Laboratories Programmable audio mixer
WO2000057619A1 (en) * 1999-03-22 2000-09-28 Octave Communications, Inc. Audio conference platform with centralized summing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2143591C (en) 1994-04-29 1999-01-26 David N. Horn Teleconferencing audio bridge
US5612996A (en) * 1995-09-21 1997-03-18 Rockwell International Corporation Loop gain processing system for speakerphone applications
US6697476B1 (en) 1999-03-22 2004-02-24 Octave Communications, Inc. Audio conference platform system and method for broadcasting a real-time audio conference over the internet
US6850496B1 (en) * 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
WO2002063828A1 (en) * 2001-02-06 2002-08-15 Polycom Israel Ltd. Control unit for multipoint multimedia/audio conference
US6549629B2 (en) 2001-02-21 2003-04-15 Digisonix Llc DVE system with normalized selection
US20030044654A1 (en) * 2001-08-31 2003-03-06 Holt Laurence E. Extending external telephone calls as conference calls with other communicatively proximate wireless devices
US7145883B2 (en) 2002-02-25 2006-12-05 Sonexis, Inc. System and method for gain control of audio sample packets
KR101035736B1 (ko) * 2003-12-12 2011-05-20 삼성전자주식회사 이동통신 시스템의 단말 장치에서 반향 제거 장치 및 방법
US20060136200A1 (en) * 2004-12-22 2006-06-22 Rhemtulla Amin F Intelligent active talker level control
EP1897355A1 (en) 2005-06-30 2008-03-12 Nokia Corporation System for conference call and corresponding devices, method and program products

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4558180A (en) 1983-10-25 1985-12-10 At&T Bell Laboratories Programmable audio mixer
WO2000057619A1 (en) * 1999-03-22 2000-09-28 Octave Communications, Inc. Audio conference platform with centralized summing

Also Published As

Publication number Publication date
WO2008084310A1 (en) 2008-07-17
US20080162127A1 (en) 2008-07-03
KR20090104073A (ko) 2009-10-05
US8218460B2 (en) 2012-07-10
EP2098056A1 (en) 2009-09-09
CN101573954A (zh) 2009-11-04

Similar Documents

Publication Publication Date Title
KR101085042B1 (ko) 컨퍼런스 세션 중에 신호들을 믹싱하는 네트워크 엔티티, 방법 및 컴퓨터로 읽을 수 있는 저장 매체
CA2561739C (en) Conversion of calls from an ad hoc communication network
US7489772B2 (en) Network entity, method and computer program product for effectuating a conference session
CN102461139B (zh) 增强的通信桥接器
CA2586500C (en) Method for coordinating co-resident teleconferencing endpoints to avoid feedback
US6941372B2 (en) Mobile community communicator
US20080101589A1 (en) Audio output using multiple speakers
KR20060118015A (ko) 애드 혹 통신 네트워크에서 통신들을 제어하기 위한 방법들및 시스템들
US20080159507A1 (en) Distributed teleconference multichannel architecture, system, method, and computer program product
US7433716B2 (en) Communication apparatus
WO2009097417A1 (en) Improving sound quality by intelligently selecting between signals from a plurality of microphones
CN106849976A (zh) 一种免提通话时回声消除方法及通信终端
WO2012175964A2 (en) Multi-party teleconference methods and systems
KR100755490B1 (ko) 제어 방법, 보조 유닛 및 무선 단말기
JP2013157924A (ja) 通信装置、通信プログラム及び通信方法
EP1229518A1 (en) Speech recognition system, and terminal, and system unit, and method
JP2005260451A (ja) ハンズフリー通話装置及びその制御方法
KR20090000387A (ko) 휴대 단말기 및 그의 푸시 투 토크 통신 방법
JP2007306205A (ja) グループ通話装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee