KR20170134464A

KR20170134464A - 컨퍼런스 오디오 관리

Info

Publication number: KR20170134464A
Application number: KR1020177028233A
Authority: KR
Inventors: 벤카트라만 에스 아티; 다니엘 제이 신더; 니콜라이 륭; 비베크 라젠드란
Original assignee: 퀄컴 인코포레이티드
Priority date: 2015-04-05
Filing date: 2016-03-30
Publication date: 2017-12-06
Also published as: WO2016164233A1; TWI713511B; JP2018515009A; CN107408395A; JP6827950B2; JP2021067956A; KR102430838B1; EP3281396B1; US20190150113A1; EP3281396A1; ES2847416T3; US10225814B2; ES2736878T3; EP3512186A1; US11910344B2; TW201640878A; HUE044919T2; AU2016244809A1; EP3512186B1; CN107408395B

Abstract

컨퍼런스 동안 오디오를 관리하기 위한 방법은, 모바일 디바이스의 제 1 버퍼에서, 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 단계를 포함한다. 방법은 또한, 모바일 디바이스의 제 2 버퍼에서, 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 단계를 포함한다. 방법은 모바일 디바이스의 지연 제어기에서 제어 신호를 생성하는 단계를 더 포함한다. 제어 신호는 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 제 1 버퍼에 그리고 제 2 버퍼에 제공된다.

Description

컨퍼런스 오디오 관리{CONFERENCE AUDIO MANAGEMENT}

우선권의 주장

본 출원은 "CONFERENCE AUDIO MANAGEMENT" 의 명칭으로 2016 년 3 월 29 일에 출원된 U.S. 특허출원 제 15/083,974 호, 및 "CONFERENCE AUDIO MANAGEMENT AT A MOBILE DEVICE" 의 명칭으로 2015 년 4 월 5 일에 출원된 U.S. 가특허출원 제 62/143,154 호와 "CONFERENCE AUDIO MANAGEMENT" 의 명칭으로 2015 년 4 월 7 일에 출원된 U.S. 가특허출원 제 62/144,033 호로부터 우선권을 주장하며, 이들의 내용은 그 전부가 참조로서 통합된다.

분야

본 개시물은 일반적으로 컨퍼런스 오디오에 관한 것이다.

기술에서의 진보는 컴퓨팅 디바이스들이 더 작고 더 강력해지게 하였다. 예를 들어, 작고, 경량이며, 사용자들이 쉽게 운반하는 무선 컴퓨팅 디바이스들, 예컨대 휴대용 무선 전화기들, 개인용 디지털 보조기 (PDA) 들, 및 페이징 디바이스들을 포함한 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 더 구체적으로는, 휴대용 무선 전화기들, 예컨대 셀룰러 전화기들 및 인터넷 프로토콜 (IP) 전화기들이 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 게다가, 많은 이러한 무선 전화기들은 그 내부에 통합되는 다른 타입들의 디바이스들을 포함한다. 예를 들어, 무선 전화기는 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어를 또한 포함할 수 있다.

3 이상의 대응 무선 디바이스들과 연관된 3 이상의 참가자들은 서로 통신하기 위해 "컨퍼런스 콜" 을 사용할 수도 있다. 컨퍼런스 콜 동안, 제 1 무선 디바이스는 네트워크 믹서로부터 "믹싱된 오디오 스트림" 을 수신할 수도 있다. 예를 들어, 네트워크 믹서는 컨퍼런스 콜의 각각의 참가자로부터 오디오 스트림들을 수신할 수도 있다. 오디오 스트림들을 수신한 후, 네트워크 믹서는 제 2 무선 디바이스로부터의 오디오 스트림을 제 3 디바이스로부터의 오디오 스트림과 믹싱하여 믹싱된 오디오 스트림을 생성하여 제 1 무선 디바이스에 제공한다. 믹싱된 오디오 스트림을 생성하기 위해, 네트워크 믹서는 각각의 착신 오디오 스트림을 디코딩하고, 디코딩된 오디오 스트림들을 믹싱하며, 믹싱된 디코딩된 오디오 스트림들을 재인코딩한다. 하지만, 믹싱된 오디오 스트림을 생성하는 것과 연관된 오디오 프로세싱은 지연을 도입할 수도 있다. 부가적으로, 컨퍼런스 참가자들이 중앙 네트워크 믹서로부터 믹싱된 오디오 스트림을 수신하기 때문에, 참가자 오디오를 개별적으로 조정하는 것이 가능하지 않을 수도 있다. 예를 들어, 파티들 A, B, 및 C 가 컨퍼런스에 있는 경우, 파티 A 는 조정 또는 공간 프로세싱 기법들을 다시 사용하여 파티 C 의 스피치를 통해 파티 B 의 스피치를 강조할 수 없을 수도 있는데, 이는 네트워크 믹서가 파티 B 및 파티 C 양자 모두로부터의 스피치를 포함하는 파티 A 단일 믹싱된 스트림을 제공하기 때문이다.

컨퍼런스 동안 오디오를 관리하기 위한 시스템들 및 방법들이 개시된다. 특정 구현에 따라, 개개의 컨퍼런스 참가자들로부터의 오디오의 조정을 가능하게 하기 위해, 네트워크 믹서가 믹싱된 스트림을 생성하는 대신 참가자들에게 개개의 오디오 스트림들을 릴레이할 수도 있다. 예를 들어, 3-파티 컨퍼런스에 있어서, 파티 A 는 파티 B 및 파티 C 로부터 각각 별도의 오디오 스트림들을 수신할 수도 있다. 하지만, 네트워크 조건들의 변동으로 인해, 파티 B 및 파티 C 로부터의 스트림들이 서로 동기화되지 않을 수도 있으며, 이는 일시적 오류 출력 파티 A 의 디바이스를 유도할 수도 있다. 예시를 위해, 파티 B 의 스트림이 지연되는 경우, 파티 A 는 파티 C 의 질문에 대한 대답을 들은 후 파티 B 에 의해 제기된 그 질문을 들을 수도 있다.

본 명세서에 기재된 기법들에 따라, 모바일 디바이스는 상이한 디바이스들로부터 수신된 스트림들을 동기화하기 위해 버퍼 관리를 사용할 수도 있다. 예를 들어, 제 1 컨퍼런스 참가자로부터의 제 1 오디오 스트림이 모바일 디바이스의 제 1 버퍼 (예를 들어, 디-지터 (de-jitter) 버퍼) 에 제공될 수도 있고, 제 2 컨퍼런스 참가자로부터의 제 2 오디오 스트림이 모바일 디바이스의 제 2 버퍼에 제공될 수도 있다. 제 1 및 제 2 오디오 스트림들을 수신하면, 지연 제어기는 제 1 오디오 스트림의 시간 스탬프들을 제 2 오디오 스트림의 시간 스탬프들과 비교하여 제 1 컨퍼런스 참가자로부터의 오디오를 상기 제 2 컨퍼런스 참가자로부터의 오디오와 동기화할 수도 있다. 오디오의 동기화는, 컨퍼런스 동안 제 3 세대 파트너쉽 프로젝트 (3GPP) 기술 사양 (TS) 26.114 지연 요건들을 만족할 수도 있다. 예를 들어, 지연 제어기는, 제 1 버퍼가 제 1 오디오 스트림의 실시간 전송 프로토콜 (RTP) 패킷들을, 제 2 오디오 스트림의 대응 RTP 패킷들을 출력하는 것과 대략적으로 동시에 출력하도록, 시간 스탬프들에 기초하여 제 1 및 제 2 버퍼에 제어 신호를 제공할 수도 있다.

동기화 후, 제 1 오디오 스트림 및 제 2 오디오 스트림은 별도로 디코딩되어 제 1 디코딩된 오디오 및 제 2 디코딩된 오디오를 각각 생성할 수도 있다. 제 1 및 제 2 디코딩된 오디오는 모바일 디바이스에서 출력 오디오 스트림을 생성하도록 믹싱될 수도 있다. 일부 구현들에서, 제 1 헤드-관련 전달 함수 (HRTF) 가 제 1 디코딩된 오디오에 적용되어 제 1 디코딩된 오디오의 제 1 이득을 조정하고 사용자 정의된 설정들에 기초하여 제 1 디코딩된 오디오를 공간적으로 스티어링 (예를 들어, 패닝) 할 수도 있다. 부가적으로, 제 2 HRTF 가 제 2 디코딩된 오디오에 적용되어 제 2 디코딩된 오디오의 제 2 이득을 조정하고 사용자 정의된 설정들에 기초하여 제 2 디코딩된 오디오를 공간적으로 스티어링할 수도 있다. 따라서, 제 1 및 제 2 오디오 스트림들을 모바일 디바이스에 제공하는 것은 (네트워크 믹서에서 오디오 스트림들을 믹싱하고 결과의 믹싱된 오디오 스트림을 모바일 디바이스에 제공하는 것과는 대조적으로), 모바일 디바이스가 개개의 오디오 스트림들의 특성들 (예를 들어, 이득 특성들 및 공간적 패닝 특성들) 을 제어하는 것을 가능하게 할 수도 있다. 특히, 오디오 패닝은 렌더링 디바이스가 믹싱 이득들을 조정하는 것에 의해 참가자들의 오디오 레벨들의 변화 또는 조정을 선정하는 것을 가능하게 할 수도 있다. 또한, 오디오 공간화는 렌더링 디바이스가 참가자들을 공간적으로 분포 (예를 들어, 가상 좌석 배치) 하기 위해 상이한 HRTF 함수들을 선정하는 것을 가능하게 할 수도 있으며, 이는 동시 화자들의 경우 화자/단어 판별을 개선하고 이해를 더 우수하게 할 수도 있다. 부가적으로, 네트워크 믹서에서 오디오 스트림들을 믹싱하는 것과 연관된 지연이 감소 (예를 들어, 제거) 될 수도 있다.

본 명세서에 기재된 기법들의 일 예에 따라, 컨퍼런스 동안 오디오를 관리하기 위한 방법은, 모바일 디바이스의 제 1 버퍼에서, 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 단계를 포함한다. 방법은 또한 모바일 디바이스의 제 2 버퍼에서, 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 단계를 포함한다. 방법은 모바일 디바이스의 지연 제어기에서 제어 신호를 생성하는 단계를 더 포함한다. 제어 신호는 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 제 1 버퍼에 그리고 제 2 버퍼에 제공된다.

본 명세서에 기재된 기법들의 또 다른 예에 따라, 모바일 디바이스는, 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하도록 구성된 제 1 버퍼를 포함한다. 모바일 디바이스는 또한, 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하도록 구성된 제 2 버퍼를 포함한다. 모바일 디바이스는 제어 신호를 생성하도록 구성된 지연 제어기를 더 포함한다. 제어 신호는 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 제 1 버퍼에 그리고 제 2 버퍼에 제공된다.

본 명세서에 기재된 기법들의 또 다른 예에 따라, 비일시적 컴퓨터 판독가능 매체는 컨퍼런스 동안 오디오를 관리하기 위한 명령들을 포함한다. 명령들은, 모바일 디바이스에서 프로세서에 의해 실행될 때, 프로세서로 하여금, 동작들을 수행하게 한다. 동작들은 제 1 버퍼에서, 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 것을 포함한다. 동작들은, 제 2 버퍼에서, 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 것을 더 포함한다. 동작들은 또한 지연 제어기에서 제어 신호를 생성하는 것을 포함한다. 제어 신호는 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 제 1 버퍼에 그리고 제 2 버퍼에 제공된다.

본 명세서에 기재된 기법들의 또 다른 예에 따라, 장치는 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 수단을 포함한다. 장치는 또한 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 수단을 포함한다. 장치는 제어 신호를 생성하는 수단을 더 포함한다. 제어 신호는 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 제 1 버퍼에 그리고 제 2 버퍼에 제공된다.

개시된 구현들 중 적어도 하나에 의해 제공된 특별한 이점들은 네트워크 믹서에서 컨퍼런스의 다중 오디오 스트림들을 믹싱하는 것과 연관된 지연을 감소시키는 것을 포함한다. 예를 들어, 네트워크 믹서에서의 오디오 믹싱을 바이패스하는 것은 컨퍼런스 동안 지연을 개선 (예를 들어, 감소) 할 수도 있다. 본 개시물의 다른 구현들, 이점들, 및 피처들은 다음의 섹션들: 도면의 간단한 설명, 상세한 설명, 및 청구항을 포함한, 전체 출원을 검토한 후 명백해질 것이다.

도 1a 는 컨퍼런스 동안 오디오를 관리하도록 동작가능한 시스템을 도시하는 다이어그램이다.
도 1b 는 컨퍼런스 동안 오디오를 관리하도록 동작가능한 또 다른 시스템을 도시하는 다이어그램이다.
도 1c 는 컨퍼런스 동안 오디오를 관리하도록 동작가능한 또 다른 시스템을 도시하는 다이어그램이다.
도 2a 는 컨퍼런스 동안 오디오를 관리하도록 동작가능한 모바일 디바이스의 다이어그램이다.
도 2b 는 도 2a 의 모바일 디바이스의 또 다른 구현이다.
도 3 은 헤드-관련 전달 함수 (HRTF) 들을 사용하여 프로세싱된 디코딩된 오디오를 도시하는 다이어그램이다.
도 4 는 HRTF들 및 헤드 추적 데이터를 사용하여 프로세싱된 디코딩된 오디오를 도시하는 다이어그램이다.
도 5 는 인터넷 프로토콜 (IP) 멀티캐스트 세션을 사용하여 컨퍼런스 동안 오디오를 관리하도록 동작가능한 시스템을 도시하는 다이어그램이다.
도 6 은 컨퍼런스 동안 오디오를 관리하기 위한 방법을 도시하는 플로우챠트이다.
도 7 은 도 1a 내지 도 6 의 시스템들, 다이어그램들, 및 방법들에 따른 신호 프로세싱 동작들을 수행하도록 동작가능한 모바일 디바이스의 블록 다이어그램이다.

본 개시물의 특정 기법들이 도면들을 참조하여 기재된다. 기재에서, 공통 피처들은 도면들 전체에 걸쳐 공통 참조 번호들로 지정된다.

도 1a 를 참조하면, 컨퍼런스 동안 오디오를 관리하도록 동작가능한 시스템 (100) 의 특정 구현이 나타나 있다. 시스템 (100) 은 모바일 디바이스 (102), 제 1 디바이스 (110), 제 2 디바이스 (120), 제 3 디바이스 (130), 및 네트워크 디바이스 (190) 를 포함한다. 일 예에서, 모바일 디바이스 (102), 제 1 디바이스 (110), 제 2 디바이스 (120), 및 제 3 디바이스 (130) 는 각각 제 3 세대 파트너쉽 프로젝트 (3GPP) 표준과 호환가능한 사용자 장비 (UE) 를 포함할 수도 있다. 도 1a 에서는 4-파티 컨퍼런스가 도시되지만, 대안의 구현들에서, 4 파티 보다 더 많거나 적은 파티가 컨퍼런스에 참가할 수도 있음을 이해할 것이다.

모바일 디바이스 (102), 제 1 디바이스 (110), 제 2 디바이스 (120), 및 제 3 디바이스 (130) 가 컨퍼런스 (예를 들어, 오디오 컨퍼런스 콜) 에 참가하고 있을 수도 있다. 네트워크 디바이스 (190) 는 일 디바이스로부터 컨퍼런스 콜에 접속된 각각의 다른 디바이스로 오디오 (예를 들어, 오디오 스트림들) 를 라우팅하도록 구성될 수도 있다.

예시를 위해, 모바일 디바이스 (102) 는 모바일 디바이스 (102) 에서 인코딩되는 오디오 스트림 (104) 을 생성하도록 구성될 수도 있다. 오디오 스트림 (104) 은 스피치 (예를 들어, 사용자 스피치) 및/또는 배경 노이즈를 포함할 수도 있다. 오디오 스트림 (104) 은 네트워크 디바이스 (190) 에 제공될 수도 있고, 네트워크 디바이스 (190) 는 오디오 스트림 (104)(또는 그 트랜스코딩된/프로세싱된 버전) 을 다른 디바이스들 (110, 120, 130) 에 라우팅할 수도 있다. 제 1 디바이스 (110) 는 제 1 디바이스 (110) 에서 인코딩되는 제 1 오디오 스트림 (114) 을 생성하도록 구성될 수도 있다. 제 1 오디오 스트림 (114) 은 컨퍼런스의 제 1 참가자 (예를 들어, 제 1 디바이스 (110) 의 사용자) 로부터의 스피치 및/또는 제 1 디바이스 (110) 에서의 배경 노이즈를 포함할 수도 있다. 제 1 오디오 스트림 (114) 은 네트워크 디바이스 (190) 에 제공될 수도 있고 네트워크 디바이스 (190) 는 제 1 오디오 스트림 (114)(또는 그 트랜스코딩된/프로세싱된 버전) 을 다른 디바이스들 (102, 120, 130) 에 라우팅할 수도 있다. 제 2 디바이스 (120) 는 제 2 디바이스 (120) 에서 인코딩되는 제 2 오디오 스트림 (124) 을 생성하도록 구성될 수도 있다. 제 2 오디오 스트림 (124) 은 컨퍼런스의 제 2 참가자 (예를 들어, 제 2 디바이스 (120) 의 사용자) 로부터의 스피치 및/또는 제 2 디바이스 (120) 에서의 배경 노이즈를 포함할 수도 있다. 제 2 오디오 스트림 (124) 은 네트워크 (190) 에 제공될 수도 있고 네트워크 디바이스 (190) 는 제 2 오디오 스트림 (124)(또는 그 트랜스코딩된/프로세싱된 버전) 을 다른 디바이스들 (102, 110, 130) 에 라우팅할 수도 있다. 제 3 디바이스 (130) 는 제 3 디바이스 (130) 에서 인코딩되는 제 3 오디오 스트림 (134) 을 생성하도록 구성될 수도 있다. 제 3 오디오 스트림 (134) 은 컨퍼런스의 제 3 참가자 (예를 들어, 제 3 디바이스 (130) 의 사용자) 로부터의 스피치 및/또는 제 3 디바이스 (130) 에서의 배경 노이즈를 포함할 수도 있다. 제 3 오디오 스트림 (134) 은 네트워크 디바이스 (190) 에 제공될 수도 있고 네트워크 디바이스 (190) 는 제 3 오디오 스트림 (134)(또는 그 트랜스코딩된/프로세싱된 버전) 을 다른 디바이스들 (102, 110, 120) 에 라우팅할 수도 있다.

각각의 오디오 스트림 (104, 114, 124, 134) 이 컨퍼런스의 참가자/특정 사용자로부터의 스피치를 포함하는 것으로 기재되지만, 다른 예들에서, 하나 이상의 오디오 스트림들 (104, 114, 124, 134) 은 컨퍼런스의 다중 참가자들로부터의 스피치를 포함할 수도 있다. 예를 들어, 디바이스들의 2 이상은 서로 상대적으로 가까운 근방에 있을 수도 있고 컨퍼런스의 다중 참가자들로부터의 스피치를 "픽업" 할 수도 있다. 부가적으로 또는 대안으로, 오디오 스트림들은 단일 사용자 장비 (예를 들어, 단일 모바일 디바이스) 와 연관된 다중 컨퍼런스 참가자들로부터의 스피치를 포함할 수도 있다. 예를 들어, 다중 컨퍼런스 참가자들은 단일 모바일 (또는 고정) 디바이스로 스피킹할 수도 있고, 모바일 (또는 고정) 디바이스는 다중 컨퍼런스 참가자들로부터의 스피치를 포함하는 오디오 스트림을 생성할 수도 있다. 예시를 위해, 제 1 오디오 스트림 (114) 은 다중 스피커들로부터의 스피치를 포함하는 단일 오디오 스트림일 수도 있다. 예를 들어, 4 사람이 제 1 디바이스 (110) 로 스피킹하고 있는 경우, 제 1 오디오 스트림 (114) 은 모노 오디오 스트림, 스테레오 오디오 스트림, 4-채널 오디오 스트림 (예를 들어, 스피커 당 일 채널) 등일 수도 있다.

상술한 바와 같이, 네트워크 디바이스 (190) 는 각각 디바이스들 (110, 120, 130) 으로부터 인코딩된 오디오 스트림들 (114, 124, 134) 을 모바일 디바이스 (102) 에 라우팅할 수도 있다. 본 명세서에 기재된 기법들에 따라, 모바일 디바이스 (102) 는 네트워크 디바이스 (190) 에서 오디오 믹싱이 바이패스되도록 오디오 믹싱을 수행할 수도 있다. 모바일 디바이스 (102) 에서의 오디오 믹싱은 도 2a 에 관하여 더 상세하게 기재된다. 따라서, 오디오 스트림들 (114, 124, 134) 을 디코딩하고, 디코딩된 오디오 스트림들을 믹싱하여 믹싱된 오디오 스트림을 생성하고, 믹싱된 오디오 스트림을 재인코딩하여 재인코딩된 오디오 스트림을 생성하며, 재인코딩된 오디오 스트림을 모바일 디바이스 (102) 에 제공하는 대신, 네트워크 디바이스 (190) 는 각각의 인코딩된 오디오 스트림 (114, 124, 134) 을 모바일 디바이스 (102) 에 라우팅할 수도 있다.

일 예에 따라, 네트워크 디바이스 (190) 는 다른 디바이스들 (102, 110, 120, 130) 사이에서 시그널링 활동들을 수행하도록 "마스터 스피치" 로서 동작할 수도 있다. 예를 들어, 네트워크 디바이스 (190) 는 디바이스들 (102, 110, 120, 130) 로부터 각각 오디오 스트림들 (104, 114, 124, 134) 을 수신할 수도 있고, 오디오 스트림들 (104, 114, 124, 134) 을 릴레이하는 것과 연관된 비트 레이트 제어들을 협상할 수도 있다. 오디오 스트림들을 수신할 시, 네트워크 디바이스 (190) 는 특정 오디오 스트림들이 특정 디바이스들에 라우팅되는 비트 레이트를 협상할 수도 있다. 한정이 아닌 예시적인 예로서, 네트워크 디바이스 (190) 는 제 1 오디오 스트림 (114) 이 모바일 디바이스 (102) 에 제공되는 제 1 비트 레이트, 제 2 오디오 스트림 (124) 이 모바일 디바이스 (102) 에 제공되는 제 2 비트 레이트, 및 제 3 오디오 스트림 (134) 이 모바일 디바이스 (102) 에 제공되는 제 3 비트 레이트를 협상할 수도 있다. 네트워크 디바이스 (190) 는 또한, 개개의 디바이스 능력들에 기초하여 신호들 (예를 들어, 오디오 스트림들) 이 통신될 수도 있는 대역폭들 (예를 들어, 업링크 대역폭들 및 다운링크 대역폭들) 을 협상하는 것이 가능할 수도 있다. 예를 들어, 각각의 디바이스 (102, 110, 120, 130) 의 코더/디코더 (CODEC) 능력들에 기초하여, 네트워크 디바이스 (190) 는 특정 디바이스에 오디오 스트림들이 제공되는 대역폭을 협상하는 것이 가능할 수도 있다.

네트워크 디바이스 (190) 에서의 오디오 믹싱을 바이패스하고 개개의 디바이스들 (102, 110, 120 및 130) 에서 오디오 믹싱을 수행하는 것은 다른 점에서 네트워크 디바이스 (190) 에서 오디오 프로세싱 체인과 연관될 수도 있는 품질 열화를 감소할 수도 있다. 예를 들어, 네트워크 디바이스 (190) 에서의 디코딩 동작들, 네트워크 디바이스 (190) 에서의 믹싱 동작들, 및 네트워크 디바이스 (190) 에서의 재인코딩 동작들로 인한 오디오 품질 저하가 감소될 수도 있다. 따라서, 개개의 디바이스들 (102, 110, 120, 및 130) 에서 오디오 믹싱을 수행하는 것에 의해 (네트워크 디바이스 (190) 와는 대조적으로), 탠덤 (tandem) 코딩 동작들 및 트랜스코딩 동작들이 바이패스될 수도 있다. 부가적으로, 바이너럴 (binaural) 지각의 손실이 감소될 수도 있다. 예를 들어, 제 1 오디오 스트림 (114) 이 스테레오 오디오 스트림이고 다른 오디오 스트림들 (124, 134) 은 모노 오디오 스트림인 경우, 모바일 디바이스 (102) 는, 개개의 오디오 스트림들 (114, 124, 134) 이 모바일 디바이스 (102) 에 전송된다면 오디오 스트림 (114) 의 스테레오 품질을 보존할 수도 있다. 하지만, 네트워크 디바이스 (190) 에서 오디오 믹싱 (예를 들어, 디코딩, 믹싱, 및 재인코딩) 을 수행하고 믹싱된 오디오 스트림을 모바일 디바이스 (102) 에 제공하는 것은, 제 1 오디오 스트림 (114) 의 스테레오 품질이 "분실" 되는 가능도를 증가시킬 수도 있다. 예를 들어, 네트워크 디바이스 (190) 가 오디오 믹싱 동안 제 1 오디오 스트림 (114) 의 스테레오 품질을 보존할 것이라는 보장이 없을 수도 있다.

부가적으로, 네트워크 디바이스 (190) 에서 오디오 믹싱을 바이패스하는 것은 오디오 프로세싱 체인 (예를 들어, 트랜스코딩 체인) 에서 지연을 감소할 수도 있다. 예를 들어, 네트워크 디바이스 (190) 에서 오디오 믹싱을 수행하는 것은 오디오 프로세싱 체인에 지연을 부가하는 디-지터 버퍼들을 지원하도록 네트워크 디바이스 (190) 를 필요로 할 수도 있다. 다중 재인코딩들이 또한 네트워크 디바이스 (190) 에서 오디오 믹싱을 바이패스하는 것에 의해 회피될 수도 있다. 예를 들어, 모바일 디바이스 (102) 에 대해 믹싱된 스트림을 생성하기 위해, 네트워크 디바이스 (190) 는 오디오 스트림들 (114, 124, 134) 을 포함하는 (또는 이들로부터 생성되는) 믹싱된 오디오 스트림을 재인코딩할 수도 있다. 또 다른 예로서, 제 1 디바이스 (110) 에 대해 믹싱된 스트림을 생성하기 위해, 네트워크 디바이스 (190) 는 오디오 스트림들 (104, 124, 134) 을 포함하는 (또는 이들로부터 생성되는) 믹싱된 오디오 스트림을 재인코딩할 수도 있다. 유사한 재인코딩 동작들이 믹싱된 오디오를 다른 디바이스들 (120, 130) 에 제공하기 위해 수행될 수도 있다. 시스템 (100) 은 네트워크 디바이스 (190) 에서 오디오 믹싱을 바이패스하는 것에 의해 그러한 재인코딩 동작들을 회피할 수도 있다.

특정 구현들에 있어서, 도 2a 내지 도 4 에 관하여 기재된 바와 같이, 모바일 디바이스 (102) 는 개인용 헤드-관련 전달 함수 (HRTF) 들을 오디오 스트림들 (114, 124, 134) 에 적용할 수도 있다. 따라서, HRTF들을 사용하여 공간 스티어링이 수행될 수도 있어서 "전형적인" 스테레오 오디오 능력들을 초과하는 멀티-채널 오디오 (예를 들어, 좌측 채널 오디오, 우측 채널 오디오, 또는 그 조합) 를 가능하게 한다. 또한, 도 2a 및 도 4 에 관하여 기재된 바와 같이, 네트워크 디바이스 (190) 에서 오디오 믹싱을 바이패스하는 것은 모바일 디바이스 (102) 에서 헤드 추적 피처들에 기초한 공간 스티어링을 가능하게 할 수도 있다. 컨퍼런스가 오디오 시스템들 및 비디오 시스템들을 포함하는 시나리오에 있어서, 네트워크 디바이스 (190) 에서 오디오 믹싱을 바이패스하는 것은 또한, 비디오가 네트워크 디바이스 (190) 와 같은 네트워크 디바이스에서 트랜스코딩되지 않는 경우, 모바일 디바이스 (102) 가 오디오를 동기화하는 것을 가능하게 할 수도 있다.

특정 구현에 있어서, 기재된 시스템들 및 방법들은, 다양한 기법들을 사용하여 수행될 수도 있는, 컨퍼런싱을 위한 오디오/비디오 동기화를 지원할 수도 있다. 오디오/비디오 동기화의 일 예에 따라, 오디오 스트림들 및 대응 비디오 스트림들은 네트워크 디바이스 (190) 에서 트랜스코딩될 수도 있다. 오디오/비디오 동기화의 또 다른 예에 따라, 각각의 디바이스 (102, 110, 120, 130) 로부터의 비디오 스트림들은 네트워크 디바이스 (190) 에 의해 시스템 (100) 내의 다른 디바이스들에 릴레이될 수도 있고, 각각의 디바이스 (102, 110, 120, 130) 로부터의 오디오 스트림들 (104, 114, 124, 134) 은 네트워크 디바이스 (190) 에서 트랜스코딩될 수도 있어서 믹싱된 오디오 스트림들을 생성한다. 예를 들어, 네트워크 디바이스 (190) 는 오디오 스트림들 (114, 124, 134) 을 포함하는 (또는 이로부터 생성되는) 믹싱된 오디오 스트림을 생성할 수도 있고 믹싱된 오디오 스트림을 모바일 디바이스 (102) 에 전송할 수도 있다. 모바일 디바이스 (102) 에 릴레이된 (디바이스들 (110, 120, 130) 과 연관된) 개개의 비디오 스트림들은 디바이스들 (110, 120, 130) 로부터 생성된 시간 스탬프들을 갖는 RTP 패킷들을 포함할 수도 있는데, 이는 네트워크 디바이스 (190) 가 비디오 스트림들 상의 트랜스코딩 동작들을 바이패스하기 때문이다. 하지만, 믹싱된 오디오 스트림은 네트워크 디바이스 (190) 에서의 트랜스코딩 동작들로 인해 비디오의 시간 스탬프와 상이한 시간 스탬프를 가질 수도 있다. 모바일 디바이스 (120) 는 비디오 스트림들의 시간 스탬프와 믹싱된 오디오 스트림들의 시간 스탬프 사이의 지연을 결정 (예를 들어, 추적) 할 수도 있다. 지연을 결정한 후, 모바일 디바이스 (102) 는 믹싱된 오디오 스트림들 및/또는 비디오 스트림들을 조정하여 오디오 및 비디오를 동기화할 수도 있다.

오디오/비디오 동기화의 또 다른 예에 따라, 각각의 디바이스 (102, 110, 120, 130) 로부터의 비디오 스트림들은 네트워크 디바이스 (190) 에 의해 시스템 (100) 내에서 다른 디바이스들에 릴레이될 수도 있고, 각각의 디바이스 (102, 110, 120, 130) 로부터의 오디오 스트림들 (104, 114, 124, 134) 은 또한 네트워크 디바이스 (190) 에 의해 시스템 (100) 내에서 다른 디바이스들에 릴레이될 수도 있다. 이러한 예에 따라, 오디오 및 비디오에 대한 트랜스코딩 동작들은 네트워크 디바이스 (190) 에서 바이패스된다. 비디오 스트림들 및 오디오 스트림들 (104, 114, 124, 134) 이 별도의 RTP 패킷들에서 전송되기 때문에, RTP 비디오 패킷과 대응 RTP 오디오 패킷 사이에 드리프트 (예를 들어, 지연) 가 있을 수도 있다. 예를 들어, 제 1 디바이스 (110) 로부터의 제 1 오디오 스트림 (114) 의 RTP 오디오 패킷 및 대응 RTP 비디오 패킷은 상이한 시간 스탬프를 가질 수도 있다. RTP 오디오 패킷 및 대응 RTP 비디오 패킷을 수신할 시, 모바일 디바이스 (102) 는 RTP 오디오 패킷 및 대응 RTP 비디오 패킷을 동기화할 수도 있다.

본 명세서에 기재된 기법들에 따라, 모바일 디바이스 (102) 는 사용자 정의된 설정들, 모바일 디바이스 (102) 의 하드웨어 능력들, 또는 그 조합에 기초하여 컨퍼런스 동안 모바일 디바이스 (102) 에 제공된 각각의 오디오 스트림 (114, 124, 134) 의 비트 레이트 및/또는 대역폭을 "협상" (예를 들어, 세선 디스크립션 프로토콜 (SDP) 협상들을 조정 또는 수행) 하는 것이 가능할 수도 있다. 예시를 위해, 모바일 디바이스 (102) 는 제 1 오디오 스트림 (114) 이 모바일 디바이스 (102) 에 제공되는 제 1 비트 레이트를 조정하기 위해 네트워크 디바이스 (190) 에 제 1 신호 (미도시) 를 제공하고, 제 2 오디오 스트림 (124) 이 모바일 디바이스 (102) 에 제공되는 제 2 비트 레이트를 조정하기 위해 네트워크 디바이스 (190) 에 제 2 신호 (미도시) 를 제공하며 및/또는 제 3 오디오 스트림 (134) 이 모바일 디바이스 (102) 에 제공되는 제 3 비트 레이트를 조정하기 위해 네트워크 디바이스 (190) 에 제 3 신호 (미도시) 를 제공할 수도 있다. 한정이 아닌 예시적인 예로서, 모바일 디바이스 (102) 는, 모바일 디바이스 (102) 의 사용자가 (예를 들어, 제 1 디바이스 (110) 를 사용하고 있는 컨퍼런스 참가자로부터의 스피치를 강조하기 위해) 다른 오디오 스트림들 (124, 134) 보다 제 1 오디오 스트림 (114) 에 대해 더 높은 품질 (예를 들어, 더 큰 대역폭) 을 선호하는 것을 표시하는 네트워크 디바이스 (190) 신호들을 전송할 수도 있다.

또 다른 구현에 따라, 시스템 (100) 에서의 각각의 디바이스는 (네트워크 디바이스 (190) 의 협상들을 바이패스하는 것에 의해) 시스템 (100) 에서의 다른 디바이스들과 "직접" 비트 레이트들 및/또는 대역폭들을 협상할 수도 있다. 한정이 아닌 예로서, 모바일 디바이스 (102) 는 제 1 오디오 스트림 (114) 이 모바일 디바이스 (102) 에 제공되는 제 1 비트 레이트를 조정하기 위해 제 1 디바이스 (110) 와 직접 협상할 수도 있다. 한정이 아닌 예로서, 네트워크 디바이스 (190) 는 "관리 디바이스" 로서 동작할 수도 있고 착신 오디오 스트림들 (104, 114, 124, 134) 이 수신되고 있는 비트 레이트들을 모니터링할 수도 있다. 하지만, 협상들은 네트워크 디바이스 (190) 에서와는 대조적으로 디바이스들 (102, 110, 120, 130) 에서 수행된다.

특정 시나리오에서, 네트워크 디바이스 (190) 는 "패킷 번들러" 로서 동작할 수도 있고 시스템 (100) 에서 특정 디바이스에 대해 RTP 패킷들을 번들링할 수도 있다. 예시를 위해, 네트워크 디바이스 (190) 는 오디오 스트림 (104), 제 2 오디오 스트림 (124), 및 제 3 오디오 스트림 (134) 를 (예를 들어, 이들의 패킷들을) 제 1 디바이스 (110) 에 제공될 "번들링된 패킷" 으로 번들링할 수도 있다. 네트워크 디바이스 (190) 는 번들링된 패킷에 RTP 헤더를 삽입할 수도 있고 번들링된 패킷을 제 1 디바이스 (110) 에 전송할 수도 있다. 이러한 시나리오에 따라, 제 1 디바이스 (110) 는 네트워크 디바이스 (190) 로부터 수신된 번들링된 (RTP) 패킷들의 스트림을 프로세싱하기 위해 단일 디-지터 버퍼를 활용할 수도 있다. 네트워크 디바이스 (190) 는 어느 오디오 스트림 (104, 124, 134) 이 각각의 디바이스 (102, 120, 130) 와 연관되는지를 제 1 디바이스 (110) 내의 프로세싱 엘리먼트들에게 명령하기 위해 번들링된 패킷에서 디바이스 식별자 (ID) 들을 할당할 수도 있다. 예를 들어, 번들 내의 각각의 패킷은 패킷이 생성되었던 디바이스의 식별자를 포함할 수도 있다. 특정 구현에 있어서, 번들 내의 패킷들은 그 자신의 시간 스탬프를 포함할 수도 있다. 전체로서 번들은 시간 스탬프를 포함할 수도 있고 또는 포함하지 않을 수도 있다. 따라서, 특정 구현들에서, 디-지터 버퍼 관리는, 도 2a 를 참조하여 더 기재되는 바와 같이, 인트라-스트림 시간 스탬프 뿐만 아니라 인터-스트림 시간 스탬프를 활용하는 것을 포함할 수도 있다.

일 예에서, 오디오 스트림들 (114, 124, 134) 를 수신하기 위한 모바일 디바이스 (102) 에서의 대역폭은 주어진 시간에서 활성 스피커들의 수에 의존할 수도 있다. 예를 들어, 모바일 디바이스 (102) 의 하드웨어 능력들 (예를 들어, 대역폭 제한들) 에 기초하여, 모바일 디바이스 (102) 는 네트워크 디바이스 (190) 로부터의 오디오를 수신하고 프로세싱하기 위해 대역폭 제한을 가질 수도 있다. 주어진 시간에서의 활성 스피커들의 수가 증가함에 따라, 모바일 디바이스 (102) 에서의 가용 리소스 (예를 들어, 하드웨어) 대역폭은 감소할 수도 있다.

대역폭 제한들을 완화하기 위해서, 컨퍼런스는 주어진 시간에서의 활성 스피커들의 수를 감소시키기 위해 "자기-규제" 할 수도 있다. 통상적으로, 동시에 많은 활성 스피커들이 있지 않다; 그렇지 않으면, 컨퍼런스 대화가 이어지는 것은 점점 더 어려워질 수도 있다. 특정 디바이스에서의 참가자가 주어진 시간에 스피킹하지 않는 경우, 그 디바이스에 의해 생성된 대응 오디오 스트림에서의 데이터 프레임들은, 불연속 송신 (DXT) 데이터 프레임들을 포함할 수도 있고 배경 노이즈 특성들을 표시하는 상대적으로 낮은 비트 레이트 (예를 들어, 대략 0.3 초당 킬로비트 (kbps)) 를 가질 수도 있다. 예를 들어, 제 1 디바이스 (110) 에서의 제 1 참가자가 주어진 시간에 침묵하는 경우, 제 1 오디오 스트림 (114) 의 평균 데이터 레이트는 8 프레임 마다 2.4 kbps 프레임을 전송하는 것에 기초하여 대략적으로 0.3 kbps 일 수도 있다 (예를 들어, 2.4 kbps/8 = 0.3 kbps).

활성 스피커가 8 프레임 마다의 주파수를 갖는 프로토콜의 신호 표시자 (SID) 에 따라 업링크 비트 레이트 13.2 kbps 를 갖는 것을 상정한다. 하나의 한정이 아닌 예로서, 프로토콜은 강화된 음성 서비스 (EVS) 프로토콜일 수도 있다. 하나의 활성 스피커 (예를 들어, 제 1 디바이스 (110) 에서의 제 1 참가자) 가 있을 때, 제 1 디바이스 (110) 에 대한 평균 업링크 비트 레이트는 13.2 kbps 일 수도 있고, 다른 디바이스들 (102, 120, 130) 의 각각에 대한 평균 업링크 비트 레이트는 0.3 kbps 일 수도 있다 (예를 들어, DTX 비트 레이트). 따라서, 평균 총 업링크 대역폭은 대략적으로 13.2 + 0.3 + 0.3 + 0.3 = 14.1 kbps 일 수도 있다. 참가자 디바이스에서 오디오 믹싱이 수행될 때 (네트워크 디바이스 (190) 에서와는 대조적으로), 모바일 디바이스 (102) 에 대한 다운링크 비트 레이트는 13.8 kbps 이고, 제 1 디바이스 (110) 에 대한 평균 다운링크 비트 레이트는 0.9 kbps 이고, 제 2 디바이스 (120) 에 대한 평균 다운링크 비트 레이트는 13.8 kbps 이며, 제 3 디바이스 (130) 에 대한 평균 비트 레이트는 13.8 kbps 이다. 따라서, 평균 총 다운링크 비트 레이트는 대략적으로 42.3 kbps 일 수도 있다. 평균 총 다운링크 비트 레이트는, 네트워크 디바이스 (190) 에서 믹싱이 수행될 때의 평균 총 비트 레이트보다 적을 수도 있다.

컨퍼런스에서 2 명의 참가자들이 주어진 시간에 스피킹하고 있을 때, 각각의 활성 스피커는 13.2 kbps 의 평균 업링크 비트 레이트를 가질 수도 있다. 제 1 디바이스 (110) 의 제 1 참가자 및 제 2 디바이스 (120) 의 제 2 참가자가 주어진 시간에 스피킹하고 있을 때, 제 1 디바이스 (110) 에 대한 평균 업링크 비트 레이트는 13.2 kbps 일 수도 있고 제 2 디바이스 (120) 에 대한 평균 업링크 비트 레이트는 13.2 kbps 일 수도 있다. 다른 디바이스들 (102, 130) 의 각각에 대한 평균 업링크 비트 레이트는 0.3 kbps 일 수도 있다 (예를 들어, DTX 비트 레이트). 따라서, 평균 총 업링크 네트워크 대역폭은 대략적으로 27 kbps 일 수도 있다. (네트워크 디바이스 (190) 에서와는 대조적으로) 참가자 디바이스들에서 오디오 믹싱이 수행되고 있을 때, 모바일 디바이스 (102) 에 대한 평균 다운링크 비트 레이트는 26.7 kbps 이고, 제 1 디바이스 (110) 에 대한 평균 다운링크 비트 레이트는 13.8 kbps 이고, 제 2 디바이스 (120) 에 대한 평균 다운링크 비트 레이트는 13.8 kbps 이며, 제 3 디바이스 (130) 에 대한 평균 다운링크 비트 레이트는 26.7 kbps 이다. 따라서, 평균 총 다운링크 비트 레이트는 대략적으로 82 kbps 일 수도 있다. 평균 총 다운링크 비트 레이트는 네트워크 디바이스 (190) 에서 믹싱이 수행되고 있을 때의 평균 총 다운링크 비트 레이트보다 적을 수도 있다.

상술한 바와 같이, 컨퍼런스의 "자기-규제" 본질에 부가하여, 모바일 디바이스 (102) 는 사용자 정의된 설정들에 기초하여 다운링크 대역폭을 감소시키기 위해 네트워크 디바이스 (190) 에 신호들을 전송할 수도 있다. 한정이 아닌 예로서, 모바일 디바이스 (102) 의 사용자가 제 1 디바이스 (110) 의 제 1 참가자가 말해야 하는 것을 듣고 싶지 않은 경우, 사용자는 모바일 디바이스 (102) 에서의 대역폭 제한에 대한 제약들을 감소시키기 위해 낮은 비트 레이트 (예를 들어, 한정이 아닌 예로서 9.6 kbps 와 같은, "다음의" 감소된 활성 프레임 코딩 레이트) 로 제 1 오디오 스트림 (114) 을 제공하도록 네트워크 디바이스 (190) 를 시그널링할 수도 있다. 특히, 오디오에 대한 이러한 내재된 플로어 제어는 렌더링 디바이스로부터 네트워크 디바이스로의 시그널링 및 설정들에 기초할 수도 있다. 예를 들어, 모바일 디바이스에서의 멀티-스트림 클라이언트는 주어진 시간에 동시에 디코딩하는 것이 가능한 것보다 더 많은 오디오 스트림들을 수신하도록 허용될 수도 있다. 그러한 경우, 단말기에서 멀티-스트림 클라이언트는 어느 스트림을 우선순위화하여야 할지 및 어느 스트림을 무시해야 할지를 선정하기 위한 수단을 가질 수도 있다. 이러한 선택은 DTX 모드에 스트림들이 있지 않을 시에 행해질 수도 있다. 미디어 스트림들은 또한 오디오 스트림의 활성 레벨 또는 볼륨에 기초하여 우선순위화될 수도 있다. 하지만, 이것은 가장 시끄러운 스트림을 결정하기 위해 각각의 스트림으부터의 미디어를 디코딩하는 것을 필요로 한다. 대안으로, 미디어 스트림의 서브세트는 주기적으로 디코딩될 수도 있고 미디어 프레임 당 프레임 에너지 및 활성 레벨의 장기 통계는 어느 오디오 스트림을 디코딩할지를 결정하는데 선험적으로 사용될 수도 있다. 우선순위화된 스트림들은 추가로 렌더링을 위해 공간적으로 믹싱될 수도 있다.

네트워크 디바이스 (190) 에서와는 대조적으로 모바일 디바이스 (102) 에서 오디오 믹싱이 수행되기 때문에, 모바일 디바이스 (102) 는 컨퍼런스의 전체 오디오 품질을 보존하기 위해 각각의 수신된 오디오 스트림 (114, 124, 134) 으로부터의 오디오를 동기화하도록 구성될 수도 있다. 그러한 동기화 동작들은 (예를 들어, 상이한 오디오 스트림들에 대한 상이한 네트워크 조건들에 기인한) 오디오 스트림들 (114, 124, 134) 을 수신하는데 있어서의 지연의 변동량을 보상하기 위해 사용될 수도 있다. 도 2a 를 참조하여 더 상세하게 기재되는 바와 같이, 모바일 디바이스 (102) 는 각각의 수신된 오디오 스트림 (114, 124, 134) 으로부터 수신된 오디오를 동기화하기 위해 제어 신호를 생성하도록 구성되는 "지연 제어기" 를 포함할 수도 있다. 예를 들어, 지연 제어기는 대응 오디오 스트림들 (114, 124, 134) 을 수신하는 (모바일 디바이스 (102) 에서의) 각각의 디-지터 버퍼에 대한 평균 지연이 프레임 에러 레이트 (FER) 을 만족하기 위해 실질적으로 동일하도록 동작할 수도 있다. 한정이 아닌 예로서, 지연 제어기는 각각의 디-지터 버퍼에 대한 평균 지연이 3 프레임들, 5 프레임들, 7 프레임들 등인 것을 보장할 수도 있다.

도 1a 의 시스템 (100) 은 다른 점에서 모바일 디바이스 (102) 에서 (그리고 유사하게 디바이스들 (110, 120, 130) 에서) 오디오 프로세싱 (예를 들어, 믹싱) 을 수행하는 것에 의해 네트워크 디바이스 (190) 에서 오디오 프로세싱 체인과 연관될 수도 있는 품질 열화를 감소할 수도 있다. 예를 들어, 네트워크 디바이스 (190) 에서의 디코딩 동작들, 네트워크 디바이스 (190) 에서의 믹싱 동작들, 및 네트워크 디바이스 (190) 에서의 재-인코딩 동작들에 기인하는 오디오 품질 열화가 감소될 수도 있다. 따라서, 개개의 디바이스들 (102, 110, 120, 130) 에서 오디오 믹싱을 수행하는 것에 의해, 트랜스코딩 동작들이 바이패스될 수도 있다.

도 1b 를 참조하면, 컨퍼런스 동안 오디오를 관리하도록 동작가능한 또 다른 시스템 (153) 의 특정 구현이 나타나 있다. 시스템 (153) 은 모바일 디바이스 (102), 제 1 디바이스 (110), 제 2 디바이스 (120), 및 제 3 디바이스 (130) 를 포함한다.

시스템 (150) 은 도 1a 의 시스템과 실질적으로 유사한 방식으로 동작할 수도 있다; 하지만, 시스템 (153) 에서의 오디오 스트림들 (104, 114, 124, 134) 은 중앙 네트워킹 시스템 (예를 들어, 도 1a 의 네트워크 디바이스 (190)) 없이 디바이스에서 디바이스로 라우팅될 수도 있다. 따라서, 도 1b 의 시스템 (153) 에서는 네트워크 디바이스 (190) 에서의 라우팅과 연관된 지연이 감소될 수도 있다.

도 1c 를 참조하면, 컨퍼런스 동안 오디오를 관리하도록 동작가능한 또 다른 시스템 (170) 의 특정 구현이 나타나 있다. 시스템 (170) 은 모바일 디바이스 (102), 제 1 디바이스 (110), 제 2 디바이스 (120), 제 3 디바이스 (130), 제 4 디바이스 (140), 제 5 디바이스 (150), 및 게이트웨이 (180)(예를 들어, 네트워크 믹서) 를 포함한다. 일 구현에 따라, 게이트웨이 (180) 는 모바일 디바이스일 수도 있다. 또 다른 구현에 따라, 게이트웨이 (180) 는 고정 디바이스일 수도 있다.

도 1c 의 예시에서, 제 4 디바이스 (140) 및 제 5 디바이스 (150) 는 레거시 디바이스들이다. 예를 들어, 레거시 디바이스들 (140, 150) 은 (예를 들어, 레거시 디바이스들 (140, 150) 에서의 리소스 제약들에 기인하여) 다른 디바이스들 (102, 110, 120, 130) 에 관하여 도 1a 및 도 1b 에 기재된 방식으로 다중 오디오 스트림의 오디오 믹싱을 수행하는 것이 가능하지 않을 수도 있다. 오히려, 레거시 디바이스들 (140, 150) 은 다른 디바이스들의 오디오 스트림들 (104, 114, 124, 134) 을 포함하는 (또는 이들로부터 생성되는) 단일 오디오 스트림 (예를 들어, 믹싱된 오디오 스트림 (184)) 을 수신하도록 구성될 수도 있다. 예시를 위해, 네트워크 디바이스 (190) 는 오디오 스트림들 (104, 114, 124, 134) 을 게이트웨이 (180) 에 릴레이할 수도 있다. 게이트웨이 (180) 는 오디오 스트림들 (104, 114, 124, 134) 상에서 오디오 믹싱을 수행하여 믹싱된 오디오 스트림 (184) 을 생성할 수도 있다. 믹싱된 오디오 스트림 (184) 을 생성한 후, 게이트웨이 (180) 는 믹싱된 오디오 스트림 (184) 을 제 4 디바이스 (140) 에 그리고 제 5 디바이스 (150) 에 릴레이할 수도 있다.

제 4 디바이스 (140) 는 제 4 디바이스 (140) 에서 인코딩되는 제 4 오디오 스트림 (144) 을 생성하도록 구성될 수도 있다. 제 4 오디오 스트림 (144) 은 스피치 (예를 들어, 사용자 스피치) 및/또는 배경 노이즈를 포함할 수도 있다. 제 4 오디오 스트림 (144) 은 게이트웨이 (180) 에 제공될 수도 있고, 게이트웨이 (180) 는 제 4 오디오 스트림 (144)(또는 그 트랜스코딩된/프로세싱된 버전) 을 네트워크 디바이스 (190) 에 라우팅할 수도 있으며, 네트워크 디바이스 (190) 는 제 4 오디오 스트림 (144)(또는 그 트랜스코딩된/프로세싱된 버전) 을 다른 디바이스들 (102, 110, 120, 130) 에 라우팅할 수도 있다. 제 5 디바이스 (150) 는 제 5 디바이스 (150) 에서 인코딩되는 제 5 오디오 스트림 (154) 을 생성하도록 구성될 수도 있다. 제 5 오디오 스트림 (154) 은 스피치 (예를 들어, 사용자 스피치) 및/또는 배경 노이즈를 포함할 수도 있다. 제 5 오디오 스트림 (154) 은 게이트웨이 (180) 에 제공될 수도 있고, 게이트웨이 (180) 는 제 5 오디오 스트림 (154)(또는 그 트랜스코딩된/프로세싱된 버전) 을 네트워크 디바이스 (190) 에 라우팅할 수도 있으며, 네트워크 디바이스 (190) 는 제 5 오디오 스트림 (154)(또는 그 트랜스코딩된/프로세싱된 버전) 을 다른 디바이스들 (102, 110, 120, 130) 에 라우팅할 수도 있다.

도 1c 는 제 4 오디오 스트림 (144) 및 제 5 오디오 스트림 (154) 을 별도의 오디오 스트림들로서 라우팅하는 게이트웨이 (180) 를 도시하지만, 다른 구현들에서, 게이트웨이 (180) 는 제 4 오디오 스트림 (144) 및 제 5 오디오 스트림 (154) 상에서 오디오 믹싱을 수행하여 믹싱된 오디오 스트림을 생성할 수도 있다. 믹싱된 오디오 스트림은 네트워크 디바이스 (190) 에 라우팅될 수도 있고, 네트워크 디바이스 (190) 는 믹싱된 오디오 스트림을 다른 디바이스들 (102, 110, 120, 130) 에 릴레이할 수도 있다.

부가적으로, 도 1c 는 제 4 디바이스 (140) 및 제 5 디바이스 (150) 가 동일한 믹싱된 오디오 스트림 (184) 을 수신하는 것을 도시하지만, 다른 구현들에서, 제 4 디바이스 (140) 및 제 5 디바이스 (150) 가 상이한 믹싱된 오디오 스트림들을 수신할 수도 있다. 예를 들어, 제 4 디바이스 (140) 에 의해 수신된 믹싱된 오디오 스트림은 디바이스들 (102, 110, 120, 130, 150) 으로부터의 오디오 스트림들 (104, 114, 124, 134) 을 각각 포함할 수도 있다 (또는 이들로부터 생성될 수도 있다). 따라서, 게이트웨이 (180) 는 제 5 오디오 스트림들 (154) 을 다른 오디오 스트림들 (104, 114, 124, 134) 와 믹싱하여 믹싱된 오디오 스트림을 제 4 디바이스 (140) 에 제공하도록 구성될 수도 있다. 유사한 방식으로, 제 5 디바이스 (150) 에 의해 수신된 믹싱된 오디오 스트림은 디바이스들 (102, 110, 120, 130, 140) 으로부터의 오디오 스트림들 (104, 114, 124, 134, 144) 을 각각 포함할 수도 있다 (또는 이들로부터 생성될 수도 있다). 따라서, 게이트웨이 (180) 는 제 4 오디오 스트림 (144) 을 다른 오디오 스트림들 (104, 114, 124, 134) 와 믹싱하여 믹싱된 오디오 스트림을 제 5 디바이스 (150) 에 제공하도록 구성될 수도 있다.

도 2a 를 참조하면, 모바일 디바이스 (102) 의 특정 구현이 나타나 있다. 모바일 디바이스 (102) 는 지연 제어기 (202), 제 1 버퍼 (210), 제 1 디코더 (212), 제 2 버퍼 (220), 제 2 디코더 (222), 제 3 버퍼 (230), 제 3 디코더 (232), 공간 스티어링 프로세서 (240), 및 헤드 추적 모듈 (250) 을 포함한다. 도 2a 는 모바일 디바이스 (102) 의 컴포넌트들을 도시하지만, 유사한 컴포넌트들이 컨퍼런스와 연관된 다른 디바이스들 (110, 120, 130) 에 포함될 수도 있음을 유의해야 한다.

일 예에서, 각각의 버퍼 (210, 220, 230) 는 대응 오디오 스트림을 버퍼링하도록 구성되는 디-지터 버퍼일 수도 있다. 예를 들어, 제 1 버퍼 (210) 는 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스 (110) 로부터 제 1 오디오 스트림 (114)(예를 들어, 제 1 실시간 전송 프로토콜 (RTP) 패킷들) 을 수신할 수도 있고, 제 2 버퍼 (220) 는 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스 (120) 로부터 제 2 오디오 스트림 (124)(예를 들어, 제 2 RTP 패킷들) 을 수신할 수도 있으며, 제 3 버퍼 (230) 는 컨퍼런스의 제 3 참가자와 연관된 제 3 디바이스 (130) 로부터 제 3 오디오 스트림 (134)(예를 들어, 제 3 RTP 패킷들) 을 수신할 수도 있다. 또 다른 구현에 따라, 제 1 버퍼 (210) 는 도 1a 의 네트워크 디바이스 (190) 로부터 제 1 오디오 스트림 (114) 을 수신할 수도 있고, 제 2 버퍼 (220) 는 네트워크 디바이스 (190) 로부터 제 2 오디오 스트림 (124) 을 수신할 수도 있으며, 제 3 버퍼 (230) 는 네트워크 디바이스 (190) 로부터 제 3 오디오 스트림 (134) 을 수신할 수도 있다. 이러한 구현 (예를 들어, "네트워크 릴레이" 구현) 에 의하면, 제 1 버퍼 (210) 에 의해 수신된 바와 같은 제 1 오디오 스트림 (114) 의 RTP 시간 스탬프는 제 1 디바이스 (110) 에 의해 제공된 RTP 시간 스탬프와 동일하고, 제 2 버퍼 (220) 에 의해 수신된 바와 같은 제 2 오디오 스트림 (124) 의 RTP 시간 스탬프는 제 2 디바이스 (120) 에 의해 제공된 RTP 시간 스탬프와 동일하며, 제 3 버퍼 (230) 에 의해 제공된 바와 같은 제 3 오디오 스트림 (134) 의 RTP 시간 스탬프는 제 3 디바이스 (130) 에 의해 제공된 RTP 시간 스탬프와 동일하다.

도 2a 의 모바일 디바이스는 도 1a 에 관하여 위에 기재된 바와 같이, 3 개의 대응 오디오 스트림들 (114, 124, 134) 에 대해 3 개의 버퍼들 (210, 220, 230) 을 포함하는 것으로 나타나 있지만, 대안의 구현에서, 도 1a 의 네트워크 디바이스 (190) 는 번들링된 오디오 스트림을 생성하기 위해 오디오 스트림들 (114, 124, 134) 의 패킷들을 번들링할 수도 있으며, 여기서 번들링된 오디오 스트림의 각각의 패킷은 번들 패킷에 대한 RTP 헤더에 부가하여 개개의 오디오 스트림들 (114, 124, 134) 로부터의 패킷들을 포함한다. 이러한 시나리오에서, 모바일 디바이스 (102) 는 번들링된 오디오 스트림의 패킷들을 수신하도록 구성되는 단일 버퍼 (예를 들어, 단일 디-지터 버퍼) 를 활용할 수도 있다. 예를 들어, 번들링된 오디오 스트림의 패킷은 RTP 헤더, 제 1 디바이스 (110) 에 할당된 제 1 ID 에 의해 식별되는 제 1 RTP 패킷 (제 1 오디오 스트림 (114) 에 대응), 제 2 디바이스 (120) 에 할당된 제 2 ID 에 의해 식별되는 제 2 RTP 패킷 (제 2 오디오 스트림 (124) 에 대응), 및 제 3 디바이스 (130) 에 할당되는 제 3 ID 에 의해 식별되는 제 3 RTP 패킷 (제 3 오디오 스트림에 대응) 을 포함할 수도 있다. 번들링된 패킷에 대한 RTP 헤더는 시간 스탬프를 포함할 수도 있다. 대안으로, 또는 부가적으로, 제 1, 제 2 및 제 3 RTP 패킷들은 그 자신의 RTP 헤더들 및 시간 스탬프를 포함할 수도 있다.

제 1 버퍼 (210) 는 제 1 오디오 스트림 (114) 을 버퍼링하고 제 1 버퍼링된 오디오 (214) 를 제 1 디코더 (212) 에 출력하도록 구성될 수도 있다. 제 2 버퍼 (220) 는 제 2 오디오 스트림 (124) 을 버퍼링하고 제 2 버퍼링된 오디오 (224) 을 제 2 디코더 (222) 에 출력하도록 구성될 수도 있다. 제 3 버퍼 (230) 는 제 3 오디오 스트림 (134) 을 버퍼링하고 제 3 버퍼링된 오디오 (234) 을 제 3 디코더 (232) 에 출력하도록 구성될 수도 있다. 각각의 버퍼 (210, 220, 230) 는 참조 지연 계산 알고리즘 (RDCA) 를 포함할 수도 있다. 예를 들어, 제 1 버퍼 (210) 는 제 1 RDCA (211) 를 포함할 수도 있고, 제 2 버퍼 (220) 는 제 2 RDCA (221) 을 포함할 수도 있으며, 제 3 버퍼 (230) 는 제 3 RDCA (231) 을 포함할 수도 있다. 각각의 RDCA (211, 221, 231) 는 명령들을 실행하는 (대응 버퍼들 (210, 220, 230) 내의) 프로세서에 의해 구현될 수도 있다. 각각의 버퍼 (210, 220, 230) 에 대한 지연은 대응 RDCA (211, 221, 231) 에 기초할 수도 있다. 하기에 기재되는 바와 같이, 지연 제어기 (202) 는 FER 을 만족하기 위해 각각의 버퍼 (210, 220, 230) 의 평균 지연이 실질적으로 동일하도록 동작할 수도 있다. 예를 들어, 지연 제어기 (202) 는 제 1 버퍼링된 오디오 (214), 제 2 버퍼링된 오디오 (224), 및 제 3 버퍼링된 오디오 (234) 가 실질적으로 동기화되는 것을 보장하기 위해 각각의 RDCA (211, 221, 231) 를 수정하도록 구성될 수도 있다.

지연 제어기 (202)(예를 들어, 디-지터 버퍼 동기화기) 는 각각의 버퍼 (210, 220, 230) 에 제공되는 제어 신호 (204) 를 생성하도록 구성될 수도 있다. 제어 신호 (204) 에 기초하여, 버퍼들 (210, 220, 230) 은 제 1 버퍼링된 오디오 (214), 제 2 버퍼링된 오디오 (224), 및 제 3 버퍼링된 오디오 (234) 의 출력을 동기화할 수도 있다. 대안으로, 상이한 제어 신호들이 버퍼들 (210, 220, 230) 의 각각에 제공될 수도 있다. 일 구현에 따라, 지연 제어기 (202) 는 각각의 버퍼 (210, 220, 230) 내에서 지연을 결정할 수도 있다. 예를 들어, 제 1 RDCA (211) 에 기초하여, 제 1 버퍼 (210) 는 제 1 버퍼 (210) 내에서 제 1 지연을 결정할 수도 있고 피드백 신호 (205) 를 통해 지연 제어기 (202) 에 제 1 지연과 연관된 정보를 제공할 수도 있다. 제 2 버퍼 (220) 는 제 2 RDCA (221) 에 기초하여 제 2 버퍼 (220) 내에서 제 2 지연을 결정할 수도 있고 피드백 신호 (205) 를 통해 지연 제어기 (202) 와 연관된 정보를 제공할 수도 있다. 부가적으로, 제 3 버퍼 (230) 는 RDCA (231) 에 기초하여 제 3 버퍼 (230) 내에서 제 3 지연을 결정할 수도 있고 피드백 신호 (205) 를 통해 지연 제어기 (202) 에 제 3 지연과 연관된 정보를 제공할 수도 있다. 제 1, 제 2, 및 제 3 지연들은 개개의 오디오 스트림들 내에서 인트라-스트림 시간 스탬프에 기초하여 결정될 수도 있다. 한정이 아닌 예로서, 제 1 지연은 제 1 오디오 스트림 (114) 에서의 RTP 시간에 기초할 수도 있다 (예를 들어, 제 1 지연은 다른 오디오 스트림들 (124, 134) 에서의 RTP 시간 스탬프에서 독립적일 수도 있다.

지연 제어기 (202) 는 제어 신호 (204) 를 생성하기 위해 제 1, 제 2, 및 제 3 지연에 관한 정보를 사용할 수도 있다. 단일 제어 신호가 도 2a 에 도시되어 있지만, 제 1 제어 신호가 제 1 버퍼 (210) 에 제공될 수도 있고, 제 2 제어 신호가 제 2 버퍼 (220) 에 제공될 수도 있으며, 제 3 제어 신호가 제 3 버퍼 (230) 에 제공될 수도 있다. 제어 신호 (204)(또는 다중 제어 신호들) 는 각각의 버퍼 (210, 220, 230) 가 실질적으로 유사한 평균 지연을 갖도록 각각의 버퍼 (210, 220, 230) 에게 "스피드 업" 하고, 지연을 증가시키고, 또는 전류 지연을 유지하도록 명령할 수도 있다. 버퍼를 "스피드 업" 하는 것은 하나 이상의 프레임들을 "드롭" 하도록 버퍼에게 명령하는 것을 포함할 수도 있다. 예시를 위해, 제 1 버퍼 (210) 는 2 프레임들의 평균 지연을 가질 수도 있고, 제 2 버퍼 (220) 는 4 프레임들의 평균 지연을 가질 수도 있으며, 제 3 버퍼 (230) 는 6 프레임들의 평균 지연을 가질 수도 있다. 이들 통계에 기초하여, 지연 제어기 (202) 는 제 1 버퍼 (210) 에게 2 프레임들 만큼 그 평균 지연을 증가시키도록 명령하고, 제 2 버퍼 (220) 에게 그 현재 평균 지연을 유지하도록 명령하며, 제 3 버퍼 (230) 에게 2 프레임 만큼 그 평균 지연을 스피드 업 하도록 명령할 수도 있어서, 각각의 버퍼 (210, 220, 230) 가 대략 4 프레임의 평균 지연을 갖는다. 부가적으로, 버퍼 리소스들은 지연 조정들에 기초하여 재할당될 수도 있다. 예를 들어, 제 1 버퍼 (210) 는 2 프레임 만큼 그 평균 지연을 증가시켜야 하고 제 3 버퍼 (230) 는 2 프레임 만큼 그 지연을 감소시켜야 하기 때문에, 버퍼 리소스들이 제 3 버퍼 (230) 와 제 1 버퍼 (210) 사이에 재할당될 수도 있다.

따라서, 지연 제어기 (202) 는 인트라-스트림 시간 스탬프에 부가하여, 인터-스트림 시간 스탬프를 사용하여, 각각의 버퍼 (210, 220, 230) 의 지연을 조정할 수도 있다. 예를 들어, 각각의 버퍼 (210, 220, 230) 에 대한 지연들은 각각의 버퍼 (210, 220, 230) 의 평균 지연들을 비교하는 것에 기초하여 조정될 수도 있고, 각각의 버퍼 (210, 220, 230) 의 평균 지연은 대응 오디오 스트림들 (114, 124, 134) 의 RTP 시간 스탬프에 기초한다. 한정이 아닌 예시적인 예로서, 3 개의 디바이스들 "A", "B", 및 "C" 로부터 수신된 다양한 RTP 패킷들의 스탬프는 t(A, 1), t(A, 2), t(A, 3)… t(A, N); t(B, 1), t(B, 2), t(B, 3)… t(B, N); t(C, 1), t(C, 2), t(C, 3)… t(C, N) 일 수도 있다. 인트라-스트림 시간 스탬프는 동일한 RTP 스트림의 2 개의 패킷들 (예를 들어, t(A,2) 및 t(A,1)) 사이의 시간 차이에 대응할 수도 있다. 지연 제어기 (202) 는 제어 신호 (204) 를 생성하기 위해 스트림들 사이의 인터-스트림 지연 및 스트림 내의 평균 지연을 결정하고 및/또는 사용할 수도 있다.

또 다른 구현에 따라, 지연 제어기 (202) 는 제 1 오디오 스트림 (114)(제 1 RTP 패킷) 의 제 1 시간 스탬프, 제 2 오디오 스트림 (124)(예를 들어, 제 2 RTP 패킷) 의 제 2 시간 스탬프, 및 제 3 오디오 스트림 (134)(예를 들어, 제 3 RTP 패킷) 의 제 3 시간 스탬프를 비교할 수도 있다. 일 예에서, 제 1, 제 2 및 제 3 시간 스탬프는 102, 110, 120, 및 130 에 (예를 들어, 타이밍 서버 또는 다른 클록 소스에 의해) 제공되는 공통 클록 소스 (예를 들어, 글로벌 클록 소스) 에 기초할 수도 있다. 오디오 스트림들 (114, 124, 134) 의 시간 스탬프들은 도 1a 의 네트워크 디바이스 (190) 에 의해 변경되지 않는 모바일 디바이스 (102) 에 의해 수신될 수도 있다. 지연 제어기 (202) 는 제 1 시간 스탬프와 제 2 시간 스탬프 사이의 제 1 시간 차이, 제 2 시간 스탬프와 제 3 시간 스탬프 사이의 제 2 시간 차이, 및 제 3 시간 스탬프와 제 1 시간 스탬프 사이의 제 3 시간 차이를 결정할 수도 있다.

특정 구현에 있어서, 지연 제어기 (202) 는 상이한 버퍼들로부터 개개의 패킷들에 기초하여 시간 차이를 결정한다. 예를 들어, 제 1 시간 차이는 제 1 버퍼 (210) 에서 "가장 이른" 패킷 (예를 들어, 출력될 다음 패킷) 의 시간 스탬프와 제 2 버퍼 (220) 에서 가장 이른 패킷의 시간 스탬프 사이의 차이에 대응할 수도 있다. 유사하게, 제 2 시간 차이는 제 2 버퍼 (220) 에서 가장 이른 패킷의 시간 스탬프와 제 3 버퍼 (230) 에서 가장 이른 패킷의 시간 스탬프 사이의 차이에 대응할 수도 있다. 제 3 차이는 제 3 버퍼 (230) 에서 가장 이른 패킷의 시간 스탬프와 제 1 버퍼 (210) 에서 가장 이른 패킷의 시간 스탬프 사이의 차이에 대응할 수도 있다.

시간 차이들에 기초하여, 지연 제어기 (202) 는 버퍼링된 오디오 (210, 224, 234) 가 버퍼들 (210, 220, 230) 로부터 각각 출력될 때를 제어하도록 제어 신호 (204) 를 생성할 수도 있어서, 버퍼링된 오디오 (214, 224,234) 가 동기화된다. 예를 들어, 제어 신호 (204)(또는 상술한 바와 같이 다중 제어 신호들) 는, 동일한 시간 스탬프를 갖는 버퍼들 (210, 220, 및 230) 에서의 패킷들/프레임들로 하여금, 그러한 패킷들/프레임들이 모바일 디바이스 (102) 에 의해 실제로 수신되었던 때에 관계 없이, 실질적으로 동시에 출력되게 할 수도 있다. 패킷이 버퍼들 (210, 220, 230) 중 하나로부터 출력된 후, 지연 제어기 (202) 는 시간 차이들 중 하나 이상을 재계산하고 따라서 제어 신호 (204) 를 수정할 수도 있다. 버퍼링된 오디오 (214, 224, 234) 를 동기화하기 위해 동기화 신호 (204) 를 생성하는 것에 의해, 지연 제어기 (202) 는 예컨대, 비교가능한 버퍼들 (210, 220, 230) 에 걸쳐 평균 지연을 형성하는 것에 의해, 컨퍼런스 동안 3GPP 기술 사양 (TS) 26.114 평균 지연 요건들을 만족시키는데 있어서 버퍼들 (210, 220, 230) 의 각각을 보조할 수도 있다.

제 1 버퍼링된 오디오 (214) 를 제 2 버퍼링된 오디오 (224) 와 동기화하는 것의 한정이 아닌 예로서, 지연 제어기 (202) 는 제 1 시간 스탬프가 제 2 시간 스탬프보다 더 이른 시간을 표시하는 경우 제 1 시간 차이에 의해 제 1 버퍼링된 오디오 (214) 를 출력하는 것을 지연하도록 제 1 버퍼 (210) 에 (제어 신호 (204) 를 통해) 표시할 수도 있다. 제 2 시간 스탬프가 제 1 시간 스탬프보다 이른 시간을 표시하는 경우, 지연 제어기 (202) 는 제 1 시간 차이에 의해 제 2 버퍼링된 오디오 (224) 를 출력하는 것 (예를 들어, 다음 패킷) 을 지연하도록 제 2 버퍼 (220) 에 (제어 신호 (204) 를 통해) 표시할 수도 있다.

따라서, 지연 제어기 (202) 는 TS 26.114 최소 성능 지터 버퍼 관리 (JBM) 지연 요건들이 멀티-세션 (예를 들어,컨퍼런스) 동안 충족되도록 각각의 개별 버퍼 (210, 220, 230) 의 성능을 모니터링하도록 구성될 수도 있다. 또한, 지연 제어기 (202) 는 "버퍼 핸들링" 이 효율적으로 수행되도록 각각의 버퍼 (210, 220, 230) 에서 RDCA들 (211, 221, 231) 에 부가 시간 스탬프 조정 정보를 제공할 수도 있다. 상술한 바와 같이, 지연 제어기 (202) 는 피드백 신호 (205) 를 통해 각각의 버퍼 (210, 220, 230) 에서 작동하는 RDCA들 (211, 221, 231) 로부터 인트라 시간 스탬프 특성들을 수신할 수도 있고, 지연 제어기 (202) 는 버퍼들 (210, 220, 230) 를 관리하는데 그러한 정보를 사용할 수도 있다. 따라서, 버퍼 지연을 관리하기 위한 "폐쇄 루프" 방법론이 구현될 수도 있다.

제 1 버퍼링된 오디오 (214) 를 수신하는 것에 응답하여, 제 1 디코더 (212) 는 제 1 버퍼링된 오디오 (214) 를 디코딩하여 제 1 디코딩된 오디오 (216) 를 생성할 수도 있다. 제 1 디코딩된 오디오 (216) 는 공간 스티어링 프로세서 (240) 에 제공될 수도 있다. 하지만, 제 1 버퍼링된 오디오 (214) 에서의 프레임이 DTX (또는 NODATA) 프레임 (예를 들어, 배경 노이즈 및/또는 묵음에 대응) 인 경우, 제 1 디코더 (212) 에서의 디코딩 동작들이 바이패스되어 전력 소비를 감소하고 프로세싱 리소스들을 절약할 수도 있다. 디코딩 동작들이 프레임 동안 스킵될 때, 이전에 디코딩된 활성 프레임에 대한 디코딩 상태/메모리들이 후속하여 다음 활성 프레임을 디코딩하는데 사용하기 위해 유지될 수도 있다. 제 2 버퍼링된 오디오 (224) 를 수신하는 것에 응답하여, 제 2 디코더 (222) 는 제 2 디코딩된 오디오 (224) 를 디코딩하여 제 2 디코딩된 오디오 (226) 를 생성할 수도 있다. 제 2 디코딩된 오디오 (226) 는 또한 공간 스티어링 프로세서 (240) 에 제공될 수도 있다. 제 2 버퍼링된 오디오 (224) 에서의 프레임이 DTX (또는 NODATA) 프레임인 경우, 제 2 디코더 (222) 에서의 디코딩 동작들이 바이패스되어 전력 소비를 감소하고 프로세싱 리소스들을 절약할 수도 있다. 제 3 버퍼링된 오디오 (234) 를 수신하는 것에 응답하여, 제 3 디코더 (232) 는 제 3 버퍼링된 오디오 (234) 를 디코딩하여 제 3 디코딩된 오디오 (236) 를 생성할 수도 있다. 제 3 디코딩된 오디오 (236) 는 추가로 공간 스티어링 프로세서 (240) 에 제공될 수도 있다. 제 3 버퍼링된 오디오 (234) 에서의 프레임이 DTX 프레임인 경우, 제 3 디코더 (232) 에서의 디코딩 동작들이 바이패스되어 전력 소비를 감소하고 프로세싱 리소스들을 절약할 수도 있다. 특정 구현에 있어서, 모바일 디바이스 (102) 는 RTP 패킷 길이에 기초하여 프레임 (예를 들어, 패킷) 이 DTX (또는 NODATA) 프레임인지 여부를 결정할 수도 있다.

공간 스티어링 프로세서 (240) 는 제 1 각도 (α1) 로 스피커로부터 제 1 디코딩된 오디오 (216) 를 프로젝트하기 위해 제 1 디코딩된 오디오 (216) 상에서 제 2 공간 스티어링 동작을 수행하도록 구성될 수도 있다. 예를 들어, 공간 스티어링 프로세서 (240) 는 제 1 각도 (α1) 에 따라 제 1 디코딩된 오디오 (216) 를 스티어링 (예를 들어, 패닝) 하기 위해 제 1 디코딩된 오디오 (216) 에 제 1 HRTF (242) 를 적용할 수도 있다. 제 1 각도 (α1) 에 따라 제 1 디코딩된 오디오 (216) 를 스티어링하는 예가 도 3 에 도시된다. 제 1 HRTF (242) 는 또한 제 1 디코딩된 오디오 (216) 의 제 1 이득을 조정하기 위해 공간 스티어링 프로세서 (240) 에 의해 사용될 수도 있다. 일 구현에 따라, 제 1 이득 및 제 1 각도 (α1) 는 모바일 디바이스 (102) 에서 사용자 정의된 설정들에 기초하여 조정될 수도 있다. 예를 들어, 사용자가 제 1 디바이스 (110) 와 연관된 제 1 참가자의 스피치가 컨퍼런스의 다른 참가자들과 연관된 스피치보다 더 중요함을 결정하는 경우, 사용자는 제 1 디코딩된 오디오 (216) 의 제 1 이득을 증가시키도록 모바일 디바이스에 표시할 수도 있다. 사용자 표시에 기초하여, 공간 스티어링 프로세서 (240) 는 제 1 디코딩된 오디오 (216) 의 제 1 이득을 증가시키도록 제 1 HRTF (242) 를 사용할 수도 있다.

공간 스티어링 프로세서 (240) 는 또한 제 2 각도 (α2) 로 스피커로부터 제 2 디코딩된 오디오 (226) 를 프로젝트하기 위해 제 2 디코딩된 오디오 (226) 상에서 제 2 공간 스티어링 동작을 수행하도록 구성될 수도 있다. 예를 들어, 공간 스티어링 프로세서 (240) 는 제 2 각도 (α2) 에 따라 제 2 디코딩된 오디오 (226) 를 스티어링 (예를 들어, 패닝) 하기 위해 제 2 디코딩된 오디오 (226) 에 제 2 HRTF (244) 를 적용할 수도 있다. 제 2 각도 (α2) 에 따른 제 2 디코딩된 오디오 (226) 의 스티어링의 예시가 도 3 에 도시된다. 제 2 HRTF (244) 는 또한 제 2 디코딩된 오디오 (226) 의 제 2 이득을 조정하기 위해 공간 스티어링 프로세서 (240) 에 의해 사용될 수도 있다. 일 구현에 따라, 제 2 이득 및 제 2 각도 (α2) 는 모바일 디바이스 (102) 에서 사용자 정의된 설정들에 기초하여 조정될 수도 있다. 예를 들어, 사용자가 제 2 디바이스 (120) 와 연관된 제 2 참가자로부터의 스피치가 컨퍼런스의 다른 참가자들과 연관된 스피치보다 덜 중요함을 결정하는 경우, 사용자는 제 2 디코딩된 오디오 (226) 의 제 2 이득을 감소 (또는 제 2 디코딩된 오디오 (226) 를 뮤트) 하도록 모바일 디바이스 (102) 에 표시할 수도 있다. 사용자 표시에 기초하여, 공간 스티어링 프로세서 (240) 는 제 2 디코딩된 오디오 (226) 의 제 2 이득을 감소시키도록 제 2 HRTF (244) 를 사용할 수도 있다.

공간 스티어링 프로세서 (240) 는 또한 제 3 각도 (α3) 로 스피커로부터 제 3 디코딩된 오디오 (236) 를 프로젝트하기 위해 제 3 디코딩된 오디오 (236) 상에서 제 3 공간 스티어링 동작을 수행하도록 구성될 수도 있다. 예를 들어, 공간 스티어링 프로세서 (240) 는 제 3 각도 (α3) 에 따라 제 3 디코딩된 오디오 (236) 를 스티어링 (예를 들어, 패닝) 하기 위해 제 3 디코딩된 오디오 (236) 에 제 3 HRTF (246) 을 적용할 수도 있다. 제 3 각도 (α3) 에 따른 제 3 디코딩된 오디오 (236) 를 스티어링하는 예가 도 3 에 도시된다. 제 3 HRTF (246) 는 또한 제 3 디코딩된 오디오 (236) 의 제 3 이득을 조정하기 위해 공간 스티어링 프로세서 (240) 에 의해 사용될 수도 있다. 일 구현에 따라, 제 3 이득 및 제 3 각도 (α3) 는 모바일 디바이스 (102) 에서 사용자 정의된 설정들에 기초하여 조정될 수도 있다. 예를 들어, 사용자가 제 3 디바이스 (130) 와 연관된 제 3 참가자로부터의 스피치가 컨퍼런스의 다른 참가자들과 연관된 다른 스피치보다 덜 중요함을 결정하는 경우, 사용자는 제 3 디코딩된 오디오 (236) 의 제 3 이득을 감소 (또는 제 3 디코딩된 오디오 (236) 를 뮤트) 하도록 모바일 디바이스 (102) 에 표시할 수도 있다. 사용자 표시에 기초하여, 공간 스티어링 프로세서 (240) 는 제 3 디코딩된 오디오 (236) 의 제 3 이득을 감소하도록 제 3 HRTF (246) 를 사용할 수도 있다.

각각의 HRTF (242, 244, 246) 는 일반적일 수도 있고 또는 모바일 디바이스 (102) 의 사용자에 의해 "개인화" 될 수도 있다. 예를 들어, 착신 오디오 스트림들 (114, 124, 134) 의 수에 기초하여 그리고 모바일 디바이스 (102) 의 하드웨어 능력들에 기초하여, 사용자는 특정 오디오 스트림 (114, 124, 134) 이 프로젝트될 위치 (예를 들어, 각도) 를 표시할 수도 있다. 따라서, 제 1 HRTF (242) 는 제 2 HRTF (244) 와 상이할 수도 있고 제 2 HRTF (244) 는 제 3 HRTF (246) 과 상이할 수도 있다. 예를 들어, 사용자는 "스피커" 의 좌측에서 제 1 디코딩된 오디오 (216) 를 프로젝트하도록 (제 1 HRTF (242)) 를 통해 모바일 디바이스 (102) 에 표시하고, 스피커의 우측에서 제 2 디코딩된 오디오 (226) 를 프로젝트하도록 (제 2 HRTF (244) 를 통해) 모바일 디바이스 (102) 에 표시하며, 그리고 중간에서 제 3 디코딩된 오디오 (236) 를 프로젝트하도록 (제 3 HRTF (246)) 를 통해 모바일 디바이스 (102) 에 표시할 수도 있다. 또 다른 구현에서, 사용자는 네트워크 믹서가 오디오 믹싱을 수행하고 있는 경우 특정 HRTF 를 사용하도록 네트워크 믹서 (예를 들어, 도 1a 의 네트워크 디바이스 (190)) 에 표시할 수도 있다. 예를 들어, 네트워크 디바이스 (190) 또는 또 다른 네트워크 믹서는 컨퍼런스 셋업 동안 협상될 수도 있는, HRTF들로 점유될 수도 있다.

따라서, 공간 스티어링 프로세서 (240) 는 디코딩된 오디오 (216, 226, 236) 에 HRTF들 (242, 244, 246) 을 각각 적용할 수도 있어서, 디코딩된 오디오 (216, 226, 236) 와 연관된 컨퍼런스 참가자가 특정 구성에서 공간적으로 분포되는 것을 나타내도록 디코딩된 오디오 (216, 226, 236) 를 공간적으로 스티어링한다. HRTF들 (242, 244, 246) 은 모바일 디바이스 (102) 에서 오디오 패닝을 수행하는데 사용될 수도 있다. 오디오 패닝은 컨퍼런스의 다중 참가자들이 스피킹하고 있을 때 모바일 디바이스 (102) 의 사용자에 대한 "피로" 를 감소할 수도 있다. 예를 들어, 제 1 참가자 (예를 들어 제 1 디코딩된 오디오 (216) 와 연관된 참가자) 및 제 3 참가자 (예를 들어 제 3 디코딩된 오디오 (236) 와 연관된 참가자) 가 동시에 스피킹하고 있는 경우, 오디오 패닝은 제 1 참가자가 일 위치에서 스피킹하고 있고 제 3 참가자가 또 다른 위치에서 스피킹하고 있음을 사용자에게 나타내게 할 수도 있으며, 이는 사용자에 의해 경험되는 피로를 감소할 수도 있다.

오디오 패닝은 또한 모바일 디바이스 (102) 의 사용자가 HRTF 믹싱 전에 (예를 들어, 하기에 기재된 바와 같이, 스테레오 신호 (270) 를 생성하기 전에) 참가자들의 오디오 레벨들 (예를 들어, 이득들) 을 변화하는 것을 가능하게 할 수도 있다. 예를 들어, 모바일 디바이스 (102) 의 사용자는 다른 참가자의 오디오에 대해 제 1 참가자의 오디오 (예를 들어, 제 1 디코딩된 오디오 (216)) 에 대한 더 큰 중요성을 부여할 수도 있고, 각각의 HRTF (242, 244, 246) 에서 다시 믹싱을 선택적으로 조정할 수도 있다. 일 예에서, 모바일 디바이스 (102) 의 사용자는 다중 참가자들이 동시에 말하고 있을 때 제 1 디코딩된 오디오 (216) 를 제외한 모든 디코딩된 오디오 (226, 236) 를 뮤트할 수도 있다. 도 1a 에 관하여 설명된 바와 같이, 모바일 디바이스 (102) 의 사용자는 또한 모바일 디바이스 (102) 의 화자 선호도 및 하드웨어 능력들에 기초하여 각각의 오디오 스트림 (114, 124, 134) 에 대한 오디오 대역폭 및 비트 레이트를 관리하도록 네트워크 디바이스 (190) 에 시그널링할 수도 있다.

특정 구현에 있어서, 모바일 디바이스 (102) 에서의 공간 프로세싱은 추가로 헤드 추적 데이터 (예를 들어, 모바일 디바이스 (102) 의 사용자와 연관된 헤드 이동을 표시하는 데이터) 에 기초하여 개량될 수도 있다. 예를 들어, 헤드 추적 모듈 (250) 은 모바일 디바이스 (102) 의 사용자의 헤드의 시프트 (예를 들어, 회전) 을 추적할 수도 있다. 예를 들어, 헤드 추적 모듈 (250) 은 사용자의 헤드의 배향을 추적하고 공간 스티어링 프로세서 (240) 에 (예를 들어, 배향에서의 시프트 양 (β) 을 표시하는) 신호를 제공할 수도 있다. 공간 스티어링 프로세서는 디코딩된 오디오 (216, 226, 236) 가 스피커에서 프로젝트되는 개별 각도를 수용하기 위해 시프트 양 (β) 만큼 각각의 HRTF (242, 244, 246) 을 조정할 수도 있다. 따라서, 공간 스티어링 프로세서 (240) 는 제 1 HRTF (242) 에 대한 입력들로서 제 1 각도 (α1) 및 시프트 양 (β), 제 2 HRFT (244) 에 대한 입력들로서 제 2 각도 (α2) 및 시프트 양 (β), 및 제 3 HRTF (246) 에 대한 입력들로서 제 3 각도 (α3) 및 시프트 양 (β) 을 사용할 수도 있다.

공간 스티어링 프로세서 (240) 는 개별 HRTF들 (242, 244, 246) 에 의해 조정되는 각각의 디코딩된 오디오 (216, 226, 236) 을 포함하는 스테레오 신호 (270) 를 출력 (예를 들어, 스피커에 제공) 할 수도 있다. 도 2a 는 스테레오 신호 (270) 가 공간 스티어링 프로세서 (240) 에 의해 출력되는 것을 도시하지만, 또 다른 구현에서, 공간 스티어링 프로세서 (240) 는 3 개의 모노-신호들 (미도시) 를 출력할 수도 있다. 예를 들어, 제 1 모노-신호는 제 1 HRTF (242) 에 의해 조정되는 제 1 디코딩된 오디오 (216) 를 포함할 수도 있고, 제 2 모노-신호는 제 2 HRTF (244) 에 의해 조정되는 제 2 디코딩된 오디오 (226) 을 포함할 수도 있고, 그리고 제 3 모노-신호는 제 3 HFRT (246) 에 의해 조정되는 제 3 디코딩된 오디오 (236) 를 포함할 수도 있다.

도 2a 의 모바일 디바이스 (102) 는 버퍼링된 오디오 (214, 224, 234) 를 동기화하는 것에 의해 컨퍼런스 동안 3GPP TS 26.114 지연 요건들을 만족할 수도 있다. 예를 들어, 지연 제어기 (202) 는 대응 오디오 스트림들 (114, 124, 134) 의 RTP 패킷들에서의 시간 스탬프에 기초하여 버퍼링된 오디오 (214, 224, 234) 를 동기화하기 위해 제어 신호 (204) 를 생성할 수도 있다. 부가적으로, 모바일 디바이스 (102) 는 컨퍼런스의 참가자들이 동시에 스피킹하고 있을 때 "피로" 를 감소하도록 오디오 패닝을 가능하게 할 수도 있다. 예를 들어, 모바일 디바이스 (102) 는 디코딩된 오디오 (216, 226, 236) 와 연관된 컨퍼런스 참가자들이 공간적으로 분포되는 것을 나타내도록 디코딩된 오디오 (216, 226, 236) 을 공간적으로 스티어링할 수도 있다.

도 2b 를 참조하면, 모바일 디바이스 (102) 의 또 다른 구현이 나타나 있다. 도 2a 에 도시된 컴포넌트들에 부가하여, 도 2b 에 도시된 모바일 디바이스 (102) 는 공간 스티어링 프로세서 (240) 내에서 구현되는 제 N 버퍼 (280), 제 N 디코더 (282), 및 제 N HRTF (284) 를 포함할 수도 있다. 따라서, 기재된 시스템들 및 방법들에 따라, 디바이스는 단일 디-지터 버퍼 (예를 들어, 번들링된 RTP 스트림을 프로세싱하는 경우), 2 개의 디-지터 버퍼들, 3 개의 디-지터 버퍼들, 또는 N 개의 디-지터 버퍼들을 활용할 수도 있다 (예를 들어, 여기서 N 은 4 이상의 정수이다). 예를 들어, N 이 7 인 경우, 도 2b 에 도시된 모바일 디바이스 (102) 는 공간 스티어링 프로세서 (240) 내에서 구현되는 7 개의 버퍼들 (7 개의 대응 오디오 스트림들을 수신하도록 구성됨), 7 개의 디코더들, 및 7 개의 HRTF들을 포함할 수도 있다.

제 N 버퍼 (280) 는 버퍼들 (210, 220, 230) 과 실질적으로 유사한 방식으로 동작할 수도 있다. 예를 들어, 제 N 버퍼는 컨퍼런스에서의 디바이스로부터 (또는 도 1a 의 네트워크 디바이스 (190) 로부터) 제 N 오디오 스트림 (292) 을 수신하고 제어 신호 (204) 에 기초하여 제 N 버퍼링된 오디오 (294) 를 출력하도록 구성될 수도 있다. 제 N 버퍼링된 오디오 (294) 는 다른 버퍼들 (210, 220, 230) 으로부터의 버퍼링된 오디오 (214, 224, 234) 와 각각 동기화될 수도 있다. 제 N 디코더 (282) 는 디코더들 (212, 222, 232) 와 실질적으로 유사한 방식으로 동작할 수도 있다. 예를 들어, 제 N 디코더 (232) 는 제 N 버퍼링된 오디오 (294) 를 디코딩하여 제 N 디코딩된 오디오 (296) 를 생성할 수도 있다. 제 N 디코딩된 오디오 (296) 는 공간 스티어링 프로세서 (240) 에 제공될 수도 있다. 공간 스티어링 프로세서 (240) 는 또한 제 N 각도 (αN) 로 스피커로부터 제 N 디코딩된 오디오 (296) 을 프로젝트하기 위해 제 N 디코딩된 오디오 (296) 상에서 제 N 공간 스티어링 동작을 수행하도록 구성될 수도 있다. 예를 들어, 공간 스티어링 프로세서 (240) 는 제 N 각도 (αN) 에 따라 제 N 디코딩된 오디오 (296) 을 스티어링 (예를 들어, 패닝) 하기 위해 제 N 디코딩된 오디오 (296) 에 제 N HRTF (284) 를 적용할 수도 있다.

도 3 을 참조하면, HRTF들 (242, 244, 246) 을 적용한 후 디코딩된 오디오 (216,226, 236) 의 공간 배열의 일 예를 도시하는 다이어그램이 나타나 있다. 특정 구현에 있어서, HRTF들 (242, 244, 246) 는 "선호되는" 가상 스피커 위치 배정에 기초하여 미리 산출될 수도 있다. 예를 들어, 제 1 HRTF (242) 는 스피커의 좌측으로부터 착신하는 것 (예를 들어, 제 1 각도 (α1) 로부터 착신하는 것) 처럼 인지될 제 1 디코딩된 오디오 (216) 를 공간적으로 스티어링할 수도 있다. 유사하게, 제 2 HRTF (244) 는 스피커의 좌-중심 측으로부터 착신하는 것 (예를 들어, 제 2 각도 (α2) 로부터 착신하는 것) 처럼 인지될 제 2 디코딩된 오디오 (226) 을 공간적으로 스티어링할 수도 있으며, 그리고 제 3 HRTF (246) 은 스피커의 우측으로부터 착신하는 것 (예를 들어, 제 3 각도 (α3) 로부터 착신하는 것) 처럼 인지될 제 3 디코딩된 오디오 (236) 를 공간적으로 스티어링할 수도 있다. 도 2a 에 관하여 기재된 바와 같이, HRTF들 (242, 244, 246) 은 또한 다른 스피커들에 비해 "선호되는" 스피커를 강조하기 위해 이득 제어를 포함할 수도 있다.

도 4 를 참조하면, HRTF들 (242, 244, 246) 및 헤드 추적 데이터를 적용한 후 제 2 디코딩된 오디오 (216, 226, 236) 의 공간 배열의 일 예를 도시하는 다이어그램이 나타나 있다. 도 4 에서, 헤드 추적 모듈 (250) 은 사용자의 헤드가 시프트 양 (β) 만큼 시프트되었음을 검출할 수도 있다. 헤드 추적 정보에 기초하여, 공간 스티어링 프로세서 (240) 는 도 4 에 도시된 바와 같이 시프트 양 (β) 만큼 디코딩된 오디오 (216, 226, 236) 을 포함한 음장을 시프트할 수도 있다. 따라서, 모바일 디바이스 (102) 의 사용자가 그/그녀의 헤드를 시프트할 때 디코딩된 오디오 (216, 226, 236) 가 도 3 에 도시되었던 곳에 대한 인지는 실질적으로 변경되지 않을 수도 있다.

도 5 를 참조하면, 인터넷 프로토콜 (IP) 멀티캐스트 세션을 사용한 컨퍼런스 동안 오디오를 관리하도록 동작가능한 시스템 (500) 의 특정 구현이 나타나 있다. 시스템 (500) 은 모바일 디바이스 (102), 제 1 디바이스 (110), 및 제 2 디바이스 (120) 를 포함한다.

동작의 특정 구현에 따라, 모바일 디바이스 (102) 는 제 1 디바이스 (110) 와의 콜을 개시할 수도 있다. 모바일 디바이스 (102) 는 후속하여 제 2 디바이스 (120) 와의 멀티캐스트 세션을 개시하기 위해 제 1 디바이스 (110) 에 대한 세션 디스크립션 프로토콜 (SDP) 참조를 개시할 수도 있다. 제 2 디바이스 (120) 는 또한 모바일 디바이스 (102) 와의 세션을 개시할 수도 있다. 특정 구현에서, N 노드들이 컨퍼런스에 참가하는 경우, N*(N-1) 세션들이 미디어 마다 개시될 수도 있다 (예를 들어, 3 노드들에 대하여, 3*2=6 세션들이 오디오에 대해 개시될 수도 있고, 또 다른 3*2=6 세션들이 비디오 대해 개시될 수도 있다 등등). 도 5 의 멀티캐스트 세션에서, 도 1a 의 네트워크 디바이스 (190) 와 같은, 내재된 네트워크 디바이스가 없다. 따라서, 세션 개시 프로토콜 (SIP) 시그널링 및 SDP 협상은 각각의 디바이스 (102, 110, 120) 에 의해 지원되는 CODEC 에 기초할 수도 있다. SIP 시그널링 및 SDP 협상들은 오디오 CODEC, 비트 레이트, 오디오 대역폭 등을 선택하는데 사용될 수도 있다.

일 구현에 따라, 디바이스들 (102, 110, 120) 의 하나 이상은 이용가능한 하드웨어 리소스들에 기초하여 게이트웨이 (예를 들어, 네트워크 게이트웨이) 로서 동작할 수도 있다. 디바이스가 게이트웨이로서 동작하는 경우, CODEC 요건이 완화될 수도 있다. 예를 들어, 제 1 디바이스 (110) 의 CODEC 이 모바일 디바이스 (102) 로부터 오디오 스트림 (104) 을 디코딩하기 위해 호환가능하지 않은 경우, 제 2 디바이스 (120) 는 게이트웨이로서 동작하고, 오디오 스트림 (104) 을 디코딩하고, 그 오디오 스트림을 제 1 디바이스 (110) 에 의해 지원된 포맷으로 재인코딩하며, 재인코딩된 오디오 스트림을 제 1 디바이스 (110) 에 제공할 수도 있다.

도 6 을 참조하면, 컨퍼런스 동안 오디오를 관리하기 위한 방법 (600) 의 플로우챠트가 나타나 있다. 방법 (600) 은 도 1a 및 도 2b 의 모바일 디바이스 (102), 도 1a 내지 도 1c 의 제 1 디바이스 (110), 도 1a 내지 도 1c 의 제 2 디바이스 (120), 도 1a 내지 도 1c 의 제 3 디바이스 (130), 또는 그 조합에 의해 수행될 수도 있다.

방법 (600) 은 602 에서, 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을, 모바일 디바이스의 제 1 버퍼에서 수신하는 것을 포함한다. 예를 들어, 도 2a 를 참조하면, 제 1 버퍼 (210) 는 제 1 디바이스 (110) 로부터 제 1 오디오 스트림 (114)(예를 들어, RTP 패킷들) 을 수신할 수도 있다.

방법 (600) 은 또한 604 에서, 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을, 모바일 디바이스의 제 2 버퍼에서 수신하는 것을 포함할 수도 있다. 예를 들어, 도 2a 를 참조하면, 제 2 버퍼 (220) 는 제 2 디바이스 (120) 로부터 제 2 오디오 스트림 (124)(예를 들어, RTP 패킷) 을 수신할 수도 있다.

제어 신호는 606 에서 모바일 디바이스의 지연 제어기에서 생성될 수도 있다. 제어 신호는 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 제 1 버퍼에 그리고 제 2 버퍼에 제공될 수도 있다. 예를 들어, 도 2a 를 참조하면, 지연 제어기 (202) 는 제 1 오디오 스트림 (114) 의 제 1 시간 스탬프 (예를 들어, 가장 이른 패킷) 을 제 2 오디오 스트림 (124) 의 제 2 시간 스탬프 (예를 들어, 가장 이른 패킷) 와 비교하고 제 1 시간 스탬프와 제 2 시간 스탬프 사이의 시간 차이를 결정할 수도 있다. 제 1 시간 스탬프가 제 2 시간 스탬프 보다 더 이른 시간을 표시하는 경우, 제어 신호 (204) 는 제 1 버퍼링된 오디오 (214) 를 제 2 버퍼링된 오디오 (224) 와 동기화하기 위해 시간 차이 만큼 제 1 버퍼링된 오디오 (214) 를 출력하는 것을 지연하도록 제 1 버퍼 (210) 에 표시할 수도 있다. 제 2 시간 스탬프가 제 1 시간 스탬프보다 더 이른 시간을 표시하는 경우, 제어 신호 (204) 는 제 1 버퍼링된 오디오 (214) 를 제 2 버퍼링된 오디오 (224) 와 동기화하기 위해 시간 차이 만큼 제 2 버퍼링된 오디오 (224) 를 출력하는 것을 지연하도록 제 2 버퍼 (220) 에 표시할 수도 있다. 지연 제어기는 패킷 손실 (또는 지터-유도 은닉) 을 낮게 유지하고 3GPP TS 26.114 의 최소 성능 요건들을 충족하면서 참가자들 (A 및 B) 로부터의 패킷들 [A1, A2, ..] 및 패킷들 [B1, B2,…] 사이의 패킷 간 도착 시간을 고려하고 참가자 A 및 참가자 B 로부터 미디어를 버퍼링하기 위해 필요한 가변 디-지터 버퍼 깊이를 추정할 수도 있다. 예를 들어, 참가자 A 는 열악한 무선 채널 조건들에 있을 수도 있고 지터가 낮은 높은 패킷 손실 레이트를 가지는 한편, 참가자 B 는 패킷 손실 레이트는 매우 낮지만 지터는 높은 우수한 무선 채널 조건에 있다. 지연 제어기는 참가자 A 및 B 로부터 패킷들의 지터/손실 특성들을 고려하여, 예를 들어 참가자 B 로부터의 패킷들에 대해 더 큰 버퍼 깊이를 할당하여서 전체 패킷 손실이 참가자 A 로부터 경험된 손실을 초과하지 않는다. 위의 지연 제어기 메커니즘은 또한 2 보다 많은 미디어 스트림들을 수신하는 것을 포함하는 경우들에 대해 확장될 수도 있다.

일 구현에 따라, 방법 (600) 은 모바일 디바이스의 제 1 디코더에서, 제 1 버퍼링된 오디오를 디코딩하여 제 1 디코딩된 오디오를 생성하는 것을 더 포함할 수도 있다. 예를 들어, 도 2a 를 참조하면, 제 1 디코더 (212) 는 제 1 버퍼링된 오디오 (214) 를 디코딩하여 제 1 디코딩된 오디오 (216)를 생성할 수도 있다. 방법 (600) 은 또한, 모바일 디바이스의 제 2 디코더에서, 제 2 버퍼링된 오디오를 디코딩하여 제 2 디코딩된 오디오를 생성하는 것을 포함할 수도 있다. 예를 들어, 도 2a 를 참조하면, 제 2 디코더 (222) 는 제 2 버퍼링된 오디오 (224) 를 디코딩하여 제 2 디코딩된 오디오 (226) 를 생성할 수도 있다.

일 구현에 따라, 방법 (600) 은 제 1 각도로 스피커로부터 제 1 디코딩된 오디오를 프로젝트하기 위해 제 1 디코딩된 오디오 상에서 제 1 공간 스티어링 동작을 수행하는 것을 포함할 수도 있다. 예를 들어, 도 2a 를 참조하면, 공간 스티어링 프로세서 (240) 는 제 1 각도 (α1) 로 스피커로부터 제 1 디코딩된 오디오 (216) 을 프로젝트하기 위해 제 1 디코딩된 오디오 (216) 상에서 제 1 공간 스티어링 동작을 수행할 수도 있다. 예시를 위해, 공간 스티어링 프로세서 (240) 는 제 1 각도 (α1) 에 따라 제 1 디코딩된 오디오 (216) 을 스티어링 (예를 들어, 패닝) 하기 위해 제 1 디코딩된 오디오 (216) 에 제 1 HRTF (242) 를 적용할 수도 있다. 제 1 HRTF (242) 는 또한 제 1 디코딩된 오디오 (216) 의 제 1 이득을 조정하기 위해 공간 스티어링 프로세서 (240) 에 의해 사용될 수도 있다.

방법 (600) 의 일 구현에 따라, 제 1 디코더는 지연 제어기로부터 제어 신호를 수신할 수도 있고 제 2 디코더는 또한 지연 제어기로부터 제어 신호를 수신할 수도 있다. 제 1 디코더는 제어 신호에 기초하여 제 1 오디오 스트림과 연관된 제 1 데이터 패킷을 디코딩하거나 제어 신호에 기초한 제 1 데이터 패킷 상의 디코딩 동작들을 바이패스할 수도 있다. 유사하게, 제 2 디코더는 제어 신호에 기초하여 제 2 오디오 스트림과 연관된 제 2 데이터 패킷을 디코딩하거나 제어 신호에 기초한 제 2 데이터 패킷 상의 디코딩 동작들을 바이패스할 수도 있다. 일 구현에 따라, 제 1 디코더 및 제 2 디코더는 상이한 디코더이다. 제 1 디코더는 모든 컨퍼런스 참가자들에 의해 지원될 수도 있고 제 2 디코더는 컨퍼런스 참가자들의 서브세트에 의해 지원될 수도 있다. 또 다른 구현에 따라, 제 1 디코더 및 제 2 디코더는 상이한 모드에서 동작하는 유사한 디코더를 포함한다.

방법 (600) 은 또한 제 2 각도로 스피커로부터 제 2 디코딩된 오디오를 프로젝트하기 위해 제 2 디코딩되고 오디오 상에서 제 2 공간 스티어링 동작을 수행하는 것을 포함할 수도 있다. 예를 들어, 도 2a 를 참조하면, 공간 스티어링 프로세서 (240) 는 제 2 각도 (α2) 로 스피커로부터 제 2 디코딩된 오디오 (226) 를 프로젝트하기 위해 제 2 디코딩된 오디오 (226) 상에서 제 2 공간 스티어링 동작을 수행할 수도 있다. 예시를 위해, 공간 스티어링 프로세서 (240) 는 제 2 각도 (α2) 에 따라 제 2 디코딩된 오디오 (226) 를 스티어링 (예를 들어, 패닝) 하기 위해 제 2 디코딩된 오디오 (226) 에 제 2 HRTF (244) 를 적용할 수도 있다. 제 2 HRTF (244) 는 또한 제 2 디코딩된 오디오 (226) 의 제 2 이득을 조정하기 위해 공간 스티어링 프로세서 (240) 에 의해 사용될 수도 있다.

일 구현에 따라, 방법 (600) 은 제 1 오디오 스트림의 제 1 비트 레이트를 조정하기 위해 네트워크 디바이스에 제 1 신호를 제공하는 것을 포함할 수도 있다. 예를 들어, 도 1a 및 도 2a 를 참조하면, 네트워크 디바이스 (190) 는 제 1 오디오 스트림 (114) 을 제 1 디바이스 (110) 로부터 모바일 디바이스 (102) 의 제 1 버퍼 (210) 로 라우팅할 수도 있고, 네트워크 디바이스 (190) 는 제 2 오디오 스트림 (124) 을 제 2 디바이스 (120) 로부터 모바일 디바이스 (102) 의 제 2 버퍼 (220) 로 라우팅할 수도 있다. 모바일 디바이스 (102) 는 제 1 오디오 스트림 (114) 이 모바일 디바이스 (102) 에 제공되는 제 1 비트 레이트를 조정하기 위해 네트워크 (190) 에 제 1 신호를 제공할 수도 있다. 방법 (600) 은 또한 제 2 오디오 스트림의 제 2 비트 레이트를 조정하기 위해 네트워크 디바이스에 제 2 신호를 제공하는 것을 포함할 수도 있다. 예를 들어, 도 1a 를 참조하면, 모바일 디바이스 (102) 는 제 2 오디오 스트림 (124) 이 모바일 디바이스 (102) 에 제공되는 제 2 비트 레이트를 조정하기 위해 네트워크 디바이스 (190) 에 제 2 신호를 제공할 수도 있다.

도 6 의 방법 (600) 은 버퍼링된 오디오 (214, 224, 234) 를 동기화하는 것에 의해 컨퍼런스 동안 3GPP TS 26.114 지연 요건들을 만족할 수도 있다. 예를 들어, 지연 제어기 (202) 는 대응 오디오 스트림들 (114, 124, 134) 의 RTP 패킷들에서의 시간 스탬프에 기초하여 버퍼링된 오디오 (214, 224, 234) 를 동기화하기 위해 제어 신호 (204) 를 생성할 수도 있다. 부가적으로, 방법 (600) 은 컨퍼런스의 다중 참가자들이 동시에 스피킹하고 있을 때 "피로" 를 감소하도록 오디오 패닝을 가능하게 할 수도 있다. 예를 들어, 방법 (600) 은 디코딩된 오디오 (216, 226, 236) 와 연관된 컨퍼런스 참가자들이 공간적으로 분포되는 것을 나타내도록 디코딩된 오디오 (216, 226, 236) 의 공간적 스티어링을 가능하게 할 수도 있다.

일부 예들에서, 도 6 의 방법 (600) 은 중앙 프로세싱 유닛 (CPU), DSP, 또는 제어기와 같은 프로세싱 유닛의 하드웨어 (예를 들어, FPGA 디바이스, ASIC 등) 를 통해, 펌웨어 디바이스, 또는 그 임의의 조합을 통해 구현될 수도 있다. 일 예로서, 도 6 의 방법 (600) 은 도 1 에 관하여 기재된 바와 같이, 명령들을 실행하는 프로세서에 의해 구현될 수도 있다.

도 7 을 참조하면, 모바일 디바이스 (102) 의 특정 예시적인 구현의 블록 다이어그램이 나타나 있다. 특정 구현에서, 디바이스 (102) 는 프로세서 (706)(예를 들어, CPU) 를 포함한다. 모바일 디바이스 (102) 는 하나 이상의 부가 프로세서들 (710)(예를 들어, 하나 이상의 DSP들) 을 포함할 수도 있다.

모바일 디바이스 (102) 는 안테나 (742) 에 커플링된 무선 제어기 (740) 및 메모리 (732) 를 포함할 수도 있다. 무선 제어기 (740) 는 도 2a 및 도 2b 의 지연 제어기 (202), 도 2a 및 도 2b 의 제 1 버퍼 (210), 도 2a 및 도 2b 의 제 1 디코더 (212), 도 2a 및 도 2b 의 제 2 버퍼 (220), 도 2a 및 도 2b 의 제 2 디코더 (222), 도 2a 및 도 2b 의 제 3 버퍼 (230), 도 2a 및 도 2b 의 제 3 디코더 (232), 및 도 2a 및 도 2b 의 공간 스티어링 프로세서 (240) 를 포함한다. 도 2a 및 도 2b 의 지연 제어기 (202) 의 로직은 또한 프로세서 (706) 또는 하나 이상의 부가 프로세서들 (710) 내에서 구현될 수도 있다. 따라서, 무선 제어기 (740) 에서의 제 1 버퍼 (210) 는 안테나 (742) 를 통해 제 1 오디오 스트림 (114) 을 수신하도록 구성되고, 무선 제어기 (740) 에서의 제 2 버퍼 (220) 는 안테나 (742) 를 통해 제 2 오디오 스트림 (124) 을 수신하도록 구성될 수도 있고, 무선 제어기 (740) 에서의 제 3 버퍼 (230) 는 안테나 (742) 를 통해 제 3 오디오 스트림 (134) 을 수신하도록 구성될 수도 있다. 컨퍼런스 동안 3GPP TS 26.114 지연 요건들을 만족하기 위해, 위에 기재된 바와 같이, 제어 신호 (미도시) 가 버퍼들 (210, 220, 230) 에 제공되어 버퍼들 (210, 220, 230) 으로부터 출력되는 버퍼링된 오디오를 동기화할 수도 있다.

모바일 디바이스 (102) 는 디스플레이 제어기 (726) 에 커플링된 디스플레이 (728) 를 포함할 수도 있다. 스피커 (736), 마이크로폰 (738), 또는 이들 양자 모두는 CODEC (734) 에 커플링될 수도 있다. CODEC (734) 은 디지털-아날로그 컨버터 (DAC)(702) 및 아날로그-디지털 컨버터 (ADC)(704) 를 포함할 수도 있다. 일 예에서, 공간 스티어링 프로세서의 출력 (예를 들어, 스테레오 신호) 이 추가 프로세싱을 위해 하나 이상의 부가 프로세서들 (710) 에 그리고 CODEC (734) 에 제공될 수도 있다. 스테레오 신호는 DAC (702) 를 통해 아날로그 신호로 변환되고 스피커 (736) 에서 출력할 수도 있다.

메모리 (732) 는 도 6 의 방법 (600) 을 수행하기 위해, 프로세서 (706), 프로세서들 (710), CODEC (734), 무선 제어기 (740) 및 그 컴포넌트들, 또는 그 조합에 의해 실행가능한 명령들 (760) 을 포함할 수도 있다. 메모리 (732) 또는 프로세서 (706) 의 하나 이상의 컴포넌트들, 프로세서들 (710), 무선 제어기 (740), 및/또는 CODEC (734) 는, 컴퓨터 (예를 들어, CODEC (734) 에서의 프로세서, 프로세서 (706), 및/또는 프로세서들 (710)) 에 의해 실행될 때, 컴퓨터로 하여금 도 6 의 방법 (600) 을 수행하게 하는 명령들 (예를 들어, 명령들 (760)) 을 포함하는 비일시적 컴퓨터 판독가능 매체일 수도 있다.

지연 제어기 (202), 버퍼들 (210, 220, 230), 디코더들 (212, 222, 232), 및 공간 스티어링 프로세서 (240) 가 무선 제어기 (740) 내부에 있는 것으로 도시되지만, 다른 구현들에서, 버퍼들 (210, 220, 230) 의 하나 이상, 디코더들 (212, 222, 232) 또는 공간 스티어링 프로세서 (240) 는 CODEC (734), 프로세서 (710), 하나 이상의 부가 프로세서들 (706) 내부에, 또는 모바일 디바이스 (102) 의 또 다른 컴포넌트에 있을 수도 있다.

특정 구현에 있어서, 모바일 디바이스 (102) 는 이동국 모뎀 (MSM) 과 같은, 시스템-인-패키지 또는 시스템-온-칩 디바이스 (722) 에 포함될 수도 있다. 특정 구현에 있어서, 프로세서 (706), 프로세서들 (710), 디스플레이 제어기 (726), 메모리 (732), CODEC (734), 및 무선 제어기 (740) 가 시스템-인-패키지 또는 시스템-온-칩 디바이스 (722) 에 포함될 수도 있다. 특정 구현에서, 입력 디바이스 (730), 예컨대 터치스크린 및/또는 키패드, 및 전력 공급부 (744) 가 시스템-온-칩 디바이스 (722) 에 커플링된다. 게다가, 특정 구현에서, 도 7 에 도시된 바와 같이, 디스플레이 (728), 입력 디바이스 (730), 스피커 (736), 마이크로폰 (738), 안테나 (742), 및 전력 공급부 (744) 는 시스템-온-칩 디바이스 (722) 외부에 있다. 하지만, 디스플레이 (728), 입력 디바이스 (730), 스피커 (738), 마이크로폰 (736), 안테나 (742), 및 전력 공급부 (744) 의 각각은 인터페이스 또는 제어기와 같은, 시스템-온-칩 디바이스 (722) 의 컴포넌트에 커플링될 수 있다. 예시적인 예에서, 모바일 디바이스 (102) 는 모바일 통신 디바이스, 스마트폰, 셀룰러 폰, 랩탑 컴퓨터, 컴퓨터, 테블릿 컴퓨터, 개인용 디지털 보조기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 광학 디스크 플레이어, 튜너, 카메라, 네비게이션 디바이스, 디코더 시스템, 인코더 시스템, 또는 그 임의의 조합에 대응한다.

도 7 은 모바일 디바이스 (102) 의 컴포넌트들을 도시하지만, 본 명세서에 기재된 다른 디바이스들 (예를 들어, 도 1a 내지 도 1c 의 제 1 디바이스 (110), 도 1a 내지 도 1c 의 제 2 디바이스 (120), 및/또는 도 1a 내지 도 1c 의 제 3 디바이스 (130)) 은 모바일 디바이스 (102) 에 대해 도 7 에 도시된 것들과 유사한 컴포넌트들을 포함할 수도 있다.

개시물의 부가 구현들이 부록의 형태로 본 명세서에서 제시된다. 그러한 구현들이 도 1a 내지 도 7 을 참조하여 기재되고 예시되는 소정의 구현들 대신 또는 이들에 부가하여 활용될 수도 있음을 이해할 것이다.

기재된 구현들과 함께, 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터 제 1 오디오 스트림을 수신하는 수단을 포함하는 장치가 개시된다. 예를 들어, 제 1 오디오 스트림을 수신하는 수단은 도 2a 및 도 2b 및 도 7 의 제 1 버퍼 (210), 도 7 의 무선 제어기 (740), 제 1 오디오 스트림을 수신하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 저장 매체에서 명령들을 실행하는 프로세서) 또는 그 임의의 조합을 포함할 수도 있다.

장치는 또한 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터 제 2 오디오 스트림을 수신하는 수단을 포함할 수도 있다. 예를 들어, 제 2 오디오 스트림을 수신하는 수단은 도 2a 및 도 2b 및 도 7 의 제 2 버퍼 (220), 도 7 의 무선 제어기 (740), 제 2 오디오 스트림을 수신하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 저장 매체에서 명령들을 실행하는 프로세서) 또는 그 임의의 조합을 포함할 수도 있다.

장치는 또한 제어 신호를 생성하는 수단을 포함할 수도 있다. 제어 신호는 제 1 오디오 스트림을 수신하는 수단에 그리고 제 2 오디오 스트림을 수신하는 수단에 제공되어 제 2 오디오 스트림을 수신하는 수단으로부터 출력되는 제 2 버퍼링된 오디오와 제 1 버퍼링된 오디오 스트림을 수신하는 수단으로부터 출력되는 제 1 버퍼링된 오디오를 동기화할 수도 있다. 예를 들어, 제어 신호를 생성하는 수단은 도 2a 및 도 2b 및 도 7 의 지연 제어기 (202), 도 7 의 무선 제어기 (740), 도 7 의 프로세서 (706), 도 7 의 하나 이상의 부가 프로세서들 (710), 제어 신호를 생성하도록 구성된 하나 이상의 디바이스들 (예를 들어, 비일시적 컴퓨터 판독가능 저장 매체에서 명령들을 실행하는 프로세서), 또는 그 임의의 조합을 포함할 수도 있다.

당업자는 또한 본 명세서에 개시된 구현들에 관련하여 설명되는 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어, 또는 양자 모두의 조합들로서 구현될 수도 있다는 것을 이해할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 일반적으로 그 기능성의 측면에서 위에서 설명되었다. 이러한 기능성이 하드웨어로 구현되는지 또는 실행가능 소프트웨어로서 구현되는지는 전체 시스템에 부과되는 특정 어플리케이션 및 설계 제약들에 따라 달라진다. 당업자는 기재된 기능성을 각 특정 어플리케이션에 대하여 다양한 방식들로 구현할 수도 있지만, 이러한 구현 결정들은 본 개시물의 범위로부터 벗어남을 야기하는 것으로 해석되지 않아야 한다.

본 명세서에 개시된 구현들에 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 두 가지의 조합으로 직접 실시될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (STT-MRAM), 플래시 메모리, 리드 온니 메모리 (ROM), 프로그램가능 ROM (PROM), 소거가능 프로그램가능 ROM (EPROM), 전기적 소거가능 프로그래밍가능 리드 온니 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 컴팩 디스크 리드 온니 메모리 (CD-ROM) 에 상주할 수도 있다. 예시적인 메모리 디바이스는 프로세서에 커플링되어서 그 프로세서가 메모리 디바이스로부터 정보를 판독하고 그 메모리 디바이스에 정보를 기입할 수 있다. 대안으로, 메모리 디바이스는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 은 컴퓨팅 디바이스 또는 사용자 단말기 내에 존재할 수도 있다. 대안으로, 프로세서와 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 개별 컴포넌트들로서 존재할 수도 있다.

개시된 구현들의 이전의 설명은 당업자가 개시된 실시형태들을 제작하고 사용하는 것을 가능하게 하기 위해 제공된다. 이들 구현들에 대한 다양한 변형들이 당업자에게 쉽게 명확하게 될 것이고, 본 명세서에서 정의된 원리들은 본 개시물의 범위로부터 벗어나지 않으면서 다른 구현들에 적용될 수도 있다. 따라서, 본 개시물은 본 명세서에 나타낸 구현들에 제한되는 것으로 의도되는 것이 아니라 다음의 청구항들에 의해 정의된 원리들 및 신규한 특징들과 일치하는 가능한 최광의 범위에 부합되는 것으로 의도된다.

Claims

컨퍼런스 동안 오디오를 관리하기 위한 방법으로서,
모바일 디바이스의 제 1 버퍼에서, 상기 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 단계;
상기 모바일 디바이스의 제 2 버퍼에서, 상기 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 단계; 및
상기 모바일 디바이스의 지연 제어기에서 제어 신호를 생성하는 단계를 포함하고,
상기 제어 신호는 상기 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 상기 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 상기 제 1 버퍼에 그리고 상기 제 2 버퍼에 제공되는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 모바일 디바이스에서, 상기 제 1 오디오 스트림의 제 1 시간 스탬프를 상기 제 2 오디오 스트림의 제 2 시간 스탬프와 비교하는 단계로서, 상기 제 1 시간 스탬프 및 상기 제 2 시간 스탬프는 공통 클록 소스에 기초하는, 상기 제 1 시간 스탬프를 제 2 시간 스탬프와 비교하는 단계; 및
상기 모바일 디바이스에서, 상기 제 1 시간 스탬프와 상기 제 2 시간 스탬프 사이의 시간 차이를 결정하는 단계를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 2 항에 있어서,
상기 제어 신호는, 상기 제 1 시간 스탬프가 상기 제 2 시간 스탬프보다 더 이른 시간을 표시하는 경우, 상기 제 1 버퍼링된 오디오의 출력을 상기 시간 차이 만큼 지연하는 것을 상기 제 1 버퍼에 표시하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 2 항에 있어서,
상기 제어 신호는, 상기 제 2 시간 스탬프가 상기 제 1 시간 스탬프보다 더 이른 시간을 표시하는 경우, 상기 제 2 버퍼링된 오디오의 출력을 상기 시간 차이 만큼 지연하는 것을 상기 제 2 버퍼에 표시하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 제 1 버퍼는 제 1 디-지터 (de-jitter) 버퍼를 포함하고, 상기 제 2 버퍼는 제 2 디-지터 버퍼를 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 모바일 디바이스의 제 1 디코더에서, 제 1 디코딩된 오디오를 생성하도록 상기 제 1 버퍼링된 오디오를 디코딩하는 단계; 및
상기 모바일 디바이스의 제 2 디코더에서, 제 2 디코딩된 오디오를 생성하도록 상기 제 2 버퍼링된 오디오를 디코딩하는 단계를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 6 항에 있어서,
상기 모바일 디바이스에서, 스피커로부터 상기 제 1 디코딩된 오디오를 제 1 각도로 프로젝트하기 위해 상기 제 1 디코딩된 오디오 상에서 제 1 공간 스티어링 동작을 수행하는 단계; 및
상기 모바일 디바이스에서, 상기 스피커로부터 상기 제 2 디코딩된 오디오를 제 2 각도로 프로젝트하기 위해 상기 제 2 디코딩된 오디오 상에서 제 2 공간 스티어링 동작을 수행하는 단계를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 7 항에 있어서,
상기 제 1 공간 스티어링 동작을 수행하는 단계는 상기 제 1 디코딩된 오디오에 제 1 헤드-관련 전달 함수 (HRTF) 를 적용하는 단계를 포함하고,
상기 제 2 공간 스티어링 동작을 수행하는 단계는 상기 제 2 디코딩된 오디오에 제 2 HRTF 를 적용하는 단계를 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 7 항에 있어서,
상기 제 1 각도 및 상기 제 2 각도는 사용자 정의된 설정들에 기초하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 9 항에 있어서,
상기 모바일 디바이스의 사용자와 연관된 헤드 이동을 검출하는 것에 응답하여 시프트 양만큼 상기 제 1 각도 및 상기 제 2 각도를 시프트하는 단계를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 6 항에 있어서,
상기 제 1 디코딩된 오디오의 제 1 이득을 조정하는 단계; 및
상기 제 2 디코딩된 오디오의 제 2 이득을 조정하는 단계를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 11 항에 있어서,
상기 제 1 이득 및 상기 제 2 이득은 사용자 정의된 설정들에 기초하여 조정되는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 제 1 오디오 스트림은 네트워크 디바이스를 통해 상기 제 1 디바이스로부터 상기 제 1 버퍼로 라우팅되고,
상기 제 2 오디오 스트림은 상기 네트워크 디바이스를 통해 상기 제 2 디바이스로부터 상기 제 2 버퍼로 라우팅되는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 13 항에 있어서,
상기 제 1 오디오 스트림의 제 1 비트 레이트를 조정하기 위해 상기 네트워크 디바이스에 제 1 신호를 제공하는 단계; 및
상기 제 2 오디오 스트림의 제 2 비트 레이트를 조정하기 위해 상기 네트워크 디바이스에 제 2 신호를 제공하는 단계를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 14 항에 있어서,
상기 제 1 비트 레이트 및 상기 제 2 비트 레이트는 사용자 정의된 설정들, 모바일 디바이스의 하드웨어 능력들, 또는 그 조합에 기초하여 조정되는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 모바일 디바이스, 상기 제 1 디바이스, 및 상기 제 2 디바이스는 각각 제 3 세대 파트너쉽 프로젝트 (3GPP) 표준과 호환가능한 사용자 장비 (UE) 를 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 제 1 오디오 스트림은 상기 모바일 디바이스의 안테나를 통해 수신되는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
제 1 항에 있어서,
상기 제 1 버퍼, 상기 제 2 버퍼, 및 지연 제어기는 상기 모바일 디바이스의 모뎀에 포함되는, 컨퍼런스 동안 오디오를 관리하기 위한 방법.
컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스로서,
상기 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하도록 구성된 제 1 버퍼;
상기 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하도록 구성된 제 2 버퍼; 및
제어 신호를 생성하도록 구성된 지연 제어기를 포함하고,
상기 제어 신호는 상기 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 상기 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 상기 제 1 버퍼에 그리고 상기 제 2 버퍼에 제공되는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 19 항에 있어서,
상기 지연 제어기는,
상기 제 1 오디오 스트림의 제 1 시간 스탬프를 상기 제 2 오디오 스트림의 제 2 시간 스탬프와 비교하는 것으로서, 상기 제 1 시간 스탬프 및 상기 제 2 시간 스탬프는 공통 클록 소스에 기초하는, 상기 제 1 시간 스탬프를 제 2 시간 스탬프와 비교하고; 그리고
상기 제 1 시간 스탬프와 상기 제 2 시간 스탬프 사이의 시간 차이를 결정하도록 구성되는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 20 항에 있어서,
상기 제어 신호는, 상기 제 1 시간 스탬프가 상기 제 2 시간 스탬프보다 더 이른 시간을 표시하는 경우, 상기 제 1 버퍼링된 오디오의 출력을 상기 시간 차이 만큼 지연하는 것을 상기 제 1 버퍼에 표시하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 20 항에 있어서,
상기 제어 신호는, 상기 제 2 시간 스탬프가 상기 제 1 시간 스탬프보다 더 이른 시간을 표시하는 경우, 상기 제 2 버퍼링된 오디오의 출력을 상기 시간 차이 만큼 지연하는 것을 상기 제 2 버퍼에 표시하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 19 항에 있어서,
상기 제 1 버퍼는 제 1 디-지터 버퍼를 포함하고, 상기 제 2 버퍼는 제 2 디-지터 버퍼를 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 19 항에 있어서,
제 1 디코딩된 오디오를 생성하기 위해 상기 제 1 버퍼링된 오디오를 디코딩하도록 구성된 제 1 디코더; 및
제 2 디코딩된 오디오를 생성하기 위해 상기 제 2 버퍼링된 오디오를 디코딩하도록 구성된 제 2 디코더를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 24 항에 있어서,
스피커로부터 상기 제 1 디코딩된 오디오를 제 1 각도로 프로젝트하기 위해 상기 제 1 디코딩된 오디오 상에서 제 1 공간 스티어링 동작을 수행하고; 그리고
상기 스피커로부터 상기 제 2 디코딩된 오디오를 제 2 각도로 프로젝트하기 위해 상기 제 2 디코딩된 오디오 상에서 제 2 공간 스티어링 동작을 수행하도록 구성된, 공간 스티어링 프로세서를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 25 항에 있어서,
상기 제 1 공간 스티어링 동작을 수행하는 것은 상기 제 1 디코딩된 오디오에 제 1 헤드-관련 전달 함수 (HRTF) 를 적용하는 것을 포함하고,
상기 제 2 공간 스티어링 동작을 수행하는 것은 상기 제 2 디코딩된 오디오에 제 2 HRTF 를 적용하는 것을 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 19 항에 있어서,
제 1 디코더로서,
상기 지연 제어기로부터 상기 제어 신호를 수신하고; 그리고
상기 제어 신호에 기초하여, 상기 제 1 오디오 스트림과 연관된 제 1 데이터 패킷을 디코딩하거나 상기 제 1 데이터 패킷 상의 디코딩 동작들을 바이패스하도록 구성된, 상기 제 1 디코더; 및
제 2 디코더로서,
상기 지연 제어기로부터 상기 제어 신호를 수신하고; 그리고
상기 제어 신호에 기초하여, 상기 제 1 오디오 스트림과 연관된 제 2 데이터 패킷을 디코딩하거나 상기 제 2 데이터 패킷 상의 디코딩 동작들을 바이패스하도록 구성된, 상기 제 2 디코더
를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 27 항에 있어서,
상기 제 1 디코더 및 상기 제 2 디코더는 상이한 디코더인, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 19 항에 있어서,
상기 제 1 오디오 스트림을 수신하고; 그리고
상기 제 1 오디오 스트림을 상기 제 1 버퍼에 제공하도록 구성된,
안테나를 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
제 19 항에 있어서,
상기 제 1 버퍼, 상기 제 2 버퍼, 및 상기 지연 제어기를 포함하는 모뎀을 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 모바일 디바이스.
컨퍼런스 동안 오디오를 관리하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 모바일 디바이스에서 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
제 1 버퍼에서, 상기 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 것;
제 2 버퍼에서, 상기 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 것; 및
지연 제어기에서 제어 신호를 생성하는 것을 포함하는 동작들을 수행하게 하고,
상기 제어 신호는 상기 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 상기 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 상기 제 1 버퍼에 그리고 상기 제 2 버퍼에 제공되는, 비일시적 컴퓨터 판독가능 저장 매체.
제 31 항에 있어서,
상기 동작들은,
상기 제 1 오디오 스트림의 제 1 시간 스탬프를 상기 제 2 오디오 스트림의 제 2 시간 스탬프와 비교하는 것으로서, 상기 제 1 시간 스탬프 및 상기 제 2 시간 스탬프는 공통 클록 소스에 기초하는, 상기 제 1 시간 스탬프를 제 2 시간 스탬프와 비교하는 것; 및
상기 제 1 시간 스탬프와 상기 제 2 시간 스탬프 사이의 시간 차이를 결정하는 것을 더 포함하는. 비일시적 컴퓨터 판독가능 저장 매체.
컨퍼런스 동안 오디오를 관리하기 위한 장치로서,
상기 컨퍼런스의 제 1 참가자와 연관된 제 1 디바이스로부터의 제 1 오디오 스트림을 수신하는 수단;
상기 컨퍼런스의 제 2 참가자와 연관된 제 2 디바이스로부터의 제 2 오디오 스트림을 수신하는 수단; 및
제어 신호를 생성하는 수단을 포함하고,
상기 제어 신호는 상기 제 1 버퍼로부터 출력되는 제 1 버퍼링된 오디오를 상기 제 2 버퍼로부터 출력되는 제 2 버퍼링된 오디오와 동기화하기 위해 상기 제 1 버퍼에 그리고 상기 제 2 버퍼에 제공되는, 컨퍼런스 동안 오디오를 관리하기 위한 장치.
제 33 항에 있어서,
제 1 디코딩된 오디오를 생성하도록 상기 제 1 버퍼링된 오디오를 디코딩하는 수단; 및
제 2 디코딩된 오디오를 생성하도록 상기 제 2 버퍼링된 오디오를 디코딩하는 수단을 더 포함하는, 컨퍼런스 동안 오디오를 관리하기 위한 장치.
제 33 항에 있어서,
상기 제 1 오디오 스트림을 수신하는 수단, 상기 제 2 오디오 스트림을 수신하는 수단, 및 상기 제어 신호를 생성하는 수단은 모바일 디바이스에 포함되는, 컨퍼런스 동안 오디오를 관리하기 위한 장치.