KR20160090330A

KR20160090330A - 컨퍼런스에서의 음성 합성 제어

Info

Publication number: KR20160090330A
Application number: KR1020167016552A
Authority: KR
Inventors: 야체크 에이. 코리키
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2013-11-26
Filing date: 2014-11-20
Publication date: 2016-07-29
Also published as: WO2015080923A1; US20150149173A1; EP3058709A1; CN105934936A

Abstract

다수의 실시형태는 오디오 컨퍼런싱 시스템과 같은 시스템이 오디오 컨퍼런스로부터 원하지 않는 음성을 제거하게 한다. 적어도 일부의 실시형태에서, 오디오 컨퍼런스에 연관된 오디오 신호가 분석되고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트들이 식별된다. 개별 음성 컴포넌트를 식별하기 위해 이러한 방법으로 오디오 신호가 프로세싱되면, 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링 아웃(filter out)하기 위해 제어 엘리먼트가 적용될 수 있다.

Description

컨퍼런스에서의 음성 합성 제어{CONTROLLING VOICE COMPOSITION IN A CONFERENCE}

통상적으로 최근, 개인과 비지니스 양자의 관점으로부터 정보를 교환하기 위해 오디오 컨퍼런스가 대중적인 방법이 되었다. 그러나, 많은 경우에, 의도하지 않은 오디오 콘텐트는 오디오 컨퍼런스에 그것의 방법을 만들 수 있다. 예컨대, 제1 위치에 있는 3명의 참여자와 제2 위치에 있는 제4 참여자 사이에 오디오 컨퍼런스가 유지되는 상황을 고려한다. 제1 위치는 다수의 사람이 있는 오피스 환경이고, 3명의 참여자는 오디오 컨퍼런스에 참여하기 위해 공통의 컴퓨팅 디바이스를 사용하는 것을 가정한다. 예컨대, 다른 비참여 개인들이 말하는 것이 오디오 컨퍼런스 시스템에 의해 어느 정도 검출되는 것과 같은 오피스 환경에 잡음이 있는 경우에, 그들의 음성과 대화가 오디오 컨퍼런스를 부주의하게 만들 수 있다.

이하 상세한 설명에서 더 개시되는 간략한 형태의 컨셉의 선택을 소개하기 위해 본 요약(Summary)이 제공된다. 본 요약은 청구되는 주제(subject matter)의 본질적 특징이나 주요 특징(key feature)의 확인을 의도하지 않고, 청구되는 대상의 범위를 결정하는데 사용되는 것을 의도하지도 않는다.

다수의 실시형태는 오디오 컨퍼런싱 시스템과 같은 시스템이, 제어된 음성이 요구되지 않는 오디오 컨퍼런스로부터 음성을 제거하게 한다. 적어도 일부의 실시형태에서, 오디오 컨퍼런스에 연관된 오디오 신호가 분석되고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트들이 식별된다. 개별 음성 컴포넌트를 식별하기 위해 이러한 방법으로 오디오 신호가 프로세싱되면, 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링 아웃(filter out)하기 위해 제어 엘리먼트가 적용될 수 있다.

다양한 실시형태에서 예컨대, 제어 엘리먼트는, 오디오 컨퍼런스에서의 배제(exclusion) 또는 포함(inclusion)을 위해 유저(user)가 하나 이상의 개별 컴포넌트를 선택하게 하는 적합하게 구성된 유저 인터페이스로서 직접 유저 제어가능성의 결합(incorporation)을 포함할 수 있다. 대안으로서 또는 추가적으로, 제어 엘리먼트는 오디오 컨퍼런싱 시스템에 의해 자동적으로 적용될 수 있다. 이것은, 특정 컨퍼런스에 참여할 수 있는 사람을 통제하기(govern) 위해 그룹 액세스 관리 시스템에 의해 사전에 설정되는 정책(policy)의 애플리케이션을 포함할 수 있다.

상세한 설명은 첨부 도면을 참조하여 묘사된다. 도면에서, 도면부호의 가장 좌측의 숫자(digit)는 도면부호가 처음 나타나는 도면을 나타낸다. 설명과 도면에 있어서 상이한 경우에 동일한 도면부호의 사용은 유사 또는 동일한 아이템을 나타낼 수 있다.
도 1은 하나 이상의 실시형태에 따른 예시적 구현에서의 환경의 예시이다.
도 2는 도 1을 더 상세하게 도시한 예시적 구현에서의 시스템의 예시이다.
도 3은 하나 이상의 실시형태에 따른 예시적 환경을 예시한다.
도 4는 하나 이상의 실시형태에 따른 예시적 환경을 예시한다.
도 5는 하나 이상의 실시형태에 따른 예시적 오디오 컨퍼런싱 모듈을 예시한다.
도 6은 하나 이상의 실시형태에 따른 다양한 사용 시나리오를 예시한다.
도 7은 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다.
도 8은 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다.
도 9는 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다.
도 10은 하나 이상의 실시형태에 따른 예시적 환경을 예시한다.
도 11은 하나 이상의 실시형태에 따른 다양한 사용 시나리오를 예시한다.
도 12는 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다.
도 13은 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다.
도 14는 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다.
도 15는 여기서 설명하는 다양한 실시형태를 구현하기 위해 사용될 수 있는 예시적 컴퓨팅 디바이스를 나타낸다.

[개관]

다수의 실시형태는 오디오 컨퍼런싱 시스템과 같은 시스템이 오디오 컨퍼런스로부터 원하지 않는 음성을 제거하게 한다. 적어도 일부의 실시형태에서, 오디오 컨퍼런스에 연관된 오디오 신호가 분석되고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트들이 식별된다. 개별 음성 컴포넌트를 식별하기 위해 이러한 방법으로 오디오 신호가 프로세싱되면, 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링 동작을 통해 필터링 아웃(filter out)하기 위해 제어 엘리먼트가 적용될 수 있다.

또 다른 실시형태에서, 통신 이벤트가 프로세싱된다. 통신 이벤트는 통신 이벤트를 관리하기 위한 신호 제어 정보를 포함하는 시그널링 계층(signaling layer)을 포함한다. 신호 제어 정보는 통신 이벤트의 참여자의 식별자를 포함한다. 통신 이벤트는 통신 이벤트의 참여자의 음성 신호를 포함하는 적어도 오디오 스트림을 포함하는 미디어 계층을 더 포함한다. 동작시에, 적어도 일부 실시형태에서, 미디어 계층에서의 각 음성 신호의 적어도 하나의 특성을 사용하여 참여자의 개별 음성을 식별하기 위해 오디오 스트림이 수신되고 프로세싱된다. 제어 데이터는 식별된 음성에 기초하여 통신 이벤트에 대한 참여자의 액세스를 제어하기 위해 생성된다.

본 명세서에서 설명된 바와 같이 오디오 신호를 프로세싱하고 원하지 않는 음성의 선택 및 제거를 가능하게 함으로써, 오디오 컨퍼런스의 의도된 콘텐트를 더 정확하게 반영하는, 결과로서 얻어진(resultant) 오디오 신호가 제공된다. 결과적으로 이것은 유용성 및 신뢰성을 크게 향상시키고 개선하는 방법으로 오디오 컨터런스 참여자 중에 정확하고 효율적인 보급(dissemination)을 가능하게 한다. 오디오 컨퍼런스에서 의도되지 않고 원하지 않는 음성의 존재로 인한 가능한 모호함 또는 노이즈 스테밍(noise stemming)의 제거를 한정이 아닌 예시에 의해 포함하는 이유로 유용성이 향상된다. 결과적으로, 이것은 보급된 정보의 신뢰성을 향상시킨다. 따라서, 다양한 접근(approach) 중 적어도 일부는 참여자들에게 그리고 참여자들 중에 송신되는 시그널링 계층에서의 미디어 계층으로부터 얻어지는 정보를 포함하는 것에 기초하여 특정 오디오 컨퍼런스에 대한 액세스 제어를 가능하게 한다.

후속 논의에서, 여기서 설명되는 기술을 채택하도록 동작 가능한 예시적 환경이 우선 설명된다. 상기 기술들은 다른 환경에서뿐만 아니라 예시적 환경에서 채택될 수 있다.

[예시적 환경]

도 1은 여기에 설명된 바와 같은 기술을 채택하도록 동작 가능한 예시적 구현에서의 환경(100)의 예시이다. 예시된 환경(100)은 다양한 방법으로 구성될 수 있는 컴퓨팅 디바이스(102)의 예시를 포함한다. 예컨대, 컴퓨팅 디바이스(102)는, 도 2에 관련하여 더 설명되는 바와 같은 종래의 컴퓨터(예컨대, 데스크탑 퍼스널 컴퓨터, 랩탑 컴퓨터 등), 모바일 스테이션, 엔터테인먼트 기기, 텔레비전에 통신가능하게 연결된 셋탑 박스, 무선 전화기, 넷북, 게임 콘솔, 핸드헬드 디바이스 등으로서 구성될 수 있다. 따라서, 컴퓨팅 디바이스(102)는 실질적인 메모리와 프로세서 리소스를 갖는 풀 리소스 디바이스(예컨대, 퍼스널 컴퓨터, 게임 콘솔)로부터 제한된 메모리 및/또는 프로세싱 리소스를 갖는 저-리소스 디바이스(예컨대, 종래의 셋탑 박스, 핸드헬드 게임 콘솔)까지 분포될 수 있다. 컴퓨팅 디바이스(102)는 컴퓨팅 디바이스(102)가 후술하는 바와 같은 하나 이상의 동작들을 수행하게 하는 소프트웨어를 더 포함한다.

컴퓨팅 디바이스(102)는 제한이 아닌 예시로서, 제스쳐 모듈(104), 웹 플랫폼(106), 및 오디오 컨퍼런싱 모듈(107)을 포함하는 다수의 모듈을 포함한다.

제스쳐 모듈(104)은 본 명세서에서 설명된 바와 같은 제스쳐 기능을 제공하도록 동작 가능하다. 제스쳐 모듈(104)은 임의의 적합한 타입의 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 적어도 일부 실시형태에서, 제스쳐 모듈(104)은 아래에 제공되는 컴퓨터 판독 가능 스토리지 미디엄, 실시예들 중 몇가지 타입에 존재하는 소프트웨어로 구현된다.

제스쳐 모듈(104)은 하나 이상의 손가락으로 수행될 수 있는 제스쳐를 인식하고, 제스쳐에 대응하는 동작이 수행되게 하는 기능을 나타낸다. 다양하고 상이한 방법으로 모듈(104)에 의해 제스쳐가 인식될 수 있다. 예컨대, 제스쳐 모듈(104)은 터치스크린 기능을 사용하는 컴퓨팅 디바이스(102)의 디스플레이 디바이스(110)에 근접한 유저의 손(108)의 손가락과 같은 터치 입력을 인식하도록 구성될 수 있다. 예컨대, 유저의 손(108)의 손가락은 디스플레이 디바이스(110)에 의해 디스플레이되는 이미지(114)를 선택하는(112) 것으로 예시되어 있다.

한정이 아닌 예시에 의해, 다수의 타입의 입력을 포함하는 제스쳐뿐만 아니라 단일 타입의 입력(예컨대, 이전에 설명된 드래그-앤-드랍 제스쳐와 같은 터치 제스쳐)으로부터 인식되는 제스쳐를 포함하는 다양하고 상이한 타입의 제스쳐들이 제스쳐 모듈(104)에 의해 인식될 수 있다는 것이 인식 및 이해될 것이다. 예컨대, 모듈(104)은 싱글-핑거(single-finger) 제스쳐와 베젤 제스쳐(bezel gesture), 멀티플-핑거(multiple-finger)/동일-손 제스쳐와 베젤 제스쳐, 및/또는 멀티플-핑거/다른-손 제스쳐와 베젤 제스쳐를 인식하기 위해 사용될 수 있다.

예컨대, 컴퓨팅 디바이스(102)는 터치 입력[예컨대, 유저의 손(108)의 하나 이상의 손가락에 의해 제공됨] 및 스타일러스(stylus) 입력[예컨대, 스타일러스(116)에 의해 제공됨] 사이에서 검출 및 구별하도록 구성될 수 있다. 디스플레이 디바이스(110)의 스타일러스(116)에 의해 접촉되는 양에 대한 디스플레이 디바이스(110)의 유저의 손(108)의 손가락에 의해 접촉되는 양을 검출하는 등의 다양한 방법에 의해 구별이 수행될 수 있다.

따라서, 제스쳐 모듈(104)은 상이한 타입의 터치 입력뿐만 아니라 스타일러스와 터치 입력 사이의 분할의 인식과 레버리지(leverage)를 통한 다양하고 상이한 제스쳐 기술을 지원할 수 있다.

웹 플랫폼(106)은 웹의 콘텐트(예컨대, 공공 콘텐트)와의 접속으로 작업하는(work) 플랫폼이다. 웹 플랫폼(106)은 한정이 아닌 예시로서, URL, HTTP, REST, HTML, CSS, JavaScript, DOM 등의 다수의 상이한 타입의 기술을 포함하고 사용할 수 있다. 또한, 웹 플랫폼(106)은 XML, JSON 등의 다양한 데이터 포맷으로 작업할 수 있다. 웹 플랫폼(106)은 다양한 웹 브라우저, 웹 애플리케이션(즉, "웹 앱(web app)") 등을 포함할 수 있다. 실행시에, 웹 플랫폼(106)은 컴퓨팅 디바이스가 웹 서버로부터 웹페이지의 형태로 전자 문서(또는, 도큐먼트 파일, XML 파일, PDF 파일, XLS 파일 등의 전자 문서의 다른 형태) 등의 웹 콘텐트를 검색하고, 디스플레이 디바이스(110) 상에 웹 콘텐트를 디스플레이하게 한다. 컴퓨팅 디바이스(102)는 웹 페이지/문서를 디스플레이하고 인터넷에 접속할 수 있는 임의의 컴퓨팅 디바이스가 될 수 있다는 것이 인식되어야 한다.

오디오 컨퍼런싱 모듈(107)은 다수의 참여자가 오디오 컨퍼런스에 참여할 수 있게 하는 기능을 나타낸다. 통상적으로, 오디오 컨퍼런스는 다수의 파티(party)가 전화기(phone) 또는 컴퓨터와 같은 디바이스를 사용하여 다른 파티와 접속하게 한다. 오디오 컨퍼런싱을 지원하기 위해 사용될 수 있는 다수의 방법 및 기술이 있다. 따라서, 여기에 설명된 실시형태는 매우 다양한 방법 및 기술을 통해 채택될 수 있다. 일반적으로, 오디오 컨퍼런스에서, 음성은 오디오 스트림으로 디지털화되고, 오디오 컨퍼런스의 다른 엔드(end)에 있는 수신자로 송신된다. 거기에서, 스피커 또는 헤드폰을 통해 재생될 수 있는 청각 신호(audible signal)를 제공하기 위해 오디오 스트림이 프로세싱된다. 인터넷 등의 적합한 구성의 네트워크를 통해 컴퓨터에 의해 개최되는 오디오 컨퍼런싱뿐만 아니라, 텔레폰 오디오 컨퍼런싱[예컨대, PSTN 시스템의 일부를 형성하는 오디오 브릿지(audio bridge)에서와 같은 회로-스위치형 전기통신 시스템]의 콘텍스트에 여기서 설명된 기술이 채택될 수 있다. 따라서, 한정이 아닌 예시로서, 임의의 적합한 타입의 기술을 사용하는 인터넷 기반 오디오 컨퍼런스와 같은 매우 다양한 다른 시나리오뿐만 아니라, 포인트-투-포인트 콜(point-to-point call)과 같은 시나리오에 상기 기술들이 채택될 수 있다. 이하에 오디오 컨퍼런싱 모듈(107)이 더 상세하게 설명된다.

도 2는 중앙 컴퓨팅 디바이스를 통해 멀티플 디바이스들이 상호접속될 수 있는 환경에서 구현되는 바와 같은 도 1의 컴포넌트를 도시하는 예시적 시스템, 예컨대 오디오 컨퍼런싱 모듈(107)을 예시한다. 오디오 컨퍼런싱 모듈(107)은 오디오 컨퍼런스가 후술하는 바와 같은 하나 이상의 다른 디바이스들에 의해 확립되게 할 수 있다.

중앙 컴퓨팅 디바이스는 멀티플 디바이스들에 위치되거나 멀티플 디바이스들로부터 떨어져서 위치될 수 있다. 일실시형태에서, 중앙 컴퓨팅 디바이스는, 네트워크 또는 인터넷 또는 다른 수단을 통해 멀티플 디바이스들에 접속되는 하나 이상의 서버 컴퓨터를 포함하는 "클라우드(cloud)" 서버 팜(server farm)이다.

일실시형태에서, 이 상호접속 구성은, 멀티플 디바이스들의 유저에게 평범하고 매끄러운 경험을 제공하기 위해, 멀티플 디바이스들에 걸쳐 기능이 전달되게 한다. 멀티플 디바이스들 각각은 상이한 물리적 필요조건들과 용량을 가질 수 있고, 중앙 컴퓨팅 디바이스는, 디바이스에 맞춰지고 또한 모든 디바이스들에 이미 공통인 디바이스에 대하여 경험의 전달을 가능하게 하기 위해 플랫폼(platform)을 사용한다. 일실시형태에서, 타겟 디바이스의 "등급(class)"이 생성되고, 경험이 디바이스들의 일반 등급(generic class)에 맞춰진다. 디바이스의 등급은 디바이스들의 물리적 특징 또는 사용량 또는 다른 공통의 특성에 의해 규정될 수 있다. 예컨대, 이전에 설명한 바와 같이, 컴퓨팅 디바이스(102)가 모바일(202), 컴퓨터(204), 및 텔레비전(206)을 위한 사용 등의 다양하고 상이한 방법으로 구성될 수 있다. 이러한 구성들 각각은 전체적으로 대응하는 스크린 사이즈를 갖고, 이에 따라 컴퓨팅 디바이스(102)는 본 예시적 시스템(200)에서의 이들 디바이스 등급들 중 하나로서 구성될 수 있다. 예컨대, 컴퓨팅 디바이스(102)는 모바일 텔레폰, 뮤직 플레이어, 게임 디바이스 등을 포함하는 모바일(202) 등급의 디바이스를 상정할 수 있다. 또한, 컴퓨팅 디바이스(102)는 퍼스널 컴퓨터, 랩탑 컴퓨터, 노트북, 태블릿(tablet) 등을 포함하는 컴퓨터(204) 등급의 디바이스를 상정할 수 있다. 텔레비전(206) 구성은, 캐주얼 환경(casual environment), 예컨대 텔레비전, 셋탑 박스, 게임 콘솔 등에서의 디스플레이를 포함하는 디바이스의 구성을 포함한다. 따라서, 여기에 개시된 기술들은 컴퓨팅 디바이스(102)의 이러한 다양한 구성에 의해 지원될 수 있고, 후속 섹션에서 설명되는 특정한 실시예에 한정되지 않는다.

클라우드(208)는 웹 서비스(212)를 위한 플랫폼(210)을 포함하는 것으로 도시되어 있다. 플랫폼(210)은 클라우드(208)의 하드웨어(예컨대, 서버) 및 소프트웨어 리소스의 아래 놓인 기능을 추출(abstract)하고, 이에 따라 "클라우드 운영체제"로서 작동할 수 있다. 예컨대, 플랫폼(210)은 컴퓨팅 디바이스(102)를 다른 컴퓨팅 디바이스들과 접속하기 위해 리소스를 추출할 수 있다. 또한, 플랫폼(210)은, 플랫폼(210)을 통해 구현되는 웹 서비스(212)를 위한 직면한 요구에 대한 대응하는 레벨의 스케일(scale)을 제공하기 위해 리소스의 스케일링(scaling)을 추출하는 역할을 할 수 있다. 서버 팜(server farm)에서의 서버의 로드 밸런싱(load balancing), 악의적인 단체(malicious party)(예컨대, 스팸, 바이러스, 및 다른 악성코드)에 대한 보호 등의 다양한 다른 예도 고려된다.

따라서, 인터넷 또는 다른 네트워크를 통해 컴퓨팅 디바이스(102)에 대해 이용가능하게 하는 소프트웨어 및 하드웨어 리소스에 관련되는 계획(strategy)의 일부로서 클라우드(208)가 포함된다. 예컨대, 오디오 컨퍼런싱 모듈(107) 또는 오디오 컨퍼런싱 모듈의 다양한 기능 양태는, 웹 서비스(212)를 지원하는 비아 플랫폼(via platform)(210)뿐만 아니라 컴퓨팅 디바이스(102) 상의 일부로 구현될 수 있다.

일반적으로 여기에 개시된 기능들 중 어느 것이든 소프트웨어, 펌웨어, 하드웨어(예컨대 고정 로직 회로), 메뉴얼 프로세싱(manual processing), 또는 이들 구현의 조합을 사용하여 구현될 수 있다. 여기에 사용된 용어 "모듈", "기능", 및 "로직"은, 일반적으로 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 나타낸다. 소프트웨어 구현의 경우에, 모듈, 기능, 또는 로직은 프로세서(예컨대, CPU 또는 CPU들) 상에서의 실행시 또는 프로세서에 의한 실행시에 지정된 작업을 수행하는 프로그램 코드를 나타낸다. 프로그램 코드는 하나 이상의 컴퓨터 판독가능 메모리 디바이스에 저장될 수 있다. 이하 설명되는 오디오 컨퍼런싱 기술들의 특징은 플랫폼에 독립적(platform-independent)이 될 수 있고, 이것은 이 기술들이 다양한 프로세서를 구비한 다양한 상업 컴퓨팅 플랫폼 상에서 구현될 수 있는 것을 의미한다.

예컨대, 컴퓨팅 디바이스(102)는 또한 프로세서, 기능 블록 등의 컴퓨팅 디바이스(102)의 하드웨어 또는 가상 머신이 동작을 수행하게 하는 엔티티(예컨대 소프트웨어)를 포함할 수 있다. 예컨대, 컴퓨팅 디바이스(102)는, 컴퓨팅 디바이스, 보다 구체적으로는 운영체제 및 컴퓨팅 디바이스의 연관 하드웨어가 동작을 수행하게 하는 명령어들을 유지하도록 구성될 수 있는 컴퓨터 판독가능 미디엄을 포함할 수 있다. 따라서, 명령어는 동작을 수행하기 위해 운영체제 및 관련 하드웨어를 구성하도록 기능하고 이러한 방법으로 운영체제 및 관련 하드웨어의 변환(transformation)이 기능을 수행하게 한다. 컴퓨터 판독가능 미디엄에 의해 명령어들은 다양하고 상이한 구성을 통해 컴퓨팅 디바이스에 제공될 수 있다.

이러한 컴퓨터 판독가능 미디엄의 한가지 구성은 신호 포함 미디엄(signal bearing medium)이고, 이에 따라 네트워크 등을 통해 컴퓨팅 디바이스에 명령어들[예컨대, 캐리어 웨이브(carrier wave)]을 송신하도록 구성된다. 또한, 컴퓨터 판독가능 미디엄은 컴퓨터 판독가능 스토리지 미디엄으로서 구성될 수 있고 이에 따르면 신호 포함 미디엄이 아니다. 컴퓨터 판독가능 스토리지 미디엄의 예는, 명령어들과 다른 데이터를 저장하기 위한 자기, 광학, 및 다른 기술을 사용할 수 있는 RAM(random-access memory), ROM(read-only memory), 광학 디스크, 플래시 메모리, 하드디스크 메모리, 및 다른 메모리 디바이스를 포함한다.

이어지는 논의에서, "예시적 시스템"이라는 제목의 섹션은 하나 이상의 실시형태에 따른 예시적 시스템을 설명한다. 이어서, "사용-기반 시나리오"라는 제목의 섹션은 다양한 실시형태가 채택될 수 있는 예시적 시나리오를 설명한다. 이에 후속하여, "음성 인식"이라는 제목의 섹션은 하나 이상의 실시형태에 따른 음성 인식의 양태를 설명한다. 이어서, "유저 제어"라는 제목의 섹션은 오디오 컨퍼런스에서의 음성의 합성을 제어하기 위한 유저 제어를 가능하게 하는 실시형태를 설명한다. 이에 후속하여, "자동 제어"라는 제목의 섹션은 오디오 컨퍼런스에서의 음성의 합성을 제어하기 위한 자동 제어를 가능하게 하는 실시형태를 설명한다. 이어서, "그룹 액세스 관리 서비스"라는 제목의 섹션은 오디오 컨퍼런스에서의 음성의 합성의 제어를 가능하게 하는 다양한 그룹 관리 실시형태를 설명한다. 마지막으로, "예시적 디바이스"라는 제목의 섹션은 하나 이상의 실시형태를 구현하기 위해 사용될 수 있는 예시적 디바이스의 양태를 설명한다.

이제 하나 이상의 실시형태에 따른 예시적 시스템의 논의를 고려한다.

[예시적 시스템]

도 3은 일반적으로 300에서 하나 이상의 실시형태에 따른 예시적 시스템을 나타낸다. 설명될 실시예에서, 시스템(300)은 다수의 상이한 유저들 사이에서 오디오 컨퍼런스가 확립되게 할 수 있다.

본 실시예에서, 시스템(300)은 디바이스들(302, 304, 및 306)을 포함한다. 각 디바이스는 네트워크, 예컨대 인터넷, 여기서는 클라우드(208)에 의해 다른 디바이스에 통신가능하게 연결된다. 이러한 특정 실시예에서, 각 디바이스는 위에서 설명하고 후술하는 바와 같은 오디오 컨퍼런싱 기능을 포함하는 오디오 컨퍼런싱 모듈(107)을 포함한다. 또한, 오디오 컨퍼런싱 모듈(107)의 양태는 클라우드(208)에 의해 구현될 수 있다. 따라서, 오디오 컨퍼런싱 모듈에 의해 제공되는 기능은 다양한 디바이스들(302, 304, 및/또는 306) 사이에 분포될 수 있다. 대안으로서 또는 추가적으로, 오디오 컨퍼런싱 모듈에 의해 제공되는 기능은 클라우드(208)에 의해 액세스되는 하나 이상의 서비스들과 다양한 디바이스들 사이에 분포될 수 있다. 적어도 일부 실시형태에서, 아래에서 명백하게 되는 바와 같이, 오디오 컨퍼런싱 모듈(107)은, 오디오 컨퍼런스에 참여할 수 있는 개인들의 음성 패턴을 설명하는 패턴 데이터와 같은 정보를 저장하는 적절하게 구성된 데이터베이스(314)를 사용할 수 있다. 적어도 다른 실시형태에서, 오디오 컨퍼런스는 디바이스(302, 304) 사이에서 표시되는 바와 같은 포인트-투-포인트 콜(point-to-point call)을 통해 이루어질 수 있다.

이러한 특정 실시예에서, 디바이스들(302, 304, 및 306) 상에 있는 오디오 컨퍼런싱 모듈(107)은 유저 인터페이스 모듈(308); 패턴 프로세싱 모듈(312)을 포함하는 오디오 프로세싱 모듈(310); 및 액세스 제어 모듈(313)을 포함하거나 그렇지 않으면 사용할 수 있다.

유저 인터페이스 모듈(308)은, 다른 유저와의 오디오 컨퍼런스를 예정하고(schedule) 참여하기 위해, 오디오 컨퍼런싱 모듈과 유저가 상호작용하게 하는 기능을 나타낸다. 이하에 제공되는 실시예에서 유저 인터페이스 모듈(308)에 의해 임의의 적합한 유저 인터페이스가 제공될 수 있다.

오디오 프로세싱 모듈(310)은 오디오 컨퍼런스의 코스(course) 중에 오디오가 프로세싱되고 사용되게 하는 기능을 나타낸다. 오디오 프로세싱 모듈(310)은 오디오 컨퍼런스 중에 사이트(site)에서 생성되는 오디오 신호를 프로세싱하기 위한 임의의 적합한 방법을 사용할 수 있다. 예컨대, 오디오 프로세싱 모듈은, 하나 이상의 독립적인 음성이 필터링되거나 억제되게 하는 방법으로 특정 오디오 스트림에서 다수의 독립적인 음성을 구별하기 위한 어쿠스틱 핑거프린팅 기술(acoustic fingerprinting technology)을 사용할 수 있는 패턴 프로세싱 모듈(312)을 포함할 수 있다. 음성의 필터링 또는 억제는 유저 인터페이스 모듈(308)에 의해 유저의 제어하에서 이루어질 수 있다. 대안으로서 또는 추가적으로, 음성이 필터링 또는 억제는 더 상세히 후술하는 바와 같이 자동적으로 이루어질 수 있다. 또한, 하나 이상의 음성의 필터링 또는 억제는, 발신 디바이스(originating device)에서, 오디오 스트림을 수신하는 하나 이상의 수신 디바이스(recipient device)에서, 또는 발신 디바이스와 수신 디바이스 중간에 있는 디바이스[예컨대, 오디오 브릿지, 서버 컴퓨터, 클라우드(208)에서 지원되는 웹 서비스 등]에서 이루어질 수 있다. 또한, 컴포넌트 음성을 식별하고, 특정 음성을 필터링하기 위해 사용되는 프로세싱은 바로 위에서 언급한 바와 같은 다수의 디바이스들에 걸쳐 분포될 수 있다.

액세스 제어 모듈(313)은 연관 오디오 스트림에서 식별되는 음성에 기초하여, 오디오 컨퍼런스("통신 이벤트"라고도 함)에 대한 액세스를 제어하는 기능을 나타낸다. 액세스 제어 모듈은 임의의 다른 예시된 모듈에 통합되거나 독립형 모듈로 구성될 수 있다.

다양한 창의적 실시형태를 설명하기 전에, 이제 후술하는 다양한 실시형태에 대한 일부 콘텍스트를 제공하는 몇가지 사용-기반 시나리오의 논의를 고려한다.

[사용-기반 시나리오]

도 4는 일반적으로 400에서, 몇가지 사용-기반 시나리오가 설명되는 환경을 도시한다. 환경(400)은 두개의 사이트(site)(402, 404)를 포함한다. 각 사이트는 위에서 그리고 이하에 설명되는 바와 같은 컴퓨팅 디바이스 및 오디오 컨퍼런싱 모듈(107)을 포함한다. 사이트(402)는 3명의 유저, 즉 User A, User A', 및 User A''를 포함한다. 사이트(404)는 단일 유저, 즉 User B를 포함한다.

예시되고 설명된 실시예에서, 오디오 컨퍼런스는 오디오 컨퍼런싱 모듈(107)에 의해 사이트 A와 사이트 B 사이에서 확립된다. 동작시에, 오디오 컨퍼런싱 모듈(107)은 예컨대 사이트 A에서, 마이크로폰으로부터 오디오를 캡쳐(capture)하고, 오디오 신호를 디지털화하고, 도시된 바와 같이, 디지털화된 오디오 신호를 오디오 스트림의 형태로 네트워크를 통해 전송한다. 사이트 B에서, 오디오 컨퍼런싱 모듈(107)은 오디오 스트림을, 컴퓨팅 디바이스에서의 스피커 또는 헤드폰 상에서 재생되는 가청 오디오 신호로 변환한다. 오디오 스트림은 임의의 적합하게 구성된 오디오 스트림을 포함할 수 있고, 여기서 설명되는 기술은 매우 다양한 오디오 스트림으로 사용될 수 있다. VoIP(Voice over IP)는 IP 패킷을 사용하여 구현되는 오디오 스트림을 사용하는 일실시예를 구성한다.

이제, 환경(400)에 관하여 발생할 수 있는 3개의 상이한 케이스(case) 또는 상황을 고려한다.

[케이스 1]

User A, A', 및 A''는 의도적으로 함께 원격 User B와 함께 포-웨이 컨퍼런스(four-way conference)에 참여한다. 본 케이스에서, 유저 B가 유저 A, A', 및 A''를 듣는(hear) 것을 의도한다. 본 케이스에서, 사이트(402)로부터 송신된 오디오 스트림은 바람직하게 유저 A, A', 및 A''의 음성을 포함한다.

[케이스 2]

본 케이스에서, 유저 A' 및 A''의 존재는 계획되지 않고 바람직하지 않다. 이 유저들은 사이트(402)에서 또는 전화기 상에서 일부의 다른 사람들과의 관련 없는 대화에 관여될(engaged) 수 있다. 그럼에도 불구하고, 유저 A' 및 A''의 음성은 오디오 스트림에 포함되고 또한 유감스럽게도 유저 B) 듣게 된다. 원하지 않는 유저 A' 및 A''의 음성은 유저 B에 대하여 방해를 생성한다.

[케이스 3]

유저 A 및 A'의 존재는 의도된 것이고, 그들은 유저 B와의 쓰리-웨이 컨퍼런스(three-way conference)의 일부를 형성한다. 유저 A의 존재는 바람직하지 않고 그의 또는 그녀의 음성은 유저 B에 대한 방해를 생성한다.

후술하는 실시형태는, 오디오 컨퍼런싱 세션을 향상시키는 맑고(crisp) 정확한 오디오 스트림을 제공하는 방법으로, 이 케이스들 뿐만 아니라 다른 케이스들 각각에 대한 솔루션을 제공한다. 또한, 후술하는 실시형태는, 아마도 전경(foreground)에서의 음성 또는 가장 강한 음성을 제외한 전체 음성을 무조건 억제하거나 필터링 아웃하는 노이즈 억제 기술의 간단한 애플리케이션을 통해 진보를 구성한다. 후술하는 기술에 의해, 참여자의 정확한 수집(collection)이 수동 및/또는 자동으로 규정될 수 있고, 이에 따라 실제로 오디오 컨퍼런스에 참여하기로 되어 있는 참여자들 사이에서 정보의 효율적인 교환을 보장한다. 오디오 컨퍼런스에 참여하기로 되어 있지 않은 사람들은 펄터링되거나 그렇지 않으면 오디오 스트림으로부터 억제된 음성을 가질 수 있다.

창의적인 원리가 적용될 수 있는 예시적 케이스를 고려하였고, 이제 음성 인식과 연관된 몇가지 원리를 고려한다.

[음성 인식]

동작시에, 임의의 적합한 음성 인식 기술이 오디오 신호를 프로세싱하고 다수의 상이한 음성을 식별하는데 사용될 수 있다. 식별되면, 다수의 상이한 음성들 중 개별 음성이 필터링되거나 억제될 수 있다. 예시되고 설명되는 실시형태에서, 오디오 스트림에서 나타나는 음성을 식별하고 특징짓기 위해 패턴 기반 방법이 사용된다. 예컨대, 개별 음성은 음성을 식별하기 위해 인식되고 사용될 수 있는 패턴을 갖는다. 예컨대, 개별 음성은, 특정 음성을 식별하고 특징짓기 위해 적어도 부분적으로 사용될 수 있는 빈도 패턴(frequency pattern), 시간 패턴(temporal pattern), 피치 패턴(pitch pattern), 스피치 레이트(speech rate), 볼륨 패턴(volume pattern), 또는 일부 다른 패턴을 가질 수 있다. 또한, 특정 음성의 핑커프린트 또는 패턴을 형성하기 위해, 음성은 다양한 수치에 관하여 분석될 수 있다. 통상의 기술자에 의해 인식되는 적절하게 구성된 필터 또는 억제 기술을 사용하는 것에 의한 것과 마찬가지로, 음성의 핑거프린트가 식별되면, 핑거프린트는 오디오 스트림으로부터 음성을 필터링하거나 억제하기 위해 기초로서 사용될 수 있다.

그러나, 단일 채널에서 2명 이상의 사람들의 연설을 인식하기 위한 하나의 방법이, Hershey, 2010, "Super-human multi-talker speech recognition: A graphical modeling approach", Computer Speech and Language 24 (2010) 45-66에 개시된다. 다른 방법뿐만 아니라 이와 유사한 방법이 오디오 스트림의 일부를 포함하는 음성 컴포넌트를 식별하기 위해 사용될 수 있다.

이제, 오디오 컨퍼런스에서의 음성의 컴포넌트를 제어하기 위해 유저 제어가 사용될 수 있는 실시형태를 고려한다.

[유저 제어]

상기한 바와 같이, 다수의 실시형태는, 오디오 컨퍼런싱 시스템과 같은 시스템이, 제거된 음성이 요구되지 않는 오디오 컨퍼런스로부터 음성을 제거하게 한다. 적어도 일부의 실시형태에서, 바로 위의 섹션에서 설명한 바와 같이, 오디오 컨퍼런스에 연관된 오디오 신호가 분석되고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트들이 식별된다. 개별 음성 컴포넌트를 식별하기 위해 이러한 방법으로 오디오 신호가 프로세싱되면, 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링 아웃(filter out)하기 위해 제어 엘리먼트가 적용될 수 있다.

다양한 실시형태에서 예컨대, 제어 엘리먼트는, 오디오 컨퍼런스에서의 배제(exclusion) 또는 포함(inclusion)을 위해 유저(user)가 하나 이상의 개별 컴포넌트를 선택하게 하는 적합하게 구성된 유저 인터페이스로서 직접 유저 제어가능성의 결합(incorporation)을 포함할 수 있다.

실시예로서, 도 5를 고려한다. 4개의 음성 - V1, V2, V3, 및 V4를 포함하는 오디오 스트림을 수신하는 오디오 컨퍼런싱 모듈(107)이 도시되어 있다. 본 실시예에서 음성 V4를 원하지 않는 것으로 가정한다. 즉, 음성 V4는 오디오 컨퍼런스에 참여하기로 되어 있는 사람이 아닌 다른 소스로부터 제공된다. 오디오 컨퍼런싱 모듈(107)은 오디오 스트림을 수신하고, 오디오 프로세싱 모듈(310) 및 이와 관련된 패턴 프로세싱 모듈(312)을 사용하여 오디오 스트림 내에 포함되는 4개의 컴포넌트 음성, 여기서는 음성 V1, V2, V3, 및 V4를 식별하기 위해 오디오 스트림을 프로세싱한다. 이 정보를 사용하여, 유저 인터페이스 모듈(308)은, 여기서 액세스 제어 모듈(313)에 의해 구현되는 액세스 제어 기능을 통해, 하나 이상의 음성을 제거하기 위한 기회를 사용자에게 제공하는 유저 인터페이스(500)의 형태로, 제어 엘리먼트를 제공할 수 있다. 이 특정 실시예에서, 유저는 채워진 원으로 표시된 바와 같이 제거를 위해 음성 V4를 클릭하거나 선택한다. 결과적으로, 음성 V4를 제거하기 위해 수신되는 오디오 스트림에 필터가 적용된다. 오디오 컨퍼런싱 모듈(107)을 종료한 것으로 표시되는 바와 같이, 결과로서 얻어진 오디오 스트림은 음성 V1, V2, 및 V3을 포함한다. 또한, 다른 실시형태에서, 더 상세히 후술하는 바와 같이, 오디오 스트림에서 식별되는 음성에 기초하여 액세스 제어 기능이 자동적으로 적용될 수 있다.

적어도 일부 실시형태에서, 패턴 프로세싱 모듈(312)은 음성 패턴의 사전 인식 없이 개별 컴포넌트 음성을 식별함으로써 작업하도록 구성된다. 대안으로서 또는 추가적으로, 패턴 프로세싱 모듈(312)은 유저 이름에 대한 음성 핑거프린트의 맵핑을 포함하는 패턴 데이터베이스(314)(도 3)와 같은 패턴 데이터베이스와 협력하여 작업하도록 구성될 수 있다. 이러한 방식으로, 유저 인터페이스(500)에서 하나 이상의 "Voice N" 지명인은 음성의 소스에 대응하는 실제 유저 이름으로 교체될 수 있다. 예컨대, 패턴 프로세싱 모듈(312)은 오디오 스트림 내의 개별 음성을 식별하기 위해 오디오 스트림을 프로세싱할 수 있다. 개별 음성 각각의 핑거프린트 패턴이 컴퓨팅되어 패턴 데이터베이스(314)에 액세스하는 엔티티(entity)에 제공될 수 있다. 엔티티는 패턴 프로세싱 모듈(312)을 구비한 컴퓨팅 디바이스로부터 로컬(local) 또는 원격이 될 수 있다. 이어서, 제공된 패턴은 패턴에 대한 매치(match)를 식별하기 위해 패턴 데이터베이스(314)를 검색하는데 사용될 수 있다. 식별되면, 매칭 패턴과 연관된 이름이 유저 인터페이스(500)에서의 사용을 위해 제공될 수 있다. 많은 경우에, 이것은 오디오 스트림에서 나타나는 하나 이상의 음성을 억제하기 위한 유저의 선택을 가능하게 할 수 있다. 예컨대, Fred, Dale 및 Alan과 함께 회의(conference)하고 있는 것을 유저가 알고 있고, 이들의 이름이 Larry와 함께 유저 인터페이스(500)에 나타나면, 유저는 Larry의 음성을 억제하거나 필터링 아웃하기 위해 신속하게 선택할 수 있다.

방금 설명한 방법은 위에서 서술한 케이스들 각각을 처리하기(address) 위해 사용될 수 있다. 케이스 1에서, 전체 음성이 오디오 컨퍼런스의 일부가 되는 것을 의도하기 때문에 선택되는 음성이 없다. 케이스 2에서, 하나를 제외한 전체 음성을 억제하거나 필터링하기 위해 오디오 스트림에 제어가 수행될 수 있다. 이것은 선택된 음성 컨포넌트가 제거되기를 원하는 음성에 확실히 속하는 경우의 문제점을 즉시 처리할 수 있다는 것이 주목된다. 유저가 잘못된 음성 또는 음성들을 선택하면, 그 선택을 수정하기 위해 다시 시도할 수 있다. 케이스 3에서, 하나의 음성을 억제하기 위해 오디오 스트림에 대하여 제어가 수행될 수 있다. 잘못된 음성이 선택되는 경우, 유저는 그 노력을 다시 시도할 수 있다. 물론, 음성이 이름에 맵핑되게 하는 패턴 데이터베이스를 사용하는 것은 음성의 필터링 또는 억제의 시행착오 특성을 완화시킬 수 있다.

상기한 바와 같이, 오디오 컨퍼런싱 모듈(107) 및 이와 연과노딘 기능은 오디오 컨퍼런스에 참여하는 각각의 특정 디바이스에서 구현될 수 있다. 또한, 이 기능의 양태는 오디오 컨퍼런스에 참여하는 다양한 디바이스들에 걸쳐 분포될 수 있다. 실시예로서, 도 6을 고려한다. 3개의 상이한 시나리오가 600, 602, 및 604에 각각 도시된다.

시나리오 600에서, 발신 디바이스에 4명의 참여자가 도시되어 있고, 수신 디바이스에 1명의 참여자가 도시되어 있다. 이 특정 실시예에서, 도 5의 실시예와 마찬가지로, 음성 V4는 원하지 않는 음성으로 가정한다. 이 특정 예에서, 발신 디바이스에서의 오디오 컨퍼런싱 모듈(107)은 음성 컴포넌트 V1, V2, V3, 및 V4를 갖는 오디오 신호를 분석하고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트를 식별한다. 개별 컴포넌트가 식별되면, 유저 인터페이스(500)의 형태에서의 제어 엘리먼트는 발신 디바이스에서의 유저가 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링하게 할 수 있다. 여기서, 유저는 음성 V4를 필터링 아웃하기 위해 선택하고, 결과로서 얻어진 오디오 스트림은 음성 V1, V2, 및 V3를 포함하고, 음성 V4를 포함하지 않는다.

시나리오 602에서, 발신 디바이스에 동일한 4명의 참여자가 도시되어 있고, 수신 디바이스에 1명의 참여자가 도시되어 있다. 이 특정 실시예에서, 도 5의 실시예와 마찬가지로, 음성 V4는 원하지 않는 음성으로 가정한다. 이 특정 예에서, 발신 디바이스에서의 오디오 컨퍼런싱 모듈(107)은 음성 컴포넌트 V1, V2, V3, 및 V4를 갖는 오디오 신호를 분석하고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트를 식별한다. 개별 컴포넌트가 식별되면, 오디오 컨퍼런싱 모듈은 오디오 스트림 내의 각각의 특정 음성을 식별하는 제어 데이터를 제공한다. 모두 4개의 음성과 제어 데이터를 가진 전체(complete) 오디오 스트림은 수신 디바이스로 송신된다. 수신 디바이스에서, 유저 인터페이스(500)의 형태에서의 제어 엘리먼트가 수신 디바이스에서의 유저로 하여금 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링 아웃하거나 효과적으로 필터링하게 하도록 제어 데이터가 사용된다. 여기서, 수신 디바이스에서의 유저는 음성 V4를 필터링 아웃하기 위해 선택된다. 결과로서 얻어진 오디오 스트림은 음성 V4를 제외한 음성 V1, V2, 및 V3를 포함하고, 유저를 위해 재생될 수 있다. 대안으로서 또는 추가적으로, 수신 디바이스에서의 유저가 선택을 하면, 발신 디바이스가 필터링에 영향을 줄 수 있도록, 그 선택이 발신 디바이스로 다시 전달될 수 있다. 이러한 방식으로, 수신 디바이스는 원격으로 발신 디바이스가 원하지 않는 음성을 필터링하게 할 수 있다.

시나리오 604에서, 발신 디바이스에 동일한 4명의 참여자가 도시되어 있고, 수신 디바이스에 1명의 참여자가 도시되어 있다. 이 특정 실시예에서, 도 5의 실시예와 마찬가지로, 음성 V4는 원하지 않는 음성으로 가정한다. 이 특정 예에서, 발신 디바이스에서의 오디오 컨퍼런싱 모듈(107)은 음성 컴포넌트 V1, V2, V3, 및 V4를 갖는 오디오 신호를 프로세싱하고, 4개의 음성 전체를 가진 오디오 스트림을 수신 디바이스로 송신한다. 수신 디바이스에서, 오디오 컨퍼런싱 모듈(107)은 오디오 스트림을 프로세싱하고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트를 식별한다. 개별 컴포넌트가 식별되면, 유저 인터페이스(500)의 형태에서의 제어 엘리먼트는 수신 디바이스에서의 유저가 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링하게 할 수 있다. 여기서, 유저는 음성 V4를 필터링 아웃하기 위해 선택하고, 결과로서 얻어진 오디오 스트림은 음성 V1, V2, 및 V3를 포함하고, 음성 V4를 포함하지 않는다.

하나 이상의 실시형태에 따른 예시적 시나리오를 고려하였고, 이제 하나 이상의 실시형태에 따른 예시적 방법을 고려한다.

도 7은 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다. 상기 방법은 임의의 적합한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 하나 이상의 실시형태에서, 상기 방법의 양태는 상기한 오디오 컨퍼런싱 모듈(107)과 같은 적절하게 구성된 오디오 컨퍼런싱 모듈에 의해 구현될 수 있다. 청구된 대상(subject matter)의 사상 및 범위로부터 벗어나지 않고, 다른 컴퓨팅 디바이스뿐만 아니라 도 1 내지 도 4와 관련하여 설명한 임의의 컴퓨팅 디바이스 상에 오디오 컨퍼런싱 모듈이 배치될 수 있다. 또한, 오디오 컨퍼런싱 모듈에 의해 수행되는 기능은 다수의 컴퓨팅 디바이스들에 걸쳐 분포될 수 있다.

스텝 700은 복수의 음성을 포함하는 오디오 스트림을 수신한다. 예시되고 설명된 실시형태에서, 음성은 하나 이상의 원격 참여자들과의 오디오 컨퍼런스 중에 생성되는 오디오 스트림의 일부이다. 스텝 702는 복수의 음성 중 개별 음성을 식별하기 위해 오디오 스트림을 프로세싱한다. 이 스텝은 예컨대 임의의 적합한 타입의 음성 인식 기술을 사용함으로써, 위에서 제공되는 실시예의 임의의 적합한 방식으로 수행될 수 있다. 스텝 704는 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 하나 이상의 음성의 선택을 가능하게 한다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부 실시형태에서, 이 스텝은, 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 하나 이상의 음성을 유저가 선택하게 하는 유저 인터페이스의 형태에서의 제어 엘리먼트를 제공함으로써 수행될 수 있다. 스텝 704에서의 하나 이상의 음성의 선택에 응답하여, 스텝 706은 복수의 음성보다 적은 음성을 가진 결과로서 얻어진 오디오 스트림을 만든다(formulate). 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 하나 이상의 음성을 유저가 배제하기로 선택하면, 결과로서 얻어진 오디오 스트림을 만들기 위해 오디오 스트림에 필터가 적용될 수 있다. 결과로서 얻어진 오디오 스트림이 만들어지면, 스텝 708은 결과로서 얻어진 오디오 스트림을 오디오 컨퍼런스에서의 하나 이상의 참여자들로 송신한다. 상기 방법은, 도 6에서의 시나리오 600과 관련하여 설명된 프로세싱에 관련된다(pertain).

도 8은 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다. 상기 방법은 임의의 적합한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 하나 이상의 실시형태에서, 상기 방법의 양태는 상기한 오디오 컨퍼런싱 모듈(107)과 같은 적절하게 구성된 오디오 컨퍼런싱 모듈에 의해 구현될 수 있다. 청구된 대상(subject matter)의 사상 및 범위로부터 벗어나지 않고, 다른 컴퓨팅 디바이스뿐만 아니라 도 1 내지 도 4와 관련하여 설명한 임의의 컴퓨팅 디바이스 상에 오디오 컨퍼런싱 모듈이 배치될 수 있다. 또한, 오디오 컨퍼런싱 모듈에 의해 수행되는 기능은 다수의 컴퓨팅 디바이스들에 걸쳐 분포될 수 있다.

스텝 800은 복수의 음성을 포함하는 오디오 스트림을 수신한다. 예시되고 설명된 실시형태에서, 음성은 하나 이상의 원격 참여자들과의 오디오 컨퍼런스 중에 생성되는 오디오 스트림의 일부이다. 스텝 802는 예컨대 임의의 적합한 타입의 음성 인식 기술을 사용함으로써 복수의 음성의 개별 음성을 식별하기 위해 오디오 스트림을 프로세싱한다. 이 스텝은 위에서 제공되는 실시예의 임의의 적합한 방식으로 수행될 수 있다. 스텝 804는 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 하나 이상의 음성의 선택을 가능하게 한다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 이 스텝은 오디오 스트림에서 각 음성 컴포넌트를 규정하는 제어 데이터를 생성함으로써 수행될 수 있다. 스텝 804에서 음성의 선택을 가능하게 한 것에 응답하여, 스텝 806은 제어 데이터를 포함하는 결과로서 얻어진 오디오 스트림을 만든다. 결과로서 얻어진 오디오 스트림이 만들어지면, 스텝 808은 결과로서 얻어진 오디오 스트림을 오디오 컨퍼런스에서의 하나 이상의 참여자들로 송신한다. 이제, 제어 데이터를 사용하여, 수신 디바이스의 유저는 상기한 바와 같이 하나 이상의 음성을 제거하기 위해 사용될 수 있는 유저 인터페이스의 형태에서의 제어 엘리먼트에 의해 제시될(presented) 수 있다. 이것은, 수신 디바이스에서 또는 발신 디바이스에서 이루어질 수 있다. 후자의 케이스에서, 제어 데이터는 발신 디바이스가 원하지 않는 음성을 필터링하게 하기 위해 발신 디바이스로 다시 송신될 수 있다. 상기 방법은, 도 6에서의 시나리오 602와 관련하여 설명된 프로세싱에 관련된다(pertain).

도 9는 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다. 상기 방법은 임의의 적합한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 하나 이상의 실시형태에서, 상기 방법의 양태는 상기한 오디오 컨퍼런싱 모듈(107)과 같은 적절하게 구성된 오디오 컨퍼런싱 모듈에 의해 구현될 수 있다. 청구된 대상(subject matter)의 사상 및 범위로부터 벗어나지 않고, 다른 컴퓨팅 디바이스뿐만 아니라 도 1 내지 도 4와 관련하여 설명한 임의의 컴퓨팅 디바이스 상에 오디오 컨퍼런싱 모듈이 배치될 수 있다. 또한, 오디오 컨퍼런싱 모듈에 의해 수행되는 기능은 다수의 컴퓨팅 디바이스들에 걸쳐 분포될 수 있다.

스텝 900은 복수의 음성을 포함하는 오디오 스트림을 수신 디바이스에서 수신한다. 예시되고 설명된 실시형태에서, 음성은 원격 전송 디바이스(remote sending device)에서 오디오 컨퍼런스 중에 생성되는 오디오 스트림의 일부이다. 스텝 902는 예컨대 임의의 적합한 타입의 음성 인식 기술을 사용함으로써 복수의 음성의 개별 음성을 식별하기 위해 오디오 스트림을 프로세싱한다. 이 스텝은 위에서 제공되는 실시예의 임의의 적합한 방식으로 수행될 수 있다. 스텝 904는 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 하나 이상의 음성의 선택을 가능하게 한다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부 실시형태에서, 이 스텝은, 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 하나 이상의 음성을 수신 디바이스에서의 유저가 선택하게 하는 유저 인터페이스의 형태에서의 제어 엘리먼트를 제공함으로써 수행될 수 있다. 스텝 904에서의 하나 이상의 음성의 선택에 응답하여, 스텝 906은 복수의 음성보다 적은 음성을 가진 결과로서 얻어진 오디오 스트림을 만든다(formulate). 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 하나 이상의 음성을 유저가 배제하기로 선택하면, 결과로서 얻어진 오디오 스트림을 만들기 위해 오디오 스트림에 필터가 적용될 수 있다. 결과로서 얻어진 오디오 스트림이 만들어지면, 스텝 908은 예컨대 하나 이상의 스피커 또는 헤드폰을 통해 수신 디바이스에서의 결과로서 얻어진 오디오 스트림을 렌더링한다. 상기 방법은, 도 6에서의 시나리오 604와 관련하여 설명된 프로세싱에 관련된다(pertain).

하나 이상의 유저 제어 실시형태에 다른 다양한 방법을 고려하였고, 이제 음성 합성이 자동적으로 제어되는 실시형태를 고려한다.

[자동 제어]

상기한 바와 같이, 하나 이상의 음성이 억제되게 하는 제어 엘리먼트는 오디오 컨퍼런싱 시스템에 의해 자동적으로 적용될 수 있다. 이것은, 특정 컨퍼런스에 참여할 수 있는 사람을 통제하기(govern) 위해 그룹 액세스 관리 시스템에 의해 사전에 설정되는 정책(policy)의 애플리케이션을 포함할 수 있다.

상기한 바와 같이, 오디오 컨퍼런싱 모듈은, 다음 사용을 위해 음성 패턴이 사전에 만들어지고 데이터베이스에 저장되는 패턴 데이터베이스와 관련하여 작업할 수 있다. 이 저장된 음성 패턴은 유저 제어 모드뿐만 아니라 자동 모드에서도 사용될 수 있다.

예컨대, 각 유저는 그 또는 그녀 자신의 음성을 입증함으로써 오디오 컨퍼런싱 모듈을 훈련시키고(train), 적합하게 구성된 패턴 데이터베이스에 그 또는 그녀 자신의 음성의 어쿠스틱 핑거프린트를 저장할 수 있다. 이 어쿠스틱 핑거프린트는, 특정 디바이스 상에 국부적으로(locally) 저장되거나, 네트워크를 통해 액세스 가능한 유저 서비스 프로파일의 일부로서 백엔드 데이터베이스(backend database)에 중심적으로(centrally) 저장되고, 이어서 유저가 로그인하는 각 시간에 데이터베이스로부터 검색될 수 있다. 이러한 방식으로, 오디오 컨퍼런싱 모듈은, 기본적으로, 오디오 컨퍼런싱 모듈에 로그된(logged) 유저 또는 유저들의 어쿠스틱 핑거프린트에 매치되지 않는 입구측 임의의 음성을 억제할 수 있다.

일부의 경우에, 자동 모드에서, 유저는 오디오 스트림에 다른 음성을 포함하기를 원할 수 있다는 것에 주목해야 한다. 이것은 상기 케이스 1과 케이스 3에서의 상황이 된다. 이러한 케이스에서, 오디오 컨퍼런싱 모듈은 예컨대 적합한 유저 인터페이스 버튼에 의해 넌매칭 음성(non-matching voice)의 자동 억제를 턴오프(turn off)하기 위한 방법을 제공할 수 있다. 이러한 방식으로, 유저는 상기한 바와 같이 선택된 원하는/원하지 않는 음성의 애드 혹 결정(ad hoc determination)을 할 수 있다. 따라서, 상기한 그리고 후술하는 방법은 간단한 포인트-투-포인트 컨퍼런스가 아닌 다수의 오디오 컨퍼런스에 적용될 수 있다.

[그룹 액세스 관리 서비스]

설명되는 것에 관한 실시형태는, 다양한 오디오 컨퍼런스에 대한 액세스를 제어하기 위해 로스터(roster)의 형태로 그룹 관리를 사용한다. 후술하는 실시형태는 그룹 관리 서비스에 의해 규정되는 바와 같이 액세스 제어를 자동적으로 적용한다.

실시예로서, 하나 이상의 실시형태에 따른 예시적 시스템(1000)을 도시하는 도 10을 고려한다. 본 실시예에서, 시스템(1000)은 2개의 디바이스(1002, 1004) 및 오디오 컨퍼런스에 참여하는 연관된 유저를 포함한다. 디바이스(1002)는 3명의 상이한 유저, 즉 유저 A, 유저 A', 및 유저 A''와 연관된다. 유저 A''가 원하지 않는 유저인 것으로 가정한다. 디바이스(1004)는 유저 B와 연관된다. 각 디바이스는 위에서 그리고 이하에 설명되는 바와 같은 오디오 컨퍼런싱 모듈(107)을 포함한다. 디바이스(1002, 1004)는 상기한 클라우드(208)와 같은 네트워크에 의해 통신가능하게 접속된다. 플랫폼(210)은 상기한 바와 같은 웹 서비스(212)를 포함한다. 이 특정 실시예에서, 플랫폼(210)은 오디오 컨퍼런싱 모듈(107) 및 그룹 관리 서비스(1016)를 포함한다. 이 실시예에서, 플랫폼(210)의 오디오 컨퍼런싱 모듈(107) 및/또는 그룹 관리 서비스(1016)는 상기한 바와 같은, 오디오 컨퍼런스에 참여할 적어도 일부의 음성의 어쿠스틱 패턴을 포함하는 패턴 데이터베이스에 액세스하는 것으로 또한 가정한다.

그룹 관리 서비스(1016)는 오디오 컨퍼런스에 참여할 수 있는 다양한 그룹을 규정하는 정책 엔진으로서 기능한다(serve). 이들 그룹은 오디오 컨퍼런스에 앞서 규정될 수 있다. 동작시에, 그룹 관리 서비스는 수천 또는 심지어 수백만 개의 그룹을 유지할 수 있다. 이 특정 실시예에서, 하나의 그룹, G1은 4명의 유저, 즉 A, A', B, 및 C를 포함하도록 규정된다. 이들은, 플랫폼(210)의 오디오 컨퍼런싱 모듈(107)에 의해 운영되는(administered) 오디오 컨퍼런스에 참여할 승인된 유저들이다. 본 실시예에서, 그룹 관리 서비스는 오디오 컨퍼런스에 참여할 그룹을 규정하고, 플랫폼(210)의 오디오 컨퍼런싱 모듈은 그룹 관리 서비스에 의해 규정되는 정책을 운영한다(administer). 즉, 그룹이 규정되면, 오디오 컨퍼런싱 모듈은 오디오 컨퍼런스에 참여하는 그룹의 일부로서 규정되는 유저들을 허용하고, 그룹의 일부로 규정되지 않는 다른 유저들을 배제하는 컨퍼런스를 운영할 수 있다.

이제, 디바이스(1002) 및 이와 연관된 유저를 고려한다. 본 실시예에서, 디바이스(1002)가 유저 A에 속하는 것으로 가정한다. 유저 A가 오디오 컨퍼런스에 조인(join)하면, 플랫폼(210)에 송신되는 신호 제어 정보에 기초하여 오디오 컨퍼런스에 입장이 허가된다. 따라서, 예컨대, 유저 A는 디바이스(1002)를 통해 공급하는 로그인 정보에 기초하여 오디오 컨퍼런스에 입장이 허가될 수 있다. 마찬가지로, 유저 B는 유사한 타입의 신호 제어 정보에 기초하여 오디오 컨퍼런스에 입장이 허가된다. 특히, 유저 B가 오디오 컨퍼런스에 로그하면, 그룹 관리 서비스(1016)에 의해 규정되는 정책을 따른 그들의 로그인 정보는 유저 B가 오디오 컨퍼런스에 입장이 허가되게 할 수 있다. 이제, 디바이스(1002)에 관하여, 유저 A', 및 유저 A''를 고려한다. 그룹 관리 서비스(1016)에 의해 특정됨에 따라, 오디오 컨퍼런스에 승인된 참여자로 유저 A'가 규정된다. 따라서, 상기한 바와 같이 오디오 컨퍼런싱 모듈(107)에 의해 인식되는 음성에 기초하여 유저 A'가 오디오 컨퍼런스에 입장이 허가될 수 있다. 그러나, 유저 A''는 그룹 관리 서비스에 의해 규정되는 정책의 일부가 아니기 때문에, 그들의 음성은 오디오 스트림으로부터 배제되거나 억제될 수 있다.

예컨대, 유저 A''의 음성 프로파일이 패턴 매칭 데이터베이스에 있는 경우에, 유저 A''를 배제하기 위해, 패턴 매칭 데이터베이스 내의 패턴과 디바이스(1002)로부터의 오디오 스트림의 컴포넌트의 간단한 비교가 수행될 수 있다. 대안으로서 또는 추가적으로, 유저 A''의 음성 프로파일이 패턴 매칭 데이터베이스에 있지 않은 경우에, 시스템은 오디오 컨퍼런스에 참여하기 원하는 참여자들, 즉 여기서, 유저 A, 유저 A', 및 유저 B를 특정하여 인식하고, 유저 A''와 같은 원하지 않는 참여자의 음성을 배제 또는 억제함으로써, 유저 A''를 배제할 수 있다.

음성 인식 및 입장은 발신 디바이스[여기서는 디바이스(1002)], 디바이스(1004)와 같은 수신 디바이스, 또는 플랫폼(210)의 일부를 포함하는 오디오 컨퍼런싱 모듈에서 이루어질 수 있다. 음성 인식과 음성 억제가 발신 디바이스 또는 수신 디바이스에서 이루어지는 상황에서, 각 디바이스와 연관된 오디오 컨퍼런싱 모듈이 원하지 않는 음성을 억제하기 위해 여기서 설명한 기술을 적용할 수 있도록, 사전에 개별 디바이스에 그룹 관리 서비스(1016)에 의해 그룹 정책이 제공될 수 있다. 이것은, 미팅(meeting)에 로그되는 유저, 여기서는 유저 A와 유저 B의 일부에 대한 임의의 액션(action)없이 이루어질 수 있다. 대안으로서 또는 추가적으로, 상기 실시형태에서와 마찬가지로, 음성 인식과 입장 또는 억제는 시스템의 도처에 분포될 수 있다. 예컨대, 디바이스(1002) 상의 오디오 컨퍼런싱 모듈(107)은 유저 A, A', 및 A''에 대응하는 오디오 스트림을 프로세싱하고 각 음성을 식별할 수 있다. 이어서, 유저 A''의 음성이 억제 또는 필터링될 수 있도록, 디바이스(1002)는 플랫폼(210) 상의 오디오 컨퍼런싱 모듈로 오디오 스트림과 함께 제어 데이터를 전송할 수 있다.

따라서, 오디오 컨퍼런싱 모듈(107)과 이와 연관된 기능은 플랫폼(210)에 의해 제공되는 서비스 스위트(a suit of services)의 일부로서 제공되는 오디오 컨퍼런싱 서비스를 포함하는 오디오 컨퍼런스에 참여하는 각각의 특정 디바이스에서 구현될 수 있다. 또한, 이 기능의 양태는 오디오 컨퍼런스에 참여하는 다양한 디바이스들 및 서비스들에 걸쳐 분포될 수 있다. 실시예로서, 도 11을 고려한다. 3개의 상이한 시나리오가 1100, 1102, 및 1104에 각각 도시된다.

시나리오 1100에서, 오디오 컨퍼런싱 모듈(107)을 가진 발신 디바이스에 3명의 참여자가 도시되어 있다. 또한, 오디오 컨퍼런싱 모듈(107)은 오디오 컨퍼런싱 서비스에 있는 것으로 도시되어 있다. 또한, 그룹 관리 서비스에 의해 규정된 그룹 정책(1106)이 상기한 바와 같이 제공된다. 특히, 이 특정 예에서, 그룹 정책(1106)은 오디오 컨퍼런스에 유저 A, A', B, 및 C가 참여하기 원하는 것을 나타낸다. 이 특정 실시예에서, 도 10의 실시예와 마찬가지로, 유저 A''와 연관된 음성을 원하지 않는 음성으로 가정한다. 이 특정 예에서, 발신 디바이스에서의 오디오 컨퍼런싱 모듈(107)은 유저 A, A', 및 A''의 음성을 포함하는 오디오 스트림을 송신한다. 오디오 컨퍼런싱 모듈(107)에 의해 오디오 컨퍼런싱 서비스는 오디오 스트림을 수신하고 오디오 스트림에 그룹 정책(1106)을 적용한다. 그룹 정책의 적용은 컴포넌트 파트를 식별하기 위해 오디오 스트림을 분석하는 것과 이어서 원하지 않는 음성, 여기서는 유저 A''와 연관된 음성을 필터링 아웃하는 것을 포함한다. 이어서, 오디오 컨퍼런싱 서비스는 컨퍼런스에의 다른 참여자들에게 결과로서 얻어진 오디오 스트림을 송신할 수 있다.

시나리오 1102에서, 동일한 3명의 참여자가 발신 디바이스에 도시되어 있다. 이 특정 실시예에서, 도 10의 실시예와 마찬가지로, 다시 유저 A''와 연관된 음성을 원하지 않는 음성으로 가정한다. 이 특정 예에서, 발신 디바이스에서의 오디오 컨퍼런싱 모듈(107)은 각 유저와 연관된 음성 컴포넌트를 갖는 오디오 신호를 분석하고 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트를 식별한다. 개별 컴포넌트가 식별되면, 오디오 컨퍼런싱 모듈은 오디오 스트림 내의 각각의 특정 음성을 식별하는 제어 데이터를 제공한다. 모두 3개의 음성과 제어 데이터를 가진 전체(complete) 오디오 스트림은 오디오 컨퍼런싱 서비스로 송신된다. 오디오 컨퍼런싱 서비스에서, 그룹 정책(1106)에 따라 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트의 필터링을 가능하게 하기 위해 제어 데이터가 사용된다. 결과로서 얻어진 오디오 스트림은 유저 A 및 A'에 대응하는 음성을 포함한다. 이어서, 결과로서 얻어진 오디오 스트림은 유저 B의 디바이스로 송신될 수 있다.

시나리오 1104에서, 동일한 3명의 참여자가 발신 디바이스에 도시되어 있다. 이 특정 실시예에서, 도 10의 실시예와 마찬가지로, 다시 유저 A''와 연관된 음성을 원하지 않는 음성으로 가정한다. 이 특정 예에서, 발신 디바이스에서의 오디오 컨퍼런싱 모듈(107)에는 그룹 정책(1106)이 제공된다. 오디오 컨퍼런싱 모듈(107)에 의해 발신 디바이스는 유저 A, A', 및 A''에 대응하는 음성을 갖는 오디오 신호를 프로세싱한다. 그룹 정책(1106)에 따라, 오디오 컨퍼런싱 모듈(107)은 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트를 식별한다. 개별 컴포넌트가 식별되면, 오디오 컨퍼런싱 모듈은 원하지 않는 음성(여기서는 유저 A''에 대응하는 음성)에 대응하는 하나 이상의 개별 컴포넌트를 필터링 아웃한다. 이어서, 결과로서 얻어진 오디오 스트림은 유저 B의 디바이스로 송신될 수 있다.

도 12는 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다. 상기 방법은 임의의 적합한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 하나 이상의 실시형태에서, 상기 방법의 양태는 상기한 오디오 컨퍼런싱 모듈(107)과 같은 적절하게 구성된 오디오 컨퍼런싱 모듈에 의해 구현될 수 있다. 청구된 대상(subject matter)의 사상 및 범위로부터 벗어나지 않고, 다른 컴퓨팅 디바이스뿐만 아니라 도 1 내지 도 4와 관련하여 설명한 임의의 컴퓨팅 디바이스 상에 오디오 컨퍼런싱 모듈이 배치될 수 있다. 또한, 오디오 컨퍼런싱 모듈에 의해 수행되는 기능은 다수의 컴퓨팅 디바이스들에 걸쳐 분포될 수 있다.

스텝 1200은 복수의 음성을 포함하는 오디오 스트림을 수신한다. 예시되고 설명된 실시형태에서, 음성은 하나 이상의 원격 참여자들과의 오디오 컨퍼런스 중에 생성되는 오디오 스트림의 일부이다. 스텝 1202는 예컨대 임의의 적합한 타입의 음성 인식 기술을 사용함으로써 복수의 음성의 개별 음성을 식별하기 위해 오디오 스트림을 프로세싱한다. 이 스텝은 위에서 제공되는 실시예의 임의의 적합한 방식으로 수행될 수 있다. 스텝 1204는 결과로서 얻어진 오디오 스트림에의 포함을 위한 하나 이상의 음성을 규정하는 그룹 정책을 적용하고, 이에 따라 결과로서 얻어진 오디오 스트림에의 포함을 위한 하나 이상의 음성의 선택이 가능하게 된다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 이 스텝은 결과로서 얻어진 오디오 스트림에 포함될 오디오 스트림에서의 음성을 식별하기 위한 그룹 정책을 사용함으로써 수행될 수 있다. 스텝 1204에서의 그룹 정책의 적용에 응답하여, 스텝 1206은 복수의 음성보다 적은 음성을 가진 결과로서 얻어진 오디오 스트림을 만든다(formulate). 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부 실시형태에서, 결과로서 얻어진 오디오 스트림을 만들기 위해 오디오 스트림에 필터가 자동적으로 적용될 수 있다. 결과로서 얻어진 오디오 스트림이 만들어지면, 스텝 1208은 결과로서 얻어진 오디오 스트림을 오디오 컨퍼런스에서의 하나 이상의 참여자들로 송신한다. 상기 방법은, 도 11에서의 시나리오 1100와 관련하여 설명된 프로세싱에 관련된다(pertain).

도 13은 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다. 상기 방법은 임의의 적합한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 하나 이상의 실시형태에서, 상기 방법의 양태는 상기한 오디오 컨퍼런싱 모듈(107)과 같은 적절하게 구성된 오디오 컨퍼런싱 모듈에 의해 구현될 수 있다. 청구된 대상(subject matter)의 사상 및 범위로부터 벗어나지 않고, 다른 컴퓨팅 디바이스뿐만 아니라 도 1 내지 도 4와 관련하여 설명한 임의의 컴퓨팅 디바이스 상에 오디오 컨퍼런싱 모듈이 배치될 수 있다. 또한, 오디오 컨퍼런싱 모듈에 의해 수행되는 기능은 다수의 컴퓨팅 디바이스들에 걸쳐 분포될 수 있다.

스텝 1300은 오디오 스트림에서의 각 음성을 규정하는 제어 데이터와 복수의 음성을 포함하는 오디오 스트림을 수신한다. 제어 데이터는 임의의 적합한 기술, 예컨대 임의의 적합한 타입의 음성 인식 기술을 사용하여 생성될 수 있다. 예시되고 설명된 실시형태에서, 음성은 하나 이상의 원격 참여자들과의 오디오 컨퍼런스 중에 생성되는 오디오 스트림의 일부이다. 스텝 1302는 결과로서 얻어진 오디오 스트림에의 포함을 위한 하나 이상의 음성을 규정하는 그룹 정책을 적용하고, 이에 따라 스트림을 프로세싱하여, 결과로서 얻어진 오디오 스트림에의 포함을 위한 하나 이상의 음성의 선택을 가능하게 한다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 이 스텝은 결과로서 얻어진 오디오 스트림에 포함될 오디오 스트림의 제어 데이터에서 특정된 음성을 식별하기 위한 그룹 정책을 사용함으로써 수행될 수 있다. 스텝 1302에서의 그룹 정책의 적용에 응답하여, 스텝 1304은 복수의 음성보다 적은 음성을 가진 결과로서 얻어진 오디오 스트림을 만든다(formulate). 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 그룹 정책의 일부가 아닌 제어 데이터에서 식별된 음성을 배제하는 결과로서 얻어진 오디오 스트림을 만들기 위해 오디오 스트림에 필터가 자동적으로 적용될 수 있다. 결과로서 얻어진 오디오 스트림이 만들어지면, 스텝 1306은 결과로서 얻어진 오디오 스트림을 오디오 컨퍼런스에서의 하나 이상의 참여자들로 송신한다. 상기 방법은, 도 11에서의 시나리오 1102와 관련하여 설명된 프로세싱에 관련된다(pertain).

도 14는 하나 이상의 실시형태에 따른 방법에서의 단계들을 설명하는 플로우 다이어그램이다. 상기 방법은 임의의 적합한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합과의 접속으로 구현될 수 있다. 하나 이상의 실시형태에서, 상기 방법의 양태는 상기한 오디오 컨퍼런싱 모듈(107)과 같은 적절하게 구성된 오디오 컨퍼런싱 모듈에 의해 구현될 수 있다. 청구된 대상(subject matter)의 사상 및 범위로부터 벗어나지 않고, 다른 컴퓨팅 디바이스뿐만 아니라 도 1 내지 도 4와 관련하여 설명한 임의의 컴퓨팅 디바이스 상에 오디오 컨퍼런싱 모듈이 배치될 수 있다. 또한, 오디오 컨퍼런싱 모듈에 의해 수행되는 기능은 다수의 컴퓨팅 디바이스들에 걸쳐 분포될 수 있다.

스텝 1400은 오디오 컨퍼런스와 연관된 결과로서 얻어진 오디오 스트림에의 포함을 위한 하나 이상의 음성을 규정하는 그룹 정책을 수신한다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 이 스텝은 오디오 컨퍼런스에 참여할 디바이스에 의해 수행될 수 있다. 스텝 1402는 복수의 음성을 포함하는 오디오 스트림을 수신한다. 예시되고 설명된 실시형태에서, 음성은 하나 이상의 원격 참여자들과의 오디오 컨퍼런스 중에 생성되는 오디오 스트림의 일부이다. 스텝 1404는 예컨대 임의의 적합한 타입의 음성 인식 기술을 사용함으로써 복수의 음성의 개별 음성을 식별하기 위해 오디오 스트림을 프로세싱한다. 스텝 1406은 오디오 스트림에 그룹 정책을 적용하고 이에 따라 스트림을 프로세싱하여 결과로서 얻어진 오디오 스트림에의 포함을 위한 하나 이상의 음성의 선택을 가능하게 한다. 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 이 스텝은 결과로서 얻어진 오디오 스트림에 포함될 오디오 스트림에서의 음성을 식별하기 위한 그룹 정책을 사용함으로써 수행될 수 있다. 스텝 1406에서의 그룹 정책의 적용에 응답하여, 스텝 1408은 복수의 음성보다 적은 음성을 가진 결과로서 얻어진 오디오 스트림을 만든다(formulate). 이 스텝은 임의의 적합한 방식으로 수행될 수 있다. 예컨대, 적어도 일부의 실시형태에서, 그룹 정책에 의해 식별되지 않는 음성을 배제하는 결과로서 얻어진 오디오 스트립을 만들기 위해 오디오 스트림에 필터가 자동적으로 적용될 수 있다. 결과로서 얻어진 오디오 스트림이 만들어지면, 스텝 1410은 결과로서 얻어진 오디오 스트림을 원격 엔티티로 송신한다. 상기 방법은, 도 11에서의 시나리오 1104와 관련하여 설명된 프로세싱에 관련된다(pertain).

하나 이상의 실시형태에 따른 예시적 방법들을 설명하였고, 이제 상기 하나 이상의 실시형태를 구현하기 위해 사용될 수 있는 예시적 디바이스를 고려한다.

[예시적 디바이스]

도 15는, 여기에 개시되는 기술의 실시형태를 구현하기 위해, 도 1과 도 2를 참조하여 설명한 바와 같은 임의의 타입의 컴퓨팅 디바이스로서 구현될 수 있는 예시적 디바이스(1500)의 다양한 콤포넌트를 나타낸다. 디바이스(1500)는 디바이스 데이터(1504)(예컨대, 수신된 데이터, 수신되고 있는 데이터, 방송을 위해 스케쥴링된 데이터, 데이터의 데이터 패킷 등)의 유선 및/또는 무선 통신을 가능하게 하는 통신 디바이스(1502)를 포함한다. 디바이스 데이터(1504) 또는 다른 디바이스 콘텐츠는 디바이스의 구성 세팅, 디바이스 상에 저장된 매체 콘텐츠, 및/또는 디바이스의 유저와 연관된 정보를 포함할 수 있다. 디바이스(1500)에 저장된 매체 콘텐츠는 오디오, 비디오, 및/또는 이미지 데이터 중 임의의 타입을 포함할 수 있다. 디바이스(1500)는, 유저 선택가능 입력(user-selectable input), 메시지, 음악, 텔레비전 매체 콘텐츠, 기록된 비디오 콘텐츠, 및 임의의 콘텐츠 및/또는 데이터 소스로부터 수신되는 오디오, 비디오, 및/또는 이미지 데이터 중 임의의 다른 타입 등의 데이터, 매체 콘텐츠, 및/또는 입력 중 임의의 타입이 수신될 수 있는 하나 이상의 데이터 입력(1506)을 포함한다.

또한, 디바이스(1500)는 직렬 및/또는 병렬 인터페이스, 무선 인터페이스, 임의의 타입의 네트워크 인터페이스, 모뎀, 및 임의의 다른 타입의 통신 인터페이스 중 임의의 하나 이상으로서 구현될 수 있는 통신 인터페이스(1508)를 포함한다. 통신 인터페이스(1508)는, 디바이스(1500)와 통신 네트워크 사이에 접속 및/또는 통신 링크를 제공하고, 이에 따라 다른 전자 디바이스, 컴퓨팅 디바이스, 및 통신 디바이스가 디바이스(1500)와 데이터를 통신한다.

디바이스(1500)는 디바이스(1500)의 동작을 제어하고 상기 콘텍스트 스위칭 실시형태를 위한 음성 인식을 구현하기 위한 다양한 컴퓨터 실행가능 또는 판독가능 명령어를 프로세싱하는 하나 이상의 프로세서(1510)(예컨대, 임의의 마이크로프로세서, 임의의 컨트롤러 등)를 포함한다. 대안 또는 추가로, 디바이스(1500)는, 1512에서 일반적으로 식별되는 프로세싱 및 제어 회로와의 접속으로 구현되는 고정 논리 회로, 펌웨어, 또는 하드웨어 중 임의의 하나 또는 조합으로 구현될 수 있다. 도시되지는 않았지만, 디바이스(1500)는, 디바이스 내의 다양한 콤포넌트들을 연결하는 데이터 전송 시스템 또는 시스템 버스(system bus)를 포함할 수 있다. 시스템 버스는, 메모리 버스나 메모리 컨트롤러, 주변기기 버스, 범용 직렬 버스(universal serial bus), 및/또는 임의의 다양한 버스 아키텍처(bus architecture)를 사용하는 로컬 버스나 프로세서와 같은 상이한 버스 구조 중 임의의 하나 또는 조합을 포함할 수 있다.

또한, 디바이스(1500)는, 예컨대 RAM(random access memory), 비휘발성 메모리[예컨대, ROM(read-only memory), 플래시 메모리, EPROM, EEPROM 중 임의의 하나 이상], 및 디스크 저장 디바이스를 포함하는 하나 이상의 메모리 콤포넌트와 같은 컴퓨터 판독가능 미디어(1514)를 포함한다. 디스크 스토리지 디바이스는, 하드 디스크 드라이브, 기록가능 및/또는 재기록가능 콤팩트 디스크(CD), 임의의 타입의 DVD(digital versatile disc) 등의 자기 또는 광학 스토리지 디바이스 중 임의의 타입으로서 구현될 수 있다. 또한, 디바이스(1500)는 대량 스토리지 미디어 디바이스(1516)를 포함할 수 있다.

컴퓨터 판독가능 미디어(1514)는, 디바이스(1500)의 동작 양상에 관련된 임의의 다른 타입의 정보 및/또는 데이터와 다양한 디바이스 애플리케이션(1518)뿐만 아니라 디바이스 데이터(1504)를 저장하기 위한 데이터 스토리지 메카니즘을 제공한다. 예컨대, 운영체제(1520)는, 컴퓨터 판독가능 미디어(1514)에 의해 컴퓨터 애플리케이션으로서 유지되고, 프로세서(1510) 상에서 실행될 수 있다. 또한, 디바이스 애플리케이션은 임의의 형태의 콘트롤 애플리케이션(control application), 소프트웨어 애플리케이션, 신호 처리 및 제어 모듈, 특정 디바이스, 특정 디바이스를 위한 하드웨어 추상화 계층 등에 고유한 코드(code)와 같은 디바이스 매니저(device manager)를 포함할 수 있다. 또한, 디바이스 애플리케이션(1518)은 여기에 개시된 기술의 실시형태를 구현하기 위한 임의의 시스템 콤포넌트 또는 모듈을 포함한다. 본 실시예에서, 디바이스 애플리케이션(1518)은 소프트웨어 모듈 및/또는 컴퓨터 애플리케이션으로서 도시된 제스처 캡처(gesture-capture) 드라이버(1524) 및 인터페이스 애플리케이션(1522)을 포함한다. 제스처 캡처 드라이버(1524)는 터치스크린, 트랙 패드, 카메라 등의 제스처를 캡처하도록 구성되는 디바이스와의 인터페이스를 제공하는데 사용되는 소프트웨어의 대표적인 사례이다. 대안 또는 추가로, 인터페이스 애플리케이션(1522) 및 제스처 캡처 드라이버(1524)는 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로서 구현될 수 있다. 추가적으로, 컴퓨터 판독가능 미디어(1514)는 상기한 바와 같이 기능하는 오디오 컨퍼런싱 모듈(1527) 및 웹 플랫폼(1525)를 포함할 수 있다.

또한, 디바이스(1500)는, 오디오 시스템(1528)에 오디오 데이터를 제공하고 그리고/또는 디스플레이 시스템(1530)에 비디오 데이터를 제공하는 오디오 및/또는 비디오 입력-출력 시스템(1526)을 포함한다. 오디오 시스템(1528) 및/또는 디스플레이 시스템(1530)은 오디오, 비디오, 및 이미지 데이터를 프로세싱하고, 디스플레이하고, 그리고/또는 렌더링(rendering)하는 임의의 디바이스를 포함할 수 있다. 비디오 신호 및 오디오 신호는, RF(radio frequency) 링크, S-비디오 링크, 복합 비디오 링크(composite video link), 콤포넌트 비디오 링크(component video link), DVI(digital video interface), 아날로그 오디오 접속 또는 다른 유사한 통신 링크를 통해, 디바이스(1500)로부터 오디오 디바이스 및/또는 디스플레이 디바이스에 통신될 수 있다. 실시형태에서, 오디오 시스템(1528) 및/또는 디스플레이 시스템(1530)은 시스템(1500)에 대한 외부 콤포넌트로서 구현된다. 대안으로서, 오디오 시스템(1528) 및/또는 디스플레이 시스템(1530)은 예시적 디바이스(1500)의 내부 콤포넌트로서 구현된다.

[결론]

다수의 실시형태는 오디오 컨퍼런싱 시스템과 같은 시스템이 오디오 컨퍼런스로부터 원하지 않는 음성을 제거하게 한다. 적어도 일부의 실시형태에서, 오디오 컨퍼런스에 연관된 오디오 신호가 분석되고, 오디오 컨퍼런스 내의 개별 음성을 나타내는 컴포넌트로 분할(split)된다. 오디오 신호가 개별 컴포넌트로 분할되면, 원하지 않는 음성에 대응하는 하나 이상의 개별 컴포넌트를 필터링 아웃하기 위해 제어 엘리먼트가 적용될 수 있다.

구조적 피쳐(feature) 및/또는 방법론적 동작에 대하여 특정한 랭귀지로 실시형태를 설명했지만, 특허청구범위에서 규정된 실시형태는 설명한 특정한 피쳐 또는 동작에 한정될 필요가 없다는 것이 이해될 것이다. 대신 상기 특정한 피쳐 및 동작은 청구된 실시형태를 구현하는 예시적 형태로서 개시된다.

Claims

컴퓨터 구현 방법에 있어서,
복수의 음성을 포함하고 다수의 참여자와의 오디오 컨퍼런스(audio conference) 중에 생성되는 오디오 스트림(audio stream)을 수신하는 단계;
상기 복수의 음성 중 개별 음성 - 상기 개별 음성은 하나 이상의 음성 인식 기술을 사용함으로써 식별됨 - 을 식별하기 위해 상기 오디오 스트림을 프로세싱하는 단계; 및
필터링 동작에 의해, 결과로서 얻어진 오디오 스트림(resultant audio stream)에서의 포함 또는 배제를 위한 상기 복수의 음성 중 하나 이상의 선택을 가능하게 하는 단계
를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 선택을 가능하게 하는 단계는, 상기 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 상기 음성 중 하나 이상을 유저(user)가 선택하게 하는 유저 인터페이스의 형태로 제어 엘리먼트를 제공하는 단계를 포함하는 것인, 컴퓨터 구현 방법.
제1항에 있어서,
상기 음성의 하나 이상의 선택을 수신하는 것에 응답하여, 상기 복수의 음성보다 적은 음성을 갖는 상기 결과로서 얻어진 오디오 스트림을 만드는 단계를 더 포함하는, 컴퓨터 구현 방법.
제3항에 있어서,
상기 오디오 컨퍼런스에서의 한명 이상의 참여자에게 상기 결과로서 얻어진 오디오 스트림을 송신하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 선택을 가능하게 하는 단계는, 상기 오디오 스트림 내의 개별 음성 컴포넌트(component)를 규정하는 제어 데이터를 생성하는 단계를 포함하고, 상기 제어 데이터는 상기 복수의 음성 중 하나 이상을 제거하기 위해 사용될 수 있는 유저 인터페이스의 형태의 제어 엘리먼트의 표시를 가능하게 하는 것인, 컴퓨터 구현 방법.
제5항에 있어서,
상기 가능하게 하는 것에 응답하여, 상기 제어 데이터를 포함하는 상기 결과로서 얻어진 오디오 스트림을 만드는 단계; 및
상기 오디오 컨퍼런스에서의 한명 이상의 참여자에게 상기 제어 데이터를 포함하는 상기 결과로서 얻어진 오디오 스트림을 송신하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 수신하는 단계는, 상기 오디오 스트림을 생성하는 원격 전송 디바이스로부터 상기 오디오 스트림을 수신하는 수신 디바이스에 의해 수행되는 것인, 컴퓨터 구현 방법.
제1항에 있어서,
상기 선택을 가능하게 하는 단계는,
상기 결과로서 얻어진 오디오 스트림에서의 포함을 위한 상기 복수의 음성 중 하나 이상을 규정하는 그룹 정책을 적용하는 단계;
상기 복수의 음성 보다 적은 음성을 갖는 결과로서 얻어진 오디오 스트림을 만드는 단계; 및
상기 오디오 컨퍼런스에서의 한명 이상의 참여자에게 상기 결과로서 얻어진 오디오 스트림을 송신하는 단계
를 포함하는 것인, 컴퓨터 구현 방법.
제1항에 있어서,
상기 오디오 컨퍼런스와 연관된 결과로서 얻어진 오디오 스트림에서의 포함을 위한 하나 이상의 음성을 규정하는 그룹 정책을 수신하는 단계를 더 포함하고,
상기 선택을 가능하게 하는 단계는,
상기 오디오 스트림에 상기 그룹 정책을 적용하는 단계; 및
상기 그룹 정책을 적용하는 것에 응답하여, 상기 복수의 음성보다 적은 음성을 갖는 결과로서 얻어진 오디오 스트림을 만드는 단계; 및
원격 엔티티(entity)로 상기 결과로서 얻어진 오디오 스트림을 송신하는 단계
를 포함하는 것인, 컴퓨터 구현 방법.
하나 이상의 컴퓨터 판독 가능 스토리지 미디어에 있어서,
컴퓨팅 디바이스에 의한 실행에 응답하여, 상기 컴퓨팅 디바이스로 하여금,
복수의 음성을 포함하고 다수의 참여자와의 오디오 컨퍼런스(audio conference) 중에 생성되는 오디오 스트림(audio stream)을 수신하는 동작;
상기 복수의 음성 중 개별 음성 - 상기 개별 음성은 하나 이상의 음성 인식 기술을 사용함으로써 식별됨 - 을 식별하기 위해 상기 오디오 스트림을 프로세싱하는 동작; 및
필터링 동작에 의해, 결과로서 얻어진 오디오 스트림에서의 포함 또는 배제를 위한 상기 복수의 음성 중 하나 이상의 선택을 가능하게 하는 동작
을 포함하는 동작들을 수행하게 하는 명령어들이 저장된,
하나 이상의 컴퓨터 판독 가능 스토리지 미디어.