KR102312124B1

KR102312124B1 - 향상된 오디오를 갖는 디바이스

Info

Publication number: KR102312124B1
Application number: KR1020200055710A
Authority: KR
Inventors: 알렉산더 팬스; 브렛 빌브리; 다비 이. 해드리; 마틴 이. 존슨; 로날드 나딤 이삭
Original assignee: 애플 인크.
Priority date: 2011-07-28
Filing date: 2020-05-11
Publication date: 2021-10-14
Also published as: US10402151B2; KR20130139210A; KR20130015000A; US10771742B1; KR20200053459A; KR101474605B1; WO2013015974A1; TW201308199A; US11061643B2; KR20190040155A; US11640275B2; TWI473009B; JP2013048412A; EP2551763A1; CN109587533A; US20200389623A1; US20130028443A1; US20210334066A1; CN102902505B; JP5675729B2

Abstract

컴퓨터 및 출력 디바이스를 포함하는 오디오 향상 시스템. 컴퓨터는, 컴퓨터에 대한 사용자 위치를 판정하도록 구성된 센서를 포함한다. 센서는 또한, 컴퓨터의 환경에 대응하는 환경 데이터를 수집하도록 구성된다. 컴퓨터는 또한, 센서와 통신하는 프로세서를 포함하고, 사용자 위치와 환경 데이터를 처리하고 오디오 출력 또는 비디오 출력 중 적어도 하나를 조정하도록 구성된다. 출력 디바이스는 프로세서와 통신하며, 오디오 출력 또는 비디오 출력 중 적어도 하나를 출력하도록 구성된다.

Description

향상된 오디오를 갖는 디바이스{DEVICES WITH ENHANCED AUDIO}

본 발명은 일반적으로 전자 디바이스들에 관한 것으로서, 구체적으로는 전자 디바이스들에 대한 오디오 출력에 관한 것이다.

컴퓨터, 이동 전화, 오디오 플레이어, 랩톱, 태블릿 컴퓨터, 텔레비전과 같은 전자 디바이스들(이하 "전자 디바이스"라고 함)은, 통상적으로 통합된 오디오 출력 디바이스(예컨대, 스피커)를 갖거나, 또는 오디오 출력 디바이스와 통신가능할 수 있다. 또한, 많은 전자 디바이스들은, 비주얼 또는 비디오 출력 디바이스를 포함하거나, 또는 비디오 디스플레이 디바이스와 통신할 수 있다.

많은 오디오/비주얼 출력 디바이스들은, 오디오 출력이 환경, 주변, 상황, 프로그램, 및/또는 환경에 따라 조정될 수 있으면, 향상된 오디오 또는 비디오 출력을 가질 수 있다. 그러나, 많은 오디오 및 비디오 출력 디바이스들은, 특정 출력을 변경하기 위해 사용자 입력 또는 상호작용이 필요할 수 있고, 또는 다양한 출력 세팅들을 갖지 않을 수 있다. 이러한 예들에서, 오디오 및/또는 비디오 출력은, 특정한 환경, 프로그램, 상황 등에 대한 최상 품질의 사운드 또는 이미지들을 수행하지 않거나 출력하지 않을 수 있다.

본 개시물의 예들은, 컴퓨팅 디바이스로부터 오디오를 출력하는 방법의 형태를 취할 수 있다. 본 방법은, 센서가 사용자를 검출하는 단계를 포함할 수 있다. 사용자가 검출되면, 그 사용자가 오디오 출력 디바이스의 현재 오디오 출력에 대한 최적의 범위인지를 프로세서가 판정한다. 사용자가 최적의 범위에 있지 않는 경우라면, 프로세서는 오디오 출력을 변경한다. 또한, 센서는, 사용자가 컴퓨팅 디바이스 쪽으로 향해 있는지를 판정한다. 사용자의 방향에 기초하여, 프로세서는 오디오 디바이스를 조정한다.

본 개시물의 다른 예들은, 컴퓨터용 오디오를 향상시키는 방법의 형태를 취할 수 있다. 이 방법은, 컴퓨터에 대한 사용자의 위치를 센서가 판정하는 단계를 포함할 수 있다. 사용자 위치가 판정되면, 센서는 컴퓨터의 환경에 대응하는 환경 데이터를 수집할 수 있다. 그리고 나서, 프로세서는 환경 데이터와 사용자 위치의 오디오/비주얼 세팅 뷰(setting view)를 조정한다.

본 개시물의 또 다른 예들은, 컴퓨터와 출력 디바이스를 포함하는, 오디오 향상 시스템의 형태를 취할 수 있다. 컴퓨터는, 컴퓨터에 대한 사용자의 위치를 판정하도록 구성된 센서를 포함한다. 센서는 또한, 컴퓨터의 환경에 대응하는 환경 데이터를 수집하도록 구성된다. 컴퓨터는 또한, 센서와 통신하고, 사용자 위치와 환경 데이터를 처리하고, 오디오 출력 또는 비디오 출력 중 적어도 하나를 조정하도록 구성된 프로세서를 포함하다. 출력 디바이스는, 프로세서와 통신하고, 오디오 출력 또는 비디오 출력 중 적어도 하나를 출력하도록 구성된다.

도 1a는 오디오 출력을 향상하는 시스템을 도시하는 도면.
도 1b는 도 1a의 시스템의 컴퓨터에 대한 블록도.
도 1c는 네트워크를 통해 제2 컴퓨터와 통신하는 컴퓨터를 도시하는 도면.
도 2는 선택된 오디오 및 비디오 처리 경로들이 도시된 도 1a의 시스템의 블록도.
도 3은 사용자 위치 및 포지션에 기초하여 오디오 출력을 조정하는 예시적인 방법을 도시하는 흐름도.
도 4는 오디오 및/또는 비디오 출력을 향상하는 예시적인 방법의 흐름도.
도 5a는 다수의 사람이 참여하는 화상 회의를 디스플레이하는 컴퓨터의 도면.
도 5b는 제2 컴퓨터에 의해 캡쳐되는, 도 5a의 컴퓨터에 디스플레이되는 사용자들을 위에서 본 도면.
도 5c는 사람 A 및 사람 B의 오디오 및 비디오가 향상된, 도 5a의 컴퓨터의 도면.
도 6은, 도 5a-5c에 도시된 바와 같은, 화상 회의 세션 동안 특정 사람의 오디오 및/또는 비디오를 향상시키는 예시적인 방법을 도시하는 흐름도.
도 7a는 인스턴트 메시징, 음성, 또는 화상 채팅 프로그램이 실행 중이고, 다수의 인스턴스를 디스플레이하는, 컴퓨터의 도면.
도 7b는 도 7a의 다수 오디오/비디오 인스턴스에 대응하는 오디오 A, B, C, D에 대한 오디오 방향을 나타내는 도면.
도 8은 특정 오디오/비디오 인스턴스의 오디오를 내보내기 위한(direct) 예시적인 방법을 도시하는 흐름도.

개요

본원의 일부 실시예들에서, 본 개시물은, 활성 애플리케이션, 사용자 상호작용, 및 환경 파라미터와 같은 하나 이상의 기준에 기초하여, 전자 디바이스로부터의 오디오 출력을 향상시키기 위한 방법의 형태를 취할 수 있다. 본 방법은 또한, 상당한(있는 경우) 활성 사용자 상호작용 없이 사용자 입력을 제공하는 단계를 포함할 수 있다. 달리 말하면, 사용자가 물리적으로 또는 일부러 시스템에 사용자 입력을 입력시킬 필요가 없도록, 사용자 입력을 내삽(interpolate)하는 이미징 디바이스 또는 센서를 필요로 할 수 있다. 이것은, 오디오 출력 디바이스가 상이한 사용자 파라미터들에 동적으로 조정되는 것을 가능하게 하여, 사용자로부터의 직접적인 적극적 입력 없이도 오디오 출력을 향상시킨다.

일 실시예에서, 시스템은 화상 회의 또는 채팅을 위한 오디오 출력을 향상시킬 수 있다. 일부 사용자들은, 한 그룹의 사람들과 대화하기 위해 화상 회의를 사용할 수 있다. 예를 들면, 여행 중인 아버지나 어머니가, 아이 및 배우자를 포함한 가족 전체와 화상 회의를 할 수 있다. 이러한 그룹의 사람들에서, 일부 사람들은 컴퓨터로부터 가깝게 또는 멀리 위치할 수 있다. 또한, 한 번에 다수의 상이한 사람이 이야기를 할 수 있다. 화상 회의 동안, 수신단에서의 사용자는 각 사람이 무엇을 말하는지 판정하는데 어려움을 겪을 수 있는데, 특히 한 번에 다수의 사람들이 말을 할 때 그러하다.

시스템은, 상이한 사용자들의 이미지들을 캡쳐할 수 있고(예컨대, 비디오 카메라를 통해), 수신측 사용자는 특정 사용자에 대한 오디오를 향상시킬 수 있다. 예를 들면, 수신측 사용자는, 포커싱되기 원하는 특정 사용자의 이미지를 탭할 수 있고(또는 이와는 달리 사용자를 선택하거나 가리킬 수 있음), 시스템은 디지털적으로 오디오를 향상시킬 수 있을 뿐만 아니라, 사용자의 오디오 입력을 더 잘 캡쳐하기 위해 사용자 쪽으로 마이크로폰을 향하게 할 수 있다. 일 실시예에서, 시스템은, 디스플레이 스크린의 주변 근처에 일정한 간격으로 배치된 다수의 마이크로폰을 갖는 컴퓨터를 포함할 수 있고, 특정 마이크로폰들은 켜질 수 있고/꺼질 수 있을 뿐만 아니라 원하는 오디오 신호를 최상으로 캡처하기 위해 회전될 수 있다.

유사하게, 시스템은 또한 마이크로폰을 향하게 하고, 오디오를 향상시키며 및/또는 말하고 있는 사람에게 비디오 이미지를 포커싱하도록 구성될 수 있다. 입 추적 또는 음성 인식이, 말하고 있는 특정 사용자에게 오디오 및/또는 비디오를 포커싱하기 위해 사용될 수 있다. 이는 또한, 사용자가 말하는 것을 더 잘 들을 수 있도록, 사용자로 하여금 오디오 데이터 스트림을 수신하는 것을 가능하게 해 준다(예컨대, 시스템의 전송 사용자). 따라서, 사용자의 오디오 또는 비디오 이미지들 중 하나 혹은 양자 모두의 향상 특성은, 자동적일 것이며(예컨대, 입 추적 또는 음성 인식에 기초하여), 또는 사용자 입력에 기초할 수 있다(예컨대, 사용자는 포커스 영역의 사용자를 선택할 수 있다).

출력 오디오 품질은, 적어도 부분적으로 환경에 의존할 수 있다. 예를 들면, 반향 제거(echo cancellation)가 필요할 수 있고, 및/또는 공간(room)의 크기 및 음향상태에 영향을 받을 수도 있다. 출력 오디오의 품질에 영향을 미칠 수 있는 2개의 인자에는, 공간의 치수 및 반향 특성(reverberant qualities)들이 포함될 수 있다. 일 실시예에서, 시스템은, 오디오 출력 디바이스에 대한 사용자의 위치(location), 오디오 출력 디바이스에 대한 사용자의 포지션(position)(예컨대, 정면으로 마주보는지 또는 얼굴을 돌렸는지) 및 환경 입력들(예컨대, 공간의 크기, 공간의 반향, 온도 및 등등)에 따라 오디오 출력을 조정하도록 구성될 수 있다. 사용자의 입력에는, 공간 내의 사용자의 위치, 사용자가 오디오 출력 장치를 마주보고 있는지 여부 등이 포함될 수 있다. 또한, 시스템은, 사용자 및 환경 입력들 뿐만 아니라, 컴퓨터나 오디오 출력 디바이스가 현재 실행중인 애플리케이션에 기초하여, 오디오 출력을 변경할 수 있다. 예를 들면, 그 애플리케이션이 전화 통화라면, 응답은 음악 플레이어 애플리케이션과 비교하여 변경될 수 있다.

다양한 실시예들에서, 시스템은 비디오, 오디오, 및 환경 센서들을 포함할 수 있다. 예를 들면, 이미지 센서(예컨대, 카메라), 깊이 센서(초음파, 적외선, 무선 주파수 등등) 등이 사용될 수 있다. 또한, 원하는 출력은 컴퓨터에 대한 사용자의 위치, 예컨대 큰 공간에서 사용자가 컴퓨터로부터 멀리 떨어져 있는 경우 대 작은 공간에서 사용자가 컴퓨터에 가까이 있는 경우에 기초하여 변경될 수 있다. 예를 들면, 물체가 사용자로부터 멀리 떨어져 위치하는 것으로 비디오에서 제시될 때, 특정 물체(또는 사용자)의 출력 오디오는, 그 물체가 멀리 있더라도 사용자에게 들리도록 변할 수 있다. 이러한 구현예에서, 사용자의 전체적인 오디오/비주얼 경험을 향상시키기 위해, 원거리 이미지의 로컬 오디오에 대한 깊이가 제공될 수 있다.

또 다른 실시예들에서, 시스템은 사용자에 기초하여 출력 오디오를 조정하도록 구성될 수 있다. 남자, 여자, 및 아이들은 모두 상이한 청각 스펙트럼을 가질 수 있고, 일반적으로 여자는 남자보다 더 잘 들을 수 있고, 아이는 남자 또는 여자 성인보다 더 잘 들을 수 있다. 본 시스템은, 특정 사용자에 따라 출력 오디오를 변경하기 위해, 음성 또는 얼굴 인식, 혹은 다른 성별 인식 기술을 사용할 수 있다.

예시적인 시스템

예시적인 실시예에서, 본 개시물은, 사용자를 위해 향상된 오디오 경험을 제공하는 시스템의 형태를 취할 수 있다. 도 1a는 향상된 오디오를 제공하기 위한 예시적 시스템(100)의 블록도이다. 시스템(100)은, 컴퓨터(102) 또는 다른 전자 디바이스 및 오디오 출력 디바이스들(106, 110)을 포함할 수 있다(오디오 출력 디바이스들은 컴퓨터(102)와 통합되거나 별개일 수 있으며, 또는 양자의 조합일 수도 있다). 컴퓨터(102)는 실질적으로 프로세싱 능력을 갖는 임의 형태의 전자 디바이스일 수 있으며, 이에는 랩탑, 태블릿, 스마트 폰, 오디오 플레이어, 및 텔레비전 등이 포함되지만 이러한 예로만 한정되는 것은 아니다. 이러한 실시예에서, 컴퓨터(102)는 외부 오디오 출력 디바이스(110) 및 통합 오디오 출력 디바이스(106)와 통신한다. 그러나, 일부 예들에서, 시스템(100)은 단일의 오디오 출력 디바이스(106, 110)을 포함할 수 있거나, 다수의 다른 오디오 출력 디바이스들(예컨대, 서라운드 사운드 5 스피커 시스템)을 포함할 수 있다는 것을 주의해야 한다. 오디오 출력 디바이스들(106, 110)은, 스피커 또는 스피커 세트, 헤드폰, 또는 전자 신호에 응답하여 소리를 만들 수 있는 다른 디바이스일 수 있다.

오디오 디바이스들(106, 110)은, 실질적으로 컴퓨터(102) 상에 및/또는 컴퓨터 주변(102)의 어느 곳에도 위치할 수 있다. 오디오 디바이스들(106, 110)의 타입, 파워, 구조는, 컴퓨터(102)로부터 생성된 오디오 품질에 영향을 미칠 뿐만 아니라, 최상의 소리를 만들기 위해 필요할 수 있는 다양한 소프트웨어의 변경들에도 영향을 미칠 수 있다.

도 1b는 예시적인 컴퓨터(102)의 블록도이다. 컴퓨터(102)는, 프로세서(118), 네트워크/통신 인터페이스(120), 입력/출력 인터페이스(126), 비디오 입력/출력 인터페이스(128), 센서들(124), 메모리(130), 오디오 입력/출력 인터페이스(132), 비디오 센서(134), 및/또는 마이크로폰(136)을 포함할 수 있다. 다양한 컴퓨터(102) 컴포넌트들은, 시스템 버스(122)를 통해 (또는 다수의 시스템 버스들을 통해) 서로 전기적으로 연결될 수 있다. 임의의 다양한 컴포넌트들이 생략되거나 및/또는 결합될 수 있다는 것에 주의해야 한다. 예를 들면, 비디오 입력/출력 인터페이스(128)는, 오디오 입력/출력 인터페이스(132) 및 일반적인 입력/출력 인터페이스(126) 중 하나 또는 양자 모두와 결합될 수 있다. 또한, 컴퓨터(102)는, 도시되지 않은 추가적인 로컬 또는 원격 컴포넌트들을 포함할 수 있다; 그리도 도 2는 단시 예시적인 것으로만 의도된다.

프로세서(118)는, 컴퓨터(102) 및 컴퓨터의 다양한 컴포넌트들의 동작을 제어할 수 있다. 프로세서(118)는, 실질적으로 명령어들을 수신 및/또는 전송할 수 있는 프로세서의 능력을 갖는 임의의 전자 디바이스일 수 있다. 예를 들면, 프로세서(118)는, 마이크로프로세서 또는 마이크로컴퓨터일 수 있다.

네트워크/통신 인터페이스(120)는, 다양한 전자 신호들을 수신 및 전송할 수 있다. 예를 들면, 네트워크/통신 인터페이스(120)는, 네트워크를 통해 다른 컴퓨터들 혹은 전자 디바이스에게 및/또는 이들로부터 신호들을 전송 및 수신하기 위해, 컴퓨터(102)를 네트워크에 연결시키는데 사용될 수 있다. 네트워크/통신 인터페이스(120)는 또한, 무선 또는 유선 접속(인터넷, 와이파이, 블루투스, 이더넷, USB, 파이어와이어를 포함하지만 이들로만 제한되지는 않음)을 통해 전자 신호들을 전송 및 송신하는데 사용될 수 있다.

메모리(130)는 컴퓨터(102)가 사용할 수 있는 전자 데이터를 저장할 수 있다. 예를 들면, 메모리(130)는 임의의 타입의 컨텐트를 포함하는 전자 데이터를 저장할 수 있는데, 이러한 컨텐트에는 오디오 파일, 비디오 파일, 문서 파일, 및 데이터 파일이 포함되지만 이들로만 제한되지는 않는다. 저장 데이터는, 하나 이상의 다양한 애플리케이션 및/또는 컴퓨터의 동작에 대응할 수 있다. 메모리(130)는, 일반적으로 비휘발성 저장소, 자기적 저장 매체, 광학 저장 매체, 자기 광학 저장 매체, 전기적 저장 매체, 판독 전용 메모리, 랜덤 액세스 메모리, 소거가능하고 프로그램가능한 메모리, 및 플래쉬 메모리 등을 포함하는 임의의 포맷일 수 있지만, 꼭 이러한 예들로만 제한되는 것은 아니다. 메모리(130)는 컴퓨터(102)에 로컬로 및/또는 컴퓨터로부터 원격으로 제공될 수 있다.

다양한 입력/출력 인터페이스들(126, 128, 132)은, 입력/출력 디바이스들에의 그리고 이들 디바이스들로부터의 통신을 제공할 수 있다. 예를 들면, 오디오 입력/출력 인터페이스(132)는, 오디오 디바이스들(106, 110)에게 그리고 이들로부터 입력 및 출력을 제공할 수 있다. 유사하게, 비디오 입력/출력 인터페이스(128)는, 디스플레이 디바이스(예컨대, 컴퓨터 모니터, 디스플레이 스크린, 또는 텔레비전)에게 입력 및 출력을 제공할 수 있다. 또한, 일반적인 입력/출력 인터페이스(126, 128, 132)는 제어 버튼들, 스위치들 등등으로부터 입력을 수신할 수 있다. 일부 실시예들에서, 입력 인터페이스들은 결합될 수 있다. 예를 들면, 입력/출력 인터페이스들(126, 128, 132)은, 사용자(예컨대, 키보드, 터치 감지 표면, 마우스, 가청 입력 또는 다른 디바이스를 통해), 컴퓨터(102) 상의 제어 버튼들(예컨대, 파워 버튼, 볼륨 버튼) 등등으로부터 데이터를 수신할 수 있다. 또한, 입력/출력 인터페이스(112)는, 외부 드라이브, 예컨대 범용 직렬 버스(USB) 또는 다른 비디오/오디오/데이터 입력들에게 그리고 이들로부터 데이터를 수신/전송할 수도 있다.

도 1c에 도시된 바와 같이, 일부 예들에서, 컴퓨터(102)는 네트워크(138)를 통해 제2 컴퓨터(103)와 통신할 수 있다. 또한, 도 1c에 도시된 바와 같이, 일부 예들에서, 컴퓨터(102)는 네트워크(140)를 통해 제2 컴퓨터(103)(또는 서버) 또는 또 다른 컴퓨터에 연결될 수 있다. 예를 들면, 컴퓨터(102)는 회의 또는 채팅 애플리케이션을 위해 제2 컴퓨터(103)와 연결될 수 있다. 또한, 컴퓨터(102)는 제2 컴퓨터(103)로부터 스트리밍 오디오 및/또는 비디오를 수신할 수 있다.

네트워크(138)는, 제1 컴퓨터(102) 및 제2 컴퓨터(103) 사이에 전자 통신을 제공한다. 네트워크(138)는, 실질적으로 임의 타입의 전자 통신 메카니즘/경로일 수 있고, 무선, 유선 또는 유선과 무선의 결합일 수 있다. 네트워크(138)는, 인터넷, 이더넷, 범용 직렬 버스(USB) 케이블, 또는 무선 신호(예컨대, 와이파이, 블루투스)를 포함할 수 있다.

마이크로폰(136)은, 컴퓨터(102)에 통합되거나 별도로 부착될 수 있고, 프로세서(118)와 통신할 수 있다. 마이크로폰(136)은, 음향 대 전기 전송기이며, 오디오 입력을 수신하고 그 오디오에 대응하는 전기 출력을 생성하도록 구성된다. 컴퓨터(102)에 다수의 마이크로폰(136)이 통합될 수 있거나, 그 외에 컴퓨터(102)와 통신할 수 있다. 예를 들면, 일부 구현예들에서, 컴퓨터(102) 주변의 다양한 위치에 배치된 다수의 마이크로폰들의 마이크로폰 어레이가 있을 수 있다.

비디오 센서(134)는 비디오 또는 이미지 캡쳐 디바이스(들)일 수 있다. 비디오 센서(134)는, 컴퓨터(102) 내에 통합될 수 있고(예컨대, 컴퓨터(102)의 인클로저에 연결됨), 및/또는 컴퓨터(102) 외부에 위치하고 컴퓨터(102)와 통신할 수 있다. 비디오 센서(134)는, 화상 회의/채팅과 같은 다양한 애플리케이션들에 사용될 수 있는 비디오 및 스틸 이미지를 캡쳐하는데 사용될 수 있다.

도 2는, 입력에서 출력으로의 예시적인 오디오/비디오 프로세싱 경로들을 도시하는 시스템(100)의 블록도이다. 도 1a, 도 1b, 및 도 2를 참조하면, 시스템(100)은 다양한 센서들 같에 통신을 하여 오디오 및 비디오 출력을 향상시키고 조정할 수 있다. 비디오 센서(134)는, 프로세서(118)에 비디오 입력을 제공할 수 있고, 여러 종류의 센서들(124)은, 사용자 및 환경 데이터를 프로세서(118)에 제공할 수 있고, 오디오 입력(132)은, 입력 오디오를 프로세서(118)에 제공할 수 있다. 프로세서(118)는, 다양한 입력들을 별개로 또는 공동으로 처리할 수 있고, 비디오 및 오디오 출력을 조정하여 스피커(110) 및/또는 디스플레이(104)에 제시할 수 있다.

일 실시예에서, 비디오 센서(134), 센서들(124) 및 오디오 입력(132)은, 컴퓨터(102)의 사용자 및/또는 환경(예컨대, 공간, 주변)에 관한 이미지 데이터를 제공할 수 있다. 그후에, 프로세서(118)는, 스피커(110)에 제공되는 오디오 출력 특성들을 향상 또는 변경하여 향상된 오디오 경험을 제공할 수 있다. 오디오 출력이 사용자에게 들릴 수 있는 방식은, 오디오 출력 장치와 관련하여 사용자가 어디에 위치하는지 뿐만 아니라 공간 또는 환경의 특성에 의존하거나 그에 의해 영향을 받을 수 있다. 오디오 특성 또는 설정들이 변경되지 않으면, 제1 공간에서 특정 사운드를 가질 수 있는 오디오 신호는 제2 공간에서는 아주 상이하게 들릴 수 있다. 예를 들면, 제1 공간이 제2 공간보다 작은 경우, 또는 제1 공간이 카페트를 갖고 있고 제2 공간이 나무로 된 바닥재를 갖는 경우가 그러하다.

그러므로, 비디오와 이미지 입력 그리고 오디오 입력(132)(예컨대, 반향 특성, 컴퓨터(102)에 대한 사용자의 위치, 컴퓨터(102)에 대한 사용자의 방향)을 수신한 후에, 오디오 및 비디오 출력은 프로세서(118)에 의해 향상될 수 있다. 이에 의해, 컴퓨터(102)가 오디오 및/또는 비디오를 조정하여 사용자 및/또는 환경에 최상으로 적응시키게 할 수 있다.

도 2에 도시된 바와 같이, 프로세서(118)는 이미지 프로세싱 유닛(142), 사용자/환경 인터페이스 프로세싱 유닛(144), 오디오 프로세싱 유닛(146), 출력 프로세싱 유닛(145)과 같은 별도의 프로세싱 유닛들을 포함할 수 있다. 이러한 프로세싱 유닛들(142, 144, 145, 146)은 프로세서(118)에 통합될 수도 있고, 별개의 장치들이 될 수도 있다. 각 프로세싱 유닛(142, 144, 145, 146)은, 센서들로부터 출력을 수신하기 위해서, 그리고 또한 센서 입력들을 조정하기 위해서 특정 센서와 통신할 수 있다. 예를 들면, 오디오 프로세싱 유닛(146)은, 사용자의 음성을 더 잘 캡쳐하기 위해서, 마이크로폰(136)을 말하고 있는 특정 사용자쪽으로 향하게 하거나 조정할 수 있다. 유사하게, 이미지 프로세싱 유닛(142)은, 비디오 센서(134)를 특정 사용자에게 포커싱하거나 줌잉할 수 있다. 또 다른 예들에서, 사용자/인터페이스 프로세싱 유닛(144)은, 특정 센서들(124)에게 추가 환경/사용자 데이터를 수집하라고 지시할 수 있다. 또한, 출력 프로세싱 유닛(145)은, 오디오 신호를 전-처리(예컨대, 잡음 주파수들을 감소시키고, 특정 주파수들을 향상시키는 것 등등)하고, 오디오 레벨의 에러를 정정하고, 특정 레벨의 라우드니스(loudness)를 조정(예컨대, 오디오 출력을 이퀄라이징하는 것)하고, 반향 제거하기 위한 주파수 필터들, 및 피킹 필터(peaking filter) 등을 포함할 수 있다.

사용자 위치 및 포지션에 기초한 오디오 출력 조정

도 3은, 사용자 위치 및 포지션에 기초하여 오디오 출력을 조정하는 예시적인 방법(200)을 도시하는 흐름도이다. 본 방법(200)은, 동작 202에서 시작할 수 있고, 컴퓨터(102)는 사용자 또는 사용자들을 검출할 수 있다. 컴퓨터(102)는, 센서들(124)을 이용하여 모션 캡쳐를 할 수 있고, 비디오 센서(134)를 이용하여 이미지를 캡쳐 및 분석할 수 있으며(예컨대 얼굴 인식), 또는 오디오 센서들(132)을 이용하여 사용자나 사용자들에 의한 잡음을 캡쳐할 수 있다.

사용자 또는 사용자들이 검출되면, 방법(200)은 동작 204로 진행할 수 있고, 컴퓨터(102)는 현재 오디오 출력 설정 및 스피커(110) 배치에 기초하여 사용자 또는 사용자들이 최적 범위에 있는지를 판정할 수 있다. 예를 들면, 컴퓨터(102)는 다양한 센서를 활용하여 사용자 위치를 판정할 수 있다. 컴퓨터(102)는, 사용자의 존재를 검출하기 위해 동일한 센서들 및 방법들을 활용하여, 컴퓨터(102) 및/또는 스피커(110)에 대한 사용자의 위치를 판정할 수 있다. 사용자 위치의 검출은 추정 또는 단일 입력일 수 있는데, 예컨대, 컴퓨터(102)는 단순히 사용자가 컴퓨터(102)의 전면에 똑바로 있지 않은지를 검출할 수 있고, 또는 그 검출은 더욱 세밀할 수 있으며, 컴퓨터(102)는 더욱 진보된 센싱 기술을 이용하여 컴퓨터(102)에 대한 사용자의 대략적인 위치를 판정할 수 있다.

사용자의 위치가 판정되면, 컴퓨터(102)는 사용자의 위치를 현재 오디오 출력 설정과 비교하여, 오디오가 사용자의 포지션에 기초한 최적 범위 내에 있는지 여부를 판정할 수 있다. 일례로서, 사용자가 컴퓨터(102)로부터 수 야드 떨어져 위치하고, 사용자가 스피커(110) 또는 컴퓨터(102) 바로 앞에 않아 있을 때처럼 출력하도록 오디오가 구성된 경우, 오디오는 조정될 필요가 있을 수 있다. 오디오는 사용자를 위해 조정될 수 있는데, 이에 따라 볼륨이 증가될 수 있고, 외부 스피커(110)가 턴 온되고 내부 스피커(106)가 턴오프될 수 있고, 서라운드 사운드가 "스크린 채널" 설정에서 서라운드 사운드 포맷으로 스위칭될 수 있고, 또는 서라운드 사운드 채널이 내부 스피커에서 외부 스피커로 재지향되고 왼쪽 서라운드 채널과 오른쪽 서라운드 채널로 재지향될 수 있다. 한편, 오디오가 이미 거리 환경에 따라 조정되거나 구성되었다면, 오디오가 사용자 위치에 기초하여 조정될 필요가 없을 수도 있다.

오디오가 사용자 위치에 최적으로 적합하도록 조정될 필요가 있다면, 방법(200)은 동작 206으로 진행할 수 있다. 동작 206은 사용자 위치에 기초하여 오디오를 조정할 수 있다. 사용자가 컴퓨터(102) 또는 스피커(106, 110)로부터 떨어져 위치하는 경우, 컴퓨터(102)는 외부 스피커(110)를 활성화하고 내부 스피커(106)를 턴 오프할 수 있다. 예를 들면, 외부 스피커(110)는 서라운드 사운드 스피커 어레이의 일부분을 형성할 수 있고, 따라서 내부 컴퓨터 스피커(106)와 비교할 때 더 나은 "공간" 사운드 경험을 제공할 수 있다. 유사하게, 사용자가 컴퓨터(102)의 바로 앞에 있다면, 컴퓨터(102)는 내부 스피커(106)가 활성화되도록 오디오를 조정할 수 있다.

또한, 컴퓨터(102)가 볼륨, 베이스, 트레블, 주파수 밴드 레벨을 포함하여 다양한 오디오 설정을 조정할 수 있지만 꼭 이들에만 한정되는 것은 아니다. [발명자들 - 조정될 수 있는 다른 특성들이 존재하는가?]. 이것은, 오직 한 세트의 스피커(106, 110)만이 존재하고 및/또는 스피커(106, 110)가 조정되지 않을 수 있는 경우라도, 오디오 신호가 조정될 수 있게 해 준다.

오디오가 사용자 위치에 기초하여 조정되면, 또는 사용자가 이미 오디오 범위 환경에 있기 때문에 동작 204에서 오디오가 조정될 필요가 없는 경우, 방법(200)은 동작 208로 진행할 수 있다. 동작 208에서, 실시예는 사용자가 컴퓨터(102)를 향해 있는지 여부를 판정한다. 이것은, 사용자가 컴퓨터(102)로부터 먼 거리에 위치하는 경우 (강력한 센서 없이는) 사용자가 컴퓨터(102)를 향하고 있는지를 판정하는 것이 어려울 수 있기 때문에, 옵션 동작일 수 있다. 그러나, 다른 실시예들에서, 사용자가 상대적으로 컴퓨터(102)에 가깝거나 또는 시스템(100)이 적절한 센서를 포함하는 경우라면, 컴퓨터(102)는 컴퓨터(102)에 대한 사용자의 각 방향을 판정할 수 있다. 또한, 일부 실시예들에서, 스피커(106, 110)에 대한 사용자의 방향이 판정될 수 있다는 것을 알아야 한다. 이것은 컴퓨터(102)에 대한 스피커(106, 110)의 위치를 비교하기 위해 컴퓨터(102)에 대한 사용자의 방향을 구현함으로써 또는 스피커(106, 110)에 센서를 포함함으로써 행해질 수 있다.

동작 208에서, 컴퓨터(102)는 비디오 센서(134)를 통해 사용자의 이미지를 캡쳐하거나 또는 제공할 수 있다. 이미지 프로세싱 유닛(146)은, 사용자 눈의 시선을 추적하는 시선 추적(gaze tracking), 얼굴 인식 또는 컴퓨터(102)에 대한 사용자 머리의 방향을 판정할 수 있는 다른 유사한 방법을 사용할 수 있다. 컴퓨터(102)에 대한 사용자의 방향이 판정되면, 방법(200)은 동작 210으로 진행될 수 있다.

동작 210은 새로운 사용자의 위치에 맞추기 위해, 오디오 출력 디바이스를 조정하고 선택적으로 사용자 입력 디바이스를 조정한다. 예를 들면, 컴퓨터(102)는 스피커(106, 110) 및/또는 오디오 신호를 변경하여 사용자의 방향에 더 잘 적응시킬 수 있다. 또한, 사용자가 (예컨대 전화 통화, 비디오 채팅, 구술(dictation)을 위해)마이크로폰(136)을 이용하고 있었다면, 컴퓨터(102)는 마이크로폰(136)을 사용자 입의 방향으로 향하게 할 수 있다. 동작 210 이후에, 컴퓨터(102)는 오디오 신호를 스피커(106, 110)에 제공할 수 있다.

사용자 또는 프로그램에 기초한 향상

다른 실시예들에서, 시스템(100)은 사용자 및/또는 프로그램 선호(preferences)에 따라 오디오 및/또는 비디오 출력을 향상시키기 위해 사용될 수 있다. 도 4는, 오디오 및/또는 비디오 출력을 향상시키는 예시적인 방법(300)의 흐름도이다. 방법(300)은 동작 302에서 시작될 수 있고, 컴퓨터(102)는 컴퓨터(102)를 사용하는 특정 사용자를 판정할 수 있다. 동작 302는, 사용자가 사용자 이름 및/또는 패스워드를 입력할 수 있는 스타트업시에 결정될 수 있다. 대안적으로 또는 추가적으로, 컴퓨터(102)는 다른 방식(예컨대, 디폴트 사용자, 보안 시스템, 얼굴 인식 또는 기타 등)으로 디바이스를 이용하는 사용자를 판정할 수 있다. 사용자가 판정된 이후에, 방법(300)은 동작 304로 진행될 수 있고, 사용자(또는 컴퓨터(102))는 특정 애플리케이션을 시작할 수 있다. 애플리케이션은 화상 회의/채팅 프로그램, 음악 플레이어, 비디오 플레이어, 등일 수 있다. 애플리케이션은 오디오 및/또는 비디오/이미지 양태들을 포함할 수 있다.

애플리케이션이 실행된 후, 또는 애플리케이션이 실행되는 동안, 방법(300)은 동작 306으로 진행될 수 있다. 동작 306은, 컴퓨터(102)의 오디오 및/또는 비디오 설정, 스피커(106, 110) 및/또는 디스플레이 디바이스(104)가 특정 애플리케이션을 위해 구성되는지 여부를 판정한다. 예를 들면, 컴퓨터(102)의 오디오 설정 및 스피커(106, 110)가 음악을 재생하도록 구성될 수 있는 반면에, 실행되는 애플리케이션은 화상 회의 또는 원격 회의 프로그램일 수 있다. 이러한 예에서, 오디오 및 스피커(106, 110)는, 음악 주파수가 아닌 음성 주파수 또는 다른 특성들을 더 잘 수용하도록 조정될 수 있다. 예를 들면, 음성 주파수는 일반적으로 음악 주파수와 비교할 때 저주파이고 더 좁은 범위를 가질 수 있으며, 음악 주파수는 더 넓을 수 있고, 더 넓은 범위를 포함할 수 있다. 따라서, 사람들이 말하는 것이 오디오의 대부분이라면, 그 오디오는 적은 범위의 음성 주파수만이 향상되도록 밴드 패스 필터를 통해 처리될 수 있다. 유사하게, 오디오가 음악이라면, 오디오는 모든 주파수 범위들이 출력될 수 있도록, 필터링되지 않거나 또는 잡음 필터들을 포함할 수 있다.

동작 306에서, 컴퓨터(102)가 오디오 또는 비디오 설정 또는 출력 디바이스들(스피커(106, 110), 디스플레이(104))이 조정될 필요가 있다고 판정하면, 방법(300)은 동작 308로 진행한다. 동작(308)은 관계되는 출력 신호, 설정 및/또는 출력 디바이스를 조정하여 특정 애플리케이션에 더 잘 상관시킨다.

오디오 및/또는 비디오가 특정 애플리케이션을 위해 구성되었다면, 방법(300)은 동작 310으로 진행될 수 있다. 동작 310은 사용자가 사전 저장된 선호들을 갖는지 여부를 판정한다. 컴퓨터(102)는, 동작 302에서 컴퓨터(102)를 활용하는 것으로 판정된 특정 사용자에 의해 사전 조정된 설정을 가질 수 있다. 컴퓨터(102)는 선택된 애플리케이션들(또는 모든 애플리케이션들)을 위해 특정 사용자에 의해 조정된 임의의 설정을 자동으로 저장할 수 있다. 또는, 사용자는 특정 애플리케이션에 대한 입력 설정을 적극적으로 조정할 수 있고, 또는 일반적으로 사용자가 컴퓨터(102)를 사용할 때마다 조정할 수 있다.

컴퓨터(102)가 사용자 선호에 관해 사전 저장된 정보를 갖고 있다면, 방법(300)은 동작 312로 진행할 수 있다. 동작 312는 사용자의 특정 선호를 시작한다. 동작 312는 선택된 출력 디바이스(예컨대, 외부 스피커(110))의 활성화, 볼륨, 베이스, 트레블 또는 주파수 레벨의 조정을 포함할 수 있다. 사용자 선호를 수용하기 위해 특정 디바이스 및 설정을 자동으로 조정함으로써, 컴퓨터(102)는 사용자의 희망에 따라 오디오 및/또는 비디오 출력을 자동으로 향상시킬 수 있다. 또한, 사용자 선호는 일반적으로 또는 특정 애플리케이션에 대한 오디오/비디오 출력 설정에 기초할 수 있다는 것을 알아야 한다. 예를 들면, 특정 사용자는 원격 회의 또는 화상 회의가 매우 작은 볼륨을 갖고 내부 스피커(106)만을 사용하는 것을 선호할 수 있는 반면에, 음악 애플리케이션을 이용할 때 사용자는 볼륨이 더 커지고, 외부 스피커(110)와 통합 스피커(106)가 사용되는 것을 선호할 수 있다.

또한, 사용자 선호는 다수의 별개 애플리케이션이 동시에 실행될 때를 위한 설정을 포함할 수 있다. 다수의 별개 애플리케이션은, 사용자가 음악 플레이어 및 비디오 채팅 애플리케이션을 사용 중일 때를 포함할 수 있고, 어느 애플리케이션들 과도 상이한 변경된 설정을 따로 포함할 수 있다.

사용자 선호가 활성화되면, 또는 사전에 저장된 사용자 선호가 없으면 방법(300)은 동작 314로 진행할 수 있다. 동작 314는 컴퓨터(102)와 관련하여 사용자 거리, 포지션 및/또는 위치를 판정한다. 이것은 도 2에 도시된 방법(200)과 유사할 수 있다. 예를 들면, 컴퓨터(102)는 비디오 센서(134)를 이용하여, 사용자의 이미지를 캡쳐하고 및/또는 사용자의 움직임을 추적할 수 있다. 시선 추적 기능을 사용하여, 사용자의 시선 방향, 즉 사용자가 어느 방향을 바라보는 것으로 보이는지를 결정하기 위해 비디오 이미지를 처리할 수 있다. 유사하게, 컴퓨터(102)는, 적외선, 열, 온도, 초음파 또는 모션 센서와 같은 다른 센서들(124)을 이용하여, 대략적인 사용자의 위치를 판정할 수 있다.

사용자의 포지션, 컴퓨터(102)로부터의 거리 및/또는 위치가 판정되면, 방법(300)은 동작 316으로 진행될 수 있다. 동작 316은, 오디오 및/또는 비디오 출력이 컴퓨터(102)에 대한 사용자의 거리, 위치 및/또는 포지션에 기초하여 조정될 필요가 있는 경우를 판정한다. 컴퓨터(102)는, 오디오 및/또는 비디오 설정 및/또는 디바이스들이 더 나은 출력을 제공하기 위해 조정될 수 있는 경우를 알기 위해, 사용자의 포지션 정보를 현재 오디오 및/또는 비디오 설정과 비교할 수 있다. 특정 범위의 위치, 포지션 및/또는 거리들에 대한 설정 및/또는 디바이스 정보는, 메모리(130)에 저장될 수 있다. 또는, 설정 및 디바이스는 피드백 루프 또는 다른 활성 조정 메커니즘에 기초하여 동적으로 조정될 수 있다.

동작 316에서, 오디오 및/또는 비디오 출력은 사용자의 포지션에 기초하여 조정되어야 하고, 방법(300)은 동작 318로 진행될 수 있다. 동작 318은, 사용자의 특정 위치 및/또는 애플리케이션에 대한 최상의 출력을 생성할 수 있는 설정을 맞추기 위하여 오디오 및/또는 비디오의 출력을 조정할 수 있다. 예를 들면, 사용자의 머리가 컴퓨터(106)로부터 돌아서 있으면(따라서, 내부 스피커(106)로부터 돌아서 있음), 오디오는, 오디오 경험이 사용자의 포지션 및 거리에 맞춰 향상될 수 있도록 조정될 수 있다. 유사하게, 사용자가 컴퓨터(102)로부터 멀리 떨어져 위치하면, 오디오 출력은 상이한 출력 프로필을 갖도록 조정될 수 있고 및/또는 비디오 출력 디스플레이는 확장될 수 있다.

오디오 출력은 다양하고 상이한 방법들을 통해 조정될 수 있다. 오디오 출력 신호는 출력되기 전에 전처리될 수 있다. 예를 들면, 오디오는, 특정 주파수들을 감소시키거나 향상시키도록 필터링될 수 있으며, 상이한 채널의 신호들(예컨대, 서라운드 사운드 채널들)을 포함할 수 있으며, 상이한 베이스 또는 트레블 설정을 포함할 수 있는 등등이다. 유사하게, 오디오 조정은 또한 오디오가 입력될 때 행해질 수 있다. 예를 들면, 마이크로폰(136)은 빔 스티어링(beam steering)을 통해 입력 소스 쪽으로 향해질 수 있고, 마이크로폰(136)은 특정 사용자의 음성 주파수를 위해 감도가 증가될 수 있고, 말하고 있는 사용자 쪽으로 향하고 있지 않은 다른 마이크로폰(136) 또는 오디오 입력 센서들(132)은 턴 오프되거나 낮춰지는(lower) 등등이다.

오디오 및/또는 비디오 출력 및 디바이스들이 조정되면, 방법(300)은 동작 314로 복귀할 수 있다. 방법(300)이 동작 314로 복귀함에 따라, 오디오 및/또는 비디오 출력 및 디바이스들은, 사용자가 자신의 포지션, 위치 및/또는 컴퓨터(102)로부터의 거리를 변경하는 경우에 동적으로 조정될 수 있다. 따라서, 오디오 및/또는 비디오 출력은, 사용자에 기초하여 이용가능할 수 있는 최상의 오디오 및/또는 비디오 출력을 제공하기 위해 사용자가 움직일 때에 자동으로 조정될 수 있다.

동작 316에서, 오디오 및/또는 비디오 출력이 사용자의 포지션에 기초하여 이미 조정된 경우, 방법(300)은 동작 320으로 진행하고, 환경 데이터가 수집될 수 있다. 예를 들면, 센서들(134), 비디오 센서(134) 및/또는 오디오 입력(132)을 이용하는 컴퓨터(102)는, 컴퓨터(102) 주위의 환경 특성을 수집할 수 있다. 환경 특성은, 컴퓨터(102)가 위치한 공간/자리의 추정 크기, 글로벌 위치 정보, 온도, 습도, 반향 특성, 큰 물체와의 거리 등등과 같은 정보일 수 있다.

일례에서, 컴퓨터(102)는 (오디오 입력/출력(132) 또는 스피커(106, 110)을 통해) 사운드를 방출할 수 있고, 사운드와 그 사운드에 의한 반향(있는 경우)은 마이크로폰(132) 및/또는 다른 센서들(134)에 의해 감지될 수 있다. 감지된 반향 응답 및 반향된 오디오 사운드의 다른 특성은, 공간의 크기, 공간의 반향 특성, 또는 다른 유사한 특성들에 관한 정보를 제공할 수 있다.

또 다른 예에서, 글로벌 위치 정보 또는 신호 강도 분석과 같은 정보는 컴퓨터(102)의 위치를 판정하는데 사용될 수 있다. 그 위치는, (예컨대, 사용자에 의해 프로그램되거나, 맵핑 또는 다른 기준 정보에 의해) 사용자의 사무실, 가정, 외부 위치, 등등인 것으로 판정될 수 있다.

환경 데이터가 수집되면, 방법(300)은 동작(322)로 진행될 수 있고, 컴퓨터(102)는 오디오 및/또는 비디오 출력이 특정 환경에 맞춰 설정되었는지 여부를 판정할 수 있다. 예를 들면, 컴퓨터(102)의 위치가 사용자의 사무실 내인 것으로 판정되면, 오디오 및/또는 비디오 설정은 낮은 볼륨을 갖도록 조정될 수 있다. 사용자는, 사용자가 사무실에 있을 때와 비교하여 집에서 더 높은 볼륨으로 오디오를 재생하기를 원할 수 있다. 유사하게, 사무실 내의 일반적인 공간 크기들(예컨대, 사용자의 특정 사무실)은, 사용자의 집에서 컴퓨터(102)가 오디오를 제공하기 위해 사용되는 경우보다 더 작을 수 있다. 또한, 일부 예들에서, 컴퓨터(102)의 위치에 따라(예컨대 사무실 또는 교실에서), 오디오 및/또는 비디오는 음소거되거나 디스플레이되지 않을 수 있다.

다른 예에서, 스피커(106, 110)에 대한 오디오 출력 설정은, 반향 특성 또는 컴퓨터(102)의 공간의 크기를 고려하여 조정될 필요가 있을 수 있다. 이것은, 반향의 제거, 반향될 수 있는 특정 주파수 감소, 또는 오디오의 다른 후처리를 위한 오디오 필터링을 포함할 수 있다. 유사하게, 비디오 특성이, 공간 내에 있을 수 있는 주변광의 양에 기초하여 조정될 필요가 있을 수 있다(예컨대, 디스플레이 스크린 또는 비디오 신호의 밝기 증가나 감소).

동작 322에서, 컴퓨터(102)가, 오디오 및/또는 비디오 설정이 특정 환경을 위해 조정될 필요가 있는 것으로 결정하면, 방법은 동작 324로 진행될 수 있다. 동작 324에서, 컴퓨터는, 스피커(106, 110) 및/또는 디스플레이 스크린(104)로부터 가능한 최상의 사운드 및/또는 이미징을 출력하기 위해 관련 설정을 조정한다. 동작 324는, 특정 설정(예컨대, 밝기, 컨트라스트, 트레블, 베이스, 볼륨)을 증가/감소시키는 것, 특정 방식으로 출력 신호를 변경하는 것(예컨대, 특정 주파수를 감소 또는 향상시키기 위한 신호의 필터링), 출력 신호를 다른 신호와 결합하거나 또는 오디오나 비디오 한 쪽 또는 양자 모두의 출력을 조정하기 위한 다른 형태의 메커니즘과 결합하는 것을 수반할 수 있다.

오디오 및/또는 비디오가 조정되면, 방법(300)은 동작 320으로 되돌아갈 수 있다. 이러한 방식으로, 환경의 양태들이 오디오 및/또는 비디오의 조정 사이에서 변경될 수 있는 경우에, 컴퓨터(102)는 환경 데이터의 수집을 계속할 수 있다. 유사하게, 동작 320으로 되돌아가서, 변경된 오디오 및/또는 비디오 설정이 특정 환경에 적합한지가 검증될 수 있다. 이는, 설정이 조정되고 다시 테스트될 수 있도록(그리고 필요하면 재조정될 수 있도록), 피드백 루프를 제공할 수 있다.

동작 322 이후에, 컴퓨터(102)가, 오디오 및/또는 비디오 설정이 특정 환경에 적합한 것으로 판정하면, 방법(300)은 동작 326으로 진행될 수 있다. 이후에, 컴퓨터(102)는, 출력 디바이스(예컨대, 텔레비전 또는 스피커(106, 110))에게 오디오 및/또는 비디오를 제공하거나 전송할 수 있다.

컴퓨터(102)가 오디오 및/또는 비디오를 제공함에 따라, 방법 300은 동작 328로 지속될 수 있다. 동작 328에서, 컴퓨터(102)는 모션이 검출되는지를 (센서들(134)을 통해) 모니터링할 수 있다. 예를 들면, 센서들(134)은 모션 검출기 또는 다른 움직임 감지 디바이스를 포함할 수 있으며, 이들은 사용자가 자신의 포지션을 변경하는지를 추적할 수 있다. 유사하게, 센서(134)는 또한 가속도계를 포함할 수 있으며, 가속도계는, 사용자가 컴퓨터(102)를 운반하거나 움직이고 있는지를 컴퓨터(102)가 판정할 수 있도록, 컴퓨터(102)가 이동 중인지를 판정할 수 있다.

동작 328에서, 모션이 검출되지 않으면, 방법(300)은 동작 326으로 되돌아 갈 수 있다. 그러나, 동작 328에서 모션이 검출되면, 방법(300)은 동작 314로 되돌아갈 수 있다. 따라서, 오디오 및/또는 비디오가 제공되는 동안 사용자 및/또는 컴퓨터(102)가 움직이면, 컴퓨터(102)는, 오디오 및/또는 비디오 설정이 갱신된 환경 및 사용자 포지션에 맞춰 적절하게 설정되었는지를 추가적으로 판정할 수 있다. 따라서, 컴퓨터(102)는 오디오 및 비디오 재생의 설정을 동적으로 조정할 수 있다. 이는, 컴퓨터(102)로 하여금 오디오 및/또는 비디오를 연속하여 조정할 수 있게 하므로, 오디오 및/또는 비디오가 최상의 (또는 원하는) 설정으로 제공되게 할 수 있다.

화상 회의

다른 실시예들에서, 본 시스템(100)은, 사용자가 조정할 수 있는 향상된 화상 회의 시스템을 제공하는데 사용될 수 있다. 도 5a는 다수가 참여하는 화상 회의를 디스플레이하는 컴퓨터(102)의 예시이다. 도시된 바와 같이, 디스플레이(104)는 사람 A, 사람 B, 사람 C, 사람 D의 이미지를 포함할 수 있다. 더 많거나 더 적은 사람들이 존재할 수 있다는 것을 알아야 하며, 또한, 시스템은 (예컨대, 모니터링 시스템으로서) 사람 없이도 이용될 수 있다. 도 5b는, 사람들 A-D 각각의 포지션과 관련하여 컴퓨터(102)를 위에서 내려다 본 평면도이다. 도 5b에 도시된 바와 같이, 각 사람 A-D는 컴퓨터(102)와 관련하여 상이한 위치에 자리하고 있다.

각 사람 A-D가, 상이한 위치에 자리잡고 있고, 컴퓨터(102)로부터 거리도 다르므로, 마찬가지로, 도 5a의 컴퓨터(102) 상에 디스플레이되는 사람 A-D 각각은, 그들이 실제로 있는 것과 같이, 즉 상이한 위치에서 사람 A-D가 디스플레이된다. 또한, 마이크로폰(136)은, 컴퓨터(102)에 대한 사용자의 포지션에 기초하여 사람 A-D의 음성 및 따른 사운드들을 픽업할 수 있다. 따라서, 사람 A 및 사람 B는 도 5a에서 사람 C에 비해 더 작게 도시될 수 있고, 일반적으로 사람 A 및 사람 B로부터의 사운드는 또한 사람 C로부터의 사운드보다 더 작게 출력될 수 있다. 그러나, 일부 예들에서, 화상 회의를 시청하는 사용자는 사람 A 및 사람 B를 더 양호하게 또는 더 크게 듣거나 및/또는 보기 원할 수 있다. 예를 들면, 사람 A 및 사람 B는 동시에 말할 수 있고, 사용자는 그들의 음성에 관한 출력 사운드에 집중하기를 원할 수 있다.

도 5c는 사람 A 및 사람 B의 향상된 오디오 및/또는 비디오를 갖는 도 5a의 컴퓨터(102)를 도시한다. 도 5c에 도시된 바와 같이, 사람 A 및 사람 B의 이미지는 확대되어 사람 C의 이미지와 대략 동일한 크기이다. 유사하게, 도 5c에 도시되지는 않았지만, 사람 A 및 사람 B 각각으로부터의 오디오도 향상된다. 또한, 향상되지 않은 사람 C 및 D는, 사람 A 및 사람 B를 더욱 크게 향상시키기 위해 축소되거나 숨겨질 수 있다. 또는, 사람 C 및 사람 D는 대략 동일한 크기로 남아 있을 수 있고 이에 따라 사람 A 및 사람 B는 사람 C 및 사람 D와 대략 동일한 크기일 수 있다. 또한, 사람 A 및 사람 B의 향상은 그들의 이미지 뿐만 아니라 다른 설정도 포함할 수 있다. 예를 들면, 각 사람이 별개의 채팅 윈도우에 있다면, 말하는 사람(예컨대, 사람 A 또는 사람 B)의 윈도우는 향상될 수 있고(예컨대, 채팅 윈도우의 색깔이 바뀔 수 있다), 테두리(border)를 포함하거나 테두리를 변경할 수 있으며, 윈도우가 확대될 수도 있고, 디스플레이 앞으로 당겨질 수도 있다.

도 6은, 도 5a-5c에 도시된 바와 같은 화상 회의 세션 동안 특정 사람의 오디오 및/또는 비디오를 향상시키는 예시적인 방법을 도시하는 흐름도이다. 방법(400)은 동작 402에서 시작될 수 있고, 컴퓨터(102)는 특정 화상 회의 세션과 연관된 다수의 사용자 또는 사람들이 있는지를 판정할 수 있다. 컴퓨터(102)는 사용자가 그 수의 사람들에 들어갈 수 있게 하는 옵션을 사용자에게 제시하고, 또는 컴퓨터(102)는 얼굴 인식, 음성 인식, 총 회의 세션 또는 디스플레이 컴퓨터 등을 통해 사용자들의 수를 판정할 수 있다. 화상 회의 세션에 참가하는 사용자 또는 사람은 별도인 것으로(예컨대, 각자가 별도의 컴퓨터), 집합적인 것으로(예컨대, 컴퓨터 당 다수의 사람), 또는 별도와 집합적의 결합(예컨대, 일부 사용자들은 별도이고, 일부는 집합적)인 것으로 판정될 수 있다는 것을 알아야 한다.

일례에서, 도 5a-5c에 도시된 바와 같이, 각 사람 A-D가 단일 컴퓨터(102) 앞에 있더라도, 컴퓨터(102)는 네 사람 (사람들 A-D)이 있다고 판정할 수 있다. 컴퓨터(102)는, 컴퓨터(102) 앞에 있는 사람들의 수를 판정하기 위해, 얼굴 인식, 음성 인식, 및 다른 다양한 센서들을 이용할 수 있다. 그러나, 다른 예들에서, 사람 A-D 각각은 별도의 컴퓨터 앞에 있을 수 있으나, 화상 회의의 단일 인터페이스를 제공하기 위해 컴퓨터(102)의 디스플레이상에서 함께 그룹화될 수 있다.

방법(200)이 사용자들의 수를 판정하면, 방법은 동작 404로 진행될 수 있다. 동작 404가, 말하는 사람이 있다면 (많은 사용자들 중 어느 사용자가) 말하는지를 판정한다. 컴퓨터(102)는, 음성 인식, 오디오 센서, 이미징 데이터 등을 통해 사용자가 말하고 있는지 여부를 판정할 수 있다. 말하는 사용자가 판정되면, 방법(400)은 동작 406으로 진행하고, 컴퓨터(102)는 오디오 입력 센서(마이크로폰)과 같은 센서를 말하는 사용자 쪽으로 향하게 할 수 있다. 예를 들면, 오디오 입력 센서는 말하는 사용자 쪽으로 회전될 수 있고, 또는 지향성 마이크로폰이 활성화되거나 말하는 사용자 쪽으로 향할 수 있다.

오디오 입력 센서가 말하는 사용자 쪽으로 빔 스티어링되거나(beam steered) 향하게 되면, 방법(400)은 동작 408로 진행할 수 있다. 동작 408은, 사용자(또는 컴퓨터(102))가 말하는 사용자에 초점을 맞춰 출력 비디오를 향상시키기를 원하는지를 판정할 수 있다. 예를 들면, 말하는 사용자가 판정된 이후에, 컴퓨터(102)는 시청하는 사용자에게, 말하는 사용자의 비디오 이미지가 포커싱되기를 원하는지에 대한 옵션을 제공할 수 있다. 또는, 대안적으로, 컴퓨터(102)는 말하는 사용자의 출력을 자동으로 향상시킬 수 있으며, 이는 화상 회의 애플리케이션의 설정일 수 있다.

동작 408에서, 말하는 사용자의 비디오 출력이 향상되어야 하면, 방법 400은 동작 410으로 진행하고, 비디오 출력 및/또는 비디오 입력(예컨대, 비디오 센서(134)은, 말하는 사용자를 줌잉하거나 포커싱하기 위해 향상될 수 있다. 예를 들면, 도 5c에 도시된 바와 같이, 사람 A 및 사람 B의 출력 비디오는, 사람 A 및 사람 B가 사람 C보다 스크린에 더 가깝게 나타나도록 향상될 수 있다.

동작 410 이후에, 또는 동작 408에서 출력 비디오가 말하는 사용자에게 포커싱되지 않은 경우에, 방법 (400)은 동작 412로 진행될 수 있다. 동작 412는, 말하는 사용자가 디스플레이(104)의 중앙으로부터 오프셋되어 위치하는지를 판정한다. 예를 들면, 컴퓨터(102)는 얼굴 인식, 오디오 인식 등을 사용하여, 말하는 사용자가 디스플레이(104)의 어디에 위치하는지를 판정할 수 있다. 예를 들면, 컴퓨터(102)는 사람 A가 말하는 것을 판정할 수 있고, 그가 스크린의 오른쪽 사이드 상에서 디스플레이(104)에 표시되고 있는지를 판정할 수 있다. 그러나, 동작 412에서, 사람 C가 말하는 사용자라면, 컴퓨터(102)는, 말하는 사용자가 실질적으로 디스플레이(104)의 중앙에 위치한다고 판정할 수 있다.

동작 412에서, 말하는 사용자가 디스플레이(104)의 중앙으로부터 오프셋되어 위치하는 경우, 방법(400)은 동작 414로 진행할 수 있다. 동작 414는 화상 회의의 오디오 출력을 향상시키고, 이에 의해, 말하는 사용자의 오디오는, 말하는 사용자가 표시되는 디스플레이(104)의 사이드를 향해 기울여질(angled) 수 있다. 예를 들면, 도 5c에 도시된 배치에서, 오디오 출력 디바이스(106, 110)는, 오디오 사운드가 말하는 사용자의 위치 즉 디스플레이 스크린(104)의 오른쪽 사이드에서 오더라도, 오디오 사운드를 갖도록 설정될 수 있다. 이러한 방식으로, 보는/시청하는 사용자는, 사용자가 디스플레이되는 위치에서 말하는 사용자의 오디오를 들을 수 있다.

오디오와 위치의 대응

다른 실시예들에서, 시스템(100)은, 화상 회의 윈도우 또는 인스턴스의 위치에 기초하여 오디오 출력을 변경하도록 구성될 수 있다. 도 7a는 인스턴트 메시징, 음성, 또는 화상 채팅 프로그램이 실행 중인 컴퓨터(102)를 도시한다. 예를 들면, 컴퓨터(102)는 애플사의 iCHAT 또는 페이스타임과 같은 프로그램을 실행 중일 수 있다. 디스플레이는, 각자 오디오 A, 오디오 B, 오디오 C, 및 오디오 D를 포함하여 각 윈도우를 갖는 다수의 채팅 인스턴스들(430, 432, 434, 436)을 포함할 수 있다. 또한, 각 채팅 인스턴스는, 비디오 이미지 또는 사진과 같은 대응하는 이미지를 포함할 수 있다.

도 8은, 채팅 인스턴스의 위치에 대응하는 위치로부터 발생되는 것처럼 소리를 내도록, 특정 채팅 인스턴스의 오디오가 출력되게 지시하는 예시적인 방법(500)을 도시하는 흐름도이다. 방법(500)은 동작 502에서 시작될 수 있고, 컴퓨터(102)는 둘 이상의 채팅 인스턴스가 있는지를 판정할 수 있다. 예를 들면, 컴퓨터(102)는 상이한 채팅 인스턴스들에 대응할 수 있는 다수의 오디오 인스턴스들이 존재하는지 여부를 판정할 수 있다. 둘 이상의 오디오 또는 채팅 인스턴스가 존재하지 않으면, 방법(500)은 동작 512로 진행될 수 있으며, 이는 아래에서 상세히 논의될 것이다.

동작 502에서, 둘 이상의 오디오 또는 채팅 인스턴스가 존재하면, 방법 500은 동작 504로 진행될 수 있다. 동작 504는 채팅 인스턴스들이 디스플레이(104) 상에서 상이한 위치에 배치되어 있는지를 판정한다. 예를 들면, 채팅 인스턴스들은, 다른 인스턴스의 위에 중첩될 수 있고, 축소될 수 있으며, 또는 (도 7a 에 도시된 바와 같이), 디스플레이 스크린(104)의 다양한 위치에 분산될 수 있다. 동작 504에서, 컴퓨터(102)가 채팅 인스턴스들이 디스플레이(104)의 상이한 위치들에 있는지를 판정하면, 방법(500)은 동작 506으로 진행될 수 있다.

동작 506은 사용자가 말하는 중인지 또는 어느 인스턴스가 오디오 출력을 갖는지를 판정한다. 예를 들면, 컴퓨터(102)는, 오디오 A, 오디오 B, 오디오 C, 또는 오디오 D가 소리를 현재 생성 중인지를 판정하며, 이는 사용자가 말하고 있는지 또는 보고 있는 사용자에게 전송하기 위해 사운드를 제공하는 지와 상관시킬 수 있다. 동작 506이 현재 출력을 갖는 오디오를 판정하면, 방법 500은 동작 508로 진행할 수 있다. 동작 508은, 출력 오디오의 위치를 판정하는데, 즉, 어느 채팅 인스턴스(및 그 위치)가 각자의 오디오에 상관되는지를 판정한다. 예를 들면, 오디오 A가 현재 출력을 갖는다면, 컴퓨터(102)는 채팅 인스턴스(430)의 (디스플레이(104)에 대한) 위치를 판정한다.

동작 508 이후에, 방법(500)은 동작 510으로 진행할 수 있고, 컴퓨터(102)는 스피커(106, 110) 또는 다른 출력 디바이스의 오디오 출력을 변경하여, 채팅 인스턴스의 위치로부터 나오도록 (또는 나오는 것처럼 보이도록) 할 수 있다. 예를 들면, 도 7a에서, 오디오 A가 출력을 가지면, 스피커(110)는, 오디오 A의 오디오가 채팅 인스턴스의 영역에서부터 향하는 것처럼 변경될 수 있다. 도 7b는 채팅 인스턴스들(430, 432, 434, 436) 각자에 대응하는 오디오들 A-D에 대한 오디오 방향을 도시한다. 도 7b에 도시된 바와 같이, 오디오는, 디스플레이(104) 상의 채팅 인스턴스 위치에 상관시킬 수 있는 방식으로, 사용자 쪽으로 향할 수 있다. 이는, 오디오들이 채팅 인스턴스의 위치로부터 출력되더라도, 사용자로 하여금 오디오 A-D 중 임의의 것의 오디오를 들을 수 있게 해 준다. 이는, 화상 회의 또는 화상 채팅 애플리케이션에서 보다 현실적인 채팅 경험을 사용자에게 제공한다. 또한, 지향성 오디오는 채팅 세션 동안 사용자의 오디오 경험을 향상시킬 수도 있다.

동작 510 이후에 또는 동작 504 이후에, 방법(500)은 동작 512로 진행할 수 있다. 동작 512는 현재 오디오가 종료되었는지 여부를 판정하는데, 즉 특정 사람이 말하는 것을 끝냈는지 여부를 판정한다. 컴퓨터(102)는 채팅이 비디오 이미지를 포함하는 경우 얼굴 인식에 의해 이것을 판정할 수 있고, 또는 오디오 프로세싱, 음성 인식, 또는 다른 프로세싱 기법들에 의해 행해질 수 있다. 특정 채팅 인스턴스에 대한 오디오가 종료되지 않았으면, 방법(500)은 동작 514로 진행할 수 있고, 컴퓨터(102)는 선택 시간 동안 대기하거나 일시정지할 수 있다. 반면에, 선택된 채팅 인스턴스의 오디오기 종료된 경우, 방법(500)은 동작 516으로 진행할 수 있다. 동작 516은 채팅 인스턴스들 중 하나에 대해 활성된 새로운 오디오가 있는지를 판정한다. 새로운 오디오가 존재하면, 방법(500)은 동작 504로 되돌아갈 수 있다. 그러나, 다른 오디오가 존재하지 않으면, 방법(500)은 종료될 수 있다.

결론

앞서 기재한 내용은 광범위한 응용예를 갖는다. 위에 기술된 실시예는 단지 예시적인 것으로만 의도되며, 청구범위를 포함하여 본 개시물의 범위를 그러한 실시예들로만 제한하는 것으로 암시하도록 의도되는 것은 아니다.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
컴퓨터의 오디오를 지향시키기 위한 방법으로서,
복수의 사용자를 위한 복수의 채팅 인스턴스가 상기 컴퓨터의 디스플레이 상에 있는지를 판정하는 단계 - 상기 복수의 채팅 인스턴스 각각은, 각각의 사용자를 캡쳐하는 각각의 비디오를 포함하고, 상기 각각의 사용자가 말하는 것을 캡쳐하는 각각의 오디오 인스턴스와 상관되고, 상기 복수의 사용자는 상이한 위치들에 있음 -;
상기 복수의 채팅 인스턴스 각각이 상기 컴퓨터의 상기 디스플레이 상에서 상이한 위치에 배치되어 있는지를 판정하는 단계;
상기 복수의 채팅 인스턴스 중 오디오 인스턴스와 상관된(correlate) 채팅 인스턴스를 판정하는 단계;
상기 오디오 인스턴스와 상관된 상기 채팅 인스턴스의 상기 컴퓨터의 상기 디스플레이 상의 위치를 판정하는 단계; 및
복수의 오디오 출력 디바이스로부터의 사운드 출력을 변경하여 상기 오디오 인스턴스와 상관된 상기 채팅 인스턴스의 상기 판정된 위치에서부터 지향하도록 또는 지향하는 것처럼 보이도록 하는 단계
를 포함하는, 방법.
제16항에 있어서,
상이한 채팅 인스턴스에 대응하는 다수의 오디오 인스턴스가 있는지를 판정하는 단계를 더 포함하는, 방법.
제16항에 있어서,
상기 복수의 채팅 인스턴스 각각은 상기 컴퓨터의 상기 디스플레이 상에 보여지는(shown) 채팅 윈도우를 포함하는, 방법.
제16항에 있어서,
상기 복수의 채팅 인스턴스는 다른 하나 위에 중첩되거나(overlaid), 축소되거나, 또는 상기 컴퓨터의 상기 디스플레이 상의 다양한 위치에 분산되는, 방법.
제16항에 있어서,
상기 복수의 채팅 인스턴스 중 하나에 대한 추가적인 오디오 인스턴스가 있는지를 판정하는 단계를 더 포함하는, 방법.
컴퓨터의 오디오를 지향시키기 위한 시스템으로서,
하나 이상의 프로세서와, 명령어들이 저장된 적어도 하나의 메모리를 포함하고,
상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금:
복수의 사용자의 복수의 채팅 인스턴스가 상기 컴퓨터의 디스플레이 상에 있는지를 판정하고 - 상기 복수의 채팅 인스턴스 각각은, 각각의 사용자를 캡쳐하는 각각의 비디오를 포함하고, 상기 각각의 사용자가 말하는 것을 캡쳐하는 각각의 오디오 인스턴스와 상관되고, 상기 복수의 사용자는 상이한 위치들에 있음 -;
상기 복수의 채팅 인스턴스가 상기 컴퓨터의 상기 디스플레이 상에서 상이한 위치들에 배치되어 있는지를 판정하고;
상기 복수의 채팅 인스턴스 중 오디오 인스턴스와 상관된 채팅 인스턴스를 판정하고;
상기 오디오 인스턴스와 상관된 상기 채팅 인스턴스의 상기 컴퓨터의 상기 디스플레이 상의 위치를 판정하고;
상기 컴퓨터의 하나 이상의 오디오 출력 디바이스로부터의 오디오 출력을 변경하여 상기 오디오 인스턴스와 상관된 상기 채팅 인스턴스의 상기 판정된 위치에서부터 지향하도록 또는 지향하는 것처럼 보이도록 하게 하는, 시스템.
제21항에 있어서,
상기 시스템은 상이한 채팅 인스턴스에 대응하는 다수의 오디오 인스턴스가 있는지를 판정하는, 시스템.
제21항에 있어서,
상기 복수의 채팅 인스턴스 각각은 상기 컴퓨터의 상기 디스플레이 상에 보여지는 채팅 윈도우를 포함하는, 시스템.
제21항에 있어서,
상기 복수의 채팅 인스턴스는 다른 하나 위에 중첩되거나, 축소되거나, 또는 상기 컴퓨터의 상기 디스플레이 상의 다양한 위치에 분산되는, 시스템.
제21항에 있어서,
상기 시스템은 상기 복수의 채팅 인스턴스 중 하나에 대한 추가적인 오디오 인스턴스가 있는지를 판정하는, 시스템.