KR102078427B1

KR102078427B1 - 사운드 및 기하학적 분석을 갖는 증강 현실

Info

Publication number: KR102078427B1
Application number: KR1020147017620A
Authority: KR
Inventors: 기선 유; 태수 김; 규웅 황; 민호 진; 현묵 조; 태원 이
Original assignee: 퀄컴 인코포레이티드
Priority date: 2012-01-12
Filing date: 2012-11-21
Publication date: 2020-02-17
Anticipated expiration: 2032-11-21
Also published as: US9563265B2; US20130182858A1; EP2802962A1; KR20140117369A; JP5996669B2; IN2014CN04458A; WO2013106133A1; CN104054039A; CN104054039B; JP2015510629A

Abstract

모바일 디바이스의 증강 현실 (augmented reality; AR) 어플리케이션에서 외부 사운드에 응답하는 방법이 개시된다. 모바일 디바이스는 타겟을 검출한다. 가상 오브젝트는 AR 어플리케이션에서 개시된다. 또한, 외부 사운드는 사운드 소스로부터 모바일 디바이스의 적어도 하나의 사운드 센서에 의해 수신된다. 사운드 소스와 타겟 사이의 기하학적 정보가 결정되고, AR 어플리케이션에서 수행할 가상 오브젝트에 대한 적어도 하나의 응답이 기하학적 정보에 기초하여 생성된다.

Description

사운드 및 기하학적 분석을 갖는 증강 현실{AUGMENTED REALITY WITH SOUND AND GEOMETRIC ANALYSIS}

관련 출원들의 상호 참조

본 출원은 2012년 8월 15일자로 출원된 미국 특허 출원 제 13/585,927호 및 2012년 1월 12일자로 출원된 미국 특허 가출원 제 61/585,945호에 기초한 것으로 이들의 이점을 청구하며, 그 전체 내용은 참조에 의해 본원에서 통합된다.

기술 분야

본 개시는 일반적으로 모바일 디바이스들에서 증강 현실을 구현하는 것에 관련된다. 특히, 본 개시는 외부 사운드에 기초하여 모바일 디바이스의 증강 현실 환경에서 가상 오브젝트에 대한 응답을 생성하는 것에 관련된다.

최근, 휴대성 및 기능성에서의 편리성으로 인해 모바일 디바이스들의 사용이 크게 증가했다. 동시에, 모바일 디바이스들의 광범위한 사용과 함께 엔터테인먼트 및 현실 어플리케이션들 (reality applications) 에 대한 소비자의 요구가 증가했다. 엔터테인먼트 및 현실 어플리케이션들을 제공하기 위해, 몇몇 모바일 디바이스들은 증강 현실 기술을 제공한다.

증강 현실 (augmented reality; "AR") 은 실세계 환경을 디지털 정보와 병합하는 것을 목표로 하는 가상 현실의 한 타입이다. 가상 공간에 가상 오브젝트를 제공하는 통상의 가상 현실과는 달리, 증강 현실 시스템은 유저가 보는 실세계 이미지와 컴퓨터에 의해 생성된 이미지를 결합하여 실세계 이미지를 부가적인 정보로 증강시키는 복합 뷰를 생성한다.

시각적인 증강 현실을 제공하는 것에 추가하여, 몇몇 AR 환경은 모바일 디바이스의 외부 사운드를 인식하는 성능을 제공하고 있다. 그러나, 이러한 AR 환경들은 일반적으로 외부 사운드 환경을 충분히 반영하지 못했다. 따라서, 이들 AR 환경들은 유저들에 대해 충분한 레벨의 현실성을 제공하지 못할 수도 있다. 예를 들면, 종래의 AR 환경에서, AR 오브젝트는 모든 외부 사운드들이 모바일 디바이스로부터 발생하는 것처럼 반응할 수도 있다. 따라서, 이러한 AR 어플리케이션들은 유저에게 만족스러운 증강 현실 경험을 제공하지 않았다.

개요

본 개시는 모바일 디바이스의 증강 현실 (augmented reality; AR) 어플리케이션에서 외부 사운드에 응답하는 방법들 및 장치를 제공한다. 이들 방법들 및 장치에서는, 수신된 외부 사운드에 기초하여, 모바일 디바이스, 타겟, 및 외부 사운드의 사운드 소스 사이의 기하학적 정보 (geometric information) 가 결정된다. 그러면, AR 어플리케이션의 AR 환경에서 수행할 가상 오브젝트에 대한 응답이 기하학적 정보에 기초하여 생성된다.

본 개시의 일 양태에 따르면, 모바일 디바이스의 증강 현실 (AR) 어플리케이션에서 응답하는 방법이 개시된다. 그 방법은 타겟을 검출하는 것을 포함한다. 가상 오브젝트는 AR 어플리케이션에서 개시된다. 또한, 외부 사운드는 사운드 소스로부터 모바일 디바이스의 적어도 하나의 사운드 센서에 의해 수신된다. 사운드 소스와 타겟 사이의 제 1의 기하학적 정보가 결정되고, AR 어플리케이션에서 수행할 가상 오브젝트에 대한 적어도 하나의 응답이 제 1의 기하학적 정보에 기초하여 생성된다. 또한, 본 개시는 이 방법에 관한 디바이스, 수단들의 조합, 및 컴퓨터 판독가능 매체를 설명한다.

본 개시의 다른 양태에 따르면, 증강 현실 (AR) 어플리케이션에서 외부 사운드에 응답하는 디바이스가 개시된다. 그 디바이스는 센서 및 제어 유닛을 포함한다. 이미지 센서 및 적어도 하나의 사운드 센서를 포함하는 센서는 타겟을 포함하는 이미지들 및 하나의 사운드 소스로부터의 외부 사운드를 수신하도록 구성된다. 제어 유닛은 타겟 오브젝트 검출기, 어플리케이션 개시 유닛, 기하학적 정보 계산 유닛, 및 AR 응답 생성기를 포함한다. 타겟 오브젝트 검출기는 이미지들에서 타겟을 검출하도록 구성된다. 어플리케이션 개시 유닛은 검출된 타겟에 응답하여 AR 어플리케이션에서 가상 오브젝트를 개시하도록 구성된다. 기하학적 정보 계산 유닛은 하나의 사운드 소스와 타겟 사이의 제 1의 기하학적 정보를 결정하도록 구성된다. 또한, AR 어플리케이션에서 수행할 가상 오브젝트에 대한 적어도 하나의 응답은 제 1의 기하학적 정보에 기초하여 AR 응답 생성기에 의해 생성된다.

본 개시의 발명적 양태들의 실시형태들은, 첨부된 도면들과 연계하여 판독될 때, 하기의 상세한 설명을 참조로 이해될 것이다.
도 1은, 본 개시의 하나의 실시형태에 따른, 모바일 디바이스에서 증강 현실 (AR) 어플리케이션이 실행되는 실세계 환경의 다이어그램을 예시한다.
도 2a 및 도 2b는, 본 개시의 일 실시형태에 따른, 모바일 디바이스에서 증강 현실 환경을 보는 다이어그램 및 종료하는 다이어그램들을 예시한다.
도 3은, 본 개시의 일 실시형태에 따른, 사운드 소스로부터의 외부 사운드에 응답하는 가상 오브젝트의 다이어그램을 예시한다.
도 4는, 본 개시의 일 실시형태에 따른, 증강 현실 환경을 유저에게 제공하는 모바일 디바이스의 블록도이다.
도 5는, 본 개시의 일 실시형태에 따른, 증강 현실 환경을 유저에게 제공하는 모바일 디바이스의 제어 유닛의 블록도이다.
도 6은, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 응답을 생성하는 방법을 예시하는 흐름도이다.
도 7a 및 도 7b는, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 응답을 생성하는 것을 예시하는 다이어그램들이다.
도 8a 및 도 8b는, 본 개시의 일 실시형태에 따른, 타겟, 사운드 소스 및 모바일 디바이스 사이의 기하학적 관계들을 결정하는 것을 예시하는 다이어그램들이다.
도 9a 및 도 9b는, 본 개시의 다른 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 AR 응답을 생성하는 것을 예시하는 다이어그램들이다.
도 10a 및 도 10b는, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 응답을 생성하는 것을 예시하는 다이어그램들이다.
도 11은, 본 개시의 일 실시형태에 따른, AR 환경에서 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 응답을 생성하는 방법을 예시하는 흐름도이다.
도 12는, 본 개시의 다른 실시형태에 따른, 증강 현실 환경을 유저에게 제공하는 모바일 디바이스의 제어 유닛을 예시하는 블록도이다.
도 13은, 본 개시의 일 실시형태에 따른, 외부 사운드에 대한 상이한 사운드 소스들을 식별하고, 복수의 사운드들 각각과 관련된 가상 오브젝트에 대한 응답을 생성하는 방법을 예시하는 흐름도이다.
도 14a 및 도 14b는, 본 개시의 일 실시형태에 따른, 복수의 사운드 소스들로부터의 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 AR 응답들의 순서를 생성하는 것을 예시하는 다이어그램들이다.
도 15는, 본 개시의 다른 실시형태에 따른, 복수의 사운드 소스들로부터의 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 AR 응답들의 순서를 생성하는 것을 예시하는 다이어그램이다.
도 16a 및 도 16b는, 본 개시의 일 실시형태에 따른, 모바일 디바이스와 타겟 사이의 거리에 기초하여 가상 오브젝트의 사운드 볼륨을 조정하는 것을 예시하는 다이어그램들이다.
도 17은, 본 개시의 일 실시형태에 따른, 모바일 디바이스와 타겟 사이의 거리에 기초하여 가상 오브젝트의 사운드 볼륨을 조정하는 방법을 예시하는 흐름도이다.
도 18은, 본 개시의 몇몇 실시형태들에 따른, 본 개시의 AR 어플리케이션이 실행될 수도 있는 예시적인 모바일 컴퓨팅 디바이스의 블록도이다.

상세한 설명

다양한 실시형태들이 이제 도면들을 참조로 설명될 것인데, 도면들 전체에 걸쳐 유사한 엘리먼트들을 나타내기 위해 유사한 도면 부호들이 사용된다. 설명의 목적들을 위한 하기의 설명에서, 하나 이상의 실시형태들의 완전한 이해를 제공하기 위해 다양한 특정 상세들이 설명된다. 그러나, 이러한 실시형태(들) 는 이들 특정 상세들 없이 실시될 수도 있음이 명확할 수도 있다. 다른 경우들에서, 하나 이상의 실시형태들의 설명을 용이하게 하기 위해, 공지의 구조들 및 디바이스들이 블록도의 형태로 도시된다.

도 1은, 본 개시의 일 실시형태에 따른, 외부 사운드에 응답하기 위해 증강 현실 (AR) 어플리케이션이 모바일 디바이스 (110) 에서 실행되는 실세계 환경 (100) 을 예시한다. 유저 (120) 는 비디오 카메라, 디스플레이 스크린, 적어도 하나의 마이크 및 AR 어플리케이션을 적어도 포함하는 모바일 디바이스 (110) 를 동작시킨다. 모바일 디바이스 (110) 는 태블릿 PC, 스마트폰, 게임용 디바이스 등과 같은 휴대형 컴퓨팅 디바이스일 수도 있고, 이러한 디바이스들의 임의의 표준 컴포넌트들 및 기능들을 포함할 수도 있다.

도 1에 예시된 바와 같이, 유저 (120) 는 모바일 디바이스 (110) 상에서 디스플레이되는 증강 현실 환경과 상호작용한다. 타겟 (130) 은 테이블 (150) 상에 제공되고, 타겟 (130) 이 검출되는 경우 모바일 디바이스 (110) 에 의해 사용되어 AR 어플리케이션을 개시한다. 타겟 (130) 은, 모바일 디바이스 (110) 에 의해 검출되어 AR 어플리케이션을 개시할 수 있는 미리 결정된 AR 태그 또는 마커일 수도 있다. 타겟 (130) 이 검출되는 한, AR 어플리케이션은 모바일 디바이스 (110) 상에서의 작동을 계속한다. 예를 들면, 비디오 카메라와 같은 이미지 센서를 통해 타겟 (130) 을 캡쳐하기 위해 유저 (120) 가 모바일 디바이스 (110) 를 이동시키면, 모바일 디바이스 (110) 는 AR 어플리케이션을 개시하고, AR 어플리케이션은 AR 환경에 가상 오브젝트 (140) 및 가상 백그라운드 (170) 를 디스플레이한다. AR 어플리케이션이 개시된 후, AR 환경은 실질적인 시간 지연 없이 실시간으로 모바일 디바이스 (110) 의 디스플레이 상에 디스플레이되고, 외부 사운드 또는 유저의 액션을 반영하도록 구성된다. 예를 들면, 모바일 디바이스 (110) 는 유저 (120) 또는 외부 사운드 소스 (160), 예컨대 실세계 환경 (100) 에 존재하는 사람으로부터 외부 사운드를 수신할 수도 있다.

도 2a는, 본 개시의 일 실시형태에 따른, 증강 현실 환경을 보기 위해 모바일 디바이스 (210) 를 사용하는 유저 (220) 를 예시한다. 도 2a에서, 유저 (220) 는 모바일 디바이스 (210) 의 이미지 센서를 통해 테이블 (250) 상에 로케이팅된 타겟 (230) 의 이미지를 캡쳐하기 위해 모바일 디바이스 (210) 를 조작한다. 타겟 (230) 의 이미지가 검출되면, 모바일 디바이스 (210) 는 내부에 저장된 복수의 미리 결정된 타겟들과 캡쳐된 타겟 (230) 을 비교한다. 이 때, 캡쳐된 타겟 (230) 이 복수의 미리 결정된 타겟들 중 하나와 일치한다고 모바일 디바이스 (210) 가 결정하면, AR 어플리케이션이 개시된다. 대안적으로, 모바일 디바이스 (210) 는 사운드 센서를 통해 수신된 미리 결정된 외부 사운드에 응답하여 AR 어플리케이션을 개시할 수도 있다. 이 경우, 외부 사운드는 AR 어플리케이션을 개시하기 위해 미리 결정된 사운드 모델들과 비교될 수도 있다. 추가적으로, AR 어플리케이션은, 유저 인터페이스 (예를 들면, 터치스크린, 버튼, 키패드, 조이스틱, 터치패드 등) 를 통해 정보를 입력하는 것과 같은 모바일 디바이스 (210) 에 대한 유저 입력에 응답하여 또는 광 입력에서의 변화에 응답하여 개시될 수도 있다.

AR 어플리케이션은, 모바일 디바이스 (210) 상에 AR 환경을 생성하여 디스플레이하기 위해, 캡쳐된 이미지를 가상 오브젝트 (240) 및 가상 백그라운드 (270) 로 실시간으로 증강시킨다. 예를 들면, 가상 오브젝트 (240) 및 가상 환경 (270) 은, 모바일 디바이스 (210) 의 디스플레이 상에서의 디스플레이를 위해, 실세계 환경 (200) 의 캡쳐된 백그라운드 이미지 상에 중첩될 수도 있다. 이러한 구성에서, 상호작용적 경험을 위해, 가상 오브젝트 (240) 는 외부 사운드들 및 유저의 액션들에 응답하도록 구성될 수도 있다. AR 어플리케이션의 개시시, 도 2a에 도시된 바와 같이, 가상 오브젝트 (240) 는 초기에 타겟 (230) 위에 디스플레이된다. 대안적으로, 가상 오브젝트 (240) 는 타겟 (230) 에 대한 임의의 적절한 위치들 (positions) 에 로케이팅될 수도 있다. 또한, 타겟 (230) 은 증강 현실 환경에서 디스플레이되거나, 또는 증강 현실 환경에서 디스플레이되지 않을 수도 있다.

모바일 디바이스 (210) 의 디스플레이 상에 실시간으로 디스플레이되는 AR 환경의 유저의 뷰로부터, 가상 오브젝트 (240) 및 가상 백그라운드 (270) 는, 이들이 모바일 디바이스 (210) 의 디스플레이 상에서만 디스플레이된다는 점에서 가상적이다. 테이블 (250) 상의 점선에 의해 나타내어진 바와 같이, 가상 오브젝트 (240) 및 타겟 (230) 은 예시적인 목적만을 위해 묘사된다. 가상 오브젝트 (240) 는 사람과 같은 캐릭터 또는 자동차들과 같은 오브젝트들을 포함하는 임의의 컴퓨터에 의해 생성된 이미지일 수도 있다.

도 2b는, 본 개시의 일 실시형태에 따른, 모바일 디바이스 (210) 에서의 AR 환경의 종료 및 보통의 비디오 동작으로의 복귀를 예시한다. 최초, 도 2b에서는, 타겟 (230) 이 검출되는 동안 가상 오브젝트 (240) 및 가상 백그라운드 (270) 를 포함하는 AR 환경이 모바일 디바이스 (210) 의 디스플레이 상에 디스플레이된다. 그러나, 유저 (220) 가 모바일 디바이스 (210) 를 타겟 (230) 으로부터 멀리 이동시키면, 모바일 디바이스 (210) 는 AR 환경의 디스플레이를 종료하고 자신의 보통의 비디오 동작으로 복귀한다. 도 2b에서 도시된 예에서, 유저 (220) 는 전화기 (280) 를 캡쳐하기 위해 모바일 디바이스 (210) 를 타겟으로부터 떨어지게 이동시키고, 따라서, 모바일 디바이스 (210) 는 AR 환경의 디스플레이를 종료하고 대신 자신의 보통의 비디오 동작에서 전화기 (280) 의 이미지를 디스플레이한다. 한편, 전화기 (280) 상에서 또는 근처에서 다른 타겟이 검출되면, 모바일 디바이스 (210) 는 가상 오브젝트 (240) 및/또는 가상 백그라운드 (270) 로 AR 환경을 개시할 수도 있다. 몇몇 실시형태들에서, AR 환경이 개시된 이후 타겟 (230) 또는 미리 결정된 외부 사운드가 더 이상 검출되지 않으면, 모바일 디바이스 (210) 는 AR 환경을 백그라운드에서 계속 작동시키는 동안 다른 태스크들을 수행할 수도 있다. 이 경우, 타겟 (230) 또는 사운드가 검출되면, 모바일 디바이스 (210) 는 AR 환경을 디스플레이하는 것으로 복귀할 수도 있다.

도 3은, 본 개시의 일 실시형태에 따른, 외부 사운드 소스 (360) 로부터의 외부 사운드에 응답하는 가상 오브젝트 (340) 의 다이어그램을 예시한다. 이해의 용이함을 위해, 도 3에서 테이블 및 타겟은 도시되지 않지만, 모바일 디바이스 (310) 에 의해 타겟이 검출된 이후 AR 환경이 모바일 디바이스 (310) 에서 작동 중이라는 것이 이해해야만 한다. 이 AR 환경에서, 모바일 디바이스 (310) 는 실세계 환경에서 존재하는 외부 사운드 소스 (360) 로부터 외부 사운드를 수신한다. 외부 사운드 소스 (360) 는 도 3에 예시된 바와 같이 다른 사람일 수도 있거나, 또는 모바일 디바이스 (310) 에 의해 검출될 수 있는 사운드를 생성하는 임의의 사운드 소스일 수도 있다. 외부 사운드에 응답하여, 가상 오브젝트 (340) 는, 외부 사운드가 생성되는 외부 사운드 소스 (360) 를 가상 오브젝트 (340) 가 인식하고 있다는 것을 나타내는 액션을 수행하도록 구성될 수도 있다. 예를 들면, 가상 오브젝트 (340) 는, 가상 오브젝트 (340) 가 최초 배치되는 타겟의 중심으로부터 외부 사운드 소스 (360) 의 방향을 보든지 또는 그 방향으로 이동할 수도 있다. 가상 오브젝트 (340) 는 수신된 외부 사운드에 응답하여 임의의 액션을 취하거나 아무런 액션을 취하지 않도록 구성될 수도 있다. 예를 들면, 모바일 디바이스 (310) 가 소음인 것으로 인식되는 주변 사운드를 수신하면, 가상 오브젝트 (340) 는 수신된 주변 사운드에 응답하여 어떠한 액션도 수행하지 않을 수도 있다.

도 4는, 본 개시의 일 실시형태에 따른, 증강 현실 환경을 유저에게 제공하는 모바일 디바이스 (110) 의 블록도이다. 모바일 디바이스 (110) 는 제어 유닛 (400), 센서 (420), 저장 유닛 (440), 및 디스플레이 (460) 를 포함한다. 센서 (420) 는 이미지 센서 (420A) 및 사운드 센서 (420B) 를 더 포함한다. 이들 컴포넌트들은 본 개시에서 설명되는 임의의 모바일 디바이스와 결합될 수도 있음이 이해되어야만 한다.

보통의 비디오 모드에서 동작하는 경우, 모바일 디바이스 (110) 의 이미지 센서 (420A) 는 실세계 이미지들을 캡쳐하고, 사운드 센서 (420B) 는 외부 사운드들을 수신한다. 캡쳐된 실세계 이미지들로부터, 제어 유닛 (400) 은 이미지들이 타겟을 포함하는지의 여부를 결정하도록 구성된다. 어떠한 타겟도 검출되지 않으면, 모바일 디바이스 (110) 는 보통의 비디오 모드에서 계속 동작할 수도 있다. 한편, 캡쳐된 이미지들 중 적어도 하나가 타겟을 포함한다는 것을 제어 유닛 (400) 이 결정하면, 제어 유닛 (400) 은 저장 유닛 (440) 에 저장된 AR 어플리케이션을 개시하고 유저에 대해 모바일 디바이스 (110) 의 디스플레이 상에 AR 환경을 디스플레이하도록 구성된다. 예를 들면, 도 1에 도시된 바와 같이, 모바일 디바이스 (110) 가 타겟 (130) 을 캡쳐하는 경우, 제어 유닛 (400) 은 모바일 디바이스 (110) 의 디스플레이 (460) 상의 실세계의 캡쳐된 이미지 상으로 가상 오브젝트 (140) 및 가상 백그라운드 (170) 를 중첩할 수도 있다.

또한, 제어 유닛 (400) 은 사운드 센서 (420B) 에 의해 수신된 외부 사운드를 분석하도록 구성된다. 수신된 외부 사운드에 기초하여, 제어 유닛 (400) 은 AR 환경에서 수행할 가상 오브젝트에 대한 응답을 생성하도록 구성된다. 구체적으로는, 제어 유닛 (400) 은 타겟 (130), 모바일 디바이스 (110) 및 외부 사운드의 사운드 소스 (160) 에 관한 기하학적 정보를 결정한다.

기하학적 정보는 모바일 디바이스 (110), 타겟 (130), 및 사운드 소스 (160) 사이의 방향적 그리고 위치적 관계들을 나타낸다. 모바일 디바이스 (110) 와 타겟 (130) 사이의 기하학적 정보는 카메라 포즈 추정 기술 (camera pose estimation technique) 을 사용하는 것에 의해 결정될 수도 있는데, 그 기술은 타겟 (130) 의 특징점들 (feature points) 및 타겟 (130) 의 물리적 사이즈에 관한 모바일 디바이스 (110) 에 저장된 정보를 사용한다. 카메라 포즈 추정 기술은 종래의 카메라 모델의 재투영 에러들 (re-projection errors) 을 감소시키기 위해 사용된다. 예를 들면, 그 기술은 2D 이미지에서의 그리고 3D 이미지에서의 특징점들 사이의 관련성들을 결정하는 것에 의해 미리 결정된 수의 자유도들을 갖는 카메라 포즈를 추정할 수도 있다. 관련성들에 기초하여, 3D 특징점들은 널리 공지된 카메라 포즈 변환 방법들을 사용하여 2D 특징점들로 투영될 수도 있다.

예를 들면, 모바일 디바이스 (110) 와 타겟 (130) 사이의 거리는, 디스플레이 (460) 상에서의 캡쳐된 타겟의 사이즈에 대한 검출된 타겟 (130) 의 저장된 물리적 사이즈의 비율과 모바일 디바이스 (110) 의 이미지 센서 (420A) 의 초점 거리에 기초하여 결정될 수도 있다. 또한, 모바일 디바이스 (110) 와 사운드 소스 (160) 사이의 기하학적 정보는 빔형성 기술 (beamforming) 을 사용하여 획득될 수도 있다. 예를 들면, 빔형성 기술은 모바일 디바이스 (110) 의 사운드 센서 (420B) 에 의해 사운드 소스로부터 수신된 사운드에 기초하여 사운드 소스 (160) 의 로케이션을 추정할 수도 있다. 위에서 획득된 기하학적 정보에 기초하여, 타겟 (130) 과 사운드 소스 (160) 사이의 기하학적 정보가 결정될 수도 있다. 기하학적 정보를 결정하는 것은 도 8a 및 도 8b를 참조로 더 상세히 설명될 것이다.

또한, 제어 유닛 (400) 은 상이한 사운드 소스들로부터의 복수의 사운드들이, 수신된 외부 사운드에 포함되는지를 결정하도록 구성된다. 이 경우, 수신된 외부 사운드는 복수의 사운드들로 분리될 수도 있다. 또한, 제어 유닛 (400) 은 복수의 사운드들에 각각 대응하는 사운드 소스들의 각각에 대한 기하학적 정보를 결정하도록 구성된다. 결정된 기하학적 정보에 기초하여, 수행할 가상 오브젝트에 대한 액션 또는 무액션 (inaction) 일 수도 있는 응답이 사운드 소스들의 각각에 대해 결정된다. 그 다음, 제어 유닛 (400) 은 수행할 가상 오브젝트 (140) 에 대한 응답들의 출력 순서를 결정할 수도 있다. 응답이 무액션인 경우에, 응답들의 출력 순서는 무액션 응답을 모두 생략할 수도 있다.

또한, 외부 사운드 (예를 들면, 음악, 박수소리 등) 의 사운드 특성들에 기초하여, 제어 유닛 (400) 은 AR 환경에서 수행할 가상 오브젝트 (140) 에 대한 응답을 결정할 수도 있다. 참조 사운드들의 세트 및 대응하는 AR 응답들이 저장 유닛 (440) 에 저장될 수도 있고, 수신된 외부 사운드는 저장된 참조 사운드들과 비교될 수도 있다. 또한, 참조 사운드들의 세트는 수신된 외부 사운드와 비교될 참조 모델로서 사용될 수도 있다. 비교에 기초하여, 제어 유닛 (400) 은 매치하는 참조 사운드에 대한 대응하는 응답을 결정하고, AR 환경에서 수행할 가상 오브젝트 (140) 에 대한 응답을 출력할 수도 있다. 외부 사운드에 기초하여 수행할 가상 오브젝트 (140) 에 대한 응답들은 상기 예들로 제한되지 않으며, 응답들의 순서는 타겟 (130) 에 대한 모바일 디바이스 (110) 의 거리에 기초하여 수행될 수도 있다. 예를 들면, 외부 사운드가 노이즈와 같은 인지되지 않는 사운드 (unrecognized sound) 인 경우, 제어 유닛 (400) 은 아무런 액션도 생성하지 않거나 또는 인지되지 않는 사운드와 관련된 무액션을 생성할 수도 있다. 또한, 제어 유닛 (400) 은 다른 컴포넌트들을 포함하고 도 4에 도시되지 않은 종래의 모바일 디바이스의 기능들을 수행할 수도 있다.

도 5는, 본 개시의 일 실시형태에 따른, 모바일 디바이스 (110) 의 제어 유닛 (400) 의 보다 상세한 블록도이다. 제어 유닛 (400) 은 타겟 오브젝트 검출기 (510), AR 어플리케이션 개시 유닛 (520), 사운드 분석기 (530), 기하학적 정보 계산 유닛 (540), 및 AR 응답 생성기 (550) 를 포함한다.

타겟 오브젝트 검출기 (510) 는 캡쳐된 이미지로부터 미리 결정된 타겟을 검출하도록 구성된다. 캡쳐된 이미지가 타겟 (130) 을 포함한다는 것을 타겟 오브젝트 검출기 (510) 가 결정하면, AR 어플리케이션 개시 유닛 (520) 은 AR 어플리케이션을 개시하여 모바일 디바이스 (110) 의 디스플레이 (460) 상에서 유저 (120) 에 대해 AR 환경을 생성하도록 구성된다. 예를 들면, 도 1에 도시된 바와 같이, 가상 오브젝트 (140) 및 가상 백그라운드 (170) 는 모바일 디바이스 (110) 의 디스플레이 상에 디스플레이된다.

제어 유닛 (400) 에서의 사운드 분석기 (530) 는 사운드 센서 (420B) 로부터 외부 사운드를 검출하도록 구성된다. 외부 사운드가 검출되면, 기하학적 정보 계산 유닛 (540) 은 모바일 디바이스 (110), 타겟 (130), 및 외부 사운드의 사운드 소스 (160) 사이의 기하학적 정보를 결정하도록 구성된다. 캡쳐된 이미지에서 타겟 (130) 의 위치와 방위 (orientation) 를 획득하기 위해, 타겟 (130) 은 모바일 디바이스 (110) 로부터 특정 거리 및 각도에서, 예를 들면, 타겟의 미리 저장된 이미지와 비교된다. 그 비교에 기초하여, 기하학적 정보 계산 유닛 (540) 은 모바일 디바이스 (110) 의 위치, 방위 및 이동을 결정하도록 구성된다. 추가적으로, 모바일 디바이스 (110) 의 이동은, 가속도계, 자력계, 또는 자이로스코프와 같은 모바일 디바이스 (110) 내의 모션 센싱 디바이스로부터의 정보에 기초하여 모니터링될 수도 있다. 또한, 기하학적 정보 계산 유닛 (540) 은, 모바일 디바이스 (110), 타겟 (130), 및 사운드 소스 (160) 사이의 기하학적 정보를 결정하기 위해 모바일 디바이스 (110) 의 위치 및 방위를 결정할 수도 있다. 또한, 모션 센싱 디바이스로부터의 정보는 모바일 디바이스 (110) 의 위치와 이동을 확인할 수 있는 임의의 적절한 방법들과 결합될 수도 있다.

다음에, 기하학적 정보 계산 유닛 (540) 은, 카메라 포즈 추정 기술을 사용하여 모바일 디바이스 (110) 와 타겟 (130) 사이의 기하학적 정보를 결정하도록 그리고 빔형성 기술을 사용하여 사운드 소스의 위치를 포함하는 모바일 디바이스 (110) 와 사운드 소스 (160) 사이의 기하학적 정보를 결정하도록 구성된다. 모바일 디바이스 (110) 의 결정된 위치와 방위, 모바일 디바이스 (110) 와 타겟 (130) 사이의 기하학적 정보, 및 모바일 디바이스 (110) 와 사운드 소스 (160) 사이의 기하학적 정보에 기초하여, 기하학적 정보 계산 유닛 (540) 은 타겟 (130) 과 사운드 소스 (160) 사이의 기하학적 정보를 결정하도록 구성된다.

모바일 디바이스 (110) 와 타겟 (130) 사이의 기하학적 정보는 모바일 디바이스 (110) 와 타겟 (130) 사이의 거리와 각도 중 적어도 하나를 포함할 수도 있다. 이 경우, 모바일 디바이스 (110) 의 위치 및 방위에 기초하여, 모바일 디바이스 (110) 의 주면 (major plane) (예를 들면, 모바일 디바이스 (110) 의 이면 (back plane)) 이 참조 면 (reference plane) 으로서 사용될 수도 있다. 또한, 기하학적 정보 계산 유닛 (540) 은 참조 면에 수직인 벡터 및 참조 면으로부터 타겟으로의 벡터를 결정할 수도 있다. 그 다음, 두 벡터들 사이의 각이 모바일 디바이스 (110) 와 타겟 (130) 사이의 기하학적 정보의 일부로서 결정될 수도 있다. 모바일 디바이스 (110) 와 사운드 소스 (160) 사이의 기하학적 정보는 유사한 방식으로 결정될 수도 있다.

모바일 디바이스 (110) 와 타겟 (130) 사이 및 모바일 디바이스 (110) 와 사운드 소스 (160) 사이의 결정된 기하학적 정보에 기초하여, 기하학적 정보 계산 유닛 (540) 은 타겟 (130) 과 사운드 소스 (160) 사이의 기하학적 정보를 결정할 수도 있다. 예를 들면, 세 지점들, 즉, 모바일 디바이스 (110), 타겟 및 사운드 소스에 기초하여, 타겟 (130) 과 사운드 소스 (160) 사이의 거리는 이전에 결정된 두 벡터들을 사용하여 결정될 수도 있다. 기하학적 정보를 결정하는 상세는 도 8a 및 도 8b를 참조로 설명될 것이다.

모바일 디바이스 (110), 타겟 (130), 및 사운드 소스 (160) 사이의 결정된 기하학적 정보에 기초하여, AR 응답 생성기 (550) 는 AR 환경에서 수행할 가상 오브젝트 (140) 에 대한 응답을 생성하도록 구성된다. 예를 들면, AR 응답 생성기 (550) 는 타겟의 중앙에 서 있는 가상 오브젝트 (140) 가 사운드 소스 (160) 의 방향을 주시하는 응답을 생성할 수도 있다. 대안적으로, 타겟의 중앙에 서 있는 가상 오브젝트 (140) 는 응답으로서 사운드 소스의 방향으로 이동할 수도 있다. AR 응답 생성기 (550) 는 외부 사운드에 기초하여 수행할 가상 오브젝트 (140) 에 대한 임의의 액션 또는 무액션을 생성할 수도 있다. 예를 들면, 외부 사운드, 예컨대 노이즈가 인지되지 않으면, 응답 생성기 (550) 는 어떠한 액션도 생성하지 않거나 또는 인지되지 않은 사운드와 관련된, 수행할 가상 오브젝트 (140) 에 대한 무액션을 생성할 수도 있다. 또한, 사운드 소스 (160) 와 모바일 디바이스 (110) 사이 및/또는 타겟 (130) 과 모바일 디바이스 (110) 사이의 위치적 정보를 식별하기 위해 임의의 적절한 방법들이 사용될 수도 있다.

도 6은, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 수행될 가상 오브젝트에 대한 응답을 생성하는 방법을 예시하는 흐름도 (600) 이다. 최초 610에서, 모바일 디바이스는 보통의 비디오 모드에서 동작한다. 620에서, 비디오 모드에서, 실세계 환경의 실시간의 캡쳐된 이미지들은 타겟이 검출되는지의 여부를 결정하기 위해 연속적으로 추적된다. 미리 결정된 타겟이 캡쳐된 이미지에서 검출되면, AR 어플리케이션이 개시되고 가상 오브젝트 및 가상 환경이 디스플레이된다. 대안적으로, 가상 오브젝트 및 가상 환경은 미리 결정된 외부 사운드의 검출시 디스플레이될 수도 있다. 몇몇 실시형태들에서, 이미지에서 어떤 타겟도 검출되지 않으면, 보통의 비디오 동작이 계속된다. AR 환경은 실시간의 캡쳐된 이미지들을 가상 오브젝트와 결합하는 것에 의해 생성된다. 예를 들면, 도 2를 참조하면, 모바일 디바이스 (210) 가 타겟 (230) 을 포함하는 실세계 이미지들을 캡쳐하면, 가상 오브젝트 (240) 및 가상 백그라운드 (270) 는 모바일 디바이스 (210) 의 디스플레이 상의 AR 환경에서 타겟 (230) 상에 나타난다. 그 다음, 640에서, 모바일 디바이스는 외부 사운드가 수신되는지의 여부를 결정한다. 650에서, 모바일 디바이스는 타겟, 사운드 소스, 및 모바일 디바이스 사이의 기하학적 정보 (예를 들면, 위치적 및 방향적 관계들) 를 결정한다. 예를 들면, 타겟과 사운드 소스 사이의 기하학적 정보는, 위에서 설명된 바와 같이, 모바일 디바이스와 타겟 사이의 기하학적 정보 및 모바일 디바이스와 사운드 소스 사이의 기하학적 정보에 기초하여 결정될 수도 있다. 결정된 기하학적 정보에 기초하여, 가상 오브젝트에 대한 응답이 660에서 생성된다. 그 다음, 670에서, 가상 백그라운드 (예를 들면, 가상 백그라운드 (170)) 와 함께 응답을 수행하는 가상 오브젝트는 모바일 디바이스의 디스플레이 상에 디스플레이된다.

도 7a 및 도 7b는, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트에 대해 수행될 응답을 생성하는 다이어그램들을 예시한다. 최초, 모바일 디바이스 (710) 는 보통의 카메라 동작을 수행한다. 일단 모바일 디바이스 (710) 에 의해 미리 결정된 타겟 (730) 이 검출되면, AR 어플리케이션이 개시될 수도 있고 가상 오브젝트 (740) 및 가상 백그라운드 (770) 를 포함하는 AR 환경은, 도 7a에 도시된 바와 같이, 모바일 디바이스 (710) 의 디스플레이 상에 디스플레이된다.

AR 어플리케이션이 실행하는 동안, 모바일 디바이스 (710) 는 외부 사운드 소스 (760) 로부터 외부 사운드를 검출하도록 구성된다. 외부 사운드에 기초하여, 모바일 디바이스 (710) 는 모바일 디바이스 (710), 타겟 (730) 및 외부 사운드 소스 (760) 사이의 기하학적 정보를 결정한다. 모바일 디바이스 (710), 타겟 (730) 및 외부 사운드 소스 (760) 사이의 기하학적 정보는 AR 환경에서 수행될 가상 오브젝트 (740) 에 대한 응답을 결정하기 위해 사용될 수도 있다. 예를 들면, 도 7b에서, 가상 오브젝트 (740) 는 외부 사운드에 대한 응답으로서 외부 사운드 소스 (760) 의 방향을 주시한다.

도 8a 및 도 8b는, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 AR 응답을 생성하는 모바일 디바이스, 사운드 소스, 및 타겟 사이의 기하학적 관계들을 결정하는 다이어그램들을 예시한다. 기하학적 정보는 일반적으로 두 오브젝트들 사이의 거리 및 각도 중 적어도 하나를 포함한다. 본 개시의 일 실시형태에서, 기하학적 정보는, 모바일 디바이스 (810) 의 사운드 센서 및 이미지 센서를 사용하여 결정될 수도 있다. 도 8a에서, 모바일 디바이스 (810) 와 타겟 (830) 사이의 기하학적 정보는 이미지 센서를 사용하는 것에 의해 결정되고, 한편, 모바일 디바이스 (810) 와 외부 사운드 소스 (860) 사이의 기하학적 정보는 사운드 센서를 사용하여 결정된다.

도 8a에서, 거리 a는 모바일 디바이스 (810) 와 외부 사운드 소스 (860) 사이의 거리를 나타내고, 거리 b는 모바일 디바이스 (810) 와 타겟 (830) 의 로케이션 사이의 거리를 나타내며, 거리 c는 타겟 (830) 의 로케이션과 외부 사운드 소스 (860) 사이의 거리를 나타낸다. 이들 거리들을 측정하는 상세들은 도 8b를 참조로 더 상세히 설명될 것이다. 거리 a는 모바일 디바이스 (810) 의 이면측에서부터 외부 사운드 소스 (860) 의 추정된 위치까지를 나타내고, 거리 b는 모바일 디바이스 (810) 의 이면측에서부터 타겟 (830) 까지를 나타낸다. 또한, 가상 오브젝트 (840) 와 외부 사운드 소스 (860) 사이의 거리 c 및 모바일 디바이스 (810) 와 외부 사운드 소스 (860) 에 대해 형성된 타겟 (830) 의 각도 φ를 계산하기 위해 각도 θ가 또한 결정된다. 거리 c를 계산하는 방법은 도 8b를 참조로 보다 상세히 설명될 것이다.

도 8b는 도 8a로부터의 모바일 디바이스 (810), 타겟 (830), 및 외부 사운드 소스 (860) 사이의 단순화된 기하학적 관계들을 예시한다. 도 8b에서, 외부 사운드 소스 (860) 로부터 수신된 외부 사운드에 기초하여 수행될 가상 오브젝트 (840) 에 대한 응답을 생성하기 위해 거리들 (a, b, 및 c) 이 결정된다. 타겟 (830) 과 외부 사운드 소스 (860) 사이의 거리 c를 계산하기 위해, 거리들 (a 및 b) 및 각도 θ가 결정된다. 모바일 디바이스 (810) 와 외부 사운드 소스 (860) 사이의 거리 a는, 빔형성 기술을 포함하지만 이에 제한되지 않는 종래 기술에서 널리 공지된 임의의 신호 프로세싱을 사용하는 것에 의해 결정될 수도 있다. 빔형성 기술은 모바일 디바이스 (810) 의 사운드 센서에 의해 사운드 소스로부터 수신된 사운드에 기초하여 사운드 소스의 로케이션을 추정한다.

일단 거리 a가 결정되면, 각도 α도 또한 결정될 수도 있다. 먼저, 모바일 디바이스 (810) 의 이면측이 참조 면으로서 사용되고, 참조 면에 수직인 벡터 ν가 결정된다. 그 다음, 벡터 ν와 거리 a 사이의 각도를 계산하는 것에 의해, 참조 면으로부터 외부 사운드 소스 (860) 로의 벡터로서, 각도 α가 결정된다.

또한, 모바일 디바이스 (810) 와 타겟 (830) 사이의 거리 b는, 위에서 설명된 바와 같이, 이미지 센서를 사용하는 종래 기술에서 널리 공지된 카메라 포즈 추정 기술에 의해 결정될 수도 있다. 또한, 벡터 ν와 거리 b 사이의 각도를 계산하는 것에 의해, 참조 면으로부터 타겟 (830) 으로의 벡터로서, 각도 β가 결정된다. 본 개시에 따른 일 실시형태에서, 타겟의 저장된 특징점들의 좌표들과 모바일 디바이스 (810) 의 디스플레이 스크린 상에서의 검출된 타겟 (830) 의 좌표들을 비교함으로써 각도 β가 추정될 수도 있다.

다음에, 각도들 (α 및 β) 을 더하는 것에 의해 각도 θ가 결정된다. 거리 a, 거리 b, 및 각도 θ에 기초하여, 타겟 (830) 과 외부 사운드 소스 (860) 사이의 거리 c가 추정될 수도 있다. 또한, 거리 a, 거리 b, 및 거리 c에 기초하여, 모바일 디바이스 (810) 와 외부 사운드 소스 (860) 에 대해 형성된 타겟 (830) 의 각도 φ가 또한 추정될 수 있다. 거리 c와 각도 θ를 사용하여, 모바일 디바이스 (810) 는 수행될 가상 오브젝트 (840) 에 대한 응답을 결정할 수 있다.

다시 도 8a를 참조하면, 가상 오브젝트 (840) 에 대한 응답은 타겟 (830) 으로부터 외부 사운드 소스 (860) 의 방향으로 주시하는 것이다. 따라서, 유저 (820) 에 대해 디스플레이된 AR 환경에서, 가상 오브젝트 (840) 는, AR 환경의 실세계 인식을 향상시키기 위해, 외부 사운드 소스 (860) 와 가상 오브젝트 (840) 사이의 기하학적 정보에 기초하여 외부 사운드 소스 (860) 의 방향을 주시한다.

도 9a 및 도 9b는, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트 (940) 에 의해 수행될 응답을 생성하는 다이어그램들을 예시한다. 이해의 용이함을 위해, 도 9a 및 도 9b에서 테이블 및 타겟은 도시되지 않지만, 모바일 디바이스 (910) 에 의해 타겟이 검출된 이후 AR 환경이 모바일 디바이스 (910) 에서 작동 중이라는 것을 이해해야만 한다. 도 7b와 마찬가지로, 도 9a에서, AR 어플리케이션이 개시되고, 가상 오브젝트 (940) 는, 외부 사운드에 기초한 응답으로서, 외부 사운드 소스 (960) 의 방향을 주시한다. 모바일 디바이스 (910), 타겟, 및 외부 사운드 소스 (960) 사이의 기하학적 정보는, 위에서 설명된 바와 같이, 가상 오브젝트 (940) 에 대한 응답을 생성할 것을 결정할 수도 있다.

외부 사운드에 응답하여, 가상 오브젝트 (940) 에 대한 추가적인 응답이 도 9b에 도시된 바와 같이 생성될 수도 있다. 외부 사운드가 외부 사운드 소스 (960) 로부터 계속적으로 수신되는 동안, 가상 오브젝트 (940) 는, 도 7b를 참조로 설명된 바와 같이, 외부 사운드 소스 (960) 의 방향을 계속 주시한다. 외부 사운드로부터, 미리 결정된 단어, 예컨대 "스마일"이 검출되면, "스마일"에 기초하여 수행할 가상 오브젝트 (940) 에 대한 대응하는 응답이 모바일 디바이스 (910) 의 저장 유닛에서 검색될 수도 있다. 예를 들면, 도 9b에 도시된 바와 같이, 단어 "스마일"에 대한 응답은 가상 오브젝트 (940) 에 대한 웃는 얼굴의 표현이다. 따라서, 가상 오브젝트 (940) 는 AR 환경에서 단어 "스마일"에 기초하여 웃는다. 대안적으로, 수신된 사운드는 외부 디바이스 예컨대 서버로 전송될 수도 있는데, 서버는 사운드들의 미리 결정된 리스트와 대응하는 응답들을 저장한다. 이 경우, 외부 디바이스는 수신된 사운드에 대응하는 응답을 검색하고 모바일 디바이스에서 수행할 가상 오브젝트 (940) 에 대한 응답을 제공한다.

도 10a 및 도 10b는, 본 개시의 다른 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트 (1040) 에 의해 수행될 응답을 생성하는 다이어그램들을 예시한다. 도 10a에서, 가상 오브젝트 (1040) 및 가상 백그라운드 (1070) 를 포함하는 AR 어플리케이션은 타겟의 검출에 응답하여 개시된다. 이 예시된 실시형태에서, 가상 백그라운드 (1070) 는, 상이한 타입들의 사운드 특성들, 예를 들면, 노이즈, 팝, 클래식, 및 박수 소리들을 식별하는 복수의 영역들, 예컨대 원들을 포함하고, 가상 오브젝트 (1040) 는 중심 영역에 로케이팅된다. 대안적으로, 가상 백그라운드 (1070) 의 영역들은, 상이한 타입들의 사운드 특성들을 식별하는 것을 용이하게 하기 위한 가상의 오브젝트들, 기하학적 형상들, 및 지도들을 포함하는 임의의 형상 또는 형태로 이루어질 수도 있다.

일단 외부 사운드 소스 (1060) 로부터 외부 사운드가 수신되면, 모바일 디바이스 (1010) 는, 외부 사운드가 AR 환경에서의 복수의 영역들 중 하나에서 나타내어진 사운드 특성을 갖는다고 식별될 수도 있는지의 여부를 결정한다. 예를 들면, 외부 사운드가 수신되면, 적어도 하나의 사운드 피쳐가 외부 사운드로부터 추출된다. 그 다음, 외부 사운드의 추출된 외부 사운드 피쳐는 복수의 참조 사운드 모델들, 예를 들면, 가상 백그라운드 (1070) 의 복수의 영역들에서 식별된 사운드 특성들 (또는 사운드 클래스들) 과 관련된 통계적 모델들 (예를 들면, 가우시안 혼합 모델 (Gaussian mixture model; GMM)) 과 비교될 수도 있다. 참조 사운드 모델들은 모바일 디바이스 (1010) 의 저장 유닛에 미리 저장될 수도 있거나 또는 외부 메모리, 서버 등과 같은 모바일 디바이스 (1010) 외부에 저장될 수도 있다. 추출된 사운드 피쳐의 사운드 특성을 식별하기 위해, 모바일 디바이스 (1010) 는, 추출된 사운드 피쳐들이 참조 사운드 모델들의 각각과 얼마나 매칭하는지를 결정하는 스코어 동작 (score operation) 을 수행하도록 구성될 수도 있다.

스코어 동작에서, 매칭 결과들에 기초하여 참조 사운드 모델들의 각각에 수치적 값이 할당될 수도 있다. 그 다음, 몇몇 실시형태들에서, 모바일 디바이스 (1010) 는 스코어 동작에서 수신된 최고 수치 값을 갖는 (미리 결정된 사운드 클래스를 식별하는) 참조 사운드 모델을 결정하고 수행할 가상 오브젝트 (1040) 에 대한 대응하는 응답을 출력할 수도 있다. 예를 들면, 도 10b에 도시된 바와 같이, 스코어 동작의 결과로서 팝 음악을 나타내는 참조 사운드 모델이 최고 수치 값을 받으면, 가상 오브젝트 (1040) 는 "팝"으로 라벨이 붙은 영역으로 이동한다. 다른 실시형태에서, 스코어 동작은 몇몇 참조 사운드 모델들에 대해서만 수치 값을 제공할 수도 있다. 대안적으로, 스코어 동작은, 단지, 참조 사운드 모델들 중 하나에서 특징지어지고 있는 추출된 사운드 피쳐의 우도 (likelihood) 를 제공할 수도 있다.

도 11은, 본 개시의 일 실시형태에 따른, 외부 사운드에 기초하여 가상 오브젝트에 의해 수행될 응답을 생성하는 방법을 예시하는 흐름도 (1100) 이다. 최초, 가상 오브젝트 및 가상 백그라운드를 포함하는 AR 어플리케이션이 개시된다. 외부 사운드가 모바일 디바이스 (1010) 에 의해 수신되면, 1120에서, 외부 사운드로부터 사운드 피쳐가 추출된다. 그 다음, 추출된 사운드 피쳐는 참조 사운드 모델들과 비교되고, 비교 결과들에 기초하여 참조 사운드 모델들에 수치적 값이 주어진다. 1140에서, 모바일 디바이스 (1010) 는 스코어 동작의 결과들에 기초하여 수신된 최고 수치 값을 갖는 참조 사운드 모델을 검색한다. 일단 최고 수치 값을 갖는 참조 사운드 모델이 결정되면, 1160에서, 이러한 참조 사운드 모델과 관련된, 수행할 가상 오브젝트 (1040) 에 대한 응답이 결정된다. 그 다음, 1180에서, 가상 오브젝트는 AR 환경에서 대응하는 응답을 수행한다.

도 12는, 본 개시의 일 실시형태에 따른, 가상 오브젝트에 대한 응답들을 생성하는 제어 유닛 (400) 에 대한 상세한 블록도를 예시한다. 예시된 실시형태에서, 사운드 분석기 (530), 기하학적 정보 계산 유닛 (540), 및 AR 응답 생성기 (550) 를 포함하는 도 5의 제어 유닛 (400) 의 일부가 보다 상세히 설명된다. 구체적으로는, 사운드 분석기 (530) 는 사운드 분리기 (1210) 및 사운드 소스 식별 유닛 (1220) 을 포함하고, AR 응답 생성기 (550) 는 응답 생성 유닛 (1230), 응답 순서 선택기 (1240), 및 응답 출력 제어 유닛 (1250) 을 포함한다.

다음에, 상이한 사운드 소스들로부터의 복수의 사운드들을 포함하는 외부 사운드가 모바일 디바이스 (110) 의 사운드 센서에 의해 수신될 수도 있다. 그 다음, 외부 사운드는 사운드 분리기 (1210) 로 제공되고, 사운드 분리기는 외부 사운드를 상이한 사운드 소스들로부터 발생하는 복수의 사운드들로 분리하도록 구성된다. 일단 분리된 사운드들이 사운드 소스 식별 유닛 (1220) 으로 제공되면, 사운드 소스 식별 유닛 (1220) 은 모바일 디바이스 (110) 에 대한 사운드 소스들 각각의 거리와 방향을 결정하는 것에 의해 분리된 사운드들의 각각과 관련된 사운드 소스를 식별한다. 그 다음, 사운드 소스 식별 정보는, 도 8a 및 도 8b를 참조로 설명된 바와 같이, 모바일 디바이스 (110), 타겟, 및 복수의 사운드들의 각각의 사운드 소스 사이의 기하학적 정보를 결정하는 기하학적 정보 계산 유닛 (540) 으로 제공된다.

AR 응답 생성기 (550) 는 기하학적 정보 계산 유닛 (540) 으로부터 기하학적 정보를 수신하도록 그리고 AR 환경에서 수행할 가상 오브젝트에 대한 응답들을 생성하도록 구성된다. 구체적으로는, AR 응답 생성기 (550) 의 응답 생성 유닛 (1230) 은, 예를 들면, 도 5에서 설명된 바와 같이, 기하학적 정보 계산 유닛 (540) 으로부터의 기하학적 정보에 기초하여 사운드 소스들의 각각에 대한 응답을 생성하도록 구성된다. 생성된 응답에 기초하여, 응답 순서 선택기 (1240) 는 사운드 소스들의 각각에 대한 응답들의 순서를 출력한다. 예를 들면, 응답 순서 선택기 (1240) 는, 타겟으로부터의 식별된 사운드 소스들의 근접도와 같은 미리 결정된 조건에 따라 수행할 가상 오브젝트에 대한 응답들에 대한 출력 순서를 결정할 수도 있다. 일 실시형태에서, 응답 순서 선택기 (1240) 는 사운드 소스와 타겟 사이의 상대적인 거리에 따라 응답들에 대한 출력 순서를 결정할 수도 있다. 한편, 출력 순서에 대한 조건은 어떤 타입의 사운드와 관련된 응답만을 출력하는 것일 수도 있다. 또한, 출력 순서는 외부 사운드가 수신되기 이전 또는 그 후에 또는 랜덤하게 유저에 의해 선택되거나 결정될 수도 있다. 일단 응답들에 대한 출력 순서가 결정되면, 응답 출력 제어 유닛 (1250) 은 AR 환경에서 수행할 가상 오브젝트에 대한 응답들을 출력하도록 구성된다. 또한, 하나 이상의 분리된 사운드들이 임의의 식별가능한 사운드 소스들에 대응하지 않으면, 비대응 사운드들은 주변 사운드로서 식별되어 무시될 수도 있다.

도 13은, 본 개시의 일 실시형태에 따른, 복수의 사운드들과 연관된 가상 오브젝트에 대한 응답을 생성하는 방법을 예시하는 흐름도 (1300) 이다. 1310에서, 모바일 디바이스의 사운드 센서는 AR 어플리케이션이 실행하는 동안 복수의 사운드 소스들로부터 외부 사운드를 수신한다. 외부 사운드가 복수의 사운드 소스들로부터의 복수의 사운드들을 포함하면, 1320에서, 외부 사운드는 복수의 사운드들로 분리된다. 그 다음, 1330에서, 복수의 사운드들의 각각에 대한 상이한 사운드 소스가 식별된다. 일단 복수의 사운드들에 대한 사운드 소스들이 식별되면, 사운드 소스들의 로케이션과 방향에 관한 정보는, 예를 들면, 위에서 설명된 바와 같은 빔형성 기술을 사용하여 결정된다. 사운드 소스들에 대한 사운드 소스 정보를 사용하여, 모바일 디바이스, 타겟, 및 사운드 소스들의 각각 사이의 기하학적 정보가 결정된다.

1340에서, 이러한 기하학적 정보를 사용하여, 수행할 가상 오브젝트에 대한 응답은 각각의 사운드 소스 및 분리된 사운드에 대해 결정된다. 일단 사운드 소스 및/또는 사운드들에 대한 응답들이 결정되면, 1350에서, 미리 결정된 조건에 따라 AR 환경에서 수행할 가상 오브젝트에 대한 응답들의 출력 순서가 결정된다. 그 다음, 1360에서, 가상 오브젝트는 출력 순서에 따라 응답들을 수행한다.

도 14a 및 도 14b는, 본 개시의 일 실시형태에 따른, 복수의 사운드 소스들로부터의 외부 사운드에 기초하여 가상 오브젝트 (1440) 에 의해 수행될 AR 응답들의 순서를 생성하는 것을 예시하는 다이어그램들이다. 도 2a와 마찬가지로, 최초, 모바일 디바이스 (1410) 의 이미지 센서에 의해 타겟 (1430) 이 검출되어, AR 어플리케이션을 개시한다. AR 어플리케이션의 개시시, 모바일 디바이스 (1410) 의 디스플레이 상의 AR 환경에서 가상 오브젝트 (1440) 및 가상 백그라운드 (1470) 가 렌더링된다. AR 어플리케이션이 실행하는 동안, 도 14a에 예시된 바와 같이 모바일 디바이스 (1410) 의 사운드 센서는 다수의 사운드 센서들 (1480 및 1490) 로부터 외부 사운드를 수신한다. 외부 사운드가 수신되면, 모바일 디바이스 (1410) 는 그 사운드를 상이한 사운드 소스들로부터의 복수의 사운드들로 분리한다. 수신된 각각의 외부 사운드에 대해, 분리된 사운드들의 각각에 대한 대응하는 사운드 소스가 식별된다. 사운드 소스들의 식별에 기초하여, 사운드 소스들 및/또는 분리된 사운드들의 각각에 대한 응답이 생성된다. 일단 응답들이 생성되면, 수행할 가상 오브젝트 (1440) 에 대한 응답들의 출력 순서가 선택되고, 그 다음, 응답들의 출력 순서에 기초하여, 가상 오브젝트는 AR 환경에서 그 응답들을 수행한다.

몇몇 실시형태들에서, 가상 오브젝트 (1440) 로부터 사운드 소스들 (1480 및 1490) 의 거리에 기초하여, 수행할 가상 오브젝트에 대한 응답들로서 출력되어야 하는 미리 결정된 출력 시퀀스가 생성된다. 예를 들면, 도 14a에 도시된 바와 같이, 사운드 소스 (1480) 는 사운드 소스 (1490) 보다 타겟 (1430) 에 더 가깝게 로케이팅된다. 이 예시된 실시형태에서, 가상 오브젝트 (1440) 에 대한 출력 순서는 먼저 타겟 (1440) 에 더 가까운 사운드 소스 (1480) 를 주시하고, 그 다음 타겟 (1430) 으로부터 더 멀리 떨어진 사운드 소스 (1490) 를 주시하는 것을 포함한다. 따라서, 가상 오브젝트 (1440) 는, 도 14a에서의 사운드 소스 (1480) 로부터의 사운드에 기초하여, 타겟 (1430) 에 더 가깝게 로케이팅된 사운드 소스 (1480) 를 먼저 응시한다. 그 다음, 가상 오브젝트 (1440) 는, 도 14b에 도시된 바와 같은 사운드 소스 (1490) 로부터의 사운드에 응답하여, 타겟 (1430) 으로부터 더 멀리 떨어져 로케이팅된 사운드 소스 (1490) 를 주시한다.

도 15는, 본 개시의 다른 실시형태에 따른, 복수의 사운드 소스들로부터의 외부 사운드에 기초하여 가상 오브젝트 (1540) 에 의해 수행될 응답들의 순서를 생성하는 다이어그램을 예시한다. 도 15에서, 모바일 디바이스 (1510) 에 의해 수신된 외부 사운드는 사운드 소스 (1580) 로부터의 사운드 및 사운드 소스 (1590) 로부터의 사운드를 포함한다. 수신된 각각의 외부 사운드에 대해, 분리된 사운드들의 각각에 대한 대응하는 사운드 소스가 식별된다. 또한, 분리된 사운드들은, 그 사운드들이 모바일 디바이스 (1510) 의 스토리지에 저장된 사운드 특성들을 포함하는지의 여부를 결정하기 위해 분석된다. 이 경우, 도 9a 및 도 9b를 참조로 설명된 것들과 유사한 사운드 특성 식별 동작들이 수행될 수도 있다. 복수의 사운드들의 사운드 특성들 및 사운드 소스들의 식별에 기초하여, 사운드 소스들 및/또는 분리된 사운드들의 각각에 대한 응답이 생성될 수도 있다. 즉, 사운드 소스 (1580) 로부터의 사운드는 노이즈이고 수행할 가상 오브젝트 (1540) 에 대한 임의의 응답들과 관련되지 않는 것으로 결정되고, 반면 사운드 소스 (1590) 로부터의 사운드에 대한 응답은 사운드 소스 (1590) 를 주시하는 것이다. 따라서, 도 15에 예시된 바와 같이, 가상 오브젝트 (1540) 는 사운드 소스로부터의 사운드에 기초하여 사운드 소스 (1590) 만을 주시하고, 외부 사운드에 응답하여 사운드 소스 (1580) 를 주시하지 않는다.

도 16a 및 도 16b는, 본 개시의 일 실시형태에 따른, 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 거리에 기초하여 가상 오브젝트 (1640) 의 사운드 볼륨을 조정하는 다이어그램들을 예시한다. 가상 오브젝트 (1640) 에 의해 생성된 사운드의 볼륨은 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 거리에 기초하여 변경될 수도 있다. 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 거리는, 위에서 언급된 바와 같이, 카메라 포즈 추정 기술을 사용하는 것에 의해 추정될 수도 있다. 예를 들면, 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 상대적 거리는, 이전에 캡쳐된 타겟과 현재 캡쳐된 타겟의 사이즈들을 비교하는 것에 의해 계산된다. 이전에 캡쳐된 타겟의 사이즈가 현재 캡쳐된 타겟의 사이즈보다 더 작다면, 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 거리가 감소되었다고 결정된다. 역으로, 이전에 캡쳐된 타겟의 사이즈가 현재 캡쳐된 타겟의 사이즈보다 더 크다면, 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 거리가 증가되었다고 결정된다. 모바일 디바이스 (1610) 와 타겟 (1630) 사이의 상대적 거리에 기초하여, AR 환경에서의 사운드의 볼륨은 그 거리를 반영하도록 조정될 수 있다.

도 16a에서, 가상 오브젝트 (1640) 및 가상 백그라운드 (1670) 를 포함하는 AR 어플리케이션은 타겟 (1630) 의 검출에 응답하여 개시된다. 이 예시된 실시형태에서, 모바일 디바이스 (1610) 는, AR 환경에서의 가상 오브젝트 (1640) 에 의해 수행된 액션들에 따라, 사운드, 예를 들면, 엔진 사운드를 출력하도록 구성된다. 도 16b에 도시된 바와 같이, 모바일 디바이스 (1610) 가 타겟 (1630) 으로부터 더 멀리 이동하면, 가상 오브젝트 (1640) 는 AR 환경에서 더 작게 보이게 될 것이다. 현실성 (reality) 을 향상시키기 위해, 모바일 디바이스 (1610) 가 타겟 (1630) 으로부터 더 멀리 이동함에 따라 가상 오브젝트 (1640) 에 의해 생성된 사운드 볼륨도 또한 감소한다. 역으로, 모바일 디바이스 (1610) 가 타겟 (1630) 에 더 가까이 이동함에 따라 가상 오브젝트 (1640) 에 의해 생성된 사운드 볼륨은 증가한다. 따라서, 사운드 볼륨은 타겟 (1630) 에 대한 모바일 디바이스 (1610) 의 로케이션에 기초하여 조정될 수도 있다.

도 17은, 본 개시의 일 실시형태에 따른, 모바일 디바이스와 타겟 사이의 거리에 기초하여 가상 오브젝트의 사운드 볼륨을 조정하는 방법을 예시하는 흐름도 (1700) 이다. 도 17은 도 16a 및 도 16b를 참조로 설명될 것이다. 1710에서, 타겟 (1630) 이 검출되면, AR 어플리케이션이 개시되고, 모바일 디바이스 (1610) 의 디스플레이 상의 AR 환경에서 가상 오브젝트 (1640) 와 가상 백그라운드 (1670) 가 디스플레이된다. 이때, 가상 오브젝트 (1640) 는 어떤 사운드 볼륨에서 엔진 사운드를 또한 출력한다. 1730에서, 모바일 디바이스 (1610) 가 타겟 (1630) 으로부터 더 멀리 이동하면, 1750에서, 모바일 디바이스 (1610) 는 모바일 디바이스 (1610) 의 이동에 기초하여 가상 오브젝트 (1640) 에 의해 생성된 사운드 볼륨을 감소시키도록 조정한다. 또한, 1750에서, 모바일 디바이스 (1610) 는, 가상 오브젝트 (1640) 가 AR 환경에서 더 작게 보이게 되도록 AR 환경을 조정한다. 그 다음, 1770에서, 조정된 AR 환경 및 사운드 볼륨이 모바일 디바이스 (1610) 의 디스플레이로 출력된다.

도 18은 본 개시의 AR 어플리케이션이 실행될 수도 있는 예시적인 모바일 디바이스 (1800) 의 구성을 예시한다. 모바일 디바이스 (1800) 의 구성은 도 1 내지 도 18을 참조하여 설명된 상기 실시형태들에 따른 모바일 디바이스에서 구현될 수도 있다. 모바일 디바이스 (1800) 는 셀룰러 전화기, 단말기, 핸드셋, PDA (personal digital assistant), 무선 모뎀, 무선 전화기 등일 수도 있다. 무선 통신 시스템은 CDMA (Code Division Multiple Access) 시스템, GSM (Global System for Mobile Communications) 시스템, W-CDMA (Wideband CDMA) 시스템, LTE (Long Term Evolution) 시스템, LTE 어드밴스드 시스템 등일 수도 있다. 또한, 모바일 디바이스 (1800) 는, 예를 들어, Wi-Fi 다이렉트, 블루투스, 또는 플래시링크 (FlashLinq) 기술을 이용하여 다른 모바일 디바이스와 직접 통신할 수도 있다.

모바일 디바이스 (1800) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들이 안테나 (1812) 에 의해 수신되어, 수신기 (RCVR; 1814) 로 제공된다. 수신기 (1814) 는 수신된 신호를 컨디셔닝하고 디지털화하여, 추가적인 프로세싱을 위해 디지털 섹션에 컨디셔닝되고 디지털화된 신호와 같은 샘플들을 제공한다. 송신 경로에서, 송신기 (TMTR; 1816) 는 디지털 섹션 (1820) 으로부터 송신될 데이터를 수신하고, 그 데이터를 프로세싱하고 컨디셔닝해서, 변조된 신호를 생성하고, 변조된 신호는 안테나 (1812) 를 통해 기지국들로 송신된다. 수신기 (1814) 및 송신기 (1816) 는 CDMA, GSM, W-CDMA, LTE, LTE 어드밴스드 등을 지원할 수도 있는 트랜시버의 일부일 수도 있다.

디지털 섹션 (1820) 은, 예를 들어, 모뎀 프로세서 (1822), RISC/DSP (reduced instruction set computer/digital signal processor; 1824), 제어기/프로세서 (1826), 내부 메모리 (1828), 일반화된 오디오 인코더 (1832), 일반화된 오디오 디코더 (1834), 그래픽스/디스플레이 프로세서 (1836), 및 외부 버스 인터페이스 (external bus interface; EBI; 1838) 와 같은 다양한 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1822) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1824) 는 모바일 디바이스 (1800) 에 대해 범용 프로세싱 및 특수 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1826) 는 디지털 섹션 (1820) 내의 다양한 프로세싱 및 인터페이스 유닛들의 동작을 제어할 수도 있다. 내부 메모리 (1828) 는 디지털 섹션 (1820) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장할 수도 있다.

일반화된 오디오 인코더 (1832) 는 오디오 소스 (1842), 마이크 (1843) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1834) 는 코딩된 오디오 데이터에 대한 디코딩을 수행할 수도 있고, 출력된 신호들을 스피커/헤드셋 (1844) 으로 제공할 수도 있다. 그래픽스/디스플레이 프로세서 (1836) 는 디스플레이 유닛 (1846) 에 나타내어질 수도 있는 그래픽들, 비디오들, 이미지들, 및 텍스트들에 대한 프로세싱을 수행할 수도 있다. EBI (1838) 는 디지털 섹션 (1820) 과 메인 메모리 (1848) 사이의 데이터의 전송을 용이하게 할 수도 있다.

디지털 섹션 (1820) 은 하나 이상의 프로세서들, DSP들, 마이크로프로세서들, RISC들 등으로 구현될 수도 있다. 디지털 섹션 (1820) 은 또한 하나 이상의 ASIC들 (application specific integrated circuits) 및/또는 일부 다른 타입의 집적 회로들 (ICs) 상에 제작될 수도 있다.

일반적으로, 본원에 설명된 임의의 디바이스는, 무선 전화기, 셀룰러 전화기, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 PC (personal computer) 카드, PDA, 외부 모뎀이나 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 타입들의 디바이스들을 나타낼 수도 있다. 디바이스는, 액세스 단말기 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말, 원격 유닛, 유저 디바이스, 유저 장비 (user equipment), 핸드헬드 디바이스 등과 같은 다양한 이름들을 가질 수도 있다. 본원에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합들을 가질 수도 있다.

본원에 기술된 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본원의 개시와 연계하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들이 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는지의 여부는, 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들은 본 개시의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.

하드웨어 구현에서, 기법들을 수행하는 데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스들 (digital signal processing devices; DSPD들), 프로그램가능 논리 디바이스들 (rogrammable logic devices; PLD들), 필드 프로그램가능 게이트 어레이들 (field programmable gate arrays; FPGA들), 프로세서들, 제어기들, 마이크로제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.

따라서, 본원의 개시와 연계하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA나 다른 프로그램 가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성의 조합으로서 구현될 수도 있다.

펌웨어 및/또는 소프트웨어 구현에 있어서, 기법들은 랜덤 액세스 메모리 (random access memory; RAM), 판독 전용 메모리 (read-only memory; ROM), 불휘발성 RAM (non-volatile random access memory; NVRAM), PROM (programmable read-only memory), EPROM (erasable programmable read-only memory), EEPROM (electrically erasable PROM), 플래시 메모리, 컴팩트 디스크 (compact disc; CD), 자기 또는 광학 데이터 스토리지 디바이스 등과 같은 컴퓨터 판독가능 매체 상에 저장된 명령들로서 구현될 수도 있다. 명령들은 하나 이상의 프로세서들에 의해 실행가능할 수도 있고, 프로세서(들) 로 하여금 본원에 설명된 기능의 특정 양태들을 수행하게 할 수도 있다.

소프트웨어로 구현되면, 상기 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독 가능한 매체 상에 저장되거나 또는 컴퓨터 판독 가능한 매체를 통해 전송될 수도 있다. 컴퓨터 판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체들일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 소망의 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다.

예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 사용된 디스크 (disk) 와 디스크 (disc) 는, CD, 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크들 (disks) 은 보통 자기적으로 데이터를 재생하고, 반면 디스크들 (discs) 은 레이저를 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 공지된 임의의 다른 형태의 저장 매체 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세가 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있도록, 프로세서에 커플링된다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 존재할 수도 있다. ASIC은 유저 단말 내에 존재할 수도 있다. 대안으로, 프로세서와 저장 매체는 유저 단말에서 개별 컴포넌트들로서 존재할 수도 있다.

본 개시의 앞선 설명은 당업자들이 본 개시를 행하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시의 다양한 수정예들이 당업자들에게 쉽게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시의 취지 또는 범위를 벗어나지 않으면서 다양한 변형예들에 적용될 수도 있다. 따라서, 본 개시는 본원에 설명된 예들에 제한되도록 의도된 것이 아니고, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위가 부여되도록 의도된다.

비록 예시적인 구현예들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 활용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 주제의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그들에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.

비록 본 주제가 구조적 특징들 및/또는 방법론적 작용들에 특정한 언어로 설명되었으나, 첨부된 청구항들에서 정의된 주제가 위에서 설명된 특정 특징들 또는 작용들로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시적인 형태로서 설명된다.

Claims

모바일 디바이스의 증강 현실 (augmented reality; AR) 어플리케이션에서 외부 사운드에 응답하는 방법으로서,
상기 모바일 디바이스의 이미지 센서에 의해 타겟이 캡쳐되고 있음을 검출하는 단계;
상기 타겟이 검출되고 있는 것에 응답하여 상기 AR 어플리케이션에서 가상 오브젝트를 개시하는 단계;
상기 모바일 디바이스의 적어도 하나의 사운드 센서에 의해, 사운드 소스로부터 상기 외부 사운드를 수신하는 단계;
상기 사운드 소스와 상기 타겟 사이의 제 1의 기하학적 정보를 결정하는 단계로서, 상기 사운드 소스와 상기 타겟 사이의 방향을 결정하는 단계를 포함하는, 상기 제 1의 기하학적 정보를 결정하는 단계;
수신된 상기 외부 사운드와 관련된 적어도 하나의 사운드 클래스에 기초하여 상기 AR 어플리케이션에서 수행할 상기 가상 오브젝트에 대한 적어도 하나의 응답을 생성하는 단계; 및
상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하는 단계를 포함하고,
상기 제 1의 기하학적 정보를 결정하는 단계는:
상기 모바일 디바이스와 상기 타겟 사이의 제 2의 기하학적 정보를 결정하는 단계;
상기 모바일 디바이스와 상기 사운드 소스 사이의 제 3의 기하학적 정보를 결정하는 단계; 및
상기 제 2 및 상기 제 3의 기하학적 정보에 기초하여 상기 제 1의 기하학적 정보를 계산하는 단계를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
삭제
제 1항에 있어서,
상기 제 2의 기하학적 정보는 상기 모바일 디바이스와 상기 타겟 사이의 거리, 및 상기 모바일 디바이스의 면 (plane) 에 수직인 축과 상기 타겟 사이의 각도 중 적어도 하나를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 제 3의 기하학적 정보는 상기 모바일 디바이스와 상기 사운드 소스 사이의 거리, 및 상기 모바일 디바이스의 면에 수직인 축과 상기 사운드 소스 사이의 각도 중 적어도 하나를 포함하고,
상기 제 3의 기하학적 정보는 카메라 포즈 추정 (camera pose estimation) 에 기초하여 결정되는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 제 1의 기하학적 정보는 상기 타겟과 상기 사운드 소스 사이의 거리, 및 상기 사운드 소스와 상기 모바일 디바이스에 대해 형성된 상기 타겟의 각도 중 적어도 하나를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 적어도 하나의 응답은 상기 제 1의 기하학적 정보에 더 기초하여 생성되는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 적어도 하나의 응답을 생성하는 단계는:
상기 수신된 외부 사운드로부터 적어도 하나의 사운드 피쳐를 추출하는 단계; 및
추출된 상기 사운드 피쳐를 상기 적어도 하나의 사운드 클래스에 대응하는 것으로서 식별하는 단계를 포함하고,
상기 적어도 하나의 사운드 클래스는 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답과 관련되는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 외부 사운드를 수신하는 단계는:
상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하는 단계;
상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면, 상기 수신된 외부 사운드를 복수의 사운드들로 분리하는 단계;
분리된 상기 복수의 사운드들과 관련된 추가적인 사운드 소스들을 식별하는 단계; 및
식별된 상기 사운드 소스들과 상기 타겟 사이의 제 4의 기하학적 정보를 결정하는 단계를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 8항에 있어서,
상기 적어도 하나의 응답을 생성하는 단계는:
상기 가상 오브젝트에 대해, 상기 식별된 사운드 소스들의 각각과 관련된 상기 적어도 하나의 응답을 결정하는 단계로서, 상기 적어도 하나의 응답은 수행할 상기 가상 오브젝트에 대한 액션 또는 무액션을 포함하는, 상기 적어도 하나의 응답을 결정하는 단계;
상기 가상 오브젝트에 대한 상기 적어도 하나의 응답의 순서를 결정하는 단계; 및
결정된 상기 순서에 기초하여 상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하는 단계를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 가상 오브젝트는 상기 AR 어플리케이션에서의 캐릭터, 군중, 백그라운드 중 적어도 하나를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 모바일 디바이스의 상기 이미지 센서에 의해 상기 타겟이 캡쳐되는 것에 응답하여, 상기 모바일 디바이스의 디스플레이에서, 상기 AR 어플리케이션에서 상기 타겟이 아니라 상기 가상 오브젝트를 디스플레이하는 단계; 및
상기 모바일 디바이스의 상기 이미지 센서에 의해 상기 타겟이 캡쳐되고 있지 않다는 것을 검출하는 것에 응답하여, 상기 모바일 디바이스에서 상기 AR 어플리케이션의 디스플레이를 중지하는 단계를 더 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 제 1의 기하학적 정보의 결정은, 상기 모바일 디바이스, 상기 타겟, 및 상기 사운드 소스의 로케이션들을 결정하는 단계를 더 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
제 1항에 있어서,
상기 외부 사운드를 수신하는 단계는:
상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하는 단계;
상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면, 상기 수신된 외부 사운드를 복수의 사운드들로 분리하는 단계;
상기 타겟과 상기 2개 이상의 사운드 소스들의 각각 사이의 제 4의 기하학적 정보를 결정하는 단계;
분리된 상기 사운드들의 각각을 적어도 하나의 특정 사운드 클래스에 대응하는 것으로서 식별하는 단계로서, 상기 적어도 하나의 특정 사운드 클래스는 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답과 관련되는, 상기 분리된 상기 사운드들의 각각을 적어도 하나의 특정 사운드 클래스에 대응하는 것으로서 식별하는 단계; 및
상기 제 4의 기하학적 정보 및 상기 적어도 하나의 특정 사운드 클래스에 더 기초하여 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답을 생성하는 단계를 포함하는, 모바일 디바이스의 증강 현실 어플리케이션에서 외부 사운드에 응답하는 방법.
증강 현실 (augmented reality; AR) 어플리케이션에서 외부 사운드에 응답하는 디바이스로서,
이미지 센서 및 적어도 하나의 사운드 센서를 포함하며, 타겟을 포함하는 이미지들 및 하나의 사운드 소스로부터의 상기 외부 사운드를 수신하도록 구성된 센서; 및
제어 유닛을 포함하고,
상기 제어 유닛은:
상기 이미지들에서 상기 타겟을 검출하도록 구성된 타겟 오브젝트 검출기;
검출된 상기 타겟에 응답하여 상기 AR 어플리케이션에서 가상 오브젝트를 개시하도록 구성된 어플리케이션 개시 유닛;
상기 하나의 사운드 소스와 상기 타겟 사이의 제 1의 기하학적 정보를 결정하도록 구성된 기하학적 정보 계산 유닛으로서, 상기 하나의 사운드 소스와 상기 타겟 사이의 방향을 결정하는 것을 포함하는, 상기 제 1의 기하학적 정보를 결정하도록 구성된 기하학적 정보 계산 유닛; 및
수신된 상기 외부 사운드와 관련된 적어도 하나의 사운드 클래스에 기초하여 상기 AR 어플리케이션에서 수행할 상기 가상 오브젝트에 대한 적어도 하나의 응답을 생성하도록 그리고 상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하도록 구성된 AR 응답 생성기를 포함하고,
상기 기하학적 정보 계산 유닛은:
상기 디바이스와 상기 타겟 사이의 제 2의 기하학적 정보를 결정하고;
상기 디바이스와 상기 하나의 사운드 소스 사이의 제 3의 기하학적 정보를 결정하고; 그리고
상기 제 2 및 상기 제 3의 기하학적 정보에 기초하여 상기 제 1의 기하학적 정보를 계산하도록 더 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
삭제
제 14항에 있어서,
상기 제 2의 기하학적 정보는 상기 디바이스와 상기 타겟 사이의 거리, 및 상기 디바이스의 면에 수직인 축과 상기 타겟 사이의 각도 중 적어도 하나를 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 제 3의 기하학적 정보는 상기 디바이스와 상기 하나의 사운드 소스 사이의 거리, 및 상기 디바이스의 면에 수직인 축과 상기 하나의 사운드 소스 사이의 각도 중 적어도 하나를 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 제 1의 기하학적 정보는 상기 타겟과 상기 하나의 사운드 소스 사이의 거리, 및 상기 하나의 사운드 소스와 상기 디바이스에 대해 형성된 상기 타겟의 각도 중 적어도 하나를 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 제 3의 기하학적 정보는 카메라 포즈 추정에 기초하여 결정되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 AR 응답 생성기는:
상기 수신된 외부 사운드로부터 적어도 하나의 사운드 피쳐를 추출하고; 그리고
추출된 상기 사운드 피쳐를 상기 적어도 하나의 사운드 클래스에 대응하는 것으로서 식별하도록 더 구성되고,
상기 적어도 하나의 사운드 클래스는 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답과 관련되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하고, 상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면 상기 수신된 외부 사운드를 복수의 사운드들로 분리하고, 분리된 상기 복수의 사운드들과 관련된 추가적인 사운드 소스들을 식별하고, 그리고 식별된 상기 사운드 소스들과 상기 타겟 사이의 제 4의 기하학적 정보를 결정하도록 구성된 사운드 분석기를 더 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 21항에 있어서,
상기 AR 응답 생성기는:
상기 가상 오브젝트에 대해, 상기 식별된 사운드 소스들의 각각과 관련된 상기 적어도 하나의 응답을 결정하는 것으로서, 상기 적어도 하나의 응답은 수행할 상기 가상 오브젝트에 대한 액션 또는 무액션 (inaction) 을 포함하는, 상기 적어도 하나의 응답을 결정하고;
상기 가상 오브젝트에 대한 상기 적어도 하나의 응답의 순서를 결정하고; 그리고
결정된 상기 순서에 기초하여 상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하도록 더 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 가상 오브젝트는 상기 AR 어플리케이션에서의 캐릭터, 군중, 백그라운드 중 적어도 하나를 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 타겟 오브젝트 검출기가 상기 타겟을 검출하는 것에 응답하여, 상기 AR 어플리케이션은 상기 타겟이 아니라 상기 가상 오브젝트를 디스플레이하고; 그리고
상기 타겟이 상기 이미지들 내에 있지 않다는 것을 상기 타겟 오브젝트 검출기가 검출하는 것에 응답하여, 상기 제어 유닛은 상기 AR 어플리케이션의 디스플레이를 중지하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 기하학적 정보 계산 유닛은 상기 디바이스, 상기 타겟, 및 상기 하나의 사운드 소스의 로케이션들을 결정하도록 더 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 14항에 있어서,
상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하고, 상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면 상기 수신된 외부 사운드를 복수의 사운드들로 분리하고, 상기 2개 이상의 사운드 소스들의 각각과 상기 타겟 사이의 제 4의 기하학적 정보를 결정하고, 분리된 상기 사운드들의 각각을 적어도 하나의 특정 사운드 클래스에 대응하는 것으로서 식별하고, 그리고 상기 제 4의 기하학적 정보 및 상기 적어도 하나의 특정 사운드 클래스에 더 기초하여 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답을 생성하도록 구성된 사운드 분석기를 더 포함하고,
상기 적어도 하나의 특정 사운드 클래스는 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답과 관련되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
증강 현실 (augmented reality; AR) 어플리케이션에서 외부 사운드에 응답하기 위한 모바일 디바이스에 대한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은 프로세서로 하여금:
상기 모바일 디바이스의 이미지 센서에 의해 타겟이 캡쳐되고 있음을 검출하고;
상기 타겟이 검출되고 있음에 응답하여 상기 AR 어플리케이션에서 가상 오브젝트를 개시하고;
상기 모바일 디바이스의 적어도 하나의 사운드 센서에 의해, 하나의 사운드 소스로부터 상기 외부 사운드를 수신하고;
상기 하나의 사운드 소스와 상기 타겟 사이의 제 1의 기하학적 정보를 결정하는 것으로서, 상기 하나의 사운드 소스와 상기 타겟 사이의 방향을 결정하는 것을 포함하는, 상기 하나의 사운드 소스와 상기 타겟 사이의 제 1의 기하학적 정보를 결정하고;
수신된 상기 외부 사운드와 관련된 적어도 하나의 사운드 클래스에 기초하여 상기 AR 어플리케이션에서 수행할 상기 가상 오브젝트에 대한 적어도 하나의 응답을 생성하고; 그리고
상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하는
동작들을 수행하게 하고,
상기 제 1의 기하학적 정보를 결정하는 것은:
상기 모바일 디바이스와 상기 타겟 사이의 제 2의 기하학적 정보를 결정하고;
상기 모바일 디바이스와 상기 하나의 사운드 소스 사이의 제 3의 기하학적 정보를 결정하고; 그리고
상기 제 2 및 상기 제 3의 기하학적 정보에 기초하여 상기 제 1의 기하학적 정보를 계산하는 것을 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하기 위한 모바일 디바이스에 대한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체.
삭제
제 27항에 있어서,
상기 외부 사운드를 수신하는 것은:
상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하고;
상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면, 상기 수신된 외부 사운드를 복수의 사운드들로 분리하고;
분리된 상기 복수의 사운드들과 관련된 추가적인 사운드 소스들을 식별하고; 그리고
식별된 상기 추가적인 사운드 소스들과 상기 타겟 사이의 제 4의 기하학적 정보를 결정하는 것을 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하기 위한 모바일 디바이스에 대한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체.
제 29항에 있어서,
상기 적어도 하나의 응답을 생성하는 것은:
상기 가상 오브젝트에 대해, 상기 식별된 사운드 소스들의 각각과 관련된 상기 적어도 하나의 응답을 결정하는 것으로서, 상기 적어도 하나의 응답은 수행할 상기 가상 오브젝트에 대한 액션 또는 무액션을 포함하는, 상기 적어도 하나의 응답을 결정하고;
상기 가상 오브젝트에 대한 상기 적어도 하나의 응답의 순서를 결정하고; 그리고
결정된 상기 순서에 기초하여 상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하는 것을 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하기 위한 모바일 디바이스에 대한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체.
증강 현실 (augmented reality; AR) 어플리케이션에서 외부 사운드에 응답하는 디바이스로서,
모바일 디바이스의 이미지 센서에 의해 타겟이 캡쳐되고 있음을 검출하는 수단;
상기 타겟이 검출되고 있는 것에 응답하여 상기 AR 어플리케이션에서 가상 오브젝트를 개시하는 수단;
하나의 사운드 소스로부터 상기 외부 사운드를 수신하는 수단;
상기 하나의 사운드 소스와 상기 타겟 사이의 제 1의 기하학적 정보를 결정하는 수단으로서, 상기 하나의 사운드 소스와 상기 타겟 사이의 방향을 결정하는 수단을 포함하는, 상기 하나의 사운드 소스와 상기 타겟 사이의 제 1의 기하학적 정보를 결정하는 수단; 및
수신된 상기 외부 사운드와 관련된 적어도 하나의 사운드 클래스에 기초하여 상기 AR 어플리케이션에서 수행할 상기 가상 오브젝트에 대한 적어도 하나의 응답을 생성하고 상기 가상 오브젝트로 하여금 상기 적어도 하나의 응답을 수행하게 하는 수단을 포함하고,
상기 제 1의 기하학적 정보를 결정하는 수단은:
상기 디바이스와 상기 타겟 사이의 제 2의 기하학적 정보를 결정하고;
상기 디바이스와 상기 하나의 사운드 소스 사이의 제 3의 기하학적 정보를 결정하고; 그리고
상기 제 2 및 상기 제 3의 기하학적 정보에 기초하여 상기 제 1의 기하학적 정보를 계산하도록 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
삭제
제 31항에 있어서,
상기 제 2의 기하학적 정보는 상기 디바이스와 상기 타겟 사이의 거리, 및 상기 디바이스의 면에 수직인 축과 상기 타겟 사이의 각도 중 적어도 하나를 포함하고, 그리고
상기 제 3의 기하학적 정보는 상기 디바이스와 상기 하나의 사운드 소스 사이의 거리, 및 상기 디바이스의 상기 면에 수직인 상기 축과 상기 하나의 사운드 소스 사이의 각도 중 적어도 하나를 포함하는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 31항에 있어서,
상기 제 3의 기하학적 정보는 카메라 포즈 추정에 기초하여 결정되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 31항에 있어서,
상기 적어도 하나의 응답을 생성하는 수단은:
상기 수신된 외부 사운드로부터 적어도 하나의 사운드 피쳐를 추출하고; 그리고
추출된 상기 사운드 피쳐를 상기 적어도 하나의 사운드 클래스에 대응하는 것으로서 식별하도록 구성되고,
상기 적어도 하나의 사운드 클래스는 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답과 관련되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 31항에 있어서,
상기 외부 사운드를 수신하는 수단은:
상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하고;
상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면, 상기 수신된 외부 사운드를 복수의 사운드들로 분리하고;
분리된 상기 복수의 사운드들과 관련된 추가적인 사운드 소스들을 식별하고; 그리고
식별된 상기 추가적인 사운드 소스들과 상기 타겟 사이의 제 4의 기하학적 정보를 결정하도록 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 36항에 있어서,
상기 적어도 하나의 응답을 생성하는 수단은:
상기 가상 오브젝트에 대해, 상기 식별된 사운드 소스들의 각각과 관련된 상기 적어도 하나의 응답을 결정하는 것으로서, 상기 적어도 하나의 응답은 수행할 상기 가상 오브젝트에 대한 액션 또는 무액션을 포함하는, 상기 적어도 하나의 응답을 결정하고;
상기 가상 오브젝트에 대한 상기 적어도 하나의 응답의 순서를 결정하고; 그리고
결정된 상기 순서에 기초하여 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답을 생성하도록 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.
제 31항에 있어서,
상기 외부 사운드를 수신하는 수단은 상기 외부 사운드가 2개 이상의 사운드 소스들로부터 수신되는지의 여부를 결정하고, 상기 외부 사운드가 상기 2개 이상의 사운드 소스들로부터 수신되면, 상기 수신된 외부 사운드를 복수의 사운드들로 분리하도록 구성되고;
상기 결정하는 수단은 상기 타겟과 상기 2개 이상의 사운드 소스들의 각각 사이의 제 4의 기하학적 정보를 결정하도록 구성되고;
상기 생성하는 수단은, 분리된 상기 사운드들의 각각을, 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답과 관련되는 적어도 하나의 특정 사운드 클래스에 대응하는 것으로서 식별하도록, 그리고 상기 제 4의 기하학적 정보 및 상기 적어도 하나의 특정 사운드 클래스에 더 기초하여 상기 가상 오브젝트에 대한 상기 적어도 하나의 응답을 생성하도록 구성되는, 증강 현실 어플리케이션에서 외부 사운드에 응답하는 디바이스.