KR20210131422A - 오디오 프로세싱 - Google Patents
오디오 프로세싱 Download PDFInfo
- Publication number
- KR20210131422A KR20210131422A KR1020217031988A KR20217031988A KR20210131422A KR 20210131422 A KR20210131422 A KR 20210131422A KR 1020217031988 A KR1020217031988 A KR 1020217031988A KR 20217031988 A KR20217031988 A KR 20217031988A KR 20210131422 A KR20210131422 A KR 20210131422A
- Authority
- KR
- South Korea
- Prior art keywords
- parameters
- physical environment
- model
- environment
- acoustic
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B11/00—Measuring arrangements characterised by the use of optical techniques
- G01B11/02—Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B17/00—Measuring arrangements characterised by the use of infrasonic, sonic or ultrasonic vibrations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- General Physics & Mathematics (AREA)
Abstract
향상 현실 환경에서 사운드를 프로세싱하는 것은, 물리적 환경의 이미지에 기초하여, 물리적 환경의 음향 모델을 생성하는 것을 포함할 수 있다. 마이크로폰 어레이에 의해 캡처된 오디오 신호들은 물리적 환경 내의 사운드를 캡처할 수 있다. 이들 오디오 신호들에 기초하여, 물리적 환경의 하나 이상의 측정된 음향 파라미터들이 생성될 수 있다. 타깃 오디오 신호는 물리적 환경의 모델 및 측정된 음향 파라미터들을 사용하여 프로세싱되어, 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들을 생성할 수 있다. 출력 오디오 채널들은 복수의 스피커들을 구동하는 데 사용될 수 있다. 다른 태양들이 또한 설명되고 청구된다.
Description
본 명세서의 개시내용의 일 태양은 향상 현실(enhanced reality, ER) 환경에서의 오디오 프로세싱에 관한 것이다.
소비자 전자 디바이스들(예를 들어, 모바일폰 또는 태블릿)에 임베드될 수 있는 마이크로폰 어레이들은, 사운드를 캡처하고 공간(3D) 사운드를 렌더링하기 위한 수단을 용이하게 할 수 있다. 마이크로폰들에 의해 캡처된 신호들은 공간에 관한 3D 음향 정보를 포함할 수 있다. 3D 오디오 렌더링은 오디오 신호(예컨대, 마이크로폰 신호 또는 다른 녹음되거나 합성된 오디오 콘텐츠)의 프로세싱으로서 기술되어, 다중 채널 스피커 셋업, 예컨대 스테레오 스피커들, 서라운드-사운드 확성기들, 스피커 어레이들, 또는 헤드폰들에 의해 생성된 사운드를 산출할 수 있다. 스피커들에 의해 생성된 사운드는 청취자에 의해, 3차원 공간 내의 청취자 주위의 특정 방향 또는 전체로부터 오는 것으로 인지될 수 있다. 예를 들어, 그러한 가상 음원들 중 하나 이상의 가상 음원들은 청취자에 의해 청취자의 뒤쪽, 위쪽, 또는 아래쪽에 있는 것으로 인지되거나, 또는 청취자의 일 면으로부터 다른 면으로 패닝될 사운드 프로그램에서 생성될 수 있다.
다양한 향상 현실 기술들과 관련하여 그러한 시스템들을 사용하기 위한 전자 시스템들 및 기법들의 다양한 예들이 기술된다.
물리적 설정은 다양한 사람들이 전자 시스템들의 사용없이 감지하고/하거나 그와 상호작용할 수 있는 세계를 지칭한다. 물리적 공원과 같은 물리적 설정들은, 예를 들어, 물리적 야생 동물, 물리적 나무들, 및 물리적 식물들과 같은 물리적 요소들을 포함한다. 사람들은 예를 들어, 시각, 후각, 촉각, 미각, 및 청각을 포함하는 하나 이상의 감각들을 사용하여, 물리적 설정을 직접 감지하고/하거나 달리 그와 상호작용할 수 있다.
물리적 설정과는 대조적으로, 향상 현실(ER) 설정은 전자 시스템을 사용하여 다양한 사람들이 감지하고/하거나 그렇지 않으면 그와 상호작용할 수 있는 완전히(또는 부분적으로) 컴퓨터-생성된 설정을 지칭한다. ER에서, 사람의 움직임들이 부분적으로 모니터링되고, 그것에 응답하여, ER 설정에서의 적어도 하나의 가상 객체에 대응하는 적어도 하나의 속성이 하나 이상의 물리 법칙들을 준수하는 방식으로 변경된다. 예를 들어, ER 시스템이 위쪽을 바라보는 사람을 검출하는 것에 응답하여, ER 시스템은 그러한 사운드 및 외관이 물리적 설정에서 어떻게 변화할 것인지에 부합하는 방식으로 사람에게 제시되는 다양한 오디오 및 그래픽을 조정할 수 있다. ER 설정에서의 가상 객체(들)의 속성(들)에 대한 조정들은 또한, 예를 들어, 이동의 표현들(예컨대, 음성 커맨드들)에 응답하여 이루어질 수 있다.
사람은, 시각, 후각, 미각, 촉각, 및 청각과 같은 하나 이상의 감각들을 사용하여 ER 객체를 감지하고/하거나 그와 상호작용할 수 있다. 예를 들어, 사람은 다차원 또는 공간 음향 설정을 생성하는 객체들을 감지하고/하거나 그와 상호작용할 수 있다. 다차원 또는 공간 음향 설정들은 사람에게 다차원 공간에서 개별적인 음향 소스들에 대한 인식을 제공한다. 그러한 객체들은 또한 음향 투명도를 인에이블할 수 있는데, 이는 컴퓨터-생성 오디오의 유무와 상관없이 물리적 설정으로부터 오디오를 선택적으로 통합할 수 있다. 일부 ER 설정들에서, 사람은 음향 객체들만을 감지하고/하거나 이들과만 상호작용할 수 있다.
가상 현실(VR)은 ER의 일례이다. VR 설정은 하나 이상의 감각들에 대한 컴퓨터-생성 감각 입력들만을 포함하도록 구성되는 향상된 설정을 지칭한다. VR 설정은 사람이 감지하고/하거나 그와 상호작용할 수 있는 복수의 가상 객체들을 포함한다. 사람은 컴퓨터-생성 설정 내의 사람의 액션들의 적어도 일부의 시뮬레이션을 통해, 그리고/또는 컴퓨터-생성 설정 내의 사람 또는 그녀의 존재의 시뮬레이션을 통해, VR 설정 내의 가상 객체들을 감지하고/하거나 이들과 상호작용할 수 있다.
혼합 현실(MR; mixed reality)은 ER의 다른 예이다. MR 설정은 컴퓨터-생성 감각 입력들(예컨대, 가상 객체들)을 물리적 설정으로부터의 감각 입력들, 또는 물리적 설정으로부터의 감각 입력들의 표현과 통합하도록 구성된 향상된 설정을 지칭한다. 현실 스펙트럼 상에서, MR 설정은 한편으로의 완전히 물리적인 설정과, 다른 한편으로의 VR 설정 사이에 존재하지만, 이들을 포함하지는 않는다.
일부 MR 설정들에서, 컴퓨터-생성 감각 입력들은 물리적 설정으로부터의 감각 입력들에 대한 변경들에 기초하여 조정될 수 있다. 또한, MR 설정들을 제시하기 위한 일부 전자 시스템들은 실제 객체들(즉, 물리적 설정으로부터의 물리적 요소들 또는 이들의 표현들)과 가상 객체들 사이의 상호작용을 가능하게 하기 위하여 물리적 설정에 대한 장소 및/또는 배향을 검출할 수 있다. 예를 들어, 시스템은, 예를 들어 가상 나무가 물리적 구조물에 대해 고정된 것으로 보이도록, 이동들을 검출하고 그에 따라 컴퓨터-생성 감각 입력들을 조정할 수 있다.
증강 현실(AR; augmented reality)은 MR의 예이다. AR 설정은 하나 이상의 가상 객체들이 물리적 설정(또는 그의 표현) 상에 중첩되는 향상된 설정을 지칭한다. 일례로서, 전자 시스템은 불투명 디스플레이, 및 물리적 설정의 비디오 및/또는 이미지들을 캡처하기 위한 하나 이상의 이미징 센서들을 포함할 수 있다. 그러한 비디오 및/또는 이미지들은, 예를 들어, 물리적 설정의 표현들일 수 있다. 비디오 및/또는 이미지들은 가상 객체들과 조합되며, 이 조합은 이어서 불투명 디스플레이 상에 디스플레이된다. 물리적 설정은 물리적 설정의 이미지들 및/또는 비디오를 통해 간접적으로 사람에 의해 보여질 수 있다. 따라서, 사람은 물리적 설정 상에 중첩된 가상 객체들을 관찰할 수 있다. 시스템이 물리적 설정의 이미지들을 캡처하고, 캡처된 이미지들을 사용하여 불투명 디스플레이 상에 AR 설정을 디스플레이할 때, 디스플레이되는 이미지들은 비디오 패스-스루(pass-through)라고 불린다. 대안적으로, 투명 또는 반투명 디스플레이가 AR 설정을 디스플레이하기 위한 전자 시스템에 포함될 수 있어서, 개인이 투명 또는 반투명 디스플레이들을 통해 직접 물리적 설정을 볼 수 있다. 가상 객체들은, 개인이 물리적 설정 위에 중첩된 가상 객체들을 관찰하도록 반투명 또는 투명 디스플레이 상에 디스플레이될 수 있다. 또 다른 예에서, 가상 객체들을 물리적 설정 상으로 투영하기 위해 투영 시스템이 사용될 수 있다. 예를 들어, 가상 객체들은 물리적 표면 상에 또는 홀로그래프로서 투영되어, 개인이 물리적 설정 상에 중첩된 가상 객체들을 관찰할 수 있다.
AR 설정은 또한 물리적 설정의 표현이 컴퓨터-생성 감각 데이터에 의해 수정되는 향상된 설정을 지칭할 수 있다. 예를 들어, 물리적 설정의 표현의 적어도 일부가 그래픽적으로 수정되어(예를 들어, 확대됨), 수정된 부분이 (원래 캡처된 이미지(들)의 충실하게 재현된 버전은 아닐 수 있지만) 원래 캡처된 이미지(들)를 여전히 대표한다. 대안적으로, 비디오 패스-스루를 제공하는 데 있어서, 하나 이상의 센서 이미지들은 이미지 센서(들)에 의해 캡처된 시점과는 상이한 특정 시점을 부과하기 위해 수정될 수 있다. 다른 예로서, 물리적 설정의 표현의 부분들은 그래픽적으로 그 부분들을 모호하게 하거나 배제함으로써 변경될 수 있다.
증강 가상성(AV)은 MR의 다른 예이다. AV 설정은 가상 또는 컴퓨터-생성 설정이 물리적 설정으로부터의 하나 이상의 감각 입력들을 통합하는 향상된 설정을 지칭한다. 그러한 감각 입력(들)은 물리적 설정의 하나 이상의 특성들의 표현들을 포함할 수 있다. 가상 객체는, 예를 들어 이미징 센서(들)에 의해 캡처된 물리적 요소와 연관된 색상을 포함할 수 있다. 대안적으로, 가상 객체는, 예를 들어, 이미징, 온라인 날씨 정보, 및/또는 날씨-관련 센서들을 통해 식별된 날씨 조건들과 같은, 물리적 설정에 대응하는 현재 날씨 조건들과 일치하는 특성들을 채택할 수 있다. 다른 예로서, AR 공원은 가상 구조물들, 식물들 및 나무들을 포함할 수 있지만, AR 공원 설정 내의 동물들은 물리적 동물들의 이미지들로부터 정확하게 재현된 특징부들을 포함할 수 있다.
다양한 시스템들은 사람들이 ER 설정들을 감지하고/하거나 그와 상호작용할 수 있게 한다. 예를 들어, 헤드 장착형 시스템은 하나 이상의 스피커들 및 불투명 디스플레이를 포함할 수 있다. 다른 예로서, 외부 디스플레이(예컨대, 스마트폰)가 헤드 장착형 시스템 내에 통합될 수 있다. 헤드 장착형 시스템은 물리적 설정의 오디오를 캡처하기 위한 마이크로폰들, 및/또는 물리적 설정의 이미지들/비디오를 캡처하기 위한 이미지 센서들을 포함할 수 있다. 투명 또는 반투명 디스플레이가 또한 헤드 장착형 시스템에 포함될 수 있다. 반투명 또는 투명 디스플레이는, 예를 들어, (이미지들을 표현하는) 광이 그를 통해 사람의 눈으로 지향되는 기판을 포함할 수 있다. 디스플레이는 또한 LED들, OLED들, 규소 상의 액정, 레이저 스캐닝 광원, 디지털 광 프로젝터, 또는 이들의 임의의 조합을 포함할 수 있다. 광이 투과되는 기판은 광학 반사기, 홀로그래픽 기판, 광 도파관, 광학 조합기, 또는 이들의 임의의 조합일 수 있다. 투명 또는 반투명 디스플레이는, 예를 들어 투명/반투명 상태와 불투명 상태 사이에서 선택적으로 전환할 수 있다. 다른 예에서, 전자 시스템은 투영-기반 시스템일 수 있다. 투영-기반 시스템에서, 이미지들을 사람의 망막 상으로 투영하기 위해 망막 투영이 사용될 수 있다. 대안적으로, 투영-기반 시스템은 또한, 예를 들어, 가상 객체들을 홀로그래프로서 투영하거나 물리적 표면 상에 투영하는 것과 같이, 가상 객체들을 물리적 설정으로 투영할 수 있다. ER 시스템의 다른 예들은 그래픽을 디스플레이하도록 구성된 윈도우, 헤드폰, 이어폰, 스피커 배열, 그래픽을 디스플레이하도록 구성된 렌즈, 헤드 업 디스플레이, 그래픽을 디스플레이하도록 구성된 자동차 윈드쉴드, 입력 메커니즘(예컨대, 햅틱 기능을 갖거나 갖지 않는 제어기들), 데스크톱 또는 랩톱 컴퓨터, 태블릿, 또는 스마트폰을 포함한다.
향상 현실 환경에서, 향상 현실 환경 내의 사용자는 향상 현실 설정의 실내 음향과 매칭되는 컴퓨터 생성 사운드들을 들을 수 있다. 일 태양에서, 향상 현실 설정에 배치되는 가상화된 음원들은, 가상화된 음원이 향상 현실 설정과 유사한 물리적 설정에 있는 것처럼 들리도록 프로세싱될 수 있다. 일 태양에서, 향상 현실 설정은 사용자의 물리적 환경에 매칭되도록 생성될 수 있다. 향상 현실 환경으로 임포트되는 사운드들은 그들이 향상 현실 환경에서 자연스럽게 들리도록 렌더링될 수 있다.
예를 들어, 두 명의 사람들이 동일한 물리적 방(방 A) 안에 있고, 제3자가 상이한 물리적 방 안에 있는 경우, 방법 또는 시스템은, 제3자의 음성을 방 A의 환경 내에 가져옴으로써, 모든 사용자들이 그들이 방 A 안에 있는 것처럼 들리는 향상 현실 경험을 생성할 수 있다. 이것은 사용자들에게 더 실감나고 자연스러운 향상 현실 경험을 제공할 수 있다. 그러나, 제3자의 음성을 그들이 방 A 안에 있는 것처럼 들리도록 렌더링하는 데 있어서의 문제점은, 렌더링이 잔향(reverberation), 방 크기, 방 기하구조, 방 안의 객체들, 표면들의 흡음, 스피치 재생을 위한 방향 패턴(지향성), 및 다른 방 속성들과 같은 방 A의 고유 속성들을 고려해야 한다는 것이다. 또한, 제3자는 제3자의 스피치에서 들릴 수 있는 상이한 음향 속성들을 가질 수 있는 상이한 방 안에 있다.
향상 현실 설정과 매칭되도록 제3자의 음성 또는 가상 음원들을 프로세싱하는 것이 유익할 수 있다. 예를 들어, 일 태양에서, 이미지들은 디바이스의 카메라로부터 생성될 수 있다. 디바이스는 컴퓨터 태블릿 또는 스마트폰과 같은 모바일 디바이스일 수 있다. 디바이스는 또한 머리 착용형 디바이스일 수 있다. 카메라들, 예를 들어, 그러한 디바이스들과 일체형인 카메라들은 물리적 설정 또는 환경의 이미지들을 생성할 수 있다. 방 안의 객체들 및 벽들의 위치들을 포함한 방 구성 추정을 제안하기 위한 객체 검출, 방 기하구조 추정, 방 레이아웃 추출, 및 객체 정렬이 이미지에서 검출될 수 있고, 이어서, 모델링될 수 있다.
이미지(들)에 기초하여 생성된 이러한 정보는 디바이스의 마이크로폰들로부터 획득되는 방의 음향 파라미터들에 대한 추정치들과 조합될 수 있다. 음향 파라미터 추정과 함께 음향 시뮬레이션에 대해 최적화된 방 기하구조(예컨대, 물리적 방 구성의 음향적으로 정확하거나 단순화된 버전)를 사용하여, 물리적 환경의 음향들을 특성화할 수 있다. 특성화는 프로세싱을 위해 다른 애플리케이션들 또는 사용자들에게 전송될 수 있다. 이러한 경우에 있어서, 가상 설정 내로 데려온 다른 사용자들은 향상 현실 설정의 것과 매칭된 가상화된 오디오를 경험할 수 있으며, 이는 이어서, 예를 들어 사용자의 물리적 환경의 것과 매칭된다.
일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하기 위한 방법이 기술된다. 방법은, 카메라에 의해 캡처된 이미지를 수신하는 단계 - 이미지는 물리적 환경을 보여줌 -; 이미지에 기초하여, 물리적 환경의 추정된 모델을 생성하는 단계 - 추정된 모델은 물리적 환경의 3차원 표현을 포함함 -; 마이크로폰 어레이에 의해 캡처된 오디오 신호들을 수신하는 단계 - 오디오 신호들은 물리적 환경 내의 사운드를 캡처함 -; 수신된 오디오 신호들에 기초하여 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성하는 단계; 및 추정된 모델 및 측정된 음향 파라미터들을 사용하여 타깃 오디오 신호를 프로세싱하여, 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들을 생성하는 단계 - 출력 오디오 채널들은 복수의 스피커들을 구동하는 데 사용됨 - 를 포함한다.
일 태양에서, 타깃 오디오 신호의 프로세싱은, 측정된 음향 파라미터들에 기초하여, 추정된 모델의 하나 이상의 음향 표면 재료 파라미터들을 수정하여, 물리적 환경의 업데이트된 모델을 생성하는 단계; 업데이트된 모델에 기초하여 하나 이상의 임펄스 응답들을 선택하거나 생성하는 단계; 및 타깃 오디오 신호 및 타깃 위치를 하나 이상의 임펄스 응답들과 콘볼루션하여 복수의 출력 오디오 채널들을 생성하는 단계를 포함한다.
일 태양에서, 향상 현실 환경 내의 오디오를 프로세싱하는 제조 물품이 기술된다. 제조 물품은, 물리적 환경의 이미지를 캡처하는 카메라; 물리적 환경 내의 사운드를 캡처하는 마이크로폰 어레이; 복수의 스피커들(예컨대, 헤드폰들); 및 명령어들을 저장한 기계 판독가능 매체를 포함하고, 명령어들은, 프로세서에 의해 실행될 때, 제조 물품으로 하여금, 이미지에 기초하여, 물리적 환경의 추정된 모델을 생성하는 것 - 추정된 모델은 물리적 환경의 3차원 표현을 포함함 -; 마이크로폰 어레이에 의해 캡처된 오디오 신호들을 수신하는 것; 수신된 오디오 신호들에 기초하여 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성하는 것; 추정된 모델 및 측정된 음향 파라미터들을 사용하여 타깃 오디오 신호를 프로세싱하여, 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들을 생성하는 것; 및 가상화된 환경에서 출력 오디오 채널들로 복수의 스피커들을 구동시키는 것을 수행하게 한다.
상기의 발명의 내용은 본 발명의 모든 태양들의 총망라 목록을 포함하지는 않는다. 본 발명이 상기에서 요약된 다양한 태양들의 모든 적합한 조합들로부터 실시될 수 있는 모든 시스템들 및 방법들뿐만 아니라, 하기의 발명을 실시하기 위한 구체적인 내용에서 개시되고 청구범위 섹션에서 특히 지적되는 것들을 포함한다는 것이 고려된다. 그러한 조합들은 상기의 발명의 내용에서 구체적으로 언급되지 않은 특정의 장점들을 가질 수 있다.
본 명세서의 개시내용의 여러가지 태양들은 첨부 도면들의 도면들에서 제한으로서가 아니라 예로서 예시되며, 첨부 도면들에서 유사한 도면 부호들은 유사한 요소들을 표시한다. 본 개시내용에서 "일" 또는 "하나의" 태양에 대한 참조들이 반드시 동일한 태양에 대한 것은 아니며, 이들은 적어도 하나를 의미한다는 것에 유의해야 한다. 또한, 간결함 및 도면들의 총 수를 감소시키기 위해, 주어진 도면은 본 개시내용의 하나 초과의 태양의 특징부들을 예시하는데 사용될 수 있으며, 도면의 모든 요소들이 주어진 태양에 대해 요구되지는 않을 수 있다.
도 1은 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 2는 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 3은 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 4는 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 5는 일 태양에서, 디바이스 및 제조 물품을 도시한다.
도 6은 일 태양에서 음향 파라미터 생성기의 흐름도를 도시한다.
도 7은 프로그래밍된 프로세서를 갖는 오디오 시스템의 예시적인 구현예를 도시한다.
도 1은 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 2는 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 3은 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 4는 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하는 디바이스 또는 방법의 흐름도를 도시한다.
도 5는 일 태양에서, 디바이스 및 제조 물품을 도시한다.
도 6은 일 태양에서 음향 파라미터 생성기의 흐름도를 도시한다.
도 7은 프로그래밍된 프로세서를 갖는 오디오 시스템의 예시적인 구현예를 도시한다.
본 개시내용의 몇몇 양태들이 이제 첨부 도면들을 참조하여 설명된다. 설명된 부분들의 형상들, 상대적인 위치들 및 다른 태양들이 명시적으로 정의되지 않을 때마다, 본 발명의 범주는 단지 예시의 목적을 위해 의도되는 도시된 부분들로만 제한되지는 않는다. 또한, 수많은 세부사항들이 기재되지만, 본 개시내용의 일부 태양들이 이들 세부사항들 없이 실시될 수 있다는 것이 이해된다. 다른 예들에서, 본 설명의 이해를 모호하게 하지 않기 위해, 잘 알려진 회로들, 구조들, 및 기술들은 상세히 나타내어져 있지 않다.
향상 현실 사운드 프로세싱
이제 도 1을 참조하면, 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하기 위한 시스템, 방법, 또는 디바이스(10)가 도시되어 있다. 향상 현실 환경은 공간화된(spatialized) 사운드, 및 선택적으로, 물리적 환경을 묘사하는 이미지들에 렌더링되는 가상 콘텐츠를 갖는 시각적 성분을 포함할 수 있다.
카메라(16)는 물리적 환경의 하나 이상의 장면 이미지들(20)을 생성한다. 추정된 모델 생성기(22)는, 하나 이상의 장면 이미지들에 기초하여, 물리적 환경의 추정된 모델을 생성한다. 추정된 모델은 물리적 환경의 3차원 공간 표현, 및 물리적 환경의 하나 이상의 환경 파라미터들을 포함할 수 있다.
하나 이상의 환경 파라미터들은 방 및 검출된 객체들의 하나 이상의 음향 표면 재료 파라미터들 및/또는 산란 파라미터들을 포함할 수 있다. 환경 파라미터들은 주파수 의존적일 수 있는데, 예컨대, 상이한 파라미터들이 상이한 주파수들에 대응하는 것으로 추정될 수 있다. 추정된 모델은, 예를 들어, 복셀 그리드(voxel grid) 또는 메시 데이터 구조로서, 공지의 데이터 구조들에 저장될 수 있다. 음향 표면 재료 파라미터들은 표면, 객체 또는 방의 재료(예컨대, 표면 재료)에 의존적인 흡음 파라미터들을 포함할 수 있다. 표면 또는 객체의 산란 파라미터들은 표면 또는 객체의 크기, 구조, 및/또는 형상에 기초한 또는 그에 의해 영향을 받는 기하학적 속성일 수 있다. 따라서, 추정된 모델은 방 및 객체들의 환경 파라미터들 및 물리적 환경에서 검출된 객체들뿐만 아니라 물리적 방 기하구조를 포함할 수 있다.
추정된 모델은 객체 인식과 같은 컴퓨터 시각 기법들을 통해 생성될 수 있다. 트레이닝된 신경 네트워크들은 이미지 내의 객체들 및 재료 표면들을 인식하는 데 활용될 수 있다. 표면들은 2차원 이미지(예컨대, 비트맵)를 생성하는 2D 카메라들로 검출될 수 있다. (예컨대, 하나 이상의 깊이 센서들을 갖는) 3D 카메라들은 또한, 2차원 파라미터들(예컨대, 비트맵) 및 깊이 파라미터를 갖는 3차원 이미지를 생성하는 데 사용될 수 있다. 따라서, 카메라(16)는 2D 카메라 또는 3D 카메라일 수 있다. 모델 라이브러리들은 장면 이미지 내의 식별된 객체들을 정의하는 데 사용될 수 있다. 추가적인 태양들이 설명되고 청구된다.
하나 이상의 마이크로폰 어레이들(18)은 물리적 환경에서 하나 이상의 사운드들을 캡처하는 오디오 신호들을 캡처할 수 있다. 오디오 신호 프로세서(24)는, 당업계에 알려진 바와 같이, 아날로그-디지털 변환기로 오디오 신호들 각각을 아날로그로부터 디지털로 변환할 수 있다. 또한, 오디오 신호 프로세서는 디지털 오디오 신호들 각각을 시간 도메인으로부터 주파수 도메인으로 변환할 수 있다. 측정된 음향 파라미터 생성기(26)(예컨대, 컴퓨터 추정기)가 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성할 수 있다. 측정된 음향 파라미터들을 '생성하는 것'은 마이크로폰 신호들로부터 추출된 물리적 환경의 측정된 음향 파라미터들을 추정하는 것을 포함한다는 것을 이해해야 한다.
일 태양에서, 하나 이상의 측정된 음향 파라미터들을 생성하는 것은 물리적 환경의 잔향 특성을 결정하도록 오디오 신호들을 프로세싱하는 것을 포함하며, 잔향 특성은 환경의 하나 이상의 측정된 음향 파라미터들을 정의한다. 일 태양에서, 하나 이상의 측정된 음향 파라미터들은 하기 중 하나 이상을 포함할 수 있다: 잔향 감쇠율 또는 시간, 직접 대 잔향 비(direct to reverberation ratio), 잔향 측정, 또는 다른 등가의 또는 유사한 측정치들. 일 태양에서, 물리적 환경의 하나 이상의 측정된 음향 파라미터들은 오디오 신호들의 하나 이상의 주파수 범위들에 대응하여 생성된다. 이러한 방식으로, 각각의 주파수 범위(예를 들어, 주파수 대역 또는 빈(bin))는 대응하는 파라미터(예컨대, 잔향 특성, 감쇠율, 또는 언급된 다른 음향 파라미터들)를 가질 수 있다. 파라미터들은 주파수 의존적일 수 있다.
일 태양에서, 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성하는 것은 오디오 신호들로부터 직접 성분을 추출하는 것, 및 오디오 신호들로부터 잔향 성분을 추출하는 것을 포함한다. 트레이닝된 신경 네트워크는 추출된 직접 성분 및 추출된 잔향 성분에 기초하여, 측정된 음향 파라미터(예컨대, 잔향 특성)를 생성할 수 있다. 직접 성분은, 예를 들어, 어떠한 잔향 사운드들도 없는, 단일 방향 또는 고 지향성을 갖는 단일 음원을 갖는 사운드 필드를 지칭할 수 있다. 잔향 성분은, 예를 들어 사운드 에너지가 표면들로부터 반사되어 잔향 및/또는 반향(echoing)을 야기할 때, 사운드 상의 기하구조의 이차 효과들을 지칭할 수 있다.
직접 성분은 약간의 확산(diffuse) 사운드들을 포함할 수 있고, 확산 성분은 약간의 방향성을 포함할 수 있다는 것을 이해해야 하는데, 그 이유는 그 두 개를 완전히 분리하는 것이 실행불가능하고/하거나 비실용적일 수 있기 때문이다. 따라서, 잔향 성분은 주로 잔향 사운드들을 포함할 수 있으며, 여기서 지향성 성분들이 실용가능하거나 실용적일 정도로 실질적으로 제거되었다. 유사하게, 직접 성분은 주로 지향성 사운드들을 포함할 수 있으며, 여기서 잔향 성분들이 실용가능하거나 실용적일 정도로 실질적으로 제거되었다.
일 태양에서, 도 6은 측정된 음향 파라미터 생성기(26)가 입력 오디오 신호들로부터 잔향 성분들을 제거하여 직접 성분을 추출하는 잔향 추출기(310)를 포함할 수 있음을 도시한다. 입력 오디오 신호들은 물리적 환경에서 마이크로폰들에 의해 생성될 수 있고, 주파수 도메인 오디오 신호들로 프로세싱될 수 있다. 추출기는 오디오 신호들로부터 잔향 성분을 제거하여, 직접 성분을 출력할 수 있다. 직접 성분은 잔향 성분을 추출하기 위해 감산기(311)에 의해 입력 오디오 신호들로부터 감산될 수 있다. 입력 오디오 신호들과 마찬가지로, 직접 성분 및 잔향 성분은 또한 주파수 도메인 내에 있을 수 있다. 이들은 트레이닝된 신경 네트워크(312)(예컨대, 콘볼루션 신경 네트워크)에 대한 입력들로서 공급될 수 있는데, 이는 이어서, 직접 성분 및 잔향 성분에 기초한 측정된 음향 파라미터들을 생성할 수 있다. 이러한 방식으로, 측정된 음향 파라미터들은 물리적 환경에서 마이크로폰들에 의해 생성된 오디오 신호들에 기초하여 생성될 수 있고, 공간적으로, 향상 현실 환경에서, 타깃 사운드 신호를 프로세싱하기 위해 향상 현실 오디오 프로세서로 공급될 수 있다. 일 태양에서, 잔향 추출기는 잔향제거된(dereverberated) 직접 성분을 출력하기 위해 각각의 입력 프로세싱된 오디오 신호에 대해 선형 잔향제거를 수행하는 다중 채널 잔향제거기를 포함할 수 있다. 일 태양에서, 잔향 추출기는, 필터 파라미터들을 입력 신호들에 적용하고 잔향제거되고 잡음제거된 직접 성분을 출력하는 파라미터 다중 채널 위너 필터(parametric multi-channel Wiener filter, PMWF)를 포함할 수 있다. 일 태양에서, 잔향 추출기는 다중 채널 잔향제거기 및 PMWF 둘 모두를 포함할 수 있다.
다시 도 1을 참조하면, 향상 현실 오디오 프로세서(30)는 추정된 모델 및 측정된 음향 파라미터들을 사용하여 타깃 오디오 신호(34)를 프로세싱할 수 있고, 가상 음원을 갖는 출력 오디오 채널들을 생성할 수 있다. 가상 음원은 향상 현실 환경 내에서 가상 위치를 가질 수 있다. 출력 오디오 채널들은 (예컨대, 헤드폰들의) 스피커들(32)을 구동하는 데 사용될 수 있다. 타깃 오디오 신호는 임의의 사운드, 예를 들어 사람의 음성, 차량의 사운드, 새의 지저귐(chirping) 등일 수 있다.
일 태양에서, 향상 현실 오디오 프로세서에 의한 타깃 오디오 신호의 프로세싱은, 측정된 음향 파라미터들에 기초하여, 추정된 모델의 하나 이상의 음향 표면 재료 파라미터들 및/또는 산란 파라미터들을 수정하고/하거나 생성하여, 물리적 환경의 업데이트된 모델을 생성하는 것을 포함한다. 이러한 방식으로, 이미지에 기초하는 추정된 모델은 또한, 물리적 환경의 측정된 음향 파라미터들과 더 밀접하게 매칭되도록 최적화(예컨대, 증가 또는 감소)되는 음향 표면 재료 파라미터들(예컨대, 흡음, 산란, 또는 사운드 저감 파라미터들)을 가질 수 있다. 예를 들어, 프로세싱은, 추정된 모델의 추정된 또는 시뮬레이팅된 음향 응답을 환경의 측정된 음향 파라미터들과 비교하는 것에 기초하여 음향 표면 재료 파라미터들 중 하나 이상을 증가 또는 감소시킴으로써, 추정된 모델의 음향 표면 재료 파라미터들을 수정하는 것을 포함할 수 있다. 따라서, 방법은 물리적 환경에서 오디오 신호들로부터의 입력들에 기초하여 모델의 음향 파라미터들(예컨대, 모델에서의 객체의 산란 특성들/파라미터들, 흡음 계수들, 및/또는 사운드 저감 파라미터들)을 최적화시키거나 조율(tune)할 수 있다.
일 태양에서, 타깃 오디오 신호의 프로세싱은 향상 현실 환경의 파동 기반 음향 모델링(wave based acoustic modeling)을 포함한다. 파동 기반 방법으로, 향상 현실 환경의 동적 응답 변수들이 파동 함수들로서 생성될 수 있다. 가중 잔류 스킴(weighted residual scheme)은 파동 모델을 산출하기 위해 경계 잔류들을 0으로 강제하는 데 사용될 수 있다. 근사한 형상이 동적 응답 변수들을 설명하도록 기능하는 유한 요소 방법 및 경계 요소 방법과 같은 종래의 요소 기반 모델들과는 달리, 파동 기반 모델들은 소규모이며, 이는 계산 효율을 개선할 수 있다. 일 태양에서, 파동 기반 모델링은 환경에 대한 파동 함수들을 선택하는 것, 환경에 대한 경계 조건들 및 연속성 조건들의 잔류 가중치들을 생성하는 것, 및 파동 함수들로부터 음향 압력 필드들 및/또는 다른 음향 파라미터들을 생성하는 것을 포함한다.
다른 태양에서, 타깃 오디오 신호의 프로세싱은 향상 현실 환경의 음향 모델링에 기초하는 기하학적 음향 기법들을 포함한다. 기하학적 음향의 일 태양에서, 음원에 의해 방출되는 사운드 출력은 에너지의 표시자들로서 간주될 수 있는 다수의 광선(ray)들을 가질 수 있다. 광선들은 음속으로 공간을 통해 이동하는 것으로 모델링될 수 있고, 방의 경계들과의 충돌 후에 반사된다. 광선들의 초기 에너지는 방출용 음원의 지향성 모델에 의해 가중될 수 있거나, 또는 다른 태양에서, 광선들의 집광(concentration)은 방출용 음원의 지향성 모델에 기초하여 분산될 수 있다. 각각의 광선의 에너지는 광선이 광선의 경로에서 충돌하는 벽들 및 공기의 흡음의 결과로서 감소한다.
일 태양에서, 프로세서는 업데이트된 모델에 기초하여 하나 이상의 임펄스 응답들을 선택 또는 생성할 수 있고, 타깃 오디오 신호 및 타깃 위치를 하나 이상의 임펄스 응답들과 콘볼루션하여 복수의 출력 오디오 채널들을 생성할 수 있다. 일 태양에서, 하나 이상의 임펄스 응답들은 양이 방 임펄스 응답(binaural room impulse response, BRIR)의 좌측 및 우측 성분들을 포함한다. 이어서, 타깃 오디오 신호는 BRIR으로 프로세싱될 수 있고, 따라서, 출력 오디오가 헤드셋의 좌측 및 우측 스피커들을 구동할 때, 사운드가 향상 현실 환경 내의 타깃 위치로부터 나오는 것으로 보일 것이다.
장면 이미지들의 캡처 및 프로세싱과 오디오 신호들의 캡처 및 프로세싱은 동일한 물리적 환경에서 동시에 발생할 수 있다. 그러나, 어떠한 사운드들도 존재하는 것으로 검출되지 않는 경우, 음향 파라미터 생성기는 이전에 생성된 음향/환경 파라미터들을 소환(recall)할 수 있다. 시스템은 이미지, GPS 좌표들, 이용가능한 Wi-Fi 네트워크들, 또는 물리적 환경을 식별할 수 있는 다른 기법들의 분석에 기초하여, 동일한 또는 유사한 물리적 환경에서 생성되었던 이전에 생성된 음향/환경 파라미터들을 검색할 수 있다. 이전에 생성된/추정된 음향/환경 파라미터들은 물리적 환경의 이미지와 이전 물리적 환경(예컨대, 모델로서 또는 이미지로서 저장됨) 사이의 검출된 유사성에 기초하여 선택될 수 있다. 따라서, 현재 물리적 환경에 대응하는 이전에 생성된 저장된 음향/환경 파라미터들에 액세스함으로써, 시스템은, 어떠한 사운드도 현재 존재하지 않는 경우에도 음향/환경 파라미터들을 유리하게 제공할 수 있다.
일 태양에서, 출력 오디오 채널들은 이미지 상에 렌더링된 가상의 시각적 객체와 동기하여 스피커들을 구동하고, 가상 음원의 가상 위치는 가상화된 환경에서 이미지 상에 렌더링된 가상의 시각적 객체의 시각적 위치에 대응한다.
일 태양에서, 가상의 시각적 객체는 데이터에 인코딩된 가상의 시각적 환경을 생성하도록 이미지에 렌더링될 수 있고; 디스플레이는 가상의 시각적 환경의 데이터로 구동될 수 있다. 태블릿 컴퓨터 또는 스마트폰과 같은 디바이스는 디스플레이뿐만 아니라 전방 및 후방에 다수의 카메라들을 가질 수 있다. 따라서, 일부 경우들에 있어서, 전방 대면 카메라는 사용자 스피킹의 비디오를 생성할 수 있는 한편, 후방 대면 카메라는 사용자의 물리적 환경의 비디오를 생성할 수 있다.
예를 들어, 하나의 방 안의 사용자의 스피치는 향상 현실 환경에서 가상 위치를 갖는 가상 음원으로서 렌더링될 수 있으며, 여기서 향상 현실 환경은 상이한 방에 기초한다. 가상의 시각적 객체, 예컨대 사용자의 애니메이션 또는 이미지/비디오가 향상 현실 환경에서 렌더링될 수 있다. 사용자의 애니메이션(예컨대, 비디오 애니메이션)은 스피치와 동기화될 수 있다. 향상 현실 환경 내의 다른 사용자들은 사용자가 향상 현실 환경 내에 있음을 인지할 것이다. 사용자의 스피치의 프로세싱이 다른 사용자들의 물리적 환경의 모델에 기초하는 경우, 사용자의 스피치는 그들이 다른 사용자들과 동일한 환경에 있는 것처럼 들릴 수 있다.
일 태양에서, 다수의 참가자들이 향상 현실 환경 내에서 대화할 때, 일부 참가자들은 동일한 방 안에 있을 수 있고(예컨대, 참가자들 1과 2가 방 A 안에 있음), 다른 참가자들은 상이한 방들 안에 있을 수 있다(예컨대, 참가자 3은 방 B 안에 있고 참가자 4는 방 C 안에 있음). 참가자들은 어느 방에서 대화할 것인지를 선택할 수 있다. 그들이 방 A에서 대화하기로 선택한다고 상정하면, 참가자 3과 참가자 4의 스피치가 프로세싱되어 그들의 각자의 스피치 신호들 각각의 직접 부분을 추출하도록 할 수 있다. 한편, 방 A 안의 참가자들 1과 2는, 카메라들 및 마이크로폰들을 갖는 디바이스들을 사용하여, 방 A의 측정된 음향 파라미터들로 최적화된, 방 A의 추정된 모델(예컨대, 방의 레이아웃)을 생성할 수 있다. 방 A의 추정된 모델은 모든 참가자들 사이에 공유될 수 있다. 공간 오디오 엔진은 참가자 3과 4의 스피치 신호들을 프로세싱할 수 있고, 방 A의 추정된 모델을 사용하여 그들을 향상 현실 환경으로 공간화할 수 있다. 일 태양에서, 모든 참가자의 스피치(예컨대, 참가자들 1, 2, 3, 및 4)는 (예컨대, 잔향 및/확산 사운드들을 제거함으로써) 직접 성분이 추출되도록 프로세싱될 수 있다. 각각의 참가자의 직접 성분은 향상 현실 환경에서 렌더링되도록 다른 참가자들과 공유될 수 있다.
따라서, 본 개시내용의 일부 태양들에 기초하여, 콘퍼런스 또는 그룹 채팅에서의 참가자들은 그들이 다른 참가자들의 환경(예컨대, 방 A)으로 이동되었을 때 느낄 수 있는데, 그 이유는 그들이 다른 참가자들의 실내 음향과 함께 프로세싱되는 그들 자신의 음성들을 들을 수 있기 때문이다. 참가자들의 음성들의 직접 부분만을 다른 참가자들에게 넘겨서 공유함으로써, 공간 오디오 엔진은, 일부 참가자들의 음성들이 그들 자신의 실내 음향에 의해 영향을 받지 않으면서 모든 사람들이 동일한 방 안에 있는 것처럼 그것이 들리게 할 수 있다.
객체 검출을 사용하는 물리적 환경의 추정된 모델
이제 도 2를 참조하면, 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하기 위한 시스템 및 프로세스(100)가 도시되어 있다. 카메라에 의해 생성된 장면 이미지(104)는 물리적 환경의 이미지를 보여줄 수 있다.
객체 검출 블록(108)에서, 이미지는 (예컨대, 모델 라이브러리(102) 내의 객체 모델에 대응하는 것으로서 객체를 식별하도록 트레이닝된 신경 네트워크를 사용하는 공지의 컴퓨터 시각 알고리즘들을 이용하여) 이미지 내의 객체를 인식하도록 프로세싱될 수 있다. 객체 정렬 블록(114)에서, 물리적 환경의 추정된 모델 내의 객체 모델의 포지셔닝 및 배향이 수행될 수 있어서, 이에 의해, 물리적 환경의 대표 모델, 및 물리적 환경 내의 객체들을 생성할 수 있다. 객체 모델(들)은 객체 모델의 3차원 형상을 정의하는 3차원 파라미터들, 및 객체의 음향 응답을 정의하는 음향 메타데이터를 가질 수 있다. 음향 메타데이터는 객체 및/또는 그의 차일드 표면(child surface)들의 음향 특성들을 정의할 수 있는 흡음, 사운드 저감, 및/또는 산란 파라미터들을 포함할 수 있다.
일 태양에서, 블록(110)은 방 지오메트리 추정을 수행한다. 이러한 블록은 물리적 환경의 크기, 형상, 및/또는 체적을 추정하는데, 예를 들어, 물리적 환경이 방인 경우, 방의 크기, 형상 및/또는 체적이 추정될 수 있다. 방 기하구조 추정은, 이미지의 영역들을 분류하는 것을 포함할 수 있고, 분류된 영역들에 기초하여, 방 레이아웃 추출 블록(112)은 하기 중 하나 이상을 포함한 물리적 환경의 기하구조를 생성할 수 있다: 벽의 크기 또는 배향, 천장의 크기 또는 배향, 바닥의 크기 또는 배향, 방의 높이, 폭 또는 길이, 또는 방의 체적. 물리적 환경이 단지 부분적으로 봉입되거나 완전히 개방되는 경우, 물리적 환경을 정확하게 반영하기 위해 하나 이상의 벽들, 천장들 및 바닥들, 및/또는 부분적인 벽들, 천장들 및 바닥들을 갖는 모델이 생성될 수 있다.
블록(106)에서, 재료 추정기는 방 및 방 안의 객체들의 음향 표면 재료 특성들을 추정할 수 있으며, 음향 표면 재료 특성들은 추정된 모델의 음향 표면 재료 파라미터들에 기여한다. 일 태양에서, 방의 음향 표면 재료 특성들은, 예를 들어, 음향 댐핑 파라미터, 흡음 파라미터, 산란 파라미터, 및/또는 사운드 저감 파라미터를 포함할 수 있다. 일 태양에서, 방 레이아웃의 각각의 표면(예컨대, 벽, 천장, 및/또는 바닥)은 하나 이상의 파라미터들을 가질 수 있다. 예를 들어, 벽들 중 하나(또는 벽의 일부)는 높은 사운드 댐핑과 연관되는 컬러 또는 텍스처를 가질 수 있다. 따라서, 재료 추정기는 대응하는 음향 표면 재료 특성을 갖는 그 벽 또는 그 벽의 일부를 할당할 수 있으며, 이는 방 모델 내의 다른 표면들보다 더 클 수 있거나 또는 더 작을 수 있다. 일 태양에서, 재료 추정기는 객체 검출 블록(108)에서 검출된 객체들 각각에 대해 유사한 파라미터들을 생성할 수 있다.
블록(116)에서, 방 구성 추정은 방 레이아웃, 방 안에 정렬된 객체들, 및 (예컨대, 벽들, 천장 및/또는 바닥의) 방 레이아웃과 연관되고/되거나 객체들과 연관된 음향 표면 재료 파라미터들을 갖는 물리적 환경의 추정된 모델을 생성할 수 있다.
일 태양에서, 음향 블록(120)에 대한 기하구조 단순화는 음향에 대한 물리적 모델을 획득하기 위해 기하구조 단순화 알고리즘으로 추정된 모델의 하나 이상의 객체 모델들의 기하구조를 단순화하는 것을 포함할 수 있다. 예를 들어, 기하구조 단순화 알고리즘은 객체 모델들의 표면들, 에지들 또는 루프들의 총 개수를 감소시킬 수 있다. 따라서, 상세한 조각품들을 갖는 커피 테이블의 모델은 기둥들을 갖는 직사각형 또는 평면(다리들이 있는 표면을 표현함)으로 단순화될 수 있거나, 또는 손잡이가 있는 커피 머그가 원통으로 단순화될 수 있다. 이러한 방식으로, 타깃 오디오 신호의 프로세싱은 유리하게는, 정확한 음향 모델인, 단순화된 기하구조를 갖는 추정된 모델에 기초하여 수행될 수 있다. 이는 프로세싱 효율을 개선할 수 있고, 객체 기하구조들에서 너무 많은 세부사항에 의해 잘못 야기될 수 있는 원치 않는 아티팩트들을 감소시킬 수 있다.
일 태양에서, 기하구조 단순화 알고리즘은 추정된 모델의 전체적인 기하구조를 추가로 단순화시키기 위해, 추정된 모델로부터 객체 모델을 제거할지 여부를 결정하는 것을 포함한다. 이러한 결정은, 예를 들어, (예컨대, 가상 음원의) 파장 및 객체의 치수들, 및/또는 타깃 오디오 신호의 타깃 위치에 대한 객체 모델의 위치에 기초할 수 있다. 일 태양에서, 객체 모델이 가상 음원의 가상 위치의 임계 거리 밖에 있는 경우, 객체가 제거된다. 그렇지 않은 경우, 타깃 오디오 신호가 (예컨대, 가상 위치에서의 가상 음원으로서) 향상 현실 환경에서 렌더링될 때, 객체는 사운드에 대한 원치 않는 아티팩트들 또는 장애(blockage)를 야기할 수 있다.
일 태양에서, 기하구조 단순화 알고리즘은, 타깃 위치와 객체 모델 사이의 거리가 증가할 때에는 객체 모델의 기하구조를 더 공격적으로 단순화시키고, 타깃 위치와 객체 모델 사이의 거리가 감소할 때에는 객체 모델의 기하구조를 덜 공격적으로 단순화시킨다. 더 공격적인 단순화는, 단순화된 객체가 감소된 개수의 표면들 및/또는 정점들을 가짐을 의미할 수 있다.
블록(124)에서, 프로세싱된 오디오 신호들(103)이 수신되고, 오디오 신호들에 기초하여, 물리적 환경의 하나 이상의 측정된 음향 파라미터들이 생성되며, 그 세부사항들이 도 1과 관련하여 논의된다.
블록(122)에서, 음향 재료 최적화기가, 측정된 음향 파라미터들에 기초하여, 추정된 모델(119)의 하나 이상의 음향 표면 재료 파라미터들을 수정하여, 물리적 환경의 업데이트된 모델(123)을 생성할 수 있다. 일 태양에서, 추정된 모델은 블록(120)에서 단순화되었다. 다른 태양에서, 단순화 블록이 제거되고, 음향 재료 최적화기(122)가 추정된 모델의 하나 이상의 음향 표면 재료 파라미터들을 수정할 수 있으며, 여기서 추정된 모델은 단순화되지 않았다. 기하구조를 단순화할지 여부에 대한 이러한 결정은 다수의 요인들에 기초하여, 예를 들어, 객체 형상들이 얼마나 복잡한지, 단순화를 위해 얼마나 많은 프로세싱이 요구되는지, 출력 오디오의 프레임 레이트, 또는 타깃 사운드 신호(126)에 대해 수행되는 일정 유형의 음향 시뮬레이션에 따라, 결정될 수 있다. 예를 들어, 파동 기반 모델링이 채용되는 경우, 단순화 프로세스가 제거될 수 있다. 기하학적 음향 알고리즘이 채용되는 경우, 모델은 에러들을 야기할 수 있는 세부사항들을 제거하도록 단순화될 수 있다.
블록(118)에서, 음향 시뮬레이터를 갖는 공간 엔진이, 업데이트된 모델(123)에 기초하여 하나 이상의 임펄스 응답들을 선택 또는 생성할 수 있고, 타깃 오디오 신호(126) 및 타깃 위치를 하나 이상의 임펄스 응답들과 콘볼루션하여 복수의 출력 오디오 채널들을 생성할 수 있다. 출력 채널들은 스피커들을 구동하는 데 사용될 수 있다.
일 태양에서, 어떠한 음향도 물리적 환경에 존재하지 않거나 또는 사운드가 왜곡된 것으로 보이는 시간들에, 블록(118)은 음향 재료 최적화기(122)로부터의 수정 없이, 추정된 모델(121)을 사용할 수 있다. 이러한 방식으로, 시스템 및 프로세스는 물리적 환경에서 사운드의 시간들에 측정된 오디오 신호들로 표면 음향 파라미터들을 최적화함으로써 방 모델의 정확도를 개선할 수 있지만, 물리적 환경에서 어떠한 사운드도 없을 때, 방 모델은 이미지의 프로세싱 및 음향 표면 파라미터들의 추정에 의존한다(예컨대, 블록들(106, 108, 114, 110, 112, 116, 120)).
타깃 오디오 신호는, 예를 들어, 사용자의 스피치를 포함할 수 있다. 그러한 경우에 있어서, 사용자의 스피치는 향상 현실 환경 내의 타깃 위치에서의 가상 위치를 가질 수 있고, 따라서, 청취자들은 사용자의 스피치를 향상 현실 내의 타깃 위치로부터 나오는 것으로서 인지할 것이다.
표면 기반 모델 생성기
이제 도 3을 참조하면, 일 태양에서, 향상 현실 환경에서 사운드를 프로세싱하기 위한 시스템 및 프로세스(200)가 도시되어 있다. 이러한 시스템 및 프로세스는 도 2와 유사하지만, 기하구조 추정 블록(202)이 이미지의 영역들을 3차원 공간에서의 표면들 및 형상들로서 분류함으로써 수행된다는 점에서 상이하다. 다시 말하면, 이미지는 이미지 내의 객체들을 분류하려고 시도하지 않고서 프로세싱될 수 있는데, 이는 그들이 데이터베이스 내의 공지의 객체들과 관련될 수 있기 때문이다. 오히려, 이미지는 보다 일반적으로, 방 레이아웃 및 방 안의 표면들 및 형상들을 갖는 물리적 환경의 추정된 모델을 생성하기 위해, 이어서 블록(116)에서 사용했던 이미지 내의 표면들 및 형상들을 인식하도록 프로세싱된다. 이미지 프로세싱은 에지 검출, 시맨틱 분할(semantic segmentation), 인스턴스 분할, 및 하나 이상의 신경 네트워크들을 활용하여 이미지의 영역들을 표면들 및 형상들로서 분류할 수 있는 다른 컴퓨터 시각 기법들을 포함할 수 있다. 도 2와 유사하게, 도 3의 재료 추정기(106)는 방 모델의 표면들의 음향 표면 재료 특성들을 추정할 수 있으며, 여기에서의 차이는 추정된 모델이 그에 배치된 객체 모델들을 갖지 않을 것이라는 것이다. 도 3에 도시된 나머지 특징부들은 도 1 및/또는 도 2와 관련하여 기술되었다.
사운드를 프로세싱하기 위한 방법
도 4는 하나의 예시적인 태양에 따른, 향상 현실 환경에서 사운드를 프로세싱하기 위한 흐름도를 도시한다. 하기의 태양들은, 통상적으로 흐름도, 순서도, 구조도, 또는 블록도로서 묘사되는 프로세스(300)로서 기술될 수 있다. 흐름도가 동작들을 순차적 프로세스로서 설명할 수 있지만, 동작들 중 다수가 병렬로 또는 동시에 수행될 수 있다. 그에 부가하여, 동작들의 순서는 재배열될 수 있다. 프로세스의 동작들이 완료될 때 프로세스가 종료된다. 프로세스는 방법, 절차 등에 대응할 수 있다. 프로세스(300)는 하드웨어(예컨대, 회로부, 전용 로직, 등), 소프트웨어(예컨대, 비일시적 컴퓨터 판독가능 매체 상에서 구현됨), 또는 이들의 조합을 포함하는 프로세싱 로직에 의해 수행될 수 있다.
블록(220)에서, 프로세스는 카메라에 의해 캡처된 이미지를 수신할 수 있으며, 이미지는 물리적 환경을 보여준다. 블록(222)에서, 프로세스는 이미지에 기초하여, 물리적 환경의 추정된 모델을 생성할 수 있다. 추정된 모델은, a) 물리적 환경의 3차원 표현, 및/또는 b) 하나 이상의 음향 표면 재료 파라미터들, 및/또는 c) 하나 이상의 산란 파라미터들을 포함할 수 있다. 음향 표면 재료 파라미터들 및 산란 파라미터들은 물리적 환경 내의 물리적 방 및 검출된 객체들에 대해 추정될 수 있다. 블록(224)에서, 프로세스는 마이크로폰 어레이에 의해 캡처된 오디오 신호들을 수신할 수 있으며, 오디오 신호들은 물리적 환경 내의 사운드를 캡처한다. 블록(228)에서, 프로세스는 수신된 오디오 신호들에 기초하여 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성할 수 있다. 블록(230)에서, 프로세스는 추정된 모델 및 측정된 음향 파라미터들을 사용하여(예컨대, 측정된 음향 파라미터들에 기초하여, 추정된 모델을 최적화함으로써) 타깃 오디오 신호를 프로세싱하여, 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들을 생성할 수 있으며, 출력 오디오 채널들은 복수의 스피커들을 구동하는 데 사용된다.
도 5는 일 태양에서, 기술된 프로세스들을 수행하는 시스템을 도시한다. 그러한 시스템은 디바이스(202)를 포함할 수 있다. 디바이스는 물리적 환경의 이미지들을 생성하고/하거나 사용자 1의 이미지들을 캡처하고 생성할 수 있는 하나 이상의 카메라들(196)을 가질 수 있다. 디바이스는 향상 현실 환경을 보여주는 디스플레이(194)를 가질 수 있다. 일 태양에서, 향상 현실 환경은 사용자 1 주위의 물리적 환경의 표현일 수 있지만, 이때 하나 이상의 가상 객체들이 그것에 렌더링된다. 예를 들어, 향상 현실 환경은, 상이한 물리적 환경에 있지만 사용자 1의 물리적 환경을 대표하는 향상 현실 환경에 렌더링된 제2 사용자를 포함할 수 있다.
일 태양에서, 디바이스는 가속도계들, GPS 모듈들 및 자이로스코프들과 같은 하나 이상의 센서들(197)을 가질 수 있다. 일 태양에서, 디바이스는 스피커 어레이를 형성하는 스피커들(198)을 가질 수 있다. 일 태양에서, 스피커들은 음향 사운드 빔들을 생성할 수 있다. 일 태양에서, 디바이스는 하나 이상의 마이크로폰들(192)을 가질 수 있다. 디바이스의 마이크로폰들은 오디오 신호들을 생성하는 데 사용될 수 있는 하나 이상의 마이크로폰 어레이들을 형성할 수 있다. 일 태양에서, 마이크로폰 어레이들은 각각의 픽업 빔에 대한 대응하는 오디오 신호를 생성하기 위해 음향 픽업 빔들을 형성할 수 있다.
스피커들은 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들에 의해 구동될 수 있다. 예를 들어, 이전 예를 계속 참조하면, 가상 음원은 제2 사용자의 음성일 수 있다. 제2 사용자는 향상 현실 환경 내의 포지션 상으로 렌더링될 수 있고, 제2 사용자의 음성은 그것이 사용자 1에게, 제2 사용자의 음성이 그 포지션으로부터 나오고 있는 것처럼 들리도록 렌더링될 수 있다. 일 태양에서, 스피커들 및/또는 마이크로폰들은 대안적으로 또는 추가적으로, 사용자에 의해 착용되는 헤드셋(204) 상에 포함될 수 있다.
일 태양에서, 도시되어 있지 않지만, 헤드셋은 디스플레이 및 하나 이상의 카메라들, 복수의 마이크로폰들, 스피커들, 및 센서들을 가질 수 있다. 향상 현실 환경은 가상화된 오디오가 스피커들을 통해 렌더링되는 동안 디스플레이를 통해 시각적으로 보여질 수 있다. 헤드셋의 마이크로폰들은 착용자의 물리적 환경 내의 오디오를 픽업할 수 있고, 측정된 음향 파라미터들을 생성하는 데 사용될 수 있다. 카메라는 방 모델을 추정하는 데 사용되는 하나 이상의 이미지들을 생성할 수 있다. 측정된 음향 파라미터들은, 다른 섹션들에서 논의되는 바와 같이, 방 모델을 최적화하는 데 사용될 수 있다.
도 7은, 일 태양에서, 본 명세서에 기술된 태양들 중 임의의 것과 함께 사용될 수 있는 오디오 프로세싱 시스템 하드웨어의 블록도를 도시한다. 이러한 오디오 프로세싱 시스템은 범용 컴퓨터 시스템 또는 특수 목적 컴퓨터 시스템을 표현할 수 있다. 도 7은 헤드폰들, 스피커 시스템들, 마이크로폰 어레이들 및 엔터테인먼트 시스템들 내에 통합될 수 있는 오디오 프로세싱 시스템의 다양한 컴포넌트들을 도시하지만, 그것은 단지 특정 구현예의 하나의 일례일 뿐이고, 오디오 프로세싱 시스템에 존재할 수 있는 유형들의 컴포넌트들을 예시하기 위한 것일 뿐이라는 것에 유의한다. 도 7은 컴포넌트들을 상호접속시키는 임의의 특정 아키텍처 또는 방식을 표현하도록 의도되지 않는데, 이는 그러한 세부사항들이 본 명세서의 태양들과 밀접한 관련이 없기 때문이다. 또한, 도 7에 도시된 것보다 더 적은 컴포넌트들 또는 도시된 것보다 더 많은 컴포넌트들을 갖는 다른 유형들의 오디오 프로세싱 시스템들이 또한 사용될 수 있음이 이해될 것이다. 따라서, 본 명세서에 기술된 프로세스들은 도 7의 하드웨어 및 소프트웨어와 함께 사용하는 것으로 제한되지 않는다.
도 7에 도시된 바와 같이, 오디오 프로세싱 시스템(150)(예를 들어, 랩톱 컴퓨터, 데스크톱 컴퓨터, 모바일폰, 스마트폰, 태블릿 컴퓨터, 스마트 스피커, 헤드 장착형 디스플레이(head mounted display, HMD), 또는 자동차 또는 다른 차량용 인포테이먼트 시스템(infotainment system))은 시스템의 다양한 컴포넌트들을 상호접속시키도록 역할을 하는 하나 이상의 버스들(162)을 포함한다. 하나 이상의 프로세서(152)가 당업계에 공지된 바와 같이 버스(162)에 커플링된다. 프로세서(들)는 마이크로프로세서들 또는 특수 목적 프로세서들, 시스템 온 칩(system on chip, SOC), 중앙 프로세싱 유닛, 그래픽 프로세싱 유닛, 주문형 집적 회로(Application Specific Integrated Circuit, ASIC)를 통해 생성된 프로세서, 또는 이들의 조합일 수 있다. 메모리(151)는 당업계에 알려진 기법들을 사용하여 버스에 커플링되는 판독 전용 메모리(ROM), 휘발성 메모리, 및 비휘발성 메모리, 또는 이들의 조합들을 포함할 수 있다.
메모리는, 도 7에 도시되어 있지 않지만, 버스에 접속될 수 있고, DRAM, 하드 디스크 드라이브 또는 플래시 메모리 또는 자기 광학 드라이브 또는 자기 메모리 또는 광학 드라이브, 또는 시스템으로부터 전력이 제거된 후에도 데이터를 유지하는 다른 유형들의 메모리 시스템들을 포함할 수 있다. 일 태양에서, 프로세서(152)는 기계 판독가능 저장 매체(메모리)에 저장된 컴퓨터 프로그램 명령어들을 취출하고, 본 명세서에 기술된 동작들을 수행하기 위해 그들 명령어들을 실행한다.
오디오 하드웨어는, 도시되어 있지 않지만, 스피커(156)들에 의해 프로세싱되고 출력될 오디오 신호들을 수신하기 위해 하나 이상의 버스들(162)에 커플링될 수 있다. 오디오 하드웨어는 디지털-아날로그 및/또는 아날로그-디지털 변환기들을 포함할 수 있다. 오디오 하드웨어는 또한 오디오 증폭기들 및 필터들을 포함할 수 있다. 오디오 하드웨어는 또한 마이크로폰들(154)(예컨대, 마이크로폰 어레이들)과 인터페이싱하여, (아날로그든 디지털이든) 오디오 신호들을 수신하고, 필요한 경우에, 그들을 디지털화하고, 신호들을 버스(162)에 통신할 수 있다.
통신 모듈(164)은 원격 디바이스들 및 네트워크들과 통신할 수 있다. 예를 들어, 통신 모듈(164)은 Wi-Fi, 3G, 4G, 5G, 블루투스, 지그비, 또는 다른 동등한 기술들과 같은 공지의 기술들을 통해 통신할 수 있다. 통신 모듈은 서버들(예컨대, 클라우드)과 같은 네트워킹 디바이스들 및/또는 원격 스피커들 및 원격 마이크로폰들과 같은 다른 디바이스들과 통신(예컨대, 데이터를 수신 및 송신)할 수 있는 유선 또는 무선 송신기들 및 수신기들을 포함할 수 있다.
본 명세서에 개시된 태양들은 모뎀 또는 이더넷 인터페이스와 같은 네트워크 인터페이스를 통해 오디오 프로세싱 시스템에 커플링되는 네트워크 저장 디바이스와 같은, 시스템으로부터 원격인 메모리를 활용할 수 있다는 것이 이해될 것이다. 버스들(162)은 당업계에 주지되어 있는 바와 같은 다양한 브리지들, 제어기들, 및/또는 어댑터들을 통해 서로 접속될 수 있다. 일 태양에서, 하나 이상의 네트워크 디바이스(들)는 버스(162)에 커플링될 수 있다. 네트워크 디바이스(들)는 유선 네트워크 디바이스들(예컨대, 이더넷) 또는 무선 네트워크 디바이스들(예컨대, WI-FI, 블루투스)일 수 있다. 일부 태양들에서, 기술된 다양한 태양들(예컨대, 시뮬레이션, 분석, 추정, 모델링, 객체 검출 등)은 캡처 디바이스와 통신하는 네트워킹 서버에 의해 수행될 수 있다. 오디오 시스템은 하나 이상의 카메라들(158) 및 디스플레이(160)를 포함할 수 있다.
본 명세서에 기술된 다양한 태양들은 적어도 부분적으로 소프트웨어로 구현될 수 있다. 즉, 본 기법들은, 그것의 프로세서가 저장 매체, 예컨대 비일시적 기계 판독가능 저장 매체(예컨대, DRAM 또는 플래시 메모리)에 포함된 명령어들의 시퀀스를 실행시키는 것에 응답하여 오디오 프로세싱 시스템에서 수행될 수 있다. 다양한 태양들에서, 하드웨어 내장형 회로부가 본 명세서에 기술된 기법들을 구현하기 위해 소프트웨어 명령어들과 조합하여 사용될 수 있다. 따라서, 본 기법들은 하드웨어 회로부와 소프트웨어의 임의의 특정 조합으로, 또는 오디오 프로세싱 시스템에 의해 실행되는 명령어들을 위한 임의의 특정 소스로 제한되지 않는다.
상세한 설명에서, 소정의 용어가 다양한 태양들의 특징부들을 기술하는 데 사용된다. 예를 들어, 소정 상황들에서, 용어들 "분석기", "분리기", "렌더러", "추정기", "조합기", "합성기", "컴포넌트", "유닛", "모듈", 및 "로직", "추출기", "감산기", "생성기", "최적화기", "프로세서", 및 "시뮬레이터"는 하나 이상의 기능들을 수행하도록 구성된 하드웨어 및/또는 소프트웨어를 대표한다. 예를 들어, "하드웨어"의 예들은 프로세서(예컨대, 디지털 신호 프로세서, 마이크로프로세서, 주문형 집적 회로, 마이크로제어기 등)와 같은 집적 회로를 포함하지만, 이들로 제한되지도 국한되지도 않는다. 물론, 하드웨어는 대안적으로, 유한 상태 기계 또는 심지어 조합 로직으로서 구현될 수 있다. "소프트웨어"의 일례는 애플리케이션, 애플릿, 루틴 또는 심지어 일련의 명령어들의 형태의 실행가능 코드를 포함한다. 상기에서 언급된 바와 같이, 소프트웨어는 임의의 유형의 기계 판독가능 매체에 저장될 수 있다.
상기의 상세한 설명의 몇몇 부분들은 컴퓨터 메모리 내의 데이터 비트들에 대한 동작들의 알고리즘 및 심볼 표현들의 관점에서 제시되었다. 이들 알고리즘 설명 및 표현은 오디오 프로세싱 분야의 당업자에 의해 사용되어 그의 작업 요지를 다른 당업자에게 가장 효과적으로 전하기 위한 방식이다. 알고리즘은 여기서 그리고 일반적으로 바람직한 결과로 이어지는 동작들의 자기-무모순 시퀀스(self-consistent sequence)인 것으로 이해된다. 그 동작들은 물리적 양들의 물리적 조작을 요구하는 것들이다. 그러나, 이들 및 유사한 용어들 모두는 적절한 물리적 양들과 연관되며 단지 이들 양에 적용된 편리한 라벨들임을 명심해야 한다. 상기 논의로부터 자명한 바와 같이, 명시적으로 달리 언급되지 않는 한, 설명 전반에 걸쳐, 하기의 청구항들에서 규정하는 것들과 같은 용어를 사용한 논의는 시스템의 레지스터 및 메모리 내의 물리적(전자) 양으로 표현되는 데이터를, 시스템 메모리 또는 레지스터 또는 다른 그러한 정보 저장, 전송 또는 디스플레이 디바이스 내의 물리적 양으로 유사하게 표현되는 다른 데이터로 조작하고 변환하는 오디오 프로세싱 시스템 또는 유사한 전자 디바이스의 액션 및 프로세스들을 지칭함이 이해된다.
본 명세서에 기술된 프로세스들 및 블록들은 기술된 특정 예들로 제한되지 않으며, 본 명세서의 예들로서 사용되는 특정 순서들로 제한되지 않는다. 오히려, 전술된 결과들을 달성하기 위해, 프로세싱 블록들 중 임의의 것이 재정렬, 조합 또는 제거될 수 있고, 필요에 따라 병렬로 또는 직렬로 수행될 수 있다. 오디오 프로세싱 시스템을 구현하는 것과 연관된 프로세싱 블록들은 시스템의 기능들을 수행하기 위해 비일시적 컴퓨터 판독가능 저장 매체 상에 저장된 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래밍가능 프로세서들에 의해 수행될 수 있다. 오디오 프로세싱 시스템의 전체 또는 일부는 특수 목적 논리 회로부(예컨대, FPGA(field programmable gate array) 및/또는 ASIC)로서 구현될 수 있다. 오디오 시스템의 전체 또는 일부는, 예를 들어 프로세서, 메모리, 프로그래밍가능 로직 디바이스 또는 로직 게이트 중 적어도 하나와 같은 전자 디바이스들을 포함하는 전자 하드웨어 회로부를 사용하여 구현될 수 있다. 또한, 프로세스들은 하드웨어 디바이스들 및 소프트웨어 컴포넌트들의 임의의 조합으로 구현될 수 있다.
소정의 태양들이 설명되고 첨부 도면에 도시되었지만, 그러한 태양들은 광범위한 발명을 제한하는 것이 아니라 단지 예시하는 것이며, 다양한 다른 변형들이 당업자에게 떠오를 수 있기 때문에 본 발명이 도시되고 설명된 특정 구성들 및 배열들로 제한되지 않는다는 것이 이해될 것이다. 따라서, 본 설명은 제한하는 것이 아니라 예시적인 것으로 간주되어야 한다.
특허청과 본 출원에 대해 발행된 임의의 특허의 임의의 독자들이 여기에 첨부된 청구범위를 해석하는 데 도움을 주기 위하여, 출원인들은 단어 "~하기 위한 수단" 또는 "~하는 단계"가 명시적으로 특정 청구항에 사용되지 않는 한, 첨부된 청구항들 또는 청구항 구성요소들 중 어떠한 것도 35 U.S.C.112(f)를 적용하도록 의도하지 않음을 언급하고자 한다.
개인적으로 식별가능한 정보의 사용은 사용자들의 프라이버시를 유지하기 위한 산업 또는 정부 요건들을 충족하거나 초과하는 것으로 일반적으로 인식되는 프라이버시 정책들 및 관례들을 따라야 하는 것이 잘 이해된다. 특히, 개인적으로 식별가능한 정보 데이터는 의도하지 않은 또는 인가되지 않은 액세스 또는 사용의 위험성들을 최소화하도록 관리되고 처리되어야 하며, 인가된 사용의 성질은 사용자들에게 명확히 표시되어야 한다.
Claims (28)
- 향상 현실(enhanced reality) 환경에서 사운드를 프로세싱하기 위한 방법으로서,
카메라에 의해 캡처된 이미지를 수신하는 단계 - 상기 이미지는 물리적 환경을 보여줌 -;
상기 이미지에 기초하여, 상기 물리적 환경의 추정된 모델을 생성하는 단계 - 상기 추정된 모델은,
상기 물리적 환경의 3차원 표현, 및
상기 물리적 환경의 환경 파라미터들을 포함함 -;
마이크로폰 어레이에 의해 캡처된 오디오 신호들을 수신하는 단계 - 상기 오디오 신호들은 상기 물리적 환경 내의 사운드를 캡처함 -;
상기 수신된 오디오 신호들에 기초하여 상기 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성하는 단계; 및
상기 추정된 모델 및 상기 측정된 음향 파라미터들을 사용하여 타깃 오디오 신호를 프로세싱하여, 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들을 생성하는 단계 - 상기 출력 오디오 채널들은 복수의 스피커들을 구동하는 데 사용됨 - 를 포함하는, 방법. - 제1항에 있어서,
상기 물리적 환경의 환경 파라미터들은 하나 이상의 음향 표면 재료 파라미터들 또는 하나 이상의 산란 파라미터들을 포함하고;
상기 타깃 오디오 신호의 프로세싱은,
상기 측정된 음향 파라미터들에 기초하여, 상기 추정된 모델의 상기 하나 이상의 음향 표면 재료 파라미터들 또는 상기 하나 이상의 산란 파라미터들을 수정하여, 상기 물리적 환경의 업데이트된 모델을 생성하는 단계;
상기 업데이트된 모델에 기초하여 하나 이상의 임펄스 응답들을 선택하거나 생성하는 단계; 및
상기 타깃 오디오 신호 및 타깃 위치를 상기 하나 이상의 임펄스 응답들과 콘볼루션하여 상기 복수의 출력 오디오 채널들을 생성하는 단계를 포함하는, 방법. - 제2항에 있어서, 상기 추정된 모델을 생성하는 단계는,
상기 이미지의 영역들을 분류하는 단계;
상기 분류된 영역들에 기초하여, 상기 이미지 내의 객체들을 검출하고 상기 물리적 환경의 방의 기하구조를 추정하는 단계 - 상기 기하구조는 벽의 크기 또는 배향, 천장의 크기 또는 배향, 바닥의 크기 또는 배향, 상기 방의 높이, 폭 또는 길이, 또는 상기 방의 체적 중 하나 이상을 포함함 -; 및
상기 추정된 모델의 상기 방 또는 검출된 객체들의 산란 파라미터들 또는 음향 표면 재료 파라미터들을 추정하는 단계를 포함하는, 방법. - 제1항에 있어서, 상기 추정된 모델을 생성하는 단계는,
모델 라이브러리 내의 객체 모델에 대응하는 것으로서 상기 객체를 식별하도록 트레이닝된 신경 네트워크로 상기 물리적 환경 내의 객체를 인식하도록 상기 이미지를 프로세싱하는 단계, 및
상기 객체 모델을 상기 물리적 환경의 상기 추정된 모델 내에 포지셔닝하고 배향시키는 단계를 포함하는, 방법. - 제4항에 있어서,
상기 객체 모델은 상기 객체 모델의 3차원 형상을 정의하는 3차원 파라미터들, 및 음향 메타데이터를 갖는, 방법. - 제5항에 있어서, 상기 객체 모델의 상기 음향 메타데이터는 산란 파라미터, 흡음 파라미터, 또는 사운드 저감 파라미터를 포함하는, 방법.
- 제1항에 있어서, 상기 추정된 모델을 생성하는 단계는 상기 이미지의 영역들을 3차원 공간에서의 표면들 및 형상들로서 분류하는 단계를 포함하는, 방법.
- 제1항에 있어서,
기하구조 단순화 알고리즘으로 상기 추정된 모델의 하나 이상의 객체 모델들의 기하구조를 단순화하는 단계를 추가로 포함하고,
상기 타깃 오디오 신호를 프로세싱하는 단계는 상기 단순화된 기하구조를 갖는 상기 추정된 모델에 기초하는, 방법. - 제8항에 있어서, 상기 추정된 모델은 복셀 그리드(voxel grid) 또는 메시 데이터 구조로서 형성되는, 방법.
- 제8항에 있어서, 상기 기하구조 단순화 알고리즘은 객체 모델의 파장 및 치수들에 기초하여, 상기 추정된 모델로부터 상기 객체 모델을 제거할지 여부를 결정하는, 방법.
- 제8항에 있어서, 상기 기하구조 단순화 알고리즘은, 타깃 위치와 상기 객체 모델 사이의 거리가 증가할 때에는 상기 객체 모델의 기하구조를 더 공격적으로 단순화시키고, 상기 타깃 위치와 상기 객체 모델 사이의 거리가 감소할 때에는 상기 객체 모델의 기하구조를 덜 공격적으로 단순화시키는, 방법.
- 제1항에 있어서, 상기 물리적 환경의 상기 하나 이상의 측정된 음향 파라미터들을 생성하는 단계는,
상기 물리적 환경의 잔향(reverberation) 특성을 결정하도록 상기 오디오 신호들을 프로세싱하는 단계를 포함하며, 상기 잔향 특성은 상기 환경의 상기 하나 이상의 측정된 음향 파라미터들을 정의하는, 방법. - 제12항에 있어서, 상기 물리적 환경의 상기 하나 이상의 측정된 음향 파라미터들은 잔향 감쇠율 또는 시간, 직접 대 잔향 비(direct to reverberation ratio), 또는 잔향 측정 중 하나 이상을 포함하는, 방법.
- 제13항에 있어서, 상기 물리적 환경의 상기 하나 이상의 측정된 음향 파라미터들은 상기 오디오 신호들의 하나 이상의 주파수 범위들에 대응하여 생성되는, 방법.
- 제14항에 있어서, 상기 물리적 환경의 상기 하나 이상의 측정된 음향 파라미터들을 생성하는 단계는,
상기 오디오 신호들로부터 직접 성분을 추출하는 단계;
상기 오디오 신호들로부터 잔향 성분을 추출하는 단계; 및
트레이닝된 신경 네트워크로, 상기 추출된 직접 성분 및 상기 추출된 잔향 성분에 기초하여 상기 잔향 특성을 생성하는 단계를 포함하는, 방법. - 제1항에 있어서, 상기 물리적 환경의 상기 하나 이상의 측정된 음향 파라미터들을 생성하는 단계는, 상기 오디오 신호들에서 어떠한 사운드도 검출되지 않을 때, 이전에 생성된 음향 파라미터들을 소환(recall)하는 단계를 포함하는, 방법.
- 제16항에 있어서, 상기 이전에 생성된 음향 파라미터들은 상기 물리적 환경의 이미지와 상기 이전에 생성된 음향 파라미터들과 연관된 이전 환경의 이미지 사이의 검출된 유사성에 기초하여 선택되는, 방법.
- 제2항에 있어서, 상기 추정된 모델의 상기 하나 이상의 음향 표면 재료 파라미터들 또는 상기 하나 이상의 산란 파라미터들을 수정하는 단계는, 상기 추정된 모델의 추정된 음향 응답을 상기 환경의 상기 측정된 음향 파라미터들과 비교한 것에 기초하여 상기 하나 이상의 음향 표면 재료 파라미터들 또는 상기 하나 이상의 산란 파라미터들을 증가시키거나 감소시키는 단계를 포함하는, 방법.
- 제18항에 있어서, 상기 음향 표면 재료 파라미터들은 흡음 파라미터 또는 사운드 저감 파라미터를 포함하는, 방법.
- 제19항에 있어서, 상기 타깃 오디오 신호를 프로세싱하는 단계는 파동 기반 모델링(wave based modelling)을 포함하는, 방법.
- 제20항에 있어서, 상기 타깃 오디오 신호를 프로세싱하는 단계는 기하학적 음향 알고리즘(geometrical acoustics algorithm)을 포함하는, 방법.
- 제1항에 있어서, 상기 하나 이상의 임펄스 응답들은 양이 방 임펄스 응답(binaural room impulse response, BRIR)을 포함하는, 방법.
- 제1항에 있어서,
상기 방법은 상기 이미지가 캡처되고 상기 오디오 신호들이 캡처되는 것과 동시에 실시간으로 수행되고,
상기 출력 오디오 채널들은 상기 이미지 상에 렌더링된 가상의 시각적 객체와 동기하여 상기 스피커들을 구동하고,
상기 가상 음원의 상기 가상 위치는 상기 가상화된 환경에서 상기 이미지 상에 렌더링된 상기 가상의 시각적 객체의 시각적 위치에 대응하는, 방법. - 향상 현실 환경 내의 오디오를 프로세싱하는 제조 물품으로서,
물리적 환경의 이미지를 캡처하는 카메라;
상기 물리적 환경 내의 사운드를 캡처한 오디오 신호들을 생성하는 마이크로폰 어레이;
복수의 스피커들; 및
명령어들을 저장한 기계 판독가능 매체를 포함하고, 상기 명령어들은, 프로세서에 의해 실행될 때, 상기 제조 물품으로 하여금,
상기 이미지에 기초하여, 상기 물리적 환경의 추정된 모델을 생성하는 것 - 상기 추정된 모델은,
상기 물리적 환경의 3차원 표현, 및
상기 물리적 환경의 환경 파라미터들을 포함함 -;
상기 마이크로폰 어레이에 의해 생성된 상기 오디오 신호들에 기초하여 상기 물리적 환경의 하나 이상의 측정된 음향 파라미터들을 생성하는 것;
상기 추정된 모델 및 상기 측정된 음향 파라미터들을 사용하여 타깃 오디오 신호를 프로세싱하여, 가상 위치를 갖는 가상 음원을 갖는 복수의 출력 오디오 채널들을 생성하는 것; 및
상기 가상화된 환경에서 상기 출력 오디오 채널들로 상기 복수의 스피커들을 구동시키는 것을 수행하게 하는, 제조 물품. - 제24항에 있어서,
상기 물리적 환경의 환경 파라미터들은 하나 이상의 음향 표면 재료 파라미터들 또는 하나 이상의 산란 파라미터들을 포함하고;
상기 타깃 오디오 신호를 프로세싱하는 것은,
상기 측정된 음향 파라미터들에 기초하여, 상기 추정된 모델의 상기 하나 이상의 음향 표면 재료 파라미터들 또는 상기 하나 이상의 산란 파라미터들을 수정하여, 상기 물리적 환경의 업데이트된 모델을 생성하는 것,
상기 업데이트된 모델에 기초하여 하나 이상의 임펄스 응답들을 선택하거나 생성하는 것, 및
상기 타깃 오디오 신호 및 타깃 위치를 상기 하나 이상의 임펄스 응답들과 콘볼루션하여 상기 복수의 출력 오디오 채널들을 생성하는 것을 포함하는, 제조 물품. - 제24항에 있어서,
디스플레이; 및
상기 명령어들을 저장한 상기 기계 판독가능 매체를 추가로 포함하고, 상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 제조 물품으로 하여금, 추가로,
데이터에 인코딩된 가상의 시각적 환경을 생성하도록 상기 이미지에 가상의 시각적 객체를 렌더링하는 것; 및
상기 가상의 시각적 환경의 데이터로 상기 디스플레이를 구동하는 것을 수행하게 하고;
상기 출력 오디오 채널들은 상기 이미지 상에 렌더링된 상기 가상의 시각적 객체와 동기하여 상기 스피커들을 구동하고,
상기 가상 음원의 상기 가상 위치는 상기 가상의 시각적 환경에서 렌더링된 상기 가상의 시각적 객체의 시각적 위치에 대응하는, 제조 물품. - 제24항에 있어서, 상기 카메라는 2차원 카메라이고, 상기 이미지는 2차원 이미지인, 제조 물품.
- 제24항에 있어서, 상기 카메라는 3차원 카메라이고, 상기 이미지는 2차원 파라미터들 및 깊이 파라미터를 갖는, 제조 물품.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962848367P | 2019-05-15 | 2019-05-15 | |
US62/848,367 | 2019-05-15 | ||
PCT/US2020/032274 WO2020231884A1 (en) | 2019-05-15 | 2020-05-09 | Audio processing |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210131422A true KR20210131422A (ko) | 2021-11-02 |
KR102586699B1 KR102586699B1 (ko) | 2023-10-10 |
Family
ID=70919134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217031988A KR102586699B1 (ko) | 2019-05-15 | 2020-05-09 | 오디오 프로세싱 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11956623B2 (ko) |
KR (1) | KR102586699B1 (ko) |
CN (2) | CN116828383A (ko) |
DE (1) | DE112020002355T5 (ko) |
GB (1) | GB2596003B (ko) |
WO (1) | WO2020231884A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024063353A1 (ko) * | 2022-09-23 | 2024-03-28 | 삼성전자주식회사 | 시각적 객체와 관련된 정보에 기반하여 오디오 신호를 변경하는 전자 장치 및 그 방법 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4002889A1 (en) * | 2020-11-20 | 2022-05-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for determining a sound field |
GB2602464A (en) * | 2020-12-29 | 2022-07-06 | Nokia Technologies Oy | A method and apparatus for fusion of virtual scene description and listener space description |
GB2603515A (en) * | 2021-02-05 | 2022-08-10 | Nokia Technologies Oy | Appartus, method and computer programs for enabling audio rendering |
EP4325898A4 (en) * | 2021-04-12 | 2024-10-16 | Panasonic Ip Corp America | INFORMATION PROCESSING METHOD, INFORMATION PROCESSING DEVICE, AND PROGRAM |
EP4325479A4 (en) * | 2021-04-12 | 2024-09-04 | Panasonic Ip Corp America | ACOUSTIC CHARACTERISTIC VALUE ESTIMATION METHOD, ACOUSTIC CHARACTERISTIC VALUE ESTIMATION SYSTEM, PROGRAM, AND RENDERING METHOD |
US11582571B2 (en) * | 2021-05-24 | 2023-02-14 | International Business Machines Corporation | Sound effect simulation by creating virtual reality obstacle |
CN113660569A (zh) * | 2021-08-17 | 2021-11-16 | 上海月猫科技有限公司 | 一种基于高音质网红麦克风的共享音频技术 |
US11805380B2 (en) | 2021-08-31 | 2023-10-31 | Qualcomm Incorporated | Augmented audio for communications |
EP4396810A1 (en) * | 2021-09-03 | 2024-07-10 | Dolby Laboratories Licensing Corporation | Music synthesizer with spatial metadata output |
CN114386252A (zh) * | 2021-12-27 | 2022-04-22 | 达闼机器人有限公司 | 音频播放效果模拟方法及装置 |
CN116489572B (zh) * | 2022-01-14 | 2024-09-06 | 华为技术有限公司 | 一种电子设备控制方法、装置及电子设备 |
US12118667B2 (en) * | 2022-06-13 | 2024-10-15 | Verizon Patent And Licensing Inc. | Methods and systems for unified rendering of light and sound content for a simulated 3D environment |
EP4428504A1 (en) * | 2023-03-08 | 2024-09-11 | Siemens Industry Software NV | Auralizing a scenario |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232471A1 (en) * | 2017-02-16 | 2018-08-16 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes |
US20190116448A1 (en) * | 2017-10-17 | 2019-04-18 | Magic Leap, Inc. | Mixed reality spatial audio |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE539431T1 (de) | 2004-06-08 | 2012-01-15 | Koninkl Philips Electronics Nv | Kodierung von tonsignalen mit hall |
KR20090110242A (ko) | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 신호를 처리하는 방법 및 장치 |
US9219972B2 (en) | 2010-11-19 | 2015-12-22 | Nokia Technologies Oy | Efficient audio coding having reduced bit rate for ambient signals and decoding using same |
CN104604257B (zh) * | 2012-08-31 | 2016-05-25 | 杜比实验室特许公司 | 用于在各种收听环境中渲染并且回放基于对象的音频的系统 |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US20160109284A1 (en) * | 2013-03-18 | 2016-04-21 | Aalborg Universitet | Method and device for modelling room acoustic based on measured geometrical data |
EP2942982A1 (en) | 2014-05-05 | 2015-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering |
EP3465679A4 (en) * | 2016-05-25 | 2020-01-15 | Warner Bros. Entertainment Inc. | METHOD AND DEVICE FOR GENERATING PRESENTATIONS OF THE VIRTUAL OR EXTENDED REALITY WITH 3D AUDIO POSITIONING |
US9906885B2 (en) * | 2016-07-15 | 2018-02-27 | Qualcomm Incorporated | Methods and systems for inserting virtual sounds into an environment |
US20180206038A1 (en) * | 2017-01-13 | 2018-07-19 | Bose Corporation | Real-time processing of audio data captured using a microphone array |
-
2020
- 2020-05-09 KR KR1020217031988A patent/KR102586699B1/ko active IP Right Grant
- 2020-05-09 CN CN202310784946.0A patent/CN116828383A/zh active Pending
- 2020-05-09 CN CN202080019451.3A patent/CN113597777B/zh active Active
- 2020-05-09 WO PCT/US2020/032274 patent/WO2020231884A1/en active Application Filing
- 2020-05-09 GB GB2112963.0A patent/GB2596003B/en active Active
- 2020-05-09 DE DE112020002355.9T patent/DE112020002355T5/de active Pending
-
2021
- 2021-06-28 US US17/360,823 patent/US11956623B2/en active Active
-
2024
- 2024-03-20 US US18/611,407 patent/US20240236610A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232471A1 (en) * | 2017-02-16 | 2018-08-16 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes |
US20190116448A1 (en) * | 2017-10-17 | 2019-04-18 | Magic Leap, Inc. | Mixed reality spatial audio |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024063353A1 (ko) * | 2022-09-23 | 2024-03-28 | 삼성전자주식회사 | 시각적 객체와 관련된 정보에 기반하여 오디오 신호를 변경하는 전자 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
GB202112963D0 (en) | 2021-10-27 |
DE112020002355T5 (de) | 2022-01-27 |
CN113597777A (zh) | 2021-11-02 |
KR102586699B1 (ko) | 2023-10-10 |
GB2596003B (en) | 2023-09-20 |
US20240236610A1 (en) | 2024-07-11 |
CN116828383A (zh) | 2023-09-29 |
US11956623B2 (en) | 2024-04-09 |
GB2596003A (en) | 2021-12-15 |
CN113597777B (zh) | 2023-07-07 |
US20210329405A1 (en) | 2021-10-21 |
WO2020231884A1 (en) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102586699B1 (ko) | 오디오 프로세싱 | |
US11617050B2 (en) | Systems and methods for sound source virtualization | |
US10425762B1 (en) | Head-related impulse responses for area sound sources located in the near field | |
US10602298B2 (en) | Directional propagation | |
US11128977B2 (en) | Spatial audio downmixing | |
US10721581B1 (en) | Head-related transfer function (HRTF) personalization based on captured images of user | |
US20240298136A1 (en) | 3D Audio Rendering Using Volumetric Audio Rendering and Scripted Audio Level-of-Detail | |
US11930337B2 (en) | Audio encoding with compressed ambience | |
US20190387340A1 (en) | Methods and systems for audio signal filtering | |
US11070933B1 (en) | Real-time acoustic simulation of edge diffraction | |
US11546692B1 (en) | Audio renderer based on audiovisual information | |
WO2021067183A1 (en) | Systems and methods for sound source virtualization | |
US20240259759A1 (en) | Decorrelating Objects Based On Attention | |
Thery et al. | Impact of the visual rendering system on subjective auralization assessment in VR | |
US20240007820A1 (en) | System and method of providing faded audio experience during transition between environments | |
EP4428504A1 (en) | Auralizing a scenario | |
Geronazzo et al. | Customized 3D sound for innovative interaction design | |
US11997463B1 (en) | Method and system for generating spatial procedural audio | |
US20240098447A1 (en) | Shared point of view | |
CN116391171A (zh) | 动态改变音频特性 | |
Devallez | Auditory perspective: perception, rendering, and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |