KR20190091445A - 오디오 이미지를 생성하는 시스템 및 방법 - Google Patents

오디오 이미지를 생성하는 시스템 및 방법 Download PDF

Info

Publication number
KR20190091445A
KR20190091445A KR1020197014435A KR20197014435A KR20190091445A KR 20190091445 A KR20190091445 A KR 20190091445A KR 1020197014435 A KR1020197014435 A KR 1020197014435A KR 20197014435 A KR20197014435 A KR 20197014435A KR 20190091445 A KR20190091445 A KR 20190091445A
Authority
KR
South Korea
Prior art keywords
impulse response
audio
generating
audio stream
location
Prior art date
Application number
KR1020197014435A
Other languages
English (en)
Inventor
매튜 보럼
브라이언 마틴
Original Assignee
오더블 리얼리티 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오더블 리얼리티 아이엔씨. filed Critical 오더블 리얼리티 아이엔씨.
Publication of KR20190091445A publication Critical patent/KR20190091445A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 시스템 및 방법. 상기 방법은 오디오 스트림을 액세스하는 단계, 위치 정보를 액세스하는 단계 - 상기 위치 정보는 제1 위치, 제2 위치 및 제3 위치를 포함함 - 및 오디오 이미지를 생성하는 단계를 포함한다. 일부 실시예에서, 오디오 이미지를 생성하는 단계는 오디오 스트림을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 단계, 오디오 스트림을 기초로 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 단계, 및 오디오 스트림을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 단계를 포함한다.

Description

오디오 이미지를 생성하는 시스템 및 방법
관련 출원의 교차 참조
이 PCT 출원은 2016년 10월 19일자 미국 가특허출원 번호 62/410,132의 우선권을 주장하며, 이의 전체 내용이 본 명세서에 참조로서 포함된다.
분야
본 발명은 오디오 이미지를 생성하는 시스템 및 방법과 관련된다. 구체적으로, 시스템 및 방법은 오디오를 청자에게 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 것을 가능하게 한다.
인간은 2개의 청각기관만 갖지만, 그럼에도, 3차원에서 소리의 위치를 찾을 수 있다. 뇌, 내이 및 외이가 함께 동작하여, 음원의 위치를 추론할 수 있다. 청자가 3차원에서 소리를 찾기 위해, 소리는 특정 방위각, 고도 및 거리로부터 지각적으로 도달해야 한다. 제1 귀에 의해 지각된 제1 큐를 제2 귀에 의해 지각된 제2 큐에 비교하여 도착 시점, 강도 및 스펙트럼 차이를 기초로 차이 큐(difference cue)를 도출함으로써 청자의 뇌가 음원의 소리 위치를 추정한다. 그 후 뇌는 차이 큐를 이용해 음원의 특정 방위각, 고도 및 거리를 찾을 수 있다.
에디슨(Edison)에 의해 개발되고 미국 특허 200,521에 기재된 축음기에서부터 공간 오디오의 가장 최신 개발까지, 오디오 전문가 및 엔지니어가 실제 생활에서 듣고 느끼는 것 같은 현실감을 재생하는 데 상당한 노력을 들였다. 이 목적은 오디오가 사용자에게 몰입 경험을 제공하는 데 중요한 역할을 하는 가상 및 증강 현실의 최근 발전과 함께 더 일반적이 됐다. 따라서, 공간 오디오의 분야가 지난 수년 동안 많은 주목을 끌었다. 공간 오디오의 최근 발전은 음원의 위치가 포착 및/또는 재생될 수 있는 방법을 개선하는 데 주로 집중한다. 일반적으로 이러한 발전은 가상 3차원 공간의 임의의 곳, 가령, 청자의 뒤, 앞, 옆, 위 및/또는 아래에 음원을 가상으로 위치설정 및/또는 변위하는 것을 포함한다.
음원의 위치 및 이동의 지각에 대한 최근 발전의 예시로는 기법, 가령, (1) 주로 상업적 및/또는 가정용 극장에 특화된 Dolby Laboratories의 Dolby Atmos®, 및 (2) 주로 헤드폰 및/또는 확성기에서 재생될 오디오 콘텐츠의 생성에 특화된 Facebook의 Two Big Ears®(Facebook 360®라고도 지칭됨)이 있다. 첫번째 예시로서, Dolby Atmos® 기법에 의해 다양한 오디오 트랙이 공간 오디오 기술 메타데이터(spatial audio description metadata)(가령, 위치 및/또는 팬 자동화 데이터)와 연관될 수 있고 극장 기능을 기초로 확성기로의 최적의 동적 렌더링을 위해 극장으로 분산될 수 있다. 두번째 예시로서, Two Big Ears® 기법이 360 비디오 및/또는 가상 현실(VR) 및/또는 증강 현실(AR) 콘텐츠를 위한 공간 오디오를 설계하기 위한 소프트웨어 제품군(가령, Facebook 360 Spatial Workstation)을 포함한다. 그 후 360 비디오 및/또는 VR 및/또는 AR 콘텐츠가 헤드폰 또는 VR/AR 헤드셋 상에 동적으로 렌더링될 수 있다.
일반적으로 기존 기법은 3차원 공간의 한 지점으로부터 발산되는 자연스러운 음파를 흉내내기 위해 HRTF(head-related transfer function)을 이용한 음파의 공간 도메인 컨볼루션을 이용해, 음파를 변환할 수 있다. 이러한 기법은, 특정 한계 내에서, 오디오 스트림이 단 2개의 스피커(가령, 헤드폰 또는 확성기)로부터 생성되는 경우라도, 청자의 뇌를 속여 오디오 스트림을 들으면 상이한 음원을 상이한 3차원 위치에 배치하는 체할 수 있다. HRTF를 이용한 공간 오디오 향상의 시스템 및 방법의 예시가 Creative Technology Ltd의 미국 특허 공개번호 2014/0270281, Dolby Laboratories Inc.의 국제 특허 공개번호 WO 2014/159376, 및 Dolby Laboratories Licensing Corporation의 국제 특허 공개번호 WO 2015/134658에서 발견될 수 있다.
현재 기법, 가령, 앞서 상세히 기재된 것이 청자를 몰립 경험으로 한 단계 더 가까이 연결할 수 있더라도, 적어도 특정 결함이 여전히 존재한다. 첫째, 현재 기법은 3차원 위치에서 상이한 음원을 위치시키고 이동시키는 척하도록 청자의 뇌를 속이는 데 특정 한계를 나타낼 수 있다. 이들 한계는 청자가 실제 생활에서 경험하는 것보다 더 낮은 몰입 경험 및/또는 더 낮은 오디오 품질을 초래한다. 둘째, 적어도 일부의 현재 기법은 종래의 HRTF 시뮬레이션 소프트웨어를 동작시키기 위해 복잡한 소프트웨어 및/또는 하드웨어 구성요소를 필요로 한다. 오디오 콘텐츠가 모바일 디바이스(가령, 스마트 폰, 태블릿, 랩톱 컴퓨터, 헤드폰, VR 헤드셋, AR 헤드셋)를 통해 재생되는 경우가 늘어감에 따라, 복잡한 소프트웨어 및/또는 하드웨어 구성요소가 항상 적절한 것은 아닐 수 있는데, 왜냐하면 이들은 모바일 디바이스가 일반적으로 경량이고, 소형이며, 저전력형이기 때문에 가질 수 없는 상당한 프로세싱 파워를 필요로 하기 때문이다.
따라서 개선이 필요할 수 있다.
배경기술 섹션에서 언급된 주제 사항은, 배경기술 섹션에 언급되었다는 결과만으로 공지 기술로 간주되어서는 안 된다. 마찬가지로 배경기술 섹션에 언급되거나 배경기술 섹션의 주제 사항과 연관된 문제가 공지 기술에서 이미 인식되었던 것으로 간주되어서는 안 된다. 배경기술 섹션의 주제 사항은 상이한 접근법을 나타낼 뿐이다.
종래 기술과 관련된 단점들의 인식을 바탕으로 본 발명의 실시예가 개발되었다.
구체적으로, 이러한 단점은 (1) 몰입 경험의 낮은 품질, (2) 청자에게로의 오디오 콘텐츠를 자연스럽게 렌더링할 수 있는 능력의 부족, 및/또는 (3) 공간 오디오 콘텐츠 및/또는 재생 공간 오디오 콘텐츠를 청자에게 생성하는 데 사용되는 디바이스의 필요한 프로세싱 파워를 포함할 수 있다.
본 발명의 다양한 구현예가 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법을 제공하며, 상기 방법은
오디오 스트림을 액세스하는 단계,
제1 위치 임펄스 응답을 액세스하는 단계 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
제2 위치 임펄스 응답을 액세스하는 단계 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
제3 위치 임펄스 응답을 액세스하는 단계 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
오디오 이미지를 생성하는 단계
를 포함하고, 상기 오디오 이미지를 생성하는 단계는
오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 단계,
오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 단계, 및
오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 단계를 실행함으로써, 이뤄진다.
또 다른 양태에서, 본 발명의 다양한 구현은 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법을 제공하며, 상기 방법은
오디오 스트림을 액세스하는 단계,
위치 정보를 액세스하는 단계 - 상기 위치 정보는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
상기 오디오 이미지를 생성하는 단계를 포함하며, 상기 오디오 이미지를 생성하는 단계는
오디오 스트림을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 단계,
오디오 스트림을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 단계, 및
오디오 스트림을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 단계를 실행함으로써 이뤄진다.
또 다른 양태에서, 본 발명의 다양한 구현은 오디오를 렌더링할 때 사용될 입체 오디오 이미지를 생성하는 방법을 제공하며, 상기 방법은
오디오 스트림을 액세스하는 단계,
제1 위치 임펄스 응답을 액세스하는 단계,
제2 위치 임펄스 응답을 액세스하는 단계,
제3 위치 임펄스 응답을 액세스하는 단계,
제어 데이터를 액세스하는 단계 - 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
상기 제1 위치 임펄스 응답과 제1 위치를 연관시키고, 제2 위치 임펄스 응답과 제2 위치를 연관시키며, 제3 위치 임펄스 응답과 제3 위치를 연관시키는 단계,
입체 오디오 이미지를 생성하는 단계를 포함하며, 상기 입체 오디오 이미지를 생성하는 단계는
오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 위치로부터 발산되는 제1 가상 파면을 생성하는 단계,
오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 위치로부터 발산되는 제2 가상 파면을 생성하는 단계,
오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 위치로부터 발산되는 제3 가상 파면을 생성하는 단계, 및
제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하여 입체 오디오 이미지를 렌더링하는 단계를 병렬로 실행함으로써 이뤄지는, 입체 오디오 이미지를 생성한다.
또 다른 양태에서, 본 발명의 다양한 구현예는 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법을 제공하며, 상기 방법은
오디오 스트림을 액세스하는 단계,
제1 위치 임펄스 응답을 액세스하는 단계 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
제2 위치 임펄스 응답을 액세스하는 단계 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
제3 위치 임펄스 응답을 액세스하는 단계 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
오디오 이미지를 생성하는 단계를 포함하며, 상기 오디오 이미지를 생성하는 단계는
오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 가상 파면을 생성하는 단계,
오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 가상 파면을 생성하는 단계,
오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 가상 파면을 생성하는 단계를 병렬로 실행함으로써 이뤄진다.
또 다른 양태에서, 본 발명의 다양한 구현예는 오디오 출력을 렌더링하기 위한 시스템을 제공하며, 상기 시스템은
음장 포지셔너 - 음장 포지셔너는
위치 임펄스 응답 및 제어 데이터를 액세스하도록 구성되며, 제어 데이터는 위치 임펄스 응답과 연관된 위치를 포함함 - ,
오디오 이미지 렌더러 - 상기 오디오 이미지 렌더러는
오디오 스트림을 액세스하고,
상기 위치로부터 발산되는 가상 파면을 포함하는 오디오 이미지를 생성하며 - 각각의 가상 파면은 오디오 스트림 및 개개의 위치 임펄스 응답을 기초로 생성됨 - ,
가상 파면들을 믹싱하고 m-채널 오디오 출력을 출력하여 오디오 이미지를 렌더링하도록 구성됨 - 를 포함한다.
본 발명은 오디오 이미지 파일을 생성하기 위한 시스템을 제공하며, 상기 시스템은
입력 인터페이스 - 상기 입력 인터페이스는
오디오 스트림을 수신하고,
제어 데이터를 액세스하도록 구성되며, 상기 제어 데이터는 임펄스 응답과 연관될 위치를 포함함 - ,
인코더 - 상기 인코더는 오디오 스트림과 제어 데이터를 인코딩하여, 오디오 이미지 렌더러가 상기 위치로부터 발산되는 가상 파면을 포함하는 오디오 이미지를 생성하도록 구성되며, 각각의 가상 파면은 오디오 스트림 및 개개의 위치 임펄스 응답을 기초로 생성됨 - 를 포함한다.
또 다른 양태에서, 본 발명의 다양한 구현예는 오디오 스트림을 필터링하는 방법을 제공하며, 상기 방법은
오디오 스트림을 액세스하는 단계,
공간과 관련된 차원 정보를 액세스하는 단계,
상기 공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 결정하는 단계, 및
주파수를 기초로 상기 오디오 스트림을 제1 오디오 서브-스트림과 제2 오디오 서브-스트림으로 분할하는 단계를 포함한다.
또 다른 양태에서, 본 발명의 다양한 구현예는 오디오 이미지를 생성하기 위한 시스템을 제공하며, 상기 시스템은
프로세서,
비-일시적 컴퓨터-판독형 매체를 포함하고, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
오디오 스트림을 액세스하는 것,
제1 위치 임펄스 응답을 액세스하는 것 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
제2 위치 임펄스 응답을 액세스하는 것 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
제3 위치 임펄스 응답을 액세스하는 것 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 것,
오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 것, 및
오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 실행시킴으로써 이뤄진다.
또 다른 양태에서, 본 발명의 다양한 구현예는 오디오 이미지를 생성하기 위한 시스템을 제공하며, 상기 시스템은
프로세서,
비-일시적 컴퓨터-판독형 매체를 포함하고, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하며, 상기 제어 로직은 프로세서에 의해 실행될 때,
오디오 스트림을 액세스하는 것,
위치 정보를 액세스하는 것 - 상기 위치 정보는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
오디오 스트림을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 것,
오디오 스트림을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 것, 및
오디오 스트림을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 병렬로 실행함으로써 이뤄진다.
또 다른 양태에서 본 발명의 다양한 구현예는 입체 오디오 이미지를 생성하기 위한 시스템을 제공하며, 상기 시스템은
프로세서,
비-일시적 컴퓨터-판독형 매체를 포함하며, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
오디오 스트림을 액세스하는 것,
제1 위치 임펄스 응답을 액세스하는 것,
제2 위치 임펄스 응답을 액세스하는 것,
제3 위치 임펄스 응답을 액세스하는 것,
제어 데이터를 액세스하는 것 - 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
제1 위치 임펄스 응답과 제1 위치를 연관시키고, 제2 위치 임펄스 응답과 제2 위치를 연관시키며, 제3 위치 임펄스 응답과 제3 위치를 연관시키는 것,
입체 오디오 이미지를 생성하는 것을 야기하고, 상기 입체 오디오 이미지를 생성하는 것은
오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 위치로부터 발산되는 제2 가상 파면을 생성하는 것,
오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 위치로부터 발산되는 제2 가상 파면을 생성하는 것,
오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 위치로부터 발산되는 제3 가상 파면을 생성하는 것, 및
제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하여 입체 오디오 이미지를 렌더링하는 것을 병렬로 실행함으로써 이뤄진다.
또 다른 양태에서, 본 발명의 다양한 구현예에서, 오디오 이미지를 생성하기 위한 시스템을 제공하며, 상기 시스템은
프로세서,
비-일시적 컴퓨터-판독형 매체를 포함하며, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
오디오 스트림을 액세스하는 것,
제1 위치 임펄스 응답을 액세스하는 것 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
제2 위치 임펄스 응답을 액세스하는 것 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
제3 위치 임펄스 응답을 액세스하는 것 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 가상 파면을 생성하는 것,
오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 가상 파면을 생성하는 것, 및
오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 가상 파면을 생성하는 것을 병렬로 실행함으로써 이뤄지는, 오디오 이미지를 생성하기 위한 시스템.
또 다른 양태에서, 본 발명의 다양한 구현예는 오디오 스트림을 필터링하기 위한 시스템을 제공하며, 상기 시스템은
프로세서,
비-일시적 컴퓨터-판독형 매체를 포함하며, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
오디오 스트림을 액세스하는 것,
공간과 관련된 차원 정보를 액세스하는 것,
공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 결정하는 것, 및
상기 주파수를 기초로 오디오 스트림을 제1 오디오 서브-스트림 및 제2 오디오 서브-스트림으로 분할하는 것을 야기한다.
또 다른 양태에서, 본 발명의 다양한 구현예는 제어 로직을 포함하는 비-일시적 컴퓨터 판독형 매체를 제공하며, 상기 제어 로직은 프로세서에 의해 실행될 때,
오디오 스트림을 액세스하는 것,
제1 위치 임펄스 응답을 액세스하는 것 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
제2 위치 임펄스 응답을 액세스하는 것 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
제3 위치 임펄스 응답을 액세스하는 것 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 것,
오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 것, 및
오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 실행함으로써 이뤄진다.
또 다른 양태에서, 본 발명의 다양한 구현예가 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법을 제공하며, 상기 방법은
오디오 스트림을 액세스하는 단계,
제1 위치 임펄스 응답을 액세스하는 단계 - 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
제2 위치 임펄스 응답을 액세스하는 단계 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
제3 위치 임펄스 응답을 액세스하는 단계 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
오디오 이미지를 생성하는 단계를 포함하고, 상기 오디오 이미지를 생성하는 단계는
오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계,
오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계, 및
오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계를 실행함으로써 이뤄진다.
또 다른 양태에서, 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계, 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계, 및 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계는 병렬로 실행된다.
또 다른 양태에서, 본 발명의 다양한 구현예가 오디오 이미지를 생성하기 위한 프로그램 명령을 저장하는 비-일시적(non-transitory) 컴퓨터 판독형 매체를 제공하며, 프로그램 명령은 상기 언급된 방법 중 하나 이상을 구행하기 위해 컴퓨터-기반 시스템의 프로세서에 의해 실행 가능하다.
또 다른 양태에서, 본 발명의 다양한 구현이 컴퓨터 기반 시스템, 비제한적 예를 들면, 적어도 하나의 프로세서 및 오디오 이미지를 생성하기 위한 프로그램 명령을 저장하는 메모리를 포함하는 전자 디바이스를 제공하며, 상기 프로그램 명령은 앞서 언급된 방법 중 하나 이상을 수행하기 위해 전자 디바이스의 적어도 하나의 프로세서에 의해 실행 가능하다.
본 명세서의 맥락에서, 달리 명시적으로 제공되지 않는 한, 컴퓨터 시스템은, 비제한적 예를 들면, "전자 디바이스", "모바일 디바이스", "오디오 처리 디바이스", "헤드폰", "헤드셋", "VR 헤드셋 디바이스", "AR 헤드셋 디바이스", "시스템", "컴퓨터 기반 시스템" 및/또는 관련 작업에 적절한 이들의 임의의 조합을 포함할 수 있다.
본 명세서의 맥락에서, 달리 명시적으로 제공되지 않는 한, 표현 "컴퓨터-판독형 매체" 및 "메모리"는 임의의 속성 및 유형의 매체를 포함하도록 의도되며, 이들의 비제한적 예시로는 RAM, ROM, 디스크(CD-ROM, DVD, 플로피 디스크, 하드 디스크 드라이브 등), USB 키, 플래시 메모리 카드, 솔리드 스테이트-드라이브, 및 테이프 드라이브가 있다. 본 명세서의 맥락에서, 컴퓨터 판독형 매체와 "상기" 컴퓨터 판독형 매체는 동일한 판독형 매체로 해석되어서는 안 된다. 이와 달리, 경우에 따라, 컴퓨터 판독형 매체와 "상기" 컴퓨터 판독형 매체는 또한 제1 컴퓨터 판독형 매체 및 제2 컴퓨터 판독형 매체로 해석될 수 있다.
본 명세서의 맥락에서, 달리 명시적으로 제공되지 않는 한, 단어 "제1", "제2", "제3" 등은 서로 상이한 명사들 간 구별을 가능하게 하는 목적의 형용사로서 사용된 것에 불과하며, 이들 명사들 간 임의의 특정 순서를 기재하기 위한 것이 아니다.
본 발명의 구현 각각은 앞서 언급된 목적 및/또는 양태 중 적어도 하나를 갖지만, 반드시 이들 모두를 갖는 것은 아니다. 앞서 언급된 목적을 이루기 위해 시도함으로써 도출된 본 발명의 일부 양태가 이 목적을 만족시키지 않거나 본 명세서에 특정하게 언급되지 않는 그 밖의 다른 목적을 만족시킬 수 있다.
본 발명의 구현의 추가 및/또는 대안적 특징, 양태 및 이점이 다음의 설명, 이하의 도면 및 청구항으로부터 명백해질 것이다.
본 발명뿐 아니라 그 밖의 다른 양태 및 추가 특징까지 더 잘 이해하기 위해, 도면과 함께 사용될 다음의 설명이 참조된다.
도 1은 본 발명의 실시예에 따르는 컴퓨팅 환경의 다이어그램이다.
도 2는 본 발명의 실시예에 따르는 오디오 이미지를 생성 및 렌더링하기 위한 오디오 시스템의 다이어그램이다.
도 3은 본 발명의 실시예에 따르는, 위치 임펄스 응답과 위치를 연관시키는 대응관계 표의 다이어그램이다.
도 4는 본 발명의 실시예에 따르는, 위치 임펄스 응답 및 3차원 공간의 표현이다.
도 5는 본 발명의 실시예에 따르는 오디오 렌더링 시스템의 다이어그램이다.
도 6은 본 발명의 실시예에 따르는 오디오 렌더링 시스템의 다양한 구성요소의 다이어그램이다.
도 7은 본 발명의 실시예에 따르는 오디오 이미지를 렌더링하는 오디오 렌더링 시스템의 다양한 구성요소의 다이어그램이다.
도 8은 본 발명의 실시예에 따르는 또 다른 오디오 이미지를 렌더링하는 오디오 렌더링 시스템의 다양한 구성요소의 다이어그램이다.
도 9는 본 발명에 따르는 오디오 이미지 렌더러의 실시예의 다이어그램이다.
도 10은 본 발명에 따르는 오디오 이미지 렌더러의 또 다른 실시예의 다이어그램이다.
도 11 및 12는 본 발명에 따르는 오디오 이미지 렌더러의 또 다른 실시예의 다이어그램이다.
도 13 및 14는 본 발명에 따르는 오디오 이미지 렌더러의 또 다른 실시예의 다이어그램이다.
도 15는 본 발명의 실시예에 따르는 가상 파면의 3차원 공간 및 표현의 다이어그램이다.
도 16 내지 18은 본 발명에 따라 렌더링되는 오디오 이미지를 경험하는 청자의 표현이다.
도 19 내지 21은 본 발명에 따라 렌더링되는 오디오 이미지를 경험하는 청자의 표현이다.
도 22는 본 발명에 따르는 오디오 이미지 렌더러의 또 다른 실시예의 다이어그램이다.
도 23 및 24는 본 발명의 실시예에 따르는 오디오 필터 및 상기 오디오 필터와 관련된 정보의 다이어그램이다.
도 25는 본 발명의 실시예를 구현하는 제1 컴퓨터로 구현되는 방법을 도시하는 흐름도를 도시하는 다이어그램이다.
도 26은 본 발명의 실시예를 구현하는 제2 컴퓨터로 구현되는 방법을 도시하는 흐름도를 도시하는 다이어그램이다.
도 27은 본 발명의 실시예를 구현하는 제3 컴퓨터로 구현되는 방법을 도시하는 흐름도를 도시하는 다이어그램이다.
도 28은 본 발명의 실시예를 구현하는 제4 컴퓨터로 구현되는 방법을 도시하는 흐름도를 도시하는 다이어그램이다.
본 명세서에서 달리 특정되지 않는 한 도면은 실제 비율로 그려진 것이 아님을 알아야 한다.
본 명세서에 언급된 예시 및 조건적 표현은 읽는 이가 본 발명의 기술의 원리를 이해하는 데 도움을 주려는 의도를 가지며 발명의 범위를 이러한 특정하게 언급되는 예시 및 조건에 한정하려는 것이 아니다. 해당 분야의 통상의 기술자라면, 본 명세서에 명시적으로 기재되거나 도시되지 않았어도 본 발명의 원리를 구현하며 본 발명의 사상 및 범위에 속하는 다양한 구성을 고려할 수 있음이 자명할 것이다.
또한, 이해를 돕기 위해, 이하에서, 본 발명의 비교적 단순화된 구현이 설명될 수 있다. 해당 분야의 통상의 기술자라면, 본 발명의 다양한 구현이 더 복잡할 수 있음을 이해할 것이다.
일부 경우, 도움이 될 것이라고 여겨지는 본 발명의 수정예가 또한 제공될 수 있다. 이는 단지 이해를 돕기 위한 것이며, 다시 말하지만, 범위를 정의하거나 본 발명의 경계를 제공하려는 것이 아니다. 이들 수정예는 포괄적 목록이 아니며 해당 분야의 통상의 기술자라면 본 발명의 범위 내에 있는 그 밖의 다른 수정예를 만들 수 있다. 또한, 어떠한 수정예도 제공되지 않는 경우, 이는 어떠한 수정도 가능하지 않다거나 기재된 것이 본 발명의 요소를 구현하는 유일한 방식이라는 것으로 해석되어서는 안 된다.
또한, 본 발명의 원리, 양태, 및 구현과 이들의 특정 예시를 언급하는 본 명세서의 모든 기재가, 현재 알려져 있거나 미래에 개발되는지에 무관하게 구조적 및 기능적 균등예를 모두 포함하는 것으로 의도된다. 따라서, 예를 들어, 해당 분야의 통상의 기술자라면 본 명세서의 임의의 블록도가 본 발명의 원리를 구현하는 예시적 회로의 개념도를 나타남을 알 것이다. 마찬가지로, 컴퓨터 또는 프로세서가 명시적으로 나타나는지 여부와 무관하게 임의의 흐름차트, 흐름도, 상태 전환도, 의사-코드(pseudo-code) 등이 실질적으로 컴퓨터 판독형 매체에서 나타나고 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 프로세스를 나타냄이 자명할 것이다.
도면에 도시된 다양한 요소의 기능, 가령, "프로세서", "제어기", "인코더", "음장 포지셔너(sound-field positioner)", "렌더러(renderer)", "디코더", "필터", "측위 콘볼루션 엔진(localisation convolution engine)", "믹서", 또는 "다이나믹 프로세서(dynamic processor)"라고 라벨링된 임의의 기능 블록이 전용 하드웨어 및 적절한 소프트웨어와 연관되어 소프트웨어를 실행할 수 있는 하드웨어의 사용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 단일 전용 프로세서, 단일 공유 프로세서, 또는 복수의 개별 프로세서에 의해, 기능이 제공될 수 있으며, 이들 중 일부가 공유될 수 있다. 본 발명의 일부 실시예에서, 프로세서는 범용 프로세서, 가령, 중앙 처리 장치(CPU) 또는 특수 목적 전용 프로세서, 가령, 디지털 신호 프로세서(DSP)일 수 있다. 덧붙여, 용어 "프로세서", "제어기", "인코더", "음장 포지셔너", "렌더러", "디코더", "필터", "측위 콘볼루션 엔진", "믹서" 또는 "다이나믹 프로세서"의 명시적 사용이 소프트웨어를 실행할 수 있는 하드웨어만을 배타적으로 지칭하는 것으로 해석되어서는 안 되며, 비제한적으로, ASIC(application specific integrated circuit), FPGA(field programmable gate array), 소프트웨어를 저장하기 위한 ROM(read-only memory), RAM(random access memory), 비휘발성 저장장치까지 암시할 수 있다. 그 밖의 다른 하드웨어, 종래의 및/또는 커스텀 하드웨어가 또한 포함될 수 있다.
소프트웨어 모듈, 또는 단순히 소프트웨어일 것으로 의미하는 모듈이 본 명세서에서 프로세스 단계 및/또는 텍스트 기재의 수행을 가리키는 흐름도 요소 또는 그 밖의 다른 요소의 임의의 조합으로 나타날 수 있다. 이러한 모듈은 명시적 또는 묵시적으로 나타난 하드웨어에 의해 실행될 수 있다. 덧붙여, 모듈은 비제한적 예를 들면, 필요한 기능을 제공하는 컴퓨터 프로그램 로직, 컴퓨터 프로그램 명령, 소프트웨어, 스택, 펌웨어, 하드웨어 회로 또는 이들의조합을 포함할 수 있다.
본 명세서 전체에서, 오디오 이미지, 오디오 스트림, 위치 임펄스 응답(positional impulse response), 및 가상 파면(virtual wave front)이 언급된다. 이러한 언급은 설명 목적으로 이뤄지며 본 발명의 예시로 의도된 것임이 이해될 것이다.
오디오 이미지: 청자에 의해 청취되면, 창자가 현실 생활에서 겪을 것과 유사한 입체적 오디오 포락선의 지각이 재생되도록 하는 방식으로 생성되는 오디오 신호 또는 오디오 신호의 조합. 종래의 오디오 시스템, 가령, 헤드폰은 청자의 귀 사이에서 지각되는 것에 한정되는 오디오 경험을 전달하지만, 청자에게 렌더링되는 오디오 이미지는 청자의 머리 외부 및/또는 주위로 확장되는 소리 경험으로 지각될 수 있다. 이는 청자에게 더 생생하고, 강렬하며, 현실 같은 경험을 야기한다. 일부 실시예에서, 오디오 이미지는, 청자에 의해 경험될 입체적 포락선의 개념을 전달하도록 홀로그래피 오디오 이미지 및/또는 3차원 오디오 이미지라고 지칭될 수 있다. 일부 실시예에서, 적어도 3개의 가상 파면의 조합에 의해 오디오 이미지가 형성될 수 있다. 일부 실시예에서, 오디오 스트림으로부터 생성된 적어도 3개의 가상 파면의 조합에 의해 오디오 이미지가 형성될 수 있다.
오디오 스트림: 하나 이상의 오디오 채널을 포함할 수 있는 오디오 정보의 스트림. 오디오 스트림은 디지털 오디오 신호 또는 아날로그 오디오 신호로서 임베딩될 수 있다. 일부 실시예에서, 오디오 스트림은 지정 크기(가령, 지정 지속시간의) 컴퓨터 오디오 파일의 형태 또는 오디오 정보의 연속 스트림(가령, 음원으로부터 스트리밍된 연속 스트림)을 취할 수 있다. 예를 들어, 오디오 스트림은 비압축 오디오 파일(가령, ".wav" 파일) 또는 압축 오디오 파일(가령, ".mp3" 파일)의 형태를 취할 수 있다. 일부 실시예에서, 오디오 스트림은 단일 오디오 채널(즉, 모노 오디오 스트림)을 포함할 수 있다. 일부 다른 실시예에서, 오디오 스트림은 2개의 오디오 채널(즉, 스테레오 오디오 스트림) 또는 셋 이상의 오디오 채널(가령, 5.1 오디오 포맷, 7.1 오디오 포맷, MPEG 멀티채널 등)을 포함할 수 있다.
위치 임펄스 응답: 간단한 입력 신호(즉, 임펄스)가 제공될 때의 다이나믹 시스템의 출력. 일부 실시예에서, 임펄스 응답은 일부 외부 변화에 응답한 시스템의 반응(가령, 음향 공간)을 기술한다. 일부 실시예에서, 임펄스 응답에 의해, 음향 공간의 하나 이상의 특성을 캡처하는 것이 가능하다. 본 발명의 일부 실시예에서, 임펄스 응답은 음향 공간의 대응하는 위치와 연관되며, 따라서 "위치 임퍼스 응답"이라고 명명되며, "PIR"이라고도 지칭될 수 있다. 이러한 음향 공간은 현실 공간(가령, 작은 레코딩실, 큰 콘서트 홀) 또는 가상 공간(가령, 청자의 머리 주위에서 "재생"될 음향 구(acoustic sphere))일 수 있다. 위치 임펄스 응답은 음향 공간의 음향 특성을 정의하는 패키지 또는 세트를 정의할 수 있다. 일부 실시예에서, 위치 임펄스 응답은 신호를 전달하는 장비와 연관된다. 위치 임펄스 응답의 개수는 달라질 수 있으며 이에 한정되지 않는다. 위치 임펄스 응답은 복수의 형태, 비제한적 예를 들면, 시간 영역에서의 신호 또는 주파수 영역에서의 신호의 형태를 취할 수 있다. 일부 실시예에서, 각각의 위치 임펄스 응답의 위치가 실시간으로(가령, 각각의 실시간 제어기의 명령어에 기초하여) 또는 지정 설정(가령, 제어 데이터에 임베딩된 설정)에 따라 수정될 수 있다. 일부 실시예에서, 위치 임펄스 응답은 오디오 신호 및/또는 오디오 스트림과 컨볼루션되도록 사용될 수 있다.
가상 파면: 가상 파면은 동조하여 진동하는 파의 대응하는 포인트를 나타내는 가상 표면으로 정의될 수 있다. 공통 원점을 갖는 동일한 파가 단일 매질을 통과할 때, 임의의 시점에서의 대응하는 마루(crest) 및 골(trough)이 동위상이다, 즉, 이들은 각자의 주기적 모션에서 동일한 부분을 완성했고, 동일한 위상의 모든 점들을 통해 그려진 임의의 표면이 파면을 구성할 것이다. 가상 파면의 예시적 표현이 도 15에 제공된다. 일부 실시예에서, 가상 파면이 청자에게 렌더링될 오디오 신호 또는 오디오 신호의 조합에 임베딩된다. 일부 실시예에서, 가상 표면의 조합이 청자에게 렌더링되면 청자의 외부 및/또는 머리 주위로 확장되는 소리 경험으로서 지각되는 오디오 이미지를 정의한다. 일부 실시예에서, 청자에게 렌더링되며, 현실 음향 환경에서 "현실(real)" 파면과 유사한 방식으로 직각되도록 파면이 "인공적으로" 생성됨을 설명할 때 "가상" 파면이 언급된다. 일부 실시예에서, 가상 파면은 "VWF"로 지칭될 수 있다. 일부 실시예에서, 가상 파면이 스테레오 설정(stereophonic setting)(가령, 헤드폰 또는 2개의 확성기) 상에서 렌더링될 경우, 가상 파면은 좌 성분(즉, 좌 가상 파면, 즉, VWF L) 및 우 성분(즉, 우 가상 파면, 즉, VWF R)을 포함할 수 있다.
이들 기본 원칙을 지키면서, 지금부터 본 발명의 양태의 다양한 구현을 설명하기 위해 약간의 비제한적 예시를 고려할 것이다.
도 1은 본 발명의 실시예에 따르는 컴퓨팅 환경(100)의 다이어그램을 도시한다. 일부 실시예에서, 컴퓨팅 환경(100)은 렌더러(renderer)(230)에 의해 구현될 수 있으며, 비제한적 예를 들면, 도 2에 도시된 바와 같은, 렌더러(230)가 음장 포지셔너(232) 및/또는 오디오 이미지 렌더러(234)를 포함하는 실시예가 있다. 일부 실시예에서, 컴퓨팅 환경(100)은 프로세서(110), 솔리드-스테이트 드라이브(120), 랜덤 액세스 메모리(130) 및 입/출력 인터페이스(150)에 의해 총체적으로 표현되는 하나 이상의 단일 또는 복수-코어 프로세서를 포함하는 다양한 하드웨어 구성요소를 포함한다. 컴퓨팅 환경(100)은 전자 디바이스로 설치되도록 특정하게 설계된 컴퓨터일 수 있다. 일부 대안 실시예에서, 컴퓨팅 환경(100)은 특정 요건, 비제한적 예를 들면, 성능 요건을 충족하도록 구성된 일반적인 컴퓨터 시스템일 수 있다. 상기 컴퓨팅 환경(100)은 "전자 디바이스", "제어기", "모바일 디바이스", "오디오 처리 디바이스", "헤드폰", "헤드셋", "VR 헤드셋 디바이스", "AR 헤드셋 디바이스", "시스템", "컴퓨터 기반 시스템", "제어기", "인코더", "음장 포지셔너", "렌더러", "디코더", "필터", "측위 콘볼루션 엔진", "믹서", "다이나믹 프로세서" 및/또는 관련 작업에 적절한 이들의 임의의 조합일 수 있다. 일부 실시예에서, 컴퓨팅 환경(100)은 또한 앞서 나열된 시스템 중 하나의 서브-시스템일 수 있다. 그 밖의 다른 일부 실시예에서, 컴퓨팅 환경(100)은 "기성품" 범용 컴퓨터 시스템일 수 있다. 일부 실시예에서, 컴퓨팅 환경(100)은 또한 복수의 시스템들 간에 분산될 수 있다. 컴퓨팅 환경(100)은 또한 본 발명의 구현에 특히 특화될 수 있다. 해당 분야의 통상의 기술자라면, 컴퓨팅 환경(100)이 구현되는 방식에 대한 복수의 변형예가 본 발명의 범위 내에서 고려될 수 있음을 알 수 있다.
컴퓨팅 환경(100)의 다양한 구성요소들 간 통신이, 다양한 하드웨어 구서용소가 전자적으로 연결되는 하나 이상의 내부 및/또는 외부 버스(160)(가령, PCI 버스, 전역 직렬 버스(universal serial bus), IEEE 1394 "파이어와이어(Firewire)" 버스, SCSI 버스, 직렬-ATA 버스, ARINC 버스 등)에 의해 활성화될 수 있다.
입/출력 인터페이스(150)는, 비제한적 예를 들면, 헤드폰, 이어버드(earbud), 확성기 세트, 헤드셋, VR 헤드셋, AR 헤드셋 및/또는 오디오 처리 유닛(가령, 레코더, 믹서)에 연결될 수 있다.
본 발명의 구현에 따르면, 솔리드-스테이트 드라이브(120)가 랜덤 액세스 메모리(130)로 로딩되고 프로세서(110)에 의해 실행되어 오디오 이미지를 생성하기에 적합한 프로그램 명령을 저장한다. 예를 들어, 프로그램 명령은 라이브러리 또는 애플리케이션의 일부일 수 있다.
일부 실시예에서, 컴퓨팅 환경(100)은 이하에서 기재될 본 발명에 따르는 오디오 이미지를 생성하도록 구성될 수 있다. 일부 다른 실시예에서, 컴퓨팅 환경(100)은 "인코더", "음장 포지셔너", "렌더러", "디코더", "제어기", "실시간 제어기", "필터", "측위 컨볼루션 엔진", "믹서", "다이나믹 프로세서" 및/또는 관련 작업에 적절한 이들의 임의의 조합 중 하나 이상으로서 동작하도록 구성될 수 있다.
도 2를 참조하면, 오디오 이미지를 생성 및 렌더링하기 위한 오디오 시스템(200)이 도시된다. 오디오 시스템(200)은 오디오 이미지 파일(220)을 생성하기 위한 저작 툴(authoring tool)(210), 확성기(262, 264) 및/또는 (VR 헤드셋(270) 및/또는 AR 헤드셋(270)으로 지칭될 수도 있는) 헤드폰(270)를 통해 오디오 이미지 파일을 청자에게 렌더링하기 위한 실시간 제어기(240)와 연관된 렌더러(230)를 포함한다.
일부 실시예에서, 저작 툴(210)은 인코더를 포함한다. 일부 실시예에서, 저작 툴(210)은 또한 인코더로 지칭될 수 있다. 도시된 실시예에서, 오디오 이미지 파일(220)은 저작 툴(210)에 의해 만들어지고 복수의 위치 임펄스 응답(222)(PIR), 제어 데이터(224) 및 하나 이상의 오디오 스트림(226)을 포함한다. 각각의 PIR이 PIR n으로 지칭되며, 여기서 n은 정수다. 하나 이상의 오디오 스트림(226) 각각이 오디오 스트림 x로 지칭될 수 있으며, 여기서 x는 정수다. 일부 실시예에서 PIR(222)은 3개의 PIR, 즉, PIR1, PIR2, 및 PIR3을 포함한다. 일부 다른 실시예에서, PIR(222)은 넷 이상의 PIR을 포함한다.
일부 실시예에서, 저작 툴(210)은 오디오 이미지 파일, 가령, 오디오 이미지 파일(220)을 생성하는 것을 가능하게 한다. 생성되면, 오디오 이미지 파일은 실시간 또는 미래의 렌더링을 위해 디바이스제 저장 및/또는 전송될 수 있다. 일부 실시예에서, 저작 툴(210)은 하나 이상의 오디오 스트림 및 제어 데이터를 액세스하도록 구성된 입력 인터페이스를 포함한다. 제어 데이터는 임펄스 응답의 위치를 포함할 수 있으며, 상기 위치는 3차원 공간(비제한적 예를 들면, 구)에서 임펄스 응답의 위치를 찾는 것을 가능하게 한다. 일부 실시예에서, 저작 툴(210)은 예를 들어, 오디오 이미지 렌더러(비제한적 예를 들면, 오디오 이미지 렌더러(230))가 하나 이상의 오디오 스트림 및 위치 임펄스 응답을 기초로 오디오 이미지를 생성하도록 오디오 이미지 파일을 디코딩할 수 있도록, 지정 파일 포맷으로 하나 이상의 오디오 스트림 및 제어 데이터를 인코딩하도록 구성된 인코더를 포함하며, 상기 위치 임펄스 응답의 위치는 오디오 이미지 파일의 제어 데이터에 의해 정의된다.
렌더러(230)는 오디오 이미지 파일, 가령, 오디오 이미지 파일(220)을 액세스 및/또는 수신하도록 구성될 수 있다. 또 다른 실시예에서, 렌더러(230)는 하나 이상의 오디오 스트림, 제어 데이터 및 위치 임펄스 응답을 독립적으로 액세스할 수 있다. 일부 실시예에서, 렌더러(230)는 제어 데이터 및/또는 위치 임펄스 응답의 레포지토리를 액세스하고 하나 이상의 오디오 스트림만 포함하는 오디오 이미지 파일을 수신할 수 있다. 반대로, 렌더러(230)는 하나 이상의 오디오 스트림을 액세스하고 외부 소스(비제한적 예를 들면, 원격 서버)로부터 제어 데이터 및/또는 위치 임펄스 응답을 수신할 수 있다. 도시된 실시예에서, 렌더러(230)는 음장 포지셔너(232) 및 오디오 이미지 렌더러(234)를 포함한다. 일부 실시예에서, 렌더러(230)는 디코더라고도 지칭될 수 있다.
음장 포지셔너(232)는 실시간 제어기(240)에 의해 제어될 수 있다. 실시간 제어기(240)가 언급되지만, 음장 포지셔너(232)의 제어가 반드시 실시간으로 발생할 필요가 있는 것은 아님이 이해되어야 한다. 따라서, 본 발명의 다양한 실시예에서, 음장 포지셔너(232)는 실시간인지 여부와 무관하게 다양한 유형의 제어기에 의해 제어될 수 있다. 위치 임펄스 응답의위치 및 이들 각자의 위치가 구를 형성하는 일부 실시예에서, 음장 포지셔너(232)는 구형 음장 포지셔너(spherical sound-field positioner)라고 지칭될 수 있다. 일부 실시예에서, 음장 포지셔너(232)는 위치 임펄스 응답을 위치 및 위치 임펄스 응답의 이러한 위치의 제어와 연관시키는 것을 가능하게 하는데, 이는 이하에서 도 3의 기재와 관련하여 더 설명될 것이다.
오디오 이미지 렌더러(234)는 오디오 이미지 파일, 가령, 오디오 이미지 파일(220)을 디코딩하여 오디오 이미지를 렌더링할 수 있다. 일부 실시예에서, 오디오 이미지 렌더러(234)는 3차원 오디오 경험 렌더러라고도 지칭될 수 있다. 일부 실시예에서, 오디오 이미지는 음장 포지셔너(232)에 의해 위치가 결정 및/또는 제어되는 오디오 스트림 및 위치 임펄스 응답을 기초로 렌더링된다. 일부 실시예에서, 오디오 이미지는 복수의 가상 파면을 조합함으로써 생성되며, 복수의 가상 파면 각각은 오디오 이미지 렌더러(234)에 의해 생성된다. 일부 실시예에서, 복수의 가상 파면은 오디오 스트림 및 위치 임펄스 응답을 기초로 생성되며, 이는 도 7 내지 14의 설명과 관련하여 이하에서 더 상세히 설명될 것이다. 일부 대안 실시예에서, 복수의 가상 파면이 음향 렌더링 및/또는 바이노럴(binaural)(지각이라고도 지칭됨) 렌더링을 기초로 생성된다. 일부 실시예에서, 오디오 이미지 렌더러(234)는 음향 렌더링 및/또는 바이노럴(지각이라고도 지칭됨) 렌더링을 위해 구성될 수 있다. 일부 실시예에서, 음향 렌더링은 직접음을 렌더링하는 것, 초기 반사 및/또는 후기 반사/잔향을 렌더링하는 것을 포함할 수 있다. 음향 렌더링 및/또는 바이노럴 렌더링의 예시가 본 명세서의 다른 곳에서 더 언급된다.
일부 실시예에서, 오디오 이미지 렌더러(234)는 가상 파면을 혼합하고 m-채널 오디오 출력을 출력하여, 오디오 이미지를 청자에게 렌더링할 수 있다. 도 2에 도시된 실시예에서, 출력된 채널이 2-채널 오디오 출력(즉, 스테레오 오디오 출력)이다. 일부 실시예에서, 출력된 채널은 렌더링된 3D 경험 2-채널 오디오 출력이라고도 지칭될 수 있는 2-채널 오디오 출력이다.
도 2는 본 발명에 따라 오디오 이미지 파일을 인코딩 또는 디코딩하도록 사용될 수 있는 하나 이상의 디바이스(250)를 더 도시한다. 하나 이상의 디바이스(250)는, 비제한적 예를 들면, 오디오 시스템, 모바일 디바이스, 스마트 폰, 태블릿, 컴퓨터, 전용 시스템, 헤드셋, 헤드폰, 통신 시스템, VR 헤드셋 및 AR 헤드셋일 수 있다. 이들 예시가 본 발명의 실시예를 위해 제공되며 따라서 한저으로 해석되어서는 안 된다. 일부 실시예에서, 하나 이상의 디바이스(250)는 도 1에 도시된 컴퓨팅 환경(100)의 구성요소와 유사한 구성요소를 포함할 수 있다. 일부 실시예에서, 하나 이상의 디바이스(250) 각각은 저작 툴(210), 렌더러(230) 및/또는 실시간 제어기(240)를 포함할 수 있다. 일부 다른 실시예에서, 제1 디바이스는 오디오 이미지 파일(220)을 생성하는 데 사용되는 저작 툴(210)을 포함할 수 있다. 그 후 오디오 이미지 파일(220)은 (가령, 통신 네트워크를 통해) 렌더러(230)(및 선택사항으로서 실시간 제어기(240))를 포함하는 제2 디바이스로 전송될 수 있다. 그 후 제2 디바이스의 렌더러(230)가 수신된 오디오 이미지 파일(220)을 기초로 오디오 이미지를 출력할 수 있다. 해당 분야의 통상의 기술자라면, 저작 툴(210), 렌더러(230) 및 실시간 제어기(240)가 실행되는 디바이스가 한정적이지 않으며, 본 발명의 범위 내에서 복수의 변형예가 고려될 수 있다.
도 2에서 나타날 수 있듯이, 오디오 이미지는 확성기(262, 264) 및/또는 헤드폰(270)을 통해 청자에게 렌더링된다. 확성기(262, 264) 및/또는 헤드폰(270)은 디바이스(가령, 하나 이상의 디바이스(250) 중 하나)에 연결될 수 있다. 일부 실시예에서, 확성기(262, 264) 및/또는 헤드폰(270)은 공간 오디오를 렌더링하도록 특정하게 설계되지 않은 종래의 확성기 및/또는 헤드폰일 수 있다. 확성기는 다양한 구성에 따라 배치된 둘 이상의 확성기를 포함할 수 있다. 헤드폰은 소형 스피커(드라이버 및 트랜스듀서라고도 알려짐)를 포함할 수 있다. 일부 실시예에서, 헤드폰은 2개의 드라이버를 포함하는데, 제1 드라이버는 왼쪽 귀와 연관되고 제2 드라이버는 오른쪽 귀와 연관된다. 일부 실시예에서, 헤드폰은 청자의 귀를 완전히 또는 부분적으로 덮을 수 있다. 일부 실시예에서, 헤드폰은 청자 귀 내에 위치할 수 있다(가령, 이어버드 또는 인이어 헤드폰). 일부 실시예에서, 헤드폰은 스피커(가령, 헤드셋)에 추가로 마이크로폰을 더 포함할 수 있다. 일부 실시예에서, 헤드폰은 더 복잡한 시스템, 가령, VR 헤드셋 및/또는 AR 헤드셋의 일부일 수 있다. 일부 대안 실시예에서, 확성기 및/또는 헤드폰이 공간 오디오 재생을 위해 특정하게 설계될 수 있다. 이러한 실시예에서, 확성기 및/또는 헤드폰이 3D 오디오 알고리즘, 머리-추적, 해부학적 교정 및/또는 각각의 귀에 복수의 드라이버 중 하나 이상을 포함할 수 있다. 일부 실시예에서, 확성기 및/또는 헤드폰은, 임의의 추가 디바이스를 필요로 하지 않으면서, 확성기 및/또는 헤드폰이 저작 툴(210), 렌더러(230) 및 실시간 제어기(240) 중 하나 이상을 실행할 수 있게 하는 도 1의 컴퓨팅 환경과 유사한 컴퓨팅 환경을 더 포함할 수 있다.
지금부터 도 3 및 4를 참조하여, 음장 포지셔너(232)가 위치 임펄스 응답을 위치와 연관시키는 대응관계 표와 함께 도시된다. 일부 실시예에서, 위치 임펄스 응답이 위치 임펄스 응답의 세트, 가령, PIR(222)로부터 액세스된다. 일부 실시예에서, 위치가 제어 데이터, 가령, 제어 데이터(224)로부터 액세스된다. 도 2에 도시된 바와 같이, PIR(222) 및 제어 데이터(224)가 오디오 이미지 파일, 가령, 오디오 이미지 파일(220)로부터 액세스될 수 있다. 일부 실시예에서, 음장 포지셔너(232)는 위치 Position_1 내지 Position_n 각각과 위치 임펄스 응답 PIR_1 내지 PIR_n 각각과 연관시킬 수 있다. 또 다른 실시예에서, 위치 Position_1 내지 Position_n 각각은 위치 임펄스 응답 PIR_1 내지 PIR_n 각각과 이전에 연관되었다. 위치와 위치 임펄스 응답의 이러한 연관이 제어 데이터(224)로부터 음장 포지셔너(232)에 의해 액세스될 수 있다.
도 4에 도시된 바와 같이, 위치 임펄스 응답 PIR_1 내지 PIR_n이 펄스 또는 임펄스라고도 지칭될 수 있는 간단한 신호로 표현된다. 해당 분야의 통상의 기술자라면, PIR_1 내지 PIR_n 각각은 상이한 펄스와 연관될 수 있으며, 상기 상이한 펄스 각각은 특정 위치에서의 음향 특성을 나타낸다. 도시된 실시예에서, 제어 데이터(222) 및 위치 임펄스 응답(224)은 구(400)로 나타나는 3차원 공간(400)의 음향 특성을 모델링하는 것을 가능하게 한다. 구(400)는 복수의 위치 임펄스 응답에 의해 형성된 망(mesh)을 포함한다. 위치 임펄스 응답 각각은 구(402) 상의 하나씩의 점으로 표현된다. 이러한 점의 예시가, 구 상의 위치가 대응하는 위치에 의해 결정되는 위치 임펄스 응답(410)에 의해 나타내는 점(410)이다. 일부 실시예에서, 제어 데이터(222)가 구 상에서 위치 임펄스 응답(410)의 위치를 찾는 것을 가능하게 한다. 어떤 실시예에서, 위치는 고정된 채 유지될 수 있고, 어떤 실시예에서는 위치가 제어기(가령, 실시간 제어기(240))를 통해 (실시간인지에 무관하게) 수정될 수 있다.
일부 실시예에서, 복수의 위치 임펄스 응답은 다각형 위치 임펄스 응답을 형성하도록 함께 조합될 수 있다. 이러한 다각형 위치 임펄스 응답은 제1 다각형 위치 임펄스 응답(420) 및 제2 다각형 위치 임펄스 응답(430)에 의해 도시된다.
제1 다각형 위치 임펄스 응답(420)은 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답을 포함한다. 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답 각각이 각자의 위치와 연관된다. 모든 3개의 위치의 조합이 제1 다각형 위치 임펄스 응답(420)의 기하형태, 이 경우, 삼각형을 형성한다. 일부 실시에에서, 기하형태가 제어기(가령, 실시간 제어기(240))를 통해 (실시간인지 여부와 무관하게) 수정될 수 있으며 임의의 형태를 형성할 수 있다(가령, 3개의 위치가 하나의 선을 형성할 수 있다).
제2 다각형 위치 임펄스 응답(430)은 제4 위치 임펄스 응답, 제5 위치 임펄스 응답, 제6 위치 임펄스 응답 및 제7 위치임펄스 응답을 포함한다. 제4 위치 임펄스 응답, 제5 위치 임펄스 응답, 제6 위치 임펄스 응답 및 제7 위치 임펄스 응답 각각이 각자의 위치와 연관된다. 4개의 위치 모두의 조합이 제2 다각형 위치 임펄스 응답(430)의 기하형태, 이 경우, 사변형을 형성한다. 일부 실시예에서, 기하형태가 제어기(가령, 실시간 제어기(240))를 통해 (실시간인지 여부와 무관하게) 수정될 수 있다.
일부 실시예에서, 제1 다각형 위치 임펄스 응답(420) 및 제2 다각형 위치 임펄스 응답(430)이 사용되어, 하나 이상의 오디오 이미지를 생성할 수 있으며, 이는 도 7 내지 15의 설명과 관련하여 이하에서 더 설명될 것이다.
도 4의 예시가 구를 형성하는 복수의 위치 임펄스 응답의 조합을 도시하지만, 위치 임펄스 응답의 개수, 각각의 위치 임펄스 응답의 각자의 위치 및 3차원 공간의 기하형태가 달라질 수 있으며 한정으로 해석되지 않는다. 비제한적 예를 들면, 3차원 공간의 기하형태가 입방체 또는 그 밖의 다른 임의의 기하형태를 형성할 수 있다. 일부 실시예에서, 3차원 공간의 기하형태가 가상 공간(가령, 구) 및/또는 현실 음향 공간을 나타낼 수 있다.
도 5를 참조하면, 오디오 렌더링 시스템(500)이 도시된다. 일부 실시예에서, 오디오 렌더링 시스템(500)은 도 1에 기재된 것과 유사한 컴퓨팅 환경 상에서 구현될 수 있다. 비제한적 예를 들면, 오디오 렌더링 시스템(500)은 도 2에 도시된 하나 이상의 디바이스(250) 중 하나일 수 있다. 오디오 렌더링 시스템(500)은 음향 결정 대역 필터(ADBF)(502), 이득 필터(504), 딜레이 필터(506), 음장 포지셔너(532), 오디오 이미지 렌더러(534) 및 n-m 채널 믹서(510)를 포함한다. 일부 실시예에서, 음장 포지셔너(532)는 도 2에 도시된 음장 포지셔너(232)와 유사하고 오디오 이미지 렌더러(534)는 오디오 이미지 렌더러(234)와 유사하다. 일부 실시예에서, 오디오 이미지 렌더러(534)는 렌더러 및/또는 디코더라고 지칭될 수 있다. 일부 실시예에서, 오디오 이미지 렌더러(534)는 ADBF 필터(502), 음장 포지셔너(532), 이득 필터(504), 딜레이 필터(506) 및/또는 n-m 채널 믹서(510)를 포함할 수 있다. 해당 분야의 통상의 기술자라면, ADBF 필터(502), 음장 포지셔너(532), 이득 필터(504), 딜레이 필터(506) 및/또는 n-m 채널 믹서(510)의 많은 조합이 렌더러(본 예시에서, 오디오 이미지 렌더러(534))를 형성하는 것으로 고려될 수 있음을 알 수 있다.
도 5의 예시에서, 오디오 스트림(526), 위치 임펄스 응답(PIR)(522) 및 제어 데이터(524)가, 비제한적 예를 들면, 오디오 이미지 파일로부터 렌더러에 의해 액세스된다. 오디오 이미지 파일은 도 2의 오디오 이미지 파일(220)과 유사할 수 있다. 일부 실시예에서, 제어 데이터(524) 및 PIR(522)가 음장 포지셔너(532)에 의해 액세스된다. 제어 데이터(524)는 또한 오디오 이미지 렌더러(534)에 의해 액세스 및/또는 이용될 수 있다. 일부 실시예에서, 가령, 도 6에 도시된 실시예에서, 제어 데이터(524)는 n-m 채널 믹서(510)에 의해 액세스 및/또는 이용될 수 있다.
도시된 실시예에서, 오디오 스트림(526)은 오디오 이미지 렌더러(524)에 의해 처리되기 전에 ADBF 필터(502)에 의해 필터링된다. 단일 오디오 스트림이 도시되지만, 도 2의 기재와 관련하여 앞서 언급된 바와 같이, 복수의 오디오 스트림의 처리가 또한 고려됨이 이해되어야 한다. ADBF 필터(502)는 고역 통과 필터(HPF)를 적용함으로써 제1 오디오 서브-스트림을 생성하고 저역 통과 필터(LPF)를 적용함으로써 제2 오디오 서브-스트림을 생성함으로써 오디오 스트림(526)을 분할하도록 구성된다. 제1 오디오 서브-스트림은 추가 처리되도록 오디오 이미지 렌더러(534)로 전송된다. 제2 오디오 서브-스트림은 이득 필터(504) 및 딜레이 필터(506)로 전송되어, 이득 및/또는 딜레이가 제2 오디오 서브-스트림으로 적용될 수 있다. 제2 오디오 서브-스트림이 n-m 채널 믹서(510)로 전송되어, 오디오 이미지 렌더러(524)에 의해 출력되는 신호와 혼합(mix)된다. 일부 대안 실시예에서, 오디오 스트림(526)은 ADBF 필터(502)에 의해 이전에 필터링되지 않고 오디오 이미지 렌더러(534)에 의해 직접 액세스될 수 있다.
해당 분야의 통상의 기술자라면, n-m 채널 믹서(510)가 둘 이상의 채널을 입력으로서 취하고 둘 이상의 채널을 출력할 수 있다. 도시된 예시에서, n-m 채널 믹서(510)가 딜레이 필터(506)에 의해 전송되는 제2 오디오 서브-스트림 및 오디오 이미지 렌더러(524)에 의해 출력된 신호를 취하고 이들을 혼합하여 오디오 이미지 출력을 생성할 수 있다. 2개의 채널이 출력될 일부 실시예에서, n-m 채널 믹서(510)는 (1) 딜레이 필터(506)에 의해 전송된 좌 채널과 연관된 제2 오디오 서브-스트림 및 오디오 이미지 렌더러(524)에 의해 출력된 좌 채널과 연관된 신호, 및 (2) 딜레이 필터(506)에 의해 전송된 우 채널과 연관된 제2 오디오 서브-스트림 및 오디오 이미지 렌더러(524)에 의해 출력된 우 채널과 연관된 신호를 취하여, 청자에게 렌더링될 좌 채널 및 우 채널을 생성할 수 있다. 일부 대안 실시예에서, 예를 들어, 오디오 이미지가 셋 이상의 스피커 상에서 렌더링되는 경우 n-m 채널 믹서(510)가 셋 이상의 채널을 출력할 수 있다. 이러한 경우는, 비제한적으로, 오디오 이미지가 각각의 귀와 연관된 둘 이상의 드라이버를 갖는 헤드폰 상에서 렌더링되는 경우 및/또는 오디오 이미지가 셋 이상의 확성기 상에서 렌더링되는 경우를 포함한다(가령, 5.1, 7.1, Dolby Laboratories, Inc.의 Dolby AC-4 설정).
도 6을 참조하면, 음장 포지셔너(632), 오디오 이미지 렌더러(634) 및 n-m 채널 믹서(660)가 도시된다. 일부 실시예에서, 음장 포지셔너(632)가 음장 포지셔너(532)와 유사할 수 있고, 오디오 이미지 렌더러(634)가 오디오 이미지 렌더러(534)와 유사할 수 있으며, n-m 채널 믹서(660)가 n-m 채널 믹서(510)와 유사할 수 있다. 도시된 실시예에서, 오디오 이미지 렌더러(634)는 측위 컨볼루션 엔진(610) 및 위치 임펄스 응답(PIR) 다이나믹 프로세서(620)를 포함한다. 도시된 실시예에서, 음장 포지셔너(632)는 제1 위치 임펄스 응답 (PIR_1)(602), 제2 위치 임펄스 응답 (PIR_2)(604) 및 제3 위치 임펄스 응답 (PIR_3)(606)을 액세스한다. 음장 포지셔너(632)는 제어 데이터(608)를 또한 액세스한다. 도시된 실시예에서, 제어 데이터(608)는 또한 오디오 이미지 렌더러(634)에 의해 액세스되어 제어 데이터가 측위 컨볼루션 엔진(610) 및 PIR 다이나믹 프로세서(620)에 의해 사용될 수 있다. 상기 제어 데이터(608)는 또한 n-m 채널 믹서(660)에 의해 액세스된다. 알다시피, 이러한 실시예에서, 제어 데이터(608)는 음장 포지셔너(632)의 구성(가령, PIR_1(602), PIR_2(604) 및/또는 PIR_3(606)과 연관되거나 연관될 위치), 측위 컨볼루션 엔진(610), PIR 다이나믹 프로세서(620) 및/또는 n-m 채널 믹서(660)의 구성과 관련된 명령 및/또는 데이터를 포함할 수 있다.
도 6에 도시된 실시예에서, 측위 컨볼루션 엔진(610)은 오디오 스트림, 제어 데이터(608), PIR_1(602), PIR_2(604) 및 PIR_3(606)을 입력 받는다. 도시된 실시예에서, 측위 컨볼루션 엔진(610)으로 입력되는 오디오 스트림은 필터링된 오디오 스트림, 이 예시에서, 고역 통과 필터로 필터링된 오디오 스트림이다. 일부 대안 실시예에서, 측위 컨볼루션 엔진(610)으로 입력되는 오디오 스트림은 필터링되지 않은 오디오 스트림이다. 측위 컨볼루션 엔진(610)은 오디오 스크림 및 PIR_1(602)을 기초로 하는 제1 가상 파면(VWF1), 오디오 스트림 및 PIR_2(604)을 기초로 하는 제2 가상 파면 (VWF2), 및 오디오 스트림 및 PIR_3(606)을 기초로 하는 제3 가상 파면 (VWF3)을 생성할 수 있게 한다. 도시된 실시예에서, VWF1를 생성하는 것은 오디오 스트림과 PIR_1(602)를 컨볼루션하는 것을 포함하고, VWF2를 생성하는 것은 오디오 스트림과 PIR_2(604)를 컨볼루션하는 것을 포함하며, VWF3를 생성하는 것은 오디오 스트림과 PIR_3(606)를 컨볼루션하는 것을 포함한다. 일부 실시예에서, 컨볼루션은 푸리에-변환 알고리즘, 비제한적 예를 들면, 고속 푸리에-변환(FFT) 알고리즘을 기반으로 이뤄진다. 컨볼루션을 실시하기 위한 알고리즘의 또 다른 예시가 본 발명의 범위 내에서 고려될 수 있다. 일부 실시예에서, VWF1, VWF2 및 VWF3를 생성하는 것이 측위 컨볼루션 엔진(610)에 의해 병렬로 동기화되어 실행됨으로써, 청자에게 렌더링되기 위한 오디오 이미지를 형성할 수 있다. 도시된 실시예에서, VWF1, VWF2 및 VWF3는 PIR 다이나믹 프로세서(620)에 의해 병렬로 더 처리된다. VWF1, VWF2 및 VWF3 각각에 이득 필터, 딜레이 필터 및 추가 필터링(가령, 이퀄라이저에 의해 실시된 필터링)를 적용함으로써, PIR 다이나믹 프로세서(620)에 의해 VWF1, VWF2 및 VWF3가 병렬로 더 처리된다. 그 후 필터링된 VWF1, VWF2 및 VWF3가 n-m 채널 믹서(660)로 입력되어 믹싱됨으로써 복수의 채널, 즉, Ch. 1, Ch. 2, Ch. 3 및 Ch. m을 생성할 수 있다. 도시된 실시예에서, 필터링된 VWF1, VWF2 및 VWF3는 저역 통과 필터가 적용된 오디오 스트림과 믹싱된다. 앞서 상세히 언급된 바와 같이, 일부 실시예에서, 오디오 스트림은 오디오 이미지 렌더러(634)로 입력되기 전에 필터링될 필요가 없을 수 있다. 따라서, 이러한 실시예에서, 저역 통과 필터가 적용된 오디오 스트림을 n-m 채널 믹서(660)에 입력할 필요 없이, n-m 채널 믹서(660)에 의해 VWF1, VWF2 및 VWF3가 함께 믹싱될 수 있다. 덧붙여, 일부 실시예에서, n-m 채널 믹서(660)는 오디오 이미지가 헤드폰 상에서 렌더링되는 경우 2개의 채널만 출력할 수 있다. 따라서 본 발명의 범위 내에서 많은 변형예가 고려될 수 있다.
도 7은 도 6의 오디오 이미지 렌더러(634) 및 n-m 채널 믹서(660)에 의해 렌더링되는 오디오 이미지(700)를 도시한다. 도 6의 기재와 관련하여 앞서 상세하게 언급된 바와 같이, 오디오 이미지 렌더러(634)의 측위 컨볼루션 엔진(610)은 VWF1를 생성하기 위한 오디오 스트림과 PIR_1(602)의 콘볼루션, VWF2를 생성하기 위한 오디오 스트림과 PIR_2(604)의 콘볼루션, 및 오디오 스트림과 PIR_3(606)의 콘볼루션을 병렬로 실행한다. 도 7에 도시된 바와 같이, VWF1는 제1 위치(710)로부터 발산되는 것으로 청자가 지각하며, VWF2는 제2 위치(720)로부터 발산되는 것으로 청가가 지각하며, VWF3은 제3 위치(730)로부터 발산되는 것으로 청자가 지각한다. 일부 실시예에서, 제1 위치(710)는 PIR_1(602)와 연관된다. 제2 위치(720)는 PIR_2(604)와 연관된다. 제3 위치(730)는 PIR_3(606)와 연관된다. 제1 위치(710) 제2 위치(720) 및/또는 제3 위치(730)가 음장 포지셔너(가령, 음장 포지셔너(632))에 의해 결정 및/또는 제어될 수 있으며, 제어 데이터(가령, 제어 데이터(608))를 기초로 할 수 있지만, 이에 한정되는 것은 아니다.
도 7에 도시된 바와 같이, 오디오 이미지(700)는 VWF1, VWF2 및 VWF3의 조합에 의해 형성된다. 오디오 이미지(700)는, 청자에게 렌더링되면, 청자가 현실 생활에서 경험할 것과 유사하게 청자가 몰입형 오디오 볼륨(immersive audio volume)으로 지각할 수 있다. 일부 실시예에서, 오디오 이미지가 현실-생활 경험을 "가상으로" 재생하는 것을 허용하기 때문에, 몰입형 오디오 볼륨은 가상 몰입형 오디오 볼륨으로 지칭될 수 있다. 일부 실시예에서, 오디오 이미지는 3D 경험 오디오 이미지라고 지칭될 수 있다.
도 8은 오디오 이미지 렌더러가 이미지 확장 툴로서 사용될 수 있는 방식의 예시를 도시한다. 이 예시에서, 오디오 스트림은 모노-소스 오디오 객체(810)를 포함한다. 일부 실시예에서, 모노-소스 오디오 객체(810)는 또한 포인트-소스 오디오 객체라고도 지칭될 수 있다. 이 실시예에서, 모노-소스 오디오 객체(810)는 바이올린(850)의 1-채널 레코딩(one-channel recording)이다. 이 예시에서, 오디오 스트림은 처리되어 제1 위치(810), 제2 위치(820) 및 제3 위치(830)에 위치되는 VWF1, VWF2 및 VWF3를 처리할 수 있다. 제1 위치(810), 제2 위치(820) 및 제3 위치(830)는 바이올린(850)의 1-채널 레코딩이 청자에 의해 바이올린(850)의 입체 오디오 이미지(800)로서 지각되도록 확장될 수 있도록 하는 음향 공간(860)의 다각형 섹션을 형성한다. 따라서 1-채널 레코딩 상에 레코딩된 바이올린(850)이, 바이올린(850)이 청자 옆에서 연주되는 경우 현실 생활에서 지각될 것과 유사한 방식으로 지각되도록 오디오 이미지 렌더러(634)에 의해 확장될 수 있다. 도시된 예시에서, 입체 오디오 이미지(800)는 VWF1, VWF2 및 VWF3의 조합에 의해 형성된다. 일부 실시예에서, 입체 오디오 이미지(800)는 3D 경험 오디오 객체로도 지칭될 수 있다.
도 9는 믹서/라우터(910)를 더 포함하는 오디오 이미지 렌더러(634)의 실시예를 도시한다. 이 실시예에서, 측위 컨볼루션 엔진(610)이 적절한 수의 채널과 함께 입력되도록 믹서/라우터(910)에 의해 오디오 채널을 복제 및/또는 병합하는 것이 가능해진다. 일부 실시예에서, 믹서/라우터(910)는 2개의 상이한 모듈(즉, 믹서 구성요소 및 라우터 구성요소)일 수 있다. 일부 실시예에서, 믹서 구성요소와 라우터 구성요소는 단일 구성요소로 조합될 수 있다.
예를 들어, 오디오 스트림은 1-채널 스트림일 수 있으며, 상기 1-채널 스트림은 그 후 3개의 신호로 복제되어 상기 3개의 신호 각각이 PIR_1(602), PIR_2(604) 및 PIR_3(606) 각각과 컨볼루션될 수 있다. 도 9에 도시된 바와 같이, n-m 채널 믹서(660)는 복수의 채널, 즉, Ch. 1, Ch. 2, Ch. 3, Ch. 4 및 Ch. m를 출력한다. n-m 채널 믹서(660)가 3개의 채널(가령, Ch. 1, Ch. 2 및 Ch. 3)을 출력하는 일부 실시예에서, 3개의 채널 각각은 VWF1, VWF2 및 VWF3 중 서로 다른 것과 연관될 수 있다. 일부 대안 실시예에서, VWF1, VWF2 및 VWF3는 3개의 챈러을 출력하기 전에 n-m 채널 믹서(660)에 의해 혼합될 수 있다. 또 다른 실시예에서, 넷 이상의가상 파면이 생성될 수 있으며 이 경우 n-m 채널 믹서(660)는 넷 이상의 가상 파면을 처리하고 측위 컨볼루션 엔진(610)에 의해 생성되는 가상 파면보다 적은 수의 채널을 출력할 수 있다. 반대로, 측위 컨볼루션 엔진(601)에 의해 생성되는 가상 파면의 수는 n-m 채널 믹서(660)에 의해 출력되는 채널의 수보다 적일 수 있다. 따라서 많은 변형예가 본 발명의 범위 내에서 고려될 수 있다.
도 10은 오디오 스트림이 복수의 채널, 즉, Ch. 1, Ch. 2, Ch. 3, Ch. 4 및 Ch. x를 포함하는 실시예를 도시한다. 이 예시에서, 복수의 채널은 믹서/라우터(910)에 의해 믹싱되어 측위 컨볼루션 엔진(610)에 의해 컨볼루션될 적절한 개수의 신호를 생성할 수 있다. 이 예시에서, 믹서/라우터(910)는 3개의 신호를 출력하며, 상기 3개의 신호 각각은 측위 컨볼루션 엔진(610)에 의해 PIR_1(602), PIR_2(604) 및 PIR_3(606) 각각과 컨볼루션된다. 도 10에 도시된 바와 같이, n-m 채널믹서(660)는 복수의 채널, 즉, Ch. 1, Ch. 2, Ch. 3, Ch. 4 및 Ch. m를 출력한다.
도 11 및 12를 참조하면, n-m 채널 믹서(660)가 2개의 스피커, 가령, 헤드폰 또는 확성기 상에 렌더링되기 위한 2-채널 신호를 출력하는 오디오 이미지 렌더러(634)의 실시예가 도시된다. 이 실시예에서, 렌더링될 오디오 이미지가 바이노럴 오디오 이미지로 지칭될 수 있다. 이 실시예에서, 각각의 위치 임펄스 응답이 좌 성분 및 우 성분을 포함한다. 이 예시에서, PIR_1(602)는 좌 성분 PIR_1 L 및 우 성분 PIR_1 R을 포함하고, PIR_2(604)는 좌 성분 PIR_2 L 및 우 성분 PIR_2 R를 포함하며, PIR_3(606)는 좌 성분 PIR_3 L 및 우 성분 PIR_3 R를 포함한다. 이 실시예에서, 오디오 이미지 렌더러(634)는 좌 채널과 우 채널을 병렬로 처리한다. 오디오 이미지 렌더러(634)는, 제1 가상 파면의 좌 성분 VWF1 L을 생성하기 위한 오디오 스트림과 좌 성분 PIR_1 L(제1 좌 위치 임펄스 응답이라고도 지칭됨)의 콘볼루션, 제2 가상 파면의 좌 성분 VWF2 L을 생성하기 위한 오디오 스트림과 좌 성분 PIR_2 L(제2 좌 위치 임펄스 응답이라고도 지칭됨)의 컨볼루션, 및 제3 가상 파면의 좌 성분 VWF3 L을 생성하기 위한 오디오 스트림과 좌 성분 PIR_3 L(제3 좌 위치 임펄스 응답이라고도 지칭됨)의 컨볼루션을 병렬로 수행함으로써 좌 채널을 생성한다.
오디오 이미지 렌더러(634)는, 제1 가상 파면의 우 성분 VWF1 R을 생성하기 위한 오디오 스트림과 우 성분 PIR_1 R(제1 우 위치 임펄스 응답이라고도 지칭됨)의 컨볼루션, 제2 가상 파면의 우 성분 VWF2 R을 생성하기 위한 오디오 스트림과 우 성분 PIR_2 R(제2 우 위치 임펄스 응답이라고도 지칭됨)의 컨볼루션, 및 제3 가상 파면의 우 성분 VWF3 R을 생성하기 위한 오디오 스트림과 우 성분 PIR_3 R(제3 우 위치 임펄스 응답이라고도 지칭됨)의 컨볼루션을 병렬로 수행함으로써 우 채널을 생성한다.
그 후, n-m 채널 믹서(660)가 VWF1 L, VWF2 L, VWF3 L를 믹싱하여 좌 채널을 생성하고 VWF1 R, VWF2 R 및 VWF3 R를 믹싱하여 우 채널을 생성한다. 그 후, 좌 채널과 우 채널은 청자에게 렌더링되어, 정규 스테레오 설정(가령, 헤드폰 또는 확성기 세트) 상에서 바이노럴 오디오 이미지를 경험할 수 있다.
도 13 및 14를 참조하면, 오디오 이미지 렌더러(634)의 실시예에서 좌 채널을 위해 오디오 스트림에 적용되는 3개의 컨볼루션과 우 채널을 위해 오디오 스트림에 적용되는 3개의 컨볼루션이 좌 채널에 대해 하나의 컨볼루션 및 우 채널에 대해 하나의 컨벌루션으로 대체된다. 이 실시예에서, 좌 성분 PIR_1 L, 좌 성분 PIR_2 L 및 좌 성분 PIR_3 L이 합산되어 합산된 좌 위치 임펄스 응답을 생성할 수 있다. 이와 병렬로, 우 성분 PIR_1 R, 우 성분 PIR_2 R 및 우 성분 PIR_3 R이 합산되어 합산된 우 위치 임펄스 응답이 생성될 수 있다. 그 후 측위 컨볼루션 엔진(610)은 좌 채널을 생성하기 위한 오디오 스트림과 합산된 좌 위치 임펄스 응답의 컨볼루션과 우 채널을 생성하기 위한 오디오 스트림과 합산된 우 위치 임펄스 응답을 병렬로 실행한다. 이 실시예에서, VWF1 L, VWF2 L 및 VWF3 L가 좌 채널 상에서 렌더링되고 VWF1 R, VWF2 R 및 VWF3 R가 우 채널 상에서 렌더링되어 청자가 VWF1, VWF2 및 VWF3를 지각할 수 있다. 다른 이점들 중에서, 이 실시예는 VWF1, VWF2 및 VWF3를 생성하는 데 필요한 컨볼루션의 횟수를 감소시킬 수 있으며, 이로써 오디오 이미지 렌더러(634)가 동작하는 디바이스로부터 필요한 처리 파워가 감소될 수 있다.
도 15는 3차원 공간(1500) 및 가상 파면(1560)의 표현의 또 다른 예시를 도시한다. 3차원 공간(1500)은 도 4의 3차원 공간(400)과 유사하다. 구(1500)가 복수의 위치 임펄스 응답에 의해 형성된 망(mesh)을 포함한다. 각각의 위치 임펄스 응답이 구(1502) 상의 점으로서 표현된다. 이러한 점의 예시로는 구 상의 위치가 대응하는 위치에 의해 결정되는 위치 임펄스 응답(1510)을 나타내는 점(1510)이 있다. 앞서 설명된 바와 같이, 복수의 위치 임펄스 응답들이 함께 조합되어 다각형 위치 임펄스 응답을 형성할 수 이다. 이러한 다각형 위치 임펄스 응답은 제1 다각형 위치 임펄스 응답(1520) 및 제2 다각형 위치 임펄스 응답(1530)에 의해 도시된다.
제1 다각형 위치 임펄스 응답(1520)은 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답을 포함한다. 각각의 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답이 각자의 위치와 연관된다. 모든 3개의 위치의 조합이 제1 다각형 위치 임펄스 응답(1520)의 기하형태, 이 경우, 삼각형을 형성한다. 일부 실시예에서, 상기 기하형태는 제어기(가령, 실시간 제어기(240))를 통해 (실시간인지 여부와 무관하게) 수정될 수 있다.
제2 다각형 위치 임펄스 응답(1530)은 제4 위치 임펄스 응답, 제5 위치 임펄스 응답, 제6 위치 임펄스 응답 및 제7 위치 임펄스 응답을 포함한다. 제4 위치 임펄스 응답, 제5 위치 임펄스 응답, 제6 위치 임펄스 응답 및 제7 위치 임펄스 응답 각각이 각자의 위치와 연관된다. 모든 4개의 위치의 조합이 제2 다각형 위치 임펄스 응답(1530)의 기하형태, 이 경우, 사변형을 형성한다. 일부 실시예에서, 기하형태는 제어기(가령, 실시간 제어기(240))를 통해 (실시간인지 여부와 무관하게) 수정될 수 있다.
도시된 실시예에서, 제1 오디오 이미지(1540)가 제1 다각형 위치 임펄스 응답(1520)을 기초로(가령, 제1 오디오 스트림 및 제1 다각형 위치 임펄스 응답(1520)을 형성하는 각각의 위치 임펄스 응답을 기초로) 생성된다. 제2 오디오 이미지(1550)는 제2 다각형 위치 임펄스 응답(1550)을 기초로(가령, 제2 오디오 스트림 및 제2 다각형 위치 임펄스 응답(1530)을 형성하는 위치 임펄스 응답 각각을 기초로) 생성된다. 일부 실시예에서, 제1 오디오 스트림과 제2 오디오 스트림은 동일한 오디오 스트림일 수 있다. 일부 실시예에서, 제1 오디오 이미지(1540)와 제2 오디오 이미지(1550)의 조합이 복합적인 오디오 이미지를 형성한다. 알다시피, 복합 오디오 이미지는 제1 다각형 위치 임펄스 응답(1520) 및 제2 다각형 위치 임펄스 응답(1530)과 연관된 위치를 제어함으로써 동적으로 모핑(morph)될 수 있다. 예를 들어, 제1 오디오 이미지(1540)는 제1 악기(가령, 바이올린)의 입체 오디오 이미지일 수 있고 제2 오디오 이미지(1550)는 제2 악기(가령, 기타)의 입체 오디오 이미지일 수 있다. 렌더링되면, 제1 오디오 이미지(1540) 및 제2 오디오 이미지(1550)는 청자에 의해 단지 포인트-소스 오디오 객체가 아니라 청자가 현실 생활에서 제1 악기 및 제2 악기 옆에 서 있는 것처럼 입체 오디오 객체로 지각된다. 이들 예시는 한정으로 해석되어서는 안 되고 복수의 변형 및 응용이 본 발명의 범위 내에서 고려될 수 있다.
가상 파면(1560)의 표현은 음파의 파면의 예시를 드는 것에 촛점을 맞춘다. 해당 분야의 통상의 기술자라면, 표현(1560)이 포인트 소스로부터 확산되는 음파의 구형 파면으로부터 취해질 수 있다. 종파 및 횡파에 대한 파면은 소스, 매질, 및/또는 만나는 장애물에 따라 달라지는 임의의 구성의 표면일 수 있다. 도 15에 도시된 바와 같이, 포인트 A에서 포인트 B로 확장되는 제1 파면(1562)은 동일한 위상을 갖는 포인트 세트(1564)를 포함할 수 있다. 제2 파면(1566)은 포인트 C에서 포인트 D로 확장된다. 본 발명의 일부 실시예에서, 가상 파면은 파면의 지각 인코딩(perceptual encoding)으로서 정의될 수 있다. (가령, 헤드폰 또는 확성기 세트를 통해) 적절하게 재생될 때, 가상 파면은 청자에 의해 동조하여 진동하는 파의 대응하는 포인트를 나타내는 표면으로서 지각될 수 있다. 파면의 이러한 도시는 한정으로 해석되어서는 안 되며 여러 변형 및 응용이 본 발명의 범위 내에서 고려될 수 있다.
도 16 및 17을 참조하면, 오디오 스트림을 기초로 하는 본 발명에 따라 생성되는 오디오 이미지를 경험하는 청자(1610)의 표현이 도시된다. 앞서 상세히 언급된 바와 같이, 오디오 스트림이 오디오 이미지 렌더러에 의해 처리되어, 청자(1610)에 의해 제1 위치(1620)로부터 발산되는 것처럼 지각되는 제1 가상 파면, 청자(1610)에 의해 제2 위치(1630)로부터 발산되는 것처럼 지각되는 제2 가상 파면, 및 청자(1610)에 의해 제3 위치(1640)로부터 발산되는 것처럼 지각되는 제3 가상 파면을 생성할 수 있다. 일부 실시예에서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면 각각이, 예를 들어, 3차원 공간, 가령, 구체(1602)에 의해 형성된 공간 냉세ㅓ 동적으로 수정될 수 있다. 일부 실시예에서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면이 청자(1610)에 의해 동기화되는 것으로 지각되어, 청자(1610)의 뇌가 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합을, 현실 생활에서 지각될 것처럼, 입체 오디오 이미지를 형성하는 지각할 수 있다.
일부 실시예에서, 입체 오디오 이미지가 인간 청각 시스템에 의해 입체 오디오 이미지와 관련된 중앙 및/또는 횡방향 정보를 통해 지각될 수 있다. 일부 실시예에서, 정중면에서의 지각은 주파수 종속적이거나, 및/또는 ILD(inter-aural level difference) 포락선 큐를 포함할 수 있다. 일부 실시예에서, 횡방향 지각은 파면의 상대적 차이 및/또는 두 귀 입력 신호 간 비유사성에 따라 달라질 수 있다. 횡방향 비유사성(lateral dissimilarity)은 ITD(inter-aural time difference) 및/또는 ILD(inter-aural level difference)로 구성될 수 있다. ITD는 신호가 발생한 때 또는 신호의 특정 성분이 발생한 때와 관련된 양 귀 입력 신호들 간 비유사성일 수 있다. 이들 비유사성은 귀 간 위상 차이(inter-aural phase difference) b(f)의 주파수 플롯에 의해 기술될 수 있다. 진폭 포락선의 타이밍 차이가 검출될 수 있을 때 ITD 포락선 큐의 지각에서, 타이밍 정보가 높은 주파수에 대해 사용될 수 있다. ITD 포락선 큐는 포락선 내 파형의 타이밍 대신 진폭 포락선의 개시의 타이밍 차이의 청취 시스템에 의한 추출을 기초로 할 수 있다. ILD는 양 귀 입력 신호의 평균 소리 압력 레벨과 관련된된 양 귀 입력 신호들 간 비유사성일 있다. 비유사성은 귀 간 전달 함수 |A(f)|의 진폭 및/또는 음압 레벨 차이 20 log |A(f)|의 관련하여 기재될 수 있다.
도 18은 제4 가상 파면이 오디오 스트림을 기초로 오디오 이미지 렌더러에 의해 생성되어 청자에 의해 제4 위치(1650)로부터 발산되는 것처럼 지각될 대안 실시예를 도시한다. 본 발명의 해당 분야의 통상이 기술자라면, 더 많은 개밸 위치로부터 발산되는 것처럼 지각될 더 많은 가상 파면이 생성될 수 있음을 알 것이다. 따라서 많은 변형이 본 발명의 범위 내에서 고려될 수 있다.
도 19는
도 16 내지 18의 청자(1610)가 구체(1902)의 일부분에 의해 형성되는 3차원 공간에서 본 발명에 따라 생성된 오디오 이미지를 경험하는 것의 또 다른 표현도이다. 도 19에서, 구체(1902)의 일부분이 청자(1610)의 머리의 종방향 축을 따라 뻗어 있는 평면(1904)을 더 포함한다.
도 20은 본 발명의 도 다른 실시예를 도시하며, 여기서 복수의 오디오 이미지를 포함하는 복합적인 오디오 이미지가 가상 공간 내에서 생성된다. 도시된 실시예에서, 각각의 기하학적 객체(즉, 구체로 형성된 공간, 원통으로 형성된 공간, 만곡된 평면 조각)가 본 발명에 따라 생성될 수 있는 개별 오디오 이미지를 나타낸다. 앞서 언급된 바와 같이, 오디오 스트림과 연관된 복수의 포인트 소스 오디오 객체가 복합적인 오디오 이미지를 형성하도록 가상 공간 내에 위치할 수 있는 오디오 이미지를 생성하는 데 사용될 수 있다.
도 21은 가상 공간이 도 19의 구체(1902)의 일부분에 의해 형성되는 도 20의 실시예를 도시한다.
도 22는 오디오 이미지 렌더러(2210)가 3D 경험 렌더러(2220)를 포함하는 본 발명의 대안 실시예를 도시한다. 일부 실시예에서, 3D 경험 렌더러(2220)는, (필터링되거나 필터링되지 않을 수 있는) 오디오 스트림을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면 및 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 가능하게 한다. 일부 실시예에서, 3D 경험 렌더러(2220)는 음향 렌더러 및/또는 바이노럴 렌더러(지각 렌더러라고도 지칭될 수 있음)를 포함한다.
일부 실시예에서, 음향 렌더러는 직접 소리 렌더러, 초기 반사 렌더러 및/또는 후기 반사 렌더러를 포함한다. 일부 실시예에서, 음향 렌더러는 바이노럴 룸 시뮬레이션을 기초로 하는 렌더링, DSP 알고리즘을 기초로 하는 음향 렌더링, 임펄스 응답을 기초로 하는 음향 렌더링, B-포맷을 기초로 하는 음향 렌더링, 구형 하모닉을 기초로 하는 음향 렌더링, 환경 맥락 시뮬레이션을 기초로 하는 음향 렌더링, 임펄스 응답과의 컨볼루션을 기초로 하는 음향 렌더링, 임펄스 응답 및 HRTF 프로세싱과의 컨볼루션을 기초로 하는 음향 렌더링, 가청화를 기초로 하는 음향 렌더링, 합성 룸 임펄스 응답을 기초로 하는 음향 렌더링, 앰비소닉 및 바이노럴 렌더링을 기초로 하는 음향 렌더링, 고차 앰비소닉(HOA) 및 바이노럴 렌더링을 기초로 하는 음향 렌더링, 광선 추적을 기초로 하는 음향 렌더링 및/또는 이미지 모델링을 기초로 하는 음향 렌더링이 있다.
일부 실시예에서, 바이노럴 렌더러는 바이노럴 신호 처리를 기초로 하고, 바이노럴 렌더링은 HRTF 모델링을 기초로 하며, 바이노럴 렌더링은 HRTF 측정을 기초로 하고, 바이노럴 렌더링은 DSP 알고리즘을 기초로 하며, 바이노럴 렌더링은 임펄스 응답을 기초로 하고, 바이노럴 렌더링은 HRTF를 위한 디지털 필터를 기초로 하거나 및/또는 바이노럴 렌더링은 HRTF 세트의 계산을 기초로 한다.
도 6에 도시된 실시예와 같이, 그 후 제1 가상 파면 (VWF1), 제2 가상 파면 (VWF2) 및 제3 가상 파면 (VWF3)이 PIR 다이나믹 프로세서(620)에 의해 프로세싱되고 n-m 채널 믹서(510)에 의해 믹싱되어 복수의 채널을 생성함으로써 청자에게 오디오 이미지를 렌더링할 수 있다.
이제 도 23 및 24를 참조하면, 도 5의 ADBF 필터(502)가 추가적인 상세사항, 특히, 주파수 스케일(2303)과 함께 도시된다. 앞서 기재된 바와 같이, ADBF 필터(502)는 오디오 스트림(526)을 입력으로서 취하는 데 사용되고 고역 통과 필터를 적용하여 제1 서브-오디오 스트림을 생성하고 저역 통과 필터를 적용하여 제2 서브-오디오 스트림을 생성할 수 있다. 일부 실시예에서, 제1 서브-오디오 스트림은 오디오 이미지 렌더러에 입력되고, 오디오 이미지 렌더러에 의해 처리되지 않고, 제2 서브-오디오 스트림은 믹서로 직접 입력된다. 일부 실시예에서, ADBD 필터(502)는 제어 데이터(524)를 기초로 동적으로 제어될 수 있다. 일부 실시예에서, ADBF 필터(502)는 위치 임펄스 응답이 측정되는 공간과 관련된 차원 정보를 액세스하도록 구성된다. 도 24에 예시로 든 바와 같이, 위치 임펄스 응답(2406, 2408 및 2410)이 차원이 h, l 및 d로 정의되는 공간(2402)에서 측정된다. 도시된 예시에서, 위치 임펄스 응답(2406, 2408 및 2410 )이 디바이스(2404)를 통해 측정된다. 그 후 공간(2402)의 차원이 공간(2402) 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 결정하는 데 이용된다. 일부 실시예에서, 주파수가 차단 주파수(f2) 및/또는 분할 주파수(f)이다. 도시된 실시예에서, ADBF 필터(502)에 의해 적용되는 고역 통과 필터 및/또는 저역 통과 필터가 차단 주파수 (f2) 및/또는 분할 주파수 (f)를 기초로 형성된다. 일부 실시예에서, 차단 주파수 (f2) 및/또는 분할 주파수 (f)는 제어 데이터(524)로부터 ADBF 필터(502)에 의해 액세스된다. 차단 주파수 (f2) 및/또는 분할 주파수 (f)는 오디오 스트림이 ADBF 필터(502)에 의해 처리된다. 따라서 일부 실시예에서, ADBF 필터는 차단 주파수 (f2) 및/또는 분할 주파수 (f)를 생성하지않고, 오히려 이들을 계산하고 제어 데이터(2420)에 저장한 원격지로부터 이들을 액세스한다.
일부 실싱에서, 차단 주파수 (f2) 및/또는 분할 주파수 (f)는 다음의 수학식을 기초로 형성될 수 있다.
Figure pct00001
도 24에 도시된 바와 같이, 주파수 스케일(2302)은 다음이 4개의 영역으로 구성된 가청 주파수 스케일을 형성한다: 영역 A, 영역 B, 영역 C 및 영역 D. 영역 A, B, C 및 D는 주파수 F1, F2 및 F3에 의해 형성된다. 해당 분야의 통상의 기술자마련, 영역 D에서, 스펙트럼 반사 및 광선 음향이 우세함을 알 수 있다. 영역 B에서, 룸 모드가 우세하다. 영역 C는 회절과 확산이 우세한 전환 지대이다. 영역 A에서는 소리에 대한 어떠한 모드 부스트도 없다.
일부 실시예에서, F1은 영역 A의 상한이고 공간 L의 최대 축방향 치수를 기초로 결정된다. 영역 B는 공간 치수가 소리 주파수의 파장(즉, 파 음향)에 비교 가능한 영역을 정의한다. F2는 Hz로 된 차단 주파수 또는 분할 주파수를 형성한다. RT60은 초 단위의 룸의 잔향 시간에 대응한다. 일부 실시예에서, RT60는 생성된 시험 신호가 갑자기 중단된 순간에서부터 측정된, 음압이 60dB만큼 감소하는 데 걸리는 시간으로 정의될 수 있다. V는 공간의 부피에 대응한다. 영역 C는 확산과 회절이 우세한 영역을 형성하며, 영역 B(파 음향이 적용)와 영역 D(광선 음향이 적용) 간 전환을 형성한다.
도 25를 참조하면, 오디오 이미지를 생성하는 컴퓨터로 구현되는 방법(2500)을 도시하는 흐름도가 나타난다. 일반적으로 오디오 이미지를 생성하는 방법이 참조하더라도, 이 맥락에서, 방법(2500)은 또한 청자에게 오디오 이미지를 렌더링하는 방법으로서도 지칭될 수 있다. 일부 실시예에서, 컴퓨터로 구현되는 방법(2500)은 컴퓨팅 환경(100), 비제한적 예를 들면 하나 이상의 디바이스(250)와 유사한 컴퓨팅 환경 상에서 (완전히 또는 부분적으로) 구현될 수 있다.
방법(2500)은 단계(2502)에서 오디오 스트림을 액세스함으로써 시작한다. 일부 실시예에서, 오디오 스트림은 제1 오디오 스트림이고 방법(2500)은 제2 오디오 스트림을 액세스하는 단계를 더 포함한다. 일부 실시예에서, 오디오 스트림은 오디오 채널이다. 일부 실시예에서, 오디오 스트림은 모노 오디오 스트림, 스테레오 오디오 스트림 및 멀티-채널 오디오 스트림 중 하나이다.
단계(2504)에서, 방법(2500)은 제1 위치 임펄스 응답을 애겟스하고 제1 위치 임펄스 응답은 제1 위치와 연관된다. 단계(2506)에서, 방법(2500)은 제2 위치 임펄스 응답을 액세스하고, 제2 위치 임펄스 응답은 제2 위치와 연관된다. 단계(2508)에서, 방법(2500)은 제3 위치 임펄스 응답을 액세스하며, 제3 위치 임펄스 응답은 제3 위치와 연관된다.
그 후, 방법(2500)은 단계(2510, 2512 및 2514)를 실행함으로써 오디오 이미지를 생성한다. 일부 실시예에서, 단계(2510, 2512 및 2514)는 병렬로 실행된다. 일부 실시예에서, 단계(2510)는, 오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 단계를 포함한다. 단계(2512)는 오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 단계를 포함한다. 단계(2514)는 오디오 스트림 및 제3 위치 임펄스 응답을 기초로 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 단계를 포함한다.
일부 실시예에서, 방법(2500)은 단계(2516)를 더 포함한다. 단계(2516)는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하는 단계를 포함한다.
일부 실시예에서, 제1 가상 파면을 생성하는 단계는 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계를 포함하고,
제2 가상 파면을 생성하는 단계는 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계를 포함하며,
제3 가상 파면을 생성하는 단계는 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계를 포함한다.
일부 실시예에서, 제1 위치 임펄스 응답은 제1 위치와 연관된 제1 좌 위치 임펄스 응답 및 제1 위치와 연관된 제1 우 위치 임펄스 응답을 포함하고,
제2 위치 임펄스 응답은 제2 위치와 연관된 제2 좌 위치 임펄스 응답 및 제2 위치와 연관된 제2 우 위치 임펄스 응답을 포함하며,
제3 위치 임펄스 응답은 제3 위치와 연관된 제3 좌 위치 임펄스 응답 및 제3 위치와 연관된 제3 우 위치 임펄스 응답을 포함한다.
일부 실시예에서, 제1 가상 파면, 제2 가상 파면, 및 제3 가상 파면을 생성하는 단계는
제1 좌 위치 임펄스 응답, 제2 좌 위치 임펄스 응답 및 제3 좌 위치 임펄스 응답을 합산함으로써 합산된 좌 위치 임펄스 응답을 생성하는 단계,
제1 우 위치 임펄스 응답, 제2 우 위치 임펄스 응답 및 제3 우 위치 임펄스 응답을 합산함으로써 합산된 우 위치 임펄스 응답을 생성하는 단계,
오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계, 및
오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계를 포함한다.
일부 실시예에서, 오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계는 좌 채널 신호를 생성하는 단계를 포함하고,
오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계는 우 채널 신호를 생성하는 단계를 포함하며,
좌 채널 신호와 우 채널 신호를 청자에게 렌더링하는 단계를 포함한다.
일부 실시예에서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 생성하는 단계는
오디오 스트림과 제1 좌 위치 임펄스 응답을 컨볼루션하는 단계,
오디오 스트림과 제1 우 위치 임펄스 응답을 컨볼루션하는 단계,
오디오 스트림과 제2 좌 위치 임펄스 응답을 컨볼루션하는 단계,
오디오 스트림과 제2 우 위치 임펄스 응답을 컨볼루션하는 단계,
오디오 스트림과 제3 좌 위치 임펄스 응답을 컨볼루션하는 단계,
오디오 스트림과 제3 우 위치 임펄스 응답을 컨볼루션하는 단계
를 포함한다.
일부 실시예에서, 상기 방법(2500)은
제1 좌 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 제2 좌 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 및 제3 좌 위치 임펄스 응답으로 컨볼루션된 오디오 스트림을 믹싱(mixing)함으로써 좌 채널을 생성하는 단계,
제1 우 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 제2 우 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 및 제3 우 위치 임펄스 응답으로 컨볼루션된 오디오 스트림을 믹싱함으로써 우 채널 신호를 생성하는 단계, 및
좌 채널 신호 및 우 채널 신호를 청자로 렌더링하는 단계
를 더 포함한다.
일부 실시예에서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계 및 제3 가상 파면을 생성하는 단계는 병렬로 실행된다.
일부 실시예에서, 오디오 이미지를 청자로 렌더링한 후, 제1 가상 파면은 제1 위치에 위치하는 제1 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되고, 제2 가상 파면은 제2 위치에 위치하는 제2 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되며, 제3 가상 파면은 제3 위치에 위치하는 제3 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각된다.
일부 실시예에서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계, 및 제3 가상 파면을 생성하는 단계는 동기화되어 실행된다.
일부 실시예에서, 오디오 이미지를 생성하기 전에, 상기 방법은
제어 데이터를 액세스하는 단계 - 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함함 - , 및
제1 위치 임펄스 응답을 제1 위치와 연관시키고, 제2 위치 임펄스 응답을 제2 위치와 연관시키고 제3 위치 임펄스 응답을 제3 위치와 연관시키는 단계를 포함한다.
일부 실시예에서, 오디오 스트림은 제1 오디오 스트림이며, 상기 방법은 제2 오디오 스트림을 액세스하는 단계를 더 포함한다.
일부 실시예에서, 상기 오디오 이미지는 제1 오디오 이미지이고, 상기 방법은
제2 오디오 이미지를 생성하는 단계를 더 포함하며, 상기 제2 오디오 이미지를 생성하는 단계는
제2 오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것처럼 지각할 제4 가상 파면을 생성하는 단계,
제2 오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것처럼 지각할 제5 가상 파면을 생성하는 단계, 및
제2 오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것처럼 지각할 제6 가상 파면을 생성하는 단계를 실행함으로써 이뤄진다.
일부 실시예에서, 오디오 이미지는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합에 의해 형성된다.
일부 실시예에서, 상기 오디오 이미지는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합으로 형성된 가상 몰입형 오디오 볼륨으로 청자에 의해 지각된다.
일부 실시예에서, 상기 방법(2500)은 제4 위치 임펄스 응답을 액세스하는 단계를 더 포함하며, 상기 제4 위치 임펄스 응답은 제4 위치와 연관된다.
일부 실시예에서, 오디오 스트림 및 제4 위치 임펄스 응답을 기초로, 청자가 제4 위치로부터 발산되는 것처럼 지각하는 제4 가상 파면을 생성한다.
일부 실시예에서, 제1 위치, 제2 위치, 및 제3 위치는 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답과 연관된 음향 공간의 위치에 대응한다.
일부 실시예에서, 제1 위치, 제2 위치 및 제3 위치는 구형 망(spherical mesh)의 일부분을 형성한다.
일부 실시예에서, 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답은 다각형 위치 임펄스 응답을 형성한다.
일부 실시예에서, 오디오 이미지는 제1 오디오 이미지이고 상기 방법은
제4 위치 임펄스 응답을 액세스하는 단계 - 상기 제4 위치 임펄스 응답은 제4 위치와 연관됨 - ,
제5 위치 임펄스 응답을 액세스하는 단계 - 상기 제5 위치 임펄스 응답은 제5 위치와 연관됨 - ,
제6 위치 임펄스 응답을 액세스하는 단계 - 상기 제6 위치 임펄스 응답은 제6 위치와 연관됨 - ,
제2 오디오 이미지를 생성하는 단계
를 포함하며, 상기 제2 오디오 이미지를 생성하는 단계는
오디오 스트림 및 제4 위치 임펄스 응답을 기초로, 청자가 제4 위치로부터 발산되는 것처럼 지각할 제4 가상 파면을 생성하는 단계,
오디오 스트림 및 제5 위치 임펄스 응답을 기초로, 청자가 제5 위치로부터 발산되는 것처럼 지각할 제5 가상 파면을 생성하는 단계, 및
오디오 스트림 및 제6 위치 임펄스 응답을 기초로, 청자가 제6 위치로부터 발산되는 것처럼 지각할 제6 가상 파면을 생성하는 단계를 병렬로 실행함으로써 이뤄진다.
일부 실시예에서, 제1 오디오 이미지 및 제2 오디오 이미지는 복합 오디오 이미지를 형성한다.
일부 실시예에서, 오디오 스트림은 포인트 소스 오디오 스트림을 포함하고 오디오 이미지는 제1 가상 파면, 제2 가상 파면, 및 제3 가상 파면의 조합에 의해 형성되는 포인트 소스 오디오 스트림의 입체 오디오 객체로서 사용자에 의해 지각된다.
일부 실시예에서, 포인트 소스 오디오 스트림은 모노 오디오 스트림을 포함한다.
일부 실시예에서, 제1 위치 임펄스 응답, 제2 위치 임펄스 응답, 제3 위치 임펄스 응답 및 오디오 스트림은 오디오 이미지 파일로부터 액세스된다.
일부 실시예에서, 제1 위치, 제2 위치 및 제3 우치는 제어 데이터와 연관되며, 제어 데이터는 오디오 이미지 파일로부터 액세스된다.
일부 실시예에서, 오디오 스트림은 제1 오디오 스트림이고 오디오 이미지 파일은 제2 오디오 스트림을 포함한다.
일부 실시예에서, 상기 오디오 이미지 파일은 인코더에 의해 생성된다.
일부 실시예에서, 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답은 음장 포지셔너에 의해 액세스되고 오디오 이미지는 오디오 이미지 렌더러에 의해 생성된다.
일부 실시예에서, 음장 포지셔너 및 오디오 이미지 렌더러는 디코더를 형성한다.
일부 실시예에서, 오디오 이미지를 생성하기 전에, 오디오 스트림은 음향 결정된 대역 필터에 의해 필터링된다.
일부 실시예에서, 오디오 스트림은 음향 결정된 대역 필터에 의해 제1 오디오 서브-스트림과 제2 오디오 서브-스트림으로 분할된다.
일부 실시예에서, 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계는 제1 오디오 서브-스트림을 제1 위치 임펄스 응답으로 컨볼루션하는 단계를 포함하고, 오디오 스트림을 제2 위치 임펄스 응답으로 컨볼루션하는 단계는 제1 오디오 서브-스트림을 제2 위치 임펄스 응답으로 컨볼루션하는 단계를 포함하고, 오디오 스트림을 제3 위치 임펄스 응답으로 컨볼루션하는 단계는 제1 오디오 서브-스트림을 제3 위치 임펄스 응답으로 컨볼루션하는 단계를 포함한다.
일부 실시예에서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면은 제2 오디오 서브-스트림과 믹싱되어 오디오 이미지를 생성한다.
일부 실시예에서, 음향 결정된 대역 필터는 고역 통과 필터(HPF: high-pass filter)를 적용함으로써 제1 오디오 서브-스트림을 생성하고 저역 통과 필터(LPF: low-pass filter)를 적용함으로써 제2 오디오 서브-스트림을 생성한다.
일부 실시예에서, 이득 및 딜레이 중 적어도 하나가 제2 오디오 서브-시스템에 적용된다.
일부 실시예에서, HPF 및 LPF 중 적어도 하나가 차단 주파수(cut-off frequency)(f2) 및 분할 주파수(crossover frequency)(f) 중 적어도 하나를 기초로 형성된다.
일부 실시예에서, 차단 주파수 및 분할 주파수 중 적어도 하나는 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답 중 적어도 하나와 연관된 공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 기초로 한다.
일부 실시예에서, 차단 주파수(f2) 및 분할 주파수(f) 중 적어도 하나가 제어 데이터와 연관된다.
일부 실시예에서, 오디오 이미지를 기초로 m-채널 오디오 출력을 출력하는 단계를 더 포함한다.
일부 실시예에서, 오디오 이미지는 헤드폰 세트 및 확성기 세트 중 적어도 하나를 통해 사용자에게 전달된다.
일부 실시예에서, 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계, 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계, 및 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계 중 적어도 하나는 오디오 스트림에 푸리에-변환을 적용하는 단계를 포함한다.
일부 실시예에서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면은 함께 믹싱된다.
일부 실시예에서, 이득, 딜레이 및 필터/이퀄라이저 중 적어도 하나가 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면 중 적어도 하나에 적용된다.
일부 실시예에서, 이득, 딜레이 및 필터/이퀄라이저 중 적어도 하나를 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면 중 적어도 하나에 적용하는 것은 제어 데이터를 기초로 한다.
일부 실시예에서, 오디오 스트림은 제1 오디오 스트림이며 상기 방법은 복수의 오디오 스트림을 액세스하는 단계를 더 포함한다.
일부 실시예에서, 오디오 이미지를 생성하기 전에 제1 오디오 스트림과 복수의 오디오 스트림이 믹싱된다.
일부 실시예에서, 오디오 이미지를 모핑(morph)하도록 제1 위치, 제2 위치 및 제3 위치는 실시간으로 제어 가능하다.
이제 도 26을 참조하여, 오디오 이미지를 생성하는 컴퓨터로 구현되는 방법(2600)을 도시하는 흐름도가 나타난다. 일반적으로 오디오 이미지를 생성하는 방법을 참조하더라도, 이 맥락에서, 방법(2600)은 또한 오디오 이미지를 청자에게 렌더링하는 방법으로도 지칭될 수 있다. 일부 실시예에서 컴퓨터로 구현되는 방법(2600)은 컴퓨팅 환경(100)과 유사한 컴퓨팅 환경, 비제한적 예를 들면, 하나 이상의 디바이스(250) 상에서 (완전히 또는 부분적으로) 구현될 수 있다.
방법(2600)은 오디오 스트림을 액세스함으로써 단계(2602)를 시작한다. 그 후 단계(2604)에서, 방법(2600)은 위치 정보를 액세스하며, 상기 위치 정보는 제1 위치, 제2 위치 및 제3 위치를 포함한다.
상기 방법(2600)은 그 후 단계(2610, 2612 및 2614)를 실행하여 오디오 이미지를 생성할 수 있다. 일부 실시예에서, 단계(2610, 2612 및 2614)는 병렬로 실행된다. 단계(2610)는 오디오 스트림을 기초로, 청자에 의해 제1 위치로부터 발산되는 것처럼 지각될 제1 가상 파면을 생성한다. 단계(2612)는 오디오 스트림을 기초로 청자에 의해 제2 위치로부터 발산되는 것처럼 지각될 제2 가상 파면을 생성한다. 단계(2614)는 오디오 스트림을 기초로 청자에 의해 제3 위치로부터 발산되는 것처럼 지각될 제3 가상 파면을 생성한다.
일부 실시예에서, 오디오 이미지를 청자에 렌더링하면, 제1 가상 파면이 제1 위치에 위치하는 제1 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되고, 제2 가상 파면이 제2 위치에 위치하는 제2 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되며, 제3 가상 파면이 제3 위치에 위치하는 제3 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각된다.
일부 실시예에서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계, 및 제3 가상 파면을 생성하는 단계 중 적어도 하나는 음향 렌더링 및 바이노럴 렌더링 중 적어도 하나를 포함한다.
일부 실시예에서, 음향 렌더링은 적어도 하나의 직접 소리 렌더링, 초기 반사 렌더링, 및 후기 반사 렌더링을 포함한다.
일부 실시예에서, 음향 렌더링은 바이노럴 룸 시뮬레이션, DSP 알고리즘을 기초로 하는 음향 렌더링, 임펄스 응답을 기초로 하는 음향 렌더링, B-포맷(B-Format)을 기초로 하는 음향 렌더링, 구형 고조파(spherical harmonics)를 기초로 하는 음향 렌더링, 주위 맥락 시뮬레이션(environmental context simulation)을 기초로 하는 음향 렌더링, 임펄스 응답과의 컨볼루션을 기초로 하는 음향 렌더링, 임펄스 응답과의 컨볼루션 및 HRTF 프로세싱을 기초로 하는 음향 렌더링, 가청화(auralization)를 기초로 하는 음향 렌더링, 합성 룸 임펄스 응답(synthetic room impulse response)을 기초로 하는 음향 렌더링, 앰비소닉(ambisonics) 및 바이노럴 렌더링을 기초로 하는 음향 렌더링, 고차 앰비소닉(HOA) 및 바이노럴 렌더링을 기초로 하는 음향 렌더링, 광선 추적(ray tracing)을 기초로 하는 음향 렌더링 및 이미지 모델링을 기초로 하는 음향 렌더링 중 적어도 하나를 포함한다.
일부 실시예에서, 바이노럴 렌더링은 바이노럴 신호 프로세싱, HRTF 모델링을 기초로 하는 바이노럴 렌더링, HRTF 측정을 기초로 하는 바이노럴 렌더링, DSP 알고리즘을 기초로 하는 바이노럴 렌더링, 임펄스 응답을 기초로 하는 바이노럴 렌더링, HRTF에 대한 디지털 필터를 기초로 하는 바이노럴 렌더링 및 HRTF 세트의 계산을 기초로 하는 바이노럴 렌더링 중 적어도 하나를 포함한다.
일부 실시예에서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계 및 제3 가상 파면을 생성하는 단계가 동기화되어 실행된다.
일부 실시예에서, 오디오 이미지를 생성하기 전에, 상기 방법은
제1 위치와 연관된 제1 위치 임펄스 응답을 액세스하는 단계,
제2 위치와 연관된 제2 위치 임펄스 응답을 액세스하는 단계, 및
제3 위치와 연관된 제3 위치 임펄스 응답을 액세스하는 단계를 포함한다.
일부 실시예에서, 제1 가상 파면을 생성하는 단계는 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계를 포함하고,
제2 가상 파면을 생성하는 단계는 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계를 포함하며,
제3 가상 파면을 생성하는 단계는 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계를 포함한다.
일부 실시예에서, 오디오 이미지를 생성하기 전에, 상기 방법은
제1 위치와 연관된 제1 좌 위치 임펄스 응답을 액세스하는 단계,
제1 위치와 연관된 제1 우 위치 임펄스 응답을 액세스하는 단계,
제2 위치와 연관된 제2 좌 위치 임펄스 응답을 액세스하는 단계,
제2 위치와 연관된 제2 우 위치 임펄스 응답을 액세스하는 단계,
제3 위치와 연관된 제3 좌 위치 임펄스 응답을 액세스하는 단계, 및
제3 위치와 연관된 제3 우 위치 임펄스 응답을 액세스하는 단계를 포함한다.
일부 실시예에서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 생성하는 단계는
제1 좌 위치 임펄스응답, 제2 좌 위치 임펄스 응답 및 제3 좌 위치 임펄스 응답을 합산함으로써 합산된 좌 위치 임펄스 응답을 생성하는 단계,
제1 우 위치 임펄스 응답, 제2 우 위치 임펄스 응답 및 제3 우 위치 임펄스 응답을 합산함으로써 합산된 우 위치 임펄스 응답을 생성하는 단계,
오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계, 및
오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계를 포함한다.
일부 실시예에서, 오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계는 좌 채널을 생성하는 단계를 포함하고,
오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계는 우 채널을 생성하는 단계를 포함하며,
좌 채널 및 우 채널을 청자로 렌더링하는 단계를 포함한다.
일부 실시예에서, 오디오 이미지는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합에 의해 형성된다.
일부 실시예에서, 방법(2600)은 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하는 단계(2616)를 포함한다.
이제 도 27을 참조하면, 입체 도이도 이미지를 생성하는 컴퓨터로 구현되는 방법(2700)이 도시된다. 일반적으로 입체 오디오 이미지를 생성하는 방법이라고 지칭되지만, 이 맥락에서 청자에게 입체 오디오 이미지를 렌더링하는 방법으로도 지칭될 수 있음을 알아야 한다. 일부 실시예에서, 컴퓨터로 구현되는 방법(2700)이 컴퓨팅 환경(100), 가령, 하나 이상의 디바이스(250) 상에서 (완전히 또는 부분적으로) 구현될 수 있다.
방법(2700)은 오디오 스트림을 액세스함으로써 단계(2702)를 시작한다. 그 후 단계(2704)에서, 방법(2700)은 제1 위치 임펄스 응답, 제2 위치 임펄스 응답, 및 제3 위치 임펄스 응답을 액세스한다.
그 후 단계(2706)에서, 방법(2700)은 제어 데이터를 액세스하고, 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함한다. 단계(2708)에서, 방법(2700)은 제1 위치 임펄스 응답과 제1 위치를 연관시키고, 제2 위치 임펄스 응답과 제2 위치를 연관시키며, 제3 위치 임펄스 응답과 제3 위치를 연관시킨다.
그 후 방법(2700)은 단계(2710, 2712 및 2714)를 실행함으로써 입체 오디오 이미지를 생성한다. 일부 실시예에서, 단계(2710, 2712 및 2714)는 병렬로 실행된다. 단계(2710)는 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 위치로부터 발산되는 제1 가상 파면을 생성하는 단계를 포함한다. 단계(2712)는 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 위치로부터 발산되는 제2 가상 파면을 생성하는 단계를 포함한다. 단계(2714)는 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 위치로부터 발산되는 제3 가상 파면을 생성하는 단계를 포함한다.
일부 실시예에서, 방법(2700)은 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하여 입체 오디오 이미지를 렌더링하는 단계(2716)를 더 포함한다.
도 28을 참조하면, 오디오 스트림을 필터링하는 컴퓨터로 구현되는 방법(2800)이 도시된 흐름도가 제공된다. 일부 실시예에서 상기 컴퓨터로 구현되는 방법(2800)은 컴퓨팅 환경(100), 비제한적 예를 들면, 하나 이상의 디바이스(250) 상에서 (완전히 또는 부분적으로) 구현된다.
방법(2800)은 오디오 스트림을 액세스함으로써 단계(2802)에서 시작한다. 그 후 단계(2804)에서, 방법(2800)은 공간과 관련된 차원 정보를 액세스한다. 그 후 방법(2800)는 단계(2806)에서, 상기 공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 결정한다. 단계(2808)는 단계(2806)에서의 주파수를 기초로 상기 오디오 스트림을 제1 오디오 서브-스트림과 제2 오디오 서브-스트림으로 분할한다.
일부 실시예에서, 오디오 스트림을 분할하는 단계는 고역 통과 필터(HPF)를 적용함으로써 제1 오디오 서브-스트림을 생성하고 저역 통과 필터(LPF)를 적용함으로써 제2 오디오 서브-스트림을 생성하는 단계를 포함한다.
일부 실시예에서, 이득 및 딜레이 중 적어도 하나는 제2 오디오 서브-스트림에 적용된다.
일부 실시예에서, 주파수는 차단 주파수(f2) 및 분할 주파수(f) 중 하나이다.
일부 실시예에서, HPF 및 LPF 중 적어도 하나는 차단 주파수(f2) 및 분할 주파수(f) 중 적어도 하나를 기초로 형성된다.
일부 실시예에서, 차단 주파수(f2) 및 분할 주파수(f) 중 적어도 하나는 제어 데이터와 연관된다.
일부 실시예에서, 공간은 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답 중 적어도 하나의 연관된다.
앞서 기재된 구현예가 특정 순서로 수행되는 특정 단계를 참조하여 기재되고 도시되었지만, 이들 단계는 본 발명의 설명 내에서, 조합, 분할, 또는 재정렬될 수 있음이 이해될 것이다. 단계 중 적어도 일부가 병렬 또는 직렬로 실행될 수 있다. 따라서 단계의 순서 및 그룹화가 본 발명의 한정 사항이 아니다.
본 며엣서에 언급된 모든 기술적 효과가 본 발명의 각각의 모든 실시예에서 발휘될 필요는 없음을 이해할 것이다. 예를 들어, 본 발명의 실시예는 사용자 및/또는 청자가 이들 기술적 효과 중 일부를 누리지 않고 구현될 수 있으며, 그 밖의 다른 실시예는 사용자가 그 밖의 다른 기술적 효과를 누리면서 구현되거나, 전혀 누리지 않으면서 구현될 수 있다.
본 발명의 앞서 기재된 구현예의 수정 및 개선이 해당 분야의 통상의 기술자에게 명백해질 수 있다. 상기의 기재가 한정이 아니라 예시로서 의도된 것이다. 따라서 본 발명의 범위는 첨부된 청구항의 범위에 의해서만 제한된다.

Claims (88)

  1. 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법으로서, 상기 방법은
    오디오 스트림을 액세스하는 단계,
    제1 위치 임펄스 응답을 액세스하는 단계 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
    제2 위치 임펄스 응답을 액세스하는 단계 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
    제3 위치 임펄스 응답을 액세스하는 단계 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
    오디오 이미지를 생성하는 단계
    를 포함하고, 상기 오디오 이미지를 생성하는 단계는
    오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 단계,
    오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 단계, 및
    오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 단계를 실행함으로써, 이뤄지는, 오디오 이미지를 생성하는 방법.
  2. 제1항에 있어서,
    제1 가상 파면을 생성하는 단계는 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계를 포함하고,
    제2 가상 파면을 생성하는 단계는 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계를 포함하며,
    제3 가상 파면을 생성하는 단계는 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  3. 제1항에 있어서,
    제1 위치 임펄스 응답은 제1 위치와 연관된 제1 좌 위치 임펄스 응답 및 제1 위치와 연관된 제1 우 위치 임펄스 응답을 포함하고,
    제2 위치 임펄스 응답은 제2 위치와 연관된 제2 좌 위치 임펄스 응답 및 제2 위치와 연관된 제2 우 위치 임펄스 응답을 포함하며,
    제3 위치 임펄스 응답은 제3 위치와 연관된 제3 좌 위치 임펄스 응답 및 제3 위치와 연관된 제3 우 위치 임펄스 응답을 포함하는, 오디오 이미지를 생성하는 방법.
  4. 제3항에 있어서, 제1 가상 파면, 제2 가상 파면, 및 제3 가상 파면을 생성하는 단계는
    제1 좌 위치 임펄스 응답, 제2 좌 위치 임펄스 응답 및 제3 좌 위치 임펄스 응답을 합산함으로써 합산된 좌 위치 임펄스 응답을 생성하는 단계,
    제1 우 위치 임펄스 응답, 제2 우 위치 임펄스 응답 및 제3 우 위치 임펄스 응답을 합산함으로써 합산된 우 위치 임펄스 응답을 생성하는 단계,
    오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계, 및
    오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  5. 제4항에 있어서,
    오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계는 좌 채널 신호를 생성하는 단계를 포함하고,
    오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계는 우 채널 신호를 생성하는 단계를 포함하며,
    좌 채널 신호와 우 채널 신호를 청자에게 렌더링하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  6. 제3항에 있어서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 생성하는 단계는
    오디오 스트림과 제1 좌 위치 임펄스 응답을 컨볼루션하는 단계,
    오디오 스트림과 제1 우 위치 임펄스 응답을 컨볼루션하는 단계,
    오디오 스트림과 제2 좌 위치 임펄스 응답을 컨볼루션하는 단계,
    오디오 스트림과 제2 우 위치 임펄스 응답을 컨볼루션하는 단계,
    오디오 스트림과 제3 좌 위치 임펄스 응답을 컨볼루션하는 단계,
    오디오 스트림과 제3 우 위치 임펄스 응답을 컨볼루션하는 단계
    를 포함하는, 오디오 이미지를 생성하는 방법.
  7. 제6항에 있어서,
    제1 좌 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 제2 좌 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 및 제3 좌 위치 임펄스 응답으로 컨볼루션된 오디오 스트림을 믹싱(mixing)함으로써 좌 채널을 생성하는 단계,
    제1 우 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 제2 우 위치 임펄스 응답으로 컨볼루션된 오디오 스트림, 및 제3 우 위치 임펄스 응답으로 컨볼루션된 오디오 스트림을 믹싱함으로써 우 채널 신호를 생성하는 단계, 및
    좌 채널 신호 및 우 채널 신호를 청자로 렌더링하는 단계
    를 더 포함하는, 오디오 이미지를 생성하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계 및 제3 가상 파면을 생성하는 단계는 병렬로 실행되는, 오디오 이미지를 생성하는 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 오디오 이미지를 청자로 렌더링한 후, 제1 가상 파면은 제1 위치에 위치하는 제1 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되고, 제2 가상 파면은 제2 위치에 위치하는 제2 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되며, 제3 가상 파면은 제3 위치에 위치하는 제3 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되는, 오디오 이미지를 생성하는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계, 및 제3 가상 파면을 생성하는 단계는 동기화되어 실행되는, 오디오 이미지를 생성하는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 오디오 이미지를 생성하기 전에, 상기 방법은
    제어 데이터를 액세스하는 단계 - 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함함 - , 및
    제1 위치 임펄스 응답을 제1 위치와 연관시키고, 제2 위치 임펄스 응답을 제2 위치와 연관시키고 제3 위치 임펄스 응답을 제3 위치와 연관시키는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 오디오 스트림은 제1 오디오 스트림이며, 상기 방법은 제2 오디오 스트림을 액세스하는 단계를 더 포함하는, 오디오 이미지를 생성하는 방법.
  13. 제12항에 있어서, 상기 오디오 이미지는 제1 오디오 이미지이고, 상기 방법은
    제2 오디오 이미지를 생성하는 단계를 더 포함하며, 상기 제2 오디오 이미지를 생성하는 단계는
    제2 오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것처럼 지각할 제4 가상 파면을 생성하는 단계,
    제2 오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것처럼 지각할 제5 가상 파면을 생성하는 단계, 및
    제2 오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것처럼 지각할 제6 가상 파면을 생성하는 단계를 실행함으로써 이뤄지는, 오디오 이미지를 생성하는 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 오디오 스트림은 오디오 채널인, 오디오 이미지를 생성하는 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 오디오 스트림은 모노 오디오 스트림, 스테레오 오디오 스트림 및 멀티-채널 오디오 스트림 중 하나인, 오디오 이미지를 생성하는 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 오디오 이미지는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합에 의해 형성되는, 오디오 이미지를 생성하는 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 상기 오디오 이미지는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합으로 형성된 가상 몰입형 오디오 볼륨으로 청자에 의해 지각되는, 오디오 이미지를 생성하는 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 상기 방법은 제4 위치 임펄스 응답을 액세스하는 단계를 더 포함하며, 상기 제4 위치 임펄스 응답은 제4 위치와 연관되는, 오디오 이미지를 생성하는 방법.
  19. 제18항에 있어서, 오디오 스트림 및 제4 위치 임펄스 응답을 기초로, 청자가 제4 위치로부터 발산되는 것처럼 지각하는 제4 가상 파면을 생성하는, 오디오 이미지를 생성하는 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 제1 위치, 제2 위치, 및 제3 위치는 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답과 연관된 음향 공간의 위치에 대응하는, 오디오 이미지를 생성하는 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 제1 위치, 제2 위치 및 제3 위치는 구형 망(spherical mesh)의 일부분을 형성하는, 오디오 이미지를 생성하는 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서, 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답은 다각형 위치 임펄스 응답을 형성하는, 오디오 이미지를 생성하는 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서, 오디오 이미지는 제1 오디오 이미지이고 상기 방법은
    제4 위치 임펄스 응답을 액세스하는 단계 - 상기 제4 위치 임펄스 응답은 제4 위치와 연관됨 - ,
    제5 위치 임펄스 응답을 액세스하는 단계 - 상기 제5 위치 임펄스 응답은 제5 위치와 연관됨 - ,
    제6 위치 임펄스 응답을 액세스하는 단계 - 상기 제6 위치 임펄스 응답은 제6 위치와 연관됨 - ,
    제2 오디오 이미지를 생성하는 단계
    를 포함하며, 상기 제2 오디오 이미지를 생성하는 단계는
    오디오 스트림 및 제4 위치 임펄스 응답을 기초로, 청자가 제4 위치로부터 발산되는 것처럼 지각할 제4 가상 파면을 생성하는 단계,
    오디오 스트림 및 제5 위치 임펄스 응답을 기초로, 청자가 제5 위치로부터 발산되는 것처럼 지각할 제5 가상 파면을 생성하는 단계, 및
    오디오 스트림 및 제6 위치 임펄스 응답을 기초로, 청자가 제6 위치로부터 발산되는 것처럼 지각할 제6 가상 파면을 생성하는 단계를 병렬로 실행함으로써 이뤄지는, 오디오 이미지를 생성하는 방법.
  24. 제23항에 있어서, 제1 오디오 이미지 및 제2 오디오 이미지는 복합 오디오 이미지를 형성하는, 오디오 이미지를 생성하는 방법.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서, 오디오 스트림은 포인트 소스 오디오 스트림을 포함하고 오디오 이미지는 제1 가상 파면, 제2 가상 파면, 및 제3 가상 파면의 조합에 의해 형성되는 포인트 소스 오디오 스트림의 입체 오디오 객체로서 사용자에 의해 지각되는, 오디오 이미지를 생성하는 방법.
  26. 제25항에 있어서, 포인트 소스 오디오 스트림은 모노 오디오 스트림을 포함하는, 오디오 이미지를 생성하는 방법.
  27. 제1항 내지 제26항 중 어느 한 항에 있어서, 제1 위치 임펄스 응답, 제2 위치 임펄스 응답, 제3 위치 임펄스 응답 및 오디오 스트림은 오디오 이미지 파일로부터 액세스되는, 오디오 이미지를 생성하는 방법.
  28. 제27항에 있어서, 제1 위치, 제2 위치 및 제3 우치는 제어 데이터와 연관되며, 제어 데이터는 오디오 이미지 파일로부터 액세스되는, 오디오 이미지를 생성하는 방법.
  29. 제27항에 있어서, 오디오 스트림은 제1 오디오 스트림이고 오디오 이미지 파일은 제2 오디오 스트림을 포함하는, 오디오 이미지를 생성하는 방법.
  30. 제27항에 있어서, 상기 오디오 이미지 파일은 인코더에 의해 생성된, 오디오 이미지를 생성하는 방법.
  31. 제1항 내지 제30항 중 어느 한 항에 있어서, 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답은 음장 포지셔너에 의해 액세스되고 오디오 이미지는 오디오 이미지 렌더러에 의해 생성되는, 오디오 이미지를 생성하는 방법.
  32. 제31항에 있어서, 음장 포지셔너 및 오디오 이미지 렌더러는 디코더를 형성하는, 오디오 이미지를 생성하는 방법.
  33. 제2항 내지 제32항 중 어느 한 항에 있어서, 오디오 이미지를 생성하기 전에, 오디오 스트림은 음향 결정된 대역 필터에 의해 필터링되는, 오디오 이미지를 생성하는 방법.
  34. 제33항에 있어서, 오디오 스트림은 음향 결정된 대역 필터에 의해 제1 오디오 서브-스트림과 제2 오디오 서브-스트림으로 분할되는, 오디오 이미지를 생성하는 방법.
  35. 제34항에 있어서, 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계는 제1 오디오 서브-스트림을 제1 위치 임펄스 응답으로 컨볼루션하는 단계를 포함하고, 오디오 스트림을 제2 위치 임펄스 응답으로 컨볼루션하는 단계는 제1 오디오 서브-스트림을 제2 위치 임펄스 응답으로 컨볼루션하는 단계를 포함하고, 오디오 스트림을 제3 위치 임펄스 응답으로 컨볼루션하는 단계는 제1 오디오 서브-스트림을 제3 위치 임펄스 응답으로 컨볼루션하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  36. 제35항에 있어서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면은 제2 오디오 서브-스트림과 믹싱되어 오디오 이미지를 생성하는, 오디오 이미지를 생성하는 방법.
  37. 제33항에 있어서, 음향 결정된 대역 필터는 고역 통과 필터(HPF: high-pass filter)를 적용함으로써 제1 오디오 서브-스트림을 생성하고 저역 통과 필터(LPF: low-pass filter)를 적용함으로써 제2 오디오 서브-스트림을 생성하는, 오디오 이미지를 생성하는 방법.
  38. 제33항에 있어서, 이득 및 딜레이 중 적어도 하나가 제2 오디오 서브-시스템에 적용되는, 오디오 이미지를 생성하는 방법.
  39. 제37항에 있어서, HPF 및 LPF 중 적어도 하나가 차단 주파수(cut-off frequency)(f2) 및 분할 주파수(crossover frequency)(f) 중 적어도 하나를 기초로 형성되는, 오디오 이미지를 생성하는 방법.
  40. 제39항에 있어서, 차단 주파수 및 분할 주파수 중 적어도 하나는 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답 중 적어도 하나와 연관된 공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 기초로 하는, 오디오 이미지를 생성하는 방법.
  41. 제39항에 있어서, 차단 주파수(f2) 및 분할 주파수(f) 중 적어도 하나가 제어 데이터와 연관되는, 오디오 이미지를 생성하는 방법.
  42. 제1항 내지 제41항 중 어느 한 항에 있어서,
    오디오 이미지를 기초로 m-채널 오디오 출력을 출력하는 단계를 더 포함하는, 오디오 이미지를 생성하는 방법.
  43. 제1항 내지 제42항 중 어느 한 항에 있어서, 오디오 이미지는 헤드폰 세트 및 확성기 세트 중 적어도 하나를 통해 사용자에게 전달되는, 오디오 이미지를 생성하는 방법.
  44. 제2항 내지 제43항 중 어느 한 항에 있어서, 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계, 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계, 및 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계 중 적어도 하나는 오디오 스트림에 푸리에-변환을 적용하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  45. 제2항 내지 제44항 중 어느 한 항에 있어서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면은 함께 믹싱되는, 오디오 이미지를 생성하는 방법.
  46. 제1항 내지 제45항 중 어느 한 항에 있어서, 이득, 딜레이 및 필터/이퀄라이저 중 적어도 하나가 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면 중 적어도 하나에 적용되는, 오디오 이미지를 생성하는 방법.
  47. 제46항에 있어서, 이득, 딜레이 및 필터/이퀄라이저 중 적어도 하나를 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면 중 적어도 하나에 적용하는 것은 제어 데이터를 기초로 하는, 오디오 이미지를 생성하는 방법.
  48. 제1항 내지 제47항 중 어느 한 항에 있어서, 오디오 스트림은 제1 오디오 스트림이며 상기 방법은 복수의 오디오 스트림을 액세스하는 단계를 더 포함하는, 오디오 이미지를 생성하는 방법.
  49. 제48항에 있어서, 오디오 이미지를 생성하기 전에 제1 오디오 스트림과 복수의 오디오 스트림이 믹싱되는, 오디오 이미지를 생성하는 방법.
  50. 제1항 내지 제49항 중 어느 한 항에 있어서, 오디오 이미지를 모핑(morph)하도록 제1 위치, 제2 위치 및 제3 위치는 실시간으로 제어 가능한, 오디오 이미지를 생성하는 방법.
  51. 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법으로서, 상기 방법은
    오디오 스트림을 액세스하는 단계,
    위치 정보를 액세스하는 단계 - 상기 위치 정보는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
    상기 오디오 이미지를 생성하는 단계를 포함하며, 상기 오디오 이미지를 생성하는 단계는
    오디오 스트림을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 단계,
    오디오 스트림을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 단계, 및
    오디오 스트림을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 단계를 실행함으로써 이뤄지는, 오디오 이미지를 생성하는 방법.
  52. 제51항에 있어서, 오디오 이미지를 청자에 렌더링하면, 제1 가상 파면이 제1 위치에 위치하는 제1 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되고, 제2 가상 파면이 제2 위치에 위치하는 제2 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되며, 제3 가상 파면이 제3 위치에 위치하는 제3 가상 스피커로부터 발산되는 것처럼 청자에 의해 지각되는, 오디오 이미지를 생성하는 방법.
  53. 제52항에 있어서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계, 및 제3 가상 파면을 생성하는 단계 중 적어도 하나는 음향 렌더링 및 바이노럴 렌더링 중 적어도 하나를 포함하는, 오디오 이미지를 생성하는 방법.
  54. 제53항에 있어서, 음향 렌더링은 적어도 하나의 직접 소리 렌더링, 초기 반사 렌더링, 및 후기 반사 렌더링을 포함하는, 오디오 이미지를 생성하는 방법.
  55. 제53항에 있어서, 음향 렌더링은 바이노럴 룸 시뮬레이션, DSP 알고리즘을 기초로 하는 음향 렌더링, 임펄스 응답을 기초로 하는 음향 렌더링, B-포맷(B-Format)을 기초로 하는 음향 렌더링, 구형 고조파(spherical harmonics)를 기초로 하는 음향 렌더링, 주위 맥락 시뮬레이션(environmental context simulation)을 기초로 하는 음향 렌더링, 임펄스 응답과의 컨볼루션을 기초로 하는 음향 렌더링, 임펄스 응답과의 컨볼루션 및 HRTF 프로세싱을 기초로 하는 음향 렌더링, 가청화(auralization)를 기초로 하는 음향 렌더링, 합성 룸 임펄스 응답(synthetic room impulse response)을 기초로 하는 음향 렌더링, 앰비소닉(ambisonics) 및 바이노럴 렌더링을 기초로 하는 음향 렌더링, 고차 앰비소닉(HOA) 및 바이노럴 렌더링을 기초로 하는 음향 렌더링, 광선 추적(ray tracing)을 기초로 하는 음향 렌더링 및 이미지 모델링을 기초로 하는 음향 렌더링 중 적어도 하나를 포함하는, 오디오 이미지를 생성하는 방법.
  56. 제53항에 있어서, 바이노럴 렌더링은 바이노럴 신호 프로세싱, HRTF 모델링을 기초로 하는 바이노럴 렌더링, HRTF 측정을 기초로 하는 바이노럴 렌더링, DSP 알고리즘을 기초로 하는 바이노럴 렌더링, 임펄스 응답을 기초로 하는 바이노럴 렌더링, HRTF에 대한 디지털 필터를 기초로 하는 바이노럴 렌더링 및 HRTF 세트의 계산을 기초로 하는 바이노럴 렌더링 중 적어도 하나를 포함하는, 오디오 이미지를 생성하는 방법.
  57. 제51항 내지 제56항 중 어느 한 항에 있어서, 제1 가상 파면을 생성하는 단계, 제2 가상 파면을 생성하는 단계 및 제3 가상 파면을 생성하는 단계가 동기화되어 실행되는, 오디오 이미지를 생성하는 방법.
  58. 제51항 내지 제57항 중 어느 한 항에 있어서, 오디오 이미지를 생성하기 전에, 상기 방법은
    제1 위치와 연관된 제1 위치 임펄스 응답을 액세스하는 단계,
    제2 위치와 연관된 제2 위치 임펄스 응답을 액세스하는 단계, 및
    제3 위치와 연관된 제3 위치 임펄스 응답을 액세스하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  59. 제58항에 있어서,
    제1 가상 파면을 생성하는 단계는 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계를 포함하고,
    제2 가상 파면을 생성하는 단계는 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계를 포함하며,
    제3 가상 파면을 생성하는 단계는 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  60. 제51항 내지 제57항 중 어느 한 항에 있어서, 오디오 이미지를 생성하기 전에, 상기 방법은
    제1 위치와 연관된 제1 좌 위치 임펄스 응답을 액세스하는 단계,
    제1 위치와 연관된 제1 우 위치 임펄스 응답을 액세스하는 단계,
    제2 위치와 연관된 제2 좌 위치 임펄스 응답을 액세스하는 단계,
    제2 위치와 연관된 제2 우 위치 임펄스 응답을 액세스하는 단계,
    제3 위치와 연관된 제3 좌 위치 임펄스 응답을 액세스하는 단계, 및
    제3 위치와 연관된 제3 우 위치 임펄스 응답을 액세스하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  61. 제60항에 있어서, 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 생성하는 단계는
    제1 좌 위치 임펄스응답, 제2 좌 위치 임펄스 응답 및 제3 좌 위치 임펄스 응답을 합산함으로써 합산된 좌 위치 임펄스 응답을 생성하는 단계,
    제1 우 위치 임펄스 응답, 제2 우 위치 임펄스 응답 및 제3 우 위치 임펄스 응답을 합산함으로써 합산된 우 위치 임펄스 응답을 생성하는 단계,
    오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계, 및
    오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  62. 제61항에 있어서,
    오디오 스트림과 상기 합산된 좌 위치 임펄스 응답을 컨볼루션하는 단계는 좌 채널을 생성하는 단계를 포함하고,
    오디오 스트림과 상기 합산된 우 위치 임펄스 응답을 컨볼루션하는 단계는 우 채널을 생성하는 단계를 포함하며,
    좌 채널 및 우 채널을 청자로 렌더링하는 단계를 포함하는, 오디오 이미지를 생성하는 방법.
  63. 제51항 내지 제62항 중 어느 한 항에 있어서, 오디오 이미지는 제1 가상 파면, 제2 가상 파면 및 제3 가상 파면의 조합에 의해 형성되는, 오디오 이미지를 생성하는 방법.
  64. 오디오를 렌더링할 때 사용될 입체 오디오 이미지를 생성하는 방법으로서, 상기 방법은
    오디오 스트림을 액세스하는 단계,
    제1 위치 임펄스 응답을 액세스하는 단계,
    제2 위치 임펄스 응답을 액세스하는 단계,
    제3 위치 임펄스 응답을 액세스하는 단계,
    제어 데이터를 액세스하는 단계 - 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
    상기 제1 위치 임펄스 응답과 제1 위치를 연관시키고, 제2 위치 임펄스 응답과 제2 위치를 연관시키며, 제3 위치 임펄스 응답과 제3 위치를 연관시키는 단계,
    입체 오디오 이미지를 생성하는 단계를 포함하며, 상기 입체 오디오 이미지를 생성하는 단계는
    오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 위치로부터 발산되는 제1 가상 파면을 생성하는 단계,
    오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 위치로부터 발산되는 제2 가상 파면을 생성하는 단계,
    오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 위치로부터 발산되는 제3 가상 파면을 생성하는 단계, 및
    제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하여 입체 오디오 이미지를 렌더링하는 단계를 병렬로 실행함으로써 이뤄지는, 입체 오디오 이미지를 생성하는 방법.
  65. 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법으로서, 상기 방법은
    오디오 스트림을 액세스하는 단계,
    제1 위치 임펄스 응답을 액세스하는 단계 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
    제2 위치 임펄스 응답을 액세스하는 단계 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
    제3 위치 임펄스 응답을 액세스하는 단계 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
    오디오 이미지를 생성하는 단계를 포함하며, 상기 오디오 이미지를 생성하는 단계는
    오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 가상 파면을 생성하는 단계,
    오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 가상 파면을 생성하는 단계,
    오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 가상 파면을 생성하는 단계를 병렬로 실행함으로써 이뤄지는, 오디오 이미지를 생성하는 방법.
  66. 오디오 출력을 렌더링하기 위한 시스템으로서, 상기 시스템은
    음장 포지셔너 - 음장 포지셔너는
    위치 임펄스 응답 및 제어 데이터를 액세스하도록 구성되며, 제어 데이터는 위치 임펄스 응답과 연관된 위치를 포함함 - ,
    오디오 이미지 렌더러 - 상기 오디오 이미지 렌더러는
    오디오 스트림을 액세스하고,
    상기 위치로부터 발산되는 가상 파면을 포함하는 오디오 이미지를 생성하며 - 각각의 가상 파면은 오디오 스트림 및 개개의 위치 임펄스 응답을 기초로 생성됨 - ,
    가상 파면들을 믹싱하고 m-채널 오디오 출력을 출력하여 오디오 이미지를 렌더링하도록 구성됨 - 를 포함하는, 오디오 출력을 렌더링하기 위한 시스템.
  67. 제66항에 있어서, 각각의 가상 파면을 생성하는 것은 오디오 스트림과 개개의 위치 임펄스 응답을 컨볼루션하는 것을 포함하는, 오디오 출력을 렌더링하기 위한 시스템.
  68. 오디오 이미지 파일을 생성하기 위한 시스템으로서, 상기 시스템은
    입력 인터페이스 - 상기 입력 인터페이스는
    오디오 스트림을 수신하고,
    제어 데이터를 액세스하도록 구성되며, 상기 제어 데이터는 임펄스 응답과 연관될 위치를 포함함 - ,
    인코더 - 상기 인코더는 오디오 스트림과 제어 데이터를 인코딩하여, 오디오 이미지 렌더러가 상기 위치로부터 발산되는 가상 파면을 포함하는 오디오 이미지를 생성하도록 구성되며, 각각의 가상 파면은 오디오 스트림 및 개개의 위치 임펄스 응답을 기초로 생성됨 - 를 포함하는, 오디오 이미지 파일을 생성하기 위한 시스템.
  69. 제66항에 있어서, 각각의 가상 파면을 생성하는 것은 오디오 스트림과 개개의 위치 임펄스 응답을 컨볼루션하는 것을 포함하는, 오디오 이미지 파일을 생성하기 위한 시스템.
  70. 제68항 또는 제69항에 있어서, 입력 인터페이스가 위치 임펄스 응답을 액세스하도록 더 구성되며, 인코더는 오디오 스트림, 제어 데이터 및 위치 임펄스 응답을 인코딩하도록 더 구성되는, 오디오 이미지 파일을 생성하기 위한 시스템.
  71. 오디오 스트림을 필터링하는 방법으로서, 상기 방법은
    오디오 스트림을 액세스하는 단계,
    공간과 관련된 차원 정보를 액세스하는 단계,
    상기 공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 결정하는 단계, 및
    주파수를 기초로 상기 오디오 스트림을 제1 오디오 서브-스트림과 제2 오디오 서브-스트림으로 분할하는 단계를 포함하는, 오디오 스트림을 필터링하는 방법.
  72. 제71항에 있어서,
    오디오 스트림을 분할하는 단계는 고역 통과 필터(HPF)를 적용함으로써 제1 오디오 서브-스트림을 생성하고 저역 통과 필터(LPF)를 적용함으로써 제2 오디오 서브-스트림을 생성하는 단계를 포함하는, 오디오 스트림을 필터링하는 방법.
  73. 제71항에 있어서, 이득 및 딜레이 중 적어도 하나는 제2 오디오 서브-스트림에 적용되는, 오디오 스트림을 필터링하는 방법.
  74. 제72항에 있어서, 주파수는 차단 주파수(f2) 및 분할 주파수(f) 중 하나인, 오디오 스트림을 필터링하는 방법.
  75. 제74항에 있어서, HPF 및 LPF 중 적어도 하나는 차단 주파수(f2) 및 분할 주파수(f) 중 적어도 하나를 기초로 형성되는, 오디오 스트림을 필터링하는 방법.
  76. 제74항에 있어서, 차단 주파수(f2) 및 분할 주파수(f) 중 적어도 하나는 제어 데이터와 연관된, 오디오 스트림을 필터링하는 방법.
  77. 제71항에 있어서, 공간은 제1 위치 임펄스 응답, 제2 위치 임펄스 응답 및 제3 위치 임펄스 응답 중 적어도 하나의 연관되는, 오디오 스트림을 필터링하는 방법.
  78. 오디오 이미지를 생성하기 위한 시스템으로서, 상기 시스템은
    프로세서,
    비-일시적 컴퓨터-판독형 매체를 포함하고, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
    오디오 스트림을 액세스하는 것,
    제1 위치 임펄스 응답을 액세스하는 것 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
    제2 위치 임펄스 응답을 액세스하는 것 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
    제3 위치 임펄스 응답을 액세스하는 것 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
    오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
    오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 것,
    오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 것, 및
    오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 실행시킴으로써 이뤄지는, 오디오 이미지를 생성하기 위한 시스템.
  79. 오디오 이미지를 생성하기 위한 시스템으로서, 상기 시스템은
    프로세서,
    비-일시적 컴퓨터-판독형 매체를 포함하고, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하며, 상기 제어 로직은 프로세서에 의해 실행될 때,
    오디오 스트림을 액세스하는 것,
    위치 정보를 액세스하는 것 - 상기 위치 정보는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
    오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
    오디오 스트림을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 것,
    오디오 스트림을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 것, 및
    오디오 스트림을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 병렬로 실행함으로써 이뤄지는, 오디오 이미지를 생성하기 위한 시스템.
  80. 입체 오디오 이미지를 생성하기 위한 시스템으로서, 상기 시스템은
    프로세서,
    비-일시적 컴퓨터-판독형 매체를 포함하며, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
    오디오 스트림을 액세스하는 것,
    제1 위치 임펄스 응답을 액세스하는 것,
    제2 위치 임펄스 응답을 액세스하는 것,
    제3 위치 임펄스 응답을 액세스하는 것,
    제어 데이터를 액세스하는 것 - 상기 제어 데이터는 제1 위치, 제2 위치 및 제3 위치를 포함함 - ,
    제1 위치 임펄스 응답과 제1 위치를 연관시키고, 제2 위치 임펄스 응답과 제2 위치를 연관시키며, 제3 위치 임펄스 응답과 제3 위치를 연관시키는 것,
    입체 오디오 이미지를 생성하는 것을 야기하고, 상기 입체 오디오 이미지를 생성하는 것은
    오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 위치로부터 발산되는 제2 가상 파면을 생성하는 것,
    오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 위치로부터 발산되는 제2 가상 파면을 생성하는 것,
    오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 위치로부터 발산되는 제3 가상 파면을 생성하는 것, 및
    제1 가상 파면, 제2 가상 파면 및 제3 가상 파면을 믹싱하여 입체 오디오 이미지를 렌더링하는 것을 병렬로 실행함으로써 이뤄지는, 입체 오디오 이미지를 생성하기 위한 시스템.
  81. 오디오 이미지를 생성하기 위한 시스템으로서, 상기 시스템은
    프로세서,
    비-일시적 컴퓨터-판독형 매체를 포함하며, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
    오디오 스트림을 액세스하는 것,
    제1 위치 임펄스 응답을 액세스하는 것 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
    제2 위치 임펄스 응답을 액세스하는 것 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
    제3 위치 임펄스 응답을 액세스하는 것 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
    오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
    오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션함으로써 제1 가상 파면을 생성하는 것,
    오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션함으로써 제2 가상 파면을 생성하는 것, 및
    오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션함으로써 제3 가상 파면을 생성하는 것을 병렬로 실행함으로써 이뤄지는, 오디오 이미지를 생성하기 위한 시스템.
  82. 오디오 스트림을 필터링하기 위한 시스템으로서, 상기 시스템은
    프로세서,
    비-일시적 컴퓨터-판독형 매체를 포함하며, 상기 비-일시적 컴퓨터-판독형 매체는 제어 로직을 포함하고, 상기 제어 로직은 프로세서에 의해 실행될 때,
    오디오 스트림을 액세스하는 것,
    공간과 관련된 차원 정보를 액세스하는 것,
    공간 내에서 소리가 파 음향에서 광선 음향(ray acoustics)으로 전환되는 주파수를 결정하는 것, 및
    상기 주파수를 기초로 오디오 스트림을 제1 오디오 서브-스트림 및 제2 오디오 서브-스트림으로 분할하는 것을 야기하는, 오디오 스트림을 필터링하기 위한 시스템.
  83. 제어 로직을 포함하는 비-일시적 컴퓨터 판독형 매체로서, 상기 제어 로직은 프로세서에 의해 실행될 때,
    오디오 스트림을 액세스하는 것,
    제1 위치 임펄스 응답을 액세스하는 것 - 상기 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
    제2 위치 임펄스 응답을 액세스하는 것 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
    제3 위치 임펄스 응답을 액세스하는 것 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
    오디오 이미지를 생성하는 것을 야기하며, 상기 오디오 이미지를 생성하는 것은
    오디오 스트림 및 제1 위치 임펄스 응답을 기초로, 청자가 제1 위치로부터 발산되는 것으로 지각할 제1 가상 파면을 생성하는 것,
    오디오 스트림 및 제2 위치 임펄스 응답을 기초로, 청자가 제2 위치로부터 발산되는 것으로 지각할 제2 가상 파면을 생성하는 것, 및
    오디오 스트림 및 제3 위치 임펄스 응답을 기초로, 청자가 제3 위치로부터 발산되는 것으로 지각할 제3 가상 파면을 생성하는 것을 실행함으로써 이뤄지는, 컴퓨터 판독형 매체.
  84. 오디오를 렌더링할 때 사용되기 위한 오디오 이미지를 생성하는 방법으로서, 상기 방법은
    오디오 스트림을 액세스하는 단계,
    제1 위치 임펄스 응답을 액세스하는 단계 - 제1 위치 임펄스 응답은 제1 위치와 연관됨 - ,
    제2 위치 임펄스 응답을 액세스하는 단계 - 상기 제2 위치 임펄스 응답은 제2 위치와 연관됨 - ,
    제3 위치 임펄스 응답을 액세스하는 단계 - 상기 제3 위치 임펄스 응답은 제3 위치와 연관됨 - ,
    오디오 이미지를 생성하는 단계를 포함하고, 상기 오디오 이미지를 생성하는 단계는
    오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계,
    오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계, 및
    오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계를 실행함으로써 이뤄지는, 오디오 이미지를 생성하는 방법.
  85. 제84항에 있어서, 오디오 스트림과 제1 위치 임펄스 응답을 컨볼루션하는 단계, 오디오 스트림과 제2 위치 임펄스 응답을 컨볼루션하는 단계, 및 오디오 스트림과 제3 위치 임펄스 응답을 컨볼루션하는 단계는 병렬로 실행되는, 오디오 이미지를 생성하는 방법.
  86. 청구항 제1항 내지 제65항, 71항 내지 77항 및 제84항 내지 85항 중 어느 한 항의 방법을 수행하도록 구성된 컴퓨터로 구현되는 시스템.
  87. 청구항 제1항 내지 제65항, 제71항 내지 제77항 및 제84항 내지 제85항 중 어느 한 항의 방법을 수행하도록 구성된 컴퓨터로 구현되는 시스템을 포함하는 디바이스.
  88. 시스템이 청구항 제1항 내지 제65항, 제71항 내지 제77항 및 제84항 내지 제85항 중 어느 한 항에 따르는 방법을 실행하게 하는 컴퓨터-실행 명령을 포함하는 비-일시적 컴퓨터-판독형 매체.
KR1020197014435A 2016-10-19 2017-10-18 오디오 이미지를 생성하는 시스템 및 방법 KR20190091445A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662410132P 2016-10-19 2016-10-19
US62/410,132 2016-10-19
PCT/IB2017/056471 WO2018073759A1 (en) 2016-10-19 2017-10-18 System for and method of generating an audio image

Publications (1)

Publication Number Publication Date
KR20190091445A true KR20190091445A (ko) 2019-08-06

Family

ID=62018282

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197014435A KR20190091445A (ko) 2016-10-19 2017-10-18 오디오 이미지를 생성하는 시스템 및 방법

Country Status (6)

Country Link
US (3) US10820135B2 (ko)
EP (1) EP3530007A4 (ko)
KR (1) KR20190091445A (ko)
CN (1) CN110089135A (ko)
CA (1) CA3043444A1 (ko)
WO (1) WO2018073759A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220006744A (ko) * 2020-07-09 2022-01-18 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018073759A1 (en) * 2016-10-19 2018-04-26 Audible Reality Inc. System for and method of generating an audio image
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造
WO2020044244A1 (en) * 2018-08-29 2020-03-05 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
CN109195062B (zh) * 2018-09-21 2020-10-02 歌尔科技有限公司 一种扩大音频设备的声场的方法、系统及音频设备
US10705790B2 (en) * 2018-11-07 2020-07-07 Nvidia Corporation Application of geometric acoustics for immersive virtual reality (VR)
US10757528B1 (en) * 2019-10-11 2020-08-25 Verizon Patent And Licensing Inc. Methods and systems for simulating spatially-varying acoustics of an extended reality world
US11269589B2 (en) 2019-12-23 2022-03-08 Dolby Laboratories Licensing Corporation Inter-channel audio feature measurement and usages
US11632647B1 (en) * 2021-11-08 2023-04-18 Agora Lab, Inc. System and method for rendering real-time spatial audio in virtual environment

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE501606T1 (de) * 1998-03-25 2011-03-15 Dolby Lab Licensing Corp Verfahren und vorrichtung zur verarbeitung von audiosignalen
US6027428A (en) * 1998-04-29 2000-02-22 Thomas; Mark Automated method and apparatus for providing real time personal physical fitness instruction
JP3985234B2 (ja) * 2004-06-29 2007-10-03 ソニー株式会社 音像定位装置
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US8619998B2 (en) 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
CN116471533A (zh) * 2010-03-23 2023-07-21 杜比实验室特许公司 音频再现方法和声音再现系统
TWI517028B (zh) 2010-12-22 2016-01-11 傑奧笛爾公司 音訊空間定位和環境模擬
US9094771B2 (en) * 2011-04-18 2015-07-28 Dolby Laboratories Licensing Corporation Method and system for upmixing audio to generate 3D audio
EP2530956A1 (en) * 2011-06-01 2012-12-05 Tom Van Achte Method for generating a surround audio signal from a mono/stereo audio signal
FR2976759B1 (fr) 2011-06-16 2013-08-09 Jean Luc Haurais Procede de traitement d'un signal audio pour une restitution amelioree.
CN102694764B (zh) * 2011-08-17 2017-03-15 国家新闻出版广电总局广播科学研究院 数字音频广播系统中的数字音频信号发送和接收方法和装置
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
AU2012394979B2 (en) * 2012-11-22 2016-07-14 Razer (Asia-Pacific) Pte. Ltd. Method for outputting a modified audio signal and graphical user interfaces produced by an application program
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9648439B2 (en) 2013-03-12 2017-05-09 Dolby Laboratories Licensing Corporation Method of rendering one or more captured audio soundfields to a listener
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
EP3114859B1 (en) 2014-03-06 2018-05-09 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response
KR102343453B1 (ko) * 2014-03-28 2021-12-27 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
WO2017136573A1 (en) * 2016-02-02 2017-08-10 Dts, Inc. Augmented reality headphone environment rendering
WO2018073759A1 (en) * 2016-10-19 2018-04-26 Audible Reality Inc. System for and method of generating an audio image

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220006744A (ko) * 2020-07-09 2022-01-18 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치
US11570571B2 (en) 2020-07-09 2023-01-31 Electronics And Telecommunications Research Institute Method and apparatus for performing binaural rendering of audio signal

Also Published As

Publication number Publication date
EP3530007A1 (en) 2019-08-28
US20230050329A1 (en) 2023-02-16
US11516616B2 (en) 2022-11-29
WO2018073759A1 (en) 2018-04-26
US10820135B2 (en) 2020-10-27
EP3530007A4 (en) 2019-08-28
CN110089135A (zh) 2019-08-02
US20200413214A1 (en) 2020-12-31
CA3043444A1 (en) 2018-04-26
US20190261124A1 (en) 2019-08-22

Similar Documents

Publication Publication Date Title
US11516616B2 (en) System for and method of generating an audio image
US10021507B2 (en) Arrangement and method for reproducing audio data of an acoustic scene
US9769589B2 (en) Method of improving externalization of virtual surround sound
CN108712711B (zh) 使用元数据处理的耳机的双耳呈现
JP5865899B2 (ja) 立体音響の再生方法及び装置
US20140050325A1 (en) Multi-dimensional parametric audio system and method
CA2744429C (en) Converter and method for converting an audio signal
CN113170271A (zh) 用于处理立体声信号的方法和装置
US20240022870A1 (en) System for and method of controlling a three-dimensional audio engine
JP2021513261A (ja) サラウンドサウンドの定位を改善する方法
US20190394596A1 (en) Transaural synthesis method for sound spatialization
KR102527336B1 (ko) 가상 공간에서 사용자의 이동에 따른 오디오 신호 재생 방법 및 장치
JP6663490B2 (ja) スピーカシステム、音声信号レンダリング装置およびプログラム
US10440495B2 (en) Virtual localization of sound
WO2014203496A1 (ja) 音声信号処理装置、および音声信号処理方法
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
JP2024502732A (ja) バイノーラル信号の後処理
JP2023548570A (ja) オーディオシステムの高さチャネルアップミキシング
Werner et al. A position-dynamic binaural synthesis of a multi-channel loudspeaker setup as an example of an auditory augmented reality application

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application