TW202143750A - 使用自我調整網路來對全景聲係數進行變換 - Google Patents

使用自我調整網路來對全景聲係數進行變換 Download PDF

Info

Publication number
TW202143750A
TW202143750A TW110110568A TW110110568A TW202143750A TW 202143750 A TW202143750 A TW 202143750A TW 110110568 A TW110110568 A TW 110110568A TW 110110568 A TW110110568 A TW 110110568A TW 202143750 A TW202143750 A TW 202143750A
Authority
TW
Taiwan
Prior art keywords
coefficients
sound
panoramic
audio
different time
Prior art date
Application number
TW110110568A
Other languages
English (en)
Inventor
金來勳
山卡 薩加杜爾席瓦帕
Sm阿克拉姆斯 薩拉興
張書華
艾里克 維瑟
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202143750A publication Critical patent/TW202143750A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Stereophonic System (AREA)

Abstract

一種設備包括記憶體,其被配置為儲存在不同時間段處的未經變換的全景聲係數。該設備亦包括一或多個處理器,其被配置為:獲得在不同時間段處的未經變換的全景聲係數,其中在不同時間段處的未經變換的全景聲係數表示在不同時間段處的聲場。一或多個處理器亦被配置為:基於約束來將一個自我調整網路應用於在不同時間段處的未經變換的全景聲係數,以產生在不同時間段處的經變換的全景聲係數,其中在不同時間段處的經變換的全景聲係數表示基於約束而修改的、在不同時間段處的經修改的聲場。

Description

使用自我調整網路來對全景聲係數進行變換
本專利申請案主張於2020年3月24日提出申請的、名稱為「TRANSFORM AMBISONIC COEFFICIENTS USING AN ADAPTIVE NETWORK BASED ON OTHER FORM FACTORS THAN IDEAL MICROPHONE ARRAYS」的臨時申請案第62/994,158號、以及於2020年3月24日提出申請的、名稱為「TRANSFORM AMBISONIC COEFFICIENTS USING AN ADAPTIVE NETWORK」的臨時申請案第62/994,147號的優先權,上述申請案被轉讓給本案的受讓人並且據此藉由引用的方式被明確地併入本文中。
大體而言,下文係關於全景聲(ambisonic)係數產生,並且更具體地,下文係關於使用自我調整網路來對全景聲係數進行變換。
技術的進步已經導致更小且更強大的計算設備。例如,目前存在各種各樣的可攜式個人計算設備,包括小型、羽量級以及容易由使用者攜帶的無線電話(諸如行動和智慧型電話、平板設備和膝上型電腦)。該等設備可以在無線網路上傳送語音和資料封包。此外,許多此種設備併入了額外的功能,諸如數位照相機、數位攝像機、數位記錄器和音訊檔播放機。此外,此種設備可以處理可執行指令,包括可以用以存取網際網路的軟體應用(諸如網頁瀏覽器應用)。照此,該等設備可以包括關鍵的計算能力。
計算能力包括處理全景聲係數。由全景聲係數表示的全景聲信號是聲場的三維表示。全景聲信號或全景聲信號的全景聲係數表示可以以獨立於用於重播從全景聲信號渲染的多聲道音訊信號的本端揚聲器幾何結構的方式來表示聲場。
一種設備包括記憶體,其被配置為儲存在不同時間段處的未經變換的全景聲係數。該設備亦包括一或多個處理器,其被配置為:獲得在該等不同時間段處的該等未經變換的全景聲係數,其中在該等不同時間段處的該等未經變換的全景聲係數表示在該等不同時間段處的聲場。該一或多個處理器亦被配置為:基於約束來將一個自我調整網路應用於在該等不同時間段處的該等未經變換的全景聲係數,以產生在該等不同時間段處的經變換的全景聲係數,其中在該等不同時間段處的該等經變換的全景聲係數表示基於該約束而修改的、在該等不同時間段處的經修改的聲場。
在閱讀整個申請案(包括以下章節:附圖說明、實施方式和申請專利範圍)之後,本揭示內容的態樣、優勢和特徵將變得顯而易見。
在一些情況下,由於來自另一源的干擾,可能使包括語音的音訊信號在品質方面降級。干擾可以是實體障礙物、其他信號、加性高斯白色雜訊(AWGN)等的形式。用於去除干擾的一個挑戰是當干擾和期望音訊信號來自同一方向時。本揭示內容的各態樣係關於用於在存在雜訊的情況下當雜訊和音訊信號兩者在類似方向上行進時去除該干擾的影響(例如,提供對原始音訊信號的純淨估計)的技術。舉例而言,所描述的技術可以提供使用與源相關聯的方向性及/或信號類型作為在產生純淨音訊信號估計時的因素。本揭示內容的其他態樣係關於將初始包括多個音訊源的聲場的全景聲表示變換為消除在特定方向之外的音訊源的聲場的全景聲表示。
全景聲係數表示整個聲場;然而,有時期望對不同的音訊源進行空間濾波。舉例而言,本文描述的自我調整網路可以藉由使期望空間方向通過並且抑制來自其他空間方向的音訊源來執行空間濾波的功能。此外,與限於將音訊信號的訊雜比(SNR)提高3 dB的傳統波束成形器不同,本文描述的自我調整網路將SNR提高至少一個數量級以上(亦即,30 dB)。另外,本文描述的自我調整網路可以保留所通過的音訊信號的音訊特性。傳統的信號處理技術可以使在期望方向上的音訊信號通過;然而,其可能無法保留某些音訊特性,例如,混響量或易於隨時間變化的其他瞬態音訊特性。另外,本文描述的自我調整網路可以在編碼設備或解碼設備中變換全景聲係數。
經由在預先指定位置處的擴音器來播放使用基於聲道的環繞聲的空間編碼的消費者音訊。用於空間音訊編碼的另一種方法是基於物件的音訊,其涉及用於單個音訊物件的離散脈衝碼調制(PCM)資料以及包含物件在空間中的位置座標的相關聯的中繼資料(以及其他資訊)。用於空間音訊編碼(例如,環繞聲編碼)的另一種方法是基於場景的音訊,其涉及使用全景聲係數來表示聲場。全景聲係數具有分層基函數,例如,球諧基函數。
舉例而言,可以依據全景聲係數,使用諸如以下運算式之類的運算式來表示聲場:
Figure 02_image001
(1) 該運算式表明:在聲場的任何點
Figure 02_image003
處的壓力
Figure 02_image005
可以藉由全景聲係數
Figure 02_image007
來唯一地表示。此處,波數
Figure 02_image009
c 是聲速(~343 m/s),
Figure 02_image003
是參考點(或觀測點),
Figure 02_image011
是階數為n 的球貝塞爾函數,並且
Figure 02_image013
是階數為n 和次階數為m 的球諧基函數(全景聲係數的一些描述將n 表示為(亦即,對應的勒讓德多項式的)度,並且將m 表示為階數)。可以認識到的是,方括號中的項是信號(亦即,
Figure 02_image015
)的頻域表示,其可以藉由各種時頻變換(諸如離散傅立葉轉換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。
圖1示出高達4階(n=4)的示例性全景聲係數集合。圖1亦示出可以用於擷取由全景聲係數表示的聲場的不同的示例性麥克風設備(102a、102b、102c)。麥克風設備102B可以被設計為直接輸出包括全景聲係數的聲道。替代地,麥克風設備102a和102c的輸出聲道可以耦合到多聲道音訊轉換器,該多聲道音訊轉換器將多聲道音訊轉換為全景聲音訊表示。
用於表示聲場的全景聲係數的總數可以取決於各種因素。例如,對於基於場景的音訊,全景聲係數的數量的總數可能受麥克風設備102a、102b、102c中的麥克風換能器的數量約束。全景聲係數的總數亦可以藉由可用儲存頻寬或傳輸頻寬來決定。在一個實例中,使用涉及用於每個頻率的25個係數(亦即,
Figure 02_image017
)的四階表示。可以與本文描述的方法一起使用的分層集合的其他實例包括小波變換係數集合和多解析度基函數的其他係數集合。
全景聲係數
Figure 02_image007
可以是從使用各種麥克風陣列配置(諸如四面體102b、球狀麥克風陣列102a、或其他麥克風佈置102c)中的任何一種配置實體地獲取(例如,記錄)的信號中推導的。此種形式的全景聲係數輸入表示基於場景的音訊。在一個非限制性實例中,進入自我調整網路225的輸入是作為四面體麥克風陣列的麥克風陣列102b的不同輸出聲道。四面體麥克風陣列的一個實例可以用於擷取一階全景聲(FOA)係數。麥克風陣列的另一實例可以是不同的麥克風佈置,其中在麥克風陣列擷取音訊信號之後,麥克風陣列的輸出用於使用全景聲係數來產生聲場的表示。例如,專利號為10,477,310B2(被轉讓給高通公司)的「Ambisonic Signal Generation for Microphone Arrays」是針對被配置為進行以下操作的處理器的:對由每個麥克風陣列擷取的信號執行信號處理操作,並且藉由對該等信號應用第一乘法因數集合以產生第一全景聲信號集合來執行第一方向性調整,第一乘法因數集合是基於麥克風陣列中的每一個麥克風的位置、麥克風陣列中的每一個麥克風的朝向或兩者來決定的。
在另一非限制性實例中,麥克風陣列102a的不同輸出通道可以由全景聲轉換器轉換為全景聲係數。例如,麥克風陣列可以是球形陣列,諸如EigenmikeR (mh acoustics LLC,加州三藩市)。EigenmikeR 陣列的一個實例是em32陣列,其包括32個麥克風,其被佈置在直徑為8.4釐米的球體的表面上,使得輸出信號中的每一者
Figure 02_image019
,i=1到32是麥克風i在時間取樣t處記錄的壓力。
此外或替代地,全景聲係數
Figure 02_image007
可以從聲場的基於聲道或基於物件的描述來推導。例如,用於對應於單個音訊源的聲場的係數
Figure 02_image021
可以被表示為:
Figure 02_image023
(2) 其中i是
Figure 02_image025
Figure 02_image027
是階數為n的(第二類)球漢克爾函數,
Figure 02_image029
是音訊源的位置,並且
Figure 02_image031
是作為頻率的函數的源能量。應當注意的是,在該上下文中的音訊源可以表示音訊物件,例如,講話的人、吠叫的狗、經過的汽車。音訊源亦可以一次表示這三個音訊物件,例如,存在一個音訊源(如錄音),其中存在講話的人、吠叫的狗或經過的汽車。在此種情況下,音訊源的
Figure 02_image029
位置可以被表示為到座標系的原點的半徑、方位角和仰角。除非另有說明,否則貫穿本揭示內容,音訊物件和音訊源可以互換地使用。
知道源能量
Figure 02_image031
是頻率的函數使得我們將每個PCM物件以及其位置轉換為全景聲係數
Figure 02_image021
。例如,可以使用時頻分析技術(諸如藉由對PCM串流執行快速傅立葉轉換(例如,256-、-512-或1024點FFT))來獲得該源能量。此外,可以表明(因為以上是線性且正交分解),用於每個物件的
Figure 02_image021
係數是相加的。以此種方式,多個PCM物件可以由
Figure 02_image021
係數來表示(例如,作為用於各個音訊源的係數向量的總和)。本質上,該等係數包含關於聲場的資訊(壓力作為3D座標的函數),並且上述係數表示在觀測點
Figure 02_image003
附近從各個物件到整個聲場的表示的變換。
本領域技藝人士將認識到,可以使用除了在運算式(2)中所示的表示之外的全景聲係數
Figure 02_image033
的表示(或者等效地,對應的時域係數
Figure 02_image035
的表示),諸如不包括半徑分量的表示。本領域技藝人士將認識到,已知球諧基函數的若干稍微不同的定義(例如,實數、複數、經正規化的(例如,N3D)、半正規化的(例如,SN3D)、Furse-Malham(FuMa或FMH)等),並且因此該運算式(1)(亦即,聲場的球諧分解)和運算式(2)(亦即,由點源產生的聲場的球諧分解)可能以稍微不同的形式出現在文件中。本文描述不限於球諧基函數的任何特定形式,並且實際上通常亦適用於其他分層元素集合。
在基於場景的方法的情況下存在不同的編碼和解碼過程。此種編碼可以包括用於頻寬壓縮的一或多個有損或無損編碼技術,諸如量化(例如,量化為一或多個編碼簿索引中)、冗餘編碼等。另外或替代地,此種編碼可以包括將音訊聲道(例如,麥克風輸出)編碼為全景聲格式,諸如B格式、G格式、或更高階全景聲(HOA)。HOA是使用MPEG-H 3D音訊解碼器來解碼的,該解碼器可以對利用空間全景聲編碼器而編碼的全景聲係數進行解壓縮。
作為一個說明性實例,麥克風設備102a、102b可以在可以包括複數個聽覺源(例如,其他揚聲器、背景雜訊)的環境(例如,廚房、餐廳、健身房、汽車)內操作。在此種情況下,麥克風設備102a、102b、102c可以(例如,由設備的使用者手動地,由設備的另一部件自動地)被定向為朝著目標音訊源,以便接收目標音訊信號(例如,音訊或語音)。在一些情況下,可以調整麥克風設備102a、102b、102c的朝向。在一些實例中,音訊干擾源可能阻擋目標音訊信號或向目標音訊信號添加雜訊。可能期望將干擾去除或衰減。干擾的衰減可以至少部分地基於以下各項來實現:與目標音訊源相關聯的方向性、目標音訊信號的類型(例如,語音、音樂等)或其組合。
波束成形器可以在時域或空間頻域中利用傳統的信號處理技術來實現,以減少對目標音訊信號的干擾。當使用全景聲表示來表示目標音訊信號時,可以使用其他濾波技術,諸如特徵值分解、奇異值分解或主成分分析。然而,上述濾波技術在計算上代價高昂並且可能消耗不必要的功率。此外,利用不同的形狀因數和麥克風放置,濾波器必須被調諧用於每個設備和配置。
相比之下,在本揭示內容中描述的技術提供了用於藉由使用自我調整網路變換或操縱全景聲係數表示來濾除不期望干擾的穩健方式。
如今存在目前的商業工具來操縱全景聲係數。例如,包括FB360 Spatializer音訊外掛程式的Facebook 360 Spatial Workstation軟體套件。另一實例是AudioEase 360 pan套件。然而,該等商業工具需要手動編輯音訊檔或格式,以在聲場中產生期望變化。相比之下,在本揭示內容中描述的技術可以在訓練自我調整網路之後的推斷階段中不需要手動編輯檔或格式。
將參照各圖並且在下文的詳細描述中描述解決方案的額外上下文。
所描述的技術可以應用於不同的目標信號類型(例如,語音、音樂、發動機雜訊、動物聲音等)。例如,每個此種目標信號類型可以與給定的分佈函數(例如,其可以被根據本揭示內容的各態樣的給定設備學習)相關聯。所學習的分佈函數可以與源信號的方向性(例如,其可以至少部分地基於設備內的麥克風的實體佈置)結合使用以產生純淨的信號音訊估計。因此,概括而言,所描述的技術提供使用空間約束及/或目標分佈函數(其中的每一者可以至少部分地基於自我調整網路(例如,經訓練的遞迴神經網路)來決定)來產生純淨的信號音訊估計。
下文參照附圖描述了本揭示內容的特定實現方式。在該描述中,貫穿附圖,共同的特徵藉由共同的元件符號來指定。如本文所使用的,各種術語僅用於描述特定實現方式的目的,而不意欲進行限制。例如,單數形式的「一(a)」、「一個(an)」和「該(the)」亦意欲包括複數形式,除非上下文另外明確地指出。亦可以理解的是,術語「包括(comprise)」、「包括(comprises)」、和「包括(comprising)」可以與「包含(include)」、「包含(includes)」或「包含(including)」互換地使用。另外,將理解的是,術語「其中(wherein)」可以與「其中(where)」互換地使用。如本文所使用的,「示例性」可以指示實例、實現方式及/或態樣,而不應當被解釋為限制或指示優選方式或優選的實現方式。如本文所使用的,用於修飾諸如結構、部件、操作等的元素的序數詞(例如,「第一」、「第二」、「第三」等)本身不指示該元素相對於另一個元素的任何優先順序或次序,而僅是將該元素與具有相同名稱(若沒有使用序數詞的話)的另一元素區分開。如本文所使用的,術語「集合」代表一組一或多個元素,以及術語「複數個」代表多個元素。
如本文所使用的,「耦合」可以包括「通訊地耦合」、「電耦合」或「實體地耦合」,並且亦可以(或替代地)包括其任何組合。兩個設備(或部件)可以經由一或多個其他設備、部件、線、匯流排、網路(例如,有線網路、無線網路或其組合)等直接或間接地耦合(例如,通訊地耦合、電耦合或實體地耦合)。作為說明性的非限制性實例,被電耦合的兩個設備(或部件)可以被包括在同一設備或不同設備中,並且可以經由電子裝置、一或多個連接器或感應耦合進行連接。在一些實現方式中,被通訊地耦合(諸如進行電通訊)的兩個設備(或部件)可以直接或間接地(諸如經由一或多個線、匯流排、網路等)發送和接收電信號(數位信號或類比信號)。如本文所使用的,「直接耦合」可以包括在沒有中間部件的情況下耦合(例如,通訊地耦合、電耦合或實體地耦合)的兩個設備。
如本文所使用的,「集成」可以包括「一起製造或銷售」。若使用者購買了將設備作為封裝的一部分附隨或包括的封裝,則該設備可以是集成的。在一些描述中,兩個設備可以耦合,但不一定集成(例如,不同的周邊設備可以不集成到設備201、800,但仍然可以「耦合」)。另一實例可以是本文描述的發射器、接收器或天線中的任何一者,其可以「耦合」到一或多個處理器208、810,但不一定是包括設備201、800的封裝的一部分。作為又一實例,麥克風205可以不「集成」到全景聲係數緩衝器215中,但可以「耦合」。當使用術語「集成」時,可以從本文所揭示的上下文(包括本段)推斷出其他實例。
如本文所使用的,設備之間的「連線性」或「無線鏈路」可以是基於各種無線技術,諸如藍芽、無線保真度(Wi-Fi)或Wi-Fi的變型(例如,Wi-Fi直連)。設備可以基於不同的蜂巢通訊系統而是「無線連接的」,諸如長期進化(LTE)系統、分碼多工存取(CDMA)系統、行動通訊全球系統(GSM)系統、無線區域網路(WLAN)系統、5G、C-V2X或某種其他無線系統。CDMA系統可以實現寬頻CDMA(WCDMA)、CDMA 1X、進化資料最佳化(EVDO)、分時同步CDMA(TD-SCDMA)、或CDMA的某個其他版本。另外,當兩個設備在視線內時,「連線性」亦可以是基於其他無線技術,諸如超聲、紅外線、脈衝射頻電磁能、結構光、或在信號處理(例如,音訊信號處理或射頻處理)中使用的到達方向技術。
如本文所使用的,「推斷」或「進行推斷」代表自我調整網路已經基於約束而學習或收斂其權重並且正在基於未經變換的全景聲係數進行推斷或預測。推斷不包括計算未經變換的全景聲係數和經變換的全景聲係數之間的誤差以及更新自我調整網路的權重。在學習或訓練期間,自我調整網路學習如何執行一任務或一系列任務。在學習或訓練之後的推斷階段期間,自我調整網路執行其學習的該項任務或該系列任務。
如本文所使用的,「元學習」代表在自我調整網路的權重已經收斂之後的細化學習。例如,在一般訓練和一般最佳化之後,可以針對特定使用者執行進一步的細化學習,使得自我調整網路的權重能夠適配特定使用者。利用細化的元學習不僅僅局限於特定使用者。例如,對於具有局部混響特性的特定渲染場景,可以對權重進行細化以適配對局部混響特性的更好執行。
如本文所使用的,A「及/或」B可意味著「A和B」、或「A或B」、或「A和B」和「A或B」兩者是適用的或可接受的。
在圖2A-圖2E的相關聯的描述中,使用虛線來繪製約束區塊以指定訓練階段。在圖2A-圖2E、圖3A-圖3B、圖4A-圖4A、圖5A-圖5D、圖7A-圖7C中的其他區塊周圍使用其他虛線,以根據上下文及/或應用來指定該等區塊可以是可選的。若一個區塊是利用實線來繪製的,但位於具有虛線的區塊內,則根據上下文及/或應用,具有虛線的區塊以及實線內的區塊可以是可選的。
參考圖2A,示出根據本揭示內容的一些實例的可操作以利用約束260和目標全景聲係數70來執行對自我調整網路225的權重的自我調整學習的系統的特定說明性實例。在圖2A中所示的實例中,處理器208包括自我調整網路225,其對被儲存在全景聲係數緩衝器215中的全景聲係數執行信號處理。在一些實現方式中,全景聲係數緩衝器215中的全景聲係數亦可以被包括在處理器208中。在其他實現方式中,全景聲係數緩衝器可以位於處理器208外部或可以位於另一設備(未示出)上。在學習自我調整網路225的權重之後,全景聲係數緩衝器215中的全景聲係數可以由自我調整網路225經由推斷階段進行變換,從而得到經變換的全景聲係數226。自我調整網路225和全景聲係數緩衝器215可以耦合在一起以形成全景聲係數自我調整變換器228。
在一個實施例中,自我調整網路225可以使用上下文輸入,例如,約束區塊236的約束260和目標全景聲係數70輸出可以幫助自我調整網路225適配其權重,使得在自我調整網路225的權重已經收斂之後,未經變換的全景聲係數變為經變換的全景聲係數226。應當理解的是,使用全景聲係數緩衝器215可以儲存利用麥克風陣列205直接擷取的或根據麥克風陣列205的類型而推導的全景聲係數。全景聲係數緩衝器215亦可以儲存合成的全景聲係數、或從具有聲道音訊格式或物件音訊格式的多聲道音訊信號轉換的全景聲係數。此外,一旦自我調整網路225已經被訓練並且自我調整網路225的權重已經收斂,約束區塊260就可以可選地位於處理器208內,以用於繼續適配或學習設備201的權重。在不同的實施例中,一旦權重已經收斂,就可以不再需要約束區塊236。一旦權重被訓練亦包括約束區塊236可能佔用不必要的空間,因此其可以可選地被包括在設備201中。在另一實施例中,約束區塊236可以被包括在伺服器(未圖示)上並且離線處理,並且自我調整網路225的經收斂的權重可以在設備201已經在操作之後被更新,例如,權重可以無線地在空中更新。
亦可以被包括在處理器208中的渲染器230可以渲染由自我調整網路225輸出的經變換的全景聲係數。渲染器230的輸出可以被提供給誤差度量器237。誤差度量器237可以可選地位於設備201中。替代地,誤差度量器237可以位於設備201外部。在一個實施例中,無論位於設備201上還是設備201外部,誤差度量器237皆可以被配置為將多聲道音訊信號與經渲染的經變換全景聲係數進行比較。
另外或替代地,可以存在可選地被包括在設備201中(或者在一些實現方式中,在設備201外部(未示出))的測試渲染器238,其中測試渲染器對可選地從麥克風陣列205輸出的全景聲係數進行渲染。在其他實現方式中,被儲存在全景聲係數緩衝器215中的未經變換的全景聲係數可以由測試渲染器238進行渲染,並且輸出可以被發送給誤差度量237。
在另一實施例中,測試渲染器238和渲染器230的輸出皆不被發送給誤差度量器237,而是將未經變換的全景聲係數與經變換的全景聲係數226的版本進行比較,其中自我調整網路225的權重尚未收斂。亦即,經變換的全景聲係數226和未經變換的全景聲係數之間的誤差使得針對包括目標全景聲係數的約束的經變換的全景聲係數226仍然在可接受的誤差閥值之外,亦即,不穩定。
未經變換的全景聲係數和經變換的係數226之間的誤差可以用於更新自我調整網路225的權重,使得經變換的全景聲係數226的將來版本更接近經變換的全景聲係數的最終版本。隨著時間的推移,隨著在不同的方向處呈現不同的輸入音訊源及/或使用聲級來訓練自我調整網路225,未經變換的全景聲係數和經變換的係數的版本之間的誤差變得更小,直到當未經變換的全景聲係數和經變換的係數226之間的誤差穩定時自我調整網路225的權重收斂。
若誤差度量器237正在比較經渲染的未經變換全景聲係數和經變換的全景聲係數226的經渲染的版本,則所描述的過程是相同的,除了在不同的域中。例如,經渲染的未經變換全景聲係數和經渲染的經變換係數之間的誤差可以用於更新自我調整網路225的權重,使得經渲染的經變換全景聲係數的將來版本更接近經渲染的經變換全景聲係數的最終版本。隨著時間的推移,隨著在不同的方向處呈現不同的輸入音訊源及/或使用聲級來訓練自我調整網路225,經渲染的未經變換全景聲係數和經渲染的經變換係數的版本之間的誤差變得更小,直到當經渲染的未經變換全景聲係數和經渲染的經變換係數之間的誤差穩定時自我調整網路225的權值收斂。
約束區塊236可以包括不同的區塊。本文描述了在約束區塊236中可以包括哪種類型的不同區塊的實例。
參考圖2B,示出根據本揭示內容的一些實例的可操作以利用約束和目標全景聲係數來執行對自我調整網路的權重的推斷及/或自我調整學習的系統的特定說明性實例,其中約束包括方向。方向可以在三維座標系中利用方位角和仰角來表示。
在一個實施例中,多聲道音訊信號可以由麥克風陣列205輸出或是先前合成的(例如,被儲存的歌曲或由內容建立者或設備201的使用者建立的音訊錄音),其包括處於固定角度的第一音訊源。多聲道音訊信號可以包括一個以上的音訊源,亦即,可以存在第一音訊源、第二音訊源、第三音訊源或額外的音訊源。可以包括第一音訊源、第二音訊源、第三音訊源或額外的音訊源的不同的音訊源211可以在自我調整網路225的訓練期間被放置在不同的音訊方向214處。進入自我調整網路225的輸入可以包括可以從麥克風陣列205直接輸出或可以由內容建立者在訓練之前合成的未經變換的全景聲係數,例如,歌曲或錄音可以以全景聲格式來儲存,並且未經變換的全景聲係數可以被儲存或從全景聲格式來推導。若麥克風陣列不一定輸出未經變換的全景聲係數,則未經變換的全景聲係數亦可以是耦合到麥克風陣列205的全景聲轉換器212a的輸出。
如上所論述的,自我調整網路225亦可以具有與約束260(例如,約束260a)一起包括的目標或期望的全景聲係數集合作為輸入。可以利用約束區塊236b中的全景聲轉換器212a來產生目標或期望的全景聲係數集合。亦可以將目標或期望的全景聲係數集合儲存在記憶體中(例如,在全景聲係數緩衝器的另一部分中或在不同的記憶體中)。替代地,特定方向和音訊源可以由麥克風陣列205擷取或合成,並且自我調整網路225可以限於學習對該等特定方向執行空間濾波的權重。
此外,約束260a可以包括表示約束260a的標籤或與約束260a相關聯的標籤。例如,若自我調整網路225正在以方向60度進行訓練,則可以存在值60或60所在的值範圍。例如,若空間解析度約束是相隔開10度,則可以表示(360/10)=36個值範圍。若空間約束是相隔開5度,則可以表示(360/5)=72個值範圍。因此,標籤可以是在值範圍內60所在的二進位值。例如,若當解析度為10度時,0到9度是第0值範圍,則60位於跨越60-69度的第6值範圍內。對於此種情況,標籤可以由二進位值6=000110來表示。在另一實例中,若當解析度為5度時,0到4度是第0值範圍,則60位於跨越60-64度的第13值範圍內。對於此種情況,標籤可以具有二進位值13=0001101。若存在兩個角度(例如,在三維座標系中表示方向),則標籤可以將兩個角度串接為未經變換的全景聲係數。所學習的角度的解析度不一定必須相同。例如,一個角度(亦即,仰角)可以具有10度的解析度,而另一個角度(亦即,方位角)可以具有5度的解析度。標籤可以與目標或期望的全景聲係數相關聯。標籤可以是固定的數位,其可以在自我調整網路225的訓練及/或推斷操作期間充當輸入,以在自我調整網路225從全景聲係數緩衝器215接收到未經變換的係數時輸出經變換的全景聲係數226。
在一個說明性實例中,自我調整網路225初始基於約束(例如,約束260a)來適配其權重以執行任務。任務包括保留音訊源(例如,第一音訊源)的方向(例如,角度)246。自我調整網路225具有在某個範圍內的目標方向(例如,角度)(例如,與座標系的原點相距5-30度)。
座標系可以是相對於一個房間的,該房間的一個角或中心可以充當座標系的原點。另外或替代地,座標系可以是相對於麥克風陣列205的(若存在的話,或者其可以位於的地方)。替代地,座標系可以是相對於設備201的。另外或替代地,座標系可以是相對於設備的使用者(例如,可以在設備201和另一設備(例如,使用者所佩戴的耳機)之間存在無線鏈路)或者位於設備201上以定位使用者相對於設備201位於何處的相機或感測器的。在一個實施例中,若例如設備201是耳機(例如,虛擬實境耳機、增強現實耳機、音訊耳機或眼鏡),則使用者可以佩戴設備201。在不同的實施例中,設備201可以被集成到車輛的一部分中,並且使用者在車輛中的位置可以用作座標系的原點。替代地,車輛中的不同點亦可以充當座標系的原點。在該等實例中的每一個實例中,第一音訊源「a」可以位於特定角度處,該特定角度亦被表示為相對於諸如座標系的原點之類的固定點的方向。
在一個實例中,用於保留第一音訊源的方向246的任務在空間上濾除在某個範圍內(例如,5-30度)的目標方向之外的其他音訊源(例如,第二音訊源、第三音訊源及/或額外的音訊源)或雜訊。這樣,若第一音訊源位於60度的固定方向處,則自我調整網路225可以濾除在60度+/-2.5度到15度(亦即,[45-57.5度到62.5-75度])之外的音訊源及/或雜訊。因此,誤差度量器237可以產生被最小化的誤差,直到自我調整網路225的輸出是經變換的全景聲係數226為止,經變換的全景聲係數226表示包括位於固定角度(例如,15度、45度、60度、或在座標系中在相對於至少一個固定軸的0到360度之間的任何角度)處的第一音訊源「a」的目標信號的聲場。
在三維座標系中,可以存在兩個固定角度(有時被稱為仰角和方位角),其中一個角度是相對於參考座標系中的x-z平面(例如,設備201的x-z平面、或房間的一側、或車輛的一側、或麥克風陣列205),而另一個軸是在參考座標系的z-y平面(例如,設備201的y-z平面、或房間的一側、或者車輛的一側、或者麥克風陣列205)中。哪一側被稱為x軸、y軸和z軸可以根據應用而變化。然而,一個實例是考慮麥克風陣列的中心,並且直接在麥克風陣列前面朝著中心行進的音訊源可以被認為來自x-y平面中的y方向。若音訊源是從麥克風陣列的頂部(不管定義如何)到達的,則頂部可以被認為是z方向,並且音訊源可以在x-z平面中。
在一些實現方式中,麥克風陣列205可選地被包括在設備201中。在其他實現方式中,麥克風陣列205不用於產生被即時地轉換為未經變換的全景聲係數的多聲道音訊信號。有可能將檔(例如,被儲存的歌曲或由內容建立者或設備201的使用者建立的音訊錄音)轉換為未經變換的全景聲係數26。
自我調整網路225可以一次對多個目標信號進行濾波。例如,自我調整網路225可以對位於不同的固定角度處的第二音訊源「b」及/或位於第三固定角度處的第三音訊源「c」進行濾波。儘管參考固定角度,但是本領域一般技藝人士理解,固定角度可以表示三維座標系中的方位角和仰角兩者。因此,一旦自我調整網路225已經將其權重適配以學習如何執行空間濾波的任務,自我調整網路225就可以在多個固定方向(例如,方向1、方向2及/或方向3)處執行空間濾波的任務。對於每個目標信號,誤差度量器237產生在目標信號(例如,目標或期望的全景聲係數70或可以從中推導目標或期望的全景聲係數70的音訊信號)和經渲染的經變換全景聲係數之間的誤差。與誤差度量器237類似,測試渲染器238可以可選地位於設備201內部或設備201外部。此外,測試渲染器238可以可選地渲染未經變換的全景聲係數,或者可以使多聲道音訊信號通過進入誤差度量器237。未經變換的全景聲係數可以表示包括第一音訊源、第二音訊源、第三音訊源或甚至更多音訊源及/或雜訊的聲場。因此,目標信號可以包括一個以上的音訊源。
例如,在推斷期間,自我調整網路225可以使用所學習的或經收斂的權重集合,該權重集合允許自我調整網路225在空間上濾除來自除了期望方向之外的所有方向的聲音。此種應用可以包括聲源在相對固定位置處。例如,聲源可以是一或多個人位於房間或車輛中的固定位置處(在例如5-30度的公差範圍內)。
在另一實例中,在推斷期間,自我調整網路225可以使用所學習的或經收斂的權重集合來保留來自某些方向或角度的音訊,並且在空間上濾除位於其他方向或角度處的其他音訊源及/或雜訊。另外或替代地,與被保留的目標音訊源或方向相關聯的混響亦可以被用作約束260a的一部分。在擴音器240aj的系統中,在經變換的全景聲係數226被渲染器230渲染並且被擴音器240aj用來播放所產生的音訊信號之後,使用者可以聽到在保留方向246處的第一音訊源。
其他實例可以包括保留在與圖2B中所示的音訊方向不同的音訊方向處的一個音訊源的方向。另外或替代地,實例可以包括保留在不同音訊方向處的一個以上的音訊源的方向。例如,可以保留在10度(+/-5-30度範圍)和80度(+/-5-30度範圍)處的音訊源。另外或替代地,可以保留的可能音訊方向的範圍可以包括15到165度的方向,例如,在麥克風陣列的大部分的前方部分內或在設備的前方的任何角度,其中前方包括15到165度的角度,或者在一些用例中包括更大的角度範圍(例如,0到180度)。
參考圖2C,示出根據本揭示內容的一些實例的可操作以利用約束來執行對自我調整網路的權重的推斷及/或自我調整學習的系統的特定說明性實例,其中約束和目標全景聲係數70是基於使用聲場縮放器的。圖2C的描述的部分與圖2A和圖2B的描述類似,除了與圖2B的約束區塊236a相關聯的包括方向嵌入器210的某些部分被替換為與圖2C的約束區塊236b相關聯的包括聲場縮放器244的某些部分之外。
在圖2C的說明性實例中,音訊源「a」(例如,其是第一音訊源)、「b」(例如,其是第二音訊源)和「c」(例如,其是第三音訊源)分別位於45度、75度和120度的不同音訊方向處。音訊方向是相對於與麥克風陣列205相關聯的座標系的原點(0度)來圖示的。然而,如上述,座標系的原點可以與麥克風陣列、房間、車輛的艙內位置、設備201等的不同部分相關聯。第一音訊源「a」、第二音訊源「b」、第三音訊源「c」可以位於在自我調整網路225b的訓練期間使用的不同的音訊源211集合中。
除了不同的音訊方向214和不同的音訊源211之外,不同的縮放值216可以針對不同的音訊方向214中的每一個不同的音訊方向和不同的音訊源211中的每一個不同的音訊源而改變。不同的縮放值216可以將表示被輸入到自我調整網路225b中的不同的音訊源211的未經變換的全景聲係數放大或衰減。
其他實例可以包括在訓練之前或在訓練之後以與圖2C中所示的音訊角度不同的音訊角度來旋轉表示音訊源的未經變換的全景聲係數。此外,特定方向和音訊源可以由麥克風陣列205擷取或合成,以及自我調整網路225b可以限於學習對彼等特定方向執行空間濾波和旋轉的權重。
另外,在另一實施例中,可以省略方向嵌入器,並且聲場可以利用縮放值216來縮放。在此種情況下,亦可能直接在全景聲域中縮放整個聲場,並且使聲場縮放器244直接對全景聲係數進行操作(在被儲存到全景聲係數緩衝器215中之前)。
例如,聲場縮放器244可以單獨地縮放音訊源的未經變換的全景聲係數26的表示,例如,第一音訊源可以藉由正或負縮放值216a來縮放,而第二音訊源可能根本沒有藉由任何縮放值216進行縮放。在此種情況下,表示來自特定方向的第二音訊源的未經變換的全景聲係數26可以已經被輸入到自我調整網路225b中(其中不存在縮放值216a),或者表示來自特定方向的第二音訊源的被輸入到自我調整網路225b中的未經變換的全景聲係數26可以繞開聲場縮放器244(亦即,沒有被呈現給聲場縮放器244)。
此外,約束260b可以包括表示約束260b或與約束260b相關聯的標籤。例如,若自我調整網路225正在利用方位角214a、仰角214b或兩者以及縮放值216進行訓練,則可以將縮放值與未經變換的全景聲係數串接。使用與圖2B相關聯的用於方位角214a和仰角214b的實例,可以在仰角214a、214b之前或在仰角214a、214b之後串接縮放值216的表示。亦可以對縮放值216進行正規化。例如,假設未經正規化的縮放值216在-5到+5之間變化,則經正規化的縮放值可以在-1到1或0到1之間變化。縮放值16可以由不同的縮放值來表示,例如,以不同的縮放值解析度和不同的解析度步長來表示。假設每.01值,縮放值216就變化。這將表示100個不同的縮放值,並且可以由7位元數位來表示。作為一個實例,縮放值.17可以由二進位數位18來表示,即第18個解析度步長.01。作為另一實例,假設解析度步長是.05,則.17的值可以用二進位數位3來表示,因為,.17最接近針對不同的縮放值解析度的第四步長(.15),亦即,0=00000,.05=00001,.1=00010,.15=00011。因此,作為一個實例,標籤可以包括用於方位角214a、仰角214b和縮放值216的二進位值。
參考圖2D,根據本揭示內容的一些實例的可操作以利用多個約束和目標全景聲係數來執行對自我調整網路的推斷及/或進行推斷的系統的特定說明性實例,其中多個約束包括使用多個方向。圖2D的描述中的與圖2B及/或圖2C相關聯的推斷階段有關的部分是適用的。
在圖2D中,存在被配置為在不同的約束260c下進行操作的多個自我調整網路225a、225b、225c。在一個實施例中,多個自我調整網路225a、225b、225c的輸出可以利用組合器60進行組合。組合器60可以被配置為將由每個自我調整網路225a、226b、225c分別輸出的各個經變換的全景聲係數226da、226db、226dc線性地相加。因此,經變換的全景聲係數226d可以表示各個經變換的全景聲係數226da、226db、226dc的線性組合。經變換的全景聲係數226d可以由渲染器240進行渲染並且被提供給一或多個擴音器241a。一或多個擴音器241a的輸出可以是三個音訊串流。第一音訊串流1 243a可以如同源自於第一方向214a1、214b1一樣來由一或多個擴音器241a播放。第二音訊串流2 243b可以如同源自於第二方向214a2、214b2一樣來由一或多個擴音器241a播放。第三音訊串流3 243c可以如同源自於第二方向214a3、214b3一樣來由一或多個擴音器241a播放。本領域一般技藝人士將認識到,第一、第二和第三音訊串流可以互換地被稱為第一、第二和第三音訊源。亦即,一個音訊串流可以包括3個音訊源243a、243b、243c,或者可以存在三個單獨的音訊串流243a、243b、243c,其聽上去如同源自於三個不同的方向:方向1(方位角214a1,仰角214b1);方向2(方位角214a2,仰角214b2);方向3(方位角214a3,仰角214b3)。每個音訊串流或音訊源可以被位於更靠近一或多個擴音器241a正將音訊源引導到的方向的不同的人聽到。例如,第一個人254a可以被定位為更好地聽到第一音訊串流或音訊源214a1。第二個人254b可以被定位為更好地聽到第二音訊串流或音訊源214a2。第三個人25cb可以被定位為更好地聽到第三音訊串流或音訊源214a3。
參考圖2E,根據本揭示內容的一些實例的可操作以利用約束和目標全景聲係數來執行對自我調整網路的權重的推斷及/或進行推斷及/或自我調整學習的系統的特定說明性實例,其中該約束包括以下各項中的至少一項:理想麥克風類型、目標階數、形狀因數麥克風位置、模型/形狀因數。
在圖2E中,圖示一種理想麥克風類型,諸如可以具有位於球體的點周圍的32個麥克風的麥克風陣列102a、或具有四面體形狀的包括四個麥克風的麥克風陣列102b,其充當理想麥克風類型的實例。在訓練期間,不同的音訊方向214和不同的音訊源可以用作由該等麥克風陣列102a、102b擷取的輸入。對於四面體麥克風陣列102b的情況,其輸出是來自每個麥克風的聲壓集合,其可以被分解為其球形係數並且可以利用記號(W、X、Y、Z)來表示,作為全景聲係數。在球形麥克風陣列102a的情況下,其輸出亦是來自每個麥克風的聲壓集合,其可以被分解為其球形係數。
通常,對於麥克風陣列,用於決定用於給定麥克風集合的最少全景聲係數的麥克風數量取決於將全景聲階數加1並且隨後進行平方。例如,對於具有25個係數的四階全景聲信號,輸出麥克風輸出的最小數量為25,M=(N+1)2 ,其中N=全景聲階數。使用該公式提供了最小方向取樣方案,使得用於決定全景聲係數的數學運算是基於球基函數乘以來自麥克風陣列102b的集體麥克風的聲壓的平方倒數。因此,對於理想麥克風陣列102b輸出,全景聲轉換器212dt將麥克風的聲壓轉換為如上所解釋的全景聲係數。可以在用於非理想麥克風陣列的全景聲係數中使用其他操作,以將麥克風的聲壓轉換為全景聲係數。
在自我調整網路225e的訓練階段期間,約束區塊236e中的控制器25et可以將一或多個目標全景聲係數儲存在全景聲緩衝器30e中。例如,如圖2E所示,全景聲係數緩衝器30d可以儲存一階目標全景聲係數,其可以是從四面體麥克風陣列102a輸出的,或者在全景聲轉換器212et將麥克風陣列102b的輸出轉換為全景聲係數之後輸出的。控制器25et可以在訓練期間向全景聲係數緩衝器30e提供不同的階數。
在自我調整網路225e的訓練階段期間,設備201(例如,手持機或耳機)可以包括擷取不同的音訊源211和不同的音訊方向214的複數個麥克風(例如,四個)(理想麥克風102a、102b)。在一個實施例中,不同的音訊源211和不同的音訊方向214是與被呈現給理想麥克風102a、102b的音訊源和方向相同的。在不同的實施例中,不同的音訊源211和不同的音訊方向可以被合成或模擬,如同其被即時擷取一樣。在任一情況下,在設備201包括四個麥克風的實例中,麥克風輸出210可以由全景聲轉換器212di轉換為未經變換的全景聲係數26,並且未經變換的全景聲係數26可以被儲存在全景聲係數緩衝器215中。
在自我調整網路225e的訓練階段期間,控制器25e可以向自我調整網路225e提供一或多個約束260d。例如,控制器25e可以向自我調整網路225e提供目標階數的約束。在一個實施例中,自我調整網路225e的輸出包括經變換的全景聲係數226處於全景聲係數的期望目標階數75e的估計。由於自我調整網路225e的權重學習了如何從自我調整網路225e產生估計用於不同的音訊方向214和不同的音訊源211的全景聲係數的目標階數75e的輸出。隨後,在權重的訓練期間可以使用不同的目標階數,直到自我調整網路225e的權重已經收斂為止。
在不同的實施例中,當呈現不同的目標階數時,可以向自我調整網路225e呈現額外的約束。例如,在自我調整網路225e的訓練階段期間亦可以使用理想麥克風類型73e的約束。該等約束可以作為被串接到未經變換的全景聲係數26的標籤來添加。例如,不同的階數可以藉由3位元數位來表示,以表示階數0..7。理想麥克風類型可以藉由二進位數位來表示,以表示四面體麥克風陣列102b或球形麥克風陣列102a。形狀因數麥克風位置亦可以作為約束來添加。例如,可以表示手持機具有多個側面:例如,頂側、底側、前側、後側、左側和右側。在其他實施例中,手持機亦可以具有朝向(其自身的方位角和仰角)。麥克風的位置可以被放置在與該等側面之一上的參考點相距一定距離處。麥克風和每個側面的位置以及朝向和形狀因數可以被添加為約束。作為一個實例,各側面可以利用6個數字{1、2、3、4、5、6}來表示。麥克風的位置可以被表示為表示32個數字{1..31}的4數字二進位數位,其可以以釐米為單位來表示距離。形狀因數亦可以用於在手持機、平板設備、膝上型電腦等之間進行區分。根據設計,亦可以使用其他實例。
在一個實施例中,亦可能認識到,未經變換的全景聲係數亦可以被合成並且被儲存在全景聲係數緩衝器215中,而不是由非理想麥克風陣列擷取。
在一個特定實施例中,可以訓練自我調整網路225e以學習如何校正方向性調整誤差。作為一個實例,設備201(例如,手持機)可以包括麥克風陣列205,如圖2E所示。為了說明性目的,麥克風輸出210被提供給兩個方向性調整器(方向性調整器A 42a、方向性調整器B 42b)。方向性調整器和組合器44將麥克風輸出210轉換為全景聲係數。這樣,全景聲轉換器212eri的一種配置可以包括方向性調整器42a、42b和組合器44。輸出W X YZ 45是一階全景聲係數。然而,當音訊源正來自某些方位角或仰角時,將此種架構用於全景聲轉換器212eri可能引入偏置誤差。當音訊源正來自某些方位角或仰角時,藉由將目標一階全景聲係數呈現給渲染器230並且使用輸出來更新自我調整網路225e的權重,或者藉由將目標一階全景聲係數直接與輸出W X Y Z 45進行比較,自我調整網路225e的權重可以被更新並且最終收斂以校正偏置誤差。偏置誤差可能出現在不同的時間頻率處。例如,當音訊源處於90度仰角時,一階全景聲係數可以準確地表示某些頻帶(例如,0-3 kHz、3 kHz-6 kHz、6 kHz-9 kHz、12 kHz-15 kHz、18 kHz-21 kHz)中的音訊源。然而,在其他頻帶(9 kHz-12 kHz、15 kHz-18 kHz、21 kHz-24 kHz)中,音訊源可能表現為偏離其應當處於的位置。
在推斷階段期間,由被包括在設備201(例如,手持機)上的麥克風陣列205提供的麥克風輸出210可以輸出一階全景聲係數W X Y Z 45。在不同的實施例中,自我調整網路225固有地提供經變換的全景聲係數226以校正一階全景聲係數W X Y Z 45偏置誤差,因為在某些配置中,可能期望限制自我調整網路225的複雜性。例如,在具有有限的記憶體大小或計算資源的耳機的情況下,可能期望被訓練以執行一種功能(例如,校正一階全景聲誤差)的自我調整網路225。
在不同的實施例中,自我調整網路225可以具有關於目標階數是1階的約束75e。可以存在關於理想麥克風類型是手持機的另一約束73e。另外,可以存在關於麥克風陣列205中的每一個麥克風的位置在何處以及麥克風陣列205中的麥克風位於手持機的哪一側的額外約束68e。向自我調整網路225ei提供包括當音訊源正來自某些方位角或仰角時的偏置誤差的一階全景聲係數W X Y Z 45。自我調整網路225ei校正一階全景聲係數W X Y Z 45偏置誤差,並且經變換的全景聲係數226輸出準確地表示音訊源的跨越所有時間頻率的仰角及/或方位角。在一些實施例中,亦可以存在關於哪種模型類型或形狀因數的約束66e。
在不同的實施例中,自我調整網路225可以具有用於在不引入偏置誤差的情況下執行方向性調整的約束75e。亦即,基於調整由非理想麥克風陣列擷取的麥克風信號(如同麥克風信號已經由在理想麥克風陣列的不同位置處的麥克風擷取一樣)的約束,來將未經變換的全景聲係數變換為經變換的全景聲係數。
在另一實施例中,控制器25e可以向渲染器230選擇性地提供經變換的全景聲係數226e的子集。例如,控制器25e可以控制哪些係數(例如,一階、二階等)是全景聲轉換器212ei的輸出。另外或替代地,控制器25e可以選擇性地控制將哪些係數(例如,一階、二階等)儲存在全景聲係數緩衝器215中。例如,當球形32麥克風陣列102a提供高達四階全景聲係數(亦即,25個係數)時,這可能是期望的。全景聲係數的子集可以被提供給自我調整網路225。三階全景聲係數是四階全景聲係數的子集。二階全景聲係數是三階全景聲係數以及亦是四階全景聲係數的子集。一階全景聲係數是二階全景聲係數、三階全景聲係數和四階全景聲係數的子集。另外,經變換的全景聲係數226亦可以以相同方式(亦即,較高階全景聲係數的子集)或在一些情況下以混合階數的全景聲係數而被選擇性地提供給渲染器230。
參考圖3A,示出根據本揭示內容的一些實例的可操作以結合一或多個音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖。可以存在多個音訊應用390,該等音訊應用390可以被包括在設備201中,並且結合上文與圖2A-圖2E相關聯地描述的技術來使用。設備201可以被集成到多個形狀因數或設備類別中,例如,如圖5A-圖5D所示。音訊應用392亦可以被集成到在圖6A-圖6D中所示的設備中。在經由麥克風陣列205擷取或合成音訊源的一些應用的情況下,音訊應用的輸出可以在無線鏈路301a上經由發射器382被發送給在圖3A中所示的另一設備。在圖4A-圖4F中示出此種應用390。
參考圖3B,示出根據本揭示內容的一些實例的可操作以結合一或多個音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖。可以存在多個音訊應用392,該等音訊應用392可以被包括在設備201中,並且結合上文與圖2A-圖2E相關聯地描述的技術來使用。設備201可以被集成到多個形狀因數或設備類別中,例如,如圖5A-圖5D所示。音訊應用392亦可以被集成到在圖6A-圖6D中所示的設備(例如,車輛)中。在圖3B中所示的自我調整網路225的經變換的全景聲係數225輸出可以被提供給一或多個音訊應用392,其中由全景聲係數緩衝器215中的未經變換的全景聲係數表示的音訊源可以在被儲存在全景聲係數緩衝器215中之前初始以壓縮形式接收。例如,壓縮形式的未經變換的全景聲係數可以被儲存在記憶體381中的封包中,或者在無線鏈路301b上經由接收器385接收並且經由耦合到全景聲係數緩衝器215的解碼器383解壓縮,如圖3B所示。在圖4C-圖4F中示出此類應用392。
設備201可以包括如與圖2B-圖2E和圖3A-圖3B相關聯地描述的不同能力。設備201可以包括被配置為儲存在不同時間段處的未經變換的全景聲係數的記憶體。設備201亦可以包括一或多個處理器,其被配置為獲得在不同時間段處的未經變換的全景聲係數,其中在不同時間段處的未經變換的全景聲係數表示在不同時間段處的聲場。一或多個處理器可以被配置為基於約束260、260a、260b、260c、260d和目標全景聲係數,來將至少一個自我調整網路225a、225b、225c、225ba、225bb、225bc、225e應用於在不同時間段處的未經變換的全景聲係數,以產生在不同時間段處的經變換的全景聲係數226。在不同時間段處的經變換的全景聲係數226可以表示在不同時間段處的經修改的聲場,其是基於約束260、260a、260b、260c、260d來修改的。
此外,經變換的全景聲係數226可以由第一音訊應用使用,第一音訊應用包括由一或多個處理器執行的指令。此外,設備201亦可以包括全景聲係數緩衝器215,其被配置為儲存未經變換的全景聲係數26。
在一些實現方式中,設備201可以包括耦合到全景聲係數緩衝器215的麥克風陣列205中的麥克風,麥克風陣列205被配置為擷取由全景聲係數緩衝器215中的未經變換的全景聲係數表示的一或多個音訊源。
參考圖4A,示出根據本揭示內容的一些實例的、可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用使用編碼器和記憶體。
設備201可以包括自我調整網路225、225g和音訊應用390。在一個實施例中,第一音訊應用390a可以包括由一或多個處理器執行的指令。第一音訊應用390a可以包括:利用編碼器480來壓縮在不同時間段處的經變換的全景聲係數,並且將經壓縮的經變換全景聲係數226儲存到記憶體481中。經壓縮的經變換全景聲係數226可以由發射器482在發送鏈路301a上發送。發送鏈路301a可以是設備201與遠端設備之間的無線鏈路。
圖4B示出根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用編碼器、記憶體和解碼器。
在圖4B中,設備201可以包括自我調整網路225、225g和音訊應用390。在一個實施例中,第一音訊應用390b可以包括由一或多個處理器執行的指令。第一音訊應用390b可以包括利用編碼器480來壓縮在不同時間段處的經變換的全景聲係數,並且將經壓縮的經變換全景聲係數226儲存到記憶體481中。經壓縮的經變換全景聲係數226可以利用一或多個處理器從記憶體481中檢索,並且被解碼器483解壓縮。第二音訊應用390b的一個實例可以是攝像機應用,其中音訊被擷取並且可以被壓縮和儲存以供將來重播。若使用者返回查看視訊錄製或者若其僅僅是音訊錄音,則可以包括解碼器483或與解碼器483集成的一或多個處理器可以對經壓縮的在不同時間段處的經變換的全景聲係數進行解壓縮。
參考圖4C,示出根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用渲染器230、關鍵字偵測器402和設備控制器491。在圖4C中,設備201可以包括自我調整網路225、225g和音訊應用390。在一個實施例中,第一音訊應用390c可以包括由一或多個處理器執行的指令。第一音訊應用390c可以包括渲染器230,渲染器230被配置為渲染在不同時間段處的經變換的全景聲係數226。第一音訊應用390c亦可以包括關鍵字偵測器402,其耦合到被配置為基於約束260來控制設備的設備控制器491。
參考圖4D,示出根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用渲染器230、方向偵測器403和設備控制器491。在圖4D中,設備201可以包括自我調整網路225和音訊應用390。在一個實施例中,第一音訊應用390c可以包括由一或多個處理器執行的指令。第一音訊應用390c可以包括被配置為渲染在不同時間段處的經變換的全景聲係數226的渲染器230。第一音訊應用390c亦可以包括耦合到設備控制器491的方向偵測器403,設備控制器491被配置為基於約束260來控制設備。
應當注意的是,在不同的實施例中,經變換的全景聲係數226可以被輸出為具有作為自我調整網路225的推斷的一部分的方向偵測。例如,在圖2B中,經變換的全景聲係數226在被渲染時表示其中一或多個音訊源可以聽起來如同其正來自某個方向的聲場。在訓練階段期間,方向嵌入器210允許圖2B中的自我調整網路225執行方向偵測功能,作為空間濾波的一部分。因此,在此種情況下,在音訊應用390d中的渲染器230之後可以不再需要方向偵測器403和設備控制器491。
圖4E是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用渲染器。如本文所解釋的,在不同時間段處的經變換的全景聲係數226可以被輸入到渲染器230中。可以從一或多個擴音器240播放經渲染的經變換全景聲係數。
圖4F是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用在圖4C、圖4D和圖4E中描述的應用。圖F是以如下方式繪製的:圖示耦合到自我調整網路225的音訊應用392可以在利用解碼器對經壓縮的在不同時間段處的經變換的全景聲係數226進行解壓縮之後運行,如結合圖3B所解釋的。
參考圖5A,示出根據本揭示內容的一些實例的放置在條帶中使得其可以被佩戴並且可操作以執行自我調整網路225的推斷的設備201的圖。圖5A描繪了被集成到諸如手持機之類的行動設備504中的、圖2A、圖2B、圖C、圖2D、圖2E、圖3A、圖3B、圖4A、圖4B、圖4C、圖4D、圖4E或圖4F的設備201的實現方式的實例。可以在手機中包括多個感測器。多個感測器可以是兩個或兩個以上麥克風105、圖像感測器514(例如,被集成到相機中)。儘管被示為在單個位置上,但是在其他實現方式中,多個感測器可以被定位在手持機的其他位置處。諸如顯示器520之類的可視介面設備可以允許使用者在經由一或多個揚聲器240聽到經渲染的經變換全景聲係數的同時亦觀看視覺內容。此外,可以存在被包括在收發機522中的發射器382和接收器385,其提供本文描述的設備201和遠端設備之間的連線性。
參考圖5B,示出根據本揭示內容的一些實例的設備201的圖,設備201可以是可操作以執行自我調整網路225的推斷的虛擬實境或增強現實耳機。圖5A描繪了被集成到諸如手持機之類的行動設備504中的、圖2A、圖2B、圖C、圖2D、圖2E、圖3A、圖3B、圖4A、圖4B、圖4C、圖4D或圖4E的設備201的實現方式的實例。可以在耳機中包括多個感測器。多個感測器可以是兩個或兩個以上麥克風105、圖像感測器514(例如,被集成到相機中)。儘管被示為在單個位置上,但是在其他實現方式中,多個感測器可以被定位在耳機的其他位置處。諸如顯示器520之類的可視介面設備可以允許使用者在經由一或多個揚聲器240聽到經渲染的經變換全景聲係數的同時亦觀看視覺內容。此外,可以存在被包括在收發機522中的發射器382和接收器385,其提供本文描述的設備201和遠端設備之間的連線性。
參考圖5C,示出根據本揭示內容的一些實例的設備201的圖,設備201可以是可操作以執行自我調整網路225的推斷的虛擬實境或增強現實眼鏡。圖5A描繪了被集成到眼鏡中的、圖2A、圖2B、圖C、圖2D、圖2E、圖3A、圖3B、圖4A、圖4B、圖4C、圖4D、圖4E或圖4F的設備201的實現方式的實例。可以在眼鏡中包括多個感測器。多個感測器可以是兩個或兩個以上麥克風105、圖像感測器514(例如,被集成到相機中)。儘管被示為在單個位置上,但是在其他實現方式中,多個感測器可以被定位在眼鏡的其他位置處。諸如顯示器520之類的視覺介面設備可以允許使用者在經由一或多個揚聲器240聽到經渲染的經變換全景聲係數的同時亦觀看視覺內容。此外,可以存在被包括在收發機522中的發射器382和接收器385,其提供本文描述的設備201和遠端設備之間的連線性。
參考圖5D,示出根據本揭示內容的一些實例的可操作以執行自我調整網路225的推斷的設備201的圖。圖5D描繪了被集成到車輛儀表板設備(諸如汽車儀表板設備502)中的、圖2A、圖2B、圖C、圖2D、圖2E、圖3A、圖3B、圖4A、圖4B、圖4C、圖4D、圖4E或圖4F的設備201的實現方式的實例。可以在車輛中包括多個感測器。多個感測器可以是兩個或兩個以上麥克風105、圖像感測器514(例如,被集成到相機中)。儘管被示為在單個位置上,但是在其他實現方式中,多個感測器可以被定位在車輛的其他位置處(諸如分佈在車輛的駕駛室內的各個位置處),或可以位於車輛中每個座椅附近,以偵測來自車輛操作員和每個乘客的多模態輸入。諸如顯示器520之類的可視介面設備被安裝或定位(例如,可移除地固定到車輛手持機支架上)在汽車儀表板設備502內,以便對於汽車的駕駛員是可見的。此外,可以存在被包括在收發機522中的發射器382和接收器385,其提供本文描述的設備201和遠端設備之間的連線性。
參考圖6A,示出根據本揭示內容的一些實例的設備201(例如,電視機、平板設備或膝上型電腦、看板、或在公共場所中的設備)的圖,設備201可操作以執行自我調整網路225g的推斷。在圖6A中,設備201可以可選地包括相機204、和擴音器陣列240(其包括單獨的揚聲器240ia、240ib、240ic、240id)、和麥克風陣列205(其包括單獨的麥克風205ia、205ib)、和顯示螢幕206。與圖2A-圖2E、圖3A-圖3B、圖4A-圖4F和圖5A相關聯地描述的技術可以在圖6A中所示的設備201中實現。在一個實施例中,可以存在利用經變換的全景聲係數226表示的多個音訊源。
擴音器陣列240被配置為輸出由被包括在設備201中的渲染器230渲染的經渲染的經變換全景聲係數226。經變換的全景聲係數226表示指向不同的相應方向的不同音訊源(例如,串流1和串流2被發射到兩個不同的相應方向)。不同串流的同時傳輸的一種應用可以用於公共空間中的公共位址及/或視訊看板設施(諸如機場或火車站)或可能期望不同的訊息或音訊內容的另一種情況。例如,可以實現此種情況,使得顯示螢幕206上的相同視訊內容對於兩個或兩個以上使用者中的每一者是可見的,其中擴音器陣列240輸出在不同時間段處的經變換的全景聲係數226,以便在不同的相應視角以不同語言(例如,英語、西班牙語、漢語、韓語、法語等中的兩種或兩種以上)表示相同的伴隨的音訊內容。在較小的環境(諸如家庭或辦公室)中,亦可能期望視訊節目的呈現以及以兩種或兩種以上語言表示音訊內容的伴隨的經變換的全景聲係數226的同時呈現。
其中由經變換的全景聲係數表示的音訊分量可以包括不同的遠端音訊內容的另一應用是用於語音通訊(例如,電話撥叫)。替代地或另外,由在不同時間段處的經變換的全景聲係數226表示的兩個或兩個以上音訊源中的每一者可以包括用於不同的相應媒體再現(例如,音樂、視訊節目等)的音訊軌道。
對於其中由經變換的全景聲係數226表示的不同音訊源與不同視訊內容相關聯的情況,可能期望在多個顯示螢幕上及/或利用具有多視圖能力的顯示螢幕來顯示此種內容(例如,顯示螢幕幕206亦可以是具有多視圖能力的顯示螢幕)。具有多視圖能力的顯示螢幕的一個實例被配置為使用不同的光偏振(例如,正交線性偏振或相對偏手性的圓偏振)來顯示視訊節目中的每一個視訊節目,並且每個觀看者佩戴一組護目鏡,該組護目鏡被配置為使具有期望視訊節目的偏振的光通過並且阻擋具有其他偏振的光。在具有多視圖能力的顯示螢幕的另一實例中,不同的視訊節目至少在兩個或兩個以上視角處是可見的。在此種情況下,擴音器陣列的實現方式將用於不同視訊節目中的每一個視訊節目的音訊源引導到對應視角的方向上。
在多源應用中,可能期望提供在由經變換的全景聲係數226表示的相鄰音訊源的朝向的方向之間的大約30度或40度到60度的間隔。一種應用是向(例如,在沙發上)肩並肩坐在擴音器陣列240前方的兩個或兩個以上使用者中的每一者提供不同的相應音訊源分量。在1.5到2.5米的典型視距下,觀看者所佔據的跨度大約為30度。利用四個麥克風的陣列205,可能獲得大約15度的解析度。在具有更多麥克風的陣列的情況下,使用者之間的更窄距離是可能的。
參考圖6B,示出根據本揭示內容的一些實例的可操作以執行自我調整網路225、225g的推斷的設備201(例如,車輛)的圖。在圖6B中,設備201可以可選地包括相機204、及擴音器陣列240(未圖示)和麥克風陣列205。與圖2A-圖2E、圖3A-圖3B、圖4A圖-4F和圖5D相關聯地描述的技術可以在圖6B中所示的設備201中實現。
在一個實施例中,由自我調整網路225輸出的經變換的全景聲係數226可以表示在揚聲器區域44中擷取的語音。如圖所示,可以存在用於駕駛員的揚聲器區域44。另外或替代地,亦可以存在用於每個乘客的揚聲器區域44。自我調整網路225可以基於約束260b、約束260d或其某種組合來輸出經變換的全景聲係數226。由於在行駛時可能存在道路雜訊,在由經變換的全景聲係數226表示的揚聲器區域外部的音訊或雜訊在被渲染時(例如,若在電話撥叫上)可能由於自我調整網路225的空間濾波性質而聽起來更加衰減。在另一實例中,駕駛員或乘客可能正在說出用於控制車輛中的功能的命令,並且可以基於與圖4D相關聯地描述的技術來使用由經變換的全景聲係數226表示的命令。
參考圖6C,示出根據本揭示內容的一些實例的可操作以執行自我調整網路225的推斷的設備201(例如,電視機、平板設備、或膝上型電腦)的圖。在圖6B中,設備201可以可選地包括相機204、和擴音器陣列240(其包括單獨的揚聲器240ia、240ib、240ic、240id)、和麥克風陣列205(其包括單獨的麥克風205ia、205ib)、和顯示螢幕206。與圖2A-圖2E、圖3A-圖3B、圖4A-圖4F和圖5A-圖5C相關聯地描述的技術可以在圖6C中所示的設備201中實現。在一個實施例中,可以存在利用經變換的全景聲係數226表示的多個音訊源。
由於隱私可能是一個關注點,所以經變換的全景聲係數226可以表示在被擴音器陣列240渲染時被定向為在隱私區域50中聽起來更大聲但在隱私外部聽起來更柔和(例如,藉由使用與圖2B、圖2C、圖2D及/或圖2E相關聯地描述的技術的組合)的音訊內容。在隱私區域50外部的人可能聽到音訊內容的被衰減的版本。可能期望設備201回應於傳入及/或傳出的電話撥叫來啟動隱私區域模式。當使用者期望更多隱私時,可以在設備201上發生此種實現方式。可能期望藉由使用遮罩信號來增加在隱私區域50外部的隱私,遮罩信號的頻譜是對將在隱私區域50內聽到的一或多個音訊源的頻譜的互補。遮罩信號亦可以由經變換的全景聲係數226來表示。例如,遮罩信號可以在接收到語音(經由電話撥叫而接收的)的某個角度範圍外部的空間方向上,使得在黑暗區域(在隱私區域外部的區域)中的附近人聽到聲音的「白色」頻譜,並且保護使用者的隱私。在替代的電話撥叫場景中,遮罩信號是其位準僅足以高於語音的次頻帶遮罩閥值的嘈雜語雜訊,並且當渲染經變換的全景聲係數時,在黑暗區域中會聽到嘈雜語雜訊。
在另一用例中,該設備用於再現所記錄的或串流的媒體信號,諸如,音樂檔、廣播音訊或視訊呈現(例如,無線電單元或電視機)或經由網際網路而串流的電影或視訊短片。在此種情況下,隱私可能不太重要,並且設備201可能期望使期望音訊內容在黑暗區域中具有隨時間而大幅降低的幅度位準並且在隱私區域50中具有正常範圍。與語音通訊信號相比,媒體信號可以具有較大的動態範圍及/或可以隨時間而不太稀疏。
參考圖6D,示出根據本揭示內容的一些實例的設備201(例如,手持機、平板設備、膝上型電腦、電視機)的圖,設備201可操作以執行自我調整網路225的推斷。在圖6D中,設備201可以可選地包括相機204、和擴音器陣列240(未圖示)、和麥克風陣列205。與圖2A-圖2E、圖3A-圖3B、圖4A-圖4F和圖5A-C相關聯地描述的技術可以在圖6D中所示的設備201中實現。
在一個實施例中,來自兩個不同的音訊源(例如,正在談話的兩個人)的音訊可以位於不同的位置上,並且可以由自我調整網路225的經變換的全景聲係數226輸出來表示。經變換的全景聲係數226可以被壓縮並且在發送鏈路301a上被發送。遠端設備201r可以接收經壓縮的經變換全景聲係數,解壓縮其並且將其提供給渲染器230(未圖示)。經渲染的未經壓縮的經變換全景聲係數可以被提供給擴音器陣列240(例如,以雙聲道形式),並且被遠端使用者(例如,佩戴遠端設備201r)聽到。
參考圖7A,圖7A是根據本揭示內容的一些實例的可操作以執行訓練的自我調整網路的圖,其中自我調整網路包括回歸器和鑑別器。鑑別器740a可以是可選的。然而,當將約束260與未經變換的全景聲係數26串接時,自我調整網路225的輸出的經變換的全景聲係數226可以具有可以被提取的額外位元集合或其他輸出。所提取的額外位元集合或其他輸出是約束85的估計。可以將約束估計85和約束260與類別損失度量器83進行比較。類別損失度量可以包括相似性損失度量器包括的操作或某種其他誤差函數。可以使用由相似性損失度量器81使用的技術之一,將經變換的全景聲係數226與目標全景聲係數70進行比較。可選地,渲染器230a、230b可以分別渲染經變換的全景聲係數226和目標全景聲係數70,並且渲染器230a、230b輸出可以被提供給相似性損失度量器81。相似性度量器81可以被包括在與圖2A相關聯地描述的誤差度量器237中。
可以存在不同的方式來實現如何計算相似性損失度量(S ) 81。在下文所示的不同等式中,E等於期望值,K等於針對給定階數的全景聲係數的最大數量,並且c是在1和K之間變換的係數數量。X是經變換的全景聲係數,並且T是目標全景聲係數。在一種實現方式中,對於4階全景聲信號,全景聲係數的總數(K)是25。
一種方式是如下將相似性損失度量S 實現為相關性: 對於k =1:K{S (k )=E[T (c )X(c +k )]/(sqrt(E[T (k )]2 )sqrt(E[(X(k )]2 ]),其中比較所有的S (k )產生最大相似性值。
用於實現S 的另一種方式是如下作為累積量等式: 對於k =1:K {S (k)={E[T2 (c )X(c +k )2 + E[T2 (c )]E[X(k )2 ]-2E[T i (c )X(c +k )]2 },其中比較所有的S (k )產生最大相似性值。
用於實現S 的另一種方式是如下使用時域最小二乘擬合: 對於k =1:K {S (k)={
Figure 02_image037
||T i (c )-X(c+k )||2 },其中比較所有的S (k )產生最大相似性值。注意的是,代替使用如上所示的期望值,用於表示期望的另一種方式包括在構成所使用的音訊源片語的至少一數量的訊框(音訊源片語訊框 )上至少使用快速求和。
用於實現S 的另一種方式是如下結合頻域來使用快速傅立葉轉換(FFT): 對於k =1:K {S (k)={
Figure 02_image039
||Ti (f )-X (f )exp(-jɷk )||2 },其中比較所有的S (k )產生最大相似性值。注意的是,在FFT中使用的不同頻率(f=1..f_訊框)上存在額外求和。
另一種方式是如下使用Itakura-Saito距離來實現S : 對於k =1:K {S (k)={
Figure 02_image039
||Ti (f )/X (f )exp(-jɷk )-log[Ti (f )/X (f )exp(-(-jɷk )]-1 ||},其中比較所有的S (k )產生最大相似性值。
用於實現S 的另一種方式是如下基於平方差度量: 對於k =1:K {S (k)={
Figure 02_image041
(T(k )-X(k ))2 },其中比較所有的S (k )產生最大相似性值。
在一個實施例中,誤差度量器237亦可以包括類別損失度量器83和組合器84,組合器84用於組合(例如,相加或串列輸出)類別損失度量器83和相似性損失度量器81的輸出。誤差度量器237的輸出可以直接更新自我調整網路225的權重,或者可以藉由使用權重更新控制器78來更新其等。
回歸器735a被配置為估計從輸入變數(未經變換的全景聲係數和經串接的約束)到連續輸出變數(經變換的全景聲係數)的分佈函數。神經網路是回歸器735a的實例。鑑別器740a被配置為估計輸入的類別或分類。因此,亦可以對從經變換的全景聲係數226的估計中提取的估計約束進行分類。使用此種額外技術可以有助於自我調整網路225的訓練過程,並且在一些情況下可以提高某些約束值(例如,更精細的度數或縮放值)的解析度。
參考圖7B,示出根據本揭示內容的一些實例的可操作以執行推斷的自我調整網路的圖,其中自我調整網路是遞迴神經網路(RNN)。
在一個實施例中,全景聲係數緩衝器215可以耦合到自我調整網路225,其中自我調整網路225可以是輸出經變換的全景聲係數226的RNN 735b。遞迴神經網路可以代表一類人工神經網路,其中單元(或細胞)之間的連接沿著序列形成有向圖。此種性質可以允許遞迴神經網路表現出動態的時間行為(例如,藉由使用內部狀態或記憶體來處理輸入序列)。此種動態時間行為可以將遞迴神經網路與其他人工神經網路(例如,前饋神經網路)區分開。
參考圖7C,示出根據本揭示內容的一些實例的可操作以執行推斷的自我調整網路的圖,其中自我調整網路是長短期記憶體(LSTM)。
在一個實施例中,LSTM是RNN的一個實例。LSTM網路735B可以由多個儲存狀態(例如,其可以被稱為閘控狀態、閘控記憶體等)組成,其中該等儲存狀態在一些情況下可以由LSTM網路735c控制。具體地,每個儲存狀態可以包括細胞、輸入閘極、輸出閘極和遺忘閘極。細胞可能負責記憶在任意時間間隔內的值。輸入閘極、輸出閘極和遺忘閘極中的每一者可以是人工神經元的實例(例如,如在前饋神經網路中)。亦即,每個閘極可以計算加權和的啟動(例如,使用啟動函數),其中加權和可以是基於對神經網路的訓練。儘管在LSTM網路的上下文中進行描述,但是應當理解的是,所描述的技術可以與多個人工神經網路(例如,包括隱瑪律可夫模型、前饋神經網路等)中的任何一者相關。
在訓練階段期間,基於應用損失函數來對約束區塊和自我調整網路進行訓練。在本揭示內容的各態樣中,損失函數通常可以代表將事件(例如,一或多個變數的值)映射到可以表示與該事件相關聯的成本的值的函數。在一些實例中,LSTM網路可以藉由調整用於各個閘極的加權和、藉由調整不同細胞之間的連線性等來訓練,以便使損失函數最小化。在一個實例中,損失函數可以是在目標全景聲係數和由麥克風陣列205擷取或以合成形式提供的全景聲係數(亦即,輸入訓練信號)之間的誤差。
例如,LSTM網路735c(基於損失函數)可以使用對輸入訓練信號的實際(例如,但未知)分佈進行近似的分佈函數。舉例而言,當基於來自不同方向的輸入訓練信號來訓練LSTM網路735B時,分佈函數可以類似於不同類型的分佈,例如,Laplacian(拉普拉斯)分佈或Super Gaussian(超高斯)分佈。在LSTM的輸出處,可以至少部分地基於將最大化函數應用於分佈函數來產生目標全景聲係數的估計。例如,最大化函數可以辨識與分佈函數的最大值相對應的參數。
在一些實例中,輸入訓練信號可以由設備201的麥克風陣列205接收。可以基於目標時間訊窗來對所接收的每個輸入訓練信號進行取樣,使得用於設備201的麥克風N 的輸入音訊信號可以被表示為
Figure 02_image043
,其中
Figure 02_image045
表示目標聽覺源(例如,經變換的全景聲係數的估計),α表示與目標聽覺源的源相關聯的方向常數,
Figure 02_image047
表示麥克風陣列205中的接收目標聽覺源的麥克風,並且
Figure 02_image049
表示在麥克風N 處接收的雜訊偽影。在一些情況下,目標時間訊窗可以跨越從開始時間Tb 到最終時間Tf ,例如,子訊框或訊框,或者用於平滑資料的訊窗的長度。因此,在麥克風陣列205處接收的輸入信號的時間段可以對應於時間t–Tb 到t+Tf 。儘管在時間訊窗的上下文中進行描述,但是將理解的是,在麥克風陣列205處接收的輸入信號的時間段可以另外或替代地對應於頻域中的取樣(例如,包含頻譜資訊的取樣)。
在一些情況下,在LSTM 735c的訓練階段期間的操作可以是至少部分地基於與時間t+Tf –1相對應的取樣集合(例如,先前取樣集合)。對應於時間t+Tf –1的取樣在遞迴神經網路735Aa中可以被稱為隱藏狀態,並且可以根據
Figure 02_image051
來表示,其中M 對應於神經網路的給定隱藏狀態。亦即,遞迴神經網路可以包含多個隱藏狀態(例如,可以是深度堆疊神經網路的實例),並且每個隱藏狀態可以由如上述的一或多個閘控函數來控制。
在一些實例中,損失函數可以根據
Figure 02_image053
來定義,其中z表示在給定接收的輸入信號和神經網路的隱藏狀態的情況下的概率分佈,其中M是記憶體容量,因為存在M個隱藏狀態,並且Tf -1表示先行時間。亦即,LSTM網路735a的操作可以關於基於所辨識的損失函數而在麥克風陣列205處接收的輸入信號的取樣與期望全景聲係數的所學習的分佈函數z匹配的概率。
在與圖2B的描述相關聯的實施例中,到達方向(DOA)嵌入器可以基於與如參考圖2B所描述的方向或角度(仰角及/或方位角)相關聯的方向性來決定用於與每個音訊源相關聯的每個麥克風的時間延遲。亦即,可以向用於音訊源的目標全景聲係數指派方向性約束(例如,基於麥克風的佈置),使得目標全景聲係數的係數可以是方向性約束360b的函數。全景聲係數可以是至少部分地基於所決定的與每個麥克風相關聯的時間延遲來產生的。
隨後可以根據至少部分地基於方向性約束226的狀態更新來處理全景聲係數。每個狀態更新可以反映參考圖2B描述的技術。亦即,複數個狀態更新(例如,狀態更新745a到狀態更新745n)。每個狀態更新745可以是隱藏狀態的實例(例如,如上述的LSTM細胞)。亦即,每個狀態更新745可以對輸入(例如,全景聲係數的取樣、來自先前狀態更新745的輸出等)進行操作以產生輸出。在一些情況下,每個狀態更新745的操作可以至少部分地基於遞迴(例如,其可以基於來自細胞的輸出來更新該細胞的狀態)。在一些情況下,遞迴可以涉及訓練(例如,最佳化)遞迴神經網路735a。
在LSTM網路的輸出處,發射函數可以產生目標全景聲係數226。將理解的是,在不偏離本揭示內容的範圍的情況下,可以包括任何實際數量的狀態更新715。
參考圖8,示出根據本揭示內容的一些實例的執行基於約束來應用至少一個自我調整網路的方法的流程圖。
在圖8中,方法800的一或多個操作是由一或多個處理器執行的。在設備201中包括的一或多個處理器可以實現與圖2A-圖2G、圖3A-圖3B、圖4A-圖4F、圖5A-圖5D、圖6A-圖6D、圖7A-圖7B和圖9相關聯地描述的技術。
方法800包括如下操作:獲得在不同時間段處的未經變換的全景聲係數,其中在不同時間段處的未經變換的全景聲係數表示在不同時間段處的聲場802。方法800亦包括如下操作:基於約束來將至少一個自我調整網路應用於在不同時間段處的未經變換的全景聲係數,以輸出在不同時間段處的經變換的全景聲係數,其中在不同時間段處的經變換的全景聲係數表示基於約束而修改的、在不同時間段處的經修改的的聲場804。
參考圖9,示出根據本揭示內容的一些實例的可操作為執行基於約束來應用至少一個自我調整網路的設備的特定說明性實例的方塊圖。
參考圖9,描繪了設備的特定說明性實現方式的方塊圖,並且整體上將其指定為900。在各種實現方式中,設備900可以具有與在圖9中所示的相比更多或更少的部件。在一種說明性實現方式中,設備900可以對應於圖2A中的設備201。在一種說明性實現方式中,設備900可以執行參考圖1、圖2A-F、圖3A-B、圖4A-F、圖5A-D、圖6A-D、圖7A-B和圖8所描述的一或多個操作。
在一種特定實現方式中,設備900包括處理器906(例如,中央處理單元(CPU))。設備900可以包括一或多個額外處理器910(例如,一或多個DSP、GPU、CPU、或音訊核)。一或多個處理器910可以包括自我調整網路225、渲染器230和控制器932、或其組合。在一個特定態樣中,圖2A的一或多個處理器208對應於處理器906、一或多個處理器910、或其組合。在一個特定態樣中,圖2F的控制器25f或圖2G的控制器25g對應於控制器932。
設備900可以包括記憶體952和轉碼器934。記憶體952可以包括全景聲係數緩衝器215和指令956,指令956可由一或多個額外處理器810(或處理器806)執行以實現參照圖1、圖2A-F、圖3、圖4A-H、圖5A-D、圖6A-B和圖7所描述的一或多個操作。在一個特定態樣中,記憶體952亦可以包括其他緩衝器,例如,緩衝器30i。在一個實例中,記憶體952包括儲存指令956的電腦可讀取儲存設備。指令956在由一或多個處理器(例如,處理器908、處理器906、或處理器910,作為說明性實例)執行時,使得一或多個處理器進行以下操作:獲得在不同時間段處的未經變換的全景聲係數,其中在不同時間段處的未經變換的全景聲係數表示在不同時間段處的聲場;及基於約束來將至少一個自我調整網路應用於在不同時間段處的未經變換的全景聲係數,以產生在不同時間段處的經變換的全景聲係數,其中在不同時間段處的經變換的全景聲係數表示基於約束而修改的在不同時間段處的經修改的聲場。
設備900可以包括經由接收器950而耦合到接收天線942的無線控制器940。另外或替代地,無線控制器940亦可以經由發射器954耦合到發射天線943。
設備900可以包括耦合到顯示控制器926的顯示器928。一或多個揚聲器940和一或多個麥克風905可以耦合到轉碼器934。在一個特定態樣中,麥克風905可以如關於在本揭示內容內描述的麥克風陣列205描述地來實現。轉碼器934可以包括或耦合到數位類比轉換器(DAC)902和類比數位轉換器(ADC)904。在一種特定實現方式中,轉碼器934可以從一或多個麥克風905接收類比信號,使用類比數位轉換器904來將類比信號轉換為數位信號,以及將數位信號提供給一或多個處理器910。處理器910(例如,音訊轉碼器、或語音和音樂轉碼器)可以處理數位信號,並且數位信號可以由全景聲係數緩衝器215、自我調整網路225、渲染器230或其組合進一步處理。在一種特定實現方式中,自我調整網路225可以被集成為轉碼器934的一部分,並且轉碼器934可以位於處理器910內。
在相同或替代實現方式中,處理器910(例如,音訊編碼、或語音和音樂轉碼器)可以將數位信號提供給轉碼器934。轉碼器934可以使用數位類比轉換器902來將數位信號轉換為類比信號,並且可以將類比信號提供給揚聲器936。設備900可以包括輸入設備930。在一個特定態樣中,輸入設備930包括被包括在圖5A-圖5D和圖6A-圖6D的相機中的圖像感測器514。在一個特定態樣中,轉碼器934對應於在與圖4A、圖4B、圖4F和圖6A-圖6D相關聯地描述的音訊應用中描述的編碼器和解碼器。
在一種特定實現方式中,設備900可以被包括在系統級封裝或片上系統設備922中。在一種特定實現方式中,記憶體952、處理器906、處理器910、顯示控制器926、轉碼器934和無線控制器940被包括在系統級封裝或片上系統設備922中。在一種特定實現方式中,輸入設備930和電源供應器944耦合到系統級封裝或片上系統設備922。此外,在一種特定實現方式中,如圖9所示,顯示器928、輸入設備930、揚聲器940、麥克風905、接收天線942、發射天線943和電源供應器944在系統級封裝或片上系統設備922外部。在一種特定實現方式中,顯示器928、輸入設備930、揚聲器940、麥克風905、接收天線942、發射天線943和電源供應器944中的每一者可以耦合到系統級封裝或片上系統設備922的部件,諸如介面或無線控制器940。
設備900可以包括可攜式電子設備、汽車、車輛、計算設備、通訊設備、物聯網路(IoT)設備、虛擬實境(VR)設備、智慧揚聲器、音箱、行動通訊設備、智慧型電話、蜂巢式電話、膝上型電腦、電腦、平板設備、個人數位助理、顯示設備、電視機、遊戲控制台、音樂播放機、無線電單元、數位視訊播放機、數位視訊光碟(DVD)播放機、調諧器、相機、導航設備、或其任何組合。在一個特定態樣中,處理器906、處理器910或其組合被包括在積體電路中。
結合所描述的實現方式,一種設備包括:用於儲存在不同時間段處的未經變換的全景聲係數的構件,其包括圖2A-圖2E、圖3A-圖3B、圖4A-圖4F、圖7A-圖7C的全景聲係數緩衝器215。該設備亦包括圖2A的一或多個處理器208和圖9的一或多個處理器910,其具有用於獲得在不同時間段處的未經變換的全景聲係數的構件,其中在不同時間段處的未經變換的全景聲係數表示在不同時間段處的聲場。圖2A的一或多個處理器208和圖9的一或多個處理器亦包括用於基於約束來將至少一個自我調整網路應用於在不同時間段處的未經變換的全景聲係數以產生在不同時間段處的經變換的全景聲係數的構件,其中經變換的全景聲係數在不同時間段處。
本領域技藝人士亦將明白的是,結合本文所揭示的實現方式來描述的各個說明性的邏輯區塊、配置、模組、電路和演算法步驟可以被實現為電子硬體、由處理器執行的電腦軟體、或這兩者的組合。上文已經對各種說明性的部件、方塊、配置、模組、電路和步驟均圍繞其功能進行了整體描述。此種功能是實現為硬體還是處理器可執行指令,取決於特定的應用和對整個系統施加的設計約束。本領域技藝人士可以針對每個特定應用,以變化的方式實現所描述的功能,此種實現方式決策將不被解釋為造成對本揭示內容的範圍的背離。
結合本文揭示的實現方式所描述的方法或者演算法的步驟可以直接地體現在硬體中、由處理器執行的軟體模組中、或者這兩者的組合中。軟體模組可以位於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、暫存器、硬碟、可移除磁碟、壓縮光碟唯讀記憶體(CD-ROM)、或本領域中已知的任何其他形式的非臨時性儲存媒體中。示例性的儲存媒體耦合到處理器,使得處理器可以從該儲存媒體讀取資訊以及向該儲存媒體寫入資訊。替代地,儲存媒體可以整合到處理器中。處理器和儲存媒體可以位於特殊應用積體電路(ASIC)中。該ASIC可以位於計算設備或者使用者終端中。替代地,處理器和儲存媒體可以作為個別部件位於計算設備或者使用者終端中。
下文在第一組相關聯的條款中描述了本揭示內容的特定態樣:
根據條款1B,一種方法包括:儲存在不同時間段處的未經變換的全景聲係數;獲得在該等不同時間段處的該等未經變換的全景聲係數,其中在該等不同時間段處的該等未經變換的全景聲係數表示在該等不同時間段處的聲場;及基於約束來將一個自我調整網路應用於在該等不同時間段處的該等未經變換的全景聲係數,以產生在該等不同時間段處的經變換的全景聲係數,其中在該等不同時間段處的該等經變換的全景聲係數表示基於該約束而修改的在該等不同時間段處的經修改的聲場。
條款2B包括如條款1B所述的方法,其中該約束包括保留在該等不同時間段處的該聲場中的一或多個音訊源的空間方向,並且在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場,在該等不同時間段處的該經修改的聲場包括具有所保留的空間方向的一或多個音訊源。
條款3B包括如條款2B所述的方法,進一步包括:壓縮該等經變換的全景聲係數,並且該方法進一步包括:在發送鏈路上發送經壓縮的經變換全景聲係數。
條款4B包括如條款2B所述的方法,進一步包括:接收經壓縮的經變換全景聲係數,並且該方法進一步包括:解壓縮該等經變換的全景聲係數。
條款5B包括如條款2B所述的方法,進一步包括:轉換該等未經變換的全景聲係數,並且該約束包括:保留在該聲場中來自車輛的揚聲器區域的一或多個音訊源的空間方向。
條款6B包括如條款2B所述的方法,進一步包括:額外的自我調整網路、以及被輸入到該額外的自我調整網路中的額外約束,該額外的自我調整網路被配置為輸出額外的經變換的全景聲係數,其中該額外約束包括保留與該約束不同的空間方向。
條款7B包括如條款6B所述的方法,進一步包括:將該等額外的經變換的全景聲係數和該等經變換的全景聲係數線性地相加。
條款8B包括如條款7B所述的方法,進一步包括:在第一空間方向上渲染該等經變換的全景聲係數,以及在不同的空間方向上渲染該等額外的經變換的全景聲係數。
條款9B包括如條款8B所述的方法,其中在該第一空間方向上的該等經變換的全景聲係數被渲染以在隱私區域中產生聲音。
條款10B包括如條款9B所述的方法,其中在該不同的空間方向上的該等額外的經變換的全景聲係數表示遮罩信號,並且被渲染以在該隱私區域外部產生聲音。
條款11B包括如條款9B所述的方法,其中在該隱私區域中的該聲音比在該隱私區域外部產生的聲音要大聲。
條款12B包括如條款9B所述的方法,其中隱私區域模式是回應於傳入或傳出的電話撥叫而被啟動的。
條款13B包括如條款1B所述的方法,其中該約束包括藉由縮放因數來縮放在該等不同時間段處的該聲場,其中該縮放因數的應用將在由在該等不同時間段處的該等未經變換的全景聲係數表示的該聲場中的至少第一音訊源放大,其中在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場,在該等不同時間段處的該經修改的聲場包括被放大的該至少第一音訊源。
條款14B包括如條款1B所述的方法,其中該約束包括藉由縮放因數來縮放在該等不同時間段處的該聲場,其中該縮放因數的應用將在由在該等不同時間段處的該等未經變換的全景聲係數表示的該聲場中的至少第一音訊源衰減,並且在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場,在該等不同時間段處的該經修改的聲場包括被衰減的該至少第一音訊源。
條款15B包括如條款1B所述的方法,其中該約束包括將藉由非理想麥克風陣列的麥克風位置擷取的在該等不同時間段處的該等未經變換的全景聲係數變換為在該等不同時間段處的該等經變換的全景聲係數,如同該等經變換的全景聲係數已經藉由理想麥克風陣列的麥克風位置擷取一樣,在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場。
條款16B包括如條款15B所述的方法,其中該理想麥克風陣列包括4個麥克風。
條款17B包括如條款15B所述的方法,其中該理想麥克風陣列包括32個麥克風。
條款18B包括如條款1B所述的方法,其中該約束包括經變換的全景聲係數的目標階數。
條款19B包括如條款1B所述的方法,其中該約束包括用於形狀因數的麥克風位置。
條款20B包括如條款19B所述的方法,其中該形狀因數為手持機。
條款21B包括如條款19B所述的方法,其中該形狀因數為眼鏡。
條款22B包括如條款19B所述的方法,其中該形狀因數是VR耳機或AR耳機。
條款23B包括如條款19B所述的方法,其中該形狀因數為音訊耳機。
條款24B包括如條款1B所述的方法,其中該等經變換的全景聲係數由第一音訊應用使用,該第一音訊應用包括由該一或多個處理器執行的指令。
條款25B包括如條款24B所述的方法,其中該第一音訊應用包括壓縮在該等不同時間段處的該等經變換的全景聲係數並且將其儲存在該記憶體中。
條款26B包括如條款25B所述的方法,其中經壓縮的在該等不同時間段處的經變換的全景聲係數是使用該設備和遠端設備之間的無線鏈路在空中發送的。
條款27B包括如條款25B所述的方法,其中該第一音訊應用進一步包括對該等經壓縮的在該等不同時間段處的經變換的全景聲係數進行解壓縮。
條款28B包括如條款24B所述的方法,其中該第一音訊應用包括渲染在該等不同時間段處的該等經變換的全景聲係數。
條款29B包括如條款28B所述的方法,其中該第一音訊應用進一步包括:執行關鍵字偵測以及基於該關鍵字偵測和該約束來控制設備。
條款30B包括如條款28B所述的方法,其中該第一音訊應用進一步包括:執行方向偵測以及基於該方向偵測和該約束來控制設備。
條款31B包括如條款28B所述的方法,進一步包括:經由擴音器來播放由渲染器渲染的在該等不同時間段處的該等經變換的全景聲係數。
條款32B包括如條款1B所述的方法,進一步包括:將該等未經變換的全景聲係數儲存在緩衝器中。
條款33B包括如條款32B所述的方法,進一步包括:利用麥克風陣列來擷取一或多個音訊源,該一或多個音訊源是由該全景聲係數緩衝器中的該等未經變換的全景聲係數來表示的。
條款34B包括如條款32B所述的方法,其中該等未經變換的全景聲係數是由內容建立者在發起設備的操作之前產生的。
條款35B包括如條款1B所述的方法,其中經變換的全景聲係數被儲存在記憶體中,並且該等經變換的全景聲係數是基於該約束來解碼的。
條款36B包括如條款1B所述的方法,其中該方法在被包括在車輛中的一或多個處理器中操作。
條款37B包括如條款1B所述的方法,其中該方法在被包括在XR耳機、VR耳機、音訊耳機或XR眼鏡中的一或多個處理器中操作。
條款38B包括根據條款1B所述的方法,進一步包括:將非理想麥克風陣列的麥克風信號輸出轉換為該等未經變換的全景聲係數。
條款39B包括如條款1B所述的方法,其中該等未經變換的全景聲係數表示具有包括偏置誤差的空間方向的音訊源。
條款40B包括如條款39B所述的方法,其中該約束校正該偏置誤差,並且由該自我調整網路輸出的該等經變換的全景聲係數表示不具有該偏置誤差的該音訊源。
根據條款1C,一種裝置包括:用於儲存在不同時間段處的未經變換的全景聲係數的構件;用於獲得在該等不同時間段處的該等未經變換的全景聲係數的構件,其中在該等不同時間段處的該等未經變換的全景聲係數表示在該等不同時間段處的聲場;及用於基於約束來將一個自我調整網路應用於在該等不同時間段處的該等未經變換的全景聲係數,以產生在該等不同時間段處的經變換的全景聲係數的構件,其中在該等不同時間段處的該等經變換的全景聲係數表示基於該約束而修改的在該等不同時間段處的經修改的聲場。
條款2C包括如條款1C所述的裝置,其中該約束包括用於保留在該等不同時間段處的該聲場中的一或多個音訊源的空間方向的構件,並且在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場,在該等不同時間段處的該經修改的聲場包括具有所保留的空間方向的一或多個音訊源。
條款3C包括如條款2C所述的裝置,進一步包括:用於壓縮該等經變換的全景聲係數的構件,並且該裝置進一步包括:用於在發送鏈路上發送經壓縮的經變換全景聲係數的構件。
條款4C包括如條款2C所述的裝置,進一步包括:用於接收經壓縮的經變換全景聲係數的構件,並且該裝置進一步包括:用於解壓縮該等經變換的全景聲係數的構件。
條款5C包括如條款2C所述的裝置,進一步包括:用於轉換該等未經變換的全景聲係數的構件,並且該約束包括:保留在該聲場中來自車輛的揚聲器區域的一或多個音訊源的空間方向。
條款6C包括如條款2C所述的裝置,進一步包括:額外的自我調整網路、以及被輸入到該額外的自我調整網路中的額外約束,該額外的自我調整網路被配置為輸出額外的經變換的全景聲係數,其中該額外約束包括保留與該約束不同的空間方向。
條款7C包括如條款6C所述的裝置,進一步包括:用於將該等額外的經變換的全景聲係數和該等經變換的全景聲係數相加的構件。
條款8C包括如條款7C所述的裝置,進一步包括:用於在第一空間方向上渲染該等經變換的全景聲係數的構件,以及用於在不同的空間方向上渲染該等額外的經變換的全景聲係數的構件。
條款9C包括如條款8C所述的裝置,其中在該第一空間方向上的該等經變換的全景聲係數被渲染以在隱私區域中產生聲音。
條款10C包括如條款9C所述的裝置,其中該等額外的經變換的全景聲係數表示遮罩信號,在該不同的空間方向上被渲染以在該隱私區域外部產生聲音。
條款11C包括如條款9C所述的裝置,其中在該隱私區域中的該聲音比在該隱私區域外部產生的聲音要大聲。
條款12C包括如條款9C所述的裝置,其中隱私區域模式是回應於傳入或傳出的電話撥叫而被啟動的。
條款13C包括如條款1C所述的裝置,其中該約束包括用於藉由縮放因數來縮放在該等不同時間段處的該聲場的構件,其中該縮放因數的應用將在由在該等不同時間段處的該等未經變換的全景聲係數表示的該聲場中的至少第一音訊源放大,其中在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場,在該等不同時間段處的該經修改的聲場包括被放大的該至少第一音訊源。
條款14C包括如條款1C所述的裝置,其中該約束包括用於藉由縮放因數來縮放在該等不同時間段處的該聲場的構件,其中該縮放因數的應用將在由在該等不同時間段處的該等未經變換的全景聲係數表示的該聲場中的至少第一音訊源衰減,並且在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場,在該等不同時間段處的該經修改的聲場包括被衰減的該至少第一音訊源。
條款15C包括如條款1C所述的裝置,其中該約束包括用於將藉由非理想麥克風陣列的麥克風位置擷取的在該等不同時間段處的該等未經變換的全景聲係數變換為在該等不同時間段處的該等經變換的全景聲係數,如同該等經變換的全景聲係數已經藉由理想麥克風陣列的麥克風位置擷取一樣的構件,在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的經修改的聲場。
條款16C包括如條款15C所述的裝置,其中該理想麥克風陣列包括4個麥克風。
條款17C包括如條款15C所述的裝置,其中該理想麥克風陣列包括32個麥克風。
條款18C包括如條款1C所述的裝置,其中該約束包括經變換的全景聲係數的目標階數。
條款19C包括如條款1C所述的裝置,其中該約束包括用於形狀因數的麥克風位置。
條款20C包括如條款19C所述的裝置,其中該形狀因數為手持機。
條款21C包括如條款19C所述的裝置,其中該形狀因數為眼鏡。
條款22C包括如條款19C所述的裝置,其中該形狀因數是VR耳機。
條款23C包括如條款19C所述的裝置,其中該形狀因數為AR耳機。
條款24C包括如條款1C所述的裝置,其中該等經變換的全景聲係數由第一音訊應用使用,該第一音訊應用包括由該一或多個處理器執行的指令。
條款25C包括如條款24C所述的裝置,其中該第一音訊應用包括用於壓縮在該等不同時間段處的該等經變換的全景聲係數並且將其儲存在該記憶體中的構件。
條款26C包括如條款25C所述的構件,其中經壓縮的在該等不同時間段處的經變換的全景聲係數是使用該設備和遠端設備之間的無線鏈路在空中發送的。
條款27C包括如條款25C所述的裝置,其中該第一音訊應用進一步包括用於對該等經壓縮的在該等不同時間段處的經變換的全景聲係數進行解壓縮的構件。
條款28C包括如條款24C所述的裝置,其中該第一音訊應用包括用於渲染在該等不同時間段處的該等經變換的全景聲係數的構件。
條款29C包括如條款28C所述的裝置,其中該第一音訊應用進一步包括:執行關鍵字偵測以及基於該關鍵字偵測和該約束來控制設備。
條款30C包括如條款28C所述的裝置,其中該第一音訊應用進一步包括:執行方向偵測以及基於該方向偵測和該約束來控制設備。
條款31C包括如條款28C所述的裝置,進一步包括:經由擴音器來播放由渲染器渲染的在該等不同時間段處的該等經變換的全景聲係數。
條款32C包括如條款1C所述的裝置,進一步包括:將該等未經變換的全景聲係數儲存在緩衝器中。
條款33C包括如條款32C所述的裝置,進一步包括:利用麥克風陣列來擷取一或多個音訊源,該一或多個音訊源是由該全景聲係數緩衝器中的該等未經變換的全景聲係數來表示的。
條款34C包括如條款32C所述的裝置,其中該等未經變換的全景聲係數是由內容建立者在發起設備的操作之前產生的。
條款35C包括如條款1C所述的裝置,其中經變換的全景聲係數被儲存在記憶體中,並且該等經變換的全景聲係數是基於該約束來解碼的。
條款36C包括如條款1C所述的裝置,其中該方法在被包括在車輛中的一或多個處理器中操作。
條款37C包括如條款1C所述的方法,其中該方法在被包括在XR耳機、VR耳機或XR眼鏡中的一或多個處理器中操作。
條款38C包括如條款1C所述的裝置,進一步包括:將非理想麥克風陣列的麥克風信號輸出轉換為該等未經變換的全景聲係數。
條款39C包括如條款1C所述的裝置,其中該等未經變換的全景聲係數表示具有包括偏置誤差的空間方向的音訊源。
條款40C包括如條款39C所述的裝置,其中該約束校正該偏置誤差,並且由該自我調整網路輸出的該等經變換的全景聲係數表示不具有該偏置誤差的該音訊源。
根據條款1D,一種具有儲存在其上的指令的非暫時性電腦可讀取儲存媒體,該等指令在被執行時使得一或多個處理器進行以下操作:儲存在不同時間段處的未經變換的全景聲係數;獲得在該等不同時間段處的該等未經變換的全景聲係數,其中在該等不同時間段處的該等未經變換的全景聲係數表示在該等不同時間段處的聲場;及基於約束來將一個自我調整網路應用於在該等不同時間段處的該等未經變換的全景聲係數,以產生在該等不同時間段處的經變換的全景聲係數,其中在該等不同時間段處的該等經變換的全景聲係數表示基於該約束而修改的在該等不同時間段處的經修改的聲場。
條款1D包括如條款2D所述的非暫時性電腦可讀取儲存媒體,包括:使得該一或多個處理器執行在本揭示內容的前述條款2B-40B中所述的步驟中的任何步驟。
提供對所揭示的態樣的先前描述,以使本領域技藝人士能夠實現或使用所揭示的態樣。對於本領域技藝人士而言,對該等態樣的各種修改將是容易顯而易見的,以及在不背離本揭示內容的範圍的情況下,本文中定義的原理可以應用於其他態樣。因此,本揭示內容不意欲限於本文中所圖示的態樣,而是要被賦予與藉由下文的請求項限定的原理和新穎特徵相一致的可能的最廣範圍。
25e:控制器 26:全景聲係數 30e:全景聲緩衝器 42a:方向性調整器A 42b:方向性調整器B 44:組合器 45:一階全景聲係數W X Y Z 66e:約束 68e:約束 70:目標全景聲係數 73e:理想麥克風類型 75e:約束 78:權重更新控制器 81:相似性損失度量器 83:類別損失度量器 84:組合器 85:約束 102a:麥克風設備 102b:麥克風設備 102c:麥克風設備 105:麥克風 201:設備 201r:遠端設備 204:相機 205:麥克風 205ia:麥克風 205ib:麥克風 206:顯示螢幕 208:處理器 210:方向嵌入器 211:音訊源 212a:全景聲轉換器 212b:全景聲轉換器 212ei:全景聲轉換器 212et:全景聲轉換器 212eti:全景聲轉換器 214:音訊方向 214a:方位角 214a1:第一方向 214a2:第二方向 214a3:第二方向 214b:仰角 214b1:第一方向 214b2:第二方向 214b3:第二方向 215:全景聲係數緩衝器 225:自我調整網路 225b:自我調整網路 225ba:自我調整網路 225bb:自我調整網路 225bc:自我調整網路 225e:自我調整網路 226:經變換的全景聲係數 226d:經變換的全景聲係數 226e:經變換的全景聲係數 228:全景聲係數自我調整變換器 230:渲染器 230a:渲染器 230b:渲染器 236:約束區塊 236a:約束區塊 236b:約束區塊 236e:約束區塊 237:誤差度量器 238:測試渲染器 240:擴音器 240aj:擴音器 240ia:擴音器 240ib:擴音器 240ic:擴音器 240id:擴音器 241a:擴音器 243a:第一音訊串流1 243b:第二音訊串流2 243c:第三音訊串流3 244:聲場縮放器 246:方向 254a:第一個人 254b:第二個人 260:約束 260a:約束 260b:約束 260c:約束 260d:約束 301a:發送鏈路 301b:無線鏈路 381:記憶體 382:發射器 383:解碼器 385:接收器 390:應用 390a:第一音訊應用 390b:第二音訊應用 390c:第一音訊應用 390d:音訊應用 392:音訊應用 396:全景聲係數 402:關鍵字偵測器 403:方向偵測器 480:編碼器 481:記憶體 483:解碼器 491:設備控制器 502:汽車儀表板設備 504:行動設備 514:圖像感測器 520:顯示器 522:收發機 720:串接 735a:回歸器 735b:RNN 735c:LSTM網路 740a:鑑別器 745a:狀態更新 745n:狀態更新 755:發射函數 800:方法 802:操作 804:操作 856:指令 900:設備 902:數位類比轉換器(DAC) 904:類比數位轉換器(ADC) 905:麥克風 906:處理器 910:額外處理器 922:系統級封裝或片上系統設備 926:顯示控制器 928:顯示器 930:輸入設備 932:控制器 934:轉碼器 940:無線控制器 942:接收天線 943:發射天線 944:電源供應器 950:接收器 952:記憶體 954:發射器
圖1示出根據本揭示內容的一些實例的示例性全景聲係數集合和可以用於擷取由全景聲係數表示的聲場的不同的示例性設備。
圖2A是根據本揭示內容的一些實例的可操作以利用約束和目標全景聲係數來執行對自我調整網路的權重的自我調整學習的系統的特定說明性實例的圖。
圖2B是根據本揭示內容的一些實例的可操作以利用約束和目標全景聲係數來執行對自我調整網路的權重的推斷及/或自我調整學習的系統的特定說明性實例的圖,其中約束包括使用方向。
圖2C是根據本揭示內容的一些實例的可操作以利用約束和目標全景聲係數來執行對自我調整網路的權重的推斷及/或自我調整學習的系統的特定說明性實例的圖,其中約束包括使用縮放值。
圖2D是根據本揭示內容的一些實例的可操作以利用多個約束和目標全景聲係數來執行自我調整網路的推斷及/或進行推斷的系統的特定說明性實例的圖,其中多個約束包括使用多個方向。
圖2E是根據本揭示內容的一些實例的可操作以利用約束和目標全景聲係數來執行對自我調整網路的權重的推斷及/或進行推斷及/或自我調整學習的系統的特定說明性實例的圖,其中約束包括以下各項中的至少一項:理想麥克風類型、目標階數、形狀因數麥克風位置、模型/形狀因數。
圖3A是根據本揭示內容的一些實例的可操作以結合一或多個音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖。
圖3B是根據本揭示內容的一些實例的可操作以結合一或多個音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖。
圖4A是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用使用編碼器和記憶體。
圖4B是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用編碼器、記憶體和解碼器。
圖4C是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用渲染器、關鍵字偵測器和設備控制器。
圖4D是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用渲染器、方向偵測器和設備控制器。
圖4E是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用渲染器。
圖4F是根據本揭示內容的一些實例的可操作以結合音訊應用、使用所學習的權重來執行自我調整網路的推斷的系統的特定說明性態樣的方塊圖,其中音訊應用包括使用在圖4C、圖4D和圖4E中描述的應用。
圖5A是根據本揭示內容的一些實例的可操作以執行自我調整網路的推斷的虛擬實境或增強現實眼鏡的圖。
圖5B是根據本揭示內容的一些實例的可操作以執行自我調整網路的推斷的虛擬實境或增強現實耳機的圖。
圖5C是根據本揭示內容的一些實例的可操作以執行自我調整網路的推斷的車輛的圖。
圖5D是根據本揭示內容的一些實例的可操作以執行自我調整網路的推斷的手持機的圖。
圖6A是根據本揭示內容的一些實例的可操作以執行自我調整網路225的推斷的設備的圖,其中該設備在不同的方向上渲染兩個音訊串流。
圖6B是根據本揭示內容的一些實例的可操作以執行自我調整網路225的推斷的設備的圖,其中該設備能夠擷取在講話者區域中的語音。
圖6C是根據本揭示內容的一些實例的可操作以執行自我調整網路225的推斷的設備的圖,其中該設備能夠渲染在隱私區域中的音訊。
圖6D是根據本揭示內容的一些實例的可操作以執行自我調整網路225的推斷的設備的圖,其中該設備能夠從不同的方向擷取至少兩個音訊源,在無線鏈路上將其發送給遠端設備,其中遠端設備能夠渲染音訊源。
圖7A是根據本揭示內容的一些實例的可操作以執行訓練的自我調整網路的圖,其中自我調整網路包括回歸器和鑑別器。
圖7B是根據本揭示內容的一些實例的可操作以執行推斷的自我調整網路的圖,其中自我調整網路是遞迴神經網路(RNN)。
圖7C是根據本揭示內容的一些實例的可操作以執行推斷的自我調整網路的圖,其中自我調整網路是長短期記憶體(LSTM)。
圖8是示出根據本揭示內容的一些實例的執行基於約束來應用至少一個自我調整網路的方法的流程圖。
圖9是根據本揭示內容的一些實例的可操作以執行基於約束來應用至少一個自我調整網路的設備的特定說明性實例的方塊圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
26:全景聲係數
70:目標全景聲係數
205:麥克風
210:方向嵌入器
211:音訊源
212a:全景聲轉換器
212b:全景聲轉換器
214:音訊方向
214a:方位角
214b:仰角
226:經變換的全景聲係數
228:全景聲係數自我調整變換器
230:渲染器
236a:約束區塊
240aj:擴音器
246:方向
260a:約束

Claims (31)

  1. 一種設備,包括: 一記憶體,其被配置為儲存在不同時間段處的未經變換的全景聲係數;及 一或多個處理器,其被配置為: 獲得在該等不同時間段處的該等未經變換的全景聲係數,其中在該等不同時間段處的該等未經變換的全景聲係數表示在該等不同時間段處的一聲場;並且 基於一約束來將一個自我調整網路應用於在該等不同時間段處的該等未經變換的全景聲係數,以產生在該等不同時間段處的經變換的全景聲係數,其中在該等不同時間段處的該等經變換的全景聲係數表示基於該約束而修改的、在該等不同時間段處的一經修改的聲場。
  2. 如請求項1所述的設備,其中該約束包括保留在該等不同時間段處的該聲場中的一或多個音訊源的一空間方向,並且在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的一經修改的聲場,在該等不同時間段處的該經修改的聲場包括具有所保留的該空間方向的該一或多個音訊源。
  3. 如請求項2所述的設備,進一步包括被配置為壓縮該等經變換的全景聲係數的一編碼器,並且進一步包括被配置在一發送鏈路上發送該等經壓縮的經變換全景聲係數的一發射器。
  4. 如請求項2所述的設備,進一步包括被配置為接收經壓縮的經變換全景聲係數的一接收器,並且進一步包括被配置為解壓縮該等經變換的全景聲係數的一解碼器。
  5. 如請求項2所述的設備,進一步包括一麥克風陣列,其被配置為:擷取被轉換為該等未經變換的全景聲係數的麥克風信號,並且該約束包括保留在該聲場中來自一車輛中的一揚聲器區域的一或多個音訊源的該空間方向。
  6. 如請求項2所述的設備,進一步包括一額外的自我調整網路、以及被輸入到該額外的自我調整網路的一額外約束,該額外的自我調整網路被配置為輸出額外的經變換的全景聲係數,其中該額外約束包括保留與該約束不同的一空間方向。
  7. 如請求項6所述的設備,進一步包括一組合器,其中該組合器被配置為將該等額外的經變換的全景聲係數和該等經變換的全景聲係數線性地相加。
  8. 如請求項7所述的設備,進一步包括一渲染器,其被配置為:在一第一空間方向上渲染該等經變換的全景聲係數,以及在一不同空間方向上渲染該等額外的經變換的全景聲係數。
  9. 如請求項8所述的設備,其中在該第一空間方向上的該等經變換的全景聲係數被渲染以在一隱私區域中產生聲音。
  10. 如請求項9所述的設備,其中在該不同的空間方向上的該等額外的經變換的全景聲係數表示一遮罩信號,並且被渲染以在該隱私區域外部產生聲音。
  11. 如請求項9所述的設備,其中在該隱私區域中的該聲音比在該隱私區域外部產生的聲音要大聲。
  12. 如請求項9所述的設備,其中一隱私區域模式是回應於一傳入或一傳出的電話撥叫而被啟動的。
  13. 如請求項1所述的設備,其中該約束包括藉由一縮放因數來縮放在該等不同時間段處的該聲場,其中該縮放因數的應用將在由在該等不同時間段處的該等未經變換的全景聲係數表示的該聲場中的至少一第一音訊源放大,其中在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的一經修改的聲場,在該等不同時間段處的該經修改的聲場包括被放大的該至少第一音訊源。
  14. 如請求項1所述的設備,其中該約束包括藉由一縮放因數來縮放在該等不同時間段處的該聲場,其中該縮放因數的應用將在由在該等不同時間段處的該等未經變換的全景聲係數表示的該聲場中的至少一第一音訊源衰減,並且在該等不同時間段處的該等經變換的全景聲係數表示在該等不同時間段處的一經修改的聲場,在該等不同時間段處的該經修改的聲場包括被衰減的該至少第一音訊源。
  15. 如請求項1所述的設備,該一或多個處理器基於執行一方向性調整,來將在一非理想麥克風陣列的不同麥克風位置處擷取的麥克風信號輸出轉換為未經變換的全景聲係數。
  16. 如請求項15所述的設備,其中該約束進一步包括校正由該方向性調整引入的一偏置誤差,並且由該自我調整網路輸出的該等經變換的全景聲係數表示不具有該偏置誤差的該音訊源。
  17. 如請求項15所述的設備,其中該等未經變換的全景聲係數是基於調整由一非理想麥克風陣列擷取的該等麥克風信號的該約束而被變換為經變換的全景聲係數,如同該等麥克風信號已經由一理想麥克風陣列中的在不同位置處的麥克風擷取一樣。
  18. 如請求項17所述的設備,其中該理想麥克風陣列包括4個麥克風或32個麥克風。
  19. 如請求項1所述的設備,其中該約束包括經變換的全景聲係數的目標階數。
  20. 如請求項1所述的設備,其中該約束包括用於一形狀因數的麥克風位置。
  21. 如請求項20所述的設備,其中該形狀因數是一手持機、眼鏡、VR耳機、AR耳機、被集成到一車輛中的另一設備,或音訊耳機。
  22. 如請求項1所述的設備,其中該等經變換的全景聲係數由一第一音訊應用使用,該第一音訊應用包括由該一或多個處理器執行的指令。
  23. 如請求項22所述的設備,其中該第一音訊應用包括壓縮在該等不同時間段處的該等經變換的全景聲係數並且將其儲存在該記憶體中。
  24. 如請求項23所述的設備,其中經壓縮的在該等不同時間段處的經變換的全景聲係數是使用在該設備和一遠端設備之間的一無線鏈路在該空中發送的。
  25. 如請求項22所述的設備,其中該第一音訊應用進一步包括對該等經壓縮的在該等不同時間段處的經變換的全景聲係數進行解壓縮。
  26. 如請求項22所述的設備,其中該第一音訊應用包括渲染器,該渲染器被配置為渲染在該等不同時間段處的該等經變換的全景聲係數。
  27. 如請求項22所述的設備,其中該第一音訊應用進一步包括耦合到一設備控制器的一關鍵字偵測器,該設備控制器被配置為基於該約束來控制該設備。
  28. 如請求項22所述的設備,其中該第一音訊應用進一步包括耦合到一設備控制器的一方向偵測器,該設備控制器被配置為基於該約束來控制該設備。
  29. 如請求項1所述的設備,進一步包括一或多個擴音器,其被配置為播放由該渲染器渲染的在該等不同時間段處的該等經變換的全景聲係數。
  30. 如請求項1所述的設備,其中該設備進一步包括一麥克風陣列,其被配置為擷取由該等未經變換的全景聲係數表示的一或多個音訊源。
  31. 如請求項1所述的設備,其中經變換的全景聲係數被儲存在該記憶體中,並且該設備進一步包括一解碼器,該解碼器被配置為基於該約束來對該等經變換的全景聲係數進行解碼。
TW110110568A 2020-03-24 2021-03-24 使用自我調整網路來對全景聲係數進行變換 TW202143750A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202062994158P 2020-03-24 2020-03-24
US202062994147P 2020-03-24 2020-03-24
US62/994,158 2020-03-24
US62/994,147 2020-03-24
US17/210,357 2021-03-23
US17/210,357 US11636866B2 (en) 2020-03-24 2021-03-23 Transform ambisonic coefficients using an adaptive network

Publications (1)

Publication Number Publication Date
TW202143750A true TW202143750A (zh) 2021-11-16

Family

ID=77854647

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110110568A TW202143750A (zh) 2020-03-24 2021-03-24 使用自我調整網路來對全景聲係數進行變換

Country Status (6)

Country Link
US (2) US11636866B2 (zh)
EP (1) EP4128222A1 (zh)
KR (1) KR20220157965A (zh)
CN (1) CN115335900A (zh)
TW (1) TW202143750A (zh)
WO (1) WO2021195159A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023086304A1 (en) * 2021-11-09 2023-05-19 Dolby Laboratories Licensing Corporation Estimation of audio device and sound source locations
US20230379645A1 (en) * 2022-05-19 2023-11-23 Google Llc Spatial Audio Recording from Home Assistant Devices

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9508340B2 (en) * 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN107852179B (zh) * 2015-08-05 2020-10-09 福特全球技术公司 用于车辆中声音方向检测的系统和方法
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
US10262665B2 (en) * 2016-08-30 2019-04-16 Gaudio Lab, Inc. Method and apparatus for processing audio signals using ambisonic signals
US10477310B2 (en) 2017-08-24 2019-11-12 Qualcomm Incorporated Ambisonic signal generation for microphone arrays
CN110544484B (zh) 2019-09-23 2021-12-21 中科超影(北京)传媒科技有限公司 高阶Ambisonic音频编解码方法及装置

Also Published As

Publication number Publication date
CN115335900A (zh) 2022-11-11
KR20220157965A (ko) 2022-11-29
US11636866B2 (en) 2023-04-25
US20230260525A1 (en) 2023-08-17
EP4128222A1 (en) 2023-02-08
US20210304777A1 (en) 2021-09-30
WO2021195159A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
CN109791769B (zh) 使用自适应捕捉从麦克风阵列生成空间音频信号格式
CN110537221B (zh) 用于空间音频处理的两阶段音频聚焦
RU2661775C2 (ru) Передача сигнальной информации рендеринга аудио в битовом потоке
US10477310B2 (en) Ambisonic signal generation for microphone arrays
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
CN112567763B (zh) 用于音频信号处理的装置和方法
US20230260525A1 (en) Transform ambisonic coefficients using an adaptive network for preserving spatial direction
EP3189521A1 (en) Method and apparatus for enhancing sound sources
JP2020500480A5 (zh)
US11575988B2 (en) Apparatus, method and computer program for obtaining audio signals
EP3643084A1 (en) Audio distance estimation for spatial audio processing
EP3643079A1 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
CN114449341B (zh) 音频处理方法、装置、可读介质及电子设备
US11646046B2 (en) Psychoacoustic enhancement based on audio source directivity
CN117529775A (zh) 用于获取空间元数据的装备、方法和计算机程序