TW202315427A - 用於空間化虛擬聲音來源之音訊系統 - Google Patents

用於空間化虛擬聲音來源之音訊系統 Download PDF

Info

Publication number
TW202315427A
TW202315427A TW111120235A TW111120235A TW202315427A TW 202315427 A TW202315427 A TW 202315427A TW 111120235 A TW111120235 A TW 111120235A TW 111120235 A TW111120235 A TW 111120235A TW 202315427 A TW202315427 A TW 202315427A
Authority
TW
Taiwan
Prior art keywords
sound source
virtual sound
audio system
target location
spectral profile
Prior art date
Application number
TW111120235A
Other languages
English (en)
Inventor
霍夫曼 帕布羅 法蘭西斯柯 法恩德茲
彼得 道茲
Original Assignee
美商元平台技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商元平台技術有限公司 filed Critical 美商元平台技術有限公司
Publication of TW202315427A publication Critical patent/TW202315427A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本發明描述一種用於空間化虛擬聲音來源之音訊系統。該音訊系統之一麥克風陣列經組態以監測一局部區域中之聲音。該音訊系統之一控制器使用來自該麥克風陣列之經監測聲音而識別該局部區域內之聲音來源,且判定其地點。該音訊系統之該控制器基於一或多個約束產生一虛擬聲音來源之一目標位置。該一或多個約束包括該目標位置與經識別聲音來源之經判定地點中之每一者相距至少一臨限距離。該控制器部分地基於該目標位置產生一或多個聲音濾波器,以使該虛擬聲音來源空間化。該音訊系統之一換能器陣列部分地基於該一或多個聲音濾波器呈現包括該虛擬聲音來源內容之經空間化音訊。

Description

用於空間化虛擬聲音來源之音訊系統
本發明大體上係關於人工實境系統,且更具體而言係關於使虛擬聲音來源空間化。
擴增實境及/或混合實境技術之承諾中之一者為能夠呈現與使用者環境中自然發生之聲音在感知上無法區分的虛擬聲音來源。在虛擬實境中,聲學來源之地點可藉由使用者所沉浸之虛擬世界之規則來預定義。在擴增實境及/或混合實境中,虛擬聲音來源之地點可藉由使用者實體世界之約束界定,或可在任意地點處呈現給使用者。在音訊源可自由地由軟體或硬體置放之情況下,虛擬聲音來源相對於環境中其他雜訊源之地點可影響所感知虛擬聲音來源之品質且可降低可理解性。在其他使用案例中,聲音可理解性可受聲音之特性影響,使得聲音之可理解性隨位置而變化。
本文中所描述之音訊系統經組態以使虛擬聲音來源空間化以用於沉浸式人工實境體驗。在一些具體實例中,音訊系統可由具有至少感測器、音訊換能器及音訊控制器之頭戴組代管。在其他具體實例中,音訊系統之組件可跨越多個已連接裝置(諸如智慧型手錶、智慧型手機及頭戴式頭戴組)散佈。音訊系統回應於一組約束而置放虛擬聲音來源。約束可包括例如虛擬聲音來源之位置無法在使用者之實體環境中之聲音來源的臨限距離內被空間化,或虛擬聲音來源應根據其頻譜輪廓被空間化。
音訊系統包括麥克風陣列、控制器及換能器陣列。麥克風陣列為監測局部區域中之聲音的兩個或更多個麥克風。局部區域可為音訊系統可偵測聲音(例如偵測範圍)之區域,或藉由諸如牆壁或地理之實體約束界定之區域。控制器自麥克風陣列接收經監測聲音,識別局部區域內之聲音來源,且判定聲音來源之地點。控制器基於約束判定虛擬聲音來源之目標位置,且基於目標位置產生聲音濾波器。換能器陣列部分地基於聲音濾波器呈現包括虛擬聲音來源之經空間化音訊內容,使得在目標位置處呈現虛擬聲音來源。
在一些具體實例中,音訊系統進一步經組態以針對諸如空間、時間、頻率屬性或其某一組合之特性分析聲音來源。聲音來源之特性可用於產生音訊系統之約束。音訊系統基於約束,判定使虛擬聲音來源空間化之目標位置。舉例而言,在會議呼叫之使用案例中,音訊系統可基於每一語音之頻譜輪廓判定呼叫者之語音之目標位置。音訊系統可基於多個約束判定虛擬聲音來源之目標位置。
音訊系統執行一種使虛擬聲音來源空間化之方法。方法包括利用麥克風陣列監測局部區域中之聲音。使用經監測聲音在局部區域中識別聲音來源。判定聲音來源之地點。判定使虛擬聲音來源空間化之目標位置。目標位置係基於一或多個約束,其包括目標位置與局部區域中之聲音來源之經判定地點中之每一者相距至少臨限距離。基於目標位置產生聲音濾波器。聲音濾波器可應用於虛擬聲音來源以使虛擬聲音來源空間化。部分地基於一或多個聲音濾波器呈現包括虛擬聲音來源之經空間化音訊內容。
在一些具體實例中,一種非暫時性電腦可讀取媒體經組態以儲存程式碼指令,該些程式碼指令在由裝置之處理器執行時致使裝置執行包含經由麥克風陣列監測局部區域中之聲音的步驟。處理經監測聲音以使用經監測聲音識別局部區域內之聲音來源,且判定聲音來源之地點。基於一或多個約束判定使虛擬聲音來源空間化之目標位置。基於目標位置產生聲音濾波器,且部分地基於聲音濾波器呈現包括虛擬聲音來源之經空間化音訊內容。
描述一種音訊系統,其基於對實體聲音場(例如,實體環境中之聲音)之時間、頻率及空間特性的分析,而使虛擬聲音來源智慧型地空間化。音訊系統可在減小過量認知負荷且提供較佳可理解性之位置中,使虛擬聲音來源空間化。
音訊系統包含麥克風陣列、控制器及換能器陣列。麥克風陣列監測局部區域中之聲音且將聲音資料傳達至控制器。麥克風陣列可包含複數個音訊感測器,每一音訊感測器具有音訊感測器可偵測聲音之偵測範圍。麥克風陣列之每一音訊感測器之偵測範圍的組合包含音訊系統監測聲音之局部區域。
音訊系統之控制器經組態以獲取經監測聲音且識別局部區域中之聲音來源。藉由比較經監測聲音之傳遞函數與儲存於控制器可存取之資料庫中的傳遞函數,聲音來源可由控制器識別。傳遞函數可指示聲音來源為由音訊系統之實體環境(局部區域)中之物件引起的人類語音或雜訊。諸如藉由到達方向分析或對麥克風陣列之個別感測器接收聲音之時間差的分析,控制器判定聲音來源之地點。
控制器判定虛擬聲音來源之目標位置。虛擬聲音來源可為例如引導音訊系統之使用者在某一方向上步行以到達其目的地之虛擬語音。虛擬聲音來源之其他實例可包括與同音訊系統相關聯之擴增實境遊戲相關聯的聲音、及會議呼叫上之參與者的語音。控制器判定虛擬聲音來源之目標位置,以最佳化音訊系統之使用者對虛擬聲音來源之可理解性。目標位置係基於一或多個約束判定,該些約束包括虛擬聲音來源之目標位置與局部區域中經識別之聲音來源之經判定地點中之每一者相距至少臨限距離。對目標位置之其他約束可與音訊系統之使用案例相關,例如會議呼叫、遊戲或步行方向。
控制器基於經判定目標位置產生聲音濾波器。聲音濾波器經組態以使虛擬聲音來源空間化,使得經濾波的虛擬聲音來源被音訊系統之使用者感知為來自目標位置。聲音濾波器可例如以某些頻率衰減聲音且以其他頻率放大聲音,以使虛擬聲音來源空間化。控制器將指令發送至換能器陣列以使用由控制器產生之聲音濾波器呈現經空間化音訊內容。
此外,系統採取當前使用案例作為輸入以便判定虛擬聲音來源之目標地點。舉例而言,若使用者正在接收告訴使用者左轉之地圖方向,則聽到來自使用者右側之此命令(亦即,虛擬聲音來源)將為不直觀的,即使其為基於實體聲音場之最佳地點。音訊系統考慮由使用案例強加之約束,且可替代地使虛擬聲音來源空間化,使得其似乎來自使用者之左前象限。
此外,經空間化聲音可極大地改良使用者在多語音情境下對話語之理解。將每一語音置放於顯然不同之空間地點處使得更好地區分多個語者的語音,且改良話語可理解性。音訊系統可使用每一語音之低頻能量與高頻能量之間的比率,來選擇沿著水平平面(例如方位角(azimuth angle))之目標位置。相比於在中頻率至高頻率下展現高能量之語音,在低頻率下具有高能量之語音特性可能更得益於較大耳間時間差(interaural time difference)。因而,音訊系統可在相對於音訊系統之使用者頭部之正中矢狀面(圖5中所展示)的高方位角處,使在低頻率下具有高能量之語音空間化。可使低頻語音空間化,例如,空間化在使用者之正中矢狀面左側70度,使得使用者左耳在右耳之前接收語音之聲音,從而產生較高ITD。相反地,高頻語音或在高頻率下具有高能量之語音可經空間化在相對於使用者之正中矢狀面的低方位角處,諸如0至15度,以確保虛擬聲音來源幾乎同時到達使用者耳朵,從而創造較低ITD。
與類似人工實境技術相比,所描述音訊系統改良或在一些具體實例中最佳化虛擬聲音來源相對於其頻譜輪廓之可理解性。其他音訊系統可僅基於虛擬約束而使虛擬聲音來源空間化,且忽略藉由音訊系統之實體環境改良之約束。舉例而言,在代管遊戲之先前音訊系統之情況下,音訊系統可根據虛擬環境使遊戲之虛擬聲音來源空間化。用於遊戲之經空間化虛擬聲音來源可重疊於音訊系統之實體環境中之真實聲音來源。虛擬及實體聲音來源之重疊阻礙使用者對聲音之理解,且增加使用者之認知負荷。藉由基於使用案例之頻率特性及約束使虛擬聲音來源空間化,即時音訊系統在先前空間化系統後改良且為使用者創建更舒適且沉浸式的體驗。
本發明之具體實例可包括人工實境系統,或可結合人工實境系統實施。人工實境為在呈現給使用者之前已以某一方式調整的實境之形式,其可包括例如虛擬實境(virtual reality;VR)、擴增實境(augmented reality;AR)、混合實境(mixed reality;MR)、混雜實境或其某一組合及/或衍生物。人工實境內容可包括完全產生內容,或與所捕捉(例如真實世界)內容組合之所產生內容。人工實境內容可包括視訊、音訊、觸覺反饋或其某一組合,其中之任一者可在單一通道中或在多個通道中(諸如,對查看者產生三維效應之立體聲視訊)呈現。另外,在一些具體實例中,人工實境亦可與用於在人工實境中產生內容及/或以其他方式用於人工實境中之應用、產品、配件、服務或其某一組合相關聯。提供人工實境內容之人工實境系統可實施於各種平台上,包括連接至主電腦系統之穿戴式裝置(例如頭戴組)、獨立穿戴式裝置(例如頭戴組)、行動裝置或計算系統,或能夠向一或多個查看者提供人工實境內容之任何其他硬體平台。
圖1A為根據一或多個具體實例之實施為眼部穿戴物裝置之頭戴組100的透視圖。在一些具體實例中,眼部穿戴物裝置為近眼顯示器(near eye display;NED)。一般而言,頭戴組100可穿戴於使用者之面部上,使得內容(例如媒體內容)使用顯示總成及/或音訊系統被呈現。然而,亦可使用頭戴組100,使得媒體內容以不同方式呈現給使用者。藉由頭戴組100呈現之媒體內容之實例包括一或多個影像、視訊、音訊或其某一組合。頭戴組100包括框架,且可包括包括一或多個顯示元件120之顯示總成、深度攝影機總成(depth camera assembly;DCA)、音訊系統及位置感測器190以及其他組件。雖然圖1A在頭戴組100上之實例地點中說明頭戴組100之組件,但組件可定位於頭戴組100上之別處、與頭戴組100配對之周邊裝置上或其某一組合。類似地,頭戴組100上可存在比圖1A中所展示的更多或更少之組件。
框架110固持頭戴組100之其他組件。框架110包括固持一或多個顯示元件120之前部部分,及附接至使用者頭部之末端零件(例如鏡腿)。框架110之前部部分橋接使用者之鼻子的頂部。末端零件之長度可為可調整的(例如,可調整的鏡腿長度)以適合不同使用者。末端零件亦可包括在使用者之耳朵後方捲曲之部分(例如,鏡腿尖端、耳承)。
一或多個顯示元件120向佩戴頭戴組100之使用者提供光。如所說明,頭戴組包括用於使用者之每一眼睛之顯示元件120。在一些具體實例中,顯示元件120產生提供至頭戴組100之眼框之影像光。眼框為在佩戴頭戴組100時使用者之眼睛所佔據的空間中之地點。舉例而言,顯示元件120可為波導顯示器。波導顯示器包括光源(例如,二維源、一或多個線源、一或多個點源等)及一或多個波導。來自光源之光經內耦合至一或多個波導中,該一或多個波導以在頭戴組100之眼框中存在光瞳複製的方式輸出光。可使用一或多個繞射光柵來完成來自一或多個波導之光的內耦合及/或外耦合。在一些具體實例中,波導顯示器包括掃描元件(例如,波導、鏡面等),該掃描元件在來自光源之光內耦合至一或多個波導中時掃描該光。應注意,在一些具體實例中,顯示元件120中之一或兩者為不透明,且並不傳輸來自頭戴組100周圍之局部區域的光。局部區域為環繞頭戴組100之區域。舉例而言,局部區域可為佩戴頭戴組100之使用者入內的一房間,或佩戴頭戴組100之使用者可外出且局部區域為外部區域。在此上下文中,頭戴組100產生VR內容。替代地,在一些具體實例中,顯示元件120中之一或兩者至少部分地透明,使得來自局部區域之光可與來自一或多個顯示元件之光組合以產生AR及/或MR內容。
在一些具體實例中,顯示元件120並不產生影像光,且替代地為將來自局部區域之光傳輸至眼框之透鏡。舉例而言,顯示元件120中之一或兩者可為不具有校正之透鏡(非處方)或處方透鏡(例如,單視覺、雙焦及三焦或漸進),以有助於校正使用者視力中之缺陷。在一些具體實例中,顯示元件120可經偏振及/或染色以保護使用者之眼睛免受太陽影響。
在一些具體實例中,顯示元件120可包括額外光學件區塊(圖中未示)。光學件區塊可包括將光自顯示元件120引導至眼框之一或多個光學元件(例如,透鏡、菲涅爾透鏡等)。光學件區塊可例如校正影像內容中之一些或全部中的像差,放大影像中之一些或全部,或其某一組合。
DCA判定環繞頭戴組100之局部區域之一部分的深度資訊。DCA包括一或多個成像裝置130及DCA控制器(圖1A中未示),且亦可包括照明器140。在一些具體實例中,照明器140利用光照明局部區域之一部分。光可為例如紅外(infrared;IR)、用於飛行時間之IR快閃等中之結構化光(例如,點圖案、條等)。在一些具體實例中,一或多個成像裝置130捕獲包括來自照明器140之光的局部區域之部分的影像。如所說明,圖1A展示單個照明器140及兩個成像裝置130。在替代具體實例中,不存在照明器140及至少兩個成像裝置130。
DCA控制器使用經捕獲影像及一或多個深度判定技術來計算局部區域之部分的深度資訊。深度判定技術可為例如直接飛行時間(time-of-flight;ToF)深度感測、間接ToF深度感測、結構化光、被動立體分析、主動立體分析(使用藉由來自照明器140之光添加至場景之紋理)、用以判定場景之深度的某一其他技術,或其某一組合。
音訊系統提供音訊內容。音訊系統包括能夠偵測、監測、追蹤及使聲音來源空間化之換能器陣列、感測器陣列及音訊控制器150。然而,在其他具體實例中,音訊系統可包括不同及/或額外組件。類似地,在一些情況下,參考音訊系統之組件所描述之功能性可以與在此處所描述之方式不同的方式輪廓於組件當中。舉例而言,控制器之功能中的一些或全部可由遠端伺服器執行。
換能器陣列向使用者呈現聲音。換能器陣列包括複數個換能器。換能器可為揚聲器160或組織換能器170(例如,骨傳導換能器或軟骨傳導換能器)。儘管揚聲器160展示於框架110外部,但揚聲器160可密封於框架110中。在一些具體實例中,代替每一耳朵之個別揚聲器,頭戴組100包括揚聲器陣列,其包含整合至框架110中之多個揚聲器以改良所呈現音訊內容之方向性。組織換能器170耦接至使用者之頭部且直接振動使用者之組織(例如,骨或軟骨),以產生聲音。換能器之數目及/或地點可不同於圖1A中所展示之數目及/或地點。
感測器陣列偵測頭戴組100之局部區域內之聲音。感測器陣列包括複數個聲學感測器180。聲學感測器180捕獲自局部區域(例如房間)中之一或多個聲音來源發出之聲音。每一聲學感測器經組態以偵測聲音,且將經偵測聲音轉換成電子格式(類比或數位)。聲學感測器180可為聲波感測器、麥克風、聲音換能器或適合於偵測聲音之類似感測器。
在一些具體實例中,一或多個聲學感測器180可置放於每一耳朵之耳道中(例如,充當雙耳麥克風)。在一些具體實例中,聲學感測器180可置放於頭戴組100之外部表面上,置放於頭戴組100之內部表面上,與頭戴組100(例如,一些其他裝置之部分)分離,或其某一組合。聲學感測器180之數目及/或地點可不同於圖1A中所展示之數目及/或地點。舉例而言,可增加聲學偵測地點之數目以增加所收集之音訊資訊的量及資訊之靈敏度及/或準確度。聲學偵測地點可經定向以使得麥克風能夠在環繞佩戴頭戴組100之使用者的廣泛範圍之方向上偵測聲音。
音訊控制器150處理來自感測器陣列之描述由感測器陣列所偵測之聲音的資訊。音訊控制器150可包含處理器及電腦可讀取儲存媒體。音訊控制器150可經組態以產生到達方向(direction of arrival;DOA)估計,產生聲傳遞函數(例如,陣列傳遞函數及/或頭部相關傳遞函數),追蹤聲音來源之地點,在聲音來源之方向上形成波束,對聲音來源進行分類,產生揚聲器160之聲音濾波器,或其某一組合。
音訊控制器150進一步經組態以使虛擬聲音來源空間化。音訊控制器150可自感測器陣列(例如聲學感測器180)接收資料,且創造音訊系統之局部區域中之聲音來源的映射。音訊控制器150可創造聲音濾波器,以在不與局部區域中之聲音來源共定位之位置處使虛擬聲音來源空間化。經由換能器陣列(例如揚聲器160)輸出經濾波及空間化之虛擬聲音來源。音訊控制器150可另外自成像裝置130或位置感測器190接收輸入,且處理輸入資料以計算空間化聲音濾波器。
位置感測器190回應於頭戴組100之運動而產生一或多個量測信號。位置感測器190可定位於頭戴組100之框架110之一部分上。位置感測器190可包括慣性量測單元(inertial measurement unit;IMU)。位置感測器190之實例包括:一或多個加速度計、一或多個陀螺儀、一或多個磁力計、偵測運動之另一合適類型的感測器、用於IMU之錯誤校正的一種類型的感測器,或其某一組合。位置感測器190可定位於IMU外部、IMU內部,或其某一組合。
在一些具體實例中,頭戴組100可提供用於頭戴組100之位置之同步定位與映射(simultaneous localization and mapping;SLAM)及局部區域之模型之更新。舉例而言,頭戴組100可包括產生彩色影像資料之被動攝影機總成(passive camera assembly;PCA)。PCA可包括捕獲局部區域中之一些或全部的影像之一或多個RGB攝影機。在一些具體實例中,DCA之成像裝置130中之一些或全部亦可充當PCA。藉由PCA捕獲之影像及藉由DCA判定之深度資訊可用於判定局部區域之參數,產生局部區域之模型,更新局部區域之模型,或其某一組合。此外,位置感測器190追蹤頭戴組100在房間內之位置(例如,地點及姿勢)。關於頭戴組100之組件之額外細節在下文結合圖6論述。
圖1B為根據一或多個具體實例之實施為HMD之頭戴組105的透視圖。在描述AR系統及/或MR系統之具體實例中,HMD之前側之部分在可見頻帶(約380 nm至750 nm)中至少部分地透明,且HMD之在HMD之前側與使用者眼睛之間的部分至少部分地透明(例如,部分透明的電子顯示器)。HMD包括前部剛體115及帶175。頭戴組105包括上文參考圖1A所描述但經修改以與HMD外觀尺寸整合之許多相同組件。舉例而言,HMD包括顯示總成、DCA、音訊系統及位置感測器190。圖1B展示照明器140、複數個揚聲器160、複數個成像裝置130、複數個聲學感測器180及位置感測器190。揚聲器160可定位於各個地點中,諸如耦接至帶175(如所展示),耦接至前部剛體115,或可經組態以插入於使用者之耳道內。
進一步參考圖2所描述之音訊系統使用頭戴組100/105之硬體組件來判定使虛擬聲音來源空間化之地點。成像裝置130可由音訊系統使用,以捕獲實體環境之影像。影像用於映射佩戴頭戴組之使用者的實體環境。實體環境中之物件可在虛擬柵格中映射,使得音訊系統避免在實體物件之座標處置放虛擬聲音來源。聲學感測器180可偵測實體環境中(例如,作為感測器180之偵測區域的局部區域內)之聲音來源,使得音訊系統可識別哪些實體物件為實體聲音來源,如圖4中所描述。音訊控制器150自成像裝置130及聲學感測器180接收感測器資料,且計算使虛擬聲音來源空間化之目標位置。音訊控制器150將一或多個濾波器施加至虛擬聲音來源,以便產生經空間化音訊內容虛擬聲音來源。換能器陣列向使用者呈現經空間化音訊內容。經空間化音訊內容為似乎源自特定方向及/或目標區(例如,局部區域中之物件及/或虛擬物件)之音訊內容。
圖2為根據一或多個具體實例之經組態以使虛擬聲音來源空間化之音訊系統200的方塊圖。圖1A或圖1B中之音訊系統可為音訊系統200之具體實例。音訊系統200為使用者產生一或多個聲傳遞函數。音訊系統200可接著使用一或多個聲傳遞函數來為使用者產生音訊內容。在圖2之具體實例中,音訊系統200包括換能器陣列210、感測器陣列220及音訊控制器230。音訊系統200之一些具體實例具有與本文中所描述之組件不同的組件。類似地,在一些情況下,功能可以與此處描述之方式不同的方式輪廓於組件當中。
換能器陣列210經組態以呈現音訊內容。換能器陣列210包括複數個換能器。換能器為一裝置,其提供包括經空間化虛擬聲音來源之音訊內容。換能器可為例如揚聲器(例如揚聲器160)、組織換能器(例如組織換能器170)、提供音訊內容之某一其他裝置,或其某一組合。組織換能器可經組態以充當骨傳導換能器或軟骨傳導換能器。換能器陣列210可經由空氣傳導(例如,經由一或多個揚聲器)、經由骨傳導(經由一或多個骨傳導換能器)、經由軟骨傳導音訊系統(經由一或多個軟骨傳導換能器)或其某一組合呈現音訊內容。在一些具體實例中,換能器陣列210可包括一或多個換能器以覆蓋頻率範圍之不同部分。舉例而言,壓電換能器可用於覆蓋頻率範圍之第一部分,且移動線圈換能器可用於覆蓋頻率範圍之第二部分。
骨傳導換能器藉由振動使用者之頭部中之骨/組織來產生聲學壓力波。骨傳導換能器可耦接至頭戴組之一部分,且可經組態以在耦接至使用者之頭骨之一部分的耳廓後方。骨傳導換能器自音訊控制器230接收振動指令,且基於所接收指令振動使用者頭骨之一部分。來自骨傳導換能器之振動產生組織承載聲學壓力波,該組織承載聲學壓力波朝向使用者之耳蝸傳播,從而繞過鼓膜。
軟骨傳導換能器藉由振動使用者之耳朵之耳軟骨的一或多個部分來產生聲學壓力波。軟骨傳導換能器可耦接至頭戴組之一部分,且可經組態以耦接至耳朵之耳軟骨的一或多個部分。舉例而言,軟骨傳導換能器可耦接到使用者之耳朵之耳廓的背面。軟骨傳導換能器可定位於沿著外耳周圍之耳軟骨的任何地方(例如,耳廓、耳屏、耳軟骨之一些其他部分或其某一組合)。振動耳軟骨之一或多個部分可產生:耳道外部之空氣運載的聲學壓力波;組織運載的聲學壓力波,其致使耳道之一些部分振動,藉此在耳道內產生空氣運載的聲學壓力波;或其某一組合。所產生空氣運載的聲學壓力波沿耳道朝向耳鼓膜傳播。
換能器陣列210根據來自音訊控制器230之指令產生音訊內容。在一些具體實例中,使音訊內容空間化。經空間化音訊內容為似乎源自特定方向及/或目標區(例如,局部區域中之物件及/或虛擬物件)之音訊內容。舉例而言,經空間化音訊內容可使得似乎聲音源自來自音訊系統200之使用者之房間內的虛擬演唱者。換能器陣列210可自聲音空間化模組280及聲音濾波器模組290接收指令以提供經濾波或空間化聲音。換能器陣列210可耦接至穿戴式裝置(例如,頭戴組100或頭戴組105)。在替代具體實例中,換能器陣列210可為與穿戴式裝置分離(例如,耦接至外部控制台)之複數個揚聲器。
感測器陣列220偵測及監測環繞感測器陣列220之局部區域內之聲音。局部區域可包含感測器陣列220之偵測範圍。感測器陣列220可包括複數個聲學感測器,該複數個聲學感測器各自偵測聲波之空氣壓力變化,且將經偵測聲音轉化成電子格式(類比或數位)。複數個聲學感測器可定位於頭戴組(例如,頭戴組100及/或及/或頭戴組105)上、使用者上(例如,使用者之耳道中)、頸帶上,或其某一組合。聲學感測器可為例如麥克風、振動感測器、加速度計或其任何組合。在一些具體實例中,感測器陣列220經組態以使用複數個聲學感測器中之至少一些,監測藉由換能器陣列210產生之音訊內容。增加感測器之數目可改良描述藉由換能器陣列210產生之聲音場,及/或來自局部區域之聲音的資訊(例如方向性)之準確度。
音訊控制器230控制音訊系統200之操作。在圖2之具體實例中,音訊控制器230包括資料儲存器235、DOA估計模組240、傳遞函數模組250、追蹤模組260、波束成形模組270、聲音空間化模組280及聲音濾波器模組290。在一些具體實例中,音訊控制器230可定位於頭戴組內部。音訊控制器230之一些具體實例具有與此處所描述之組件不同的組件。類似地,功能可以與此處所描述之方式不同的方式輪廓於組件當中。舉例而言,控制器之一些功能可在頭戴組外部執行。使用者可選擇允許音訊控制器230將藉由頭戴組捕獲之資料傳輸至頭戴組外部之系統,且使用者可選擇控制對任何此類資料之存取的隱私設定。
資料儲存器235儲存供音訊系統200使用之資料。資料儲存器235中之資料可包括記錄於音訊系統200之局部區域中的聲音、音訊內容、頭相關傳遞函數(head-related transfer function;HRTF)、用於一或多個感測器之傳遞函數、用於聲學感測器中之一或多者的陣列傳遞函數(array transfer function;ATF)、聲音來源之地點、虛擬聲音來源之地點、局部區域之虛擬模型、到達方向估計、聲音濾波器、頻譜輪廓、聲音來源之頻譜輪廓、用於空間化之約束、使用案例及供音訊系統200使用之其他相關資料,或其任何組合。舉例而言,資料儲存器235可儲存描述音訊系統200已捕獲之聲音或語音之頻率內容的頻譜輪廓。資料儲存器235亦可儲存音訊系統200之地點資料。
使用者可選擇允許資料儲存器235記錄藉由音訊系統200捕獲之資料。在一些具體實例中,音訊系統200可始終採用記錄,其中音訊系統200記錄藉由音訊系統200捕獲之所有聲音,以便諸如藉由允許音訊系統藉由其先前記錄之傳遞函數辨識聲音來源來改良使用者之體驗。使用者可選擇加入或選擇退出,以允許或防止音訊系統200記錄、儲存所記錄資料或將所記錄資料傳輸至其他實體。
DOA估計模組240經組態以部分地基於來自感測器陣列220之資訊而定位局部區域中之聲音來源。定位為判定聲音來源相對於音訊系統200之使用者位於何處之過程。DOA估計模組240執行DOA分析,以定位局部區域內之一或多個聲音來源。DOA分析可包括分析感測器陣列220處之每一聲音的強度、頻譜及/或到達時間以判定聲音所源自之方向。在一些情況下,DOA分析可包括用於分析音訊系統200所位於的周圍聲環境之任何合適的演算法。DOA估計模組240可用於偵測音訊系統200之實體環境中的物件及聲音來源之位置,使得音訊控制器230可設定約束,以避免在與實體物件或聲音來源相同之位置處使虛擬聲音來源空間化。
舉例而言,DOA分析可經設計以自感測器陣列220接收輸入信號,且將數位信號處理演算法應用於輸入信號以估計到達方向。此等演算法可包括例如延遲及求和演算法,其中對輸入信號進行取樣,且把經取樣信號之所得經加權及延遲版本一起求平均以判定DOA。最小均方(least mean squared;LMS)演算法亦可經實施以創造適應性濾波器。此適應性濾波器可接著用於識別例如信號強度之差或到達時間之差。此等差可接著用於估計DOA。在另一具體實例中,可藉由將輸入信號轉換成頻域、且在時頻(time-frequency;TF)域內選擇特定區間來處理而判定DOA。每一選定TF區間可經處理以判定彼區間是否包括具有直接路徑音訊信號之音訊頻譜的一部分。可接著分析具有直接路徑信號之一部分的彼等區間,以識別感測器陣列220接收直接路徑音訊信號之角度。經判定角度可接著用於識別用於所接收輸入信號之DOA。上文所列之其他演算法亦可單獨或結合以上演算法使用以判定DOA。
在一些具體實例中,DOA估計模組240亦可判定相對於局部區域內之音訊系統200之絕對位置的DOA。可自外部系統接收(例如,頭戴組之某一其他組件、人工實境控制台、映射伺服器、位置感測器(例如位置感測器190)等)感測器陣列220之位置。外部系統可創造局部區域之虛擬模型,其中映射音訊系統200之局部區域及位置。所接收位置資訊可包括音訊系統200中之一些或全部(例如,感測器陣列220)之地點及/或位向。DOA估計模組240可基於所接收位置資訊更新所估計DOA。
傳遞函數模組250經組態以產生一或多個聲傳遞函數。一般而言,傳遞函數為得出每一可能輸入值之對應輸出值之數學函數。基於經偵測聲音之參數,傳遞函數模組250產生與音訊系統相關聯之一或多個聲傳遞函數。聲傳遞函數可為陣列傳遞函數(ATF)、頭相關傳遞函數(HRTF)、其他類型之聲傳遞函數,或其某一組合。ATF特性化麥克風如何自空間中之點接收聲音。
ATF包括數個傳遞函數,其特性化聲音來源與藉由感測器陣列220中之聲學感測器所接收之對應聲音之間的關係。因此,對於聲音來源,存在用於感測器陣列220中之聲學感測器中之每一者的對應傳遞函數。且共同地,傳遞函數之集合稱為ATF。因此,對於每一聲音來源,存在對應ATF。應注意,聲音來源可為例如在局部區域、使用者或換能器陣列210之一或多個換能器中產生聲音之某人或某物。歸因於影響在聲音行進至使用者之耳朵時之個人的解剖結構(例如,耳朵形狀、肩部等),用於相對於感測器陣列220之特定聲音來源地點的ATF在使用者與使用者之間可不同。因此,針對音訊系統200之每一使用者使感測器陣列220之ATF個人化。
在一些具體實例中,傳遞函數模組250判定用於音訊系統200之使用者之一或多個HRTF。傳遞函數模組250可判定音訊系統之使用者之HRFT,以更準確地對聲音來源進行濾波以用於空間化。HRTF特性化耳朵如何自空間中之點接收聲音。歸因於影響在聲音行進至個人之耳朵時之個人的解剖結構(例如,耳朵形狀、肩部等),用於相對於個人之特定來源地點的HRTF對於個人之每一耳朵係唯一的(且對於個人係唯一的)。HRFT可表示與使用者之正中矢狀面對準的使用者之傳遞函數。換言之,HRFT表示使用者沿正中矢狀面發出之聲音的傳遞函數。在一些具體實例中,傳遞函數模組250可使用校準過程判定使用者之HRTF。在一些具體實例中,傳遞函數模組250可將關於使用者之資訊提供至遠端系統。使用者可調整隱私設定,以允許或防止傳遞函數模組250將關於使用者之資訊提供至任何遠端系統。遠端系統判定使用例如機器學習為使用者定制之HRTF之集合,且將經定製之HRTF之集合提供至音訊系統200。
追蹤模組260經組態以追蹤一或多個聲音來源之地點。追蹤模組260可比較當前DOA估計,且將其與先前DOA估計之所儲存歷史進行比較。在一些具體實例中,音訊系統200可在週期性排程上重新計算DOA估計,諸如每秒一次或每毫秒一次。追蹤模組可將當前DOA估計與先前DOA估計進行比較,且回應於聲音來源之DOA估計之改變,追蹤模組260可判定聲音來源移動。在一些具體實例中,追蹤模組260可基於自頭戴組或某一其他外部源所接收之視覺資訊而偵測地點之改變。追蹤模組260可隨著時間推移追蹤一或多個聲音來源之移動。在聲音空間化之情況下,追蹤模組260可追蹤音訊系統200之局部區域中之聲音來源,且創造其地點之映射。映射可由聲音空間化模組280使用,以避免與呈現於局部區域中之聲音來源共定位虛擬聲音來源。追蹤模組260可在每一時間點處儲存聲音來源之數目及每一聲音來源之地點的值。回應於聲音來源之數目或地點之值的改變,追蹤模組260可判定聲音來源移動。追蹤模組260可計算定位變化之估計。定位變化可用作用於移動之改變之每一判定的信賴等級。
波束成形模組270經組態以處理一或多個ATF,以選擇性地強調來自某一區域內之聲音來源的聲音,同時反強調來自其他區域之聲音。在分析藉由感測器陣列220偵測之聲音中,波束成形模組270可組合來自不同聲學感測器之資訊,以強調來自局部區域之特定區之相關聯聲音,同時反強調來自該區外部之聲音。波束成形模組270可基於例如來自DOA估計模組240及追蹤模組260之不同DOA估計,而將與來自特定聲音來源之聲音相關聯的音訊信號與局部區域中之其他聲音來源分離。波束成形模組270可因此選擇性地分析局部區域中之離散聲音來源。在一些具體實例中,波束成形模組270可增強來自聲音來源之信號。舉例而言,波束成形模組270可應用消除某些頻率以上、以下或之間的信號之聲音濾波器。信號增強用以相對於藉由感測器陣列220所偵測之其他聲音增強與給定經識別聲音來源相關聯的聲音。
音訊系統200之聲音空間化模組280判定置放虛擬聲音來源之目標位置。虛擬聲音來源之置放可基於約束來選擇,以最佳化聲音之可理解性或AR體驗之沉浸度。約束可基於由聲音空間化模組280利用來自音訊系統200或頭戴組之資料識別的使用案例。舉例而言,音訊系統之使用者可啟動音訊系統正向使用者提供導航提示之模式。此模式之啟動作為經識別使用案例傳送至聲音空間化模組280。聲音空間化模組可存取與經識別使用案例相關之約束的資料庫,以便產生經空間化虛擬聲音來源。舉例而言,與導航提示相關聯之約束可包括提示聲音在使用者應行進之方向上經空間化。一些使用案例可具有多個相關聯約束,在此情況下,約束可以重要性之順序經加權或排序以避免衝突約束。約束亦可基於除使用案例以外之因素,諸如音訊系統之實體環境。
聲音空間化模組280可與追蹤模組260通信,以在聲音來源改變時更新聲音來源之地點,且作為回應更新虛擬聲音來源應經空間化之地點。舉例而言,聲音空間化模組280可具有約束,即虛擬聲音來源不應與實體環境中之物件及聲音來源共定位、或共定位於其臨限距離內。模組280可因此改變將虛擬聲音來源空間化的位置,在該位置處虛擬聲音來源被空間化為實體環境改變位置中之聲音來源。聲音空間化模組280可使用傳遞函數模組250,來創造聲音來源之傳遞函數或結合聲音濾波器模組290,來計算用於使虛擬聲音來源空間化之聲音濾波器的傳遞函數。
在涉及會議呼叫之另一使用案例中,聲音空間化模組280可基於約束而使虛擬聲音來源(例如,呼叫參與者語音)空間化以改良可理解性。在會議呼叫之前,音訊系統可收集音訊系統之使用者先前已與之進行會議呼叫的會議呼叫參與者之頻譜輪廓。音訊系統可儲存使用者之一或多個連絡人的頻譜輪廓。頻譜輪廓可藉由音訊系統計算,或可藉由其他呼叫參與者之音訊系統傳輸至使用者之音訊系統。同樣地,音訊系統可將使用者之頻譜輪廓傳輸至呼叫參與者之其他音訊系統。頻譜輪廓描述呈現於呼叫參與者之語音中的音訊頻率之頻譜。頻譜輪廓可由聲音空間化模組280使用以設定約束。此外,音訊系統亦可計算每一語音之高頻與低頻(HF/LF)比率。
聲音空間化模組280基於其頻譜輪廓、HF/LF比率或其某一組合而使呼叫參與者之虛擬聲音來源空間化。音訊系統分析頻譜輪廓以特性化呈現於語音中之頻率,且基於頻譜輪廓判定使包含語音之虛擬聲音來源空間化的角度。對頻譜輪廓之分析可包括將頻譜輪廓相互比較地映射。舉例而言,頻譜輪廓可根據其HF/LF值排序。每一語音可接著根據排序經空間化,使得具有高HF/LF值之頻譜輪廓的語音在招致低ITD之位置處經空間化,且具有低HF/LF值之語音在招致較高ITD之位置處經空間化。在此具體實例中,具有最高頻語音之呼叫參與者可最接近使用者之正中矢狀面經空間化,而其他參與者可在較高方位角處經空間化,且因此與使用者之正中矢狀面相距更遠。在多個呼叫參與者具有類似HF/LF值之頻譜輪廓的情形下,彼等呼叫參與者之語音可在彼此相距之設定距離處經空間化,以避免與其語音相關聯之虛擬聲音的重疊。舉例而言,聲音空間化模組280可遵循約束以使所有虛擬聲音空間化,其中在其方位角上具有至少10度之分離度。
一旦會議呼叫開始,具有未知頻譜輪廓之呼叫參與者便可經空間化至預設位置,直至音訊系統計算其頻譜輪廓為止。具有已知頻譜輪廓之呼叫參與者基於其頻譜輪廓而經空間化至目標方位角。若音訊系統注意到頻譜輪廓已稍微改變,或若多個呼叫參與者具有類似頻譜輪廓且需要重新經空間化以避免共定位多個呼叫參與者之虛擬聲音來源,則可在整個呼叫期間更新目標角度。在一些具體實例中,基於頻譜輪廓之特性映射或圖示呼叫參與者之頻譜輪廓。在各種具體實例中,基於所圖示之特性採用多個形狀(例如,線性、S形)之間的映射,然而,每一頻譜輪廓之間的關係保持單調。
進一步參考圖5描述會議呼叫參與者之位置。
聲音濾波器模組290產生換能器陣列210之聲音濾波器。在一些具體實例中,聲音濾波器使得音訊內容經空間化,使得音訊內容似乎源自目標區。聲音濾波器模組290可使用HRTF及/或聲學參數來產生聲音濾波器。聲學參數描述局部區域之聲學性質。聲學參數可包括例如殘響時間、殘響等級、室內脈衝回應等。在一些具體實例中,聲音濾波器模組290計算聲學參數中之一或多者。在一些具體實例中,聲音濾波器模組290自映射伺服器(例如,如下文關於圖6所描述)請求聲學參數。聲音濾波器模組290將聲音濾波器提供至換能器陣列210。在一些具體實例中,聲音濾波器可引起隨頻率變化之聲音的正或負放大。
圖3為說明根據一或多個具體實例之用於使音訊內容空間化之過程的流程圖。圖3中所展示之過程300可藉由音訊系統(例如音訊系統200)之組件來執行。在其他具體實例中,其他實體可執行圖3中之步驟中之一些或全部。具體實例可包括不同及/或額外步驟,或以不同次序執行該些步驟。
音訊系統200使用麥克風陣列監測310局部區域中之聲音。麥克風陣列可經組態以在音訊系統200在使用中時始終接通,或可以設定頻率在一段時間進行取樣。音訊系統200可經組態以僅收集高於特定分貝範圍之音訊資料,使得有利於進一步處理。舉例而言,過於安靜之聲音來源可不由音訊系統處理。
音訊系統200識別320局部區域中之聲音來源。音訊控制器(例如音訊控制器150)可經組態以獲取藉由麥克風陣列收集之樣本且處理音訊資料。可針對空間、時間或頻率特性分析來自麥克風陣列之音訊資料。在一些具體實例中,音訊控制器可將音訊資料與先前藉由麥克風陣列所接收且局部地儲存於裝置(例如頭戴組100/105)中或與裝置通信之伺服器處的資料進行比較。
音訊系統200判定330局部區域中之聲音來源之地點。可自經由成像系統(例如成像裝置130)、深度攝影機總成、藉由麥克風陣列捕獲之聲音或其某一組合收集之資料判定聲音來源之地點。自成像系統、DCA、麥克風陣列或其某一組合收集之資料,藉由音訊系統200之控制器(諸如,藉由DOA分析或影像處理)處理以判定聲音來源之地點。回應於判定局部區域中之聲音來源之地點,音訊系統可設定一約束,其規定虛擬聲音來源之目標位置並不與聲音來源共定位或共定位於其臨限距離內。音訊系統可另外設定一約束,以不將虛擬聲音來源定位於在局部區域之未識別為聲音來源的經偵測物件之臨限距離內。
音訊系統200基於一或多個約束產生340虛擬聲音來源之一目標位置。一或多個約束包括目標位置與經識別聲音來源之經判定地點中之每一者相距至少臨限距離。音訊系統可另外識別使用案例,且部分地基於經識別使用案例選擇約束。進一步參考圖2、圖4及圖5描述使用案例及相關約束。音訊系統可針對一特定使用案例具有多個約束,在此情況下,音訊系統可對約束進行排序或加權以判定一目標位置。
音訊系統200部分地基於目標位置產生350一或多個聲音濾波器。聲音濾波器擴強或衰減虛擬聲音來源之特性,以使其看起來似乎虛擬聲音來源處於特定地點。將聲音濾波器應用於虛擬聲音來源可涉及計算,諸如卷積虛擬聲音來源之傳遞函數與濾波器之傳遞函數。亦可使用其他計算。
音訊系統200使用一或多個聲音濾波器呈現360經空間化音訊內容。一旦經濾波虛擬聲音來源產生,音訊系統便經由換能器陣列將其作為經空間化音訊內容呈現給使用者。
在一些具體實例中,一旦已呈現經空間化音訊內容,則音訊系統可重新評估虛擬聲音來源之位置,且作出改變以校正誤差及/或適應環境改變。
圖4為根據一或多個具體實例之音訊系統的實例使用案例,其中音訊系統正用於給予使用者導航提示。圖4之所說明使用案例包括使用者400在移動通過實體環境時佩戴頭戴組410(諸如,頭戴組100或105)。頭戴組410之音訊系統(諸如音訊系統200)可監測局部區域440中之聲音。在所展示使用案例中,使用者400可能正在自頭戴組410接收步行方向。舉例而言,頭戴組可使虛擬聲音來源430空間化,該虛擬聲音來源430為指示使用者400右轉以到達其目的地之語音。
音訊系統200使虛擬聲音來源430在經受一或多個約束之局部區域440中空間化。舉例而言,一個約束可為虛擬聲音來源並不在聲音來源420(例如,與其共定位)之臨限距離450內被空間化。臨限距離450至少為使用者能夠將聲音分辨為來自聲音來源或來自虛擬來源之距離。另一約束可為在對應於使用者正接收之導航提示的方向上使虛擬聲音來源430在目標位置中被空間化。舉例而言,如圖4中所展示,音訊系統200使用虛擬聲音來源430指示使用者右轉,且虛擬聲音來源430在使用者右側被空間化。
在一些具體實例中,約束可具有與其相關聯之權重或偏好,使得若任何約束衝突,則音訊系統200可選擇要遵循之約束。如所展示,遵循在使用者應步行之方向上使虛擬聲音來源空間化之約束,且當虛擬聲音來源430指示使用者400右轉時,將虛擬聲音來源430置放於使用者右側。在自使用者視角之相同方向上,此組態中之虛擬聲音來源可在實體聲音來源420之臨限距離450內,諸如鳥兒鳴叫。在一些具體實例中,音訊系統可在置放虛擬聲音來源之後重新評估實體環境,且根據可理解性及減少的認知負荷需要進行小的空間調整。
圖5為根據一或多個具體實例之在具有表示為經空間化虛擬聲音來源之複數個會議參與者的會議呼叫中之使用者500的自上而下視圖。如所說明,頭戴組502之音訊系統(例如音訊系統200)便於使用者500與複數個會議參與者之間的會議通話。頭戴組500之音訊系統(諸如音訊系統200)判定每一語音之頻譜輪廓。每一語音之頻譜輪廓可藉由會議呼叫參與者所使用之個別音訊系統來判定。由呼叫參與者使用之音訊系統可判定使用者之頻譜輪廓,且將頻譜輪廓傳輸至由其他呼叫參與者使用之音訊系統。在一些具體實例中,每一呼叫參與者可指示判定其頻譜輪廓是否可傳輸至其他音訊系統之隱私偏好。
第一聲音來源504(例如,會議呼叫情境中之多個語音中的語音)經判定為具有低HF/LF比率,且因此在利用高ITD經空間化時可更容易理解,從而導致更側向之地點。音訊系統以相對於使用者500之正中矢狀面516之第一角度506處使聲音來源504空間化。第一角度506處於大於聲音來源504之中間邊界518的方位角。第二聲音來源508經判定為具有高HF/LF比率,且因此經濾波成虛擬聲音來源,使得其在正中矢狀面516與中間邊界518之間的方位角處以第二角度506經空間化。第三聲音來源512經判定為具有接近(例如,+/-10%內)1之HF/LF比率。因此,第三聲音來源512經濾波成虛擬聲音來源,使得其以具有處於中間邊界518之臨限值(諸如+/-10度)或在該臨限值內之方位角的第三角度514經空間化。
在一些具體實例中,音訊系統可基於習知對話距離或其他使用案例約束,而在與使用者500相距固定距離(例如徑向距離)處使虛擬聲音來源空間化。在其他具體實例中,音訊系統可諸如在多玩家遊戲之使用案例中在與使用者500相距不同距離處使虛擬聲音來源空間化,其中玩家在遊戲中與使用者500相距不同距離。音訊系統可另外具有臨限距離,該音訊系統在該臨限距離處使彼此遠離之虛擬聲音來源空間化。在此情況下,若會議呼叫之兩個參與者具有含有類似頻譜輪廓之語音,則音訊系統可使其空間化一臨限距離(例如10度),使得語音為可區分的。在存在過多呼叫參與者而無法用重疊以相對於使用者配置方位角之情況下,音訊系統亦可以相對於使用者之不同仰角使虛擬聲音來源空間化。
音訊系統可在多語音會議呼叫使用案例中以固定仰角處使聲音來源空間化。虛擬聲音來源可以經判定角度空間化且與頭戴組502在相同仰角上對準,從而模擬會議呼叫參與者皆自大致相同高度說話。在其他具體實例中,音訊系統可基於約束選擇使每一虛擬聲音來源空間化之仰角。舉例而言,使用案例可為虛擬呈現,其中使用者及其他聲音來源以比呈現者之仰角更低的仰角對準,以模擬呈現者站著對就座之群體說話。
取決於諸如使用案例之約束,音訊系統可使虛擬聲音來源空間化,使得其固定於使用者之視場或實體環境。舉例而言,在接收步行方向之圖4之使用案例中,一旦虛擬聲音來源經空間化,則虛擬聲音來源可以世界為中心之配置固定於環境。以世界為中心之配置使得即使使用者離開虛擬聲音來源,虛擬聲音來源亦將保持處於使用者之實體環境中之相同位置,從而展現使用者應去哪個方向。在圖5之會議呼叫使用案例中,虛擬聲音來源可與使用者之實體環境不相關,且因此應以頭部為中心之配置相對於使用者之視場固定。以頭部為中心之配置使得即使使用者轉動其頭部,虛擬聲音來源亦將隨著使用者之運動平移,以保持處於相對於使用者之正中矢狀面的位置,其改良可理解性。
圖6為根據一或多個具體實例之包括頭戴組605的系統600。在一些具體實例中,頭戴組605可為圖1A之頭戴組100或圖1B之頭戴組105。系統600可在人工實境環境(例如,虛擬實境環境、擴增實境環境、混合實境環境或其某一組合)中操作。藉由圖6展示之系統600包括頭戴組605、耦接至控制台615之輸入/輸出(I/O)介面610、網路620及映射伺服器625。雖然圖6展示包括一個頭戴組605及一個I/O介面610之實例系統600,但在其他具體實例中,系統600中可包括任何數目個此等組件。舉例而言,可存在各自具有相關聯I/O介面610之多個頭戴組,其中每一頭戴組及I/O介面610與控制台615通信。在替代組態中,系統600中可包括不同及/或額外組件。另外,在一些具體實例中,與圖6中所展示之組件中之一或多者結合描述之功能性,可以與結合圖6所描述之方式不同的方式輪廓於組件當中。舉例而言,控制台615之功能性中之一些或全部可由頭戴組605提供。
頭戴組605包括顯示總成630、光學件區塊635、一或多個位置感測器640及DCA 645。頭戴組605之一些具體實例具有與結合圖6所描述之組件不同的組件。另外,在其他具體實例中,藉由結合圖6所描述之各種組件提供之功能性,可不同地輪廓於頭戴組605之組件當中,或在遠離頭戴組605之個別總成中捕獲。
顯示總成630根據自控制台615所接收之資料向使用者顯示內容。顯示總成630使用一或多個顯示元件(例如顯示元件120)顯示內容。顯示元件可為例如電子顯示器。在各種具體實例中,顯示總成630包含單個顯示元件或多個顯示元件(例如,用於使用者之每一眼睛的顯示器)。電子顯示器之實例包括:液晶顯示器(liquid crystal display;LCD)、有機發光二極體(organic light emitting diode;OLED)顯示器、主動矩陣有機發光二極體顯示器(active-matrix organic light-emitting diode display;AMOLED)、波導顯示器、一些其他顯示器或其某一組合。應注意,在一些具體實例中,顯示元件120亦可包括光學件區塊635之功能性中之一些或全部。
光學件區塊635可放大自電子顯示器所接收之影像光,校正與影像光相關聯之光學誤差,及向頭戴組605之一個或兩個眼框呈現經校正影像光。在各種具體實例中,光學件區塊635包括一或多個光學元件。包括於光學件區塊635中之實例光學元件包括:孔徑、菲涅爾透鏡、凸透鏡、凹透鏡、濾波器、反射表面或影響影像光之任何其他合適的光學元件。此外,光學件區塊635可包括不同光學元件之組合。在一些具體實例中,光學件總成635中之光學元件中之一或多者可具有一或多個塗層,諸如部分反射或抗反射塗層。
與較大顯示器相比,藉由光學件區塊635放大及聚焦影像光,允許電子顯示器在實體上更小、重量更少且消耗更少功率。另外,放大可增大由電子顯示器呈現之內容之視場。舉例而言,所顯示內容之視場使得所顯示內容使用幾乎所有使用者視場(例如,大致110度對角線)呈現,且在一些情況下,使用所有使用者視場呈現。另外,在一些具體實例中,可藉由添加或移除光學元件來調整放大之量。
在一些具體實例中,光學件區塊635可經設計以校正一或多種類型之光學誤差。光學誤差之實例包括桶形或枕形失真、縱向色像差或橫向色像差。其他類型之光學誤差可進一步包括球面像差、色像差或由於透鏡場曲率、像散或其他類型之光學誤差引起之誤差。在一些具體實例中,提供至電子顯示器用於顯示之內容為預失真的,且光學件區塊635在其接收來自電子顯示器的基於內容而產生之影像光時校正失真。
位置感測器640為產生指示頭戴組605之位置之資料的電子裝置。位置感測器640回應於頭戴組605之運動而產生一或多個量測信號。位置感測器190為位置感測器640之具體實例。位置感測器640之實例包括:一或多個IMU、一或多個加速度計、一或多個陀螺儀、一或多個磁力計、偵測運動之另一合適類型的感測器,或其某一組合。位置感測器640可包括用以量測平移運動(前/後、上/下、左/右)之多個加速度計及用以量測旋轉運動(例如,俯仰、偏航、橫搖)之多個陀螺儀。在一些具體實例中,IMU對量測信號進行快速取樣,且自經取樣資料計算頭戴組605之所估計位置。舉例而言,IMU隨著時間推移整合自加速度計所接收之量測信號以估計速度向量,且隨著時間推移整合速度向量以判定頭戴組605上之參考點之所估計位置。參考點為可用於描述頭戴組605之位置之點。雖然參考點可大體上經定義為空間中之點,然而,實際上參考點經定義為頭戴組605內之點。
DCA 645產生局部區域之一部分之深度資訊。DCA包括一或多個成像裝置及DCA控制器。DCA 645亦可包括照明器。上文關於圖1A描述DCA 645之操作及結構。
音訊系統650向頭戴組605之使用者提供音訊內容。音訊系統650為上文所描述之音訊系統200之具體實例。音訊系統650可包含一或多個聲學感測器、一或多個換能器及音訊控制器。音訊系統650可向使用者提供經空間化音訊內容。在一些具體實例中,音訊系統650可經由網路620自映射伺服器625請求聲學參數。聲學參數描述局部區域之一或多個聲學性質(例如,室內脈衝回應、殘響時間、殘響等級等)。音訊系統650可提供描述來自例如DCA 645之局部區域之至少一部分的資訊,及/或來自位置感測器640之頭戴組605之地點資訊。音訊系統650可使用自映射伺服器625所接收之聲學參數中之一或多者產生一或多個聲音濾波器,且使用聲音濾波器向使用者提供音訊內容。
基於諸如使用案例及實體環境之約束,頭戴組605之音訊系統650經組態以使虛擬聲音來源空間化。音訊系統650可自位置感測器640獲取輸入,以判定頭戴組在實體內之地點。音訊系統650可另外自DCA 645獲取輸入以判定自頭戴組605至可為聲音來源之實體環境中之物件的距離。音訊系統650可自控制台615傳輸及接收資訊,諸如來自應用程式儲存器655之遊戲資料。取決於具體實例,音訊系統650可視需要與I/O介面610、網路620及映射伺服器625通信。
音訊系統650另外經組態以在會議呼叫之使用案例中使虛擬聲音來源空間化。在此使用案例中,音訊系統650可判定會議呼叫之參與者之頻譜輪廓,或經由網路620自不同音訊系統接收頻譜輪廓。在一些具體實例中,音訊系統650可與顯示總成630通信,以提供聲音來源或經空間化虛擬聲音來源之視覺表示。
I/O介面610為允許使用者發送動作請求且接收來自控制台615之回應的裝置。動作請求為執行特定動作之請求。舉例而言,動作請求可為開始或結束捕獲影像或視訊資料之指令,或執行應用程式內之特定動作之指令。I/O介面610可包括一或多個輸入裝置。實例輸入裝置包括:鍵盤、滑鼠、遊戲控制器、或用於接收動作請求且將動作請求傳達至控制台615之任何其他合適的裝置。將由I/O介面610所接收之動作請求傳達至控制台615,該控制台615執行對應於動作請求之動作。在一些具體實例中,I/O介面610包括IMU,其捕獲指示I/O介面610相對於I/O介面610之初始位置之所估計位置的校準資料。在一些具體實例中,I/O介面610可根據自控制台615所接收之指令而向使用者提供觸覺反饋。舉例而言,觸覺反饋在接收動作請求時被提供,或控制台615將指令傳達至I/O介面610,從而使得I/O介面610在控制台615執行動作時產生觸覺反饋。
根據自以下中之一或多者所接收之資訊,控制台615將內容提供至頭戴組605以用於處理:DCA 645、頭戴組605及I/O介面610。在圖6中所展示之具體實例中,控制台615包括應用程式儲存器655、追蹤模組660及引擎665。控制台615之一些具體實例具有與結合圖6所描述之模組或組件不同的模組或組件。類似地,下文進一步描述之功能可以與結合圖6所描述之方式不同的方式輪廓於控制台615之組件當中。在一些具體實例中,本文中關於控制台615所論述之功能性可實施於頭戴組605或遠端系統中。
應用程式儲存器655儲存供控制台615執行之一或多個應用程式。應用程式為在由處理器執行時產生用於向使用者呈現之內容的一組指令。由應用程式產生之內容,可回應於經由頭戴組605或I/O介面610之移動自使用者所接收的輸入。應用程式之實例包括:遊戲應用程式、會議應用程式、視訊播放應用程式或其他合適的應用程式。
追蹤模組660使用來自DCA 645、一或多個位置感測器640或其某一組合之資訊,追蹤頭戴組605或I/O介面610之移動。舉例而言,追蹤模組660基於來自頭戴組605之資訊,而判定頭戴組605之參考點在局部區域之映射中之位置。追蹤模組660亦可判定物件或虛擬物件之位置。另外,在一些具體實例中,追蹤模組660可使用資料的部分,該資料指示頭戴組605距位置感測器640之位置之以及該局部區域距DCA 645之表示,來預測頭戴組605之未來地點。追蹤模組660將頭戴組605或I/O介面610之所估計或所預測未來位置提供至引擎665。
引擎665執行應用程式,且自追蹤模組660接收頭戴組605之位置資訊、加速度資訊、速度資訊、所預測未來位置或其某一組合。基於所接收資訊,引擎665判定提供至頭戴組605以供呈現給使用者之內容。舉例而言,若所接收資訊指示使用者已向左看,則引擎665為頭戴組605產生內容,該內容反映使用者在虛擬局部區域中、或在利用額外內容擴增局部區域之局部區域中之移動。另外,引擎665執行回應於自I/O介面610所接收之動作請求,而對控制台615執行之應用程式內的動作,且向使用者提供執行動作之反饋。所提供反饋可為經由頭戴組605之視覺或聽覺反饋或經由I/O介面610之觸覺反饋。
網路620將頭戴組605及/或控制台615耦接至映射伺服器625。網路620可包括使用無線及/或有線通信系統兩者之局部區域及/或廣域網路之任何組合。舉例而言,網路620可包括網際網路,以及行動電話網路。在一個具體實例中,網路620使用標準通信技術及/或協定。因此,網路620可包括使用諸如乙太網、802.11、微波存取全球互通(worldwide interoperability for microwave access;WiMAX)、2G/3G/4G行動通信協定、數位用戶線(digital subscriber line;DSL)、非同步傳輸模式(asynchronous transfer mode;ATM)、無線帶寬、快速PCT高級切換等之技術的鏈路。類似地,網路620上所使用之網路連接協定可包括多協定標記切換(multiprotocol label switching;MPLS)、傳輸控制協定/網際網路協定(transmission control protocol/Internet protocol;TCP/IP)、使用者資料報協定(User Datagram Protocol;UDP)、超文字傳送協定(hypertext transport protocol;HTTP)、簡單郵件傳送協定(simple mail transfer protocol;SMTP)、檔案傳送協定(file transfer protocol;FTP)等。經由網路620交換之資料可使用包括呈二進位形式(例如,攜帶型網路圖形(Portable Network Graphics;PNG))之影像資料、超文本標記語言(hypertext markup language;HTML)、可延伸性標示語言(extensible markup language;XML)等的技術及/或格式來表示。另外,鏈路中之全部或一些可使用習知加密技術加密,諸如安全插座層(secure sockets layer;SSL)、傳送層安全(transport layer security;TLS)、虛擬專用網路(virtual private network;VPN)、網際網路協定安全(Internet Protocol security;IPsec)等。
映射伺服器625可包括儲存描述複數個空間之虛擬模型之資料庫,其中虛擬模型中之一個地點對應於頭戴組605之局部區域之當前組態。映射伺服器625經由網路620自頭戴組605接收描述局部區域之至少一部分的資訊及/或局部區域之地點資訊。描述局部區域之資訊可包括人在局部區域中之頻譜輪廓,其經傳達至頭戴組605以輔助頭戴組識別之前已遇到之頻譜輪廓。使用者可調整隱私設置,以允許或防止頭戴組605將包括頻譜輪廓之資訊傳輸至映射伺服器625。映射伺服器625基於所接收資訊及/或地點資訊而判定虛擬模型中與頭戴組605之局部區域相關聯之地點。映射伺服器625部分地基於虛擬模型中之經判定地點及與經判定地點相關聯之任何聲學參數,而判定(例如取回)與局部區域相關聯之一或多個聲學參數。映射伺服器625可將局部區域之地點及與局部區域相關聯之聲學參數之任何值傳輸至頭戴組605。
系統600之一或多個組件可含有隱私模組,其儲存使用者資料元件之一或多個隱私設定。使用者資料元件描述使用者或頭戴組605。舉例而言,使用者資料元件可描述使用者之物理特性、由使用者執行之動作、頭戴組605之使用者之地點、頭戴組605之地點、使用者之HRTF等。使用者資料元件之隱私設定(或「存取設定」)可以任何合適方式儲存,諸如與使用者資料元件相關聯、在授權伺服器上之索引中、以另一合適方式,或以其任何合適組合進行儲存。
使用者資料元件之隱私設定指定使用者資料元件(或與使用者資料元件相關聯之特定資訊)可如何存取、儲存或以其他方式使用(例如,觀看、共用、修改、複製、執行、表面化或識別)。在一些具體實例中,使用者資料元件之隱私設定可指定實體之「阻斷列表」,其不可存取與使用者資料元件相關聯之某些資訊。與使用者資料元件相關聯之隱私設定可指定經准許存取或拒絕存取之任何合適詳盡性。舉例而言,一些實體可具有查看特定使用者資料元件存在之權限,一些實體可具有查看特定使用者資料元件之內容之權限,且一些實體可具有修改特定使用者資料元件之權限。隱私設定可允許使用者允許其他實體存取或儲存使用者資料元件持續有限時間段。
隱私設定可允許使用者指定使用者資料元件可自被存取之一或多個地理地點。對使用者資料元件之存取或拒絕存取可取決於嘗試存取使用者資料元件之實體的地理地點。舉例而言,使用者可允許存取使用者資料元件,且指定使用者資料元件僅在使用者處於特定地點時可由實體存取。若使用者離開特定地點,則使用者資料元件可不再可由實體存取。作為另一實例,使用者可指定使用者資料元件僅在距使用者臨限距離內可由實體存取,諸如與使用者相同之局部區域內之頭戴組之另一使用者。若使用者隨後改變地點,則存取使用者資料元件之實體可失去存取,而實體之新群組可在其出現於使用者之臨限距離內時獲得存取。
系統600可包括用於強制執行隱私設定之一或多個授權/隱私伺服器。若授權伺服器基於與使用者資料元件相關聯之隱私設定而判定實體經授權以存取使用者資料元件,則來自用於特定使用者資料元件之實體之請求可識別與請求相關聯之該實體,且可僅將使用者資料元件發送至該實體。若請求實體未經授權以存取使用者資料元件,則授權伺服器可防止所請求使用者資料元件經取回,或可防止所請求使用者資料元件經發送至實體。儘管本揭示以特定方式描述強制執行隱私設定,但本揭示涵蓋以任何合適方式強制執行隱私設定。 額外組態資訊
已出於說明之目的呈現具體實例之前述描述;其並不意欲為詳盡的或將本專利權利限制於所揭示之精確形式。所屬技術領域中具有通常知識者可瞭解,可考慮上述揭示內容進行諸多修改及變化。
本說明書之一些部分在對資訊之操作之演算法及符號表示方面描述具體實例。熟習資料處理技術者常用此等演算法描述及表示來將其工作之實質有效地傳達給所屬技術領域中其他具有通常知識者。此等操作雖然在功能上、計算上或邏輯上描述,但應理解為由電腦程式或等效電路、微碼等來實施。此外,在不失一般性之情況下,將此等操作配置稱為模組,有時亦證明為方便的。所描述操作及其相關聯模組可以軟體、韌體、硬體或其任何組合實施。
本文中所描述之步驟、操作或過程中之任一者可藉由一或多個硬體或軟體模組單獨地或與其他裝置組合地來執行或實施。在一個具體實例中,軟體模組藉由電腦程式產品實施,該電腦程式產品包含含有電腦程式碼之電腦可讀取媒體,該電腦程式碼可藉由電腦處理器執行,以執行所描述之任何或所有步驟、操作或過程。
具體實例亦可與用於執行本文中之操作的設備相關。此設備可經特別建構以用於所需目的,及/或其可包含由儲存於電腦中之電腦程式選擇性地啟動或重組態之通用計算裝置。此電腦程式可儲存於非暫時性有形電腦可讀取儲存媒體或適合於儲存電子指令之任何類型之媒體中,該或該些媒體可耦接至電腦系統匯流排。此外,本說明書中提及之任何計算系統可包括單個處理器,或可為採用多個處理器設計以用於提高計算能力之架構。
具體實例亦可與由本文中所描述之計算過程產生的產品相關。此產品可包含由計算過程產生之資訊,其中該資訊儲存於非暫時性有形電腦可讀取儲存媒體上,且可包括本文中所描述之電腦程式產品或其他資料組合之任一具體實例。
最後,用於本說明書中之語言已主要出於可讀取性及指導性目的而經選擇,且其可能尚未經選擇以描繪或限制本專利權利。因此,希望本專利權利之範圍不受此詳細描述限制,而實際上由關於基於此處之應用頒予的任何申請專利範圍限制。因此,具體實例之揭示內容意欲為說明性的,但不限制在以下申請專利範圍中闡述的專利權利之範圍。
100:頭戴組 105:頭戴組 110:框架 115:前部剛體 120:顯示元件 130:成像裝置 140:照明器 150:音訊控制器 160:揚聲器 170:組織換能器 175:帶 180:聲學感測器 190:位置感測器 200:音訊系統 210:換能器陣列 220:感測器陣列 230:音訊控制器 235:資料儲存器 240:DOA估計模組 250:傳遞函數模組 260:追蹤模組 270:波束成形模組 280:聲音空間化模組 290:聲音濾波器模組 300:過程 310:監測 320:識別 330:判定 340:產生 350:產生 360:呈現 400:使用者 410:頭戴組 420:聲音來源 430:虛擬聲音來源 440:局部區域 450:臨限距離 500:使用者 502:頭戴組 504:第一聲音來源 506:第一角度 508:第二聲音來源 510:第二角度 512:第三聲音來源 514:第三角度 516:正中矢狀面 518:中間邊界 600:系統 605:頭戴組 610:輸入/輸出介面 615:控制台 620:網路 625:映射伺服器 630:顯示總成 635:光學件區塊 640:位置感測器 645:深度攝影機總成 650:音訊系統 655:應用程式儲存器 660:追蹤模組 665:引擎
[圖1A]為根據一或多個具體實例之實施為眼部穿戴物裝置之頭戴組的透視圖。
[圖1B]為根據一或多個具體實例之實施為頭戴式顯示器之頭戴組的透視圖。
[圖2]為根據一或多個具體實例之音訊系統的方塊圖。
[圖3]為說明根據一或多個具體實例之用於使音訊內容空間化之過程的流程圖。
[圖4]為根據一或多個具體實例之音訊系統的實例使用案例。
[圖5]為根據一或多個具體實例之音訊系統之使用案例中經空間化聲音來源的俯瞰圖。
[圖6]為根據一或多個具體實例之包括頭戴組的系統。
該些圖式僅出於說明之目的描繪各種具體實例。所屬技術領域中具有通常知識者將自以下論述容易認識到,可在不脫離本文中所描述之原理的情況下採用本文中所說明之結構及方法的替代具體實例。
200:音訊系統
210:換能器陣列
220:感測器陣列
230:音訊控制器
235:資料儲存器
240:DOA估計模組
250:傳遞函數模組
260:追蹤模組
270:波束成形模組
280:聲音空間化模組
290:聲音濾波器模組

Claims (20)

  1. 一種音訊系統,其包含: 一麥克風陣列,其經組態以監測一局部區域中之聲音; 一控制器,其經組態以: 使用經監測該聲音識別該局部區域內之聲音來源; 判定該些聲音來源之地點; 基於一或多個約束判定一虛擬聲音來源之一目標位置,該一或多個約束包括該目標位置與經判定該些地點中之每一者相距至少一臨限距離; 部分地基於該目標位置產生一或多個聲音濾波器;及 一換能器陣列,其經組態以部分地基於該一或多個聲音濾波器,呈現包括該虛擬聲音來源之經空間化音訊內容。
  2. 如請求項1之音訊系統,其中該控制器進一步經組態以: 針對包含空間、時間及頻率屬性之特性分析該聲音來源;及 基於經分析聲音來源之該些特性產生一或多個約束。
  3. 如請求項1之音訊系統,其中該虛擬聲音來源為一第一呼叫參與者之一語音,且該控制器進一步經組態以: 分析該虛擬聲音來源之一第一頻譜輪廓,該第一頻譜輪廓特性化呈現於該第一呼叫參與者之該語音中之頻率;及 基於該第一呼叫參與者之該第一頻譜輪廓,判定使該虛擬聲音來源空間化之一第一角度,其中該第一角度係部分地基於該第一頻譜輪廓中相對於一高頻內容量之一低頻內容量而選擇,且該目標位置係部分地基於該第一角度。
  4. 如請求項3之音訊系統,其中該目標位置為以頭部為中心的。
  5. 如請求項3之音訊系統,其中相比於該第一呼叫參與者之該第一頻譜輪廓之情況,一第二呼叫參與者之一第二頻譜輪廓具有相對於一高頻內容量之更大的一低頻內容量,且該控制器進一步經組態以: 分析該第二頻譜輪廓,該第二頻譜輪廓特性化呈現於該第二虛擬聲音來源之一語音中之頻率; 基於該第二頻譜輪廓判定使對應於該第二呼叫參與者之一第二虛擬聲音虛擬地空間化之一第二角度,其中該第二角度係部分地基於該第二頻譜輪廓中相對於該高頻內容量之該低頻內容量而選擇,且該第二角度大於該第一角度;及 部分地基於該第二角度判定該第二虛擬聲音來源之一第二目標位置; 其中該一或多個聲音濾波器係部分地基於該第二目標位置而產生,且該經空間化音訊使得該虛擬聲音來源經空間化至該目標位置,且該第二虛擬聲音來源經空間化至該第二目標位置。
  6. 如請求項1之音訊系統,其中該控制器進一步經組態以: 識別該音訊系統之複數個使用案例中之一使用案例; 部分地基於經識別該使用案例選擇該一或多個約束。
  7. 如請求項6之音訊系統,其中該經識別該使用為提供方向,且該一或多個約束包括置放該目標位置使得其與一導航提示對應。
  8. 如請求項6之音訊系統,其中該目標位置為以世界為中心的。
  9. 如請求項1之音訊系統,其中該控制器進一步經組態以: 判定該局部區域內之實體物件之地點;及 設定該一或多個約束中之至少一者,使得該目標位置並不與該些實體物件之經判定該些地點共定位。
  10. 一種方法,其包含: 經由一麥克風陣列監測一局部區域中之聲音; 使用經監測聲音識別該局部區域內之聲音來源; 判定該些聲音來源之地點; 基於一或多個約束判定一虛擬聲音來源之一目標位置,該一或多個約束包括該目標位置與經判定該些地點中之每一者相距至少一臨限距離; 基於該目標位置產生一或多個聲音濾波器;及 部分地基於該一或多個聲音濾波器呈現包括該虛擬聲音來源之經空間化音訊內容。
  11. 如請求項10之方法,其中判定該虛擬聲音來源之一目標位置進一步包含: 針對包含空間、時間及頻率屬性之特性分析該聲音來源;及 基於經分析聲音來源之該些特性產生一或多個約束。
  12. 如請求項10之方法,其中該虛擬聲音來源為一第一呼叫參與者之一語音,其進一步包含: 分析該虛擬聲音來源之一第一頻譜輪廓,該第一頻譜輪廓特性化呈現於該第一呼叫參與者之該語音中之頻率; 基於該第一呼叫參與者之該第一頻譜輪廓,判定使該虛擬聲音來源空間化之一第一角度,其中該第一角度係部分地基於該第一頻譜輪廓中相對於一高頻內容量之一低頻內容量而選擇,且該目標位置係部分地基於該第一角度。
  13. 如請求項12之方法,其中相比於該第一呼叫參與者之該第一頻譜輪廓之情況,一第二呼叫參與者之一第二頻譜輪廓具有相對於一高頻內容量之更大的一低頻內容量,其進一步包含: 分析該第二頻譜輪廓,該第二頻譜輪廓特性化呈現於該第二虛擬聲音來源之一語音中之頻率; 基於該第二頻譜輪廓判定使對應於該第二呼叫參與者之一第二虛擬聲音虛擬地空間化之一第二角度,其中該第二角度係部分地基於該第二頻譜輪廓中相對於該高頻內容量之該低頻內容量而選擇,且該第二角度大於該第一角度; 部分地基於該第二角度判定該第二虛擬聲音來源之一第二目標位置;及 部分地基於該第二目標位置產生一或多個聲音濾波器,且經空間化音訊內容使得該虛擬聲音來源經空間化至該目標位置,且該第二虛擬聲音來源經空間化至該第二目標位置。
  14. 如請求項10之方法,其進一步包含: 識別該音訊系統之複數個使用案例中之一使用案例;及 部分地基於經識別使用案例選擇該一或多個約束。
  15. 如請求項14之方法,其中經識別該使用案例為提供方向,且該一或多個約束包括置放該目標位置使得其與一導航提示對應。
  16. 如請求項10之方法,其進一步包含: 判定該局部區域內之實體物件之地點;及 設定該一或多個約束中之至少一者,使得該目標位置並不與該些實體物件之經判定地點共定位。
  17. 一種非暫時性電腦可讀取媒體,其經組態以儲存程式碼指令,該些程式碼指令在由一裝置之一處理器執行時致使該裝置執行包含以下之步驟: 經由一麥克風陣列監測一局部區域中之聲音; 使用經監測該聲音識別該局部區域內之聲音來源; 判定該些聲音來源之地點; 基於一或多個約束判定一虛擬聲音來源之一目標位置,該一或多個約束包括該目標位置與經判定該些地點中之每一者相距至少一臨限距離; 基於該目標位置產生一或多個聲音濾波器;及 部分地基於該一或多個聲音濾波器呈現包括該虛擬聲音來源之經空間化音訊內容。
  18. 如請求項17之非暫時性電腦可讀取媒體,其中判定一虛擬聲音來源之該目標位置進一步包含: 針對包含空間、時間及頻率屬性之特性分析該聲音來源;及 基於經分析聲音來源之該些特性產生一或多個約束。
  19. 如請求項17之非暫時性電腦可讀取媒體,其中該虛擬聲音來源為一第一呼叫參與者之一語音,且該些指令在由該處理器執行時致使該裝置執行包含以下之其他步驟: 分析該虛擬聲音來源之一第一頻譜輪廓,該第一頻譜輪廓特性化呈現於該第一呼叫參與者之該語音中之頻率;及 基於該第一呼叫參與者之該第一頻譜輪廓,判定使該虛擬聲音來源空間化之一第一角度,其中該第一角度係部分地基於該第一頻譜輪廓中相對於一高頻內容量之一低頻內容量而選擇,且該目標位置係部分地基於該第一角度。
  20. 如請求項19之非暫時性電腦可讀取媒體,其中相比於該第一呼叫參與者之該第一頻譜輪廓之情況,一第二呼叫參與者之一第二頻譜輪廓具有相對於一高頻內容量之更大的一低頻內容量,且該些指令在由該處理器執行時致使該裝置執行包含以下之其他步驟: 分析該第二頻譜輪廓,該第二頻譜輪廓特性化呈現於該第二虛擬聲音來源之一語音中之頻率; 基於該第二頻譜輪廓判定使對應於該第二呼叫參與者之一第二虛擬聲音虛擬地空間化之一第二角度,其中該第二角度係部分地基於該第二頻譜輪廓中相對於該高頻內容量之該低頻內容量而選擇,且該第二角度大於該第一角度; 部分地基於該第二角度判定該第二虛擬聲音來源之一第二目標位置;及 部分地基於該第二目標位置產生一或多個聲音濾波器,且經空間化音訊內容使得該虛擬聲音來源經空間化至該目標位置,且該第二虛擬聲音來源經空間化至該第二目標位置。
TW111120235A 2021-09-21 2022-05-31 用於空間化虛擬聲音來源之音訊系統 TW202315427A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/480,740 2021-09-21
US17/480,740 US20230093585A1 (en) 2021-09-21 2021-09-21 Audio system for spatializing virtual sound sources

Publications (1)

Publication Number Publication Date
TW202315427A true TW202315427A (zh) 2023-04-01

Family

ID=83688950

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111120235A TW202315427A (zh) 2021-09-21 2022-05-31 用於空間化虛擬聲音來源之音訊系統

Country Status (5)

Country Link
US (1) US20230093585A1 (zh)
EP (1) EP4406236A1 (zh)
CN (1) CN117981347A (zh)
TW (1) TW202315427A (zh)
WO (1) WO2023049051A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021000974T5 (de) * 2020-02-10 2022-12-08 Sony Group Corporation Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren, Informationsverarbeitungsprogramm und Informationsverarbeitungssystem

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9857591B2 (en) * 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
CN107450747B (zh) * 2017-07-25 2018-09-18 腾讯科技(深圳)有限公司 虚拟角色的位移控制方法和装置
CN114125691A (zh) * 2017-12-18 2022-03-01 杜比国际公司 用于在虚拟现实环境中呈现音频信号的方法和系统
US10237675B1 (en) * 2018-05-22 2019-03-19 Microsoft Technology Licensing, Llc Spatial delivery of multi-source audio content
US10638248B1 (en) * 2019-01-29 2020-04-28 Facebook Technologies, Llc Generating a modified audio experience for an audio system
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering

Also Published As

Publication number Publication date
EP4406236A1 (en) 2024-07-31
US20230093585A1 (en) 2023-03-23
CN117981347A (zh) 2024-05-03
WO2023049051A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
US11622223B2 (en) Dynamic customization of head related transfer functions for presentation of audio content
US11246002B1 (en) Determination of composite acoustic parameter value for presentation of audio content
US11470439B1 (en) Adjustment of acoustic map and presented sound in artificial reality systems
JP2022546161A (ja) 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること
KR20220043164A (ko) 센서 어레이의 음향 센서들의 서브세트 선택 방법 및 이를 위한 시스템
US20240056763A1 (en) Microphone assembly with tapered port
US11171621B2 (en) Personalized equalization of audio output based on ambient noise detection
US11012804B1 (en) Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation
US11825291B2 (en) Discrete binaural spatialization of sound sources on two audio channels
TW202315427A (zh) 用於空間化虛擬聲音來源之音訊系統
US20220030369A1 (en) Virtual microphone calibration based on displacement of the outer ear
US12039991B1 (en) Distributed speech enhancement using generalized eigenvalue decomposition
US12003949B2 (en) Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device
US11598962B1 (en) Estimation of acoustic parameters for audio system based on stored information about acoustic model
EP4412243A1 (en) Modifying audio for presentation to a user based on a determined location of an audio system presenting the audio
US11715479B1 (en) Signal enhancement and noise reduction with binaural cue preservation control based on interaural coherence
US20220180885A1 (en) Audio system including for near field and far field enhancement that uses a contact transducer
TW202348043A (zh) 用於緩和風切聲之麥克風埠口架構