TW202304226A - 基於聲源方向性的心理聲學增強 - Google Patents
基於聲源方向性的心理聲學增強 Download PDFInfo
- Publication number
- TW202304226A TW202304226A TW110147704A TW110147704A TW202304226A TW 202304226 A TW202304226 A TW 202304226A TW 110147704 A TW110147704 A TW 110147704A TW 110147704 A TW110147704 A TW 110147704A TW 202304226 A TW202304226 A TW 202304226A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- audio signals
- source
- zoom
- processors
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 392
- 230000004044 response Effects 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000010191 image analysis Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 53
- 239000003623 enhancer Substances 0.000 description 51
- 238000010586 diagram Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 12
- 230000003190 augmentative effect Effects 0.000 description 10
- 230000007423 decrease Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013480 data collection Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
- H04N23/632—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
Abstract
一種設備包括:記憶體,其被配置為儲存與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料。該設備亦包括一或多個處理器,其被配置為至少部分地基於方向性資料來決定一或多個等化器設置。一或多個處理器亦被配置為基於等化器設置來產生與一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
Description
概括而言,本揭示內容係關於基於音訊源方向性的心理聲學增強。
技術的進步已經導致更小且更強大的計算設備。例如,當前存在各種各樣的可攜式個人計算設備,包括小型、羽量級以及容易由使用者攜帶的無線電話(諸如行動和智慧型電話、平板設備和膝上型電腦)。該等設備可以在無線網路上傳送語音和資料封包。此外,許多此種設備併入了額外的功能,諸如數位靜止相機、數位相機、數位記錄器和音訊檔播放機。此外,此種設備可以處理可執行指令,包括可以用以存取網際網路的軟體應用(諸如網頁瀏覽器應用)。照此,該等設備可以包括顯著的計算能力。
此種計算設備通常合併有從一或多個麥克風接收音訊信號的功能。例如,音訊信號可以表示由麥克風擷取的使用者語音、由麥克風擷取的環境聲音或其組合。由於麥克風距其使用者語音被麥克風擷取的使用者的距離,使用者語音可能難以在音訊信號中聽到。例如,距使用者較遠的麥克風可能擷取較多的環境聲音,諸如傳輸量、其他使用者的語音等。作為另一實例,當被較遠的麥克風擷取時,使用者語音聽起來更弱。關注音訊信號中的特定聲音的能力對於各種應用是有用的,諸如在通訊應用或聲控輔助系統中更清楚地傳送使用者語音。
根據本揭示內容的一種實現方式,一種設備包括:記憶體,其被配置為儲存與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料。該設備亦包括一或多個處理器,其被配置為:至少部分地基於該方向性資料來決定一或多個等化器設置。該一或多個處理器亦被配置為:基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
根據本揭示內容的另一種實現方式,一種方法包括:在設備處獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料。該方法亦包括:在該設備處,至少部分地基於該方向性資料來決定一或多個等化器設置。該方法亦包括:基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
根據本揭示內容的另一種實現方式,一種非暫時性電腦可讀取媒體儲存指令,該等指令在由一或多個處理器執行時使得該一或多個處理器進行以下操作:獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料。該等指令在由一或多個處理器執行時亦使得該一或多個處理器進行以下操作:至少部分地基於該方向性資料來決定一或多個等化器設置。該等指令在由一或多個處理器執行時亦使得該一或多個處理器進行以下操作:基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
根據本揭示內容的另一種實現方式,一種裝置包括:用於獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料的構件。該裝置亦包括:用於至少部分地基於該方向性資料來決定一或多個等化器設置的構件。該裝置亦包括:用於基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號的構件。
在閱讀整個申請案(包括以下章節:附圖說明、實施方式和申請專利範圍)之後,本揭示內容的其他態樣、優勢和特徵將變得顯而易見。
麥克風產生表示所擷取的聲音的音訊信號,諸如使用者語音、環境聲音或其組合。由於麥克風距音訊源的距離,各種聲音可能難以在音訊信號中聽到。聚焦於音訊信號中的特定聲音的能力對於各種應用是有用的,諸如通訊應用中的使用者語音或鳥類追蹤應用中的鳥類聲音。
揭示基於音訊源方向性的心理聲學增強的系統和方法。不同類型的音訊源可以具有不同的聲音方向性特性。例如,人類語音更多地定向在人類頭部的前方而不是後方,並且可能表現出基於人類講話者面對的距離以及與該方向的角度偏移而變化的頻率回應,而十二面體聲源近似於全向方向性。
音訊增強器基於音訊源的方向性來執行心理聲學增強,以近似藉由相對於音訊源(例如,靠近或遠離)移動麥克風而擷取的聲音。例如,音訊增強器包括方向性分析器和等化器。方向性分析器基於音訊源和變焦目標的方向性資料來產生等化器設置。例如,方向性分析器產生等化器設置,使得應用等化器設置調整特定音訊頻率的響度以模擬將麥克風移動到變焦目標。等化器將等化器設置應用於輸入音訊信號,以產生對應於輸入音訊信號的心理聲學增強版本的輸出音訊信號。例如,輸入音訊信號是基於麥克風的麥克風輸出的,並且輸出音訊信號近似音訊源在變焦目標處的頻率回應。因此,輸出音訊信號近似由麥克風在變焦目標處擷取的聲音。
下文參考附圖描述了本揭示內容的特定態樣。在該描述中,共同的特徵藉由共同的元件符號來指定。如本文所使用的,各種術語僅用於描述特定實現方式的目的,而不意欲限制實現方式。例如,單數形式的「一(a)」、「一個(an)」和「該(the)」意欲亦包括複數形式,除非上下文另外明確地指出。此外,本文描述的一些特徵在一些實現方式中是單數,而在其他實現方式中是複數。舉例說明,圖1描繪了包括一或多個處理器(圖1的「處理器」190)的設備102,此指示在一些實現方式中,設備102包括單個處理器190,而在其他實現方式中,設備102包括多個處理器190。
如本文所使用的,術語「包括(comprise、comprises和comprising)」可以與「包含(include、includes或including)」互換地使用。另外,術語「其中(wherein)」可以與「其中(where)」互換地使用。如本文所使用的,「示例性」指示實例、實現方式及/或態樣,而不應當被解釋為限制或指示偏好或優選的實現方式。如本文所使用的,用於修飾諸如結構、部件、操作等的元素的序數詞(例如,「第一」、「第二」、「第三」等)本身不指示該元素相對於另一個元素的任何優先順序或次序,而僅是將該元素與具有相同名稱(但是沒有使用序數詞)的另一元素區分開。如本文所使用的,術語「集合」代表特定元素的一或多者,以及術語「多個」代表特定元素的多者(例如,兩個或兩個以上)。
如本文所使用的,「耦合」可以包括「通訊地耦合」、「電耦合」或「實體地耦合」,以及亦可以(或替代地)包括其任何組合。兩個設備(或部件)可以經由一或多個其他設備、部件、線、匯流排、網路(例如,有線網路、無線網路或其組合)等直接或間接地耦合(例如,通訊地耦合、電耦合或實體地耦合)。作為說明性的非限制性實例,被電耦合的兩個設備(或部件)可以被包括在相同設備或不同設備中,以及可以經由電子裝置、一或多個連接器或感應耦合進行連接。在一些實現方式中,被通訊地耦合(諸如進行電子通訊)的兩個設備(或部件)可以直接或間接地(經由一或多個線、匯流排、網路等)發送和接收信號(例如,數位信號或類比信號)。如本文所使用的,「直接地耦合」可以包括在沒有中間部件的情況下耦合(例如,通訊地耦合、電耦合或實體地耦合)的兩個設備。
在本揭示內容中,諸如「決定」、「計算」、「估計」、「移位」、「調整」等的術語可以用於描述如何執行一或多個操作。應當注意的是,此種術語不應被解釋為限制性的,以及可以利用其他技術來執行類似的操作。另外,如本文所引用的,「產生」、「計算」、「估計」、「使用」、「選擇」、「存取」和「決定」可以互換地使用。例如,「產生」、「計算」、「估計」或「決定」參數(或信號)可以代表主動地產生、估計、計算或決定參數(或信號),或者可以代表使用、選擇或存取已經諸如由另一部件或設備產生的參數(或信號)。
參考圖1,揭示被配置為基於音訊源方向性來執行心理聲學增強的系統的特定說明性態樣,並且將其整體上指定為100。系統100包括耦合到一或多個麥克風120、相機140、一或多個揚聲器160、顯示設備162、輸入設備130或其組合的設備102。在一些實現方式中,顯示設備162包括輸入設備130(例如,觸控式螢幕)。
設備102包括耦合到記憶體132的一或多個處理器190。記憶體132被配置為儲存等化器(Eq)設置資料149、方向性資料141、由音訊增強器192使用或產生的其他資料或其組合。在一個特定態樣中,一或多個處理器190經由一或多個輸入介面124耦合到一或多個麥克風120。例如,一或多個輸入介面124被配置為從一或多個麥克風120接收一或多個麥克風輸出122,並且將一或多個麥克風輸出122作為一或多個輸入音訊信號(SIG)126提供給音訊增強器192。
在一個特定態樣中,一或多個處理器190經由輸入介面144耦合到相機140。例如,輸入介面144被配置為從相機140接收相機輸出142,並且將相機輸出142作為圖像資料145提供給音訊增強器192。在一個特定態樣中,與一或多個輸入介面124將圖像資料145提供給音訊增強器192同時地,輸入介面144被配置為將相機輸出142提供給音訊增強器192。
設備102被配置為使用被包括在一或多個處理器190中的音訊增強器192基於音訊源方向性來執行心理聲學增強。音訊增強器192包括耦合到等化器148的方向性分析器152和耦合到等化器148的預均衡信號處理器146。根據一些實現方式,方向性資料更新器150被包括在音訊增強器192中。
輸入設備130被配置為將指示變焦目標133的使用者輸入131提供給設備102。方向性分析器152被配置為基於方向性資料141、變焦目標133、等化器設置資料149或其組合來產生等化器設置153。例如,方向性分析器152被配置為產生等化器設置153,使得應用等化器設置153調整特定音訊頻率的響度,以模擬將一或多個麥克風120移動到更接近變焦目標133。
等化器148被配置為將等化器設置153應用於一或多個等化器輸入音訊信號147,以產生一或多個輸出音訊信號138。在一個特定態樣中,一或多個等化器輸入音訊信號147包括一或多個輸入音訊信號126。在一種替代實現方式中,預均衡信號處理器146被配置為處理一或多個輸入音訊信號126以產生一或多個等化器輸入音訊信號147,如參考圖3進一步描述的。
在一些實現方式中,設備102對應於或被包括在一或多個類型的設備中。在一個說明性實例中,處理器190集成在包括一或多個揚聲器160的耳機設備中,諸如參考圖9進一步描述的。在其他實例中,處理器190集成在以下各者中的至少一者中:行動電話或平板電腦設備(如參考圖8所描述的)、可穿戴電子設備(如參考圖10所描述的)、聲控揚聲器系統(如參考圖11所描述的)、相機設備(如參考圖12所描述的)、或虛擬實境耳機或增強現實耳機(如參考圖13所描述的)。在另一說明性實例中,處理器190集成到亦包括一或多個揚聲器160的車輛中,諸如參考圖14和圖15進一步描述的。
在操作期間,一或多個麥克風120從包括音訊源184(例如,人)的一或多個音訊源擷取聲音186,並且產生表示聲音186的一或多個麥克風輸出122。在一個特定態樣中,一或多個音訊源包括人、動物、鳥類、車輛、樂器、另一種類型的音訊源或其組合。一或多個輸入介面124將一或多個麥克風輸出122作為一或多個輸入音訊信號126提供給音訊增強器192。
在一種特定實現方式中,相機140擷取一或多個音訊源(諸如音訊源184)的圖像(例如,視訊、靜態圖像或兩者),並且產生表示圖像的相機輸出142。在此種實現方式中,輸入介面144將相機輸出142作為圖像資料145提供給音訊增強器192。在一個特定態樣中,與一或多個麥克風120將一或多個麥克風輸出122提供給設備102同時地,相機140將相機輸出142提供給設備102。
在一種特定實現方式中,圖像資料145、一或多個輸入音訊信號126或其組合對應於所儲存的資料,諸如視訊遊戲資料或先前記錄的資料,而不是對應於經由外部感測器(例如,麥克風120和相機140)而擷取的資料。例如,音訊增強器192從記憶體132檢索圖像資料145、一或多個輸入音訊信號126或其組合。
一或多個處理器190基於一或多個輸入音訊信號126來產生一或多個輸出音訊信號138,並且經由一或多個揚聲器160輸出一或多個輸出音訊信號138。在一種特定實現方式中,一或多個處理器190基於圖像資料145來產生圖形化使用者介面161,並且將圖形化使用者介面161提供給顯示設備162,以便與經由一或多個揚聲器160輸出一或多個輸出音訊信號138同時地,向使用者101顯示由相機140擷取的圖像。
設備102對使用者101發起音訊變焦操作進行回應。例如,使用者101使用輸入設備130將指示變焦目標133的使用者輸入131提供給音訊增強器192。在一種特定實現方式中,使用者101使用輸入設備130(例如,滑鼠、鍵盤、按鈕、滑塊輸入或其組合)來移動在圖形化使用者介面161中顯示的變焦選擇器以選擇變焦目標133,如參考圖2A至圖2B進一步描述的。在另一種實現方式中,使用者101獨立於圖形化使用者介面161來發起音訊變焦操作。例如,一或多個處理器190獨立於向顯示設備162提供任何GUI來向一或多個揚聲器160提供一或多個輸出音訊信號138。使用者101使用輸入設備130(例如,鍵盤上的方向鍵、耳機上的按鈕等)將指示變焦目標133的使用者輸入131提供給音訊增強器192。舉例說明,使用者101使用輸入設備130來變焦到與一或多個揚聲器160的音訊輸出相對應的聲場的不同區域,如參考圖9進一步描述的。
變焦目標133包括指示將如何執行音訊變焦的資訊。在各種實現方式中,變焦目標133可以包括或指示使用者對至少一個音訊源(例如,音訊源184)的選擇、使用者以模擬移動麥克風120的方式調整音訊的選擇、或其組合,如參考圖4至圖6進一步描述的。例如,變焦目標133可以包括使用者對音訊源184的選擇和變焦距離135,變焦距離135指示一或多個麥克風120應當被視為位於距音訊源184近多少(例如,近2英呎)。在另一實例中,變焦目標133可以包括使用者對變焦距離135和變焦朝向137的選擇,變焦朝向137指示一或多個麥克風120應當被視為已經從位置134(例如,實體位置)移動了多少以及在哪個方向上移動。在一個特定說明性實例中,變焦朝向137的第一值(例如,0度)、第二值(例如,90度)、第三值(例如,180度)或第四值(例如,270度)分別對應於一或多個麥克風120相對於位置134的向前移動、向右移動、向後移動或向左移動。在一個特定實例中,諸如當使用者101選擇變焦距離135和變焦朝向137時,音訊增強器192藉由將變焦朝向137和變焦距離135應用於位置134來決定(一或多個麥克風120的)變焦位置136。在另一實例中,當變焦目標133包括使用者對變焦位置136的選擇時,音訊增強器192基於位置134和變焦位置136的比較來決定變焦朝向137和變焦距離135。在一個特定實例中,當變焦目標133包括使用者對音訊源184的選擇時,音訊增強器192估計音訊源184的位置並且基於音訊源184的估計位置來決定變焦距離135、變焦位置136、變焦朝向137或其組合。在一個特定態樣中,音訊增強器192使用圖像分析技術、音訊分析技術、音訊源184的位置資訊或其組合來估計音訊源184的位置。在一個特定態樣中,位置134對應於複數個麥克風120的位置的代表性位置(例如,平均位置),並且變焦位置136對應於複數個麥克風120被模擬為已經移動到的位置的代表性位置(例如,平均位置)。
方向性分析器152獲得與一或多個輸入音訊信號126相對應的一或多個音訊源(例如,音訊源184)的方向性資料141。例如,方向性分析器152辨識音訊源184(例如,基於源的類型,諸如經由分析輸入音訊信號126、分析圖像資料145或其組合),並且從記憶體132檢索與音訊源184最緊密對應的方向性資料141。在另一實例中,方向性分析器152從另一設備或網路請求(例如,下載)方向性資料141。
特定音訊源的方向性資料141指示特定音訊源的朝向和距離頻率回應特性。在一個特定態樣中,方向性資料141與通用音訊源相關聯。例如,方向性資料141指示通用音訊源的朝向和頻率回應特性。舉例說明,方向性資料141指示:回應於從相對於通用音訊源的第一距離到相對於通用音訊源的第二距離的改變,對應於中頻的頻率回應改變(例如,減少或增加)第一量。在一個替代態樣中,方向性資料141指示與特定類型的音訊源相關聯的方向性資料。例如,如參考圖4進一步描述的,方向性資料141指示回應於距特定音訊源類型(例如,人類講話者、鳥類、樂器等)的音訊源184的距離、朝向或兩者的改變的各種頻率的頻率回應改變。
方向性分析器152至少部分地基於方向性資料141、變焦目標133和等化器設置資料149來決定等化器設置153,如參考圖4進一步描述的。例如,方向性分析器152產生等化器設置153,使得應用等化器設置153調整特定音訊頻率的響度,以模擬將一或多個麥克風120移動到(或更接近)變焦位置136。在一種特定實現方式中,方向性分析器152回應於決定用於音訊源184的音訊源類型的方向性資料不可用,基於預設方向性資料來選擇等化器設置153。舉例說明,方向性分析器152選擇等化器設置153以調整(例如,增加或減少)對應於中頻的頻率回應(例如,獨立於音訊源184的音訊源類型)。例如,回應於決定變焦位置136和音訊源184之間的距離小於位置134和音訊源184之間的距離,方向性分析器152選擇等化器設置153以增加對應於中頻的響度。作為另一實例,回應於決定變焦位置136和音訊源184之間的距離大於位置134和音訊源184之間的距離,方向性分析器152選擇等化器設置153以降低對應於中頻的響度。在一種替代實現方式中,方向性分析器152基於由方向性資料141指示的音訊源184的音訊源類型(例如,人類講話者或鳥類)的方向性(例如,頻率回應)來選擇等化器設置153,如參考圖4進一步描述的。方向性分析器152將等化器設置153提供給等化器148。
等化器148藉由將等化器設置153應用於一或多個等化器輸入音訊信號147來產生一或多個輸出音訊信號138。在一種特定實現方式中,一或多個等化器輸入音訊信號147包括一或多個輸入音訊信號126。在另一實現方式中,預均衡信號處理器146藉由將預均衡處理應用於一或多個輸入音訊信號126來產生一或多個等化器輸入音訊信號147,如參考圖3進一步描述的。等化器148將一或多個輸出音訊信號138提供給一或多個揚聲器160。
一或多個輸出音訊信號138對應於一或多個輸入音訊信號126的心理聲學增強版本。心理聲學增強版本(例如,一或多個輸出音訊信號138)近似音訊源184在與音訊變焦操作相關聯的變焦位置136(例如,變焦朝向137和變焦距離135)處的頻率回應。因此,由一或多個揚聲器160產生的聲音(對應於一或多個輸出音訊信號138)模擬已經將一或多個麥克風120移動到(或更接近)變焦位置136。
在一種特定實現方式中,方向性資料更新器150產生或更新方向性資料141。方向性更新器150被配置為對距音訊源的各個距離和朝向處擷取的音訊進行取樣和分析,並且產生或更新與該音訊源相關聯的方向性資料。在一個特定實例中,方向性資料更新器150在第一時間處產生與音訊源184相對應的一或多個輸入音訊信號126中的輸入音訊信號的第一聲譜。第一聲譜表示當音訊源184具有相對於一或多個麥克風120的第一朝向時,在距音訊源184的第一距離處由一或多個麥克風120擷取的聲音。方向性資料更新器150在第二時間處產生與音訊源184相對應的一或多個輸入音訊信號126中的輸入音訊信號的第二聲譜。第二聲譜表示當音訊源184具有相對於一或多個麥克風120的第二朝向時,在距音訊源184第二距離處由一或多個麥克風120擷取的聲音。方向性資料更新器150更新方向性資料141,以指示第一距離和第一朝向與第二距離和第二朝向之間的差對應於第一聲譜和第二聲譜之間的差。
系統100對變焦目標133啟用音訊變焦操作,變焦目標133近似將一或多個麥克風120移動到變焦位置136。與僅調整一或多個輸入音訊信號126的增益相比,藉由基於音訊源184的方向性調整針對頻率的響度來產生一或多個輸出音訊信號138導致更自然的聲音音訊變焦。
儘管一或多個麥克風120、相機140、一或多個揚聲器160、顯示設備162和輸入設備130被示為耦合到設備102,但是在其他實現方式中,一或多個麥克風120、相機140、一或多個揚聲器160、顯示設備162、輸入設備130,或其組合可以集成在設備102中。系統100的各種實現方式可以包括更少的、額外的或不同的部件。例如,在一些實現方式中,可以省略方向性資料更新器150、相機140或兩者。
參考圖2A,圖示GUI 161的實例。在一個特定態樣中,圖形化使用者介面161由圖1的音訊增強器192、一或多個處理器190、設備102、系統100或其組合來產生。
圖形化使用者介面161包括視訊顯示器204,其被配置為顯示與圖1的圖像資料145相對應的圖像。例如,視訊顯示器204顯示音訊源184的圖像。圖形化使用者介面161包括可以用於發起音訊變焦操作的變焦選擇器202。例如,圖1的使用者101可以向上移動變焦選擇器202以拉近到音訊源184,或者向下移動以從音訊源184拉遠。在一個特定態樣中,向上移動變焦選擇器202對應於為變焦朝向137選擇第一值(例如,0度、向前或拉近),而向下移動變焦選擇器202對應於為變焦朝向137選擇第二值(例如,180度、向後或拉遠)。變焦選擇器202的移動量指示變焦距離135。變焦目標133包括變焦距離135、變焦朝向137或兩者。
參考圖2B,圖示圖形化使用者介面161的實例。在一個特定態樣中,圖形化使用者介面161由圖1的音訊增強器192、一或多個處理器190、設備102、系統100或其組合來產生。
圖形化使用者介面161指示使用者101已經移動變焦選擇器202以發起音訊變焦操作。例如,使用者101使用輸入設備130以便與對變焦朝向137(例如,向前、0度或拉近)和變焦距離135(例如,2英呎)的選擇相對應地向上移動變焦選擇器202,並且輸入設備130將指示變焦目標133的使用者輸入131提供給音訊增強器192。變焦目標133指示變焦朝向137(例如,0度、向前或拉近)和變焦距離135(例如,基於變焦選擇器202的移動量)。如參考圖4進一步描述的,方向性分析器152至少部分地基於變焦目標133來產生等化器設置153。等化器148藉由將等化器設置153應用於一或多個等化器輸入音訊信號147來產生(例如,更新)一或多個輸出音訊信號138,如參考圖1所描述的。等化器148將一或多個輸出音訊信號138提供給一或多個揚聲器160。
在一個特定態樣中,回應於使用者輸入131,一或多個處理器190對圖像資料145執行圖像變焦操作,並且更新視訊顯示器204以與等化器148將一或多個輸出音訊信號138提供給一或多個揚聲器160同時地顯示圖像資料145的經變焦版本。如圖所示,與圖2A相比,圖2B中的視訊顯示器204中的音訊源184被放大,此指示音訊變焦操作已經拉近到音訊源184。
提供變焦選擇器202作為選擇變焦目標133的說明性實例。在其他實現方式中,使用者101可以使用指定變焦目標133的其他方式。在一個特定實例中,圖形化使用者介面161顯示在觸控式螢幕(例如,輸入設備130)上,並且使用者101與觸控式螢幕互動(例如,輕觸或使用捏拉變焦手勢)以指定變焦目標133。例如,使用者101可以輕觸觸控式螢幕以在視訊顯示器204上選擇與對變焦位置136、音訊源184或兩者的選擇相對應的位置,作為變焦目標133。作為另一實例,使用者101可以使用第一捏拉變焦(例如,加寬)手勢來指示變焦朝向137的第一值(例如,向前、0度或拉近),或者使用第二捏拉變焦(例如,變窄)手勢來指示變焦朝向137的第二值(例如,向後、180度或拉遠)。捏拉變焦手勢的距離指示變焦距離135。變焦目標133包括變焦距離135、變焦朝向137或兩者。
在一個特定實例中,使用者101提供使用者輸入(例如,語音命令、選項選擇或兩者),其指示變焦位置136、音訊源184或兩者的辨識符(例如,名稱)作為變焦目標133。音訊增強器192對圖像資料145執行圖像辨識,對輸入音訊信號126執行音訊分析或兩者,以辨識音訊源184、變焦位置136或兩者。例如,使用者101提供具有音訊源184的辨識符(例如,連絡人姓名)(例如,「Sarah Lee」)的使用者輸入(例如,「拉到Sarah Lee」)。音訊增強器192對圖像資料145執行圖像辨識(例如,人辨識或物件辨識)以辨識圖像資料145的與音訊源184(例如,「Sarah Lee」)相對應的部分,對輸入音訊信號126執行語音辨識以辨識輸入音訊信號126的與音訊源184(例如,「Sarah Lee」)相對應的部分或兩者。變焦目標133包括音訊源184。
參考圖3,根據一種特定實現方式圖示圖1的系統100的部件的圖300。預均衡信號處理器146包括空間分析器340、活動偵測器342、增益調整器344、雜訊抑制器346、上下文偵測器350或其組合。上下文偵測器350包括源偵測器362、源位置偵測器364或兩者。在一些實現方式中,可以省略在圖3中用虛線所示的一或多個部件。
空間分析器340被配置為將波束成形應用於一或多個輸入音訊信號126,以產生一或多個經波束成形的音訊信號341。在一個特定態樣中,空間分析器340基於變焦目標133來應用波束成形。例如,空間分析器340基於圖1的變焦朝向137來應用波束成形,使得一或多個經波束成形的音訊信號341表示圍繞變焦朝向137而擷取的聲音。空間分析器340將一或多個經波束成形的音訊信號341提供給預均衡信號處理器146的一或多個部件或提供給等化器148。例如,空間分析器340將一或多個經波束成形的音訊信號341作為一或多個活動輸入音訊信號361提供給活動偵測器342,作為一或多個增益調整器輸入音訊信號363提供給增益調整器344,作為一或多個上下文偵測器輸入音訊信號369提供給上下文偵測器350,作為一或多個雜訊抑制輸入音訊信號365提供給雜訊抑制器346,作為一或多個等化器輸入音訊信號147提供給等化器148,或其組合。
活動偵測器342被配置為偵測一或多個活動輸入音訊信號361中的活動。在一種特定實現方式中,一或多個活動輸入音訊信號361包括一或多個輸入音訊信號126。在一種替代實現方式中,一或多個活動輸入音訊信號361包括一或多個經波束成形的音訊信號341。
活動偵測器342被配置為基於在一或多個活動輸入音訊信號361中偵測到的活動來產生一或多個活動音訊信號343。在一個特定實例中,活動偵測器342(例如,語音活動偵測器)被配置為偵測一或多個活動輸入音訊信號361中的第一活動輸入音訊信號中的語音,並且產生一或多個活動音訊信號343中的包括該語音的第一活動音訊信號和包括第一活動輸入音訊信號的剩餘聲音的第二活動音訊信號。舉例說明,第一活動音訊信號包括減少的聲音或沒有剩餘聲音,並且第二活動音訊信號包括減少的語音或沒有語音。
在一種特定實現方式中,活動偵測器342被配置為偵測對應於各種類型音訊源、相同類型的各種音訊源或兩者的聲音。在一個說明性實例中,活動偵測器342被配置為在一或多個活動輸入音訊信號361中的第一活動輸入音訊信號中偵測與第一講話者相關聯的第一語音、與第二講話者相關聯的第二語音、與樂器相關聯的音樂聲音、與鳥類相關聯的鳥類聲音或其組合。活動偵測器342被配置成產生包括第一語音(例如,無剩餘聲音或具有減少的剩餘聲音)的第一活動音訊信號、包括第二語音(例如,無剩餘聲音或具有減少的剩餘聲音)的第二活動音訊信號、包括音樂聲音(例如,無剩餘聲音或具有減少的剩餘聲音)的第三活動音訊信號、包括鳥類聲音(例如,無剩餘聲音或具有減少的剩餘聲音)的第四活動音訊信號、包括第一活動輸入音訊信號的剩餘聲音的第五活動音訊信號、或其組合。一或多個活動音訊信號343包括第一活動音訊信號、第二活動音訊信號、第三活動音訊信號、第四活動音訊信號、第五活動音訊信號或其組合。
活動偵測器342將一或多個活動音訊信號343提供給預均衡信號處理器146的一或多個部件、等化器148或其組合。例如,活動偵測器342將一或多個活動音訊信號343作為一或多個增益調整器輸入音訊信號363提供給增益調整器344,作為一或多個上下文偵測器輸入音訊信號369提供給上下文偵測器350,作為一或多個雜訊抑制輸入音訊信號365提供給雜訊抑制器346,作為一或多個等化器輸入音訊信號147提供給等化器148,或其組合。
增益調整器344將一或多個增益應用於一或多個增益調整器輸入音訊信號363。一或多個增益調整器輸入音訊信號363包括一或多個輸入音訊信號126、一或多個經波束成形的音訊信號341或一或多個活動音訊信號343。增益調整器344基於變焦目標133來應用一或多個增益。例如,當音訊變焦操作對應於拉近到變焦目標133時,增益調整器344增加一或多個增益調整器輸入音訊信號363中的與來自變焦朝向137的聲音相對應的第一輸入音訊信號的增益,降低一或多個增益調整器輸入音訊信號363中的與來自剩餘方向的聲音相對應的第二輸入音訊信號的增益,或兩者。在另一實例中,當音訊變焦操作對應於從變焦目標133拉遠時,增益調整器344減小一或多個增益調整器輸入音訊信號363中的與來自變焦朝向137的聲音相對應的第一輸入音訊信號的增益,增加一或多個增益調整器輸入音訊信號363中的與來自剩餘方向的聲音相對飲的第二輸入音訊信號的增益,或兩者。在一個特定態樣中,增益調整量是基於變焦距離135的。
增益調整器344將一或多個經增益調整的音訊信號345提供給預均衡信號處理器146的一或多個部件、等化器148或其組合。例如,增益調整器344將一或多個經增益調整的音訊信號345作為一或多個上下文偵測器輸入音訊信號369提供給上下文偵測器350,作為一或多個雜訊抑制輸入音訊信號365提供給雜訊抑制器346,作為一或多個等化器輸入音訊信號147提供給等化器148,或其組合。
上下文偵測器350處理一或多個上下文偵測器輸入音訊信號369、圖像資料145或其組合,以產生上下文資料351。在一個特定態樣中,一或多個上下文偵測器輸入音訊信號369包括一或多個輸入音訊信號126、一或多個經波束成形的音訊信號341、一或多個活動音訊信號343或一或多個經增益調整的音訊信號345。
源偵測器362對一或多個上下文偵測器輸入音訊信號369、圖像資料145或其組合執行音訊源辨識,以辨識一或多個音訊源(諸如音訊源184)的音訊源類型。例如,源偵測器362對圖像資料145執行圖像分析(例如,物件辨識和距離分析),以決定圖像資料145指示在相對於相機140的第一位置處的音訊源類型(例如,人類講話者)。在一個特定態樣中,源偵測器362對一或多個上下文偵測器輸入音訊信號369執行聲音分析(例如,音訊源辨識和距離分析),以決定一或多個上下文偵測器輸入音訊信號369包括與來自相對於一或多個麥克風120的第二位置的音訊源類型匹配的聲音。在一個特定態樣中,源偵測器362決定相對於相機140的第一位置對應於與相對於一或多個麥克風120的第二位置相同的實體位置。源偵測器362向源位置偵測器364提供指示音訊源類型、相對於相機140的第一位置、相對於一或多個麥克風120的第二位置、實體位置或其組合的源偵測資料。
源位置偵測器364執行圖像分析以在圖像資料145中偵測音訊源184相對於相機140的朝向。舉例說明,若音訊源184對應於人類講話者,則源位置偵測器364藉由對圖像資料145執行圖像辨識來估計人類講話者的頭部的朝向(例如,看向相機140或目光遠離相機140)。
在一個說明性實例中,源位置偵測器364基於音訊源184相對於相機140的朝向以及相機140和一或多個麥克風120的位置差異,來決定音訊源184相對於一或多個麥克風120的朝向。上下文偵測器350決定相對於一或多個麥克風120的第二位置指示音訊源184距一或多個麥克風120的距離。上下文偵測器350產生上下文資料351,上下文資料351指示音訊源184距一或多個麥克風120的距離、音訊源184相對於一或多個麥克風120的朝向、音訊源184的音訊源類型或其組合。上下文偵測器350將上下文資料351提供給方向性分析器152。
雜訊抑制器346對一或多個雜訊抑制輸入音訊信號365執行雜訊抑制,以產生一或多個經雜訊抑制的音訊信號347。在一個特定態樣中,一或多個雜訊抑制輸入音訊信號365包括一或多個輸入音訊信號126、一或多個經波束成形的音訊信號341、一或多個活動音訊信號343、或一或多個經增益調整的音訊信號345。雜訊抑制器346將一或多個經雜訊抑制的音訊信號347作為一或多個等化器輸入音訊信號147提供給等化器148。
預均衡信號處理器146的部件的特定操作順序是作為說明性實例來提供的。在其他實例中,預均衡信號處理器146的部件的操作順序可以不同。在一個特定實例中,變焦目標133指示對音訊源184的選擇。基於變焦目標133,上下文偵測器350將音訊源184的音訊源類型(例如,人類講話者或鳥類)提供給活動偵測器342。活動偵測器342產生一或多個活動音訊信號343中的對應於音訊源類型的聲音(例如,具有減少的剩餘聲音或無剩餘聲音)的第一活動信號、對應於剩餘聲音(例如,無該音訊源類型的聲音或具有減少的該音訊源類型的聲音)的第二活動信號或組合。活動偵測器342將一或多個活動音訊信號343提供給增益調整器344。回應於決定音訊變焦操作包括朝著變焦目標133拉近,增益調整器344增加第一活動信號的增益,降低第二活動信號的增益,或兩者。替代地,回應於決定音訊變焦操作包括從變焦目標133拉遠,增益調整器344降低第一活動信號的增益,增加第二活動信號的增益,或兩者。
在一個特定態樣中,方向性分析器152基於音訊源184的音訊源類型來獲得方向性資料141,如參考圖4進一步描述的。方向性分析器152基於方向性資料141來產生等化器設置153,如參考圖4進一步描述的。方向性分析器152將等化器設置153提供給等化器148。
等化器148將等化器設置153應用於一或多個等化器輸入音訊信號147,以產生一或多個輸出音訊信號138。在一個特定態樣中,一或多個等化器輸入音訊信號147包括一或多個輸入音訊信號126、一或多個活動音訊信號343、一或多個經增益調整的音訊信號345、或一或多個經雜訊抑制的音訊信號347。
因此,預均衡信號處理器146在執行均衡之前,藉由波束成形、調整增益、降低雜訊或其組合來執行預均衡信號處理以改進音訊增強器192的效能。在一個特定態樣中,預均衡信號處理器146決定上下文資料351,以使得方向性分析器152能夠基於一或多個音訊源的音訊源類型的方向性來決定等化器設置153。
在一些實現方式中,可以省略預均衡信號處理器146。例如,方向性分析器152基於預設方向性資料來產生等化器設置153,並且等化器148將等化器設置153應用於一或多個輸入音訊信號126(例如,調整其中頻)以產生一或多個輸出音訊信號138。
在一些實現方式中,可以省略預均衡信號處理器146的一或多個部件。在一個實例中,省略空間分析器340和活動偵測器342,並且將一或多個輸入音訊信號126作為一或多個增益調整器輸入音訊信號363提供給增益調整器344。在一些實現方式中,省略空間分析器340,並且將一或多個輸入音訊信號126作為一或多個活動輸入音訊信號361提供給活動偵測器342。在一些實現方式中,省略活動偵測器342,並且將一或多個經波束成形的音訊信號341作為一或多個增益調整器輸入音訊信號363提供給增益調整器344。在一些實現方式中,省略增益調整器344,並且將一或多個活動音訊信號343作為一或多個上下文偵測器輸入音訊信號369提供給上下文偵測器350,並且作為一或多個雜訊抑制輸入音訊信號365提供給雜訊抑制器346。部件的特定組合被描述為說明性實例。在其他實現方式中,在預均衡信號處理器146中包括部件的其他組合。
參考圖4,圖示圖1的系統100的部件的特定實例的圖400。方向性分析器152被示為獲得方向性資料141、上下文資料351和使用者輸入131。上下文資料351包括音訊源184的源位置資料420。例如,源位置資料420指示音訊源184相對於一或多個麥克風120的源朝向422(例如,0度或面向)、音訊源184距一或多個麥克風120的源距離424(例如,6英呎),或兩者,如參考圖3所描述的。
基於源朝向422(例如,0度)和變焦朝向137(例如,0度),圖3的源位置偵測器364決定音訊源184相對於變焦位置136的源朝向432(例如,0度)。源位置偵測器364基於變焦距離135(例如,2英呎)、變焦朝向137(例如,0度)和源距離424(例如,6英呎),來決定音訊源184距變焦位置136的源距離434(例如,4英呎)。
在一個特定態樣中,方向性分析器152基於音訊源184的音訊源類型來獲得方向性資料141。例如,聲音方向性圖案402的圖形描繪指示在水平面和垂直面中音訊源類型(例如,人類講話者)的頻率依賴方向性。在一個特定態樣中,方向性資料141包括與音訊源類型的各種朝向相關聯的複數個方向性資料集合。回應於決定方向性資料集合404與音訊源類型的特定朝向(例如,在軸上,沿著水平軸和垂直軸的0度)相關聯,方向性分析器152從方向性資料141中選擇與源朝向422和源朝向432匹配的方向性資料集合404。
方向性資料集合404的圖形描繪指示音訊源類型(例如,音訊源184)的頻率回應特性,該等頻率回應特性對應於(例如,麥克風的)從特定距離(例如,1米)沿著特定朝向到各種距離的距離變化。例如,方向性資料集合404指示音訊源類型(例如,音訊源184)的用於從源距離424(例如,1米)沿著特定朝向(例如,在軸上)到源距離434(例如,1釐米)的變化的頻率回應特性449。在一個特定態樣中,頻率回應特性449指示用於各種聲音頻率的響度(例如,分貝(dB))的變化。例如,頻率回應特性449指示從源距離424(例如,1米)沿著特定朝向(例如,在軸上)朝著源距離434(例如,1釐米)移動對應於用於特定頻率(例如,500赫茲(Hz))的響度下降(例如,-0.2 dB)、用於另一頻率範圍(例如,800 Hz至1千赫茲(kHz))的響度增加(例如,+4 dB)或兩者。在一個特定實例中,頻率回應特性449指示從源距離424(例如,1米)沿著特定朝向(例如,在軸上)朝著源距離434(例如,1釐米)移動對應於用於另一特定頻率範圍(例如,200 Hz至400 Hz)的可忽略的響度變化(例如,低於閥值)。舉例說明,用於特定頻率範圍(例如,200 Hz至400 Hz)的響度變化可能是人類聽覺系統無法感知的。
在一個特定實例中,源朝向422與源朝向432匹配,並且方向性分析器152選擇與沿著特定朝向(例如,源朝向422和源朝向432)的源距離的變化相對應的方向性資料集合404。在該實例中,方向性資料集合404指示與沿著特定朝向(例如,源朝向422和源朝向432)的源距離的變化(例如,從源距離424到源距離434)相對應的頻率回應特性449。在一些其他實例中,如參考圖6進一步描述的,源朝向422不同於源朝向432,並且方向性分析器152從方向性資料141中選擇指示與源距離的變化(例如,從源距離424到源距離434)和源朝向的變化(例如,從源朝向422到源朝向432)相對應的頻率回應特性449的方向性資料集合。
在一個特定態樣中,方向性分析器152從記憶體132、另一設備、網路或其組合獲得等化器設置資料149。在一種特定實現方式中,等化器設置資料149將以下各項與等化器設置153進行關聯:上下文資料351(例如,音訊源184的音訊源類型)、方向性資料141(例如,方向性資料集合404)、變焦距離135、源距離424、源距離434、變焦朝向137、源朝向422、源朝向432、頻率回應特性(例如,頻率回應特性449)或其組合。方向性分析器152基於等化器設置資料149來選擇與以下各項匹配的等化器設置153:音訊源184的音訊源類型、變焦距離135、源距離424、源距離434、變焦朝向137、源朝向422、源朝向432、頻率回應特性449或其組合。
在一個特定態樣中,方向性分析器152基於等化器設置資料149來選擇與頻率回應特性449匹配的等化器設置153。例如,等化器設置153對應於用於特定頻率(例如,500 Hz)的響度下降(例如,-0.2 dB)、用於第一頻率範圍(例如,800 Hz到1千赫茲(kHz))的響度上升(例如,+4 dB)、用於第二頻率範圍(例如,200 Hz到400 Hz)的無響度變化、或其組合。因此,方向性分析器152產生等化器設置153,以使得應用等化器設置153近似將一或多個麥克風120移動到(或更接近)變焦位置136的頻率回應特性。
參考圖5,圖示圖1的系統100的部件的特定實例的圖500。方向性資料141的方向性資料集合504的圖形描繪指示針對特定朝向(例如,-45度水平軸和0度垂直軸)而言音訊源184的音訊源類型(例如,人類講話者)的頻率回應特性。例如,方向性資料集合504指示與(例如,麥克風的)從特定距離(例如,1米)沿著特定朝向到各種距離的距離變化相對應的頻率回應特性。
如參考圖3所描述的,圖3的上下文偵測器350決定音訊源184的源位置資料520。例如,源位置資料520指示音訊源184以相對於一或多個麥克風120的位置134的源朝向522(例如,-45度水平軸和0度垂直軸)近似地位於源距離424(例如,1米)處。源位置資料520指示音訊源184以相對於變焦位置136的源朝向532(例如,-45度水平軸和0度垂直軸)近似地位於源距離434(例如,10釐米)處。
方向性分析器152回應於決定源朝向422(例如,在水平軸上為-45度,以及在垂直軸上為0度)和源朝向432(例如,在水平軸上為-45度,以及在垂直軸上為0度)與和方向性資料集合504相關聯的特定朝向(例如,-45度水平軸和0度垂直軸)匹配,從方向性資料141中選擇方向性資料集合504。方向性資料集合504指示用於從源距離424(例如,1米)沿著特定朝向(例如,在水平軸上為-45度,以及在垂直軸上為0度)到源距離434(例如,1釐米)的變化的頻率回應特性549。在一個特定態樣中,頻率回應特性549指示從源距離424(例如,1米)沿著特定朝向(例如,在水平軸上為-45度,以及在垂直軸上為0度)朝著源距離434(例如,1釐米)移動對應於用於第一頻率(例如,500 Hz)的響度下降(例如,-0.2 dB)、用於第二頻率(例如,800 Hz)的第一響度上升(例如,+2 dB)、用於第三頻率(例如,1 kHz)的第二響度上升(例如,+4 dB)、用於特定頻率範圍(例如,200 Hz至315 Hz)的可忽略的響度變化(例如,低於閥值)、或其組合。
在一個特定態樣中,方向性分析器152基於等化器設置資料149來選擇與頻率回應特性549匹配的等化器設置153。例如,等化器設置153對應於用於第一頻率(例如,500 Hz)的響度下降(例如,-0.2 dB)、用於第二頻率(例如,800 Hz)的第一響度上升(例如,+2 dB)、用於第三頻率的第二響度上升(例如,+4 dB)、用於特定頻率範圍(例如,200 Hz至315 Hz)的無響度變化、或其組合。因此,方向性分析器152基於方向性資料集合504來產生等化器設置153,使得當音訊源184具有相對於一或多個麥克風120的特定朝向(例如,在水平軸上為-45度以及在垂直軸上為0度)時,應用等化器設置153近似將一或多個麥克風120移動到(或更接近)變焦位置136的頻率回應特性。
參考圖6,根據其中圖3的上下文偵測器350已經基於圖3的一或多個上下文偵測器輸入音訊信號369偵測到多個音訊源(例如,音訊源184和音訊源684)的實現方式,圖示圖1的系統100的部件的實例的圖600。
上下文偵測器350以參考圖3描述的類似方式來決定音訊源684的源位置資料620。例如,源位置資料620指示音訊源684以相對於一或多個麥克風120的位置134的源朝向622(例如,-30度水平軸和0度垂直軸)近似地位於源距離624(例如,2米)處。在一個特定態樣中,源位置資料620指示音訊源684以相對於變焦位置136的源朝向632(例如,-2度水平軸和0度垂直軸)近似地位於源距離634(例如,2.2米)處。
在一種特定實現方式中,變焦目標133指示音訊源184,並且方向性分析器152在決定等化器設置153時忽略音訊源684。在一個特定態樣中,一或多個輸出音訊信號138包括音訊源684的減少的聲音(例如,無聲音)。作為一個實例,活動偵測器342產生與音訊源184的聲音相對應的一或多個活動音訊信號343,其具有音訊源684的減少的聲音(例如,無聲音)。作為另一實例,增益調整器344產生一或多個經增益調整的音訊信號345,其具有音訊源684的減少的聲音(例如,無聲音)。在另一實例中,空間分析器340應用波束成形來產生一或多個經波束成形的音訊信號341,其具有音訊源684的減少的聲音(例如,無聲音)。在此種實現方式中,如參考圖5所描述的,方向性分析器152基於方向性資料集合504和源位置資料520來產生等化器設置153。
在一種特定實現方式中,變焦目標133指示音訊源184,並且音訊增強器192產生一或多個輸出音訊信號138,其中音訊源184的聲音是基於音訊源184的方向性來調整的,而對音訊源684的聲音具有很小改變或者沒有改變。例如,活動偵測器342產生一或多個活動音訊信號343的第一子集,第一子集對應於音訊源184的聲音,其具有音訊源684的減少的聲音(例如,無聲音),並且產生一或多個活動音訊信號343的第二子集,第二子集對應於剩餘聲音(例如,包括音訊源684的聲音),其具有音訊源184的減少的聲音(例如,無聲音)。
如參考圖5所描述的,方向性分析器152基於方向性資料集合504和源位置資料520來產生等化器設置153。一或多個等化器輸入音訊信號147包括一或多個活動音訊信號343的第一子集、一或多個活動音訊信號343的第一子集的增益調整版本、一或多個活動音訊信號343的第一子集的雜訊抑制版本、或其組合。等化器148藉由將等化器設置153應用於一或多個等化器輸入音訊信號147,產生來自音訊源184的被視為如同使用者101位於變焦位置136處的聲音的心理聲學增強版本,從而產生一或多個輸出音訊信號138的第一子集。
一或多個輸出音訊信號138的第二子集是基於一或多個活動音訊信號343的第二子集的,並且包括來自音訊源684的聲音。例如,一或多個輸出音訊信號138的第二子集包括一或多個活動音訊信號343的第二子集、一或多個活動音訊信號343的第二子集的增益調整版本、一或多個活動音訊信號343的第二子集的雜訊抑制版本、或其組合。
因此,一或多個輸出音訊信號138藉由將一或多個麥克風120從位置134移動到變焦位置136來近似音訊源184的頻率回應特性,並且對於音訊源684來說沒有(或很少)變化。在此種實現方式中,音訊變焦操作似乎相對於音訊源184進行變焦,而相對於音訊源684很少變化或沒有變化。例如,在一或多個輸出音訊信號138中音訊源184的聲音似乎來自以相對於變焦位置136的源朝向532近似地在源距離434處的音訊源184。在一或多個輸出音訊信號138中音訊源684的聲音似乎來自以相對於變焦位置136的源朝向622近似地在源距離624處的音訊源684。
在另一特定實現方式中,變焦目標133指示音訊源184,並且音訊增強器192在包括如下各項的操作中產生一或多個輸出音訊信號138:基於音訊源184的方向性來調整音訊源184的聲音,以及基於音訊源684的方向性來調整音訊源684的聲音。在一個特定態樣中,音訊源684具有與音訊源184相同的音訊源類型(例如,人類講話者)。在此方面,方向性分析器152從方向性資料141中選擇方向性資料集合604,方向性資料集合604與和音訊源684相關聯的朝向變化(例如,從源朝向622到源朝向632)和距離變化(例如,從源距離624到源距離634)匹配。
在一個替代態樣中,音訊源684具有與音訊源184的第一音訊源類型(例如,人類講話者)不同的第二音訊源類型(例如,鳥類)。在此方面,方向性分析器152獲得與第二音訊源類型相關聯的第二方向性資料,並且從第二方向性資料中選擇方向性資料集合604,方向性資料集合604指示音訊源684針對朝向變化(例如,從源朝向622到源朝向632)以及從源距離624到各種距離的頻率回應特性。舉例說明,方向性資料集合604指示針對朝向變化(例如,從源朝向622到源朝向632)和距離變化(例如,從源距離624到源距離634)的頻率回應特性649。
方向性分析器152基於等化器設置資料149來決定與頻率回應特性649匹配的等化器設置653。方向性分析器152將對應於音訊源684的等化器設置653和對應於音訊源184的等化器設置153提供給等化器148。
在一個特定態樣中,活動偵測器342產生以下各項:一或多個活動音訊信號343的第一子集,第一子集對應於音訊源184的聲音以及減少的其他聲音(例如,無其他聲音);一或多個活動音訊信號343的第二子集,第二子集對應於音訊源684的聲音和減少的其他聲音(例如,無其他聲音);一或多個活動音訊信號343的第三子集,第三子集對應於音訊源184和音訊源684的剩餘聲音和減少的聲音(例如,無聲音);或其組合。在一個特定態樣中,一或多個等化器輸入音訊信號147的第一子集是基於一或多個活動音訊信號343的第一子集的,一或多個等化器輸入音訊信號147的第二子集是基於一或多個活動音訊信號343的第二子集的,一或多個等化器輸入音訊信號147的第三子集是基於一或多個活動音訊信號343的第三子集的,或其組合。等化器148藉由以下操作來產生一或多個輸出音訊信號138:將等化器設置153應用於與音訊源184相對應的一或多個等化器輸入音訊信號147的第一子集,將等化器設置653應用於與音訊源684相對應的一或多個等化器輸入音訊信號147的第二子集,對與剩餘音訊相對應的一或多個等化器輸入音訊信號147的第三子集不進行改變,或其組合。等化器設置153和等化器設置653因此使得一或多個輸出音訊信號138能夠近似與將一或多個麥克風120從位置134移動到變焦位置136相關聯的音訊源184和音訊源684的頻率回應特性。例如,在一或多個輸出音訊信號138中音訊源184的聲音似乎來自以相對於變焦位置136的源朝向532近似地在源距離434處的音訊源184。在一或多個輸出音訊信號138中音訊源684的聲音似乎來自以相對於變焦位置136的源朝向632近似地在源距離634處的音訊源684。
圖7將設備102的實現方式700描繪為包括一或多個處理器190的積體電路702。積體電路702亦包括音訊輸入704(諸如一或多個匯流排介面),以使得能夠接收一或多個輸入音訊信號126以進行處理。積體電路702亦包括音訊輸出706(諸如匯流排介面),以使得能夠發送輸出信號(諸如一或多個輸出音訊信號138)。積體電路702使得能夠基於音訊源方向性的心理聲學增強實現為系統中的部件,諸如如在圖8中描繪的行動電話或平板設備、如在圖9中描繪的耳機、如在圖10中描繪的可穿戴電子設備、如在圖11中描繪的聲控揚聲器系統、如在圖12中描繪的相機、如在圖13中描繪的虛擬實境耳機或增強現實耳機、或如在圖14或圖15中描繪的車輛。
圖8描繪了實現方式800,其中設備102包括行動設備802,諸如電話或平板設備,作為說明性的非限制性實例。行動設備802包括一或多個揚聲器160、一或多個麥克風120和顯示螢幕804。處理器190的部件(包括音訊增強器192)集成在行動設備802中,並且使用虛線來示出,以指示通常對於行動設備802的使用者不可見的內部部件。在一個特定實例中,音訊增強器192進行操作以增強使用者語音活動,隨後對其進行處理以在行動設備802處執行一或多個操作,諸如啟動圖形化使用者介面或以其他方式在顯示螢幕804處顯示與使用者的語音相關聯的其他資訊(例如,經由集成的「智慧助手」應用)。在特定實例中,音訊增強器192增強在線上會議期間講話者的語音活動。舉例說明,使用者可以在線上會議期間在顯示螢幕804上看到講話者,並且選擇該講話者作為變焦目標。音訊增強器192回應於對變焦目標的選擇來增強講話者的語音。在另一實例中,行動設備802的鳥類追蹤應用的使用者選擇樹作為變焦目標。音訊增強器192回應於對變焦目標的選擇來增強來自樹上的鳥的鳥聲音。
圖9描繪了其中設備102包括耳機設備902的實現方式900。耳機設備902包括一或多個麥克風120、一或多個揚聲器160或其組合。處理器190的部件(包括音訊增強器192)集成在耳機設備902中。在一個特定實例中,音訊增強器192進行操作以增強使用者語音活動,此可以使得耳機設備902在耳機設備902處執行一或多個操作,將對應於使用者語音活動的音訊資料發送給第二設備(未圖示)以供進一步處理,或其組合。在一個特定態樣中,耳機設備902具有可以用於變焦到與耳機設備902的音訊輸出相對應的聲場的不同部分的輸入(例如,按鈕或箭頭)。例如,耳機設備902輸出管弦樂隊音樂,並且佩戴耳機設備902的使用者使用耳機設備902的輸入來選擇管弦樂隊的特定部分或樂器作為變焦目標。音訊增強器192產生對應於變焦目標(例如,特定部分或樂器)的音訊變焦操作的一或多個輸出音訊信號138。
圖10描繪了實現方式1000,其中設備102包括被示為「智慧手錶」的可穿戴電子設備1002。音訊增強器192、一或多個麥克風120、一或多個揚聲器160或其組合集成到可穿戴電子設備1002中。在一個特定實例中,音訊增強器192進行操作以增強使用者語音活動,隨後對其進行處理以在可穿戴電子設備1002處執行一或多個操作,諸如啟動圖形化使用者介面或以其他方式在可穿戴電子設備1002的顯示螢幕1004處顯示與使用者語音相關聯的其他資訊。舉例說明,可穿戴電子設備1002可以包括顯示螢幕,其被配置為顯示基於由可穿戴電子設備1002增強的使用者語音的通知。在一個特定實例中,可穿戴電子設備1002包括觸覺設備,其回應於使用者語音活動來提供觸覺通知(例如,振動)。例如,觸覺通知可以使得使用者查看可穿戴電子設備1002以查看所顯示的通知,該通知指示對使用者所說的關鍵字的偵測。因此,可穿戴電子設備1002可以向患有聽力障礙的使用者或佩戴耳機的使用者提醒偵測到該使用者的語音活動。在一個特定態樣中,可穿戴電子設備1002包括可以用於變焦到與可穿戴電子設備1002的音訊輸出相對應的聲場的不同部分的輸入(例如,按鈕或箭頭)。
圖11是其中設備102包括無線揚聲器和語音啟動設備1102的實現方式1100。無線揚聲器和語音啟動設備1102可以具有無線網路連接,並且被配置為執行輔助操作。包括音訊增強器192的一或多個處理器190、一或多個麥克風120、一或多個揚聲器160或其組合被包括在無線揚聲器和語音啟動設備1102中。在操作期間,回應於經由音訊增強器192的音訊增強操作接收到被辨識為使用者語音的口頭命令,無線揚聲器和語音啟動設備1102可以執行輔助操作,諸如經由語音啟動系統(例如,集成助手應用)的執行。助手操作可以包括調整溫度、播放音樂、打開燈等。例如,助手操作回應於在關鍵字或關鍵片語(例如,「hello assistant」)之後接收到命令而執行。
圖12描繪了其中設備102包括對應於相機設備1202的可攜式電子設備的實現方式1200。音訊增強器192、一或多個麥克風120、一或多個揚聲器160或其組合被包括在相機設備1202中。在操作期間,回應於經由音訊增強器192的操作而接收到作為增強使用者語音的口頭命令,相機設備1202可以執行回應於口頭使用者命令的操作,諸如執行變焦操作、調整圖像或視訊擷取設置、圖像或視訊重播設置、或圖像或視訊擷取指令,作為說明性實例。在一個特定實例中,相機設備1202包括攝像機,其當拉近在取景器中可見的音訊源184時使得音訊增強器192執行音訊變焦操作以增強從音訊源184擷取的音訊。
圖13描繪了其中設備102包括對應於虛擬實境、增強現實或混合現實耳機1302的可攜式電子設備的實現方式1300。音訊增強器192、一或多個麥克風120、一或多個揚聲器160或其組合集成到耳機1302中。可以基於從耳機1302的一或多個麥克風120接收的音訊信號來執行音訊增強。在一個特定實例中,可以對從記憶體、網路、另一設備或其組合接收的與虛擬、增強或混合現實相對應的音訊信號執行音訊增強。視覺介面設備位於使用者眼睛的前方,以使得在耳機1302被佩戴時能夠向使用者顯示增強現實或虛擬實境圖像或場景。在一個特定實例中,視覺介面設備被配置為顯示指示音訊信號的增強語音的通知。在一種特定實現方式中,當使用者使用耳機1302來變焦到在視覺介面設備中所示的虛擬或實際物件時,音訊增強器192執行對應於該物件的音訊的音訊變焦(例如,作為遊戲玩法的一部分)。在一些實例中,音訊增強器192結合由視覺介面設備顯示的視覺變焦來執行音訊變焦。
圖14描繪了實現方式1400,其中設備102對應於或集成在車輛1402(被示為有人駕駛或無人駕駛空中設備(例如,包裹遞送無人機))內。音訊增強器192、一或多個麥克風120、一或多個揚聲器160或其組合集成到車輛1402中。音訊(例如,使用者語音活動)增強可以基於從車輛1402的一或多個麥克風120接收的音訊信號(諸如用於來自車輛1402的授權使用者的遞送指令)來執行。
圖15描繪了另一種實現方式1500,其中設備102對應於車輛1502(被示為汽車)或集成在車輛1502內。車輛1502包括處理器190,處理器190包括音訊增強器192。車輛1502亦包括一或多個麥克風120。可以基於從車輛1502的一或多個麥克風120接收的音訊信號來執行音訊(例如,使用者語音活動)增強。在一些實現方式中,可以基於從內部麥克風(例如,一或多個麥克風120)接收的音訊信號(諸如用於來自授權乘客的語音命令)來執行音訊(例如,語音活動)增強。例如,使用者語音活動增強可以用於增強來自車輛1502的操作員或乘客的語音命令。在一些實現方式中,可以基於從外部麥克風(例如,一或多個麥克風120)接收的音訊信號(諸如來自音訊源184(例如,鳥類、海灘上的波浪、戶外音樂、車輛1502的授權使用者、免下車零售員工或路邊取貨人員)的聲音)來執行音訊增強。在一種特定實現方式中,回應於經由音訊增強器192的操作來接收作為增強使用者語音的口頭命令,語音啟動系統基於在一或多個輸出音訊信號138中偵測到的一或多個關鍵字(例如,「解鎖」、「啟動發動機」、「播放音樂」、「顯示天氣預報」或另一語音命令)來發起車輛1502的一或多個操作,諸如藉由經由顯示器1520或一或多個揚聲器(例如,揚聲器1510)提供回饋或資訊。在一種特定實現方式中,經由一或多個揚聲器160在車輛1502的內部重播經增強的外部聲音(例如,室外音樂、鳥類聲音等)。
參考圖16,圖示基於音訊源方向性的心理聲學增強的方法1600的特定實現方式。在一個特定態樣中,方法1600的一或多個操作由圖1的方向性分析器152、等化器148、音訊增強器192、一或多個處理器190、設備102、系統100或其組合中的至少一者執行。
在1602處,方法1600包括:獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料。例如,圖1的方向性分析器152獲得與一或多個輸入音訊信號126相對應的音訊源184的方向性資料141,如參考圖1和圖4至圖6所描述的。
在1604處,方法1600亦包括:至少部分地基於方向性資料來決定一或多個等化器設置。例如,圖1的方向性分析器152至少部分地基於方向性資料141來決定等化器設置153,如參考圖1和圖4至圖6所描述的。
在1606處,方法1600進一步包括:基於等化器設置來產生與一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。例如,圖1的等化器148基於等化器設置153來產生與一或多個輸入音訊信號126的心理聲學增強版本相對應的一或多個輸出音訊信號138。
方法1600使得能夠經由基於音訊源184的方向性而調整用於頻率的響度來產生一或多個輸出音訊信號138。與僅調整一或多個輸入音訊信號126的增益相比,一或多個輸出音訊信號138對應於更自然的聲音音訊變焦。
圖16的方法1600可以由以下各者來實現:現場可程式設計閘陣列(FPGA)設備、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之類的處理單元、DSP、控制器、另一硬體設備、韌體設備或其任何組合。作為一個實例,圖16的方法1600可以由執行指令的處理器來執行,諸如參考圖17所描述的。
參考圖17,描繪了設備的特定說明性實現方式的方塊圖,並且將其整體上指定為1700。在各種實現方式中,設備1700可以具有比在圖17中所示的更多或更少的部件。在一種說明性實現方式中,設備1700可以對應於設備102。在一種說明性實現方式中,設備1700可以執行參考圖1至圖16所描述的一或多個操作。
在一種特定實現方式中,設備1700包括處理器1706(例如,中央處理單元(CPU))。設備1700可以包括一或多個額外處理器1710(例如,一或多個DSP)。在一個特定態樣中,圖1的一或多個處理器190對應於處理器1706、處理器1710或其組合。處理器1710可以包括語音和音樂轉碼器(CODEC)1708,其包括語音譯碼器(「聲碼器」)編碼器1736、聲碼器解碼器1738、音訊增強器192或其組合。
設備1700可以包括記憶體132和CODEC 1734。記憶體132可以包括可由一或多個額外處理器1710(或處理器1706)執行以實現參考音訊增強器192描述的功能的指令1756。設備1700可以包括經由收發機1750耦合到天線1752的數據機1746。
設備1700可以包括耦合到顯示控制器1726的顯示設備162。一或多個揚聲器160、一或多個麥克風120或其組合可以耦合到CODEC 1734。例如,一或多個麥克風120可以經由圖1的一或多個輸入介面124耦合到CODEC 1734。一或多個揚聲器160可以經由一或多個輸出介面耦合到CODEC 1734。CODEC 1734可以包括數位類比轉換器(DAC)1702、類比數位轉換器(ADC)1704或兩者。在一種特定實現方式中,CODEC 1734可以從一或多個麥克風120接收類比信號,使用類比數位轉換器1704將類比信號轉換為數位信號,並且將數位信號提供給語音和音樂轉碼器1708。語音和音樂轉碼器1708可以處理數位信號,並且數位信號可以進一步由音訊增強器192處理。在一種特定實現方式中,語音和音樂轉碼器1708可以將數位信號提供給CODEC 1734。CODEC 1734可以使用數位類比轉換器1702將數位信號轉換為類比信號,並且可以將類比信號提供給一或多個揚聲器160。
在一種特定實現方式中,設備1700可以被包括在系統級封裝或片上系統設備1722中。在一種特定實現方式中,記憶體132、處理器1706、處理器1710、顯示控制器1726、CODEC 1734和數據機1746被包括在系統級封裝或片上系統設備1722中。在一種特定實現方式中,輸入設備130、相機140和電源供應器1744耦合到片上系統設備1722。此外,在一種特定實現方式中,如圖17所示,顯示設備162、輸入設備130、相機140、一或多個揚聲器160、一或多個麥克風120、天線1752和電源供應器1744位於片上系統設備1722的外部。在一種特定實現方式中,顯示設備162、輸入設備130、相機140、一或多個揚聲器160、一或多個麥克風120、天線1752和電源1744供應器中的每一者皆可以耦合到片上系統設備1722的部件,諸如介面(例如,一或多個輸入介面124、輸入介面144、一或多個額外介面或其組合)或控制器。
設備1700可以包括虛擬助理、家用電器、智慧設備、物聯網路(IoT)設備、通訊設備、耳機、車輛、電腦、顯示設備、電視機、遊戲控制台、音樂播放機、無線電單元、視訊播放機、娛樂單元、個人媒體播放機、數位視訊播放機、相機、導航設備、智慧揚聲器、條形揚聲器、行動通訊設備、智慧型電話、蜂巢式電話、膝上型電腦、平板設備、個人數位助理、數位視訊光碟(DVD)播放機、調諧器、增強現實耳機、虛擬實境耳機、飛行器、家庭自動化系統、語音啟動設備、無線揚聲器和語音啟動設備、可攜式電子設備、汽車、計算設備、虛擬實境(VR)設備、基地台、行動設備或其任何組合。
結合所描述的實現方式,一種裝置包括用於獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料的構件。例如,用於獲得的構件可以對應於圖1的方向性分析器152、音訊增強器192、一或多個處理器190、設備102、系統100、處理器1706、處理器1710、數據機1746、收發機1750、天線1752、被配置為獲得一或多個音訊源的方向性資料的一或多個其他電路或部件、或其任何組合。
該裝置亦包括用於至少部分地基於方向性資料來決定一或多個等化器設置的構件。例如,用於決定的構件可以對應於圖1的方向性分析器152、音訊增強器192、一或多個處理器190、設備102、系統100、處理器1706、處理器1710、被配置為至少部分地基於方向性資料來決定一或多個等化器設置的一或多個其他電路或部件、或其任何組合。
該裝置亦包括用於基於等化器設置來產生與一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號的構件。例如,用於產生的構件可以對應於圖1的方向性分析器152、音訊增強器192、一或多個處理器190、設備102、系統100、處理器1706、處理器1710、被配置為基於等化器設置來產生與一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號的一或多個其他電路或部件、或其任何組合。
在一些實現方式中,一種非暫時性電腦可讀取媒體(例如,電腦可讀取儲存設備,諸如記憶體132)包括指令(例如,指令1756),指令在由一或多個處理器(例如,一或多個處理器1710或處理器1706)執行時,使得一或多個處理器獲得與一或多個輸入音訊信號(例如,一或多個輸入音訊信號126)相對應的一或多個音訊源(例如,音訊源184、音訊源684或兩者)的方向性資料(例如,方向性資料141)。指令在由一或多個處理器執行時亦使得一或多個處理器至少部分地基於方向性資料來決定一或多個等化器設置(例如,等化器設置153、等化器設置653或其組合)。指令在由一或多個處理器執行時亦使得一或多個處理器基於等化器設置來產生與一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號(例如,一或多個輸出音訊信號138)。
下文在第一組相關條款中描述了本揭示內容的特定態樣:
根據條款1,一種設備包括:一或多個處理器,其被配置為:獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料;至少部分地基於該方向性資料來決定一或多個等化器設置;及基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
條款2包括如條款1所述的設備,其中該心理聲學增強版本近似在與音訊變焦操作相關的變焦朝向和變焦距離處該一或多個音訊源的頻率回應。
條款3包括如條款1或條款2所述的設備,其中該一或多個處理器進一步被配置為:接收指示音訊變焦操作的變焦目標的使用者輸入;及基於該變焦目標來決定該一或多個等化器設置。
條款4包括如條款3所述的設備,其中該變焦目標包括變焦位置、變焦距離、變焦朝向、對該一或多個音訊源中的至少一者的選擇、或其組合。
條款5包括如條款1至條款4中任一項所述的設備,其中該一或多個音訊源中的特定音訊源的該方向性資料指示該特定音訊源的朝向和距離頻率回應特性。
條款6包括如條款1至條款5中任一項所述的設備,其中該一或多個處理器進一步被配置為:對該一或多個輸入音訊信號執行波束成形,以產生一或多個經波束成形的音訊信號;及處理基於該一或多個經波束成形的音訊信號的等化器輸入音訊信號以產生該一或多個輸出音訊信號。
條款7包括如條款1至條款6中任一項所述的設備,其中該一或多個處理器進一步被配置為:辨識基於該一或多個輸入音訊信號的語音偵測輸入音訊信號中的語音,以產生一或多個語音音訊信號;及處理基於該一或多個語音音訊信號的等化器輸入音訊信號以產生該一或多個輸出音訊信號。
條款8包括如條款1至條款7中任一項所述的設備,其中該一或多個處理器進一步被配置為:基於變焦目標來將一或多個增益應用於基於該一或多個輸入音訊信號的增益調整器輸入音訊信號,以產生經增益調整的音訊信號;及處理基於該經增益調整的音訊信號的等化器輸入音訊信號以產生該一或多個輸出音訊信號。
條款9包括如條款1至條款8中任一項所述的設備,其中該一或多個處理器進一步被配置為:對基於該一或多個輸入音訊信號的雜訊抑制器輸入音訊信號執行雜訊抑制,以產生經雜訊抑制的音訊信號;及處理基於該經雜訊抑制的音訊信號的等化器輸入音訊信號以產生該一或多個輸出音訊信號。
條款10包括如條款1至條款9中任一項所述的設備,其中該一或多個處理器進一步被配置為:處理基於該一或多個輸入音訊信號的上下文偵測器輸入音訊信號,以產生該一或多個音訊源的上下文資料,其中該一或多個音訊源中的特定音訊源的該上下文資料指示該特定音訊源的朝向、該特定音訊源的距離、該特定音訊源的類型或其組合;及基於該特定音訊源的該類型來獲得該特定音訊源的該方向性資料。
條款11包括如條款10所述的設備,其中該一或多個處理器進一步被配置為:至少部分地基於與該一或多個輸入音訊信號相關聯的圖像資料來產生該上下文資料。
條款12包括如條款11所述的設備,其中該一或多個處理器進一步被配置為:從記憶體檢索該圖像資料和該一或多個輸入音訊信號。
條款13包括如條款11或條款12所述的設備,進一步包括:一或多個麥克風,其耦合到該一或多個處理器,並且被配置為產生該一或多個輸入音訊信號。
條款14包括如條款11至條款13中任一項所述的設備,進一步包括:相機,其耦合到該一或多個處理器,並且被配置為產生該圖像資料。
條款15包括如條款11至條款14中任一項所述的設備,其中該一或多個處理器進一步被配置為:基於該一或多個輸入音訊信號、該圖像資料或兩者執行音訊源辨識,以辨識該一或多個音訊源中的該特定音訊源的該類型。
條款16包括如條款11至條款15中任一項所述的設備,其中該一或多個處理器進一步被配置為:基於該一或多個輸入音訊信號、該圖像資料或兩者執行音訊源辨識,以決定該一或多個音訊源中的該特定音訊源;及對該圖像資料執行圖像分析以決定該特定音訊源的該朝向。
條款17包括如條款11至條款16中任一項所述的設備,其中該一或多個處理器進一步被配置為:基於該一或多個輸入音訊信號、該圖像資料或兩者執行音訊源辨識,以決定該一或多個音訊源中的該特定音訊源;及對該一或多個輸入音訊信號、該圖像資料或兩者執行距離分析,以決定該特定音訊源的該距離。
條款18包括如條款10至條款17中任一項所述的設備,其中該一或多個處理器進一步被配置為:基於等化器設置資料來選擇該一或多個等化器設置,該等化器設置資料將該一或多個等化器設置與該上下文資料、該方向性資料、變焦朝向、變焦距離或其組合進行關聯。
條款19包括如條款18所述的設備,其中該一或多個處理器進一步被配置為:從記憶體、另一設備或兩者獲得該等化器設置資料。
條款20包括如條款10至條款19中任一項所述的設備,其中該一或多個處理器進一步被配置為:選擇該一或多個等化器設置,以降低與中頻相對應的頻率回應。
條款21包括如條款1至條款20中任一項所述的設備,其中該一或多個處理器進一步被配置為:在第一時間處產生與該一或多個音訊源中的特定音訊源相對應的第一輸入音訊信號的第一聲譜;在第二時間處產生與該特定音訊源相對應的第二輸入音訊信號的第二聲譜;及更新該方向性資料,以指示該第一時間處的第一距離和第一朝向與該第二時間處的第二距離和第二朝向之間的差對應於該第一聲譜和該第二聲譜之間的差。
條款22包括如條款1至條款21中任一項所述的設備,其中該一或多個處理器進一步被配置為:從記憶體、另一設備或兩者獲得該方向性資料。
條款23包括如條款1至條款5、條款21或條款22中任一項所述的設備,其中該一或多個處理器進一步被配置為:對該一或多個輸入音訊信號執行波束成形,以產生一或多個經波束成形的音訊信號;偵測該一或多個輸入音訊信號中的語音以產生一或多個語音音訊信號;基於變焦目標來將一或多個增益應用於該一或多個經波束成形的音訊信號、該一或多個語音音訊信號或其組合,以產生一或多個經增益調整的音訊信號;至少部分地基於該一或多個經增益調整的音訊信號來產生該一或多個音訊源的上下文資料,其中該一或多個音訊源中的特定音訊源的該上下文資料指示該特定音訊源的朝向、該特定音訊源的距離、該特定音訊源的類型、或其組合;基於該特定音訊源的該類型來獲得該特定音訊源的該方向性資料;進一步基於該上下文資料、變焦朝向和變焦距離來決定該一或多個等化器設置;將雜訊抑制應用於該一或多個經增益調整的音訊信號,以產生一或多個經雜訊抑制的音訊信號;及藉由基於該一或多個等化器設置處理該一或多個經雜訊抑制的音訊信號來產生該一或多個輸出音訊信號。
下文在第二組相關條款中描述了本揭示內容的特定態樣:
根據條款24,一種方法包括:在設備處獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料;在該設備處,至少部分地基於該方向性資料來決定一或多個等化器設置;及基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
條款25包括如條款24所述的方法,進一步包括:在該設備處接收指示音訊變焦操作的變焦目標的使用者輸入;及在該設備處,基於該變焦目標來決定該一或多個等化器設置,其中該變焦目標包括變焦位置、變焦距離、變焦朝向、對該一或多個音訊源中的至少一者的選擇、或其組合。
下文在第三組相關條款中描述了本揭示內容的特定態樣:
根據條款26,一種非暫時性電腦可讀取媒體儲存指令,該等指令在由一或多個處理器執行時使得該一或多個處理器進行以下操作:獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料;至少部分地基於該方向性資料來決定一或多個等化器設置;及基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號。
條款27包括如條款26所述的非暫時性電腦可讀取媒體,其中該等指令在由該一或多個處理器執行時進一步使得該一或多個處理器進行以下操作:對該一或多個輸入音訊信號執行波束成形,以產生一或多個經波束成形的音訊信號;及處理基於該一或多個經波束成形的音訊信號的等化器輸入音訊信號以產生該一或多個輸出音訊信號。
條款28包括如條款26或條款27所述的非暫時性電腦可讀取媒體,其中該等指令在由該一或多個處理器執行時進一步使得該一或多個處理器進行以下操作:辨識基於該一或多個輸入音訊信號的語音偵測輸入音訊信號中的語音,以產生一或多個語音音訊信號;及處理基於該一或多個語音音訊信號的等化器輸入音訊信號以產生該一或多個輸出音訊信號。
下文在第四組相關條款描述了本揭示內容的特定態樣:
根據條款29,一種裝置包括:用於獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料的構件;用於至少部分地基於該方向性資料來決定一或多個等化器設置的構件;及用於基於該等等化器設置來產生與該一或多個輸入音訊信號的心理聲學增強版本相對應的一或多個輸出音訊信號的構件。
條款30包括如條款29所述的裝置,其中該用於獲得的構件、該用於決定的構件和該用於產生的構件被集成到以下各者中的至少一者中:虛擬助理、家用電器、智慧設備、物聯網路(IoT)設備、通訊設備、耳機、車輛、電腦、顯示設備、電視機、遊戲控制台、音樂播放機、無線電單元、視訊播放機、娛樂單元、個人媒體播放機、數位視訊播放機、相機或導航設備。
技藝人士進一步將明白的是,結合本文所揭示的實現方式來描述的各個說明性的邏輯區塊、配置、模組、電路和演算法步驟可以被實現為電子硬體、由處理器執行的電腦軟體、或兩者的組合。上文已經對各種說明性的部件、方塊、配置、模組、電路和步驟均圍繞其功能進行了整體描述。此種功能是實現為硬體還是處理器可執行指令,取決於特定的應用和對整個系統施加的設計約束。本領域技藝人士可以針對每個特定應用,以變化的方式實現所描述的功能,此種實現方式決策將不被解釋為造成對本揭示內容的範圍的背離。
結合本文揭示的實現方式所描述的方法或者演算法的步驟可以直接地體現在硬體中、由處理器執行的軟體模組中、或者兩者的組合中。軟體模組可以常駐在隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、暫存器、硬碟、可移除磁碟、壓縮光碟唯讀記憶體(CD-ROM)、或本領域中已知的任何其他形式的非暫時性儲存媒體。示例性的儲存媒體耦合到處理器,使得處理器可以從該儲存媒體讀取資訊以及向該儲存媒體寫入資訊。替代地,儲存媒體可以整合到處理器中。處理器和儲存媒體可以位於特殊應用積體電路(ASIC)中。該ASIC可以位於計算設備或者使用者終端中。替代地,處理器和儲存媒體可以作為個別部件位於計算設備或者使用者終端中。
提供對所揭示的態樣的先前描述,以使本領域技藝人士能夠實現或使用所揭示的態樣。對於本領域技藝人士而言,對該等態樣的各種修改將是容易顯而易見的,以及在不脫離本揭示內容的範圍的情況下,本文中定義的原理可以應用於其他態樣。因此,本揭示內容不意欲限於本文中所圖示的態樣,而是要被賦予與藉由下文的請求項限定的原理和新穎特徵相一致的可能的最廣範圍。
100:系統
101:使用者
102:設備
120:麥克風
122:麥克風輸出
124:輸入介面
126:輸入音訊信號(SIG)
130:輸入設備
131:使用者輸入
132:記憶體
133:變焦目標
134:位置
135:變焦距離
136:變焦位置
137:變焦朝向
138:輸出音訊信號
140:相機
141:方向性資料
142:相機輸出
144:輸入介面
145:圖像資料
146:預均衡信號處理器
147:等化器輸入音訊信號
148:等化器(Eq)設置資料
149:等化器設置資料
150:方向性資料更新器
152:方向性分析器
153:等化器設置
160:揚聲器
161:圖形化使用者介面
162:顯示設備
184:音訊源
186:聲音
190:處理器
192:音訊增強器
202:變焦選擇器
204:視訊顯示器
300:圖
340:空間分析器
341:經波束成形的音訊信號
342:活動偵測器
343:活動音訊信號
344:增益調整器
345:經增益調整的音訊信號
346:雜訊抑制器
347:經雜訊抑制的音訊信號
350:上下文偵測器
351:上下文資料
361:活動輸入音訊信號
362:源偵測器
363:增益調整器輸入音訊信號
364:源位置偵測器
365:雜訊抑制輸入音訊信號
369:上下文偵測器輸入音訊信號
400:圖
402:聲音方向性圖案
404:方向性資料集合
420:源位置資料
422:源朝向
424:源距離
432:源朝向
434:源距離
449:頻率回應特性
500:圖
504:方向性資料集合
520:源位置資料
522:源朝向
532:源朝向
549:頻率回應特性
600:圖
604:方向性資料集合
620:源位置資料
622:源朝向
624:源距離
632:源朝向
634:源距離
649:頻率回應特性
653:等化器設置
684:音訊源
700:實現方式
702:積體電路
704:音訊輸入
706:音訊輸出
800:實現方式
802:行動設備
804:顯示螢幕
900:實現方式
902:耳機設備
1000:實現方式
1002:可穿戴電子設備
1004:顯示螢幕
1100:實現方式
1102:無線揚聲器和語音啟動設備
1200:實現方式
1202:相機設備
1300:實現方式
1302:耳機
1400:實現方式
1402:車輛
1500:實現方式
1502:車輛
1520:顯示器
1600:方法
1700:設備
1702:數位類比轉換器(DAC)
1704:類比數位轉換器(ADC)
1706:處理器
1708:語音和音樂轉碼器(CODEC)
1710:處理器
1722:系統級封裝或片上系統設備
1726:顯示控制器
1734:CODEC
1736:語音譯碼器(「聲碼器」)編碼器
1738:聲碼器解碼器
1744:電源供應器
1746:數據機
1750:收發機
1752:天線
1756:指令
圖1是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的系統的特定說明性態樣的方塊圖。
圖2A是根據本揭示內容的一些實例的由圖1的系統產生的圖形化使用者介面(GUI)的說明性實例的圖。
圖2B是根據本揭示內容的一些實例的由圖1的系統產生的GUI的另一說明性實例的圖。
圖3是根據本揭示內容的一些實例的圖1的系統的部件的說明性態樣的圖。
圖4是根據本揭示內容的一些實例的圖1的系統的部件的說明性態樣的圖。
圖5是根據本揭示內容的一些實例的圖1的系統的部件的說明性態樣的圖。
圖6是根據本揭示內容的一些實例的圖1的系統的部件的說明性態樣的圖。
圖7示出根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的積體電路的實例。
圖8是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的行動設備的圖。
圖9是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的耳機的圖。
圖10是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的可穿戴電子設備的圖。
圖11是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的聲控揚聲器系統的圖。
圖12是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的相機的圖。
圖13是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的耳機(諸如虛擬實境或增強現實耳機)的圖。
圖14是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的車輛的第一實例的圖。
圖15是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的車輛的第二實例的圖。
圖16是根據本揭示內容的一些實例的可以由圖1的設備執行的基於音訊源方向性的心理聲學增強的方法的特定實現方式的圖。
圖17是根據本揭示內容的一些實例的可操作以基於音訊源方向性來執行心理聲學增強的設備的特定說明性實例的方塊圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
100:系統
101:使用者
102:設備
120:麥克風
122:麥克風輸出
124:輸入介面
126:輸入音訊信號(SIG)
130:輸入設備
131:使用者輸入
132:記憶體
133:變焦目標
134:位置
135:變焦距離
136:變焦位置
137:變焦朝向
138:輸出音訊信號
140:相機
141:方向性資料
142:相機輸出
144:輸入介面
145:圖像資料
146:預均衡信號處理器
147:等化器輸入音訊信號
148:等化器(Eq)設置資料
149:等化器設置資料
150:方向性資料更新器
152:方向性分析器
153:等化器設置
160:揚聲器
161:圖形化使用者介面
162:顯示設備
184:音訊源
186:聲音
190:處理器
192:音訊增強器
Claims (30)
- 一種設備,包括: 一記憶體,其被配置為儲存與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料;及 一或多個處理器,其被配置為: 至少部分地基於該方向性資料來決定一或多個等化器設置;及 基於該等等化器設置來產生與該一或多個輸入音訊信號的一心理聲學增強版本相對應的一或多個輸出音訊信號。
- 如請求項1所述的設備,其中該心理聲學增強版本近似在與一音訊變焦操作相關聯的一變焦朝向和一變焦距離處該一或多個音訊源的一頻率回應。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 接收指示一音訊變焦操作的一變焦目標的使用者輸入;及 基於該變焦目標來決定該一或多個等化器設置。
- 如請求項3所述的設備,其中該變焦目標包括一變焦位置、一變焦距離、一變焦朝向、對該一或多個音訊源中的至少一者的一選擇、或一其組合。
- 如請求項1所述的設備,其中該一或多個音訊源中的一特定音訊源的該方向性資料指示該特定音訊源的朝向和距離頻率回應特性。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 對該一或多個輸入音訊信號執行波束成形,以產生一或多個經波束成形的音訊信號;及 處理基於該一或多個經波束成形的音訊信號的一等化器輸入音訊信號以產生該一或多個輸出音訊信號。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 辨識基於該一或多個輸入音訊信號的一語音偵測輸入音訊信號中的語音,以產生一或多個語音音訊信號;及 處理基於該一或多個語音音訊信號的一等化器輸入音訊信號以產生該一或多個輸出音訊信號。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 基於一變焦目標來將一或多個增益應用於基於該一或多個輸入音訊信號的一增益調整器輸入音訊信號,以產生一經增益調整的音訊信號;及 處理基於該經增益調整的音訊信號的一等化器輸入音訊信號以產生該一或多個輸出音訊信號。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 對基於該一或多個輸入音訊信號的一雜訊抑制器輸入音訊信號執行雜訊抑制,以產生一經雜訊抑制的音訊信號;及 處理基於該經雜訊抑制的音訊信號的一等化器輸入音訊信號以產生該一或多個輸出音訊信號。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 處理基於該一或多個輸入音訊信號的一上下文偵測器輸入音訊信號,以產生該一或多個音訊源的上下文資料,其中該一或多個音訊源中的一特定音訊源的該上下文資料指示該特定音訊源的一朝向、該特定音訊源的一距離、該特定音訊源的一類型或一其組合;及 基於該特定音訊源的該類型來獲得該特定音訊源的該方向性資料。
- 如請求項10所述的設備,其中該一或多個處理器進一步被配置為:至少部分地基於與該一或多個輸入音訊信號相關聯的圖像資料來產生該上下文資料。
- 如請求項11所述的設備,其中該一或多個處理器進一步被配置為:從記憶體檢索該圖像資料和該一或多個輸入音訊信號。
- 如請求項11所述的設備,進一步包括:一或多個麥克風,其耦合到該一或多個處理器,並且被配置為產生該一或多個輸入音訊信號。
- 如請求項11所述的設備,進一步包括:一相機,其耦合到該一或多個處理器,並且被配置為產生該圖像資料。
- 如請求項11所述的設備,其中該一或多個處理器進一步被配置為:基於該一或多個輸入音訊信號、該圖像資料或兩者執行音訊源辨識,以辨識該一或多個音訊源中的該特定音訊源的該類型。
- 如請求項11所述的設備,其中該一或多個處理器進一步被配置為: 基於該一或多個輸入音訊信號、該圖像資料或兩者執行音訊源辨識,以決定該一或多個音訊源中的該特定音訊源;及 對該圖像資料執行圖像分析以決定該特定音訊源的該朝向。
- 如請求項11所述的設備,其中該一或多個處理器進一步被配置為: 基於該一或多個輸入音訊信號、該圖像資料或兩者執行音訊源辨識,以決定該一或多個音訊源中的該特定音訊源;及 對該一或多個輸入音訊信號、該圖像資料或兩者執行距離分析,以決定該特定音訊源的該距離。
- 如請求項10所述的設備,其中該一或多個處理器進一步被配置為:基於等化器設置資料來選擇該一或多個等化器設置,該等化器設置資料將該一或多個等化器設置與該上下文資料、該方向性資料、一變焦朝向、一變焦距離或一其組合進行關聯。
- 如請求項18所述的設備,其中該一或多個處理器進一步被配置為:從該記憶體、另一設備或兩者獲得該等化器設置資料。
- 如請求項10所述的設備,其中該一或多個處理器進一步被配置為:選擇該一或多個等化器設置,以降低與中頻相對應的一頻率回應。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 在一第一時間處產生與該一或多個音訊源中的一特定音訊源相對應的一第一輸入音訊信號的一第一聲譜; 在一第二時間處產生與該特定音訊源相對應的一第二輸入音訊信號的一第二聲譜;及 更新該方向性資料,以指示該第一時間處的一第一距離和一第一朝向與該第二時間處的一第二距離和一第二朝向之間的一差對應於該第一聲譜和該第二聲譜之間的一差。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為:從該記憶體、另一設備或兩者獲得該方向性資料。
- 如請求項1所述的設備,其中該一或多個處理器進一步被配置為: 對該一或多個輸入音訊信號執行波束成形,以產生一或多個經波束成形的音訊信號; 偵測該一或多個輸入音訊信號中的語音以產生一或多個語音音訊信號; 基於一變焦目標來將一或多個增益應用於該一或多個經波束成形的音訊信號、該一或多個語音音訊信號或一其組合,以產生一或多個經增益調整的音訊信號; 至少部分地基於該一或多個經增益調整的音訊信號來產生該一或多個音訊源的上下文資料,其中該一或多個音訊源中的一特定音訊源的該上下文資料指示該特定音訊源的一朝向、該特定音訊源的一距離、該特定音訊源的一類型、或一其組合; 基於該特定音訊源的該類型來獲得該特定音訊源的該方向性資料; 進一步基於該上下文資料、一變焦朝向和一變焦距離來決定該一或多個等化器設置; 將雜訊抑制應用於該一或多個經增益調整的音訊信號,以產生一或多個經雜訊抑制的音訊信號;及 藉由基於該一或多個等化器設置處理該一或多個經雜訊抑制的音訊信號來產生該一或多個輸出音訊信號。
- 一種方法,包括以下步驟: 在一設備處獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料; 在該設備處,至少部分地基於該方向性資料來決定一或多個等化器設置;及 基於該等等化器設置來產生與該一或多個輸入音訊信號的一心理聲學增強版本相對應的一或多個輸出音訊信號。
- 如請求項24所述的方法,進一步包括以下步驟: 在該設備處接收指示一音訊變焦操作的一變焦目標的使用者輸入;及 在該設備處,基於該變焦目標來決定該一或多個等化器設置,其中該變焦目標包括一變焦位置、一變焦距離、一變焦朝向、對該一或多個音訊源中的至少一者的一選擇、或一其組合。
- 一種儲存指令的非暫時性電腦可讀取媒體,該等指令在由一或多個處理器執行時使得該一或多個處理器進行以下操作: 獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料; 至少部分地基於該方向性資料來決定一或多個等化器設置;及 基於該等等化器設置來產生與該一或多個輸入音訊信號的一心理聲學增強版本相對應的一或多個輸出音訊信號。
- 如請求項26所述的非暫時性電腦可讀取媒體,其中該等指令在由該一或多個處理器執行時進一步使得該一或多個處理器進行以下操作: 對該一或多個輸入音訊信號執行波束成形,以產生一或多個經波束成形的音訊信號;及 處理基於該一或多個經波束成形的音訊信號的一等化器輸入音訊信號以產生該一或多個輸出音訊信號。
- 如請求項26所述的非暫時性電腦可讀取媒體,其中該等指令在由該一或多個處理器執行時進一步使得該一或多個處理器進行以下操作: 辨識基於該一或多個輸入音訊信號的一語音偵測輸入音訊信號中的語音,以產生一或多個語音音訊信號;及 處理基於該一或多個語音音訊信號的一等化器輸入音訊信號以產生該一或多個輸出音訊信號。
- 一種裝置,包括: 用於獲得與一或多個輸入音訊信號相對應的一或多個音訊源的方向性資料的構件; 用於至少部分地基於該方向性資料來決定一或多個等化器設置的構件;及 用於基於該等等化器設置來產生與該一或多個輸入音訊信號的一心理聲學增強版本相對應的一或多個輸出音訊信號的構件。
- 如請求項29所述的裝置,其中該用於獲得的構件、該用於決定的構件和該用於產生的構件被集成到以下各者中的至少一者中:一虛擬助理、一家用電器、一智慧設備、一物聯網路(IoT)設備、一通訊設備、一耳機、一車輛、一電腦、一顯示設備、一電視機、一遊戲控制台、一音樂播放機、一無線電單元、一視訊播放機、一娛樂單元、一個人媒體播放機、一數位視訊播放機、一相機或一導航設備。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/162,241 US11646046B2 (en) | 2021-01-29 | 2021-01-29 | Psychoacoustic enhancement based on audio source directivity |
US17/162,241 | 2021-01-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202304226A true TW202304226A (zh) | 2023-01-16 |
Family
ID=79730274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110147704A TW202304226A (zh) | 2021-01-29 | 2021-12-20 | 基於聲源方向性的心理聲學增強 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11646046B2 (zh) |
EP (1) | EP4285611A1 (zh) |
JP (1) | JP7459391B2 (zh) |
KR (1) | KR102650763B1 (zh) |
CN (1) | CN116803106B (zh) |
BR (1) | BR112023014480A2 (zh) |
TW (1) | TW202304226A (zh) |
WO (1) | WO2022164590A1 (zh) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003337164A (ja) * | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
US8319858B2 (en) | 2008-10-31 | 2012-11-27 | Fortemedia, Inc. | Electronic apparatus and method for receiving sounds with auxiliary information from camera system |
EP2211564B1 (en) * | 2009-01-23 | 2014-09-10 | Harman Becker Automotive Systems GmbH | Passenger compartment communication system |
EP2680615B1 (en) | 2012-06-25 | 2018-08-08 | LG Electronics Inc. | Mobile terminal and audio zooming method thereof |
US9685171B1 (en) * | 2012-11-20 | 2017-06-20 | Amazon Technologies, Inc. | Multiple-stage adaptive filtering of audio signals |
US9595997B1 (en) * | 2013-01-02 | 2017-03-14 | Amazon Technologies, Inc. | Adaption-based reduction of echo and noise |
US9883140B2 (en) * | 2014-05-19 | 2018-01-30 | Apple Inc. | Using the location of a near-end user in a video stream to adjust audio settings of a far-end system |
JP6865371B2 (ja) | 2016-03-24 | 2021-04-28 | パナソニックIpマネジメント株式会社 | モニタリングシステム及びモニタリング方法 |
DK3477964T3 (da) * | 2017-10-27 | 2021-05-25 | Oticon As | Høresystem, der er konfigureret til at lokalisere en mållydkilde |
CN108564962B (zh) | 2018-03-09 | 2021-10-08 | 浙江大学 | 基于四面体麦克风阵列的无人机声音信号增强方法 |
JP7321170B2 (ja) | 2018-04-16 | 2023-08-04 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 方向性音源のエンコードおよびデコードのための方法、装置およびシステム |
JP7426631B2 (ja) | 2019-03-29 | 2024-02-02 | パナソニックIpマネジメント株式会社 | 無人移動体及び情報処理方法 |
-
2021
- 2021-01-29 US US17/162,241 patent/US11646046B2/en active Active
- 2021-12-17 JP JP2023544356A patent/JP7459391B2/ja active Active
- 2021-12-17 CN CN202180091715.0A patent/CN116803106B/zh active Active
- 2021-12-17 BR BR112023014480A patent/BR112023014480A2/pt unknown
- 2021-12-17 KR KR1020237025350A patent/KR102650763B1/ko active IP Right Grant
- 2021-12-17 WO PCT/US2021/072989 patent/WO2022164590A1/en active Application Filing
- 2021-12-17 EP EP21844928.8A patent/EP4285611A1/en active Pending
- 2021-12-20 TW TW110147704A patent/TW202304226A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN116803106A (zh) | 2023-09-22 |
EP4285611A1 (en) | 2023-12-06 |
KR20230113853A (ko) | 2023-08-01 |
JP7459391B2 (ja) | 2024-04-01 |
BR112023014480A2 (pt) | 2024-01-23 |
JP2023554694A (ja) | 2023-12-28 |
US20220246160A1 (en) | 2022-08-04 |
US11646046B2 (en) | 2023-05-09 |
WO2022164590A1 (en) | 2022-08-04 |
KR102650763B1 (ko) | 2024-03-22 |
CN116803106B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10645518B2 (en) | Distributed audio capture and mixing | |
US10123140B2 (en) | Dynamic calibration of an audio system | |
JP6397158B1 (ja) | 協調的なオーディオ処理 | |
US11659349B2 (en) | Audio distance estimation for spatial audio processing | |
CN109804559A (zh) | 空间音频系统中的增益控制 | |
JP2020500480A5 (zh) | ||
JP2018533051A (ja) | 協調的なオーディオ処理 | |
US10354651B1 (en) | Head-mounted device control based on wearer information and user inputs | |
US11611840B2 (en) | Three-dimensional audio systems | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
WO2022062531A1 (zh) | 一种多通道音频信号获取方法、装置及系统 | |
US10708679B2 (en) | Distributed audio capture and mixing | |
TW202143750A (zh) | 使用自我調整網路來對全景聲係數進行變換 | |
US11646046B2 (en) | Psychoacoustic enhancement based on audio source directivity | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
US20240031765A1 (en) | Audio signal enhancement | |
US11671752B2 (en) | Audio zoom | |
CN111696565B (zh) | 语音处理方法、装置和介质 | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic | |
CN111696564B (zh) | 语音处理方法、装置和介质 | |
TW202420242A (zh) | 音訊信號增強 | |
TW202320556A (zh) | 基於用戶電信號的音頻調整 | |
CN115967892A (zh) | 发声控制方法、系统、显示设备及计算机可读存储介质 |