TW202223877A - 用戶話音輪廓管理 - Google Patents
用戶話音輪廓管理 Download PDFInfo
- Publication number
- TW202223877A TW202223877A TW110136316A TW110136316A TW202223877A TW 202223877 A TW202223877 A TW 202223877A TW 110136316 A TW110136316 A TW 110136316A TW 110136316 A TW110136316 A TW 110136316A TW 202223877 A TW202223877 A TW 202223877A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- profile
- user
- speech
- speaker
- Prior art date
Links
- 230000011218 segmentation Effects 0.000 claims abstract description 174
- 239000000872 buffer Substances 0.000 claims description 144
- 230000004044 response Effects 0.000 claims description 97
- 238000000034 method Methods 0.000 claims description 52
- 238000004458 analytical method Methods 0.000 claims description 40
- 230000003993 interaction Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 9
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 230000001413 cellular effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 37
- 239000000523 sample Substances 0.000 description 33
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 235000021178 picnic Nutrition 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
一種設備包括處理器,這些處理器被配置成在第一功率模式下確定音頻流是否對應於至少兩個講話者的話音。這些處理器被配置成基於確定該音頻流對應於至少兩個講話者的話音而在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果。這些處理器被配置成執行多個用戶話音輪廓與講話者同源音頻分段的第一多個音頻特徵資料集中的音頻特徵資料集的比較以確定該音頻特徵資料集是否與這些用戶話音輪廓中的任一者匹配。這些處理器被配置成基於確定該音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配根據該多個音頻特徵資料集來生成用戶話音輪廓。
Description
本公開一般涉及用戶話音輪廓(profile)的管理。
技術的進步已經導致了更小和更強大的計算設備。例如,目前存在各種便攜式個人計算設備,包括無線電話(諸如行動和智慧型電話、平板和膝上型計算機),它們體積小、重量輕且易於用戶攜帶。這些設備可以在無線網路上傳達語音和資料封包。此外,許多此類設備結合了附加功能性,諸如數位靜止相機、數位視頻相機、數位錄音機和音頻檔案播放器。此外,此類設備可以處理可執行指令,包括可用於存取網際網路的軟體應用(諸如web瀏覽器應用)。如此,這些設備可包括顯著的計算能力。
此類計算設備通常納入用於從一個或多個麥克風接收音頻訊號的功能性。例如,音頻訊號可表示由麥克風擷取的用戶話音、由麥克風擷取的外部聲音、或其組合。此類設備可包括依賴於用戶話音輪廓(例如,進行用戶識別)的應用。可以通過使用戶講出預定詞語或句子的腳本來訓練用戶話音輪廓。用以生成用戶話音輪廓的此類主動式用戶登記可能很耗時且不方便。
根據本公開的一個實現,一種用於音頻分析的設備包括記憶體和一個或多個處理器。該記憶體被配置成儲存多個用戶的多個用戶話音輪廓。該一個或多個處理器被配置成在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音。該一個或多個處理器還被配置成:基於確定該音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果。該分段結果指示該音頻流的講話者同源音頻分段。該一個或多個處理器被進一步配置成:執行該多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配。該一個或多個處理器還被配置成:基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:基於第一多個音頻特徵資料集來生成第一用戶話音輪廓,以及向該多個用戶話音輪廓添加第一用戶話音輪廓。
根據本公開的另一實現,一種音頻分析方法包括:在一設備處在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音。該方法還包括:基於確定該音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果。該分段結果指示該音頻流的講話者同源音頻分段。該方法進一步包括:在該設備處執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配。該方法還包括:基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:在該設備處基於第一多個音頻特徵資料集來生成第一用戶話音輪廓,以及在該設備處向該多個用戶話音輪廓添加第一用戶話音輪廓。
根據本公開的另一實現,一種非瞬態計算機可讀媒體包括指令,這些指令在由一個或多個處理器執行時使該一個或多個處理器:在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音。這些指令在由該一個或多個處理器執行時還使這些處理器:基於確定該音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果。該分段結果指示該音頻流的講話者同源音頻分段。這些指令在由該一個或多個處理器執行時進一步使該一個或多個處理器:執行該多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配。這些指令在由該一個或多個處理器執行時還使該一個或多個處理器:基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:基於第一多個音頻特徵資料集來生成第一用戶話音輪廓,以及向該多個用戶話音輪廓添加第一用戶話音輪廓。
根據本公開的另一實現,一種裝備包括用於儲存多個用戶的多個用戶話音輪廓的構件。該裝備還包括用於在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音的構件。該裝備還包括用於在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果的構件。該音頻特徵資料是基於確定該音頻流對應於至少兩個不同講話者的話音在第二功率模式下分析的。該分段結果指示該音頻流的講話者同源音頻分段。該裝備進一步包括用於執行該多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配的構件。該裝備還包括用於基於第一多個音頻特徵資料集來生成第一用戶話音輪廓的構件。第一用戶話音輪廓是基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配而生成的。該裝備進一步包括用於向該多個用戶話音輪廓添加第一用戶話音輪廓的構件。
本公開的其他方面、優點、和特徵將在閱讀整個申請後變得明瞭,整個申請包括以下章節:附圖簡述、詳細描述、以及申請專利範圍。
使用其中用戶講出一組預定詞語或句子的主動式用戶登記來訓練用戶話音輪廓可能很耗時且不方便。例如,用戶必須提前規劃,並花費時間來訓練用戶話音輪廓。本文所公開的用戶話音輪廓管理系統和方法使得能夠在不使用主動式用戶登記的情況下在多個發言者之間進行分區。例如,與一個或多個用戶的話音相對應的音頻流被分段器(segmentor)接收。該分段器生成分段結果,該分段結果指示該音頻流的講話者同源音頻分段。如本文所使用的,「講話者同源音頻分段」包括表示同一講話者的話音的音頻部分(例如,音頻幀)。例如,分段結果標識表示同一講話者的話音的一組音頻幀集合。輪廓管理器比較音頻幀集合中的音頻幀的各音頻特徵,以確定這些音頻特徵是否與多個所儲存用戶話音輪廓中的任一者匹配。輪廓管理器響應於確定這些音頻特徵不與所儲存的任何用戶話音輪廓匹配而至少部分地基於這些音頻特徵來生成用戶話音輪廓。替換地,輪廓管理器響應於確定這些音頻特徵與所儲存用戶話音輪廓匹配而至少部分地基於這些音頻特徵來更新該所儲存用戶話音輪廓。由此,可以例如在電話呼叫或會議期間使用被動式登記來生成或更新用戶話音輪廓。輪廓管理器還可以在多個講話者之間的對話期間生成或更新多個用戶話音輪廓。在一特定示例中,輪廓管理器向一個或多個附加音頻應用提供所生成或經更新的話音輪廓的輪廓標識符。例如,音頻應用可以對音頻流執行話音到文本轉換,以生成帶有標籤的轉錄本,這些標籤指示對應文本的講話者。
本公開的各特定方面在下文參照附圖來描述。在本文的描述中,共用特徵貫穿附圖通過共用附圖標記來指定。在一些附圖中,使用了特定類型的特徵的多個實例。儘管這些特徵在物理上和/或邏輯上不同,但對每個特徵使用相同的附圖標記,並且這些不同實例通過向附圖標記添加字母來區分。當作為群或類型的特徵在本文中被引用時(例如,當這些特徵中沒有特定特徵被引用時),不帶區分字母地使用附圖標記。然而,當同一類型的多個特徵中的一個特定特徵在本文中被引用時,附圖標記與區分字母聯用。例如,參照圖1,解說了多個幀,並且其與附圖標記102A、102B和102C相關聯。當引用這些幀中的特定幀時,諸如幀102A,使用區分字母「A」。然而,當引用這些幀中的任意一者或者將這些幀作為群引用時,不帶區分字母地使用附圖標記102。
如本文所使用的,各種術語是僅出於描述特定實現的目的使用的,而並不旨在限定實現。例如,單數形式的「一」、「某」和「該」旨在也包括複數形式,除非上下文另外明確指示。此外,本文所描述的一些特徵在一些實現中是單數,而在其他實現中是複數。為了解說,圖2A描繪了包括一個或多個處理器(圖2A的「(諸)處理器」220)的設備202,其指示在一些實現中,設備202包括單個處理器220,而在其他實現中,設備202包括多個處理器220。為了便於本文引述,此類特徵一般被介紹為「一個或多個」特徵,並且隨後以單數引用,除非正在描述與這些特徵中的多個特徵相關的方面。
如本文所描述的,術語「包括」、「具有」和「含有」可以與「包含」、「帶有」或「擁有」互換地使用。另外,術語「其中」可以與「在該情況下」互換地使用。如本文所使用的,「示例性」指示示例、實現和/或方面,而不應被解讀為限制或指示偏好或優選實現。如本文所使用的,用來修飾元素(諸如結構、組件、操作等)的序數詞(例如,「第一」、「第二」、「第三」等)本身並不指示該元素相對於另一元素的任何優先級或次序,而是僅僅將該元素與具有相同名稱(但使用序數詞)的另一元素區分開。如本文所使用的,術語「集(集合)」指一個或多個特定元素,而術語「多個」指特定元素的倍數(例如,兩個或更多個特定元素)。
如本文所使用的,「耦接」可包括「通訊地耦接」、「電耦接」或「實體耦接」,並且可另外地(或替換地)包括其任何組合。兩個設備(或組件)可以直接地或經由一個或多個其他設備、組件、導線、匯流排、網路(例如,有線網路、無線網路、或其組合)等間接地耦接(例如,通訊地耦接、電耦接、或實體地耦接)。電耦接的兩個設備(或組件)可被包括在相同設備或不同設備中,並且可以經由電子器件、一個或多個連接器或電感式耦接進行連接,作為解說性非限制性示例。在一些實現中,通訊地耦接的兩個設備(或組件)(諸如在電通訊中)可以直接地或間接地經由一個或多個導線、匯流排、網路等發送和接收訊號(例如,數位訊號或類比訊號)。如本文所使用的,「直接耦接」可包括兩個設備在沒有居間組件的情況下耦接(例如,通訊地耦接、電耦接或實體耦接)。
在本公開中,諸如「確定」、「計算」、「估計」、「移位」、「調整」等術語可被用於描述如何執行一個或多個操作。應當注意,此類術語不應被解讀為限制性的,並且可以利用其他技術來執行類似的操作。另外,如本文中引用的,「生成」、「計算」、「估計」、「使用」、「選擇」、「存取」和「確定」可以可互換地使用。例如,「生成」、「計算」、「估計」或「確定」參數(或訊號)可指主動地生成、估計、計算或確定參數(或訊號),或者可指使用、選擇或存取(諸如由另一組件或設備)已經生成的參數(或訊號)。
圖1解說了用戶話音輪廓管理的示例100。在示例100中,分段器124和輪廓管理器126協作以處理音頻流141,以在不使用對講話者的主動式用戶登記的情況下區分來自多個講話者的話音。
音頻流141包括多個離散的部分(在圖1中被表示為幀102A、102B、102C)。在該示例中,每個幀102表示或編碼音頻流141的一部分音頻。為了解說,每個幀102可表示音頻流的半秒音頻。在其他示例中,可使用不同大小或歷時的幀。
音頻流141作為輸入被提供給分段器124。分段器124被配置成:將音頻流141劃分為分段,以及將每個分段標識為包含來自單個講話者的話音、包含來自多個講話者的話音、或靜默。例如,在圖1中,分段器124已標識了第一組音頻部分151A,這些音頻部分151A一起形成講話者同源音頻分段111A。類似地,分段器124已標識了第二組音頻部分151C,這些音頻部分151C一起形成第二講話者同源音頻分段111B。分段器124還已標識了一組音頻部分151B,這些音頻部分151B一起形成靜默或混合講話者音頻分段113。靜默或混合講話者音頻分段113表示包括來自多個講話者的話音或不包括話音(例如,靜默或非話音雜訊)的聲音。
在一特定示例中,如下文更詳細地描述的,分段器124通過使用一個或多個機器學習分段模型(例如,神經網路)來將音頻流141劃分為分段,這些機器學習分段模型被訓練成執行發言者分段。在該示例中,不需要講話者的預先登記。確切而言,分段器124被訓練成通過比較音頻流141的不同音頻幀之間的講話者特性來在兩個或更多個先前未知的講話者之間進行區分。分段器124能區分的講話者的具體數目取決於(諸)機器學習分段模型的配置和訓練。為了解說,在一特定方面,分段器124可被配置成在三個講話者之間進行區分,在該情形中(諸)機器學習分段模型可包括五個輸出層節點,其對應於講話者1輸出節點、講話者2輸出節點、講話者3輸出節點、靜默輸出節點以及混合輸出節點。在該方面,每個輸出節點被訓練成生成分段得分作為輸出,該分段得分指示正被分析的一組音頻部分151與該相應輸出節點相關聯的可能性。為了解說,講話者1輸出節點生成指示該組音頻部分151表示第一講話者的話音的分段得分,講話者2輸出節點生成表示該組音頻部分151表示第二講話者的話音的分段得分,以此類推。
在一特定實現中,當分段器124被配置成在三個講話者之間進行區分時,(諸)機器學習分段模型可包括四個輸出層節點。例如,這四個輸出層節點包括講話者1輸出節點、講話者2輸出節點、講話者3輸出節點以及靜默輸出節點,而不包括混合輸出節點。在該實現中,混合話音由多個講話者輸出節點的指示該組音頻部分151表示對應講話者的話音的分段得分來指示。
在一特定實現中,當分段器124被配置成在三個講話者之間進行區分時,(諸)機器學習分段模型可包括三個輸出層節點。例如,這三個輸出層節點包括講話者1輸出節點、講話者2輸出節點以及講話者3輸出節點,而不包括靜默輸出節點。在該實現中,靜默由每個講話者輸出節點的指示該組音頻部分151不表示對應講話者的話音的分段得分來指示。為了解說,當講話者1輸出節點生成指示該組音頻部分151不表示第一講話者的話音的分段得分,講話者2輸出節點生成指示該組音頻部分151不表示第二講話者的話音的分段得分,並且講話者3輸出節點生成指示該組音頻部分151不表示第三講話者的話音的分段得分時,指示靜默。在一些方面,如本文所使用的,「靜默」可以指「不存在話音」,諸如「非話音雜訊」。
講話者同源音頻分段111的每個音頻部分151包括音頻流141的多個幀102。為了解說,每個音頻部分151A可包括十(10)個音頻幀102,其表示五(5)秒聲音。在其他示例中,每個音頻部分中包括不同數目的幀,或者這些幀的大小不同,以使得每個音頻部分151A表示超過或少於十秒聲音。另外,每個講話者同源音頻分段111包括多個音頻部分151。每講話者同源音頻分段111的音頻部分151的數目是可變的。例如,講話者同源音頻分段111可以繼續直到講話者的話音被中斷(諸如中斷達靜默時段(例如,閾值歷時的靜默)、或被另一講話者的話音中斷)。
分段器124向輪廓管理器126提供標識講話者同源音頻分段111的分段結果。輪廓管理器維護記憶體中的用戶話音輪廓(USP)150。每個用戶話音輪廓150與輪廓標識符(ID)155相關聯。在一特定方面,輪廓ID 155和用戶話音輪廓150由輪廓管理器126生成(例如,輪廓ID 155和用戶話音輪廓150並非基於用戶預登記)。
響應於分段結果,輪廓管理器126將來自講話者同源音頻分段111的音頻部分151與用戶話音輪廓150作比較。如果音頻部分151與用戶話音輪廓150之一匹配(例如,足夠相似),則輪廓管理器126基於音頻部分151來更新該用戶話音輪廓150。例如,如果講話者同源音頻分段111A的音頻部分151A與用戶話音輪廓150A足夠相似,則輪廓管理器126使用音頻部分151A來更新用戶話音輪廓150A。
如果音頻部分151不與這些用戶話音輪廓150中的任一者匹配,則輪廓管理器126基於音頻部分151來添加一用戶話音輪廓150。例如,在圖1中,輪廓管理器126基於講話者同源音頻分段111C的音頻部分151C來生成用戶話音輪廓150C,並向用戶話音輪廓150C指派輪廓ID 155C。
輪廓管理器126還生成指示音頻流141的講話者或講話者改變的輸出。例如,該輸出可包括與講話者同源音頻分段111匹配的用戶話音輪廓150的輪廓ID 155。一個或多個音頻分析應用180,其基於講話者或講話者改變來生成結果。例如,音頻分析應用180可轉錄所檢測到的話音以生成文本,並且可在該文本中指示何時發生講話者的改變。
參照圖2A,公開了被配置成執行用戶話音輪廓管理的系統的特定解說性方面並將其一般性地指定為200。系統200包括設備202,該設備202被耦接到麥克風246。設備202被配置成使用圖1的分段器124和輪廓管理器126來執行用戶話音輪廓管理。在一特定方面,設備202包括一個或多個處理器220,其包括特徵提取器222、分段器124、輪廓管理器126、講話者檢測器278、一個或多個音頻分析應用180、或它們的組合。
特徵提取器222被配置成生成表示音頻流的音頻部分(例如,音頻幀)的特徵的音頻特徵資料集。分段器124被配置成指示表示同一講話者的話音的音頻部分(或音頻特徵資料集)。輪廓管理器126被配置成基於表示同一講話者的話音的音頻部分(或音頻特徵資料集)來生成(或更新)用戶話音輪廓。講話者檢測器278被配置成確定在音頻流中檢測到的講話者的計數。在一特定實現中,講話者檢測器278被配置成響應於在音頻流中檢測到多個講話者而啟動分段器124。在該實現中,當講話者檢測器278在音頻流中檢測到單個講話者並且輪廓管理器126生成(或更新)對應於該單個講話者的用戶話音輪廓時,分段器124被繞過。在一特定實現中,該一個或多個音頻分析應用180被配置成基於用戶話音輪廓來執行音頻分析。
在一特定方面,設備202包括耦接至該一個或多個處理器220的記憶體232。在一特定方面,記憶體232包括一個或多個緩衝器,諸如緩衝器268。記憶體232被配置成儲存一個或多個閾值,諸如分段閾值257(圖2A中的「分段閾值」)。在一特定方面,該一個或多個閾值基於用戶輸入、配置設置、預設資料、或其組合。
在一特定方面,記憶體232被配置成由以下各項生成的資料:特徵提取器222、講話者檢測器278、分段器124、輪廓管理器126、該一個或多個音頻分析應用180、或其組合。例如,記憶體232被配置成儲存多個用戶242的多個用戶話音輪廓150、分段結果236(圖2A中的「分段結果」)、音頻特徵資料集252、音頻部分151、分段得分254(圖2A中的「分段得分」)、資料集分段結果256(圖2A中的「資料集分段結果」)、輪廓ID 155、或其組合。記憶體232被配置成儲存輪廓更新資料272、用戶互動資料274(圖2A中的「用戶互動資料」)、或其組合。
設備202被配置成經由數據機、網路介面、輸入介面或從麥克風246接收音頻流141。在一特定方面,音頻流141包括一個或多個音頻部分151。例如,音頻流141可被劃分為與音頻部分151相對應的音頻幀集合,其中每個音頻幀表示音頻流141的一時窗化部分。在其他示例中,音頻流141可按另一方式劃分以生成音頻部分151。音頻流141的每個音頻部分151包括或表示靜默、來自一個或多個用戶242的話音、或其他聲音。表示來自單個用戶的話音的音頻部分151集合被稱為講話者同源音頻分段111。每個講話者同源音頻分段111包括多個音頻部分151(例如,多個音頻幀)。在一特定方面,講話者同源音頻分段111至少包括音頻幀的閾值計數(例如,5個音頻幀)。在一特定方面,講話者同源音頻分段111包括與同一用戶的話音相對應的連貫音頻部分151集合。在一特定方面,連貫音頻部分151集合可包括音頻部分151的一個或多個子集,其中與小於閾值的靜默相對應的每個子集指示話音中的自然短停頓。
音頻流141可包括以下各項的各種組合:講話者同源音頻分段、對應於靜默的音頻分段、對應於多個講話者的音頻分段、或其組合。作為一個示例,在圖2A中,音頻流141包括與用戶242A的話音相對應的講話者同源音頻分段111A的音頻部分151A、與靜默(或非話音雜訊)相對應的音頻分段113的音頻部分151B、以及與用戶242B的話音相對應的講話者同源音頻分段111B的音頻部分151C。在其他示例中,音頻流114包括不同的音頻分段集合或佈置。儘管音頻部分被描述為指音頻幀,但在其他實現中,音頻部分指音頻幀的一部分、多個音頻幀、對應於特定話音或回放歷時的音頻資料、或其組合。
特徵提取器222被配置成提取(例如,確定)音頻流141的音頻特徵以生成音頻特徵資料集252。例如,特徵提取器222被配置成提取音頻流141的音頻部分151的音頻特徵以生成音頻特徵資料集(AFDS)252。在一特定方面,音頻特徵資料集252包括音頻特徵向量,諸如嵌入向量。在一特定方面,音頻特徵資料集252指示音頻部分151的梅爾頻率倒譜係數(MFCC)。在一特定示例中,特徵提取器222通過提取音頻部分151A的音頻特徵來生成一個或多個音頻特徵資料集252A。特徵提取器222通過提取音頻部分151B的音頻特徵來生成一個或多個音頻特徵資料集252B。特徵提取器222通過提取音頻部分151C的音頻特徵來生成一個或多個音頻特徵資料集252C。音頻特徵資料集252包括該一個或多個音頻特徵資料集252A、該一個或多個音頻特徵資料集252B、該一個或多個音頻特徵資料集252C、或其組合。
在一解說性示例中,特徵提取器222提取音頻流141的每個幀的音頻特徵,並將每個幀的音頻特徵提供給分段器124。在一特定方面,分段器124被配置成針對特定數目的音頻幀(例如,10個音頻幀)的音頻特徵生成分段得分(例如,分段得分254)。例如,音頻部分151包括特定數目的音頻幀(例如,10個音頻幀)。該特定數目的音頻幀的音頻特徵(例如,其由分段器124用於生成特定分段得分集)對應於音頻特徵資料集252。例如,特徵提取器222提取第一音頻幀的第一音頻特徵、第二音頻幀的第二音頻特徵等等(包括第十音頻幀的第十音頻特徵)。分段器124基於第一音頻特徵、第二音頻特徵等等(包括第十音頻特徵)來生成第一分段得分254。例如,第一音頻特徵、第二音頻特徵以及直至第十音頻特徵對應於第一音頻特徵資料集252。類似地,特徵提取器222提取第十一音頻幀的第十一音頻特徵、第十二音頻幀的第十二音頻特徵等等(包括第二十音頻幀的第二十音頻特徵)。分段器124基於第十一音頻特徵、第十二音頻特徵等等(包括第二十音頻特徵)來生成第二分段得分254。例如,第十一音頻特徵、第十二音頻特徵以及直至第二十音頻特徵對應於第二音頻特徵資料集252。應當理解,基於十個音頻幀來生成分段得分集是作為解說性示例來提供的。在其他示例中,分段器124基於少於十個或多於十個音頻幀來生成分段得分集。例如,音頻部分151包括少於十個或多於十個音頻幀。
分段器124被配置成針對每個音頻特徵資料集生成分段得分集(例如,分段得分254)。例如,響應於向分段器124輸入音頻特徵資料集252,分段器124生成多個分段得分254。響應於音頻特徵資料集252而生成的分段得分254的數目取決於分段器124被訓練以區分的講話者的數目。作為一個示例,分段器124被配置成通過生成一組
K個分段得分254來區分
K個不同講話者的話音。在該示例中,每個分段得分254指示被輸入到分段器124的音頻特徵資料集表示對應講話者的話音的概率。為了解說,當分段器124被配置成區分三(3)個不同講話者(諸如講話者292A、講話者292B和講話者292C)的話音時,
K等於三(3)。在該解說性示例中,分段器124被配置成針對被輸入到分段器124的每個音頻特徵資料集252輸出三(3)個分段得分254,諸如分段得分254A、分段得分254B和分段得分254C。在該解說性示例中,分段得分254A指示音頻特徵資料集252表示講話者292A的話音的概率,分段得分254B指示音頻特徵資料集252表示講話者292B的話音的概率,並且分段得分254C指示音頻特徵資料集252表示講話者292C的話音的概率。在其他示例中,分段器124被配置以區分的講話者的計數(在上面的示例中為
K)大於三或小於三。
講話者292對應於由分段器124最新近(例如,在分段窗期間)檢測到的一組講話者。在一特定方面,講話者292不必預先登記以由分段器124進行區分。分段器124通過在未預先登記的多個用戶的話音之間進行區分來實現多個用戶的被動式登記。分段窗包括直至特定計數個音頻部分(例如,20個音頻幀)、由分段器124在特定時間窗(例如,20毫秒)期間處理的音頻部分、或者對應於特定話音歷時或回放歷時的音頻部分。
在圖2A中所解說的示例中,表示音頻流141的音頻部分151的特徵的音頻特徵資料集252可作為輸入被提供給分段器124。在該示例中,音頻特徵資料集252表示兩個或更多個用戶242的話音,諸如表示用戶242A的話音的音頻特徵資料集252A、表示靜默的音頻特徵資料集252B、以及表示用戶242B的話音的音頻特徵資料集252C。在一特定實現中,分段器124不具有關於用戶242的先驗資訊。例如,用戶242尚未向設備202預登記。響應於音頻特徵資料集252的輸入,分段器124輸出分段得分254A、分段得分254B和分段得分254C。每個分段得分254指示音頻特徵資料集252表示相應講話者292的話音的概率,並且將這些分段得分254中的每一者與分段閾值257作比較。如果針對音頻特徵資料集252的分段得分254之一滿足分段閾值257,則將對應講話者292的話音指示為在音頻特徵資料集252中被檢測到。為了解說,如果針對音頻特徵資料集252的分段得分254A滿足分段閾值257,則將講話者292A的話音指示為在音頻特徵資料集252(以及音頻特徵資料集252所表示的音頻部分151)中被檢測到。針對音頻特徵資料集252A、音頻特徵資料集252B和音頻特徵資料集252C中的每一者來執行類似的操作。
分段器124在分段窗期間使用講話者292作為未知用戶(諸如用戶242,分段器124不知曉其與音頻特徵資料集252所表示的話音相關聯)的占位者。例如,音頻特徵資料集252A對應於用戶242A的話音。分段器124針對每個音頻特徵資料集252A生成滿足分段閾值257的分段得分254A以指示這些音頻特徵資料集252A對應於講話者292A(例如,用戶242A的占位者)的話音。作為另一示例,音頻特徵資料集252C對應於用戶242B的話音。分段器124針對每個音頻特徵資料集254C生成滿足分段閾值257的分段得分254B以指示這些音頻特徵資料集252C對應於講話者292B(例如,用戶242B的占位者)的話音。
在一特定實現中,當在分段窗的歷時內未曾檢測到講話者292A(例如,用戶242A)的話音(例如,在自檢測到與講話者292A相關聯的先前話音以來閾值歷時已期滿)時,分段器124可重用講話者292A(例如,分段得分254A)作為另一用戶(例如,用戶242C)的占位者。當與另一用戶的講話者占位者相關聯的先前用戶在分段窗期間未曾講話時,分段器124可通過重用該講話者占位者來區分音頻流141中與多於預定計數的講話者(例如,多於
K個講話者)相關聯的話音。在一特定實現中,分段器124響應於確定講話者292A(例如,用戶242A)、講話者292B(例如,用戶242B)和講話者292C(例如,用戶242C)中的每一者的話音在分段窗內被檢測到並且確定與另一用戶(例如,用戶242D)相關聯的話音被檢測到而基於確定講話者292A(例如,用戶242A)的話音最近被最少檢測到來重用講話者占位者(例如,講話者292A)。
在一特定方面,分段器124包括或對應於經訓練機器學習系統,諸如神經網路。例如,分析音頻特徵資料集252包括對音頻特徵資料集252應用講話者分段神經網路(或另一基於機器學習的系統)。
在一特定方面,分段器124基於分段得分254來生成資料集分段結果256。資料集分段結果256指示在音頻部分151中檢測到的講話者292(如果有的話)。例如,響應於確定針對講話者292的分段得分254滿足(例如,大於)分段閾值257,由分段器124輸出的資料集分段結果256指示檢測到講話者292的話音。為了解說,當音頻特徵資料集252的分段得分254A滿足分段閾值257時,分段器124針對音頻特徵資料集252生成資料集分段結果256(例如,「1」)以指示在音頻部分151中檢測到講話者292A的話音。在另一示例中,當音頻特徵資料集252的分段得分254A和分段得分254B中的每一者滿足分段閾值257時,分段器124針對音頻特徵資料集252生成資料集分段結果256(例如,「1, 2」)以指示在音頻部分151中檢測到講話者292A和講話者292B(例如,多個講話者)的話音。在一特定示例中,當針對音頻特徵資料集252的分段得分254A、分段得分254B和分段得分254C中的每一者均未能滿足分段閾值257時,分段器124針對音頻特徵資料集252生成資料集分段結果256(例如,「0」)以指示在音頻部分151中檢測到靜默(或非話音音頻)。針對音頻部分151(或音頻特徵資料集252)的分段結果236包括針對音頻部分151(或音頻特徵資料集252)的分段得分254、資料集分段結果256或兩者。
分段器124被配置成向輪廓管理器126提供針對音頻部分151(例如,音頻特徵資料集252)的分段結果236。輪廓管理器126被配置成:響應於確定音頻特徵資料集252不與多個用戶話音輪廓150中的任一者匹配,至少部分地基於音頻特徵資料集252來生成用戶話音輪廓150。在一特定方面,輪廓管理器126被配置成基於講話者同源音頻分段111來生成用戶話音輪廓150。例如,輪廓管理器126被配置成基於講話者同源音頻分段111A的音頻特徵資料分段152A來生成講話者292A(例如,用戶242A的占位者)的用戶話音輪廓150A。用戶話音輪廓150A表示用戶242A的話音(例如,對其建模)。替換地,輪廓管理器126被配置成:響應於確定音頻特徵資料集252與用戶話音輪廓150匹配,基於音頻特徵資料集252來更新用戶話音輪廓150。例如,輪廓管理器126被配置成:獨立於哪個講話者292針對與用戶話音輪廓150A匹配的後續音頻部分被用作用戶242A的占位者基於這些後續音頻部分來更新表示用戶242A的話音的用戶話音輪廓150A。在一特定方面,輪廓管理器126響應於生成或更新用戶話音輪廓150而輸出用戶話音輪廓150的輪廓ID 155。
在一特定實現中,講話者檢測器278被配置成基於從音頻流141中提取的音頻特徵來確定在音頻流141中檢測到的講話者的計數。在一特定方面,講話者檢測器278基於由特徵提取器222提取的音頻特徵資料集252來確定講話者的計數。例如,由講話者檢測器278用於確定講話者的計數的音頻特徵可以與由分段器124用於生成分段結果236並且由輪廓管理器126用於生成或更新用戶話音輪廓150的音頻特徵相同。在一替換方面,講話者檢測器278基於由與特徵提取器222不同的第二特徵提取器提取的音頻特徵來確定講話者的計數。在該方面,由講話者檢測器278用於確定講話者的計數的音頻特徵可以與由分段器124用於生成分段結果236並且由輪廓管理器126用於生成或更新用戶話音輪廓150的音頻特徵不同。在一特定方面,講話者檢測器278響應於在音頻流141中檢測到至少兩個不同講話者而啟動分段器124。例如,當在音頻流141中檢測到多個講話者時,分段器124處理音頻特徵資料集252。替換地,當講話者檢測器278在音頻流141中檢測到單個講話者的話音時,分段器124被繞過,並且輪廓管理器126處理音頻特徵資料集252以生成或更新用戶話音輪廓150。
在一些實現中,設備202對應於一種或多種類型的設備或被包括在其中。在一解說性示例中,一個或多個處理器220被整合在包括麥克風246的頭戴式設備中,諸如參照圖13所進一步描述的。在其他示例中,一個或多個處理器220被整合在如參照圖12所描述的行動電話或平板計算機設備、如參照圖14所描述的可穿戴電子設備、如參照圖15所描述的語音控制揚聲器系統、或如參照圖16所描述的虛擬實境頭戴式設備或擴增實境頭戴式設備中的至少一者中。在另一解說性示例中,一個或多個處理器220被整合到同樣包括麥克風246的交通工具中,諸如參照圖17和圖18所進一步描述的。
在運行期間,一個或多個處理器220接收與一個或多個用戶242(例如,用戶242A、用戶242B、用戶242C、用戶242D或其組合)的話音相對應的音頻流141。在一特定示例中,一個或多個處理器220從擷取了該一個或多個用戶的話音的麥克風246接收音頻流141。在另一示例中,音頻流141對應於儲存在記憶體232中的音頻回放檔案,並且一個或多個處理器220從記憶體232接收音頻流141。在一特定方面,一個或多個處理器220經由輸入介面或網路介面(例如,數據機的網路介面)從另一設備接收音頻流141。
在特徵提取階段,特徵提取器222生成音頻流141的音頻特徵資料集252。例如,特徵提取器222通過確定音頻流141的音頻部分151的特徵來生成音頻特徵資料集252。在一特定示例中,音頻流141包括音頻部分151A、音頻部分151B、音頻部分151C或其組合。特徵提取器222生成表示音頻部分151A的特徵的音頻特徵資料集252A、表示音頻部分151B的特徵的音頻特徵資料集252B和表示音頻部分151C的特徵的音頻特徵資料集252C、或其組合。例如,特徵提取器222通過提取音頻部分151的音頻特徵針對音頻部分151(例如,音頻幀)生成音頻特徵資料集252(例如,特徵向量)。
在分段階段,分段器124分析音頻特徵資料集252以生成分段結果236。例如,分段器124分析音頻部分151(例如,音頻幀)的音頻特徵資料集252(例如,特徵向量)以針對音頻部分151生成分段得分254。為了解說,分段得分254包括分段得分254A(例如,0.6),其指示音頻部分151對應於講話者292A的話音的可能性。分段得分254還包括分段得分254B(例如,0)和分段得分254C(例如,0),其分別指示音頻部分151對應於講話者292B和講話者292C的話音的可能性。在一特定方面,分段器124響應於確定分段得分254A滿足分段閾值257並且分段得分254B和分段得分254C中的每一者均未能滿足分段閾值257而生成資料集分段結果256,該分段結果256指示音頻部分151對應於講話者292A的話音,而不對應於講話者292B或講話者292C的話音。分段器124針對音頻部分151生成分段結果236,該分段結果236指示分段得分254、資料集分段結果256或兩者。
在一特定示例中,在分段階段期間,分段器124響應於確定多個分段得分(例如,分段得分254A和分段得分254B)中的每一者滿足分段閾值257而生成指示音頻部分151對應於多個講話者(例如,講話者292A和講話者292B)的話音的分段結果236。
輪廓管理器126基於分段結果236來處理音頻部分151(例如,音頻特徵資料集252),如參照圖2B所進一步描述的。在圖2B中,記憶體232包括登記緩衝器234、探測緩衝器240或其組合。例如,記憶體232包括為每個講話者292指定的登記緩衝器234和探測緩衝器240。為了解說,記憶體232包括為講話者292A指定的登記緩衝器234A和探測緩衝器240A、為講話者292B指定的登記緩衝器234B和探測緩衝器240B、以及為講話者292C指定的登記緩衝器234C和探測緩衝器240C。記憶體232被配置成儲存登記閾值264、輪廓閾值258、靜默閾值294或其組合。記憶體232被配置成儲存指示停止條件270、話音輪廓結果238、靜默計數262(圖2B中的「靜默計數」)或其組合的資料。
輪廓管理器126被配置成:在輪廓檢查階段期間,確定音頻特徵資料集252是否與現有用戶話音輪廓150匹配。在一特定方面,輪廓管理器126使用與由分段器124用於生成分段結果236的音頻特徵相同的音頻特徵來與用戶話音輪廓150進行比較或更新。在另一方面,輪廓管理器126使用與由分段器124用於生成分段結果236的音頻特徵不同的第二音頻特徵來與用戶話音輪廓150進行比較或更新。
在一特定實現中,輪廓管理器126被配置成:在與用戶話音輪廓150進行比較之前在探測緩衝器240中收集對應於同一講話者的音頻特徵資料集252,以提高該比較的準確度。如果音頻特徵資料集252與現有用戶話音輪廓匹配,則輪廓管理器126被配置成:在更新階段期間,基於音頻特徵資料集252來更新該現有用戶話音輪廓。如果音頻特徵資料集252不與現有用戶話音輪廓匹配,則輪廓管理器126被配置成:在登記階段期間,向登記緩衝器234添加音頻特徵資料集252,並且響應於確定儲存在登記緩衝器234中的音頻特徵資料集252滿足登記閾值264而基於儲存在登記緩衝器234中的音頻特徵資料集252來生成用戶話音輪廓150。
在輪廓檢查階段期間,輪廓管理器126響應於確定沒有可用的用戶話音輪廓並且分段結果236指示音頻部分150對應於一講話者(例如,講話者292A)的話音而向被指定用於講話者292的登記緩衝器234(例如,登記緩衝器234A)添加音頻特徵資料集252,並行進到登記階段。
在一特定方面,輪廓管理器126響應於確定有至少一個用戶話音輪廓150可用而執行音頻特徵資料集252與該至少一個用戶話音輪廓150的比較,以確定音頻特徵資料集252是否與該至少一個用戶話音輪廓150中的任一者匹配。輪廓管理器126響應於確定有至少一個用戶話音輪廓150可用並且分段結果236指示音頻部分151對應於講話者292(例如,講話者292A)的話音而向被指定用於該講話者292的探測緩衝器240(例如,探測緩衝器240A)添加音頻特徵資料集252。
輪廓管理器126確定儲存在探測緩衝器240中的音頻特徵資料集(例如,包括音頻特徵資料集252)是否與該至少一個用戶話音輪廓150中的任一者匹配。例如,輪廓管理器126基於探測緩衝器240(例如,探測緩衝器240A)的音頻特徵資料集(例如,包括音頻特徵資料集252)與該至少一個用戶話音輪廓150中的每一者的比較來生成話音輪廓結果238。為了解說,輪廓管理器126基於探測緩衝器240(例如,探測緩衝器240A)的音頻特徵資料集(例如,包括音頻特徵資料集252)與用戶話音輪廓150A的比較來生成話音輪廓結果238A。
在一特定方面,輪廓管理器126響應於確定探測緩衝器240(例如,探測緩衝器240A)中有單個音頻特徵資料集(例如,音頻特徵資料集252)可用而基於該單個音頻特徵資料集與用戶話音輪廓150A的比較來生成話音輪廓結果238A。替換地,輪廓管理器126響應於確定探測緩衝器240(例如,探測緩衝器240A)中有多個音頻特徵資料集(例如,包括音頻特徵資料集252)可用而基於該多個音頻特徵資料集與用戶話音輪廓150A的比較來生成話音輪廓結果238A。例如,輪廓管理器126基於音頻特徵資料集252與用戶話音輪廓150A的比較來生成第一資料集結果,基於探測緩衝器240的第二音頻特徵資料集與用戶話音輪廓150A的比較來生成第二資料集結果,基於探測緩衝器240的附加音頻特徵資料集與用戶話音輪廓150A的比較來生成附加資料集結果、或其組合。輪廓管理器126基於第一資料集結果、第二資料集結果、附加資料集結果或它們的組合(例如,其加權平均值)來生成話音輪廓結果238A。在一特定方面,向更新近添加到探測緩衝器240的音頻特徵資料集的資料集結果指派給更高的權重。
話音輪廓結果238A指示音頻特徵資料集與用戶話音輪廓150A匹配的可能性。類似地,輪廓管理器126基於探測緩衝器240(例如,探測緩衝器240A)的音頻特徵資料集(例如,包括音頻特徵資料集252)與用戶話音輪廓150B的比較來生成話音輪廓結果238B。
在一特定方面,輪廓管理器126選擇指示音頻特徵資料集252與對應用戶話音輪廓150匹配的最高可能性的話音輪廓結果238。例如,輪廓管理器126響應於確定話音輪廓結果238A指示匹配於(例如,大於或等於)話音輪廓結果238B的匹配可能性而選擇話音輪廓結果238A。輪廓管理器126響應於確定話音輪廓結果238A(例如,指示最高匹配可能性的話音輪廓結果238A)滿足(例如,大於或等於)輪廓閾值258而確定儲存在探測緩衝器240(例如,探測緩衝器240A)中的音頻特徵資料集與用戶話音輪廓150A匹配,並行進到更新階段。替換地,輪廓管理器126響應於確定話音輪廓結果238A(例如,指示最高匹配可能性的話音輪廓結果238A)未能滿足(例如,小於)輪廓閾值258而確定儲存在探測緩衝器240(例如,探測緩衝器240A)中的音頻特徵資料集不與這些用戶話音輪廓150中的任一者匹配,並行進到登記階段。
在更新階段期間,輪廓管理器126響應於確定音頻特徵資料集252與一用戶話音輪廓150(例如,用戶話音輪廓150A)匹配而更新該用戶話音輪廓150,並輸出該用戶話音輪廓150的輪廓ID 155。輪廓管理器126基於儲存在探測緩衝器240中的音頻特徵資料集來更新(與儲存在探測緩衝器240中的音頻特徵資料集相匹配的)用戶話音輪廓150。用戶話音輪廓150A由此隨時間推移而演化,以匹配用戶話音的改變。
在登記階段期間,輪廓管理器126響應於確定分段結果236指示音頻特徵資料集252表示講話者292(例如,講話者292A)的話音而將音頻特徵資料集252添加到對應於該講話者292的登記緩衝器234(例如,登記緩衝器234A)。輪廓管理器126確定儲存在登記緩衝器234中的音頻特徵資料集是否滿足登記閾值264。在一特定方面,響應於確定儲存在登記緩衝器234中的音頻特徵資料集的計數大於或等於登記閾值264(例如,48個音頻特徵資料集),輪廓管理器126確定這些音頻特徵資料集滿足登記閾值264。在另一方面,響應於確定儲存在登記緩衝器234中的音頻特徵資料集的話音歷時(例如,回放歷時)大於或等於登記閾值264(例如,2秒),輪廓管理器126確定這些音頻特徵資料集滿足登記閾值264。
輪廓管理器126響應於確定儲存在登記緩衝器234中的音頻特徵資料集未能滿足登記閾值264而抑制基於儲存在登記緩衝器234中的音頻特徵資料集來生成用戶話音輪廓150,並繼續處理音頻流141的後續音頻部分。在一特定方面,輪廓管理器126繼續向登記緩衝器234(例如,登記緩衝器234A)添加表示講話者292(例如,講話者292A)的話音的後續音頻特徵資料集,直至停止條件270得到滿足。例如,響應於確定儲存在登記緩衝器234中的音頻特徵資料集(例如,包括音頻特徵資料集252)的計數滿足登記閾值264、在音頻流141中檢測到長於閾值的靜默、或兩者,輪廓管理器126確定停止條件得到滿足。為了解說,當登記緩衝器234中有足夠的音頻特徵資料集來生成用戶話音輪廓時,或者當講話者292看起來已停止講話時,停止條件270得到滿足。
在一特定方面,輪廓管理器126響應於確定儲存在登記緩衝器234中的音頻特徵資料集(例如,包括音頻特徵資料集252)滿足登記閾值264而基於儲存在登記緩衝器234中的音頻特徵資料集來生成用戶話音輪廓150C,重置登記緩衝器234,向該多個用戶話音輪廓150添加用戶話音輪廓150C,輸出用戶話音輪廓150C的輪廓ID 155,並繼續處理音頻流141的後續音頻部分。由此,輪廓管理器126基於儲存在被指定用於講話者292(例如,講話者292A)的登記緩衝器234中的對應於同一講話者292(例如,講話者292A)的音頻部分的音頻特徵資料集來生成用戶話音輪廓150C。使用多個音頻特徵資料集來生成用戶話音輪廓150C提高了用戶話音輪廓150A在表示講話者292A(例如,用戶242A)的話音方面的準確度。由此,分段器124和輪廓管理器126通過針對不必預先登記並且不必為用戶話音輪廓生成而講出預定詞語或句子的用戶生成用戶話音輪廓來實現多個用戶的被動式登記。
在一特定方面,與多個講話者相對應的音頻部分對於生成或更新用戶話音輪廓150被跳過或略過。例如,輪廓管理器126響應於確定分段結果236指示音頻部分151對應於多個講話者的話音而略過音頻部分151的音頻特徵資料集252,並繼續處理音頻流141的後續音頻部分。例如,略過音頻特徵資料集252包括:抑制將音頻特徵資料集252與多個用戶話音輪廓150作比較,抑制基於音頻特徵資料集252來更新用戶話音輪廓150,抑制基於音頻特徵資料集252來生成用戶話音輪廓150,或其組合。
在一特定方面,與短於閾值的靜默(例如,指示同一用戶的話音中的自然短停頓)相對應的音頻部分不被用於生成或更新用戶話音輪廓150,但會被追蹤以檢測長於閾值的靜默。例如,在分段階段期間,分段器124針對音頻特徵資料集252生成指示音頻部分151對應於靜默的分段結果236。響應於確定音頻部分151對應於靜默,輪廓管理器126將靜默計數262遞增(例如,遞增1)。在一特定方面,輪廓管理器126響應於確定靜默計數262大於或等於靜默閾值294(例如,指示用戶已完成發言後較長的停頓)而進行以下操作:重置登記緩衝器234(例如,登記緩衝器234A、登記緩衝器234B和登記緩衝器234C)(例如,將其標記為空),重置探測緩衝器(例如,探測緩衝器240A、探測緩衝器240B和探測緩衝器240C)(例如,將其標記為空),重置靜默計數262(例如,將其重置為0),或其組合;並繼續處理音頻流141的後續音頻部分。在一特定方面,響應於確定靜默計數262大於或等於靜默閾值294,輪廓管理器126確定停止條件270得到滿足。響應於確定停止條件270得到滿足,輪廓管理器126重置登記緩衝器234(例如,登記緩衝器234A、登記緩衝器234B和登記緩衝器234C)。
在一特定方面,輪廓管理器126向耦接至設備202的顯示器設備提供通知。該通知指示用戶話音分析正在進行中。在一特定方面,輪廓管理器126基於指示是否要執行用戶話音分析的用戶輸入來選擇性地處理音頻流141。
參照圖2A,在一特定方面,輪廓管理器126維護輪廓更新資料272以追蹤在對音頻流141的處理期間生成或更新了多少用戶話音輪廓150。例如,響應於更新(或生成)一用戶話音輪廓150,輪廓管理器126更新輪廓更新資料272。在一特定示例中,輪廓管理器126響應於更新用戶話音輪廓150A而更新輪廓更新資料272以指示用戶話音輪廓150A被更新。作為另一示例,輪廓管理器126響應於生成用戶話音輪廓150C而更新輪廓更新資料272以指示用戶話音輪廓150C被更新。輪廓管理器126響應於確定輪廓更新資料272指示在對音頻流141的處理期間已經更新了該多個用戶話音輪廓150中的第一計數個用戶話音輪廓150而輸出第一計數作為在音頻流141中檢測到的講話者的計數。
在一特定方面,輪廓管理器126維護用戶互動資料274以追蹤與該多個用戶話音輪廓150中的每一者匹配的所檢測到的話音歷時。輪廓管理器126基於更新(或生成)用戶話音輪廓150來更新用戶互動資料274。例如,輪廓管理器126響應於基於音頻部分151更新用戶話音輪廓150A而更新用戶互動資料274,以指示與用戶話音輪廓150A相關聯的用戶在音頻部分151的話音歷時內進行了互動。作為另一示例,輪廓管理器126響應於基於音頻部分151生成用戶話音輪廓150C而更新用戶互動資料274,以指示與用戶話音輪廓150C相關聯的用戶在音頻部分151的話音歷時內進行了互動。為了解說,在基於講話者同源音頻分段111的音頻部分來生成或更新用戶話音輪廓150之後,用戶互動資料274指示與該用戶話音輪廓150相關聯的用戶在講話者同源音頻分段111的話音歷時內進行了互動。在一特定方面,輪廓管理器126輸出用戶互動資料274。
在一特定方面,輪廓管理器126向一個或多個音頻分析應用180提供輪廓ID 155、輪廓更新資料272、用戶互動資料274、附加資訊、或其組合。例如,音頻分析應用180對音頻特徵資料集252執行話音到文本轉換,以生成音頻流141的轉錄本。音頻分析應用180基於從輪廓管理器126接收的針對音頻特徵資料集252的輪廓ID 155來在轉錄本中標記與音頻特徵資料集252相對應的文本。
在一特定方面,一個或多個處理器220被配置成在多種功率模式之一中運行。例如,一個或多個處理器220被配置成在功率模式282(例如,常開功率模式)或功率模式284(例如,按需功率模式)下運行。在一特定方面,功率模式282與功率模式284相比是較低功率模式。例如,一個或多個處理器220通過在功率模式282下運行來節約能量(與功率模式284相比),並在需要時轉變到功率模式284以啟動在功率模式282下未運行的組件。
在一特定示例中,設備202的一些功能在功率模式284下活躍,但在功率模式282下不活躍。例如,講話者檢測器278可以在功率模式282和功率模式284下被啟動。在該示例中,特徵提取器222、分段器124、輪廓管理器126、一個或多個音頻分析應用180、或其組合可以在功率模式284下被啟動,而不會在功率模式282下被啟動。當音頻流141對應於單個講話者的話音時,分段器124不必被用來在對應於不同講話者的音頻部分之間進行區分。在不必使用分段器124時保持在(或轉變到)功率模式282減少了總體資源消耗。講話者檢測器278被配置成:在功率模式282下確定音頻流141是否對應於至少兩個不同講話者的話音。一個或多個處理器220被配置成:響應於確定講話者檢測器278的輸出指示音頻流141對應於至少兩個不同講話者的話音,從功率模式282轉變到功率模式284並啟動分段器124。例如,分段器124在功率模式284下分析音頻特徵資料集252以生成分段結果236。
在一特定示例中,講話者檢測器278和輪廓管理器126可以在功率模式282下和功率模式284下被啟動。在該示例中,特徵提取器222、分段器124、一個或多個音頻分析應用180、或其組合可以在功率模式284下被啟動,而不會在功率模式282下被啟動。例如,響應於講話者檢測器278的輸出指示檢測到單個講話者,一個或多個處理器220保持或轉變到功率模式282。在功率模式282下,輪廓管理器126基於音頻特徵資料集252來生成或更新該單個講話者的用戶話音輪廓150。替換地,一個或多個處理器220響應於確定講話者檢測器278的輸出指示音頻流141對應於至少兩個不同講話者的話音而從功率模式282轉變到功率模式284並啟動分段器124。例如,分段器124在功率模式284下分析音頻特徵資料集252以生成分段結果236。
在一特定示例中,特徵提取器222、講話者檢測器278、分段器124或其組合可以在功率模式282下和功率模式284下被啟動。在該示例中,輪廓管理器126、一個或多個音頻分析應用180、或其組合可以在功率模式284下被啟動,而不會在功率模式282下被啟動。在一特定方面,一個或多個處理器220被配置成:響應於確定分段結果236指示音頻流141對應於至少兩個不同講話者的話音,從功率模式282轉變到功率模式284並啟動輪廓管理器126、一個或多個音頻分析應用180、或其組合。例如,輪廓管理器126在功率模式284下執行音頻特徵資料集252與該多個用戶話音輪廓150的比較。
在一特定方面,一個或多個處理器220響應於確定分段結果236指示音頻流141對應於至少兩個不同講話者的話音而在功率模式284下處理音頻流141的後續音頻部分。例如,特徵提取器222、分段器124或兩者在功率模式284下運行以處理後續音頻部分。在一特定方面,特徵提取器222、講話者檢測器278、分段器124或其組合在功率模式282下確定音頻流141的音頻資訊,並在功率模式284下將該音頻資訊提供給一個或多個音頻分析應用180。音頻資訊包括音頻流141中指示的講話者的計數、語音活動檢測(VAD)資訊、或這兩者。
在一特定實現中,音頻流141的一個或多個部分、音頻特徵資料集252或其組合被儲存在緩衝器268中,並且一個或多個處理器220從緩衝器268存取音頻流141的該一個或多個部分、音頻特徵資料集252或其組合。例如,一個或多個處理器220將音頻部分151儲存在緩衝器268中。特徵提取器222從緩衝器268中檢索音頻部分151,並將音頻特徵資料集252儲存在緩衝器268中。分段器124從緩衝器268中檢索音頻特徵資料集252,並將音頻特徵資料集252的分段得分254、資料集分段結果256或其組合儲存在緩衝器268中。輪廓管理器126從緩衝器268中檢索音頻特徵資料集252、分段得分254、資料集分段結果256或其組合。在一特定方面,輪廓管理器126將輪廓ID 155、輪廓更新資料272、用戶互動資料274或其組合儲存在緩衝器268中。在一特定方面,一個或多個音頻分析應用180從緩衝器268中檢索輪廓ID 155、輪廓更新資料272、用戶互動資料274或其組合。
系統200由此實現針對多個講話者的被動式用戶話音輪廓登記和更新。例如,可以在設備202的常規運行期間在後臺生成和更新多個用戶話音輪廓150,而無需使用戶242必須說出來自腳本的預定詞語或句子。
儘管麥克風246被解說為耦接至設備202,但在其他實現中,麥克風246可被整合在設備202中。儘管解說了單個麥克風246,但在其他實現中,可包括被配置成擷取用戶話音的一個或多個附加麥克風146。
儘管系統200被解說為包括單個設備202,但在其他實現中,被描述為在設備202處執行的操作可輪廓在多個設備之中。例如,被描述為由特徵提取器222、講話者檢測器278、分段器124、輪廓管理器126、或者一個或多個音頻分析應用180中的一者或多者執行的操作可以在設備202處執行,而被描述為由特徵提取器222、講話者檢測器278、分段器124、輪廓管理器126、或者一個或多個音頻分析應用180中的他者執行的操作可以在第二設備處執行。
參照圖3,示出了與用戶話音輪廓管理相關聯的操作300的解說性方面。在一特定方面,這些操作300中的一者或多者由以下各項來執行:圖1的分段器124、輪廓管理器126;圖2A的特徵提取器222、一個或多個處理器220、設備202、系統200;或其組合。
在講話者分段302期間,圖2A的特徵提取器222基於音頻流141來生成音頻特徵資料集252,如參照圖2A所描述的。分段器124分析音頻特徵資料集252以生成分段結果236,如參照圖2A所描述的。
在語音輪廓管理304期間,在306,圖1的輪廓管理器126確定音頻特徵資料集252是否對應於經登記講話者。例如,輪廓管理器126確定音頻特徵資料集252是否與任何用戶話音輪廓150匹配,如參照圖2B所描述的。在308,輪廓管理器126響應於在306處確定音頻特徵資料集252與具有輪廓ID 155的用戶話音輪廓150A匹配而至少部分地基於音頻特徵資料集252來更新用戶話音輪廓150A。替換地,在310,輪廓管理器126響應於在306處確定音頻特徵資料集252不與該多個用戶話音輪廓150中的任一者匹配並且分段結果236指示音頻特徵資料集252表示講話者292A的話音而向被指定用於講話者292A的登記緩衝器234A添加音頻特徵資料集252。
在314,輪廓管理器126響應於確定在312處確定登記緩衝器234A的音頻特徵資料集的計數(或登記緩衝器234A的音頻特徵資料集的話音歷時)大於登記閾值264而登記該講話者。例如,輪廓管理器126基於登記緩衝器234A的音頻特徵資料集來生成用戶話音輪廓150C,並向該多個用戶話音輪廓150添加用戶話音輪廓150C,如參照圖2B所描述的。輪廓管理器126繼續處理音頻流141的後續音頻部分。
在講話者分段302期間生成的分段結果236由此使得能夠在語音輪廓管理304期間在用於講話者登記的同一登記緩衝器中收集與同一講話者的話音相對應的音頻特徵資料集。基於多個音頻特徵資料集來生成用戶話音輪廓150C提高了用戶話音輪廓150C在表示講話者的話音方面的準確度。
參照圖4,示出了與用戶話音輪廓管理相關聯的操作400的解說性方面。在一特定方面,這些操作400中的一者或多者由以下各項來執行:圖1的分段器124、輪廓管理器126;圖2A的特徵提取器222、一個或多個處理器220、設備202、系統200;或其組合。
音頻流141包括音頻部分151A-音頻部分151I。在講話者分段302期間,圖1的分段器124針對音頻部分151A-I中的每一者生成分段得分254A、分段得分254B和分段得分254C,如參照圖2A所描述的。
分段得分254指示音頻部分151A對應於同一單個講話者(例如,被指定為講話者292A)的話音。例如,這些音頻部分151A中的每一者的分段得分254A滿足分段閾值257。這些音頻部分151A中的每一者的分段得分254B和分段得分254C不滿足分段閾值257。
在語音輪廓管理304期間,輪廓管理器126將音頻部分151A(例如,對應的音頻特徵資料集)添加在與講話者292A相關聯的登記緩衝器234A中。輪廓管理器126基於音頻部分151A(例如,對應的音頻特徵資料集)來生成用戶話音輪廓150A。
在一特定方面,分段得分254指示音頻部分151B對應於多個講話者(例如,講話者292A和另一講話者(例如,被指定為講話者292B))的話音。在圖4中,輪廓管理器126基於音頻部分151B(例如,對應的音頻特徵資料集)來更新用戶話音輪廓151A。在一特定方面,輪廓管理器126還將音頻部分151B添加到與講話者292B相關聯的登記緩衝器234B。在一替換方面,輪廓管理器126略過對應於多個講話者的音頻部分151B。例如,輪廓管理器126抑制使用音頻部分151B來更新或生成用戶話音輪廓150。
分段得分254指示音頻部分151C對應於講話者292B(例如,單個講話者)的話音。輪廓管理器126將音頻部分151C添加到登記緩衝器234B。輪廓管理器126響應於確定儲存在登記緩衝器234B中的音頻部分(例如,對應的音頻特徵資料集)未能滿足登記閾值264而抑制基於儲存在登記緩衝器234B中的音頻特徵(例如,對應的音頻特徵資料集)來生成用戶話音輪廓150。在一特定方面,儲存在登記緩衝器234B中的音頻部分(例如,對應的音頻特徵資料集)包括音頻部分151B(例如,對應的音頻特徵資料集)和音頻部分151C(例如,對應的音頻特徵資料集)。在一替換方面,儲存在登記緩衝器234B中的音頻部分(例如,對應的音頻特徵資料集)包括音頻部分151C(例如,對應的音頻特徵資料集),而不包括音頻部分151B(例如,對應的音頻特徵資料集)。
分段得分254指示音頻部分151D對應於另一單個講話者(例如,被指定為講話者292C)的話音。輪廓管理器126將音頻部分151D(例如,對應的音頻特徵資料集)的第一子集添加到登記緩衝器234C。輪廓管理器126響應於確定儲存在登記緩衝器234C中的音頻部分151D(例如,對應的音頻特徵資料集)的第一子集滿足登記閾值264而基於儲存在登記緩衝器234C中的音頻特徵151D(例如,對應的音頻特徵資料集)的第一子集來生成用戶話音輪廓150B。輪廓管理器126基於音頻部分151D的第二子集來更新用戶話音輪廓150B。
分段得分254指示音頻部分151E與大於閾值的靜默對應。例如,音頻部分151E的計數大於或等於靜默閾值294。響應於確定音頻部分151E與大於閾值的靜默對應,輪廓管理器126重置登記緩衝器234。
分段得分254指示音頻部分151F對應於單個講話者(例如,被指定為講話者292A)的話音。輪廓管理器126響應於確定這些音頻部分151F中的每一者與用戶話音輪廓150B匹配而基於這些音頻部分151F來更新用戶話音輪廓150B。因為講話者指定(例如,講話者292A)正在被重用,所以音頻部分151D和音頻部分151F分別與不同的指定講話者(例如,講話者292C和講話者292A)相關聯,即使音頻部分151D和音頻部分151F對應於同一講話者(例如,圖2A的用戶242C)的話音並且與同一用戶話音輪廓(例如,用戶話音輪廓150B)匹配亦如此。
分段得分254指示音頻部分151G對應於單個講話者(例如,被指定為講話者292B)的話音。輪廓管理器126響應於確定音頻部分151G的第一子集不與這些用戶話音輪廓150中的任一者匹配而將音頻部分151G的第一子集添加到與講話者292B相關聯的登記緩衝器234B。輪廓管理器126基於音頻部分151G的第一子集來生成用戶話音輪廓150C,並基於音頻部分151G的第二子集來更新用戶話音輪廓150C。因為講話者指定(例如,講話者292B)正在被重用,所以音頻部分151C和音頻部分151G與相同的指定講話者(例如,講話者292B)相關聯,音頻部分151C和音頻部分151G可對應於同一用戶或不同用戶的話音。
分段得分254指示音頻部分151H與大於閾值的靜默對應。響應於確定音頻部分151H與大於閾值的靜默對應,輪廓管理器126重置登記緩衝器234。
分段得分254指示音頻部分151I對應於單個說話者(例如,被指定為說話者292C)的話音。輪廓管理器126響應於確定這些音頻部分151I中的每一者與用戶話音輪廓150A匹配而基於這些音頻部分151I來更新用戶話音輪廓150A。因為講話者指定(例如,講話者292C)正在被重用,所以音頻部分151A和音頻部分151I分別與不同的指定講話者(例如,講話者292A和講話者292C)相關聯,即使音頻部分151A和音頻部分151I對應於同一用戶(例如,圖2A的用戶242A)的話音並且與同一用戶話音輪廓(例如,用戶話音輪廓150A)匹配亦如此。在一替換方面,輪廓管理器126響應於確定音頻部分151I不與該多個用戶話音輪廓150中的任一者匹配而將音頻部分151I的第一子集添加在與講話者292C相關聯的登記緩衝器234C中,並基於音頻部分151I的第一子集來生成用戶話音輪廓150D。通過重用講話者指定(例如,講話者292C),輪廓管理器126可以生成(或更新)比分段器124能區分的講話者292的預定計數(例如,
K)更大計數的用戶輪廓。
參照圖5,示出了與用戶話音輪廓管理相關聯的操作500的解說性方面。在一特定方面,這些操作500中的一者或多者由以下各項來執行:圖1的分段器124、輪廓管理器126;圖2A的特徵提取器222、一個或多個處理器220、設備202、系統200;或其組合。
音頻流141包括音頻部分151A、音頻部分151B和音頻部分151C。例如,音頻部分151A包括音頻部分151D(例如,音頻幀)、一個或多個附加音頻部分、以及音頻部分151E。音頻部分151B包括音頻部分151F、一個或多個附加音頻部分、音頻部分151G。音頻部分151C包括音頻部分151H、一個或多個附加音頻部分、以及音頻部分151I。
在一特定方面,這些音頻部分151A中的每一者的資料集分段結果256A指示該音頻部分151A對應於講話者292A的話音。例如,音頻部分151D的資料集分段結果256D(例如,「1」)指示音頻部分151D表示講話者292A的話音。作為另一示例,音頻部分151E的資料集分段結果256E(例如,「1」)指示音頻部分151E表示講話者292A的話音。
這些音頻部分151B中的每一者的資料集分段結果256B指示該音頻部分151B對應於靜默(或非話音雜訊)。例如,音頻部分151F的資料集分段結果256F(例如,「0」)指示音頻部分151F表示靜默(或非話音雜訊)。作為另一示例,音頻部分151G的資料集分段結果256G(例如,「0」)指示音頻部分151G表示靜默(或非話音雜訊)。
這些音頻部分151C中的每一者的資料集分段結果256C指示該音頻部分151C對應於講話者292B的話音。例如,音頻部分151H的資料集分段結果256H(例如,「2」)指示音頻部分151H表示講話者292B的話音。作為另一示例,音頻部分151I的資料集分段結果256I(例如,「2」)指示音頻部分151I表示講話者292B的話音。
圖表590是分段結果236的示例的視覺描繪。例如,音頻部分151A表示講話者292A(例如,單個講話者)的話音,因此音頻部分151A對應於音頻流141的講話者同源音頻分段111A。音頻部分151B表示靜默,因此音頻部分151B對應於音頻流141的音頻分段113A(例如,而不是講話者同源音頻分段)。音頻部分151C表示講話者292B(例如,單個講話者)的話音,因此音頻部分151C對應於音頻流141的講話者同源音頻分段111B。
圖表592是話音輪廓結果238的示例的視覺描繪。輪廓管理器126基於音頻部分151A的第一子集來生成用戶話音輪廓150A。在生成用戶話音輪廓150A之後,輪廓管理器126通過將後續音頻部分(例如,後續音頻特徵資料集)與用戶話音輪廓150A作比較來確定話音輪廓結果238A。音頻部分151的話音輪廓結果238A指示該音頻部分151與用戶話音輪廓150A匹配的可能性。輪廓管理器126通過將音頻部分151C的第一子集與用戶話音輪廓150A作比較來確定音頻部分151C的第一子集的話音輪廓結果238A。輪廓管理器126響應於確定音頻部分151C的第一子集的話音輪廓結果238A小於輪廓閾值258而確定音頻部分151C的第一子集不與用戶話音輪廓150A匹配。
輪廓管理器126響應於確定音頻部分151C的第一子集不與用戶話音輪廓150A匹配而基於音頻部分151C的第一子集來生成用戶話音輪廓150B。在生成用戶話音輪廓150B之後,輪廓管理器126通過將後續音頻部分與用戶話音輪廓150B作比較來確定話音輪廓結果238B。話音輪廓結果238B指示各音頻部分與用戶話音輪廓150B匹配的可能性。例如,音頻部分151C的第二子集的話音輪廓結果238B指示音頻部分151C的第二子集與用戶話音輪廓150B匹配。在一特定方面,輪廓管理器126生成包括圖表590、圖表592或兩者的圖形用戶界面(GUI),並將該GUI提供給顯示器設備。
參照圖6,示出了與用戶話音輪廓管理相關聯的操作600的解說性方面。在一特定方面,這些操作600中的一者或多者由以下各項來執行:圖1的分段器124、輪廓管理器126;圖2A的特徵提取器222、一個或多個處理器220、設備202、系統200;或其組合。
音頻流141包括與多個講話者的話音相對應的音頻部分151J。例如,音頻部分151J包括音頻部分151K(例如,音頻幀)、一個或多個附加音頻部分、以及音頻部分151L。在一特定方面,這些音頻部分151J中的每一者的資料集分段結果256D指示該音頻部分151J對應於講話者292A和講話者292B的話音。例如,音頻部分151K的資料集分段結果256K(例如,「1, 2」)指示音頻部分151K表示講話者292A和講話者292B的話音。作為另一示例,音頻部分151L的資料集分段結果256L(例如,「1, 2」)指示音頻部分151L表示講話者292A和講話者292B的話音。音頻部分151J表示多個講話者的話音,因此音頻部分151J對應於音頻分段113B(例如,而不是講話者同源音頻分段)。
在生成用戶話音輪廓150A之後,輪廓管理器126通過將後續音頻部分(例如,後續音頻特徵資料集)與用戶話音輪廓150A作比較來確定話音輪廓結果238A。輪廓管理器126通過將音頻部分151J與用戶話音輪廓150A作比較來確定音頻部分151J的話音輪廓結果238A。在一特定方面,音頻部分151J的話音輪廓結果238A低於音頻部分151A的話音輪廓結果238A,因為除了講話者292A的話音之外,音頻部分151J還包括講話者292B的話音。
參照圖7,示出了與用戶話音輪廓管理相關聯的操作700的解說性方面。在一特定方面,這些操作700中的一者或多者由圖2A的特徵提取器222、分段器124、輪廓管理器126、一個或多個處理器220、設備202、系統200或其組合來執行。
音頻流141包括音頻部分151J和音頻部分151K。例如,音頻部分151J包括音頻部分151L(例如,音頻幀)、一個或多個附加音頻部分、以及音頻部分151M。音頻部分151K包括音頻部分151N(例如,音頻幀)、一個或多個附加音頻部分、以及音頻部分151O。
在一特定方面,這些音頻部分151J中的每一者的資料集分段結果256J指示該音頻部分151J表示講話者292C(例如,單個講話者)的話音,因此這些音頻部分151J對應於講話者同源音頻分段111C。這些音頻部分151K中的每一者的資料集分段結果256K指示該音頻部分151K表示靜默(或非話音雜訊),因此這些音頻部分151K對應於音頻分段113C。
在生成用戶話音輪廓150A之後,輪廓管理器126通過將音頻部分151J與用戶話音輪廓150A作比較來確定話音輪廓結果238A。輪廓管理器126響應於確定話音輪廓結果238A小於輪廓閾值258而確定音頻部分151J不與用戶話音輪廓150A匹配。
輪廓管理器126響應於確定音頻部分151J不與用戶話音輪廓150A匹配而將音頻部分151J儲存在與講話者292C相關聯的登記緩衝器234C中。輪廓管理器126響應於確定儲存在登記緩衝器234C中的音頻部分151J未能滿足登記閾值264而抑制基於儲存在登記緩衝器234C中的音頻部分151J來生成用戶話音輪廓150。響應於確定音頻部分151K指示大於閾值的靜默,輪廓管理器126重置登記緩衝器234(例如,將其標記為空)。音頻部分151J由此在講話者292C看起來已停止講話時從登記緩衝器234C中被移除。
參照圖8,示出了與用戶話音輪廓管理相關聯的操作800的解說性方面。在一特定方面,這些操作800中的一者或多者由以下各項來執行:圖1的分段器124、輪廓管理器126;圖2A的特徵提取器222、一個或多個處理器220、設備202、系統200;或其組合。
在804,圖1的分段器124執行講話者分段302。例如,分段器124在時間T從特徵提取器222接收音頻特徵資料集252,並針對音頻部分151的音頻特徵資料集252生成分段得分254,如參照圖2A所描述的。
在806,圖1的輪廓管理器126確定這些分段得分254中是否有任一者滿足分段閾值257。例如,輪廓管理器126響應於確定這些分段得分254中沒有任何分段得分254滿足分段閾值257而確定音頻特徵資料集252表示靜默(或非話音雜訊),並將靜默計數262遞增(例如,遞增1)。在將靜默計數262遞增之後,在808,輪廓管理器126確定靜默計數262是否大於靜默閾值294。
在810,輪廓管理器126響應於在808處確定靜默計數262大於靜默閾值294而執行重置。例如,輪廓管理器126通過重置登記緩衝器234(例如,將其標記為空)、探測緩衝器240(例如,將其標記為空)、靜默計數262(例如,將其重置為0)或其組合來執行該重置,並返回到804以處理音頻流141的後續音頻特徵資料集。替換地,輪廓管理器126響應於在808處確定靜默計數262小於或等於靜默閾值294而返回到804以處理音頻流141的後續音頻特徵資料集。
在812,輪廓管理器126響應於在806處確定這些分段得分254中的至少一個分段得分254滿足分段閾值257而將音頻特徵資料集252添加到這些探測緩衝器240中的至少一者。例如,輪廓管理器126響應於確定與講話者292A相關聯的分段得分254A滿足分段閾值257而確定音頻特徵資料集252表示講話者292A的話音,並將音頻特徵資料集252添加到與講話者292A相關聯的探測緩衝器240A。在一特定實現中,表示多個講話者292的話音的音頻特徵資料集252被添加到與該多個講話者292相對應的多個探測緩衝器240。例如,輪廓管理器126響應於確定分段得分254A和分段得分254B中的每一者滿足分段閾值257而將音頻特徵資料集252添加到探測緩衝器140A和探測緩衝器140B。在一替換實現中,表示多個講話者292的話音的音頻特徵資料集252被略過,而不會被添加到探測緩衝器240。
在816,輪廓管理器126確定是否登記了對應的講話者(例如,講話者292A)。例如,輪廓管理器126通過將對應探測緩衝器240(例如,探測緩衝器240A)的音頻特徵資料集(例如,包括音頻特徵資料集252)與該多個用戶話音輪廓150作比較來確定是否登記了講話者292(例如,講話者292A)。
在818,輪廓管理器126響應於在816處確定未登記該講話者292(例如,講話者292A)而確定音頻特徵資料集252是否通過品質檢查。例如,輪廓管理器126響應於確定音頻特徵資料集252對應於多個講話者292而確定音頻特徵資料集252未能通過品質檢查。替換地,輪廓管理器126響應於確定音頻特徵資料集252對應於單個講話者292而確定音頻特徵資料集252通過品質檢查。
輪廓管理器126響應於在818處確定音頻特徵資料集252未能通過品質檢查而返回到804以處理音頻流141的後續音頻特徵資料集。替換地,輪廓管理器126響應於在818處確定音頻特徵資料集252通過品質檢查而在820將表示講話者292(例如,講話者292A)的話音的音頻特徵資料集252添加到與該講話者292相關聯的登記緩衝器234(例如,登記緩衝器234A)。
在822,輪廓管理器126確定儲存在登記緩衝器234(例如,登記緩衝器234A)中的音頻特徵資料集的計數是否大於登記閾值264。輪廓管理器126響應於在822處確定儲存在每個登記緩衝器234(例如,登記緩衝器234)中的音頻特徵資料集的計數小於或等於登記閾值264而返回到804以處理音頻流141的後續音頻特徵資料集。替換地,輪廓管理器126響應於確定登記緩衝器234(例如,登記緩衝器234A)的音頻特徵資料集的計數大於登記閾值264而在824生成用戶話音輪廓150A,將用戶話音輪廓150A添加到該多個用戶話音輪廓150,並返回到804以處理音頻流141的後續音頻特徵資料集。
輪廓管理器126響應於在816處確定登記了講話者292A而在826確定音頻特徵資料集252(或與其話音由音頻特徵資料集252表示的講話者292相關聯的探測緩衝器240的音頻特徵資料集)是否通過品質檢查。輪廓管理器126響應於在826處確定音頻特徵資料集252(或探測緩衝器240的音頻特徵資料集)未能通過品質檢查而返回到804以處理音頻流141的後續音頻特徵資料集。輪廓管理器126響應於在826處確定音頻特徵資料集252(或探測緩衝器240的音頻特徵資料集)通過品質檢查而基於音頻特徵資料集252(或探測緩衝器240的音頻特徵資料集)來更新(與音頻特徵資料集252相匹配的)用戶話音輪廓150A,並返回到804以處理音頻流141的後續音頻特徵資料集。在一替換方面,在向探測緩衝器240添加音頻特徵資料集252之前執行826處的品質檢查。例如,輪廓管理器126響應於確定音頻特徵資料集252未能通過品質檢查而抑制向探測緩衝器240添加音頻特徵資料集252,並返回到804以處理音頻流141的後續音頻特徵資料集。
參照圖9,示出了與用戶話音輪廓管理相關聯的操作900的解說性方面。在一特定方面,這些操作900中的一者或多者由以下各項來執行:圖1的分段器124、輪廓管理器126;圖2A的特徵提取器222、講話者檢測器278、一個或多個處理器220、設備202、系統200;或其組合。
一個或多個處理器220在時間T在功率模式282下向緩衝器268添加音頻特徵(例如,音頻特徵資料集252)。在904,圖2A的講話者檢測器278確定是否在音頻流141中檢測到多個講話者。例如,響應於確定音頻特徵(例如,音頻特徵資料集252)表示多個講話者的話音,講話者檢測器278確定檢測到多個講話者。在另一示例中,響應於確定音頻特徵(例如,音頻特徵資料集252)表示在先前音頻特徵中(例如,先前音頻特徵資料集)中已被檢測到的第一講話者的話音之後的第二講話者的話音,講話者檢測器278確定檢測到多個講話者。
講話者檢測器278響應於在904處確定尚未在音頻流141中檢測到多個講話者而繼續處理音頻流141的後續音頻特徵。替換地,講話者檢測器278響應於在904處確定在音頻流141中檢測到多個講話者而在906將一個或多個處理器220從功率模式282轉變到功率模式284,並啟動一個或多個應用920。在一特定方面,一個或多個應用920包括特徵提取器920、分段器124、輪廓管理器126、一個或多個音頻分析應用180、或其組合。在一特定方面,講話者檢測器278生成喚醒訊號或中斷中的至少一者以將一個或多個處理器220從功率模式820轉變到功率模式284,以啟動一個或多個應用920。
在910,講話者檢測器278在功率模式284下確定是否檢測到多個講話者。例如,講話者檢測器278在自關於是否檢測到多個講話者的先前確定以來閾值時間已期滿之後,確定是否檢測到多個講話者。講話者檢測器278響應於確定檢測到多個講話者而抑制轉變到功率模式282。替換地,講話者檢測器278響應於確定在閾值計數個音頻特徵資料集內未檢測到多個講話者而將一個或多個處理器220從功率模式284轉變到功率模式282。
由此,一個或多個處理器220通過在功率模式282下運行來節約能量(與功率模式284相比),並在需要時轉變到功率模式284以啟動在功率模式282下未運行的組件。至功率模式284的選擇性轉變減少了設備202的總體功耗。
參照圖10,示出了用戶話音輪廓管理方法1000的特定實現。在一特定方面,方法1000的一個或多個操作由以下各項中的至少一者來執行:圖1的分段器124、輪廓管理器126;圖2A的講話者檢測器278、一個或多個處理器220、設備202、系統200;或其組合。
方法1000包括:在1002,在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音。例如,圖2A的講話者檢測器278在功率模式282下確定音頻流141是否對應於至少兩個不同講話者的話音,如參照圖2A所描述的。
方法1000包括:在1004,基於確定該音頻流對應於至少兩個不同講話者的話音而在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果。例如,圖2A的一個或多個處理器220基於確定音頻流141對應於至少兩個不同講話者的話音而轉變到功率模式284,並啟動分段器124,如參照圖2A所描述的。分段器124在功率模式284下分析音頻流141的音頻特徵資料集252以生成分段結果236,如參照圖2A所描述的。分段結果236指示音頻流141的講話者同源音頻分段(例如,講話者同源音頻分段111A和講話者同源音頻分段111B),如參照圖2A所描述的。
方法1000還包括:在1006,執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配。例如,圖1的輪廓管理器126執行多個用戶話音輪廓150與講話者同源音頻分段111A的一個或多個音頻特徵資料集252A中的音頻特徵資料集252的比較以確定音頻特徵資料集252是否與該多個用戶話音輪廓150中的任一者匹配,如參照圖2B所描述的。
方法1000進一步包括:在1008,基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配而進行以下操作:基於第一多個音頻特徵資料集來生成第一用戶話音輪廓,以及向該多個用戶話音輪廓添加第一用戶話音輪廓。例如,圖1的輪廓管理器126基於確定音頻特徵資料集252不與多個用戶話音輪廓150中的任一者匹配而基於一個或多個音頻特徵資料集252A的至少一子集來生成用戶話音輪廓150C,並向該多個用戶話音輪廓150添加用戶話音輪廓150C,如參照圖2B所描述的。
方法1000實現基於講話者同源音頻分段的音頻特徵資料集來生成用戶話音輪廓。與基於單個音頻特徵資料來生成用戶話音輪廓相比,使用與同一講話者的話音相對應的多個音頻特徵資料集提高了用戶話音輪廓在表示講話者的話音方面的準確度。可以使用被動式登記來生成用戶話音輪廓,而無需用戶預先登記或者講出預定詞語或句子。
圖10的方法1000可由現場可程式門陣列(FPGA)設備、專用積體電路(ASIC)、處理單元(諸如中央處理單元(CPU))、DSP、控制器、另一硬體設備、韌體設備、或其任何組合來實現。作為示例,圖10的方法1000可以由執行指令的處理器來執行,諸如參照圖19所描述的。
圖11將設備202的實現1100描繪為積體電路1102,該積體電路1102包括一個或多個處理器220。一個或多個處理器220包括多個應用1122。應用1122包括特徵提取器222、講話者檢測器278、分段器124、輪廓管理器126、輪廓管理器126、一個或多個音頻分析應用180、或其組合。積體電路1102還包括音頻輸入1104(諸如一個或多個匯流排介面)以使得音頻流141能夠被接收以供處理。積體電路1102還包括訊號輸出1106(諸如匯流排介面)以使得能夠發送輸出訊號1143(諸如輪廓ID 155)。積體電路1102使得能夠將用戶話音輪廓管理實現為包括麥克風的系統(諸如圖12中所描繪的行動電話或平板設備、圖13中所描繪的頭戴式設備、圖14中所描繪的可穿戴電子設備、圖15中所描繪的語音控制揚聲器系統、圖16中所描繪的虛擬實境頭戴式設備或擴增實境頭戴式設備、或者圖17或圖18中所描繪的交通工具)中的組件。
圖12描繪了作為解說性、非限定性示例的實現1200,其中設備202包括行動設備1202(諸如電話或平板設備)。行動設備1202包括麥克風246和顯示器螢幕1204。一個或多個處理器220的組件(包括應用1122)被整合在行動設備1202中,並且使用虛線來解說以指示對於行動設備1202的用戶一般不可見的內部組件。在一特定示例中,應用1122的特徵提取器222、分段器124和輪廓管理器126運行以管理用戶話音輪廓,這些用戶話音輪廓然後被用於執行行動設備1202處的一個或多個操作,諸如啟動圖形用戶界面或以其他方式在顯示器螢幕1204處(例如,經由整合「智慧型輔助」應用)顯示與用戶的話音相關聯的其他資訊(例如,對話轉錄本)。
圖13描繪了實現1300,其中設備202包括頭戴式設備1302。頭戴式設備1302包括麥克風246。一個或多個處理器220的組件(包括應用1122)被整合在頭戴式設備1302中。在一特定示例中,應用1122的特徵提取器222、分段器124和輪廓管理器126運行以管理用戶話音輪廓,這些用戶話音輪廓可使頭戴式設備1302執行頭戴式設備1302處的一個或多個操作(諸如向第二設備(未示出)傳送與用戶話音相對應的資訊(例如,圖2B的輪廓更新資料272、用戶互動資料274或兩者)以供進一步處理)、或其組合。
圖14描繪了實現1400,其中設備202包括可穿戴電子設備1402(被解說為「智慧型手錶」)。應用1122和麥克風246被整合到可穿戴電子設備1402中。在一特定示例中,應用1122的特徵提取器222、分段器124和輪廓管理器126運行以管理用戶話音輪廓,這些用戶話音輪廓然後被用於執行可穿戴電子設備1402處的一個或多個操作,諸如啟動圖形用戶界面或以其他方式在可穿戴電子設備1402的顯示器螢幕1404處顯示與用戶的話音相關聯的其他資訊。為了解說,可穿戴電子設備1402可包括顯示器螢幕1404,其被配置成基於由可穿戴電子設備1402檢測到的用戶話音來顯示通知(例如,用於添加日曆事件的選項)。在一特定示例中,可穿戴電子設備1402包括響應於檢測到用戶話音而提供觸覺通知(例如,振動)的觸覺設備。例如,觸覺通知可以使用戶查看可穿戴電子設備1402,以看到指示檢測到該用戶講出的關鍵詞的所顯示通知。可穿戴電子設備1402可以由此向有聽力障礙的用戶或戴著頭戴式設備的用戶提醒檢測到該用戶的話音。在一特定示例中,可穿戴電子設備1402可響應於檢測到話音而顯示對話的轉錄本。
圖15是實現1500,其中設備202包括無線揚聲器和語音啟動式設備1502。無線揚聲器和語音啟動式設備1502可具有無線網路連通性,並且被配置成執行輔助操作。包括應用1122的一個或多個處理器220、麥克風246或其組合被包括在無線揚聲器和語音啟動式設備1502中。無線揚聲器和語音啟動式設備1502還包括揚聲器1504。在運行期間,響應於經由應用1122的特徵提取器222、分段器124和輪廓管理器126的操作接收到被標識為與用戶話音輪廓150A相關聯的用戶的用戶話音的口頭命令,無線揚聲器和聲音啟動式設備1502可以諸如經由執行語音啟動系統(例如,整合輔助應用)來執行輔助操作。輔助操作可包括調整溫度、播放音樂、開燈等。例如,輔助操作是響應於在關鍵詞或關鍵短語(例如,「你好助手」)之後接收到命令而執行的。在一特定方面,輔助操作包括針對與用戶話音輪廓150A相關聯的用戶來執行因用戶而異的命令(例如,「在我的日曆中設置明天下午2點的約會」或「增加我房間中的供暖」)。
圖16描繪了實現1600,其中設備202包括與虛擬實境、擴增實境或混合實境頭戴式設備1602相對應的便攜式電子設備。應用1122、麥克風246或其組合被整合到頭戴式設備1602中。視覺介面設備1620被置於用戶的眼前,以使得能夠在佩戴頭戴式設備1602時向用戶顯示擴增實境或虛擬實境圖像或場景。在一特定示例中,視覺介面設備被配置成顯示指示在從麥克風246接收的音頻訊號中檢測到的用戶話音的通知。在一特定方面,視覺介面設備被配置成顯示通過麥克風246聊起的對話的對話轉錄本。
圖17描繪了實現1700,其中設備202對應於交通工具1702(被解說為有人駕駛或無人駕駛空中設備(例如,包裹遞送無人機))或被整合在其內。應用1122、麥克風246或其組合被整合到交通工具1702中。可基於從交通工具1702的麥克風246接收的音頻訊號來執行話音分析,諸如以用於生成由麥克風246擷取的對話的轉錄本。
圖18描述了另一實現1800,其中設備202對應於交通工具1802(被解說為汽車)或被整合在其內。交通工具1802包括包含應用1122的一個或多個處理器220。交通工具1802還包括麥克風246。麥克風246被放置以擷取交通工具1802的一名或多名乘客的話語。可基於從交通工具1802的麥克風246接收的音頻訊號來執行用戶話音分析。在一些實現中,可基於從內部麥克風(例如,麥克風246)接收的音頻訊號(諸如交通工具1802的乘客之間的對話)來執行用戶話音分析。例如,用戶話音分析可被用於基於在交通工具1802中檢測到的對話(例如,「我們星期六下午去野餐吧」和「當然,那太好了」)來為與特定用戶話音輪廓相關聯的用戶設置日曆事件。在一些實現中,可基於從外部麥克風(例如,麥克風246)接收的音頻訊號(諸如用戶在交通工具1802外講話)來執行用戶話音分析。在一特定實現中,響應於檢測到與特定話音輪廓相關聯的用戶之間的特定對話,應用1122基於所檢測到的對話、所檢測到的用戶、或兩者諸如通過經由顯示器1820或者一個或多個揚聲器(例如,揚聲器1830)提供反饋或資訊(例如,「用戶1在星期六下午3點前有約了,將野餐安排到下午4點?」)來發起交通工具1802的一個或多個操作。
參照圖19,描繪了設備的特定解說性實現的方塊圖並將其一般性地指定為1900。在各種實現中,設備1900可具有比圖19中所解說的更多或更少的組件。在解說性實現中,設備1900可對應於設備202。在解說性實現中,設備1900可執行參照圖1-18所描述的一個或多個操作。
在特定實現中,設備1900包括處理器1906(例如,中央處理單元(CPU))。設備1900可包括一個或多個附加處理器1910(例如,一個或多個DSP)。在一特定方面,圖2A的一個或多個處理器220對應於處理器1906、處理器1910或其組合。處理器1910可包括特徵提取器222、講話者檢測器278、分段器124、輪廓管理器126、一個或多個音頻分析應用180、或其組合。
設備1900可包括記憶體1986和CODEC 1934。在一特定方面,記憶體1986對應於圖2A的記憶體232。記憶體1986可包括指令1956,這些指令1956可由一個或多個附加處理器1910(或處理器1906)執行以實現參照特徵提取器222、講話者檢測器278、分段器124、輪廓管理器126、一個或多個音頻分析應用180、或其組合所描述的功能性。設備1900可包括經由收發機1950耦接到天線1952的無線控制器1940。在一特定方面,設備1900包括耦接到收發機1950的數據機。
設備1900可包括耦接到顯示器控制器1926的顯示器1928。一個或多個揚聲器1992、麥克風246或其組合可被耦接至CODEC 1934。CODEC 1934可包括數位類比轉換器(DAC)1902、類比數位轉換器(ADC)1904或兩者。在一特定實現中,CODEC 1934可從麥克風246接收類比訊號,使用類比數位轉換器1904來將這些類比訊號轉換為數位訊號,以及將這些數位訊號提供給一個或多個處理器1910。一個或多個處理器1910可處理數位訊號。在一特定實現中,一個或多個處理器1910可向CODEC 1934提供數位訊號。CODEC 1934可使用數位類比轉換器1902來將數位訊號轉換為類比訊號,並且可以將類比訊號提供給揚聲器1992。
在特定實現中,設備1900可被包括在系統級封裝或片上系統設備1922中。在一特定實現中,記憶體1986、處理器1906、處理器1910、顯示器控制器1926、CODEC 1934、無線控制器1940和收發機1950被包括在系統級封裝或片上系統設備1922中。在一特定實現中,輸入設備1930和電源1944被耦接到片上系統設備1922。此外,在特定實現中,如圖19中所解說的,顯示器1928、輸入設備1930、揚聲器1992、麥克風246、天線1952、和電源1944在片上系統設備1922的外部。在特定實現中,顯示器1928、輸入設備1930、揚聲器1992、麥克風246、天線1952和電源1944中的每一者可耦接至片上系統設備1922的組件(諸如介面或控制器)。
設備900可包括智慧型揚聲器、音箱、行動通訊設備、智慧型電話、蜂窩電話、膝上型計算機、計算機、平板設備、個人數位助理、顯示設備、電視、遊戲控制台、音樂播放器、收音機、數位視頻播放器、數位視頻光碟(DVD)播放器、調諧器、相機、導航設備、交通工具、頭戴式設備、擴增實境頭戴式設備、虛擬實境頭戴式設備、空中交通工具、家用自動化系統、語音啟動式設備、無線揚聲器和語音啟動式設備、便攜式電子設備、汽車、計算設備、通訊設備、物聯網(IoT)設備、虛擬實境(VR)設備、基站、行動設備、或其任何組合。
結合所描述的實現,一種裝備包括用於儲存多個用戶的多個用戶話音輪廓的構件。例如,用於儲存的構件包括圖2A的記憶體232、設備202、系統200,記憶體1986,設備1900,配置成儲存多個用戶話音輪廓的一個或多個其他電路或組件,或其任何組合。
該裝備進一步包括用於在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音的構件。例如,用於確定的構件包括圖2A的講話者檢測器278、一個或多個處理器220、設備202、系統200,處理器1906,一個或多個處理器1910,設備1900,配置成在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音的一個或多個其他電路或組件,或其任何組合。
該裝備還包括用於分析音頻流的音頻特徵資料以生成分段結果的構件。例如,用於分析的構件包括圖2A的分段器124、一個或多個處理器220、設備202、系統200,處理器1906,一個或多個處理器1910,設備1900,配置成分析音頻特徵資料的一個或多個其他電路或組件,或其任何組合。分段結果236指示音頻流141的講話者同源音頻分段。
該裝備進一步包括用於執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配的構件。例如,用於執行該比較的構件包括圖2A的輪廓管理器126、一個或多個處理器220、設備202、系統200,處理器1906,一個或多個處理器1910,設備1900,配置成執行該比較的一個或多個其他電路或組件,或其任何組合。
該裝備還包括用於基於第一多個音頻特徵資料集來生成第一用戶話音輪廓的構件。例如,用於生成第一用戶話音輪廓的構件包括圖2A的輪廓管理器126、一個或多個處理器220、設備202、系統200,處理器1906,一個或多個處理器1910,設備1900,配置成生成第一用戶話音輪廓的一個或多個其他電路或組件,或其任何組合。用戶話音輪廓150A是基於確定音頻特徵資料集252不與該多個用戶話音輪廓150中的任一者匹配而生成的。
該裝備進一步包括用於向多個用戶話音輪廓添加第一用戶話音輪廓的構件。例如,用於添加第一用戶話音輪廓的構件包括圖2A的輪廓管理器126、一個或多個處理器220、設備202、系統200,處理器1906,一個或多個處理器1910,設備1900,配置成添加第一用戶話音輪廓的一個或多個其他電路或組件,或其任何組合。
在一些實現中,一種非瞬態計算機可讀媒體(例如,計算機可讀儲存設備(諸如記憶體1986))包括指令(例如,指令1956),這些指令在由一個或多個處理器(例如,一個或多個處理器1910或者處理器1906)執行時使該一個或多個處理器在第一功率模式(例如,功率模式282)下確定音頻流(例如,音頻流141)是否對應於至少兩個不同講話者的話音。這些指令在由該一個或多個處理器執行時還使這些處理器分析該音頻流的音頻特徵資料(例如音頻特徵資料集252)以生成分段結果(例如,分段結果236)。分段結果236指示該音頻流的講話者同源音頻分段(例如,講話者同源音頻分段111A和講話者同源音頻分段111B)。這些指令在由該一個或多個處理器執行時還使這些處理器執行多個用戶話音輪廓(例如,多個用戶話音輪廓150)與第一講話者同源音頻分段(例如,講話者同源音頻分段111A)的第一多個音頻特徵資料集(例如,音頻特徵資料集252A)中的第一音頻特徵資料集(例如,音頻特徵資料集252)的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配。這些指令在由該一個或多個處理器執行時進一步使這些處理器基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:基於第一多個音頻特徵資料集來生成第一用戶話音輪廓(例如,用戶話音輪廓150A),以及向該多個用戶話音輪廓添加第一用戶話音輪廓。
本公開的特定方面在以下第一套相互關聯的條款中作了描述:
根據條款1。一種用於音頻分析的設備,包括:記憶體,其被配置成儲存多個用戶的多個用戶話音輪廓;以及一個或多個處理器,其被配置成:在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音;基於確定該音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果,該分段結果指示該音頻流的講話者同源音頻分段;執行該多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配;以及基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:基於第一多個音頻特徵資料集來生成第一用戶話音輪廓;以及向該多個用戶話音輪廓添加第一用戶話音輪廓。
條款2包括如條款1的設備,其中第一音頻特徵資料集包括第一音頻特徵向量。
條款3包括如條款1或條款2的設備,其中該一個或多個處理器被配置成通過對該音頻特徵資料應用講話者分段神經網路來分析該音頻特徵資料。
條款4包括如條款1到3中的任一項的設備,其中該一個或多個處理器被配置成:基於確定該分段結果指示第一音頻特徵資料集對應於第一講話者的話音並且第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:將第一音頻特徵資料集儲存在與第一講話者相關聯的第一登記緩衝器中;以及將與第一講話者的話音相對應的後續音頻特徵資料集儲存在第一登記緩衝器中,直至停止條件得到滿足,其中第一講話者同源音頻分段的第一多個音頻特徵資料集包括第一音頻特徵資料集和這些後續音頻特徵資料集。
條款5包括如條款4的設備,其中該一個或多個處理器被配置成:響應於確定在該音頻流中檢測到長於閾值的靜默而確定該停止條件得到滿足。
條款6包括如條款4到5中的任一項的設備,其中該一個或多個處理器被配置成:至少部分地基於確定特定音頻特徵資料集對應於單個講話者的話音來將該特定音頻特徵資料集添加到第一登記緩衝器,其中該單個講話者包括第一講話者。
條款7包括如1到6中的任一項的設備,其中該一個或多個處理器被配置成:基於確定儲存在第一登記緩衝器中的第一講話者同源音頻分段的第一多個音頻特徵資料集的計數大於登記閾值,根據第一多個音頻特徵資料集來生成第一用戶話音輪廓。
條款8包括如條款1到7中的任一項的設備,其中該一個或多個處理器被配置成:基於確定第一音頻特徵資料集與特定用戶話音輪廓匹配,根據第一音頻特徵資料集來更新該特定用戶話音輪廓。
條款9包括如條款8的設備,其中該一個或多個處理器被配置成:至少部分地基於確定第一音頻特徵資料集對應於單個講話者的話音,根據第一音頻特徵資料集來更新該特定用戶話音輪廓。
條款10包括如條款1到9中的任一項的設備,其中該一個或多個處理器被配置成:確定第二講話者同源音頻分段的第二多個音頻特徵資料集中的第二音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配。
條款11包括如條款10的設備,其中該一個或多個處理器被配置成:基於確定第二音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:基於第二多個音頻特徵資料集來生成第二用戶話音輪廓;以及向該多個用戶話音輪廓添加第二用戶話音輪廓。
條款12包括如條款10的設備,其中該一個或多個處理器被配置成:基於確定第二音頻特徵資料集與該多個用戶話音輪廓中的特定用戶話音輪廓匹配,根據第二音頻特徵資料集來更新該特定用戶話音輪廓。
條款13包括如條款1到12中的任一項的設備,其中該記憶體被配置成儲存輪廓更新資料,並且其中該一個或多個處理器被配置成:響應於生成第一用戶話音輪廓,更新該輪廓更新資料以指示第一用戶話音輪廓被更新;以及基於確定該輪廓更新資料指示該多個用戶話音輪廓中的第一計數個用戶話音輪廓已被更新,輸出第一計數作為在該音頻流中檢測到的講話者的計數。
條款14包括如條款1到13中的任一項的設備,其中該記憶體被配置成儲存輪廓更新資料,並且其中該一個或多個處理器被配置成:響應於生成第一用戶話音輪廓,基於第一講話者同源音頻分段的話音歷時來更新該用戶互動資料以指示與第一用戶話音輪廓相關聯的第一用戶在該話音歷時內進行了互動;以及至少輸出該用戶互動資料。
條款15包括如條款1到14中的任一項的設備,其中相較於第二功率模式而言第一功率模式是較低功率模式。
條款15包括如條款1的設備,其中該一個或多個處理器被配置成:在第一功率模式下確定該音頻流的音頻資訊,該音頻資訊包括在該音頻流中檢測到的講話者的計數、語音活動檢測(VAD)資訊、或這兩者;在第二功率模式下啟動一個或多個音頻分析應用;以及向該一個或多個音頻分析應用提供該音頻資訊。
條款17包括如條款1到16中的任一項的設備,其中該一個或多個處理器被配置成:響應於確定該分段結果指示該音頻流的一個或多個第二音頻分段對應於多個講話者,抑制基於該一個或多個第二音頻分段來更新該多個用戶話音輪廓。
本公開的特定方面在以下第二套相互關聯的條款中作了描述:
根據條款18,一種音頻分析方法,包括:在一設備處在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音;基於確定該音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果,該分段結果指示該音頻流的講話者同源音頻分段;在該設備處執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配;以及基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:在該設備處基於第一多個音頻特徵資料集來生成第一用戶話音輪廓;以及在該設備處向該多個用戶話音輪廓添加第一用戶話音輪廓。
條款19包括如條款18的方法,並且進一步包括:對該音頻特徵資料應用講話者分段神經網路。
條款20包括如條款18或條款19的方法,並且進一步包括:基於確定該分段結果指示第一音頻特徵資料集對應於第一講話者的話音並且第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:將第一音頻特徵資料集儲存在與第一講話者相關聯的第一登記緩衝器中;以及將與第一講話者的話音相對應的後續音頻特徵資料集儲存在第一登記緩衝器中,直至停止條件得到滿足,其中第一講話者同源音頻分段的第一多個音頻特徵資料集包括第一音頻特徵資料集和這些後續音頻特徵資料集。
條款21包括如條款20的方法,並且進一步包括:在該設備處響應於在該音頻流中檢測到長於閾值的靜默而確定該停止條件得到滿足。
條款22包括如條款20或條款21的方法,並且進一步包括:在該設備處至少部分地基於確定特定音頻特徵資料集對應於單個講話者的話音來將該特定音頻特徵資料集添加到第一登記緩衝器,其中該單個講話者包括第一講話者。
條款23包括如條款18到22中的任一項的方法,並且進一步包括:基於確定儲存在第一登記緩衝器中的第一講話者同源音頻分段的第一多個音頻特徵資料集的計數大於登記閾值,根據第一多個音頻特徵資料集來生成第一用戶話音輪廓。
條款24包括如條款18到23中的任一項的方法,並且進一步包括:基於確定第一音頻特徵資料集與特定用戶話音輪廓匹配,根據第一音頻特徵資料集來更新該特定用戶話音輪廓。
條款25包括如條款24的方法,並且進一步包括:至少部分地基於確定第一音頻特徵資料集對應於單個講話者的話音,根據第一音頻特徵資料集來更新該特定用戶話音輪廓。
條款26包括如條款18到25中的任一項的方法,並且進一步包括:基於確定第二講話者同源音頻分段的第二多個音頻特徵資料集中的第二音頻特徵資料集與該多個用戶話音輪廓中的特定用戶話音輪廓匹配,根據第二音頻特徵資料集來更新該特定用戶話音輪廓。
本公開的特定方面在以下第三套相互關聯的條款中作了描述:
根據條款27,一種儲存指令的非瞬態計算機可讀儲存媒體,這些指令在由一個或多個處理器執行時使這些處理器:在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音;基於確定該音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果,該分段結果指示該音頻流的講話者同源音頻分段;執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配;以及基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來進行以下操作:基於第一多個音頻特徵資料集來生成第一用戶話音輪廓;以及向該多個用戶話音輪廓添加第一用戶話音輪廓。
條款28包括如條款27的非瞬態計算機可讀儲存媒體,其中這些指令在由該一個或多個處理器執行時使這些處理器:基於確定儲存在第一登記緩衝器中的第一講話者同源音頻分段的第一多個音頻特徵資料集的計數大於登記閾值,根據第一多個音頻特徵資料集來生成第一用戶話音輪廓。
本公開的特定方面在以下第四套相互關聯的條款中作了描述:
根據條款29,一種裝備,包括:用於儲存多個用戶的多個用戶話音輪廓的構件;用於在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音的構件;用於在第二功率模式下分析該音頻流的音頻特徵資料以生成分段結果的構件,該音頻特徵資料是基於確定該音頻流對應於至少兩個不同講話者的話音在第二功率模式下分析的,其中該分段結果指示該音頻流的講話者同源音頻分段;用於執行該多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定第一音頻特徵資料集是否與該多個用戶話音輪廓中的任一者匹配的構件;以及用於基於第一多個音頻特徵資料集來生成第一用戶話音輪廓的構件,第一用戶話音輪廓是基於確定第一音頻特徵資料集不與該多個用戶話音輪廓中的任一者匹配來生成的;以及用於向該多個用戶話音輪廓添加第一用戶話音輪廓的構件。
條款30包括如條款29的裝備,其中用於儲存的構件、用於確定的構件、用於分析的構件、用於執行的構件、用於生成的構件和用於添加的構件被整合到以下各項中的至少一者中:行動通訊設備、智慧型電話、蜂窩電話、智慧型揚聲器、音箱、膝上型計算機、計算機、平板設備、個人數位助理、顯示設備、電視、遊戲控制台、音樂播放器、收音機、數位視頻播放器、數位視頻光碟(DVD)播放器、調諧器、相機、導航設備、交通工具、頭戴式設備、擴增實境頭戴式設備、虛擬實境頭戴式設備、空中交通工具、家用自動化系統、語音啟動式設備、無線揚聲器和語音啟動式設備、便攜式電子設備、汽車、計算設備、通訊設備、物聯網(IoT)設備、虛擬實境(VR)設備、基站、行動設備、或其任何組合。
通常知識者將進一步領會,結合本文所公開的實現來描述的各種解說性邏輯框、配置、模組、電路、和算法步驟可實現為電子硬體、由處理器執行的計算機軟體、或這兩者的組合。各種解說性組件、框、配置、模組、電路、和步驟已經在上文以其功能性的形式作了一般化描述。此類功能性是被實現為硬體還是處理器可執行指令取決於具體應用和加諸於整體系統的設計約束。通常知識者可針對每種特定應用以不同方式來實現所描述的功能性,此類實現決策不應被解讀為致使脫離本公開的範圍。
結合本文所公開的各實現所描述的方法或算法的步驟可直接在硬體中、在由處理器執行的軟體模組中、或在這兩者的組合中實施。軟體模組可駐留在隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式唯讀記憶體(PROM)、可擦式可程式唯讀記憶體(EPROM)、電可擦式可程式唯讀記憶體(EEPROM)、暫存器、硬碟、可移動碟、壓縮碟唯讀記憶體(CD-ROM)、或本領域中所知的任何其他形式的非瞬態儲存媒體中。示例性儲存媒體耦接至處理器,以使該處理器可從/向該儲存媒體讀寫資訊。在替換方案中,儲存媒體可被整合到處理器。處理器和儲存媒體可駐留在專用積體電路(ASIC)中。ASIC可駐留在計算設備或用戶終端中。在替換方案中,處理器和儲存媒體可作為離散組件駐留在計算設備或用戶終端中。
提供前面對所公開的各方面的描述是為了使本領域通常知識者皆能製作或使用所公開的各方面。對這些方面的各種修改對於本領域通常知識者而言將是顯而易見的,並且本文中定義的原理可被應用於其他方面而不會脫離本公開的範圍。因此,本公開並非旨在被限定於本文中示出的各方面,而是應被授予與如由所附申請專利範圍定義的原理和新穎性特徵一致的最廣的可能範圍。
100:示例
102A,102B,102C:幀
111A,111B:講話者同源音頻分段
113:靜默或混合講話者音頻分段
124:分段器
126:輪廓管理器
141:音頻流
150,150A,150B,150C:用戶話音輪廓
151A,151B,151C:音頻部分
155A,155B,155C:輪廓ID
180:音頻分析應用
200:系統
202:設備
220:(諸)處理器
222:特徵提取器
232:記憶體
234A,234B,234C:登記緩衝器
236:分段結果
238A,238B:話音輪廓結果
240A,240B,240C:探測緩衝器
242A,242B,242C,242D:用戶
246:麥克風
252,252A,252B,252C:音頻特徵資料集
254A,254B,254C:分段得分
256:資料集分段結果
257:分段閾值
258:輪廓閾值
262:靜默計數
264:登記閾值
268:緩衝器
270:停止條件
272:輪廓更新資料
274:用戶互動資料
278:講話者檢測器
282,284:功率模式
292,292A,292B,292C:講話者
294:靜默(SIL):閾值
300:操作
302:講話者分段
304:聲音輪廓管理
306,308,310,312,314:步驟
400:操作
500:操作
590,592:圖表
600:操作
700:操作
800:操作
804,806,808,810,812,814,816,818,820,822,824,826,828:步驟
900:操作
902,904,906,910:步驟
920:應用
1000:方法
1002,1004,1006,1008:步驟
1100:實現
1102:積體電路
1104:音頻輸入
1106:訊號輸出
1122:應用
1143:訊號
1200:實現
1202:行動設備
1204:顯示器螢幕
1300:實現
1302:頭戴式設備
1400:實現
1402:可穿戴電子設備
1404:顯示器螢幕
1500:實現
1502:聲音啟動式設備
1504:揚聲器
1600:實現
1602:頭戴式設備
1620:視覺介面設備
1700:實現
1702:交通工具
1800:實現
1802:交通工具
1820:顯示器
1830:揚聲器
1900:設備
1902:數位類比轉換器(DAC)
1904:類比數位轉換器(ADC)
1906:處理器
1910:處理器
1922:片上系統設備
1926:顯示器控制器
1928:顯示器
1930:輸入設備
1934:CODEC
1940:無線控制器
1944:電源
1950:收發機
1952:天線
1956:指令
1986:記憶體
1992:揚聲器
圖1是根據本公開的一些示例的用戶話音輪廓管理的特定解說性示例的方塊圖。
圖2A是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的系統的特定解說性方面的示圖。
圖2B是根據本公開的一些示例的圖2A的系統的解說性組件的示圖。
圖3是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖4是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖5是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖6是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖7是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖8是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖9是根據本公開的一些示例的與用戶話音輪廓管理相關聯的操作的解說性方面的示圖。
圖10是根據本公開的一些示例的可由圖2A的系統執行的用戶話音輪廓管理方法的特定實現的示圖。
圖11解說了根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的積體電路的示例。
圖12解說了根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的行動設備的示圖。
圖13是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的頭戴式設備的示圖。
圖14是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的可穿戴電子設備的示圖。
圖15是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的語音控制揚聲器系統的示圖。
圖16是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的虛擬實境或擴增實境頭戴式設備的示圖。
圖17是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的交通工具的第一示例的示圖。
圖18是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的交通工具的第二示例的示圖。
圖19是根據本公開的一些示例的可操作用於執行用戶話音輪廓管理的設備的特定解說性示例的方塊圖。
100:示例
102A,102B,102C:幀
111A,111B:講話者同源音頻分段
113:靜默或混合講話者音頻分段
124:分段器
126:輪廓管理器
141:音頻流
150,150A,150B,150C:用戶話音輪廓
151A,151B,151C:音頻部分
155A,155B,155C:輪廓ID
180:音頻分析應用
Claims (30)
- 一種用於音頻分析的設備,包括: 記憶體,其被配置成儲存多個用戶的多個用戶話音輪廓;以及 一個或多個處理器,其被配置成: 在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音; 基於確定所述音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析所述音頻流的音頻特徵資料以生成分段結果,所述分段結果指示所述音頻流的講話者同源音頻分段; 執行所述多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定所述第一音頻特徵資料集是否與所述多個用戶話音輪廓中的任一者匹配;以及 基於確定所述第一音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配來進行以下操作: 基於所述第一多個音頻特徵資料集來生成第一用戶話音輪廓;以及 向所述多個用戶話音輪廓添加所述第一用戶話音輪廓。
- 如請求項1所述的設備,其中所述第一音頻特徵資料集包括第一音頻特徵向量。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成通過對所述音頻特徵資料應用講話者分段神經網路來分析所述音頻特徵資料。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成:基於確定所述分段結果指示所述第一音頻特徵資料集對應於第一講話者的話音並且所述第一音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配來進行以下操作: 將所述第一音頻特徵資料集儲存在與所述第一講話者相關聯的第一登記緩衝器中;以及 將與所述第一講話者的話音相對應的後續音頻特徵資料集儲存在所述第一登記緩衝器中,直到停止條件得到滿足,其中所述第一講話者同源音頻分段的所述第一多個音頻特徵資料集包括所述第一音頻特徵資料集和所述後續音頻特徵資料集。
- 如請求項4所述的設備,其中所述一個或多個處理器被配置成:響應於確定在所述音頻流中檢測到長於閾值的靜默而確定所述停止條件得到滿足。
- 如請求項4所述的設備,其中所述一個或多個處理器被配置成:至少部分地基於確定特定音頻特徵資料集對應於單個講話者的話音來將所述特定音頻特徵資料集添加到所述第一登記緩衝器,其中所述單個講話者包括所述第一講話者。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成:基於確定儲存在第一登記緩衝器中的所述第一講話者同源音頻分段的所述第一多個音頻特徵資料集的計數大於登記閾值,根據所述第一多個音頻特徵資料集來生成所述第一用戶話音輪廓。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成:基於確定所述第一音頻特徵資料集與特定用戶話音輪廓匹配,根據所述第一音頻特徵資料集來更新所述特定用戶話音輪廓。
- 如請求項8所述的設備,其中所述一個或多個處理器被配置成:至少部分地基於確定所述第一音頻特徵資料集對應於單個講話者的話音,根據所述第一音頻特徵資料集來更新所述特定用戶話音輪廓。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成:確定第二講話者同源音頻分段的第二多個音頻特徵資料集中的第二音頻特徵資料集是否與所述多個用戶話音輪廓中的任一者匹配。
- 如請求項10所述的設備,其中所述一個或多個處理器被配置成:基於確定所述第二音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配來進行以下操作: 基於所述第二多個音頻特徵資料集來生成第二用戶話音輪廓;以及 向所述多個用戶話音輪廓添加所述第二用戶話音輪廓。
- 如請求項10所述的設備,其中所述一個或多個處理器被配置成:基於確定所述第二音頻特徵資料集與所述多個用戶話音輪廓中的特定用戶話音輪廓匹配,根據所述第二音頻特徵資料集來更新所述特定用戶話音輪廓。
- 如請求項1所述的設備,其中所述記憶體被配置成儲存輪廓更新資料,並且其中所述一個或多個處理器被配置成: 響應於生成所述第一用戶話音輪廓,更新所述輪廓更新資料以指示所述第一用戶話音輪廓被更新;以及 基於確定所述輪廓更新資料指示所述多個用戶話音輪廓中的第一計數個用戶話音輪廓已被更新,輸出所述第一計數作為在所述音頻流中檢測到的講話者的計數。
- 如請求項1所述的設備,其中所述記憶體被配置成儲存用戶互動資料,並且其中所述一個或多個處理器被配置成: 響應於生成所述第一用戶話音輪廓,基於所述第一講話者同源音頻分段的話音歷時來更新所述用戶互動資料以指示與所述第一用戶話音輪廓相關聯的第一用戶在所述話音歷時內進行了互動;以及 至少輸出所述用戶互動資料。
- 如請求項1所述的設備,其中相較於所述第二功率模式而言所述第一功率模式是較低功率模式。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成: 在所述第一功率模式下確定所述音頻流的音頻資訊,所述音頻資訊包括在所述音頻流中檢測到的講話者的計數、語音活動檢測(VAD)資訊、或這兩者; 在所述第二功率模式下啟動一個或多個音頻分析應用;以及 向一個或多個音頻分析應用提供所述音頻資訊。
- 如請求項1所述的設備,其中所述一個或多個處理器被配置成:響應於確定所述分段結果指示所述音頻流的一個或多個第二音頻分段對應於多個講話者,抑制基於所述一個或多個第二音頻分段來更新所述多個用戶話音輪廓。
- 一種音頻分析方法,包括: 在一設備處在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音; 基於確定所述音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析所述音頻流的音頻特徵資料以生成分段結果,所述分段結果指示所述音頻流的講話者同源音頻分段; 在所述設備處執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定所述第一音頻特徵資料集是否與所述多個用戶話音輪廓中的任一者匹配;以及 基於確定所述第一音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配: 在所述設備處基於所述第一多個音頻特徵資料集來生成第一用戶話音輪廓;以及 在所述設備處向所述多個用戶話音輪廓添加所述第一用戶話音輪廓。
- 如請求項18所述的方法,進一步包括:對所述音頻特徵資料應用講話者分段神經網路。
- 如請求項18所述的方法,進一步包括:基於確定所述分段結果指示所述第一音頻特徵資料集對應於第一講話者的話音並且所述第一音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配來進行以下操作: 將所述第一音頻特徵資料集儲存在與所述第一講話者相關聯的第一登記緩衝器中;以及 將與所述第一講話者的話音相對應的後續音頻特徵資料集儲存在所述第一登記緩衝器中,直到停止條件得到滿足,其中所述第一講話者同源音頻分段的所述第一多個音頻特徵資料集包括所述第一音頻特徵資料集和所述後續音頻特徵資料集。
- 如請求項20所述的方法,進一步包括:在所述設備處響應於在所述音頻流中檢測到長於閾值的靜默而確定所述停止條件得到滿足。
- 如請求項20所述的方法,進一步包括:在所述設備處至少部分地基於確定特定音頻特徵資料集對應於單個講話者的話音來將所述特定音頻特徵資料集添加到所述第一登記緩衝器,其中所述單個講話者包括所述第一講話者。
- 如請求項18所述的方法,進一步包括:基於確定儲存在第一登記緩衝器中的所述第一講話者同源音頻分段的所述第一多個音頻特徵資料集的計數大於登記閾值,根據所述第一多個音頻特徵資料集來生成所述第一用戶話音輪廓。
- 如請求項18所述的方法,進一步包括:基於確定所述第一音頻特徵資料集與特定用戶話音輪廓匹配,根據所述第一音頻特徵資料集來更新所述特定用戶話音輪廓。
- 如請求項24所述的方法,進一步包括:至少部分地基於確定所述第一音頻特徵資料集對應於單個講話者的話音,根據所述第一音頻特徵資料集來更新所述特定用戶話音輪廓。
- 如請求項18所述的方法,進一步包括:基於確定第二講話者同源音頻分段的第二多個音頻特徵資料集中的第二音頻特徵資料集與所述多個用戶話音輪廓中的特定用戶話音輪廓匹配,根據所述第二音頻特徵資料集來更新所述特定用戶話音輪廓。
- 一種儲存指令的非瞬態計算機可讀儲存媒體,所述指令在由一個或多個處理器執行時使所述處理器進行以下操作: 在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音; 基於確定所述音頻流對應於至少兩個不同講話者的話音,在第二功率模式下分析所述音頻流的音頻特徵資料以生成分段結果,所述分段結果指示所述音頻流的講話者同源音頻分段; 執行多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定所述第一音頻特徵資料集是否與所述多個用戶話音輪廓中的任一者匹配;以及 基於確定所述第一音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配: 基於所述第一多個音頻特徵資料集來生成第一用戶話音輪廓;以及 向所述多個用戶話音輪廓添加所述第一用戶話音輪廓。
- 如請求項27所述的非瞬態計算機可讀儲存媒體,其中所述指令在由所述一個或多個處理器執行時使所述處理器:基於確定儲存在第一登記緩衝器中的所述第一講話者同源音頻分段的所述第一多個音頻特徵資料集的計數大於登記閾值,根據所述第一多個音頻特徵資料集來生成所述第一用戶話音輪廓。
- 一種裝備,包括: 用於儲存多個用戶的多個用戶話音輪廓的構件; 用於在第一功率模式下確定音頻流是否對應於至少兩個不同講話者的話音的構件; 用於在第二功率模式下分析所述音頻流的音頻特徵資料以生成分段結果的構件,所述音頻特徵資料是基於確定所述音頻流對應於至少兩個不同講話者的話音在所述第二功率模式下分析的,其中所述分段結果指示所述音頻流的講話者同源音頻分段; 用於執行所述多個用戶話音輪廓與第一講話者同源音頻分段的第一多個音頻特徵資料集中的第一音頻特徵資料集的比較以確定所述第一音頻特徵資料集是否與所述多個用戶話音輪廓中的任一者匹配的構件; 用於基於所述第一多個音頻特徵資料集來生成第一用戶話音輪廓的構件,所述第一用戶話音輪廓是基於確定所述第一音頻特徵資料集不與所述多個用戶話音輪廓中的任一者匹配來生成的;以及 用於向所述多個用戶話音輪廓添加所述第一用戶話音輪廓的構件。
- 如請求項29所述的裝備,其中用於儲存的構件、用於確定的構件、用於分析的構件、用於執行的構件、用於生成的構件和用於添加的構件被檢測到以下各項中的至少一者中:行動通訊設備、智慧型電話、蜂窩電話、智慧型揚聲器、音箱、膝上型計算機、計算機、平板設備、個人數位助理、顯示設備、電視、遊戲控制台、音樂播放器、收音機、數位視頻播放器、數位視頻光碟(DVD)播放器、調諧器、相機、導航設備、交通工具、頭戴式設備、擴增實境頭戴式設備、虛擬實境頭戴式設備、空中交通工具、家用自動化系統、語音啟動式設備、無線揚聲器和語音啟動式設備、便攜式電子設備、汽車、計算設備、通訊設備、物聯網(IoT)設備、虛擬實境(VR)設備、基站、行動設備、或其任何組合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/115,158 | 2020-12-08 | ||
US17/115,158 US11626104B2 (en) | 2020-12-08 | 2020-12-08 | User speech profile management |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202223877A true TW202223877A (zh) | 2022-06-16 |
Family
ID=78303075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110136316A TW202223877A (zh) | 2020-12-08 | 2021-09-29 | 用戶話音輪廓管理 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11626104B2 (zh) |
EP (1) | EP4260314A1 (zh) |
JP (1) | JP2023553867A (zh) |
KR (1) | KR20230118089A (zh) |
CN (1) | CN116583899A (zh) |
TW (1) | TW202223877A (zh) |
WO (1) | WO2022126040A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11929077B2 (en) * | 2019-12-23 | 2024-03-12 | Dts Inc. | Multi-stage speaker enrollment in voice authentication and identification |
US11462218B1 (en) * | 2020-04-29 | 2022-10-04 | Amazon Technologies, Inc. | Conserving battery while detecting for human voice |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
CN116364063B (zh) * | 2023-06-01 | 2023-09-05 | 蔚来汽车科技(安徽)有限公司 | 音素对齐方法、设备、驾驶设备和介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424946B1 (en) | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US8838452B2 (en) * | 2004-06-09 | 2014-09-16 | Canon Kabushiki Kaisha | Effective audio segmentation and classification |
US7536304B2 (en) * | 2005-05-27 | 2009-05-19 | Porticus, Inc. | Method and system for bio-metric voice print authentication |
US8630854B2 (en) * | 2010-08-31 | 2014-01-14 | Fujitsu Limited | System and method for generating videoconference transcriptions |
GB2489489B (en) | 2011-03-30 | 2013-08-21 | Toshiba Res Europ Ltd | A speech processing system and method |
WO2014100236A1 (en) * | 2012-12-19 | 2014-06-26 | Visa International Service Association | System and method for voice authentication |
US9666204B2 (en) * | 2014-04-30 | 2017-05-30 | Qualcomm Incorporated | Voice profile management and speech signal generation |
WO2016022588A1 (en) * | 2014-08-04 | 2016-02-11 | Flagler Llc | Voice tallying system |
US11227605B2 (en) | 2017-09-11 | 2022-01-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice-controlled management of user profiles |
US11398218B1 (en) * | 2018-04-26 | 2022-07-26 | United Services Automobile Association (Usaa) | Dynamic speech output configuration |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11024291B2 (en) * | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
US11545156B2 (en) * | 2020-05-27 | 2023-01-03 | Microsoft Technology Licensing, Llc | Automated meeting minutes generation service |
-
2020
- 2020-12-08 US US17/115,158 patent/US11626104B2/en active Active
-
2021
- 2021-09-28 WO PCT/US2021/071617 patent/WO2022126040A1/en active Application Filing
- 2021-09-28 KR KR1020237018503A patent/KR20230118089A/ko unknown
- 2021-09-28 CN CN202180080295.6A patent/CN116583899A/zh active Pending
- 2021-09-28 EP EP21795235.7A patent/EP4260314A1/en active Pending
- 2021-09-28 JP JP2023533713A patent/JP2023553867A/ja active Pending
- 2021-09-29 TW TW110136316A patent/TW202223877A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP4260314A1 (en) | 2023-10-18 |
US20220180859A1 (en) | 2022-06-09 |
WO2022126040A1 (en) | 2022-06-16 |
KR20230118089A (ko) | 2023-08-10 |
US11626104B2 (en) | 2023-04-11 |
JP2023553867A (ja) | 2023-12-26 |
CN116583899A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11848018B2 (en) | Utterance classifier | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US20210193176A1 (en) | Context-based detection of end-point of utterance | |
US10818296B2 (en) | Method and system of robust speaker recognition activation | |
US10403290B2 (en) | System and method for machine-mediated human-human conversation | |
US10332525B2 (en) | Automatic speaker identification using speech recognition features | |
TW202223877A (zh) | 用戶話音輪廓管理 | |
EP3210205B1 (en) | Sound sample verification for generating sound detection model | |
US11715480B2 (en) | Context-based speech enhancement | |
WO2014144579A1 (en) | System and method for updating an adaptive speech recognition model | |
WO2019242414A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
US11205433B2 (en) | Method and apparatus for activating speech recognition | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
US20240185851A1 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US20200321022A1 (en) | Method and apparatus for detecting an end of an utterance |