TW201434032A - 音訊環境分類之系統及方法 - Google Patents

音訊環境分類之系統及方法 Download PDF

Info

Publication number
TW201434032A
TW201434032A TW102141333A TW102141333A TW201434032A TW 201434032 A TW201434032 A TW 201434032A TW 102141333 A TW102141333 A TW 102141333A TW 102141333 A TW102141333 A TW 102141333A TW 201434032 A TW201434032 A TW 201434032A
Authority
TW
Taiwan
Prior art keywords
audio
audio environment
time interval
mfcc
statistics
Prior art date
Application number
TW102141333A
Other languages
English (en)
Inventor
Leonard Henry Grokop
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW201434032A publication Critical patent/TW201434032A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

本發明揭示分類音訊環境之系統及方法。在一實施例中,一種分類一音訊環境之方法包含:根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料,計算該經取樣音訊資料之特徵,根據一第二時間間隔自該經取樣音訊資料之該等特徵推斷一音訊叢集識別符,及根據一第三時間間隔使用該經取樣音訊資料之該等特徵更新一音訊環境模型。

Description

音訊環境分類之系統及方法 相關申請案的交叉參考
本申請案主張2012年11月14日申請之美國臨時申請案第61/726,493號的權利,該申請案已讓與給其受讓人,且以引用之方式明確地併入本文中。
本發明係關於無線通信領域。詳言之,本發明係關於音訊環境分類之系統及方法。
可將低功率始終接通音訊環境分類設想為用於智慧型手機之情境感知應用的啟用程式。雖然已試圖促進監督(亦即,預先訓練的)音訊分類,但此監督音訊分類之執行可能被混淆,此係因為給定周圍音訊環境之正確語義標籤可能常常為使用者特定的。舉例而言,一個人的家裏之周圍環境可能聽起來好像另一個人的辦公室之周圍環境。另外,習知音訊分類方法可為計算上密集的,從而使得此等方法不適於以低功率始終接通方式來實施。關於習知音訊分類方法之另一問題係對隱私之關注,此係因為可儲存原始音訊樣本。
一種根據本發明之分類一音訊環境之方法的一實例包括根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料,計算該 經取樣音訊資料之特徵,根據一第二時間間隔自該經取樣音訊資料之該等特徵推斷一音訊叢集識別符,及根據一第三時間間隔使用該經取樣音訊資料之該等特徵更新一音訊環境模型。
該方法之實施可包括以下特徵中之一或多者。計算該經取樣音訊資料之特徵可包括計算複數個梅爾頻率倒譜係數(mel-frequency ceptral coefficient;MFCC),在該第一時間間隔內使用該複數個MFCC產生對MFCC資料之統計的連續估計,及儲存對MFCC資料之統計的該等連續估計。產生對MFCC資料之統計的連續估計可包括將該複數個MFCC加至與該音訊環境之該複數個MFCC的平均值成比例的估計,以及將該複數個MFCC之平方加至與該音訊環境之該複數個MFCC的方差成比例的估計。推斷該音訊叢集識別符可包括讀取對MFCC資料之統計的該等連續估計、先前所儲存之音訊環境模型及先前所判定之音訊環境機率分佈;使用對MFCC資料之統計的該等連續估計、該先前所儲存之音訊環境模型及該先前所判定之音訊環境機率分佈計算當前音訊環境機率分佈;用該當前音訊環境機率分佈替換該先前所判定之音訊環境機率分佈;根據該當前音訊環境機率分佈推斷一當前音訊叢集識別符;及將對MFCC資料之統計的該等連續估計儲存為MFCC統計。更新該音訊環境模型可包括讀取該等MFCC統計,使用該等MFCC統計更新該音訊環境模型,及將該音訊環境模型儲存於一儲存裝置中。對該音訊環境進行取樣可在20毫秒至30毫秒之間的持續時間內執行,推斷該音訊叢集識別符可在1毫秒至100毫秒之間的持續時間內執行,且更新該音訊環境模型可在1分鐘至20分鐘之間的持續時間內執行。第一時間間隔可實質上比第二時間間隔短,且第二時間間隔可實質上比第三時間間隔短。第一時間間隔可在0.5秒至3秒之間,第二時間間隔可在30秒至120秒之間,且第三時間間隔可在6小時至24小時之間。該音訊叢集識別符可表示一周圍音訊環境。
一種根據本發明之分類一音訊環境之設備的一實例包括一記憶體單元;一處理器,該處理器經程式化以進行以下操作:根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料;計算該經取樣音訊資料之特徵;根據一第二時間間隔自經取樣音訊資料之該等特徵推斷一音訊叢集識別符,以便將該音訊叢集識別符儲存於該記憶體單元中;及根據一第三時間間隔使用經取樣音訊資料之該等特徵更新一音訊環境模型。
該設備之實施可包括以下特徵中之一或多者。該處理器可經程式化以進行以下操作:計算複數個梅爾頻率倒譜係數(MFCC),在該第一時間間隔內使用該複數個MFCC產生對MFCC資料之統計的連續估計,及將對MFCC資料之統計的該等連續估計儲存於該記憶體模組中。該處理器可經組態以將該複數個MFCC加至與該音訊環境之該複數個MFCC之平均值成比例的估計,及將該複數個MFCC之平方加至與該音訊環境之該複數個MFCC的方差成比例的估計。該處理器亦可經組態以進行以下操作:讀取對MFCC資料之統計的該等連續估計、先前所儲存之音訊環境模型及先前所判定之音訊環境機率分佈;使用對MFCC資料之統計的該等連續估計、該先前所儲存之音訊環境模型及該先前所判定之音訊環境機率分佈計算一當前音訊環境機率分佈;用該當前音訊環境機率分佈替換該先前所判定之音訊環境機率分佈;根據該當前音訊環境機率分佈推斷一當前音訊叢集識別符;及將對MFCC資料之統計的該等連續估計儲存為MFCC統計。該處理器亦可經程式化以讀取該等MFCC統計,使用該等MFCC統計更新該音訊環境模型,及將該音訊環境模型儲存於該記憶體單元中。可在20毫秒至30毫秒之間的持續時間內對該音訊環境進行取樣,可在1毫秒至100毫秒之間的持續時間內推斷該音訊叢集識別符,且可在1分鐘至20分鐘之間的持續時間內更新該音訊環境模型。第一時間間隔可實質上比第 二時間間隔短,且第二時間間隔實質上比第三時間間隔短。該處理器可經程式化以使得第一時間間隔在0.5秒至3秒之間,第二時間間隔在30秒至120秒之間,且第三時間間隔在6小時至24小時之間。該處理器可經程式化以指示該音訊叢集識別符表示一周圍音訊環境。
一種根據本發明之電腦程式產品之一實例駐留於一處理器可執行電腦儲存媒體上且包括處理器可執行指令,該等處理器可執行指令經組態以使得一處理器進行以下操作:根據一第一時間間隔對一音訊環境進行取樣以獲得經取樣音訊資料,計算該經取樣音訊資料之特徵,根據一第二時間間隔自該經取樣音訊資料之該等特徵推斷一音訊叢集識別符,及根據一第三時間間隔使用該經取樣音訊資料之該等特徵更新一音訊環境模型。
該電腦程式產品之實施可包括以下特徵中之一或多者。指令經組態以使得該處理器進行以下操作:計算複數個梅爾頻率倒譜係數(MFCC),在該第一時間間隔內使用該複數個MFCC產生對MFCC資料之統計的連續估計,及將對MFCC資料之統計的該等連續估計儲存於記憶體模組中。指令經組態以使得該處理器將該複數個MFCC加至與該音訊環境之該複數個MFCC的平均值成比例的估計,及將該複數個MFCC之平方加至與該音訊環境之該複數個MFCC的方差成比例的估計。指令經組態以使得該處理器進行以下操作:讀取對MFCC資料之統計的該等連續估計、先前所儲存之音訊環境模型及先前所判定之音訊環境機率分佈;使用對MFCC資料之統計的該等連續估計、該先前所儲存之音訊環境模型及該先前所判定之音訊環境機率分佈計算一當前音訊環境機率分佈;用該當前音訊環境機率分佈替換該先前所判定之音訊環境機率分佈;根據該當前音訊環境機率分佈推斷一當前音訊叢集識別符;及將對MFCC資料之統計的該等連續估計儲存為MFCC統計。指令經組態以使得該處理器讀取該等MFCC統計,使用該等 MFCC統計更新該音訊環境模型,及儲存該音訊環境模型。指令經組態以使得該處理器在20毫秒至30毫秒之間的持續時間內對該音訊環境進行取樣,在1毫秒至100毫秒之間的持續時間內推斷該音訊叢集識別符,及在1分鐘至20分鐘之間的持續時間內更新該音訊環境模型。指令指示:第一時間間隔實質上比第二時間間隔短,且第二時間間隔實質上比第三時間間隔短。指令指示:第一時間間隔在0.5秒至3秒之間,第二時間間隔在30秒至120秒之間,且第三時間間隔在6小時至24小時之間。指令使得該處理器推斷可表示一周圍音訊環境之該音訊叢集識別符。
一種根據本發明之用一行動裝置分類一音訊環境之設備的一實例包括:用於根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料的構件;用於計算該經取樣音訊資料之特徵的構件;用於根據一第二時間間隔自該經取樣音訊資料之該等特徵推斷一音訊叢集識別符的構件;及用於根據一第三時間間隔使用該經取樣音訊資料之該等特徵更新一音訊環境模型的構件。
該設備之實施可包括以下特徵中之一或多者。用於計算複數個梅爾頻率倒譜係數(MFCC)之構件,用於在該第一時間間隔內使用該複數個MFCC產生對MFCC資料之統計的連續估計的構件,及用於儲存對MFCC資料之統計的該等連續估計的構件。用於產生對MFCC資料之統計的連續估計的該構件可包括用於將該複數個MFCC加至與該音訊環境之該複數個MFCC的平均值成比例的估計的構件,及用於將該複數個MFCC之平方加至與該音訊環境之該複數個MFCC的方差成比例的估計的構件。用於推斷該音訊叢集識別符之該構件可包括:用於讀取對MFCC資料之統計的該等連續估計、先前所儲存之音訊環境模型及先前所判定之音訊環境機率分佈的構件;用於使用對MFCC資料之統計的該等連續估計、該先前所儲存之音訊環境模型及該先前所 判定之音訊環境機率分佈計算一當前音訊環境機率分佈的構件;用於用該當前音訊環境機率分佈替換該先前所判定之音訊環境機率分佈的構件;用於根據該當前音訊環境機率分佈推斷一當前音訊叢集識別符之構件;及用於將對MFCC資料之統計的該等連續估計儲存為MFCC統計的構件。用於更新該音訊環境模型之該構件可包括用於讀取該等MFCC統計之構件;用於使用該等MFCC統計更新該音訊環境模型之構件;及用於將該音訊環境模型儲存於一儲存裝置中的構件。對該音訊環境進行取樣可在20毫秒至30毫秒之間的持續時間內執行,推斷該音訊叢集識別符可在1毫秒至100毫秒之間的持續時間內執行,且更新該音訊環境模型可在1分鐘至20分鐘之間的持續時間內執行。大體而言,第一時間間隔實質上比第二時間間隔短,且第二時間間隔實質上比第三時間間隔短。第一時間間隔可在0.5秒至3秒之間,第二時間間隔可在30秒至120秒之間,且第三時間間隔可在6小時至24小時之間。
本文中所描述之項目及/或技術可提供以下能力中的一或多者,以及未提及之其他能力。可將由使用者之智慧型手機俘獲的音訊資料叢整合相異的周圍環境。使用者之隱私可得到維護,此係因為並不需要儲存所俘獲之音訊剪輯。可對不同時間刻度執行三種獨立服務且能夠進行工作循環以節省功率。特徵計算服務可對以秒計之時間刻度操作。推斷服務/引擎可對以分鐘計之時間刻度操作。模型更新服務可對以小時數或天數計之時間刻度操作。可提供其他能力且並非根據本發明之每個實施均必須提供所論述之能力中的任一者,更不用說全部了。另外,可能有可能藉由除所註釋之構件之外的構件來達成上文所註釋的效應,且所註釋之項目/技術可能未必產生所註釋之效應。
100‧‧‧行動裝置
101‧‧‧匯流排
110‧‧‧匯流排介面
111‧‧‧通用處理器
112‧‧‧數位信號處理器(DSP)
120‧‧‧無線收發器匯流排介面
121‧‧‧無線收發器
122‧‧‧無線天線
123‧‧‧無線信號
135‧‧‧麥克風
140‧‧‧記憶體
150‧‧‧匯流排介面
200‧‧‧音訊環境
202‧‧‧垂直軸
204‧‧‧水平軸
206‧‧‧會議叢集
208‧‧‧固定電話叢集
210‧‧‧單獨工作叢集
212‧‧‧駕駛叢集
214‧‧‧睡眠叢集
250‧‧‧音訊環境
252‧‧‧垂直軸
254‧‧‧水平軸
300‧‧‧使用行動裝置分類音訊環境之方法
302‧‧‧特徵計算服務
304‧‧‧推斷引擎
306‧‧‧音訊模型環境更新服務
400‧‧‧例示性模型
500‧‧‧使用行動裝置分類音訊環境之處理程序
502‧‧‧始終接通管理器
504‧‧‧環境推斷引擎
506‧‧‧環境更新服務
600‧‧‧資料獲取及特徵計算之例示性時間映射的說明
602‧‧‧特徵計算模組
604‧‧‧梅爾頻率倒譜係數(MFCC)統計
700‧‧‧環境推斷之例示性時間映射的說明
800‧‧‧更新音訊環境模型之例示性時間映射的說明
在閱讀結合以下圖式進行的本發明之實施例的詳細描述之後,本發明之前述特徵及優點以及本發明之額外特徵及優點將更清楚地得 以理解。
圖1為行動計算裝置之組件的方塊圖。
圖2A及圖2B說明根據本發明之一些態樣的音訊環境之例示性分類。
圖3為展示根據本發明之一些態樣的分類音訊環境之方法的例示性流程圖。
圖4說明根據本發明之一些態樣的用以叢集音訊環境資料之例示性模型。
圖5為展示根據本發明之一些態樣的分類音訊環境之處理程序的另一例示性流程圖。
圖6說明根據本發明之一些態樣的資料獲取及特徵計算之例示性時間映射。
圖7說明根據本發明之一些態樣的環境推斷之例示性時間映射。
圖8說明根據本發明之一些態樣的更新音訊環境模型之例示性時間映射。
揭示分類音訊環境之實施例。呈現以下描述以使得任何熟習此項技術者能夠製造及使用本發明。僅提供特定實施例及應用之描述作為實例。熟習此項技術者將容易顯而易見對本文中所描述之實例的各種修改及組合,且本文中所定義之一般原理可在不偏離本發明之精神或範疇的情況下應用於其他實例及應用。因此,本發明不意欲限於所描述及所展示之實例,而應符合與本文中所揭示之原理及特徵相一致的最廣範疇。
參看圖1,實例行動裝置100包括無線收發器121,其經由無線天線122在無線網路上發送及接收無線信號123。收發器121藉由無線收發器匯流排介面120連接至匯流排101。雖然在圖1中展示為相異組 件,但無線收發器匯流排介面120亦可為無線收發器121之一部分。此處,將行動裝置100說明為具有單一無線收發器121。然而,行動裝置100或者可具有多個無線收發器121及無線天線122以支援多個通信標準,諸如WiFi、分碼多重存取(CDMA)、寬頻帶CDMA(WCDMA)、長期演進(LTE)、藍芽等。
通用處理器111、記憶體140、數位信號處理器(DSP)112及/或專用處理器(未圖示)亦可用以完全地或部分地處理無線信號123或音訊輸入信號。來自無線信號123之資訊的儲存係使用記憶體140或暫存器(未圖示)來執行。雖然在圖1中僅展示一個通用處理器111、DSP 112及記憶體140,但行動裝置100可使用此等組件中之任一者中的一個以上者。通用處理器111及DSP 112直接地或藉由匯流排介面110連接至匯流排101。另外,記憶體140直接地或藉由匯流排介面150連接至匯流排101。在實施時,匯流排介面110可與以下各者整合或獨立於以下各者:與匯流排介面相關聯之通用處理器111、DSP 112及/或記憶體140。
記憶體140包括非暫時性電腦可讀儲存媒體(或多個媒體),其將功能儲存為一或多個指令或程式碼。可構成記憶體140之媒體包括(但不限於)RAM、ROM、快閃記憶體、光碟機等。由記憶體140儲存之功能由通用處理器111、專用處理器或DSP 112來執行。因此,記憶體140為儲存軟體程式碼(程式碼、指令等)之處理器可讀記憶體及/或電腦可讀記憶體,其經組態以使得處理器111及/或DSP 112執行所描述之功能。或者,可完全地或部分地在硬體中執行行動裝置100之一或多個功能。
行動裝置100進一步包括麥克風135,其俘獲在行動裝置100附近之周圍音訊。雖然此處行動裝置100包括一個麥克風135,但可使用多個麥克風135,諸如麥克風陣列、雙通道立體聲麥克風等。若由行動 裝置100來實施,則多個麥克風135可獨立地或獨立於彼此操作。麥克風135獨立地或藉由匯流排介面110連接至匯流排101。舉例而言,麥克風135可藉由匯流排101與DSP 112通信以便處理由麥克風135俘獲之音訊。麥克風135另外可與通用處理器111及/或記憶體140通信以產生或以其他方式獲得與所俘獲音訊相關聯的後設資料。
參看圖2A,展示音訊環境200之例示性分類。音訊環境叢集可表示在行動裝置100周圍發生的不同位置及活動。主要實例為基於經由麥克風135偵測到的聲音推斷音訊環境叢集。諸如加速度計、光偵測器及位置判定功能之其他感測器可用以幫助推斷音訊環境叢集。第一例示性分類200包括表示音訊環境叢集之垂直軸202,及表示時間之水平軸204。所揭示之系統及方法可藉由聚集諸如語音、人群、單獨、鍵入、時刻、運動狀態及其他相關音訊推斷之推斷基於音訊環境來推斷情形。在此實例中,所推斷之情形可包括會議叢集206、固定電話叢集208、單獨工作叢集210、駕駛叢集212,以及睡眠叢集214。應注意,情形推斷方法可用以藉由聚集在適當時間段內之駕駛推斷來增強基於運動之駕駛偵測。
參看圖2B,展示基於時刻之音訊環境250的例示性分類。在實施例中,行動裝置100可偵測在一天當中之音訊環境。可將偵測事件之結果與先前所儲存之模型相比較且可推斷活動標籤。在分類圖250中,垂直軸252表示狀態且水平軸254表示時刻。可基於先前所儲存之模型來推斷實例分類。作為實例,且並非限制,模型包括可進行推斷之情形的活動標籤,包括家務雜事叢集、單獨工作叢集、通勤叢集、接通固定電話叢集、鍛煉叢集、與其他人談話叢集、吃叢集以及觀看電視叢集。亦可推斷其他叢集,且可擴展模型以包括基於使用者之活動及對應聲學及可能的其他感觀輸入的更多活動標籤。
參看圖3,展示使用行動裝置100分類音訊環境之方法300的例示 性流程圖。然而,方法300僅為例示性的且並非限制性的。可(例如)藉由添加、移除或重新配置多個階段來變更方法300。
在實施例中,方法300保護使用者之隱私,此係因為周圍音訊環境之原始樣本並不持續存在於長期記憶體中。方法300亦可藉由諸如以下各者之特徵實現低功率始終接通實施:能夠進行工作循環之音訊取樣及特徵計算;依據少量足夠統計進行的當前周圍音訊環境之特性化;在短暫週期內將處理器喚醒以執行音訊推斷;及偶爾且不失時機地執行計算上密集之模型更新(例如,在裝置正充電時)。
根據本發明之多個態樣,該方法包括使用處理器111執行三種服務,即,特徵計算服務302、推斷引擎304及音訊模型環境更新服務306。應注意,每一種服務可以能夠進行工作循環方式來執行以使功率消耗最小化。每一服務可對不同時間刻度操作。
在一例示性實施中,特徵計算服務302對以秒計之時間刻度操作。在階段308處,行動裝置100上之處理器111可執行指令以在工作循環內啟動音訊接收鏈。作為實例,工作循環(例如,TON+TOFF)包括工作(例如,TON)狀態,其中持續時間大約在500毫秒(ms)至3000毫秒之範圍內。當在工作週期期間啟動音訊鏈時,在階段310處,服務302可指示行動裝置接通音訊子系統(其可包括麥克風135及(多個)處理器),且對大約20ms至30ms之音訊資料進行取樣。在實例中,取樣頻率(fs)為大約16Hz。
在階段312處,處理器111及DSP 112可計算13個梅爾頻率倒譜係數(MFCC)。在實例中,MFCC係基於30ms音訊訊框。接著在階段314處更新MFCC統計(例如,平均值及方差)且儲存該等MFCC統計。通常,在階段314處用於進行連續估計之記憶體為揮發性記憶體。舉例而言,比較服務302將MFCC統計值加至對當前音訊環境之MFCC的平均值之連續估計,且將此等值之平方加至對當前音訊環境之MFCC的 方差之連續估計。此等值每一MFCC通常需要2個位元組之記憶體,其中對於平均值而言需要總共26B且對於方差而言需要總共26B。因此,所使用的總的記憶體為52B。音訊子系統可接著在每一秒之剩餘時間(大約965ms至975ms)內閒置或睡眠。
在實施例中,推斷引擎304對以分鐘計之時間刻度操作。在階段320處,處理器111經組態以喚醒相關資源(例如,DSP 112、記憶體140、專用處理器)。典型介面窗口計時器(TINF)將每隔30秒至120秒期滿。當計時器期滿時,在階段322處,引擎304包括用以自記憶體讀取以下各者之指令:來自階段314的對MFCC之平均值及方差的連續估計、來自階段336的所儲存之音訊環境模型,及來自階段328的先前音訊環境分佈。引擎304接著使用隱式馬爾可夫模型(Hidden Markov Model;HMM)之向前演算法計算新的音訊環境分佈。接著在階段328處用新的音訊環境分佈替換先前音訊環境分佈。在階段324處,引擎304公佈具有最高機率之狀態為當前音訊叢集。在階段326處,引擎304複製對平均值及方差之連續估計以在階段330處將其儲存於非揮發性記憶體中且在階段314處將連續估計重置為零。在實施例中,此等操作可大致花費大約5ms。引擎304可接著在介面窗口間隔之剩餘時間內返回至睡眠。
大體而言,音訊模型環境更新服務306對以小時數或天數計之時間刻度操作。在階段332處,更新服務306喚醒相關處理器(例如,處理器111、DSP 112、專用處理器)。作為實例,且並非限制,當將行動裝置100插上電源時,一天出現一次週期性模型更新時間,較佳在午夜之後。一旦觸發了更新,在階段334處,更新服務306便載入所儲存之MFCC資料(亦即,階段330處的所儲存之連續估計),且執行計算以更新音訊環境模型。當完成此計算時,可在階段336處更新所儲存之音訊環境模型,且可將相關處理器恢復至睡眠。在實例中,階段 334處的更新音訊模型操作可大約花費約1分鐘至2分鐘來執行。
在實施例中,音訊模型環境更新服務306係由經由網路連接至行動裝置100之遠端伺服器執行。舉例而言,遠端伺服器可在可經由無線通信鏈路存取之廣域網(例如,蜂巢式網路)上。遠端伺服器亦可經由超微型小區或其他網路存取點存取。
根據本發明之多個態樣,音訊環境模型更新服務306叢集所儲存之MFCC資料。資料包括每一分鐘內針對13個MFCC中之每一者的一個平均值及一個方差值。第t分鐘內針對第d個MFCC的所儲存之平均值及方差資料點分別藉由yS(d,t)及yS2(d,t)來表示。叢集操作獲悉使用者常去的相異音訊環境之數目及特性化此等相異音訊環境之參數兩者。此等所獲悉之值構成經更新之音訊環境模型。
可在叢集操作中包括時間資訊及其他感觀輸入,此係因為此資訊可改良效能。在此方法中,若叢集在時間上接近地發生,或具有類似感觀輸入資訊,則將兩個隱藏狀態指派給同一叢集可為有利的。
參看圖4,展示用以叢集音訊環境資料之例示性模型400。在一實施中,假定:資料係根據特定統計模型由模型之最可能的參數產生,且模型之最可能的參數可自給定觀察來推斷。在實例中,模型可為貝葉斯非參數模型,其對關於資料中隱藏之叢集的數目的統計假定求積分。
模型中之每一叢集k {1,2,…,K}係藉由平均值向量 μ k =[ μ k (1),…, μ k (13)]及方差向量σk 2=[σk 2(1),…,σk 2(13)]來參數化。將所發現的叢集之總數表示為K
叢集輸出K μ 1 、…、μ K σ 1 2 、…、σ k 2 及π,其中π為表示成對叢集(亦即,狀態)之間的轉變機率的矩陣。圖4中展示用於叢集之模型。模型最初可組態有若干狀態L,該L大於所預期之狀態數目。在一種方法中,該方法選擇L>>K。在模型中,z t 表示在一天中的第t分鐘 期間的音訊環境之隱藏的叢集識別符。變數y t,o =[y 1,t,o y 13,t,o ]表示自在一天中的第t分鐘期間觀察之原始音訊資料串流計算的13個尺寸MFCC特徵向量。變數O表示每一分鐘計算的特徵向量之數目。在另一種方法中,該方法使用O=60。所儲存之資料藉由足夠統計囊封MFCC特徵向量
根據本發明之多個態樣,給定時間點之叢集識別符可為先前時間點之叢集識別符的函數,藉由將z t-1連接至z t 之箭頭來表示。剩餘變數表示叢集模型之各種參數。圖4說明根據本發明之一些態樣的用以叢集音訊環境資料之例示性模型。
根據本發明之一些態樣,推斷引擎304使用由參數K、μ1、…μK、…、及π組成之訓練模型,以及對MFCC統計之連續估計yS(d,t)及yS2(d,t),及先前音訊環境分佈p old =[p old (1),...p old (K)],來推斷新的音訊環境分佈p new =[p new (1),...p new (K)且自此分佈輸出最可能之狀態的識別符作為來自集合{1,...,K}之整數。舉例而言,可如下來進行第t分鐘。
其中
b 之計算通常係在對數域中執行。
在一實施中,在圖2B中展示此音訊環境叢集方法對使用者之資料的功效之實例。x軸展示以小時數計之時刻。y軸展示基於使用來自同一使用者的先前資料之2週訓練模型的所推斷之叢集識別符。在曲線圖上在如由使用者提供之時間說明活動標籤。
參看圖5,進一步參看圖3,展示使用行動裝置100分類音訊環境 之處理程序500。大體而言,處理程序500可藉由儲存於記憶體140中之電腦可讀指令來實現,該等電腦可讀指令經組態以指示行動裝置100之組件執行所識別之任務。然而,處理程序500僅為例示性的且並非限制性的。可(例如)藉由添加、移除或重新配置多個階段來變更處理程序500。在實施例中,處理程序500中之一或多個階段可由經由網路連接至行動裝置100之遠端電腦執行。
在階段502處,行動裝置100包括始終接通管理器程式碼段,該程式碼段包括經組態以指示(多個)處理器(例如,處理器111及其他專用處理器(在需要時))及DSP 112更新對MFCC統計之連續估計的電腦可讀指令。在階段508處,始終接通管理器502可指示行動裝置100收集音訊訊框資料,計算MFCC及更新MFCC統計(亦即,平均值及方差)。舉例而言,始終接通管理器502指示行動裝置100接通音訊子系統,該音訊子系統包括麥克風135及音訊接收鏈之其他元件(例如,DSP 112、記憶體140、(多個)處理器)。用以接通音訊子系統之指令可按以秒計之時間刻度(例如,每隔0.5秒、1秒、1.5秒、2秒、3秒)發生。在階段510處,行動裝置100經由麥克風135收集音訊訊框資訊,且對音訊資料之20ms至30ms進行取樣。在階段512處,計算若干MFCC。舉例而言,計算13個MFCC,且在階段514處,將值加至對當前音訊環境之MFCC的平均值之連續估計,且將此等值之平方加至對當前音訊環境之MFCC的方差之連續估計。
在階段516處,始終接通管理器502程式碼段包括使得(多個)處理器執行資料/記憶體管理功能之指令。舉例而言,始終接通管理器502包括用以移動對MFCC統計之估計以在階段518處儲存及在階段514處將連續估計重設至零的指令。在實例中,始終接通管理器502與環境推斷引擎504協作執行階段516之功能。
在階段504處,行動裝置100包括環境推斷引擎程式碼段,該程 式碼段包括經組態以指示(多個)處理器及DSP 112更新音訊環境之電腦可讀指令。大體而言,環境推斷引擎504對以分鐘計之時間刻度(例如,每1分鐘、1.5分鐘、2分鐘、3分鐘)執行。在階段520處,環境推斷引擎504提供用以收集MFCC統計(亦即,來自階段514)、所儲存之音訊環境模型(亦即,來自階段524)及先前音訊環境分佈(亦即,來自階段526)的指令。在階段522處,環境推斷引擎504使用所收集之資訊推斷音訊環境。舉例而言,推斷音訊環境階段522使用如先前所描述的HMM之向前演算法。因此,大約每一分鐘,環境推斷引擎504用新的音訊環境分佈替換階段526處之先前音訊環境分佈。在階段516處,複製對MFCC統計之連續估計以將其儲存於非揮發性記憶體(例如,在行動裝置100經切斷或能夠進行功率循環時,不被抹除的記憶體)中,且將階段514處之連續估計設定為零。
在階段506處,行動裝置100包括環境更新服務程式碼段,該程式碼段包括經組態以自儲存器載入MFCC統計及計算模型更新之電腦可讀指令。大體而言,環境更新服務對以天數計之時間刻度(例如,每隔1天、1.5天、2天、3天)執行。在階段528處,指示處理器111載入來自階段518的所儲存之MFCC資料,及對MFCC資料執行叢集操作。舉例而言,叢集操作可如先前所描述及圖4中所描繪。歸因於叢集操作所需之處理功率,較佳地,在將行動裝置插入電源但並不在使用中時(例如,在半夜),執行階段528。作為實例且並非限制,操作可花費大約1分鐘至2分鐘來執行。在實施例中,可在網路上傳送所儲存之MFCC統計,且階段528處之處理可在遠端電腦上發生。可在階段524處將經更新之音訊環境模型儲存於記憶體中。
參看圖6,進一步參看圖3,展示資料獲取及特徵計算之例示性時間映射的說明600。時間映射僅為例示性的,且並非限制,此係因為可使用其他時間組態。大體而言,資料獲取及特徵計算處理程序 302按以秒量測之刻度操作。在實例中,行動裝置100經組態以啟動麥克風135以接收音訊資料。音訊俘獲610之持續時間通常在20ms至30ms之範圍內,且取樣頻率大約為16kHz。可使用其他取樣持續時間及頻率組合。特徵計算模組602接收所俘獲之音訊資料且計算13個MFCC並估計MFCC統計604。此計算步驟612之持續時間可基於處理器速度而變化,但通常在15ms至30ms之範圍內。接著將MFCC統計604寫入至行動裝置100內之揮發性記憶體模組。處理器及記憶體組態可影響讀取及寫入時間,但讀取/寫入動作614之持續時間通常為5ms至10ms。俘獲音訊處理程序608之間的持續時間通常在965ms至975ms之間。
參看圖7,進一步參看圖3,展示環境推斷之例示性時間映射的說明700。時間映射僅為例示性的,且並非限制,此係因為可使用其他時間組態。大體而言,環境推斷引擎304按以分鐘量測之刻度操作。在典型實例中,計算新的音訊環境分佈702之間的持續時間大約為60秒。以下各步驟之持續時間僅為例示性的且並非限制:讀取先前音訊環境分佈704,接收所儲存之環境模型706,讀取及重設MFCC統計708,及將MFCC緩衝器傳送至非揮發性記憶體710。此等記憶體存取操作所需之時間可取決於記憶體及處理器組態。大體而言,計算新的音訊環境分佈712所需之持續時間可在2毫秒至5秒的範圍內。
參看圖8,進一步參看圖3,展示更新音訊環境模型之例示性時間映射的說明800。時間映射僅為例示性的,且並非限制,此係因為可使用其他時間組態。大體而言,環境更新服務306按以小時數或天數量測之刻度操作。在典型實例中,更新音訊環境模型之間的持續時間大約為24小時(例如,一天一次)。自非揮發性記憶體讀取所儲存之MFCC統計804及儲存環境模型808的持續時間僅為例示性的,且並非限制。此等記憶體存取操作所需之時間可取決於記憶體及處理器組 態。大體而言,根據本發明之計算及更新音訊環境模型所需的持續時間大約為1分鐘至2分鐘。
本文中所描述的方法及行動裝置可取決於應用藉由各種裝置來實施。舉例而言,此等方法可以硬體、韌體、軟體或其組合來實施。對於硬體實施,處理單元可在以下各者內實施:一或多個專用集成電路(ASIC)、數位信號處理器(DSP)、數位信號處理裝置(DSPD)、可程式化邏輯裝置(PLD)、場可程式化閘陣列(FPGA)、處理器、控制器、微控制器、微處理器、電子裝置、經設計以執行本文中所描述之功能的其他電子單元,或其組合。本文中,術語「控制邏輯」涵蓋藉由軟體、硬體、韌體或組合實施的邏輯。
對於韌體及/或軟體實施,該等方法可用執行本文中所描述之功能的模組(例如,程序、函式等)來實施。有形地體現指令之任何機器可讀媒體可用於實施本文中所描述的方法。舉例而言,軟體程式碼可儲存於記憶體中且由處理單元來執行。可在處理單元內或在處理單元外部實施記憶體。如本文中所使用,術語「記憶體」指任何類型之長期、短期、揮發性、非揮發性或其他儲存裝置且不限於任何特定類型之記憶體或任何數目個記憶體,或儲存記憶體類型的媒體。
若以韌體及/或軟體來實施,則可將功能作為一或多個指令或程式碼儲存於電腦可讀媒體上。實例包括編碼有資料結構之電腦可讀媒體及編碼有電腦程式之電腦可讀媒體。電腦可讀媒體可呈製造物品之形式。電腦可讀媒體包括實體電腦儲存媒體。儲存媒體可為可由電腦存取之任何可用媒體。以實例說明且並非限制,此等電腦可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置,或可用以儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體;如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟 (DVD)、軟磁碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟用雷射以光學方式再生資料。上文各者之組合亦應包括於電腦可讀媒體之範疇內。
除儲存於電腦可讀媒體上之外,指令及/或資料可作為信號提供於通信設備中所包括的傳輸媒體上。舉例而言,通信設備可包括具有指示指令及資料之信號的收發器。指令及資料經組態以使得至少一處理器實施申請專利範圍中所概述的功能。亦即,通信設備包括具有指示執行所揭示之功能之資訊的信號的傳輸媒體。在第一時間,通信設備中所包括的傳輸媒體可包括執行所揭示之功能之資訊的第一部分,而在第二時間,通信設備中所包括的傳輸媒體可包括執行所揭示之功能之資訊的第二部分。
可結合各種無線通信網路來實施本發明,諸如無線廣域網(WWAN)、無線區域網(WLAN)、無線個人區域網(WPAN)等。術語「網路」及「系統」常常可互換地使用。術語「地點」及「位置」常常可互換地使用。WWAN可為分碼多重存取(CDMA)網路、分時多重存取(TDMA)網路、分頻多重存取(FDMA)網路、正交分頻多重存取(OFDMA)網路、單載波分頻多重存取(SC-FDMA)網路、長期演進(LTE)網路、WiMAX(IEEE 802.16)網路等。CDMA網路可實施一或多個無線電存取技術(RAT),諸如cdma2000、寬頻帶-CDMA(W-CDMA)等。Cdma2000包括IS-95、IS2000及IS-856標準。TDMA網路可實施全球行動通信系統(GSM)、數位進階移動電話系統(D-AMPS),或某一其他RAT。GSM及W-CDMA描述於來自名為「第三代合作夥伴計劃」(3GPP)之協會的文件中。Cdma2000描述於來自名為「第三代合作夥伴計劃2」(3GPP2)之協會的文件中。3GPP及3GPP2文件可公開地得到。WLAN可為IEEE 802.11x網路,且WPAN可為藍芽網路、IEEE 802.15x或某一其他類型之網路。該等技術亦可結合WWAN、WLAN 及/或WPAN之任何組合來實施。
行動台係指諸如以下各者之裝置:蜂巢式或其他無線通信裝置、個人通信系統(PCS)裝置、個人導航裝置(PND)、個人資訊管理器(PIM)、個人數位助理(PDA)、膝上型或能夠接收無線通信及/或導航信號的其他合適行動裝置。術語「行動台」亦意欲包括諸如藉由短程無線、紅外線、有線連接或其他連接與個人導航裝置(PND)通信的裝置,而不管衛星信號接收、助理資料接收及/或地點相關處理發生在裝置處抑或PND處。又,「行動台」意欲包括所有裝置,包括能夠(諸如)經由網際網路、Wi-Fi或其他網路與伺服器通信的無線通信裝置、電腦、膝上型電腦等,而不管衛星信號接收、助理資料接收及/或地點相關處理發生在裝置處、伺服器處抑或與網路相關聯之另一裝置處。上述各者之任何可操作組合亦被視為「行動台」。
關於某物「經最佳化」、「所需」或其他名稱之名稱並不指示當前發明僅適用於經最佳化之系統,或存在「所需」元件之系統(或歸因於其他名稱之其他限制)。此等名稱僅指特定所描述之實施。當前,許多實施為可能的。該等技術可供除本文中所論述之協定之外的協定使用,包括在開發中的或將開發之協定。
熟習相關技術者將認識到,可使用所揭示實施例之許多可能的修改及組合,但仍使用相同的基礎底層機制及方法。出於解釋之目的,參考特定實施例撰寫了前述描述。然而,上文之說明性論述不意欲為詳盡的或將本發明限於所揭示之精確形式。鑒於上述教示,許多修改及變化為可能的。選擇及描述該等實施例以解釋本發明之原理及其實務應用,且使得熟習此項技術者能夠最好地利用具有如適合於所預期之特定用途的各種修改的本發明及各種實施例。
300‧‧‧使用行動裝置分類音訊環境之方法
302‧‧‧特徵計算服務
304‧‧‧推斷引擎
306‧‧‧音訊模型環境更新服務

Claims (36)

  1. 一種分類一音訊環境之方法,其包含:根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料;計算該經取樣音訊資料之特徵;根據一第二時間間隔自該經取樣音訊資料之該等特徵來推斷一音訊叢集識別符;及根據一第三時間間隔使用該經取樣音訊資料之該等特徵來更新一音訊環境模型。
  2. 如請求項1之方法,其中計算該經取樣音訊資料之特徵包含:計算複數個梅爾頻率倒譜係數(MFCC);在該第一時間間隔內使用該複數個MFCC來產生對MFCC資料之統計的連續估計;及儲存對MFCC資料之統計的該等連續估計。
  3. 如請求項2之方法,其中產生對MFCC資料之統計的連續估計包含:將該複數個MFCC加至與該音訊環境之該複數個MFCC之一平均值成比例的一估計;及將該複數個MFCC之一平方加至與該音訊環境之該複數個MFCC的一方差成比例的一估計。
  4. 如請求項2之方法,其中推斷該音訊叢集識別符包含:讀取對MFCC資料之統計的該等連續估計、一先前所儲存之音訊環境模型及一先前所判定之音訊環境機率分佈;使用對MFCC資料之統計的該等連續估計、該先前所儲存之音訊環境模型及該先前所判定之音訊環境機率分佈來計算一當前 音訊環境機率分佈;用該當前音訊環境機率分佈來替換該先前所判定之音訊環境機率分佈;根據該當前音訊環境機率分佈來推斷一當前音訊叢集識別符;及將對MFCC資料之統計的該等連續估計儲存為MFCC統計。
  5. 如請求項4之方法,其中更新該音訊環境模型包含:讀取該等MFCC統計;使用該等MFCC統計來更新該音訊環境模型;及將該音訊環境模型儲存於一儲存裝置中。
  6. 如請求項1之方法,其中對該音訊環境進行取樣係在20毫秒至30毫秒之間的一持續時間內執行;其中推斷該音訊叢集識別符係在1毫秒至100毫秒之間的一持續時間內執行;且其中更新該音訊環境模型係在1分鐘至20分鐘之間的一持續時間內執行。
  7. 如請求項1之方法,其中該第一時間間隔實質上比該第二時間間隔短;且該第二時間間隔實質上比該第三時間間隔短。
  8. 如請求項7之方法,其中該第一時間間隔在0.5秒至3秒之間,該第二時間間隔在30秒至120秒之間,且該第三時間間隔在6小時至24小時之間。
  9. 如請求項1之方法,其中該音訊叢集識別符表示一周圍音訊環境。
  10. 一種分類一音訊環境之設備,其包含:一記憶體單元;一處理器,其經程式化以進行以下操作:根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料; 計算該經取樣音訊資料之特徵;根據一第二時間間隔自該經取樣音訊資料之該等特徵來推斷一音訊叢集識別符,其中該音訊叢集識別符儲存於該記憶體單元中;及根據一第三時間間隔使用該經取樣音訊資料之該等特徵來更新一音訊環境模型。
  11. 如請求項10之設備,其中該處理器經進一步程式化以進行以下操作:計算複數個梅爾頻率倒譜係數(MFCC);在該第一時間間隔內使用該複數個MFCC來產生對MFCC資料之統計的連續估計;及將對MFCC資料之統計的該等連續估計儲存於該記憶體模組中。
  12. 如請求項11之設備,其中該處理器經進一步程式化以進行以下操作:將該複數個MFCC加至與該音訊環境之該複數個MFCC之一平均值成比例的一估計;及將該複數個MFCC之一平方加至與該音訊環境之該複數個MFCC的一方差成比例的一估計。
  13. 如請求項11之設備,其中該處理器經進一步程式化以進行以下操作:讀取對MFCC資料之統計的該等連續估計、一先前所儲存之音訊環境模型及一先前所判定之音訊環境機率分佈;使用對MFCC資料之統計的該等連續估計、該先前所儲存之音訊環境模型及該先前所判定之音訊環境機率分佈來計算一當前音訊環境機率分佈; 用該當前音訊環境機率分佈來替換該先前所判定之音訊環境機率分佈;根據該當前音訊環境機率分佈來推斷一當前音訊叢集識別符;及將對MFCC資料之統計的該等連續估計儲存為MFCC統計。
  14. 如請求項13之設備,其中該處理器經進一步程式化以進行以下操作:讀取該等MFCC統計;使用該等MFCC統計來更新該音訊環境模型;及將該音訊環境模型儲存於該記憶體單元中。
  15. 如請求項10之設備,其中該處理器經程式化以進行以下操作:在20毫秒至30毫秒之間的一持續時間內對該音訊環境進行取樣;在1毫秒至100毫秒之間的一持續時間內推斷該音訊叢集識別符;及在1分鐘至20分鐘之間的一持續時間內更新該音訊環境模型。
  16. 如請求項10之設備,其中該第一時間間隔實質上比該第二時間間隔短;且該第二時間間隔實質上比該第三時間間隔短。
  17. 如請求項16之設備,其中該第一時間間隔在0.5秒至3秒之間,該第二時間間隔在30秒至120秒之間,且該第三時間間隔在6小時至24小時之間。
  18. 如請求項10之設備,其中該音訊叢集識別符表示一周圍音訊環境。
  19. 一種電腦程式產品,其駐留於一處理器可執行電腦儲存媒體上,該電腦程式產品包含經組態以使得一處理器進行以下操作之處理器可執行指令:根據一第一時間間隔對一音訊環境進行取樣以獲得經取樣音 訊資料;計算該經取樣音訊資料之特徵;根據一第二時間間隔自該經取樣音訊資料之該等特徵來推斷一音訊叢集識別符;及根據一第三時間間隔使用該經取樣音訊資料之該等特徵來更新一音訊環境模型。
  20. 如請求項19之電腦程式產品,其中經組態以使得該處理器計算該經取樣音訊資料之該等特徵的指令包含經組態以使得該處理器進行以下操作的指令:計算複數個梅爾頻率倒譜係數(MFCC);在該第一時間間隔內使用該複數個MFCC來產生對MFCC資料之統計的連續估計;及將對MFCC資料之統計的該等連續估計儲存於記憶體模組中。
  21. 如請求項20之電腦程式產品,其中經組態以使得該處理器產生對MFCC資料之統計之連續估計的指令包含經組態以使得該處理器進行以下操作的指令:將該複數個MFCC加至與該音訊環境之該複數個MFCC之一平均值成比例的一估計;及將該複數個MFCC之一平方加至與該音訊環境之該複數個MFCC的一方差成比例的一估計。
  22. 如請求項20之電腦程式產品,其中經組態以使得該處理器推斷該音訊叢集識別符之指令包含經組態以使得該處理器進行以下操作的指令:讀取對MFCC資料之統計的該等連續估計、一先前所儲存之音訊環境模型及一先前所判定之音訊環境機率分佈;使用對MFCC資料之統計的該等連續估計、該先前所儲存之音 訊環境模型及該先前所判定之音訊環境機率分佈來計算一當前音訊環境機率分佈;用該當前音訊環境機率分佈來替換該先前所判定之音訊環境機率分佈;根據該當前音訊環境機率分佈來推斷一當前音訊叢集識別符;及將對MFCC資料之統計的該等連續估計儲存為MFCC統計。
  23. 如請求項22之電腦程式產品,其中經組態以使得該處理器更新該音訊環境模型之指令包含經組態以使得該處理器進行以下操作的指令:讀取該等MFCC統計;使用該等MFCC統計來更新該音訊環境模型;及儲存該音訊環境模型。
  24. 如請求項19之電腦程式產品,其包含經組態以使得該處理器進行以下操作的指令:在20毫秒至30毫秒之間的一持續時間內對該音訊環境進行取樣;在1毫秒至100毫秒之間的一持續時間內推斷該音訊叢集識別符;及在1分鐘至20分鐘之間的一持續時間內更新該音訊環境模型。
  25. 如請求項19之電腦程式產品,其包含指示以下情形之指令:該第一時間間隔實質上比該第二時間間隔短;且該第二時間間隔實質上比該第三時間間隔短。
  26. 如請求項25之電腦程式產品,其中指令指示以下情形:該第一時間間隔在0.5秒至3秒之間,該第二時間間隔在30秒至120秒之間,且該第三時間間隔在6小時至24小時之間。
  27. 如請求項19之電腦程式產品,其中經組態以使得該處理器推斷該音訊叢集識別符之指令包含經組態以使得該處理器推斷表示 一周圍音訊環境之該音訊叢集識別符的指令。
  28. 一種用一行動裝置分類一音訊環境之設備,其包含:用於根據一第一時間間隔對該音訊環境進行取樣以獲得經取樣音訊資料的構件;用於計算該經取樣音訊資料之特徵的構件;用於根據一第二時間間隔自該經取樣音訊資料之該等特徵來推斷一音訊叢集識別符的構件;及用於根據一第三時間間隔使用該經取樣音訊資料之該等特徵來更新一音訊環境模型的構件。
  29. 如請求項28之設備,其中用於計算該經取樣音訊資料之特徵的該構件包含:用於計算複數個梅爾頻率倒譜係數(MFCC)之構件;用於在該第一時間間隔內使用該複數個MFCC來產生對MFCC資料之統計的連續估計的構件;及用於儲存對MFCC資料之統計的該等連續估計的構件。
  30. 如請求項29之設備,其中用於產生對MFCC資料之統計的連續估計的該構件包含:用於將該複數個MFCC加至與該音訊環境之該複數個MFCC之一平均值成比例的一估計的構件;及用於將該複數個MFCC之一平方加至與該音訊環境之該複數個MFCC的一方差成比例的一估計的構件。
  31. 如請求項29之設備,其中用於推斷該音訊叢集識別符之該構件包含:用於讀取對MFCC資料之統計的該等連續估計、一先前所儲存之音訊環境模型及一先前所判定之音訊環境機率分佈的構件;用於使用對MFCC資料之統計的該等連續估計、該先前所儲存 之音訊環境模型及該先前所判定之音訊環境機率分佈來計算一當前音訊環境機率分佈的構件;用於用該當前音訊環境機率分佈來替換該先前所判定之音訊環境機率分佈的構件;用於根據該當前音訊環境機率分佈來推斷一當前音訊叢集識別符之構件;及用於將對MFCC資料之統計的該等連續估計儲存為MFCC統計的構件。
  32. 如請求項31之設備,其中用於更新該音訊環境模型之構件包含:用於讀取該等MFCC統計之構件;用於使用該等MFCC統計來更新該音訊環境模型之構件;及用於將該音訊環境模型儲存於一儲存裝置中之構件。
  33. 如請求項28之設備,其中對該音訊環境進行取樣係在20毫秒至30毫秒之間的一持續時間內執行;其中推斷該音訊叢集識別符係在1毫秒至100毫秒之間的一持續時間內執行;且其中更新該音訊環境模型係在1分鐘至20分鐘之間的一持續時間內執行。
  34. 如請求項28之設備,其中該第一時間間隔實質上比該第二時間間隔短;且該第二時間間隔實質上比該第三時間間隔短。
  35. 如請求項34之設備,其中該第一時間間隔在0.5秒至3秒之間,該第二時間間隔在30秒至120秒之間,且該第三時間間隔在6小時至24小時之間。
  36. 如請求項28之設備,其中該音訊叢集識別符表示一周圍音訊環境。
TW102141333A 2012-11-14 2013-11-13 音訊環境分類之系統及方法 TW201434032A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261726493P 2012-11-14 2012-11-14
US13/785,775 US9124981B2 (en) 2012-11-14 2013-03-05 Systems and methods for classification of audio environments

Publications (1)

Publication Number Publication Date
TW201434032A true TW201434032A (zh) 2014-09-01

Family

ID=50681707

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102141333A TW201434032A (zh) 2012-11-14 2013-11-13 音訊環境分類之系統及方法

Country Status (6)

Country Link
US (1) US9124981B2 (zh)
EP (1) EP2920784A1 (zh)
KR (1) KR101678555B1 (zh)
CN (1) CN104781875B (zh)
TW (1) TW201434032A (zh)
WO (1) WO2014078060A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970793B (zh) * 2013-02-04 2020-03-03 腾讯科技(深圳)有限公司 信息查询方法、客户端及服务器
WO2015196063A1 (en) * 2014-06-19 2015-12-23 Robert Bosch Gmbh System and method for speech-enabled personalized operation of devices and services in multiple operating environments
CN104269169B (zh) * 2014-09-09 2017-04-12 山东师范大学 一种混叠音频事件分类方法
US10747801B2 (en) * 2015-07-13 2020-08-18 Disney Enterprises, Inc. Media content ontology
EP3125244B1 (en) * 2015-07-28 2019-11-27 Nxp B.V. Audio classifier
CN106649513B (zh) * 2016-10-14 2020-03-31 盐城工学院 基于谱聚类的音频数据聚类方法
KR102012561B1 (ko) * 2017-11-16 2019-08-20 성민준 소리 인식을 이용한 자동 분리수거 쓰레기통
US11194842B2 (en) * 2018-01-18 2021-12-07 Samsung Electronics Company, Ltd. Methods and systems for interacting with mobile device
CN109002275B (zh) * 2018-07-03 2021-12-07 百度在线网络技术(北京)有限公司 Ar背景音频处理方法、装置、ar设备和可读存储介质
US10832673B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker device with cognitive sound analysis and response
US10832672B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
CN110890098B (zh) * 2018-09-07 2022-05-10 南京地平线机器人技术有限公司 盲信号分离方法、装置和电子设备
US10943602B2 (en) * 2019-01-07 2021-03-09 Stmicroelectronics International N.V. Open vs enclosed spatial environment classification for a mobile or wearable device using microphone and deep learning method
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
CN111028861B (zh) * 2019-12-10 2022-02-22 思必驰科技股份有限公司 频谱掩码模型训练方法、音频场景识别方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
WO2006132596A1 (en) 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification
EP1884421B1 (en) * 2006-08-04 2008-10-08 Harman Becker Automotive Systems GmbH Method and system for processing voice commands in a vehicle enviroment
WO2008028484A1 (en) 2006-09-05 2008-03-13 Gn Resound A/S A hearing aid with histogram based sound environment classification
CN101636783B (zh) 2007-03-16 2011-12-14 松下电器产业株式会社 声音分析装置、声音分析方法及系统集成电路
US7612933B2 (en) 2008-03-27 2009-11-03 Qualcomm Mems Technologies, Inc. Microelectromechanical device with spacing layer
CN101546557B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
JP5166316B2 (ja) * 2009-02-20 2013-03-21 株式会社東芝 状況認識装置及び状況認識方法
EP2264988A1 (en) 2009-06-18 2010-12-22 Deutsche Telekom AG Method of detecting a current user activity and environment context of a user of a mobile phone using an accelerator sensor and a microphone, computer program product, and mobile phone
US20110137656A1 (en) 2009-09-11 2011-06-09 Starkey Laboratories, Inc. Sound classification system for hearing aids
US8489600B2 (en) 2010-02-23 2013-07-16 Nokia Corporation Method and apparatus for segmenting and summarizing media content
US8595005B2 (en) 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
US10080090B2 (en) * 2011-10-17 2018-09-18 Koninklijke Philips N.V. Medical feedback system based on sound analysis in a medical environment

Also Published As

Publication number Publication date
CN104781875B (zh) 2016-11-02
WO2014078060A1 (en) 2014-05-22
EP2920784A1 (en) 2015-09-23
KR101678555B1 (ko) 2016-11-22
CN104781875A (zh) 2015-07-15
US20140133663A1 (en) 2014-05-15
US9124981B2 (en) 2015-09-01
KR20150084941A (ko) 2015-07-22

Similar Documents

Publication Publication Date Title
TW201434032A (zh) 音訊環境分類之系統及方法
US11871328B2 (en) Method for identifying specific position on specific route and electronic device
CN109819179A (zh) 一种视频剪辑方法和装置
CN108304758B (zh) 人脸特征点跟踪方法及装置
KR101437757B1 (ko) 콘텍스트 감지 및 융합을 위한 방법, 장치 및 컴퓨터 프로그램제품
US8768865B2 (en) Learning situations via pattern matching
CN103026780B (zh) 用于控制传感器的调用的方法和设备
CN105573436B (zh) 话音输入的预测性音频预录制
WO2014070304A1 (en) Managing a context model in a mobile device by assigning context labels for data clusters
Al-Turjman Impact of user's habits on smartphones' sensors: An overview
JP5951695B2 (ja) 行動認識のための方法、装置、およびコンピュータ・プログラム
CN107567083B (zh) 进行省电优化处理的方法和装置
US11274932B2 (en) Navigation method, navigation device, and storage medium
US20140038674A1 (en) Two-phase power-efficient activity recognition system for mobile devices
US11412346B2 (en) Tracking proximities of devices and/or objects
CN111433766A (zh) 用于对时间序列数据进行分类的方法和系统
CN111800445B (zh) 消息推送方法、装置、存储介质及电子设备
CN112673367A (zh) 用于预测用户意图的电子设备和方法
Shah et al. Sherlock: A crowd-sourced system for automatic tagging of indoor floor plans
CN110612503B (zh) 智能上下文子采样设备上系统
CN116662638B (zh) 数据采集方法及相关装置
US11997562B2 (en) Tracking proximities of devices and/or objects
CN107360306B (zh) 应用控制方法及相关产品
CN111382335A (zh) 一种数据拉取方法、装置及存储介质
Cardone et al. Research Article MSF: An Efficient Mobile Phone Sensing Framework