TW396699B - Communication device responsive to spoken commands and method of using same - Google Patents
Communication device responsive to spoken commands and method of using same Download PDFInfo
- Publication number
- TW396699B TW396699B TW086100144A TW86100144A TW396699B TW 396699 B TW396699 B TW 396699B TW 086100144 A TW086100144 A TW 086100144A TW 86100144 A TW86100144 A TW 86100144A TW 396699 B TW396699 B TW 396699B
- Authority
- TW
- Taiwan
- Prior art keywords
- communication device
- patent application
- signal
- scope
- correlation coefficient
- Prior art date
Links
- 238000004891 communication Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims description 31
- 239000013598 vector Substances 0.000 claims description 32
- 238000000926 separation method Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 13
- 230000002079 cooperative effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000001276 controlling effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 23
- 230000004044 response Effects 0.000 abstract description 5
- 230000001413 cellular effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005984 hydrogenation reaction Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003061 neural cell Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2453—Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Nonlinear Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
A7 ____._二___ 五、發明説明(1 ) 這是應用序號第08/253,893的共同審理中的部’ 於1994年5月31曰申請並讓渡給同一讓渡人做爲本發明。 該上述的應用透過此參考在此被併入。 技術镇域 '本發明一般而言是有關通訊系統及,.特別,是有關對使 用者的聲音指令起反應的收發兩用通訊裝置。 本發明之背景 • 許多年來,科學家已嚐試擭出一裝置以簡化人機之間的 介面。例如鍵盤’滑鼠,觸控式螢幕和筆等輸入裝置皆爲 目前執行人機介面時最普遍使用的工具。然而,人機之間 較簡單的和較自然的介面可能是人類的聲音。自動辨識聲 音的裝置可提供此一介面。 自動化的聲音辨識應用包括器_及使用聲音指令,聲 , ,11— I I ......—........丨 晋輸入以控制家電應用的收發兩用頻道選擇,以及在撥號 時可讓駕駛人集中注意力於路面的聲音撥號蜂巢式電話。 經濟部中央標準局員工消費合作社印製 (請先閱讀背面之注意事項再填寫本頁) 、一s° 不幸地,自動化的聲音辨識並非普通的工作。理由之一 是聲音隨不同的人而變化。例如,不同的人發出相同的字 由於腔碉,説話的速度,性別或年齡而聽起來可能相當不 同。除了説話者的變化之外,音的清晰效果,説話的模式( 大叫/耳語),以及背-景雜詆對聲音辨寧裝置產生了相當多 的問題。 , 在1960年後期,各種方法論被導入自動化聲音辨識。然 而有些方法是基於與啓發式策略相符的延伸知識,其它的 則靠聲音資料庫及學習方法論。後者的方法包括動態的時
經濟部中央標準局員工消費合作社印製 A7 ~^________ + 五、發明説明: 〜---— 間重疊(DTW)及隱藏馬可夫模式(HMM) ^這兩個方法, 與使用時間遲延神經網路相同,將於下面討論。 動態時間重疊是一種使用最佳化原則以最小化未知語句 儲存的已知孚句彳永板之間的錯誤。報告顯示該動態時間 重疊技術是非常機械的並且產生良好辨,識。然而,該動態 時間重疊技術是計算密集的。因此,在現實世界應用上^ 行該時間重疊技術目前不可行.的。 •相對於直接地將未知語句奐已知字句樣板做比較,隱藏 馬可夫模式技術使用供已知字句.的推測模式並且比較每一 模式所產生的該未知字句的該機率。當說出未知字句時, 遠隱藏馬可夫模式技術將檢查該字句的該順序(或狀態), 並且找出提供最佳配對的該模式。隱藏馬可夫模式技術已 成功地使用在許多商業應用上;然而,該技術有許多缺點 。這些缺點包括無法將聽覺上類似的字句差異化,對雜訊 的易感度及計.算上的密集度 最近,神經纟^被用於高度未結構化以及其他不可追縱 的問題,例如聲音辨識。時間遲延神經網路是神經網路的 一種,該網路可透過採用有限的神經細胞關連來將該聲音 的暫時效果足址.。對有限的字句_辨識而言,時間遲延神經 網路顯示較佳於該隱藏馬可^夫模式方法,的效果。然而,.時 間遲延神經網路也有某些嚴重的缺點。 首先,時間遲延神經網路的該訊練時間非常冗長,要數 星期之久。其次,時間遲延神經網路的該訓練互除法通常 集中於局部最小化,這不是廣泛的最佳解決方案。 -5- 本纸張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐)~~' ' (請先閱讀背面之注意事項再填寫本頁) 訂 _、A7 —:___—_ 五、發明説明(3~~~ : " ' :— 之,自動化的聲甘辨識(例如,需要不實際的數量的 計算的互除法,對説話者變異性和背景雜訊有限的容忍度 .,.過多的訓練時間等)現有已知方法的缺點嚴重地限制聲音 辨識裝置在許多可能的領域的應.用的接收度和增殖。例如 ,對聲晋指令起反應的目前普遍使用的,蜂巢式電話及收發 兩用無線電皆有無法信賴的聲音辨識能力 '结果,他們讓 使用者受挫並且在市場上並未被普遍接受。 •因而,需要一種能提供高位準正確性,無視於背景雜訊 ,單一新時代訓練,及對説話者差異不敏感的結合自動聲 音辨識系統的通訊裝置。 附圖之簡要敘述 本發明在所附的專利申請範圍中已被指出獨特性。然而 ’透過參考與附圖有關的以下詳細敘述,本發明的其他特 色將變爲更明顯且將了解得更透徹: 圖1顯示根據本發明的一個具體實例的通訊裝置的方塊 圖。 圖2顯示根據本發明的另一個具體實例使用圖1該通訊裝 置的方法的流程圖。 經濟部中央標率局員工消費合作社印製 圖3顯示根據本發明的進一步具體實例的通訊裝置的方 塊圖。 - 兮 · 圖4顯示根據本發明的替代具體實例的通訊裝置的方塊 圖。 圖5顯示訊框順序的圖示。 圖6圖示結合將本發明具體實現的通訊裝置的通訊系统。 -6- 本紙張尺度適用中國國家標準(CNS ) 規格(210X297公釐)
五、發明説明(4 ) ~~~~-—- 較佳具體實例之詳細敘述 本發明的優點是提供一種能讓使用者以相當高的信賴 使用聲音指令進入通訊頻道的通訊裝置。本發明的另二 點是提供一種不需重覆地訓練的聲音辨識系統並且對背& 雜訊和説話者變動不敏感的通訊裝置。,本發明的進—二ς ;疋it ί、種在軟上精簡地執行的聲音辨識系統因而可 讓它易於結合到手提式無線電或蜂巢式電話中。本發明的 •另個優點在於它提供一種減少資料緩衝所需數量的結人 聲音辨識系統的手提式通訊裝置。 σ σ 圖1圖示代表根據本發明的—個具體實例的通訊裝置的 方塊圖。該通訊裝置20包括介面22,及聲音辨識系統24 。該聲晉辨識系統包括特色分離器26和分類器28。 该介面2 2'根據由該聲音辨識系統2 4所產生的控制信號可 %使用者進入通訊頻道。.該介面22可以是任何可讓使用者 透過通訊頻道移轉電子資料的裝置。例如,該貪面可以是 一收發兩用無線電,電話,個人數位助理,或呼叫器。在 .這些範例中,該通訊頻道是在另一裝置或基地台之間的無 線電聯結。然而,該通訊頻道可包括任何媒介,包括但不 限於光纖,同軸電纜及绞線電纜。該介面2 2可對各種使用 者輸入起反應’例如鍵盤輸入’聲音萌令,觸控式螢幕, 或滑鼠輸入。 該聲音辨識系統2 JL對聲音指令起反應而產生該控制信號 。該特色分離器26從該聲音指令中分離複數個特色。依次 ,該分類器2 8根據多項式展開而產生識別信號。被該介面 -7- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閎讀背面之注意事項再填寫本頁) d-----訂-— —#· 經濟部中央標準局員工消費合作社印製 B7 五、發明説明(5 ) 2 2所接收的該控制信號是根據識別信號。 該特色分離器26所分離的該特色最好包括cepstral相關係 數’ cepstral相關係數的第一階導函數,以及字句位準特色 ,-· ' ’例如常態化能量和框架指數·〇…字句位準特色將在以下與 圖3相關敘述中詳細描述。 f 對該特色起反應,該分類器2 8根據以下的多項式展開產 ,生該識別信號: m η .. Y = X ''i [ Π κ ji ] (1) i = 0 j = 〇 .. - . 在方程式1中,Xi代表該特色;V代表該識別信號;w: Λ
J ----一 —*v ------- 1 1 , 1 N 表相關係數;g.j i代表指數.;並且i,j,m和η皆爲整數β 在本發明的較佳具體實例中,.該分離函數是—個有以下 形式的二階多項式展開: η '/ = a〇 + X i=0
(2) 經 濟 部 中 央 h 準 /¾ 員 工 消 費 合 # it ί 在方程式2中,a〇氏表零赜相關係數:bi代表第一階相關 係數,並且Cij代表第二階相關係數,~和勺代表該特色, y代表孩識別信號,並且i,j,n皆爲整數。有二十個 特色χ0-χ19 ’導致二階多項式中有231項。 在本發明的各種其他具體實例中,該分離函數可以根據 * 8 - 本紙張尺度適用中國國家標準(CNS )八4祕(210父297公釐了 A7 A7 經濟部中央標準局員工消費合作社印製 五、發明説明(δ ) 函數,例如正弦,餘弦,指數/對數,傅利葉轉換, Legendre多項式,非線性基礎函數例如v〇lterra函數或基礎 函數,或類似,或多項式展開和直角函數的组合。 在本發明的較佳具體實例中,…該多項式分離函數適合_ 組代表輸入聲音範例的p -維特色空間來.的樣本。若在該多 項式中該項的該數目等於範例的數目,可能要使用矩陣逆 轉技巧以解決每一個相關係數的該値。若在該多項式中該 .項的該數目不等於範例的數|,則使用最小平方估算技巧 以解決每一個相關係數的該値。適合的最小平方估算技巧 包括,例如,最小平方,展開的最小平方,反虛擬對數, Kalman ;慮波器’取大可能演算法,Bayesian估算法,以及 其他相同的估算法。 —般而f,該聲晋範例的數目超過多項式項的數目;因 此’使用最小平方技巧以導出該相關係數。然而,若聲音 範例的數目和項是相等的,該分離轉換函數可以矩陣方程 式Y = WZ來表示,其中γ代表範例分離信號的矩陣,w代 表相關係數的矩陣,並且Z代表表示該項的矩陣,其中可 以是該範例輸入的.函數,例如導.出特色的指數函數。該相_ 關係數矩陣是根據W = Z-i Y的方程式來決定,其中Z-1代 表Z的.反矩陣。 . 圖2顯示根據本發明的另一個具體實例控制通訊頻道的 流程圖。在方塊40,聲音指令被該聲音辨識系統24所接收 。在方塊42中,該特色從聲音指令中分離出來。在方塊44 中’根據方程式(1)的該形式的多項式函數產生一分離信號 -9 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁)
五、 羥濟部中央樣準局員工消費合作社印製 A7 發明説明(7 其/入在方塊46中,根據該分離信號進入該通訊頻道。 聲θ 4曰·?可以是任何字句,然而,在本發明妁較佳真 體實例中,該聲音指令是從〇到9的數字出或”幫助,.,,, 喷叫"和”傳送"的字句中選出。,當依順序説出時,可辨識 出該數字而撥進入碼,例如電話號碼或特別的無線電頻 道’這將讓使用者以其它連接到該通訊頻道的裝置來通 訊。邊和令呼叫"可界定電話或無線電頻道數目的開始 ;然而"傳送"的該指4可界_定該號碼的結束並且導致通 訊裝置20經過該通訊頻道傳送該數目。 . ”幫助"的該指令可用於經過該通訊頻道播放緊急信號 。這特色提供例如警察及救火員等緊急人員極大的優點。 圖3顯示根據本發明的進—步具體實例的通訊裝置的方 塊圖。該通訊裝置5〇包括一介面52,麥克風54,交流到 直轉換器5 6,前處理器5 8,聲音活動偵測器(s a D ) 6 0, 特色分離器6 2,複數個分類器6 4到6 8,複數個累加器 7 〇到7 4,以及選擇器7 6。 在本發明的較佳具體實例中,該介面5 2是一個根據該 選擇器7 6所產生的控制信號來透過無線電頻道傳送及接 收資料的收發兩用聽覺介面。 該控制信號對應於谀用者的聲音指,令而產生。該麥克 風5 4對應於聲音指令產生聽覺信號。該交流到直流轉換 器5 6透過以預定比率抽樣來將該聽覺信號數位化。該抽 樣比率最好是8到1 0仟赫。此外,該交流到直流轉換器 5 6可以包括抗信號重疊濾波器。 -10 良紙張尺度適用十國囯家標準(CNS ) M規格(2丨〇><297公釐) (請先閱讀背面之注意事項存填寫本頁)
五、發明説明() 該前處理器58用信號處理技巧支配該數位化聽覺信號 並且將它轉換爲資料向量的順序,該資料向量已準備好 供特色分離用。該前處理器5 8在該數位化的聽覺信號上 可執行頻道成形《頻道成形將抽樣比率調整爲符合下游 疋件所需的處理比率,例如該分離器芩累加器64到7 4。 此外,該前處理器58預先強調該數位化的聽覺信號以將 聲音輸入中該頻譜傾斜的天性平衡。可使用第一階有限 .脈衝響應(FIR)濾波器以預_先強調。當其濾波器相關係 數接近一致時,預先強調在直流電値上逐漸減少。該前 處理器5 8同樣可將漢明hamming函數應用到每一個資料向 量以抑制不要的頻譜加工品。此外,在資料向量區間可執 订自動修正以產生包括在該輸出資料向量中的相關信號。 f性預測編碼(LPC)相關係數被該特色分離62當做該相關 信號函數來計算。這減少了該特色分離器62所需的該輸入 資料頻寬。 上述孩處理的結果是,該前處理器58產生資料向量數列 ,同樣也被視爲資料框。最好,每一資料框代表2〇微秒期 間的輸入聲骨。在各種具體實例中,該資料框可被暫時地 經 濟 部 中 央 標 準 局 員 工 消 合 作 社 印 製 重疊以透過該特色分離器62和分類器64到68提供較多有 意義的解釋。 X- 聲音活動指示器0八!>)6〇產生包括那些代表該聲音指令 的該資料向量次數列。必要地,該聲音活動指示器6〇將代 表實際聲音的資料向量從這些包含背景雜訊中分離出來。 在本發明的較佳具體實例中,此該聲音活動指示器6 〇連 -11 - 本紐尺度朗t國國家標準(CNS ) A4規格(2l〇x^^jy
五、發明説明(9 續地接收資料向量的該數列。該輸出向量子數列僅包括那 些flb量位準超過過背景雜訊門檻的輸入資料向量。該能量 値可從由該前處理器5 8的自相關處理所產生的資料導出。 該背景雜訊門楹是由已知不包括聲音的資料向量能量位準 所決走。該雜訊門禮最好是有限數目的,無聲資料向量的多 重平均能量位準。當在輸入向量的鄰近數列中的該能量位 準超過該背景估計,已偵測到該字句的開始。鄰近向量所 -需的數目被預定系統母數所指定。同樣地,當向量的子數 列鄰近數列低於此估計時,已偵測到字句的尾端。 . 特色分離器62從該聲音活動指示器6〇所產生的該向量子 數列中分離特色訊框數列。最好,該特色訊框包括cepstral 相關係數和該cepstral相關係數得第一階導函數。較佳的特 色訊框包括1 0個第一階導函數和丨〇個從一符合的資料向量 中分離的cepstral相關係數。 此外,該特色訊框可同樣包括字句位準特色,例如常態 化的能量和訊框指數。向量子數列的該常態化的能量可從 該前處理器58的該自相關處理的該輸出中導出。該訊框指 數是一個指示資料向量(資料訊框)在向量予數列中的該相 關位置的整數。 在該向量子數列中所執彳才以產生.該pepstral相關係數的 cepstral分析導致該聲音信號的出現,該聲音信號特徵在於 該連續聲音的相關特色。它可被視爲可維持該聲音信號重 要的特徵並且減少來自該聲音信號的不相關的特徵的不想 要的干擾的資料減量程序,因而簡化了該分類器6 4到6 8的 -12- 本紙張尺度適用中國國家標準(CNS ) A4規格(2丨0X297公釐) ^— L-----id-- - ./V (請先閱讀背面之注意事項再填寫本頁) -訂 經濟部中央標準局員工消費合作社印製 經濟部中央標準局員工消費合作社印製 Ί ' Β7 Τη " ' ----- 五、發明説明() 該決策制定過程。 該cepstral分析執行如下。首先,將第ρ階(最好ρ = 8到10) 線性預測分析應用到該向量子數列以產生ρ預測相關係數 。最好使用該Levinson-Durgin卸歸以執行分析。該預測相 ,關係數然後利用以下的回歸方程式來轉換爲cepstruin相關 係數:. η-1 · c (n) = a (η) + Σ(1 — k./n) ;(k) c (n _ k)㈠) _ k = l 、 在方私式(3)中’ c(n)代表第11111個cep Sfrum相關係數, a(n)代表第nth個預測相關係數.,Un邛,ρ等於cepstrum 相關係數的該數目,η代表整數指數,k代表整數指數, a(k)代表第k個預測相_係數且c(n_k)代表第(n_k)個 cep strum相關係數。 熟於先前技術的人將了解到方程式(3)不需將“”打“相 關係數的數目限制爲線性預測编碼相關係數的數目並且該 c e p s t r a 1相關係數事實上可超過線性預測編碼相關係數的數 目。 該cepstral相關係數的該氣一階導函可根據來自暫時地鄰 近資料向量的cepstral相關係數之間的差來估計。然而,此 技術導致雜訊估計。該第一階導函數最好使用適於預定數 目連續資料向量的該cepstral相關係數的第二階多項式來估 »十’該相關係數是使用回歸來計算。特色的其它組可從較 -13- ' 本紙張尺度適用til®家標準(CMS ) A4規格(21GX297公楚)~~' ~~---- —L-I---^----yd—I (請先閱讀背面之注意事項再填寫本頁)
••IT ·#. 經濟部中央標準局負工消費合作社印製 A7 B7 11 ----- 五、發明説明() 高階導函數產生。 該特色框訊被分配到該複數個分類器64到68。可使用任 何數目的分類起以辨識該聲音指令。傳統上,每一個分類 器指定不同的聲音指令並且根據·第二階導函數展開,如方 程式(2 )所描述的,來產生識別信號。該分類器6 4到6 8的 該輸出被累加其符合的累加器7 0到7 4。每一個累加器加總 各自分類器的該輸出。此導致複數個被累加的符合每__分 .類的識別信號的產生。被累加的識別信號被傳送到該選擇 器76。 . ' 該選擇器76選擇最大被累加識別信號並且據此產生該控 制信號。該控制信號是該最大累加識別信號的一個函數。 對聲音指令起反應,該通訊裝置5 0將該介面5 2結構化以 便讓該使用者以不同方式進入該通訊頻道。例如,當"幫助" 的該指令被該通訊裝置5 0所接收時,該介面5 2將在該通訊 ' 頻道上自動地產生緊急廣播信號。此外,該聲音指令可順 序地被組合以產生該介面52的各種結構。 圖4顯示根據本發明之替代具體實例的通訊裝置8 2的方 塊圖。在圖4顯示的該通訊裝置82包括與圖3有關所敘述的 該元件5 2到7 6。然而,相對於前述的通訊裝置5 0,圖4的 該通訊裝置8 2包括改良的特色分離器8 Q。 在本發明的此具體實例中,該改良的特色分離器80被放 該該聲音活動指示器6 0之前。這是可能的,因爲字句位準 特色不是被該改良的特色分離器8 0所分離。將該特色分離 器8 0放在該聲音活動指示器6 0之前提供的優點在於它減少 -14- 本纸張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) ---2---1------\/裝-- (請先閱讀背面之注意事項再填寫本頁)
*1T -I# 五、發明説明(12 ) 了 β通訊裝置82所需的緩衝量,結果減少了該聲音辨識系 統所需的整體記憶體空間。 除了字句位準特色分離的例外之外,該改良的特色分離 執行如圖〇的特色分離器6 2所敘的必要的祖同功能。 ,5顯、TF IV料訊框數列的能量位準的亂。該訊框的能量位 準是由該前處理器58的該自動更正特色所线。該圖的乂 軸指示該訊框數列的時間順序,而Υ軸指示該訊框的能量 位準。該背景雜訊門檻同樣氣示在丫軸上。 i Et活動扣不器6〇藉著決定該背景雜訊門檻的能量位準 轉變來偵測聲音指令界限。 在本發明較佳具體實例中,聲音活動指示器6 〇與帶有正 能量位準轉變的字句界限開始聯結,該轉變伴隨著能量位 準超過門㈣預定資料向量期間。相反地,該聲音活動指 不器60與帶有負値能量位準轉變的字尾界限聯結,該轉變 伴随著能量位準維持低於該雜訊門檻的後來的暫停期間。 在聲音指令的即時取得方面,聲音辨識系統能接受能量 輪廓暫時低於該雜訊㈣的聲音指令。藉著計算伴隨轉變 而來的能量位竽變化。該聲音活動指示器6〇大大地提昇了 經濟部中央標隼局員工消費合作社印製 孩聲骨辨識系統的正確性,因爲它較不可能錯誤地债測字 句尾端的界限。 _ ^ 在所示的範例中,訊框4代表聲音指令的第一訊框。當訊 框的該能量位準隨後地落在該門檻之下時,即偵測到字句 尾端。在此情況下,訊框1〇代表該聲音指令的最後訊框。 暫停期間不應太短以免錯誤地激發字句尾端的偵測,然 ____一 -15· 本纸張尺度朝巾酬家縣(CNS ) Α4·_ (2lGx297公幻
經濟部中央標準局員工消費合作社印製 五、發明説明(13 ) 而也不應太長以免在聲音指令之間需要不當地長時間暫停3 圖6圖示可將具體實現本發明的通訊裝置併入的通訊系 統。.該通訊系統包括通訊裝置9〇,通訊連結92和基地.台 94。該通訊裝置90包括本發明.的各種具體實例之例 如這些在圖1,2 , 3和4中所示的任何一,個。該通訊埠結可 以是無線電連結,而基地台9 4可以是細胞地點或無線電基 地台。可用該通訊裝置90將資料傳送到其他同樣連結到該 •基地台94的通訊裝置(未顯示)。 簡s之’在此已敘述通訊裝置的觀念和較佳具體實例以 及根據聲音指令進入一通訊頻道可使用的方法。因爲在此 所述的該通訊裝置的該各種具體實例使用多項式分離函數 ’該函數對使用者變動不敏感,因而可有較高程度的信賴 性。既然該多項式分離函數適於使用最小平方估計或矩障 逆轉技巧的範例空間,不需要該分類器重覆地訓練。 雖然本發明的特殊具體實例已被顯示和敘述過,對這些 熟於先前技術的人而言,它將很明顯的是該所揭露的發明 可以各種方法改良並且可假設還有許多有別於上述的較佳 特殊形式的具體實例。 據此’附件的專利申請試圖涵蓋落在本發明的眞實精神 和範籌内的本發明的所有改〜良。 · -16- 本紙張尺度適用中國國家標準(CNS ) M规格(210X297公釐) --Γ---r-------破-- ί請先閱讀背面之注意事項再填寫本頁} y"
Claims (1)
- π、申請專利範圍 經濟部中央襟準局員工消費合作社印製 L ~種通訊裝置,包括: 一個可讓使用者根據控制信.號進入通訊頻道的介面;. 以及 一個對聲音指令起反應產生該控制信號的聲音辨識系 统,該聲音辨識系統包括: 一個從聲音指令中分離複數個特色的特色分離器; 以及 • 一個根據以下的多項展開來產生識別傳號的分類器 瓠 in η y = Σ Wi [π >;jgji]. i=0 j=〇 」 其中’ Xj代表複數個特色,y代表該識別信號,Wi代表 相關係數,gji代表指數,並且i,j., 皆爲整數; 其中該控制信號是根據該識別信號。 2·根據申請專利範圍第1項之該通訊裝置,其中該介面包 括一個從一群包括收發兩用無線電,電話,個人數位助 理,和呼叫器中選擇出來的裝置。 3.根據申請專利範圍第1項之該通訊裝置,其中該聲音辨 識系統進一步包括: * 兮 ♦ —個前處理器,運算上與該特色分離器有關’侏將使 用信號處理技巧的聽覺信號轉換爲代表該聲音指令的資 料向量數列,並且該複數個特色是從此向量數列中被分 離0 --— 一.____ i -17 - 本氏張认適用十國国家標準(CNS ) A4娜 ( 2獻297公疫) (請先閣讀背面之注意事項再填寫本頁)4. - .. . I 申請專利範圍 A8 B8 C8 一種通訊裝置,包括: —個將聽覺信號轉換爲資料向量數列的前處理器; 從資料向量數列中分離複數個特色訊框的分離裝置; 產生複數個識別信號的複數姻分類器,每—個該複數 個分類器根據以下形式的多項式展開,定一個不同的聲 音指令並且產生一識別信號 m · 經濟部中央標牟局員工消費合作社印製 y = Σ wi [fl x j i ]; i=0 j=0 · 其中’ Xj代表特色訊框’,y代表該識別信號,Wi代表相 關係數,代表指數,並且i, j,^和11皆爲整數; 一個產生複數個被累加的識別信號的累#器,該累加 器透過將複數個由該複數個分類器之一各別產生的識別 信號之一加總,而產生每一個該複數個被累加的識別信 號; 一個從該複數個被累加的識別信號中選擇一個最大的 被累加識別信號的選擇器;以及 一個根據控制信號而透過通訊頻道傳送和接收資料的 收發兩用無線電介面,贫控制信號拳該最大被累加識 別信號的一個函數。. 根據申請專利範圍第4項之該通訊裝置,其中該分離裝 置包括: · 一個供將特色訊框從資料向量數列中分離出來的特色 18 衣紙fjjd朗巾關家標準(CNS)从祕(21Qx297公瘦 (请先間讀背面之注意事項善填寫本頁)396699申請專利範圍 A8 B8 C8 分離器;以及 一個從特色訊框的該數列中選擇代表聲音指令的該複 數個特色訊框的聲音活動偵測器。 6·根據申請專利範圍第4項之該通訊裝置,其中該分離裝 置包括: . '* 一個從資料向量的該數列中選擇一個代表聲音指令的 向量子數列的聲音活動偵測器;以及 . 一個將複數個特色訊框從_該向量子數列中分離出來的 特色分離器。 · 7-根據申請專利範圍第4項之該通訊裝置,其中該多項式 展開有以下形式: Σ Σ i=0 經濟部中央標準局員工消費合作社印製 其中a〇代表零階相關係數,bi代表第一階相 且c ij代表第二階相關係數。 8. —種控制進入通訊頻道的方法,包括以下步碟 接收一聲音指令; 從該聲音指令中分-離一每複數個特色; * 根據以下形式的多項式展開產生識別信號 關係數,並 m 19 本紙張尺度適用中國國家標準(CNS ) A4規格(21〇x加公釐) (請先閱讀背面之注意事項再填寫本頁)Αδ Βδ C8 經濟部中央標準局員工消費合作社印製 申請專利範圍 其中,Xj代表該组複數個特色,y代表該識別信號,、 代表相關係數,gji代表指數,並且丨,』,m和η皆爲整數 :以及 根據該識別信號進入該通訊頻道。 9.根據申請專利範圍第8項之該方法,進一步包括以下步 驟: * 使用信號處理技巧,將聽覺信號轉換爲代表該聲音指 •令的資料向量數列,並且該-組複數個特色是從該數列中 分離出來。 】〇·根據申請專利範圍第8項之該方法,其中該分離的步裸 包_括以下子步驟.: 從一群包括cepstral相關係數,cepstral相關係數的第一 階導函數,和字句位準特色中產生該複數個特色。 -20 本紙張尺度適用中國國寒標準(CNS ) Μ規格(2丨〇)<297公釐) (請先閎讀背面之注意事項再填寫本頁}
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/579,714 US5749072A (en) | 1994-06-03 | 1995-12-28 | Communications device responsive to spoken commands and methods of using same |
Publications (1)
Publication Number | Publication Date |
---|---|
TW396699B true TW396699B (en) | 2000-07-01 |
Family
ID=24318053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW086100144A TW396699B (en) | 1995-12-28 | 1997-01-08 | Communication device responsive to spoken commands and method of using same |
Country Status (6)
Country | Link |
---|---|
US (1) | US5749072A (zh) |
AR (1) | AR005286A1 (zh) |
AU (1) | AU1330497A (zh) |
FR (1) | FR2743238B1 (zh) |
TW (1) | TW396699B (zh) |
WO (1) | WO1997024710A1 (zh) |
Families Citing this family (202)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3536471B2 (ja) * | 1995-09-26 | 2004-06-07 | ソニー株式会社 | 識別装置および識別方法、並びに音声認識装置および音声認識方法 |
JP3702978B2 (ja) * | 1996-12-26 | 2005-10-05 | ソニー株式会社 | 認識装置および認識方法、並びに学習装置および学習方法 |
US5930748A (en) * | 1997-07-11 | 1999-07-27 | Motorola, Inc. | Speaker identification system and method |
US6154662A (en) * | 1998-02-27 | 2000-11-28 | Lucent Technologies Inc. | Providing voice dialing service for wireless roamers |
US6131089A (en) * | 1998-05-04 | 2000-10-10 | Motorola, Inc. | Pattern classifier with training system and methods of operation therefor |
US6434403B1 (en) * | 1999-02-19 | 2002-08-13 | Bodycom, Inc. | Personal digital assistant with wireless telephone |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
US6536536B1 (en) * | 1999-04-29 | 2003-03-25 | Stephen F. Gass | Power tools |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6879698B2 (en) * | 1999-05-10 | 2005-04-12 | Peter V. Boesen | Cellular telephone, personal digital assistant with voice communication unit |
US6920229B2 (en) * | 1999-05-10 | 2005-07-19 | Peter V. Boesen | Earpiece with an inertial sensor |
US6542721B2 (en) | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
AU5472199A (en) * | 1999-08-10 | 2001-03-05 | Telogy Networks, Inc. | Background energy estimation |
US20020173721A1 (en) * | 1999-08-20 | 2002-11-21 | Novasonics, Inc. | User interface for handheld imaging devices |
US6733455B2 (en) * | 1999-08-20 | 2004-05-11 | Zonare Medical Systems, Inc. | System and method for adaptive clutter filtering in ultrasound color flow imaging |
US6685645B1 (en) | 2001-10-20 | 2004-02-03 | Zonare Medical Systems, Inc. | Broad-beam imaging |
WO2001017298A1 (en) | 1999-09-02 | 2001-03-08 | Automated Business Companies | Communication and proximity authorization systems |
US7508411B2 (en) * | 1999-10-11 | 2009-03-24 | S.P. Technologies Llp | Personal communications device |
US6807574B1 (en) | 1999-10-22 | 2004-10-19 | Tellme Networks, Inc. | Method and apparatus for content personalization over a telephone interface |
US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
US6970915B1 (en) | 1999-11-01 | 2005-11-29 | Tellme Networks, Inc. | Streaming content over a telephone interface |
US7376586B1 (en) | 1999-10-22 | 2008-05-20 | Microsoft Corporation | Method and apparatus for electronic commerce using a telephone interface |
US6744885B1 (en) * | 2000-02-24 | 2004-06-01 | Lucent Technologies Inc. | ASR talkoff suppressor |
US8131555B1 (en) | 2000-03-21 | 2012-03-06 | Aol Inc. | System and method for funneling user responses in an internet voice portal system to determine a desired item or service |
CA2413657A1 (en) * | 2000-06-16 | 2001-12-20 | Healthetech, Inc. | Speech recognition capability for a personal digital assistant |
KR100366057B1 (ko) * | 2000-06-26 | 2002-12-27 | 한국과학기술원 | 인간 청각 모델을 이용한 효율적인 음성인식 장치 |
US7143039B1 (en) | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
US9171851B2 (en) * | 2000-08-08 | 2015-10-27 | The Directv Group, Inc. | One click web records |
US10390074B2 (en) | 2000-08-08 | 2019-08-20 | The Directv Group, Inc. | One click web records |
TW540238B (en) * | 2000-08-08 | 2003-07-01 | Replaytv Inc | Method and system for remote television replay control |
US20020095330A1 (en) * | 2001-01-12 | 2002-07-18 | Stuart Berkowitz | Audio Advertising computer system and method |
US7379973B2 (en) | 2001-01-12 | 2008-05-27 | Voicegenie Technologies, Inc. | Computer-implemented voice application indexing web site |
US20020095473A1 (en) * | 2001-01-12 | 2002-07-18 | Stuart Berkowitz | Home-based client-side media computer |
US7072328B2 (en) | 2001-01-12 | 2006-07-04 | Voicegenie Technologies Inc. | Computer-implemented voice markup language-based server |
US6889190B2 (en) * | 2001-01-25 | 2005-05-03 | Rodan Enterprises, Llc | Hand held medical prescription transcriber and printer unit |
US6496709B2 (en) | 2001-03-02 | 2002-12-17 | Motorola, Inc. | Apparatus and method for speed sensitive operation in a wireless communication device |
USRE46109E1 (en) | 2001-03-29 | 2016-08-16 | Lg Electronics Inc. | Vehicle navigation system and method |
US20020143611A1 (en) * | 2001-03-29 | 2002-10-03 | Gilad Odinak | Vehicle parking validation system and method |
US20050065779A1 (en) * | 2001-03-29 | 2005-03-24 | Gilad Odinak | Comprehensive multiple feature telematics system |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US8175886B2 (en) | 2001-03-29 | 2012-05-08 | Intellisist, Inc. | Determination of signal-processing approach based on signal destination characteristics |
US6487494B2 (en) * | 2001-03-29 | 2002-11-26 | Wingcast, Llc | System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation |
WO2002091358A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method and apparatus for rejection of speech recognition results in accordance with confidence level |
US7031444B2 (en) * | 2001-06-29 | 2006-04-18 | Voicegenie Technologies, Inc. | Computer-implemented voice markup system and method |
DE60115042T2 (de) * | 2001-09-28 | 2006-10-05 | Alcatel | Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit |
US8527280B2 (en) * | 2001-12-13 | 2013-09-03 | Peter V. Boesen | Voice communication device with foreign language translation |
WO2003098946A1 (en) | 2002-05-16 | 2003-11-27 | Intellisist, Llc | System and method for dynamically configuring wireless network geographic coverage or service levels |
KR101034524B1 (ko) * | 2002-10-23 | 2011-05-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법 |
US7593842B2 (en) * | 2002-12-10 | 2009-09-22 | Leslie Rousseau | Device and method for translating language |
US20040243415A1 (en) * | 2003-06-02 | 2004-12-02 | International Business Machines Corporation | Architecture for a speech input method editor for handheld portable devices |
US20050153596A1 (en) * | 2004-01-13 | 2005-07-14 | Vanwambeke Weston | Power tool battery connector |
US20080154601A1 (en) * | 2004-09-29 | 2008-06-26 | Microsoft Corporation | Method and system for providing menu and other services for an information processing system using a telephone or other audio interface |
US8417185B2 (en) * | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US7885419B2 (en) * | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US20070198271A1 (en) * | 2006-02-23 | 2007-08-23 | Dana Abramson | Method for training a user of speech recognition software |
US8223961B2 (en) * | 2006-12-14 | 2012-07-17 | Motorola Mobility, Inc. | Method and device for answering an incoming call |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20080221899A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile messaging environment speech processing facility |
US20080221884A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US9128981B1 (en) | 2008-07-29 | 2015-09-08 | James L. Geer | Phone assisted ‘photographic memory’ |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
US8255218B1 (en) * | 2011-09-26 | 2012-08-28 | Google Inc. | Directing dictation into input fields |
US9367612B1 (en) * | 2011-11-18 | 2016-06-14 | Google Inc. | Correlation-based method for representing long-timescale structure in time-series data |
US8543397B1 (en) | 2012-10-11 | 2013-09-24 | Google Inc. | Mobile device voice activation |
US9949008B2 (en) | 2015-08-29 | 2018-04-17 | Bragi GmbH | Reproduction of ambient environmental sound for acoustic transparency of ear canal device system and method |
US9854372B2 (en) | 2015-08-29 | 2017-12-26 | Bragi GmbH | Production line PCB serial programming and testing method and system |
US10194232B2 (en) | 2015-08-29 | 2019-01-29 | Bragi GmbH | Responsive packaging system for managing display actions |
US9949013B2 (en) | 2015-08-29 | 2018-04-17 | Bragi GmbH | Near field gesture control system and method |
US9866282B2 (en) | 2015-08-29 | 2018-01-09 | Bragi GmbH | Magnetic induction antenna for use in a wearable device |
US10194228B2 (en) | 2015-08-29 | 2019-01-29 | Bragi GmbH | Load balancing to maximize device function in a personal area network device system and method |
US10122421B2 (en) | 2015-08-29 | 2018-11-06 | Bragi GmbH | Multimodal communication system using induction and radio and method |
US9755704B2 (en) | 2015-08-29 | 2017-09-05 | Bragi GmbH | Multimodal communication system induction and radio and method |
US10234133B2 (en) | 2015-08-29 | 2019-03-19 | Bragi GmbH | System and method for prevention of LED light spillage |
US9905088B2 (en) | 2015-08-29 | 2018-02-27 | Bragi GmbH | Responsive visual communication system and method |
US9800966B2 (en) | 2015-08-29 | 2017-10-24 | Bragi GmbH | Smart case power utilization control system and method |
US9972895B2 (en) | 2015-08-29 | 2018-05-15 | Bragi GmbH | Antenna for use in a wearable device |
US10203773B2 (en) | 2015-08-29 | 2019-02-12 | Bragi GmbH | Interactive product packaging system and method |
US9843853B2 (en) | 2015-08-29 | 2017-12-12 | Bragi GmbH | Power control for battery powered personal area network device system and method |
US10409394B2 (en) | 2015-08-29 | 2019-09-10 | Bragi GmbH | Gesture based control system based upon device orientation system and method |
US9813826B2 (en) | 2015-08-29 | 2017-11-07 | Bragi GmbH | Earpiece with electronic environmental sound pass-through system |
US10175753B2 (en) | 2015-10-20 | 2019-01-08 | Bragi GmbH | Second screen devices utilizing data from ear worn device system and method |
US10104458B2 (en) | 2015-10-20 | 2018-10-16 | Bragi GmbH | Enhanced biometric control systems for detection of emergency events system and method |
US9866941B2 (en) | 2015-10-20 | 2018-01-09 | Bragi GmbH | Multi-point multiple sensor array for data sensing and processing system and method |
US9980189B2 (en) | 2015-10-20 | 2018-05-22 | Bragi GmbH | Diversity bluetooth system and method |
US10506322B2 (en) | 2015-10-20 | 2019-12-10 | Bragi GmbH | Wearable device onboard applications system and method |
US20170111723A1 (en) | 2015-10-20 | 2017-04-20 | Bragi GmbH | Personal Area Network Devices System and Method |
US10453450B2 (en) | 2015-10-20 | 2019-10-22 | Bragi GmbH | Wearable earpiece voice command control system and method |
US10206042B2 (en) | 2015-10-20 | 2019-02-12 | Bragi GmbH | 3D sound field using bilateral earpieces system and method |
US10635385B2 (en) | 2015-11-13 | 2020-04-28 | Bragi GmbH | Method and apparatus for interfacing with wireless earpieces |
US9978278B2 (en) | 2015-11-27 | 2018-05-22 | Bragi GmbH | Vehicle to vehicle communications using ear pieces |
US9944295B2 (en) | 2015-11-27 | 2018-04-17 | Bragi GmbH | Vehicle with wearable for identifying role of one or more users and adjustment of user settings |
US10099636B2 (en) | 2015-11-27 | 2018-10-16 | Bragi GmbH | System and method for determining a user role and user settings associated with a vehicle |
US10104460B2 (en) | 2015-11-27 | 2018-10-16 | Bragi GmbH | Vehicle with interaction between entertainment systems and wearable devices |
US10040423B2 (en) | 2015-11-27 | 2018-08-07 | Bragi GmbH | Vehicle with wearable for identifying one or more vehicle occupants |
US10542340B2 (en) | 2015-11-30 | 2020-01-21 | Bragi GmbH | Power management for wireless earpieces |
US10099374B2 (en) | 2015-12-01 | 2018-10-16 | Bragi GmbH | Robotic safety using wearables |
US9980033B2 (en) | 2015-12-21 | 2018-05-22 | Bragi GmbH | Microphone natural speech capture voice dictation system and method |
US9939891B2 (en) | 2015-12-21 | 2018-04-10 | Bragi GmbH | Voice dictation systems using earpiece microphone system and method |
US10575083B2 (en) | 2015-12-22 | 2020-02-25 | Bragi GmbH | Near field based earpiece data transfer system and method |
US10206052B2 (en) | 2015-12-22 | 2019-02-12 | Bragi GmbH | Analytical determination of remote battery temperature through distributed sensor array system and method |
US10154332B2 (en) | 2015-12-29 | 2018-12-11 | Bragi GmbH | Power management for wireless earpieces utilizing sensor measurements |
US10334345B2 (en) | 2015-12-29 | 2019-06-25 | Bragi GmbH | Notification and activation system utilizing onboard sensors of wireless earpieces |
US10200790B2 (en) | 2016-01-15 | 2019-02-05 | Bragi GmbH | Earpiece with cellular connectivity |
US10129620B2 (en) | 2016-01-25 | 2018-11-13 | Bragi GmbH | Multilayer approach to hydrophobic and oleophobic system and method |
US10104486B2 (en) | 2016-01-25 | 2018-10-16 | Bragi GmbH | In-ear sensor calibration and detecting system and method |
US10085091B2 (en) | 2016-02-09 | 2018-09-25 | Bragi GmbH | Ambient volume modification through environmental microphone feedback loop system and method |
US10667033B2 (en) | 2016-03-02 | 2020-05-26 | Bragi GmbH | Multifactorial unlocking function for smart wearable device and method |
US10327082B2 (en) | 2016-03-02 | 2019-06-18 | Bragi GmbH | Location based tracking using a wireless earpiece device, system, and method |
US10085082B2 (en) | 2016-03-11 | 2018-09-25 | Bragi GmbH | Earpiece with GPS receiver |
US10045116B2 (en) | 2016-03-14 | 2018-08-07 | Bragi GmbH | Explosive sound pressure level active noise cancellation utilizing completely wireless earpieces system and method |
US10052065B2 (en) | 2016-03-23 | 2018-08-21 | Bragi GmbH | Earpiece life monitor with capability of automatic notification system and method |
US10856809B2 (en) | 2016-03-24 | 2020-12-08 | Bragi GmbH | Earpiece with glucose sensor and system |
US10334346B2 (en) | 2016-03-24 | 2019-06-25 | Bragi GmbH | Real-time multivariable biometric analysis and display system and method |
US11799852B2 (en) | 2016-03-29 | 2023-10-24 | Bragi GmbH | Wireless dongle for communications with wireless earpieces |
USD821970S1 (en) | 2016-04-07 | 2018-07-03 | Bragi GmbH | Wearable device charger |
USD823835S1 (en) | 2016-04-07 | 2018-07-24 | Bragi GmbH | Earphone |
USD819438S1 (en) | 2016-04-07 | 2018-06-05 | Bragi GmbH | Package |
USD805060S1 (en) | 2016-04-07 | 2017-12-12 | Bragi GmbH | Earphone |
US10015579B2 (en) | 2016-04-08 | 2018-07-03 | Bragi GmbH | Audio accelerometric feedback through bilateral ear worn device system and method |
US10747337B2 (en) | 2016-04-26 | 2020-08-18 | Bragi GmbH | Mechanical detection of a touch movement using a sensor and a special surface pattern system and method |
US10013542B2 (en) | 2016-04-28 | 2018-07-03 | Bragi GmbH | Biometric interface system and method |
USD824371S1 (en) | 2016-05-06 | 2018-07-31 | Bragi GmbH | Headphone |
USD836089S1 (en) | 2016-05-06 | 2018-12-18 | Bragi GmbH | Headphone |
US10888039B2 (en) | 2016-07-06 | 2021-01-05 | Bragi GmbH | Shielded case for wireless earpieces |
US10555700B2 (en) | 2016-07-06 | 2020-02-11 | Bragi GmbH | Combined optical sensor for audio and pulse oximetry system and method |
US10582328B2 (en) | 2016-07-06 | 2020-03-03 | Bragi GmbH | Audio response based on user worn microphones to direct or adapt program responses system and method |
US10045110B2 (en) | 2016-07-06 | 2018-08-07 | Bragi GmbH | Selective sound field environment processing system and method |
US10201309B2 (en) | 2016-07-06 | 2019-02-12 | Bragi GmbH | Detection of physiological data using radar/lidar of wireless earpieces |
US10216474B2 (en) | 2016-07-06 | 2019-02-26 | Bragi GmbH | Variable computing engine for interactive media based upon user biometrics |
US11085871B2 (en) | 2016-07-06 | 2021-08-10 | Bragi GmbH | Optical vibration detection system and method |
US10516930B2 (en) | 2016-07-07 | 2019-12-24 | Bragi GmbH | Comparative analysis of sensors to control power status for wireless earpieces |
US10621583B2 (en) | 2016-07-07 | 2020-04-14 | Bragi GmbH | Wearable earpiece multifactorial biometric analysis system and method |
US10158934B2 (en) | 2016-07-07 | 2018-12-18 | Bragi GmbH | Case for multiple earpiece pairs |
US10165350B2 (en) | 2016-07-07 | 2018-12-25 | Bragi GmbH | Earpiece with app environment |
US10587943B2 (en) | 2016-07-09 | 2020-03-10 | Bragi GmbH | Earpiece with wirelessly recharging battery |
US10397686B2 (en) | 2016-08-15 | 2019-08-27 | Bragi GmbH | Detection of movement adjacent an earpiece device |
US10977348B2 (en) | 2016-08-24 | 2021-04-13 | Bragi GmbH | Digital signature using phonometry and compiled biometric data system and method |
US10104464B2 (en) | 2016-08-25 | 2018-10-16 | Bragi GmbH | Wireless earpiece and smart glasses system and method |
US10409091B2 (en) | 2016-08-25 | 2019-09-10 | Bragi GmbH | Wearable with lenses |
US10887679B2 (en) | 2016-08-26 | 2021-01-05 | Bragi GmbH | Earpiece for audiograms |
US11086593B2 (en) | 2016-08-26 | 2021-08-10 | Bragi GmbH | Voice assistant for wireless earpieces |
US11200026B2 (en) | 2016-08-26 | 2021-12-14 | Bragi GmbH | Wireless earpiece with a passive virtual assistant |
US10313779B2 (en) | 2016-08-26 | 2019-06-04 | Bragi GmbH | Voice assistant system for wireless earpieces |
US10200780B2 (en) | 2016-08-29 | 2019-02-05 | Bragi GmbH | Method and apparatus for conveying battery life of wireless earpiece |
US11490858B2 (en) | 2016-08-31 | 2022-11-08 | Bragi GmbH | Disposable sensor array wearable device sleeve system and method |
USD822645S1 (en) | 2016-09-03 | 2018-07-10 | Bragi GmbH | Headphone |
US10580282B2 (en) | 2016-09-12 | 2020-03-03 | Bragi GmbH | Ear based contextual environment and biometric pattern recognition system and method |
US10598506B2 (en) | 2016-09-12 | 2020-03-24 | Bragi GmbH | Audio navigation using short range bilateral earpieces |
US10852829B2 (en) | 2016-09-13 | 2020-12-01 | Bragi GmbH | Measurement of facial muscle EMG potentials for predictive analysis using a smart wearable system and method |
US11283742B2 (en) | 2016-09-27 | 2022-03-22 | Bragi GmbH | Audio-based social media platform |
US10460095B2 (en) | 2016-09-30 | 2019-10-29 | Bragi GmbH | Earpiece with biometric identifiers |
US10049184B2 (en) | 2016-10-07 | 2018-08-14 | Bragi GmbH | Software application transmission via body interface using a wearable device in conjunction with removable body sensor arrays system and method |
US10771877B2 (en) | 2016-10-31 | 2020-09-08 | Bragi GmbH | Dual earpieces for same ear |
US10942701B2 (en) | 2016-10-31 | 2021-03-09 | Bragi GmbH | Input and edit functions utilizing accelerometer based earpiece movement system and method |
US10455313B2 (en) | 2016-10-31 | 2019-10-22 | Bragi GmbH | Wireless earpiece with force feedback |
US10698983B2 (en) | 2016-10-31 | 2020-06-30 | Bragi GmbH | Wireless earpiece with a medical engine |
US10117604B2 (en) | 2016-11-02 | 2018-11-06 | Bragi GmbH | 3D sound positioning with distributed sensors |
US10617297B2 (en) | 2016-11-02 | 2020-04-14 | Bragi GmbH | Earpiece with in-ear electrodes |
US10225638B2 (en) | 2016-11-03 | 2019-03-05 | Bragi GmbH | Ear piece with pseudolite connectivity |
US10062373B2 (en) | 2016-11-03 | 2018-08-28 | Bragi GmbH | Selective audio isolation from body generated sound system and method |
US10821361B2 (en) | 2016-11-03 | 2020-11-03 | Bragi GmbH | Gaming with earpiece 3D audio |
US10205814B2 (en) | 2016-11-03 | 2019-02-12 | Bragi GmbH | Wireless earpiece with walkie-talkie functionality |
US10058282B2 (en) | 2016-11-04 | 2018-08-28 | Bragi GmbH | Manual operation assistance with earpiece with 3D sound cues |
US10045112B2 (en) | 2016-11-04 | 2018-08-07 | Bragi GmbH | Earpiece with added ambient environment |
US10045117B2 (en) | 2016-11-04 | 2018-08-07 | Bragi GmbH | Earpiece with modified ambient environment over-ride function |
US10063957B2 (en) | 2016-11-04 | 2018-08-28 | Bragi GmbH | Earpiece with source selection within ambient environment |
US10506327B2 (en) | 2016-12-27 | 2019-12-10 | Bragi GmbH | Ambient environmental sound field manipulation based on user defined voice and audio recognition pattern analysis system and method |
US10405081B2 (en) | 2017-02-08 | 2019-09-03 | Bragi GmbH | Intelligent wireless headset system |
US10582290B2 (en) | 2017-02-21 | 2020-03-03 | Bragi GmbH | Earpiece with tap functionality |
US10771881B2 (en) | 2017-02-27 | 2020-09-08 | Bragi GmbH | Earpiece with audio 3D menu |
US11544104B2 (en) | 2017-03-22 | 2023-01-03 | Bragi GmbH | Load sharing between wireless earpieces |
US10575086B2 (en) | 2017-03-22 | 2020-02-25 | Bragi GmbH | System and method for sharing wireless earpieces |
US11380430B2 (en) | 2017-03-22 | 2022-07-05 | Bragi GmbH | System and method for populating electronic medical records with wireless earpieces |
US11694771B2 (en) | 2017-03-22 | 2023-07-04 | Bragi GmbH | System and method for populating electronic health records with wireless earpieces |
US10708699B2 (en) | 2017-05-03 | 2020-07-07 | Bragi GmbH | Hearing aid with added functionality |
US11116415B2 (en) | 2017-06-07 | 2021-09-14 | Bragi GmbH | Use of body-worn radar for biometric measurements, contextual awareness and identification |
US11013445B2 (en) | 2017-06-08 | 2021-05-25 | Bragi GmbH | Wireless earpiece with transcranial stimulation |
US10344960B2 (en) | 2017-09-19 | 2019-07-09 | Bragi GmbH | Wireless earpiece controlled medical headlight |
US11272367B2 (en) | 2017-09-20 | 2022-03-08 | Bragi GmbH | Wireless earpieces for hub communications |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
EP0435282B1 (en) * | 1989-12-28 | 1997-04-23 | Sharp Kabushiki Kaisha | Voice recognition apparatus |
US5365592A (en) * | 1990-07-19 | 1994-11-15 | Hughes Aircraft Company | Digital voice detection apparatus and method using transform domain processing |
US5212765A (en) * | 1990-08-03 | 1993-05-18 | E. I. Du Pont De Nemours & Co., Inc. | On-line training neural network system for process control |
US5408588A (en) * | 1991-06-06 | 1995-04-18 | Ulug; Mehmet E. | Artificial neural network method and architecture |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5487133A (en) * | 1993-07-01 | 1996-01-23 | Intel Corporation | Distance calculating neural network classifier chip and system |
US5509103A (en) * | 1994-06-03 | 1996-04-16 | Motorola, Inc. | Method of training neural networks used for speech recognition |
US5621848A (en) * | 1994-06-06 | 1997-04-15 | Motorola, Inc. | Method of partitioning a sequence of data frames |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
-
1995
- 1995-12-28 US US08/579,714 patent/US5749072A/en not_active Expired - Fee Related
-
1996
- 1996-12-06 AU AU13304/97A patent/AU1330497A/en not_active Abandoned
- 1996-12-06 WO PCT/US1996/019488 patent/WO1997024710A1/en active Application Filing
- 1996-12-20 FR FR9615726A patent/FR2743238B1/fr not_active Expired - Fee Related
- 1996-12-27 AR ARP960105907A patent/AR005286A1/es not_active Application Discontinuation
-
1997
- 1997-01-08 TW TW086100144A patent/TW396699B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
FR2743238B1 (fr) | 1999-04-16 |
WO1997024710A1 (en) | 1997-07-10 |
AU1330497A (en) | 1997-07-28 |
US5749072A (en) | 1998-05-05 |
AR005286A1 (es) | 1999-04-28 |
FR2743238A1 (fr) | 1997-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW396699B (en) | Communication device responsive to spoken commands and method of using same | |
JP3697748B2 (ja) | 端末、音声認識装置 | |
US9818431B2 (en) | Multi-speaker speech separation | |
JP4271224B2 (ja) | 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム | |
US5621809A (en) | Computer program product for automatic recognition of a consistent message using multiple complimentary sources of information | |
US8996373B2 (en) | State detection device and state detecting method | |
US5812973A (en) | Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
JPS62231997A (ja) | 音声認識システム及びその方法 | |
KR20080023030A (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
Kristjansson | Speech recognition in adverse environments: a probabilistic approach | |
CN1312656C (zh) | 说话人标准化方法及用该方法的语音识别装置 | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
JPH064097A (ja) | 話者認識方法 | |
Razak et al. | Towards automatic recognition of emotion in speech | |
KR20220007490A (ko) | 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
JP4449380B2 (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
CN114694667A (zh) | 语音输出方法、装置、计算机设备及存储介质 | |
Wu et al. | Large vocabulary continuous speech recognition with deep recurrent network | |
CN101281746A (zh) | 一个百分之百辨认率的国语单音与句子辨认方法 | |
TW200935399A (en) | Chinese-speech phonologic transformation system and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |