TW201403587A - 使用時間上及/或頻譜上緊密音訊命令之控制 - Google Patents

使用時間上及/或頻譜上緊密音訊命令之控制 Download PDF

Info

Publication number
TW201403587A
TW201403587A TW102107083A TW102107083A TW201403587A TW 201403587 A TW201403587 A TW 201403587A TW 102107083 A TW102107083 A TW 102107083A TW 102107083 A TW102107083 A TW 102107083A TW 201403587 A TW201403587 A TW 201403587A
Authority
TW
Taiwan
Prior art keywords
command
voice
audio
discriminator
waveform
Prior art date
Application number
TW102107083A
Other languages
English (en)
Other versions
TWI503814B (zh
Inventor
Henry P Largey
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of TW201403587A publication Critical patent/TW201403587A/zh
Application granted granted Critical
Publication of TWI503814B publication Critical patent/TWI503814B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

一種聲音啟動控制系統包括一音訊接收器及一命令鑑別器。該接收器經組態以接收一音訊波形並從中產生一數位音訊波形。該命令鑑別器經組態以偵測該數位音訊波形內的一時間上及/或頻譜上緊密非話音音訊命令並回應於該非話音命令以控制一語音啟動系統。

Description

使用時間上及/或頻譜上緊密音訊命令之控制
本申請案一般有關用於控制電子裝置之操作的裝置、系統及方法。
可以例如一連串的按鍵或口語字詞(spoken word)控制各種電子裝置。例如,在一些情況中,可直接以語音命令(voice command)控制電子裝置。在其他情況中,可設計如語音回應系統(voice response system,VRS)的控制系統以回應於話音命令(phonetic command)或關鍵字。然而,在一些狀況下,可能因為環境噪音(諸如背景談話)而難以控制裝置。
一面向提供一種聲音啟動控制系統(sound-activated control system),其包括一接收器及一命令鑑別器(command discriminator)。該接收器經組態以接收一音訊波形並從該音訊波形產生一數位音訊波形。該命令鑑別器經組態以偵測該數位音訊波形內的一時間上及/或頻譜上緊密非話音音訊命令(temporally and/or spectrally compact nonphonetic audio command)並回應於該非話音命令以控制一語音啟動系統(voice-activated system)。
另一面向提供一種電子裝置。該電子裝置包括一音訊接收器及一命令轉譯器。該音訊接收器經組態以從所接收音訊信號產生數位音訊 波形。該命令轉譯器經組態以偵測數位音訊波形內的時間上及/或頻譜上緊密非話音音訊命令。該命令轉譯器回應於偵測到非話音命令,從非話音命令合成(synthesize)話音命令。
又另一具體實施例提供一種提供語音啟動控制的方法。該方法包括提供一類比轉數位轉換器(analog-to-digital converter,ADC),其經組態以將所接收音訊波形轉換成數位音訊波形。該ADC耦合至命令鑑別器。該命令鑑別器繼而經組態以偵測數位音訊波形內的時間上及/或頻譜上緊密非話音音訊命令。該命令鑑別器進一步經組態以回應於非話音命令而控制語音啟動系統。
110‧‧‧時間上緊密音訊信號
120‧‧‧頻譜
210‧‧‧TD波形
220‧‧‧部分
230‧‧‧部分
240‧‧‧功率峰值
310‧‧‧頻譜
320‧‧‧複合頻譜
400‧‧‧電子裝置
401‧‧‧音訊接收器
405‧‧‧音訊波形
410‧‧‧音訊變換器
420‧‧‧類比轉數位轉換器(ADC)
430‧‧‧命令鑑別器
435‧‧‧記憶體
440‧‧‧快速傅立葉變換(FFT)
445‧‧‧頻譜
450‧‧‧FD分析器
460‧‧‧TD分析器
470‧‧‧命令合成器
480‧‧‧多工器(MUX)
490‧‧‧傳輸器
495‧‧‧天線
499‧‧‧有線電話網路
600‧‧‧系統
610‧‧‧輸入介面
620‧‧‧功能方塊
630‧‧‧全球定位系統(GPS)接收器
700‧‧‧系統
710‧‧‧接收器
720‧‧‧命令鑑別器(CD)
730‧‧‧語音回應系統(VRS)
740‧‧‧天線
745‧‧‧傳統電話系統(POTS)
750‧‧‧多工器(MUX)
760‧‧‧合成器
現參考結合附圖進行的以下說明,圖中:圖1A及1B分別圖解不同具體實施例中用以控制語音啟動裝置或系統之非話音命令的時域(time domain)及頻域(frequency domain)表示(representation);圖2A及2B分別圖解音訊信號的時域表示,包括時間上緊密突發(temporally compact burst)、及與時間上緊密突發相關聯的功率峰值;圖3A圖解音訊信號(如,擁擠房間中的聲音複合)的頻域表示;圖3B如圖3A圖解頻域表示,另外包括圖1B圖解的頻譜分量(spectral component);圖4圖解一具體實施例中的電子裝置,其包括命令鑑別器,其經組態以偵測所接收音訊信號中的時間上及/或頻譜上緊密信號,其中命令鑑別器合成用於有線或無線傳輸的語音命令;圖5圖解操作電子裝置(諸如圖4之裝置)以偵測非話音命令之發生之方法的流程圖;圖6圖解電子裝置之具體實施例的多個面向,其中命令鑑別 器回應於偵測到的非話音命令以提供命令給功能方塊(functional block);圖7圖解一具體實施例中的語音回應系統,其中命令鑑別器可將接收的非話音命令轉譯為合成話音命令,語音回應系統經組態以回應於該合成語音命令;及圖8圖解如製造根據本發明不同具體實施例之裝置或系統的方法。
不同具體實施例涉及時間上緊密及/或頻譜上緊密非話音音訊信號。此處,音訊信號可為時間上緊密、頻譜上緊密、或二者皆是。圖1A在非限制性情況下圖解代表性時間上緊密音訊信號110,及圖1B圖解代表性頻譜上緊密音訊信號的頻譜120。
首先看到圖1A,此處討論及申請專利範圍中使用的時間上緊密係定義為具有大約或短於口語音素(spoken phoneme)之持續期間的持續期間。例如,口語字詞可分成在正常說話速度下具有約100-500ms之持續期間的若干音素。一些發音,諸如子音,可具有較短的持續期間,如,小於約100ms。因此,音訊信號110可具有約500ms或500ms以下的持續期間△T。
接著看到圖1B,此處討論及申請專利範圍中使用的頻譜上緊密係定義為具有非話音音訊信號(集中於實質上小於典型人類發音之頻寬(spectral bandwidth)的頻寬內)之聲能的至少50%。實質上小於在此上下文中是指小於人類語音頻寬約10%或以下。例如,人類說話的頻譜分量通常落在約100Hz至約5kHz的範圍中。電磁頻譜的語音頻帶(voice band)如約300Hz至約3kHz,通常用來經由電話裝備傳達聲音信號。參考圖1B,頻譜上緊密音訊信號可具有集中於約語音頻帶十分之一(如,約500Hz或500Hz以下)之頻寬△f內之聲能的至少50%。
此處說明的不同具體實施例提供用於改良與語音啟動系統(諸如語音回應系統(VRS)及語音控制電子裝置(voice-control electronic device,此處稱為VRD))進行通信的裝置、系統及方法。儘管此種系統或裝置可在低環境噪音的條件下運作良好,但當背景噪音等級變得太大時,裝置或系統效能將因語音命令辨識不佳而降級。此問題在以下狀況中將變得特別嚴重:背景噪音的談話或其他言語來源將使自動化系統或裝置的使用者所說出的預期話音命令(intended phonetic command)變得模糊或互相衝突。
發明人已明白,可藉由以下方式實質上減輕上述有關語音命令的難處:提供在通常被視為說話之聲音集合之外的音訊能量的短突發。在不同具體實施例中,採用非發音聲音、或在使用者所說語言中很少或基本上從不在平常談話中使用的聲音來與系統或裝置通信。
如此處使用,使用術語「非話音命令」涵蓋人類發音產生的非語言聲音(non-linguistic sound)。相反地,「話音命令」是指人類發音產生之大於單一子音的字詞或字詞之部分。在一些具體實施例中,可將非話音命令用作對接收系統或裝置的提示,其提示話音命令即將發生,或者可擴大或取代一些或所有話音命令,使得話音命令並非為與系統或裝置進行通信所需要。術語「非話音命令」明確排除以電子方式產生的波形。
如此處使用,「語言(language)」明確排除依賴於搭嘴音(click)子音的語言,諸如俗稱為「搭嘴音方言(click-tongue)」的語言,科薩語(Xhosa)即為其中一個實例。
此處,術語「時域」可縮寫成「TD」,此縮寫並不會損及本揭示內容的明確性。同樣地,術語「頻域」可縮寫成「FD」。
可將由圖1A及1B之一者或二者表示的非話音命令疊加(superimpose)在背景音訊信號上。如藉由數個人諸如在派對或會議上同時說話、機器、馬路噪音等產生背景音訊信號。背景噪音可在時間上、在頻率上或在二者上相對一致(uniform),但未必要如此。非話音命令與背景噪音的其他聲音在頻譜上及/或時間上有所區別。因此,時間上及/或頻譜上緊密信號在背景噪音的疊置預期可由下文說明的鑑別電路加以偵測。
為解說這一點,圖2A出示音訊信號的TD波形210,如,多個來源(如,數個同時講話的人)之聲音的混合。波形210可以是從音訊變換器(audio transducer)(如,麥克風)獲得的電信號。波形210具有約恆定強度Io的噪音底限(noise floor),但具體實施例並不因此受限。在一些情況中,背景噪音的強度可為時變的或甚至為約零。波形210包括可表示嘈雜房間中之環境音的部分220。部分230包括在非限制性情況下以時間上緊密音訊信號110表示的非話音命令。
圖2B圖解波形210之聲功率(acoustic power)的度量。背景功率Po在部分220上大約恆定,但具體實施例並不因此受限。因此,在一些情況中,背景功率可為時變的或甚至為約零。功率峰值240與音訊信號110在時間上相關。功率峰值240類似於非話音命令所產生的音量增加。因此,可使用功率峰值240偵測在波形210內發生時間上緊密音訊信號110。功率峰值240是VRS或VRD偵測之音量增加的度量(measure)。
功率峰值240及頻譜120提供可偵測及用以決定發生非話音命令的信號。在一些具體實施例中,以功率峰值240所例示之功率在時間上局部的增加即可用來決定發生非話音命令而不用仰賴頻譜120。在其他具體實施例中,可使用頻譜120決定發生非話音命令而不必依靠功率峰值240。在又其他具體實施例中,頻譜120及功率峰值240均可用來決定發生 非話音命令。
圖3A-3B圖解以頻域所見之頻譜上緊密音訊命令的面向。圖3A在非限制性情況下圖解表示背景噪音(諸如擁擠房間中多個同時進行的談話)的頻譜310。雖然本發明的具體實施例可在無此背景噪音下實行,但通常在有背景噪音時可更徹底實現此類具體實施例的益處。圖3B圖解為頻譜310及頻譜120之組合的複合頻譜320。在不同具體實施例中,選擇頻譜120的頻率致使很容易分辨頻譜分量與背景噪音訊譜310的噪音底限。在此類情況中,如所圖解,在複合頻譜320中可以看見頻譜120的分量。如下文說明,在偵測或未偵測功率峰值240的情況下,可在不同具體實施例中使用這些分量的偵測以偵測發生非話音命令。
現在以圖4、5、6A至6C及7出示本揭示內容的不同具體實施例。這些圖式可包括各種功能模組,及其討論可包括這些模組的參照並說明各種模組功能與模組間的關係。熟習本技術者將明白,此類模組間的界限僅為說明性,及替代具體實施例可合併模組或分割模組的功能性。例如,本文討論的模組可分成多個子模組,其係作為多個計算程序執行及視情況在多個電子裝置(如,積體電路)上執行。此外,替代具體實施例可結合特定模組或子模組的多個例子。再者,熟習本技術者將明白,實例具體實施例中說明的功能僅是為了解說。根據本發明,可將多個操作組合或者這些功能的功能性以額外功能分散。
圖4是電子裝置400之非限制性具體實施例的方塊圖,電子裝置400可根據經由音訊波形405接收的非話音命令進行操作。在不同具體實施例中,裝置400可為有線或無線電話、或行動電話。然而,預期這些特定具體實施例的說明並未將本揭示內容的範疇限於此類裝置。
裝置400包括音訊接收器401,音訊接收器401包括音訊變 換器410及類比轉數位轉換器(ADC)420。音訊變換器410經組態以將音訊波形405轉換為其類比電表示(analog electrical representation),此處稱為音訊信號。ADC 420將音訊信號轉換為音訊波形405的數位化表示,此處稱為數位音訊波形。
命令鑑別器430接收數位音訊波形並對其執行各種處理功能,其進一步討論如下。可根據儲存於記憶體435中的指令執行處理功能。命令鑑別器430的功能性可以任何習用或非習用方式實施,包括(但不限於):商用或專有積體電路、狀態機(state machine)、可程式邏輯、微控制器或數位信號處理器(digital signal processor,DSP)。
命令鑑別器430提供的功能有快速傅立葉變換(fast Fourier transform,FFT)440、FD分析器450及TD分析器460。如熟習本技術者充分瞭解,FFT 440可決定所接收音訊波形405的頻譜445,或更精確地說為數位音訊波形。如上文所述,頻譜445的分量可描述不同類型發音及未發音聲音的特徵。FD分析器450可執行頻譜型樣辨識(spectral pattern recognition)以在頻譜445識別與平常發音不相關聯的聲音。
TD分析器460亦接收數位音訊波形。TD分析器460可分析數位音訊波形以決定發生諸如功率峰值240的時間上緊密功率峰值。在一些情況中,命令鑑別器430可使用所偵測功率峰值的發生以在時間上局部化數位音訊波形中非話音命令的頻譜特性(spectral signature)。在其他情況中,命令鑑別器430可使用功率峰值的特色(characteristic)及頻譜445的特色二者決定發生非話音命令。
命令鑑別器430可分辨特定聲音與通常在說話中產生的發音。命令鑑別器430可使用FD分析器450、TD分析器460、或二者做出此決定。例如,命令鑑別器430可經由TD分析器460決定發生時間上緊密聲 音。時間上緊密聲音通常具有可以諸如強度、持續期間、上升時間、下降時間、及振鈴等時域特色所特徵化的輪廓(profile)。這些特色在一些情況中可足以在高可信度下決定時間上緊密聲音為音訊命令。
命令鑑別器430亦可藉由頻譜特色決定發生音訊命令。特定來源的聲音通常具有獨特的頻譜特性。命令鑑別器430可在所偵測頻譜特性匹配(match)記憶體435中儲存之數個模型特性之一者時決定發生音訊命令。音訊命令可為頻譜上緊密,從而提供音訊命令出現在所接收音訊流(audio stream)中的高可信度。
在一些具體實施例中,命令鑑別器430可從FD分析器450及TD分析器460之一者或另一者決定命令識別的可信度,及僅在可信度低於預定臨限值時才執行其他分析。在一些情況中,此做法可減少命令鑑別器430的總處理負擔。
非話音命令通常包括允許命令鑑別器430分辨非話音命令與平常說話的時間及頻譜特色。在一些情況中,此類聲音可由一般與特定語言中口語字詞不相關聯之聲音的發音產生。例如,說話者可用搭嘴音、砰聲(pop)或隔離子音(isolated consonant)產生頻譜120。
一個音訊命令的類別(class)包括相異的發音。例如,一般的印歐語系、及尤其是英語,不包括隔離的「搭嘴音」。可將搭嘴音定義為國際音標(International Phonetic Alphabet,IPA)中列出的數個子音之一者。在非限制性實例中,IPA包括四個前部搭嘴音發音:舌葉齒齦摩擦搭嘴音(the laminal alveolar fricated click);頂齒齦突發搭嘴音(apical alveolar abrupt click);舌葉齒齦後突發搭嘴音(laminal postalveolar abrupt click);及側齒齦摩擦搭嘴音(lateral alveolar fricated click)。使用TD及FD分析之一者或二者,指示鑑別器430在一些具體實施例中經組態以鑑別此類搭嘴音在平常 談話中的發生(如,作為口語字詞的一部分)及隔離的搭嘴音的發生。此組態可包括預期應用於許多或大多數使用者的一般鑑別模型(general discrimination model),或可包括裝置400之特定使用者的訓練。
訓練可經由訓練模式完成。訓練模式例如可以所要合成話音命令提示使用者,之後,使用者可產生裝置400此後將轉譯為所要合成命令的一或多個非話音命令。熟習相關技術者熟知各種訓練方法。
DSP可另外或替代地經組態以鑑別發音及非發音聲音。非發音聲音可包括對著堅固表面的敲擊聲或拍擊聲、哨音或彈指的劈啪聲。在其他情況中,如利用經組態以產生具有所要時間上緊密及/或頻譜上緊密特色之聲音的電子或機械裝置,可人工產生非話音命令。
在一些具體實施例中,命令鑑別器430包括命令合成器(command synthesizer)470。命令合成器470可決定以非話音命令指定的命令,及形成傳達等效合成話音命令的音訊波形。即使合成命令並非由人類說話者產生,但此處仍可將合成命令稱為話音命令。在一些具體實施例中,命令合成器470採用FD分析器450及TD分析器460的輸入,並從音訊波形405的TD及FD特色決定預期的話音命令。例如,單一發音搭嘴音可轉譯成「否」,及雙重搭嘴(如,在預定期間內發生的兩個搭嘴音)可轉譯為「是」。當然,其他搭嘴音的組合或其他非話音命令可轉譯成其他合成話音命令。
當命令鑑別器430決定對應於一或多個非話音命令的話音命令時,命令鑑別器430可控制多工器(multiplexer,MUX)480以選擇傳輸至接收系統的合成話音命令。傳輸器490接收MUX 480的輸出,及在一些具體實施例中經由天線495傳輸位元流。在其他具體實施例中,傳輸器490調節輸出資料以經由線路傳輸至有線電話網路499(如,「傳統電話系統 (plain-old telephone system)」或POTS)。因此,在此類具體實施例中,非話音命令實際上並非由裝置400傳輸。實則是,接收系統(如,VRS)接收與諸如「是」或「否」之話音命令一致的波形。在無偵測之非話音命令的情況下,命令鑑別器430可控制MUX 480以傳輸由ADC 420提供的數位音訊波形。
接著參考圖5,出示方法500以根據一非限制性具體實施例圖解裝置400的操作。在步驟510,命令鑑別器430監控數位音訊波形是否發生功率峰值,如,功率峰值240。如果命令鑑別器430未偵測到功率峰值,則方法500返回步驟510。如果命令鑑別器430反之偵測到出現功率峰值,則方法前進到步驟520。
在步驟520,命令鑑別器430決定數位音訊波形的頻譜,如,計算發生功率峰值時的FFT。熟習相關技術者應瞭解,此決定可包括暫存數位音訊波形資料以允許在資料中偵測到功率峰值後執行頻譜分析(spectral analysis)。此暫存資料可儲存在如記憶體435中。在步驟520後,方法500前進到步驟530。
在步驟530,命令鑑別器430嘗試將步驟520決定的頻譜匹配比對於若干模型頻譜之一、或模型頻譜的數學描述。模型頻譜或其數學描述可儲存在如記憶體435中。匹配比對可包括如決定描述配合等級(quality of fit)的各種公制度量(metric)、及匹配概率(match probability)。
在步驟540,命令鑑別器430可決定是否發生匹配。命令鑑別器430將需要匹配概率超過預定概率臨限值以認定為匹配候選,及報告具有作為匹配頻譜之最高概率的匹配候選。匹配指示出發生非話音命令。如果命令鑑別器430決定發生匹配,則方法500前進到步驟550。如果未發現匹配,則方法500返回步驟510。
在步驟550,命令鑑別器430自話音命令波形程式庫擷取對應於所接收非話音命令的話音命令波形。波形如可為產生對應於非話音命令之合成話音命令的演算法,或可為取樣波形。
在步驟560,命令鑑別器430如藉由命令合成器470合成話音命令。在步驟570,命令鑑別器430控制MUX 480以用合成話音命令代替數位音訊波形以輸入傳輸器490。接著,傳輸合成話音命令以替代非話音命令。
看到圖6,圖解根據本發明之另一具體實施例的系統600。系統600可共用裝置400的數個部件,如,命令鑑別器430、記憶體435、FFT 440、FD分析器450及TD分析器460。除非另外說明,否則這些模組如先前所說明進行操作。系統600亦包括輸入介面610及功能方塊620。
取決於系統600的預期應用,輸入介面610可採取若干不同形式。在一些具體實施例中,系統600包括語音啟動電子裝置,諸如全球定位系統(global positioning system,GPS)導航器、智慧型手機、數位備忘錄錄音機等。在此類具體實施例中,輸入介面610可如所說明組態用於接收器401(圖4)。因此,輸入介面610可包括音訊變換器410及ADC 420以接收音訊波形及將該波形轉換為數位音訊波形。命令鑑別器430如先前說明可對數位音訊波形進行操作以偵測發生非話音命令。
命令鑑別器430可將發生及識別非話音命令傳達至功能方塊620。功能方塊620可接著操作以執行系統600與非話音命令一致的核心功能性。
例如,功能方塊可包括GPS接收器630及映射功能(mapping function)(未顯示)。GPS接收器630可經組態以回應於話音命令。如先前說明,由於馬路噪音或其他室內背景噪音,GPS接收器630要從背景噪音鑑別某些語音命令可能有困難。可以替代話音命令以使用非話音命令或在話音命令之外另外使用非話音命令,以控制GPS接收器630的功能性。在一些具體實施例中,GPS接收器630經組態以將來自命令鑑別器430的電子信號轉譯為等效於各種話音命令。在其他具體實施例中,命令鑑別器430包括命令合成器470,並回應於非話音命令以提供話音命令給GPS接收器630。同樣地,功能方塊620的其他具體實施例(如,錄音機或智慧型手機)可經組態以自命令鑑別器430接收指示發生非話音命令的電子信號,或可接收合成語音命令,及接著操作以分別執行其核心功能性,例如錄音及打電話。
在一些具體實施例中,命令鑑別器430及/或其相關聯功能性可與包括功能方塊620的裝置密切整合。例如,智慧型手機或GPS單元可包括處理器及記憶體,並可經組態以實施FFT 440、FD分析器450及TD分析器460。因此,在此類具體實施例中,智慧型手機、GPS、或類似裝置可不包括額外組件以實施命令鑑別器430。
圖7說明另一具體實施例,其中圖解系統700,例如可能為銀行或其他服務提供者使用之VRS的具體實施例,以提示打電話者來提供語音回應以導覽打電話者可用的功能樹(tree of features)。系統700包括接收器710、命令鑑別器(CD)720及VRS 730。接收器710及VRS 730可為習用的,但以下文說明之額外功能操作的必要修改除外。接收器710可包括自天線740接收無線信號或自POTS 745接收有線信號的功能性。接收器710可解調(demodulate)所接收的信號並從中提取語音命令。命令鑑別器720可決定接收的語音命令為話音命令及控制MUX 750將語音命令傳送至VRS 730。
如果命令鑑別器720如先前說明反之決定發生非話音命令,則命令鑑別器720可控制合成器760以合成對應的話音命令,及控制MUX 750將合成話音命令傳送至VRS 730。以此方式,系統700可提供打電話者在打電話者處於嘈雜環境中時使用非話音命令與VRS 730進行通信的能力。在一些具體實施例中,命令鑑別器720的功能性可與VRS 730密切整合,致使命令鑑別器720將接收的非話音命令直接傳達至VRS 730,而不需要合成話音命令。在一些具體實施例中,可使用頻帶外發信號(out-of-band signaling)將非話音命令傳達至命令鑑別器720,藉此繞過(bypass)語音頻帶。
熟習數位信號處理程序技術者熟知組態此處說明的裝置400及/或系統600及/或系統700所需的必要技術。例如,此熟習技術者熟知自數位化錄音以識別及移除砰聲及其他類似聲音的各種方法。可如需要應用或調適此類方法,而不用實施本揭示內容範疇內之上述具體實施例及其他具體實施例的過度實驗。
看到圖8,出示如用於形成上述諸如裝置400、或系統600及700之具體實施例的製造方法800。參考本文(如圖4-6)先前說明的元件以非限制性方式說明方法800的步驟。方法800的步驟可以圖解順序以外的另一順序執行,及在一些具體實施例中可完全省略。
在步驟810,例如接收器401的接收器經組態以產生所接收音訊信號的數位表示,如,數位音訊波形。在步驟820,例如命令鑑別器430的命令鑑別器經組態以偵測數位表示中的時間上及/或頻譜上緊密音訊命令,及回應於所偵測的命令以控制語音啟動系統。
上述方法800的一些具體實施例可包括步驟830,其中例如命令合成器470的合成器經組態以從時間上及/或頻譜上緊密音訊命令來合 成話音命令。
在上述方法800的一些具體實施例中,緊密音訊命令係發音搭嘴音(vocalized click)。在一些具體實施例中,緊密音訊命令係劈啪聲(sanp)。在一些具體實施例中,接收器係電話交換系統(telephone switching system)的組件。在上述一些具體實施例中,接收器係語音啟動電子設備(voice-activated electronic apparatus)的組件。
熟習本申請案相關技術者將瞭解可對說明的具體實施例進行其他及進一步新增、刪除、替代及修改。
400‧‧‧電子裝置
401‧‧‧音訊接收器
405‧‧‧音訊波形
410‧‧‧音訊變換器
420‧‧‧類比轉數位轉換器(ADC)
430‧‧‧命令鑑別器
435‧‧‧記憶體
440‧‧‧快速傅立葉變換(FFT)
445‧‧‧頻譜
450‧‧‧FD分析器
460‧‧‧TD分析器
470‧‧‧命令合成器
480‧‧‧多工器(MUX)
490‧‧‧傳輸器
495‧‧‧天線
499‧‧‧有線電話網路

Claims (10)

  1. 一種聲音啟動控制系統,包含:一音訊接收器,其經組態以接收一音訊波形並從中產生一數位音訊波形;一命令鑑別器,其經組態以偵測該數位音訊波形內的一時間上及/或頻譜上緊密非話音音訊命令並回應於該非話音命令以控制一語音啟動系統。
  2. 如申請專利範圍第1項所述之系統,其中該緊密音訊命令係一發音搭嘴音。
  3. 如申請專利範圍第1項所述之系統,其中該緊密音訊命令係一劈啪聲。
  4. 如申請專利範圍第1項所述之系統,其中該接收器係一電話交換系統的組件。
  5. 如申請專利範圍第1項所述之系統,其中該命令鑑別器包含一語音啟動命令系統,其經組態以分辨該時間上及/或頻譜上緊密音訊命令與一語音回應。
  6. 如申請專利範圍第1項所述之系統,其中該接收器係一語音啟動電子設備之一組件。
  7. 如申請專利範圍第1項所述之系統,其中該命令鑑別器包含一數位信號處理器,其經組態以決定該數位音訊波形中該音訊命令之一發生。
  8. 如申請專利範圍第7項所述之系統,其中決定該發生包括執行該數位音訊波形之一峰值功率分析(peak power analysis)及一頻譜分析二者。
  9. 一種電子裝置,包含:一音訊接收器,其經組態以接收一音訊波形並從中產生一數位音訊波形;一命令轉譯器,其經組態以偵測該數位音訊波形內的一時間上及/或頻譜上緊密非話音音訊命令並回應於該非話音音訊命令以控制一語音啟動系統。
  10. 一種提供語音啟動控制的方法,包含:提供一類比轉數位轉換器,其經組態以將一所接收音訊波形轉換成一數位音訊波形;耦合一命令鑑別器至該類比轉數位轉換器,該命令鑑別器經組態以:偵測該數位音訊波形內之一時間上及/或頻譜上緊密非話音音訊命令;及回應於該非話音命令以控制一語音啟動系統。
TW102107083A 2012-02-29 2013-02-27 使用時間上及/或頻譜上緊密音訊命令之控制 TWI503814B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/408,863 US10276156B2 (en) 2012-02-29 2012-02-29 Control using temporally and/or spectrally compact audio commands

Publications (2)

Publication Number Publication Date
TW201403587A true TW201403587A (zh) 2014-01-16
TWI503814B TWI503814B (zh) 2015-10-11

Family

ID=48950890

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102107083A TWI503814B (zh) 2012-02-29 2013-02-27 使用時間上及/或頻譜上緊密音訊命令之控制

Country Status (4)

Country Link
US (1) US10276156B2 (zh)
CN (1) CN103295571A (zh)
DE (1) DE102013002963A1 (zh)
TW (1) TWI503814B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
WO2018086521A1 (en) 2016-11-09 2018-05-17 Moore Kevin Daniel Martin Methods for reducing energy consumption in a heating, ventilation and air conditioning (hvac) system
CN109903751B (zh) 2017-12-08 2023-07-07 阿里巴巴集团控股有限公司 关键词确认方法和装置
CN112382281B (zh) * 2020-11-05 2023-11-21 北京百度网讯科技有限公司 一种语音识别方法、装置、电子设备和可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1226360A (en) 1983-06-29 1987-09-01 Edward B. Bayer Electronic sound detecting unit for locating missing articles
US5270480A (en) * 1992-06-25 1993-12-14 Victor Company Of Japan, Ltd. Toy acting in response to a MIDI signal
US5493618A (en) * 1993-05-07 1996-02-20 Joseph Enterprises Method and apparatus for activating switches in response to different acoustic signals
DE19517470A1 (de) 1995-05-12 1996-11-14 Sel Alcatel Ag Digitaler Anrufbeantworter
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6760276B1 (en) * 2000-02-11 2004-07-06 Gerald S. Karr Acoustic signaling system
US6820056B1 (en) * 2000-11-21 2004-11-16 International Business Machines Corporation Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system
JP5115058B2 (ja) * 2006-08-28 2013-01-09 株式会社Jvcケンウッド 電子機器の制御装置及び電子機器の制御方法
US20080083893A1 (en) * 2006-10-04 2008-04-10 Steven Rubenstein Voice-controlled faucet for water conservation
US20090182748A1 (en) * 2008-01-10 2009-07-16 Timothy Walker Interactive remote wireless system and method to assist in real estate transactions, and the like
TWI385932B (zh) 2008-03-26 2013-02-11 Asustek Comp Inc 遙控器以及其系統
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
KR101670741B1 (ko) * 2009-12-11 2016-10-31 엘지전자 주식회사 조명 장치
US8452260B2 (en) * 2010-03-25 2013-05-28 Hewlett-Packard Development Company, L.P. Methods and apparatus for unlocking an electronic device

Also Published As

Publication number Publication date
US20130226589A1 (en) 2013-08-29
US10276156B2 (en) 2019-04-30
CN103295571A (zh) 2013-09-11
DE102013002963A1 (de) 2013-08-29
TWI503814B (zh) 2015-10-11

Similar Documents

Publication Publication Date Title
US10783890B2 (en) Enhanced speech generation
EP2962300B1 (en) Method and apparatus for generating a speech signal
US10558763B2 (en) Automatic translation system, device, and method
EP2860730B1 (en) Speech processing
KR102158739B1 (ko) 자동통역 시스템, 디바이스 및 방법
JP2018528479A (ja) スーパー広帯域音楽のための適応雑音抑圧
US8645131B2 (en) Detecting segments of speech from an audio stream
EP1994529B1 (en) Communication device having speaker independent speech recognition
EP3928316A1 (en) End-to-end speech conversion
US20040148172A1 (en) Prosodic mimic method and apparatus
TWI503814B (zh) 使用時間上及/或頻譜上緊密音訊命令之控制
US20160358609A1 (en) Rapid speech recognition adaptation using acoustic input
US20050131709A1 (en) Providing translations encoded within embedded digital information
WO2014194273A2 (en) Systems and methods for enhancing targeted audibility
CN108810778B (zh) 用于运行听力设备的方法和听力设备
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US20220180886A1 (en) Methods for clear call under noisy conditions
JP4752516B2 (ja) 音声対話装置および音声対話方法
KR102088216B1 (ko) 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2005338454A (ja) 音声対話装置
JP2014230135A (ja) 通話装置及びマスキング音生成プログラム
JP2010164992A (ja) 音声対話装置
KR20090059437A (ko) 휴대 단말기 및 그 통화 기능 수행 방법
TWI824424B (zh) 語意評估之助聽調整裝置及其方法