TWI282547B - A method and apparatus to perform speech recognition over a voice channel - Google Patents

A method and apparatus to perform speech recognition over a voice channel Download PDF

Info

Publication number
TWI282547B
TWI282547B TW091132906A TW91132906A TWI282547B TW I282547 B TWI282547 B TW I282547B TW 091132906 A TW091132906 A TW 091132906A TW 91132906 A TW91132906 A TW 91132906A TW I282547 B TWI282547 B TW I282547B
Authority
TW
Taiwan
Prior art keywords
speech
bit stream
feature
voice
features
Prior art date
Application number
TW091132906A
Other languages
English (en)
Other versions
TW200301459A (en
Inventor
David L Graumann
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of TW200301459A publication Critical patent/TW200301459A/zh
Application granted granted Critical
Publication of TWI282547B publication Critical patent/TWI282547B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Transceivers (AREA)
  • Machine Translation (AREA)
  • Communication Control (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

1282547 Ο) 玖、發明·明 (發明說明應敘明:發明所屬之技術領域、先前技術、内容、實施方式及圖式簡單說明) 發明背景
語音辨認技藝在出入自動化系統方面已益成為平易之 事。舉例而言,可使用語音辨認遙控自動聲音反應系統, 出入聲音操縱之國際網路入口,控制家用自動系統等。然 而許多聲音頻道可能迄今未被設計為可容納語音辨認技 藝中之進展,此對無線電通信技藝可能係特別正確。結果 ,殊有在聲音頻道上改進語音辨認之需要,例如在行動或 方格式通信系統中所發現者。 圖式之簡單說明 視為本發明具體實例之主題係特別在本說明書之終結 部份予以指出及分別申請專利。然而,本發明之各實例中 有關操作之編組方法及其目的,特色及優點等可參照各附 圖一起閱讀之下列詳細說明獲致最佳之瞭解。 圖1為適於實行本發明之一具體實例之一系統。
圖2為根據本發明具體實例之一訊源節點之方塊圖。 圖3為根據本發明之一語音辨認編碼器之方塊圖。 圖4為根據本發明具體實例之一目的地節點之方塊圖。 圖5為根據本發明具體實例之一語音辨認解碼器之方塊圖。 圖6為根據本發明實例之語音辨認系統所完成程式規劃 邏輯之第一方塊流程圖。 圖7為根據本發明實例之語音辨認系統所完成程式規劃 邏輯之方塊流程圖。 圖艮據本發明實例之一代位透明圖之範例。
1282547 (2) 發明之詳細說明 本發明之各實例可指向用聲音編碼器/解碼器(π聲碼器”) 替代之分類語音辨認。聲碼器替代可認為以設計成改善語 音辨認性能之低頻帶寬替換取代傳統之聲音壓縮計劃。本 文中所用’’取代π —辭可認為以另一組資訊替換一組資訊 之全部或一部分。本發明之一實例敘述建立一種規約以於 適合時轉換至低頻帶寬計劃而提供語音辨認資訊,例如響 應於來自一自動系統之提示之聲音命令。更特別是本發明 之一實例將來自一端點之語音特徵編碼以及將語音特徵 重疊於代表該編碼語音之聲碼器位元流上。另一端點則可 接收該語音特徵及將其解碼以便語音辨認模組或裝置使 用。 本發明之一實例可包含在一聲音頻道例如係行動或分 格式通信系統一部分之一聲音頻道上進行語音辨認之方 法與裝置。本發明之一實例可包含語音辨認編碼器及一語 音辨認解碼器。語音辨認編碼器可用表示語音特徵之資訊 位元替換代表語音之資訊位元、語音特徵可在一網路例如 一無線電網路之聲音頻道上傳遞。該語音辨認解碼器可接 收語音特徵及完成語音辨認。將語音特徵編碼及解碼以取 代語音之方法在本文中可稱為”代位"(Subrogation)。 本發明之各具體實例具有數優點。舉例而言,行動或方 格式通信系統利用射頻(RF)以在各裝置間傳達資訊。射頻 可分隔成一或更多之聲音頻道。不過該等聲音頻道乃受到 所謂可傳達之資訊量之限制,該資訊量常以頻帶寬(BW) 1282547 (3) 一辭度量之,為以較佳方式利用現行行動通信聲音頻道之 B W起見,許多行動系統使用壓縮技術以減少所需代表語 音之位元數。本發明之一實例可進一步減少此項數量,其 法為以表示該語音之語音特徵數之取代表示該語音之位 元。此外,語音特徵可在此取代程序之前予以壓縮因而進 一步減少用以表示語音特徵之位元。本發明之此實例可使 用傳統之無線電技藝付諸實施,並以另加之硬體及或軟體 完成本文該等功能。 在此詳細說明中,述及許多特殊之細節情形以期對本發 明之各具體實例有徹底之瞭解。然而熟諳本技藝在可瞭解 本發明之各實例可無該等特殊詳細說明付諸實施。在其他 之事例中,並未詳述熟知之方法,程序,組件及電路,俾 使本發明之各具體實例不致於含糊難解。可瞭解者為本文 所揭露之特殊結構與功能細節乃係代表性而不必對本發 明之範圍有所限制。 本發明之一實例可包括可作為由一處理機,硬體電路或 結構或兩者之組合執行之一軟體所完成之功能。該處理機 可為通用或專用處理機,例如獲自摩托羅拉公司,英特爾 公司,太陽微處理公司及其他公司所製處理機族類之一處 理機,該軟體可包含用以完成本發明一具體實例之某種功 能之程式規劃邏輯,指令或資料。該軟體可儲存於以一機 器,電腦可讀出之裝置,例如僅讀記憶器(ROM)隨機存取 記憶器(RAM),磁碟(例如響碟及硬激發器)光碟(例如 CD-ROM)或任何其他之資料儲存媒體能存取之一裝置 (4) 1282547 中。在本發明之一實例中,該等裝置可儲> 密譯格式之程式規劃指令,以.及在處理機執 裝設員予以編碼或安裝之指令。另一方式, 例可作為含有硬線邏輯以完成所列功能之 付諸實施,或由程式規劃之一般目的電腦組 組件予以完成。 值得注意者,本說明書中涉及”某一實例 處意指關於該實例該等顯著特色,結構或特 發明之至少一實例中。在本說明書各處出i 一實例中’’並不一定全指同一實例。 現詳細述及各附圖,其中相等之各零件係 之參考編號。在圖1中所示者為適於實施本 例之系統。圖1為語音辨認系統100之方塊圖 統100可包含一訊源節點102及一目的地節】 路104連接之。在本發明之一實例中,訊源 例如一行動電台(M S ),如一行動電話機或 電話機。在本發明之一實例中,目的地可包 電台(BS)或一行動電話交換所(MTSO)。在 例中,網路104包含一無線電網路,使用射 源節點102與目的地節點106間互通資訊之ϋ 值得注意者,任何有關BS,MS,MTSO該 能在系統100之其他處完成,但仍在本發明 例而言,探測一 M S之代位能力可由該網路 MTSO或別處著手,而仍在本發明之範圍内 存具壓縮及/或 行之前須由一 本發明之一實 特定硬體組件 件及習用硬體 ”或”一實例”之 性乃包括於本 見之措辭”在某 全部註以同樣 發明之某一實 丨。語音辨認系 结106,以一網 節點102可包含 分格式系統用 含一行動基地 本發明之一實 頻頻譜作為訊 L信傳導體。 等代位功能可 之範圍内。舉 中之BS,MS, 1282547 (5) 目的地節點106可包括用硬體及/或軟體組成之一用途 伺服器,以操作為同能接收語音辨認輸出之一自動系統 (未圖示),語音辨認輸出可包含例如語言至本文輸出。此 處所用”自動系統” 一辭可指以有限人為干涉進行操作之 系統。一自動系統之範例可包含例如一 IVR系統,國際網 路聲音門,家用自動系統及自動之人名錄協助申請,雖然 本發明之各實例並勿限於此點。 圖2為根據本發明之一實例之一訊源節點之方塊圖。圖2 舉例說明可代表例如訊源節點102之一訊源節點200。在本 發明之一實例中,訊源節點200包含一麥克風202,一變換 器204,一聲碼器206,一語音辨認編碼器208及一收發(兩 用)機210 。 在本發明之一實例中,麥克風202可接收來自例如一揚 聲器之類比語音信號。麥克風202可將此類比語音信號發 送至變換器204。 在本發明之一實例中,變換器204可為例如類比至數位 (A/D)變換器。變換器204可將類比語音信號變換成以位元 流或順序表示之位元語音信號。每一位元可表示一(1)或 零(0)。變換器204可將位元流送至聲碼器206及語音辨認編 碼器208。 聲碼器206可完成任何傳統之聲音壓縮算法以縮減數位 語音信號。舉例而言,在本發明之一實例中,聲碼器206 可根據1996年3月批准之名稱為”供多媒體通信發送於5.3 及6.3 k/bps用之雙率語音編碼器”之國際電信協會(ITU)推
1282547 ⑺ 02 ’ 一無載特徵製造器3〇8,一發聲終結指示器31〇,一 特徵重疊器312及一能力監控器314。 特徵編碼焱302可包含一特徵擷取器3〇4及一特徵壓縮 器306。特徵揭取器3〇4可從語音輸入信號例如來自變換器 2〇4<數位語音信號提取語音之特徵。該語音特徵可包含 J 士特徵向量。在本發明之一實例中,特徵擷取器3⑽可 根據20〇〇年4月肖·《名稱為"語音處理,傳輸與品質標記 y刀布之浯音辨認’前端特徵擷取算法,壓縮算法,|
:士 ·丨% l裇準學院(ETSI)標準es 2〇ι ι〇8 νΐι·2(極光規 範)彳疋取語音之各項特徵。 在本發明足另一實例中,輸入語音信號可代表麥克風 士五立接收及傳遞至浯音編碼器300之類比語音信號。擷取 本發特徵 < 任何習用算法可由特徵擷取器3〇4完成並係在 法發月又範圍内。特徵壓縮器3〇6可使用任何習用壓縮算 1將語音特徵壓縮成位元之減縮數。經壓縮之語音特徵可 傳遞至特徵重疊器312。
^裁诗徵製造器3〇8可在_變換器之靜音期間提供擬 先決,4器312使用之固定低位元率向量。該等向量< 對而並不如同在特徵編碼器302中乃從變換器提取 編碼器302或在特徵重疊器3丨2中無載特徵製造 制之。使用可由發聲終結指示器310中之發聲終結決定 劃 I ^ ϋ結指示器3丨〇可完成任何傳、统之聲音活動探别計 崔疋浯音發聲之開始點與終止點及鑑定靜音期間。特 -11 - !282547 ⑻ 徵里S器3 12可使用此訊息以控制語立 哭 』m s持徵之重®或聲碼 :_ 2流之靜音期間。發聲終結指示器310可監控語音及 ;:有效之語音於特徵重疊器312。如若能力監控器314指 講/万式乃係適#,然則將各特徵重疊。當揚聲器停止 自:,發聲終結指示器310可指示無語音活動及可使用來 2載特徵製造器說,,無載特徵",此可能為吾人所欲 有例如可與基地電台BS 106保持同步。
特徵重疊器M2可將壓縮之語音特徵編碼成為各位元訊 框。以框之大小匹配聲碼器2〇6所用之框尺寸,如若需要, 亦可將此功能用作特徵編碼器3〇2之_部分。特徵重疊器 312可用表示特徵編碼器3〇2所編碼的語晋特徵之各位元 訊框取代表示聲碼器206所編碼的語音之各位元訊框。特 徵重疊器312亦可將各種發信號圖型寫在聲碼器位元上, 該等圖型乃用以控制代位程序,例如指示代位能力,代位 開始點及終止點及其他規程型式之資訊。
能力監控器314可探測目的地是否能接收代位位元流。 能力監控器3丨4可監控對語音辨認訊息之申請。語音辨認 訊息可包括例如對一聲音命令及一代位指標之提示。本文 中所稱”聲音命令提示”一辭可包含對來自一自動系統例 如一 IVR系統之口述訊息之任何要求。代位指標可為例如 埋於聲碼器位元流内之預先規定之位元型式。在本發明之 一實例中,位元型式可為聽不見或幾乎聽不到以便降低使 用者之分心。一俟探測到時,能力監控器314可通知語音 辨認編碼器開始代位計劃之傳輸。在目的地不能接受代位 •12-
1282547 (9) 位元流之情況中,可將語音辨認編碼器旁路及恢復正常之 聲碼咨操作。此可由聲音命令提示之接收及不接收一代位 指標表示之。由於無線電聲音頻道之”有損”,可使用一重 要之匹配算法以探測聲音命令提示及/或代位指標之存在 或缺乏。
圖4為根據本發明實例之一目的地之方塊圖。圖4例示可 代表例如目的地節點106之一目的地節點400。目的地節點 400可包含例如一收發機402,一聲碼器404及一語音辨認 解碼器406。收發機402及聲碼器404分別與收發機210及聲 碼器206相似。語音辨認解碼器406之輸出可由任何語音辨 認用途例如用於自動系統之語音至本文應用。 圖5為根據本發明一實例之語音辨認解碼器之方塊圖。 圖5例示一語音辨認解碼器5〇〇。語音辨認解碼器5〇〇可包 含一起始監控器502,一可能性廣播器504,一特徵解碼器 5 12及語音辨認模組514。
特徵解碼器506可另包含一特徵重建器5〇8及一特徵解 壓縮器510。特徵重建器508可除去代位信號場及將收自一 訊源節點在一或更多框中之語音特徵斷片連結成完整之 特徵訊包◊重建之訊包可傳送至特徵解壓縮器51〇。 特徵解壓縮器510可再構成來自壓縮語音特徵訊包之語 音特徵。特徵解塾縮器510亦可應用語音辨認編碼器所供 給之任何錯誤校正。各語音特徵可被傳送至語音辨認模組 514 〇 語音辨認模組5M可將各語音特徵解碼成為本文。語音 -13- 1282547 (10)
辨認模組5 14可代替内之語音辨認器具之支部,而不輸入 數位語音信號及施加特徵擴取。然而該模組卻接收來自訊 源節點之預先擷取特徵作為輸入。該原訊可由任何自動之 系統或傳統之語音至本文應用使用之。 特徵擷取器512可與語音辨認編碼器302之特徵擷取器 3 04相似。特徵擷取器5 12可在目的地並無代位可能性之狀 況下從聲碼器404解碼之語音中擷取語音特徵。在此事例 中,起動監控器502可發送一信號至語音辨認514以使用語 音擷取器5 12之輸出進行語音辨認而非使用特徵解碼器 506之輸出。 系玩100-5 00之操作可參照圖6-8及所附實例作進一步說 明。雖然本案所提出之圖6-8可包括一特殊之處理邏輯, 可暸解者為該處理邏輯僅提供本案該等一般功能性能如 何完成之範例。又在所述處理邏輯内之每一操作除非另有 指示並非一定須以所提出之次序實行。 圖6為根據本發明實例由一語音辨認系統實施之程式規 劃邏輯之第一方塊流程圖。圖6例示實施語音辨認之程式 規劃邏輯600。在方塊602處,可接收表示語音之一組信 號。在方塊604處對語音辨認資訊之申請可在一口信頻道 上收到。在方塊606處一組語音特徵則可從該等信號產 生。在方塊608處語音特徵可在聲音頻道上傳遞。 在本發明之一實例中,該申請可包含接收一聲音命令之 提示。該申請亦可包括一代位指標,例如預先規定之位元 型式。又在本發明之另一實例中,該申請可僅包含一代位 •14- 1282547 (12) r---- —可用該起始及終止指標 圖7為、 邏輯之〜以根據本發明實例之語音辨認系統完成程式規劃 塊又罘二方塊流程圖。圖7例示程式規劃邏輯7〇〇。在方 上0〜處可將對語音辨認資訊之請求發送於一聲音頻道 方3在方塊704處,可在該聲音頻道上收到語音特徵。在 鬼7〇6處’可使用該語音特徵辨認語音。 σ在本發明之一實例中,對語音辨認之請求可用聲音命令
疋7及/或代位指標之形式發送於一聲音頻道 指標可Α、、 上4代位 冯位兀《預定型式(Predefined Pattern)。 在本發明之一實例中,語音特徵可由確定一位元流之起 訪.”、及、,冬止點而在聲音頻道上予以接收。各語音特徵可從 始點重建,可將重建之語音特徵解壓縮以形成原有: 浯音特徵。該等已解壓縮之語音特徵可發送至語音辨認裝 置。繼續進行此程序直至到達終止點為止。
在本發明之一實例中,錯誤校正可從位元流中擷取錯誤 校正資訊達成。可使用該錯誤校正資訊對語音特徵是否包 括錯誤作一決定。 圖8為根據本發明中一實例之一代位疊置之範例。圖8 中該等代位疊置程序可使用一國際網路規約(Ip)電話學 實例,該實例使用G·723規格及極光規格。雖然本發明之 各實例並不限於此論題,一俟最初能力規約已建立而可開 始代位,較高BW訊包之位元型式係以較低BW訊包取代。 特徵疊置器與特徵重建器一起操作以實施位元替換。在此 只例中一極光特徵框記數#吾音之240毫秒(msec)而一 g. 723 • 16 -
1282547 (13)
框則記述語音之30 msec。含有該特徵框之144位元部分可 置於連續之G. 723框中。根據極光規格,特徵同步及特徵 標題資訊在實際特徵位元之前。該等操作對於代位程序乃 屬顯而易見。可使用另外之位元以保持兩個端點例如訊源 節點與目的地節點間之代位信號同步。該等代位同步位元 可指出整個特徵框之何部分係在G. 723框内發送,包括何 時起始點及終止點發生。在本發明之另一實例中,此可使 用例如框位元之條帶圖完成之。 更特別者,圖8例示框802之第一組,框806之第二組, 框808之第三組及一代位同步組804。在此實例中,框組802 包括八個框802a至802h。在本發明之一實例中,各框係根 據G.723規格予以產生,以總共1392位元表示具有語音之 240毫秒(msec)之所有八個框及以174位元表示具有語音之 3 0號毫秒(msec)之每一框。
框組806亦含有八個框806a-806h。在本發明之一實例 中,各框係根據極光規格予以產生。框組806亦分成為30 msec之各框以144位元代表每一框。不過語音特徵資訊之 單一 3 0毫秒框可表示語音之240毫秒價值,因而代表一因 數八之B W縮減。視本發明一特定實例所用之語音特徵擷 取技藝而定,語音特徵資訊可包含例如特徵同步資訊,特 徵標題資訊及特徵訊包。特徵訊包則可包含例如表示語音 特徵之各位元之訊包。 如圖8中所示,代位疊置方法可包含採取語音特徵資訊 之一框,加上一同步標題例如代位同步組804,及將此資 -17- 1282547 (14) 訊疊置於來自框組802之一語音框上。舉例而言,框組806 之框806a可與代位同步組804合併及置於框組802之框802a 上。相似者,框組806之框806b可與代位同步組804合併及 置於框組802之框802b上。此一疊置法可繼續進行,直至 在目的地節點之語音辨認解碼器收到所有之語音訊包為 止。
系統100-500之操作及圖6-8可經由實例獲致更佳之瞭 解。假定訊源節點102係例如一分格式系統中電話機之行 動台。假定目的地節點106係連接於具有軟體應用以完成 自動查號協助之一申請服務台。訊源節點102及目的地節 點1U6在一無線電網路104上通信,該無線電路包括使用射 頻頻譜界定之聲音頻道。一用戶發起與該申請服務台之連 接。該服務台提供用戶以如何使用該項服務之介紹訊息。 此項訊息乃使用一正常聲音壓縮計劃例如GSM或G. 723予 以發送。
該然後給予一姓名之聲音提示以開始查號協助搜索。在 目的地節點106處,能力廣播器504可注入一種包含聽不見 或幾乎聽不到型式之代位指標於標準之聲碼器位元流以 指示此端點能接收一代位位元流。該型式可為任何預定之 型式,以及係所用特定聲碼機之一項功能。在此實例中, G.723之增益位元可置於最低之調節,及可使用生理學上 不像是真的向量順序作為信號型式。此種信號型式可相隔 數個位元訊框。在另一實例中,一種精神上聽覺之掩蔽可 用作該型式。視該特定聲碼器及型式設計而定,可能須使 -18 - (16) 1282547 序《在此實例中,特徵擷取器304使用16千赫16位元取樣 尺寸於特徵揭取。特徵揭取器304發送擷取之語音特徵或 特徵向量至特徵壓縮器306。特徵壓縮器3〇6壓縮特徵向量 為一較低B W位元流,及如屬適合可應用錯誤校正。此經 壓縮之位元流可傳遞至特徵疊置器3丨2。 特欲璺置咨3 12接收已壓:縮之位元流及開始代位疊置程 序特徵疊置器312接收表示來自聲碼器206語音之位元 流,並將該信號型式及特徵向量寫在聲碼器位元上面。一 4矢此力監控器3 14探測到 代位指標,特徵疊置器3 12可發 送聲碼器訊包内特徵塹式之一固定起始點。此可接續以從 對準聲碼器之適當框尺寸之特徵向量所擷取之順序位 元。此可根據參照圖8該等方法完成。 在目的地節點106,特徵重建器508可開始除去代位信號 場及將收自訊源節點102之特徵斷片鏈接成完整之特徵訊 包。然後將重建之特徵訊包發送至特徵解壓縮器5 10。特 徵解壓縮器510可再組成特徵向量及應用特徵签縮器3〇6 所供給之任何錯誤校正。然後特徵向量被傳送至語音辨認 模組5 14 ^ 語音辨認模組5 14可接收特徵向量及將其轉換成本文, 或在此例中希望有用於個人姓名之號碼。語音辨認模組 514可包含例如一内裝之語音辨認機具,在意義上並不實 &特徵揭取,但可接收先前掏取之特徵向量作為語音辨認 過程之輸入。語音辨認模組5 14可發送所申請名稱之本文 至自動之查號協助軟體以開始該號碼查尋。 •20- 1282547 (17) 在若干事例中,目的地節點106可接收來自一訊源節點 之聲音命令,而該訊源節點乃係不能發送一代位位元流 者。在此狀況下,起始監控器502可將語音辨認模組514之 輸入轉接至特徵擷取器512之輸出。特徵擷取器512乃與特 徵擷取器304相似,雖然在若干實例中,特徵擷取器512或 需裝配成可使用所用之特殊聲碼器提供之位元率及樣品 大小。例如此可為8千赫具有小於1 6位元之樣品尺寸。
在另一實例中,由一遙控端點所作代位能力探測可在呼 叫建立期間發生。此可減少或排除在逐一發聲(utterance-by -utterance)基礎上或在語音資訊之每一申請基礎上進行探 測程序之需要。在此範例中,一旦查代代位可能性 > 一使 用者在MS上發出之所有通信可使用代位發送一聲音頻道 上。不過來自一自動系統或BS之通信可根據習用之聲音 壓縮技術發送於該聲音頻道。
雖然本發明各實例之若干特點已如本文中述者予以舉 例說明。許多修正,代替,改變及相等者目前可為熟諳本 技藝者所想到。因此,須瞭解者為所附之申請專利範圍志 在涵蓋所有該等修正與改變,因其均落在本發明各具體實 例之真正精神内。 圖式代表符號說明 100 語音辨認系統 102 訊源節點 104 網路 106 目的地節點 -21 - 1282547(18) 202 麥 克 風 204 變 頻 器 206 聲 碼 器 208 語 音 辨 認 編 碼 器 210 收 發 機 308 無 載 特 徵 製 造 器 310 發 聲 終 結 指 示 器 312 特 徵 重 疊 器 314 能 力 監 控 器 406, 500 語 音 辨 認 解 碼 器 502 起 始 監 控 器 504 能 力 廣 播 器 506 特 徵 解 碼 器 508 特 徵 重 建 器 510 特 徵 解 壓 縮 器 512 特 徵 揭 取 器 514 語 音 辨 認 模 組 600 程 式 設 計 邏 輯 802 訊 框
-22-

Claims (1)

  1. I282^(43329〇6^#^jtttt 日修(更)正本 中文申請專利範圍替換本(94年11月)L·— 拾、申請專利範圍 1. 一種實施語音辨認之方法,包含: 接收表示語音之一組信號; 在一聲音頻道上接收語音辨認資訊之申請; 從該等信號產生一組語音特徵;及 在該聲音頻道上傳達該語音特徵。 2. 如申請專利範圍第1項之方法,其中接收該申請包含: 接收對一聲音命令之提示;及 接收一代位指標(Subrogation indicator)。 3 .如申請專利範圍第2項之方法,其中該代位指標係一預 先定義位元模式。 4.如申請專利範圍第1項之方法,其中該產生過程包含: 從該等信號擷取該等語音特徵;及 壓縮該等語音特徵。 5 .如申請專利範圍第4項之方法,另包含執行該等已壓縮 語音特徵之錯誤校正。 6. 如申請專利範圍第4項之方法,另包含確定在該等信號 中之靜音期間。 7. 如申請專利範圍第1項之方法,其中該傳達過程包含: 產生表示該語音之第一位元流; 接收表示該語音特徵之第二位元流; 以該第二位元流取代該第一位元流;及 在該聲音頻道上發送該第二位元流。
    1282547 8. 如申請專利範圍第7項之方法,其中該產生過程包含: 接收一表示該語音之類比音頻波形; 將該類比音頻波形轉換成一數位音頻信號;及 使用聲音編碼算法壓縮該數位音頻信號。 9. 如申請專利範圍第7項之方法,其中該取代過程包含: 確定該第一位元流之一起始點與一終止點; 確定該第二位元流之一起始點與一終止點;及 使用該等起始點與終止點以該第二位元流取代該第 一位元流。 10. 如申請專利範圍第9項之方法,其中使用該等起始點與 終止點以該第二位元流取代該第一位元流之過程包 含: (a) 從該第一位元流之起始點產生一位元訊框; (b) 以該第二位元流之起始點疊置該位元訊框; (c) 在該聲音頻道上發送該位元訊框;及 (d) 繼續進行(a)-(c)直至到達該第二位元流之終止 點為止。 11. 如申請專利範圍第9項之方法,其中該發送過程包含: 在該第二位元流之起始點前插入一開始指標及在該 第二位元流之終止點之後插入一終結指標;以及 發送具有該開始指標與該終結指標之第二位元流。 12. —種實施語音辨認之方法,包含: 在一聲音頻道上發送對語音辨認資訊之申請; 在該聲音頻道上接收語音特徵;及 -2- 1282547
    使用該語音特徵辨認語音。 13. 如申請專利範圍第1 2項之方法,其中該發送過程包含: 發送一聲音命令之提示;及 發送一代位指標。 14. 如申請專利範圍第1 3項之方法,其中該代位指標係一 預先定義位元模式。 15. 如申請專利範圍第1 2項之方法,其中該接收過程包含: (a) 確定一位元流之起始點與終止點; (b) 從該起始點開始重建語音特徵; (c) 將該語音特徵解壓縮; (d) 發送該等已解壓縮語音特徵至一語音辨認裝置 ;以及 (e) 進行(a)-(d)處理,直至到達該終止點為止。 16. 如申請專利範圍第15項之方法,另包含: 從該位元流擷取錯誤校正資訊;及 使用該錯誤校正資訊確定該等語音特徵是否包含錯 誤。 17. —種實施語音辨認之系統,包含: 一訊源節點,用以發送語音特徵; 一目的地節點,用以接收語音特徵及實施語音辨認 :及 一網路,藉由將語音特徵疊置於一聲音頻道上以在 該訊源節點與目的地節點間傳達該等語音特徵。 18. 如申請專利範圍第1 7項之系統,其中該訊源節點包含:
    1282547 一收發機,用以與該目的地節點之間傳達資訊; 一能力監控器,監控來自該收發機之語音辨認資訊 申請; 一聲碼器,用以產生一表示語音之第一位元流; 一特徵編碼器,用以產生一表示該語音的語音特徵 之第二位元流;及 一特徵疊置器,用以將該第二位元流覆蓋於該第一 位元流及發送該第二位元流至該收發機,以與該目的 地節點通信。 19. 如申請專利範圍第1 7項之系統,其中該特徵編碼器包 含·· 一特徵擷取器,用以從該語音擷取語音特徵;及 一特徵壓縮器,用以將該語音特徵壓縮成該第二位 元流。 20. 如申請專利範圍第1 7項之系統,其中該目的地節點包 含: 一收發機,用以對該訊源節點傳達資訊; 一能力廣播器,用以傳達語音辨認申請至該訊源節 點; 一起始監控器,用以監控來自該收發機之一具有語 音特徵之位元流, 一特徵解碼器,用以將來自該位元流之語音特徵解 碼;及 一語音辨認模組,用以將該語音特徵譯成本文。 1282547
    21. 如申請專利範圍第20項之語音辨認解碼器,其中該特 徵解碼器包含: 一特徵重建器,用以從該位元流重建語音特徵;及 一特徵解壓縮器,用以將重建之語音特徵解壓縮。 22. 如申請專利範圍第1 7項之系統,其中該網路係一無線 網路。 23. —種語音辨認編碼器,包含: 一能力監控器,用以監控對語音辨認資訊之申請; 一聲碼器,用以產生一表示語音之第一位元流; 一特徵編碼器,用以產生一表示該語音之語音特徵 之第二位元流;及 一特徵疊置器,用以將該第二位元流覆蓋於該第一 位元流。 24. 如申請專利範圍第23項之語音辨認編碼器,其中該特 徵編碼器包含: 一特徵擷取器,用以從該語音擷取語音特徵;及 一特徵壓縮器,用以將該語音特徵壓縮成該第二位 元流。 25. —種語音辨認解碼器,包含: 一能力廣播器,用以傳達一語音辨認申請; 一起始監控器,用以監控一具有語音特徵之位元流; 一特徵解碼器,用以將來自該位元流之語音特徵解 碼;及 一語音辨認模組,用以將該語音特徵譯成本文 •攀戀illlr圈.雜 1282547 26. 如申請專利範圍第2 5項之語音辨認解碼器,其中該特 徵解碼器包含: 一特徵重建器,用以從該位元流重建語音之特徵;及 一特徵解壓縮器,用以解除所重建語音特徵之壓縮。 27. —種電腦可讀取媒體,其包含儲存之指令,由一處理 器執行該等指令以完成語音辨認,所用之方法為接收 表示語音之一組信號,在一聲音頻道上接收對語音辨 認資訊之申請,從該信號產生一組語音特徵,及在該 聲音頻道上傳達語音特徵。 28. 如申請專利範圍第27項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步藉接收對一 聲音命令之提示及接收一代位指標達成該申請之接收。 29. 如申請專利範圍第27項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步藉從該等信 號擷取語音特徵及壓縮該等語音特徵而導致該產生一 組語音特徵之過程。 30. 如申請專利範圍第27項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步藉產生一表 示該語音之第一位元流,接收一表示語音特徵之第二 位元流,用該第二位元流取代該第一位元流及在該聲 音頻道上發送該第二位元流而達成該傳達語音特徵之 過程。 31. 如申請專利範圍第3 0項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步藉接收表示 1282547 該語音之類比音頻波形,將該類比音頻波形轉換成數 位音頻信號,及使用聲音編碼算法壓縮該數位音頻信 號而達成該產生過程。 32. 如申請專利範圍第3 0項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步藉確定該第 一位元流之起始點與終止點,確定該第二位元流之起 始點與終止點,及使用該等起始點與終止點,以第二 位元流替代該第一位元流而達成該取代過程。 33. 如申請專利範圍第32項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步完成使用該 等起始點及終止點以第二位元流取代第一位元流,其 方法為(a)從該第一位元流之起始點產生一位元訊框, (b)以第二位元流之起始點覆蓋該位元訊框,(c)在聲音 頻道上發送該位元訊框及(d)繼續進行(a)-(c)直至到達 該第二位元流之終止點為止。 34. 如申請專利範圍第3 2項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步藉在該第二 位元流起始點之前插入一起始指標,及在第二位元流 終止點之後插入一終止指標,以及發送具有該起始與終 止指標之第二位元流而達成該發送過程。 35. —種電腦可讀取媒體,其包含儲存之指令,由一處理 器執行該等指令,藉在一聲音頻道上發送對語音辨認 之申請,接收在該聲音頻道上之語音特徵及使用該語 音特徵辨認語音而導致語音辨認之完成。 1282547
    36. 如申請專利範圍第3 5項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以處理時,進一步藉發送一聲 音命令之提示及發送一代位指標而達成該發送過程。 37. 如申請專利範圍第3 5項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步以(a)確定一 位元流之起始點與終止點,(b)從該起始點重建語音特 徵,(c)將該語音特徵解壓縮,(d)發送已解壓縮之語音 特徵至一語音辨認裝置及(e)進行(a)-(d)直至到達該終 止點而達成該接收過程。 38. 如申請專利範圍第3 7項之電腦可讀取媒體,其中所儲 存之指令由一處理器予以執行時,進一步從該位元流 擷取錯誤校正資訊,及使用該錯誤校正資訊確定語音 特徵是否包括錯誤。 第091132906號專利申請案 中文圖式替換頁(95年12月)
TW091132906A 2001-11-30 2002-11-08 A method and apparatus to perform speech recognition over a voice channel TWI282547B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/000,228 US7139704B2 (en) 2001-11-30 2001-11-30 Method and apparatus to perform speech recognition over a voice channel

Publications (2)

Publication Number Publication Date
TW200301459A TW200301459A (en) 2003-07-01
TWI282547B true TWI282547B (en) 2007-06-11

Family

ID=21690506

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091132906A TWI282547B (en) 2001-11-30 2002-11-08 A method and apparatus to perform speech recognition over a voice channel

Country Status (8)

Country Link
US (1) US7139704B2 (zh)
EP (1) EP1435086B1 (zh)
CN (1) CN1265352C (zh)
AT (1) ATE422087T1 (zh)
AU (1) AU2002364899A1 (zh)
DE (1) DE60231049D1 (zh)
TW (1) TWI282547B (zh)
WO (1) WO2003046885A2 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US7292689B2 (en) * 2002-03-15 2007-11-06 Intellisist, Inc. System and method for providing a message-based communications infrastructure for automated call center operation
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US8615409B1 (en) 2005-04-15 2013-12-24 Recovery Data-Connect, L.L.C. System and method for identification, perfection, collection, and valuation of third-party claims including subrogation claims
TWI409803B (zh) * 2005-06-30 2013-09-21 Lg Electronics Inc 音頻訊號之編碼及解碼方法及其裝置
US8483381B2 (en) 2006-10-27 2013-07-09 At&T Intellectual Property I, L.P. Methods and apparatus to provide contact management with directory assistance
CN101436404A (zh) * 2007-11-16 2009-05-20 鹏智科技(深圳)有限公司 可会话的类生物装置及其会话方法
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
US10785681B1 (en) * 2019-05-31 2020-09-22 Huawei Technologies Co., Ltd. Methods and apparatuses for feature-driven machine-to-machine communications

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5483579A (en) * 1993-02-25 1996-01-09 Digital Acoustics, Inc. Voice recognition dialing system
GB2280820A (en) * 1993-07-29 1995-02-08 Ibm Distributed system for call processing
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5822727A (en) * 1995-03-30 1998-10-13 At&T Corp Method for automatic speech recognition in telephony
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6292781B1 (en) * 1999-05-28 2001-09-18 Motorola Method and apparatus for facilitating distributed speech processing in a communication system
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Also Published As

Publication number Publication date
WO2003046885A3 (en) 2004-05-06
CN1628339A (zh) 2005-06-15
AU2002364899A8 (en) 2003-06-10
CN1265352C (zh) 2006-07-19
WO2003046885A2 (en) 2003-06-05
AU2002364899A1 (en) 2003-06-10
EP1435086B1 (en) 2009-01-28
TW200301459A (en) 2003-07-01
US20030105635A1 (en) 2003-06-05
EP1435086A2 (en) 2004-07-07
US7139704B2 (en) 2006-11-21
ATE422087T1 (de) 2009-02-15
DE60231049D1 (de) 2009-03-19

Similar Documents

Publication Publication Date Title
US7627471B2 (en) Providing translations encoded within embedded digital information
US8868430B2 (en) Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
US9552815B2 (en) Speech understanding method and system
US7346496B2 (en) Method and apparatus to perform speech recognition over a data channel
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
RU2434333C2 (ru) Устройство и способ передачи последовательности пакетов данных и декодер и аппаратура для распознавания последовательности пакетов данных
US20110044324A1 (en) Method and Apparatus for Voice Communication Based on Instant Messaging System
WO1997037449A1 (en) Digital audio data transmission system based on the information content of an audio signal
CN101299632A (zh) 通过音频通信系统的数据传输的同步及段类型检测方法
WO2002060070A2 (en) System and method for error concealment in transmission of digital audio
JP2000187496A (ja) デジタル無線チャネル上の自動音声/話者認識
TWI282547B (en) A method and apparatus to perform speech recognition over a voice channel
US20100198594A1 (en) Mobile phone communication gap recovery
US7177801B2 (en) Speech transfer over packet networks using very low digital data bandwidths
CN109743529A (zh) 一种多功能视频会议系统
WO2019075829A1 (zh) 语音翻译方法、装置和翻译设备
KR101243568B1 (ko) 무선 전화기 네트워크의 음성 채널을 통한 데이터 전송을 위한 시스템, 방법 및 장치
CN111199745A (zh) 广告识别方法、设备、媒体平台、终端、服务器、介质
JP2002530931A (ja) 分散音声認識プロセスにおける受信データの処理方法および装置
JP2003005949A (ja) サーバ・クライアント型音声認識装置及び方法
CN113035226B (zh) 语音通话方法、通信终端和计算机可读介质
JP3343002B2 (ja) 音声帯域情報伝送装置
Maes et al. Conversational networking: conversational protocols for transport, coding, and control.
KR100428717B1 (ko) 무선 데이터 채널상에서의 음성파일 송수신 방법
JP2000151827A (ja) 電話音声認識システム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees