TW200301460A - Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device - Google Patents

Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device Download PDF

Info

Publication number
TW200301460A
TW200301460A TW091136397A TW91136397A TW200301460A TW 200301460 A TW200301460 A TW 200301460A TW 091136397 A TW091136397 A TW 091136397A TW 91136397 A TW91136397 A TW 91136397A TW 200301460 A TW200301460 A TW 200301460A
Authority
TW
Taiwan
Prior art keywords
voice
sound
recognition
language
instruction
Prior art date
Application number
TW091136397A
Other languages
English (en)
Inventor
Seiichi Kashihara
Tadasu Oishi
Katsumasa Nagahama
Hideyuki Yamagishi
Original Assignee
Asahi Chemicl Ind
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Chemicl Ind filed Critical Asahi Chemicl Ind
Publication of TW200301460A publication Critical patent/TW200301460A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)

Description

20ϋ301 :υί) Α7 Β7 五、發明説明(1) 發明所屬之技術領域: 本發明乃關於以聲音來控制一般生活環境中所使用的 機器之聲音辨識方法,以及採用此聲音辨識方法之遙控裝 置及資訊終端裝置,以及電話通訊終端及聲音辨識裝置。 先前技術: 於以往的遙控裝置中,針對1個機器必須設置1個遙 控裝置,而以1個遙控裝置來遠距控制其他機器,一般而 言是不可能。例如,無法用電視的遙控裝置來遠距控制冷 氣。此外,於遙控裝置中,因應所欲控制的操作內容設置 多數的按鍵,並在按鍵壓下的狀態下來選擇對對象機器的 控制信號,並將之傳送至對象機器。於錄放影機等的情況 下,具有欲接收的電視台的選擇鍵、預約節目的時間指定 鍵、設定磁帶的進行狀態的按鍵等多數的操作鍵,因而使 操作性變得繁瑣。此外,因爲每個對象機器必須個別設置 遙控裝置,因此使用者必須正確掌握哪個遙控裝置對應哪 個對象機器,而使操作性變得繁瑣。 而目的不僅在於消除上述多數按鍵,還在於以單一的 遙控裝置來操作控制多數的對象機器之遙控裝置,則例如 公開於日本特開平2- 1 7 1 098號公報。於此先前技術中,乃 以聲音輸入來指示遠距控制內容,並依循此聲音辨識結果 來產生控制信號。於此先前技術之聲音辨識遙控裝置中, 準備了可以將對應於多數的操作對象機器之聲音辨識結果 轉換爲機器控制碼之可重寫對應表,並且此對應表可因應 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 零裝· 訂 經濟部智慧財產局員工消費合作社印製 -5- ϋ30Κυ〇 A7 B7 五、發明説明(2) (請先閱讀背面之注意事項再填寫本頁} 操作對象的操作機器來加以重寫。於此對應表的重寫操作 中,必須對每個對象機器插入記憶了轉換碼對應表之1C卡 之操作,於更換對象機器的情況下,則必須尋找所對應的 IC卡。 於記載於日本特開平5 -73 8 5號公報之聲音辨識遙控裝 置中,公開了採用機器-單字對應表與控制信號-機器狀 態對應表,並因應機器的運轉狀態,針對所產生的禁止操 作之內容,將禁止標籤記憶於機器狀態用記憶體中,藉此 ,來排除機器控制碼之對應表重寫操作之技術。 經濟部智慧財產局員工消費合作社印製 然而,以採用聲音辨識技術之單一遙控裝置來控制多 數的機器之情況下,因爲須加以辨識的單字數目增加,所 輸入的聲音內容不一定會被正確辨識,有可能辨識出與指 示內容相異的內容而產生錯誤動作,因而使追求操作容易 性之遙控裝置的效果減半。尤其是在控制電視與音響等機 器的情況下,由於對象機器本身所發出的聲音而無意間進 行聲音辨識處理,因此即使使用者未說話卻使機器產生動 作’或者是即使說出所欲控制的內容,卻由於機器本身所 發出的聲音而無法正確辨識,而必須重複說出指令。 關於上述控制音響機器的情況下之聲音辨識遙控裝置 ,於日本特開昭57_2〇8596號公報中,公開了藉由在檢測 出使用者的發話聲之際,使電視機等之聲音播放手段變成 靜音(Muting ),來提升聲音辨識電路的辨識率之手段。 此外’於日本特開平1 0-282993號公報中,公開了藉由將 經由聲音輸入裝置所輸入之聲音指令與音頻(Audi0)信號 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 20ϋ30ί :υί) Α7 Β7 五、發明説明(3) (請先閲讀背面之注意事項再填寫本頁) 與由其他背景雜音所構成之信號,於揚聲器與麥克風之間 的空間傳送路徑中加以模式化,使從音響裝置所送出之音 頻信號於聲音輸入裝置的位置上加以評估,並設置用於校 正麥克風信號之聲音補償器,來改良對聲音辨識處理的誤 差’藉此來改善聲音指令的檢測之技術。於此情況下,於 使用聲音辨識遙控裝置之際,必須事先具有對指示靜音的 特別電路之設置,以及麥克風的位置與敏感度調整之專門 知識,此對一般的裝置來說爲一問題點。 經濟部智慧財產局員工消費合作社印製 再者,於上述以往技術之聲音辨識遙控裝置中,伴隨 著欲加以控制之對象機器的增加,無可避免的會對於欲辨 識之單字以外的未知單字、非必要語或系統所假定外的發 聲,產生因辨識錯誤所造成之錯誤動作。因此,爲了實現 更容易使用的聲音辨識遙控裝置,因而產生對判定錯誤辨 識結果與系統所假定外的發聲的拒絕(Rejection )之要求 。尤其是在經常進行聲音辨識處理的狀況下,尙未達到可 以完全消除使用環境中之環境噪音,例如朋友之間的對話 、於遙控裝置旁行走的人的腳步聲、寵物等的叫聲、廚房 中煮飯的雜音等之聲音辨識技術,因而仍存在著頻繁的錯 誤辨識。此外,若是爲了降低此錯誤辨識而降低與所登錄 的單字之相配判定之容許範圍的話,雖然可降低錯誤辨識 ,但是亦會更頻繁的產生即使說出目的單字卻遭到拒絕的 情況,而必須重複說明,因而帶給使用者不快的感覺。 而如此的課題並不限定於遙控裝置,只要是進行聲音 辨識的機器,例如資訊終端裝置與電話通訊終端等其他機 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -7- 200301 :υί) Α7 Β7 五、發明説明(4) 器’亦會存在相同問題。 (請先閲讀背面之注意事項再填寫本頁) 本發明乃針對上述以往技術中尙未解決的課題來創作 之發明,其目的爲提供,可以防止因環境雜音所造成的錯 誤辨識的產生之適用於進行經常性聲音辨識的機器之聲音 辨識方法,以及採用此聲音辨識方法之遙控裝置及資訊終 端裝置,以及電話通訊終端及聲音辨識裝置。 發明內容: 經濟部智慧財產局員工消費合作社印製 爲了解決上述課題’本發明乃由下列構成所組成。亦 即’本發明之聲音辨識方法爲,將聲音辨識對象者的輸入 聲音轉換爲音響參數系列,並藉由維特比演算法(viterbi Algorithm )來比對該音響參數系列與對應於關於登錄語的 聲音單位標籤系列之音響模型,藉此來進行聲音辨識之聲 音辨識方法,其特徵爲,與上述關於登錄語的聲音單位標 籤系列並列設置用於辨識登錄語以外的非必要語之聲音單 位標籤系列,並於上述維特比演算法的比對過程中,同時 運算上述用於辨識登錄語以外的非必要語之聲音單位標籤 系列的槪似,藉此,於非必要語做爲輸入聲音被輸入的情 況下,可將上述非必要語做爲非必要語來加以辨識。亦即 ’將聲音轉換爲音響參數系列,並針對該音響參數系列, 算出對應於關於登錄語的聲音單位標籤系列之登錄語辨識 用音響模型之槪似’以及對應於用於辨識該登錄語以外的 聲音之聲音單位標籤系列之非必要語辨識用音響模型之槪 似,並基於這些槪似來進行聲音辨識。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公慶) -8 - 20ϋ30ί :υΐ) Α7 _Β7_ 五、發明説明(5) (請先閱讀背面之注意事項再填寫本頁) 因爲具有如此構成,因此在將不包含環境雜音之登錄 語的聲音,亦即將登錄語以外的聲音轉換爲音響參數系列 之際,不僅可針對該音響參數系列,算出較小之對應於關 於登錄語的聲音單位標籤系列之音響模型的槪似,還可算 出較大之對應於關於非必要語的聲音單位標籤系列之音響 模型的槪似,並基於這些槪似來辨識上述登錄語以外的聲 音來做爲非必要語,並可防止上述登錄語以外的聲音被誤 認爲登錄語的情況。 此外,對應於上述聲音單位標籤系列的音響模型爲採 用隱藏式馬可夫模型(Hidden Markov Model,ΗΜΜ)之音 響模型,並且用於辨識上述非必要語之聲音單位標籤系列 是由,平準化所有使用的聲音單位模型後之虛擬聲音單位 模型所構成。換言之,亦可將上述非必要語辨識用音響模 型,集中爲平準化所有聲音單位模型後之虛擬聲音單位模 型。 經濟部智慧財產局員工消費合作社印製 若採用此構成,則於包含登錄語的聲音轉換爲音響參 數系列之際,可針對該音響參數系列,算出對應於關於登 錄語的聲音單位標籤系列之隱藏式馬可夫模型的槪似,比 平準化所有聲音單位模型後之虛擬聲音單位模型的槪似還 大,並可基於這些槪似,來辨識包含於上述聲音之登錄語 。此外,在將不包含環境雜音之登錄語的聲音,亦即將登 錄語以外的聲音轉換爲音響參數系列之際,可算出平準化 所有聲音單位模型後之虛擬聲音單位模型的槪似,比對應 於關於登錄語的聲音單位標籤系列之隱藏式馬可夫模型的 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -9 - A7 B7 五、發明説明(6) 槪似還大,並可基於這些槪似,來辨識登錄語以外的聲音 來做爲非必要語’以防止將該登錄語以外的聲音誤認爲登 錄語。 (請先閲讀背面之注意事項再填寫本頁) 此外,對應於上述聲音單位標籤系列的音饗模型爲採 用隱藏式馬可夫模型之音響模型,並且用於辨識上述非必 要語之聲音單位標籤系列爲,僅僅以母音的音素來構成之 自我迴路型的網路構成。亦即,上述非必要語辨識用音響 模型,是由對應於母音音素之音素模型的集合體所構成, 其特徵爲具有從該集合體的終點至起點之自我迴路,並針 對音響參數系列,於每個音響參數中算出對應於母音音素 的音素模型群的槪似,並乘算當中最大者來做爲非必要語 模型的槪似。 經濟部智慧財產局員工消費合作社印製 若採用此構成,則於包含登錄語的聲音轉換爲音響參 數系列之際,由於包含於該音響參數系列之子音音素的存 在,可針對該音響參數系列,算出對應於關於登錄語的聲 音單位標籤系列之隱藏式馬可夫模型的槪似,比僅以母音 音素所構成之自我迴路型的網路構成的槪似還大,並可基 於這些槪似,來辨識包含於上述聲音之登錄語。此外,在 將不包含環境雜音之登錄語的聲音,亦即將登錄語以外的 聲音轉換爲音響參數系列之際,由於包含於該音響參數系 列且不包含於登錄語之母音音素的存在,可針對該音響參 數系列’算出僅以母音音素所構成之自我迴路型的網路構 成的槪似,比對應於關於登錄語的聲音單位標籤系列之隱 藏式馬可夫模型的槪似還大,並可基於這些槪似,來辨識 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公着) -10- 20ϋ30Κυΐ) Α7 Β7 五、發明説明(7) 上述登錄語以外的聲音來做爲非必要語,以防止將該登錄 語以外的聲音誤認爲登錄語。 另一方面,爲了解決上述課題,本發明之遙控裝置爲 ,可以用聲音來遠距操作多數的操作對象之遙控裝置,其 特徵爲,具有記憶指示遠距操作的辨識對象語彙之記憶手 段,以及輸入由使用者所發出的聲音之聲音輸入手段,以 及基於上述記憶手段,來辨識包含於使用者所發出的聲音 之上述辨識對象語彙之聲音辨識手段,以及將對應於由該 聲音辨識手段所辨識之辨識對象語彙之機器控制信號加以 傳送之傳送手段,而上述聲音辨識方法採用如申請專利範 圍第1項至第3項中之任一項所記載之聲音辨識方法。換 言之,具有檢測出使用者的聲音之聲音檢測手段,以及辨 識包含於該聲音檢測手段所檢測出的聲音之登錄語之聲音 辨識手段,以及將對應於由該聲音辨識手段所辨識之登錄 語之機器控制信號加以傳送之傳送手段,而上述聲音辨識 方法採用如申請專利範圍第1項至第3項中之任一項所記 載之聲音辨識方法,來辨識包含於該聲音檢測手段所檢測 出的聲音之登錄語。 因爲採用如此的構成,因此當使用者發出不包含環境 雜音之登錄語的聲音,亦即發出登錄語以外的聲音之際, 可針對該聲音的音響參數系列,算出較大的對應於關於非 必要語的聲音單位標籤系列之音響模型的槪似,並算出較 小的對應於關於登錄語的聲音單位標籤系列之音響模型的 槪似,並可基於這些槪似,來辨識登錄語以外的聲音來做 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) I^ 衣-- (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -11 - 20ϋ30ΚυΟ Α7 Β7 五、發明説明(8) 爲非必要語,以防止將該登錄語以外的聲音誤認爲登錄語 ,並防止遙控裝置的錯誤動作。 (請先閲讀背面之注意事項再填寫本頁} 此外,具有讓使用者通話之聲音輸入部,並具備基於 由上述聲音辨識手段所辨識之辨識對象語彙,來控制通訊 線路的接續狀態之通訊單元,並個別設置上述聲音輸入手 段與上述通訊單元之聲音輸入部。 若採用此構成,則在使用者通話中,即使通訊單元的 聲音輸入部專用於通話中,亦可將使用者的聲音輸入於聲 音辨識手段,以控制通訊單元。 此外,具有執行以聲音來進行之郵件接收傳送處理、 以及以聲音來進行之行程管理處理、以及以聲音來進行之 備忘錄處理、以及以聲音來進行之通知處理當中之至少一 項處理之控制手段。 若採用此構成,則使用者可以僅僅說出登錄語,來執 行以聲音來進行之郵件接收傳送處理、以及以聲音來進行 之行程管理處理、以及以聲音來進行之備忘錄處理、以及 以聲音來進行之通知處理,並不需要物理性的操作。 經濟部智慧財產局員工消費合作社印製 另一方面,爲了解決上述課題,本發明之資訊終端裝 置之特徵爲,具有檢測出使用者的聲音之聲音檢測手段, 以及辨識包含於該聲音檢測手段所檢測出的聲音之登錄語 之聲音辨識手段,以及基於該聲音辨識手段所辨識出之登 錄語,來執行以聲音來進行之郵件接收傳送處理、以及以 聲音來進行之行程管理處理、以及以聲音來進行之備忘錄 處理、以及以聲音來進行之通知處理當中之至少一項處理 本紙張尺度適用中國國家標準(CN’S ) Α4規格(2!0χ 297公釐) -12- 20ϋ30Κυί) Α7 ___Β7_ 五、發明説明(9) (請先閱讀背面之注意事項再填寫本頁) 之控制手段,而上述聲音辨識手段採用如申請專利範圍第1 項至第3項中之任一項所記載之聲音辨識方法,來辨識包 含於上述聲音檢測手段所檢測出的聲音之登錄語。而以聲 音來進行之郵件接收傳送處理,例如爲讓使用者以聲音輸 入郵件內容,然後將該聲音轉換爲聲音資料,並將該聲音 資料附加於電子郵件上傳送出,然後接收附加了聲音資料 之電子郵件,並再生該聲音資料之處理。此外,以聲音來 進行之行程管理處理,例如爲讓使用者以聲音輸入行程內 容,然後將該聲音轉換爲聲音資料,並輸入該行程的執行 曰,然後將聲音資料與該執行日賦予關聯以管理形成之處 理。此外,以聲音來進行之備忘錄處理,例如爲讓使用者 以聲音輸入備忘錄內容,然後將該聲音轉換爲聲音資料, 並因應使用者的要求來再生聲音資料之處理。此外,以聲 音來進行之通知處理,例如爲讓使用者輸入通知內容,然 後將該聲音轉換爲聲音資料,並輸入通知時機,並以該通 知時機來再生聲音資料之處理。 經濟部智慧財產局員工消費合作社印製 因爲採用如此的構成,因此當使用者發出不包含環境 雜音之登錄語的聲音,亦即發出登錄語以外的聲音之際, 可針對該聲音的音響參數系列,算出較大的對應於關於非 必要語的聲音單位標籤系列之音響模型的槪似,並算出較 小的對應於關於登錄語的聲音單位標籤系列之音響模型的 槪似,並可基於這些槪似,來辨識登錄語以外的聲音來做 爲非必要語,以防止將該登錄語以外的聲音誤認爲登錄語 ,並防止資訊終端裝置的錯誤動作。此外,使用者可以僅 本纸張尺度適用中國國家標準(CNS ) Α4規格(21〇/29<7公釐) -13- 20ϋ30Κυΐ) Α7 Β7 五、發明説明(β (請先閱讀背面之注意事項再填寫本頁) 僅說出登錄語,來執行以聲音來進行之郵件接收傳送處理 、以及以聲音來進行之行程管理處理、以及以聲音來進行 之備忘錄處理、以及以聲音來進行之通知處理,並不需要 物理性的操作。 另一方面,爲了解決上述課題,本發明之電話通訊終 端爲可以接續·公共電話線路網或是網際網路通訊網之電話 通訊終端,其特徵爲,具有輸出輸入聲音之聲音輸出入手 段,以及辨識輸入聲音之聲音辨識手段,以及記憶包含電 話交談對方的姓名及電話號碼的個人資訊之記憶手段,以 及畫面顯示手段,以及控制上述各手段之控制手段,上述 聲音輸出入手段於通訊單元及聲音辨識單元上各自具有獨 立的輸出入系統。換言之,具有讓使用者以聲音輸入關於 電話操作的登錄語之聲音輸入部,並具有辨識該聲音輸入 部所輸入之登錄語之聲音辨識單元,以及具備讓使用者通 話之聲音輸入部並且基於由上述聲音辨識手段所辨識之登 錄語’來控制通訊線路的接續狀態之通訊單元,而上述聲 音辨識單元的聲音輸入部與上述通訊單元的聲音輸入部爲 個別設置。 經濟部智慧財產局員工消費合作社印製 因爲採用此構成,因此在使用者通話中,即使通訊單 元的輸出入系統專用於通話中,亦可將使用者的聲音輸入 於聲音辨識單元,以控制通訊單元。 此外,爲了解決上述課題,本發明之電話通訊終端爲 可以接續公共電話線路網或是網際網路通訊網之電話通訊 終端,其特徵爲,具有輸出輸入聲音之聲音輸出入手段, 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -14 - 20ϋ30ί Α7 Β7 五、發明説明(11) (請先閱讀背面之注意事項再填寫本頁) 以及辨識輸入聲音之聲音辨識手段’以及記憶包含電話交 談對方的姓名及電話號碼的個人資訊之記憶手段’以及畫 面顯示手段,以及控制上述各手段之控制手段’上述記憶 手段各具有包含預先登錄的人名之特定名稱之名稱語彙淸 單,以及任意的電話號碼之號碼語彙淸單,以及通話中的 電話操作之通話操作語彙清單’以及來電時的電話操作之 來電操作語彙淸單,而與撥號•掛斷•來電相關之所有電 話操作,可藉由上述聲音辨識手段、上述記憶手段、及上 述控制手段來進行聲音輸入。換言之’上述記憶手段個別 記憶登錄了特定名稱之名稱語彙淸單’以及登錄了任意的 電話號碼之號碼語彙淸單’以及登錄了通話中的電話操作 相關語彙之通話操作語彙淸單’以及登錄了來電時的電話 操作相關語彙之來電操作語彙淸單’而上述聲音辨識手段 選出,因應依據該聲音辨識手段之辨識結果或是通訊線路 的狀態來記憶於上述記憶手段之語彙淸單’並參照該語彙 淸單,來辨識包含於由上述聲音輸出入手段所輸入的聲音 之單字。 經濟部智慧財產局員工消費合作社印製 因爲採用此構成,因此可因應狀況來適切變更語彙淸 單,可防止因環境雜音等非必要的聲音所造成的錯誤辨識 〇 此外,電話號碼的辨識方法爲,藉由所有位數的連續 發話之輸入,上述記憶手段的號碼語彙淸單及上述聲音辨 識手段採用辨識任意電話號碼的電話號碼語彙網路’來辨 識由所定位數的數字或是記號所構成的數字列模式。換言 -15- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) Ε0ϋ30Κυΐ) Α7 Β7 五、發明説明(θ (請先閱讀背面之注意事項再填寫本頁) 之,上述記憶手段記憶登錄了相當於電話號碼所有位數的 數字列之連續號碼語彙淸單,而於辨識包含於輸入聲音之 電話號碼之際,上述聲音辨識手段可參照記憶於上述記憶 手段之連續號碼語彙淸單。 若採用此構成,則於辨識電話號碼之際’使用者只要 連續說出相當於電話號碼所有位數的數字列,就可以於短 時間之內辨識出電話號碼。 此外,上述畫面顯示手段具有通知發話時機之發話時 機顯示功能。換言之,可通知上述聲音辨識手段正處於可 辨識登錄語的狀態下。 若採用此構成,則使用者可藉由在畫面顯示手段所通 知的發話時機下發話,於適當的時機下說出登錄語,來適 切的辨識登錄語。 此外,亦可具有基於上述聲音辨識手段所辨識出的輸 入聲音,來執行以聲音來進行之郵件接收傳送處理、以及 以聲音來進行之行程管理處理、以及以聲音來進行之備忘 錄處理、以及以聲音來進行之通知處理當中之至少一項處 理之第2控制手段。 經濟部智慧財產局員工消費合作社印製 若採用此構成,則使用者可以僅僅說出登錄語,來執 行以聲音來進行之郵件接收傳送處理、以及以聲音來進行 之行程管理處理、以及以聲音來進行之備忘錄處理、以及 以聲音來進行之通知處理,並不需要物理性的操作。 此外,上述聲音辨識手段採用如申請專利範圍第1項 至第3項中之任一項所記載之聲音辨識方法,來辨識包含 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) -16- 200301 -ύί) Α7 Β7 五、發明説明(θ 於輸入聲音之登錄語。 因爲採用如此的構成,因此當使用者發出不包含環境 雜音之登錄語的聲音,亦即發出登錄語以外的聲音之際, 可針對該聲音的音響參數系列,算出較大的對應於關於非 必要語的聲音單位標籤系列之音響模型的槪似,並算出較 小的對應於關於登錄語的聲音單位標籤系列之音響模型的 槪似,並可基於這些槪似,來辨識登錄語以外的聲音來做 爲非必要語,以防止將該登錄語以外的聲音誤認爲登錄語 ,並防止電話通訊終端的錯誤動作。 另一方面,爲了解決上述課題,本發明之聲音辨識裝 置之特徵爲,具有檢測出使用者的聲音之聲音檢測手段, 以及辨識包含於該聲音檢測手段所檢測出的聲音之登錄語 之聲音辨識手段,以及通知該聲音檢測手段可辨識登錄語 的發話時機之通知手段。 因爲採用如此的構成,因此使用者只要在處於可辨識 登錄語的狀態下發話,於適當的時機下說出登錄語’就可 容易辨識出登錄語。 此外,具有通知聲音檢測手段所檢測出的聲音的大小 之音量通知手段。 若採用此構成,則使用者可以適切的音量來發話’而 更容易辨識出登錄語。 實施方式: 以下基於圖面來說明本發明的實施型態。第1圖爲本 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -17- 20ϋ30Κυί) A7 B7 五、發明説明(11 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 發明的第1實施型態之聲音辨識遙控裝置之碍塊圖。此圖 所示之遙控裝置是由辨識判斷使用者的聲音之遙控本體1, 亦即遙控裝置本體部1,以及基於該辨識結果,發出控制信 號來做爲紅外線信號之紅外線發光部2所構成。使用者的 聲音從遙控裝置本體部1的聲音輸入裝置(麥克風3)輸入 ,經由放大器4,藉由A/D轉換器5轉換爲數位化音響參 數(例如頻譜(Spectrum )等)。在此,所輸入的類比聲 音並不特別限制,一般是以位於SKHz〜16KHz的範圍之特 定頻率數來取樣並加以數位化。於聲音指示辨識電路6的 內部中,數位化音響參數針對記憶登錄於聲音指示資訊記 憶體7之登錄語彙淸單,對每個爲單字的構成單位之聲音 單位,計算與上述音響參數之槪似,藉由此,從登錄語彙 淸單當中抽出最接近的單字。換言之,於聲音指示辨識電 路6的內部中,對每個這些構成單位(以下稱爲聲音單位 ),計算對數位化音響參數之記憶登錄於聲音指示資訊記 憶體7之登錄語彙淸單內的單字(以下稱爲登錄語)之槪 似,而該槪似的積算値爲最大者,則做爲最接近使用者的 聲音的登錄語來抽出。於聲音指示辨識電路6的內部中, 亦計算對數位化音響參數之記憶登錄於聲音指示資訊記憶 體7的非必要語之槪似,於該非必要語之槪似大於登錄語 之槪似之際,則不從數位化音響參數中抽出登錄語。 在此,可適當採用音節、音素、半音節、雙音素( Diphone,2組音素)、三音素(Triphone,3組音素)等做 爲聲音單位,以下爲了說明上的方便,採用音素做爲聲音 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -18- 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(β 單位來加以說明。 此外,於聲音指示資訊記憶體7之內記憶了對應各個 登錄語的控制碼,並從該聲音指示資訊記憶體7當中,叫 出於聲音指示辨識電路6所抽出之登錄語,亦即對應於所 辨識出之登錄語的控制碼,經由中央控制電路8,將控制碼 傳達至紅外線發光部2的IRED驅動•控制電路9。於 IRED驅動•控制電路9中,從IRED碼資訊記憶體1 0當中 叫出對應該控制碼之IRED碼,並從IRED 1 1發射出以做爲 紅外線信號。 此時,做爲同時通知使用者其聲音辨識結果的手段, 可將辨識結果顯示於LCD顯示裝置1 2以進行視覺上的通 知,或是將辨識結果傳達至應答聲音控制電路1 3,並從應 答聲音用資訊記憶體14當中,叫出對應該辨識結果的應答 聲音資料,並經由D/A轉換器1 5及放大器1 6,做爲類比 聲音將該聲音資料從擴音器(揚聲器1 7 )通知使用者以進 行聽覺上的通知。 另一方面,紅外線發光部2具備光感應器1 8,在必須 使用未登錄於IRED碼資訊記憶體1 0的紅外線碼的情況下 ,藉由發射欲使用的紅外線碼至光感應器1 8,可經由光感 應器介面電路1 9,追加該紅外線碼於IRED碼資訊記憶體 10° 而所使用的硬體可採用具有第1圖所記載的基本功能 即可,但並不限定於此,以下如第2圖所示般,針對採用 市面上販售的個人電腦來做爲遙控裝置本體部1的情況加 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -19- 200301 Α7 Β7 五、發明説明(1号 以說明。第3圖爲於第2圖的聲音辨識遙控裝置中所執行 的處理,並顯示因應使用者的聲音來傳送紅外線碼等之運 算處理之流程圖。於此流程圖中雖未設定用於通訊的步驟 ’然而,不僅經由運算處理所得到的資訊可更新記憶於隨 機記憶裝置中,必要的資訊亦可從隨機記憶裝置當中加以 讀出。此運算處理爲使用者開始操作本遙控裝置之際所執 行之處理,首先,於步驟S1中,讀入麥克風3所檢測出的 聲音’然後辨識是否包含了爲包含於該聲音的登錄語之起 始密碼,或是辨識是否僅包含起始密碼以外的雜音與聲音 ’亦即僅包含非必要語,來執行之後所述之聲音辨識處理 。亦即,藉由以聲音輸入起始密碼,來給予欲進行操作的 人已經準備操作聲音遙控裝置的訊息◊而起始密碼可於事 前任意設定使用者所喜歡的單字或是使用者本身的聲音等 ’但是必須注意即使在經常性進行聲音辨識的狀況下,亦 不會讓麥克風3所接收的環境雜音等導致本裝置的錯誤動 作’因此最好是採用一般不常使用的單字。較理想爲採用 由3音節以上20音節以下,更理想爲5音節以上丨5音節 以下所構成的單字。例如可採用「芝麻開門」等單字。 接下來進行步驟S 2,於上述步驟S 1中,判斷是否辨識 出起始密碼包含於聲音中,於起始密碼包含於聲音中的情 況下,則爲(YES )並進行步驟S3,於起始密碼未包含於 聲音中的情況下,則爲(NO )並返回步驟S 1。因此,一旦 從麥克風3輸入起始密碼以外,亦即未包含起始密碼的雜 音與聲音的話,則辨識爲非必要語,並判斷使用者不在旁 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -20- 20ϋ30Κύ〇 Α7 Β7 五、發明説明( 邊’而處於聲音輸入等待狀態直到輸入正確的起始密碼爲 止。 於上述步驟S3中,讀入麥克風3所檢測出的聲音,並 辨識是否包含了爲包含於該聲音的登錄語之控制對象機器 的名稱,亦即辨識是否僅包含非必要語,來執行之後所述 之聲音辨識處理。在此,控制對象機器有「電視」、「錄 放影機」、「空調」、「音響」、「照明」、「窗簾」、 「電話」、「定時器」、「電子郵件」、及「語音備忘錄 」等用於選擇機器與功能之單字(登錄語),而一旦輸入 登錄語以外,亦即輸入未包含起始密碼的雜音與聲音的話 ,則辨識爲非必要語,並處於待機狀態直到輸入新的控制 對象機器爲止。 接下來進行步驟S 4,於上述步驟S3中,判斷是否辨識 出可控制的對象機器的名稱包含於聲音中,於包含可控制 的對象機器的名稱的情況下,則爲(YES)並進行步驟S6 ,若不是的話則爲(NO)並再次返回步驟S3。因此,一旦 辨識出起始密碼包含於麥克風3所檢測出的聲音中的話, 則處於使用者選擇欲控制的對象機器之模式中,並處於聲 音輸入等待狀態直到輸入欲遠隔操作的對象機器的名稱。 而在經過所定時間仍未發聲輸入辨識對象的登錄語的情況 下,則回到辨識起始密碼的模式中(步驟S 1及步驟S2 )( 第3圖中未顯示),並處於聲音輸入等待狀態直到輸入起 始密碼爲止,亦即爲待機狀態。 於上述步驟s6中,讀入麥克風3所檢測出的聲音,並 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ 297公釐) (請先閱讀背面之注意事項存填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -21 - 20ϋ30Κυί) Α7 Β7 五、發明説明(1令 (請先閲讀背面之注意事項再填寫本頁) 辨識是否於該聲音中包含了對控制對象機器的指示內容, 亦即是否包含了登錄語,或者是是否於該聲音中包含了對 控制對象機器的指示內容以外的雜音與聲音,亦即僅包含 非必要語,來執行之後所述之聲音辨識處理。亦即,一旦 使用者選擇控制對象機器的話,則處於接收可控制該控制 對象機器的指示內容的模式。例如,一旦選擇「電視」做 爲控制對象機器的話,則如第4圖所示般,關於電視操作 的影像顯示於LCD顯示裝置1 2,並處於可指示電源的開或 關,頻道號碼的指定,電視台的指定及音量調整等的模式 〇 接下來進行步驟S 7,於上述步驟S 6中,判斷是否辨識 出對對象機器的指示內容包含於聲音中,於包含對對象機 器的指示內容的情況下,則爲(YES )並進行步驟S8,若 不是的話則爲(N 0 )並再次返回步驟S 6。亦即,處於待機 狀態直到輸入可控制的指示內容爲止。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟S8,將對應上述步驟S6中所辨識出的 指示內容之紅外線碼,傳送至紅外線發光部2。亦即,一旦 以聲音輸入指示內容的話,則基於該指示內容的辨識結果 ,叫出所對應的紅外線碼,並從紅外線發光部2將紅外線 碼傳送至對象機器。於此模式中,一旦輸入可控制的指示 內容以外的雜音與聲音的話,則辨識爲非必要語。 於步驟S9中,判斷上述步驟S6中所辨識出的指示內 容是否爲具有結束意義的單字(例如「結束」),若爲具 有結束意義的單字的話,則爲(YES)並結束運算處理,若 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) •22- 20ϋ30ί :υΐ) A7 B7 五、發明説明(1今 (請先閲讀背面之注意事項再填寫本頁) 不是的話則爲(NO )並返回步驟S3。亦即,一旦於此模式 中以聲音輸入具有結束意義的控制指示,例如「結束」的 話,則返回選擇可控制的對象機器的模式(步驟S3及步驟 S4 )。而在經過所定時間仍未發聲輸入辨識對象之關於機 器控制的登錄語,亦即未以聲音輸入控制指示的情況下, 則返回選擇上述控制對象機器的模式(第3圖中未顯示) 〇 於上述步驟S9中,判斷上述步驟S6中所辨識出的指 示內容是否爲具有待機意義的單字(例如「待機」),若 爲具有待機意義的單字的話,則爲(YES )並進行步驟S 1 ,若不是的話則爲(NO )並進行步驟S 1 0。亦即,於選擇 此控制對象機器的模式中,一旦以聲音輸入以聲音輸入讓 聲音辨識遙控裝置待機的命令語,例如「待機」的話,則 返回接收密碼的模式。 經濟部智慧財產局員工消費合作社印製 於上述步驟S 1 0中,判斷上述步驟S 6中所辨識出的指 示內容是否爲具有關閉電源意義的單字(例如「芝麻關門 」),右爲具有關閉電源思義的卓子的S舌,則爲(YES)並 結束運算處理,若不是的話則爲(NO )並進行步驟S丨〇。 亦即,一旦使用者以聲音輸入「芝麻關門」的話,則可將 聲音辨識裝置的電源關閉,並完全結束本系統。 第5圖爲說明於第3圖的步驟S1、步驟S3及步驟S6 中所執行的聲音辨識處理,並顯示於這些聲音辨識處理φ 之依據隱藏式馬可夫模型(Hidden Markov Model,以下稱 爲HMM )之處理過程之原理圖。一旦執行此聲音辨識處理 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) -23- 200301 :υΐ) Α7 Β7 五、發明説明(的 的話,首先以傅利葉轉換(Fourier Transformation )或是 小波轉換(Wavelet Transformation),將麥克風3所檢測 (請先閲讀背面之注意事項存填寫本覓> 出的聲音轉換爲數位化頻譜(Spectrum ),並藉由對該頻 譜採用線性預測分析或倒頻譜分析(Cep strum Analysis ) 等聲音模型化手法,來進行聲音資料的特徵化。接下來, 針對此特徵化聲音資料,以維特比演算法(Viterbi Algorithm ),來計算登錄於預先以聲音辨識處理所讀入的 語彙網路20之各個登錄語的音響模型2 1之槪似。在此, 登錄語乃以對應於聲音單位的序列接續(聲音單位標籤系 列)之HMM序列接續網路來模型化,而語彙網路20則做 爲對應登錄於登錄語彙淸單之登錄語群之序列接續網路群 來模型化。此外,各個登錄語乃以音素等聲音單位來構成 ,並對每個聲音單位算出其槪似,於確認了使用者結束發 話的時點上,檢測出登錄語彙淸單當中之槪似的積算値爲 最大之登錄語,並將該登錄語做爲包含於聲音之所認知的 登錄語,來加以輸出。 經濟部智慧財產局員工消費合作社印製 於本發明中,如第6圖所示般,與單字表記的HMM相 同,與登錄語的語彙網路22並列設置用於辨識非必要語的 虛擬模型23 〇而關於用於辨識非必要語的虛擬模型23,可 採用如 H. Boulard, B. D5hoore and J.-M. Boite, “Optimizing Recognition and Rejection Performance in
Wordspotting Systems,,,Proc. ICASSP,Adelaide,Australia, pp· 1-3 73 -3 76,1 994.所提案之垃圾桶模型法(Garbage Model)。藉此,於輸入所欲控制對象的單字以外,亦即未 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -24- 20ϋ30Κυΐ) Α7 Β7 五、發明説明(2今 (請先閱讀背面之注意事項再填寫本頁) 包含登錄語的雜音與聲音的情況下,則將對應此非必要語 的虛擬模型的槪似比所有的登錄語的槪似,藉此來選擇具 有最大槪似的虛擬模型,並可建構可以判斷已輸入非必要 語的系統。此外,因爲採用用於辨識非必要語的虛擬模型 23,因此即使附加了拒絕功能,亦不會使計算負荷量增大 ,可達到實用階段的辨識處理時間,並且可以形成具有可 攜性的小型遙控裝置。 經濟部智慧財產局員工消費合作社印製 順帶一提,在僅採用不具有用於辨識非必要語的虛擬 模型23,而僅以登錄語的語彙網路22所構成之語彙網路 2〇的以往的方法中,隨著所欲控制的機器數目的增加,無 可避免的會對於欲辨識之單字以外的未知單字、非必要語 或系統所假定外的發聲,產生因辨識錯誤所造成之錯誤動 作。尤其是在經常進行聲音辨識處理的狀況下,由於使用 環境中之環境噪音,例如朋友之間的對話、於遙控裝置旁 行走的人的腳步聲、寵物等的叫聲、蔚房中煮飯的雜音等 之聲音辨識技術,因而仍存在著頻繁的錯誤辨識。此外, 若是爲了降低此錯誤辨識而降低與所登錄的單字之相配判 定之容許範圍的話,雖然可降低錯誤辨識,但是亦會更頻 繁的產生即使說出目的卓字卻遭到拒絕的情況,而必須重 複說明,因而帶給使用者不快的感覺。此外,雖然可考慮 將非必要語亦列入登錄語彙淸單中的方法,然而一旦將所 有想的到的非必要語列入的話,則登錄語彙淸單變得巨大 ,因而使其結果運算量亦變大,而這是現實中較難達到的 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -25- 2〇ϋ3〇ί-υΐ) Α7 Β7 五、發明説明(公 (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 第6圖顯示,第3圖的步驟S4中所執行之聲音辨識處 理中之控制對象機器的名稱的語彙網路之說明圖。於此語 彙網路20中,記載了用於選擇所欲控制的對象機器之登錄 語群,亦即控制對象機器的名稱22及非必要語模型23。再 者,各個登錄語乃爲所對應之音素標籤系列之如第7圖所 示之構成。在此,非必要語模型23乃做爲平準化所有音素 模型後之虛擬音素模型來形成,其具有與非特定發話者音 素HMM模型相同結構。而平準化所有音素模型後之虛擬音 素模型乃藉由以下方式來形成。亦即,首先將所使用的所 有音素做爲HMM來模型化,並將該HMM做爲多數個狀態 的轉移系列來形成,並將這些個別的狀態以混和高斯分佈 來構成。然後從該混和高斯分佈至音素之間,選出可共有 化的高斯分佈集合體,然後再製作對每個音素進行加權校 正後之混和高斯分佈,並平準化使用此混和高斯分佈之所 有音素,來製作虛擬音素模型。此外,平準化所採用的所 有音素後之虛擬音素模型,並不限於由1個群體來形成, 亦可將所有的聲音單位分割爲多數個群體(例如3〜5群) ,並由該多數群體來形成。因此,一旦使用者發出登錄語 的話,則登錄語的槪似必然會變大,而一旦使用者發出登 錄語以外的單字的話,則虛擬音素模型的槪似會變大,而 提高辨識出非必要語的機率。例如將「電視」、「錄放影 機」、「空調」、「音響」.、「照明」等控制機器的名稱 做爲登錄語加以登錄之際,在輸入未記載於第7圖所示之 登錄語的語彙網路22的單字「典型」的情況下,若是未設 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) -26-
20ϋ30ί :GiJ A7 B7 五、發明説明(2$ 定非必要語模型的話,則會從所記載的單字,亦即從登錄 語當中辨識出具有類似音素構成的單字(於第7圖所示之 登錄語彙淸單中,例如爲「電視」)的槪似爲最大,因而 產生錯誤辨識,在此,若是設定非必要語模型的話,則就 機率而言可辨識出虛擬音素模型的槪似爲最大,因而降低 錯誤辨識的機率。 第8圖所顯示之非必要語模型,爲顯示構成母音的音 素群的自我迴路。亦即,此非必要語模型爲對應母音音素 的HMM集合體,其具有從該集合體的終點至起點之自我迴 路,並針對數位化音響參數系列,於每個音響參數中算出 對應於母音音素的HMM群的槪似,並乘算當中最大者來做 爲非必要語模型的槪似。這是利用幾乎所有單字都具有母 音,並且在音素分類當中之子音、母音、摩擦音、爆裂音 等音素群當中母音具有較大的音響能量的特點。亦即,非 必要語模型的槪似,乃僅以所有單字的母音的連續音來加 以計算。因此,一旦使用者發出登錄語的話,則關於子音 等母音以外的音素被排除於非必要語模型之外,因此非必 要語模型的槪似比登錄語的槪似還低,而提高辨識出登錄 語的機率。相對的,一旦使用者發出登錄語以外的單字的 話,則關於子音等母音以外的音素,其對應於登錄語的音 素模型之値變得較低,而提高辨識出非必要語的機率,因 而可降低錯誤辨識。藉由此方法,在難以獲得上述虛擬音 素模型的標籤系列的情況下,以及採用以音素模型所構成 的既有聲音辨識軟體的情況下極爲適用。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -- 1 ^ - IMKI 1 — · y ϋϋ n m an -I 屢: I (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -27- 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(24) 此外,在辨識出非必要語的機率偏低的情況下,或是 其辨識率過高而造成即使發出目的的命令語彙卻被辨識爲 非必要語的情況下,對於依據虛擬音素模型的非必要語模 型以及採用母音音素的非必要語模型所算出的槪似,可因 應實際的使用狀況,適當的乘上相關因子,以求取辨識率 的最適化。 「實施例1」 接下來說明本發明的第1實施例。 於此實施例中,如第7圖所示,準備好讀入了第3圖 的步驟S 3之聲音辨識處理之下列狀態下的聲音遙控裝置, 亦即爲,設置平準化所有音素模型後之虛擬音素模型23來 做爲非必要語模型,並將並列設置於該音素模型23與表1 所記載的登錄語彙淸單,亦即登錄語的語彙網路22之語彙 網路2〇,讀入於第3圖的步驟S3之聲音辨識處理的狀態。 然後各說出5次「典型」、「無人飛機」、「都要」來做 爲非必要語,其結果爲,辨識爲非必要語的機率,亦即未 錯誤辨識其爲登錄語的機率爲100%。而爲了調查對目的的 單字,亦即登錄語之「電視」、「錄放影機」、「空調」 、「照明」、「音響」的辨識率,各說出1 〇次的上述單字 ’其結果爲,字彙全體的正確辨識率爲94%。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) - 1Ι.ΓΙ - Sr iii 111 1— -= ϋ (請先閲讀背面之注意事項再填寫本頁) 、-?·口 f 經濟部智慧財產局員工消費合作社印製 -28- 20ϋ30ί :υί) Α7 ___Β7 五、發明説明(25)
表1 對象語 音素表記 電視 勿一 9、尸\ 錄放影機 力乂、匚尤\ ~厶\/ q — 空調 万乂厶六一幺/ 照明 虫幺\门一厶〆 音響 一—丁 一:t V (請先閲讀背面之注意事項再填寫本頁) 「實施例2」 接下來說明本發明的第2實施例。 經濟部智慧財產局員工消費合作社印製 於此實施例中,如第8圖所示,設置以對應母音音素 ,亦即對應「虫」、「4」、「尸」、「Q」、「77」、 「今」、「厶」、「一」、「乂」、「U」、「丫」、「 3」、「古」、「廿」、「巧」、「\」、「幺」、「爻 」、「3」、「卜」、「尤」、「厶」、「儿」的音素之 ΗΜΜ群所構成之自我迴路模型23 ’,並準備好讀入了第3 圖的步驟S3之聲音辨識處理之下列狀態下的聲音遙控裝置 ,亦即爲,將並列設置於該自我迴路模型23’與表1所記載 的登錄語彙淸單,亦即登錄語的語彙網路22之語彙網路20 ,讀入於第3圖的步驟S3之聲音辨識處理的狀態。然後各 說出5次「典型」、「無人飛機」、「都要」來做爲非必 要語,其結果爲,辨識爲非必要語的機率,亦即未錯誤辨 識其爲登錄語的機率爲1 〇 〇 %。而爲了調查對目的的單字’ 本紙張尺度適用中國國家標準(CNS ) Α4規格(21〇Χ 297公釐) -29- 20ϋ30ί :υί) Α7 Β7 五、發明説明(2參 亦即登錄語之「電視」、「錄放影機」、「空調」 明」、「音響」的辨識率,各說出10次的上述單字 果爲,字彙全體的正確辨識率爲94% ° 「照 其結 「實施例3」 接下來說明本發明的第3實施例。 於此實施例中,與第1實施例相同,如第7圖所示, 準備好讀入了第3圖的步驟S3之聲音辨識處理之下列狀態 下的聲音遙控裝置,亦即爲,設置平準化所有音素模型後 之虛擬音素模型23來做爲非必要語模型,並將並列設置於 該音素模型23與表1所記載的登錄語彙淸單,亦即登錄語 的語彙網路22之語彙網路20,讀入於第3圖的步驟S3之 聲音辨識處理的狀態。然後各說出1 0次「今天吃土雞」、 「孔廟」、「電池」、「空殼」、「少林」、「音箱」來 做爲非必要語,其結果爲,辨識爲非必要語的機率,亦即 未錯誤辨識其爲登錄語的機率爲92 %。 (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 「實施例4」 接下來說明本發明的第4實施例。 於此實施例中,與第2實施例相同,如第8圖所示, 設置以對應母音音素,亦即對應「虫」、「<」、「尸」 、「日」、「卩」、「今」、「厶」、「一」、「乂」、 「口」、「丫」、「乙」、「古」 \」、「幺」、「又」、「弓」、 廿 h 尤 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -30- 20ϋ30ί:υΐ) Α7 Β7 五、發明説明(2》 」、「儿」的音素之ΗΜΜ群所構成之自我迴路模型23’, 並準備好讀入了第3圖的步驟S3之聲音辨識處理之下列狀 態下的聲音遙控裝置,亦即爲,將並列設置於該自我迴路 模型23’與表1所記載的登錄語彙淸單,亦即登錄語的語彙 網路22之語彙網路20,讀入於第3圖的步驟S3之聲音辨 識處理的狀態。然後各說出1 〇次「今天吃土雞」、「孔廟 」、「電池」、「空殼」、「少林」、「音箱」來做爲非 必要語,其結果爲,辨識爲非必要語的機率,亦即未錯誤 辨識其爲登錄語的機率爲93%。 「實施例5」 接下來說明本發明的第5實施例。 於此實施例中,如第9圖所示,準備好讀入了第3圖 的步驟S3之聲音辨識處理之下列狀態下的聲音遙控裝置, 亦即爲,設置平準化所有音素模型後之虛擬音素模型23, 以及對應母音「ΐ」、「4」、「尸」、「S」、「卩」 、「今」、「厶」、「一」、「乂」、「U」、「丫」、 「乙」、「古」、「廿」、「巧」、「\」、「幺」、厂 又」、「弓」、「4」、「尤」、「厶」、「儿」的音素 之ΗΜΜ群所構成之自我迴路模型23,,來做爲非必要語模 型,並將並列設置於這些模型22、23,與表1所記載的登 錄語彙淸單,亦即登錄語的語彙網路22之語彙網路20,讀 入於第3圖的步驟S3之聲音辨識處理的狀態。然後各說出 1〇次「今天吃土雞」、「孔廟」、「電池」、「空殻」、 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ 297公釐) (請先閱讀背面之注意事項再填寫本頁) 、1Τ 經濟部智慧財產局員工消費合作社印製 -31 - 200301 Α7 ___Β7 五、發明説明(2$ (請先閱讀背面之注意事項再填寫本頁) 「少林」' 「音箱」來做爲非必要語,其結果爲,辨識爲 非必要語的機率’亦即未錯誤辨識其爲登錄語的機率爲100 %。而爲了調查對目的的單字,亦即登錄語之「電視」、 「錄放影機」、「空調」、「照明」、「音響」的辨識率 ,各說出10次的上述單字,其結果爲,字彙全體的正確辨 識率爲88%。 「實施例6」 接下來說明本發明的第6實施例。 經濟部智慧財產局員工消費合作社印製 於此實施例中,如第1 〇圖所示,準備好讀入了第3圖 的步驟S3之聲音辨識處理之下列狀態下的聲音遙控裝置, 亦即爲,將並列設置於對應「史」、「4」、「尸」、「 3」、「卩」、「今」、「厶」、「一」、「乂」、「U 」、「丫」、「3」、「亡」、「廿」、「巧」、「\」 、「幺」、「又」、「9」、「4」、「尤」、「厶」、 「儿」的音素之ΗΜΜ群23,’,亦即爲從第8圖的非必要語 模型當中去除自我迴路之模型,以及表1所記載的登錄語 彙清單,亦即登錄語的語彙網路22之語彙網路20,讀入於 第3圖的步驟S3之聲音辨識處理來做爲非必要語模型的狀 態。然後各說出1 〇次「今天吃土雞」、「孔廟」、「電池 」、「空殼」、「少林」、「音箱」來做爲非必要語,其 結果爲,辨識爲非必要語的機率,亦即未錯誤辨識其爲登 錄語的機率爲23%。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ 297公釐) -32- ϋ30ί :υ() Α7 _______Β7 五、發明説明(2令 「比較例1」 接下來說明本發明的第1比較例。 (請先閲讀背面之注意事項再填寫本頁) 於此比較例中,如第10圖所示,準備好讀入了第3圖 的步驟S3之聲音辨識處理之下列狀態下的聲音遙控裝置, 亦即爲’未採用用於辨識非必要語的虛擬模型,而僅將採 用以表1所記載的登錄語彙淸單,亦即登錄語的語彙網路 22所構成之語彙網路2 0,讀入於第3圖的步驟S 3之聲音 辨識處理的狀態。然後各說出5次「典型」、「無人飛機 」、「都要」來做爲非必要語,「典型」被誤認爲「電視 」,「無人飛機」被誤認爲「錄放影機」,「都要」被誤 認爲「空調」,其結果爲,辨識爲非必要語的機率,亦即 未錯誤辨識其爲登錄語的機率爲0%。而爲了調查對目的的 單字,亦即登錄語之「電視」、「錄放影機」、「空調」 、「照明」、「音響」的辨識率,各說出10次的上述單字 ,其結果爲,字彙全體的正確辨識率爲98%。 「比較例2」 經濟部智慧財產局員工消費合作社印製 接下來說明本發明的第2比較例。 於此比較例中,如第1 1圖所示,準備好讀入了第3圖 的步驟S3之聲音辨識處理之下列狀態下的聲音遙控裝置, 亦即爲,未採用用於辨識非必要語的虛擬模型,而僅將採 用以表1所記載的登錄語彙淸單,亦即登錄語的語彙網路 22所構成之語彙網路20,讀入於第3圖的步驟s 3之聲音 辨識處理的狀態。然後各說出1 〇次「今天吃土雞」、「孔 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) -33 - 20ϋ30Κυΐ) A 7 B7 五、發明説明(匆 廟」、「電池」、「空殻」、「少林」、「音箱」來做爲 非必要語。其結果爲,「今天吃土雞」容易被誤認爲「錄 放影機」,「孔廟」容易被誤認爲「空調」,「電池」容 易被無旨忍爲「電視」’ 「空威」谷易被誤認爲「空調」, 「少林」容易被誤認爲「照明」,「音箱」容易被誤認爲 「音響」。因此其辨識爲非必要語的機率,亦即未錯誤辨 識其爲登錄語的機率爲〇%。 於本實施型態中,聲音指示資訊記憶體7乃對應於記 憶手段’麥克風3乃對應於輸入使用者所發出的聲音之手 段,聲音指示辨識電路6乃對應於聲音辨識手段,紅外線 發光部2乃對應於傳送手段。 接下來基於圖面來說明本發明的第2實施型態。此實 施型態乃將與上述第1實施型態相同的聲音辨識處理,適 用於辨識包含於使用者的聲音之登錄語,並控制電子郵件 的接收傳送功能、行程管理功能、聲音備忘錄功能、聲音 定時功能等等資訊終端裝置。而所謂的聲音備忘錄功能是 指,讓使用者以聲音輸入備忘錄內容,然後錄下該聲音, 並因應使用者的要求來再生聲音資料之處理。而所謂的聲 音定時功能是指,讓使用者以聲音輸入通知內容,然後錄 下該聲音並輸入通知時機,然後於該通知時機再生上述聲 音之處理。 第1 2圖爲本發明的第2實施型態之活用類比電話之資 訊終端裝置之主要磚塊圖。此圖所示之資訊終端裝置是由 辨識包含於使用者的聲音之登錄語’並執行電子郵件的接 本紙張尺度適用中國國家標準(CNS)Α4規格(210X297公釐) -1 - 梦· i i = I I ϋ· 5 —- I (請先閲讀背面之注意事項再填寫本頁)
、1T # 經濟部智慧財產局員工消費合作社印製 -34- 20ϋ3ϋί :υΐ) Α7 Β7 五、發明説明(3) (請先閲讀背面之注意事項再填寫本頁) 收傳送處理、行程管理處理、聲音備忘錄處理、聲音定時 處理功能等之聲音辨識單元5 1,以及基於該辨識結果,進 行往通訊線路的接續之通訊單元52所構成。使用者的聲音 從聲音辨識單元51的麥克風53輸入,經由放大器54,藉 由A/D轉換器5 5轉換爲數位化音響參數。於聲音指示辨識 電路5 6的內部中,針對數位化音響參數,對每個聲音單位 算出記憶登錄於聲音指示資訊記憶體57之登錄語彙淸單內 的登錄語之槪似,並將該槪似的積算値爲最大者,則做爲 最接近使用者的聲音的登錄語來抽出。而於聲音指示辨識 電路56的內部中,亦計算對數位化音響參數之記憶登錄於 聲音指示資訊記憶體57的非必要語之槪似,於該非必要語 之槪似大於登錄語之槪似之際,則不從數位化音響參數中 抽出登錄語。 經濟部智慧財產局員工消費合作社印製 此外,於聲音指示資訊記憶體57內,記憶了登錄關於 電子郵件的傳送功能的登錄語之電子郵件傳送用語彙淸單 ,以及登錄關於電子郵件的接收功能的登錄語之電子郵件 接收用語彙淸單,以及登錄關於行程管理功能的登錄語之 行程管理用語彙淸單,以及登錄關於聲音備忘錄功能的登 錄語之聲音備忘錄用語彙淸單,以及登錄關於聲音定時功 能的登錄語之聲音定時用語彙淸單,以及對應於登錄語之 郵件傳送指令及郵件接收指令之控制碼,來做爲登錄語彙 淸單。在此,於聲音指示辨識電路56中一旦抽出電子郵件 開始傳送的密碼,亦即一旦得到辨識結果的話’則因應使 用者的聲音,來執行控制電子郵件傳送功能之之後所述的 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) -35- 20ϋ301:υί) Α7 ______Β7 五、發明説明(^ 運算處理’並讓使用者以聲音輸入郵件內容,然後以麥克 風5 3檢測出該聲音,經由麥克風介面電路6 8,將之做爲聲 音資料記憶於RAM69,並於輸入電子郵件傳送指令之際, 從聲音指示資訊記憶體57叫出對應於該指令之電話控制用 控制碼,然後傳送至通訊單元52,並將聲音資料附加於電 子郵件加以傳送。此外,同樣的,於聲音指示辨識電路5 6 中一旦辨識出電子郵件開始接收的密碼來做爲辨識結果的 話,則因應使用者的聲音,來執行控制電子郵件接收功能 之之後所述的運算處理,並於輸入電子郵件接收指令之際 ,從聲音指示資訊記憶體57叫出對應於該指令之電話控制 用控制碼,然後傳送至通訊單元52,並除了接收附加了聲 音資料的電子郵件之外,還將該聲音資料經由D/A轉換器 65及放大器16透過揚聲器67來再生。而控制碼只要使可 控制通訊單元52即可,但並不限定於此,而因爲一般均採 用AT指令,因此於本實施型態中亦採用AT指令。 此外,於聲音指示辨識電路56中一旦辨識出行程管理 功能的起始密碼來做爲辨識結果的話,則因應使用者的聲 音,於中央控制電路58中執行控制行程管理功能之之後所 述的運算處理,並讓使用者以聲音輸入行程內容,然後以 麥克風53檢測出該聲音,經由麥克風介面電路68,將之做 爲聲音資料記憶於RAM69,並輸入該行程的執行日,並將 該聲音資料與RAM69賦予關聯來進行行程管理。此外,於 聲音指示辨識電路56中一旦抽出聲音備忘錄功能的起始密 碼,亦即一旦得到辨識結果的話,則因應使用者的聲音, 本紙張尺度適用中國國家標準(CNS〉Α4規格(210乂297公釐) (請先閲讀背面之注意事項再填寫本頁) 衣.
、1T 經濟部智慧財產局員工消費合作社印製 -36- 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(3含 (請先閱讀背面之注意事項再填寫本頁) 於中央控制電路5 8中執行控制聲音備忘錄功能之之後所述 的運算處理,並讓使用者以聲音輸入備忘錄內容,然後以 麥克風53檢測出該聲音,經由麥克風介面電路68,將之做 爲聲音資料記憶於RAM69,並因應使用者的要求,從 RAM69 口 1|出聲音資料,並將之經由D/A轉換器65及放大 器1 6透過揚聲器67來再生。此外,於聲音指示辨識電路 5 6中一旦辨識出聲音定時製作功能的起始密碼來做爲辨識 結果的話,則因應使用者的聲音,於中央控制電路58中執 行控制聲音定時功能之之後所述的運算處理,並讓使用者 以聲音輸入通知內容,然後以麥克風53檢測出該聲音,經 由麥克風介面電路68,將之做爲聲音資料記憶於RAM69, 並輸入該聲音的通知時機,於該通知時機從RAM69叫出聲 音資料,並將之經由D/A轉換器65及放大器16透過揚聲 器67來再生。 經濟部智慧財產局員工消費合作社印製 而所使用的硬體可採用具有第1 2圖所記載的基本功能 即可,但並不限定於此,以下如第1 3圖所示般,針對採用 市面上販售的個人電腦來做爲聲音辨識單元51的情況加以 說明。 第1 4圖顯示於第1 3圖的資訊終端裝置中所執行的運 算處理,且爲因應使用者的聲音來傳送電子郵件等運算處 理之流程圖。雖然於此流程圖中未設置用於通訊的步驟, 然而,不僅經由運算處理所得到的資訊可更新記憶於隨機 記憶裝置中,必要的資訊亦可從隨機記憶裝置當中加以讀 出0 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ29?公釐) -37- 200301 υΐ) Α7 Β7 五、發明説明(Μ (請先閱讀背面之注意事項再填寫本頁) 一旦執行運算處理的話,則首先於步驟S 1 0 1中,讀入 麥克風5 3所檢測出的聲音,然後執行辨識是否包含了包含 於該聲音的登錄語之起始密碼(例如「傳送電子郵件」的 單字)’或是辨識是否僅包含起始密碼以外的雜音與聲音 ’亦即僅包含非必要語之聲音辨識處理,於包含起始密碼 的情況下,則爲(YE S )並進行步驟S i 〇2,於未包含起始 密碼的情況下,則爲(NO )並重複此流程。 接下來進行步驟S102,首先讀入電子郵件傳送用語彙 淸單做爲登錄語彙淸單,並且如第15圖所示,啓動聲音郵 件啓動器,並將使用者所可以指示的登錄語的一覽顯示於 LCD顯示裝置62。而顯示於LCD顯示裝置62的登錄語, 例如,於想要製作電子郵件之際之郵件製作指令(例如「 製作郵件」的單字)。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟Sl〇3,首先讀入麥克風53所檢測出的 聲音,然後執行辨識是否包含了爲包含於該聲音的登錄語 之郵件製作指令,或是辨識是否僅包含郵件製作指令以外 的雜音與聲音,亦即僅包含非必要語之聲音辨識處理,於 包含郵件製作指令的情況下,則爲(YES )並進行步驟 S 1 04,於未包含郵件製作指令的情況下,則爲(NO )並重 複此流程。 接下來進行步驟S 1 04,首先讀入麥克風53所檢測出的 聲音,然後執行辨識是否包含了爲包含於該聲音的登錄語 之對方淸單選擇指令(例如「對方淸單」的單字),或是 辨識是否僅包含對方淸單選擇指令以外的雜音與聲音,亦 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) -38- 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(3$ 即僅包含非必要語之聲音辨識處理,於包含對方淸單選擇 指令的情況下,則爲(YES )並進行步驟S 1 05,於未包含 (請先閱讀背面之注意事項再填寫本頁} 對方淸單選擇指令的情況下,則爲(NO)並進行步驟S106 〇 於上述步驟S105中,如第15圖所示般,不僅將記載 了登錄其郵件地址的人,亦即其郵件地址收納於記憶裝置 的所定資料區的人的姓名,顯示於LCD顯示裝置62,還讀 入麥克風53所檢測出的聲音,並執行辨識包含於該聲音的 登錄語之人名的聲音辨識處理,然後在叫出對應該人名的 郵件地址之後,進行步驟S107。 另一方面,於上述步驟S106中,不僅將催促說出郵件 傳送目的地的郵件地址之訊息顯示於LCD顯示裝置62,還 讀入麥克風53所檢測出的聲音,並執行辨識包含於該聲音 的登錄語之字母的聲音辨識處理,然後在辨識出傳送目的 地的郵件地址之後,進行步驟S107。 經濟部智慧財產局員工消費合作社印製 於上述步驟S107中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之錄音開始指令(例如「錄音開始」的 單字)的聲音辨識處理,並判斷該聲音是否包含錄音開始 指令,於包含錄音開始指令的情況下,則爲(YES )並進行 步驟S 1 08,於未包含錄音開始指令的情況下,則爲(NO ) 並重複此流程。 於上述步驟S108中,不僅將催促說出郵件傳送目的地 的郵件地址之訊息顯示於LCD顯示裝置62,還於所定時間 中錄下麥克風53所檢測出的聲音並生成聲音資料,並將該 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -39- 20ϋ30Κύ〇 A7 B7 五、發明説明(3今 聲音資料做爲郵件內容收納於記憶裝置的所定資料區內。 (請先閱讀背面之注意事項再填寫本頁) 於上述步驟S109中,針對麥克風53所檢測出的聲音 ’執fj辨識登錄語之追加錄音指令(例如「追加錄音」的 單字)的聲音辨識處理,並判斷該聲音是否包含追加錄音 指令,於包含追加錄音指令的情況下,則爲(YES)並再次 進行步驟S 1 0 8,於未包含追加錄音指令的情況下,則爲( NO )並進行步驟S1 10。 於上述步驟S110中,讀入麥克風53所檢測出的聲音 ,並判斷該聲音是否包含錄音內容確認指令(例如「確認 錄音內容」的單字),於包含錄音內容確認指令的情況下 ,則爲(YES)並再次進行步驟S111,於未包含錄音內容 確認指令的情況下,則爲(NO)並進行步驟S 112。 於上述步驟S 1 1 1中,從記憶裝置的所定資料區中,讀 出於上述步驟S108中所生成的聲音資料,亦即郵件內容, 並於揚聲器67再生該聲音資料之後,進行步驟S112。 經濟部智慧財產局員工消費合作社印製 於上述步驟S 1 1 2中,讀入麥克風5 3所檢測出的聲音 ,並判斷該聲音是否包含傳送指令(例如「執行傳送的確 認」的單字),於包含傳送指令的情況下,則爲(YES )並 進行步驟S 1 1 3,於未包含傳送指令的情況下,則爲(NO ) 並進行步驟S114。 於上述步驟S 1 1 3中,從記憶裝置的所定資料區中,讀 出撥號至網路服務提供者(ISP )之AT指令,並傳送該AT 指令至聲音通話單元1 02,來接續網路服務提供者的郵件伺 月艮器。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -40- 20ϋ30Κυί) Α7 Β7 五、發明説明( (請先閱讀背面之注意事項再填寫本頁) 接下來進行步驟S 1 1 4,首先從記憶裝置的所定資料區 中,讀出於上述步驟Sl〇8中所生成的聲音資料,亦即郵件 內容,然後附加該聲音資料,將電子郵件傳送至上述步驟 S 1 0 5所讀出的郵件地址或是上述步驟s 1 06所輸入的郵件地 址。 接下來進行步驟s 1 1 5,首先從記憶裝置的所定資料區 中,讀出指示線路掛斷的AT指令,然後將該AT指令傳送 至聲音通話單元52。 接下來進行步驟S 1 1 6,在將結束電子郵件的傳送之訊 息顯示於LCD顯示裝置62之後,進行步驟S1 18。 另一方面,於上述步驟S 1 1 7中,從記憶裝置的所定資 料區中,刪除於上述步驟Sl〇8中所生成的聲音資料,亦即 郵件內容之後,進行步驟S 1 1 8。 於上述步驟S118中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之結束指令(例如「結束」的單字)的 聲音辨識處理,並判斷該聲音是否包含結束指令,於包含 結束指令的情況下,則爲(YES )並結束此運算處理,於未 經濟部智慧財產局員工消費合作社印製 包含結束指令的情況下,則爲(NO)並再次進行步驟S1 04 〇 第1 6圖顯示於第1 3圖的資訊終端裝置中所執行的處 理,且爲因應使用者的聲音來接收電子郵件等運算處理之 流程圖。雖然於此流程圖中未設置用於通訊的步驟,然而 ,不僅經由運算處理所得到的資訊可更新記憶於隨機記憶 裝置中,必要的資訊亦可從隨機記憶裝置當中加以讀出。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -41 - A7 B7 五、發明説明(3$ (請先閲讀背面之注意事項再填寫本頁) 一旦執行運算處理的話,則首先於步驟S 20 1中,讀入麥克 風53所檢測出的聲音,然後執行辨識是否包含了包含於該 聲音的起始密碼(例如「接收電子郵件」的單字),或是 辨識是否僅包含起始密碼以外的雜音與聲音,亦即僅包含 非必要語之聲音辨識處理,於包含起始密碼的情況下,則 爲(YES )並進行步驟S202,於未包含起始密碼的情況下 ,則爲(NO )並重複此流程。 接下來進行步驟S202,首先讀入電子郵件接收用語彙 淸單做爲登錄語彙淸單,並且啓動聲音郵件啓動器,並將 使用者所可以指示的登錄語的一覽表顯示於LCD顯示裝置 62。而顯示於LCD顯示裝置62的登錄語,例如,於想要 接收電子郵件之際之郵件接收指令(例如「接收郵件」的 單字)。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟S2〇3,首先讀入麥克風53所檢測出的 聲音,然後執行辨識是否包含了爲包含於該聲音的登錄語 之郵件接收指令,於包含郵件接收指令的情況下,則爲( YES )並進行步驟S204,於未包含郵件接收指令的情況下 ’則爲(NO)並重複此流程。 接下來進行步驟S204,首先從記憶裝置的所定資料區 中,叫出撥號至網路服務提供者(ISP)之AT指令,並傳 送該AT指令至聲音通話單元1 02,來接續網路服務提供者 的郵件伺服器。 接下來進行步驟S205,首先從上述步驟S204中所接續 的郵件伺服器當中接收電子郵件,並將該電子郵件收納於 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -42- 20ϋ30Κύ〇 A7 B7 五、發明説明(3令 記憶裝置的所定資料區中。 (請先閱讀背面之注意事項再填寫本頁) 接下來進行步驟S2〇6,將結束電子郵件的接收之訊息 顯示於L C D顯示裝置6 2。 接下來進行步驟S207,首先從記憶裝置的所定資料區 中讀出指示線路掛斷的AT指令,然後將該AT指令傳送至 聲音通話單元52。 接下來進行步驟S2〇8,不僅將上述步驟S20 5中所接收 的郵件一覽表顯示於LCD顯示裝置62,還讀入麥克風53 所檢測出的聲音,並執行辨識包含於該聲音的登錄語之郵 件選擇指令的聲音辨識處理,並讓使用者從郵件一覽表當 中選擇特定郵件。而郵件選擇指令只要是使用者可以選擇 特定郵件即可,例如於顯示郵件傳送者人名來做爲郵件一 覽表的情況下,可採用揭露於該一覽表的人名。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟S2〇9,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之再生指令(例如「再生」的單字)的 聲音辨識處理,並判斷該聲音是否包含再生指令,於包含 再生指令的情況下,則爲(YES )並進行步驟S2丨〇,於未 包含再生指令的情況下,則爲(NO )並進行步驟S2丨!。 於上述步驟S 2 1 0中,從記憶裝置的所定資料區中,讀 出於上述步驟S2〇 8中所生成的聲音資料,亦即郵件內容, 並於揚聲器67再生該聲音資料之後,進行步騾S2U。 於上述步驟S 2 11中,針對麥克風5 3所檢測出的聲音 ,執行辨識登錄語之行程登錄指令(例如「行程登錄」的 單字)的聲音辨識處理,並判斷該聲音是否包含行程登錄 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) -43- 2〇ϋ30Κυ〇 Α7 Β7 五、發明説明(40 (請先閱讀背面之注意事項再填寫本頁) 指令,於包含行程登錄指令的情況下,則爲(YES )並進行 步驟S2 1 2,於未包含行程登錄指令的情況下,則爲(NO ) 並進行步驟S217。 於上述步驟S212中,首先讀入行程管理用語彙淸單做 爲登錄語彙淸單,並且啓動行程管理啓動器,並將使用者 所可以指示的登錄語的一覽表顯示於LCD顯示裝置62。 接下來進行步驟S213,首先判斷於上述步驟S2〇8中所 選擇的郵件是否記載了標題資訊(例如指定日期的資訊) ,於包含標題資訊的情況下,則爲(YES )並進行步驟 S2 1 4,於未包含標題資訊的情況下,則爲(NO )並進行步 驟 S215 〇 經濟部智慧財產局員工消費合作社印製 於上述步驟S214中,首先將附加於上述步驟S208中 所選擇的郵件的聲音資料,亦即郵件內容,收納於記憶裝 置的所定資料區中,來做爲記載於上述郵件之標題資訊的 曰期中之行程內容。接下來,不僅將催促輸入行程內容的 大•小項目選擇指令(例如「私人的」、「約會」等單字 )的訊息顯示於LCD顯示裝置62,還讀入麥克風5 3所檢 測出的聲音,並執行辨識包含於該聲音的登錄語之行程的 大•小項目選擇指令的聲音辨識處理,並將該辨識結果收 納於記憶裝置的所定資料區中,來做爲上述聲音資料,亦 即行程內容的大·小項目,並進行上述步驟S 2 1 7。 另一方面,於上述步驟S215中,不僅將催促輸入行程 的執行日的訊息顯示於LCD顯示裝置62,還執行辨識包含 於該聲音的登錄語之年月日輸入指令(例如「〇〇年〇月 本紙張尺度適用中國國家標準(CMS ) A4規格(210X 297公釐) -44 - 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(4) 〇曰」等單字)的聲音辨識處理。 (請先閱讀背面之注意事項再填寫本頁) 接下來進行步驟S216,首先將附加於上述步驟S208中 所選擇的郵件的聲音資料’亦即郵件內容,收納於記憶裝 置的所定資料區中’來做爲於上述步驟S215中所辨識之年 月日中之行程內容。接下來,不僅將催促輸入行程內容的 大•小項目選擇指令(例如「私人的」、「約會」等單字 )的訊息顯示於LCD顯示裝置62,還讀入麥克風53所檢 測出的聲音,並執行辨識包含於該聲音的登錄語之行程的 大•小項目選擇指令的聲音辨識處理。並在將該辨識結果 收納於記憶裝置的所定資料區中,來做爲上述聲音資料, 亦即行程內容的大•小項目之後,進行上述步驟S2 1 7。 於上述步驟S2 17中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之結束指令(例如「結束」的單字)的 聲音辨識處理,並判斷該聲音是否包含結束指令,於包含 結束指令的情況下,則爲(YES)並結束此運算處理,於未 包含結束指令的情況下,則爲(NO)並再次進行步驟S203 〇 經濟部智慧財產局員工消費合作社印製 第1 6圖顯示於第1 3圖的資訊終端裝置中所執行的處 理,且爲因應使用者的聲音來執行行程管理功能之運算處 理之流程圖。雖然於此流程圖中未設置用於通訊的步驟, 然而,不僅經由運算處理所得到的資訊可更新記憶於隨機 記憶裝置中,必要的資訊亦可從隨機記憶裝置當中加以讀 出。一旦執行運算處理的話,則首先於步驟S301中,讀入 麥克風53所檢測出的聲音,然後執行辨識是否包含了包含 本紙張尺度適用中國國家標隼(CNS ) Α4規格(210Χ 297公釐) -45 - Α7 Β7 五、發明説明(4 (請先閱讀背面之注意事項再填寫本頁) 於該聲音的起始密碼(例如「聲音行程」的單字),或是 辨識是否僅包含起始密碼以外的雜音與聲音,亦即僅包含 非必要語之聲音辨識處理,於包含起始密碼的情況下,貝[] 爲(YES )並進行步驟S3 02,於未包含起始密碼的情況下 ,則爲(N 0 )並重複此流程。 接下來進行步驟S3 02,首先讀入行程管理用語彙淸單 做爲登錄語彙淸單,並且如第1 8圖所示般啓動聲音行程啓 動器,並將使用者所可以指示的登錄語的一覽表顯示於 LCD顯示裝置62。而顯示於LCD顯示裝置62的登錄語, 例如,於想要登錄行程之際之行程登錄指令(例如「行程 設定」的單字),於想要確認行程之際之行程確認指令( 例如「行程確認」的單字)。 接下來進行步驟S3 03,首先不僅將催促說出行程的執 行日的訊息顯示於LCD顯示裝置62,還讀入麥克風53所 檢測出的聲音,執行辨識包含於該聲音的登錄語之年月曰 輸入指令(例如「〇〇年〇月〇日」等單字)的聲音辨識 處理。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟S3 04,針對麥克風53所檢測出的聲音 ’執行辨識登錄語之行程登錄指令的聲音辨識處理,並判 斷該聲音是否包含行程登錄指令,於包含行程登錄指令的 情況下,則爲(YE S )並進行步驟S3 0 5,於未包含行程登 錄指令的情況下,則爲(NO )並進行步驟S3 1 0。 於上述步驟S3 05中,首先讀入麥克風53所檢測出的 聲音’然後執行辨識包含於該聲音的登錄語之行程開始· 本紙張尺度適用中國國家襟準(CNS ) Α4規格(210〆29?公釐) -46- A 7 B7 五、發明説明(43) 結束時間輸入指令(例如「〇點〇分」等單字)的聲音辨 識處理,並讓使用者輸入行程的開始時間與結束時間。 (請先聞讀背面之注意事項再填寫本頁) 接下來進行步驟S3 06,不僅將催促說出行程內容的訊 息顯示於LCD顯示裝置62,還於所定時間中錄下麥克風 53所檢測出的聲音來生成聲音資料,並將該聲音資料收納 於記憶裝置的所定資料區內,來做爲上述步驟S3 03中所辨 識的年月日中之行程內容。 接下來進行步驟S3 07,首先將催促輸入行程內容的大 •小項目選擇指令(例如「私人的」、「約會」等單字) 的訊息顯示於LCD顯示裝置62,還讀入麥克風53所檢測 出的聲音,並執行辨識包含於該聲音的登錄語之行程的大 •小項目選擇指令的聲音辨識處理。接下來將該辨識結果 收納於記憶裝置的所定資料區中,來做爲上述步驟S306中 所生成的聲音資料,亦即行程內容的大•小項目。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟S3 08,首先將催促說出提醒功能的設 定指令(例如「提醒的設定」等單字)的訊息顯示於LCD 顯示裝置62,然後針對麥克風53所檢測出的聲音,執行辨 識登錄語之提醒的設定指令的聲音辨識處理。接下來判斷 該聲音是否包含提醒的設定指令,於包含提醒的設定指令 的情況下,則爲(YES )並進行步驟S3 09,於未包含提醒 的設定指令的情況下,則爲(NO )並進行步驟S3 24。在此 所謂的提醒功能,是指將行程內容於所定時機中加以通知 ,並讓使用者想起該行程內容的存在之功能。 於上述步驟S3 09中,不僅將催促輸入提醒的通知時間 -47- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X29?公釐) ϋ30ί^υί) Α7 Β7 經濟部智慧財產局員工消費合作社印製 五、發明説明(44) 及通知人名等的訊息顯示於LCD顯示裝置62,還讀入麥克 風53所檢測出的聲音,執行辨識包含於該聲音的登錄語之 提醒的通知時間及通知人名的設定指令(例如「〇分前」 等單字)的聲音辨識處理,並讓使用者輸入提醒功能的通 知時機。接下來從記憶裝置的所定資料區中,讀出關於提 醒的通知時間之上述步驟S3 06中所生成的聲音資料,亦即 行程內容,並於揚聲器67再生該聲音資料之後,進行步驟 S324 〇 另一方面,於上述步驟S310中,針對麥克風53所檢 測出的聲音,執行辨識登錄語之行程確認指令的聲音辨識 處理,並判斷該聲音是否包含行程確認指令,於包含行程 確認指令的情況下,則爲(YES )並進行步驟S3 1 1,於未 包含行程確認指令的情況下,則爲(NO)並進行步驟S3 19 〇 於上述步驟S311中,如第19圖所示般,從記憶裝置 的所定資料區內,讀出於接收電子郵件等運算處理的步驟 S214及步驟S216、及上述步驟S3 17中所輸入之行程的大 •小項目,並將其一覽表顯示於LCD顯示裝置62。 於上述步驟S3 12中,針對麥克風53所檢測出的聲音 ’執行辨識登錄語之錄音內容確認指令(例如「確認」的 單字)的聲音辨識處理,並判斷該聲音是否包含錄音內容 確認指令,於包含錄音內容確認指令的情況下,則爲(YE S )並進行步驟S3 1 3,於未包含錄音內容確認指令的情況下 ,則爲(NO)並進行步驟S3 14。 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -48- 200301^ υΐ) Α7 Β7 五、發明説明(45) 於上述步驟S3 13中,將對應於步驟SHI中顯示於 Lc〇顯示裝置62的行程內容的大•小項目之聲音資料,亦 即行程內容,於揚聲器67再生該聲音資料之後,進行步驟 S3 1 4 〇 於上述步驟S3 14中,首先針對麥克風53所檢測出的 聲音,執行辨識登錄語之行程追加登錄指令(例如「行程 設定」的單字)的聲音辨識處理,並判斷該聲音是否包含 行程追加登錄指令,於包含行程追加登錄指令的情況下, 則爲(YES )並進行步驟S3 1 5,於未包含行程追加登錄指 令的情況下,則爲(NO )並進行步驟S3 1 6。 於上述步驟S315中,於記憶裝置中確保用於登錄新的 行程的資料區之後,進行上述步驟S3 05。 另一方面,於上述步驟S3 16中,針對麥克風53所檢 測出的聲音,執行辨識登錄語之行程修正指令(例如「修 正」的單字)的聲音辨識處理,並判斷該聲音是否包含行 程修正指令,於包含行程修正指令的情況下,則爲(YES) 並進行步驟S 3 0 5,於未包含行程修正指令的情況下,則爲 (NO)並進行步驟S317。 於上述步驟S3 17中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之行程刪除指令(例如「刪除」的單字 )的聲音辨識處理,並判斷該聲音是否包含行程刪除指令 ,於包含行程刪除指令的情況下,則爲(YES)並進行步驟 S3 1 8,於未包含行程刪除指令的情況下,則爲(NO )並進 行步驟S311。 張尺度適用不國國家標準(CNS ) A4規格(210X 297公釐) -49 m 1- 1--= 1— — I! I--—I ....... I (請先閲讀背面之注意事項再填寫本頁)
、1T 經濟部智慧財產局員工消費合作社印製 20ϋ30ί :υί) A7 B7 五、發明説明(46) 於上述步驟S3 18中,從記憶裝置中刪除登錄了行程的 資料區之後,進行上述步驟S3 24。 (請先閲讀背面之注意事項再填寫本頁) 另一方面,於上述步驟S319中,針對麥克風53所檢 測出的聲音,執行辨識登錄語之行程搜尋指令(例如「行 程搜尋」的單字)的聲音辨識處理,並判斷該聲音是否包 含行程搜尋指令,於包含行程搜尋指令的情況下,則爲( YES)並進行步驟S320,於未包含行程搜尋指令的情況下 ,則爲(NO)並進行步驟S3 03。 於上述步驟S3 20中,不僅將催促輸入行程內容的大· 小項目選擇指令的訊息顯示於LCD顯示裝置62,還讀入麥 克風53所檢測出的聲音,並執行辨識包含於該聲音的登錄 語之行程的大•小項目選擇指令的聲音辨識處理,並讓使 用者輸入搜尋對象之行程內容的大•小項目。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟SUl,首先針對麥克風53所檢測出的 聲音,執行辨識登錄語之搜尋執行指令(例如「搜尋執行 」的單字)的聲音辨識處理,並判斷該聲音是否包含搜尋 執行指令,於包含搜尋執行指令的情況下,則爲(YES )並 進行步驟S322,於未包含搜尋執行指令的情況下,則爲( NO )並進行步驟S3 20。 接下來於上述步驟S3 22中,從記憶裝置的所定資料區 內,搜尋對應於上述步驟S3 20中所辨識的行程內容的大· 小項目之行程,並將該搜尋結果顯示於LCD顯示裝置62。 接下來進行步驟S3 2 3,首先針對麥克風53所檢測出的 聲音,執行辨識再搜尋指令(例如「再搜尋」的單字)的 -50- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 20ϋ30Κυΐ) Α7 ___________Β7 五、發明説明(47 ) 聲音辨識處理,並判斷該聲音是否包含再搜尋指令,於包 含再搜尋指令的情況下,則爲(YES )並進行步驟S 3 22, (請先閱讀背面之注意事項再填寫本頁) 於未包含再搜尋指令的情況下,則爲(NO )並進行步驟 S320 〇 於上述步驟S3 24中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之結束指令(例如「結束」的單字)的 聲音辨識處理,並判斷該聲音是否包含結束指令,於包含 結束指令的情況下,則爲(YES )並結束此運算處理,於未 包含結束指令的情況下,則爲(NO )並再次進行步驟S 3 0 3 〇 經濟部智慧財產局員工消費合作社印髮 第20圖顯示於第13圖的資訊終端裝置中所執行的處 理,且爲因應使用者的聲音來執行聲音備忘錄功能之運算 處理之流程圖。雖然於此流程圖中未設置用於通訊的步驟 ,然而,不僅經由運算處理所得到的資訊可更新記憶於隨 機記憶裝置中,必要的資訊亦可從隨機記憶裝置當中加以 讀出。一旦執行運算處理的話,則首先於步驟S40 1中,讀 入麥克風53所檢測出的聲音,然後執行辨識是否包含了包 含於該聲音的起始密碼(例如「聲音備忘錄」的單字), 或是辨識是否僅包含起始密碼以外的雜音與聲音,亦即僅 包含非必要語之聲音辨識處理,於包含起始密碼的情況下 ,則爲(YES )並進行步驟S402,於未包含起始密碼的情 況下,則爲(NO )並重複此流程。 接下來進行步驟S402,首先讀入聲音備忘錄用語彙淸 單做爲登錄語彙淸單,並且如第2 1圖所示般啓動聲音備忘 -51 - 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 2〇ϋ30Κυΐ) Α7 Β7 經濟部智慧財產局員工消費合作社印製 五、發明説明(48) 錄啓動器’並將使用者所可以指示的登錄語的一覽表顯示 於LCD顯示裝置62。而顯示於LCD顯示裝置62的登錄語 ’例如於想要製作聲音備忘錄的情況下之,想要錄下聲音 之際所發S舌之錄音指令(例如「開始錄音」的單字),以 及想要再生聲音備忘錄之際所發話之再生指令(例如「開 始再生」的單字),以及想要選擇聲音備忘錄之際所發話 之選擇與各個聲音備忘錄具有關聯的號碼之備忘錄資料夾 號碼選擇指令(例如「1號」、「2號」的單字)等。 接下來進行步驟S4〇3,針對麥克風53所檢測出的聲音 ’執行辨識登錄語之備忘錄資料夾號碼選擇指令的聲音辨 識處理,並判斷該聲音是否包含備忘錄資料夾號碼選擇指 令’於包含備忘錄資料夾號碼選擇指令的情況下,則爲( YES )並進行步驟S404,於未包含備忘錄資料夾號碼選擇 指令的情況下,則爲(NO)並進行步驟S407。 於上述步驟S404中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之錄音指令的聲音辨識處理,並判斷該 聲音是否包含錄音指令,於包含錄音指令的情況下,則爲 (YES )並進行步驟S405,於未包含錄音指令的情況下, 則爲(NO )並再次進行步驟S403。 於上述步驟S 4 0 5中,不僅將催促說出備忘錄內容的訊 息顯示於LCD顯示裝置62,還於所定時間中錄下麥克風 53所檢測出的聲音並生成聲音資料,並將該聲音資料收納 於記憶裝置的所定資料區內,來做爲對應於上述步驟S403 所選擇的備忘錄資料夾之備忘錄內容。 -裝-- (請先閲讀背面之注意事項再填寫本頁) 、11 1^ 本紙張尺度適用中國國家標準(CNS ) Α4規格(2丨0X297公釐) -52- 20ϋ30Κύΐ) A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(49) 接下來進行步驟S4〇6,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之錄音內容確認指令(例如「確認」的 單字)的聲音辨識處理,並判斷該聲音是否包含錄音內容 確認指令,於包含錄音內容確認指令的情況下,則爲(YES )並進行步驟S408,於未包含錄音內容確認指令的情況下 ,則爲(NO)並進行步驟S409。 接下來進行步驟S4〇7,針對麥克風5 3所檢測出的聲音 ,執行辨識登錄語之再生指令的聲音辨識處理,並判斷該 聲音是否包含再生指令,於包含再生指令的情況下,則爲 (YES )並進行步驟S4〇8,於未包含再生指令的情況下, 則爲(NO)並重複此流程。 於上述步驟S4〇8中,從記憶裝置的所定資料區內,讀 出對應於上述步驟S4〇3所選擇的備忘錄資料夾之聲音資料 ,亦即郵件內容,並於揚聲器67再生該聲音資料之後,進 行步驟S409。 於上述步驟S409中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之結束指令(例如「結束」的單字)的 聲音辨識處理,並判斷該聲音是否包含結束指令,於包含 結束指令的情況下,則爲(YES)並結束此運算處理,於未 包含結束指令的情況下,則爲(NO)並再次進行步驟S403 〇 第22圖顯示於第1 3圖的資訊終端裝置中所執行的處 理,且爲因應使用者的聲音來執行聲音定時功能之運算處 理之流程圖。雖然於此流程圖中未設置用於通訊的步驟, (請先閱讀背面之注意事項再填寫本頁) 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -53 - 20ϋ30ί :υΐ) A7 B7 五、發明説明(50) 然而,不僅經由運算處理所得到的資訊可更新記憶於隨機 記憶裝置中,必要的資訊亦可從隨機記憶裝置當中加以讀 出。一旦執行運算處理的話,則首先於步驟S5〇l中,讀入 麥克風53所檢測出的聲音,然後執行辨識是否包含了包含 於該聲音的起始密碼(例如「聲音定時」的單字),或是 辨識是否僅包含起始密碼以外的雜音與聲音,亦即僅包含 非必要語之聲音辨識處理,於包含起始密碼的情況下,則 爲(YES )並進行步驟S502,於未包含起始密碼的情況下 ,則爲(NO)並重複此流程。 接下來進行步驟S502,首先讀入聲音定時用語彙淸單 做爲登錄語彙淸單,並且啓動聲音定時啓動器,並將使用 者所可以指示的登錄語的一覽表顯示於LCD顯示裝置62。 而顯示於LCD顯示裝置62的登錄語,例如於設定通知內 容及通知時機之際所發話之定時設定指令(例如「定時設 定」的單字),於啓動定時之際所發話之定時開始指令( 例如「定時開始」的單字)等。 接下來進行步驟S503,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之定時設定指令的聲音辨識處理,並判 斷該聲音是否包含定時設定指令,於包含定時設定指令的 情況下,則爲(YES)並進行步驟S 504,於未包含定時設 定指令的情況下,則爲(NO)並再次進行步驟S5 02。 於上述步驟S5 04中,不僅將催促輸入從定時動作開始 至進行通知爲止的時間,亦即通知時機的訊息顯示於LCD 顯示裝置62,還讀入麥克風53所檢測出的聲音,並執行從
Him !- 00 - 1 Ii— I - - I (請先閱讀背面之注意事項再填寫本頁}
、1T 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) -54- 200301 :υΐ) Α7 Β7 五、發明説明(51) 該聲音來辨識登錄語之定時時間設定指令(例如「〇〇分 」的單字)的聲音辨識處理。 (請先閱讀背面之注意事項再填寫本頁) 接下來進行步驟S 505,不僅將催促是否錄下通知內容 的回答的訊息顯示於LCD顯示裝置62,還針對麥克風5 3 所檢測出的聲音,執行辨識登錄語之錄音開始確認指令( 例如「是」的單字)的聲音辨識處理,並判斷該聲音是否 包含錄音開始確認指令,於包含錄音開始確認指令的情況 下,則爲(YES)並進行步驟S506,於未包含錄音開始確 認指令的情況下,則爲(NO)並再次進行步驟S502。 於上述步驟S506中,不僅將催促說出通知內容的訊息 顯示於LCD顯示裝置62,還於所定時間中錄下麥克風53 所檢測出的聲音來生成聲音資料,並將該聲音資料收納於 記憶裝置的所定資料區內,來做爲上述步驟S3 03中所辨識 的時間,亦即通知該通知時機之通知內容。 經濟部智慧財產局員工消費合作社印製 接下來進行步驟S5 07,不僅將催促確認於上述步驟 S5〇6中所錄下的聲音,亦即確認通知內容的訊息顯示於 LCD顯示裝置62,還針對麥克風53所檢測出的聲音,執 行辨識登錄語之錄音內容確認指令(例如「內容確認」的 單字)的聲音辨識處理,並判斷該聲音是否包含錄音內容 確認指令,於包含錄音內容確認指令的情況下,則爲(YES )並進行步驟S5〇8,於未包含錄音內容確認指令的情況下 ,則爲(NO)並再次進行步驟S 5 09。 於上述步驟S5 08中,於揚聲器67再生上述步驟S5〇6 中所生成的聲音資料,亦即通知內容之後,進行上述步驟 -55- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) 20ϋ30ί :υΐ) A 7 B7 五、發明説明(52) S509 〇 於上述步驟S5 09中,針對麥克風53所檢測出的聲音 ,執行辨識登錄語之結束指令(例如「結束」的單字)的 聲音辨識處理,並判斷該聲音是否包含結束指令,於包含 結束指令的情況下,則爲(YES)並結束此運算處理,於未 包含結束指令的情況下,則爲(NO )並再次進行步驟S502 〇 另一方面,於上述步驟S5 10中,針對麥克風53所檢 測出的聲音,執行辨識登錄語之定時開始指令的聲音辨識 處理,並判斷該聲音是否包含定時開始指令,於包含定時 開始指令的情況下,則爲(YES )並進行步驟S5 1 1,於未 包含定時開始指令的情況下,則爲(NO )並再次進行步驟 S502 〇 於上述步驟S511中,於上述步驟S504所辨識的時間 ,亦即通知時機中,從記憶裝置的所定資料區內,讀出上 述步驟S506中所生成的聲音資料,亦即通知內容,並於揚 聲器67再生該聲音資料之運算處理之後,結束此運算處理 〇 如以上所說明般,因爲於本實施型態的資訊通訊終端 裝置中,藉由辨識包含於使用者的聲音之登錄語,來執行 電子郵件的接收傳送功能、行程管理功能、聲音備忘錄功 能、及聲音定時功能等,因此使用者可以僅僅說出登錄語 來使用各個功能,並不需要物理性的操作。 此外,因爲採用與上述第1實施型態相同之聲音辨識 本紙張尺度適用中國國家標準(CNS ) A4規格(210x 297公釐) -56 - -裝-- (請先閲讀背面之注意事項再填寫本頁)
、1T 經濟部智慧財產局員工消費合作社印製 20ϋ30Κύΐ) Α7 __Β7 五、發明説明(53) (請先閲讀背面之注意事項再填寫本頁) 處理,因此與上述第1實施型態相同,當使用者發出不包 含登錄語的聲音,亦即發出登錄語以外的聲音之際,可針 對該聲音的音響參數系列,算出較大的非必要語模型23的 槪似,並算出較小的登錄語的語彙網路22的槪似,並可基 於這些槪似,來辨識上述登錄語以外的聲音來做爲非必要 語,以防止將該登錄語以外的聲音誤認爲登錄語,並防止 資訊終端裝置的錯誤動作。 而於本實施型態中,麥克風53乃對應於聲音檢測手段 ,聲音指示辨識電路56乃對應於聲音辨識手段,中央控制 電路5 8乃對應於控制手段。 經濟部智慧財產局員工消費合作社印製 以下基於圖面來說明本發明的第3實施型態。此實施 型態乃將與上述第1實施型態相同的聲音辨識處理,適用 於辨識包含於使用者的聲音之登錄語,並進行通訊線路的 接續等之電話通訊終端。第23圖爲活用本發明的第3實施 型態之類比電話或是語音數據機之電話終端的主要磚塊圖 。此圖所顯示之電話通訊終端是由控制聲音辨識之聲音辨 識單元1 0 1以及控制聲音通話之聲音通話單元1 02,亦即由 辨識包含於使用者的聲音之登錄語之聲音辨識單元101,以 及基於該辨識結果,進行往通訊線路的接續之聲音通話單 元102所構成。使用者的聲音從聲音辨識單元101的麥克 風103輸入,經由放大器104,藉由A/D轉換器105轉換 爲數位化音響參數。在此,所輸入的類比聲音並不特別限 制,一般是以位於8ΚΗζ〜16ΚΗζ的範圍之特定頻率數來取 樣並加以數位化。於聲音指示辨識電路1 06的內部中,在 -57- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) 20ϋ30ί^υί) Α7 Β7 五、發明説明(54) (請先閲讀背面之注意事項再填寫本頁) 每個單字的構成單位之聲音單位中,對記憶登錄於聲音指 示資訊記憶體107之登錄語彙淸單,算出與上述音響參數 的槪似,並藉由此,從登錄語彙淸單當中,抽出最接近的 單字。換言之,於聲音指示辨識電路106的內部中,對每 個這些構成單位(以下稱爲聲音單位),計算對數位化音 響參數之記憶登錄於聲音指示資訊記憶體,107之登錄語彙 淸單內的單字(以下稱爲登錄語)之槪似,而該槪似的積 算値爲最大者,則做爲最接近使用者的聲音的登錄語來抽 出。於聲音指示辨識電路1 06的內部中,亦計算對數位化 音響參數之記憶登錄於聲音指示資訊記憶體7的非必要語 之槪似,於該非必要語之槪似大於登錄語之槪似之際,則 不從數位化音響參數中抽出登錄語。 在此,登錄語彙淸單當中,登錄了登錄語與該登錄語 以外之非必要語來做爲登錄語彙。此外,聲音單位可適當 採用音節 '音素、半音節、雙音素(Diphone,2組音素) 、三音素(Triphone,3組音素)等。 經濟部智慧財產局員工消費合作社印製 此外,於聲音指示資訊記憶體1 0 7內,記憶了記錄人 名及對應於該人名的電話號碼之人名語彙淸單,以及辨識 因應相當於任意電話號碼的位數之連續數字之號碼語彙淸 單,以及關於電話操作之通話操作語彙淸單,以及關於來 電時的應答之來電操作語彙淸單,以及對應於登錄語之郵 件傳送指令及郵件接收指令之控制碼,來做爲登錄語彙淸 單。例如,於聲音指示辨識電路1 06中一旦抽出關於電話 操作的登錄語,亦即一旦得到辨識結果的話,從聲音指示 -58- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X:297公釐) 20ϋ30Κυΐ) Α7 Β7 五、發明説明(55) 資訊記憶體1 07讀出對應於聲音辨識的登錄語之電話控制 用控制碼,然後藉由中央控制電路1 08傳送至聲音通話單 元1 02。而控制碼只要是可控制聲音通話單元1 〇2即可,但 並不限定於此,而因爲一般均採用AT指令,因此於本實施 型態中亦採用AT指令。 此外,於電話發話動作中,一旦以聲音從麥克風1 03 輸入人名或是電話號碼資訊的話,則辨識包含於該聲音之 登錄語,並將該辨識結果顯示於LCD顯示裝置109以進行 視覺上的通知,並同時以應答聲音控制電路1 1 0,從應答聲 音用資訊記憶體1 1 8當中,叫出對應該辨識結果的應答聲 音資料,並經由D/A轉換器1 1 1及放大器1 1 2,做爲類比 聲音將該聲音資料從擴音器(揚聲器113)通知使用者以進 行聽覺上的通知。於辨識結果爲正確的情況下,一旦使用 者從揚聲器1 1 3輸入「打電話」等聲音指令的話,則於中 央控制電路1 〇8中,將所希望的對方的電話號碼之發送控 制轉換爲AT指令,並傳送至聲音通話單元丨02的單晶片微 電腦1 1 4。 此外,一旦接續電話線路並可進行聲音通話的話,則 可利用聲音通話單元102的麥克風Π5及揚聲器116,於進 行聲音通話的同時,可因應必要來獨立調整聲音辨識單元 101的麥克風103及揚聲器113的音量水準,以及聲音通話 單元102的麥克風115及揚聲器116的音量水準。 此外,於聲音辨識單元1 0 1中,在電話控制用控制碼 藉由中央控制電路1〇8,經由外部介面117傳送至聲音通話 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公慶) 裝-- (請先閲讀背面之注意事項再填寫本頁) 、1Τ 經濟部智慧財產局員工消費合作社印製 -59- 2ϋϋ30ί :υί) Α7 Β7 五、發明説明(56) 單元1〇2之際,藉由從聲音通話單元102接收狀態信號, 可以掌握聲音通話單元102的掛斷(On Hook)狀態、接通 (Off Hook )狀態、或是線路通訊狀況,並因應這些狀態 ,來依序變更接下來的動作所需的登錄語彙淸單,藉此, 可降低非必要語所造成的錯誤辨識。例如於來電之際,藉 由將通知於聲音通話單元1 02接收到來電的響鈴資訊,傳 送至聲音辨識單元1 〇 1,來叫出關於來電應答之來電操作語 彙淸單,並利用聲音辨識單元101的麥克風103,來輸入使 用者對於是否以聲音來應答的判斷,藉此,即使於來電之 際,亦可不須拿起聽筒以聲音來輸入,並進行電話通話。 此時,若獲得對方的電話號碼等對方的資訊的話,則將之 與登錄了人名及電話號碼之名稱語彙淸單比對,並將該比 對結果顯示於LCD顯示裝置10 9以進行視覺上的通知,並 同時利用應答聲音控制電路1 1 〇 ’從應答聲音用資訊記憶體 1 1 8當中,叫出對應該比對結果的應答聲音資料,並經由 A轉換器111及放大器112’做爲類比聲音將「〇〇先生 打來的電話」的訊息,從揚聲器Π 3通知使用者以進行聽 覺上的通知。 於本實施型態中,藉由至少設置2套麥克風及揚聲器 的系統,使之與一般用於響鈴的揚聲器1 1 6的動作並行來 動作,藉此,即使於晝面顯示以外’亦能夠將更詳細的資 訊傳達至使用者。順帶一提的是,於藉由畫面顯示來傳達 詳細資訊的方法中,在使用者遠離電話機本體的情況下’ 或是於開車途中無法將視線移往畫面的情況下,或是使用 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) _ -- · I I <1— —I- II I I — n (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -60- 200301 :υ() Α7 Β7 五、發明説明(57) 者爲視障者的情況下等,本方法亦可有效對應難以確認來 電對方的資訊之情形。 第24圖爲利用行動電話型式的無線方式來做爲往公共 (請先閲讀背面之注意事項再填寫本頁) 電話線路網的接續手段之變形例,與第23圖相較,其聲音 通話單元1 02的主要磚塊圖不同。於利用行動電話型式的 無線方式的情況下,一般而言聲音通話用輸出入裝置,亦 即聲音通話單元102的麥克風115及揚聲器116,乃藉由對 方的聲音接收狀態來控制ON - OFF。因此,藉由另外設置 用於聲音辨識用的聲音輸出入裝置,亦即另外設置麥克風 103及揚聲器113,可以避免受到因不同的聲音通話方式而 不同之聲音通話用輸出入裝置的特徵(動作狀態)之影響 ,可經常用來做爲附有聲音辨識功能的電話通訊終端。換 言之,在使用者於通話中,即使聲音通話單元102的麥克 風115及揚聲器116專用於通話中,亦可將使用者的聲音 輸入於聲音辨識手段101,並控制聲音通話單元102。順帶 一提的是,於藉由聲音自動送出撥號信號,且以話筒來進 行聲音輸入的方法中,一般而言,爲了可以經常性的接受 經濟部智慧財產局員工消費合作社印製 聲音輸入,其電話功能必須經常處於接通模式,於此情況 下,話筒必須經常處於拿起的狀態而無法從外部接收訊息 〇 第2 5圖顯示於中央控制電路1 〇8中所執行的處理,且 爲因應使用者說出人名,來執行發話動作等之運算處理之 流程圖。亦即,第25圖爲關於依據人名之發話動作的處理 架構。雖然於此流程圖中未設置用於通訊的步驟,然而, -61 - 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) A7 _____B7 五、發明説明(58) (請先閱讀背面之注意事項再填寫本頁) 不僅經由運算處理所得到的資訊可更新記憶於隨機記憶裝 置中,必要的資訊亦可從隨機記憶裝置當中加以讀出。一 旦執行運算處理的話,則首先於步驟S6〇 1中,藉由檢測掛 斷狀態,來確認聲音通話單元102的初期狀態,並確認接 受電話發話的狀態。具體而言,從聲音通話單元102接收 狀態信號,判斷是否爲掛斷狀態,於掛斷狀態的情況下, 則爲(YES )並進行步驟S602,於非掛斷狀態的情況下, 則爲(NO )並重複此流程。 經濟部智慧財產局員工消費合作社印製 於上述步驟S602中,接收使用者以聲音來輸入人名。 具體而言,讀入記錄了人名及電話號碼之人名語彙淸單, 並讀入麥克風1 03所檢測出的聲音,然後於聲音指示辨識 電路106中,辨識是否包含於該聲音的登錄語之人名,或 是人名以外的雜音與聲音,亦即是否僅包含非必要語。在 此,關於人名,乃將人名及對應的電話號碼預先記憶於聲 音指示資訊記憶體1 〇7來做爲人名語彙淸單。此外,所輸 入的類比聲音並不特別限制,一般是以位於8KHz〜16KHz 的範圍之特定頻率數來取樣並加以數位化。於聲音指示辨 識電路1 〇6的內部中,針對記憶登錄於聲音指示資訊記憶 體107之人名語彙淸單,對每個爲單字的構成單位之聲音 單位,計算與上述音響參數之槪似,藉由此,從人名語彙 淸單當中抽出最接近的單字。換言之,於聲音指示辨識電 路106的內部中,對每個這些構成單位(以下稱爲聲音單 位),計算對數位化音響參數之記憶登錄於聲音指示資訊 記憶體1 〇7之人名語彙淸單內的登錄語之人名的槪似’而 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) -62 - 20ϋ30ί :υΐ) A7 B7 五、發明説明(59) 該槪似的積算値爲最大者,則做爲最接近使用者的人名來 抽出。於聲音指示辨識電路1 〇6的內部中,亦計算對數位 化音響參數之記憶登錄於聲音指示資訊記憶體107的非必 要語之槪似,於該非必要語之槪似大於登錄語的人名之槪 似之際,則不從數位化音響參數中抽出登錄語。 於上述步驟S6〇3中,判斷是否於上述步驟S6〇2中, 辨識出登錄於人名語彙淸單的人名是否包含於聲音中,於 登錄於人名語彙淸單的人名包含於聲音的情況下,則爲( YES)並進行步驟S6〇4,於登錄於人名語彙淸單的人名未 包含於聲音的情況下,則爲(NO)並再次進行步驟S602。 於上述步驟S6〇4中,一旦於上述步驟S602中抽出人 名的話,則將所抽出的人名,顯示於接續於聲音通話單元 1〇2的終端晝面(LCD顯示裝置109)上,並藉由應答聲音 控制電路1 1 〇來播放聲音,來通知所抽出的人名。 接下來進行步驟S6〇5,如第26圖所示般,首先將催促 指示進行處理的單字,或是指示修改處理的單字的發話之 訊息,顯示於LCD顯示裝置109。接下來讀入麥克風1〇3 所檢測出的聲音,然後於聲音指示辨識電路1 06中,辨識 是否包含了爲包含於該聲音的登錄語之指示進行處理的單 字,或是是否包含指示修改處理的單字。然後判定是否包 含了爲包含於該•聲音的登錄語之指示進行處理的單字,或 是是否包含指示修改處理的單字,於包含指示進行處理的 單字的情況下則爲(YES )並進行步驟S606,於未包含指 示進行處理的單字的情況下,則爲(NO )並再次進行步驟 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ 297公爱) ί--*------辦衣-- (請先閱讀背面之注意事項再填寫本頁) 、1Τ 經濟部智慧財產局員工消費合作社印製 -63- 200301 :〇0 Α7 Β7 五、發明説明(6〇) (請先閲讀背面之注意事項再填寫本頁) S 602。而使用者判定所抽出的人名是否爲所希望的結果 若爲所希望的結果的話,則發出如「打電話」等預先登錄 的指不進行處理的單字,並於聲音指示辨識電路1 〇 6中進 行所輸入的聲音指令之辨識處理。 於上述步驟S606中,不僅從人名語彙淸單當中讀出於 上述步驟S602中所抽出的對應於人名的電話號碼,並將該 AT指令傳送至聲音通話單元1 02。然後如上所述,一旦辨 識了「打電話」之預先登錄的單字的話,則藉由中央控制 電路1〇8,將發送所對應的電話號碼之AT指令(ATD), 傳送至聲音通話單元1 02,並執行線路接續的處理。一旦應 答呼叫音並檢測出對方的接通動作的話,則結束線路接續 並執行聲音通話。 另一方面,若所抽出的人名不是爲所希望的結果的話 ,則發出如「再一次」等預先登錄的指示修正處理的單字 ,並於聲音指示辨識電路1 06中進行所輸入的聲音指令之 辨識處理。然後如上所述,一旦辨識了「再一次」之預先 登錄的單字的話,則返回接受人名的發話的步驟(步驟 S 602 ),並處於接受新的人名的發話的狀態。 經濟部智慧財產局員工消費合作社印製 第7圖顯示於聲音指示辨識電路1 〇6中所執行的聲音 辨識處理的一例。此聲音辨識處理並不特別限定,然而於 本實施型態中,採用與上述第1實施型態相同之隱藏式馬 可夫模型(HMM )之聲音辨識處理。一旦執行此聲音辨識 處理的S舌’首先以傅利某轉換(Fourier Transformation) 或是小波轉換(Wavelet Transformation ),將麥克風103 -64- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 20ϋ30ί^υΐ) Α7 Β7 五、發明説明(61) ' (請先閲讀背面之注意事項再填寫本頁) 所檢測出的聲音轉換爲數位化頻譜(Spectrum ),並藉由 對該頻譜採用線性預測分析或倒頻譜分析(Cepstrum Analysis )等聲音模型化手法,來進行聲音資料的特徵化。 接下來’針對此特徵化聲音資料,以維特比演算法( Vitei*bi Algorithm),來計算登錄於預先以聲音辨識處理所 讀入的語彙網路120之各個登錄語的音響模型121之槪似 。在此’登錄語乃以對應於聲音單位的序列接續(聲音單 位標籤系列)之HMM序列接續網路來模型化,而語彙網路 1 2 0則做爲對應登錄於登錄語彙淸單之登錄語群之序列接續 網路群來模型化。此外,各個登錄語乃以音素等聲音單位 來構成,並對每個聲音單位算出其槪似,於確認了使用者 結束發話的時點上,檢測出登錄語彙淸單當中之槪似的積 算値爲最大之登錄語,並將該登錄語做爲包含於聲音之所 認知的登錄語,來加以輸出。 經濟部智慧財產局員工消費合作社印製 此外,與上述第1實施型態相同,與登錄語的語彙網 路120並列設置用於辨識非必要語的虛擬模型23。藉此, 當輸入不包含於登錄語的發話及雜音,亦即登錄語以外的 聲音之際,可針對該聲音的音響參數系列,相對於登錄語 的槪似,算出較大的對應於關於非必要語的虛擬模型23的 槪似,並判斷輸入了非必要語,並可防止將不包含登錄語 的發話誤認爲登錄語的錯誤辨識。 第27圖顯示於中央控制電路1〇8中所執行的處理,並 顯示因應使用者於說出電話號碼之際,所進行的發話動作 的運算處理之流程圖。亦即,第27圖爲關於依據電話號碼 -65- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) 20ϋ30Κυΐ) 經濟部智慧財產局員工消費合作社印製 Α7 _ Β7_五、發明説明(62) 之發話動作的處理架構。雖然於此流程圖中未設置用於通 訊的步驟,然而,不僅經由運算處理所得到的資訊可更新 記憶於隨機記憶裝置中,必要的資訊亦可從隨機記憶裝置 當中加以讀出。一旦執行運算處理的話,則首先於步驟 S701中,藉由檢測掛斷狀態,來確認聲音通話單元102的 初期狀態,並確認接受電話發話的狀態。具體而言,從聲 音通話單元1〇2接收狀態信號,判斷是否爲掛斷狀態,於 掛斷狀態的情況下,則爲(YES )並進行步驟S702,於非 掛斷狀態的情況下,則爲(NO)並重複此流程。 於上述步驟S702中,判斷是否爲接收任意的電話號碼 之電話號碼確認模式,於電話號碼確認模式的情況下,則 爲(YES )並進行步驟S704,於非電話號碼確認模式的情 況下,則爲(NO)並進行步驟S703。 於上述步驟S703中,讀入麥克風103所檢測出的聲音 ,然後於聲音指示辨識電路1 06中,辨識是否包含了,接 收包含於該聲音的登錄語的電話號碼之預先登錄的聲音指 令,於辨識爲聲音指令的情況下則爲(YES )並進行步驟 S 704。然後使用者確認是否爲接收任意的電話號碼之電話 號碼辨識模式,若是爲人名辨識模式等電話號碼辨識模式 以外者,則說出用於接收電話號碼之預先登錄的聲音指令 〇 於上述步驟S 7 0 4中,首先讀入辨識出相當於任意電話 號碼的位數之連續數字之號碼語彙淸單,來做爲登錄語彙 淸單。接下來,如第2 8圖所示般,催促說出電話號碼的訊 (請先閲讀背面之注意事項再填寫本頁} 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) -66 - ϋ30ί:υΐ) A7 B7 五、發明説明(63) (請先閲讀背面之注意事項再填寫本頁) 息顯示於LCD顯示裝置109。然後讀入麥克風103所檢測 出的聲音,並於聲音指示辨識電路106中,辨識是否包含 了包含於該聲音的登錄語的連續數字。例如「以號碼撥電 話」做爲接收電話號碼之所登錄的聲音指令。一旦使用者 說出「以號碼撥電話」的話,則經由麥克風1 ,於聲音指 示辨識電路1〇6中進行輸入聲音的辨識,而一旦辨識出「 以號碼撥電話」的話,則於聲音指示辨識電路1 中’藉 由將可辨識出任意電話號碼之號碼語彙淸單上載於聲音指 示辨識電路的記憶體內,來做爲登錄語彙淸單,以進入接 收電話號碼的模式。在此,使用者藉由連續說出「〇3 -3 3 56 — 1 234」(一不發音)等所希望的電話號碼,來辨識 聲音。 經濟部智慧財產局員工消費合作社印製 在此所謂的辨識出任意電話號碼之號碼語彙淸單,乃 因使用電話的國家、區域、電信通訊方式、對方國家、區 域、電話方式等,而由數種模式化之連續數字列所構成之 淸單,例如,從日本國內打電話至日本國內的固定電話機 的情況下,則爲「〇 -外縣市區碼-市內區碼-使用者號碼 」的模式,且由合計爲10位數(一部分區域爲9位數)的 連續數字列所構成之號碼語彙清單。並藉由於外縣市區碼 與市內區碼之間以及市內區碼與使用者號碼之間,插入「 一」之顯示無聲的區隔的聲音單位,來使說出電話號碼的 發話者對應其冗長性。 此外,在從日本國內打電話至日本國內的行動電話與 PHS的情況下,則爲以「0A0 ( A爲0以外的數字)」起頭 -67- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 20ϋ30ί :υΐ) Α7 Β7 __ 五、發明説明(64) 之合計爲11位數的連續數字列群所構成之號碼語彙清單。 此外,日本總務省亦設計了由依循不同電話公司所特有的 數字列模式之數字列群所構成之專用號碼語彙淸單。表2 顯示日本總務省所發表之日本國內中之電話號碼模式之淸 單。 如此,於本實施型態中,於辨識電話號碼之際,使用 者只要連續說出相當於電話號碼所有位數的數字列,就可 以於短時間之內辨識出電話號碼。順帶一提的是,於一個 位數一個位數辨識電話號碼的方法中,若是要正確辨識出 所有位數的電話號碼的話,將會花費許多時間。 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 -68- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(65) _ 表2 號碼模式 種類的分類 〇 〇開始的號碼 使用中介的電話公司來打電 話的情況,以及打國際電話 的情況 0Α0開始的號碼 (Α爲0以外的數字) 使用行動電話,PHS,以及 撥話者付費之呼叫器來打電 話的情況 0ΑΒ0開始的號碼 (A,B爲0以外的數字) 使用電話公司所提供之高級 電話服務的情況 0ABC開始的號碼 (A,B,C爲〇以外的數字) 以普通的固定電話來打電話 的情況(外縣市通話)(〇 — 外縣巾區碼-市內區碼-使 用者號碼) 1開始的號碼 從緊急性、公共性、安全性 的觀點而言爲重要的情況以 及加値服務的情況 2〜9開始的號碼 以普通的固定電話來打電話 的情況(市內通話) (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 關於各個號碼語彙淸單配置於聲音指示辨識電路1 06 的方法,例如可適當的使用因應於該聲音指示辨識電路1〇6 所採用之聲音辨識引擎的辨識精密度的方法。其中的方法 之一爲,以聲音輸入數字列於聲音辨識用的麥克風1 03之 •69- 本紙張尺度適用中國國家標準(CNS ) Α4規格(2]〇Χ 297公釐) 3 Α7
Οί :υί) 五、發明説明(66) 際,以動態性的方式,來判斷從該數字列的前頭開始辨識 的數字列(3〜4位數)之模式,並與辨識該數字列的同時, 以動態性的方式,來配置於可選擇的號碼語彙淸單。根據 此方法,例如以「0 (零)」開始的電話號碼而言,於最初 的3位數中,一旦於第1位數及第3位數辨識出「〇 (零) 」的話,則因爲於日本國內,乃以行動電話與PHS等電話 號碼的模式來辨識之後的數字列,因此乃以辨識8位數白勺 數字列(共1 1位數)或是特徵性的號碼列之號碼語彙淸胃 來配置。 此外,關於其他的方法,例如乃以靜態性的方式,g 先將所有號碼語彙淸單讀入一次於聲音指示辨識電路1 06, 並從使用者所輸入的電話號碼的前頭開始,依序算出與Β那 個數字符合之槪似來做爲經常性的平均値,藉此,僅僅留 下數個具有可能性的模式來做爲候選模式,並將之外的模 式從運算當中剔除,並於最後結束發話區間的檢測的時點 ,來算出對哪個模式的槪似爲最高,藉此,來決定最有可 能的號碼。藉由此方法,可從龐大的數字列候選模式當中 選出數個具有可能性的模式,並可降低因提升辨識精密度 所需的運算量的負荷,而讓使用者可連續發話來辨識所有 位數來做爲電話號碼。 於上述步驟S7〇5中,將上述步驟S704中所辨識的電 話號碼顯示於LCD顯示裝置1 09,並將該辨識結果傳送至 應答聲音控制電路1 1 〇,並將該電話號碼通知揚聲器1 〇5。 接下來進行步驟S 706,首先將催促指示進行處理的單 (請先閲讀背面之注意事項再填寫本頁} •裝· 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -70- 20ϋ30ί-ύΐ) Α7 ____ Β7 五、發明説明(67) 字,或是指示修改處理的單字的發話之訊息,顯示於LCD 顯示裝置1 09。接下來讀入麥克風1 〇3所檢測出的聲音,然 後於聲音指示辨識電路1 06中,辨識是否包含了爲包含於 該聲音的登錄語之指示進行處理的單字,或是是否包含了 指示修改處理的單字。然後判定是否包含了爲包含於該聲 音的登錄語之指示進行處理的單字,或是是否包含指示修 改處理的單字,於包含指示進行處理的單字的情況下則爲 (YES,步驟S706,)並進行步驟S707,於未包含指示進行 處理的單字的情況下,則爲(Ν Ο,步驟S 7 0 6 並再次進 行步驟S704。 於上述步驟S7〇7中,不僅從聲音指示資訊記憶體1〇7 當中讀出於上述步驟S 704中所抽出的對應於電話號碼的 AT指令,並將該AT指令傳送至聲音通話單元1 〇2。 第29圖顯示於中央控制電路1 08中所執行的處理,並 顯示因應使用者於說出具有結束意義的單字之際,進行的 接通動作的運算處理之流程圖。亦即,第29圖爲關於通話 結束之掛斷動作的處理架構。雖然於此流程圖中未設置用 於通訊的步驟,然而,不僅經由運算處理所得到的資訊可 更新記憶於隨機記憶裝置中,必要的資訊亦可從隨機記憶 裝置當中加以讀出。一旦執行運算處理的話,則首先於步 驟S801中,藉由檢測接通狀態,來確認聲音通話單元102 的動作狀態爲通話模式。具體而言,從聲音通話單元1〇2 接收狀態信號,判斷是否爲接通狀態,於接通狀態的情況 下,則爲(YES )並進行步驟S802,於非接通狀態的情況 (請先閱讀背面之注意事項再填寫本頁) 裝. 訂 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) -71 - 20ϋ30Κυΐ) Α7 Β7 五、發明説明(68) 下,則爲(NO )並重複此流程。 於上述步驟SS02中,首先將僅預先登錄了通話中及通 話結束中所需的聲音指令之通話操作語彙淸單,讀入於聲 音指示辨識電路106中。然後讀入麥克風103所檢測出的 聲音,並於聲音指示辨識電路106中,辨識是否包含了包 含於該聲音的登錄語之指示通話結束的聲音指令。 接下來進行步驟S8 03,首先從聲音指示資訊記憶體 107當中讀出指示切斷線路的AT指令,並將該AT指令傳 送至聲音通話單元102。因此,一旦使用者說出指示通話結 束的聲音指令,例如「掛電話」的話,則經由麥克風103, 於聲音指示辨識電路1 06中進行輸入聲音的辨識,而一旦 辨識出「掛電話」的話,則從中央控制電路108當中使用 AT指令(ATH ),將指示切斷線路的控制碼傳送至聲音通 話單元1 02,並結束線路的切斷。 第3 〇圖顯示於中央控制電路1 〇 8中所執行的處理,並 顯示因應使用者於說出具有來電意義的單字之際,進行的 接通動作的運算處理之流程圖。亦即,第3 0圖爲關於來電 之際之接通動作的處理架構。雖然於此流程圖中未設置用 於通訊的步驟,然而,不僅經由運算處理所得到的資訊可 更新記憶於隨機記憶裝置中,必要的資訊亦可從隨機記憶 裝置當中加以讀出。一旦執行運算處理的話,則首先於步 驟S9〇l中,藉由檢測掛斷狀態,來確認聲音通話單元1〇2 的動作狀態爲待機模式。具體而Θ ’從聲音通話單元1 〇 2 接收狀態信號,判斷是否爲掛斷狀態’於掛斷狀態的情況 n# n· n»li m n in- n I (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -72- 200301 Α7 Β7 經濟部智慧財產局員工消費合作社印製 五、發明説明(69) 下,則爲(YES )並進行步驟S9〇2,於非掛斷狀態的情況 下,則爲(NO )並重複此流程。 於上述步驟S902中,判斷是否收到了聲音通話單元 1 0 2通知來電之結果碼,於收到了結果碼的情況下,則爲( YES)並將通知接收來電信號的訊息顯示於LCD顯示裝置 1 09,並將該訊息傳送至應答聲音控制電路1 1 0,並將該訊 息通知揚聲器105之後進行步驟S9〇3,於未收到結果碼的 情況下,則爲(NO )並重複此流程。亦即,一旦聲音通話 單元102接收到通知來電信號的訊息的話,則傳送通知接 收到往聲音辨識單元的中央控制電路的來電之結果碼。而 接收到來電信號的聲音辨識單元’將通知接收來電信號的 內容顯示於LCD畫面顯示裝置的同時’亦從應答聲音控制 電路當中,從揚聲器1 05當中進行以聲音之電話來電的訊 息播放。此時,於來電信號中,來電信號包含對方資訊的 話,則將該資訊與已登錄於人名語彙淸單的人名加以比對 ,若爲符合的人名的話,則可以聲音及畫面顯示,將「〇 〇〇先生打來的電話」等更詳細的資訊通知使用者。 此外,預先將通話對方的資訊預先記憶於記憶體中, 於通話結束之後,可進行「登錄電話號碼嗎?」的播話’ 並發話指示關於「新登錄」與「追加登錄」等預先登錄的 聲音指示之字彙,來將新的通話對方的資訊以聲音來登錄 〇 於上述步驟S9〇3中,首先將關於來電時的應答之來電 操作語彙淸單讀入於聲音指示辨識電路1 06中’來做爲登 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) -了3 - 20ϋ30ί^υί) Α7 __Β7 五、發明説明(70) 錄語彙淸單。接下來,將催促說出指示接通的語彙或是指 示掛斷的語彙之訊息,顯示於LCD顯示裝置1 09。然後讀 入麥克風1 03所檢測出的聲音,並於聲音指示辨識電路1 〇6 中,辨識是否包含了包含於該聲音的登錄語之指示接通的 語彙。然後,判斷麥克風1 03所檢測出的聲音,是否包含 登錄語之指示接通的語彙或是指示掛斷的語彙,於包含指 示接通的語彙的情況下,則爲(YES,步驟S903 5 )並進行 步驟S904,於包含指示掛斷的語彙的情況下,則爲(NO, 步驟S9035’)並進行步驟S904。亦即,於聲音指示辨識電 路106中,讀入關於電話來電時的應答之來電操作語彙淸 單,來做爲登錄語彙淸單,然後使用者因應狀況來判斷是 否接電話。若接電話的話,則說出預先登錄之指示接通的 語彙,例如「接電話」之單字。經由麥克風103所輸入的 聲音,乃藉由聲音指示辨識電路來辨識判斷是否爲「接電 話」。 於上述步驟S904中,首先從聲音指示資訊記憶體107 當中讀出指示接通的AT指令,並將該AT指令傳送至聲音 通話單元1 02。亦即,一旦得到「接電話」的辨識結果的話 ,則從中央控制電路108,將指示接通的AT指令(ΑΤΑ) 傳送至聲音通話單元1 02,然後成爲通話狀態模式,並使用 麥克風及揚聲器來進行聲音通話。 另一方面,於上述步驟S905中,首先從聲音指示資訊 記憶體107當中讀出指示掛斷的AT指令,並將該AT指令 傳送至聲音通話單元1 02。亦即,一旦不接電話的話,則說 (請先閲讀背面之注意事項再填寫本頁) 裝· 訂 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) -74- 2〇ϋ3〇ί-ύί) A7 B7 五、發明説明(71) (請先閱讀背面之注意事項再填寫本頁) 出預先登錄之指示掛斷的語彙,例如「掛電話」之單字。 經由麥克風1 03所輸入的聲音,乃藉由聲音指示辨識電路 來辨識判斷是否爲「掛電話」。然後,一旦得到「掛電話 」的辨識結果的話,則從中央控制電路1 0 8當中,將指示 切斷線路的AT指令(ΑΤΗ)傳送至聲音通話單元,並切斷 來電信號。 而一旦響鈴達到由聲音辨識單元的初期設定所設定之 一定次數的話,可自動發送出接通的控制碼或是外出電話 模式的控制碼,來對應使用者的希望。 於以上一連串的聲音辨識動作當中,於本發明的附有 聲音辨識功能之電話通訊終端中,與聲音輸入的有無無關 ,可以於聲音指示辨識電路1 06的內部處理中,使聲音檢 測運算(VAD )經常產生動作。並藉由VAD,針對由麥克 風1 〇3所輸入的包含雜音的聲音,重複的判斷是否爲處於 未輸入聲音的狀態或是持續輸入聲音中的狀態中。 經濟部智慧財產局員工消費合作社印製 因爲於聲音辨識中容易輸入非必要的聲音及單字,因 此,這是爲了於聲音指示辨識電路1 06中使聲音檢測運算 (VAD )經常產生動作,來辨識這些非必要的聲音以防止 錯誤辨識的拒絕功能而加以設置。關於用於辨識非必要語 的方法,可採用如 H. Boulard3 B. D’hoore and J.-M. Boite, cc Optimizing Recognition and Rejection Performance in Wordspotting Systems,” Proc. ICASSP,Adelaide,Australia, pp. 1-3 73 -3 76,1 994·所提案之垃圾桶模型法(Garbage Model )等0 •75- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 200301^0() A 7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(72) 此外,如第28圖所示,因應上述VAD處理中之3的 狀態,亦即將處於未輸入聲音的狀態之際爲綠色,處於持 續輸入聲音中的狀態爲黃色,處於聲音結束輸入的狀態爲 紅色之時機通知用影像30顯示於LCD顯示裝置1〇9的上 方。同時,於LCD顯示裝置109右端當中,顯示了因應由 麥克風1 03所檢測的聲音的大小往上方延伸,亦即聲音愈 大則愈長之音量測定表3 1。然後將上述VAD處理中之3的 狀態,亦即將時機通知用影像3 0顯示於聲音辨識單元1 〇 1 的L C D顯示裝置6 2,並通知使用者其可開始發話的時機, 藉此,可避免發話時的非必要的聲音及單字,因而可不需 要物理性的操作來進行聲音的輸入。此外,由音量測定表 31來通知麥克風103所檢測的聲音的大小,因此使用者可 以適當的音量來發話,因而更容易辨識出登錄語。 於本實施型態中,聲音辨識單元101的麥克風103及 揚聲器113與聲音通話單元102的麥克風115及揚聲器116 乃對應於乃對應於聲音輸出入手段,聲音指示辨識電路106 乃對應於聲音辨識手段,聲音指示資訊記憶體107乃對應 於記憶手段,LCD顯示裝置109乃對應於畫面顯示手段, 中央控制電路58乃對應於控制手段,麥克風103乃對應於 聲音檢測手段,時機通知用影像30乃對應於發話時機通知 手段,音量測定表3 1乃對應於音量通知手段。 此外,上述實施型態乃顯示聲音辨識方法,遙控裝置 ,資訊終端裝置,電話通訊終端及聲音辨識裝置之一例, 並不限定裝置的構成。 (請先閱讀背面之注意事項再填寫本頁) 裝·
、1T 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) -76-
200301 :G(J A7 B7 五、發明説明(73) 例如,於上述實施型態中,乃顯示個別形成遙控裝置 ’資訊終端裝置,及電話通訊終端的例子,但並不限定於 此,例如可以於上述第1實施型態的遙控裝置本體部1或 是上述第3實施型態的電話通訊終端上,裝設第2實施型 態的通話單元52,並於遙控裝置本體部1中,基於聲音辨 識結果,來執行電子郵件的接收傳送功能、行程管理功能 、聲音備忘錄功能、聲音定時功能等。若是如此的話,則 與上述第2實施型態相同,使用者可以僅僅說出登錄語, 來使用各個功能,並不需要物理性的操作。 此外,亦可以於上述第1實施型態的遙控裝置本體部1 上,裝設第3實施型態的聲音通話單元102,於遙控裝置本 體部1上進行聲音辨識,並基於聲音辨識結果,來進行電 話操作。若是如此的話,則與上述第3實施型態相同,於 使用者在通話中,即使聲音通話單元102的麥克風115及 揚聲器116專用於通話中,亦可將聲音輸入於遙控裝置本 體部1,來控制聲音通話單元1 02。 此外,例如於上述第1實施型態的遙控裝置本體部1 上,裝設第2實施型態的通話單元52及第3實施型態的聲 音通話單元1 02,不僅於遙控裝置本體部1上進行聲音辨識 ,並基於聲音辨識結果,來進行電話操作,還基於該聲音 辨識結果,來執行電子郵件的接收傳送功能、行程管理功 能、聲音備忘錄功能、聲音定時功能等。若是如此的話, 則與上述第2實施型態相同,使用者可以僅僅說出登錄語 ,來使用各個功能,並不需要物理性的操作,並且與上述 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -裝-- (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -77- 20ϋ30ί :υί) Α7 Β7 五、發明説明(74) 第3實施型態相同,於使用者在通話中,即使聲音通話單 元102的麥克風Π5及揚聲器116專用於通話中,亦可將 聲音輸入於遙控裝置本體部1,來控制聲音通話單元102。 產業上之可利用性: 如以上所說明般,因爲本發明的聲音辨識方法於維特 比演算法的比對過程中,同時運算用於辨識登錄語以外的 非必要語之聲音單位標籤系列之槪似,因此在將不包含環 境雜音之登錄語的聲音,亦即將登錄語以外的聲音轉換爲 音響參數系列之際,可針對該音響參數系列,算出較大之 對應於關於非必要語的聲音單位標籤系列之音響模型的槪 似’並基於該槪似來辨識上述登錄語以外的聲音來做爲非 必要語’並可防止上述登錄語以外的聲音被誤認爲登錄語 的情況。 此外,因爲本發明的遙控裝置採用上述聲音辨識方法 ,來辨識包含於使用者的聲音之辨識對象語彙,因此可以 防止對辨識對象語彙以外的發話與雜音,亦即對環境雜音 產生高拒絕率以及錯誤動作與錯誤辨識。 此外,因爲本發明的資訊終端裝置採用上述聲音辨識 方法,來辨識包含於使用者的聲音之登錄語,因此當使用 者發出不包含環境雜音之登錄語的聲音,亦即登錄語以外 的聲音之際,可針對該聲音的音響參數系列,算出較大之 對應於關於非必要語的聲音單位標籤系列之音響模型的槪 似,並基於該槪似來辨識上述登錄語以外的聲音來做爲非 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) L---‘-----II (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 •78- 20ϋ30ί :υΐ) Α7 Β7 五、發明説明(75) 必要語,可防止上述登錄語以外的聲音被誤認爲登錄語的 情況,並防止資訊終端裝置產生錯誤動作。 此外,本發明的電話通訊終端爲可進行經常性聲音辨 識的電話通訊終端,於發話時即使說出代表電話號碼的關 鍵字或是任意的電話號碼,均可降低其錯誤辨識,此外, 關於電話號碼本身的辨識’並不限制使用者必須一個位數 一個位數輸入,以可讓使用者連續發話的方式來加以辨識 ,再者,於接收之際亦可藉由聲音輸入的方式來達成接通 狀態,藉此,於接收或是傳送之際,可達成不須手握話筒 來進行電話操作的效果。換言之’因爲於通訊單元及聲音 辨識單元中,各自具有獨立的輸出入系統,因此在使用者 通話中,即使通訊單元的輸出入系統專用於通話中,亦可 將使用者的聲音輸入於聲音辨識手段,以控制通訊單元。 此外,因爲本發明的聲音辨識裝置可通知正處於可辨 識登錄語的狀態之訊息,因此使用者只要於適當的時機下 說出登錄語,就可容易辨識出登錄語。 此外,因爲採用與上述第1實施型態相同之聲音辨識 處理,因此與上述第1實施型態相同,當使用者發出不包 含登錄語的聲音,亦即發出登錄語以外的聲音之際,可針 對該聲音的音響參數系列,算出較大的非必要語模型23的 槪似,並算出較小的登錄語的語彙網路22的槪似,並可基 於這些槪似’來辨識上述登錄語以外的聲音來做爲非必要 語,以防止將該登錄語以外的聲音誤認爲登錄語,並防止 電話通訊終端的錯誤動作。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) (請先閱讀背面之注意事項再填寫本頁) •裝· 訂 經濟部智慧財產局員工消費合作社印製 -79- 20ϋ30ί :υί) Α7 Β7 五、發明説明(76) 圖示簡單說明: 桌1圖爲本發明的桌1貫施型態之遙控裝置之碍塊圖 (請先閲讀背面之注意事項再填寫本頁) 〇 第2圖爲第1圖的遙控裝置之槪略構成圖。 第3圖爲於第2圖的遙控裝置中所執行的運算處理之 流程圖。 弟4圖爲於弟3圖的運算處理中’說明顯示於LCD顯 示裝置的影像之說明圖。 第5圖爲說明於第3圖的運算處理中所執行之聲音辨 識處理之說明圖。 第6圖爲說明用於第5圖的聲音辨識處理之語彙網路 之說明圖。 第7圖爲針對將第6圖的非必要語模型,做爲平準化 所有的音素模型後之虛擬音素模型之語彙網路,來加以說 明之說明圖。 第8圖爲針對將第6圖的非必要語模型,做爲構成母 經濟部智慧財產局員工消費合作社印製 音的音素群的自我迴路之語彙網路,來加以說明之說明圖 〇 第9圖爲針對將第6圖的非必要語模型,做爲平準化 所有的音素模型後之虛擬音素模型以及構成母音的音素群 的自我迴路的組合之語彙網路,來加以說明之說明圖。 第1 〇圖爲針對將第6圖的非必要語模型做爲構成母音 的音素群之語彙網路,來加以說明之說明圖。 -80- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210 X 297公釐) 20ϋ30ί :υ() Α7 Β7 五、發明説明(77) 第11圖爲說明未採用非必要語模型的語彙網路之說明 圖。 (請先閱讀背面之注意事項再填寫本頁) 第1 2圖爲本發明的第2實施型態之資訊終端裝置之磚 塊圖。 第1 3圖爲第1 2圖的資訊終端裝置之槪略構成圖。 第1 4圖爲於第1 3圖的資訊終端裝置中所執行的運算 處理之流程圖。 第15圖爲於第14圖的運算處理中,說明顯示於LCD 顯示裝置的影像之說明圖。 第16圖爲於第13圖的資訊終端裝置中所執行的運算 處理之流程圖。 第1 7圖爲於第1 3圖的資訊終端裝置中所執行的運算 處理之流程圖。 第18圖爲於第17圖的運算處理中,說明顯示於LCD 顯示裝置的影像之說明圖。
第19圖爲於第17圖的運算處理中,說明顯示於LCD 顯示裝置的影像之說明圖。 經濟部智慧財產局員工消費合作社印製 第20圖爲於第1 3圖的資訊終端裝置中所執行的運算 處理之流程圖。
第21圖爲於第20圖的運算處理中,說明顯示於LCD 顯示裝置的影像之說明圖。 第22圖爲於第1 3圖的資訊終端裝置中所執行的運算 處理之流程圖。 第23圖爲本發明的第3實施型態之附有聲音辨識功能 -81 - 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) 3 ί^:υί) Α7 __Β7 五、發明説明(78) 之電話通訊終端之磚塊圖。 第24圖爲本發明的第3實施型態的變形例之附有聲音 辨識功能之電話通訊終端之磚塊圖。 第25圖爲於第23圖的中央控制電路中所執行的運算 處理之流程圖。 第26圖爲於第25圖的運算處理中,說明顯示於LCD 顯示裝置的影像之說明圖。 第27圖爲於第23圖的中央控制電路中所執行的運算 處理之流程圖。 第28圖爲於第27圖的運算處理中,說明顯示於LCD 顯示裝置的影像之說明圖。 第29圖爲於第23圖的中央控制電路中所執行的運算 處理之流程圖。 第30圖爲於第23圖的中央控制電路中所執行的運算 處理之流程圖。 主要元件對照表 1 :遙控裝置本體部 2 :紅外線發光部 3,53,103,1 15 :麥克風 4,16,54,104,1 12 :放大器 5,55,105 : A/D 轉換器 6,56,106 :聲音指示辨識電路 7,57,107 :聲音指示資訊記憶體 (請先閲讀背面之注意事項再填寫本頁) 裝· 訂 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -82- 20ϋ30ί :υί) 經濟部智慧財產局員工消費合作社印製 Α7 Β7五、發明説明(79) 8,5 8,1 Ο 8 :中央控制電路 9 : IRED驅動•控制電路 10 : IRED碼資訊記憶體 11 : IRED 12,62,109 : LCD 顯示裝置 1 3,1 1 0 :應答聲音控制電路 1 4,1 1 8 :應答聲音用資訊記憶體 1 5,65,1 1 1 : D/A 轉換器 17,67,113,116:揚聲器 18 :光感應器 19:光感應器介面電路 20,22,120 ·•語彙網路 2 1,1 2 1 :音響模型 23,23’,23’’ :虛擬模型 3 0 :時機通知用影像 3 1 :音量測定表 5 1,1 0 1 :聲音辨識單元 52,102:聲音通話單元 68:麥克風介面電路 69 : RAM 114 :單晶片微電腦 1 1 7 :外部介面 (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) -83-

Claims (1)

  1. 20ϋ301 :υΐ) Α8 Β8 C8 D8 申請專利範圍 1、 一種聲音辨識方法,乃將聲音辨識對象者的輸入聲 音轉換爲音響參數系列,並藉由維特比演算法(viterbi Algorithm )來比對該音響參數系列與對應於關於登錄語的 聲音單位標籤系列之音響模型,藉此來進行聲音辨識,其 特徵爲:與上述關於登錄語的聲音單位標籤系列並列設置 用於辨識登錄語以外的非必要語之聲音單位標籤系列,並 於上述維特比演算法的比對過程中,同時運算上述用於辨 識登錄語以外的非必要語之聲音單位標籤系列的槪似,藉 此’於非必要語做爲輸入聲音被輸入的情況下,可將上述 非必要語做爲非必要語來加以辨識。 2、 如申請專利範圍第1項之聲音辨識方法,其中,對 應於上述聲音單位標籤系列的音響模型爲採用隱藏式馬可 夫模型之音響模型,並且用於辨識上述非必要語之聲音單 位標籤系列是由,平準化所有使用的聲音單位模型後之虛 擬聲音單位模型所構成。 3、 如申請專利範圍第丨項之聲音辨識方法,其中,對 應於上述聲音單位標籤系列的音響模型爲採用隱藏式馬可 夫模型之音響模型,並且用於辨識上述非必要語之聲音單 位標籤系列爲,僅僅以母音的音素來構成之自我迴路型的 網路構成。 4、 一種遙控裝置,乃可以聲音來遠距操作多數的操作 對象,其特徵爲:具有記憶指示遠距操作的辨識對象語彙 之記憶手段,以及輸入由使用者所發出的聲音之聲音輸入 手段,以及基於上述記憶手段,來辨識包含於使用者所發 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -- (請先閲讀背面之注意事項再填寫本頁) 訂 i· 經濟部智慧財產局員工消費合作社印製 -84 - 經濟部智慧財產局員工消費合作社印製 2〇ϋ3〇1^υΐ) Α8 Β8 C8 D8 六、申請專利範圍 2 出的聲音之上述辨識對象語彙之聲音辨識手段,以及將對 應於由該聲音辨識手段所辨識之辨識對象語彙之機器控制 信號加以傳送之傳送手段,而上述聲音辨識方法採用如申 請專利範圍第1項至第3項中之任一項所記載之聲音辨識 方法。 5、 如申請專利範圍第4項之遙控裝置,其中,具有讓 使用者通話之聲音輸入部,並具備基於由上述聲音辨識手 段所辨識之辨識對象語彙,來控制通訊線路的接續狀態之 通訊單元,並個別設置上述聲音輸入手段與上述通訊單元 之聲音輸入部。 6、 如申請專利範圍第4項或第5項之遙控裝置,其中,又具有I 執行以聲音來進行之郵件接收傳送處理、以及以聲音來進 行之行程管理處理、以及以聲音來進行之備忘錄處理、以 及以聲音來進行之通知處理當中之至少一項處理之控制手· 段。 7、 一種資訊終端裝置,其特徵爲:具有檢測出使用者 的聲音之聲音檢測手段,以及辨識包含於該聲音檢測手段 所檢測出的聲音之登錄語之聲音辨識手段,以及基於該聲 音辨識手段所辨識出之登錄語,來執行以聲音來進行之郵 件接收傳送處理、以及以聲音來進行之行程管理處理、以 及以聲音來進行之備忘錄處理、以及以聲音來進行之通知 處理當中之至少一項處理之控制手段,而上述聲音辨識手 段採用如申請專利範圍第1項至第3項中之任一項所記載 之聲音辨識方法,來辨識包含於上述聲音檢測手段所檢測 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) (請先閲讀背面之注意事項再填寫本頁)
    -85- 20ϋ30Κυΐ) Α8 Β8 C8 D8 六、申請專利範圍 3 出的聲音之登錄語。 8、 一種電話通訊終端,乃可以接續公共電話線路網或 是網際網路通訊網,其特徵爲:具有輸出輸入聲音之聲音 輸出入手段,以及辨識輸入聲音之聲音辨識手段,以及記 憶包含電話交談對方的姓名及電話號碼的個人資訊之記憶 手段,以及晝面顯示手段,以及控制上述各手段之控制手 段,上述聲音輸出入手段於通訊單元及聲音辨識單元上各 自具有獨立的輸出入系統。 9、 一種電話通訊終端,乃可以接續公共電話線路·網或 是網際網路通訊網,其特徵爲:具有輸出輸入聲音之聲音 輸出入手段,以及辨識輸入聲音之聲音辨識手段,以及記 憶包含電話交談對方的姓名及電話號碼的個人資訊之記憶 手段,以及畫面顯示手段,以及控制上述各手段之控制手 段,上述記憶手段各具有包含預先登錄的人名之特定名稱 之名稱語彙淸單,以及任意的電話號碼之號碼語彙淸單, 以及通話中的電話操作之通話操作語彙淸單,以及來電時 的電話操作之來電操作語彙淸單,而與撥號•掛斷•來電 相關之所有電話操作,可藉由上述聲音辨識手段、上述記 憶手段、及上述控制手段來進行聲音輸入。 1 〇、如申請專利範圍第8項或第9項之電話通訊終端 ,其中,電話號碼的辨識方法爲’藉由所有位數的連續發 話之輸入,上述記憶手段的號碼語彙淸單及上述聲音辨識 手段採用辨識任思電話遗碼的電話遗碼語囊網路’來辨識 由所定位數的數字或是記號所構成的數字列模式。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) In—------蟥III (請先閲讀背面之注意事項再填寫本頁) 、言· 經濟部智慧財產局員工消費合作社印製 -86- 2〇ϋ30ί-ύΐ) Α8 Β8 C8 ____D8 六、申請專利範圍 4 1 1、如申請專利範圍第8項至第1 0項中之任一項所記 載之電話通訊終端,其中,上述晝面顯示手段具有通知發 話時機之發話時機顯示功能。 1 2、如申請專利範圍第8項至第1 1項中之任一項所記 載之電話通訊終端,其中,具有基於上述聲音辨識手段所 辨識出的輸入聲音,來執行以聲音來進行之郵件接收傳送 處理、以及以聲音來進行之行程管理處理、以及以聲音來 進行之備忘錄處理、以及以聲音來進行之通知處理當中之 至少一項處理之第2控制手段。 1 3、如申請專利範圍第8項至第1 2項中之任一項所記 載之電話通訊終端,其中,上述聲音辨識手段採用如申請 專利範圍第1項至第3項中之任一項所記載之聲音辨識方 法,來辨識包含於輸入聲音之登錄語。 1 4、一種聲音辨識裝置,其特徵爲:具有檢測出使用 者的聲音之聲音檢測手段,以及辨識包含於該聲音檢測手 段所檢測出的聲音之登錄語之聲音辨識手段,以及通知該 聲音檢測手段可辨識登錄語的發話時機之通知手段。 1 5、如申請專利範圍第14項之聲音辨識裝置,其中, 具有通知聲音檢測手段所檢測出的聲音的大小之音量通知 手段。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210 X 297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝· 、1T 經濟部智慧財產局員工消費合作社印製 -87-
TW091136397A 2001-12-17 2002-12-17 Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device TW200301460A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001382613 2001-12-17
JP2002117964 2002-04-19

Publications (1)

Publication Number Publication Date
TW200301460A true TW200301460A (en) 2003-07-01

Family

ID=26625087

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091136397A TW200301460A (en) 2001-12-17 2002-12-17 Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device

Country Status (6)

Country Link
US (1) US20050043948A1 (zh)
JP (2) JP4263614B2 (zh)
CN (1) CN1271595C (zh)
AU (1) AU2002354201A1 (zh)
TW (1) TW200301460A (zh)
WO (1) WO2003052737A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI484476B (zh) * 2009-03-30 2015-05-11 Microsoft Corp 電腦實作的語音系統及方法

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4735141B2 (ja) * 2005-09-05 2011-07-27 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム
US7957328B2 (en) * 2006-01-30 2011-06-07 Broadcom Corporation Method and system for communicating to radio frequency integrated circuit
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
JP4821648B2 (ja) * 2007-02-23 2011-11-24 パナソニック電工株式会社 音声コントローラ
TWI425806B (zh) * 2007-06-08 2014-02-01 Wistron Neweb Corp 用來記事於一行動通訊裝置的方法及相關裝置
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
CN107102723B (zh) * 2007-08-20 2019-12-06 高通股份有限公司 用于基于手势的移动交互的方法、装置、设备和非暂时性计算机可读介质
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
JP5703491B2 (ja) * 2010-01-26 2015-04-22 国立大学法人山梨大学 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
WO2012001458A1 (en) * 2010-06-29 2012-01-05 Kabushiki Kaisha Toshiba Voice-tag method and apparatus based on confidence score
US8744860B2 (en) 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
JP6001239B2 (ja) * 2011-02-23 2016-10-05 京セラ株式会社 通信機器
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
JP2013019958A (ja) * 2011-07-07 2013-01-31 Denso Corp 音声認識装置
CN102760433A (zh) * 2012-07-06 2012-10-31 广东美的制冷设备有限公司 联网家电用声控遥控器及其控制方法
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
CN103077714B (zh) * 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
CN104216276A (zh) * 2013-06-03 2014-12-17 龙博 智能记事手表
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN104076679B (zh) * 2014-06-27 2017-04-26 汕头市奇士钟表有限公司 一种用于记录信息的智能手表
JP6453631B2 (ja) 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
JP6520100B2 (ja) * 2014-12-15 2019-05-29 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9972342B2 (en) * 2015-11-20 2018-05-15 JVC Kenwood Corporation Terminal device and communication method for communication of speech signals
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
JP6759613B2 (ja) * 2016-02-10 2020-09-23 大日本印刷株式会社 携帯型デバイス及びプログラム
JP6872134B2 (ja) * 2016-05-13 2021-05-19 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP6895037B2 (ja) * 2016-11-06 2021-06-30 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN110322876A (zh) * 2018-03-30 2019-10-11 中华映管股份有限公司 语音应用系统及其方法
US11195518B2 (en) * 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
JP7033181B1 (ja) * 2020-11-30 2022-03-09 レノボ・シンガポール・プライベート・リミテッド 情報処理装置及びレコーディング方法
CN115331670B (zh) * 2022-08-09 2023-06-23 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57208596A (en) * 1981-06-18 1982-12-21 Hitachi Ltd Voice recognition circuit
JPS59225441A (ja) * 1983-06-06 1984-12-18 Ricoh Co Ltd 音声入力装置
DE3338484A1 (de) * 1983-10-22 1985-05-02 Standard Elektrik Lorenz Ag, 7000 Stuttgart Teilnehmersprechstelleneinrichtung
JPS60179798A (ja) * 1984-02-27 1985-09-13 松下電器産業株式会社 音声認識装置
JPH02171098A (ja) * 1988-12-23 1990-07-02 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JPH02250095A (ja) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd 音声認識システム
JPH0320566U (zh) * 1989-07-11 1991-02-28
JP2614552B2 (ja) * 1991-06-27 1997-05-28 シャープ株式会社 音声認識リモコン装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP3112556B2 (ja) * 1992-04-21 2000-11-27 シャープ株式会社 音声ダイヤラ
JP2886118B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JP2886117B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
JPH1049186A (ja) * 1996-07-29 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 数字列音声認識方法およびこの方法を実施する装置
JP3428309B2 (ja) * 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
JPH11249692A (ja) * 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
IL138542A0 (en) * 1998-03-30 2001-10-31 Andrea Electronics Corp Remote control system for controlling key-press and speech actuated on-line applications
JP3105863B2 (ja) * 1998-04-02 2000-11-06 日本電気ロボットエンジニアリング株式会社 音声認識雑音除去方式
JPH11288297A (ja) * 1998-04-06 1999-10-19 Mitsubishi Electric Corp 音声認識装置
JP4300596B2 (ja) * 1998-04-16 2009-07-22 ソニー株式会社 車載用ナビゲーションシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI484476B (zh) * 2009-03-30 2015-05-11 Microsoft Corp 電腦實作的語音系統及方法

Also Published As

Publication number Publication date
CN1271595C (zh) 2006-08-23
US20050043948A1 (en) 2005-02-24
WO2003052737A1 (fr) 2003-06-26
AU2002354201A1 (en) 2003-06-30
JP4263614B2 (ja) 2009-05-13
CN1615508A (zh) 2005-05-11
JPWO2003052737A1 (ja) 2005-04-28
JP2009104156A (ja) 2009-05-14
JP4558074B2 (ja) 2010-10-06

Similar Documents

Publication Publication Date Title
TW200301460A (en) Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device
US9769296B2 (en) Techniques for voice controlling bluetooth headset
KR100856358B1 (ko) 음성 인에이블 장치용 구두 사용자 인터페이스
TW323364B (zh)
US8204748B2 (en) System and method for providing a textual representation of an audio message to a mobile device
JP2002540731A (ja) 携帯電話機による使用のための数字列を生成するシステムおよび方法
CN102316200A (zh) 手持式电子装置响铃调整方法及应用其的手持式电子装置
CN107945806A (zh) 基于声音特征的用户识别方法及装置
CN110415703A (zh) 语音备忘信息处理方法及装置
JP2006324715A (ja) 通話装置
CN106791210A (zh) 一种手机来电接听装置及来电接听方法
KR100554442B1 (ko) 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
WO2007067837A2 (en) Voice quality control for high quality speech reconstruction
JP4230982B2 (ja) 通話補助装置、通話補助方法、通話補助プログラムおよび通話補助システム
JP3592415B2 (ja) 話者認識システム
Juang et al. Deployable automatic speech recognition systems: Advances and challenges
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JP3959083B2 (ja) 音声情報要約装置、及び、音声情報要約方法
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
JP2007049257A (ja) 電話端末およびサーバ装置
CN1819020A (zh) 语音识别方法、遥控器、信息终端和电话通信终端
KR100574007B1 (ko) 음성 인식 기반의 개인별 전화국 서비스 제공 시스템 및 그 방법, 상기 방법을 실행하기 위한 프로그램이 기록된 기록매체
JPH09127976A (ja) 話者識別システムおよび話者識別方法
JPH05265482A (ja) 情報処理装置
JPH098894A (ja) 音声認識コードレス電話機