TWI399739B

TWI399739B - 語音留言與傳達之系統與方法

Info

Publication number: TWI399739B
Application number: TW098138730A
Authority: TW
Inventors: Chih Chung Kuo; Shih Chieh Chien; Chung Jen Chiu; Hsin Chang Chang
Original assignee: Ind Tech Res Inst
Priority date: 2009-11-13
Filing date: 2009-11-13
Publication date: 2013-06-21
Also published as: US20110119053A1; TW201117191A; US8660839B2

Description

語音留言與傳達之系統與方法

本揭露係關於一種語音留言與傳達(leaving and transmitting speech messages)之系統與方法。

留言與傳達是日常生活中常見的活動，常見的運用方式包含了寫便條紙、電子郵件、電話留言與答錄機等方式，在這類的運用中，留言者與被傳達者通常非同一人。另一類的運用方式如行事曆(Calendar)或電子行事曆(Electronic Calendar)，則以自我提醒為主要的應用，例如留言給自己並傳達給自己。不論上述哪一類的應用，留言內容通常都不是馬上要處理的，也因此接收留言的人(被傳達者)常會因為某些原因遺忘留言所交待的訊息，或者因所處地點的關係，接收留言的人無法適時接收到留言。因此，要提高留言與傳達的功效，在適當的時間透過適當的傳遞管道傳達至接收留言的人會是較佳的解決方案。

這種留言與傳達也可應用在主動關懷或居家照護上，譬如，家中年長者需給予吃藥提醒或囑咐學童需按時完成家庭作業等。將這種留言與傳達運用在具備行動能力的家用機器人上，更是目前社會所能夠運用的，若結合機器人的行動能力，可將留言訊息以更適切的方式傳達給家中成員，並且達到主動關懷與照護的目的之一。

有許多關於語音留言與傳達的習知技術，例如，美國專利號US6324261的文獻中，揭露一種留言錄音與播放的硬體架構，係搭配感測器來運作，沒有進行留言解析或重組等，其操作以硬體按鍵來實施，而非主動播放。美國專利號7327834揭露的一種具有相互通信功能的訊息傳達系統中，其使用的操作方式需要使用者明確定義收件者、日期時間、以及事件訊息與傳遞訊息等項目。

美國專利號7394405的文獻中，揭露一種與地域相關的訊息通知系統“System For Providing Location-Based Notifications”。如第一圖的範例所示，在裝設有此訊息通知系統的車輛102中，其操作需要使用者輸入標頭資訊(header information)104，來定義通知型態、有效日期(expiration date)、重要性(importance)與語音記錄(speech recording)106，並搭配一地域偵測裝置(location detection device)如GPS，來決定通知訊息之輸入裝置目前所在的地理位置。當輸入裝置目前所在的地理位置與傳達通知訊息的位置110接近至一門檻值(threshold)範圍108內時，則傳達通知訊息。

中國專利申請號200610124296.3的文獻中，揭露一種基于語音識別技術的智能化家居語音記錄及提醒系統。如第二圖的範例所示，此系統包含一語音接收模塊210、一系統控制模塊220，以及一語音輸出模塊230三個部份。此系統根據預定義規則，對用戶發出的語音信號進行辨識，分辨是否為控制語音或信息語音，並對語音數據進行個性化處理與傳達用戶，從而實現直接通過語音進行控制，完成自動留言、日記及預約提醒等功能。在操作上給定兩控制語音，即開始留言與結束留言，於兩控制語音所夾的為信息語音。

台灣專利號I242977的文獻中，揭露一種語音行事曆系統。如第三圖的範例所示，語音行事曆系統300包含一網際網路伺服器311、一電腦電話整合伺服器312、以及一語音合成伺服器313，伺服器311、312、313皆連接至一通信網路31，是一種處理網際網路與電信網路之間訊息傳遞的語音行事曆系統。網際網路伺服器311連接至網際網路32，以處理網際網路用戶34與系統300的通信作業，如電子郵件的收發，此電子郵件包含一行事曆事件，此行事曆事件包含通知訊息與設定時間，其中通知訊息可為文字訊息或預錄之語音檔，而文字訊息是以語音合成技術合成語音檔，並將語音檔播放於電信網路33的通訊中。電腦電話整合伺服器312連接至電信網路33，以處理電信網路用戶35與系統300的電話回應。

綜合上述及其他多數習知技術文獻的說明，最常見的留言與傳達是使用者按照事先定義的規則輸入留言與傳達資訊，包括收件者、日期時間、事件訊息與傳遞訊息的方式等；其次是利用語音辨識，依預定義的規則輸入語音資訊。

本揭露的實施範例可提供一種語音留言與傳達之系統與方法。

在一實施範例中，所揭露者是關於一種語音留言與傳達之系統，此系統包含一命令或訊息剖析器(command or message parser)、一傳送控制器(transmitting controller)、一訊息合成器(message composer)、以及至少一訊息傳送裝置(message transmitting device)，命令或訊息剖析器分別連接至傳送控制器與訊息合成器。命令或訊息剖析器從至少一留言者(reminder)之輸入語音，剖析出多項資訊(tag information)，至少包括至少一留言者身份(reminder ID)、至少一留言傳達命令(transmitted command)、以及至少一留言訊息語音(speech message)；訊息合成器將此多項資訊合成出一傳達訊息語音(transmitted message speech)；傳送控制器根據至少一留言者身份與至少一留言傳達命令，控制一裝置切換元件(device switch)，使傳達訊息語音經由至少一個訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。

在另一實施範例中，所揭露者是關於一種語音留言與傳達之方法，此方法包含：從至少一留言者之輸入語音，剖析出多項資訊，此多項資訊至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音；將此多項資訊合成一傳達訊息語音；以及根據此至少一留言語者身份與此至少一留言傳達命令，控制一裝置切換元件，使此傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。

茲配合下列圖示、實施範例之詳細說明及申請專利範圍，將上述及本揭露之其他優點詳述於後。

本揭露的實施範例中可提供一種語音留言與傳達之系統與方法。在本揭露的實施範例中，留言者以連續自然語言對話的方式輸入留言語音至本揭露的系統中，本系統自動解析留言語音後，取出多項資訊，包括如留言對象、時間、事件訊息等資訊，然後依留言者希望傳達的條件，例如指定的時間範圍內與傳達方式等，傳達留言訊息給接收留言的人。

第四圖是語音留言與傳達之系統的一個範例示意圖，與所揭露的某些實施範例一致。第四圖的範例中，留言與傳達系統400包含一命令或訊息剖析器410、一傳送控制器420、一訊息合成器430、以及至少一個訊息傳送裝置440，命令或訊息剖析器430分別連接至傳送控制器420與訊息合成器430。

命令或訊息剖析器410從至少一留言者402之輸入語音404，剖析出多項資訊，至少包括至少一留言者身份412、至少一留言傳達命令414、以及至少一留言訊息語音416。此多項資訊被輸出至訊息合成器430，以合成出一傳達訊息語音432。

傳送控制器420根據留言者身份412與留言傳達命令414，控制一裝置切換元件450，使傳達訊息語音432經由至少一訊息傳送裝置440，例如訊息傳送裝置1-3等，中的一訊息傳送裝置，而被傳送至一接收留言者，例如，傳達訊息語音432如果是要被傳達的留言訊息(transmitted message)432a，則將留言訊息432a傳送給留言對象442；如果是一饋回訊息432b，則將饋回訊息(feedback message)432b饋回給留言者402。

命令或訊息剖析器410對至少一留言者402之輸入語音404進行辨識時，可識別出至少一留言者身份412。而對整個語音輸入片段(segment)，命令或訊息剖析器410可根據給定文法與語音可信度量測，而辨識出指令詞彙(command word)片段與具有音標之補白(phonetic filler)片段；再將補白片段區分出訊息補白(message filler)片段與垃圾補白(garbage filler)片段。從指令詞彙片段中，命令或訊息剖析器410可辨識出各種留言傳達命令414。根據訊息補白片段，命令或訊息剖析器410可從輸入語音404中擷取出至少一留言訊息語音416。

留言與傳達系統400的操作可分為兩個階段，即留言與傳達。第五圖以一個工作範例來說明此兩階段，與所揭露的某些實施範例一致。

在留言階段時，留言者輸入留言語音至系統400中，第五圖的範例中，一位媽媽512輸入留言語音514，留言語音514為：『該倒垃圾了，記得在下午六點以前跟爸爸說』，則留言語音514由命令或訊息剖析器410來接收，並從留言語音514剖析出多項資訊516，其中，此多項資訊516包括有：(a)留言者身份(記為Who)，此例為『媽媽』；(b)留言對象身份(記為Whom)，此例為『爸爸』；(c)留言者要留言給留言對象的語音訊息(記為What，以下簡稱語音訊息)，此例為『該倒垃圾了』；(d)何時(記為When)將語音訊息傳達給留言對象，此例為『下午六點以前』；(e)透過何種訊息傳達方式(記為How)將語音訊息傳達給留言對象，此例為『廣播裝置』，係一系統預設值。其中，項目(d)與(e)是可選項(optional)，可選項的資訊可由系統自動給予預定值(predefined value)。對整個語音輸入片段，Who、Whom、When、以及How是辨識出的指令詞彙片段；而What，即語音訊息，是辨識出的訊息補白片段。

當命令或訊息剖析器410將留言資訊剖析為多項資訊516後，將多項資訊516先傳遞給傳送控制器420，此時便完成留言階段的作業。多項資516訊被傳遞給傳送控制器420之前，命令或訊息剖析器410也可以先執行一確認(confirmation)動作，來確保此多項資訊的精確性，例如回傳此多項資訊並要求一確認回應(acknowledgement)。

在傳達階段時，傳送控制器420接收命令或訊息剖析器410傳遞的多項資訊516後，先判斷是否有滿足上述項目(b)、(d)的條件。上述範例中，也就是判斷是否有可以滿足”下午六點以前”將留言內容傳達給”爸爸”的”廣播裝置”。其中，Whom(爸爸)與When(下午六點以前)是傳送控制器420必須先滿足的兩個條件，這兩條件滿足後，再透過How(廣播裝置)來進行留言訊息的傳達。是否已滿足此兩條件的判斷可藉由內部的感測(sensor)裝置或與外部的感測裝置相連結的控制線路來實現。

上述範例中，感測裝置例如是計時器522，可用來判斷是否滿足留言傳達的時間條件“下午六點以前”。而可用來感測是否為留言對象“爸爸”的感測裝置例如是麥克風532、影像擷取裝置534、指紋偵測裝置536、射頻識別標籤538等。麥克風532可感測週遭所接收語音、影像擷取裝置534可擷取週遭影像、使用者可主動按壓指紋偵測裝置536以使系統擷取使用者指紋、使用者主動攜帶可讓系統識別身分的射頻識別標籤538，這些感測資料可用來判斷是否為“爸爸”。因此，傳送控制器420可藉由內部的感測裝置或與外部的感測裝置相連結的控制線路，以得知是否已滿足Whom與When的傳達條件。

當傳送控制器420得知已滿足傳達條件時，亦即已偵測到留言對象是“爸爸”，並且留言傳達的時間是在“下午六點以前”，將前述的Who(媽媽)、Whom(爸爸)、What(媽媽的留言語音：『該倒垃圾了』)等資訊傳送給訊息合成器430，並且根據How(廣播裝置)的條件去控制一裝置切換元件(device switch)450，例如，開啟一對應的設備開關552，使得訊息合成器430所合成的傳達訊息語音432可經由至少一個訊息傳送裝置440中一對應的訊息傳送裝置，例如手機542，被傳送給留言對象，即“爸爸”540。

上述範例中，訊息合成器430接收到Who(媽媽)、Whom(爸爸)、What(『該倒垃圾了』)等資訊後，可從多種合成模板(template)中選出一種合成模板來進行留言語音的合成。以下是訊息合成器430所合成的傳達訊息語音432之其中一種可能合成的傳達訊息語音：『爸爸，以下是媽媽給你的留言：該倒垃圾了』。此合成語音透過傳送控制器420開啟的設備開關552，經由一對應的訊息傳送裝置，例如手機542，進行播送。由於傳送控制器420已偵測到留言對象(爸爸)，所以該留言對象(爸爸)就可以接收到留言者(媽媽)的留言訊息，此時便完成傳達階段的作業。

本揭露之留言與傳達除了上述之單一留言者與單一留言對象的運作外，也可以應用在單一或多方傳達與回饋的運作範例上。單一留言者與多留言對象的運作範例如，媽媽輸入以下語音留言給家中所有成員：「明天早上六點叫大家起床」，其中的留言對象(Whom)就是家中所有成員。第六A圖至第六D圖是幾種傳達與回饋的運作範例，與所揭露的某些實施範例一致。第六A圖是一對一的傳達範例，其中，單一留言者輸入語音留言後，傳達給單一留言對象。第六B圖是多對一的傳達範例，其中，多個留言者輸入語音留言後，傳達給單一留言對象。第六C圖是多對一的傳達範例，其中，單一留言者輸入語音留言後，傳達給多個留言對象。第六D圖是一對一的傳達與回饋範例，其中，單一留言者輸入語音留言後，傳達訊息語音是一饋回訊息，所以直接回饋給該留言者。

留言與傳達系統400之各個模組的結構與運作，詳細說明如下。

第七圖是一個範例示意圖，說明命令或訊息剖析器的結構，與所揭露的某些實施範例一致。參考第七圖的範例，命令或訊息剖析器410包含一語音內容擷取器(speech content extractor)710、以及一文字內容分析器(text content analyzer)720。語音內容擷取器710接收留言者402之輸入語音404，並自此輸入語音404中擷取出留言者身分412、輸入語音對應的詞彙(word)與音標(phonetic transcription)混合的文字資訊(mix-type text，以下簡稱”混態文字”)712、以及訊息語音416之資訊。

混態文字712被傳遞給文字內容分析器720後，文字內容分析器720從混態文字712中分析出前述的Whom、When、How等留言傳達命令414(其中的When、How可以是選項)。留言者身分412、訊息語音416、以及分析出的留言傳達命令414可直接傳遞給傳送控制器420、或是經確認後再傳遞給傳送控制器420，以進行傳達控制處理。此確認動作是隨意的，可確認這些被傳遞資訊的精確性，可透過如確認介面(confirmation interface)730來要求一確認回應。

本揭露之語音內容擷取器710可以有很多種實現架構，例如第八A圖的範例所示，可以一語者識別模組(Speaker Identification)812、一語音辨識模組(Automatic Speech Recognition，ASR)814、以及一信心值量測模組(Confidence Measure，CM)816來實現。其中，語者識別模組812與語音辨識模組814分別接收留言者之輸入語音404。語者識別模組812將輸入語音404與一預先訓練的語者語音資料庫818裡的資料作比對，來找出與輸入語音404最為相近者，以識別出留言者身份412。語音辨識模組814則對輸入語音404進行辨識，以產生混態文字712。之後，信心值量測模組816將此輸入語音與混態文字712進行驗證，以產生各混態文字相對應的信心值，進而擷取出訊息語音416。

第八B圖的範例與第八A圖的範例所不同之處是，語者識別模組812先對留言者之輸入語音404進行語者識別，識別出的語者除了直接輸出之外，也可用來挑選該語者所對應的聲學模型或是聲學模型加調整參數，例如進行聲學模型挑選822中，從語者相對應的聲學模型(acoustic model)826或是聲學模型加調整參數(adaptation parameters)828，挑選出聲學模型824，以提供給後續的語音辨識模組814使用，讓語音辨識率提高。

第八C圖的範例是使用一語者相關的語音辨識模組(Speaker-dependent ASR)830與信心值量測模組816進行處理。其中，語者相關的語音辨識模組830在進行語音辨識所使用的搜尋空間(Search Space)842是透過語音辨識詞彙834、文法836、以及預先訓練的語者對應的聲學模型846或是聲學模型加調整參數848等資料庫所建構而成。然後，在搜尋空間842中尋找出具有最大相似度分數(maximum likelihood score)838的路徑，可循路徑838去得到對應的混態文字712和所對應的留言者，例如媽媽，再透過信心值量測模組816，將留言語音與混態文字712進行驗證，以產生混態文字712所對應的信心值，進而擷取出訊息語音416。

第九圖是混態文字之資料結構的一個範例示意圖，與所揭露的某些實施範例一致。第九圖的範例中，此混態文字之資料結構可包含8種標籤資訊。此8種標籤資訊中，_Date_代表日期，例如週一、一月、一日等。_Time_代表時間，例如一點、十分、十秒等。_cmd_代表指令(command)，例如講、說、提醒、通知等。_Whom_代表留言對象，例如爸爸、媽媽、哥哥等。_How_代表訊息傳達方式，例如打電話、郵寄、廣播等。_F/S_中，F代表虛詞或功能詞(Function word)，意指不具備意義的詞彙，例如記得、幫我等；而S代表停用詞(Stop word)，分兩類，第一類是網頁搜尋時的常見詞，搜尋引擎會忽略這些詞彙，以提昇速度，第二類包涵語氣詞、副詞、介詞、連接詞等不具意義的詞，本揭露的範例中指的是第二類的詞彙，例如等會兒、不過、等一下、大概等。_Filler_代表補白，例如基本音節(Basic_syllable)、音標(Phone)、補白語(Filler_word)等。_Y/N代表確認語(confirmation word)，例如是、對的、不是、錯等。確認語是命令或訊息剖析器410執行確認動作後的回應。

文字內容分析器720是分析來自語音內容擷取器710的混態文字712，其分析過程可以從線上(online)訓練或是離線(offline)訓練，包括根據收集的語料與文法去刪除混態文字中留言與傳達應用非必要的文字訊息，並重新編輯成以語意框(Semantic Frame)組合而成的概念序列(Concept Sequence)。如第十圖的範例所示，文字內容分析器720可包含一概念序列重組模組(Concept Sequence Restructure)1010與一概念序列選擇模組(Concept Sequence Selection)1020。

概念序列重組模組1010藉由概念整合文法(Concept Composer Grammar)1012與範例概念序列(Example Concept Sequence)語料庫1014與訊息或垃圾分辨文法(“Message或Garbage”Grammar)1024重新編輯語音內容擷取器710擷取出的混態文字後，產生出所有符合範例概念序列的概念序列1016，並計算出重組後概念序列中所有概念的信心值1018。將該些概念序列1016與所得的信心值1018傳送至概念序列選擇模組1020。概念序列選擇模組1020藉由n-gram概念分數1022，挑選出一組由語意框組成的最佳概念序列1026。由語意框組成的最佳概念序列1026與其相對應的信心值可傳送給確認介面730。

第十一圖是一個範例示意圖，以一混態文字的範例來說明概念序列重組模組1010如何重新編輯與分析混態文字的內容，與所揭露的某些實施範例一致。第十一圖的範例中，來自語音內容擷取器710之混態文字範例1110的內容為『_Filler_Filler_S1 S2 S3 S4 S5_F/S_記得_F/S_在_When_下午六點以前_F/S_跟_Whom_爸爸_Cmd_說_Filler_S8 S9 S10 S11(去倒垃圾)』，概念序列重組模組1010藉由概念整合文法1012中範例如1112，與範例概念序列語料庫1014中範例如1114，重新編輯並產生多個符合範例概念序列的概念序列與計算出的信心值，例如標號1116所示，其中，符號<Del*n>代表對範例概念序列語料庫中的範例進行n次刪除的動作。例如，混態文字1110藉由概念整合文法範例1112，與範例概念序列語料庫範例1114中的(1.5)_Filler_When_Whom，重新編輯並進行4次刪除的操作，產生出概念序列，參考箭頭1118所指，亦即『(1.5Del*5)_Filler_S1 S2 S3 S4 S5_When_下午六點以前_Whom_爸爸』。重新編輯範例概念序列語料庫的另一操作為<Ins*n>，符號<Ins*n>代表進行n次加入的動作。因此，當語音內容擷取器710發生辨識錯誤時，後續仍可藉由概念整合文法1012與範例概念序列語料庫1014的輔助，來取得與沒有辨識錯誤相同的概念序列，而不受部分錯誤辨識詞彙或音標所影響。

概念序列重組模組1010產生出所有符合範例概念序列的概念序列後，計算出這些概念序列相對應的信心值。計算此信心值的範例如下列公式。

Scorel(編輯)=Σlog(P(編輯∣Concept非屬於_Filler_))+Σlog(P(編輯∣_Filler_屬於訊息))+Σlog(P(編輯∣_Filler_屬於垃圾))，

以標號1118所指的概念序列為例，其信心值的計算如下：

信心值=Σlog(P(刪除∣_F/S_))+Σlog(P(刪除∣_F/S_))+Σlog(P(刪除∣_F/S_))+Σlog(P(刪除∣_指令_))+Σlog(P(刪除∣_Filler_屬於垃圾))=(-0.756)+(-0.756)+(-0.756)+(-0.309)+(-0.790)=-3.367

所有概念序列與所得的信心值傳送至概念序列選擇模組1020後，承上述範例，第十二圖說明概念序列選擇模組如何將這些概念序列進行概念分數的計算，與所揭露的某些實施範例一致。第十二圖中，概念序列選擇模組1020例如可藉由n-gram概念分數1022與訊息分辨文法資訊輔助，來將這些概念序列進行概念分數的計算，以前述概念序列『_Filler_S1 S2 S3 S4 S5_When_下午六點以前_Whom_爸爸』為例，其n-gram概念分數的計算如下：

Score2(n-gram概念)=log(P(_Filler_∣null))+log(P(_When_∣_Filler,null))+log(P(_Whom_∣_When_,_Filler_,null))=log(0.78)+log(0.89)+log(0.98)=-2.015，

如概念表格1220所示，概念序列『_Filler_S1 S2 S3 S4 S5_When_下午六點以前_Whom_爸爸』中，概念(What)為『S1 S2 S3 S4 S5』，其分數為0.78；概念(Whom)為『爸爸』，其分數為0.89；概念(When)為『下午六點以前』，其分數為0.98。

有了這些概念序列和對應的概念分數，然後每一概念序列的總分數可從信心值與概念分數來算出，此總分數的計算範例如下：總分數=w1×Score1(編輯)+w2×Score2(n-gram概念)，其中w1+w2=1，w1>=0，w2>=0。以概念序列1118為例，其總分數例如是0.5×(-3.367)+0.5×(-2.015)=-2.736。有了這些概念序列和對應的總分數，如範例1210，概念序列選擇模組1020可從中挑選出至少一組由語意框組成的最佳概念序列，來傳送給確認介面730。最佳概念序列例如箭頭1218所指，具有最高總分數為-2.736。

確認介面730是要確認文字內容分析器720分析所得語意是否有不夠清楚(semantic not clear)，或是語意是否有衝突(conflict)之處，或是語意是否滿足留言與傳達的需求等。當上述情形為否定時，第十三A圖至第十三C圖是確認介面之幾種輸出與輸入的範例示意圖，與所揭露的某些實施範例一致。如第十三A圖的範例所示，若確認介面730接收之語意框1310的語意有不夠清楚或是衝突之處，例如信心值介於高標準門檻值與低標準門檻值之間時，則確認介面730可要求一回應訊息1310，根據收到的回應訊息1310再補充語意。不夠清楚的語意例如是缺少必要概念的語意，譬如『下午六點以前(When)通知爸爸(Whom)』，此語意缺少必要概念What，也就是語音訊息。衝突的語意例如是出現重複概念的語意，譬如，前一次對話紀錄中，概念When為『下午六點以前』，但目前對話紀錄中，概念When為『下午六點半以前』，此重複概念When出現了不同的內容。

補充語意後，例如語意已獲得滿足留言與傳達條件(semantic clear)時，如第十三B圖的範例所示，確認介面730可再執行確認1320，以確認留言內容是否完整且正確。若得到確認肯定的回應，則確認介面730可記錄留言者身份412、留言傳達命令414、以及留言訊息語音416等留言訊息，並傳送至傳送控制器420。若得到確認否定的回應，則確認介面730例如可要求重新輸入留言語音。

回顧第五圖的範例中，在傳達階段時，傳送控制器420接收命令或訊息剖析器410傳遞的留言與傳達相關資訊後，先判斷是否有滿足傳達條件。再透過訊息傳送裝置440來進行留言訊息的傳達。第十四圖以一個工作範例來說明於傳送控制器420的運作，與所揭露的某些實施範例一致。

第十四圖的範例中，傳送控制器420可將命令或訊息剖析器410傳送的留言與傳達相關資訊，記錄到一訊息資料庫1410中。例如，傳送控制器420將收到的留言者身份『媽媽(Who)』以及留言傳達命令，包括『爸爸(Whom)』、『六點以前(When)』、『廣播(How)』、與『訊號08010530(What)』，對應的語音訊息紀錄1420存入訊息資料庫1410中。並且藉由感測裝置1430中，例如影像攝影機1432或是射頻辨別裝置1434等，來確認爸爸是否回到家中。當計時器裝置1436確認傳達條件符合When(六點以前)時，將留言者身份『媽媽(Who)』、留言對象『爸爸(Whom)』、與語音訊息『訊號08010530(Speech Message)』，等資訊傳送到訊息合成器430，並且根據傳達方式『廣播(How)』的條件，來開啟對應的設備開關。

在現實環境中，留言者之輸入語音中的傳達條件不一定可被滿足，例如，爸爸六點以前不在家，此情況下，留言訊息可能無法即時被告知留言對象。因此，如第十五圖的範例所示，傳送控制器420例如可以利用系統預設(preset)的傳達順序去設定訊息傳送裝置，以避免發生留言訊息沒有被傳達給留言對象的情形。例如，系統預設被使用之訊息傳送裝置的順序為，當計時器裝置1436確認傳達條件符合When(六點以前)時，從影像攝影機1432或是射頻辨別裝置1434發現爸爸不在家，傳送控制器420饋回語音訊息記錄1420，並將傳達方式『廣播(How)』改為系統預設的『語音簡訊』，且開啟對應的設備開關，使訊息合成器430所合成的傳達訊息語音，即饋回訊息(feedback message)1520，透過非廣播之其他傳達裝置(other transmitting device)1540，並以系統預設的『語音簡訊』方式來傳送，饋回訊息1530例如可回饋給留言者或是傳送給留言對象『爸爸』，以確保不會遺漏傳達訊息語音。

也就是說，當傳達條件不被滿足而無法以『留言指定』的方式來完成傳達時，例如無法在設定的時間以『廣播』傳達語音訊息給留言對象『爸爸』時，傳送控制器420可將訊息傳送裝置設定為『系統預設』的傳達方式，並透過其他傳達裝置1540來傳送，以確保不會遺漏傳達訊息語音。

訊息合成器接收傳送控制器420傳遞的留言者身份(Who)、留言對象(Whom)、語音訊息(What)之資訊1450後，藉由例如語言生成技術將這些相關資訊重新整合，產生符合『信、達、雅』的句子，並將產生的句子轉換成傳達訊息語音432，然後交由訊息傳送裝置440，將傳達訊息語音432傳送給一接收留言者。第十六圖是訊息合成器的一個範例示意圖，與所揭露的某些實施範例一致。承上述第四圖的範例，訊息合成器430的架構與運作說明如下。

第十六圖的範例中，訊息合成器430至少包括一語言生成器(Language Generator)1610、以及一語音合成器(Speech Synthesis)1630。語言生成器(Language Generator)1610接收傳送控制器420傳遞的留言者身份『媽媽(Who)』、留言對象『爸爸(Whom)』、與語音訊息『訊號08010530(Speech Message)』之資訊1450，並自一語言生成合成模板(Language Generation Template，LG Template)資料庫1620，例如合成模板資料庫範例1622，中選出一合成模板進行文句的合成。

例如，當傳達條件皆被滿足時，語言生成器1610選擇一合成模板「Whom，Who留了以下的訊息給你，『What』」，以資訊1450的例子而言，將生成「爸爸，媽媽留了以下的訊息給你，『What』」之語音信號，再透過語音合成器1630合成為一語音信號。之後，語音合成器1630將此語音信號與語音訊息(What)『訊號08010530』作接續(concatenation)，產生「爸爸，媽媽留了以下的訊息給你，『該去倒垃圾了』」的語音傳達訊息(Transmitted Message)1632，其中，『該去倒垃圾了』是訊號08010530的內容範例。語音傳達訊息1632將再透過訊息傳送裝置傳達給留言接收者，例如留言對象『爸爸(Whom)』。

當傳達條件不被滿足時，例如無法在設定的時間以『留言指定』的方式來完成傳達時，則如第十七圖的範例所示，訊息合成器430接收傳送控制器420饋回的語音訊息記錄1420，並自一語言生成合成模板資料庫1720，選出一饋回訊息合成模板1722來進行文句的合成，以合成一饋回訊息1742。若傳送控制器420已將訊息傳送裝置設定為『系統預設』的傳達方式，例如『語音簡訊』，則可自語言生成合成模板資料庫1720，選出另一饋回訊息合成模板1724，以合成一饋回訊息1744。

第十八圖的範例是多個留言者輸入語音留言後，傳達給單一留言對象時，訊息合成器430進行文句合成的一個範例示意圖，與所揭露的某些實施範例一致。參考第十八圖，訊息合成器430接收經剖析後的三筆留言訊息記錄1812、1814與1816，其中兩個留言者身份分別是『媽媽』與『弟弟』，留言對象皆為『爸爸』，而『媽媽』有兩筆留言訊息，『弟弟』有一筆留言訊息。訊息合成器430可自一語言生成合成模板資料庫選出一傳達訊息合成模板，並將三筆留言訊息記錄1812、1814與1816，合成一傳達訊息語音，例如標號1842所示，亦即「爸爸，媽媽吩咐你『訊息1-1』，還有『訊息1-2』，另外弟弟說『訊息2』」。

承上述，第十九圖之範例流程說明了本揭露之語音留言與傳達方法，與所揭露的某些實施範例一致。參考第十九圖，步驟1910中，從至少一留言者之輸入語音，剖析出及輸出多項資訊，此多項資訊至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音。步驟1920中，將此多項資訊合成一傳達訊息語音。步驟1930中，根據此至少一留言語者身份與此至少一留言傳達命令，控制一裝置切換元件，使此傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。在傳送傳達訊息語音之前，可透過一確認介面來執行至少一確認動作，以確認此多項資訊或此傳達訊息語音的精確性。

步驟1910中，可對整個此輸入語音片段根據給定文法與語音可信度量測，來得到具有高可信度之至少一文字指令片段、以及具有音標之至少一補白片段，也可將此補白片段區分出訊息補白片段與垃圾補白片段。從至少一文字指令片段中可得到此至少一留言傳達指令，根據此訊息補白片段，可從輸入語音中擷取出至少一留言訊息語音。

步驟1920中，根據此多項資訊，可自一語言生成合成模板資料庫，選出一合成模板來進行文句的合成，以合成傳達訊息語音。語言生成合成模板資料庫可包括如多種傳達訊息合成模板或多種饋回訊息合成模板。

步驟1930中，根據留言語者身份與留言傳達指令來控制適當之訊息傳送裝置以傳送此傳達訊息語音。例如，當傳達條件皆被滿足時，可採用『留言指定』的方式來完成傳達此傳達訊息語音；而當傳達條件不被滿足而無法以『留言指定』的方式來完成傳達時，也可將訊息傳送裝置設定為『系統預設』的傳達方式，並透過其他傳達裝置來傳送，以確保不會遺漏傳達訊息語音。

綜上所述，本揭露之實施範例可提供一種語音留言與傳達之系統與方法。此實施範例中，經由一命令或訊息剖析器，針對留言者之輸入語音進行辨識，取得留言語者身份，而對整個語音輸入片段根據給定文法與語音可信度量測，來得到文字指令片段、以及補白片段，並將此補白片段區分出訊息補白片段與垃圾補白片段；從文字指令片段中得到各種留言傳達指令，根據此訊息補白片段，從輸入語音中擷取出留言訊息語音後，經由一訊息合成器，合成出傳達訊息語音，再根據留言語者身份與留言傳達指令來控制適當之訊息傳送裝置，以傳送此傳達訊息語音。

惟，以上所述者僅為本揭露之實施範例，當不能依此限定本發明實施之範圍。即大凡本發明申請專利範圍所作之均等變化與修飾，皆應仍屬本發明專利涵蓋之範圍。

102．．．車輛

104．．．標頭資訊

106．．．語音記錄

108．．．門檻值範圍

110．．．傳達通知訊息的位置

210．．．語音接收模塊

220．．．系統控制模塊

230．．．語音輸出模塊

300．．．語音行事曆系統

311．．．網際網路伺服器

312．．．電腦電話整合伺服器

313．．．語音合成伺服器

31．．．通信網路

32．．．網際網路

34．．．網際網路用戶

33．．．電信網路

35．．．電信網路用戶

400．．．留言與傳達系統

402．．．留言者

404．．．輸入語音

410．．．命令或訊息剖析器

412．．．留言者身份

414．．．留言傳達命令

416．．．留言訊息語音

420．．．傳送控制器

430．．．訊息合成器

432．．．傳達訊息語音

432a．．．留言訊息

432b．．．饋回訊息

440．．．訊息傳送裝置

450．．．裝置切換元件

512．．．媽媽

514．．．留言語音

516．．．多項資訊

522．．．計時器

532．．．麥克風

534．．．影像擷取裝置

536．．．指紋偵測裝置

538．．．射頻識別標籤

540．．．爸爸

542．．．手機

552．．．設備開關

710．．．語音內容擷取器

712．．．混態文字

720．．．文字內容分析器

730．．．確認介面

812．．．語者識別模組

814．．．語音辨識模組

816．．．信心值量測模組

818．．．語者語音資料庫

822．．．進行聲學模型挑選

824．．．挑選出聲學模型

826．．．語者相對應的聲學模型

828．．．聲學模型加調整參數

830．．．語者相關的語音辨識模組

842．．．搜尋空間

834．．．語音辨識詞彙

836．．．文法

838．．．最大相似度分數

846．．．語者相對應的聲學模型

848．．．語者相對應的聲學模型加調整參數

1010．．．概念序列重組模組

1012．．．概念整合文法

1014．．．範例概念序列語料庫

1016．．．概念序列

1018．．．信心值

1020．．．概念序列選擇模組

1022．．．n-gram概念分數

1024．．．訊息或垃圾分辨文法

1026．．．由語意框組成的最佳概念序列

1110．．．混態文字範例

1112．．．概念整合文法範例

1114．．．範例概念序列語料庫範例

1116．．．概念序列與信心值

1118．．．概念序列與信心值範例

1210．．．概念序列和對應的總分數範例

1218．．．最佳概念序列和對應的總分數範例

1220．．．概念表格

1310．．．語意框

1410．．．訊息資料庫

1420．．．語音訊息紀錄

1430．．．感測裝置

1432．．．影像攝影機

1434．．．射頻辨別裝置

1436．．．計時器裝置

1520．．．饋回訊息

1540．．．其他傳達裝置

1610．．．語言生成器

1620．．．語言生成合成模板資料庫

1622．．．合成模板資料庫範例

1630．．．語音合成器

1632．．．語音傳達訊息

1722、1724．．．饋回訊息合成模板

1742、1744．．．饋回訊息

1720．．．語言生成合成模板資料庫

1812、1814、1816．．．三筆留言訊息記錄

1842．．．傳達訊息語音範例

1910．．．從至少一留言者之輸入語音，剖析出及輸出多項資訊，此多項資訊至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音

1920．．．將此多項資訊合成一傳達訊息語音

1930．．．根據此至少一留言語者身份與此至少一留言傳達命令，控制一裝置切換元件，使此傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者

第一圖是一種與地域相關之訊息通知系統的一個範例示意圖。

第二圖是一種基于語音識別技術的智能化家居語音記錄及提醒系統的一個範例示意圖。

第三圖是一種語音行事曆系統的一個範例示意圖。

第四圖是語音留言與傳達之系統的一個範例示意圖，與所揭露的某些實施範例一致。

第五圖以一個工作範例來說明於留言與傳達兩階段的運作，與所揭露的某些實施範例一致。

第六A圖至第六D圖是幾種傳達與回饋的運作範例，與所揭露的某些實施範例一致。

第七圖是一個範例示意圖，說明命令或訊息剖析器的結構，與所揭露的某些實施範例一致。

第八A圖至第八C圖是三種實現語音內容擷取器的範例架構示意圖，與所揭露的某些實施範例一致。

第九圖是混態文字之資料結構的一個範例示意圖，與所揭露的某些實施範例一致。

第十圖是文字內容分析器的一個範例架構示意圖，與所揭露的某些實施範例一致。

第十一圖是一個範例示意圖，以一混態文字的範例來說明概念序列重組模組如何重新編輯與分析混態文字的內容，與所揭露的某些實施範例一致。

第十二圖是一個範例示意圖，說明概念序列選擇模組如何將概念序列進行概念分數的計算，與所揭露的某些實施範例一致。

第十三A圖至第十三C圖是確認介面之幾種輸出與輸入的範例示意圖，與所揭露的某些實施範例一致。

第十四圖以一個工作範例來說明於傳送控制器的運作，與所揭露的某些實施範例一致。

第十五圖是承第十四圖之範例，來說明當傳達條件不被滿足時，傳送控制器的運作，與所揭露的某些實施範例一致。

第十六圖是訊息合成器的一個範例示意圖，與所揭露的某些實施範例一致。

第十七圖是一個範例示意圖，說明當傳達條件不被滿足而無法以『留言指定』的方式來完成傳達時，訊息合成器的運作，與所揭露的某些實施範例一致。

第十八圖是多個留言者輸入語音留言後，傳達給單一留言對象時，訊息合成器進行文句合成的一個範例示意圖，與所揭露的某些實施範例一致。

第十九圖是一範例流程圖，說明語音留言與傳達方法，與所揭露的某些實施範例一致。