TWI297123B

TWI297123B - Interactive entertainment center

Info

Publication number: TWI297123B
Application number: TW093141258A
Authority: TW
Inventors: Yun Wen Lee; Jia Lin Shen; Chien Chou Hung; Yuan Chia Lu
Original assignee: Delta Electronics Inc
Priority date: 2004-12-29
Filing date: 2004-12-29
Publication date: 2008-05-21
Also published as: TW200625157A; US20060143681A1

Description

1297,123 九、發明說明：【發明所屬之技術領域】 . 本發明係與一種多媒體娛樂系統有關，尤其是盘一種對互動式多媒體娛樂系統有關。 ' ^ 【先前技術】現今多數豕庭都具備許多種視聽娛樂家電裝置，像是視、錄影機、DVD、投影機、音響、手機以及具備網路功能的個人電腦等，由於這些裝置都各有其特殊功能，因此整合各式各樣的娛樂家電產品（尤其是客廳中所有的家電)成為所謂的多媒體娛樂系統（Entertainment Center)便成為未來視聽界 · (Audio-Visual)的一種發展趨勢。 ) 請參閱第一圖，其係習知的多媒體娛樂系統之架構示音圖。目前多媒體娛樂系統大致可區分為幾個部分，包括多媒^ 糸統100、祠服器糸統101、網路系統1〇2以及控制介面多媒體系統100中包含音響1001、電視1002、錄影機1003、 ‘ 投影機1004以及機上盒(Set-top Box) 1005等設備，伺服器系統101則包含全球内容伺服器（gl〇bal content server) 1〇1^ 以及本地伺服器（local server) 1012，網路系統i〇2則包含路由器1021、數據機1〇22、個人電腦1〇23等網路通設備，控籲制介面103則包含各種控制裝置，例如pda 1〇31、遙控器1032 等等。一般來說，機上盒1005負責整合多媒體系統1〇〇中的裝置，並透過網路系統102與伺服器系統101相連，當使用者經由控制介面103輸入指令時，會視所需狀況使用全球内容伺服器1011或是本地伺服器1012所提供的服務，例如從資料庫中搜尋並擷取所需的資料。最初’多媒體娛樂系統僅允許使用者做單向操作，使用者輸入受限制的指令，多媒體系統則依據該指令做出適當的回應。為了因應機器人性化的趨勢，互動式技術終於也成功地應 11 1297123 用在多媒體娛樂系統上，讓使用者在輸入指令後循序誘導的選單幫助使用者做更進一步的操作。此外訊科技的逄勃發展’經由網路所能提供的服務越來越多互動式系統的優點發揮的淋漓盡致。即便如此，使用按鍵等方式操作仍然離人性化操作段不小的距離、然而，隨著語音/語者辨識技術的成孰者利用聲音對機n下指令已經不是夢想，上述的多聰= 統在整合支援語音/語者辨識技術的介面後透^ ί=ί=Γΐ:系統的裝置。可惜的== 是兮類多女竿：娱U:法做到多方/階層的查詢/命令，但疋夕媒體綠糸統依然不具備人與機器對話功能。職是之故，申請人鑑於習知技術之缺失，乃經悉 :二ir不捨之精神，終於研發出-種以對話互動的【發明内容】互動在ίίΓ種搭配語音對話系統之對話不具備人與機器對話功能的缺陷。/類夕媒體無樂糸統 ^虞上述構想，本發明提供一種對統（Interactive Entertainment Center)，媒=樂系 ^統，用以提供各種多媒體服務；一伺服“用2體舌互動式多媒體娛樂系統所需之各項服務一立亥器系統及該語音對話系多媒體系統、該伺服音訊系統，根據上述構想，其巾該多舰纽更包含： 12 1297123 =提供該使用者音訊相關服務；一視訊系統，用以提供該使用者視訊_服務；以及-整合裝置，其侧以整合該音訊系統及該視訊系統，並連結至該網路系統。根據上述構想，其中該音訊系統係為一立樂梦詈。根據上述構想，其中該該音訊系統ί為。根據上述構想，其中該視訊系統為一錄放影機。根據上述構想’其中該視訊系統為一電視。根據上述構想，其中該視訊系統為_投影機。根據上述構想，纟中該整合系統係為—機上盒

Box) 〇 ^ 猶，其巾細料岐包含：—雜機，其係統；以及—路由器，其係連結該數據機及該根據上述構想，其中該數據機係為ADSL。 mod二據上述構想，其中該數據機係纜線數據機(—e 服哭構想，其巾賴服料錢包含：—全球内容伺时謂⑹；以及一本地伺服器（1〇如，據上述構想’其中該語音對話系統更包含：—語音/ 辨識益，用以辨識所輸入之語音指令/語者；一文法 j ; —_控制器，其可根據^和解應;π-語音合成器，用以因應2 上述構想，射該語音/語者辨麵更包含: ^要獨立模型(如為語者辨識則庫。根據上親想，射敎法觸器更包含_指令語法資料 13 1297123 述構想，其中更包含—多型態(mul ti_m〇複數個輸人裝置；以及複數個輸錄置。 # ' ^^fuhantLZ^^^^ ' ^11 ^ 音^難細、鄕機、外八、法，在於提供-種建立辨識字較料庫的方 1該辨識予㈣料庫制於—對話互動式多媒财能.（"Μ όά 1 郎之名稱字彙並自動歸類該節目之型以：統—名稱字彙；⑷簡化峨，揭二為：以識=⑷根一歌手其目之謂__、專輯、根據上述構想，其中該歌曲、專係，碟之識別資料(discid)經網路_斤獲ts ’ 係利用list怎:歌曲、專輯、歌手及其相關資訊， =用日紅案之表頭植(header)、槽名及文件名其中之一所名稱根據上述構想’射目之名辭㈣為树電視節目有線獲ί中該有線電視節目名稱係經由網路擷取

EntrfpfPn^；^ A^^^(MaxiM Ϊΐ上述構想，其中步驟⑷係根據詞頻方式完成。之資更新-語音對話系統對話錢_於—對話互動式多媒體 14 1297123 娱樂系統（Interactive Entertainment Center)，該方法包含·· (a)透過夕型悲（muiti-m〇(jai)控制介面輸入一指至續對 ί互體娛樂系統；⑹該語音對話系統根_指1，恶下自動搜尋並分析可能需要之辨識字彙;以及(C) 根據步驟(b)更新該語音對話系統之資料庫。 —ΐίΐ述構想，其中該語音對話系統之資料庫係為-辨識子菜勇料庫。語法Si述構想，其中該語音對話系統之資料庫係為一指令模型根據上述構想，其巾該語音對料統之㈣縣為一語言入/ί據上述，’其巾該多麵控制介關包含：複數個輸入裝置，以及複數個輸出裝置。鍵盤 ^上述構想，其中該輸入裝置係為麥克風、遙控器 /月乳及手持(hand held)裝置其中之一。喇口八 ίΐ上ΪΪ想，其中該該輸出裝置係為電視、投影機曰響、錄放影機及電腦其中之一。 ^上述構想，其巾該蚊狀_树歧 3上述構想’其巾雜定狀態麵查詢特定資料庫。本^狀再-縣在_供—種乡簡

Ett" t!,； ^ ^ ^ ^ ^ ^ ^ dnteraciive 制^肥龄 )，其係包含一多型態(multil〇dal)控 =二面、：正合裝置以及—伺服㈣統，該方法包含；⑹根據麵識字彙長度作分級；（e)當該辨第：服值，或是只有鮮鶴控制介面具辨識莱之f庫時，由該多型態控制介面進行運算門^佶日士）ί _識字彙長度A於該第—m錄且小於一第二彙行Ϊ算辨識；以及⑴當該辨識字亥弟—門祕^· ’由鋪服料統進行運算辨識。 15 1297.123 ，ΐ:第一門檻值係為_字。 ίϊ' ’ ΐΐ該第二門檀值係為ig酬0字。根據上賴想，射衫鶴入裝置；以及複數個輸蚊置。”面更w複數個輸根據上述構想，其中該輸人裝置鱗風盤、滑鼠及手持(hand held)裝置其中之—。工《。鍵根據上述構想，其中該手持裝置係為一手機。 ⑽f。據上述縣’其巾該顿裝置係為—個人數位助理音響魏、郷機'♦ 八、

Box)根據上述構想，其中該整合裝置係為—機上盒伽, ，據上述構想，其中該舰器系 (remote server)。 u 服口口多媒搭配語音對話系統之對話互動式對話的方式，引導使用;用;ί輸乂更精細的查_谷’來查詢或操作所要執行的工作。【實施方式】太枯ί案將可㈣"I的實施例·而得到充分瞭解，使得熟習施例而被限制其實施型態。下】貝之圖古為，之對話互動式多媒體娛樂系統加:t ^話糸，洗之方塊，’在弟一圖所提供之多舰娛樂系統載此語音對話系統’即可成為本案之對話互動式多媒體士失樂糸統。語音對話糸統2〇包含★五立 16 1297123 气哭201 ，使用者輸入語音之後，該語音/語者辨依識字彙資料庫2011和語言模型2012，將齡麵2G13，料_料或加上 ^ 以作為辨識語者之用。文法辨識器202可包含一以斗庫2021 ’其係用以解析最高分字、查沾if 可、、Ό 5切對話的語紐4朗者最村能要表、〜義，將其建成語義訊框(semantie f — =框控制器2Q3。對話控制器2^據 ΐί斜入查詢節目或個人資料庫205，或由新輸入的 =亦可針對查詢結果作分析，引導使用進= 後對話控制器203便將所要輸出的訊息送至。口曰合成斋204合成語音輸出。所社’對話互動式多媒體娛樂系統可以是以網路 ΐ二t 祕載上述之語音對料、統2g，包含視訊裝視、錄放影機、投影機）、音訊裝置（例如音響、剩合裝置(例如機上盒)與網路系統將多媒體與通訊結二伺服，系統。在操作方面’對話互動式多媒體娛 u 多型悲（muiti_modai)控制介面配合手動操作或 ϋΐ作’手動操作可利用遙控器、鍵盤、滑鼠等輸入，語音 Γ f可使ϋ克風或是PDA、手機等手持裝置(hand—heid)輸伺服态系統方面，包含有全球内容伺服器（global =〇n ent server)和本地伺服器（i〇cai server)，本地祠服器定 :月可文由全球内容伺服器透過網路傳來之節目表、最新文 Ϊ、字ί或是程式更新，而使用者則透過網路由本地伺服器獲侍所需貧訊，或是任何其他由本地伺服器所提供的服務。此外，浯音對話系統2〇所包含的語音/語者辨識器2〇1使 17 1297,123 如^^可，j自動建立個別的專常聽的歌、常聯絡的人等等，包3吊看的頻這/節目、的使用者，並呼叫出其ί Li過=辨識，、系統可分辨目前亦可定時自動幫使用者更新=我^互=多媒體娛樂系統態(例如節目時間異動、文二t，貝目的最新狀目。各使用老之摘作，直接找到最常用的項能，㈣含峨用權限的功查該使用者是否有“ 要彳依fi用者的聲音便能檢參碼頻道或_頻道等。㈠’修疋否有觀切換至鎖 ======步介並力:以分析，猎此更新辨識字彙龍庫顧、語言模型2。12 ίΐ令ΪΓί料庫2〇21，使語音/語者辨識器201可隨時搭配娛樂系統的行為，達到具有無限制數量的辨識字彙適應使用者的操作。项 j亦提供-種建立對話互動式多媒體娛樂系統所常用的 «，的方法。首先，由系統擷取及/紐用者輸人節目的名稱字彙’並對該節目進行歸類動作。舉例來說，歌曲的名稱 ί來源有以下幾種··⑴若是音樂光碟，則可利用光碟之識別資料(DISCID)至網路(http://www. freedb. org)上查詢，可以搜尋到，f樂光碟之專輯名稱、歌手、歌名、長度等資訊可作為名稱字彙；（2)若是mp3等音樂檔案，則可從音樂檔案之表^ 檔(header)獲得該檔案之專輯名稱、歌手、歌名等資訊可作為名稱子莱，（3)若音樂播案不具表頭檐(hea(jer)，則播名亦^ 18 I297J23 ==地：；S目=可如前文所述，由全球内為了節省許多可能囊通常很繁雜’因此機會，接著就必須統一名稱字彙有造成辨識錯誤的有「早安您好華視新聞」、巧:視新聞就等等，若全舰照節目表建=^，聞么華視午間新聞」用者也不可能記得這麼多節二子菜’便有混淆的可能，使 -律將華視所有的_節f據本案之方法，輸入的語法簡單易記，而對辨識細者來說能還存在著，==但二口些7便可去掉。舉以理《如_什晴泞二；：會掉。最後，再以最大熵原稱字彙中的關鍵字。舉例來$，hi詞頻方式，擷取該名為「航海王」、+例采5兒上例中的辨識字彙就可能展開 ί 〇目名稱太長或亡奸曰L辨識子菜，即使使用者可能因為節者依% ’而僅輸入部分的節目名稱’使用的節目或歌曲^ 旬的方式，找到類似使用者所要查詢分散袁樂系統是以網路所結合的二是環節。-般辨識系統的運算ί 做辨識：以;=遠端舰器(_叫去辨識的運算架構，級辨識運算’在使用者輸入裝置、 19 1297123 ，可以根據辨識字囊長度做分級，若辨1字-具度叙紐，或是辨識字彙所對應的資識子菜長時，例如PDA、手機儲存的個人通訊錚，者輪入裝置「我的最愛」這種約幾百字彙以内，便^ 所提及的比較複雜-__互動式多髓置做辨識；節目查解_千字的觸工作，便令、或是 ==識幾十萬字°的辨識4這種整合像是查询電話料，便交給遠端触騎行間互動式多媒體娛樂系二=由多;，系統。縱使解：本案得藉由下列圖示與實施例之說明，俾得一更深入之瞭【圖式簡單說明】以及話系統之方塊圖篇示ΪΓ:的多媒體娱樂系統之架構示意圖，一為本*之對話互動❹舰娛樂祕之語音對【主要元件符號說明】 100 :多媒體系統 1001 :音響 1002 :電視 1003 :錄影機 1004 :投影機 1005 :機上盒（Set-top Box) 101 :伺服器系統 20 1297123 1011 :全球内容飼服器（global content server) 1012 :本地伺服器（i〇cai server) 102 :網路系統 1021:路由器 1022 :數據機 1023 :個人電腦 103 :控制介面

1031 ： PDA 1032 :遙控器 20 ·语音對話系統 201 ··語音/語者辨識器 2〇11 ·辨識字彙資料庫（Lexicon) 2012 ·語言模型（Language Model) 2013 ·語者獨立模型（gpeaker independent Model) 2014 ·個別語者模型（Speaker Dependent Model) 202 ·文法辨識器（Naturai Language Grammar Parser) 2021 :指令語法資料庫 203 :對話控制器 204:語音合成器 205 :個人資料庫

Claims

1297123 十、申請專利範圍： 1. 一種對話互動式多媒體娛樂系統（Interactive Entertainment Center)，其包含·· 一多媒體糸統，用以提供各種多媒體服務； -飼服m用以提供該對話互動式多媒體娛樂系需之各項服務；一#音對話系統，用以作為一使用者利用語音控制互動式多媒體娛樂系統之介面；以及 ^ 酬蝴、鋪酬統及該語與能動式多媒崎系統 2统如叙賴絲❹聰埃樂系一音訊，統，用以提供該使用者音訊相關服務；一=訊系統，用以提供該使用者視訊相關服務；以及 i如專鄉2項雌之對話絲❹媒體娛樂系、、先，其中該音訊系統係為一音響裝置。、、’、 4統如其输祕媒嶋系 6統對話互動式多媒體娱樂系第2項所狀職絲式多顧娱樂系 8如申^訊糸統為一投影機。 • Τ明專利範圍第2項所述之對話互動式多媒體娛樂系 22 1297123 統，其中該整合系統係為一機上盒(Set-top Box)。 9·如申請專利範圍第1項所述之對話互動式多媒體娛樂系統，其中該網路系統更包含：一數據機，其係連結至該伺服器系統；以及一路由器，其係連結該數據機及該多媒體系統。 10·如申請專利範圍第9項所述之對話互動式多媒體娛樂系統，其中該數據機係為ADSL。 11·如申請專利範圍第9項所述之對話互動式多媒體娛樂系統，其中該數據機係纜線數據機化让^ m〇dem)。 12·如申請專利範圍第丨項所述之對話互動式多媒體娛樂系統，其中該伺服器系統更包含：一全球内容伺服器（global content server);以及一本地伺服器（local server)。 - 觸裔，肋賴所輸人之語音指令/語者； -’ μ解析該語音指令之語義；回應；以1彻，其可根據辨識和解析結果判斷給予適當 14.如圍：：該回應而輸出-合成語音。統，其愧語話互喊錢體娛樂系一辨識字彙資料庫；文匕3 · 一語言模型；一語者模型；以及一语者獨立模型。 15·如申請專利範圚楚統，其中該文法辨妈哭由3,所述之對話互動式多媒體娛樂系 16.如申請專利範包含一指令語法資料庫。弟1項所述之對話互動式多媒體娛樂系 23 1297123 統’其中更包含一多型態（multi_modal)控制介面，宜衩數個輸入裝置；以及複數個輸出裝置。 17.如申請專利範圍第16項所述之對話互動式多統，其中該輸入裝置係為麥克風、遙控器、鍵盤:滑ϋ 持（hand held)裝置其中之一。亍 18·如申請專利範圍第16項所述之對話互統，其中該輸出裝置係為電視、投影機uti 影機及電腦其中之一。綠放

1 用辨f庫的方法’該觸字彙資料庫係用於一對話互動式多媒體娛樂系統（interactive Entertainment Center)之一語音對話系統，該方法包含： (a)擷取一節目之名稱字彙並歸類該節目之型能； (W巧一該節目名稱字彙成為一統一名稱字彙了， (c)簡化該統-名稱字彙成為_簡化名稱|以字囊⑷根據該簡化名稱字彙，綠取至少—關鍵字作為辨識 t如申請專利範圍第19項所述之方法，其中該節目之名摇字彙係為歌曲、專輯、歌手及其相關資丄

21. 如申請專利範圍項所述之方法，直、中t曲 22. 如申請專利範圍第2〇項所述之方法，其歌手及其相隨訊，係湘音樂魅名及文件名其中之-所獲得。木之表雌(―㈣、檔 23·如申請專利範圍第丨9項所述之字彙係為有線電視節目名稱。 / ’、巾4目之名稱 24·如申請專利範圍第23項所述之目名稱係經由網«取有線電視節目表所^林線電視即 24 1297123 如申請專利範圍第19項所述之方法，其中最大墒原理(Maximum Entropy Principle)完成/)係利用利範圍第19項所述之方法，其中步_)係根據 2j::獅態更新-語音對話祕之資料庫之方法，該纽立舌糸統_於-對話互動式多媒體娛縣統（加⑽曰 Entertainment Center)，該方法包含： (a) 透過一多型態（multi一m〇dal)控制介面輸入 a 至該對話互動式多媒體娛樂系統；曰7 (b) 該語音對話系統根據該指令，於一搜尋並分析可能需要之辨識字彙；以及4寺疋狀怨下自動 (c) 根據步驟(b)更新該語音對話系統之資料 28·如申請專利範圍第27項所述之方法統之資料庫係為一辨識字彙資料庫。 Y 曰對話糸其中該語音對話系其中該語音對話系 29·如申请專利範圍第27項所述之方法統之資料庫係為一指令語法資料庫。 30·如申請專利範圍第27項所述之方法統之資料庫係為一語言模型。專利範圍第27項所述之方法，其中該多型態控制複數個輸入裝置；以及棱數個輸出裝置。第27項所述之方法’其懷定狀態係 25 1297123 3為4查ίΐίί:圍第27項所述之方法，其中該特定狀態係 3斑5'_^級觸運算方法’其係適用於—互動式多媒體娱多 ^ 能 f Entertainment Center)，其係包含- 統，^ ^含她Ό控制介面、一整合裝置以及一祠服器系 (a) 提供一辨識字彙； (b) 根據該辨識字彙長度作分級；控制介面進行運算ίΐ辨識子菜之資料料，由該多型態門伊t當字彙長度大於該第—門檻值且小於一第二門k值％，由該整合裝置進行運算辨識；以及器系=2=彙長度大於該第二門檻值時，細服 Ϊ為專利乾圍第35項所述之方法，其中該第-門檻值 Ϊ面專利範圍第35項所述之方法，其中該多型態控制複數個輸入裝置；以及複數個輸出裴置。 3為9夫3請!利範圍第38項所述之方法，其中該輸入㈣ ^克風、遙控ϋ、鍵盤、滑鼠及手持(handheld)裝置其中 =·一=請專利範圍第39項所述之方法，其中該手持裝置係 41.如申請專利範圍第39項所述之方法，其中該手持裝置係 26 1297123 為一個人數位助理（PDA)。 42. 如申請專利範圍第38項所述之方法，其中該輸出裝置係為電視、投影機、喇队、音響、錄放影機及電腦其中之一。 43. 如申請專利範圍第35項所述之方法，其中該整合裝置係為一機上盒(Set-top Box)。 44. 如申請專利範圍第35項所述之方法，其中該伺服器系統係為一遠端伺服器（remote server)。

27 1297】23 七、指定代表圖： (一）本案指定代表圖為：第（一、二）圖。 (二) 本代表圖之元件符號簡單說明： 100:多媒體系統 1001 ··音響 1002 :電視 1003 :錄影機 1004 :投影機 1005 :機上盒（Set-top Box) 101 :伺服器系統 1011 ·全球内容伺服器（global c〇ntent server) 1012 ·本地祠服 (i〇cai server) 102 :網路系統 1021 :路由器 1022 :數據機 1023 :個人電腦 103 :控制介面 1031 ： PDA 1032 :遙控器 20 ·#音對話系統 201 :語音/語者辨識器 2〇11 ·辨識字彙資料庫（Lexicon) 2012 ·語言模型（Language Model) 2013 :語者獨立模型（Speaker Independent Model) 2014 ·個別語者模型（Speaker Dependent Model) 202 ·文法辨識器（Natural Language Grammar Parser) 2021 :指令語法資料庫 1297123 203 :對話控制器 204 :語音合成器 205 :個人資料庫八、本案若有化學式時，請揭示最能顯示發明特徵的化學式：