TWI682292B - 遞迴式整合對話之智能語音裝置 - Google Patents

遞迴式整合對話之智能語音裝置 Download PDF

Info

Publication number
TWI682292B
TWI682292B TW107129636A TW107129636A TWI682292B TW I682292 B TWI682292 B TW I682292B TW 107129636 A TW107129636 A TW 107129636A TW 107129636 A TW107129636 A TW 107129636A TW I682292 B TWI682292 B TW I682292B
Authority
TW
Taiwan
Prior art keywords
sentence
information
voice
recursive
time
Prior art date
Application number
TW107129636A
Other languages
English (en)
Other versions
TW202009747A (zh
Inventor
林淦偉
Original Assignee
內秋應智能科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 內秋應智能科技股份有限公司 filed Critical 內秋應智能科技股份有限公司
Priority to TW107129636A priority Critical patent/TWI682292B/zh
Application granted granted Critical
Publication of TWI682292B publication Critical patent/TWI682292B/zh
Publication of TW202009747A publication Critical patent/TW202009747A/zh

Links

Images

Abstract

本發明提供一種遞迴式整合對話之智能語音裝置,其一接收單元供以接收語音指令,並透過一編序單元將各語音指令編程為至少一斷句資訊,且針對斷句資訊依據接收時間點分別定義一時間序號。儲存模組依據時間序號分別儲存斷句資訊,遞迴分析模組與儲存模組電訊連接以接收各斷句資訊,並針對時間序號較後產生的斷句資訊與時間序號較先產生之至少一個斷句資訊為一關聯性分析並生成一回饋語句。語音整合輸出模組接收回饋語句並以語音方式輸出。藉此,本發明係可產出更為貼近使用者實際對話意涵之回應,進而提升智能對話之擬人程度。

Description

遞迴式整合對話之智能語音裝置
本發明係與智能語音領域相關,尤其是一種可依據輸入之語音,利用遞迴分析生成使用者所需回應,而可有效提升智能語音對話回覆準確性與擬人度之遞迴式整合對話之智能語音裝置。
隨著資訊科技的發展,人工智能技術亦蓬勃地成長,近年來,亦有越來越多的廠商將人工智能運用至人機語音互動領域,讓人類不再只是單純透過操控介面與機器互動,而是採用人與人之間最易於使用的互動方式─語音,這也宣示了智能語音時代的到來。
智能語音互動被視為推翻文字互動與介面觸控模式之另一嶄新模式,在各領域皆為使用者帶來了新的互動體驗。在智能語音技術中,語音識別及語義理解係為當前智能語音開發上的主要方向。另一方面,如何使智能語音更為擬人化,提供使用者彷若與真人對談之使用體驗,亦為智能語音技術發展下欲改善之處。
然而,智能語音發展至今,在語義模擬及判斷上,仍有諸多不善之處,例如於問答應用上使用者仍需透過多次對答,逐步引導智能語音才得以獲取真實想知悉之答案,平白耗費諸多時間,且讓使用者具有不佳的使用感受。有鑑於此,本發明團隊係透過多年相關領域之技術經驗,構思並提出一種遞迴式整合對話之智能語音裝置,希冀可有效地增進智能語音技術相對使用者之互動感受,消除現存技術之不足。
本發明之一目的,旨在提供一種遞迴式整合對話之智能語音裝置,其係可使用遞迴式分析,提升語音回饋內容之準確性,大幅增進使用者之互動體驗好感度。
為達上述目的,本發明於一實施例揭示一種遞迴式整合對話之智能語音裝置,包含:一接收單元,供以接收複數語音指令;一編序單元,與該接收單元電訊連接,以將各該語音指令編程為至少一斷句資訊,並針對該斷句資訊依據接收時間點分別定義一時間序號;一儲存模組,依據該時間序號分別儲存該斷句資訊;一遞迴分析模組,與該儲存模組電訊連接供以接收各該斷句資訊,並針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之至少一個該斷句資訊為一關聯性分析,並依據該關聯性分析生成一回饋語句;及一語音整合輸出模組,與該遞迴分析模組電訊連接,供以接收該回饋語句並以語音方式輸出。藉此,利用遞迴分析方式,使得智能語音產出該回饋語句之準確性得以提升,並使得使用者與智能語音裝置之來往語音互動更具延續性,消除使用者需多次輸入語音指令以導引智能語音裝置回覆所需答案之不便,亦使得智能語音裝置更貼近真實人類思考,而提升智能語音之擬人化程度。
於另一實施例中,係揭示當該遞迴分析模組針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之複數個該斷句資訊為該關聯性分析時,所處理之該等斷句資訊的數量係大於等於50個,於此係利用數量條件做為遞迴分析取樣之基礎,以藉此分析產出更為精確之回覆語句。
於再一實施例中,則揭露當該遞迴分析模組針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之複數個該斷句資訊為該關聯性分 析時,所處理之該等斷句資訊的容量總和係大於等於250MB。於此係利用資訊容量大小做為遞迴分析取樣之基礎,以藉此分析產出更為精確之回覆語句。
於次一實施例中,當該遞迴分析模組針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之複數個該斷句資訊為該關聯性分析時,該時間序號較先產生之複數個該斷句資訊中,該時間序號最先產生之該斷句資訊之接收時間點,與該時間序號最後產生之該斷句資訊之接收時間點,其差距大於等於一個小時。於此係利用接收時間點做為遞迴分析取樣之基礎,以藉此分析產出更為精確之回覆語句。
此外,為使該儲存模組可做最有效的利用,以及確保該等斷句資訊之內容新穎度,於一實施例中係揭示該儲存模組係至多存有200~500個該斷句資訊,並當該儲存模組存有200~500個該斷句資訊時,係由該時間序號最先產生之該斷句資訊開始刪除。
除了以資訊個數作為資訊自動更新之設定條件外,於另一實施例中,該儲存模組儲存之該等斷句資訊總容量上限介於500G~1TB,並當該儲存模組儲存之該等斷句資訊總容量到達上限時,由該時間序號最先產生之該斷句資訊開始刪除,於此即以資訊容量作為更新條件,亦可達到有效利用該儲存模組之功效。
或於再一實施例中則揭露當該儲存模組內該時間序號最先產生之該斷句資訊的接收時間點,與該時間序號最後產生之該斷句資訊的接收時間點相差超過100個小時時,係刪除該時間序號最先產生之該斷句資料,藉由時間作為更新條件,亦可達到有效利用該儲存模組之功效。
為提升分析數據資料量以及分析之即時性,於一實施例中,該遞迴分析模組係與一雲端資料庫電訊連接,以藉由該雲端資料庫內存之資料供該遞迴分析模組生成該回饋語句。
於一實施例中,該智能語音裝置更包含:一時間紀錄模組,其係與該儲存模組電訊連接,以在該儲存模組於一設定時間後未再次儲存任何該斷句資訊時,將該儲存模組內之該斷句資訊清除,藉此維持該等斷句資訊之新穎度,進而提升該智能語音裝置之回復準確性。
於另一實施例中,該智能語音裝置更包含:一音軌紀錄模組,與該接收單元電訊連接,供以記錄對應該等語音指令之至少一音軌資料,藉此以針對各使用者建立對應音軌資料,以依據該些音軌資料決定關聯性分析應如何處理或排除誤動作。
綜上所述,本發明之該智能語音裝置,係透過遞迴方式,在生成該回饋語句時,將該時間序號較後產生之該斷句資訊與該時間序號較先產生之至少一個該斷句資訊予以進行該關聯性分析,進而往前遞迴撈取更多資訊,形成包裹式的資料分析,藉此係可提升該回饋語句與使用者發問真意之相符性。白話地說,此舉可使該智能語音裝置將使用者輸入語音內容所隱含之條件一併作為生成該回饋語句之分析基礎,進而可更精準地勾稽出符合多重條件之答案,不再只是如習知技術般,僅能針對部分語音內容依據關鍵字來形成回答,進而可消除答非所問之對話情況。
1‧‧‧智能語音裝置
10‧‧‧接收單元
11‧‧‧編序單元
12‧‧‧儲存模組
13‧‧‧遞迴分析模組
14‧‧‧語音整合輸出模組
15‧‧‧時間紀錄模組
16‧‧‧音軌紀錄模組
2‧‧‧雲端資料庫
第1圖,為本發明較佳實施例之方塊示意圖(一)。
第2圖,為本發明較佳實施例之方塊示意圖(二)。
第3圖,為本發明較佳實施例之方塊示意圖(三)。
習知智能語音裝置在與使用者互動對話上,仍存有諸多問題。人類在語言表達上,每個人都會有不同的表現方式,用字遣詞上亦有所差異,並無一定的標準,故時常出現在單一提問中即將所有條件展列出來的複雜語言表達狀況。由於機器無法如同人類般對於長串語句進行對應的歸納與整合,是以習知智能語音裝置實務上常遭遇當使用者以語音單次輸入長串語句、多重問題或是語速過慢過快時,習知智能語音僅能擷取部分內容或某一語句作為關鍵字以勾稽出對應之回覆,導致無法依循使用者真意予以回答,產生答非所問之情況。例如使用者輸入「我明天晚上要去游泳200元以下哪一間泳池有冷熱水池」之語音,習知智能語音裝置可能完全無法判讀,或是僅能針對某一段語句加以分析生成回應,因而回覆如「是否要加入行程表」;或是針對200元以下的泳池回覆「A、B運動中心」;或是泳池有冷熱水池回覆「C、D運動中心」等等內容。甚至出現使用者尚未將語音輸入完畢,習知智能語音裝置即停止接收並分析產出毫不相關回覆之情況。站在人類立場,於前述例子明顯可知使用者欲知悉的是有冷熱水池且票價低於200元之泳池資訊,但習知智能語音裝置之回覆皆不符合使用者的真實語意,導致使用者必須反覆地修重新修正輸入語音以逐漸引導習知智能語音裝置,才有可能獲取所需之答案。另一方面,在使用者與習知智能語音裝置之來往對話中,習知智能語音裝置無法達到延續對話之功效,也就是說當使用者輸入與A相關之第一個語句並得到智能語音之答覆後,當使用者再次輸入與A相關之另一個B語句時,習知智能語音裝置僅會針對B語句分析而提 供一較佳之回覆,或是根本無從判別B語句之內容。此結果導致使用者需要再重述一次A語句或與A語句相關之內容以及B語句,才可能獲得所需回答,但在輸入過多語句時則又可能產生被習知智能語音裝置斷章取義分析後之回覆情況。而本發明則是在分析使用者輸入語音時,以往前撈取資訊之遞迴方式達到包裹式分析之效能,有效地針對使用者輸入的眾多語句整合分析,不只是針對單一語句勾稽對應之回覆答案,而可更為精準地媒合形成使用者內心實際欲知悉的答案內容,增進智能語音之擬人程度與回覆之準確性。
本發明團隊係針對語音接收後之處理與分析予以開發及設計,以使智能語音具有更為擬人化之思考,讓回覆予使用者之語句更為精準,詳細技術特徵係如以下內容所述。為使 貴審查委員能清楚了解本發明之內容,謹以下列說明搭配圖式,敬請參閱。請參閱第1及2圖,其係為本發明較佳實施例之方塊示意圖(一)及方塊示意圖(二),本發明揭示一種遞迴式整合對話之智能語音裝置1,包含一接收單元10、一編序單元11、一儲存模組12、一遞迴分析模組13及一語音整合輸出模組14。
該接收單元10供以接收複數語音指令,該編序單元11與該接收單元10電訊連接,以將各該語音指令編程為至少一斷句資訊,並針對該斷句資訊依據接收時間點分別定義一時間序號。該儲存模組12與該編序單元11電訊連接,以依據該時間序號分別儲存該斷句資訊。該遞迴分析模組13與該儲存模組12電訊連接以接收各該斷句資訊,且針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之至少一個該斷句資訊為一關聯性分析,並依據該關聯性分析生成一回饋語句。而該語音整合輸出模組14與該遞迴分析模組13電訊連接,供以接收該回饋語句並以語音方式輸出。藉此,當該智能語音裝置1接收到 該等語音指令後,透過該編序單元11將該等語音指令編程為至少一個該斷句資訊,且使各該斷句資訊依其接收時間點而被定義有該時間序號。該遞迴分析模組13於處理時,係將該時間序號較後產生之該斷句資訊,與早於該時間序號較先產生之至少一個該斷句資訊一併進行該關聯性分析,並據此生成該回饋語句。在此種方式下,該遞迴分析模組13不只是依據該時間序號較後產生之該斷句資訊進行分析以生成該回饋語句,而是往前遞迴,結合該時間序號較後產生之該斷句資訊及該時間序號較先產生之至少一個該斷句資訊再執行該關聯性分析,因此生成之該回饋語句會是基於眾多使用者輸入條件生成,進而更貼近使用者真意,也就是使用者實際上想獲得的答案。
舉例說明之,當使用者輸入「我明天要去高雄而且要在下午3點以前到達,我要怎麼去還有我要住美麗島捷運站附近,預算2000以下我要住哪間飯店」之該語音指令而使該接收單元10接收後,該編序單元11係對前述該等語音指令進行編程,形成「我明天要去高雄而且要在下午3點以前到達」、「我要怎麼去」及「還有我要住美麗島捷運站附近」、「預算2000以下我要住哪間飯店」等該斷句資訊,並對每一該斷句資訊依據接收時間點分別定義該時間序號。於此,「我明天要去高雄而且要在下午3點以前到達」之該時間序號為1,「我要怎麼去」之該時間序號為2、「還有我要住美麗島捷運站附近」之該時間序號為3及「預算2000以下我要住哪間飯店」之時間序號為4。而後,該儲存模組即將前述各該斷句資訊及其對應之該時間序號加以儲存。
該遞迴分析模組13接收各該斷句資訊後,即針對該時間序號為4之該斷句資訊,及該時間序號小於4之至少一個該斷句資訊進行該關聯性分析以生成該回饋語句,於此以該遞迴分析模組13針對前述該時間序號1~4之各該斷 句資訊進行該關聯性分析為例。其中,該關聯性分析係指以各不同之該時間序號之該斷句資訊作為檢索對應內容之條件,予以媒合撈取對應之回覆資訊以生成該回饋語句。而實際上在進行分析時,基於演算法設定可使該關聯性分析為整合各該斷句資訊再予以媒合撈取對應之回覆資訊,於此方式下該遞迴分析模組13在進行該關聯性分析時,係將各該斷句資訊包裹式地作為媒合撈取回覆資訊之條件,以使得該回饋語句係為該等語音指令內容交集後之結果。當然,亦可使該遞迴分析模組13可先知悉各該斷句資訊媒合對應之回覆,再統合分析各回覆內容分析生成該回饋語句輸出予使用者,亦即在執行該關聯性分析時,實際上在分析的各該斷句資訊即隱含了使用者輸入的內容以及對應之回覆內容,而後該遞迴分析模組13即可將該等斷句資訊分析後之結果生成該回饋語句,此方式亦不跳脫將多個該斷句資訊加以整合分析之技術特徵。是以該智能語音裝置1之技術重點在於將各該斷句資訊形成包裹式的分析基礎,利用具有多重條件之基礎分析生成該回饋語句,而不是僅針對其中一個該斷句資訊予以回覆使用者。回到前段的舉例,該智能語音裝置1在接收該等語音指令後並經過編程處理後,該遞迴分析模組13依據該時間序號為4之該等斷句資訊,及在其之前的該些斷句資訊進行該關聯性分析,即可形成「可搭乘12點的高鐵或9點20的自強號列車,美麗島捷運站附近有三間飯店符合,分別為A飯店、B飯店及C飯店」之該回饋語句,而後透過該語音整合輸出裝置14將該回饋語句以語音輸出予使用者。
另種使用情境則為,使用者分次輸入該等語音指令,例如使用者輸入「我明天要去高雄而且要在下午3點以前到達,我要怎麼去」之該等語音指令予該智能語音裝置1,該接收單元10接收後,該編序單元11即將該等語音指令編程為「我明天要去高雄而且要在下午3點以前到達」及「我要怎麼去」之該等 斷句資訊,並依據接收時間點加以定義,形成該時間序號為1之「我明天要去高雄而且要在下午3點以前到達」之該斷句資訊,及該時間序號為2之「我要怎麼去」之該斷句資訊,並儲存於該儲存模組12。而後該遞迴分析模組13即將該時間序號為1及2之該等斷句資訊進行該關聯性分析,進而生成「可搭乘12點的高鐵或9點20的自強號列車」之該回饋語句並透過該語音整合輸出模組14以語音方式輸出。而後,使用者再次輸入「還有我要住美麗島捷運站附近,預算2000以下我要住哪間飯店」之該等語音指令,該接收單元10接收後,該編序單元11即將該等語音指令編程為「還有我要住美麗島捷運站附近」及「預算2000以下我要住哪間飯店」之該等斷句資訊,並依據接收時間點加以定義,形成該時間序號為3之「還有我要住美麗島捷運站附近」之該斷句資訊,及該時間序號為4之「預算2000以下我要住哪間飯店」之該斷句資訊,並儲存於該儲存模組12。該遞迴分析模組13接收後即可將該時間序號為4之該斷句資訊,與該時間序號小於4之至少一個該斷句資訊進行該關聯性分析,由於前一次的語音輸入,使該儲存模組12儲存了該時間序號為1及2之該等斷句資訊,因此在此次分析過程中,該遞迴分析模組13會一併將該時間序號為1~4之各該斷句資訊一併作為條件予以分析。以前述例子而言,該遞迴分析模組13於分析對應該時間序號為4及3之該等斷句資訊時,會一併將該時間序號為2及1之該等斷句資訊作為分析條件,而以”3點以後可Check in,且位於美麗島捷運站附近,價格低於2000元之飯店”作為分析條件,最後生成「美麗島捷運站附近有三間飯店符合,分別為A飯店、B飯店及C飯店」之該回饋語句,並透過該語音整合輸出模組14以語音輸出予使用者。
承前所述,本發明之該智能語音裝置1係利用向前遞迴分析方式,也就是係以該時間序號較後產生之該斷句資訊,與該時間序號較先產生之至少一個該斷句資訊作為該關聯性分析之條件基礎,使得生成之該回饋語句具有高準確度,而更接近使用者真實想詢問的真實語義,並藉此使得該智能語音裝置具有更擬人化之分析方式。反觀習知智能語音裝置,僅能針對使用者輸入語音之部分內容,機械式地分析形成回應予使用者,且在下一次的語音輸入分析過程,並不會將先前的語音內容或是對應回覆納入作為回應生成之分析條件,除了讓回應予使用者的內容有所偏差而降低回覆精準性外,亦無法達到更為擬人之對話模式。並且,習知智能語音裝置皆將技術改良重點置於使用者語音輸入後,語音識別及語義理解兩方面之技術,讓機器得以更為精準地辨識使用者輸入的每一字詞內容,並知悉各字詞之涵義,但在語音判別、語義理解後之分析處理上,並未有任何更進一步之調整與改進,使得目前智能語音仍僅存有單次對話之使用模式,而無法建立起如對話迴圈般之互動模式。而習知隸屬於語音識別及語義理解之智能語音技術,與本發明將具不同該時間序號之複數個該斷句資訊一併進行該關聯性分析,以產出高精準之該回饋語句的技術該截然不同,係分屬智能語音技術的不同面向,非可混為一談。
進一步地,該遞迴分析模組13在選擇該時間序號較先產生之至少一個該斷句資訊時,係可依循各種設定進行遞迴資訊撈取。例如當該遞迴分析模組13針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之複數個該斷句資訊為該關聯性分析時,所處理之該等斷句資訊的數量係大於等於50個。亦即,該遞迴分析模組13係往前撈取50個或以上該斷句資訊,與該時間序號最後產生之該斷句資訊進行該關聯性分析。例如,該遞迴分析模組13係可針 對該時間序號為100之該斷句資訊,與該時間序號為40~99之所有該等斷句資訊進行該關聯性分析。藉此,係可以較為適當的條件數量進行該關聯性分析,以降低該回覆語句內容與使用者欲知悉內容之差異過大的可能性。另方面,為避免形成過重的運算負擔,亦可針對該等斷句資訊之數量上限加以限定,例如使該等斷句資訊之數量大於等於50個,且小於等於70、80或100個等。
除了前述設定外,亦可使該遞迴分析模組13撈取該等斷句資訊係以資訊容量大小為依據,例如當該遞迴分析模組13針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之複數個該斷句資訊為該關聯性分析時,所處理之該等斷句資訊的容量總和係大於等於250MB。亦即,該遞迴分析模組13係可針對容量總和為250MB之該等斷句資訊進行該關聯性分析。例如該遞迴分析模組13可針對容量加總後為300MB之所有該等斷句資訊進行該關聯性分析。藉此使該遞迴分析模組13可以較為適切之該等斷句資訊內容進行該關聯性分析,同樣地,基於資訊運算考量,亦可對容量上限予以限制,例如使該等斷句資訊之容量總和大於等於250MB,且小於等於500MB、700MB或1GB等。
除了前述設定外,亦可使該遞迴分析模組13撈取該時間序號較先產生之該等斷句資訊係以時間點為依據,當該遞迴分析模組13針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之複數個該斷句資訊為該關聯性分析時,該時間序號較先產生之複數個該斷句資訊中,該時間序號最先產生之該斷句資訊之接收時間點,與該時間序號最後產生之該斷句資訊之接收時間點,其差距大於等於一個小時。於此係以時間作為設定出發點,以選擇接收時間上較為接近之該等斷句資訊進行該關聯性分析,提升該回饋語句與使用者真意之相符性。當然亦可設定該時間序號最先產生之該斷句資訊之接收時間點, 與該時間序號最後產生之該斷句資訊之接收時間點,其差距介於1~4或5或6個小時,以防止過多資訊量造成運算負擔。
另外,針對該等斷句資訊之儲存,亦可加以設定,使該儲存模組12可自動地更替其內所儲存之資料。例如使該儲存模組12係至多存有200~500個該斷句資訊,並當該儲存模組12存有200~500個該斷句資訊時,係由該時間序號最先產生之該斷句資訊開始刪除,以提升該儲存模組12之應用效能,並達到保持該等斷句資訊內容新穎度之功效。
除了前述設定,亦可限制該儲存模組12儲存之該等斷句資訊總容量上限介於500G~1TB,並當該儲存模組12儲存之該等斷句資訊總容量到達上限時,由該時間序號最先產生之該斷句資訊開始刪除。藉此可避免儲存過舊資訊造成空間浪費,達到有效地定時清除更新資訊之功效。或當該儲存模組12內該時間序號最先產生之該斷句資訊的接收時間點,與該時間序號最後產生之該斷句資訊的接收時間點相差超過100個小時時,係刪除該時間序號最先產生之該斷句資料。於此則以時間作為自動更新之要件,藉此可定期將距離當前時間過於久遠之資料汰換,使該儲存模組12內的該等斷句資訊維持一定的新穎度。
較佳者,如第2圖所示,該遞迴分析模組13係可與一雲端資料庫2電訊連接,以藉由該雲端資料庫2內存之資料供該遞迴分析模組13生成該回饋語句,亦即,該智能語音裝置1在生成該回覆語句時,係可即時自該雲端資料庫2搜尋對應該等斷句資訊所需的資料,並據此生成該回覆語句,例如可藉由搜尋引擎技術實現之。並且,本發明之該智能語音裝置1係可以一音箱結構實施,以進一步達到互聯控制或播放音檔之功效。
請一併參閱第3圖,其係為本發明較佳實施例之方塊示意圖(三)。於此該智能語音裝置1可更包含一時間紀錄模組15,其係與該儲存模組12電訊連接,以在該儲存模組12於一設定時間後未再次儲存任何該斷句資訊時,將該儲存模組12內之該斷句資訊清除。藉此可讓使用者於經過較長時間後再和該智能語音裝置1對話時,該智能語音裝置1可重新編序與儲存該等斷句資訊,而依據更接近當前語音內容之該等斷句資訊進行關聯性分析,提升該智能語音裝置1之回復準確性,而前述之設定時間則可依據使用者自行設定。另一方面,該智能語音裝置1亦可更包含一音軌紀錄模組16,其係與該接收單元10電訊連接,供以記錄對應該等語音指令之至少一音軌資料。藉此,該智能語音裝置1於接收該等語音指令後,可依據該等語音指令之音軌記錄形成該音軌資料,進而可針對各使用者建立對應之資料,當該智能語音裝置1接收到多種分屬不同音軌之該等語音指令時,係可依據該音軌資料決定後續之關聯性分析欲如何處理,或排除誤動作。當然在此實施態樣下該智能語音裝置1亦可與該雲端資料庫電訊連接。
綜上所述,本發明之該智能語音裝置1,係透過遞迴方式,在生成該回饋語句時,將該時間序號較後產生之該斷句資訊與該時間序號較先產生之至少一個該斷句資訊予以進行該關聯性分析,進而往前遞迴撈取更多資訊,形成包裹式的資料分析,藉此係可提升該回饋語句與使用者發問真意之相符性。白話地說,此舉可使該智能語音裝置1將使用者輸入語音內容所隱含之條件一併作為生成該回饋語句之分析基礎,進而可更精準地勾稽出符合多重條件之答案,不再只是如習知技術般,僅能針對部分語音內容依據關鍵字來形成回答,進而可消除答非所問之對話情況。而關於往前遞迴撈取該斷句資訊之設定,則 可依據需求以時間、資訊量或是資訊個數作為條件,以讓該智能語音裝置1以最為適切的資訊總合內容分析生成該回饋語句。
惟,以上所述者,僅為本發明之較佳實施例而已,並非用以限定本發明實施之範圍;故在不脫離本發明之範圍下所作之均等變化與修飾,皆應涵蓋於本發明之專利範圍內。
1‧‧‧智能語音裝置
10‧‧‧接收單元
11‧‧‧編序單元
12‧‧‧儲存模組
13‧‧‧遞迴分析模組
14‧‧‧語音整合輸出模組

Claims (5)

  1. 一種遞迴式整合對話之智能語音裝置,包含:一接收單元,供以接收複數語音指令;一編序單元,與該接收單元電訊連接,以將各該語音指令編程為至少一斷句資訊,並針對該斷句資訊依據接收時間點分別定義一時間序號;一儲存模組,依據該時間序號分別儲存該斷句資訊;其中,該儲存模組係至多存有200~500個該斷句資訊,並當該儲存模組存有200~500個該斷句資訊時,係由該時間序號最先產生之該斷句資訊開始刪除;一遞迴分析模組,與該儲存模組電訊連接供以接收各該斷句資訊,並針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之至少一個該斷句資訊為一關聯性分析,並依據該關聯性分析生成一回饋語句;其中,該關聯性分析係指以各不同之該時間序號之該斷句資訊作為檢索對應內容之條件,予以媒合撈取對應之回覆資訊以生成該回饋語句;及一語音整合輸出模組,與該遞迴分析模組電訊連接,供以接收該回饋語句並以語音方式輸出。
  2. 一種遞迴式整合對話之智能語音裝置,包含:一接收單元,供以接收複數語音指令;一編序單元,與該接收單元電訊連接,以將各該語音指令編程為至少一斷句資訊,並針對該斷句資訊依據接收時間點分別定義一時間序號;一儲存模組,依據該時間序號分別儲存該斷句資訊;其中,該儲存模組儲存之該等斷句資訊總容量上限介於500G~1TB,並當該儲存模組儲存 之該等斷句資訊總容量到達上限時,由該時間序號最先產生之該斷句資訊開始刪除;一遞迴分析模組,與該儲存模組電訊連接供以接收各該斷句資訊,並針對該時間序號較後產生的該斷句資訊,與該時間序號較先產生之至少一個該斷句資訊為一關聯性分析,並依據該關聯性分析生成一回饋語句;其中,該關聯性分析係指以各不同之該時間序號之該斷句資訊作為檢索對應內容之條件,予以媒合撈取對應之回覆資訊以生成該回饋語句;及一語音整合輸出模組,與該遞迴分析模組電訊連接,供以接收該回饋語句並以語音方式輸出。
  3. 如申請專利範圍第1或2項所述之遞迴式整合對話之智能語音裝置,其中,該遞迴分析模組係與一雲端資料庫電訊連接,以藉由該雲端資料庫內存之資料供該遞迴分析模組生成該回饋語句。
  4. 如申請專利範圍第1或2項所述之遞迴式整合對話之智能語音裝置,更包含:一時間紀錄模組,其係與該儲存模組電訊連接,以在該儲存模組於一設定時間後未再次儲存任何該斷句資訊時,將該儲存模組內之該斷句資訊清除。
  5. 如申請專利範圍第1或2項所述之遞迴式整合對話之智能語音裝置,更包含:一音軌紀錄模組,與該接收單元電訊連接,供以記錄對應該等語音指令之至少一音軌資料。
TW107129636A 2018-08-24 2018-08-24 遞迴式整合對話之智能語音裝置 TWI682292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107129636A TWI682292B (zh) 2018-08-24 2018-08-24 遞迴式整合對話之智能語音裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107129636A TWI682292B (zh) 2018-08-24 2018-08-24 遞迴式整合對話之智能語音裝置

Publications (2)

Publication Number Publication Date
TWI682292B true TWI682292B (zh) 2020-01-11
TW202009747A TW202009747A (zh) 2020-03-01

Family

ID=69942955

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107129636A TWI682292B (zh) 2018-08-24 2018-08-24 遞迴式整合對話之智能語音裝置

Country Status (1)

Country Link
TW (1) TWI682292B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统
CN106550156A (zh) * 2017-01-23 2017-03-29 苏州咖啦魔哆信息技术有限公司 一种基于语音识别的人工智能客服系统及其实现方法
TW201814556A (zh) * 2016-10-11 2018-04-16 香港商阿里巴巴集團服務有限公司 資訊匹配方法及相關裝置
US20180233141A1 (en) * 2017-02-14 2018-08-16 Microsoft Technology Licensing, Llc Intelligent assistant with intent-based information resolution

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统
TW201814556A (zh) * 2016-10-11 2018-04-16 香港商阿里巴巴集團服務有限公司 資訊匹配方法及相關裝置
CN106550156A (zh) * 2017-01-23 2017-03-29 苏州咖啦魔哆信息技术有限公司 一种基于语音识别的人工智能客服系统及其实现方法
US20180233141A1 (en) * 2017-02-14 2018-08-16 Microsoft Technology Licensing, Llc Intelligent assistant with intent-based information resolution

Also Published As

Publication number Publication date
TW202009747A (zh) 2020-03-01

Similar Documents

Publication Publication Date Title
CN108446290B (zh) 流式实时对话管理
CN106611597B (zh) 基于人工智能的语音唤醒方法和装置
US10276160B2 (en) Automated assistant for user interaction via speech
CA2929018C (en) Natural expression processing method, processing and response method, device and system
WO2018036555A1 (zh) 会话处理方法及装置
CN106407178A (zh) 一种会话摘要生成方法及装置
CN110211563A (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
CN109741754A (zh) 一种会议语音识别方法及系统、存储介质及终端
CN108009521A (zh) 人脸图像匹配方法、装置、终端及存储介质
CN106951468A (zh) 对话生成方法及装置
US20140172419A1 (en) System and method for generating personalized tag recommendations for tagging audio content
Kim et al. Expressive text-to-speech using style tag
CN109509470A (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
Xu et al. Deep reinforcement polishing network for video captioning
CN108985358A (zh) 情绪识别方法、装置、设备及存储介质
CN108899013A (zh) 语音搜索方法、装置和语音识别系统
Baur et al. eXplainable cooperative machine learning with NOVA
KR102076793B1 (ko) 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치
CN111651572A (zh) 一种多领域任务型对话系统、方法和终端
CN107943914A (zh) 语音信息处理方法和装置
CN114880441B (zh) 视觉内容生成方法、装置、系统、设备和介质
US20220076677A1 (en) Voice interaction method, device, and storage medium
US10762902B2 (en) Method and apparatus for synthesizing adaptive data visualizations
CN105677636A (zh) 智能问答系统的信息处理方法及信息处理装置
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质