TW201921267A - 基於機器翻譯的自動生成重述以產生一對話式代理人的方法及系統 - Google Patents

基於機器翻譯的自動生成重述以產生一對話式代理人的方法及系統 Download PDF

Info

Publication number
TW201921267A
TW201921267A TW107125138A TW107125138A TW201921267A TW 201921267 A TW201921267 A TW 201921267A TW 107125138 A TW107125138 A TW 107125138A TW 107125138 A TW107125138 A TW 107125138A TW 201921267 A TW201921267 A TW 201921267A
Authority
TW
Taiwan
Prior art keywords
restatement
model
restatements
plural
machine translation
Prior art date
Application number
TW107125138A
Other languages
English (en)
Other versions
TWI684881B (zh
Inventor
安柯 古普塔
提摩西 達利
圖拉姆 班
Original Assignee
美商奧誓公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商奧誓公司 filed Critical 美商奧誓公司
Publication of TW201921267A publication Critical patent/TW201921267A/zh
Application granted granted Critical
Publication of TWI684881B publication Critical patent/TWI684881B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本發明係關於產生一對話式代理人。在一實例中,可從一開發者接收複數輸入語句。獲得一重述模型,該重述模型基於機器翻譯產生。對於該複數輸入語句中的每一個,基於該重述模型產生該輸入語句的一或多個重述。對於該複數輸入語句中的每一個,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述。基於該複數輸入語句和該選擇重述產生該對話式代理人。

Description

基於機器翻譯的自動生成重述以產生一對話式代理人的方法及系統
本發明係關於一種用於網際網路服務的方法、系統和程式設計,且特別是有關於一種基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統和程式設計。
對話式代理人的時代已經來到:每個主要的行動作業系統現在都帶有對話式代理人,其可以用於與用戶通訊。此外,許多企業通常不提供即時聊天客戶支援或服務操作者來幫助他們的網際網路客戶,在這種情形下,可以使用對話式代理人可為自動對話機器人或聊天機器人與客戶通信,聊天機器人可為電腦程式,其被設計成透過聽覺或文本方法模擬與一或多個人類用戶進行智慧對話以用於各種實際應用例如個人化服務或資訊獲取。
為了構建對話式代理人,關鍵挑戰之一是具有用於構建和測試代理人/機器人之有效性的語句訓練資料。為了理解用戶的口頭或鍵入命令,機器人/代理人產品使用自然語言理解(NLU)模組來理解用戶的命令。為了創建這樣的NLU模組,有必要產生訓練資料,該訓練資料可以包括範例語句,每個範例語句都標有正確的意圖。對於用戶已在使用的產品功能,可收集真實用戶的互動資料以作為訓練資料並對其標記,但是對於新產品或新產品功能,將沒有真實用戶的互動範例,因此必須先創建這樣的語句資料,然後標記它,這種資料創建過程非常耗時,是擴展NLU模型的主要瓶頸。
因此,需要提供一種用於產生對話式代理人的改進方案,以解決上述問題。
本發明係關於一種用於網際網路服務的方法、系統和程式設計,且特別是有關於一種基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統和程式設計。
在一實例中,揭示實施於一機器上之方法,該機器具備至少一處理器、一儲存裝置及一通訊平台,該通訊平台能連線到一網路。可以從一開發者接收複數輸入語句。獲得一重述模型,該重述模型基於機器翻譯產生。對於該複數輸入語句中的每一個,基於該重述模型產生該輸入語句的一或多個重述。對於該複數輸入語句中的每一個,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述。基於該複數輸入語句和該選擇重述產生該對話式代理人。
在另一實例中,揭示一系統,其具備至少一處理器、一儲存裝置及一通訊平台,該通訊平台連線至一網路,該系統用於產生一對話式代理人。該系統包括:一重述產生器,配置成用以從一開發者接收複數輸入語句,獲得基於機器翻譯產生的一重述模型,並且針對該複數輸入語句中的每一個基於該重述模型產生該輸入語句的一或多個重述;一重述資料選擇器,配置成用以對於該複數輸入語句中的每一個,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述;及一對話式代理人產生器,配置成用以基於該複數輸入語句和該選擇重述產生該對話式代理人。
其他概念係關於用以實施本發明產生對話式代理人之軟體。一與本概念相符之軟體產品,包含至少一非暫態機器可讀取媒體,以及該媒體承載之資訊。該資訊可為可執行之程式碼資料、與該可執行程式碼資料相關之參數,及/或與一使用者、一要求、內容相關之資訊,或與一社群相關之資訊等。
在一實例中,揭示一非暫態機器可讀取媒體,該媒體具有記錄於其上的資料,該資料用途為產生一對話式代理人。經該機器讀取時,該媒體驅使該機器執行以下步驟:從一開發者接收複數輸入語句;獲得一重述模型,該重述模型基於機器翻譯產生;對於該複數輸入語句中的每一個,基於該重述模型產生該輸入語句的一或多個重述;對於該複數輸入語句中的每一個,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述;及基於該複數輸入語句和該選擇重述產生該對話式代理人。
其他各種創新功能將於實施方式一節詳細說明。對於其中之部分功能,所屬技術領域技術人員可藉由仔細閱讀後續說明與附圖而理解其內容,或可藉由產出或實施前述實例而習得。本發明之各種創新功能,可於操作或利用後續詳細實例描述的方法、工具、組合之不同面向之後成功落實及完成。
以下詳細實施方式說明將透過實例呈現多項具體細節,以利充分理解相關發明之內涵。然而,對所屬技術領域技術人員而言,本發明顯無須前述具體細節即可實施。其他實例則以相對高階、無細節之形式描述公知方法、程序、系統、元件及/或電路,以避免呈現本發明不必要之晦澀面向。
本發明描述了基於機器翻譯的自動生成重述以產生對話式代理人的方法、系統和程式設計方面,本發明所揭露的方法和系統旨在通過產生用於快速構建和訓練NLU模型的訓練資料以產生有效的對話式代理人。
為了構建對話式代理人,關鍵挑戰之一是具有用於構建和測試代理人/機器人的有效性的語句訓練資料。首次啟動此類代理人/機器人(bot)產品或在此類產品上啟動新功能時,有必要為自然語言理解模組添加對此新功能的支援,這可通過創建範例語句作為訓練資料集的一部分來完成。為了理解用戶的口頭或鍵入命令,機器人/代理人產品使用NLU模組來理解用戶的命令。該模組可以將用戶之自然語言命令的文本形式之「語句」轉換為可以反映用戶「意圖」的可操作資料。為了創建這樣的NLU模組,有必要產生訓練資料,該訓練資料可以包括範例語句,每個範例語句都標有正確的意圖。對於用戶已在使用的產品功能,可收集真實用戶的互動資料以作為訓練資料並對其標記,但是對於新產品或新產品功能,將沒有真實用戶的互動範例,因此必須先創建這樣的語句資料,然後標記它,這種資料創建過程非常耗時,是擴展NLU模型的主要瓶頸。
用詞「對話式代理人」、「代理人」 、「機器人」和「聊天機器人」於文中可替換使用。
本發明使用自動重述系統解決該訓練資料創建瓶頸,對於開發者鍵入的每個範例語句,本揭露的系統可以產生數十到數百個重述,其可為使用不同單詞的語義上等同的語句。這些語句呈現給開發者,開發者只要選擇最適合添加到模型的語句,將使訓練資料產生過程更加容易和快速,並有助於確保訓練資料集中具有良好的多樣性,進而提高對話式代理人的模型品質。
在一實施例中,在用於創建訓練資料的使用者介面中,當機器人/代理人開發者輸入新的範例語句時,語句被發送到重述產生器。 重述產生器可以將該語句與重述模型、文法規則以及多樣性模型結合使用以產生語句的重述。通過使用者介面將重述返回給機器人開發者,其中機器人開發者可以通過簡單地單擊按鈕將它們合併到NLU模型的構建中。
根據各種實施例,重述產生系統可以通過重述產生模型以及字典、文法規則以及多樣性模型來加強,這些重述產生模型可以利用各種機器學習和機器翻譯技術以及詞典和短語詞典形式的訓練資料、網頁爬行資料和輸入資料來創建。
因此,本發明利用自動重述產生系統幫助機器人開發者以最少的努力創建更好和更完整/多樣化的訓練資料。本揭露的系統自動產生單個範例語句的語義等效變化型,機器人開發者可以直接將其用作訓練資料,例如給定「我想預訂航班」的輸入語句,重述生成可以產生以下數百個選擇:我希望預訂航班、我想預訂飛機、我想預訂一隻蒼蠅、我想要預訂一架飛機、我想預訂一個空氣等。
接受自動產生的重述比用人工創建它們的工作少得多,因此,提供如本發明中所揭露之自動重述的NLU模型創建工具可以比未提供取得更好的投資回報。
其他各種創新功能將於實施方式一節詳細說明。對於其中之部分功能,所屬技術領域技術人員可藉由仔細閱讀後續說明與附圖而理解其內容,或可藉由產出或實施前述實例而習得。本發明之各種創新功能,可於操作或利用後續詳細實例描述的方法、工具、組合之不同面向之後成功落實及完成。
第一圖係根據本發明一實施例所繪製之基於機器翻譯的自動生成重述以產生對話式代理人之一網路環境範例高階圖示。如第一圖所示,網路環境範例100包括一或多個用戶110、網路120、對話式代理人130、基於重述的對話式代理人訓練引擎140、對話資料庫150和內容源160。網路120可為單個網路或不同網路的組合,例如網路120可為區域網路(LAN)、廣域網路(WAN)、公共網路、私有網路、專有網路、公共電話交換網路(PSTN)、網際網路、無線網路、虛擬網路或其任何組合。網路120還可以包括各種網路存取點,例如有線或無線存取點,例如基站或網際網路交換點120-1 ... 120-2,資料源可以通過它們連接到網路120以便通過網路120傳輸資訊。
用戶110可為多種型態,例如經由桌上型電腦110-4、膝上型電腦110-3、機動車輛110-2中的內置裝置或者行動裝置110-1連接到網路120的用戶。在一實施例中,用戶110可以連接到網路120並且能夠通過在用戶可穿戴設備(例如眼鏡、手錶等)內實現的有線或無線技術和相關操作系統與對話式代理人130和基於重述的對話式代理人訓練引擎140互動。
用戶(例如用戶110-1)可以透過網路120與對話式代理人130和基於重述的對話式代理人訓練引擎140通過使用者介面進行通訊。
對話式代理人130可以與用戶通訊以實現與用戶的有效、自然任務式的互動,例如通過與用戶的引導對話來確定用戶的請求和任務並採取相應的任務動作。在線對話又稱為聊天會話可以允許用戶接收查詢的答案並從對話式代理人130接收資訊,基於來自用戶的單個輸入語句,對話式代理人130可以通過單個輸入語句確定預估為用戶請求的多個任務。對話式代理人130可以透過網路120儲存和存取儲存在對話資料庫150中的資訊。對話資料庫150中的資訊可以由一或多個不同的應用程式(圖未示)產生,這些應用程式可以在對話式代理人130上運行、在對話式代理人130的後端運行或者在完全獨立系統上運行,該完全獨立系統可連接到網路120、存取來自不同來源的資訊、分析資訊、產生結構化資訊並且將產生之資訊儲存在對話資料庫150中。
對話資料庫150可以包括用於基於重述的對話式代理人訓練引擎140之各種對話以訓練對話式代理人,該對話可以基於用戶和人工代理人之間的真實對話和/或用戶與對話式代理人130之間的真實對話以產生。
在一實施例中,基於重述的對話式代理人訓練引擎140可以從開發者接收複數輸入語句以用於構建對話式代理人, 基於重述的對話式代理人訓練引擎140可以獲得基於機器翻譯產生的重述模型,例如在以原始語言產生文本、基於機器翻譯將文本翻譯成其他語言並基於機器翻譯將文本翻譯回原始語言之後,基於重述的對話式代理人訓練引擎140可以產生基於機器翻譯的重述資料作為訓練資料用於訓練重述模型。
在一實施例中,基於重述的對話式代理人訓練引擎140可以基於重述模型為多個輸入語句中的每一個產生輸入語句的一或多個重述。基於重述的對話式代理人訓練引擎140可以針對多個輸入語句中的每一個,基於來自開發者的指令選擇一或多個重述中的至少一個以產生選擇重述,並基於該複數輸入語句和選擇重述產生對話式代理人。
在範例性網路環境100中的內容源160包括多個內容源160-1、160-2 ...... 160-3,內容源160可對應於無論是個人、企業或者諸如USPTO.gov的組織實體管理的網站,諸如cnn.com和Yahoo.com之內容提供者,諸如Facebook的社交網路網站或者諸如tweeter或部落格之內容提供源。對話式代理人130和基於重述的對話式代理人訓練引擎140可以存取來自任何內容源160-1、160-2 ...... 160-3的資訊。
第二圖係根據本發明一實施例所繪製之基於機器翻譯的自動生成重述以產生對話式代理人之另一網路環境範例200高階圖示。在此實施例中,除了將基於重述的對話式代理人訓練引擎140用作對話式代理人130的後端系統之外,網路環境範例200和第一圖中的網路環境範例100相同。
第三圖係根據本發明一實施例所繪製之訓練或產生對話式代理人的各種資料範例。如第三圖所示,用於訓練對話式代理人的資料300可以包括真實用戶代理人對話310、開發者輸入語句320和基於模型的重述資料330,基於模型的重述資料330可以基於下列方式產生:文法規則332、機器翻譯模型 334、Word2Vec(詞向量)模型336和N元語法(N-gram)語言模型338等。
第四圖係根據本發明一實施例所繪製之產生對話式代理人的開發者之使用者介面範例。如第四圖所示,在開發者輸入語句「我想預訂航班」之後,本揭露的系統可以產生輸入語句的複數建議重述,例如「我希望預訂航班」、「我想預訂飛機」、「我想預訂一隻蒼蠅」、「我想要預訂一架飛機」、「我想預訂一個空氣」等。一旦這些建議重述呈現給開發者,開發者可以選擇一或多個與開發者輸入之原始語句的意圖相匹配的重述。以這種方式,開發者可以利用本揭露的系統來獲得基於機器翻譯自動產生的大量重述,可以僅從建議重述中選擇,而不是一一鍵入重述。在一實施例中,開發者可以配置本揭露的系統以直接為開發者選擇建議重述,例如基於最高評價的重述或者可信度高於門檻值的重述。這些選擇的重述以及最初開發者輸入的語句可以用於訓練對話式代理人。
在第四圖所示的使用者介面(UI)中,機器人開發者與機器人構建介面互動,在該UI中,開發者輸入一個語句,該語句被發送到基於重述的對話式代理人訓練引擎140以產出數百個語義等效的重述,其被顯示給開發者作為「建議重述」供開發者選擇以訓練NLU模型。
第五圖係根據本發明一實施例所繪製之基於重述的對話式代理人訓練引擎140之範例示意圖。如第五圖所示,在此範例中基於重述的對話式代理人訓練引擎140包括代理人產生請求分析器510、重述產生器520、一或多個代理人模型505、一或多個重述模型515、整合訓練資料庫525、重述資料選擇器530、重述模型產生器535、訓練資料整合器540、一或多個自然語言理解模型545、意圖語句相關器550和對話式代理人產生器560。
在此範例中的代理人產生請求分析器510可以接收用於產生對話式代理人的代理人產生請求,該請求可以來自發布者(圖未示)、開發者505、對話式代理人130(用於重新訓練代理人)和/或直接來自用戶。代理人產生請求分析器510可以分析該請求以確定代理人相關資訊,代理人相關資訊可以包括與代理人相關的資訊,例如代理人的網域、代理人的主題、關於代理人請求之發布者的資訊、關於將與代理人進行對話之用戶的資訊、關於開發代理人之開發者的資訊等。代理人產生請求分析器510可以將代理人相關資訊發送到重述產生器520以產生重述。
在此範例中的重述產生器520可以從代理人產生請求分析器510接收代理人相關資訊,並且識別將產生重述的開發者。重述產生器520可以從開發者獲得輸入語句。基於代理人相關資訊,重述產生器520可以選擇代理人模型505之一用於分析輸入語句,例如對於每個輸入語句,重述產生器520可以解析它並基於所選擇的代理人模型標記解析的部分。重述產生器520可以檢索重述模型515之一並為每個輸入語句產生一或多個重述。在一實施例中,可以基於機器翻譯例如重述模型產生器535產生所檢索的重述模型。重述產生器520可以將產生的重述發送到重述資料選擇器530以供選擇。
在此範例中的重述資料選擇器530可以從重述產生器520接收所產生的重述,並且基於來自開發者505的指令選擇所產生的重述中的一或多個,例如重述資料選擇器530可以發送所產生的重述給開發者505以供檢視。如第四圖所示,在呈現一些建議重述後,開發者505可以通過點擊一些相應的按鈕來選擇它們中的一或多個,在從開發者505獲得指令時,例如經由使用者介面接收開發者505之點擊動作,重述資料選擇器530可以選擇所產生的一或多個重述。接著,重述資料選擇器530可以將與所選擇的重述相關之重述資料發送到訓練資料整合器540以產生整合的訓練資料。
在此範例中的訓練資料整合器540可以從重述資料選擇器530接收重述資料,訓練資料整合器540還可以檢索儲存在對話資料庫150中的真實對話。在一情況下,檢索到的真實對話可為用戶與對話式代理人之間之前的對話,該對話式代理人具有與要產生的對話式代理人相同或相似的網域。在另一情況下,檢索到的真實對話可為用戶與對話式代理人之間之前的對話,該對話式代理人具有與要產生的對話式代理人具有相同或相似的發佈者或者是具有與要產生的對話式代理人具有相同或相似的發佈者開發人員。在其它情況下,檢索到的真實對話可為對話式代理人與用戶之間之前的對話,該用戶與本次要產生對話式代理人與之對話的用戶相同或相似。基於重述資料和/或檢索到的真實對話,訓練資料整合器540可以產生用於訓練重述模型的整合訓練資料,訓練資料整合器540可以將整合訓練資料儲存到整合訓練資料庫525中。
在一實施例中,可以理解的是當在對話資料庫150中沒有與對話式代理人相關的真實對話時,訓練資料整合器540可以僅基於來自重述資料選擇器530的重述資料產生整合訓練資料。訓練資料整合器540可以將整合訓練資料發送到意圖語句相關器550以產生意圖語句相關性。
在此範例中的意圖語句相關器550可以從訓練資料整合器540接收整合訓練資料,並且獲得自然語言理解(NLU)模型545之一。基於NLU模型和整合的訓練資料,意圖語句相關器550可以產生輸入語句和用戶意圖之間的意圖語句相關性,使得一旦對話式代理人接收到來自用戶的輸入語句,對話式代理人就可以理解對應於輸入語句之用戶的用戶意圖。意圖語句相關器550可以將所產生的意圖語句相關性發送到對話式代理人產生器560以產生對話式代理人。
在此範例中的對話式代理人產生器560可以從意圖語句相關器550接收所產生的意圖語句相關性,並且基於意圖語句相關性產生對話式代理人。可以理解的是對話式代理人也基於關於網路、開發者/發布者以及與代理人相關的其他元資料的資訊產生。對話式代理人產生器560可以回應代理人產生請求將產生對話式代理人回送給請求者。
在此範例中的重述模型產生器535可以檢索儲存在整合訓練資料庫525中的整合訓練資料,並基於整合的訓練資料產生或更新重述模型,例如重述模型產生器535可以基於整合訓練資料和機器翻譯技術來重新訓練重述模型。
第六圖係根據本發明一實施例所繪製之基於重述的對話式代理人訓練引擎例如第五圖的基於重述的對話式代理人訓練引擎140之範例流程圖。在602,接收產生對話式代理人的請求。在604,分析該請求以確定代理人相關信息。在606,獲得來自開發者的輸入語句。在608,檢索基於機器翻譯的重述模型。在610,例如基於機器翻譯的重述模型,產生輸入語句的一或多個重述。在612,發送產生的重述給開發者以供檢視。
在614,經由使用者介面從開發者獲得指令。在616,基於指令選擇重述資料。在618,基於儲存的對話產生整合訓練資料。在620,基於訓練資料產生或更新一或多個重述模型。在622,基於NLU模型產生意圖語句相關性。在624,基於相關性產生對話式代理人。
第七圖係根據本發明一實施例所繪製之重述產生器520之範例示意圖。如第七圖所述,在此範例中的重述產生器520包括語句解析器710、語句標記器720、重述確定器730、重述分數產生器740、重述排序器750、文法校正器760、重述擴展單元770、一或多個儲存的Word2Vec模型772以及一或多個儲存的語言模型774。
在此範例中的語句解析器710可以從開發者獲得輸入語句並將語句解析為多個部分。語句解析器710可以將解析的部分發送到語句標記器720以標記這些部分。
在此範例中的語句標記器720可以從語句解析器710接收解析的部分。語句標記器720還可以從代理人產生請求分析器510接收代理人相關資訊,並基於代理人相關資訊選擇代理人模型,基於所選擇的代理人模型和解析的部分,語句標記器720可以標記每個解析的輸入語句部分以產生重述。接著,語句標記器720可以將標記的部分發送到重述確定器730以確定重述。
在此範例中的重述確定器730可以從語句標記器720接收標記的部分並獲得所選擇的代理人模型。重述確定器730還可以檢索重述模型,例如基於機器翻譯的重述模型。基於檢索到的重述模型,重述確定器730可以確定每個輸入語句的一或多個重述。重述確定器730可以將所確定的重述發送到重述分數產生器740以產生可信度分數。
在此範例中的重述分數產生器740可以從重述確定器730接收所確定的重述並獲得重述模型。基於重述模型,重述分數產生器740可以產生每個重述的可信度分數,其中可信度分數可以表示該重述具有與輸入語句相同的用戶意圖的可信度。重述分數產生器740可以將重述及可信度分數發送到重述排序器750以進行排序。
在此範例中的重述排序器750可以從重述分數產生器740接收重述及其可信度分數,並基於它們各自的可信度分數對重述進行排序。依此,重述排序器750可以產生重述的排序列表並將此排序列表發送到文法校正器760以進行文法校正。
在此範例中的文法校正器760可以校正排序重述中的文法錯誤(如果有的話),然後將校正的重述發送到重述擴展單元770。在此範例中的重述擴展單元770可以基於一些多樣性模型例如Word2Vec模型772、語言模型774等擴展排序重述,在擴展之後,排序重述將包括比重述確定器730所確定的重述更多的變化。重述擴展單元770可以輸出擴展和排序重述到例如重述資料選擇器530用於基於開發者指令的重述選擇。
第八圖係根據本發明一實施例所繪製之重述產生器例如第七圖的重述產生器520之範例流程圖。在802 ,從開發者獲得輸入語句。在804,輸入語句被解析成複數個部分。在806,獲得與要構建之代理人相關的代理人模型。在808,解析的輸入語句的複數個部分被標記化。在810,檢索基於機器翻譯的重述模型。
在812,確定輸入語句的一或多個重述。在814,針對每個重述產生可信度分數。在816,根據所產生的可信度分數排序重述。在818,校正排序重述中的文法錯誤。在820,基於一些多樣性模型擴展排序重述。在822,產生並發送輸出重述以供選擇。
第九圖係根據本發明一實施例所繪製之重述模式產生器535之範例示意圖。如第九圖所示,在此範例中的重述模型產生器535包括N元語法(N-gram)特徵產生器910、一或多個儲存的語言模型915、重述模型更新選擇器920、一或多個儲存的文法規則905、基於機器翻譯的訓練資料收集器930、一個或更多儲存的機器翻譯模型935以及統計重述模型訓練引擎940。
在此範例中的N元語法特徵產生器910可以從整合訓練資料庫525獲得整合訓練資料,並且選擇語言模型915中的一個。基於所選擇的語言模型,N元語法特徵產生器910可以產生來自整合訓練資料的N元語法特徵,例如與訓練資料產生的2元、3元相關的功能。 N元語法特徵產生器910可以將N元語法特徵發送到重述模型更新選擇器920以選擇要更新的重述模型。
在此範例中的重述模型更新選擇器920可以從N元語法特徵產生器910接收N元語法特徵,並選擇一或多個重述模型515以進行更新,例如當來自訓練資料的N元語法特徵指示有許多與重述模型相關的新訓練資料可用以及/或者重述模型很久未重新訓練時,重述模型更新選擇器920可以選擇用於更新的重述模型。重述模型更新選擇器920可以檢索所選擇的重述模型並將其發送到統計重述模型訓練引擎940以進行重新訓練。可以理解的是,在一實施例中,例如當多個訓練資料與任何重述模型515無關時,重述模型更新選擇器920可以決定產生新的重述模型。接著,重述模型更新選擇器920可以通知相應地統計重述模型訓練引擎940相應地產生新的重述模型。
在此範例中的統計重述模型訓練引擎940可以接收所選擇的重述模型或者從重述模型更新選擇器920接收產生新重述模型的指令,並且接收訓練資料的N元語法特徵以用於訓練或產生重述模型。 在一實施例中,統計重述模型訓練引擎940還可以獲得用於訓練重述模型的一些文法規則。 在另一實施例中,統計重述模型訓練引擎940可以基於機器翻譯模型935獲得由基於機器翻譯的訓練資料收集器930收集的更多訓練資料。
在此範例中的基於機器翻譯的訓練資料收集器930可以基於一或多個機器翻譯模型935收集更多訓練資料,例如,基於機器翻譯模型,基於機器翻譯的訓練資料收集器930可以翻譯從第一語言到第二語言的文本,接著將其翻譯回來,以便產生更多重述以作為訓練重述模型的訓練資料。不同機器翻譯模型對應於不同語言可具有不同翻譯方案和/或具有不同翻譯速度、閾值等。在一實施例中,基於機器翻譯的訓練資料收集器930可以基於重述模型選擇機器翻譯模型。基於機器翻譯的訓練資料收集器930可以將基於機器翻譯的訓練資料發送到統計重述模型訓練引擎940以訓練重述模型。
在此範例中的統計重述模型訓練引擎940可以基於從N元語法特徵產生器910和基於機器翻譯的訓練資料收集器930獲得的訓練資料並且基於文法規則905訓練重述模型。在訓練之後,統計重述模型訓練引擎940可以儲存訓練的重述模型以在對話式代理人產生期間產生未來重述。
第十圖係根據本發明一實施例所繪製之重述模式產生器例如第九圖的重述模型產生器535之範例流程圖。在1002,獲得文法規則。在1004,獲得整合訓練資料。在1006,獲得語言模型。在1008,基於語言模型從整合訓練資料產生N元語法特徵。
在1010,基於機器翻譯模型收集更多訓練資料。在1012,選擇重述模型以進行更新。在1014,基於機器翻譯訓練重述模型。在1016,儲存基於機器翻譯的重述模型。
第十一圖係根據本發明一實施例所繪製之基於機器翻譯的訓練資料收集器930之範例示意圖。如第十一圖所示,在此範例中的基於機器翻譯的訓練資料收集器930包括基於原始語言的文本產生器1110、N個機器翻譯器1122、1128、N個逆機器翻譯器1132、1138以及基於原始語言的重述獲取器1140。
在此範例中的基於原始語言的文本產生器1110可以以原始語言產生文本,原始語言可以由管理員預先確定,或者可以基於要構建的對話式代理人動態地確定。基於原始語言的文本產生器1110可以根據要構建的對話式代理人和/或根據要訓練的重述模型產生不同主題的各種文本。基於原始語言的文本產生器1110可以將產生的文本發送到N個機器翻譯器1122、1128以進行機器翻譯。基於原始語言的文本產生器1110還可以將產生的文本發送到基於原始語言的重述獲取器1140以產生重述。
在此範例中的N個機器翻譯器1122、1128中的每一個可以從基於原始語言的文本產生器1110接收以原始語言產生的文本,並且基於機器翻譯將它們翻譯成不同的語言,而無需人為輸入,例如機器翻譯器1( 1122)可以根據第一機器翻譯模型基於機器翻譯將文本從原始語言翻譯成第一語言;機器翻譯器N (1128)可以根據第二機器翻譯模型基於機器翻譯將文本從原始語言翻譯成第二語言。可以理解的是,在一些實施例中N個可以為一個。也可以理解的是,N個機器翻譯器中的一些可以將文本翻譯成相同的語言。在機器翻譯之後,N個機器翻譯器1122、1128中的每一個可以將翻譯後的文本發送到N個反向機器翻譯器1132、1138以進行保留翻譯。
在此範例中的N個反向機器翻譯器1132、1138中的每一個可以從相應的機器翻譯器接收翻譯語言的翻譯文本,並且可以基於機器翻譯模型將翻譯後的文本從翻譯語言翻譯回原始語言,例如反向機器翻譯器1 (1132)可以從機器翻譯器1 (1122)接收翻譯的文本,並且基於機器翻譯將翻譯的文本翻譯成原始語言;反向機器翻譯器N (1138)可以從機器翻譯器N( 1128)接收翻譯後的文本,並基於機器翻譯將翻譯後的文本翻譯成原始語言。在反向機器翻譯之後,N個反向機器翻譯器1132、1138中的每一個可以將反向翻譯的文本發送到基於原始語言的重述獲取器1140以用於產生重述。
在此範例中的基於原始語言的重述獲取器1140可以從N個反向機器翻譯器1132、1138接收正被翻譯的文本。基於原始語言的重述獲取器1140還可以從基於語言的文本產生器1110接收原始語言的原始文本。可以理解的是,在將文本翻譯成另一種語言然後翻譯回原始語言之後,結果文本可能與翻譯前的原始文本不同,但可能是原始文本的重述。藉此,基於原始語言的重述獲取器1140可以獲得由基於原始語言的文本產生器1110以原始語言產生的每個原始文本的重述。基於原始語言的重述獲取器1140可以過濾基於機器翻譯的重述資料並將它們發送到統計重述模型訓練引擎940作為用於訓練重述模型的更多訓練資料。
第十二圖係根據本發明一實施例所繪製之基於機器翻譯的訓練資料收集器例如第十一圖的基於機器翻譯的訓練資料收集器930之範例流程圖。在1202,產生原始語言的文本。在1204,檢索機器翻譯模型。在1206,基於機器翻譯將文本翻譯成其他語言。在1208,通過機器翻譯將文本翻譯回原始語言。在1210,產生基於機器翻譯的重述資料以訓練將用於產生對話式代理人的重述模型。
可以理解的是,可以根據本發明的不同實施例來改變第六圖、第八圖、第十圖和第十二圖中所示之步驟的順序。
第十三圖係行動裝置架構圖,該行動裝置可用於實施整合本發明之專用系統。在此範例中,在其上呈現並與對話式代理人進行對話之使用者介面的用戶設備是行動裝置1300,但其包括但不限於智慧型手機、平板電腦、音樂播放器、掌上遊戲機、全球定位系統(GPS)接收器和穿戴式裝置(例如眼鏡、手錶等),或任何其他形狀因素。此範例中的行動裝置1300包括一或多個中央處理器(CPU)1340、一或多個圖形處理器(GPU)1330、顯示器1320、記憶體1360、通訊平台1310諸如無線通訊模組、儲存裝置1390以及一或多個輸入/輸出(I / O)裝置1350,任何其他合適的元件包括但不限於系統匯流排或控制器(圖未示),也可以包括在行動裝置1300中。如第十三圖所示,行動作業系統1370例如iOS、Android、Windows Phone等和一或多個應用程式1380可以從儲存裝置1390加載到記憶體1360中以便由CPU 1340執行。應用程式1380可以包括瀏覽器或者能在行動裝置1300接收到從對話式代理人傳來之對話響應的任何其他合適的行動應用程式。用戶與對話式代理人的互動可以通過I/O裝置350實現並且例如經由網路120提供給基於重述的對話式代理人訓練引擎140和/或系統100和200的其他元件 。
為了實現本揭露中描述的各種模組、單元及其功能,電腦硬體平台可以用作本揭露中描述的一或多個元件的硬體平台(例如基於重述的對話式代理人訓練引擎140、對話式代理人130和/或根據第一圖到第十二圖所描述之系統100和200的其他元件)。上述電腦裝置之硬體元件、作業系統及程式語言皆符合一般規格,且預設所屬技術領域技術人員已熟知上述軟硬體項目,因此可如本發明所述,將其應用於基於機器翻譯的自動生成重述以產生對話式代理人之上。具備使用者介面之電腦可作為個人電腦或其他類型之工作站或終端機,儘管電腦經安裝適當程式設計後亦可作為伺服器。一般認為,所屬技術領域技術人員已熟知該架構、程式安裝及上述電腦裝置之一般操作方式,因此無須仰賴更多說明即可理解本發明之附圖。
第十四圖係電腦架構圖,該電腦可用於實施整合本發明之專用系統。該結合本發明之專用系統具有功能方塊圖圖示,其描述包含使用者介面元件之硬體平台。該電腦可作為日常用途之電腦或特殊用途之電腦,以上兩者皆可實施一應用本發明之專用系統。電腦1400可用於實施基於機器翻譯的自動生成重述以產生對話式代理人技術之相關元件,即如本發明所述。舉例而言,對話式代理人130、基於重述的對話式代理人訓練引擎140等可於如電腦1400之電腦上實施,可透過硬體、軟體程式、韌體或一以上之組合進行。雖然此處為方便起見,僅顯示一台如上所述之電腦,但與本發明所述之基於機器翻譯的自動生成重述以產生對話式代理人相關之電腦功能,仍可使用分散式架構於多個類似平台上實施,以分散執行程序之負載。
舉例而言,電腦1400包含與網路雙向連接之COM埠1450,以利資料傳輸溝通。電腦1400亦包含中央處理器(CPU)1420,其形式為一或多個處理器,負責執行程式指令。該電腦平台範例包含內部溝通匯流排1410、程式儲存裝置及不同形式之資料儲存裝置,如磁碟1470、唯讀記憶體(ROM)1430或隨機存取記憶體(RAM)1440,以使該電腦能處理及/或傳輸溝通各式資料檔案,同時盡量使該CPU能執行程式指令。電腦1400亦包含輸入/輸出組件1460,該組件支援於該電腦與該電腦內其他元件(如使用者介面元件1480)之間往來之輸入/輸出資料流。電腦1400亦可透過網路通訊接收程式與資料。
因此,如上所述之基於機器翻譯的自動生成重述以產生對話式代理人的方法,其不同面向可於程式中具體呈現。該技術之程式面向可以「產品」或「產出之貨品」概念理解,其形式通常為載於一種機器可讀取媒體上,或於一種機器可讀取媒體上中具體呈現之可執行程式碼及/或相關資料。有形且非暫存性之「儲存」型媒體包括任何或所有類型之記憶體、任何或所有其他供電腦、處理器或其他類似裝置使用之儲存裝置,或與電腦、處理器等裝置相關之模組,如各種半導體記憶體、磁帶儲存裝置、硬碟及其他類似裝置,其可隨時儲存軟體程式。
該軟體所有部分或其中一部分,可隨時透過網路通訊,如網際網路或其他各種電信網路。舉例而言,此種通訊可使該軟體由電腦或處理器被載入至另一電腦或處理器,例如由裝置被載入至電腦環境之硬體平台,或載入至實施電腦環境或與分散式機器學習技術相關的類似功能之其他系統中。因此,載有該等軟體元件之另一類型媒體,即包括光波、電波及電磁波,可透過電線或光纖固網及各式經空氣傳輸橫跨各實體介面,於不同本地裝置之間使用。載有前述波之實體元件,如有線或無線網路、光纖網路或其他類似之網路,亦可被視為載有該軟體之媒體。本發明所使用之電腦或機器「可讀取媒體」等詞彙,除非限定指稱有形「儲存」媒體,否則即指任何涉入給予處理器執行指示之媒體。
因此,機器可讀取媒體可具備許多形式,包含但不限於有形儲存媒體、載波傳輸媒體或實體傳輸媒體。舉例而言,非揮發性儲存裝置媒體包括光碟或磁碟,如任一電腦中之任何儲存裝置或類似裝置,其可用於實施該系統或如附圖所顯示的任何該系統之元件。揮發性儲存裝置媒體包括動態記憶體,如上述電腦平台之主記憶體。有形傳輸媒體包括同軸電纜;銅線及光纖,包括於電腦系統內形成匯流排之電線。載流傳輸媒體可具備電子、電磁訊號形式,或具備如無線電(RF)及紅外線(IR)資料通訊傳輸所產生之聲波、光波形式。由此,電腦可讀取媒體之常見形式如下:磁片、軟碟、硬碟、磁帶、任何其他磁性媒體、CD-ROM、DVD或DVD-ROM、任何其他光學媒體、穿孔紙卡帶、任何其他具孔洞之實體儲存媒體、RAM、PROM及EPROM、FLASH-EPROM、任何其他記憶晶片或卡匣、一載有資料或指令之載波、載有此載波之纜線或網路,或任何其他供電腦讀取程式碼及/或資料之媒體。上述電腦可讀取媒體之形式當中,許多可涉及將一或多個系列之一或多個執行指示傳輸給一實體處理器。
所屬技術領域技術人員將會認可本發明具調整彈性,可施以各種修改及/或強化。舉例而言,儘管上述設置各種元件之方式可於硬體裝置中實施,亦可限定僅以軟體方式實施,如於既有伺服器上安裝。另,本發明揭露之基於機器翻譯的自動生成重述以產生對話式代理人可採用韌體、韌體/軟體組合、韌體/硬體組合或硬體/韌體/軟體組合實施。
前述說明已描述本發明教示及/或其他實例之組成要素,然由上可知,其上可施加各種修改,且本發明揭露之標的可透過各種形式與實例實施,以及本發明教示可應用於多種應用程式之上,惟本發明僅描述其中幾種應用方式。以下申請專利範圍之目的,即為主張不超出本發明教示確切範圍之任何及所有應用、修改、變更方式。
100‧‧‧網路環境
110‧‧‧用戶
120‧‧‧網路
130‧‧‧對話式代理人
140‧‧‧基於重述的對話式代理人訓練引擎
150‧‧‧對話資料庫
160‧‧‧內容源
160-1‧‧‧內容源1
160-2‧‧‧內容源2
160-3‧‧‧內容源3
505‧‧‧代理人模型
510‧‧‧代理人產生請求分析器
515‧‧‧重述模型
520‧‧‧重述產生器
525‧‧‧整合訓練資料庫
530‧‧‧重述資料選擇器
535‧‧‧重述模型產生器
540‧‧‧訓練資料整合器
545‧‧‧自然語言理解模型
550‧‧‧意圖語句相關器
560‧‧‧對話式代理人產生器
602‧‧‧步驟
604‧‧‧步驟
606‧‧‧步驟
608‧‧‧步驟
610‧‧‧步驟
612‧‧‧步驟
614‧‧‧步驟
616‧‧‧步驟
618‧‧‧步驟
620‧‧‧步驟
622‧‧‧步驟
624‧‧‧步驟
710‧‧‧語句解析器
720‧‧‧語句標記器
730‧‧‧重述確定器
740‧‧‧重述分數產生器
750‧‧‧重述排序器
760‧‧‧文法校正器
770‧‧‧重述擴展單元
772‧‧‧Word2Vec模型
774‧‧‧語言模型
802‧‧‧步驟
804‧‧‧步驟
806‧‧‧步驟
808‧‧‧步驟
810‧‧‧步驟
812‧‧‧步驟
814‧‧‧步驟
816‧‧‧步驟
818‧‧‧步驟
820‧‧‧步驟
822‧‧‧步驟
910‧‧‧N元語法特徵產生器
915‧‧‧語言模型
920‧‧‧重述模型更新選擇器
905‧‧‧文法規則
930‧‧‧基於機器翻譯的訓練資料收集器
935‧‧‧機器翻譯模型
940‧‧‧統計重述模型訓練引擎
1002‧‧‧步驟
1004‧‧‧步驟
1006‧‧‧步驟
1008‧‧‧步驟
1010‧‧‧步驟
1012‧‧‧步驟
1014‧‧‧步驟
1016‧‧‧步驟
1110‧‧‧基於原始語言的文本產生器
1122‧‧‧機器翻譯器1
1128‧‧‧機器翻譯器N
1132‧‧‧反向機器翻譯器1
1138‧‧‧反向機器翻譯器N
1140‧‧‧基於原始語言的重述獲取器
1202‧‧‧步驟
1204‧‧‧步驟
1206‧‧‧步驟
1208‧‧‧步驟
1210‧‧‧步驟
1300‧‧‧行動裝置
1310‧‧‧通訊平台
1320‧‧‧顯示器
1330‧‧‧圖形處理器(GPU)
1340‧‧‧中央處理器(CPU)
1350‧‧‧輸入/輸出裝置
1360‧‧‧記憶體
1370‧‧‧作業系統
1380‧‧‧應用程式
1390‧‧‧儲存裝置
1400‧‧‧電腦
1410‧‧‧內部溝通匯流排
1420‧‧‧中央處理器(CPU)
1430‧‧‧唯讀記憶體(ROM)
1440‧‧‧隨機存取記憶體(RAM)
1450‧‧‧COM埠
1460‧‧‧輸入/輸出組件
1470‧‧‧磁碟
1480‧‧‧使用者介面元
本發明描述之方法、系統及/或程式設計,將以各種實施例進一步說明。該等實施例詳細描述皆以附圖為參考依據,且屬非限制性實施例,其中類同的元件符號係標示不同視角的圖示之間呈現之類似結構,且其中: 第一圖係根據本發明一實施例所繪製之基於機器翻譯的自動生成重述以產生對話式代理人之一網路環境範例高階圖示; 第二圖係根據本發明一實施例所繪製之基於機器翻譯的自動生成重述以產生對話式代理人之另一網路環境範例高階圖示; 第三圖係根據本發明一實施例所繪製之訓練或產生對話式代理人的各種資料範例; 第四圖係根據本發明一實施例所繪製之產生對話式代理人的開發者之使用者介面範例; 第五圖係根據本發明一實施例所繪製之基於重述的對話式代理人訓練引擎之範例示意圖; 第六圖係根據本發明一實施例所繪製之基於重述的對話式代理人訓練引擎之範例流程圖; 第七圖係根據本發明一實施例所繪製之重述產生器之範例示意圖; 第八圖係根據本發明一實施例所繪製之重述產生器之範例流程圖; 第九圖係根據本發明一實施例所繪製之重述模式產生器之範例示意圖; 第十圖係根據本發明一實施例所繪製之重述模式產生器之範例流程圖; 第十一圖係根據本發明一實施例所繪製之基於機器翻譯的訓練資料收集器之範例示意圖; 第十二圖係根據本發明一實施例所繪製之基於機器翻譯的訓練資料收集器之範例流程圖; 第十三圖係行動裝置架構圖,該行動裝置可用於實施整合本發明之專用系統; 第十四圖係電腦元件架構圖,該電腦可用於實施整合本發明之專用系統。

Claims (21)

  1. 一種用於產生一對話式代理人的方法,該方法實施於一裝置上,該裝置具備至少一處理器、一儲存裝置及連線到一網路的一通訊平台,該方法包括: 從一開發者接收複數輸入語句; 獲得一重述模型,該重述模型基於機器翻譯產生; 對於該複數輸入語句中的每一個,基於該重述模型產生該輸入語句的一或多個重述; 對於該複數輸入語句中的每一個,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述;及 基於該複數輸入語句和該選擇重述產生該對話式代理人。
  2. 如申請專利範圍第1項之方法,進一步包括: 基於儲存的用戶代理人對話產生整合訓練資料;及 基於該整合訓練資料訓練該重述模型。
  3. 如申請專利範圍第2項之方法,進一步包括: 獲得語法規則和一或多個語言模型; 基於該一或多個語言模型生成複數N元語法特徵; 基於機器翻譯收集更多訓練資料;及 基於該整合訓練資料和該收集更多訓練資料訓練該重述模型。
  4. 如申請專利範圍第3項之方法,其中基於機器翻譯收集更多訓練資料包括: 以一原始語言生成一文本; 基於機器翻譯將該文本翻譯成其他語言; 基於機器翻譯將該文本翻譯回該原始語言;及 產生基於機器翻譯的重述資料作為訓練該重述模型的該更多訓練資料。
  5. 如申請專利範圍第1項之方法,進一步包括: 獲得一自然語言理解(NLU)模型;及 基於該NLU模型、該複數輸入語句和該選擇重述生成複數意圖語句相關性,其中基於該複數意圖語句相關性產生該對話式代理人。
  6. 如申請專利範圍第1項之方法,其中對於該複數輸入語句中的每一個,產生該輸入語句的一或多個重述包括: 將該輸入語句解析成複數個部分; 獲得要建立的一代理模型,該代理模型與該代理人相關; 基於該代理人模型標記該複數個部分中的每一個;及 基於該重述模型和該標記部分定義該輸入語句的複數重述。
  7. 如申請專利範圍第6項之方法,其中對於該複數輸入語句中的每一個,產生該輸入語句的一或多個重述更包括: 對於該複數重述中的每一個產生一可信度分數; 根據各自的可信度分數對該複數重述進行排序,以產生排序重述; 校正該排序重述中的語法錯誤; 基於至少一Word2Vec(詞向量)模型和一語言模型的其中之一擴展該排序重述;及 基於該擴展排序重述產生該輸入語句的一或多個重述。
  8. 一種用於產生一對話式代理人的系統,具備至少一處理器、一儲存裝置及連線到一網路的一通訊平台,該系統包括: 一重述產生器,配置成用以從一開發者接收複數輸入語句、獲得基於機器翻譯產生的一重述模型,並針對該複數輸入語句中的每一個基於該重述模型產生該輸入語句的一或多個重述; 一重述資料選擇器,配置成用以對於該複數輸入語句中的每一個,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述;及 一對話式代理人產生器,配置成用以基於該複數輸入語句和該選擇重述產生該對話式代理人。
  9. 如申請專利範圍第8項之系統,進一步包括: 一訓練資料整合器,配置成用以基於儲存的用戶代理人對話產生整合訓練資料;及 一重述模型產生器,配置成用以基於該整合訓練資料訓練該重述模型。
  10. 如申請專利範圍第9項之系統,其中該重述模型產生器包括: 一N元語法特徵產生器,配置成用以獲得一或多個語言模型並基於該一或多個語言模型生成複數N元語法特徵; 一基於機器翻譯的訓練資料收集器,配置成用以基於機器翻譯收集更多訓練資料;及 一統計重述模型訓練引擎,配置成用以獲得文法規則且基於該整合訓練資料、該收集更多訓練資料和該文法規則訓練該重述模型。
  11. 如申請專利範圍第10項之系統,其中該基於機器翻譯的訓練資料收集器包括: 一基於原始語言的文本產生器,配置成用以一原始語言生成一文本; 一個或多個機器翻譯器,配置成用以基於機器翻譯將該文本翻譯成其他語言; 一個或多個機器翻譯器,配置成用以基於機器翻譯將該文本翻譯回該原始語言;及 一基於原始語言的重述獲得器,配置成用以產生基於機器翻譯的重述資料作為訓練該重述模型的該更多訓練資料。
  12. 如申請專利範圍第8項之系統,進一步包括一意圖語句相關器,配置成用以獲得一自然語言理解(NLU)模型及基於該NLU模型、該複數輸入語句和該選擇重述生成複數意圖語句相關性,其中基於該複數意圖語句相關性產生該對話式代理人。
  13. 如申請專利範圍第8項之系統,其中該重述產生器包括: 一語句解析器,配置成用以將該輸入語句解析成複數個部分; 一語句標記器,配置成用以獲得與要建立的該代理人相關的一代理人模型並基於該代理人模型標記該複數部分中的每一個;及 一重述定義器,配置成用以基於該重述模型和該標記部分定義該輸入語句的複數重述。
  14. 如申請專利範圍第13項之系統,其中該重述產生器更包括: 一重述分數產生器,配置成用以對該複數重述中的每一個產生一可信度分數; 一重述排序器,配置成用以根據各自的可信度分數對該複數重述進行排序,以產生排序重述; 一語法校正器,配置成用以校正該排序重述中的語法錯誤;及 一重述擴展單元,配置成用以基於至少一Word2Vec(詞向量)模型和一語言模型的其中之一擴展該排序重述,其中基於該擴展排序重述產生該輸入語句的一或多個重述。
  15. 一種非暫態機器可讀取媒體,該媒體具有資訊,該資訊用於產生一對話式代理人,其中該資訊經該機器讀取時,會使該機器執行以下步驟: 從一開發者接收複數輸入語句; 獲得一重述模型,該重述模型基於機器翻譯產生; 對於每一該複數輸入語句,基於該重述模型產生該輸入語句的一或多個重述; 對於每一該複數輸入語句,基於來自該開發者的一指令選擇該一或多個重述中的至少一個以產生選擇重述;及 基於該複數輸入語句和該選擇重述產生該對話式代理人。
  16. 如申請專利範圍第15項之媒體,其中該資訊經該機器讀取時,會使該機器執行以下步驟: 基於儲存的用戶代理人對話產生整合訓練資料;及 基於該整合訓練資料訓練該重述模型。
  17. 如申請專利範圍第16項之媒體,其中該資訊經該機器讀取時,會使該機器執行以下步驟: 獲得語法規則和一或多個語言模型; 基於該一或多個語言模型生成複數N元語法特徵; 基於機器翻譯收集更多訓練資料;及 基於該整合訓練資料和該收集更多訓練資料訓練該重述模型。
  18. 如申請專利範圍第17項之媒體,其中基於機器翻譯收集更多訓練資料包括: 以一原始語言生成一文本; 基於機器翻譯將該文本翻譯成其他語言; 基於機器翻譯將該文本翻譯回該原始語言;及 產生基於機器翻譯的重述資料作為訓練該重述模型的該更多訓練資料。
  19. 如申請專利範圍第15項之媒體,其中該資訊經該機器讀取時,會使該機器進一步執行以下步驟: 獲得一自然語言理解(NLU)模型;及 基於該NLU模型、該複數輸入語句和該選擇重述生成複數意圖語句相關性,其中基於該複數意圖語句相關性產生該對話式代理人。
  20. 如申請專利範圍第15項之媒體,其中對於該複數輸入語句中的每一個,產生該輸入語句的一或多個重述包括: 將該輸入語句解析成複數個部分; 獲得要建立的一代理模型,該代理模型與該代理人相關; 基於該代理人模型標記該複數個部分中的每一個;及 基於該重述模型和該標記部分定義該輸入語句的複數重述。
  21. 如申請專利範圍第20項之媒體,其中對於該複數輸入語句中的每一個,產生該輸入語句的一或多個重述更包括: 對於該複數重述中的每一個產生一可信度分數; 根據各自的可信度分數對該複數重述進排序,以產生排序重述; 校正該排序重述中的語法錯誤; 基於至少一Word2Vec(詞向量)模型和一語言模型的其中之一擴展該排序重述;及 基於該擴展排序重述產生該輸入語句的一或多個重述。
TW107125138A 2017-08-02 2018-07-20 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體 TWI684881B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/667,283 2017-08-02
US15/667,283 US10423665B2 (en) 2017-08-02 2017-08-02 Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation

Publications (2)

Publication Number Publication Date
TW201921267A true TW201921267A (zh) 2019-06-01
TWI684881B TWI684881B (zh) 2020-02-11

Family

ID=63143002

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107125138A TWI684881B (zh) 2017-08-02 2018-07-20 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體

Country Status (4)

Country Link
US (3) US10423665B2 (zh)
EP (1) EP3438844A1 (zh)
CN (1) CN109388691A (zh)
TW (1) TWI684881B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423665B2 (en) * 2017-08-02 2019-09-24 Oath Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation
JP2019057092A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
US10664656B2 (en) * 2018-06-20 2020-05-26 Vade Secure Inc. Methods, devices and systems for data augmentation to improve fraud detection
US10929617B2 (en) * 2018-07-20 2021-02-23 International Business Machines Corporation Text analysis in unsupported languages using backtranslation
KR102128549B1 (ko) * 2018-09-19 2020-07-08 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
US11966389B2 (en) * 2019-02-13 2024-04-23 International Business Machines Corporation Natural language to structured query generation via paraphrasing
SG11202108736WA (en) * 2019-02-25 2021-09-29 Liveperson Inc Intent-driven contact center
KR20200135607A (ko) * 2019-05-22 2020-12-03 삼성전자주식회사 학습 네트워크 모델 기반의 언어 처리 방법 및 장치
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
WO2021005551A1 (en) * 2019-07-09 2021-01-14 Soul Machines Limited Conversational mark-up in embodied agents
WO2021152712A1 (ja) * 2020-01-28 2021-08-05 株式会社 AI Samurai 文書作成支援装置、文書作成支援方法、及び、文書作成プログラム
US11430426B2 (en) 2020-04-01 2022-08-30 International Business Machines Corporation Relevant document retrieval to assist agent in real time customer care conversations
CN112311939A (zh) * 2020-10-21 2021-02-02 国家电网有限公司客户服务中心南方分中心 一种用于电网智能语音系统
CN112507735A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置和电子设备
JP2024022977A (ja) * 2022-08-08 2024-02-21 国立研究開発法人情報通信研究機構 推論システム、方法、および推論器
WO2024072026A1 (en) * 2022-09-27 2024-04-04 Samsung Electronics Co., Ltd. Method performed by an electronic device, electronic device and computer-readable storage media

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US8484016B2 (en) * 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
US20120109623A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Stimulus Description Collections
US9552353B2 (en) * 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US9473637B1 (en) * 2015-07-28 2016-10-18 Xerox Corporation Learning generation templates from dialog transcripts
US20180061408A1 (en) * 2016-08-24 2018-03-01 Semantic Machines, Inc. Using paraphrase in accepting utterances in an automated assistant
US11222278B2 (en) * 2016-09-08 2022-01-11 Fujitsu Limited Estimating conditional probabilities
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator
US10423665B2 (en) * 2017-08-02 2019-09-24 Oath Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation

Also Published As

Publication number Publication date
TWI684881B (zh) 2020-02-11
US20190042663A1 (en) 2019-02-07
US10423665B2 (en) 2019-09-24
US20220237233A1 (en) 2022-07-28
EP3438844A1 (en) 2019-02-06
US11328017B2 (en) 2022-05-10
CN109388691A (zh) 2019-02-26
US20200004787A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
TWI684881B (zh) 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體
RU2607416C2 (ru) Крауд-сорсные системы обучения лексике
CN110569337B (zh) 支持对话中意图的组合
CN110462730B (zh) 促进以多种语言与自动化助理的端到端沟通
CN109313665B (zh) 计算机消息机器人的创建
JP6333745B2 (ja) 翻訳結果提供方法、翻訳結果提供システム、プログラムおよびファイル配布システム
US9805718B2 (en) Clarifying natural language input using targeted questions
US11010700B2 (en) Identifying task and personality traits
US8972265B1 (en) Multiple voices in audio content
EP3627398A1 (en) Method, system, and computer program for artificial intelligence answer
CN114096960A (zh) 机器辅助代理的自然语言响应
US20190294452A1 (en) Computerized task guidance across devices and applications
Niculescu et al. Humor intelligence for virtual agents
Alhassan et al. A novel framework for Arabic dialect chatbot using machine learning
Lee Voice user interface projects: build voice-enabled applications using dialogflow for google home and Alexa skills kit for Amazon Echo
Nishimura et al. Web-based environment for user generation of spoken dialog for virtual assistants
CN111104796A (zh) 用于翻译的方法和装置
KR20200032873A (ko) 도서 정보 기반의 챗봇 서비스를 위한 파싱 시스템 및 그 제어 방법
KR101916781B1 (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
Jia et al. Learning concepts through conversations in spoken dialogue systems
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备
Vukomanović et al. An example of chatbot in the field of education in the Republic of Serbia
Lemon et al. Statistical approaches to adaptive natural language generation
Alhassan et al. Research Article A Novel Framework for Arabic Dialect Chatbot Using Machine Learning
Ali Mousa et al. Developing a web application for collecting conversations in lab rooms