TWI753325B - 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置 - Google Patents

產生機器翻譯模型的計算裝置及方法及機器翻譯裝置 Download PDF

Info

Publication number
TWI753325B
TWI753325B TW108142757A TW108142757A TWI753325B TW I753325 B TWI753325 B TW I753325B TW 108142757 A TW108142757 A TW 108142757A TW 108142757 A TW108142757 A TW 108142757A TW I753325 B TWI753325 B TW I753325B
Authority
TW
Taiwan
Prior art keywords
sentence
training
network
target
source
Prior art date
Application number
TW108142757A
Other languages
English (en)
Other versions
TW202121229A (zh
Inventor
王家慶
林宜興
Original Assignee
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學 filed Critical 國立中央大學
Priority to TW108142757A priority Critical patent/TWI753325B/zh
Priority to US16/699,477 priority patent/US11520997B2/en
Publication of TW202121229A publication Critical patent/TW202121229A/zh
Application granted granted Critical
Publication of TWI753325B publication Critical patent/TWI753325B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

一種用於產生一機器翻譯模型的裝置及方法以及一機器翻譯裝置被揭露於此。該裝置將一來源語言的一來源訓練語句以及一字典資料輸入一生成器網路,以讓該生成器網路根據該來源訓練語句以及該字典資料輸出該目標語言的一目標訓練語句。接著,該裝置將該目標訓練語句以及該來源訓練語句的一正確翻譯輸入一判別器網路,以根據該判別器網路的輸出計算該目標訓練語句與該正確翻譯的一誤差,並且根據該誤差分別訓練該生成器網路以及該判別器網路。訓練完的該生成器網路即為一機器翻譯模型。

Description

產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
本揭露與產生機器翻譯模型產生的計算裝置及方法以及機器翻譯裝置有關。更具體而言,本揭露與透過訓練生成對抗式網路(Generative Adversarial Network,GAN)而產生機器翻譯模型的計算裝置及方法以及機器翻譯裝置有關。
傳統使用深度學習(deep learning)來產生的機器翻譯模型多為透過先將映射的方式而將一來源語言(即,被翻譯的對象)以及一目標語言(即,欲翻譯的目標)的字詞各自投影至一向量空間,接著傳入具備深度學習能力的一神經網路中,以讓該神經網路自動地學習該來源語言與該目標語言的對應關係,進而達到翻譯的效果。由於該來源語言與該目標語言為不相同的二種語言,故該等語言在被投影至向量空間時將存在差異(即,在向量空間中的距離)。
然而,當該來源語言與該目標語言彼此間的差異非常大(例如:屬於不同語系,故其文法及/或詞彙之間較少直接的對應關係)時,可能導致該等語言在向量空間中的距離過大而難以拉近該等語言的距離,進而導致神經網路難以快速學習該等語言之間的對應關係或是使得機器翻譯 模型的翻譯品質不佳,甚至造成該等語言幾乎無法投影至同一向量空間。有鑑於此,提供一種在該來源語言與該目標語言間差異較大的情況下仍能夠快速訓練機器翻譯模型的機器翻譯模型產生方法是相當重要的。
為了至少解決上述問題,本揭露提供一種用於產生一機器翻譯模型的計算裝置。該計算裝置可包含一儲存器以及與該儲存器電性連接的一處理器。該儲存器可用以儲存一字典資料以及一生成對抗式網路。該字典資料可包含一來源語言的複數個詞彙與一目標語言的複數個詞彙的一對應關係,且該生成對抗式網路可包含一生成器(generator)網路以及一判別器(discriminator)網路。該處理器可用以將該來源語言的一來源訓練語句以及該字典資料輸入該生成器網路,以讓該生成器網路根據該來源訓練語句以及該字典資料而輸出該目標語言的一目標訓練語句。該處理器還可用以將該目標訓練語句以及該來源訓練語句的一正確翻譯輸入該判別器網路,以根據該判別器網路的一輸出計算該目標訓練語句與該正確翻譯的一誤差。接著,該處理器還可用以根據該誤差而分別訓練該生成器網路以及該判別器網路,進而訓練該生成對抗式網路,其中訓練完的該生成器網路即為該機器翻譯模型。
為了至少解決上述問題,本揭露還提供一種用於產生一機器翻譯模型的方法。該方法適用於一計算裝置。該計算裝置可儲存一字典資料以及一生成對抗式網路,且該字典資料可包含一來源語言的複數個詞彙與一目標語言的複數個詞彙的一對應關係。該生成對抗式網路可包含一生成器網路以及一判別器網路。該方法可包含:
由該計算裝置將該來源語言的一來源訓練語句以及該字典資料輸入該生成器網路,以讓該生成器網路根據該來源訓練語句以及該字典資料輸出該目標語言的一目標訓練語句;
由該計算裝置將該目標訓練語句以及該來源訓練語句的一正確翻譯輸入該判別器網路,以根據該判別器網路的輸出計算該目標訓練語句與該正確翻譯的一誤差;以及
由該計算裝置根據該誤差而分別訓練該生成器網路以及該判別器網路,進而訓練該生成對抗式網路,其中訓練完的該生成器網路即為該機器翻譯模型。
為了至少解決上述問題,本揭露還提供一種機器翻譯裝置。該機器翻譯裝置可包含:一儲存器以及與該儲存器電性連接的一處理器。該儲存器可用以儲存一字典資料。該字典資料可包含一來源語言的複數個詞彙與一目標語言的複數個詞彙的一對應關係。該處理器可用以根據該來源語言的一來源語句以及該字典資料產生該目標語言的一文字序列。接著,該處理器還可用以基於該文字序列產生該目標語言的複數個詞嵌入向量。除此之外,該處理器還可用以將該目標語言的該等詞嵌入向量輸入一轉換器模型,以獲得該目標語言的一目標語句。
如上所述,透過於該生成器網路的訓練階段及推論階段皆加入該字典資料的輔助,該來源語言與該目標語言間的差距得以縮小,進而降低翻譯任務的複雜程度,該生成器網路輸出(翻譯)的語句也因此更加精準,而該生成器網路輸出更加精準的語句也可更快地收斂該生成器網路的訓練誤差,進而縮短訓練該生成對抗式網路所需的時間。因此,透過加入字典資 料來訓練生成對抗式網路以產生機器翻譯模型的方法確實能夠有效地解決傳統使用深度學習來產生機器翻譯模型所帶來的至少上述技術問題。
01‧‧‧字典資料
02‧‧‧生成對抗式網路
021‧‧‧生成器網路
022‧‧‧判別器網路
1‧‧‧機器翻譯裝置
11‧‧‧計算裝置
111‧‧‧儲存器
112‧‧‧處理器
12‧‧‧輸入介面
13‧‧‧輸出介面
21‧‧‧文字序列
22‧‧‧詞嵌入向量
231‧‧‧編碼器
232‧‧‧解碼器
24‧‧‧詞嵌入向量
25‧‧‧轉換器的雙向編碼器表示模型
26‧‧‧語句嵌入向量
27‧‧‧目標訓練詞嵌入向量
28‧‧‧轉換器的雙向編碼器表示模型
291‧‧‧預測真偽值
292‧‧‧預測統計分數
293‧‧‧預測語句結構
4‧‧‧產生機器翻譯模型的方法
401、402、403‧‧‧步驟
PO‧‧‧池化輸出
S1‧‧‧來源語句
S2‧‧‧目標語句
SO‧‧‧序列輸出
TS1‧‧‧來源訓練語句
TS2‧‧‧目標訓練語句
T21‧‧‧訓練文字序列
T22‧‧‧訓練詞嵌入向量
T24‧‧‧訓練詞嵌入向量
T26‧‧‧訓練語句嵌入向量
第1圖例示了根據本發明的一或多個實施例的用於產生機器翻譯模型的裝置。
第2A-2B圖例示了根據本發明的一或多個實施例的生成對抗式網路。
第3圖例示了根據本發明的一或多個實施例的機器翻譯裝置。
第4圖例示了根據本發明的一或多個實施例的產生機器翻譯模型的方法。
以下所述各種實施例並非用以限制本發明只能在所述的環境、應用、結構、流程或步驟方能實施。於圖式中,與本發明的實施例非直接相關的元件皆已省略。於圖式中,各元件的尺寸以及各元件之間的比例僅是範例,而非用以限制本發明。除了特別說明之外,在以下內容中,相同(或相近)的元件符號可對應至相同(或相近)的元件。在可被實現的情況下,如未特別說明,以下所述的每一個元件的數量是指一個或多個。
第1圖例示了根據本發明的一或多個實施例的用於產生機器翻譯模型的計算裝置。第1圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第1圖,用於產生一機器翻譯模型的計算裝置11可包含儲存器111以及與儲存器111電性連接的處理器112。儲存器111可用以儲存字 典資料01以及生成對抗式網路02。處理器112可用以訓練生成對抗式網路02。
儲存器111可用以儲存計算裝置11所產生的資料或由外部傳入的資料,例如字典資料01。儲存器111可包含第一級記憶體(又稱主記憶體或內部記憶體),且處理器112可直接讀取儲存在第一級記憶體內的指令集,並在需要時執行這些指令集。儲存器111可選擇性地包含第二級記憶體(又稱外部記憶體或輔助記憶體),且此記憶體可透過資料緩衝器將儲存的資料傳送至第一級記憶體。舉例而言,第二級記憶體可以是但不限於:硬碟、光碟等。儲存器111可選擇性地包含第三級記憶體,亦即,可直接插入或自電腦拔除的儲存裝置,例如隨身硬碟。在某些實施例中,儲存器111還可選擇性地包含一雲端儲存單元。
處理器112可以是具備訊號處理功能的微處理器(microprocessor)或微控制器(microcontroller)等。微處理器或微控制器是一種可程式化的特殊積體電路,其具有運算、儲存、輸出/輸入等能力,且可接受並處理各種編碼指令,藉以進行各種邏輯運算與算術運算,並輸出相應的運算結果。處理器112可被編程以在計算裝置11中執行各種運算或程式。
字典資料01可記錄一來源語言的複數個字詞與一目標語言的複數個字詞的一對應關係。舉例而言,假設該來源語言為中文且該目標語言為英文,則字典資料01可以是從一漢英字典及/或一英漢字典所彙整的一字詞對應關係,亦即,字典資料01中可記有複數個中文字詞(例如:「我」、「愛」、「字典」)與複數個英文字詞(例如:「I」、「love」、「dictionary」)的 對應關係。在某些實施例中,除了該來源語言與該目標語言間的字詞的直接對應關係之外,字典資料01還可包含該等語言之間的字詞的間接對應關係,例如但不限於同義字詞、反義字詞、近似字詞等。
在某些實施例中,字典資料01可以是由一使用者自行輸入計算裝置11,或者由計算裝置11自一外部資料庫接收。在某些實施例中,計算裝置11還可包含一網路介面(未繪示於圖中),且該網路介面可用以自透過一網路而自一雲端資料庫接收字典資料01。
第2A-2B圖例示了根據本發明的一或多個實施例的生成對抗式網路。第2A-2B圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
同時參照第2A圖以及第2B圖,生成對抗式網路02可包含生成器網路021以及判別器網路022。如第2A圖所示,生成器網路021可至少包含轉換器(Transformer)模型23(未繪示於圖中),且轉換器模型23可包含編碼器231以及解碼器232。轉換器模型23是一種基於自注意力(self-attention)機制的一序列到序列(sequence-to-sequence,Seq2Seq)模型。由於本發明所屬技術領域中具有通常知識者可理解轉換器模型的相關細節,故不再贅言。生成對抗式網路02及其所包含的元件如生成器網路021、判別器網路022、轉換器模型23等皆可由處理器112運行以執行上下文所述的一或多個動作。
於訓練生成對抗式網路02時,處理器112可將該來源語言的來源訓練語句TS1以及字典資料01輸入生成器網路021。生成器網路021可根據字典資料01而將來源訓練語句TS1所包含的複數個字詞逐一轉換成該目 標語言的複數個相應字詞,以產生該目標語言的訓練文字序列T21。在某些實施例中,在將來源訓練語句TS1轉換成訓練文字序列T21之前,生成器網路021可先針對來源訓練語句TS1中的各個字詞進行預處理而區分出各個文字可能形成的詞彙,以利後續查詢字典資料01。
接著,生成器網路021可將訓練文字序列T21轉換成該目標語言的複數個訓練詞嵌入向量(word embedding)T22,並且將訓練文字嵌入向量T22逐一輸入轉換器模型23的編碼器231,編碼器231再將其輸出輸入至解碼器232,使解碼器232可據以產生目標訓練語句TS2。
在某些實施例中,生成器網路021還可包含轉換器的雙向編碼器表示(bidirectional encoder representation from Transformers,BERT)模型25,且除了將來源訓練語句TS1轉換成訓練文字序列T21之外,生成器網路021還可將來源訓練語句TS1轉換成該來源語言的複數個詞嵌入向量T24,並且將詞嵌入向量T24輸入轉換器的雙向編碼器表示模型25。轉換器的雙向編碼器表示模型25可將詞嵌入向量T24轉換成訓練語句嵌入向量(sentence embedding)T26。接著,生成器網路021還可將訓練語句嵌入向量T26與先前編碼器231的輸出一起輸入至解碼器232,以產生目標訓練語句TS2。透過額外參考轉換器的雙向編碼器表示模型25所產生的訓練語句嵌入向量T26,生成器網路021對於來源訓練語句TS1的語意判斷可更精準,故其輸出的目標訓練語句TS2可更接近理想的翻譯結果。
於獲得目標訓練語句TS2後,處理器112可將目標訓練語句TS2以及來源訓練語句TS1的一正確翻譯輸入判別器網路022,以根據判別器網路022的輸出來計算目標訓練語句TS2與該正確翻譯的一誤差。
具體而言,如第2B圖所示,判別器網路022可至少包含轉換器的雙向編碼器表示模型28。判別器網路022首先可將目標訓練語句TS2轉換為複數個目標訓練詞嵌入向量27,並將目標訓練詞嵌入向量27以及該正確翻譯輸入至轉換器的雙向編碼器表示模型28,以獲得預測真偽值291、預測統計分數292以及預測語句結構293。
於判別器網路022的輸出中,預測真偽值291可為判別器網路022嘗試判斷「目標訓練語句TS2為一真實語句或者是由生成器網路021所偽造的語句」的一真偽值,其可以是例如但不限於一布林(Boolean)值。舉例而言,當預測真偽值291為「1」,表示判別器網路022判斷目標訓練語句TS2為一真實語句;當預測真偽值291為「0」,則表示判別器網路022判斷目標訓練語句是偽造的語句。預測統計分數292可以是判別器網路022嘗試以統計評估的方式來評估目標訓練語句TS2的翻譯品質的一推論結果。預測語句結構293可以是判別器網路022嘗試判斷目標訓練語句TS2的句法結構(例如:詞性、標點符號位置等)的一推論結果。
在某些實施例中,關於判別器網路022的輸出,可透過將轉換器的雙向編碼器表示模型28的池化輸出(pooling output)PO輸入二個多層感知器(multi-layer perceptron,MLP)中進行投影,以分別產生預測真偽值291及預測統計分數292,並且將轉換器的雙向編碼器表示模型28的序列輸出(sequence output)SO輸入另一多層感知器中進行投影,以產生預測語句結構293。
於另一方面,處理器112可根據來源訓練語句TS1的該正確翻譯以及由生成器網路021產生的目標訓練語句TS2來計算一正確統計分 數,以及透過一自然語言處理工具包(natural language toolkit,NLTK)分析出目標訓練語句TS2的一正確語句結構。該正確統計分數可以是例如但不限於一雙語評估互補(bilingual evaluation understudy,BLEU)分數或一F1分數(F1 score)。
於獲得判別器網路022的輸出之後,有鑑於目標訓練語句TS2為生成器網路021所產生,故處理器112可藉由預測真偽值291得知判別器網路022是否針對目標訓練語句TS2的判斷是否正確,藉以計算出一真偽值誤差。除此之外,處理器112還可透過比較預測統計分數292與該正確統計分數以計算出一統計分數誤差。類似地,處理器112可透過比較預測語句結構293與該正確語句結構,以計算出一語句結構誤差。
在某些實施例中,可將該真偽值誤差、該統計分數誤差以及該語句結構誤差當作生成對抗式網路02的一誤差,而處理器112可根據生成對抗式網路02的該誤差來訓練生成對抗式網路02,亦即,分別訓練生成器網路021以及判別器網路022。具體而言,處理器112可根據該誤差並使用策略梯度(policy gradient)來更新生成器網路021或判別器網路022。在處理器112完成生成對抗式網路02的訓練後,訓練過的生成器網路021即為計算裝置11所欲產生的該機器翻譯模型。
綜上所述,除了普通生成對抗式網路既有的真偽值誤差之外,處理器112於訓練生成對抗式網路02時還額外針對該統計分數誤差以及該語句結構誤差來進行收斂,故訓練後的判別器網路022的判別效果將更加精準且更有依據,而計算裝置11產生機器翻譯模型的效率也將因此提升。
第3圖例示了根據本發明的一或多個實施例的機器翻譯裝 置。第3圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第3圖,機器翻譯裝置1可包含計算裝置11的全部元件及實施態樣,亦即,機器翻譯裝置1可透過上述相同方式訓練生成對抗式網路02並相應地產生機器翻譯模型(即,訓練完的生成器網路021)。有鑑於此,本發明所屬技術領域中具有通常知識者可根據上述內容而理解機器翻譯裝置1產生機器翻譯模型的具體細節,故於此不再贅述。
在某些實施例中,機器翻譯裝置1可包含輸入介面12以及輸出介面13。輸入介面12與輸出介面13皆可與處理器112電性連接。輸入介面12可用以從一外部來源接收資料及/或指令,而輸出介面13則可用以輸出及/或顯示資料。舉例而言,輸入介面12可以是一鍵盤、一滑鼠、一觸控面板、或是一有線/無線通訊介面等,以允許一使用者將來源語句S1(即,該使用者欲進行翻譯的語句)透過輸入介面12輸入至機器翻譯裝置1。輸出介面13可以是一顯示器或該有線/無線通訊介面,藉此,經翻譯後的目標語句S2可透過輸出介面13而呈現給該使用者,或是透過輸出介面13而被傳送至該使用者。
同時參照第2A圖以及第3圖,如上所述,由於經訓練後的生成器網路021即為該機器翻譯模型,故在進行翻譯的流程中,處理器112可將來源語句S1以及字典資料01輸入至生成器網路021中,進而自生成器網路021獲得輸出的目標語句S2。類似於來源訓練語句TS1與目標訓練語句TS2,來源語句S1與目標語句S2可分別對應至一來源語言及一目標語言。
生成器網路021可根據字典資料01而將來源語句S1所包含的複數個字詞逐一轉換成該目標語言的複數個相應字詞,以產生該目標語 言的文字序列21。在某些實施例中,在將來源語句S1轉換成文字序列21之前,生成器網路021可先針對來源語句S1中的各個字詞進行預處理而區分出各個文字可能形成的詞彙,以利後續查詢字典資料01。
接著,生成器網路021可將文字序列21轉換成該目標語言的複數個詞嵌入向量22,並且將文字嵌入向量22逐一輸入轉換器模型23的編碼器231,編碼器231再將其輸出輸入至解碼器232,使解碼器232可據以產生目標語句S2。
在某些實施例中,除了將來源語句S1轉換成文字序列21之外,生成器網路021還可將來源語句S1轉換成該來源語言的複數個詞嵌入向量24,並且將詞嵌入向量24輸入轉換器的雙向編碼器表示模型25。轉換器的雙向編碼器表示模型25可將詞嵌入向量24轉換成語句嵌入向量26。接著,生成器網路021還可將語句嵌入向量T26與編碼器231的輸出一起輸入至解碼器232,以產生目標語句S2。透過額外參考轉換器的雙向編碼器表示模型25所產生的語句嵌入向量26,生成器網路021對於來源語句S1的語意判斷可更精準,故其輸出的目標語句S2可更接近理想的翻譯結果。
第4圖例示了根據本發明的一或多個實施例的產生機器翻譯模型的方法。第4圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第4圖,產生機器翻譯模型的方法4可包含以下步驟:
由該計算裝置將該來源語言的一來源訓練語句以及該字典資料輸入該生成器網路,以讓該生成器網路根據該來源訓練語句以及該字典資料輸出該目標語言的一目標訓練語句(標示為401);
由該計算裝置將該目標訓練語句以及該來源訓練語句的一正確翻譯輸入該判別器網路,以根據該判別器網路的輸出計算該目標訓練語句與該正確翻譯的一誤差(標示為402);以及
由該計算裝置根據該誤差而分別訓練該生成器網路以及該判別器網路,進而訓練該生成對抗式網路,其中訓練完的該生成器網路即為該機器翻譯模型(標示為403)。
第4圖所示的步驟順序並非限制,在可以實現的情況下,第4圖所示的步驟順序可以被任意調整。
在某些實施例中,關於產生機器翻譯模型的方法4,該生成器網路可包含一轉換器模型,且產生機器翻譯模型的方法4還可包含以下步驟:
由該計算裝置在該生成器網路中根據該來源訓練語句以及該字典資料,產生該目標語言的一訓練文字序列;
由該計算裝置在該生成器網路中根據該訓練文字序列產生該目標語言的複數個訓練詞嵌入向量;以及
由該計算裝置在該生成器網路中將該等訓練詞嵌入向量輸入該轉換器模型,以透過該轉換器模型產生該目標訓練語句。
在某些實施例中,關於產生機器翻譯模型的方法4,該判別器網路可包含一轉換器的雙向編碼器表示模型,且產生機器翻譯模型的方法4還可包含以下步驟:
由該計算裝置在該判別器網路中基於該目標訓練語句產生相應的複數個目標訓練詞嵌入向量;以及 由該計算裝置在該判別器網路中將該目標訓練詞嵌入向量輸入該轉換器雙向編碼器表示模型,以獲得一預測真偽值、一預測統計分數以及一預測語句結構。
在某些實施例中,關於產生機器翻譯模型的方法4,該判別器網路可包含一轉換器的雙向編碼器表示模型,且該生成器網路還可包含另一轉換器雙向編碼器表示模型。除此之外,產生機器翻譯模型的方法4還可包含以下步驟:由該計算裝置在該生成器網路中基於該來源訓練語句產生該來源語言的複數個詞嵌入向量;由該計算裝置該生成器網路中將該來源語言的該等詞嵌入向量輸入該另一轉換器雙向編碼器表示模型,以獲得一訓練語句嵌入向量;由該計算裝置在該生成器網路中將該語句嵌入向量輸入該轉換器模型,以產生該目標訓練語句;由該計算裝置在該判別器網路中基於該目標訓練語句產生相應的複數個目標訓練詞嵌入向量;以及由該計算裝置在該判別器網路中將該目標訓練詞嵌入向量輸入該轉換器雙向編碼器表示模型,以獲得一預測真偽值、一預測統計分數以及一預測語句結構。
在某些實施例中,關於產生機器翻譯模型的方法4,該判別器網路可包含一轉換器的雙向編碼器表示模型,且該生成器網路還可包含另一轉換器雙向編碼器表示模型。除此之外,產生機器翻譯模型的方法4還可包含以下步驟: 由該計算裝置在該生成器網路中基於該來源訓練語句產生該來源語言的複數個詞嵌入向量;由該計算裝置該生成器網路中將該來源語言的該等詞嵌入向量輸入該另一轉換器雙向編碼器表示模型,以獲得一訓練語句嵌入向量;由該計算裝置在該生成器網路中將該語句嵌入向量輸入該轉換器模型,以產生該目標訓練語句;由該計算裝置在該判別器網路中基於該目標訓練語句產生相應的複數個目標訓練詞嵌入向量;由該計算裝置在該判別器網路中將該目標訓練詞嵌入向量輸入該轉換器雙向編碼器表示模型,以獲得一預測真偽值、一預測統計分數以及一預測語句結構;由該計算裝置根據該正確翻譯計算一正確統計分數,其中該正確統計分數是一雙語評估互補分數或一F1分數;由該計算裝置透過一自然語言處理工具包分析該目標訓練語句以獲得一正確語句結構;由該計算裝置基於該預測真偽值與該正確翻譯計算一真偽值誤差;由該計算裝置根據該預測統計分數與該正確統計分數計算一統計分數誤差;以及由該計算裝置根據該預測語句結構與該正確語句結構計算一語句結構誤差,且該目標訓練語句與該正確翻譯的該誤差可至少包含該真偽值誤差、該統計分數誤差以及該語句結構誤差。
除了上述實施例之外,產生機器翻譯模型的方法4還包含與計算裝置11的上述所有實施例相對應的其他實施例。因本發明所屬技術領域中具有通常知識者可根據上文針對計算裝置11的說明而瞭解產生機器翻譯模型的方法4的這些其他實施例,於此不再贅述。
雖然本文揭露了多個實施例,但該等實施例並非用以限制本發明,且在不脫離本發明的精神和範圍的情況下,該等實施例的等效物或方法(例如,對上述實施例進行修改及/或合併)亦是本發明的一部分。本發明的範圍以申請專利範圍所界定的內容為準。
4‧‧‧產生機器翻譯模型的方法
401、402、403‧‧‧步驟

Claims (17)

  1. 一種用於產生一機器翻譯模型的計算裝置,包含:一儲存器,用以儲存一字典資料以及一生成對抗式網路,其中該字典資料包含一來源語言的複數個詞彙與一目標語言的複數個詞彙的一對應關係,且該生成對抗式網路包含一生成器(generator)網路以及一判別器(discriminator)網路;以及一處理器,與該儲存器電性連接,用以:將該來源語言的一來源訓練語句以及該字典資料輸入該生成器網路,以讓該生成器網路根據該來源訓練語句以及該字典資料而輸出該目標語言的一目標訓練語句;將該目標訓練語句以及該來源訓練語句的一正確翻譯輸入該判別器網路,以根據該判別器網路的一輸出計算該目標訓練語句與該正確翻譯的一誤差;以及根據該誤差而分別訓練該生成器網路以及該判別器網路,進而訓練該生成對抗式網路,其中訓練完的該生成器網路即為該機器翻譯模型。
  2. 如請求項1所述的計算裝置,其中該生成器網路包含一轉換器(Transformer)模型,且在該生成器網路中該處理器還用以:根據該來源訓練語句以及該字典資料,產生該目標語言的一訓練文字序列;根據該訓練文字序列產生該目標語言的複數個訓練詞嵌入向量(word embedding);以及 將該等訓練詞嵌入向量輸入該轉換器模型,以透過該轉換器模型產生該目標訓練語句。
  3. 如請求項1所述的計算裝置,其中該判別器網路包含一轉換器的雙向編碼器表示(bidirectional encoder representation from Transformer,BERT)模型,且在該判別器網路中該處理器還用以:基於該目標訓練語句產生複數個目標訓練詞嵌入向量;以及將該等目標訓練詞嵌入向量輸入該轉換器雙向編碼器表示模型,以產生一預測真偽值、一預測統計分數以及一預測語句結構。
  4. 如請求項2所述的計算裝置,其中該生成器網路還包含另一轉換器雙向編碼器表示模型,且在該生成器網路中該處理器還用以:基於該來源訓練語句產生該來源語言的複數個詞嵌入向量;將該來源語言的該等詞嵌入向量輸入該另一轉換器雙向編碼器表示模型,以獲得一訓練語句嵌入向量(sentence embedding);以及將該訓練語句嵌入向量輸入該轉換器模型,以產生該目標訓練語句。
  5. 如請求項3所述的計算裝置,其中該處理器還用以:根據該正確翻譯計算一正確統計分數,其中該正確統計分數是一雙語評估互補(bilingual evaluation understudy,BLEU)分數或一F1分數(F1 score);透過一自然語言處理工具包(natural language toolkit,NLTK)分析該正確翻譯以獲得一正確語句結構;基於該預測真偽值與該來源訓練語句計算一真偽值誤差;根據該預測統計分數與該正確統計分數計算一統計分數誤差;以及 根據該預測語句結構與該正確語句結構計算一語句結構誤差;且其中,該目標訓練語句與該正確翻譯的該誤差至少包含該真偽值誤差、該統計分數誤差以及該語句結構誤差。
  6. 一種用於產生一機器翻譯模型的方法,適用於一計算裝置,其中該計算裝置儲存一字典資料以及一生成對抗式網路,該字典資料包含一來源語言的複數個詞彙與一目標語言的複數個詞彙的一對應關係,且該生成對抗式網路包含一生成器網路以及一判別器網路,該方法包含:由該計算裝置將該來源語言的一來源訓練語句以及該字典資料輸入該生成器網路,以讓該生成器網路根據該來源訓練語句以及該字典資料輸出該目標語言的一目標訓練語句;由該計算裝置將該目標訓練語句以及該來源訓練語句的一正確翻譯輸入該判別器網路,以根據該判別器網路的輸出計算該目標訓練語句與該正確翻譯的一誤差;以及由該計算裝置根據該誤差而分別訓練該生成器網路以及該判別器網路,進而訓練該生成對抗式網路,其中訓練完的該生成器網路即為該機器翻譯模型。
  7. 如請求項6所述的方法,其中該生成器網路包含一轉換器模型,且該方法還包含以下步驟:由該計算裝置在該生成器網路中根據該來源訓練語句以及該字典資料,產生該目標語言的一訓練文字序列;由該計算裝置在該生成器網路中根據該訓練文字序列產生該目標語言的複數個訓練詞嵌入向量;以及 由該計算裝置在該生成器網路中將該等訓練詞嵌入向量輸入該轉換器模型,以透過該轉換器模型產生該目標訓練語句。
  8. 如請求項6所述的方法,其中該判別器網路包含一轉換器的雙向編碼器表示模型,且該方法還包含以下步驟:由該計算裝置在該判別器網路中基於該目標訓練語句產生相應的複數個目標訓練詞嵌入向量;以及由該計算裝置在該判別器網路中將該目標訓練詞嵌入向量輸入該轉換器雙向編碼器表示模型,以獲得一預測真偽值、一預測統計分數以及一預測語句結構。
  9. 如請求項7所述的方法,其中該生成器網路還包含另一轉換器雙向編碼器表示模型,且該方法還包含以下步驟:由該計算裝置在該生成器網路中基於該來源訓練語句產生該來源語言的複數個詞嵌入向量;由該計算裝置該生成器網路中將該來源語言的該等詞嵌入向量輸入該另一轉換器雙向編碼器表示模型,以獲得一訓練語句嵌入向量;以及由該計算裝置在該生成器網路中將該語句嵌入向量輸入該轉換器模型,以產生該目標訓練語句。
  10. 如請求項8所述的方法,還包含以下步驟:由該計算裝置根據該正確翻譯計算一正確統計分數,其中該正確統計分數是一雙語評估互補分數或一F1分數;由該計算裝置透過一自然語言處理工具包分析該目標訓練語句以獲得一正確語句結構; 由該計算裝置基於該預測真偽值與該正確翻譯計算一真偽值誤差;由該計算裝置根據該預測統計分數與該正確統計分數計算一統計分數誤差;以及由該計算裝置根據該預測語句結構與該正確語句結構計算一語句結構誤差;且其中,該目標訓練語句與該正確翻譯的該誤差至少包含該真偽值誤差、該統計分數誤差以及該語句結構誤差。
  11. 一種機器翻譯裝置,包含:一儲存器,用以儲存一字典資料,其中該字典資料包含一來源語言的複數個詞彙與一目標語言的複數個詞彙的一對應關係;以及一處理器,與該儲存器電性連接,用以:根據該來源語言的一來源語句以及該字典資料產生該目標語言的一文字序列;基於該文字序列產生該目標語言的複數個詞嵌入向量;以及將該目標語言的該等詞嵌入向量輸入一轉換器模型,以獲得該目標語言的一目標語句。
  12. 如請求項11所述的機器翻譯裝置,其中該處理器還用以:基於該來源語句產生該來源語言的複數個詞嵌入向量;將該來源語言的該等詞嵌入向量輸入一轉換器的雙向編碼器表示模型,以獲得一語句嵌入向量;以及將該語句嵌入向量輸入該轉換器模型,以產生該目標語句。
  13. 如請求項11所述的機器翻譯裝置,其中該處理器還用以訓練一生成對抗 式網路以產生一機器翻譯模型,且該處理器是透過該機器翻譯模型而將該來源語句轉換為該目標語句,該生成對抗式網路包含:一生成器網路,且該處理器於該生成器網路中還用以根據該來源語言之一來源訓練語句以及該字典資料產生該目標語言之一目標訓練語句;以及一判別器網路,且該處理器於該判別器網路中還用以判別該目標訓練語句的來源;且其中,該處理器還用以:將該目標訓練語句輸入至該判別器網路,以根據該判別器網路的一輸出而計算該目標訓練語句與該來源訓練語句的一正確翻譯的一誤差;以及根據該誤差來分別訓練該生成器網路以及該判別器網路,進而訓練該生成對抗式網路,其中訓練完的該生成器網路即為該機器翻譯模型。
  14. 如請求項13所述的機器翻譯裝置,其中在該生成器網路中該處理器還用以:根據一來源訓練語句以及該字典資料,產生該目標語言的一訓練文字序列;基於該訓練文字序列產生該目標語言的複數個訓練詞嵌入向量;以及將該目標語言的該等訓練詞嵌入向量輸入該轉換器模型,以產生一目標訓練語句。
  15. 如請求項13所述的機器翻譯裝置,其中該生成器網路還包含另一轉換器雙向編碼器表示模型,且在該生成器網路中該處理器還用以:基於該來源訓練語句產生該來源語言的複數個詞嵌入向量;將該來源語言的該等詞嵌入向量輸入該另一轉換器雙向編碼器表示模型,以獲得一訓練語句嵌入向量;以及將該訓練語句嵌入向量輸入該轉換器模型,以產生該目標訓練語句。
  16. 如請求項13所述的機器翻譯裝置,其中該判別器網路包含另一轉換器雙向編碼器表示模型,且在該判別器網路中該處理器還用以:基於該目標訓練語句產生相應的複數個目標訓練詞嵌入向量;以及將該等目標訓練詞嵌入向量輸入該另一轉換器雙向編碼器表示模型,以產生一預測真偽值、一預測統計分數以及一預測語句結構。
  17. 如請求項15所述的機器翻譯裝置,其中該處理器還用以:根據該正確翻譯計算一正確統計分數,其中該正確統計分數是一雙語評估互補分數或一F1分數;透過一自然語言處理工具包分析該目標訓練語句以獲得一正確語句結構;基於該預測真偽值與該正確翻譯計算一真偽值誤差;根據該預測統計分數與該正確統計分數計算一統計分數誤差;以及根據該預測語句結構與該正確語句結構計算一語句結構誤差;且其中,該目標訓練語句與該正確翻譯的該誤差至少包含該真偽值誤差、該統計分數誤差以及該語句結構誤差。
TW108142757A 2019-11-25 2019-11-25 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置 TWI753325B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108142757A TWI753325B (zh) 2019-11-25 2019-11-25 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
US16/699,477 US11520997B2 (en) 2019-11-25 2019-11-29 Computing device and method for generating machine translation model and machine-translation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108142757A TWI753325B (zh) 2019-11-25 2019-11-25 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置

Publications (2)

Publication Number Publication Date
TW202121229A TW202121229A (zh) 2021-06-01
TWI753325B true TWI753325B (zh) 2022-01-21

Family

ID=75975368

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108142757A TWI753325B (zh) 2019-11-25 2019-11-25 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置

Country Status (2)

Country Link
US (1) US11520997B2 (zh)
TW (1) TWI753325B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182637B (zh) * 2019-12-24 2022-06-21 浙江大学 一种基于生成对抗强化学习的无线网络资源分配方法
DE202020102105U1 (de) * 2020-04-16 2020-04-29 Robert Bosch Gmbh Vorrichtung zum automatisierten Erzeugen eines Wissensgraphen
CN111859997B (zh) * 2020-06-16 2024-01-26 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
US12007831B2 (en) * 2021-08-18 2024-06-11 Capital One Services, Llc Devices and components for machine learning-based signal error correction and methods of use thereof
CN113836950B (zh) * 2021-09-22 2024-04-02 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备与介质
CN114201975B (zh) * 2021-10-26 2024-04-12 中国科学技术大学 翻译模型训练方法和翻译方法及其装置
CN114996459A (zh) * 2022-03-18 2022-09-02 星宙数智科技(珠海)有限公司 平行语料的分类方法、装置、计算机设备及存储介质
CN116227506B (zh) * 2023-05-08 2023-07-21 湘江实验室 一种具有高效非线性注意力结构的机器翻译方法
CN116595999B (zh) * 2023-07-17 2024-04-16 深圳须弥云图空间科技有限公司 一种机器翻译模型训练方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10170114B2 (en) * 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
CN110413736A (zh) * 2019-07-25 2019-11-05 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN110442691A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257985A1 (en) * 2019-02-08 2020-08-13 DeepSig Inc. Adversarially generated communications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10170114B2 (en) * 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
CN110442691A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
CN110413736A (zh) * 2019-07-25 2019-11-05 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mikel Artetxe and Holger Schwenk. 2018. Massively multilingual sentence embeddings for zeroshot cross-lingual transfer and beyond, 2019/9/25, https://arxiv.org/pdf/1812.10464.pdf *
Phillip Keung, Yichao Lu, Vikas Bhardwaj, Adversarial Learning with Contextual Embeddings for Zero-resource Cross-lingual Classification and NER, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019/11/3~2019/11/7, https://www.aclweb.org/anthology/D19-1138.pdf; *

Also Published As

Publication number Publication date
TW202121229A (zh) 2021-06-01
US20210157991A1 (en) 2021-05-27
US11520997B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
TWI753325B (zh) 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
JP7031101B2 (ja) 方法、システムおよび有形コンピュータ可読デバイス
WO2020119075A1 (zh) 通用文本信息提取方法、装置、计算机设备和存储介质
US11861307B2 (en) Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system
Zhu et al. Knowledge-based question answering by tree-to-sequence learning
CN111859987B (zh) 文本处理方法、目标任务模型的训练方法和装置
RU2692049C1 (ru) Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
WO2019154210A1 (zh) 机器翻译的方法、设备以及计算机可读存储介质
CN108595629B (zh) 用于答案选择系统的数据处理方法及应用
CN105468585A (zh) 机器翻译装置和机器翻译方法
CN111738016A (zh) 多意图识别方法及相关设备
CN109635197B (zh) 搜索方法、装置、电子设备及存储介质
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN113743099B (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN114036955B (zh) 中心词跨句事件论元检测方法
WO2021244099A1 (zh) 语音编辑方法、电子设备及计算机可读存储介质
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
Wang et al. Syntax-directed hybrid attention network for aspect-level sentiment analysis
CN113569559B (zh) 短文本实体情感分析方法、系统、电子设备及存储介质
CN112599129B (zh) 语音识别方法、装置、设备和存储介质
Vashistha et al. Active learning for neural machine translation
WO2023088278A1 (zh) 用于验证表述的真实性的方法、设备、装置和介质
WO2023061107A1 (zh) 基于层预测的语言翻译的方法、设备、装置和介质
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN111128181B (zh) 背诵题评测方法、装置以及设备