TWI629601B - 提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法 - Google Patents

提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法 Download PDF

Info

Publication number
TWI629601B
TWI629601B TW104109873A TW104109873A TWI629601B TW I629601 B TWI629601 B TW I629601B TW 104109873 A TW104109873 A TW 104109873A TW 104109873 A TW104109873 A TW 104109873A TW I629601 B TWI629601 B TW I629601B
Authority
TW
Taiwan
Prior art keywords
translation
sentences
sentence
providing
meaning
Prior art date
Application number
TW104109873A
Other languages
English (en)
Other versions
TW201539209A (zh
Inventor
申中揮
朴珍伊
金鍾煥
權京熙
金俊錫
Original Assignee
納寶股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 納寶股份有限公司 filed Critical 納寶股份有限公司
Publication of TW201539209A publication Critical patent/TW201539209A/zh
Application granted granted Critical
Publication of TWI629601B publication Critical patent/TWI629601B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本發明提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法。在通過電腦實施的翻譯結果提供方法中,包括以下步驟:生成將以來源語言寫成的原文翻譯成目的語言的譯文的步驟;和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別分類提供的步驟。

Description

提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法
本發明的實施例涉及一種使用電腦來生成原文的譯文的機器翻譯技術。
隨著近來國家之間的交流增加和資訊通信網的擴大,越來越需要機器翻譯裝置來將第一語言,即來源語言(source language)的句子翻譯成第二語言,即目的語言(target language)的句子。這種機器翻譯裝置,目標在於經過對輸入的原文進行語素分析、句法分析、轉換及生成等一般步驟,來翻譯成其他語言的文章。
現有的機器翻譯方式,根據對文章的分析程度可分為直接法(direct method)、轉換法(transfer method)、樞軸法(pivot method)等。在這裡,直接法是通過來源語言和目的語言之間的直接對應進行的翻譯,轉換法是分別對來源語言和目的語言定義兩種形態的中間表述並通過分析、轉換、生成步驟進行的翻譯,樞軸法是對來源語言和目的語言定義一個中立表述並大致上通過分析步驟和生成步驟兩個步驟來進行的翻譯。
另一方面,進入90年代後公佈的機器翻譯方式中,有基於規則的機器翻譯、基於統計的機器翻譯、將基於規則的機器翻譯和基於統計的機器翻譯結合的混合機器翻譯等,其使用從之前翻譯的過程中獲得的知識或翻譯樣本,或其統計來進行翻譯。
作為基於統計方法的機器翻譯技術的例子,韓國公開專利第10-2010-0037813號(公開日2010年4月12日)中公開了將語言資訊反映至以雙語平行語料庫(bilingual parallel corpus)的分析為基礎的統計機器翻譯中的機器翻譯裝置及機器翻譯方法。
圖1示出了概率翻譯候選樣本。以往的機器翻譯裝置,如圖1所示,以原文的翻譯候選的單詞/短語/規則(word/phrase/rule)為基礎測定分數(score),結合相關候選以排列句子總分數的方法來生成譯文。
圖2示出了找出將德語原文進行英語翻譯的正確路徑的樣本,以所示樣本的方法,使用相關候選來按照概率高低順序排列展示。
如上所述,以往的機器翻譯技術只不過是考慮對原文的翻譯是否正確的方法。
提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法,將作為原文譯文的對譯的候選句子生成為完整形態的句子。
提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法,在譯文的候選句子的生成過程中生成與意思分類相符的候選句子。
提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法,生成與使用者的目的和個性相符的意思類別的譯文。
提供一種提供翻譯與分類翻譯結果的方法,在通過電腦實施的翻譯結果提供方法中,包括以下步驟:生成將以來源語言寫成的原文翻譯成目的語言的譯文的步驟;和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別(semantic category)分類提供的步驟。
根據一個方面,其特徵在於,所述意思類別,包括文體、句型、時態中的至少一個來作為用於將句子分類的標準。
根據另一個方面,其特徵在於,所述生成步驟,將所述原文被翻譯成的候選句子,按照以機器翻譯模型測定的分數的順序排列,提取分數高的排名前列的多個句子,所述提供步驟,作為翻譯結果顯示所述多個句子,並將所述多個句子中分數最高的句子與其餘句子區別顯示。
根據又一個方面,其特徵在於,所述提供步驟,當所述原文被翻譯成的候選句子有多個時,將所述候選句子按照意思類別進行區別顯示。
根據又一個方面,其特徵在於,進一步包括以下步驟:接收使用者選擇的翻譯結果的意思類別的步驟,其中,所述提供步驟,顯示所述原文被翻譯成的候選句子中被分類至所述用戶選中的意思類別中的句子。
根據又一個方面,其特徵在於,進一步包括以下步驟:分析寫原文的使用者的句子個性的步驟,其中,所述提供步驟,顯示所述原文被翻譯成的候選句子中被分類至與所述用戶的句子個性對應的意思類別中的句子。
根據又一個方面,進一步包括以下步驟:將所述原文的意思類別進行分類的步驟,其中,所述提供步驟,顯示所述原文被翻譯成的候選句子中被分類至與所述原文相同或相似的意思類別中的句子。
提供一種提供翻譯與分類翻譯結果的系統,包括:載入有至少一個程式的記憶體,和至少一個處理器,其中,所述至少一個處理器,根據所述程式的控制,處理以下過程:生成將以來源語言寫成的原文翻譯成目的語言的譯文的過程;和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別分類提供的過程。
提供一種提供翻譯與分類翻譯結果的電腦可讀存儲媒體,其作為包括控制電腦系統提供翻譯結果的指令(instruction)的媒體,所述指令,依照包括以下步驟的方法來控制所述電腦系統:生成將以來源語言寫成的原文翻譯成目的語言的譯文的步驟;和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別分類提供的步驟。
提供一種提供翻譯與分類翻譯結果的檔案分配系統,作為分配在使用者終端中安裝的應用的檔案的檔案分配系統,包括:檔案傳送單元,其根據所述使用者終端的請求傳送所述檔案,其中,所述應用,包括以下模組:控制使用者終端來將以來源語言寫成的原文傳送至機器翻譯伺服器的模組;和控制使用者終端來顯示在所述機器翻譯伺服器中提供的將所述原文翻譯成目的語言的譯文的模組,其中,在所述機器翻譯伺服器中,將所述譯文按照句子的意思類別進行分類來提供至所述使用者終端。
提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法,將作為原文譯文的對譯的候選句子生成為完整形態的句子。
提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法,在譯文的候選句子的生成過程中生成與意思分類相符的候選句子。
提供一種提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法,生成與使用者的目的和個性相符的意思類別的譯文。
300‧‧‧機器翻譯系統
301‧‧‧使用者終端
400‧‧‧處理器
401‧‧‧存儲器
402‧‧‧網絡接口
403‧‧‧基於規則的機器翻譯模型
404‧‧‧基於統計的機器翻譯模型
405‧‧‧混和型機器翻譯模型
410‧‧‧譯文生成單元
420‧‧‧結果提供單元
501‧‧‧翻譯對數據
502‧‧‧估算單詞之間的翻譯概率
503‧‧‧根據單詞概率來決定短語區段
504‧‧‧生成短語候選
505‧‧‧提取短語
601‧‧‧語言數據
602‧‧‧從單詞列中估算單詞列的概率
603‧‧‧語言模型
900‧‧‧翻譯結果畫面
910‧‧‧原文
920、930‧‧‧譯文
1000‧‧‧翻譯結果畫面
1010‧‧‧原文
1020、1030‧‧‧譯文
1120、1130‧‧‧句子
1140‧‧‧意思類別
1200‧‧‧翻譯結果畫面
1250‧‧‧功能表環境
圖1和圖2是用於說明現有機器翻譯方法的示意圖。
圖3是概括性地示出根據本發明一個實施例的使用者終端和機器翻譯系統之間的關係的圖。
圖4是示出根據本發明一個實施例的機器翻譯系統的內部結構的框圖。
圖5是示出用於構建基於統計的機器翻譯的翻譯概率表過程的流程圖。
圖6是示出用於構建基於統計的機器翻譯的語言模型過程的流程圖。
圖7和圖8是用於說明使用翻譯模型和語言模型來選擇譯文的過程的圖。
圖9至圖12是示例性地示出根據本發明一個實施例顯示根據意思類別進行分類的翻譯候選句子的服務畫面的圖。
下面,參照附圖詳細說明本發明的實施例。
本實施例涉及使用電腦自動生成原文的譯文的機器翻譯的技術。
圖3是概括性地示出根據本發明一個實施例的使用者終端和機器翻譯系統之間的關係的圖。圖3示出了使用者終端301和機器翻譯系統300。在圖3中,箭頭表示使用者終端301和機器翻譯系統300之間可使用有線/無線網路 進行收發資料。
機器翻譯系統300,起到將用戶輸入的來源語言的句子(以下簡稱原文)翻譯成目的語言的句子(以下簡稱譯文)並提供翻譯結果的翻譯引擎的作用。特別是,機器翻譯系統300,將原文的譯文的候選句子按照分數順序排列並提取至少一個(N個)之後,將提取出的候選句子按照意思分類,並提供翻譯結果。
使用者終端301,可以表示能夠安裝及運行與機器翻譯系統300相關的web/移動網站的連接或服務專用應用的所有終端裝置,如個人電腦(PC)、智慧手機(smart phone)、平板電腦(tablet)、可擕式電腦(laptop computer)、數位多媒體廣播終端(DMB)、可擕式多媒體播放機(PMP,Portable Multimedia Player)、導航(navigation)終端等。此時,使用者終端301可以在web/移動網站或專用應用的控制下執行服務畫面構成、資料登錄、資料收發、資料存儲等整體服務的操作。此外,使用者終端301可包括:輸入裝置,用於向機器翻譯系統300輸入原文;輸出裝置,用於輸出機器翻譯系統300中提供的翻譯結果,此時,作為輸入裝置,可以使用鍵盤、滑鼠、掃描器、麥克風等,作為輸出裝置可以使用顯示器、印表機、揚聲器等。
圖4是示出根據本發明一個實施例的機器翻譯系統的內部結構的框圖。如圖4所示,機器翻譯系統可以包括由譯文生成單元410和結果提供單元420構成的處理器400、存儲器401、網絡接口402。此外,機器翻譯系統可包括與用於從原文自動生成譯文的多種翻譯模型關聯的資料庫系統。例如,作為用於機器翻譯的翻譯模型,可以使用基於規則的機器翻譯模型403、基於統計的機器翻譯模型404、將基於規則方式的和基於統計方式混合的混合型機器翻譯模型405等。
存儲器401可存儲有程式,該程式包括與機器翻譯例行程式對應的指令,用來生成原文對應的譯文的候選句子並將候選句子的意思類別分類。將在下文中描述的機器翻譯系統中執行的過程,可由存儲器401中存儲的程式來運行。例如,存儲器401可以是硬碟、固態硬碟(SSD)、安全數位存儲卡(SD卡)以及其他存儲媒體。
網絡接口402可將機器翻譯系統連接至網路,用於進行與使用基於意思類別的機器翻譯服務的多個使用者終端的通信。
處理器400是根據存儲器401中存儲的程式的指令來進行處理的裝置,可包括CPU等微處理器。處理器400的詳細結構如下。
譯文生成單元410可應用預先對原文定義的機器翻譯模型(基於規則的機器翻譯模型、基於統計的機器翻譯模型、混合型機器翻譯模型)來生成譯文。此時,譯文生成單元410,在生成原文的譯文的過程中,可以將譯文的候選句子生成為各種意思類別的句子。也就是說,譯文生成單元410,可將原文中被翻譯出來的譯文的候選句子按照分數順序排列並提取N個句子,並按照提取出的候選句子具有的意思類別來進行分類。此時,意思類別可以表示文體、句型、時態、語言規範等用於將句子性質分類的所有標準。例如,意思類別可根據文體區分成書面語體、口語體,可根據句型區分成陳述句、勸誘句、命令句、敬語、謙語等,可根據時態區分成過去時、現在時、未來時等,可根據語言規範區分成普通話、方言等。
結果提供單元420提供原文的譯文,可將意思相似的幾個候選句子包含在翻譯結果中進行提供。此時,所謂候選句子,不僅包括單純地提供意思相似的單詞的候選,還包括具有完整句子形態的意思相似的單詞替換形成的完整句子,而且還包括單詞和結構本身完全不同的完整句子。作為提供翻譯結果的一個例子,結果提供單元420,可將譯文的候選句子按照意思類別進行區別顯示。作為另一個例子,結果提供單元420,可在譯文的候選句子中,篩選出按照使用者的目的,即按照使用者選擇的意思類別進行分類的候選句子進行顯示。作為又一個例子,結果提供單元420,可在譯文的候選句子中,篩選出按照與用戶的個性(personality)相符的意思類別進行分類的候選句子進行顯示。此時,使用者個性,可根據網際網路上分散的使用者資訊來進行分析,例如,可分析使用者經常使用的服務種類或經常使用的文體等來推測用戶可能會使用的句子的意思類別。再如另一個例子,結果提供單元420,將使用者輸入的原文的意思類別自動分類,來篩選出原文的翻譯候選句子中與原文的意思類別相同或相似的句子來進行顯示。
根據上述結構,本發明的機器翻譯系統,在翻譯候選句子的生成過程中,如下表1的樣本所示,將與意思分類相符的句子生成或後續處理來進行提供。
因此,機器翻譯系統可以在機器翻譯的候選句子的生成過程中,根據候選句子的意思類別進行分類,由此可以提供與使用者的目的和個性相符的譯文。例如,對於新聞報導原文生成報導形式的書面語句,或者生成社交網站(SNS,短信或帖子等)上的對話中符合的口語體句子等,可以生成各種意思類別的譯文。
根據機器翻譯實施的意思類別化方法,具體說明如下。
基於規則的機器翻譯模型
一般的基於規則的機器翻譯方式,可以使用來源語言和目的語言的語言資訊來生成翻譯規則,可對應這種翻譯規則來生成原文的譯文。
對表2的樣本進行基於規則的譯文生成過程如下。
一般化:[主語][動詞過去時][賓語1][賓語2]。
更改順序:[主語][賓語2][賓語1][動詞過去時]
應用語言特點:[主語]()[賓語2][賓語1]()[動詞過去時]
應用翻譯規則:[][][][].([我][水][一杯][喝了])
因此,機器翻譯系統可在按照各種意思類別生成規則後,生成與意思類別相符的翻譯句子。換句話說,可向一般的基於規則的翻譯方式的翻譯規則中添加根據意思類別的翻譯規則。
對表2的譯文,可將根據意思類別的翻譯規則應用語尾變化,也可以對整個句子應用,其結果展示如下。
<樣本>
未来時規則:(我打算喝一杯水)
口語體規則:(我喝杯水)
對话體規則:(我喝水)
省略(缩略)規則:(喝水)
如上所述,可在應用根據意思類別的翻譯規則來生成多個候選句子後,將生成的候選句子以適當的意思類別進行分類。
<樣本>
(我打算喝一杯水)→分類為未來時
(我喝杯水)→分類為口語體
(我喝水)→分類為對話體
(喝水)→分類為縮略語
候選句子可以以統計方法或規則方法來進行分類。
首先,句子分類的統計方法,是以統計來估算句子具有何種意思並分類的方式。例如,可以估算為,“(我吃過 飯了)”在概率上接近 書 面語體,“ (我吃了)”在概率上接近口語體。
接下來,句子分類的規則方法,是對句子的構成要素進行意思分析之後,應用相關規則,來賦予句子的意思分類的方式。例如,以“”结束的话,將其分類為口語體,以“”结束的话,將其分類為書面語體等,從簡單的規則,到根據意思分析的具有複雜度的各種規則,可以任意擴大。
基於統計的機器翻譯模型
一般的基於統計的機器翻譯模型,可包括翻譯模型(translation model)構建過程、語言模型(language model)構建過程、及使用翻譯模型和語言模型的譯文選擇過程。
首先,機器翻譯系統可以使用互不相同的兩種語言的翻譯對資料來構建翻譯概率表。
圖5是示出用於構建基於統計的機器翻譯的翻譯概率表過程的流程圖。例如,如圖5所示,機器翻譯系統可從兩個語言的大容量翻譯對數據501來估算單詞之間的翻譯概率之後502,根據估算的單詞概率來決定短語(phrase)區段503。此外,機器翻譯系統,可對決定出的短語區段,從短語候選資料504中提取短語505來構建包括翻譯概率表的翻譯模型506。
此外,機器翻譯系統可以按照各個語言使用相關語言的大容量資料來構建語言模型,並構建句子的自然度的相關概率列表。
圖6是示出了用於構建基於統計的機器翻譯的語言模型的過程的流程圖。例如,如圖6所示,機器翻譯系統可從特定語言構成的句子的大容量數據601中估算各單詞列中相關單詞列的概率602並存儲,由此構建表示句子自然度概率清單的語言模型603。
然後,機器翻譯系統可以使用雙語翻譯模型和單一語言的語言模型來選擇譯文。
圖7是用於說明使用翻譯模型和語言模型來選擇譯文的過程的圖。例如,如圖7所示,機器翻譯系統通過解碼器(decoder),使用從雙語語料庫(bilingual corpus)構建的翻譯模型和從單語語料庫(monolingual corpus)構建的翻譯模型,來從原文譯文的幾個候選中選出最佳候選。圖8示出了德語原文的英語譯文的選擇過程,圖8中進行陰影處理的列的結合句子,表示翻譯模型中的短語概率和語言模型中的單詞列概率同時較高的句子列。
上述基於統計的翻譯方式,可應用于本發明中提出的候選句子生成技術中。
例如,機器翻譯系統應用基於統計的機器翻譯的譯文選擇方式,將原文翻譯成的譯文的候選句子按照分數順序排列以後,從高分順序提取N個候選句子。並且,機器翻譯系統,可將提取的N個候選句子分類成合適的意思類別。此時,候選句子的意思類別可按照統計方法或規則方法來進行分類。這與上述說明的基於規則的機器翻譯的方式相同。
因此,機器翻譯系統,可以額外地對各種意思類別構建與各意思類別相符的語言模型,並將其應用至機器翻譯中,由此引導使原文的譯文成為從概率上符合意思類別的翻譯。對意思類別構建的語言模型,起到通過記有大量句子的語料庫來生成從概率上較為自然的句子的作用,此時,選擇性地構建語言模型來使其符合特定意思類別,來估算意思類別的概率。例如,當構建推特(Twitter)的大容量語料庫來製成概率表時,推特風格的句子被選中的概率就會變高。
混合型機器翻譯模型
一般的混合型機器翻譯方式,是將前述的基於規則的機器翻譯方式和基於統計的機器翻譯方式適當應用的方式。在混合機器翻譯方式中也一樣,可以在生成原文的幾個翻譯候選句子之後,將翻譯候選句子分類成合適的意思類別。
在機器翻譯方式中,由於可以進行基於規則的和基於統計的混合,因此可以進行將翻譯候選句子按照意思分類選擇的方式或基於規則與基於統計的混合。
總之,所有方法(基於規則、基於統計、混合)的機器翻譯系統,都可以在生成原文的譯文的過程中生成多種意思類別的幾個翻譯候選句子。
根據本發明的機器翻譯系統,提供原文的譯文時,可在提供的翻譯結果中包括意思相同的或相似的幾個候選句子。例如,機器翻譯系統,可以將原文翻譯成的譯文的候選句子按照分數排列,提取N個句子,在翻譯結果中將其中分數最高的最佳句子與其餘候選句子進行區別顯示。此時,機器翻譯系統,可在提供的翻譯結果中以完整句子的形式包括除了最佳句子意外的其他候選句子。
圖9示例性地示出了將韓語翻譯成英語的翻譯結果畫面900。機器翻譯系统,當輸入以韓語寫成的原文“(沒關係)”910時,作為翻譯结果可以顯示翻譯成英語的譯文920、930,此時,作為對原文“(没關係)”910的翻譯结果,可將分數最高的最佳句子“That's all right.”920和與“That's all right.”意思相似的幾個候選句子即"No problem."、"Never mind."、"It doesn't matter."等930區别顯示。
圖10示例性地示出了將英語翻譯成韓國語的翻譯結果畫面1000。機器翻譯系统,當輸入以英語寫成的原文“I'm just looking around(我只是隨便看看).”1010時,作為檢索结果,可顯示翻譯成韓國 語的譯文1020、1030,此時,作為對原文“I'm just looking around.”1010的翻譯结果,可將分數最高的最佳句子“ (我只是隨便看看)”1020和與“(我只是隨便看看)”意思相同或相似的候選句子,即" (我要隨便看看)"、"(我在隨便看看)"、"(我隨便看看)"等1030區別顯示。
特別是,根據本發明的機器翻譯系統,可將翻譯結果中包含的句子按照意思類別進行區別顯示。此時,意思類別可以表示文體(書面語體、口語體等)、句型(陳述句、勸誘句、命令句、敬語、謙語等)、時態(過去時、現在時、未來時等)、語言規範(普通話、方言等)等用於將句子性質分類的所有標準。例如,如圖11所示,可與翻譯結果中包含的句子1120、1130相鄰顯示各句子所屬的意思類別1140。
作為另一例子,根據本發明的機器翻譯系統,可將與使用者選擇的意思類別相符的候選句子作為翻譯結果顯示。此時,機器翻譯系統,可在幾個翻譯候選句子中只顯示與使用者選中的意思類別對應的句子,也可以顯示幾個翻譯候選句子,但將用戶選中的意思類別的候選句子與其他候選句子區別顯示。例如,如圖12所示,在翻譯結果畫面1200的特定位置上,可提供指定用戶想要接受提供的譯文的意思類別的功能表環境1250。由此,機器檢索系統,可通過功能表環境1250接收使用者選擇的意思類別,然後篩選被分類至該意思類別中的候選句子進行顯示。除了上述方式以外,當輸入原文時,可顯示請求選擇意思類別的快顯視窗,或者通過翻譯機的環境設置等來提供意思類別選擇路徑,以便可進行預先設置。
進一步,本發明的機器翻譯系統,使得使用者無需一一選擇特定意思類別也可以根據使用者個性來預測使用者想要接收的譯文的意思類別並進行自動設置。此時,使用者個性,可以根據網際網路上的使用者資訊來進行分析,例如可分析使用者經常使用的服務(例如新聞報導、社區論壇、博客、短信等)或經常使用的文體等來設置與用戶個性相符的句子的意思類別。也就是說,可以分析用戶較喜歡的句子個性,在顯示翻譯結果時自動反映用戶的句子個性。
此外,根據本發明的機器翻譯系統,當使用者輸入原文時,可將原文的文體或句型等意思類別進行自動分類,由此可將對原文生成的翻譯候選句子中與原文意思類別相同或相近的句子進行區別顯示。例如,如果原文 的意思類別為口語體而被分類為敬語時,那麼,可在翻譯候選句子中,將被分類為與原文的文體和句型相同的口語體的敬語句子作為翻譯結果顯示。
上述機器翻譯方法,可基於通過圖3至圖12進行說明的機器翻譯系統的詳細內容,以兩個以上的操作構成。
本發明的實施例的各方法,可以被記錄在以通過各種電腦系統運行的程式指令(instruction)形式實施的電腦可讀媒體中。
在根據本實施例的機器翻譯方法中,與原文輸入及譯文輸出相關的程式,可以被構成為基於PC的程式或專門用於移動終端的應用。本實施例中的機器翻譯應用,可是獨立地運行的程式,或者為特定應用(例如檢索程式等)的應用程式嵌入式(in-app),可在所述特定應用上進行操作。
此外,根據本發明的實施例的方法,與提供翻譯服務的伺服器系統相關的應用可控制使用者終端來運行。作為一個例子,這種應用,可包括以下模組:接收用戶輸入的原文或接收對想要接收提供的譯文的意思類別的選擇,並傳送至伺服器系統的模組;及將從伺服器系統接收到的譯文進行輸出的模組。此外,此類應用,可以通過檔案分配系統提供的檔案來安裝至使用者終端中。作為一個例子,檔案分配系統可包括根據使用者終端的請求傳送所述檔案的檔案傳送單元(未圖示)。
如上所述,本發明的實施例,可以以完整形式的句子來提供原文的譯文的對譯的候選句子,可將翻譯結果中包含的譯文的句子按照意思類別進行分類顯示,特別是,可以篩選與使用者的目的或個性相符的意思類別的譯文來提供。
上面所述的裝置,可以由硬體元件、軟體元件和/或硬體元件和軟體元件的組合來構成。例如,在實施例中描述的裝置及其元件,例如處理器、控制器、算數邏輯單位(ALU,arithmetic logic unit)、數位訊號處理器(digital signal processor)、微型電腦、現場可程式設計閘陣列(FPGA,field programmable gate array)、可程式設計邏輯單元(PLU,programmable logic unit)、微處理器或可以執行回應指令(instruction)的任何其他設備,可使用一個或多個通用或專用電腦來實施。處理裝置可執行作業系統(OS)和在所述作業系統上執行的一個或多個軟體應用程式。此外,處理裝置可回應軟體的執行來訪問、存儲、操作、處理和生成資料。為便於理解,處理裝置在某些情況下被描述為使用一個,但本技術領域的技術人員可以知道,處理裝置還可包括多個處理元件(processing element)和/或多個類型 的處理元件。例如,處理裝置可包括多個處理器或一個處理器與一個控制器。此外,並行處理器(parallel processor)之類的其他處理配置(processing configuration)也是可行的。
軟體可包括電腦程式(computer program)、代碼(code)、指令(instruction)或這些中的一個或多個的組合,可將處理裝置構建成可根據所需進行操作,或獨立地或結合地(collectively)命令處理裝置。軟體和/或資料,為使用處理裝置來解釋或向處理裝置提供指令或資料,可被永久性地或暫時性地具體化在任何類型的機器、元件(component)、物理裝置、虛擬裝置(virtual equipment)、電腦存儲媒體或裝置、傳送的信號波(signal wave)中。軟體被分佈在網路連接的電腦系統上,以便以分佈方式存儲和執行。軟體和資料可被存儲在一個或多個電腦可讀媒體上。
根據實施例的方法,可被記錄在以可由各種電腦裝置執行的程式指令形態實施的電腦可讀媒體中。所述電腦可讀媒體還可包括獨立的或組合的程式指令、資料檔案、資料結構等。記錄在所述媒體中的程式指令可以是專門為本發明實施例設計構建的,也可以是為電腦軟體技術人員熟知而應用的。電腦可讀媒體的例子包括:磁媒體(magnetic media),如硬碟、軟碟和磁帶;光學媒體(optical media),如CD ROM、DVD;磁光媒體(magneto-optical media),如光碟(floptical disk);和專門配置為存儲和執行程式指令的硬體裝置,如唯讀記憶體(ROM)、隨機存取記憶體(RAM)、快閃記憶體等存儲等。程式指令的例子,既包括由編譯器產生的機器代碼,也包括可使用解譯器等由電腦執行的高階語言代碼。所述硬體裝置可配置為作為一個以上軟體模組運行以執行實施例的操作,反之亦然。
如上所示,本發明雖然已參照有限的實施例和附圖進行了說明,但本發明所屬領域的技術人員均可以從此記載中進行各種修改和變更。例如,所述技術可按照與所述方法不同的順序來執行,和/或所述的系統、結構、裝置、電路等元件可以以與所述方法不同的形態結合或組合,也可被代替或替換為其他元件或同等物來達成適當的結果。
由此,其他實施、其他實施例及申請專利範圍的等同物均屬於後附的申請專利範圍。

Claims (14)

  1. 一種提供翻譯與分類翻譯結果的方法,包括以下步驟:生成將以來源語言寫成的原文翻譯成目的語言的譯文的步驟;和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別分類提供的步驟,其中,所述意思類別包括文體、句型、時態、語言規範中的至少一個來作為用於將句子分類的標準,文體區分成書面語體、口語體,句型區分成陳述句、勸誘句、命令句、敬語、謙語,時態區分成過去時、現在時、未來時,語言規範區分成普通話、方言。
  2. 如請求項1所述提供翻譯與分類翻譯結果的方法,其特徵在於,所述生成步驟,將所述原文被翻譯成的候選句子,按照以機器翻譯模型測定的分數的順序排列,提取分數高的排名前列的多個句子,所述提供步驟,作為翻譯結果顯示所述多個句子,並將所述多個句子中分數最高的句子與其餘句子區別顯示。
  3. 如請求項1所述提供翻譯與分類翻譯結果的方法,其特徵在於,所述提供步驟,當所述原文被翻譯成的候選句子有多個時,將所述候選句子按照意思類別進行區別顯示。
  4. 如請求項1所述提供翻譯與分類翻譯結果的方法,其特徵在於,其進一步包括以下步驟:接收使用者選擇的翻譯結果的意思類別的步驟,其中,所述提供步驟,顯示所述原文被翻譯成的候選句子中被分類至所述用戶選中的意思類別中的句子。
  5. 如請求項1所述提供翻譯與分類翻譯結果的方法,其特徵在於,其進一步包括以下步驟:分析寫所述原文的使用者的句子個性的步驟,其中,所述提供步驟,顯示所述原文被翻譯成的候選句子中被分類至與所述用戶的句子個性對應的意思類別中的句子。
  6. 如請求項1所述提供翻譯與分類翻譯結果的方法,其特徵在於,其進一步包括以下步驟:將所述原文的意思類別進行分類的步驟,其中,所述提供步驟,顯示所述原文被翻譯成的候選句子中被分類至與所述原文相同或相似的意思類別中的句子。
  7. 一種提供翻譯與分類翻譯結果的系統,包括:載入有至少一個程式的記憶體,和至少一個處理器;其中,所述至少一個處理器,根據所述程式的控制,處理以下過程:生成將以來源語言寫成的原文翻譯成目的語言的譯文的過程,和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別分類提供的過程,其中,所述意思類別包括文體、句型、時態、語言規範中的至少一個來作為用於將句子分類的標準,文體區分成書面語體、口語體,句型區分成陳述句、勸誘句、命令句、敬語、謙語,時態區分成過去時、現在時、未來時,語言規範區分成普通話、方言。
  8. 如請求項7所述提供翻譯與分類翻譯結果的系統,其特徵在於,所述生成過程,將所述原文被翻譯成的候選句子,按照以機器翻譯模型測定的分數的順序排列,提取分數高的排名前列的多個句子,所述提供過程,作為翻譯結果顯示所述多個句子,並將所述多個句子中分數最高的句子與其餘句子區別顯示。
  9. 如請求項7所述提供翻譯與分類翻譯結果的系統,其特徵在於,所述提供過程,當所述原文被翻譯成的候選句子有多個時,將所述候選句子按照意思類別進行區別顯示。
  10. 如請求項7所述提供翻譯與分類翻譯結果的系統,其特徵在於,所述至少一個處理器,根據所述程式的控制,進一步處理以下過程:接收用戶選擇的翻譯結果的意思類別的過程,所述提供過程,顯示所述原文被翻譯成的候選句子中被分類至所述用戶選中的意思類別中的句子。
  11. 如請求項7所述提供翻譯與分類翻譯結果的系統,其特徵在於,所述至少一個處理器,根據所述程式的控制,進一步處理以下過程:分析寫所述原文的用戶的句子個性的過程,所述提供過程,顯示所述原文被翻譯成的候選句子中被分類至與所述用戶的句子個性對應的意思類別中的句子。
  12. 如請求項7所述提供翻譯與分類翻譯結果的系統,其特徵在於,所述至少一個處理器,根據所述程式的控制,進一步處理以下過程:將所述原文的意思類別進行分類的過程,所述提供過程,顯示所述原文被翻譯成的候選句子中被分類至與所述原文相同或相似的意思類別中的句子。
  13. 一種提供翻譯與分類翻譯結果的電腦可讀存儲媒體,其作為包括控制電腦系統提供翻譯結果的指令的媒體,所述指令,依照包括以下步驟的方法來控制所述電腦系統:生成將以來源語言寫成的原文翻譯成目的語言的譯文的步驟;和將所述譯文作為翻譯結果提供,並將所述譯文按句子的意思類別分類提供的步驟,其中,所述意思類別包括文體、句型、時態、語言規範中的至少一個來作為用於將句子分類的標準,文體區分成書面語體、口語體,句型區分成陳述句、勸誘句、命令句、敬語、謙語,時態區分成過去時、現在時、未來時,語言規範區分成普通話、方言。
  14. 一種提供翻譯與分類翻譯結果的檔案分配系統,其作為分配在使用者終端中安裝的應用的檔案的檔案分配系統,包括:檔案傳送單元,其根據所述使用者終端的請求傳送所述檔案,其中,所述應用,包括以下模組:控制使用者終端來將以來源語言寫成的原文傳送至機器翻譯伺服器的模組;和控制使用者終端來顯示在所述機器翻譯伺服器中提供的將所述原文翻譯成目的語言的譯文的模組,其中,在所述機器翻譯伺服器中,將所述譯文按照句子的意思類別進行分類來提供至所述使用者終端,其中,所述意思類別包括文體、句型、時態、語言規範中的至少一個來作為用於將句子分類的標準,文體區分成書面語體、口語體,句型區分成陳述句、勸誘句、命令句、敬語、謙語,時態區分成過去時、現在時、未來時,語言規範區分成普通話、方言。
TW104109873A 2014-04-08 2015-03-27 提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法 TWI629601B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??10-2014-0041887 2014-04-08
KR1020140041887A KR101864361B1 (ko) 2014-04-08 2014-04-08 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템

Publications (2)

Publication Number Publication Date
TW201539209A TW201539209A (zh) 2015-10-16
TWI629601B true TWI629601B (zh) 2018-07-11

Family

ID=54209896

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104109873A TWI629601B (zh) 2014-04-08 2015-03-27 提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法

Country Status (5)

Country Link
US (2) US9760569B2 (zh)
JP (1) JP6333745B2 (zh)
KR (1) KR101864361B1 (zh)
CN (1) CN104978310B (zh)
TW (1) TWI629601B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577399B (zh) * 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
KR101864361B1 (ko) * 2014-04-08 2018-06-04 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
CN104731776B (zh) * 2015-03-27 2017-12-26 百度在线网络技术(北京)有限公司 翻译信息的提供方法及系统
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
KR102578982B1 (ko) * 2015-11-30 2023-09-18 삼성전자주식회사 번역 서비스를 제공하는 방법 및 이를 위한 전자 장치
JP6655788B2 (ja) * 2016-02-01 2020-02-26 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
US10121474B2 (en) * 2016-02-17 2018-11-06 Microsoft Technology Licensing, Llc Contextual note taking
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
KR102565275B1 (ko) 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
KR101950213B1 (ko) * 2017-02-03 2019-02-22 네이버 주식회사 회화 관련 컨텐츠를 제공하는 방법 및 시스템
KR102438132B1 (ko) * 2017-09-20 2022-08-31 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10769386B2 (en) * 2017-12-05 2020-09-08 Sap Se Terminology proposal engine for determining target language equivalents
KR102206486B1 (ko) * 2018-06-29 2021-01-25 네이버 주식회사 입력 어플리케이션을 이용한 번역 서비스 제공 방법 및 이를 이용하는 단말장치
CN109697292B (zh) * 2018-12-17 2023-04-21 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
KR102545666B1 (ko) 2018-12-18 2023-06-21 삼성전자주식회사 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
US11341340B2 (en) * 2019-10-01 2022-05-24 Google Llc Neural machine translation adaptation
US11861313B2 (en) * 2020-02-02 2024-01-02 International Business Machines Corporation Multi-level linguistic alignment in specific user targeted messaging
KR102260396B1 (ko) 2020-09-09 2021-06-03 주식회사 트위그팜 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063126A1 (en) * 2007-08-29 2009-03-05 Microsoft Corporation Validation of the consistency of automatic terminology translation
TW201222282A (en) * 2010-11-23 2012-06-01 Inventec Corp Real time translation method for mobile device
TW201227359A (en) * 2010-12-16 2012-07-01 Inventec Corp Inquiring and transforming system and method for translation
TW201235866A (en) * 2011-02-16 2012-09-01 Ming-Yuan Wu Multiple language translation system

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0417065A (ja) * 1990-05-11 1992-01-21 Hitachi Ltd 翻訳支援装置
JPH0589166A (ja) * 1991-09-27 1993-04-09 Kobe Nippon Dekin Software Kk 機械翻訳装置
JPH05128150A (ja) * 1991-10-30 1993-05-25 Ricoh Co Ltd 機械翻訳装置
JPH06348751A (ja) * 1992-11-09 1994-12-22 Ricoh Co Ltd 言語変換装置
JPH06295309A (ja) * 1993-04-06 1994-10-21 Ricoh Co Ltd 機械翻訳装置及び言語解析装置並びにディジタル複写装置
JP3219937B2 (ja) * 1994-07-27 2001-10-15 日本電気株式会社 翻訳変換学習装置
JP2004038406A (ja) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4047885B2 (ja) * 2005-10-27 2008-02-13 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP5121252B2 (ja) * 2007-02-26 2013-01-16 株式会社東芝 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
JP5128150B2 (ja) 2007-03-07 2013-01-23 三菱レイヨン株式会社 メタクリル酸メチルの回収方法
KR20100037813A (ko) 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
JP5317061B2 (ja) * 2009-07-30 2013-10-16 独立行政法人情報通信研究機構 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
KR20120035244A (ko) * 2010-10-05 2012-04-16 에스케이플래닛 주식회사 다양한 문체 제공이 가능한 자동 번역 장치 및 방법
JP2012185654A (ja) * 2011-03-04 2012-09-27 Fujitsu Ltd 翻訳装置、翻訳プログラムおよび翻訳方法
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US20150199335A1 (en) * 2014-01-10 2015-07-16 Electronics And Telecommunications Research Institute Method and apparatus for representing user language characteristics in mpeg user description system
KR20150093482A (ko) * 2014-02-07 2015-08-18 한국전자통신연구원 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
KR101864361B1 (ko) * 2014-04-08 2018-06-04 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063126A1 (en) * 2007-08-29 2009-03-05 Microsoft Corporation Validation of the consistency of automatic terminology translation
TW201222282A (en) * 2010-11-23 2012-06-01 Inventec Corp Real time translation method for mobile device
TW201227359A (en) * 2010-12-16 2012-07-01 Inventec Corp Inquiring and transforming system and method for translation
TW201235866A (en) * 2011-02-16 2012-09-01 Ming-Yuan Wu Multiple language translation system

Also Published As

Publication number Publication date
CN104978310A (zh) 2015-10-14
JP6333745B2 (ja) 2018-05-30
KR101864361B1 (ko) 2018-06-04
TW201539209A (zh) 2015-10-16
US9760569B2 (en) 2017-09-12
CN104978310B (zh) 2018-05-18
KR20150116675A (ko) 2015-10-16
US20170337189A1 (en) 2017-11-23
JP2015201169A (ja) 2015-11-12
US9971769B2 (en) 2018-05-15
US20150286634A1 (en) 2015-10-08

Similar Documents

Publication Publication Date Title
TWI629601B (zh) 提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法
US10679148B2 (en) Implicit bridging of machine learning tasks
US10515086B2 (en) Intelligent agent and interface to provide enhanced search
TWI684881B (zh) 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體
US20170242886A1 (en) User intent and context based search results
US20170243107A1 (en) Interactive search engine
US20130185049A1 (en) Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation
US9575965B2 (en) Translation assessment based on computer-generated subjective translation quality score
CN106202059A (zh) 机器翻译方法以及机器翻译装置
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
Kenny Human and machine translation
KR102188564B1 (ko) 어체 변환이 가능한 기계 번역 방법 및 시스템
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
US20170337179A1 (en) Construction of a lexicon for a selected context
KR101916781B1 (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
KR102083017B1 (ko) 플레이스의 소셜 리뷰 분석 방법 및 시스템
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Vandeghinste et al. Improving the translation environment for professional translators
Wang Chinese to English automatic patent machine translation at SIPO
CN110888940A (zh) 文本信息提取方法、装置、计算机设备及存储介质
US20210263915A1 (en) Search Text Generation System and Search Text Generation Method
KR102476208B1 (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템
Shi et al. Topic-Selective Graph Network for Topic-Focused Summarization
Yusuf et al. Sentiment Analysis in Low-Resource Settings: A Comprehensive Review of Approaches, Languages, and Data Sources
JP2016053782A (ja) 質問応答装置、質問応答方法、プログラム