TWI386822B

TWI386822B - 建置多語翻譯資料庫內容之方法

Info

Publication number: TWI386822B
Application number: TW096133145A
Authority: TW
Inventors: Shing Lung Chen; Chuan Wen Chiang; Chen Sung Chang
Original assignee: Shing Lung Chen; Chuan Wen Chiang; Chen Sung Chang
Priority date: 2007-09-05
Filing date: 2007-09-05
Publication date: 2013-02-21
Also published as: US20090094017A1; TW200912675A

Description

建置多語翻譯資料庫內容之方法

本發明係有關於一種建置多語翻譯資料庫方法及多語翻譯資料庫系統，尤其是指一種利用自動化方式「蒐集」存在於網際網路環境中之多語對照〔或外語〕資料〔原始多語對照資料〕，並針對該資料進行「辨識」、「分類」、「分析」與「修正」等處理，而得以儲存知識內容於多語翻譯資料庫中，達到建置多語翻譯資料庫內容之目的，有效提昇知識管理成效者。

自從人類有不同種族接觸以來，便有翻譯。翻譯歷久不衰的主要原因在於翻譯所承載之重要使命：透過翻譯增進多民族間的互動。例如：藉由科技翻譯之技術將科技知識引進台灣，進而促進台灣的科技知識發展。此誠如學者所言之「能以專著〔翻譯〕為橋樑，通過與外界的交流幫助我國的研究人員更充分地吸收和借鑑國際上先進的科研成果」。科技翻譯之重要性由此可見。

翻譯是外語專業人員重要的謀生工具。目前國內各大學的翻譯課程大多以「人工翻譯」的方式進行。亦即，老師在上課時往往會發一篇文章給學生，而學生接著便由文章的第一句翻譯到最後一句；日後，學生在面對新的文章時依舊是採用相同的模式〔從第一句翻譯到最後一句〕進行處理，因此學生在學習翻譯過程中所獲得之經驗無法被快速累積，更遑論進一步建立有效的知識體系。另一方面，隨著資訊科技的進步，企業界則是普遍使用電腦軟體為翻譯輔助之工具，儘管翻譯軟體確實有助於數量龐大或具有時效性之翻譯工作的執行，然而，受限於資訊相關技術的未臻完善，翻譯軟體的執行成效仍有很大的改進空間。

翻譯軟體基本上可分為機器翻譯軟體與翻譯資料庫〔或翻譯記憶體〕的兩種類型。就機器翻譯軟體而言，其主要功能在於可以自動地將一種語言轉換為另一種語言；現行機器翻譯技術已經跳脫以往「逐字比對」的處理方式，進而改採用以有系統的句法分析或統計判斷方法完成語言轉譯之功能。但對於句型結構之處理，此一技術目前大多數仍是以原文之句型結構為相對應譯文之框架，因此無法將原文之句型結構轉換成通順的譯文句型結構，導致機器翻譯軟體所得之譯文往往不夠通順，甚至完全無法理解，為了改進此一缺失，於是便發展出以翻譯資料庫為基礎之翻譯軟體。

翻譯資料庫〔翻譯記憶體〕之設計構想在於語言通常具有一定數量的句型結構，且這些句型結構在各式文章中會不斷地重複出現。因此，對於專業領域翻譯工作所涉及之為數眾多但範圍卻相對狹窄的資料而言，其中必然存在著相當高比例的重複或相似之內容。於是，可將每次執行翻譯工作所得之結果儲存於知識庫〔一般稱之為翻譯資料庫或翻譯記憶體〕中，以便日後在翻譯新文件時，可即時比對存在於翻譯資料庫中之內容與該文件內容二者間的相似程度。一旦發現新文件中出現相同或者類似的原文內容時，則便可直接沿用翻譯資料庫中之譯文內容；顯而易見地，若翻譯資料庫的內容越充足、便越能節省翻譯工作量。此一運作模式不僅大幅提昇工作效率，更有助於形成統一的翻譯風格。然而，此一類型之翻譯軟體在使用上仍然存在以下缺點：

1.由翻譯人員所建置之翻譯資料庫內容未必屬於經常重複之部份，導致翻譯資料庫內容之重複使用率不高。

2.翻譯資料庫內容必須依賴翻譯人員以人工方式逐一建置，如此方能使翻譯軟體方可供使用者正常使用。此一過程意味著翻譯資料庫內容之建置將耗用翻譯人員大量的時間成本。顯而易見地，翻譯軟體的可用性將因此而受到限制。

3.翻譯人員歷經數年所建置之翻譯資料庫，其內容大多是由單一特定領域的知識所累積而成。一旦該人員跨足另一領域，翻譯資料庫之內容將必須重新建置，於是人力以及時間成本的增加將無可避免。

有鑑於此，提供一種創新的快速建置多語翻譯資料庫內容之模式，以期改善現有之所有缺失者。

本發明乃是利用自動化系統，收集專業領域的雙語資料〔原始多語對照資料〕，並且自動化的核對哪些是該專業領域的重複出現句型〔重複語句〕，由於自動化且大量化的資料庫，收集重複出現的句型，而且是多語對照，達到翻譯同一領域的新文章時，可以引用現成的翻譯之譯文，而藉此有效提升翻譯資料庫的效能。

爰是，本發明係有關於一種建置多語翻譯資料庫方法，其主要針對存在於網際網路環境中的專業領域多語對照資料〔原始多語對照資料〕為處理對象，經由「蒐集」、「辨識」、「分類」、「分析」、「修正」、「儲存」以及「測試」等過程之運作，將翻譯人員所修飾後的關鍵句型內容快速而有效地儲存至多語翻譯資料庫；藉此，以提高所建立資料庫知識內容與待譯文件內容之重疊性，並有效管理翻譯產能〔知識〕，進而能更有效率節省工作量者。

本發明較佳實施例之建置多語翻譯資料庫方法，其包含步驟：輸入數個原始多語對照資料至一翻譯資料庫；自該原始多語對照資料選擇數個重複語句；自該重複語句選擇數個關鍵重複語句。

本發明較佳實施例之步驟另包含：利用一程式自一網路蒐集該原始多語對照資料。

本發明較佳實施例之步驟另包含：利用一辨識軟體對該原始多語對照資料執行文字轉換作業。

本發明較佳實施例之步驟另包含：適當修飾該關鍵重複語句，並儲存於該翻譯資料庫。

本發明較佳實施例之多語翻譯資料庫系統，其包含：一翻譯資料庫，其用於資料多語翻譯作業；數個原始多語對照資料，其儲存於該翻譯資料庫；數個重複語句，其選擇自該原始多語對照資料；數個關鍵重複語句，其選擇自該重複語句；其中該關鍵重複語句用以執行多語翻譯作業。

本發明較佳實施例之多語翻譯資料庫系統係利用一程式自一網路蒐集該原始多語對照資料。

本發明較佳實施例之多語翻譯資料庫系統係利用一辨識軟體對該原始多語對照資料執行文字轉換作業。

本發明較佳實施例之多語翻譯資料庫系統係適當修飾該關鍵重複語句，並儲存於該翻譯資料庫。

而為令本發明之技術手段能夠更完整且清楚的揭露，茲請一併參閱所附圖式及圖號，並詳細說明如下：首先，請參閱第一圖所示，係為本發明建置多語翻譯資料庫方法之流程示意圖，其該建置多語翻譯資料庫方法的建置步驟，係如下：〔1〕蒐集〔S1〕：利用網路代理人程式為工具，以自動化方式蒐集存在於網際網路環境中專業領域多語對照文件〔原始多語對照資料〕；〔2〕辨識〔S2〕：利用辨識軟體系統工具擷取所蒐集文件之內容並轉換〔文字轉換作業〕其格式為一般文字模式；〔3〕分類〔S3〕：將前一步驟所獲得的文件內容加以分類處理，以便後續針對特定主題〔專業領域〕之內容進行單句〔重複語句〕分析作業；〔4〕分析〔S4〕：針對特定主題〔專業領域〕之外語文件內容進行分析與比對操作以發掘出重複出現的單句〔重複語句〕，提供翻譯者進行後續的關鍵句型翻譯作業，同時，針對特定主題之多語對照文件內容，以單句雙語對照模式提供翻譯者進行後續的關鍵句型〔關鍵重複語句〕內容潤飾作業；〔5〕修正〔S1〕：根據翻譯者所需，而針對關鍵句型〔關鍵重複語句〕進行內容潤飾與修正作業；〔6〕儲存〔S6〕：以雙語對照模式，將翻譯人員所修正潤飾翻譯後的關鍵句型〔關鍵重複語句〕內容儲存至多語翻譯資料庫中；〔7〕測試〔S7〕：評估資料庫中所建置的知識內容是否完備，若有不足之處，則重複執行「蒐集」之步驟，繼續充實資料庫中的知識內容。

是以，本發明較佳實施例之建置多語翻譯資料庫方法，其包含步驟：輸入數個原始多語對照資料至一翻譯資料庫；自該原始多語對照資料選擇數個重複語句；自該重複語句選擇數個關鍵重複語句。

本發明另一較佳實施例之步驟另包含：利用一辨識軟體對該原始多語對照資料執行文字轉換作業。

本發明另一較佳實施例之步驟另包含：適當修飾該關鍵重複語句，並儲存於該翻譯資料庫。

本發明較佳實施例之多語翻譯資料庫系統，其包含：一翻譯資料庫，其用於資料多語翻譯作業，其語言種類並非用以限制本發明；數個原始多語對照資料，其儲存於該翻譯資料庫，其翻譯資料庫類型並非用以限制本發明；數個重複語句，其選擇自該原始多語對照資料；數個關鍵重複語句，其選擇自該重複語句；其中該關鍵重複語句用以執行多語翻譯作業。

本發明另一較佳實施例之多語翻譯資料庫系統係利用一程式自一網路蒐集該原始多語對照資料，其中該程式及網路種類並非用以限制本發明。

本發明另一較佳實施例之多語翻譯資料庫系統係利用一辨識軟體對該原始多語對照資料執行文字轉換作業，其中該辨識軟體種類並非用以限制本發明。

本發明另一較佳實施例之多語翻譯資料庫系統係適當修飾該關鍵重複語句，並儲存於該翻譯資料庫。

舉例而言，將本發明之多語翻譯資料庫由翻譯人員針對防毒軟體科技文件進行翻譯時所實施之步驟、使用技術與工具以及結果產出：

〔1〕蒐集〔S1〕：藉由網路代理人程式之協助，以自動化方式蒐集存在於網際網路環境中之防毒軟體相關的多語對照文件〔原始多語對照資料〕。例如：各防毒軟體公司之網頁、防毒軟體電子書籍/使用手冊、期刊/研討會論文資料、…等。

〔2〕辨識〔S2〕：藉由軟體系統工具擷取所蒐集文件之內容並轉換〔文字轉換作業〕該文件格式為一般文字模式。例如：以辨識軟體處理影像格式之文件、以PDF格式轉換軟體處理PDF文件、以剖析程式剖析XML文件、…等。

〔3〕分類〔S3〕：針對前一步驟所獲得的數位化資料，利用多維度搜尋與分類技術進行多層次的內容搜尋與篩選，擷取具有相類似主題的內容，藉此提升篩選後資料內容的重複性〔重複語句〕。

〔4〕分析〔S4〕：以模糊比對技術分析前一步驟所得之特定主題資料，比對各文章之間以及文章內有關表達防毒軟體科技之重複內容〔重複語句〕，藉此找出用以表達防毒軟體科技之關鍵句型〔關鍵重複語句〕，俾便後續的潤飾與修正作業。

〔5〕修正〔S5〕：根據翻譯人員之所需，針對多語對照資料〔原始多語對照資料〕中的關鍵句型〔關鍵重複語句〕進行內容潤飾與修正作業。另一方面，對於缺少中文內容的資料，則是進行翻譯作業。

〔6〕儲存〔S6〕：以雙語對照模式，將翻譯人員所修正潤飾或翻譯後的關鍵句型內容〔關鍵重複語句〕儲存至多語翻譯資料庫中，提高資料庫中之知識得以被重複使用的機率。

〔7〕測試〔S7〕：當資料庫建置完成之後，可利用一篇全新的防毒軟體科技文章為測試案例，查驗該文章的關鍵句型是否已存在於資料庫中，藉此針對資料庫中的知識內容進行效能測試。若無法於此一全新文件的內容中發現關鍵句型〔關鍵重複語句〕的存在或不符合效能測試指標，則可重複執行「蒐集」之步驟，繼續充實資料庫中的知識內容。

前述之實施例或圖示並非限定本發明之結構樣態或尺寸，任何所屬技術領域中具有通常知識者之適當變化或修飾，皆應視為不脫離本發明之專利範疇。

而根據上述可知，藉由本發明所創建之模式建置多語翻譯資料庫內容相較於現有技術確實具有優點。其原因在於語言本身重複性很高，得以利用有限的句型表達多種複雜情況，且由於網路技術的快速發展以及網際網路應用的普及，使得網際網路環境可被視為是一個具有龐大資料內容的儲存系統；以自動化方式「蒐集」、「辨識」、「分類」、「分析」此一儲存系統中的資料內容，無疑是最有效率的處理方式。因此，可預期以本發明所創建之模式建置而成的多語翻譯資料庫，將能有效掌握眾多資料中的關鍵句型〔關鍵重複語句〕，進而達到有效提昇知識管理成效並減輕大量翻譯工作負擔的預期效能。

〔S1〕‧‧‧蒐集

〔S2〕‧‧‧辨識

〔S3〕‧‧‧分類

〔S4〕‧‧‧分析

〔S5〕‧‧‧修正

〔S6〕‧‧‧儲存

〔S7〕‧‧‧測試

第一圖：本發明建置多語翻譯資料庫方法之流程示意圖。