TWI385538B - 單詞擷取翻譯系統及其方法 - Google Patents

單詞擷取翻譯系統及其方法 Download PDF

Info

Publication number
TWI385538B
TWI385538B TW97127522A TW97127522A TWI385538B TW I385538 B TWI385538 B TW I385538B TW 97127522 A TW97127522 A TW 97127522A TW 97127522 A TW97127522 A TW 97127522A TW I385538 B TWI385538 B TW I385538B
Authority
TW
Taiwan
Prior art keywords
word
input
translation
words
index table
Prior art date
Application number
TW97127522A
Other languages
English (en)
Other versions
TW201005557A (en
Inventor
Chaucer Chiu
Vicky Feng
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to TW97127522A priority Critical patent/TWI385538B/zh
Publication of TW201005557A publication Critical patent/TW201005557A/zh
Application granted granted Critical
Publication of TWI385538B publication Critical patent/TWI385538B/zh

Links

Landscapes

  • Machine Translation (AREA)

Description

單詞擷取翻譯系統及其方法
一種翻譯系統及其方法,特別是指一種擷取輸入詞句的單詞進行翻譯之單詞擷取翻譯系統及其方法。
近年來,隨著電腦的普及與網際網路的快速發展,多語系文件已廣為流通,市面上更有許多強調能夠進行全文翻譯的翻譯軟體,用以輔助使用者閱讀多語系文件。
然而,因為人類語言的複雜性,文字的涵義會隨著文章的內容而有所變化。因此,透過市面上的翻譯軟體進行翻譯後,所得到的翻譯結果仍然不盡理想,而且詞不達意的情況更屢見不鮮,故針對單詞進行翻譯的功能仍然是翻譯軟體必備的功能之一。
一般而言,進行單詞翻譯時會透過一個單詞輸入框,用以輸入欲查詢的單詞,對所輸入的單詞進行翻譯,而翻譯軟體接收到輸入的單詞後,會根據索引表至資料庫中查詢相應的解釋來產生翻譯結果。然而,當輸入的單詞不存在於索引表中時,即無法得到相應的解釋,產生翻譯軟體無法有效翻譯詞句的問題。
因此,有廠商提出透過比對的方式,擷取近似單詞來進行翻譯。舉例來說,當使用者輸入單詞為"物理實驗",但索引表僅有"物理"及"實驗"兩個不同的單詞,而無"物理實驗"的單詞時,將透過比對的方式擷取近似的單詞,如:"物理"作為查詢單詞,並至資料庫查詢相應的解釋。然 而,以此方式僅能得知片面的解釋,所以同樣不足以解決單詞翻譯系統無法有效翻譯詞句的問題。
綜上所述,可知先前技術中長期以來一直存在單詞翻譯系統無法有效翻譯詞句的問題,因此實有必要提出改進的技術手段,來解決此一問題。
有鑒於先前技術存在單詞翻譯無法翻譯未知詞句的問題,本發明遂揭露一種單詞擷取翻譯系統及其方法。
本發明所揭露之單詞擷取翻譯系統,包含:翻譯資料庫、接收模組、分析模組、擷取模組及查詢模組。其中,翻譯資料庫用以儲存單詞解釋;接收模組用以接收輸入詞句;分析模組偵測輸入詞句的內碼,並根據內碼條件,判斷輸入詞句的語系;擷取模組儲存有單詞索引表,且根據輸入詞句的語系載入相應的單詞索引表,並透過單詞索引表擷取出存在於輸入詞句之輸入單詞;查詢模組用以根據輸入單詞至翻譯資料庫查詢並顯示相應的單詞解釋。
至於本發明所揭露之單詞擷取翻譯方法,其包含下列步驟:於翻譯資料庫中建立單詞解釋;接收輸入詞句;偵測輸入詞句的內碼,並根據內碼條件,判斷輸入詞句的語系;根據輸入詞句的語系自各單詞索引表中載入相應的單詞索引表,並透過單詞索引表擷取出存在於輸入詞句之輸入單詞;根據輸入單詞至翻譯資料庫查詢並顯示相應的單詞解釋。
本發明所揭露之系統與方法如上,與先前技術之間的 差異在於本發明透過單詞索引表將輸入詞句拆解為多個輸入單詞後,逐一根據輸入單詞進行翻譯。
透過上述的技術手段,本發明可以達成提高詞句翻譯便利性的技術功效。
以下將配合圖式及實施例來詳細說明本發明之實施方式,藉此對本發明如何應用技術手段來解決技術問題並達成技術功效的實現過程能充分理解並據以實施。
在說明本發明所揭露的單詞擷取翻譯系統及其方法之前,先對本發明中所自行定義的名詞作如下之解釋,在本發明中所提到的"內碼條件"用以記錄文字的內碼及對應之語系,所述文字的內碼,如:ASCII、Big5或Unicode等常用於計算機中顯示文字的內碼。舉例來說,若偵測到的內碼為"ASCII",可判斷其對應的語系為英文;若偵測到的內碼為"Big5",則可根據其內碼範圍得知語系為中文或英文;同理,若偵測到的內碼為"Unicode",同樣可根據其內碼範圍得知對應的語系。
另外,所述之單詞索引表為預先設置的檔案,其檔案內記錄翻譯資料庫中具有單詞解釋的單詞,用以作為單詞索引來提高至翻譯資料庫查詢單詞解釋的效率,舉例來說,翻譯資料庫中僅具有單詞"星期五"的單詞解釋(例如:"星期五"、"xing qi wu"及"Friday")時,單詞索引表中亦僅記錄"星期五"作為單詞索引,可直接根據預先設置的單詞索引表得知翻譯資料庫中有無此單詞解釋,而不需實際至 翻譯資料庫中查詢。而當更新翻譯資料庫的單詞解釋後,例如:於翻譯資料庫中新增"爸爸"的單詞解釋時,同時將"爸爸"這個單詞寫入於單詞索引表的檔案中。也就是說,單詞索引表中自僅記錄"星期五"更新為記錄有"星期五"及"爸爸"的單詞索引,若往後再次進行更新,則同樣以此類推。
接著,請參閱「第1圖」,「第1圖」為本發明單詞擷取翻譯系統之方塊圖,包含:翻譯資料庫101、接收模組102、分析模組103、擷取模組104、查詢模組105及更新模組110。翻譯資料庫101用以儲存單詞解釋,其中各單詞解釋可包含多種不同的詞性翻譯(例如:名詞、動詞或形容詞的翻譯),用以於查詢時依據輸入詞句及文法規則來選擇適當的詞性翻譯,所述單詞解釋包含單詞索引、單詞拼音、單詞翻譯及單詞例句或其組合;接收模組102用以接收輸入詞句;分析模組103偵測輸入詞句的內碼,並根據內碼條件,判斷輸入詞句的語系(當此語系為無法辨識時,可不記錄其語系或以文字顯示「查無語系」用以提示使用者),所述的內碼條件已於前面自行定義的名詞中進行說明,故在此不再作贅述。
擷取模組104用以根據輸入詞句的語系載入相應的單詞索引表,並透過單詞索引表擷取出存在於輸入詞句之輸入單詞,所述比對方式,可以是依照拆字規則先將輸入詞句拆成多個輸入單詞,或者也可以是用單詞索引表中的單詞直接與整句輸入詞句進行比對後,拆成多個輸入單詞。 舉例來說:單詞索引表內記錄有"物理"及"實驗"兩個單詞索引,當輸入詞句為"物理實驗"時,經由與單詞索引表進行比對後,生成兩個輸入單詞(即"物理"及"實驗")。
查詢模組105用以根據輸入單詞至翻譯資料庫101查詢並顯示相應的單詞解釋,所述查詢方式可將所生成的輸入單詞,分別以資料庫查詢語言的語法(例如:SQL)傳遞至翻譯資料庫101進行查詢並顯示,而顯示方式亦可先顯示第一個查詢的輸入單詞,並將其餘輸入單詞以超連結的方式提供使用者進一步選擇與顯示。
該系統更包含更新模組110用以於更新翻譯資料庫101時,同步更新單詞索引表。其單詞索引表已於先前自行定義名詞中說明,故在此不再作贅述,具體而言,只要翻譯資料庫101所具有的單詞解釋,皆可在單詞索引表中查到相應的單詞,而且此單詞更可包含不同語言的相應單詞及單詞的內碼。除此之外,亦可每一種語言對應一個單詞索引表以方便單詞的更新與維護。在實際的更新過程中,更新模組110會根據新增單詞的內碼,將更新的單詞分別寫入相應的單詞索引表之檔案內。
如「第2圖」所示意,「第2圖」為本發明單詞擷取翻譯方法之流程圖,包含下列步驟:於翻譯資料庫101中建立單詞解釋,其中各單詞解釋包含詞性翻譯(步驟201);接收輸入詞句(步驟202);偵測輸入詞句的內碼,並根據內碼條件,判斷輸入詞句的語系(步驟203);根據輸入詞句的語系載入相應的單詞索引表,並透過單詞索引表 擷取出存在於輸入詞句之輸入單詞(步驟204);根據輸入單詞至翻譯資料庫101查詢並顯示相應的單詞解釋(步驟205)。其中,該方法更包含於更新翻譯資料庫101時,同步更新單詞索引表的步驟。透過上述步驟即可將輸入詞句拆解為多個單詞後,對這些單詞逐一進行翻譯,解決以往單詞翻譯系統無法對句子進行翻譯的問題。
以下將配合「第3圖」至「第6圖」以實施例方式進行如下說明,請先參閱「第3圖」,「第3圖」為本發明翻譯視窗之示意圖,包含:翻譯視窗300、輸入框310、查詢元件320、顯示區塊330及滑鼠游標400。其中,翻譯視窗300是提供使用者進行翻譯查詢的介面;輸入框310用以提供使用者鍵入輸入詞句311;查詢元件320提供使用者於鍵入輸入詞句311後,透過滑鼠游標400點選查詢元件320進行查詢;顯示區塊330用以顯示查詢的結果(即單詞解釋)。
接下來,請參閱「第4圖」至「第6圖」為應用本發明進行單詞查詢之示意圖。前面提到,當使用者於輸入框310鍵入輸入詞句311(例如:星期五爸爸帶我們去博物館)後,透過滑鼠游標400點選查詢元件320進行查詢。此時,接收模組102接收輸入詞句311後,透過分析模組103偵測輸入詞句311的內碼(例如:Big5碼),並根據內碼條件判斷輸入詞句311的語系(例如:所偵測的Big5碼是中文字的內碼範圍時,即判斷語系為中文),除此之外,當輸入詞句311為英文以外的語言組合(例如:中文與日文、中 文與韓文或中文與法文)時(圖中未示),其使用的內碼即為萬國語言碼(例如:Unicode),此時亦可根據其內碼範圍得知對應的語系,用以作為是否進行翻譯的依據。而當輸入詞句311為中文及英文的語言組合時(圖中未示),由於英文使用電腦預設的內碼(即ASCII碼),故分析模組103可在偵測到輸入詞句311使用Big5碼且包含英文的ASCII碼時,得知此輸入詞句311的語系為中文及英文。
然後,擷取模組104根據輸入詞句311的語系載入相應的單詞索引表,舉例來說,當輸入詞句311的語系為中文及英文時,將分別載入中文的單詞索引表及英文的單詞索引表。特別要說明的是,若無法載入相應的單詞索引表則代表不支援該語系的翻譯,此時將結束處理,也就是說不針對該語系進行單詞擷取。當成功載入相應的單詞索引表後,用以與輸入詞句311進行比對,以便擷取出存在於輸入詞句311內的輸入單詞,以此例而言,將輸入詞句311(例如:星期五爸爸帶我們去博物館)與相應於中文語系的單詞索引表中所記錄的單詞索引(例如:"星期五"、"爸爸"、"帶"、"我們"、"去"及"博物館")進行比對後,將比對符合的單詞索引生成為輸入單詞(例如:輸入單詞分別為"星期五"、"爸爸"、"帶"、"我們"、"去"及"博物館"),接著,查詢模組105再根據所生成的輸入單詞至翻譯資料庫101查詢並顯示相應的單詞解釋,並顯示於顯示區塊330中(圖中未示)。
承上所述,其顯示於顯示區塊330的方式,可如「第 5圖」所示意,先將第一個輸入單詞(例如:"星期五")的單詞解釋331顯示於顯示區塊330中,其顯示的內容包含單詞索引332、單詞拼音333、單詞翻譯334及單詞例句335。而其它輸入單詞(例如:"爸爸"、"帶"、"我們"、"去"及"博物館")則以單詞索引332的方式作為相關單詞340進行顯示。當使用者想更進一步查詢相關單詞(例如:"帶")時,則可透過滑鼠游標400的點選操作來達成。
如「第6圖」所示意,當使用者點選相關單詞,也就是另一輸入單詞(例如:"帶")後,查詢模組105可顯示對應所點選的輸入單詞(例如:"帶")之單詞解釋331a於顯示區塊330,而且查詢模組105自翻譯資料庫101查詢時,更可根據輸入詞句311及文法規則選擇適當的詞性翻譯(例如:相應的詞性翻譯為"took")顯示於顯示區塊330中的單詞翻譯334,因而避免顯示與輸入詞句311無關的詞性翻譯(例如:顯示詞性翻譯為"belt")。用以降低產生誤導使用者的翻譯之機率。另外,當使用者欲更新翻譯資料庫101時,可透過更新模組110將更新的資料(即單詞解釋)載入翻譯資料庫101,且更新模組110亦同時擷取單詞解釋中的單詞索引用以更新單詞索引表。
綜上所述,可知本發明與先前技術之間的差異在於具有透過單詞索引表將輸入詞句拆解為多個輸入單詞後,逐一根據輸入單詞進行翻譯的技術手段,藉由此一技術手段可以方便地查詢輸入詞句中的所有單詞解釋來解決先前技術所存在的問題,進而達成提高對輸入詞句進行整句翻 譯的精確性之技術功效。
雖然本發明所揭露之實施方式如上,惟所述之內容並非用以直接限定本發明之專利保護範圍。任何本發明所屬技術領域中具有通常知識者,在不脫離本發明所揭露之精神和範圍的前提下,可以在實施的形式上及細節上作些許之更動。本發明之專利保護範圍,仍須以所附之申請專利範圍所界定者為準。
101‧‧‧翻譯資料庫
102‧‧‧接收模組
103‧‧‧分析模組
104‧‧‧擷取模組
105‧‧‧查詢模組
110‧‧‧更新模組
300‧‧‧翻譯視窗
310‧‧‧輸入框
311‧‧‧輸入詞句
320‧‧‧查詢元件
330‧‧‧顯示區塊
331、331a‧‧‧單詞解釋
332‧‧‧單詞索引
333‧‧‧單詞拼音
334‧‧‧單詞翻譯
335‧‧‧單詞例句
340‧‧‧相關單詞
400‧‧‧滑鼠游標
步驟201‧‧‧於一翻譯資料庫中建立至少一單詞解釋
步驟202‧‧‧接收一輸入詞句
步驟203‧‧‧偵測該輸入詞句的內碼,並根據一內碼條件,判斷該輸入詞句的語系
步驟204‧‧‧根據該輸入詞句的語系自至少一單詞索引表中載入相應的該單詞索引表,並透過該單詞索引表擷取出存在於該輸入詞句之至少一輸入單詞
步驟205‧‧‧根據該些輸入單詞至該翻譯資料庫查詢並顯示相應的該些單詞解釋
第1圖為本發明單詞擷取翻譯系統之方塊圖。
第2圖為本發明單詞擷取翻譯方法之流程圖。
第3圖為本發明翻譯視窗之示意圖。
第4圖至第6圖為應用本發明進行單詞查詢之示意圖。
101‧‧‧翻譯資料庫
102‧‧‧接收模組
103‧‧‧分析模組
104‧‧‧擷取模組
105‧‧‧查詢模組
110‧‧‧更新模組

Claims (12)

  1. 一種單詞擷取翻譯系統,包含:一翻譯資料庫,用以儲存至少一單詞解釋;一接收模組,用以接收一輸入詞句;一分析模組,偵測該輸入詞句的內碼,並根據一內碼條件,判斷該輸入詞句的語系;一擷取模組,儲存有至少一單詞索引表,且根據該輸入詞句的語系載入相應的該單詞索引表,並透過該單詞索引表擷取出存在於該輸入詞句之至少一輸入單詞;及一查詢模組,用以根據該些輸入單詞至該翻譯資料庫查詢並顯示相應的該些單詞解釋。
  2. 如申請專利範圍第1項所述之單詞擷取翻譯系統,其中該些單詞解釋包含至少一詞性翻譯,用以於查詢時依據該輸入詞句及一文法規則來選擇適當的該詞性翻譯。
  3. 如申請專利範圍第1項所述之單詞擷取翻譯系統,其中該系統更包含一更新模組,用以於更新該翻譯資料庫時,同步更新該些單詞索引表。
  4. 如申請專利範圍第1項所述之單詞擷取翻譯系統,其中該內碼條件為記錄文字的內碼及對應之語系。
  5. 如申請專利範圍第3項所述之單詞擷取翻譯系統,其中該些單詞索引表為記錄該翻譯資料庫中具有單詞解釋的單詞。
  6. 如申請專利範圍第1項所述之單詞擷取翻譯系統,其中 該些輸入單詞以超連結的方式進行顯示並提供點選,用以於點選後顯示相應的該單詞解釋。
  7. 一種單詞擷取翻譯方法,其包含下列步驟:於一翻譯資料庫中建立至少一單詞解釋;接收一輸入詞句;偵測該輸入詞句的內碼,並根據一內碼條件,判斷該輸入詞句的語系;根據該輸入詞句的語系自至少一單詞索引表中載入相應的該單詞索引表,並透過該單詞索引表擷取出存在於該輸入詞句之至少一輸入單詞;及根據該些輸入單詞至該翻譯資料庫查詢並顯示相應的該些單詞解釋。
  8. 如申請專利範圍第7項所述之單詞擷取翻譯方法,其中該些單詞解釋包含至少一詞性翻譯,用以於查詢時依據該輸入詞句及一文法規則來選擇適當的該詞性翻譯。
  9. 如申請專利範圍第7項所述之單詞擷取翻譯方法,其中該方法更包含於更新該翻譯資料庫時,同步更新該些單詞索引表的步驟。
  10. 如申請專利範圍第7項所述之單詞擷取翻譯方法,其中該內碼條件為記錄文字的內碼及對應之語系。
  11. 如申請專利範圍第9項所述之單詞擷取翻譯方法,其中該些單詞索引表為記錄該翻譯資料庫中具有單詞解釋的單詞。
  12. 如申請專利範圍第7項所述之單詞擷取翻譯方法,其中 該些輸入單詞以超連結的方式進行顯示並提供點選,用以於點選後顯示相應的該單詞解釋。
TW97127522A 2008-07-18 2008-07-18 單詞擷取翻譯系統及其方法 TWI385538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW97127522A TWI385538B (zh) 2008-07-18 2008-07-18 單詞擷取翻譯系統及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW97127522A TWI385538B (zh) 2008-07-18 2008-07-18 單詞擷取翻譯系統及其方法

Publications (2)

Publication Number Publication Date
TW201005557A TW201005557A (en) 2010-02-01
TWI385538B true TWI385538B (zh) 2013-02-11

Family

ID=44826336

Family Applications (1)

Application Number Title Priority Date Filing Date
TW97127522A TWI385538B (zh) 2008-07-18 2008-07-18 單詞擷取翻譯系統及其方法

Country Status (1)

Country Link
TW (1) TWI385538B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI588668B (zh) * 2014-11-04 2017-06-21 Toshiba Kk Foreign language production support facilities and methods

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI564736B (zh) * 2010-07-27 2017-01-01 Iq Tech Inc Method of merging single word and multiple words

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW501030B (en) * 2000-01-25 2002-09-01 Joyport Inc Machine translation system and translation server and client thereof
TW550480B (en) * 2002-03-05 2003-09-01 Inventec Besta Co Ltd System and method for precisely explaining the meaning in a sentence
US20050155017A1 (en) * 2004-01-12 2005-07-14 International Business Machines Corporation System and method for automatic natural language translation during information transfer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW501030B (en) * 2000-01-25 2002-09-01 Joyport Inc Machine translation system and translation server and client thereof
TW550480B (en) * 2002-03-05 2003-09-01 Inventec Besta Co Ltd System and method for precisely explaining the meaning in a sentence
US20050155017A1 (en) * 2004-01-12 2005-07-14 International Business Machines Corporation System and method for automatic natural language translation during information transfer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI588668B (zh) * 2014-11-04 2017-06-21 Toshiba Kk Foreign language production support facilities and methods
US10394961B2 (en) 2014-11-04 2019-08-27 Kabushiki Kaisha Toshiba Foreign language sentence creation support apparatus, method, and program

Also Published As

Publication number Publication date
TW201005557A (en) 2010-02-01

Similar Documents

Publication Publication Date Title
US8606826B2 (en) Augmenting queries with synonyms from synonyms map
US8762358B2 (en) Query language determination using query terms and interface language
US8321471B2 (en) Error model formation
US6535842B1 (en) Automatic bilingual translation memory system
US10552467B2 (en) System and method for language sensitive contextual searching
US8812301B2 (en) Linguistically-adapted structural query annotation
US7835903B2 (en) Simplifying query terms with transliteration
US20070288449A1 (en) Augmenting queries with synonyms selected using language statistics
EP1400901A2 (en) Method and system for retrieving confirming sentences
US20100153396A1 (en) Name indexing for name matching systems
JP5656353B2 (ja) マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置
WO2010048204A2 (en) Named entity transliteration using corporate corpora
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
US8583415B2 (en) Phonetic search using normalized string
US8041556B2 (en) Chinese to english translation tool
US20050086214A1 (en) Computer system and method for multilingual associative searching
EP2016486A2 (en) Processing of query terms
TWI385538B (zh) 單詞擷取翻譯系統及其方法
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP5691558B2 (ja) 例文検索装置、処理方法およびプログラム
KR102338949B1 (ko) 기술문서 번역 지원 시스템
JP6717909B2 (ja) 要約生成サーバ、要約生成システム及び要約生成方法
Srdanovic et al. A web corpus and word sketches for Japanese
TWI345158B (en) Computer-readable storage media, computer programming product, electronic device, automatic searching method of electric note and system thereof

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees