TW200805091A - Apparatus, method, and program for determining naturalness of array of words - Google Patents

Apparatus, method, and program for determining naturalness of array of words Download PDF

Info

Publication number
TW200805091A
TW200805091A TW095139901A TW95139901A TW200805091A TW 200805091 A TW200805091 A TW 200805091A TW 095139901 A TW095139901 A TW 095139901A TW 95139901 A TW95139901 A TW 95139901A TW 200805091 A TW200805091 A TW 200805091A
Authority
TW
Taiwan
Prior art keywords
search
arrangement
translation
statement
sentence
Prior art date
Application number
TW095139901A
Other languages
English (en)
Inventor
Junichi Goishi
Original Assignee
Rozetta Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rozetta Corp filed Critical Rozetta Corp
Publication of TW200805091A publication Critical patent/TW200805091A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

200805091 九、發明說明: 【發明所屬之技術領域】 本發明係關於語句排列之自然度判定裝置、方法及程 式,特別係關於連接於網際網路之電腦所實 之自然度判定裝置、可適用於該語句排列之上= 置之香句排列之自然度判定方法、及使電腦執行前遠語句 排列之自然度判定裝置用之語句排列之自然度判定程式。 【先前技術】 利用電腦將以某種自然語言(原語言)記述之文章(原文) 翻譯成以其他自然語言(目的語言)記述之文章(對譯文)之 所謂自動翻譯之實現係相當久以前就一直為人所期待,也 有有關自動翻譯之種種改良技術之提案。 例如,作為自動翻譯之代表的翻譯方式,已知有在文體 中預先登錄原語言用例與目的語言用例之配對,由此文體 中檢索最類似於原文之用例,將最類似於原文之用例應用 於翻譯之EBMT(ExamPle Based Machine Translation ;依據 用例式機器翻譯)、及以語法構造之基本單位之構成要素境 界圖案為單位,由文體中學習轉換知識,利用所學習之轉 換知識進行翻譯之 TDMT(Transfer Ddven Maehine Translation ;轉換驅動式機器翻譯),在專利文獻丨中,揭示: 藉此EBMT、TDMT分別翻譯輸入資料,運算表示藉ebmt 翻譯輸入資料之際之輸入資料與用例之類似性之文體得 分、與表示藉TDMT翻譯输入資料之際之輸入資料與用例之 類似性之DP距離,利用表示EBMT、TDMT是否適於輪入資 115685.doc 200805091 料之翻譯之評估資料、文體得分及Dp距離,產生選擇適於 輸入資料之翻譯用之選擇器之技術。 [專利文獻1]日本特開2〇〇3_263434號公報 [發明所欲解決之問題] 但,既存之自動翻譯之技術所#之對譯文縱使對譯文本 身無文法的錯誤,在單字單位之對譯亦無錯誤,但就目的 語言之文章而言,卻屢屢發生變成不自然之文章之現象, 包含專利文獻1所載之技術在内,既存之自動翻譯之技術無 法獲得可供實用之翻譯精度,確屬實情。推察此係由於在 既存之自動翻譯裝置中,並未設有對自動翻譯所得之對譯 文,判定及評估作為目的語言之文章之自然度之機構,是 其理由。但,作為文章之自然度係一種難以定量化之感覺 性的指標,且難以對產生作為文章之任意語句排列,明確 地定出可判定作為文章之自然度之判定基準,故迄未確立 可對藉由自動翻譯所得作為對譯文之任意語句排列,或人 欠員作成作為文章之任意語句排列,判定作為文章之自然度 之技術。 本發明係顧及上述事實所研發而成,其目的在於獲得可 對任意語句排列,適當正確地判定作為文章之自然度之語 句排列之自然度判定裝置、語句排列之自然度判定方法及 語句排列之自然度判定程式。 【發明内容】 為達成上述目的,請求項1所載之發明之語句排列之自然 度判定裝置之特徵在於其係藉連接於網際網路之電腦而被 115685.doc 200805091 貫現者,包含··檢索機構,其係檢索被指定作為檢索對象 之語句排列是否存在於可經由網際網路存取之本文中者· 及判定機構,其係對前述檢索機構指定複數語句排列而成 之判定對象之語句排列作為檢索對象而使其施行前述檢 索,依據前述檢索機構之檢索所抽出之本文之有無及所抽 出之本文之數,就前述判定對象之語句排列判定作為文章 之自然度者。
可經由網際網路存取之本文首先其數量本身非常龐大, 合有以種種語言記述之種種内容之本文,其中雖亦包含欠 缺作為文章之自然度之本文,但基本上係以供其他人存取 •參照為前提所作成,故大部分之本文可視為具備作為文 章之自然度。又,在經過長期間之間,在各種語言中作為 文章之自然度之基準本身雖也會有所變化,但可經由網際 網路存取之本文曰曰都在更新•刪除•追加,且在更新7 =加之本文中,一般而言,可視為已反映對應之語言在該 k點之作為文章之自然度之基準。本案發明人著眼於可經 由網際網路存取之本文在總體上具備上述之特性,想到以 可經由網際網路存取之本文之總體為基準時,可對任咅任 句排列判定作為文章之自然度,終至完成本發明。 另依據上述,請求項!所載之發明之語句排列之自然度判 裝置係藉連接於網際網路之電腦而被實現,包含:檢索 構,其係檢索被指定作為檢索對象之語句排列是否存在 可經由網際網路存取之本文中者。而,請求項1所載2發 之判定機構係對檢索機構指定複數語句排列而成之判^ 115685.doc 200805091 象之語句排列作為檢索對象而使其施行檢索,依據檢索機 構之檢索所抽出之本文之有無及所抽出之本文之數,就判 定對象之語句排列判定作為文章之自然度。
又,判定對象之語句排列既可為人類所作成之文章,亦 可為如後所述’組合對應於構成原語言之原文之各語句之 目的浯:之對譯語句而自動產生之對譯語句之排列,或亦 可為相田於文早之一部分之語句排列。又,對檢索機構指 疋作為k索對象之語句排列既可為判定對象之語句排列之 全體,亦可為將判定對象之語句排列分成複數之部分,而 ,人^索含各個部分之本文。又’判定機構對自然度之判 疋八體上,係將在檢索機構之檢索有抽出符合之本文之情 形判疋為與未抽出符合之本文之情形相比「自然度較高」, 在檢索機構之檢索有抽出符合之本文之情形,隨著所抽出 之本文數之增多,可判定「自然度更高」。 如:,在請求項!所載之發明中,檢索檢索對象之語句 列(之全部或一部分)是否存在於可經由網際網路存取之 文中’依據該檢索所抽出之本文之有無及所抽出之本文 數’就判定對象之語句排列判定作為文章之自然度,故 就任意之語句#列適當正確地判定作為文章之自然度 乍為任思5吾g之文章之自然度之基準有變化時,在 Γ網際網路存取之本文中前述任意語言所記述之本幻 :所表示之作為任意語言之文章之自然度之基準也卿 迹之變化而變化,故與預先將檢索機構之檢索時所參月 之本文之情形相比,不需要檢知作為任意語言之文章之^ 115685.doc 200805091 然2基準本身之變化,並依照所檢知之變化而施行更新 •刪除·追加記憶於記憶機構之本文等之維護作業。更新 又,在請求項1所載之發明中,判定機構例如如請求項2 ^旁較料缝索機構指定判定對奴語句㈣全體作 為桉索對象而使其施行檢索,在該檢索 文之,ί主报 ^ . '、未抽出付合之本 yu逐漸縮短抽出檢索對象之語句部分排列之 ::象一面重複施行由判定對象之語句排列中抽出短於判 = 語句排列全體之語句部分排列作為檢索對象,對 構指定抽出之語句部分排列作為檢索對象而使其施 订双Μ,依據檢索機構之檢索所抽出之本文之有無、所抽 出之本文之數及抽出本文時之判定對象之語句部分排列之 長度,就判定對象之語句排列判定作為文章之自欽产。 在可經由網際網路存取之本文中,不存在有含判;對象 之语句排列全體之本文之情形,雖然有可能存在含判定對 象之語句排列之-部分(語句部分排列)之本文,但在施行此 1句部分排列之檢索之情形,與符合之本文被抽出時之判 =對象之4句部分排列之長度相比,與對應之判定對象之 W句排列之作為文章之自然度有相關,且隨著符合之本文 被抽出%之判疋對象之語句部分排列之長度之延長,可視 二、:又更回」。據此,在請求項2所載之發明中,係在 ::定對象之語句排列全體作為檢索對象之檢索中未抽出 付合之本文之情形’一面逐漸縮短由判定對象之語句排列 才出作為才欢索對象之語句部分排列之長度,一面重複施行 以抽出之居句部分排列作為檢素對象之檢索,依據檢索所 115685.doc 200805091 出之本文之有無、所抽出之本文之數及抽出本文時之判 定對象之語句部分排列之長度,就判定對象之語句排列判 疋作為文章之自然度,故就任意之語句排列可更適當正確 地判定作為文章之自然度。 、又,在請求項1所載之發明中,以由原語言之原文獲得作 :、、、的m «之文早之咼自然度之對譯文為目的之情形,例 2如請求項3所載,較好為設置產生機構,其係就構成原語 _ 二之原文之各語句分別取得目的語言之對譯語句,產生相 /在各δ吾句所取得之對譯語句之組合之複數之目的語言 之對澤#句之排列作為判定對象之語句排列者,·判定機構 二V ^双索機構为別指定產生機構所產生之複數之對譯語句 之排列作為檢索對象而使其施行檢索,構成依據各個檢索 出之本文之有無及所抽出之本文之數,由複數之對譯 。句之排列中選擇作為目的語言之文章之自然度位於上位 之對譯語句之排列。 • 、在請求項3所載之發明中,藉由產生機構產生相當於在構 f原文之各語句所取得之對譯語句之組合之複數之目的語 曰之對譯語句之排列。在請求項3所載之發明中,此複數之 對譯語句之排列將成為對應於構成原語言之原文之目的語 言之對譯文之候補,判定機構係以分別指定產生機構所產 生之複數之對料句之㈣作為檢㈣象而使其施行檢 索,依據各個檢索所抽叙本文之有無及所抽出之本文之 數,由複數之對譯語句之排列中選擇作為目的語言之文章 之自然度位於上位之對譯語句之排列。又,判定機構例如 l】5685.d〇c -10· 200805091 作為目的語言之文章之自然度位於上位之對譯語句之排 列’既可選擇檢索機構之檢索所抽出之本文數最大之單一 之對譯語句之排列,也可以本文之最大抽出數為基準,選 擇檢索所抽出之本文數之比率在特定%以上之對譯語句之 排列。
如此,在請求項3所載之發明中,分別檢索由原文產生之 複數之對譯語句之排列(對譯文之複數之候選)是否存在於 可經由網際網路存取之本文中,故可獲得用來適當正確地 判定有關各_譯語句之排狀作為文章之自然度之指標 (各個檢索所抽出之本文之有無及所抽出之本文之數),依據 ^指標由複數之對譯語句之排列中選擇作為目的語言之文 章之自然度位於上位之對譯語句之排列時,即可由複數語 句之㈣(對譯文之複數候選)中選擇更適切之對譯文(相當 於此,對譯語句之排列)作為目的語言之文章之自然度: 之對譯語句之排列即原文之對譯文。 …奴71 τ π〜偶偁例如如請求項 體兔較好為在對檢索機構指定複數之對譯語句之排歹卜 八之2檢索對象而使其施行檢索,在該檢索中均未抽出4 :之各形,藉產生機構產生相當於構成原語言。 "。句中原文上連續之特定數之語 a 合之短於複數之㈣W 4 。之對澤5。句之、· 部八心 對# s°句之排列全體之複數之對譯語句, 口刀排列,—面逐漸減少使用於對譯語夕 生之原文上之語句數,一;於去“刀排列之3 產生機構所產生之複數之對,二:W索機構分別以 複數之對句之部分排列作為檢 115685.doc 200805091 象而使其施行檢索,構成依據檢索機構之檢索所抽出之本 文之有無、所抽出之本文之數及抽出本文時之檢索對象之 對澤#句之部分排列之長度,由複數之對譯語句之排列中 選擇作為目的語言之文章之自然度位於上位之對譯語句之 排列。藉此,與先前說明之請求項2所載之發明同樣地,含 各個對譯語句排列之排列之本文均未存在於可經由網際網 路存取之本文之情形,也可選擇更適切之對譯文(相當於此 之對譯語句之排列)作為原文之對譯文。 另外,在請求項4所載之發明中,判定機構更詳言之,例 如如請求項5所载,係在每當藉檢索機構之檢索抽出符合之 本文時’使圯憶機構記憶使用於該檢索之對譯語句之部分 排列’並由用於產生其後之對譯語句之部分排列之語句= 排除對應於記憶於記憶機構之對譯語句之部分排列之原文 上之特定數之語句’在可用於產生對譯語句之部分排列之 上未連續之狀態之情形,對記憶於記憶機 trr吾句之部分排列之各組合,使檢索機構檢索含構 網路之對譯語句之本文是否存在於可經由網際 文之中,較好為構成依據含全部之對 2本文之有無、含檢索所抽出之全部之對譯語句之本:之 由5己憶於記憶機構之對譯語句之部分排列 選擇作為目的語言之文章之自 、、且口中 部分排列之組合。 厚《口句之 如上所述,在每當藉檢索機構之 時’由用於產生其後之對 耕出付…文 之。”刀排列之語句中排除 H5685.doc -12· 200805091 對應於對譯語句之邻八姐^ 據於旁_ 原文上之特定數之語句,依 據k索機構之檢索結果(對鹿 六产执-Γ 3 ^之對澤句之部分排列是否 存在於可經由網際網路存 乎更確實之對譯女以 中),以推測可獲得似 刀割圖案分割原文之語句排列(在, «構中記憶對應於上述分割圖案 (:: 語句排列之對譯語句之部分排列)。 原文上之各個 在-月求項5所载之發明中,在可用 部分排列之語句呈現在片文 生對。句之 憶於記憶機構之料狀態之情形’對記 構於佘人^分排列之各組合,使檢索機 Π舞成該組合之全部之對譯語句之本文是否存在於 可經由網際網路存取 ㈣…存取之本文之中,故可依據該檢索結果, 就對料句之部分排列之各組合,判斷構成該組合之全部 =澤语句出現在同一本文之可能性(稱為共起性)。而,依 據'全部之對譯語句之本文之有無、含檢索所抽出之 ,對譯語句之本文之數,由記憶抛憶機構之對譯語句i 部分排列之各組合中選擇作為目的語言之文章之自然度位 於上位之對澤語句之部分排列之組合’故可依據對譯择句 之部分排列之各組合之對譯語句之共起性,選擇更適切之 對譯文(相當於此之對譯語句之部分排列之組合) 之對譯文。 又 明求項6所载之發明之語句排列之自然度判定方法之特 徵在於其係藉連接於網際網路之電腦而被實現者;檢索複 數語句排列而成之判定對象之語句排列是否存在 ^ 網際網路存取之本文之中,依據前述檢索所抽出之本文之 115685.doc •13- 200805091 :無及所抽出之本文之數’就前述判定對象之語句排列判 =作為文章之自然度’故與請求項1所载之發明同樣地,可 就任意之語句排列適t正確地判定作為文章之自然度。
請求項7所載之發明之記錄語句排列之自然度判定程式 之特徵在於其係使連接於_網路之電腦執行作為語句排 狀自然度判定裝置用之語句排列之自然度判定程式;並 使前述電腦執行作為下列機構之功能者:檢索機構,並係 檢索被指^作為檢索對象之語句排列是否存在於可經由網 際網路存取之本文中者;及判錢構,其係對前述檢索機 構指定複數語句排列而成之判定對象之語句排列作為檢索 對象而使其施行前述檢索,依據前述檢索機構之檢索所抽 出之本文之有無及所抽出之本文之數,就前述判定對象之 語句排列判定作為文章之自然度者。 月长員7所載之發明之記錄語句排列之自然度判定程式 係使連接於㈣網路之電腦執行作為上述檢索機構及判定 機構用之程式,故在電腦執行請求項7所载之發明之記錄語 句排列之自然度判絲式時,電腦可發揮作為請求項]所载 之發明之記錄語句排列之自然度判定裝置之功能,故盘請 求項1所載之發明同樣地,可就任意之語句排列適#正確地 判定作為文章之自然度。 [發明之效果] 人如以上所說明之本發明,由於檢索複凄文語句排列而成之 才欢索對象之語句㈣是否存在於可經由網際網路存取之本 文中,依據該檢索所抽出之本文之有無及所抽出之本文之 115685.doc -14- 200805091 數’就判定對象之語句排列判定作為文章之自然度,故具 有可就任意之語句排列適當正確地判定作為文章之自然度 之優異之效果。 【實施方式】 以下,參照圖式,詳細說明本發明之實施型態之一例。 圖1係表示本實施型態之電腦系統10。電腦系統10係在連接 有多數台網路伺服器12而成之網際網路i 4,分別連接多數 口用戶端終端16所構成。
連接於網際網路14之各個用戶端終端16例如係由個人電 腦(pc)等所構成,具備CPU 16A、RAM等構成之記憶體 16B、安裝OS(〇perating System ;作業系統)及瀏覽器等程 式之硬碟(HDD)16C、網路介面(I/F)部16D,經由網路I/F部 16D連接於網際網路14。又,在用戶端終端16,分別連接顯 不為等之顯不機構、滑鼠•鍵盤等之輸入機構(皆未圖示)。 又,在連接於網際網路14之個用戶端終端16中,存在有 執行作為本發明之語句排列之自然度判定裝置之功能之用 戶端終端16,在該用戶端終端16<HDD 16c,預先安裝有 供CPU 16A執行後述之對譯判斷處理之對譯判斷程式,且 記憶著對譯辭典資料庫(DB)。又,上述之對譯判斷程式係 對應於請求項7所載之語句排列之自然度判定程式。又,在 對譯辭典DB中,對應於以目的語言記述之對譯之本文資 料,登錄有多數以原語言記述之語句(單字、複數單字組成 之文節及詞組等)之本文資料。 另一方面,各個網路伺服器12具備cpu 12a、ram等構 115685.doc -15- 200805091 成之記憶體12B、安裝0S等程式之HDD 12C、網路介面(I/F) 部12D,經由網路Ι/p部12D連接於網際網路14。在各種網路 伺服器12中,在經由網際網路14提供本文及圖像、音樂等 任意網頁内容之網路伺服器12(網頁内容提供伺服器)之 HDD 12C中,記憶著本文等之網頁内容,且安裝有内容傳 遞程式,以供在每當由任意之電腦(任意之用戶端終端16、 或網路伺服器12)經由網際網路14被要求傳遞任意之網頁 内容時,可執行將被要求之網頁内容傳遞至要求源之電腦 之内容傳遞處理。 又,在網路伺服器12中,有可檢索是否存在有可經由網 際網路存取之龐大之本文(網頁文件)中所指定之含關鍵字 之本文而知:供&示檢索結果之檢索服務之網路伺服器 12(檢索服務提供伺服器),在執行作為檢索服務提供伺服器 之功能之網路伺服器12iHDD 12C,記憶著檢索用資料庫 (DB),並預先安裝檢索服務提供程式。執行作為檢索服務 提供伺服器之功能之網路伺服器12係在Cpu 12A執行檢素 服務提供程式時,追尋網頁文件之聯結而逐次閱覽多數網 頁文件,在每當發現未收集之網頁文件或已被更新之網頁 文件時,將所發現之網頁文件之内容保存於檢索fflDB,或 執行已保存於檢索用DB之資訊之更新,並在被指定關鍵字 而被要求彳欢索時’以被指定關鍵字檢索檢索用dB而執行輸 出結果之檢索服務提供處理。 其次,說明本實施型態之作用。在本實施型態中,在希 望獲悉對應於原語言所記述之原文之目的語言之對譯文之 115685.doc •16- 200805091 情形_:用戶對用戶端終端16執行指定翻譯對象之原文及目 的^之操作。又,翻譯對象之原文只要是被讀入用戶端 終端:作為本文資料即可,例如可適用用戶經由鍵= ^之本文文已由文#處理機•軟體所作成而被記憶於腦 覽中之網頁ΓΓ網際網路14存取之本文中經由劉覽器閱 0CRm t.】 之本文、錯掃描器讀取文字原稿,經 P !ca Character Rec〇gniti〇n ;制光學方法之文 :識)處理所獲得之本文等中之-種。X,翻譯對象之敎 於文章’也可為複數單字組成之文節或詞組等。 士上述方式指定翻譯對象之原文時,可藉用 16之CPU16錢行對譯_程式,以執行圖2心之料判 ㈣譯判斷處理係適用請求項 列之自然度判宕古、土 —各 K m句排 妒16且古从、、处理,執行此處理時,此用戶端終 a而為本發明之語句排列之自然度判定裝置之功 能0 •檢之對譯判斷處理中’首先’在步驟3。中 业應…、翻澤對象之原文全體是否已登錄於對譯 〃 人,在步驟32中,判定在步驟30之檢索中是否 對譯辭典DB發現居令人 ' m步驟32之判定被肯定之情形 乂驟34,對應於在步驟30之檢索所發現之原文 -❿由對澤辭典DB讀&登錄於對譯辭典之對譯(文) "斤^出之對澤(文)作為對應於原文之候選對譯文(例: f其顯不於用戶端終端16之顯示器等),並結束對譯判斷^ 1又,對應於原文全體,對譯辭典DB中有複數之對譯(文 115685.doc 17 200805091 被登錄之情形,與後述之檢索同樣地,只要利用檢索服務 提供伺服器提供之檢索服務,檢索含各個對譯(文)之本文, 輸出有符合之本文存在且命中件數之比率(後述)在臨限值 以上之對譯(文)作為之候選對譯文即可。
人,隹歹鄉川之檢索中由對譯辭典DB未發現原文全體之 6形,步驟32之判定被否定,轉移至步驟%,對原文適用 最長-致法’-面參照對譯辭典DB’ 一面將原文分解成複 數語句(或語句排列)。此原文之分解也可取代後述之步驟 48〜步驟68之處理之網頁檢索而適用對譯辭典DB之檢索, 由原文抽出特定長度(構成語句數達特定值)之語句部分排 列’檢索所抽出之語句部分排列是否已登錄於對譯辭血 M,已登錄於對譯辭典DB之情形,記憶該語句部分排列作 :分割對象’-面逐漸縮短語句部分排列之長度(一面逐! 之抽屮㈣线心了由其叙語句部分排列 出之=除構成該語句部分排列之各語句直到可抽 列之語句呈現在原文上未連續之狀態為 止’藉此,即可子w:曰 β “、又,在步驟36中藉最長-致法 由原文被分解之語句咬α1 笙Μ β °句排列在以下僅稱為「語句」,此 U句之總數(分解語句數)在以下,設定為"a,,。 在在步驟38中,就在步驟36中由原文被分解 这 句’由對譯辭典DB分別取得全部之對譯 θ … 句之對譯記憶於HDD 取侍之各個語 u 16C。在其次之步驟 驟38取得之各個語句之對譯 h 句數為a,各個糌此,假設分解語 各個-句之對譯數為ηι、η2、...、〜時,可產生 115685.doc -18- 200805091 n、lXn2X...Xna個之對譯組合目案。又,步驟4〇係對應於在产 求項3所載之產生機構。 月 在其次之步驟42巾,制檢索服務提供伺服器提供之檢 索服務,逐次執行包含在其步驟4G中產生之各個語句之對 譯組合圖案之本文是否存在於可經由網際網路14存取之本 文之網頁檢索。具體上,係存取於檢索服務提供伺服器運 用之檢索服務提㈣之網站,指定特定之對譯組合圖案作 為檢索之關鍵字(指定檢索條件,以便僅檢索構成特定之對 睪、、、a囷案之各個對澤語句以相同於特定之對譯組合圖尹 之順序連續地出現之本文)而指示執行檢索,並就先產生之 全部之組合圖案逐次執行使檢索服務提供伺服器所傳遞之 檢索結果(含指定之關鍵字之本文之命中件數)記憶於獅 16C 〇 又,步驟42係對應於本發明之檢索機構,且對應於請求 項2所載之判定機構之「對檢索機構指定判定對象之語句排 列全體作為檢索對象而使其施行檢索」之步驟、及請求項* 所載之判定機構之「對檢索機構指定複數之對譯語句之排 列全體作為檢索對象而使其施行檢索」之步驟。 在步驟44中參照記憶於HDD 16C之檢索結果,判定被步 驟42之網頁檢索抽出之符合之本文(命中件數丨件以上)之對 譯組合圖案是否存在。此判定受肯定之情形’轉移至步驟 粍,首先,辨識被網頁檢索抽出之符合之本文之對譯組合 圖案數。辨識之數在丨以上之情形,例如藉顯示於用戶端終 端16之顯示器等輸出網頁檢索抽出符合之本文之唯一對譯 H5685.doc -19- 200805091 a圖案作為對應於原文之 理。又产 “對澤文,完成對譯判斷處 紅如二 又之對譯組合圖案有旛 數存在之情形,判斷各對譯組合圖案中, 最大之盤嘴 ’、 本文之中件數 數對澤、、且δ圖案’以該對譯組合圖案之本文之命 2為基準⑽%),運算其他對譯組合圖案之本文之命中件 =率’藉顯示㈣戶端終端16之顯示器等輸出命中件 數之比率在臨限值以上對 候選~ 合圖案作為·^原文之 係^對#文,完成對譯判斷處理。 藉此,即可在步驟4〇產生 I生之對應於原文全體之複數之對 潭、、且b圖案中,輸出作為 ,^5之文章之自然度最大或 上位之對譯組合圖宰作為斜 口茶作為對應於原文之候選對譯文。又, 步驟44、46對應於本發明之判定機構。 兹列舉實例,進一步說明上 ,^ 乃上述步驟36〜步驟46之處理。例 如指定曰文之「營養失調 J卜兩翻澤對象之原文,指定英 文作為目的語言,而翻譯對 、 ^登錄於對譯辭物之情形,步驟32之判定被否定,在」步) =’二文:分解成「營養」與「失調」之各語句(分解語 句數a-2),在步驟%,右义▲五 在各语句,由對譯辭典DB取得對譯。 在此,取得"dietary" ”q1· ” y, alimentary"nutritional^ nutrition’V’t—”之 ’ 了#作為營養」之對譯,取得 deficiency","dis〇rd " ,UrbanCe","disease"之4個對 澤作為 失调j之對琴夕降/ 之W,在步驟4G中,產^ 5 X4=20個之對譯組合圖幸 ^ 茶作為對澤組合圖案(參照下列之表 115685.doc 200805091 [表i] <「營養失調」之對譯組合圖案> 組合圖案 組合圖案 組合圖案 1 dietary deficiency 2 dietary disorder 3 dietary disturbance 4 dietary disease 5 alimentary deficiency 6 alimentary disorder 7 alimentary disturbance 8 alimentary disease 9 nutritional deficiency 10 nutritional disorder 11 nutritional disturbance 12 nutritional disease 13 nutrition deficiency 14 nutrition disorder 15 nutrition disturbance 16 nutrition disease 17 trophic deficiency 18 trophic disorder 19 trophic disturbance 20 trophic disease
而,由步驟42之網頁檢索,獲得如下列之表2所示檢索結 果作為一例之情形(又,在表2中依照命中件數之下降順序 表示對譯組合圖案),命中件數最大之對譯組合圖案為 "nutritional deficiency”,命中件數為79600件,故命中件數 之比率在”nutrition disease”為86%,在"dietary deficiency” 為3 8%,輸出作為候選對譯文之命中件數之比率之臨限值 例如假設為70%時,可輸出"nutritional deficiency”及 "nutrition disease”作為原文「營養失調」之候選對譯文。 又,輸出作為候選對譯文之命中件數之比率之臨限值若為 100%時,則常僅可輸出單一對譯組合圖案(此情形,為 "nutritional deficiency")作為候選對譯文。 -21 - 115685.doc 200805091 [表2] <對譯組合圖案之網頁檢索結果之一例> 組合圖案 命中件數 組合圖案 命中件數 1 nutritional deficiency 79600 2 nutrition disease 68200 3 dietary deficiency 30500 4 nutritional disorder 13300 5 nutritional disease 10600 6 nutrition deficiency 4710 7 nutrition disorder 1360 8 Nutritional disturbance 647 9 dietary disease 521 10 dietary disorder 394 11 alimentary disease 278 12 alimentary disorder 173 13 trophic disorder 72 14 trophic disturbance 67 15 dietary disturbance 56 16 alimentary deficiency 55 17 nutrition disturbance 20 18 trophic disease 7 19 trophic deficiency 5 20 alimentary disturbance 0
又,在步驟40產生之對譯組合圖案如表1所示,並不限於 羅列由原文所分解之各語句之對譯之圖案(例如原文=(A, B)(但A,B各為語句),語句A之對譯為「A」,語句B之對譯 為「B」時,羅列成「A」「B」之圖案),例如,如目的語 言為英語之情形之「B」of「A」所示,當然也可產生其他 圖案(在後述之步驟60產生之對譯組合圖案之產生亦同)。表 3係表示在利用表1、2說明之例中,除了圖案「a」「B」之 外,也利用圖案「B」of「A」之情形所產生之對譯組合圖 案及網頁檢索結果之一例。如表3所示,在本例中,圖案之 種類數p=2,故產生n〗xn2xp=5x4x2=40個對譯組合圖案,分 別對各個對譯組合圖案施行網頁檢索。 115685.doc -22- 200805091 [表3] <「營養失調」之對譯組合圖案及網頁檢索結果之一例>
組合圖案 命中件數 組合圖案 命中件數 1 nutritional deficiency 79600 2 nutrition disease 68200 3 dietary deficiency 30500 4 nutritional disorder 13300 5 nutritional disease 10600 6 nutrition deficiency 4710 7 nutrition disorder 1360 8 nutritional disturbance 647 9 deficiency of dietary 584 10 dietary disease 521 11 dietary disorder 394 12 deficiency of nutritional 292 13 alimentary disease 278 14 alimentary disorder 173 15 deficiency of nutrition 131 16 disorder of nutrition 125 17 disease of nutrition 112 18 disturbance of nutrition 86 19 disease of dietary 73 20 trophic disorder 72 21 trophic disturbance 67 22 disease of nutritional 62 23 dietary disturbance 56 24 alimentary deficiency 55 25 nutrition disturbance 20 26 disturbance of nutritional 20 27 deficiency of trophic 17 28 disease of alimentary 11 29 deficiency of alimentary 10 30 disturbance of trophic 8 31 disturbance of alimentary 8 32 trophic disease 7 33 trophic deficiency 5 34 disease of trophic 0 35 disturbance of dietary 0 36 disorder of trophic 0 37 disorder of nutritional 0 38 disorder of alimentary 0 39 disorder of dietary 0 40 alimentary disturbance 0 又,在表3所示之例中,命中件數之比率位於上位之對譯 組合圖案與表2所示之結果相同,故輸出作為候選對譯文之 命中件數之比率之臨限值為70%時,與表2之例同樣地,可 輸出"nutritional deficiency"及"nutrition disease”作為原文 「營養失調」之候選對譯文。若為別的原文,則有輸出對 應於圖案「B」of「A」之對譯組合圖案作為候選對譯文之 可能性,可增高輸出更適當正確之候選對譯文之概率。 -23- 115685.doc 200805091 而,在利用表1〜矣1 π 少數語句組成之/所說明之例中’為簡化說明’以指定 明,但實際上,指1文:為翻譯對象之原文之情形加以說 且常發生完全^章作為翻譯對象之原文之情形頗多, 秃中一 P包含步驟40所產生之各個對譯組合圖 本文之情形。此情形,步驟44之判定會被否 . 在Y驟48〜步驟72以對應於原文之一部 刀之§吾句排列之豐士士塞 且5圖案為對象重複執行網頁檢索而 執仃選擇·輸出候選對譯文之處理。 「 ^驟4之判定被否定之情形相當於請求項2所载之 在:判疋對象之语句排列全體作為檢索對象之檢索中未 抽出符合之本文之情形」、及請求項4所載之「在以複數之 對譯語句之排列全體作為檢索對象之檢索中均未抽出符合 之本文之情形」。又’步驟48~步驟72係對應於請求項2所载 之判定機構’步驟48〜步驟72中不含步驟”、6〇之各步驟亦 對應於請求項3〜請求項5所載之判定機構。 。又,在以下之步驟48〜步驟72之說明中,係以將依據前述 最長一致法之分解被分解成15個語句之原文(分解語句數 之原文)指定作為檢索對象,由對應於構成原文之^個 語句之15個對譯語句組成之對譯語句之排列(〇、ρ、qs、 t、u、V、w、x、y、z、a、b、c)中求出候選對譯文之情形 為例加以說明。但,構成上述排列之對譯語〇、p、 r、 t ' U ' V、w、X ' y ' Z ' a、b、c係分別表示對譯數心、^、 、nr、ns、nt、…ν、nw、ηχ、ny、ηζ、na、、、〜之: 譯語句全體。 115685.doc -24 - 200805091 在步驟48中,將分解語句數⑻之值(在本例中,為”14Ί 代入變數i中而初純定變數ie又,此變…係表示施行後 述之網頁檢索之語句排列之長度。在其次之步驟50中,判 定變數i之值是否為卜判定被否定之情形,轉移至步驟& 將1代入义數J。又,此變數j係表示施行後述之網頁檢索之 語句排列之前頭位置。 2步驟54中’判定變數j加變數i再減1之值是否大於分解 二:數二此時,因上述值為15,故步驟54之判定被否定而 二二…’構成原文之a個語句中之第j個語句〜第 J卜)個㈣判定對應之對料句在後述 否全部未命中。此产报,㈤土丑— 貝私家宁疋 ^ 未執打網頁檢索,故判定被肯 疋而轉私至步驟59,產生 Π + . lWm^ 生對應於原文中之第j個語句〜第 步㈣亦對應於Μ項3腳,(料組合圖案)。又’ 4所載之矣卜1 產生機構’且對應於請求項· 排列」之 Μ㈣構產生複數對譯語句之部分 求項4所裁二「 步驟59產生之對譯組合圖案對應於請 :員4所载之「相當於構成原語言之原文之各語句中在 上連#之特定數之語句之對 ’、 句排列之排列全體之吃心…ϋ 、、且&之短於複數之語 J王肢之,口句排列之部分排 之對譯組合圖荦 且^驟59產生 -部分,故產生之對譯組合圖案之 在其:/亦對應於請求項2所载之「語句部分排列」。 索服務㈣服務提供飼服器提供之檢 中,是否存在有含·由網際網路14存取之本文 “驟59產生之各個對譯組合圖案之本文 115685.doc -25- 200805091 (構成檢索斟象 於檢索對象之㈣口圖案之各個之對譯語句以相同 頁檢索。_ 案之順序連續出現之本文)之網 在此時點,變數卜 產生對應於以τ 故在步驟59中, 0〜b之排列之 W(來顯不之對譯語句 t澤組合圖案(產生之對譯組合圖宰M_n xn x...叫)’在步㈣逐次m Q案數-n〇xnP 案之本文。 匕3所產生之各個對譯組合圖
I 〇PqrStUvWxyZab| c 出符1之/驟62中,判疋是否出現步驟60之網頁檢索抽 被否i之/(命中件數在1件以上之)對譯組合圖案。判定 情形,轉移至步驟64,將變數】加丨而返回步驟54。 時點’變數j=2、(j+M)=15,故步驟54之判定再度被否 疋且v驟58之判定再度被肯定而轉移至步驟”,如以下 :示’由對前次向後挪移1個語句之位置起產生對應於與前 ^度之對譯語句p〜c之排列之對譯組合圖案(產生之對 澤組合圖案數=npXnqX...xnc),在步驟6〇逐次檢索包含所產 生之各個對譯組合圖案之本文。 〇 丨 Pqrstuvwxyzabc| 在此網頁檢索中亦未出現被抽出符合之本文之對譯組合 圖木而步驟62之判定被否定之情形,在步驟64,再將變數」· 加1而返回步驟54。在此時點,變數j=3、(j+ijpw,故步 驟54之判定被肯定而轉移至步驟56,將變數;減丨(成為 尸13)’而返回步驟50。而經過步驟5〇之判定在步驟52變數j 回復成為1。在此時點,變數、(』+Μ)=13,經過步驟54、 115685.doc -26 - 200805091 58之判在步驟59’產生對應於以下所*之 之排列之對譯組合圖案(產生之對譯組合 ° D。句0〜a 、—卜 禾默 tnoXn^x··· y na),在步驟60逐次檢索包含所產生之各個 本文。 、ϋ圚案之 I opqrstuvwxyzal be 在此網頁檢索中亦未出現被抽出符合之 _. ° +又之對譯組人 圖案而步驟62之判定被否定之情形,在步驟以,再將變口. 加1而返回步驟54。在此時點,變數卜2、(j+i_ 文 j 過步驟54、58之判定,在步驟59如以下所示, '' 田對月ij次向 後挪移1個語句之位置起產生對應於盥前 入叫長度之對譯 語句P〜b之排列之對譯組合圖案(產生之對 11 ' σ 圖案數 snpxncjx…xnb),在步驟60逐次檢索包含所吝一 S所產生之各個對譯 組合圖案之本文。 〇 I pqrstuvwxyzab| c 在此網頁檢索中亦未出現被抽出符合之太 十又 < 對譯組合 圖案而步驟62之判定被否定之情形,在步驟64, 丹將變數j 加1而返回步驟54。在此時點,變數卜3、n + ; 1, 』 U + i_l)=i5,故經 過步驟54、58之判定,在步驟59如以下所示,士魁& 田對刚次向 後挪移1個語句之位置起產生對應於與前次同長度之對譯 語句q〜c之排列之對譯組合圖案(產生之對譯組人图案數 =nqxnrx··· xnc),在步驟60逐次檢索包含所產生之各個對二學 組合圖案之本文。 op| qrstuv wx y z a b c | 在此網頁檢索中亦未出現被抽出符合之本文之胃_ ^ ^ I15685.doc -27 - 200805091 U…㈣,在㈣64,再將 加1而返回步驟54。在此時點,變數j=4、(j+i_i)=i6,故步 驟54之判定被青定而轉移至步驟56,將變數填丨(成為 返回步驟50。而經過步驟5〇之判定在步驟城幻
二it1。在此時點,變數j = 1、(j+M)=12,經過步驟54、 疋’在步驟59 ’產生對應於以下所示之對譯語句〇〜Z 之排:之對譯組合圖案(產生之對譯組合圖案數、,x... X nz)’在步驟6〇逐次檢索包含所產生之各個對譯組合圖案之 本文。 I0Pqrstuvwxyz|abc f下同樣地,在網頁檢索中未出現被抽出符合之本文之 對澤組合圖案之期間,一面使用於產生對譯組合圖案之原 ==列之前頭向後各挪移1個語句,-面重複執行 對澤、·且5圖案之產生、網頁檢索,在每當原文上之語句排 列之末尾達到原文之末尾時(每當步驟54之判定被肯定 2了重複執行將使用於產生對譯組合圖案之原文上之語 句排列縮短1個語句之動作。 在此,變數i(使用於產生對譯組合圖案之原文上之語句排 列之語句數)=4,變數j(使用於產生對譯組合圖案之原文上 之香句排列之前頭語句)=4,且(沖1)=7時,經過步驟Μ、 58之判定,在步驟59,產生對應於以下所示之對譯語句㈣ 之排歹^對譯組合圖案(產生之對譯组合圖案數=^㈣ 在::6。逐次檢索包含所產生之各個對譯組合圖案之 本文之結果: 115685.doc -28- 200805091 …丨…u|vwxyzabe 级次明以下之處理,以作為出現被抽 組合圖案之例。 之本文之對譯 ^驟62之判定被肯定而轉移至步驟66,首| 在步驟60之網頁檢索中 ’ …I 辨識付合之本文被抽出之對譯組合 圖案數1識數為1之情形,將網頁檢索㈣符合之 之唯一對譯組合圖案記憶於HDD 16C(請求項 機構Μ乍為構成原文之語句排列中之第』個〜第(=)個= 選對譯。又’在步驟6°之網頁檢索中辨識; ° 抽出之對譯組合圖案有複數個存在之情形,判 斷在各對譯組合圖案t,本命 同安^ 4 乂 <卩T仟數最大之對譯組合 圖案,以该對譯組合圖案本文之命中 管苴妯斟崎,人 ρ Τ仵數為基準(100%)運 〜他對澤、,且合圖案本文之命中件數之比率。而,將命中 件數之比率在臨限值以上之對譯組合圖案記憶於刪撕 作為構成原文之語句排列中之第j個〜第G+M)個之語句之 排列之候選對譯。 在其次之步賴中’使變幻加i而返回步驟54。在此時 點:數J=5、(j+M)=8,步驟54之判定雖被否定,但原文中 之第4個〜第7個語句之對岸之對嚀 JUT應之對澤浯句已在網頁檢索中命 中(對譯語句之排射在網頁檢索中命中之對譯語句以大 寫英文標記,並以括號["、"]圍起來而標示如下)、 °Pq[RSTU]vwxyzabc 步驟58之判定被否定而轉移至步驟M,使變幻加!而返回 步驟54。如此’步驟58之判定對應於請求項$所載之「由用 115685.doc -29- 200805091 生其後之對譯語句之部分排列之語句中排除對應於記 :=s己憶機構之對譯語句之部分排列之原文上之特定數之 :」之步驟。此步驟54、58、64之循環會被重複執行直 :數j=8、(j+M)=1卜對應於原文中之第j個〜第(j+i])個 之=之對譯語句在網頁檢索中均為命中而步驟Μ之判定 被肯定為止。而,在變數卜8、(j+i_1)=11時,步驟58之判定 被肯定’如以下所示’在步㈣產生對應於對譯語句v〜丫 之排列之對譯組合㈣(產生之對譯組合圖案數=η Αχηχχ %),在步驟6G逐次檢索包含所產生之各個對譯組合圖案: 本文。 〇 P q [R S T U] I v w X y i z a b c 在此網頁檢索中並未出現被抽出符合之本文之對料入 圖案而步驟62之判定被否定之情形,在步驟64,再將變數口 加!而返回步驟54。在此時點,變數j = 9、(j+i介12,故姐 過步驟54、58之判定’在步驟59如以下所示,由對前次: 後挪移1個語句之位置起產生對應於與前次同長度 語句W〜z之排列之對譯組合圖案(產生之對譯組合圖案數二 nwxnxxnyxnz) ’在步驟60逐次檢索包含所產生之各個 合圖案之本文。 、 Ο p q [R S T U] v ) w X y z ] a b c 在此網頁檢索中出現被抽出符合之m 之情形,步驟62之判定被肯定而轉移至步驟66:被 合之本文之對譯組合圖案之數為1時,將網頁檢索抽出符1 之本文之唯-對澤組合圖案記憶於咖㈣作為構成原文 Π 5685.doc -30· 200805091 之叩句排列中之第j個〜第(州])個之語句之排列之候選對 澤。符合之本文被抽出之對譯組合圖案有複數個存在之情 二在各對譯組合圖案中,以本文之命中件數最大之對譯 組。圖案之本文之命中件數為基準(〗⑽%)而運算苴他 組合圖案本文之命中件數之㈣,將命中件數之㈣在臨 限值以上之對澤組合圖案記憶於^〇〇 作為原文中之第』 個〜第(j+hl)個之語句之排列之候選對譯。在步驟68中,使 變數j加1而返回步驟54。
在此4點’變數尸! 〇、(j+:Ul)=13,步驟54之判定雖被否 定γ但原文中之第4個〜第7個及第8個〜第1」個語句之對應之 、皆f。句已在網頁檢索中命中(亦請參照以下所示之對譯 -句之排列),步驟58之判定被否定而進入前述步驟Μ、 58、64之循環。 ° p q lk s τ u] v [w 但’此% ’在原文中之第u個語句以後 在網頁檢索中未命中之扭句〇有3個*對睪B口、 ·= 不ρ τ炙。口句/、有3個(<1)連續,故在變奏 广13、(叫)=16之時點,在步㈣之較被肯定時,結声 ㈣(對譯語句數)i=4之對譯組合圖案之檢索,在步驟洲 =數”咸Ui=3)’且經步㈣之判定而在步驟52變幻回復成 為1 〇 接著,執8變數(對譯語句數)i=3之對譯組合圖宰之核 但在此時點,錢之對譯語句在網頁檢索中未命中之 語句連續3個以上者僅為原文中 々 乐1個〜弟3個及第13個^ 弟5個語句之排列’故如以下所示’僅對對譯語句"之排 115685.doc -31 - 200805091 圖案之產生(步 網頁檢索(步驟 列及對譯Da〜e之排列依序執行對譯組合 驟59)、含產生之各個對譯組合圖案之本文之 60) 〇 I °pql [RSTU]v[WXYZ]abc O p q [R S T U] V [W X Y Z] I a b 〇 ] 在此,在對應於對譯語句a〜c之對譯組 中T抽出符合之本文之對譯组合圖案之情二頁=
檢索抽出符合之本文之唯一㈣έ :數為1時’將網頁 “ 奉文之唯料組合圖案記憶於HDD 16C 作為構成原文中之峨〜第(j+M)料第i3個〜第Η個語句 之排列之候選對譯’符合之本文被抽出之對譯組合圖宰有 複數個存在時,在各對譯組合圖案中,以本文之命中件數 最大之對譯組合圖案之命中件數為基準(驗。)而運算1他 對譯組合圖案本文之命中件數之比率,將命中件數之比率 在隨值以上之對譯組合圖案記憶於卿⑽作為原文中 之第13個〜第15個之語句之排列之候選對譯。又,以下列示 在結束變數(對譯語句數)i=3之對譯組合圖案之檢索之時點 之對譯語句之排列狀態。 0 P q [R s T U] V [W X γ Z] [A B C] 接著,執行變數(對譯語句數)i=2之對譯組合圖案之檢 索’但1此時點’對應之對譯語句在網頁檢索巾未命中之 π句連、·λ 2個以上者僅為原文中之第丨個〜第3個語句之排 列故士以下所示,僅對對譯語句0、Ρ之排列及對譯語句Ρ、 q之排列依序執行對譯組合圖案之產生(步驟59)、含產生之 115685.doc -32- 200805091 各個對譯組合圖案之本文之網頁檢索(步驟 I opl qtRSTU]v[WXYZ] [ABC] 〇lpqi TRSTUJvfWXYZ] [ABC] 在此’在對應於對譯語句p、 對 旁中出規祜站山、°睪、、且s圖案之網頁檢 索中出現被抽出付合之本文之對譯組 驟66,被抽出符合之本文之 案之W ’在步 頁檢f$ 6、σ θ案之數為1時,將網 ⑽作H 本文之唯—對譯組合圖案記憶於麵 6C作為構成原文中第 J 約1-1)個,即第2個〜第3個
If,, ^ 件數L ’在各對譯組合圖案中,以本文之命中 而、靈瞀甘 σ 本文之咋中件數為基準(100〇/〇) 而運异其他對譯组人圖査士 Η、、且口圖案本文之命中件數之比率,將命中
比率在臨限值以上之對譯組合圖案記憶於HDD16C 、文中之第2個〜第3個之語句之排列之候選對譯。又, 下列τ在結束變數(對譯語句數)卜2之對譯組合圖案之檢 索之時點之對譯語句之排列狀態。 ° [P^ Q3 [R S T U] v [W X Y z] [A B C] 變數(對譯語句數)卜2之對譯組合圖案之檢索結束時,步 :5:之判定被肯定而轉移至步驟56,再將變數㈤而成為 ^ v驟50之判定被肯定而轉移至步驟70。又,在轉移 至步驟70之時點’翻譯對象之原文之語句排列可被分割成 被推測可獲得4牟, 、 彳子更確貫之對譯文之分割圖案分割圖案 :上述之例中’為命中件數之比率在臨限值以上之對譯組 圖案被记fe於HDD 16C作為候選對譯之[Pq]、[RSTU]、 115685.doc • 33 - 200805091 [WXYZ]、[ABC]、與其他之語句。、v)。 在步驟70中,在上述分割圖案所分割之原文中之各個要 素(語句排列或語句)中,對於被記憶作 臨限值以上之對譯組合圖案作為候選對譯之語:列t HDD 16C完全讀屮μ n邮 1、达對譯;對於對應之對譯語句在 :頁=中未命中之語句,由馳⑽完全讀出由對譯辭 八 得之對譯語句,並產生所讀出之候選對譯•對譯語 ΐ數’:::候選對#文)。藉此’例如假設上述分割圖案之要 ’各個要素之候選對譯或對譯語句之數為ηι、 〜呀,產生ηιΧη2Χ…χι^個候選對譯文。 =’利用檢索服務提供舰器提供之檢索服務,就上 生之特候選對譯文逐次執行檢鎖包含構成上述產 成特定之候選對譯文之各:= 與特定之候選料Γ 部之本文而不受 、、文之順序相同或相異且連 ::::頁7;)是否存在於一 語句之共起^、猎此’调查構成各個候選對譯文之對譯 而在其次之步驟72中,在步驟 本文被抽出之對嘩紐入岡安$ 貝細宗中付合之 合之本文之唯數為1時,將網頁檢索抽出符 譯,結束文輸出作為對應於原文之候選對 之本文被抽出之對;:二又’在步驟70之網頁檢索中符合 對譯組合圖二=合圖案有複數個存在之情形,在各 «案中’財文之命中件數最大之對譯组 II5685.doc -34· 200805091 之命中件數為基準(100%)而運算其他對譯組合圖案本文之 〒中件數之比率,將命中件數之比率在臨限值以上之對譯 組合圖案輸出作為對應於原文之候選對譯,結束對譯判斷 處理。此情形,亦依據網頁檢索之結果,在步驟66分別包 έ «己L、於HDD 16C之候選對譯中之複數之候選對譯文中, 依據,、起性輸出作為目的語言之文章之自然度被推定為最 大或上位之對澤組合圖案作為對應於原文之候選對譯文。 又1,在上述中,所說明之態樣係產生相當於在構成原文 各。句中在原文上連續之特定數之語句之各對譯語句之 =合之複數之對譯組合圖案一面逐漸減少使用於對譯組 二®案之產生之原文上之語句數一面重複施行逐次檢索 生之各個對譯組合圖案之本文,並採用被前述檢索 由出符口之本文之對譯組合圖案作為候選蜚子譯,並執行由 =於產生其後之對譯組合圖案中排除對應於該對譯組合圖 二之原文上之語句排列之處理,而與上述檢索所抽出之符 ==件數相比’以在上述檢索中符合之本文被 :之對澤組合圖案之長度(語句數)為優先而判斷候選對 厚文,但本發明並不限定於此,儘管長度 之特定對譯組合圖索作為文章之自然度原本較二:) 可經由網際網路存取之本文中含在 會偶然存在μ特疋對孝組合圖案 為候選對譯文之W之特定對譯組合圖案被採用作 案之檢索中二一;:::能性,例如既可在 情形,才採::二::= 數在基準值… 心且。圖案作為候選對譯文,亦可 115685.doc •35- 200805091 不由用於產生其後之對譯組合圖案中排除對應之原文上之 语句排列,而在施行對譯組合圖案之產生·網頁檢索後, 就網頁檢索中被抽出符合之本文之全部對譯組合圖案比 較對譯組合圖案之長度及本文之命中件數,選擇採用作為 候選對#文之對譯組合圖案,產生候選對譯文。 對:二二述t,雖說明在用戶端終端16之_ 16C記憶 :之㈣,但本發明並不限定於此,例如,如圖 所不,也可在構成連接於網際網路14 服務提㈣服n之功能之網路㈣心之HDDi= = 象之眉令〃 ^用戶^㈣判斷被指定做為翻譯對 象之原文之對譯之際,首先,探詢對譯服務提供祠服写而 ===之各語句之對譯(參照同圖之⑴〜(3))後,依據 (對應於;頁檢斷原文,文 (對二雖說明用戶端終端16施行原文之對譯文 定^此:如 譯文)之判斷之態樣,但本發明並不限 ’如圖耶)所* ’切構錢對譯辭典_己 ▲於執订作為對譯服務提供 之刪12C,並預先安化…力-之網路飼服器12 同樣之處理之程式,在由、用订與上述說明之對譯判斷處理 料,而在每當受戶端終端16接到原文之本文資 噚辭业DBP 詢時(參照同圖之⑴),由對 澤辭典DB取得構成㈣之 田對 之各語句之對譯施行網頁 各句之對譯’依據取得 於原文之候選對譯文)(夫二、,U判斷原文之對譯文(對應 、支了序又)(夢照同圖 口之Ο) ’向採詢源之用戶端 I15685.doc -36 - 200805091 終端16發送所判斷之 、潭文(多照同圖之(3))。又,在上述 恶樣中,執行作為對譯 器12係對應於請求 a供飼服器之功能之網路祠服 服器以上述程以=,聽安裝於上述網路飼 然度判定程式對應於請求項7所載之語句排列之自 象二中,雖說明在判斷對應於被指定作為翻譯對 2原文之對譯文之際適用本發 限定於對譯文之刹齡7Ϊ 不嗌明並不 句排列存在之:::=:有複數則被作成成為文章之語 作為文章之自b f 於自動地判定•評估而選擇 r W又更向之語句排列等之態樣。 【圖式簡單說明】 圖貫施型態之電腦系統之概略構成之區塊圖。 、表不對譯判斷處理之内*之流程圖。 V2、(B)係表示本發明之另-態樣之概念圖。 >王要7L件符號說明】
10 12 14 16 16C
電腦系統 網路伺服器 網際網路 用戶端終端 HDD n5685.doc -37-

Claims (1)

  1. 200805091 十、申請專利範圍: 1 ·—種語句排列之自鈇声京丨中 於细 裝置’其特徵在於其係藉連接 於凋際網路之電腦而被實現者,包含. 0檢索機構,其係檢索被指定作為檢索對象之語句排列 疋否存在於可經由網際網路存取之本文中者·及 判定機構’其係對前述檢索機構指^複數語句排列而 =判定對象之語㈣列作為檢㈣象而使其施行前述 欢索,依據前述檢索機構之檢索所抽出之本文之有盈及所 $出之本文之數’就前述财對象之語句排列判定作為文 早之自然度者。 2. 如凊求項】之語句排列之自然度判定裝置,其中前述判定 機構係對則述檢索機構指定前述判定對象之語句排列全 =為檢索對象而使其施行前述檢索,在該檢索中未抽出 付合之本文之情形’一面逐漸縮短抽出作為前述檢索對象 =句部分排列之長度’-面重複施行由前述衫對象之 浯句排列中抽出短於前述判定對象之語句排列全體之語 句部分排列作為檢索對象’對前述檢索機構指定前述抽出 2語句部分排列作為檢素對象而使其施行前述檢索,依據 則述檢索機構之檢索所抽出之本文之有無、所抽出之本文 ^數及抽出本文時之檢索對象之語句部分排列之長度,就 前述判定對象之語句排列判定作為文章之自然度者。 3. 如凊求項!之語句排列之自然度判定裝置,其巾進一步包 3產生機構’其係就構成原語言原文之各語句分別取得目 的-5之對譯語句,產生相當於在前述各語句所取得之對 115685.doc 200805091 譯語句之組合之複數之前述 ’ 你炎乂, 的5吾舌之對譯語句之排列 作為前述判定對象之語句排列者,· =衫機構係對前述檢索機構分別指μ述產生機 構所產生之複數之對譯語句之排列作為檢索對象而使其 t行前述檢索,依據各個檢索所抽出之本文之有無及所抽 本文之數,由前述複數之對譯語句之排列中選擇作為 目的語言之文章之自然度位於上位之對譯語句之排列者。 t請求項3之語句排列之自然度判定裝置,其中前述判定 構係對錢檢⑽構指定前述複數之對譯語句之排列 全體作為檢索對象而使其施行前述檢索,在該檢索中均未 抽出符合之本文之情形,藉前述產生機構產生相當於構成 原語言之原文之各語句中原文上連續之特定數之語句之 對譯語句之組合之短於前述複數之料語句之排列全體 之對譯語句之部分排列,一面逐漸減少使用於前述對譯語 句之部分排列之產生之前述原文上之語句數,—面重㈣ 行對前述檢索機構分別指定前述產生機構所產生之複數 之對譯語句之部分排列作為檢索對象而使其施行前述檢 索,依據前述檢索機構之檢索所抽出之本文之有無、所抽 出之本文之數及抽出本文時之檢索對象之對譯語句之部 分排列之長度,由前述複數之對譯語句之排列中選擇作^ 目的語言之文章之自然度位於上位之對譯語句之排列者。 5·如請求項4之語句排列之自然度判定裝置,其中前述判定 機構係在每當藉前述檢索機構之檢索抽出符合之本2 時,使記憶機構記憶使用於該檢索之對譯語句之部分排 H5685.doc 200805091 列’並由用於產生其後之對譯語句之部分排列之語句中排 除對應於記憶於記憶機構之對譯語句之部分列 ’、上之特定數之語句,在可用於產生對譯語句之部分排 列之吾句呈現在原文上未連續之狀態之情形,對記憶於纪 憶機構之對譯語句之部分排列之各組合,使前述檢^機構 檢索含構成該組合之全部之對譯語句之本文是否存在於 =經由網際網路存取之本文之中,依據含前述全部之對譯 浯句之本文之有無、含前述檢索所抽出之前述全部之對譯 語句之本文之數,由記憶於前述記憶機構之對譯語句之邱 分排列之各組合中選擇作為目的語言之文·章之自然度: 於上位之對譯語句之部分排列者。 6· 一種語句排狀自然度散方法,其特徵在於其係藉連接 於網際網路之電腦而被實現者; 檢索複數語句排列而成之判定對象之語句排列是否存 在於可經由網際網路存取之本文之中; 依據前述檢索所抽出之本文之有無及所抽出之本文之 數’就前述判定對象之語句排列判定作為文章之自然度 —種電腦可讀取之記錄媒體,其特徵在於其係記錄有程 式,而前述㈣係使連接於網際網路之電腦執行作為語句 排列之自錢狀裝置狀語句排狀自然度判定程式; 亚使前述電腦執行作為下列機構之功能者: a檢索機構’其係檢索被指定作為檢索對象之語句排列 是否存在於可經由網際網路存取之本文中者·,及 115685.doc 200805091 判疋機構,其係對前述拾会她娃^ 、 別返鈿宗機構指定複數語句排列而 成之判定對象之語句排列作為檢争 奴系對象而使其施行前述 才双索,依據前述檢索機構之檢索所抽出之本文 抽出之本文之數’就前述判定對象之語句排列所 章之自然度者。 疋邗為文 115685.doc
TW095139901A 2005-10-28 2006-10-27 Apparatus, method, and program for determining naturalness of array of words TW200805091A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005315261A JP2007122509A (ja) 2005-10-28 2005-10-28 語句配列の自然度判定装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
TW200805091A true TW200805091A (en) 2008-01-16

Family

ID=37967897

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095139901A TW200805091A (en) 2005-10-28 2006-10-27 Apparatus, method, and program for determining naturalness of array of words

Country Status (8)

Country Link
US (1) US20090292525A1 (zh)
EP (1) EP1949261A1 (zh)
JP (1) JP2007122509A (zh)
KR (1) KR20080066965A (zh)
CN (1) CN101297288A (zh)
CA (1) CA2627321A1 (zh)
TW (1) TW200805091A (zh)
WO (1) WO2007049792A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI477988B (zh) * 2008-03-31 2015-03-21 Microsoft Corp 供應後之經使用者翻譯網站
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
JP2009537038A (ja) 2006-05-07 2009-10-22 バーコード リミティド 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
EP2156369B1 (en) 2007-05-06 2015-09-02 Varcode Ltd. A system and method for quality management utilizing barcode indicators
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
EP2218042B1 (en) 2007-11-14 2020-01-01 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US7984034B1 (en) 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
EP2313835A4 (en) * 2008-07-31 2012-08-01 Ginger Software Inc GENERATION, CORRECTION AND LANGUAGE ENHANCEMENT SENSITIVE TO THE AUTOMATIC CONTEXT USING AN INTERNET CORPUS
WO2011092691A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
WO2012066650A1 (ja) * 2010-11-17 2012-05-24 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
KR20130014106A (ko) * 2011-07-29 2013-02-07 한국전자통신연구원 다중 번역 엔진을 사용한 번역 장치 및 방법
US20140100923A1 (en) * 2012-10-05 2014-04-10 Successfactors, Inc. Natural language metric condition alerts orchestration
US9323736B2 (en) 2012-10-05 2016-04-26 Successfactors, Inc. Natural language metric condition alerts generation
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
KR101255979B1 (ko) * 2012-12-17 2013-04-23 학교법인 화신학원 스마트기기를 이용한 영단어 학습 프로그램
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP6649472B2 (ja) 2015-05-18 2020-02-19 バーコード リミティド 活性化可能な品質表示ラベルのための熱変色性インク証印
JP6898298B2 (ja) 2015-07-07 2021-07-07 バーコード リミティド 電子品質表示指標

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251055A (ja) * 1993-02-22 1994-09-09 Nippon Hoso Kyokai <Nhk> 機械翻訳方式
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
US6236768B1 (en) * 1997-10-14 2001-05-22 Massachusetts Institute Of Technology Method and apparatus for automated, context-dependent retrieval of information
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
SE517496C2 (sv) * 2000-06-22 2002-06-11 Hapax Information Systems Ab Metod och system för informationsextrahering
US20030101044A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
US7340388B2 (en) * 2002-03-26 2008-03-04 University Of Southern California Statistical translation using a large monolingual corpus
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US7774292B2 (en) * 2003-11-10 2010-08-10 Conversive, Inc. System for conditional answering of requests
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
US20060212426A1 (en) * 2004-12-21 2006-09-21 Udaya Shakara Efficient CAM-based techniques to perform string searches in packet payloads

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI477988B (zh) * 2008-03-31 2015-03-21 Microsoft Corp 供應後之經使用者翻譯網站
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质

Also Published As

Publication number Publication date
US20090292525A1 (en) 2009-11-26
JP2007122509A (ja) 2007-05-17
KR20080066965A (ko) 2008-07-17
WO2007049792A1 (en) 2007-05-03
CN101297288A (zh) 2008-10-29
EP1949261A1 (en) 2008-07-30
CA2627321A1 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
TW200805091A (en) Apparatus, method, and program for determining naturalness of array of words
Eshel et al. Named entity disambiguation for noisy text
Hardmeier Discourse in statistical machine translation
KR101923650B1 (ko) 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
Sghaier et al. Sentiment analysis for Arabic e-commerce websites
Van Nguyen et al. Vireader: A wikipedia-based vietnamese reading comprehension system using transfer learning
Wilkens et al. Size does not matter. Frequency does. A study of features for measuring lexical complexity
Ganguli et al. Deep insights of erroneous bengali–english code-mixed bilingual language
Yeong et al. Using dictionary and lemmatizer to improve low resource English-Malay statistical machine translation system
Kim et al. UKP at CrossLink: Anchor Text Translation for Cross-lingual Link Discovery.
Sahala et al. Language technology approach to “seeing” in Akkadian
Croce et al. Enabling deep learning for large scale question answering in Italian
Orasmaa et al. Named entity recognition in Estonian 19th century parish court records
TWI281111B (en) System and method for identifying corresponding translation
Vu et al. Building a vietnamese sentiwordnet using vietnamese electronic dictionary and string kernel
Behera Odia parts of speech tagging corpora: suitability of statistical models
Seddah et al. Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language
Zaidan Crowdsourcing annotation for machine learning in natural language processing tasks
Sabane et al. Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi
Arij et al. Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language
Tang et al. An Attention-Based Denoising Framework for Personality Detection in Social Media Texts
Hättasch et al. Know Better–A Clickbait Resolving Challenge
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム
Lohar Machine translation of user-generated content
WO2024004183A1 (ja) 抽出装置、生成装置、抽出方法、生成方法、及びプログラム