TW200846939A - Web-based collocation error proofing - Google Patents

Web-based collocation error proofing Download PDF

Info

Publication number
TW200846939A
TW200846939A TW096146387A TW96146387A TW200846939A TW 200846939 A TW200846939 A TW 200846939A TW 096146387 A TW096146387 A TW 096146387A TW 96146387 A TW96146387 A TW 96146387A TW 200846939 A TW200846939 A TW 200846939A
Authority
TW
Taiwan
Prior art keywords
word
collocation
query
words
sentence
Prior art date
Application number
TW096146387A
Other languages
English (en)
Inventor
jian-feng Gao
William B Dolan
Hsiao-Wuen Hon
Ming Zhao
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200846939A publication Critical patent/TW200846939A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

200846939 九、發明說明: 【發明所屬之技術領域】 本發明係有關於一種以網頁為基礎的 法0 【先前技術】 在翻譯二種不同語言時,常會面臨個 下文的不同而改變其函義的問題。當民眾 二語言時,通常似乎可正確翻譯的用字有 以該語言為母語的人來說,有些用字事實 些字詞搭配或群組中。理論上,此種字詞 結構或文法上沒有錯誤,然而一般不會這 該語言為母語的人來說,直覺上似乎會 的。語言中的單字組合通常符合形成單一 式(set pattern),如此即使有相同函意及以 列的字詞群組在該語言的母語慣用方式中 詞語項目,不論該詞語項目是否已先明確 視為語言的替代用法。 例如,學習英語為第二語言者可能· “powerful” 為其母語中一單字的二種 “ to make”及“ to do”為另一單字的二 英語使用上無太多經驗,該學習者可能寫 of powerful tea” 而不是 “I had a cup of “ I did a plan” 而不是 “ I made a plan” 字詞搭配防錯方
別用字會依據上 學習非母語的第 很多,然而對於 上不會使用在某 搭配可能在句子 樣使用,且對以 覺得少見且怪怪 詞語項目的組型 相同文法關係排 可能不屬於任何 地被母語使用者 ^ 現 “ strong” 及 替代翻譯,以及 ft替代翻譯。若在 出 “ I had a cup strong tea” ,或 。類似的字詞搭 5 200846939 配錯誤常發生在學習非母語的使用者身上。此種錯誤的單 字字詞搭配通常只能靠長期累積的上下文經驗及與該語言 互動練習而加以避免,且通常無法藉由辭典或任何其它快 速且易於取得的語言參考資料而獲得解決。 提供上述說明只是為了概述背景資訊,並無意使用來 輔助決定本發明主張標的之範圍。 【發明内容】 在各種包括方法、運算系統及編碼可執行指令用於運算 系統的應用軟體的具體實施例中,可使用諸如網頁之類的區 域及以網路為基礎的字詞資料庫來自動達成字詞搭配防 錯。例如,依據一方法說明例,將一文字樣本的一或多個字 詞搭配拿來與諸如網頁内容之類的字詞資料庫作比較。識別 該等字詞搭配是否被字詞資料庫排斥。經由一輸出裝置提供 一指示,其指不該等字詞搭配是否被字詞資料庫排斥。接著 可經由一使用者輸出而採取額外的步驟,如搜尋及提供可能 的正確字詞搭配等。 提供此發明内容以簡單介紹多種概念,而在之後的實 施方式中會作進一步的說明。此發明内容並無意圖確定主 張標的之主要特徵或必要特徵,也無意圖用來幫助確定該 主張標的之範圍。本發明主張標的不被限制在解決任一或 所有先前技術所提到的缺點的具體實施例中。 【實施方式】 6 200846939 第1圖+山 ^ 不出一予詞搭配防錯介面1〇,其依據本發明之 一旦體實始/ ’、 例用於一實施字詞搭配防錯方法的運算系統。 子列搭配防扭入左 々錯;I面1 〇可說明例如包括運算系統之具體實 ^ 配置可被運算系統執行之可執行指令、及使方法 /、體實e例可行的概念。以下說明提供各種具體實施例進 步的湖節。當某些說明性安排及標示,以及以一電腦可 實現方法作比較的文字樣本被包括在此圖及隨後圖示中 時他們疋用來說明並表示本發明内容及申請專利範圍所 提供的多種且廣泛的意義。
在第1圖之具體實施例中,字詞搭配防錯介面i 〇構成 一圖形顯示面板,其結合一應用軟體程式,且在如一電腦 監視器的一輸出裝置上,一圖形使用者介面内的許多圖形 顯示面板,可在同一時間點上開啟。字詞搭配防錯介面10 在標題攔12中標示為「ESL防錯」,其表示此具體實施例 係用於防止以英語為第二語言(English ^ · & a second language,ESL)的使用者所輸入的文字樣本出現錯誤。由於 長久以來以英语為第-洁$的中級程度學生女八 于王亢邵分錯誤是 犯在字詞搭配錯誤上,因此ESL提供字詞搭配防錯且 體實施例的理想應用。 雖然了解到僅是以實施例方式說明,作右_ u隹U下說明中 將重覆提到ESL防錯應用之具體實施例,置砉 八衣爪較廣概念 且可應用到大範圍之其它具體實施例。例如,以一 下將說明 未使用到第1圖所示字詞搭配防錯介面1 〇的复〜 /、匕 方包 例,且另外有用於以任何其它語言為第二笋+沾斑 ^ ”〇δ的學習者的 7 200846939 具體實施例,及例如有助於孩童熟練其母語的其它不同的 具體實施例。
字詞搭配防錯介面1 0包括有二標籤於其上方,其分別 對應於二種不同任務模式··標籤11,其標示「下載ESL 句子」(再次說明,其係用於ESL的一特定具體實施例), 及標籤13,其標示「執行查詢」。第1圖示出選擇「下載 ESL句子」標籤11的使用者介面10,以及其相關按鍵、 標題、文字方塊及其它顯示的使用者介面元件(或「小工 具」)。第4圖示出選擇「執行查詢」標籤13的字詞搭配 防錯介面1 0,及與其任務相關所顯示的使用者介面元件。 以下將進一步說明上述所提項目。 選擇「下載ESL句子」標籤11的使用者介面面板包 括多個互動輸入及輸出使用者介面元件,其將於後依序說 明。他們一般分成一上部分,其標題為「分析句子」,以及 一下部分,其標題為「分析字詞搭配」。 「分析句子」部分之上方顯示一列介面元件:一「自 經語法分析檔案下載」按鈕15、一「自原始檔案下載」按 鈕1 7、在一現行顯示為「動詞·名詞字詞搭配」(於下說明) 的整合方塊1 9及其前面的一「字詞搭配種類」標題、以及 一「擷取字詞搭配」按鈕21。在這些小工具下方是一文字 方塊23,其具有左右及上下捲軸槽22、24及一「原始句 子」標題攔20。在其下方為一文字方塊25,其標題為「經 語法分析句子」。一般來說,這些介面元件可實現使用者功 能,其用以依據一文字樣本下載句子並使他們準備好與網
S 200846939 路上可取得之内容作字詞搭配比較以達成防錯。 文予方塊2 3包括依據一文字樣本的多個句子例,如由 一 ESL學習者寫的文件。如在文字方塊23之上下捲轴槽 24中捲軸滑塊26壓縮大小所指示的,現行顯示的句子為 現行下載於該文字方塊内的所有句子列表的一小部分,而 * 使用者可經由移動捲滑塊26來取得所有句子。顯示於文字 方塊23的句子代表以英語為第二語言的中級學生可能犯 的典型錯誤:“ I did a plan” 、 “ I have recognized this person for years 、及工 had a cup of powerful tea” 。 在使用者藉由選擇「自經語法分析檔案下載」按鈕15 或「自原始檔案下載」按鈕17來啟動程序後,可自一開放 於另一應用的文件人工下載這些句子,或他們可被自動地 選擇作為具有ESL類型錯誤並自其它文件或多個文件中下 載。在另一具體實施例中,如單字處理應用的一不同應用 可能具有一 ESL防錯觸發裝置,該裝置可預設為開啟,如 此當在輸入至單字處理程式的文字中偵測到ESL類型錯誤 時’可自動提供一面板以建議使用字詞搭配防錯介面1〇。 如按紐15及17所建議的,當文字樣本用於該應用時, 該等文字樣本可能已經語法分析或可能尚未經語法分析。 ^ 右文字樣本尚未經語法分析,則其例如可能在下載後採 〜 取額外步驟前被語法分析。一經語法分析句子顯示於文字 方塊25中。特別是,這是顯示於文字方塊23中第二個句 子的、左叩法分析形式,其周圍具有區域強調以表示其被 使用者選擇’例如藉由按滑鼠左鍵或以光筆標籤或藉由某 200846939 些其它使用者輸入機制達成。 語法分析一向是自然語言處理及自然語言理解中發展 活躍的一塊。語法分析可包括任務例如詞性標籤 (part-of-speech tagging)、區塊化(chunking)及語義標籤 (semanticc labeling)等。在第1圖所示的具體實施例中, 在文字方塊25中之句子已被詞性標籤及分塊。其它具體實 施例可包括另外不同的語法分析任務組合,包括一般用於 某些非西方語言的任務,如字分割等。
在位於文字方塊25中的經語法分析句子令,原始句子 中的每一單字後面緊跟著一斜線符號(forward slash),其將 該單字與一具有二或三字母分配給該單字的詞性標籤隔 開。以下列出某些詞性標籤的選擇說明例。在句子最後的 句點亦伴隨著其本身的斜線附號以將其本身與另一句點隔 開,作為等同一詞性標籤的一標籤以表示該標點符號之功 能。以一或二單字(在其它例子中可能更多)分組該句子中 的單字,其亦被括弧包園以對應區塊界限,其係以二字母 區塊類型標籤配置在每一括弧組内一開始處。在此句子中 呈現的詞性標籤包括“ PRP ” ,用於指示人稱代名詞· “ VBP” ,用於指示除了第三人稱單數外的現在式動詞. “ VBN” ,用於指示過去分詞;“ DT” ,用於指示限定詞· “以”,用於指示介系詞或附屬連接詞;及“ NNS,, ,用 於指示複數一般名詞。以下提供依據一具體實施例的詞性 標籤列表範例,而在其它具體實施例中可使用以不同定$ 及更多或更少明確性定義的其它詞性標籤機制。某些摔_ 10 200846939 以實施例且以英語說明,以描述本具體實施例。 表1 :詞性標籤列表範例: 1· cc —對等連接詞(如“and,, “but,, “n〇r,, “w “plus”,“minus”,“times”,“〇ver”(用於除法)) 2· CD -基數 3· DT -限定詞(包括冠詞及不定限定詞,如“a,,,“⑽”, “every”,“no”(冠詞),“the”;以及如 “another,,,“any,,,
,“each”,“either”,“neither,,,“that”,“these”, “this ”,“those”,有些人使用“all ” 9 “they”) 4. EX - 存在 “there” 5. FW 一 外來字 6. IN - 介系詞或從屬連接詞 7· JJ 一 形容詞 8. UR - •形容詞,比較級 9. JJS 一 形容詞,最高級 10. L S - 列表項目標記 11. MD - -情態助動詞(例如“can”,“ could,,,“may,,,“might,,, “must,,,“shall”,“sh〇uld,,“wiU ” y “would”) 12. NN - 名詞,一般,單數或代替 物 13. ,NNS -名詞,一般,複數 14. ,NNP 一專有名詞,單數 15. > NNPS -專有名詞,複數 16· • PDT 一前限定詞 17. .POS 一所有袼結束 11 200846939 18. PRP -人稱代名詞 19· PRP$ -所有代名詞(例如 “‘s’’,“s’”,“‘,,) 20. RB -副詞 21. RBR -副詞,比較級 2 2 . R B S —副詞’最兩級 23. RP —質詞 24. SYM -符號 25· OT - “To”
26. UH -感嘆詞 27. VB -動詞,原形動詞 28. VBD -動詞,過去式 29. VBG -動詞,動名詞或現在分詞 30. VBN -動詞,過去分詞 31. VBP -動詞,現在式,除了第三人稱單數 32. VBZ -動詞,現在式,第三人稱單數 33. WDT - wh-限定詞 34· WP - wh-代名詞 35. WP$ - wh-所有代名詞(“whose”) 36. WRB - wh•副詞 在此圖示中,如呈現於文字方塊25中經語法分析句子 的經語法分析文字樣本也已被分區塊,此處之括弧對包圍 每一定義區塊且區塊類型係以配置在每一括弧組内一開始 處的標籤來指示。分區塊步驟為相對容易處理的語法分析 任務且可依據粗略及區域資訊來執行。分區塊步驟包含將 12 200846939 句子分割成非重疊片段,使得每一區塊包含一主要頭字 (major head word),其後跟隨與該頭字相關之字。在此具 體實施例中,分區塊步驟因此可視為將句子分割成多個詞 組,明確地說係分割成可定義的最小詞組單位,以避免詞 組間造成重疊。分區塊步驟可識別文字之依句法結構及詞 組間之關係或依附性。例如,一名詞詞組可為動詞詞組之 主詞,而第二名詞詞組可為該動詞詞組之受詞。
第1圖中的區塊對此提供良好範例說明。第一區塊被 標籤為NP,其表示為一名詞詞組,且其係依據為句子主詞 的單一主要頭字“ Γ 。第二區塊被標籤為VP,其表示為 一動詞詞組,且其包括“have”及“recognized” ;該等二 個別動詞一起形成動詞“ to recognize”的過去分詞形式 的整合概念。第三區塊為另一 NP或名詞詞組,其包括一 頭字“ person”及一相關支援字,以形成以“ this pers〇n” 為句子受詞之單一概念。第四區塊被標籤為PP,其表示為 介系詞詞組,且第五區塊被標籤為NP,其表示為另一名詞 詞組,每一區塊包括一單字。省略了句點區塊,該句點被 標籤為一句點。 結合字詞搭配防錯介面1 0或用於字詞搭配防錯介面 1 〇的語法分析系統可被訓練為可正確且可靠地自動執行 詞性標籤及分區塊,其係以自然語言處理領域之習知人士 所熟知的方式實施。 選擇“下载ESL句子”標籤11的使用者介面面板的 下半部,其標題為“分析字詞搭配”且包括一組文字方塊 13 200846939 27、29、31及33 ’而每一顯示的文字方塊具有一標題攔及 至少一捲軸。文字方塊27之標題欄寫著“ ESL字詞搭 配” ’且顯示該文字方塊係包括由文字方塊2 5中句子得到 的二個字詞搭配區塊,其中一動詞詞組為“ have recognized ’’ 及為該句子受詞的一名詞詞組 “ this person” 。如所示的,使用詞性標籤以及區塊標籤和括弧, 該字詞搭配詞組為[VP have/VBP recognized/VBN] [NP this/DT person/NN]” 。由於字詞搭配型態整合方塊i 9係 設定成「動詞-名詞字詞搭配」(一種選擇型態,其指示以 相鄰位置的動詞詞組及其後的名詞詞組來字詞搭配),故於 文字方塊27中提供此字詞搭配。已自文字方塊25中該句 子擷取了對應該設定的該字詞搭配。 文字方塊29包括候選字詞搭配,如標題攔所指示的。 該等候選字詞搭配具有與文字方塊27中字詞搭配相同的 名詞詞組“ this person” ,但是具有各種不同的過去分詞 動詞在該名詞詞組前。這些候選動詞在一動詞詞組中在 “ have”之後且以過去分詞形式用以取代“ ree〇gnized” 成為動詞頭字。他們包括“known”、“admitted”、“thought,, 等。此外,他們不包括原始字詞搭配,這是因為當原始字 詞搭配與字詞資料庫内容比較時,會顯示其在該字詞資料 庫内容中稀少或不存在,而因此遭到排斥及可能認為係錯 誤用法。 字詞搭配防錯介面10,或者與其相關或使用其介面的 應用程式,可能因此指示原始字詞搭配係被字詞資料内容 14
200846939 排斥且因此可能為錯誤用法。例如,如在第1圖的 施例中,可在文字方塊33中提供此指示給使用者屬 方塊3 3指示字詞搭配狀癌,如其標題所述。它指不 搭配被字詞資料排斥或可能係錯誤用法,且加入彎 在被排斥的字詞搭配中的動詞頭字下,其為候選替 使用者可選擇文字方塊29的候選字詞搭配中之一 $ 藉由雙點擊在想要的替代字詞搭配上,以取代被指 斥的字詞搭配。亦可藉由如在不適當的字詞搭配上 來提供此指示在例如一個別單字處理程式、網路導 或其它應用程式中。此一標記可能為強調或者加入 受排斥或錯誤用法的字詞搭配,如以明亮顏色、彎 以吸引使用者的注意。 將文字方塊27中字詞搭配與網頁中可取得的 詞資料庫作比較,其比較結果顯示於文字方塊29中 字詞搭配。在此說明性具體實施例中,字詞資料庫 區域字詞資料庫及/或以網路為基礎的字詞資料庫, 網路為基礎的字詞資料庫包括在分散資源上的内容 網際網路之類的網路可取得内容。在其它具體實施 字詞資料庫可例如包括諸如内部網路、廣域網路、 路或其它類型網路之類的網路可取得内容。可一起 如諸如華爾街日報之類的習知字詞資料庫搜尋與! 用該網頁作為字詞資料庫)搜尋取得之内容。與包括 種資源及包括較多非正式寫作資料的網頁内容相比 字詞資料庫應碟保相當一致的正確使用法,因此相 具靉實 °文字 此字詞 曲綠32 代字。 卜例如 為受拂 做樑記 覽程式 底線至 曲線等 大量字 的候選 可包括 該等以 及諸如 例中, 區域網 使用例 I頁(使 有較多 ,由於 對發生 15 200846939 容中的字詞f料庫,可給予發生在習知字 二的予詞搭配某特定加權。不過, =何可獲得㈣言慣料μ知字詞 篁的一大優勢。符合一文字 王 正確字詞搭配不太可能發生在:二給定的字詞搭配的 的口拉 生在習知字詞資料庫中。相反 網挑見至ν在英#中任何正確慣用法的字詞搭配可在 :姑找至,】,或者找到以依據字詞搭配具彈性的不同查詢 :搜…的至少結構相同的字詞搭配如以下所說明 的二亦發現到針對例如以英語為第二語言的學習者的—般 字樣本中發現的至少大部分的錯誤用法字詞搭配,可在 網頁上找到-正確替代字詞搭配。特定句子或字詞搭配未 、見在、再頁搜尋中則可確信該句子或字詞搭配係錯誤用 法。可評估搜尋結果看看是否有比主要字詞搭配發生頻率 '出許多的類似替代詞’如此儘管係錯誤用法,在網頁上 可能發生的字詞搭配將以這樣的方式呈現。 寫作時大部分網頁上可取得的文字内容係以英語 書寫。許多現行人類語言甚少可在網頁上取得,且甚至一 些-般常說的語言亦相當少呈現在網頁内容中。例如,北 印度語為目前全世界第三多人使用的語言,但在至少一研 究報告中發現以該語言所呈現的網頁内容比使用人口數為 其千分之一的冰島語還要少。字詞搭配防錯效能係部分依 =可用作為針對要防錯的文字樣本中字詞搭配比較基礎的 :詞資料庫大小。目此’可使用專門的方法以達成不同語 言的以網頁為基礎的字詞搭配防肖’而帛方法不需要用於 16 200846939 防錯英語文字樣本。 禾〜it可包括例如特別選拔或篩選符合文字樣本語言的 夕 '"下的内容,或除了網頁或其它網路取得之内容
卜可使用特定網路、字詞資料庫或數位圖書館作為比較 基礎的字詞資料庫。這些方法也可包括使用搜尋工具,其 、可編索引並搜尋未以萬國碼編碼的内容,或者使用專 =的文字編碼方法或轉換袼式以可被讀取、編索引,及搜 尋在非“準格式中内容。大量以使用寫人系、統而不是羅馬 子母的σ的内容(甚至大部分網路上某些語言内容)係以 非標準編碼格式存在,藉此可編索引及搜尋那些非標準編 碼袼式的搜尋可產生比使用其它方法更多的内容。依據各 種具體實施例,如上述之方法可促成以網頁為基礎字詞搭 配防錯系統能夠應用在最大語言可能範圍。 用於限制或傾向所搜尋的網頁内容的額外方式亦可包 括應用參考分類或URL分類。若已知某些URL上内容包 括有正確語言慣用法的大量可靠的詞庫或字詞資料庫,則 可按特性將某些URL編成目錄用於優先搜尋,及/或用於 施用較高優先順序至在其内容中發現的字詞搭配。此亦可 包括優先傾向搜尋或依據頂層網域(top-level domains, TLD)加權搜尋結果;例如,可將加入的搜尋次序或結果加 權應用至具有“edu”或“gOV”而非“c〇m,,或“org”的TLD的 URL位址。在以非英語的字詞防錯搜尋中,在目標語言下 選拔網頁内容的搜尋亦可包括傾向或限制搜尋,或者依據 指派給使用該目標語言為正式語言或大量使用該目標語言 17 200846939 的國家的國碼TLD,來應用 用於防錯一法語文字樣本的 制在搜尋具有TLD為“ TLD國碼分別用於指示法國 現的網頁内容,或其它以法 TLD國碼。 加權至其結果上。例如,可將 字詞搭配防錯應用被傾向或限 、‘be”、“ch”或“ca”的網站(此 、比利時、瑞士及加拿大)中發 語為正式或主要語言的國家的 文 搭配中 一部分 右侧的 所指示 份可取 始字詞 來取代 得字詞 配,這 高積分
子方塊3 1顯示一長列 甘幻, 表’,、列出所有形成一於詞語 的 “this person”箭从 4 的動詞詞組頭字的可獲得動詞之 ’該專動詞位在字詞眘 卞d貝枓庫内容中。如文字方塊3 i 上下捲軸内其大小為嫉紅 馬捲轴槽大小一部分的捲軸滑塊 以引表比在第1圖文字方塊31中目前所看到的部 得動詞要長得多。依據一組標準,用以正確比對原 搭配且提供以正確形式且具有原始意義的字詞搭配 該原始字詞搭配,大部分列在文字方塊3 1中的可取 搭配並未被選為文字方塊29中所列的候選字詞搭 是因為他們在一電腦智慧比對積分機制中並未取得 用於比較文字方塊27中字詞搭配、識別其是否被字詞 資料庫排斥、以及提供建議替代詞的方法說明例,將參照 其餘圖示作進一步詳細說明該方法。 第2圖示出依據一具體實施例的字詞搭配防錯方法5 〇 流程圖,該方法某些態樣與第1圖所示字詞搭配防錯介面 10之態樣類似。方法50的主要步驟在第2圖流程圖中以 實框線表示。這些包括步驟5 1,其將一文字樣本的一或多 18 200846939 字詞搭配與字詞資料庫作 于』貝竹犀作比較,如藉由送出包 ^容作為網頁搜尋的查”;_53,其識配 搭配是否被字詞資料庫排斥;步驟55,其經由輪出予詞 供指示其指出該等字詞搭配是否被排斥置提 :箭頭:步驟…可重覆連續執行,以執 寺本的予詞搭配與字詞資料庫作不同種類的比、子 照所作的I n #搞a > t M及依 同種類比較之指示來識別該等字 字詞資料庫排斥。 搭配疋否被 步驟M、53及55亦可包含或於其前或後加 如此處以虛框線所示的步驟。這些步驟包括,, 接收扣不其指出識別文字的字詞搭配,如在步驟61中# :收使用者輸入或選擇或其它形式的文字樣本指示。精: 子處理應用程式或某些包含人類輸入文字的 $早 應用程式中,它亦可包含預設特徵…針對:=體 搭配或其它指示指出非母語慣用法而監視及筛選該: 二示’則觸發額外步驟’如步驟63二 閣釋性說明,广语法分析’如步驟65及相關第1圖的 j而例如可應用該方法其它具體音 語法分析文字樣本。 、體實施例至經 較,如可步特二對特定類型字詞搭配將其與字詞資料庫作比 介系詞-名詞字::驟包括選擇諸如動詞名詞字詞搭配、 予s司搭配、形容詞-名詞字詞搭配、+ 詞字詞搭配之盤Μ *搭配、或動詞-副 額外字類的字詞搭配與字詞資料庫作比肖,及執行 ^•防錯步驟。這些個別種類的字詞搭配中任何 19 200846939 -種可專用於某些具體實施例中,而這些字詞搭配類型中 任-或全部,及/或額外字詞搭配類型,可用於其它且 施例中。已發現使用列在步驟67的四種字詞搭配類型 大部分-般非母語使用者會犯的字詞搭配錯誤。選擇这此 特定字詞搭配類型之步禅包括第一次㈣文字樣本中^ 部分’如步驟65或相關第1圖所說明的藉由預備的語:: 析步驟來實施選擇。
步驟53,其識別字詞搭配是否被字詞資料庫中排斥, .可針對各種依據不同格式的字詞#配的個別查詢詞重覆執 行該步驟,且可依據所有使用的查詢詞作最終確定,決定 與字詞資料庫作比較的字詞搭配是否被字詞資料庫内容排 在第3圖流程圖類似步驟351及353中進一步示出一 具體實施例。在此具體實施例中,將—文字樣本的字詞搭 配與字詞資料庫作比較,如第2圖步驟51,其可包括一電 腦智慧比對策略,肖策略包括針對查詢詞進行搜尋字詞資 料庫,該查詢詞包括以下一者:包括有該詞語搭配的一完 整句子、一片段句、一對區塊或一對單字,如第3圖步驟 36卜363、365、及367所分別指示的。在一具體實施例中, 一片段句係藉由移除包括字詞搭配的一句子其助動詞而形 成,此處之助動詞為選自句子的單字,其可預先定義成保 存該句子中的字詞搭配所不需要的。例如,依據錯誤字詞 搭配句子 “I have recognized this person for years”的一片 段句查詢樣版可為“have recognized this person”。區塊對 20
驟53,該步驟識別字詞搭配在字詞資料庫中是 其可包括針對查詢詞執行不同種類的搜尋,包 步驟371及373中分別搜尋一句子或一片段 合,或如步驟375及377中分別針對區塊對或 200846939 及單字對查詢詞可能係針對包含互相緊接相臨 句子中預選鄰近範圍内的特定單字或區塊,例 過一或二個將其分開的其它單字。在電腦智慧 片段句搜尋、區塊搜尋及單字對搜尋亦可以不 單子順序來偵測結果,或針對某些功能單字或 字而使用位標,如此例如“reeognize this “recognize that pers〇n”在電腦智慧中可被視為 若包含字詞搭配的查詢詞未達到一預選臨 (其指示在字詞資料庫中存在許多針對查詢詞 符合比對),則該字詞搭配可被評估為被排斥。 ^對,合臨界積分。由於句子及片段句較為明 得到單一比對符合或少數比對符合可 搭配為不被排斥或不為錯誤。至於區塊對或單 符合,由於其限制性較少且較一般性,因此即 法也預期在一些搜尋結果中可找到比對符合, 下相當少由語言非專業人士所寫的網頁内^。 實施例,針對區塊對及單字對比對符合可設 值,以足以指示該等區塊或單字對的普及性, 慣:語法的字詞搭配,而不是只是呈現相當少 對符合而可被視為受排斥的字詞搭配。 或在該相同 如具有不超 比對搜尋中 同但等效的 其它類型單 person” 及 察效句。 界比對積分 的電腦智慧 如第2圖步 否被排斥., 括如第3圖 句之比對符 單字對評估 確,因此其 指示一字詞 字對的比對 使是錯誤用 這是因為剩 依據此具體 定較高臨界 以指示符合 量資料庫比 21 200846939 比對符合積分可包括一基礎計數,其例如當發生一區 塊對或單字對比對符合時’可分派某-特定累計積分至該 區塊對或單字胃,且若找到足夠比對符合…最小總積 分,則僅指示-正痛而非受排斥字詞搭配。在一實施例中, 亦可結合不同查詢方式的結果積分’加權較明確杳詢詞, 如給予區塊對比對符合十倍於單字對比對符合之加權。比 對符合積分評估亦可包括片段句或 句或完整句子本身就足以決定字詞…片段 伶配狀態。例如,針對 包含文字樣本的字詞搭配對的一片# 符合可分配有相對於每一區塊對比;=找到的每-比對 相對於每-單字對比對符合二百倍=二十倍的加權及 法來評估比對符合㈣料合積 ^論用何種方 結束,該步驟提供指示指出字估過程在步驟355 叫,或指出他們並未被排斥(如步驟到排斥(如步驟 可:由:詞搭配防錯應用軟趙的開 用者,將用來區分慣用字詞搭配 …、端使 查詢樣板的加權及臨界比對符予闲搭配的不同 敏感或較不敏感,作為用戶選:積=準化或調整為較 值調整成-較低值以加快程序項儘可能想要將臨界 過-些不確定的或在臨界線的字=麼:报可能因此放 擇將臨界值設定至較高值以求 者可此k 劇濩標記的字詞搭配(然而兮等v而可能花更多時間在 能替代詞還正確的搭配會成為比任何可 樣本字詞搭配。 保能排除任何錯誤的文字 22 200846939 且=為在第3圖中查詢詞的次序由較明確變為較一赴忮 2制性,收集每一連續步驟的搜尋結果很可能鬵 騮 Μ步驟還要長的肖間。當所有將搜尋結果送回的氺 僅需要不到-秒時,系統表現仍然係較有效率: 束二2 一發現到一比對符合的充足指示時’就即刻結 〇 及353程序,而不需執行剩餘增加費時的程序, 少總花費時間。例 >,若發現許多針對一給定句 ^ :片段:的比對符合,則可避免花費用來執行區塊對或 早:對搜+所需的較長不到一秒時間。使用不同查詢詞來 搜:相同字詞搭配可能因此連續繼續進行,一直到該等查 尹=提供了達到比對符合該字詞搭配的一預選臨界值的搜 =果或者一直到已使用了包含該字詞搭配的所有查詢 5司’而毋需達到該預選臨界值。 回到第2圖所不的進一步步称,依據一具體實施例, 在提供了指示指出某些特定字詞搭配是否受排斥後,字詞 搭配防錯應用可進—舟她# 4 進 /搜寸並提供候選替代單字,以修正 錯誤的字詞搭配,如步驟71、73、75及77所示。其可包 括建立具有外卡的查詢肖,以取代在受排斥字詞搭配之一 或夕者中單字之一或多者,如步驟71。外卡可當作一起始 位標其被插入-查詢詞中—不可信單字(指示為可能錯誤 用法)之位置’其中該位標可能對應於插人該不可信單字位
置的任何位在所撞晷A ^ 寸的予詞資料庫中其餘查詢詞内的單 字在搜尋中可藉由以符號(如星形符號等,其針對不可 信錯誤單字而使用)來取代複數單字中之__來使用外卡。 23 200846939 如步驟73’可針對查詢詞搜尋字詞 怜配參考,以提供 可能的候選字詞搭配,如那些具有外^ 八 •下疋件的。此外,字 詞搭配參考可為網頁或另一以網路為基礎的或區域的字气 資料庫,且亦可包括一專業字詞搭配辭典參考,例如藉由 筛選網頁搜尋結果以排除未包括在字詞搭配辭典中的^詞 搭配。
使用任一單字或詞語在代表外卡位標的符號位置上的 字詞搭配參考的一搜尋可接著送回具有文字分割的結果。 例如,再次參照第1圖中文字方塊29的候選字詞搭配,列 出的數個候選字詞搭配可能已由一具有句子“this pers〇n,, 前的一外卡符號的外卡搜尋送回。搜尋詞可接著例如為 this person”,其中星形符號形成外卡,且搜尋結果包括 "known this person" ^ "admitted this person" > «thought this person”等。被搜尋工具用來指示外卡單字之符號選擇 係任意的,且可能為一交集符號、一問號或其它任意符號。 可依據相同字詞搭配使用外卡在一系列查詢詞中每一 者’且其方式係依據該字詞搭配連續由較多限制至較少限 制查詢樣板進行比對,其和原來評估一主要字詞搭配的正 確性或排斥性所做的方式類似。例如,對於錯誤的字詞搭 酉己句子 “I have recognized this person for years”,一系歹,J #外卡查詢詞可包括針對完整句子的一查詢詞,但其以一 外卡取代該字詞搭配之動詞,即“I have * this person for yeaFs” ;依據包含該字詞搭配的一區塊對的一或多詢問 月’即 this person for years”,“* this person” ;及針對 24 200846939
該字詞搭配為一單字對的一或多查詢詞,其以互相鄰接方 式搜尋得,或相當靠近,如以不多於一個中間字隔開等, 例如〜person”,其中該符號‘‘〜,,在一具體實施中為任意 選擇,其可被搜哥工具視為一鄰接位標,而在其位置上可 代表將外卡及特定字分開的零個或一個字,或可能更多。 使用一外卡在查詢詞中,可因此提供具有一有效方法的一 說明性實施例,其在各種層級且在網頁可取得内容或其它 以網路為基礎的或區域的字詞資料中,將文字樣本之字詞 搭配與可能的類似字詞搭配作比較。 亦可使用被限制在一組有限優先候選 或對照字詞搭配參考來篩選結果,該字詞搭配參考包括指 示,其指出較佳候選字詞搭配❶例如,依據自文字樣本竹 者的母語反向翻譯程序可優先選擇某些特定候選字气搞 配。使用者可選擇輸入其母語,或字詞搭配防錯應用二 可使用工具用以評估寫作樣本中線索,其例 @ J知不作名 的可能母語,而該應用軟體可促使使用者去墟 該母語。 可考慮其它線索,例如在電腦上安裝的其它處 匕應用軟體中j 使用的語言選項,或指示指出電腦實體位置。 例如,若肩 用軟體偵測到它在一電腦上執行,且該電腦也 中文語— 模式下執行其作業系統,或者應用軟體偵測到 < ° 、』電腦係透站 伺服器連接網際網路,參考項指出該伺服器 ^ _ 貫體位置位名 北京,而文字樣本為英語,它可分配優先順序至典,〗、 文為母語的候選字詞搭配。 、以亏 U作者的母”。則子搭配防錯應用軟體可考慮 25 200846939 是否錯誤的字詞搭配係由於不適當地將作者母語對應到寫 作樣本的非母語上。此可包括例如當應用母語文法規則於 非母語中時的對應錯誤、誤用一錯誤的同源字或錯誤的朋 友、當母語未區分單複數形式時省略複數形式等。
例如’可#曰示包括 “I have recognized this person for years”的文字樣本之作者係以中文為母語。字詞搭配防錯 應用軟體可藉由翻譯此輸入成中文來回應此指示,且檢查 候反向澤回英的候選翻譯。“T〇 recognize”可被翻譯成中 文「認識」,此字可被翻譯成英語“t〇 recognize,,或“to know”。反向翻譯可因此指示“kn〇w,,為一可能的候選替代 為以取代 “recognize”,而成為 “I have known this person for years”。在另一例子中,指示為以法語為母語的作者所 寫的一英語文字樣本可包括此句子“I commanded the faith and onions”,其中“commanded”及“faith”標籤為受排斥的 字詞搭配。此句翻譯成法文為“j,ai commands le foi et des oignons”,其中“commands”適當地反向翻譯成“ordered”, 而“le foi”重新拚成“le f〇ie”且反向翻譯成“the iiver”,如 此一來在搜尋結果所產生的任何其它字詞搭配中,應用軟 體會優先選擇或加權這些候選字詞搭配,且可建議候選替 代字詞搭配以修正該句子成“I ordered the liver and onions’,。 在任一情況下,由母語反向翻譯之步驟已被用來限制 在第一位置的候選替代搜尋,或已被用作字詞搭配參考以 評估或優先排序由搜尋所產生的可能候選替代字詞搭配。 26 200846939 在此具體實施例中,針對查詢詞而搜尋字詞搭配參考 (如步驟73)後,可執行步驟75,其用以識別具有相當高比 例可取代外卡的候選單字的搜尋結果。此外,在一具體實 施例中’在提供比對符合包含字詞搭配的完整句子、片段 句、區塊對或單字對的搜尋結果之間,可給予不同的比對 符合種類不同的加權。總積分可為每一種類的查詢詞經加 權的積分7L素總合,例如每一積分元素為針對該查詢詞所 找到的搜尋結果數目乘上分配給該查詢詞的加權值。在此 具體實施例中,使用諸如此類的方法得到相當高的總積 n 了理解為有效率的測量到相當高比例的可取代外卡的 一候選單字’且作為可能的字詞搭配選擇,用以修正錯誤 的字詞搭配。 外卡可特別用於某些特定詞性或查詢詞的某些特定區 塊型態。例如,在一組依據動詞·名詞字詞搭配的查詢詞 中’每一字詞搭配中的動詞可被一組查詢詞的外卡取代, 且母子搭配中的名詞可被另一級查詢詞的外卡取代。 對於介系詞-名詞字詞搭配,由於名詞报可能相關於句子原 本要表達的意義,且因為對於中級語言學習者來說,所選 擇的特別介系詞可能較常被錯誤用法,因此特別是介系詞 可為被選擇以外卡取代的字詞搭配之部分。依據介系詞· 名㈣予詞搭配形式,選擇介系詞作為查詢詞中外卡取代部 分’如此可支援一策略,其用以降低產生想要的替代字詞 # S&所需的時間。同樣的,可優先選擇外卡將其當作形容 5司·名詞字詞搭配形式中的形容詞,以及當作動詞-副詞字 27 200846939 祕配形式中的動_,這也是因為名詞及動詞报可能相關 句,原本想表達的意義,而形容詞及副詞比他們所修飾的 名肩及動屑還常被錯誤用法。在其它具體實施例中,可選 擇其他特疋詞性或特定區塊類型來優先或專門以外卡取 代。 处在搜哥結果中被發現具有比不信任單字還大比例的一 可此替代單子可接著被指示為一建議的替代字,其用以取 代月頦又排斥的字詞搭配部分。亦可在以可能的替代單字 來父叉參考字詞搭配(用於包含在字詞搭配參考中,如前 所述,諸如正確字詞搭配的辭典或依據作者母語以建議的 反向翻譯來交又參考之類)後,執行上述動作。 經由使用者輸出可提供具有一或數個可能字詞搭配候 選單字(如那些具有最高比對符合積分的字)的搜尋結果來 作為可能的正確字詞搭配,如第2圖步驟77。此可能類似 於第1圖文字方塊29所顯示的候選字詞搭配,使得例如使 用者施夠選擇候選字詞搭配中之一者以取代被指示為錯誤 的子㈣搭配。有時候,單一字詞搭配將指示為具有較佳的 可能性而可作為用以取代錯誤字詞搭配的正確替代詞。此 為第4圖之例子。 依據一具體實施例,第4圖示出一用於運算系統且可 實現字詞搭配防錯方法的使用者介面4〗〇。使用者介面4 1 0 包括在其上的與第1圖中字詞搭配防錯介面1 〇相同的標 籤;具體的說,即標題為「下載ESL句子」的標籤11(同 樣的’示範用於一特定ESL具體實施例)及標題為「執行 28 200846939 查詢」的標籤1 3。第1圖示出選擇標題為「下載ESL句子」 標籤11的使用者介面10,而第4圖示出選擇標題為「執 行查詢」標籤1 3的使用者介面4 1 0,其顯示具有相關按鈕、 標題、文字方塊及其它使用者介面元件。這些可分為一稱 為「ESL經語法分析句子」的上半部,及一稱為「查詢層 級」的下半部。使用者介面410用於特定類型查詢,並經 由使用者介面提供執行那些查詢得到的搜尋結果,以支援 用於字詞搭配防錯的一具體實施例。
「ESL經語法分析句子」上半部包括一文字方塊25, 其與第1圖文字方塊25相同,且此處其包含相同的經語法 分析句子。此部分亦包括一列按鈕4 1在經語法分析句子文 字方塊25下方。這些包括用於各種不同查詢樣板的按鈕, 以依據經語法分析句子來執行搜尋。在此具體實施例中, 依據前述說明,特別是標籤為「產生查詢」按鈕;「送出 S-查詢I」及「送出S-查詢Π」為針對不同句子的查詢, 如針對完整句子或片段句子;「送出 C-查詢I」及「送出 C-查詢E」為針對不同種類的區塊對查詢;及「送出 W-查詢」為針對依據字詞搭配中個別單字對查詢。 使用者介面410下半部包括一用於句子層級查詢的文 字方塊43、一用於區塊第一層級查詢的文字方塊45、及一 用於區塊第二層級查詢的文字方塊47,而某些查詢結果文 字方塊說明例可成為現行候選替代單字字詞搭配。亦示出 每一文字方塊43、45及47針對該候選字詞搭配的查詢搜 尋比對符合結果,及在其右方示出一個別文字方塊其可顯 29 200846939 示依據每一查詢種類在資料庫中的某些查詢搜尋結果 此挽明例中,針對要防錯的字詞搭配,如圖示所建議 每一查詢樣板層級皆強烈指示“known,,為正確替代 取代“reC〇gniZed”。此說明了查詢樣板階層法在此例中 供超出足以表示可靠的一特定候選替代字的多餘結果 用者可接著考慮針對每一查詢樣板的比對符合數,且 候選^代字詞搭配之_者以取代相應受排斥的搭配字 ―當第1圖及第4圖示出依據專門應用具體實施例 不面版時’其它具體實施例可在配合其它應用程式下 不明顯的方式來操作 續耸虛 +保作该等應用程式諸如單字處理程 網頁瀏纜器、電子郵件靡用@ 4 〇 电于郅件應用程式、呈現程式或其它涉 用者輸入文字或其它形式自麸扭+ .、、…〇 5的應用程式。此類 程式或應用程式可配合個別字 1別予搭配防錯程式實施例 ^ 身一模組,其包含例如一字1 | ^ ± yc m mm ^ 予闲搭配防錯實施 在不冋具體實施例中,字詞搭配防 m ^ ^ Ύ m i 3工具例如可在其 用程式工具表單下獲得,或在另一 -# ^ # ^ ^ ^ 實施例中,當使用 早子备,月鼠右鍵時,可彈出功能選摆„ 士工&〜 錯工具。 犯選擇早中而取得 在另一操作模式下,其它應 自動Ur #… q 式在一預設狀態 動執仃予詞搭配防錯模組或應 器上標用程式,且可藉由在 払》己早子來自動提供錯誤指示 示。例如 1 A文排斥字詞搭 例如,可採用藍色鋸齒線在一 於+甘Α λ 予同搭配下作標記 才曰不其為錯誤或受排斥。在又另一 行一個別括 細作极式下,例如 模組或應用程式以偵測使 又用者輸入疋否包 〇在 的, 字以 會提 〇使 選擇 Ο 的顯 以較 式、 及使 其它 ,或 例0 它應 者在 該防 中可 監視 配指 ,以 可執 括指 30 200846939 示a扣出使用者並非為以該輸入語言為母語的使用者, 二為非母t ,〖貝用法的該指示可觸發啟動字詞搭配防錯 模組或程式。 第5圖示出一合適運算系統環境100說明例,在該環 境内就實現各種具體實施例。例如,各種具體實施例可實 現為軟體應用程式、模組或其它形式指令,該等指令可在 運算系統環境1 〇〇中執行且其可配置運算系統環境i 〇〇以 執行涉及不同具體實施例的各種任務或方法。實現字詞搭 配防錯具體實施例的軟體應用程式或模組可在各種程式或 腳本語言或環境任一者中發展。例如,其可被寫入於c#、 F# ' C + + ' C > Pascal > Visual Basic - Java - JavaScript ^
Delphi、Eiffe卜 Nemerle、perb PHP、Python、Ruby、Visual
FoxPro、Lua或任何其它程式語言中。亦可預期將持續發 展新的程式語言及產生可執行指令的其它方式,進而可輕 易於其中發展進一步的具體實施例。 依據一具體實施說明例,運算系統環境丨〇〇可配置成 回應接收到一文字内字詞搭配指示而執行字詞搭配防錯任 務。運算系統環境1 00可接著執行針對與所指示的字詞搭 配有關的一或多查詢樣版中任一者的網頁搜尋。所用的各 種查#旬樣板可包括包含有該子詞搭配的句子、片段句、區 塊對、及/或個別單字對。運算系統環境1 00可接著評估針 對每一查詢樣板的網頁搜尋結果指示該字詞搭配是否相應 一般慣用法,或指示它是否受排斥或指示為可能係錯誤。 可藉由包含句子的查詢樣版的正確比對符合,或大於預選 31
200846939 臨界值的比對辂入 ^積分來指示一般慣用法。系统可接荽 示字詞搭配是否效人 有 付合一般慣用法,或受排斥且指示為錯 用法,該等指示从& 作為運算系统環境1 00經由使用者可家 輸出裝置的輪出# 部分,且其為一字詞搭配防錯方法呈 施例的結果^ 如第5圖所一 0 口所不運算系統環境100僅為一合適電腦環 例,其用於執杯々 w订各種具體實施例及提供該等實施例輸出 且沒有要對譜多 水“的的使用範圍或功能建議任何限制。 腦環境100不處、Β 1 現為必需依賴或具備操作壞境例1 〇 〇所 示的任一組件@ έ 4組件之組合。 且 , -耳施例可以多種其它一般目的或特別目的運算 統ί衣境或配置來操作。適於各種具體實施例使用的習知 备餘 、 ΤΞΖ. ’、、'、 衣境及/或配置例包括(但不限於)個人電腦、伺 裔電腦、手持或膝上裝置、多處理器系統、微處理器應 系統、機上盒、可程式化消費性電子產品 '網路PC、微 電腦 機電腦、電話通訊系統、包括上述任何系統或 置的分散式電腦環境等。 可依據諸如程式模組之類的電腦可執行指令一般概 來說明具體實施例。一般說來,程式模組包括例行程序 應用程式、物件、組件、資料結構等,其執行特定任務 實現特定抽象資料型態。某些具體實施例係設計來實施 分散電腦環境中,其中由連接通訊網路的遠端處理裝置 執行任務。在分散電腦環境中,程式模組位在本地及遠 電腦儲存媒體二者中,該儲存媒體包括記憶體儲存裝置 指 誤 知 實 境 電 顯 系 運 服 用 型 裝 念 或 在 來 端 32 200846939 此該 如置 , 配 上可 體此 媒藉 在, 存行 儲執 可及 令取 指讀 行件 執組 可多 種或 此 一 。 , 的能 的統功 明系的 說算新 所運統 處被系 此可算 如其運 參照第5圖,一用於實現某些具體實細*例的範例系統 包括一為電腦11 〇形式的通用電腦裝置。電腦11 0的組件 可包括(但不限於這些)一處理單元120、一系統記憶體130 及一系統匯流排1 2 1,該匯流排將包括系統記憶體的各種 系統組件耦接至處理單元120。系統匯流排121可為數種 型態的匯流排結構中之任何一種,包括記憶體匯流排或記 憶體控制器、週邊匯流排、圖形加速埠以及使用各種匯流 排結構中之任一種的處理器或區域匯流排。以實施例說 明’此類結構可包括(但不限於此)工業標準架構(Industry Standard Architecture,ISA)匯流排、微通道架構(Micro channel Architecture,MCA)匯流排、加強型 ISA (Enhanced ISA,EISA)匯流排、視頻電子標準協會(video Electronics Standards Association,VESA)區域匯流排、週邊元件内連 接(Peripheral Component Interconnects,PCI)匯流排(亦稱 整合型匯流排)。 電腦110 —般包括各種電腦可讀取媒體。電腦可讀取 媒體可為任何能由一電腦存取的可用媒體,且其包括揮發 性及非揮發性媒體、可移除及不可移除媒體。以實施例說 明’但不可視為限制條件,電腦可讀取媒體可包含電腦儲 存媒體及通訊媒體。電腦儲存媒體包括揮發性及非揮發 性、可移除及不可移除媒體,以任一方法或技術實現電腦 33 200846939 儲存媒體以儲存諸如電腦可讀取指令、 相π 、貝枓結構、程式裰 組或其它資料的資訊。電腦儲存媒體包含(但不僅限亡 些)RAM、ROM、EEPROM、快閃記憶體或其它記憶體技術α CD·刪、數位多功能光碟(DVD)或其它光學記憶體、 帶、磁帶、磁片儲存或其它磁式储存裝置,或任何其它、 用來健存欲保留資訊及可由電腦u〇存取的媒體。通訊2 體一般可實現電腦可讀取指令、f料結構、程式模組_ 如載波或其它傳輸機制之類的調變資料訊號中的其它資 料,且該通訊媒體包括任何資訊傳送媒體。該詞彙「經調 變資料信號」是指一種信號,其可令其一或更多項的特徵 按一將資訊編碼至該信號内之方式所設定或變化。以實施 例說明,而非限制,通訊媒體包含諸如有線網路或直接網 路連接之有線媒體,以及諸如音響、RF、紅外線及其他無 線媒體的無線網路。上述各者之組合亦應被納入在電腦可 讀取媒體的範圍内。 系統記憶體1 3 0包括揮發性及/或非揮發性記憶體形 式的電腦儲存媒體,如唯讀記憶體(read 〇nly mem〇ry, ROM)131 及隨機存取記憶體(rand〇ln aeeess memory, RAM)132。基礎輸入 /輸出系統 133(basic input/〇utput system,BIOS),其包含幫助轉換電腦u〇内元件間資訊的 基礎例行程序’如在開始階段該系統被儲存在ROM 1 3 1 内。RAM 1 3 2 —般包含資料及/或程式模組,其可直接由處 理單元120存取及/或在處理單元12〇上操作。以實施例說 明,但不可視為限制條件,第5圖示出作業系統丨34、應 34 200846939 用程式135、其它程式模組ι36及程式資料ι37。 電腦110亦可包括其它可移除/不可移除且揮發性/非 揮發性電腦儲存媒體。僅以實施例說明,第5圖示出一硬 碟機141,其可讀取或寫入不可移除且非揮發磁性媒體; 一磁碟機151,其可讀取或寫入可移除且非揮發磁碟152; 及一光碟機155’其可讀取或寫入諸如cd ROM或其它光 學媒體之類的可移除且非揮發光碟156〇其它可用於操作 環境範例的可移除/不可移除、揮發性/非揮發性電腦儲存 媒體包括(但不限於這些)卡式磁帶、快閃記憶體卡、多功 能數位碟片、數位視訊帶、固態RAM、固態ROM等。硬 碟機141 一般係透過一不可移除記憶體介面(如介面ι4〇 等)連接至系統匯流排121,而磁碟機151及光碟機155 一 般係透過一可移除記憶體介面(如介面1 5 0等)連接至系統 匯流排121。 第5圖所示的上述硬碟機與磁碟機及其相關電腦儲存 媒體,提供電腦可讀取指令、資料結構、程式模組及其它 電腦110資料的儲存。例如,在第5圖中,硬碟機141顯 示為儲存作業系統144、應用程式145、其它程式模組ι46 及程式資料I47。注意到這些組件可與作業系統134、應用 程式135、其它程式模組136及程式資盼13 7相同或不同。 此處之作業系統144、應用程式145、其它程式模紐146 及程式資料1 4 7的具有不同的元件符號係表示他們為另外 的元件。 使用者< 透過輸入裝置如鍵盤162、麥克風163及點 35 200846939
擊裝置(如滑鼠、軌跡球或觸控板)來輸入命令及資訊至電 腦11 0。其它輸入裝置(未示出)可包括控制桿、遊戲榣桿、 衛星信號接收器、掃描器等。這些及另外其它輸入裝置常 透過耦接系統匯流排的使用者輪入介面160來連接至處理 單元1 20,但可藉由其它介面或匯流排結構來連結,如一 平行埠、一遊戲埠及一通用序列埠(universal serial bus, USB)。監視器191或其它類型顯示器裝置亦經由一介面(如 視訊介面1 90)連接至系統匯流排1 2 1。除監視器外,電腦 亦可包括其它週邊輸出裝置,如揚聲器197及印表機1 96 等,其可透過一輸出週邊介面195來連接。 電腦11 0操作在一網路環境,該環境使用邏輯連結至 一或多個遠端電腦,如遠端電腦1 80。遠端電腦1 80可以 係個人電腦、手持裝置、伺服器、路由器、網路PC、對等 裝置或其它一般網路節點等,且一般包括上述的許多或全 部與電腦110相關元件。第5圖所示的邏輯連結包括一區 域網路(local area network,LAN)1 71 及一廣域網路(wide area network,WAN)173,但亦可包括其它網路。此類網路 環境已存在辦公室、企業電腦網路、内部電腦網路及網際 網路間^ 當電腦11 0係用在LAN網路環境中時,其透過一網路 介面或配接器170來連接至LAN1 7卜當用在WAN網路環 境中時,電腦110 —般包括一數據機172或其它在WAN 173 上建立通訊方式,如網際網路。數據機1 72可位在内部或 外部,且其可經由使用者輸入介面160或其它適當機制來 36 200846939 連 接至 系 統 匯 流排 121 。在網路環境中,顯示 與 電 腦 Π〇 有 相關 的 程 式 模組 或其 部分,可儲存在遠端 記 憶 霞 裴置 中 。以 實 施 例 說明 ,但不為限制、第5圖示出 遠 蠕 應 用程 式 185 係 位 在 遠端4 f腦 1 8 〇上。應認知到所示 的 網 路 連娃 為 說明 用 範 例 ,而可 使用 其它建立電腦間通訊連結的方式 依據另一具體實施例,第6圖示出一般行動運复冉 异¥境 方塊圖,該環境包括一行動運算裝置及一可由該行動運算 裝置讀取的媒體’該媒體包括可執行指令,其可由 算裝置執行。依據一具體實施例,第6圖示出一行動運算 系統200方塊圖,該系統包括行動裝置2〇1。行動裂置 包括一微處理器202、記憶體204、輸入/輸出(1/〇)組件 及一通訊介面208,其用於與遠端電腦或其它行動裝置通 訊。在一具體實施例中,耦接前述組件以在一合適匯流排 210上可互相通訊。 實現記憶體204為非揮發電子記憶體,如具有電池備 用模組(未示出)的隨機存取記憶體(RAM),使得當提供給 打動裝置的一般電源被切斷時,不會移失儲存在記憶體 204内身訊。記憶體204 —部分係闡釋性分配為可尋址飞 憶體,用於程式執行,而記憶體2〇4另一部分係闡釋性= 於儲存,如模擬磁碟機上健存。 記憶體204包括一作業系統212、應用程式214及一 物件儲存216»在操作期間,作業系统212係闡釋性自: 憶體204由處理器202勃# , , ° 執仃。在一具體實施例中,作業系 統 212 為 WINDOWS® CP η 胳 & ^ 牌作業系統,由微軟公司商業 37 200846939 提供。作業系、统212係闡釋性設計來用於行動裝置,且實 現5貝料庫特f生應用程式2 1 4可透過一組揭露的應用程式 介面及方法來使用該特性。i少部分回應呼叫揭露的應用 程式介面及方法,而物件儲存216中物件可由應用程式214 及作業系統2 1 2維持。 通訊介面208代表許多裝置及技術,其可允許行動裝 置200去傳輸及接收資訊。裝置包括有線及無線數據機、 衛生接收器及廣播調整器等。行動裝置2〇〇亦可直接連接 至電腦,以與其交換資料。在此例中,通訊介面2〇8可為 紅外線無線電收發機或一連串平行通訊連結,其皆可傳輸 串流資訊。 輸入/輸出組件206包括各種輸入裝置,如觸控螢幕、 按鈕滚軸及麥克風,以及各種輸出裝置,包括音訊產生 器、振動裝置、及顯示器。前述裝置係以實施例方式列出, 且在行動裝置200上不需要顯示出所有裝置。此外,其它 輸入/輸出裝置可連結至行動裝置2〇〇或與行動裝置2⑽一 起作用。 行動運算系統200亦包括網路220。行動運算裝置2〇1 :闡釋性藉由在通訊介面2〇8及無線介面222間以合適換 Μ傳輸及接收電磁訊號299來與網路22〇無線通訊,網 路220可為例如網際網路、廣域網路或區域網路。無線介 β為例如無線集線器、手機天線或任何其它訊號介 ::無線介面222經由網路22〇可依序存取大量額外運算 '、*、由運算資源224及226代表。當然,在任何位置 38 200846939 的任何數量運算裝置可與網路220通訊連結。在某些說曰月 性具體實施例中’運算裝置20 1可使用儲存在記憶體組件 204媒體上的可執行指令,如使得運算裝置2〇1去執行非 母語防錯查詢及其它任務的可執行指令。 雖然已使用特定結構特徵及/或方法行為語言來說明 申請標的,仍須了解隨附申請專利範圍所定義的申請標的 並不限於該所敘述的特定特徵或行為。更明確地說,該等 特定特徵及行為係以實現申請專利範圍的範例形式揭露。 在一特定實施例中,當用詞「電腦」、「運算裝置」或「運 算系統」在此處有時為了方便而單獨使用時,應了解到這 些用詞之每一者可指任何運算裝置、運算系統、運算環境、 行動裝置或其它資訊處理組件或概念,且不限定於任何單 —解釋。在另一特定實施例中,當許多具體實施例以闡釋 性元件表現且該等元件在申請專利當時非常類似時,可預 見許多電腦科技的新創新,在諸如使用者介面、使用者輪 入方法、運算環境及運算方法方面,將影響不同實施例中 元件,且當仍然保有一致性且由申請專利範圍定義的元件 包含時,申請專利範圍所定義之元件可依據這些及其它創 新進步被具體實現出。 【圖式簡單說明】 第1圖示出依據本發明之一具體實施例的一使用者介 面,其用於一可實施一方法的運算系統; 第2圖示出依據本發明之一具體實施例的一方法流程 39 200846939 回 · 圍, 第3圖示出依據本發明之一具體實施例的一方法流程 圖; 第4圖示出依據本發明之一具體實施例的一使用者介 面,其用於可實施一方法的運算系統; t
第5圖示出一電腦環境方塊圖,於其内可實施某些具 體實施例;及 第6圖示出另一電腦環境方塊圖,於其内可實施某些 具體實施例。 【主要元件符號說明】 11 標籤 13 標籤 17 按鈕 20 標題攔 22 左右捲轴槽 24 上下捲軸槽 27、29、3 1、33 文字方塊 41 按鈕列 100運算系統環境 120處理單元 1 3 0系統記憶體 132 RAM 134作業系統 10 字詞搭配防錯介面 12 標題攔 15 按鈕 19 整合方塊 21 按鈕 23、25 文字方塊 26 捲軸滑塊 32 彎曲線 43、45、47 文字方塊 11 0電腦
1 21系統匯流排 131 ROM 133 BIOS 40
200846939 1 3 5應用程式 137程式資料 1 4 1硬碟機 145應用程式 147程式資料 151磁碟機 1 5 5光碟機 160使用者輸入介面 162鍵盤 170網路介面 172數據機 180遠端電腦 190視訊介面 195輸出週邊介面 197揚聲器 201行動運算裝置 204記憶體 208通訊介面 212作業系統 216物件儲存 222無線介面 4 1 0使用者介面 136 140 144 146 150 152 156 161 163 171 173 185 191 196 200 202 206 210 214 220 224 其它程式模組 記憶體介面 作業系統 其它程式模組 介面 磁碟 光碟 點擊裝置 麥克風 LAN WAN 遠端應用程式 監視器 印表機 行動運算系統 處理器 輸入/輸出 匯流排 應用程式 網路 、226運算資源 41

Claims (1)

  1. 200846939 十、申請專利範圍: 1· 一種可由一運算系統實現之方法,其至少包含 驟: 將依據一文字樣本的一或多個字詞搭配與一字 庫作比較; 識別該等字詞搭配是否被該字詞資料庫排斥; 經由一輸出裝置提供指示,其指示該字詞搭配 排斥。 2.如申請專利範圍第1項所述之方法,其中該字詞 包含網頁上内容。 3.如申請專利範圍第1項所述之方法,其中若在該 料庫中並未找到一字詞搭配,或其積分並未高於 臨界比對符合積分值,該臨界積分值指示在該字 庫中存在許多針對該字詞搭配的電腦智慧比對 目,則該字詞搭配係受排斥。 4.如申請專利範圍第1項所述之方法,其中該字詞 包含網路上可取得内容。 5·如申請專利範圍第1項所述之方法,其中將該等 配與該字詞資料庫作比較之步驟包含執行使用 以下步 詞資料 反 是否受 資料庫 字詞資 一預選 詞資料 符合數 資料庫 字詞搭 一或多 42 200846939 查詢詞的一或多網頁搜尋之步驟,該查詢詞包含該等字 詞搭配之一或多者之每一者。
    6·如申請專利範圍第5項所述之方法,其中在針對該等字 詞搭配中之一或多者之每一者來執行搜尋之步驟中,將 針對包含該字詞搭配的該等一或多查詢詞來執行搜 尋,直到該等查詢詞之一者提供之搜尋結果達到一代表 比對符合該字詞搭配的預選臨界值,或者直到使用了所 有包含該字詞搭配的該等查詢詞而尚未達到該預選臨 界值。 7.如申請專利範圍第6項所述之方法,其中在針對該等字 詞搭配中之每一者來執行搜尋之步驟中,若包含該字詞 搭配的查詢詞並未取得高於一預選臨界比對符合積分 值*而該臨界積分值指不在該字詞資料庫中存在許多針 對該等查詢詞的電腦智慧比對符合數目,則該字詞搭配 係受排斥。 8.如申請專利範圍第6項所述之方法,其中該等查詢詞中 至少一者包含一包含有該字詞搭配的句子。 9·如申請專利範圍第6項所述之方法,其中該等查詢詞中 至少一者包含一包含有該字詞搭配的片段句,其中該片 43 200846939 段句係藉由移除一包含有該字詞搭配的句子中助動詞 而形成。 10·如申請專利範圍第6項所述之方法,其中該等查詢詞中 至少一者包含一包含有該字詞搭配的區塊對。
    1 1 ·如申請專利範圍第6項所述之方法,其中該等查詢詞中 至少一者包含一包含有該字詞搭配的單字對。 12·如申請專利範園第1項所述之方法,進一步包含詞性標 籤該文字樣本之步驟,且其中被拿來與該字詞資料庫比 較的該等字詞搭配係選自該文字樣本,用以包含以下至 少一者:一動詞-名詞字詞搭配、一介系詞-名詞字詞搭 配、一形容詞-名詞字詞搭配、及一動詞-副詞字詞搭配。 13.如申請專利範圍第1項所述之方法,其中該文字樣本係 存在一目標語言中,且該方法進一步包含篩選該字詞搭 配之步驟,以將該等字詞搭配與指示僅存在該目標語言 中的内容作比較。 14·如申請專利範圍第1項所述之方法,進一步包含篩選該 文字樣本以決定是否指示其為非母語慣用法,且若指示 該文字取樣為非母語慣用法,則自動啟動將該文字樣本 44 200846939 的該等字詞搭配與該字詞資料庫作比較之步驟。 15.如申請專利範圍第1項所述之方法,進一步包含以下步 驟: 建立具有一外卡的一或多查詢詞,該外卡用以取代在 該等受排斥單字字詞搭配中之一者的該等單字之一; 搜尋該等查詢詞的一單字字詞搭配參考;
    識別具有一相當高比例候選單字的該搜尋結果,以取 代該外卡·,及 經由該輸出裝置提供具有該候選單字的該搜尋結果, 作為該可能的正確單字字詞搭配。 16.如申請專利範圍第15項所述之方法,其中該等查詢詞 包含以下一或多者:一句子樣板、一區壤樣板、及一單 字樣板,且其中具有一相當高比例以取代該外卡的該候 選單字的該搜尋結果,評估該搜尋結果的方式係藉由將 包含該候選單字的該等搜尋結果之一比例乘上一查詢 樣板加權,其中句子樣板加權最高,接著是區塊樣板, 單字樣板加權最低。 17.如申請專利範圍第15項所述之方法,其中該等查詢詞 包含以下一或多者:一動詞-名詞字詞搭配、一介系詞-名詞字詞搭配、一形容詞-名詞字詞搭配、及一動詞-副 45 200846939 詞字詞搭配,且該外卡係選作為在一動詞-名詞字詞搭 配中之該動詞、在一動詞-名詞字詞搭配中之該名詞、 在一介系詞-名詞字詞搭配中之該介系詞、在一形容詞-名詞字詞搭配中之該形容詞、或在一動詞-副詞字詞搭 配中之該副詞。
    18.如申請專利範圍第15項所述之方法,進一步包含使得 一使用者可自行選擇該等可能的正確單字字詞搭配之 步驟,以取代其所對應的該受排斥單字字詞搭配。 19. 一種包含一運算系統可執行指令之媒體,其中該等指令 配置該運算系統以執行以下步驟: 接收一文字中一單字字詞搭配之一指示; 針對與該指示的單字字詞搭配相關的一或多查詢樣板 之每一者來執行一網頁搜尋,其中該等查詢樣板中之一者 包含句子,在該句子中可找到該單字字詞搭配,且該等查 詢樣板中之一者包含一具有該字詞搭配的區塊對,且該等 查詢樣板中之一者包含一具有該字詞搭配的個別單字對; 評估針對該一或多查詢樣板中每一者的該網頁搜尋結 果,以指示該單字字詞搭配是否符合一般慣用法,該指示 係藉由包含該句子的該查詢樣板的一正確比對符合,或一 高於一預選臨界值的比對符合積分;及 經由一使用者可察知輸出裝置來指示該單字字詞搭配 46 200846939 是否符合一般慣用法。 20·—種運算系統,其配置以執行以下步驟: 識別一文字中單字字詞搭配; 針對依據該等單字字詞搭配之每一者的一組查詢樣板 來搜尋網頁;
    經由一使用者輸出裝置,指示該搜尋結果是否指示該 字詞搭配存在該網頁上之數量相當少。
    47
TW096146387A 2006-12-05 2007-12-05 Web-based collocation error proofing TW200846939A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/633,788 US7774193B2 (en) 2006-12-05 2006-12-05 Proofing of word collocation errors based on a comparison with collocations in a corpus

Publications (1)

Publication Number Publication Date
TW200846939A true TW200846939A (en) 2008-12-01

Family

ID=39477012

Family Applications (1)

Application Number Title Priority Date Filing Date
TW096146387A TW200846939A (en) 2006-12-05 2007-12-05 Web-based collocation error proofing

Country Status (14)

Country Link
US (1) US7774193B2 (zh)
EP (1) EP2102761A4 (zh)
JP (1) JP4960461B2 (zh)
KR (1) KR101279759B1 (zh)
CN (1) CN101568918B (zh)
AU (1) AU2007329362A1 (zh)
BR (1) BRPI0719257A2 (zh)
CA (1) CA2665600A1 (zh)
IL (1) IL198054A0 (zh)
MX (1) MX2009004891A (zh)
NO (1) NO20092498L (zh)
RU (1) RU2458391C2 (zh)
TW (1) TW200846939A (zh)
WO (1) WO2008070750A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI456411B (zh) * 2011-05-06 2014-10-11 Univ Far East 印表機之利用語言模型自動偵測錯誤之方法
TWI613554B (zh) * 2017-03-24 2018-02-01 Zhuang Shi Cheng 翻譯輔助系統

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126075A1 (en) * 2006-11-27 2008-05-29 Sony Ericsson Mobile Communications Ab Input prediction
US20110055209A1 (en) * 2007-02-23 2011-03-03 Anthony Novac System and method for delivering content and advertisments
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
US7958107B2 (en) 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8515950B2 (en) * 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
US9449078B2 (en) 2008-10-01 2016-09-20 Microsoft Technology Licensing, Llc Evaluating the ranking quality of a ranked list
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
WO2010061733A1 (ja) * 2008-11-27 2010-06-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 誤訳の検出を支援する装置及び方法
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
JP5337516B2 (ja) * 2009-02-06 2013-11-06 東芝ソリューション株式会社 文書処理装置及びプログラム
US8250072B2 (en) * 2009-03-06 2012-08-21 Dmitri Asonov Detecting real word typos
JP5363178B2 (ja) * 2009-04-22 2013-12-11 Kddi株式会社 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
US8521672B2 (en) * 2010-11-22 2013-08-27 Microsoft Corporation Dependency-based query expansion alteration candidate scoring
US20120265784A1 (en) 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
KR101522522B1 (ko) * 2011-10-26 2015-05-27 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US9684653B1 (en) 2012-03-06 2017-06-20 Amazon Technologies, Inc. Foreign language translation using product information
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US10095692B2 (en) * 2012-11-29 2018-10-09 Thornson Reuters Global Resources Unlimited Company Template bootstrapping for domain-adaptable natural language generation
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US9081500B2 (en) 2013-05-03 2015-07-14 Google Inc. Alternative hypothesis error correction for gesture typing
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9830314B2 (en) * 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
US9530161B2 (en) * 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
EP3062212A1 (en) * 2015-02-25 2016-08-31 Kyocera Document Solutions Inc. Text editing apparatus and print data storage apparatus
JP2016194822A (ja) * 2015-03-31 2016-11-17 株式会社エクシング サーバシステム及びそのプログラム、並びにエラーチェック方法
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
RU2632126C1 (ru) * 2016-04-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система предоставления контекстуальной информации
US11599709B2 (en) * 2016-05-19 2023-03-07 Palo Alto Research Center Incorporated Natural language web browser
RU2726009C1 (ru) * 2017-12-27 2020-07-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры
JP7170984B2 (ja) * 2018-03-02 2022-11-15 国立研究開発法人情報通信研究機構 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
US11379662B2 (en) * 2019-10-29 2022-07-05 Karmen Langlotz Data entry capitalization error correction system and word processing system with second language facility
US11544458B2 (en) * 2020-01-17 2023-01-03 Apple Inc. Automatic grammar detection and correction
CN111310457B (zh) * 2020-02-27 2024-02-02 河北省讯飞人工智能研究院 词语搭配不当识别方法、装置、电子设备和存储介质
CN111522909B (zh) * 2020-04-10 2024-04-02 海信视像科技股份有限公司 一种语音交互方法及服务器
CN112597753A (zh) * 2020-12-22 2021-04-02 北京百度网讯科技有限公司 文本纠错处理方法、装置、电子设备和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4456973A (en) 1982-04-30 1984-06-26 International Business Machines Corporation Automatic text grade level analyzer for a text processing system
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US5060154A (en) 1989-01-06 1991-10-22 Smith Corona Corporation Electronic typewriter or word processor with detection and/or correction of selected phrases
JPH08501166A (ja) * 1992-09-04 1996-02-06 キャタピラー インコーポレイテッド 総合オーサリング及び翻訳システム
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5909667A (en) 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
KR100474824B1 (ko) 1998-02-27 2005-03-16 삼성전자주식회사 연어정보를이용한원시언어의목적언어로의언어번역장치및방법
US6081772A (en) 1998-03-26 2000-06-27 International Business Machines Corporation Proofreading aid based on closed-class vocabulary
US6064961A (en) 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US6611802B2 (en) 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
US6676412B1 (en) 1999-10-08 2004-01-13 Learning By Design, Inc. Assessment of spelling and related skills
KR20010097365A (ko) 2000-04-21 2001-11-08 김영택 영한기계번역 시스템 및 방법
KR100398344B1 (ko) 2000-05-13 2003-09-19 주식회사 전유시스템 분해적 표현에 의한 순차 통역식 영한번역 시스템
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070164782A1 (en) * 2006-01-17 2007-07-19 Microsoft Corporation Multi-word word wheeling

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI456411B (zh) * 2011-05-06 2014-10-11 Univ Far East 印表機之利用語言模型自動偵測錯誤之方法
TWI613554B (zh) * 2017-03-24 2018-02-01 Zhuang Shi Cheng 翻譯輔助系統

Also Published As

Publication number Publication date
US7774193B2 (en) 2010-08-10
RU2458391C2 (ru) 2012-08-10
WO2008070750A1 (en) 2008-06-12
AU2007329362A1 (en) 2008-06-12
KR20090084818A (ko) 2009-08-05
IL198054A0 (en) 2009-12-24
EP2102761A4 (en) 2010-03-31
EP2102761A1 (en) 2009-09-23
CN101568918A (zh) 2009-10-28
MX2009004891A (es) 2009-05-19
US20080133444A1 (en) 2008-06-05
NO20092498L (no) 2009-07-03
JP2010511966A (ja) 2010-04-15
BRPI0719257A2 (pt) 2014-04-29
JP4960461B2 (ja) 2012-06-27
RU2009121432A (ru) 2010-12-10
CN101568918B (zh) 2012-04-04
CA2665600A1 (en) 2008-06-12
KR101279759B1 (ko) 2013-07-04

Similar Documents

Publication Publication Date Title
TW200846939A (en) Web-based collocation error proofing
Desagulier et al. Corpus linguistics and statistics with R
El-Haj et al. Creating language resources for under-resourced languages: methodologies, and experiments with Arabic
McEnery et al. Corpus linguistics: Method, theory and practice
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
US20120022852A1 (en) Apparatus, system, and method for computer aided translation
Sezer TS corpus project: An online Turkish dictionary and TS DIY corpus
Faili et al. Vafa spell-checker for detecting spelling, grammatical, and real-word errors of Persian language
Mataoui et al. A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews
Onyenwe et al. A Basic Language Resource Kit Implementation for the Igbo NLP Project
Rosner et al. The Maltese language in the digital age
Lloret et al. Challenging issues of automatic summarization: relevance detection and quality-based evaluation
Fakih et al. Evaluation of Instagram's Neural Machine Translation for Literary Texts: An MQM-Based Analysis.
Tinsley Machine translation and the challenge of patents
Rahat et al. A recursive algorithm for open information extraction from Persian texts
Šostaka et al. The Semi-Algorithmic Approach to Formation of Latvian Information and Communication Technology Terms.
Khansari et al. HmBlogs: A big general Persian corpus
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Baishya et al. Present state and future scope of Assamese text processing
Theijssen et al. Evaluating automatic annotation: automatically detecting and enriching instances of the dative alternation
Mitkov et al. Comparing pronoun resolution algorithms
Rudebeck et al. SweLL normalization guidelines
Boroş et al. RACAI GEC–a hybrid approach to grammatical error correction
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Love Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO