TW201015348A - Detecting name entities and new words - Google Patents

Detecting name entities and new words Download PDF

Info

Publication number
TW201015348A
TW201015348A TW097139051A TW97139051A TW201015348A TW 201015348 A TW201015348 A TW 201015348A TW 097139051 A TW097139051 A TW 097139051A TW 97139051 A TW97139051 A TW 97139051A TW 201015348 A TW201015348 A TW 201015348A
Authority
TW
Taiwan
Prior art keywords
candidate
text string
string
user
quot
Prior art date
Application number
TW097139051A
Other languages
English (en)
Inventor
Jun Wu
Zheng Huang
Xin Zheng
Dekang Lin
hang-jun Ye
Ying-Yu Wan
Po Zhang
Original Assignee
Google Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Inc filed Critical Google Inc
Publication of TW201015348A publication Critical patent/TW201015348A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Description

201015348 九、發明說明: 【發明所屬之技術領域】 本發明揭示内容一般而言係關於自輸入項辨識姓名實體 及/或新字。 【先前技術】 辨識(例如,識別及擷取)姓名實體及/或新字(下文中稱 為"NENW")可用於諸多應用,例如:拼字校正、表意字符 輸入、機器轉譯、web搜尋、語音辨認、光學字符辨識 φ (〇CR)等等。一姓名實體(或經命名實體)可包含一諺語、 一成語或一可指示一人、一地方、一組織或其他唯一實體 之專有名詞。一新字可係尚未納入當前辭典中且語義上有 意義之一字符序列,例如自一不同語言所借來之字或自科 學領域所採用之字。舉例而言,術語"Bluray(藍光广係用 來闡述一種基於藍色鐳射用於儲存數位媒體之高密度光碟 格式之一新字。一旦一新字被普遍接受,其即可成為詞彙 之一部分並被納入辭典中。 • 【發明内容】 本說明書闞述關於自輸入項(例如,搜尋 ,搜尋項及使用者輸
程式產品。 135230.doc 201015348 另一一般態樣可係包含-經組態以允許—使用者鍵入 文字串之輸入項組件之一“…么 使用者鍵入一 系統。該系統還包含用於自#势 入文字串產生-候選文字“心 9 咨… 宅文予串之構件。該系統進-步包含_ 資料庫,該資料庫經組態 _ 確疋該候選文字串是否分
資料庫中,且在該候選文字串 I ,^ 子串尚未儲存於辭典或該資料庫 時將該候選文字串儲存於該資料庫中。 可選擇地’此等及其他一般態樣可包含以下具體態樣中 之-者或-者以上。該方法可包含在該分段資訊不可用時 使整個文字串與候選文字串相方法亦可包含針對 候選文字串產生—正規化計數,並將該候選文字串與—辭 ,進行比較。該方法可進—步包含t該比較確定該候選文 子串尚未儲存於該辭纟中時將該候選文字串作為一正準文 子串儲存在-資料庫巾。該方法可另外包含:將候選文字 串與該資料庫進行比較;基於該比較確定該候選文字串是 否拼錯;及在該候選文字串拼錯時產生一替代文字串。 該輸入項可包含一用於一搜尋引擎之使用者查詢、一用 於即時傳訊之腳本或一用於輸入法編輯器之使用者輸入。 該文子串可包含非羅馬語言之一個或一個以上字。該非羅 馬語言可係中文、日文或韓文。該分段資訊可包含一使用 者產生之分段’其可用於在文字串中之字或片語之間進行 強調或區別。候選文字串可包含一個或一個以上姓名實體 或新字。該辭典可包含一專有名詞辭典。該使用者產生之 为段可包含一空格、一標記、一引號、一括孤或一標點符 號。該姓名實體可包含成語、諺語及民族、組織或地點之 135230.doc 201015348
名稱°該等新詞可包含當前未納入辭典中之字Q 可實施特定態樣以達成以下優點中之一者或一者以上。 可基於(例如)一個或一個以上使用者產生之分段自輸入項 (例如,搜尋查詢、即時傳訊"IM”腳本、使用者錄入編輯 器(例如Microsoft Word)中之句子)辨識非羅馬語言 NENW(姓名實體及/或新字)。一使用者產生之分段可係由 - 空格、標記、引號、括弧或任何標點符號明確地或不明確 地定界的一個或一個以上使用者錄入字符之序列。 籲 輸入項中拼字校正之覆蓋範圍可基於所辨識之NENW而 增大。另外,可不依賴於手動標注資料即可自動辨識新姓 名實體/字。可使用一可升級拼字錯誤校正資料庫來併入 剛剛辨識之姓名實體/字。因此可使拼字校正達成高準確 度。此外,可達成關於針對非羅馬字符(例如,中文、曰 文及韓文(c jk)字符)之輸入法編輯器(IME)之較佳字建 議。可使用一經改良IME來區分具有相同或類似發音之 字。舉例而言,一中文IME可在姓不同時向使用者建議"遇 ® 春"或"宇春"。因此,對NENW之辨識還可用於構建一用於 CJK語言之適應性IME辭典。 由於可避免藉由使用基於關鍵字之搜尋而導致之錯誤肯 定結果,因此還有可能達成一更精確之搜尋查詢結果。舉 例而言,當一使用者在一搜尋引擎之一輸入查詢中鍵入片 語”New York Traveling(紐約旅行),,時,可辨識到姓名實體 "New York(紐約),%可將關於紐約市旅行之所期望資訊提 供給使用者,而非返回錯誤肯定的搜尋結果,例如含有單 135230.doc 201015348 獨的字"New"及"York"之網頁。另外,就藉由使用手持式 裝置(例如,行動電話、個人數位助理(PDA)、雙向尋呼機 或智慧電話)而產生之搜尋查詢而言,提供精確搜尋查詢 結果之能力係合意的。 該等一般及具體態樣可使用一系統、方法或一電腦程式 或系統、方法及電腦程式之任一組合來實施。在附圖及下 文說明中將詳細闡述一個或一個以上實施方案。由該說 明、附圖以及申請專利範圍可明瞭其他特徵、態樣及優 ,點。 【實施方式】 圖1係自輸入項辨識姓名實體及/或新字(NENW)之系統 1 00之一概念圖。系統1 〇〇具有輸入項組件丨丨〇,該輸入項 組件可(例如)在允許一使用者鍵入搜尋查詢之一搜尋引擎 中包含若干查詢框。系統100還可具有NEnw辨識組件 120,該NENW辨識組件可(例如)自輸入項組件11〇識別及 擷取可能的NENW。如下文將更詳細論述,對可能NENW 象之辨識可係基於(例如)搜尋查詢中使用者產生之分段。該 等分段可係空格、引號、括弧或其他可由使用者用來強調 該NENW之標點符號。 系統100進一步包含資料庫130,該資料庫可係(例如)一 包含正準NENW之拼字校正及/或IME資料庫《如下文將更 詳細論述,並非NENW辨識組件120所識別之所有可能 NENW皆成為正準NENW。確定一經識別姓名實體/新字是 否真為一姓名實體/新字可係基於經正規化計數及搜尋查 135230.doc 201015348 詢之對話日誌。藉此方式,NENW辨識組件120可辨識(例 如,識別及擷取)由使用者提交於輸入項組件110中之可能 NENW。 還可將所辨識NENW添加至資料庫130(例如,一拼字校 正/IME資料庫)。因此,由於新姓名實體/字(例如,新音樂 家或新歌之名稱及新成語或諺語)可被辨識並儲存於資料 庫130中,故而該資料庫可係一可升級資料庫。此外,由 於該資料庫可容易地併入新姓名實體/字,因此可達成拼 φ 字錯誤校正及/或IME建議之一較高覆蓋範圍。 在諸如英語之某些羅馬語言中,大寫資訊在NENW辨識 中可起到一關鍵作用。在某些非羅馬語言中,尤其是在像 中文、曰文及韓文(CJK)之表意性語言中,字符不具有大 寫與小寫字體之分,而是一種書寫形式。此外,此等CJK 語言在其書寫形式之字之間不使用空格。因此,很難對此 等CJK語言進行NENW辨識。 另外,對諸如CJK語言等非羅馬語言進行拼字校正可係 # 複雜而富有挑戰性。拼字校正一般包含辨識錯誤字及為該 等錯誤字確定適當替換。諸如英語等字母(亦即羅馬)語言 係辭典外(錯誤拼字)字(例如,"thna"而非"than")或在其上 下文中不恰當使用之有效字(例如,”stranger then"而非 "stranger than")。可辨識及校正羅馬語言之辭典外拼字錯 誤之拼字檢驗器已眾所周知。 然而,諸如CJK語言等非羅馬語言不具有在任一電腦字 符集(例如,中文GB2312及UTF-8字符集)中編碼的無效字 135230.doc -10- 201015348 ,乂使传多數拼字錯誤為在上下文#不恰當使用之有效 而非辭典特字錯誤。在中文、日文及韓文中,對字 子之正確使用通常僅可在上下文中確^舉例而言, 文中’ ”遇春”及"宇春"皆可用作名字。然而,包含上 =兩者的最常見全名分別為”常遇春"(一將軍之姓名)及,, π(—歌手之姓名)。因此,針對-非羅馬語言之有 效拼子檢驗器應利用ί·Τ·ν达 下文資訊來確定哪些字符及/或字 在上下文中不合適。 ❿ :拼字校正外,系統100還可用於構建一CJK語言的適 .:二球典。舉例而言,很難在一電腦上輸入及處理中 文:。文子。一部分原因係中文字符之絕對數目及中文語 ^^ Α +標準化、多個同音異義字及無形(或 字處理難以進行。…成歧義,從而使得中文文 用:::於向一電腦系統中輸入中文語言之常見方法係使 (例如,拼音)之方法。拼音使用羅馬字符且具 2 :式列出之辭典。然而,在進行中文語言處 理時’該拼音輸入方、本 -,由於僅士同音異義問題。特定而 立表干)及約4約1300個帶有音調之不同語音音節(可由拼 約410個不帶音調之語音音節來表示成千上萬個 中文字符(漢字),一立 丁上禺個 應於諸多不同漢字(帶音調或不帶音調)可對 應於_以上^舉::,’普通話中之發音可對 造成歧義。 音節轉換為漢字時,此可 135230.doc -11 - 201015348 諸多語音輸人^統皆使[多選擇方法來解決此同音異 義問題。—旦使用者鍵人一語音音節,即向該使用者^示 及建議一列具有相同發音之可能漢字字符。然而,針對每 -字節輸入及選擇對應漢字之程序可相當緩慢乏味而費 時。其他語音輸入系統係基於依據毗鄰漢字字符來確定每 一可能漢字字符之可能性。該機率方法可進一步與語法約 束相組合。
然而,當將此類方法之語音至漢字轉換應用於如web上 所使用之用於(例如)使用者查詢及/或電子佈告攔系統 (BBS)站的文學語言(例如,含有諸多描述性句子及成語) 及/或口語或非正式語言時,該轉換準確度常受到限制。 另外,低辭典覆蓋範圍通常是一造成口語語言之不良轉換 品質的原因《因此,藉由使用系統1〇〇,可構建一適應性 IME辭典且可達成IME中對非羅馬字符(例如,CJK字符)之 較佳字建議。 除拼字校正及IME之外,系統100還可使用所辨識之經 命名實體來提供更精確之搜尋結果。此可用以下實例來圖 解說明。假設一使用者有興趣獲悉關於紐約市旅行之更多 資訊。則其在一搜尋引擎之一輸入查詢中鍵入片語"紐約 旅行"。當使用傳統之基於關鍵字的搜尋時,該搜尋引擎 可返回錯誤肯定之搜尋結果,例如含有字"紐(New)"及"約 (York)”而非將"紐約"辨認為一個姓名實體之web頁。相反 地,系統100則可將"紐約"辨識為一個姓名實體,並返回 關於使用者所期望之資訊之搜尋結果。 135230.doc 12 201015348 另外’就藉由使用手持式裝置(例如,行動電話、 PDA、雙向尋呼機或智慧電話)而產生之搜尋查詢而言, 提供精確搜尋查詢結果之能力係合意的。與自一桌上塑電 腦之傳統web搜尋相比,自手持式裝置產生之搜尋查詢對 於欲下載之特定檔案或欲購買之商品而言可更為精確。舉 例而言,手持式裝置之使用者通常提交基於NENW之搜尋 查詢,例如,下載一歌曲或某一音樂家之一圖片,請求關 於某一電影或某一人之資訊,或請求關於一新產品之資 ❹ 訊。 可用以下顯示於圖2 A-2C中之實例來圖解說明系統1〇〇如 何辨識NENW之一運作概述。圖2八顯示由使用者鍵入輸入 項中之各種文字串。圖2八中之實例假設有八個輸入項,其 中每一輸入項含有六個非羅馬語言(例如中文)字符/字之一 序列。舉例而言,該文字串中之六個中文字符/字之該序 列可係”上海市長韓正"’其意指上海市之市長為"韓正"。 在中文中,每一字符亦可表示一字;舉例而言,"市·,(該 •實例文字串中六個字符中之一者)係一具有字” chy"之意: 中文字符》 如上所述,㈣馬CJK語言不具有大寫字符。此外,中 文及日文之字與字之間以及句子與句子之間通常沒有空 格,且可很難辨識此等語言之候選NENW。然❿,使用者 有時會在輸入項中鍵入分段(舉例而t,空格、標記1 號或其他標點符號)以指出其意欲強調或與其餘輸入 串區別之NENW。圖2A中所示輸入項顯示各種文字串,每 135230.doc -13- 201015348 輸項之文予串皆含有由使用者鍵入之六個字符/字之 序歹J自jlt等文+串,彳識別分段資訊i可產生可能之 候選NENW。 舉例而言,在第一輸入項(其在該8個輸入項中出現3 次,從而為此輸入項給出一計數3)中,使用者已鍵入分段 205來將含有字#1、字#2、字#3及字料之子串(例如,"上 海市長")與含有字#5及字#6之另一子串(例如,"韓正")分 隔開。在一個實施方案中,系統1〇〇可在第一輸入文字串 參 巾識別使用者產生之分段205。此外,藉由使用所識別之 分段205,系統100可產生兩個候選ΝΕΝψ,分別為候選姓 名實體/新字210及候選姓名實體/新字215。分段2〇5可由使 用者有意或無意地鍵入。如下文將進一步論述,不論分段 205係有意抑或無意鍵入,系統1〇〇皆可基於(例如)一具有 一高正規化計數之實體或字產生一正準姓名實體/新字。 此外’在第一輸入項(其在該8個輸入項中出現兩次,從 而為此輸入項給出一計數2)中,使用者已鍵入一分段22〇 •來將含有字#1及字#2之子串(例如,"上海")與含有字#3及 字#4之另一子串(例如,"市長分隔開。另外,使用者已 鍵入另一分段225來將含有字#3及字#4之子串(例如,"市 長")與含有字#5及字#6之另一子串(例如,"韓正”)隔開。 在一個實施方案中,系統100可在第二輸入文字串中識別 使用者產生之分段220及225。此外,藉由使用所識別之分 段220及225 ’系統100可產生三個候選NENW,分別為候 選 NENW 230、235及 215。 135230.doc -14· 201015348 在第三輸入項(其在該8個輸入項中出現一次,從而為此 輸入項給出一計數〇中,使用者已鍵入分段245以將含有 子#1、予#2及字#3之子串(例如,"上海市")與含有字料之 另一子串(例如,"長··)隔開》另外,使用者已鍵入另一分 段255來將含有字#4之子串(例如,"長之子串與含有字# 及字#6之另一子串(例如韓正")隔開。在一個實施方案 中,系統100可在第三輸入文字串中識別使用者產生之分 段245及255兩者。此外,藉由使用所識別之分段245及 • 255,系統1〇〇可產生三個候選NENW,分別為候選nenw 250、260及215。 在第四輸入項(其可在該8個輸入項中出現兩次,從而為 此輸入項給出一計數2)中,使用者未鍵入任何分段。在一 個實施方案中,系統100可確定不存在使用者產生之分 段。藉此方式,候選姓名實體/新字不會基於使用者產生 之分段而產生。然而,在此情形十,系統1〇〇可使第四輸 入項之整個片語或文字串與含有字#1、字#2、字#3、字 • #4、字#5及字#6(例如,"上海市長韓正")之候選姓名實體/ 新字265相關聯。 在一文字串中給出字符/字之一序列時,可以數學方式 表示可能候選NENW之數目。假設具有N個字符之一序列 (例如,"ABC" ’ N=3)可產生G(N)個候選字,且向該序列 添加一新字符(例如,”D”)。可將彼新字符與前—序列中N 個候選字中之任一者組合以產生N個新候選字。此外,彼 新子符本身可係一單字符字。舉例而言,向序列"ABC"添 135230.doc •15· 201015348 加新字符”D"後,可出現四種新候選字:"abcd"、 "BCD”、"CD"及"D"自身。因此,向含N個字符之一序列添 加又一個字符後,可產生N+1個新候選字。 換言之,可自含N個字符之一序列得出一遞回關係 G(N+1)=G(N)+(N+1) ’且G(l)=l。自此遞回關係可導出_ 方程式G(N)=N*(N+l)/2。藉此方式’在含有數目n個字符 之一項中可存在Ν*(Ν+1)/2(其中N係一正整數)個可能之候 選NENW。舉例而言’若輸入項中有四個字(N=4),則可 φ 能候選NENW之數目為1 〇。類似地,在圖2A所示實例中, 輸入項中有六個字符/字(N=6)。因此,可存在21個可能的 候選NENW。 圖2B顯示來自圖2A之輸入項之一列候選NENW&其相關 聯出現率/計數。如圖2B所示,有七個候選NENW自圖2A 中分為四種不同輸入文字串之總共八個輸入項(每一項含 有一六字符/字序列)產生。該七個候選NENW包含候選姓 名實體/新字210,其具有一計數3,此乃因其在8個輸入項 ·+出現了 3次。候選姓名實體/新字215具有—計數6,此乃 因其在8個輸入項令出現了6次。候選姓名實體/新字23〇具 有一計數2,此乃因其在8個輸入項中出現了 2次。 此外,候選姓名實體/新字235具有一計數2,此乃因其 在該8個輸入項中出現了2次。候選姓名實體/新字25〇具有 一计數1,此乃因其在8個輸入項中出現了 “欠。候選姓名 實體/新字260亦具有-計數i,此乃因其在8個輸入項中出 現了 1次。最後,候選姓名實體/新字26〇具有一計數2,此 135230.doc -16- 201015348 乃因其在8個輸入項中出現了 2次β 因此,系統1〇〇可累積候選NENW在輸入項中之該等出 現率或計數且確定哪一候選NENW可成為正準nenw並儲 存於資料庫130中。在一個實施方案中,系統〗00可具有一 臨限數目之㈣,因巾當候選姓名實體/新字計數超過該 臨限數目肖,該候選姓名實體/新字成為一正準姓名實體/ 新字。該出現率可係來自使用者輸入之原始數目,或可係 根據每一個別字符或字符序列之出現之正規化/所導出數 目° 舉例而言,儘管”我是"(在中文巾意指"吾係")之出現在 使用者輸入中具有一極高出現率,但當由字符,,我"及"是"之 出現率個別地正規化時,其仍可具有—低正規化出現頻率。 在一個實施方案中,可使用以下公式來計算用於確定正準 NENW之正規化出現頻率:h(cl c2)*1〇g{f(cl c2)/[㈣*贼)]广 其中f()係表示一特定字或片語之相關出現頻率之一函式 (關於出現率之線性函式);且^)係關於出現率之—單調遞 增函式。舉例而言,h()可係與f〇一起單調遞增之任一函 式,例如h(Cl’C2)=f(Cl,c2)或 h(cl,c2)=i〇gf(cl,c2)。藉此方 式,可選擇h〇函式以使得產生最常見之字符組合來作為候 選姓名實體/新字。 — 另一選擇係,系統100可使用使用者輸入項之查t句日4 來確定候選姓名實體/新字是否應成為一正準姓名'實體 字。舉例而言’當-使用者在一搜尋查詢中未識別且拼錯 一姓名實體/新字,則可呈現錯誤的(或不出現)查詢結果。8 135230.doc -17- 201015348 然而,在此情形下’該使用者可手動地校正該姓名實體/ 新字之拼字以獲得所期望之搜尋結果。在一個實施方案 中’系統100可使用成功查詢結果之此歷史記錄及/或使用 者校正來產生可能的候選NENW並擴充資料庫130。 圖2C顯示來自圖2A之輸入項之一列候選NENW&其相關 聯正規化計數。在一個實施方案中,系統J 〇〇可使用候選 姓名實體/新字之一正規化計數來避免產生無語義意義的 一般字符序列。該正規化計數可藉由計算候選姓名實體/ 新字之計數與輸入項之一既定數目之比率而產生。藉此方 式,系統1〇〇可使候選姓名實體/新字與如正準NENW之高 正規化計數相關聯。 如圖2C所示,候選姓名實體/新字21〇具有一正規化計數 3/8 ’或0.375 ’此乃因其在8個輸入項中出現3次。候選姓 名實體/新字215具有一正規化計數㈣,或〇75,此乃因其 在8個輸入項中出現6次。候選姓名實體/新字具有一正 規化計數2/8 ’或0.25,此乃因其在8個輸入項中出現2次。 候選姓名實體/新字235具有一正規化計數2/8,或Ο:此 乃因其在8個輸人項中出現2次。候選姓名實體/新字25〇具 有-正規化計數1/8,❹·125,此乃因其在8個輪入項中出 現一次。候選姓名實體/新京 …有一正規化計數, 或(M25,此乃因其在8個輸人項中出現—次 姓名實體/新字260具有一正規化計數2/8,或心後’候選 其在8個輸入項中出現2次。 一 4乃因 如上所述,具有—古·,丨」 间正規化計數之候選姓名實體/新字 135230.doc 201015348 可成為-正準姓名實體/新字。在一個實施方案中,系統 _可經組態以使正規化計數高於G5之所有候選麵料 成為正準NENW並儲存於資料庫⑽中。在如_所示候 選NENW之此情形下,系統1〇〇將基於具有一正規化計數 0.75之候選姓名實體/新字215產生—正準姓名實體/新字。 此外’如上文利述之使祕限正規化計數產生之正準 =名實體/新子並不總是表示對—姓名實體/新字之正確拼 字。舉例而言,假設一極大數目之搜尋查詢含有術語 "仙㈣y(藍光)"’且基於(例如)輸入文字串中使用者產生 之分段產生一候選新字。另外,假設該候選新字"blue_ #之正規化計數因其高出現頻率而為〇.8。則候選新字 "blue-ray”將具有一高於臨限值(譬如〇 5)之正規化計數, 且成為-正準新字,該正準新字可儲存於一資料庫中,例 如圖!之資料庫13〇。儘管事實上正確拼字應為K且 多數使用者已將其錯誤拼字為"blue_ray”,情況即係如 此。
圖3係圖解說明自輸入項辨識NENW之程序之一流程 圖。在305處’程序300接收—輸入項,其可係如上料之 -諸如G—e搜尋引擎之線上搜尋引擎或—輸人法編輯器 之-搜尋查詢。在310處,程序識別分段資訊例如, 輸入項中使用者產生之分段4上所述,輸人項中使用者 產生之分段可係一標點符號、一空格或任何其他可用於在 兩個字或片語之間進行區別或強調之標記。 在315處’若該分段資訊可用(例如,一個或—個以上使 135230.doc -19· 201015348 用者產生之分段可用)’則在325處基於該分段資訊產生候 選NENW。上文在圖2A-2C中詳細闞述及顯示可如何產生 候選NENW之若干實例。另一方面,若輸入項中無可用之 分段資訊’則程序300將整個輸入項文字串與候選姓名實 體/新字相關聯。舉例而言,此將類似於圖2a中所示之第 四輸入項’該輸入項不具有任何使用者產生之分段。
在330處,程序3〇〇為每一候選姓名實體/新字產生正規 化計數,不論該NENW係來自具有使用者產生之分段之項 抑或是來自不具有使用者產生之分段之項。如以上在圖2c 中所示,可藉由計算候選姓名實體/新字之計數與含有字 符/字序列之輸入項之一既定數目之比率來產生每一候選 姓名實體/新字之正規化計數。 在335處,程序3〇〇確定候選姓名實體/新字是否已被納 入一辭典中,例如一包含一列預定及/或已知nenw之專有 名詞辭典。此75 gj諸多㈣麵w可能已被知曉並納入某 些辭典中。舉例而言,”飛利浦"或”索尼”係已知之專有名 詞,且無需再將此等字添加至正準NENW資料庫。 右候選姓名實體/新字在辭典中已知(例如,係— 詞)或已儲存於資料庫中,則在345處,&需 刪w資料庫(例如,圖1之資料庫而,若候選= 名實體/新字並非在辭典 序300將該候選姓名實…資枓庫中’則程 存至該資料庠正準姓名實體/新字健 藉此方式,該資料庫可係一可 庫’此乃因可辨識新職W(例如,—新音樂家或—新2 135230.doc 201015348 名稱)並將其儲存於該資料庫中。此外,由於該資料庫可 容易地併入新姓名實體/字,因此可達成拼字錯誤校正或 輸入法建議之一較高覆蓋範圍。 圖4係圖解說明使用自輸入項擷取之NENW來進行拼字 杈正之程序400之一流程圖。在4〇5處,程序4〇〇接收一原 始輸入項(ΟΙΕ),該原始輸入項可係(例如)一使用G〇0gle搜 尋引擎之搜尋查詢。在410中,程序4〇〇在原始輸入項中產 生可能的NENW。在415處,程序400將可能的NENW與一 • 正準NENW資料庫進行比較,該資料庫可係(例如)圖3中所 示資料庫340。 在420處,程序4〇〇確定可能的NENW是否類似於正準資 料庫中之NENW。在一個實施方案中,該相似性量測可經 組態以為-預定數目之文字子_ (例如,字符)留有編輯間 距。舉例而言,假設一正準實體為"超級女聲",且一些使 用者在輸入項中替代地錄入,,超級女生"。則在此情形下, 程序400可準備對該文字串中之所有四個字符進行相似性 擊 量測。 若可能的姓名實體/新字不類似於正準資料庫中之任一 NENW,則在425處,程序4〇〇不實施任何拼字校正。舉例 而言,若可能的姓名實體/新字為中文片語"高年級女生,,, 則在與資料庫中之正準實體"超級女生"進行比較後不會執 行任何拼字校正。然而,若可能的姓名實體/新字類似於 正準資料庫中2NENW,則在43〇處,程序4〇〇確定可能的 姓名實體/新字是否不同於該資料庫中之任—正準刪w。 135230.doc •21 _ 201015348 若沒有不同,則在425處,程序400不實施任何拼字校正, 此乃因可能的姓名實體/新字已經包含在正準NENW資料庫 中且因此其已具有一正確拼字。 然而,若可能的姓名實體/新字與正準NENW資料庫類似 但不相同,則在435處,程序4〇〇可藉由用自資料庫獲得之 類似正準姓名實體/新字來替換可能的姓名實體/新字來產 生替代輸入項(AIE)之一替代文字串。在44〇處,程序4〇〇 確定AIE在搜尋查詢中是否比〇IE更有可能出現。舉例而 • 言,根據來自使用者輸入資料之統計,査詢"超級女聲預 赛之可能性可比"超級女生預赛"之可能性高一個量級。 若不是,則在425處,程序400不實施任何拼字校正。另一 方面,若AIE比〇IE更有可能出現,則在料5處,程序4〇〇 接受拼字校正。在450處,程序400將AIE作為對搜尋查詢 中拼字校正之一建議提供給AIE。 圖5係可用於(例如)實施系統1〇〇之計算裝置及系統 ❹ 500、550之一方塊圖。計算裝置5〇〇意欲表示各種形式之 餘電腦’例如:膝上型電腦、桌上型電腦、卫作站、個 人數位助理、伺服器、刀鋒式伺服器、主機及其他適當電 腦。計算裝置550意欲表示各種形式之行動裝置,例如個 人數位助理、蜂巢式電話、智慧型電話及其他類似計算裝 置。此處顯示之組件、其聯繫及關係以及其功能一定僅為 例不性,且不會限定本文中所閣述及/或請求之本發明實 施方案。 汁算裝置5〇〇包含:處理器5〇2、記憶體5〇4、儲存裝置 135230.doc -22- 201015348 5 06、連接至記憶體504及高速擴充槔51〇之高速介面508及 連接至低速匯流排514及储存裝置506之低速介面512。組 件502、504、506、508、51〇及512中之每一者使用各種匯 流排相互連接,且可以其他方式適當地安裝於一共同母板 上。處理器502可處理用於在計算裝置5〇〇内執行之指令, 其中包含儲存於記憶體5〇4中或儲存裝置5〇6上以將一Gm 之圖形資訊顯示於一外部輸入/輸出裝置(例如耦合至高速 ❹ 介面5 08之顯不器516)上之指令。在其他實施方案中多 個處理器及/或多個匯流排可連同多個記憶體及多種類型 之記憶體-起適當地使用。同樣,多個計算裝置可連 接在起,其中每一裝置提供必要操作之若+ ⑼ 如,作為-飼服器組、-刀鋒式飼服器群組或一多處理器 系統)。 ^憶體5G4將資訊儲存於計算裝置5⑽卜在—個實施方 :心=4係一電腦可讀媒體。在-個實施方案 施方;:係一(或多個)揮發性記憶想單元。在另一實 係一(或多個)非揮發性記憶體單元。 =5。6能夠為計算裝置5。。提供大容㈣存。在一 不同實施方案中,儲電腦可讀媒體。在各種 ^ w 、 可係—軟磁碟裝置、一硬 磁碟裝置、-光碟裝置 U 硬 其他類似固態記憶體裝:置、-快閃記憶體或 存區域網路中之裝置或其他::裝;陣列,其中包含-儲 電腦程式產品有形包含於二個實施方案中,- ㈣戟體_。該電腦程式產品 135230.doc -23- 201015348 含有當執行時可實施諸如±文所_之—個或〜個以上方 法之指令。該資訊載體係一電腦可讀媒體或機器可讀媒 體,例如記憶體504、儲存裝置5〇6、處理器5〇2上之記憶 體或一經傳播信號。 高速控制器5〇8管理計算裝置5〇〇之頻寬密集型運作而 低速控制器512管理較低頻寬密集型運作。此任務分配僅 為例示性。在一個實施方案中,高速控制器508耦合至記 隐體504顯不器516(例如,藉由一圖形處理器或加速器) 且轉合至可接受各種擴充卡(未顯示)之高速擴充埠51〇。在
該實施方案中,低速控制器512搞合至储存裝置·及低速 擴充埠514。可包含各種通信琿(例如,USB、藍牙、乙太 網路、無、線乙太網路)之低速擴充埠可(例如,藉由一網路 配接器)耦合至一個或一個以上輸入/輸出裝置,例如,一 鍵盤 扣向裝置、一掃描機或一諸如一交換機或路由器 之網路連結裝置。 如圖所示,可以若干不同形式來實施計算裝置5 〇〇。舉 例而言,可將其實施為一標準伺服器52〇或在此類伺服器 之一群組中多次實施β還可將其實施為機架式伺服器系統 524之郤刀。另外,還可將其實施於一諸如膝上型電腦 522之個人電腦中。另一選擇係,來自計算裝置5〇〇之組件 可與一諸如裝置550之行動裝置(未顯示)中之其他組件結 合。此類裝置中之每一者皆含有一個或一個以上計算裝置 500、550,且整個一系統可由彼此通信之多個計算裝置 500、550構成。 135230.doc -24- 201015348 計算裝置550包含:處理器552、記憶體、諸如顯示 器554之輸入/輸出裝置、通信介面566、收發器,以及 其他組件。裝置550還可配備有一用於提供額外儲存之儲 存裝置,例如一微驅動器或其他裝置。組件55〇、552、 564、554、566及568中之每一者使用各種匯流排相互連 接,且該等組件中之數個組件可安裝於一共同母板上或以 • 其他方式適當安裝》 處理器552可處理用於在計算裝置55〇内執行之指令,其 • 中包含儲存於記憶體564中之指令。該處理器還可包含單 獨的類比及數位處理器。該處理器可提供(例如)對裝置55〇 之其他組件之協調,例如對裝置55〇所運行之使用者介 面、應用程式之控制及裝置55〇所進行之無線通信。 處理器552可藉由搞合至顯示器554之控制介面558及顯 不介面556與一使用者通信。舉例而,顯#器可係一 TFT LCD顯示器或一0LED顯示器,或其他適當顯示技術。顯 癱 示介面556可包括用於驅動顯示器554來向一使用者呈現圖 形及其他資訊之適當電路。控制介面558可接收來自一使 用者之命令並轉換該等命令以提交至處理器Μ〗。另外, • 外部介面562可經提供以與處理器552通信,以使得裝置 . 旎夠與其他裝置進行近場通信。外部介面562可提供 (舉例而言)有線通信(例如,經由一入塢程序)或無線通信 (例如’經由藍牙或其他此類技術)。 圮憶體564將資訊儲存於計算裝置55〇内。在一個實施方 案中,記憶體564係一電腦可讀媒體。在一個實施方案 135230.doc -25- 201015348 中,記憶體564係一(或多個)揮發性記憶體單元。在另一實 施方案甲,記憶體564係一(或多個)非揮發性記憶體單元。 還可提供擴充記憶體554並藉由擴充介面552(舉例而言, 其可包含一 SIMM卡介面)將其連接至裝置55〇。此擴充記 憶體574可為裝置550提供額外儲存空間,或亦可為裝置 550儲存應用程式或其他資訊。具體而言,擴充記憶體⑺ 可包含可執行或補充上文所闡述程序之指令,且還可包含 安全資訊。因此,舉例而言,可將擴充記憶體574提供為 ❿ 裝置55G之—安全模組,且可用准許安全使用裝置55〇之指 令來將其程式化。另外,可經由該等SIMM卡連同額外資 訊來提供安全應用程式,例如以一不易被黑客攻擊之方式 將識別資訊置於SIMM卡上。 舉例而言,該記憶體可包含快閃記憶體及/或mram記 憶體,如下文將論述。在一個實施方案中,一電腦程式產 品有形包含於一資訊載體中。該電腦程式產品含有在執行 時可實施諸如以上所闡述之一個或一個以上方法之指令。 籲 #資訊載體係-電腦可讀媒體或-機器可讀媒體,例如, 記憶體564、擴充記憶體574、處理器552上之記憶體或一 , 經傳播信號。 • 裝置550可藉由通信介面566以無線方式通信’該通信介 面必要時可包含數位信號處理電路。通信介面566可提供 各種模式或協定下之通信,例如:GSM話音呼叫、SMS、 EMS 或 MMS 傳訊、CDMA、TDMA、pDC、WCDMA、 CDMA2000或GPRS,以及其他模式或協定。舉例而言’此 135230.doc • 26 - 201015348 通信可藉由射頻收發器568來進行。另外,可(例如)藉由使 用一藍牙、WiFi或其他此類收發器(未顯示)來進行短程通 信。另外,GPS接收器模組570可向裝置55〇提供額外的無 線資料,該等資料可由運行於裝置55〇上之應用程式適當 地使用。 裝置550還可使用聲訊編解碼器56〇以有形方式通信該 聲訊編解碼器可接收來自—使用者之口說資訊並將其轉換 為可用數位資訊。類似地,聲訊編解碼器56〇可為一使用 者產生可聞聲音,例如藉由(例如)裝置55〇之一手持機中之 -揚聲器來產生。此類聲音可包含來自話音電話呼叫之聲 音’可包含經錄製聲音(例如’話音訊息、音樂槽案等), 且還可包含由操作於裝置550上之應用程式產生之聲音。 如圖所示,可以若干不同形式來實施計算裝置乃卜舉 例而s,可將其實施為蜂巢式電話58〇。還可將其實施為 智慧型電話582、個人數位助理或其他類似行動裝置之一
在適當時’本制書巾述之线及功驗操作可實 :於數位電子電路中,或實施於電腦軟體、_或硬體 ,其中包含本說明書中所揭示之結構構件及其結構等效 物,或實施於其組合I可將料技術實施為 :上電腦程式產品,亦即有形包含於一資訊載體中:二固 t個以上電腦程式’例如包含於-機器可讀儲存裝置或 備(Hi播㈣中^供資料處理設備執行或控制資料處理設 ,一可程式化處理器、-電腦或多個電腦)之運 135230,c[qc •27· 201015348 作。可以任何形式之程式化語 為-程式、軟體、硬體應用程式或程二電(亦稱 譯語言或解譯語言,且可將該電腦程式成=中包含編 其中包含部署為一獨立程式或 成任何形式, V七、态人m 兩模組、組件、次堂 式或適,用於-計算環境之其他單元。一常 定斜鹿热' rt» 物程式未必一 ㈣。可將—程式儲存於—保存其 科之㈣之-部分中、储存於專用於所討論 1 個槽案中或儲存於多個協調式播案(例如,储存:::單 T以上模組、子程式或部分程式碼之㈣)中…腦: 執仃於一個電腦上或位於同-地點之多個雷 腦上或分佈於多個地點並由—通信網路相互連接。 、本說明書中所閣述之程序及邏輯流可由執行-個或一個 以上電腦程式之-個或一個以上可程式化處理器來實施以 藉由對輸人資料進行運作並產生輸出來實施所闡述之功 能°該等程序及邏輯流還可由專用邏輯電路(例如,一 FPGA(場可程式化閘陣列)或—asic(專用積體電路))來執 行,且可將設備實施為專用邏輯電路。 舉例而言’適於執行一電腦程式之處理器可包含通用及 專用微處理器兩者’以及任一種類之數位電腦之任何一個 或一個以上處理器。一般而言,該處理器將自—唯讀記憶 體或一隨機存取記憶體或該兩者接收指令及資料。—電腦 之基本7L件係用於執行指令之一處理器及用於儲存指令及 資料之一個或一個以上記憶體裝置。一般而言,—電腦還 將包含用於儲存資料之一冑或一㈣以上A容量儲存裝置 135230.doc -28· 201015348 I例如’磁碟、磁光碟或光碟)或以經可運作方式麵合以自 i等大谷量儲存裝置接收資料或向其傳送資料或既接收又 專送-貝料。適合包含電腦程式指令及資料之資訊載體包含 所有形式之非揮發性記憶體,舉例而言,其中包含·半導 體記憶體裝置,例如EPROM、EEPR〇M及快閃記憶體裝 置;磁碟,例如内部硬磁碟及可抽換式磁碟;磁光碟;及 dR0M及DVD_R〇M光碟。該處理器及記憶體可由專用 邏輯電路補充或併入專用邏輯電路中。 | ^提供與__❹者之互動’所闡述技術之各態樣可實施 於一具有用於向該使用者顯示資訊之一顯示裝置(例如, -CRT(陰極射線管)或LCD(液晶顯示器)監視器)及可由使 用者用來向電腦提供輸入之一鍵盤及一指向裝置(例如, 一滑鼠或一軌跡球)之電腦上。亦可使用其他種類之裝置 來提供與使用者之互動,舉例而言,提供給使用者之反饋 可係任何形式之感觀反饋,例如,視覺反饋、聽覺反館或 觸覺反饋;且來自使用者之輸入可以任何形式來接收,其 中包含聲音、語音或觸覺輸入。 該等技術可實施於包含一後端組件之計算系統(例如, -資料伺服器)或包含一中間件組件之計算系統(例如,一 應用程式飼服器)或包含-前端組件之計算系統(例如,具 有使用者可藉以與此後端、中間件或前端組件之一實施例 或任一組合互動之一圖形使用者介面或一 Web瀏覽器之一 用戶端電腦)。該系統之各組件可藉由任何形式或途徑(例 如一通信網路)之數位資料通信來相互連接。通信網路之 135230.doc •29· 201015348 實例包含一區域網路("LAN")及一廣域網路("WAN"),例如 網際網路》 該計算系統可包含用戶端及伺服 般彼此遠離且通常藉由一通信網路來互動。用戶端與飼服 器之間的關係係藉助運行於相應電腦上且彼此之間具有一 用戶端··伺服器關係之若干電腦程式而產生。 ❹ ❹ 本文已闡述若干實施方案。然而,應瞭解,可作出各種 修改而不背離所闡述實施方案之精神及範疇。舉例而言, 申請專利範圍中所引用之動作可以一不同次序來執行且仍 可達成合意之結果。另外,該系統及方法可實施於一伺服 器地點上(例如一搜尋引擎上)或可實施於一諸如電腦之用 戶端地點上(例如下載),以用諸如一搜尋引擎之一遙遠伺 服器來提供對一文檔或介面中之文字串之拼字校正。 此外,該用戶端機器及該伺服器可實施於同一機器中 例如當使用者在其自己的機器上執行—桌面搜尋時。’ 此外,如上所述,該系統及方法可實施於非羅馬纽士 (例如,㈣語言)輸入法編輯器中。可使用所辨識之^ 實體/新字列表來提供對-輸人字序列中之下—字符广名 建議。舉例而t,假設片語”超級女聲"及,,超級女生,:= 皆已被辨識為該姓名實體/新字資料 雨者 文輸入法編輯器中,當使用者已 中 a。埏入前二個字符, 時,該編輯器可自動地提供一建議M 、女 字符。藉此方式,使用者來用作下一 π丨至J视選所期望 不必一定手動地鍵入下一字符 者且 字符目此,其他實施方案亦歸 135230.doc 201015348 屬於以下申請專利範圍之範疇内。 【圖式簡單說明】 現在將參照以下圖式詳細閣述此等及其他態樣。 圖1係可藉由自輸人項辨識咖w來產生―資料庫之一 系統之一概念圖。 圖2A顯示輸入項中之各種候選nenw。 圖2B顯示一列候選NENW及其來自圖2 A之輸入項之相關 聯出現率/計數。 • ® 2C顯示一列候選NENW及其來自圖仏之輸入項之相關 聯正規化計數。 圖3係圖解說明自輸入項辨識姓名實體/新字之一程序之 一流程圖。 圖4係圖解說明使用自輸入項所辨識之姓名實體/新字來 進行拼字校正之一程序之一流程圖。 圖5係計算裝置及系統之一方塊圖。 在各圖式中’相同之參考符號指示相同之元件。 ^ 【主要元件符號說明】 100 系統 110 輸入項 120 NENW辨識 130 資料庫 205 分段 210 候選姓名實體/新字 215 候選姓名實體/新字 135230.doc - 31 - 201015348 參 220 分段 225 分段 230 候選姓名實體/新字 235 候選姓名實體/新字 245 分段 250 候選姓名實體/新字 255 分段 260 候選姓名實體/新字 265 候選姓名實體/新字 500 計算裝置 502 處理器 504 記憶體 506 儲存裝置 508 高速介面/高速控制器 510 高速擴充埠 512 低速介面/低速控制器 514 低速擴充埠 516 顯示器 520 標準伺服器 522 膝上型電腦 524 機架式伺服器系統 550 計算裝置 552 處理器 554 顯示器 135230.doc .32· 201015348 556 558 560 562 564 566 568 570 φ 574 580 582 顯示介面 控制介面 聲訊編解碼器 外部介面 記憶體 通信介面 收發器 GPS接收器模組 擴充記憶體 蜂巢式電話 智慧型電話 135230.doc -33-

Claims (1)

  1. 201015348 十、申請專利範面: 1. 一種由電腦實施之方法, 丹岜括: 接收-包括一文字串之輪入項; 自該輸入項識別分段資訊及 基於該分段資訊,自該 文字串。 項之該文字串產生一候選 2. 如請求項1之方法,進一步包括·· 當該分段資訊不可用眭 ❹ 字串相關聯。 ’該整個文字串與該候選文 3·如請求項2之方法,進—步包括: 為該候選文字串產生一正規化計數;及 將該候選文字串與一辭典比較。 4_如:求項3之方法,進-步包括: ❹ 將該候選選文字串尚未储存於該辭典中時, “請求二r二資:::作為-… 將該候選文字串與該資料庫比較; ΐ::Γι確定該候選文字串是否被錯誤拼字;及 6_如請求们之文方子法串被錯誤拼字時,產生一替代文字串。 擎之使用者查,,其用中該輸入項包括一用於-搜尋弓丨 入法編輯器之-使用者輸人時傳款腳本,或用於1 7二:二Γ之方法,其中該文字串包括非羅馬語言之一 丨岡4個以上之字。 乂 I35230.doc 201015348 8 ·如請求j 之方法’其中該分段資訊包括一使用者產生 之分段,姑 孩为段可用於在該文字串中之字或片語之間進 行區別。 9. 如請灰馆, 項1之方法,其中該候選文字串包括一個或一個 以上之姓名實體或新字。 10·如:求項3之方法’其中該辭典包括—專有名詞辭典。 11.如请求項7之方法,其中該非羅馬語言係中文、曰文或 韓文語言。 a长項8之方法’其中該使用者產生之分段包括一空 格:二標記、一引號、一括弧或一標點符號。 13_如請求項9之方法,其中 再甲該等姓名實體包括成語、諺語 及民族、組織或地方之名稱。 14. 如請求項9之方法,其中 具中該新予包括當前尚未納入辭典 中之字。 15. :2括一儲存於一電腦可讀媒體上之電腦程式產品之 ❹ :裝置’該所儲存電腦程式產品包含使該計算裝置執 订包括以下功能之可執行指令: 接收一包括一文字串之輸入項; 自該輸入項識別分段資訊;及 基於該分段資訊,自咭銓λτ5 令一虫 自該輸入項之該文字串產生一候選 又子串。 16. 如請求項15之計算裝置,1 ^ . . .. _ χ 中該所儲存電腦程式產品進 一步包s使該計算裝置執行包 ^ . W下功能之可執行指 I35230.doc 201015348 當該分段資訊不可用時,俅敕 使整個文字串與該候選文字 串相關聯。 17·如請求項16之計算裝置,其 、中該所儲存電腦程式產品進 一步包含使該計算裝置執杆 八. 置轨仃包括以下功能之可執行指 令· 為該候選文字串產生一正規化計數;及 將該候選文字串與一辭典比較。 18.如請求項17之計算裝置, 具中°亥所儲存電腦程式產品進 =步包含使該計算裝置執行包括以下功能之可執行指 較確定該㈣文字串尚未储存於該辭典中時, 將該候選文字串儲存於__資料料作為—正準文 19.如請求項18之計算裝 T异裒置其中該所儲存電腦程式產 一步包含使該計算裝置執行勺 進 令: 置執仃包括以下功能之可執行指 將5亥候選文字串與該資料庫比較; X比較,確疋該候選文字串是否被錯誤拼字 虽該候選文字串被錯誤拼字時,產 2〇. 一種系統,其包括: 管代文予串。 串,’項,、且件,其經組態以允許一使用者鍵入一文字 產生構件,用於自該輸入文字串產生一候選 -資料庫’其經組態以: ,及 確疋該候選文字串是否已在該資料庫中;及 135230.doc 201015348 ,將該候 當該候選文字串尚未儲存於該資料庫中 選文字串儲存於該資料庫中。
    135230.doc
TW097139051A 2007-06-01 2008-10-09 Detecting name entities and new words TW201015348A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2007/001755 WO2008144964A1 (en) 2007-06-01 2007-06-01 Detecting name entities and new words

Publications (1)

Publication Number Publication Date
TW201015348A true TW201015348A (en) 2010-04-16

Family

ID=40074547

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097139051A TW201015348A (en) 2007-06-01 2008-10-09 Detecting name entities and new words

Country Status (5)

Country Link
US (1) US20100180199A1 (zh)
KR (1) KR20100029221A (zh)
CN (1) CN101815996A (zh)
TW (1) TW201015348A (zh)
WO (1) WO2008144964A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983902B2 (en) * 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US8091023B2 (en) * 2007-09-28 2012-01-03 Research In Motion Limited Handheld electronic device and associated method enabling spell checking in a text disambiguation environment
US8478787B2 (en) * 2007-12-06 2013-07-02 Google Inc. Name detection
US8214346B2 (en) 2008-06-27 2012-07-03 Cbs Interactive Inc. Personalization engine for classifying unstructured documents
US9009591B2 (en) 2008-12-11 2015-04-14 Microsoft Corporation User-specified phrase input learning
CN101901235B (zh) 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和系统
KR101638442B1 (ko) * 2009-11-24 2016-07-12 한국전자통신연구원 중국어 구문 분절 방법 및 장치
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8402032B1 (en) 2010-03-25 2013-03-19 Google Inc. Generating context-based spell corrections of entity names
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US8438011B2 (en) 2010-11-30 2013-05-07 Microsoft Corporation Suggesting spelling corrections for personal names
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US8630989B2 (en) 2011-05-27 2014-01-14 International Business Machines Corporation Systems and methods for information extraction using contextual pattern discovery
US10176168B2 (en) * 2011-11-15 2019-01-08 Microsoft Technology Licensing, Llc Statistical machine translation based search query spelling correction
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) * 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
CN103678336B (zh) * 2012-09-05 2017-04-12 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN102929862B (zh) * 2012-11-06 2015-06-10 深圳市宜搜科技发展有限公司 一种新词获取方法及系统
CN103870449B (zh) * 2012-12-10 2018-06-12 百度国际科技(深圳)有限公司 在线自动挖掘新词的方法及电子装置
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996353B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996355B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US8990068B2 (en) 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
WO2015018055A1 (en) 2013-08-09 2015-02-12 Microsoft Corporation Input method editor providing language assistance
US20150317393A1 (en) * 2014-04-30 2015-11-05 Cerner Innovation, Inc. Patient search with common name data store
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
JP6897168B2 (ja) * 2017-03-06 2021-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11586810B2 (en) * 2017-06-26 2023-02-21 Microsoft Technology Licensing, Llc Generating responses in automated chatting
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
US11042580B2 (en) * 2018-12-30 2021-06-22 Paypal, Inc. Identifying false positives between matched words
JP7139271B2 (ja) * 2019-03-20 2022-09-20 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020240578A1 (en) * 2019-05-24 2020-12-03 Venkatesa Krishnamoorthy Method and device for inputting text on a keyboard
US11393455B2 (en) 2020-02-28 2022-07-19 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11574127B2 (en) 2020-02-28 2023-02-07 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11392771B2 (en) 2020-02-28 2022-07-19 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11626103B2 (en) * 2020-02-28 2023-04-11 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
CN112861534B (zh) * 2021-01-18 2023-07-21 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count
US6640006B2 (en) * 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
CN1226717C (zh) * 2000-08-30 2005-11-09 国际商业机器公司 自动新词提取方法和系统
US7076731B2 (en) * 2001-06-02 2006-07-11 Microsoft Corporation Spelling correction system and method for phrasal strings using dictionary looping
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
CN100555276C (zh) * 2004-01-15 2009-10-28 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测系统
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US20070067157A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation System and method for automatically extracting interesting phrases in a large dynamic corpus
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和系统

Also Published As

Publication number Publication date
WO2008144964A8 (en) 2009-02-12
KR20100029221A (ko) 2010-03-16
CN101815996A (zh) 2010-08-25
US20100180199A1 (en) 2010-07-15
WO2008144964A1 (en) 2008-12-04

Similar Documents

Publication Publication Date Title
TW201015348A (en) Detecting name entities and new words
US10140371B2 (en) Providing multi-lingual searching of mono-lingual content
US9026426B2 (en) Input method editor
JP5608766B2 (ja) ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
US8386237B2 (en) Automatic correction of user input based on dictionary
US20160371250A1 (en) Text suggestion using a predictive grammar model
US20060048055A1 (en) Fault-tolerant romanized input method for non-roman characters
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JP2003527676A (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
KR20080085165A (ko) 입력 데이터 확장 시스템 및 방법, 및 와일드카드 삽입 및입력 데이터 확장 시스템
JP2017004127A (ja) テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP2000298667A (ja) 構文情報による漢字変換装置
JP2010134922A (ja) 類似語決定方法およびシステム
Shi et al. Effidit: Your ai writing assistant
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
Celikkaya et al. A mobile assistant for Turkish
Mon Spell checker for Myanmar language
Shi Automatic construction of a dictionary of variant forms of Chinese characters
WO2020263538A1 (en) Writing assistance for electronic documents
JP2020052819A (ja) 情報処理装置、情報処理方法及びプログラム
JP5302922B2 (ja) 自然言語解析装置、方法及びプログラム
JPH07319864A (ja) かな漢字変換装置
JP2011129159A (ja) 日本語の単字入力を支援する機能を提供する方法及びシステム