TWI536181B - 在多語文本中的語言識別 - Google Patents

在多語文本中的語言識別 Download PDF

Info

Publication number
TWI536181B
TWI536181B TW100133247A TW100133247A TWI536181B TW I536181 B TWI536181 B TW I536181B TW 100133247 A TW100133247 A TW 100133247A TW 100133247 A TW100133247 A TW 100133247A TW I536181 B TWI536181 B TW I536181B
Authority
TW
Taiwan
Prior art keywords
language
file
segments
computer
score
Prior art date
Application number
TW100133247A
Other languages
English (en)
Other versions
TW201217996A (en
Inventor
李康
克勞德史蒂芬亞倫
強森伊恩喬治
阿洛尼喬希爾海
Original Assignee
微軟技術授權有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 微軟技術授權有限責任公司 filed Critical 微軟技術授權有限責任公司
Publication of TW201217996A publication Critical patent/TW201217996A/zh
Application granted granted Critical
Publication of TWI536181B publication Critical patent/TWI536181B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Description

在多語文本中的語言識別
本發明係關於在多語文本中的語言識別。
通常,決定呈現於文件(例如,網頁)中之若干種語言中之何種語言為主語言為有用的或必要的。此類文件稱作多語文件。此決定有助於識別網頁與特定查詢之關聯性。自動語言偵測系統之任務為識別組成文件之主語言(及額外語言,若存在的話)。搜尋引擎將文件之語言組成用作決定文件與查詢相關程度之一個因素。一些現存系統經設計,以除了輸出主語言之外,亦輸出按可信度排序之語言列表,但現存系統可能無法指明在文件中實際呈現的是該等語言中之何種語言。
該等限制降低了對多語文件之語言偵測之有效性,因為該等限制可能會導致不正確的斷詞(word-break)。斷詞工具(word-breaker)藉由基於語言之語言規則決定字邊界存在的位置,來識別給定語言之個別單字。特定於某種語言之斷詞工具允許所得術語對該語言而言更準確。在多語文件中,決定主語言,隨後通常將該主語言之斷詞工具應用於整個文件。此舉會導致將該文件之大部分非主語言部分不適當斷詞。
在決定文件之主語言時,在習知技術中,以同樣方法處理文件之所有部分,從而會導致其他限制。然而,實際上,文件之某些部分比文件之其他部分更重要或更具資訊性(informative)。例如,版權聲明對文件而言通常比標題在整體上具有更少資訊性。為文件之該等不同部分提供相同權重可能會導致不適當地指派主語言,尤其在較短的文本中。
本發明之實施例由下述申請專利範圍所定義。提供各種實施例之高階綜述,以引入系統、方法及媒體之發明內容,在下述實施方式之部分中進一步描述該等系統、方法及媒體。此發明內容並非意欲識別所主張標的之關鍵特徵或必要特徵,亦並非意欲用作單獨輔助決定所主張標的之範疇。
描述了用於識別多語文本中之語言之系統、方法及電腦可讀取儲存媒體。該等系統、方法及電腦可讀取儲存媒體用以將文件解碼成通用代表性編碼,以更易於標記操縱,且用以將明文內容分成區段。識別該等區段且為該等區段指派權重,其中為較多資訊之區段提供較高權重,而為較少資訊之區段提供較低權重。另外,決定每一區段之語言,以使不同斷詞工具可用以將以不同語言寫成的文本符記化(tokenize)。
將文件分成區段,及將該等區段分類成不同類型,可更好地決定文件之主語言。此舉可藉由以下方式實施:藉由使用區段中之每一單字、片語或字元n元語法之語言相似度得分。在本文中將n元語法定義為任意短的一連串字元,諸如1至5個字元。單字可包含:多個n元語法。為每一種語言組合區段內之語言相似度得分。隨後,將該等經組合之區段得分總計在一起,以獲得針對每一種語言之總文件得分。此舉會產生每一種語言之文件得分,該文件得分可經排序以決定該文件之主語言。亦可藉由利用分段及分類來識別文件語言之組合及文件語言間之邊界。此舉亦增加了多語文件之改良索引系統。
本發明之實施例提供用於識別多語文本文件中之語言之系統、方法及電腦可讀取儲存媒體。此實施方式及以下申請專利範圍滿足可適用之法定要求。
可在本文中使用「步驟」、「方塊」等術語,以暗示所方法採用之不同動作,但不應將該等術語詮釋為意味著任何特定次序,除非明確描述了個別步驟、方塊等之次序。同樣地,可在本文中使用「模組」等術語,以暗示系統所採用之不同部件,但不應將該等術語詮釋為意味著任何特定次序,除非明確描述了個別模組等之次序。
本發明之實施例包括(但不限於):方法、系統及電腦可執行指令集,該等方法、系統及電腦可執行指令集實施於一或更多電腦可讀取媒體上。電腦可讀取媒體包括:揮發性媒體及非揮發性媒體兩者、可移除媒體及不可移除媒體兩者以及可由資料庫及各種其他網路裝置讀取之媒體。舉例而言,電腦可讀取儲存媒體包含(但並非限制於):以用於儲存資訊之任何方法或技術來實施之媒體。經儲存資訊之實例包括:電腦可用指令、資料結構、程式模組及其他資料表示法。媒體實例包括(但不限於):資訊傳遞媒體、隨機存取記憶體(random access memory;RAM)、唯讀記憶體(read-only memory;ROM)、電子可抹除可程式化唯讀記憶體(electrically erasable programmable read-only memory;EEPROM)、快閃記憶體或其他記憶體技術、光碟唯讀記憶體(compact-disc read-only memory;CD-ROM)、數位多功能光碟(digital versatile disc;DVD)、藍光光碟、全像媒體或其他光碟儲存器、磁帶盒、磁帶、磁碟儲存器及其他磁性儲存裝置。媒體之該等實例可經配置以瞬時地、臨時地或永久地儲存資料。電腦可讀取媒體包括:合作或互連電腦可讀取媒體,該等電腦可讀取媒體唯一地存在於處理系統上或分佈於多個互連處理系統間,該等電腦可讀取媒體可位於處理系統之本端或遠端。
可在電腦代碼或機器可用指令之一般語境中描述本發明之實施例,該等電腦代碼或機器可用指令包括:諸如程式模組之電腦可執行指令,該等指令由計算系統或其他一或更多機器執行。通常,程式模組代表執行特定任務或實施特定資料類型之代碼,該等程式模組包括:常式、程式、物件、部件、資料結構等。可使用各種系統配置來實施本文所述之實施例,該等系統配置包括:手持式裝置、家用電子產品、一般用途電腦、較專用計算裝置等。亦可在分散式計算環境中使用遠端處理裝置實施本文所述之實施例,該等遠端處理裝置經由通訊網路(諸如,網際網路)鏈接。
在一些實施例中,描述了用於識別文件中多語文本語言之電腦實施系統。該電腦實施系統包含:碼頁(code-page)轉換部件,以識別由文件使用之字元編碼。碼頁轉換部件亦經由計算系統之處理器將文件解碼成通用代表性編碼。分段及分類部件將文件之明文內容分成一或更多經加權之區段。語言計分部件獲得一或更多經加權之區段中每一單字、片語或字元n元語法之語言相似度得分。語言計分部件根據語言種類(category)組合所獲得的語言相似度得分。輸出語言選擇部件自最高經組合之語言相似度得分,選擇文件之主語言。輸出語言選擇部件在需要時亦決定呈現於文件中之額外語言。
在其他實施例中,描述了使用計算系統來識別文件中之多語文本之電腦實施方法。隔離文件中之明文內容之一或更多區域。根據語義種類及語法種類,將明文內容分成區段。指派權重給該等區段中之每一者。為該等區段中之每一者中之每一單字、片語或字元n元語法,計算語言相似度得分。為每一種語言之該等區段中之每一者計算經組合之語言相似度得分。將自計算之排序最高之語言輸出為文件之主語言。在另一個實施例中,一或更多電腦可讀取儲存媒體含有:電腦可讀取指令,該等電腦可讀取指令實施於該一或更多電腦可讀取儲存媒體上,當該等電腦可讀取指令由計算裝置執行時,該等電腦可讀取指令執行如上所述識別文件中之多語文本語言之方法。
在其他實施例中,一或更多電腦可讀取儲存媒體含有電腦可讀取指令,該等電腦可讀取指令實施於該一或更多電腦可讀取儲存媒體上,當該等電腦可讀取指令由計算裝置執行時,該等電腦可讀取指令執行如上所述選擇多語文件之主語言之方法。將文件之明文內容分成一或更多經加權之文句(script)區段。為經加權之文句區段中之每一者之每一單字、片語或字元n元語法決定相似度得分,該單字、片語或字元n元語法屬於一或更多語言。針對每一種個別語言,將來自區段中之每一單字、片語或字元n元語法之所有相似度得分總計在一起。此舉產生針對每一種語言之一或更多區段語言總和。為每一種個別語言組合所有區段語言總和,從而產生針對每一種個別語言之文件得分。將所有文件得分排序,且自最高文件得分選擇主文件語言。
在本文已簡要描述實施例之總體綜述之後,下文描述示例性計算系統。首先參考第1圖,圖示用於實施本發明之實施例的示例性操作環境,且將該操作環境大體指定為計算裝置100。計算裝置100僅為合適計算系統之一個實例,而並非意欲暗示對本發明之實施例之使用或功能性範疇的任何限制。亦不應將計算裝置100詮釋為具有關於所圖示部件之任一者或任何組合之任何依賴性或要求。在一個實施例中,計算裝置100為習知電腦(例如,個人電腦或膝上型電腦)。本發明之實施例亦適用於複數個互連計算裝置,諸如計算裝置100(例如,無線電話、個人數位助理或其他手持式裝置)。
計算裝置100包括:匯流排110,匯流排110直接或間接地耦接以下裝置:記憶體112、一或更多處理器114、一或更多呈現部件116、輸入/輸出(I/O)埠118、輸入/輸出部件120及闡釋性電源供應器122。匯流排110表示一或更多匯流排之種類(諸如,位址匯流排、資料匯流排或上述組合)。儘管為了清晰起見,用線圖示第1圖之各種方塊,但實際上描繪各種部件並非如此清晰,且比喻地說,該等線將更準確地為灰暗且模糊的。例如,吾人可將呈現部件116(諸如,顯示裝置)視為I/O部件120。又,處理器114具有記憶體112。本發明領域中具有通常知識者將理解,此為此項技術之本質,且如先前所提及的,第1圖之圖式僅圖示示例性計算裝置,可結合本發明之一或多個實施例使用該計算裝置。無需在諸如「工作站」、「伺服器」、「膝上型電腦」、「手持式裝置」等之種類間進行區別,因為上述種類全部涵蓋於第1圖之範疇,內且稱作「計算裝置」或「計算系統」。
計算裝置100可包括:各種電腦可讀取媒體。舉例而言,電腦可讀取媒體可包含(但並非限制於):RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CDROM、DVD或其他光學或全像媒體、磁帶盒、磁帶、磁碟儲存器或其他磁性儲存裝置,或者可經配置以儲存與本文所述之實施例有關的資料及/或指令之類似的有形媒體。
記憶體112包括:呈揮發性記憶體及/或非揮發性記憶體之形式之電腦儲存媒體。記憶體112可為可移除的、不可移除的或上述組合。示例性硬體裝置包括:固態記憶體、硬碟機、快取記憶體、光碟機等。計算裝置100包括:一或更多處理器114,該一或更多處理器114自各種實體(諸如,記憶體112或I/O部件120)讀取資料。呈現部件116向使用者或其他裝置呈現資料指示。示例性之呈現部件116包括:顯示裝置、揚聲器裝置、列印裝置、振動裝置,及其類似裝置。
I/O埠118將計算裝置100邏輯地耦接至包括I/O部件120之其他裝置,該等裝置中之一些裝置可為內建式裝置。闡釋性I/O部件120包括:麥克風、搖桿、遊戲板、圓盤式衛星電視天線、掃瞄器、列印機、無線裝置等。
關於計算裝置100之上述部件亦可包括於無線裝置中。如本文所述之無線裝置代表任何類型之無線電話、手持式裝置、個人數位助理(personal digital assistant;PDA)、BlackBerry、智慧手機、數位攝影機或其他無線通訊之行動裝置(除膝上型電腦以外)。本發明領域中具有通常知識者將瞭解,無線裝置將亦包括:執行各種功能之處理器及電腦儲存媒體。本文所述之實施例適用於計算裝置及無線裝置兩者。在實施例中,計算裝置亦可代表:執行應用程式之裝置,該應用程式之影像由無線裝置中攝影機所擷取。
上述計算系統經配置,以與用於識別文件中多語文本之若干個電腦實施方法、系統及媒體一起使用,在上文已大體描述識別文件中多語文本,且在下文將更詳細地描述。
第2圖為圖示用於識別文件(諸如,搜尋引擎索引中之網頁)中多語文本語言之電腦實施系統的方塊圖。搜尋可為使用互連計算系統(諸如,網際網路)之全球資訊網(World-Wide Web;WWW)搜尋。然而,本發明之實施例並不限於此實例,而實施例涵蓋使用其他方法及系統來搜尋文件。用於識別文件中多語文本之系統200含有:四個電腦實施部件。碼頁轉換部件210識別由文件(諸如,搜尋引擎索引中之網頁)使用之字元編碼。系統將文件之原始編碼解碼成通用編碼。作為僅用於闡釋性目的之實例,HTML文件可被解碼成萬國碼(Unicode),諸如UTF-8表示法。此舉為待由通用編碼識別之任何語言或文句中之單字或字元提供統一編碼。可藉由使用計算系統(諸如,上文參考第1圖所述之計算系統)之處理器來執行此解碼及編碼。分段及分類部件220隔離文件中之明文內容,且將該明文內容分成一或更多經加權之區段。例如,可藉由使用HTML標記及標點之HTML剖析(parse),來實施對明文內容之分割。可經由HTML剖析決定不同類型之文本及不同類別之區段。可基於區段之相關聯HTML標記、該等標記之屬性及語言性質(諸如,區段之鏈接密度及句子長度),來決定每一區段之各種種類。除標記及標點之外,文件內之實際文本、視覺外觀及文本配置(placement)(諸如,字型大小或樹狀結構)亦有助於將區段分類。本發明之實施例決定顯示頁面內之每一區段之x-y座標,以決定(例如)標頭段(頁面頂部)及註腳段(頁面底部)。其他結構文本可視為特定區段,諸如版權聲明。本發明之實施例亦提供細分分段。亦可根據每一區段內所使用之文句或寫入系統,而將每一區段分成片段(segment)。
除將區段分類之外,基於每一區段相對於整個文件之重要性,為每一區段指派特定權重。例如,與其他區段(諸如,版權或法律警示)相比,標題或某些文本標頭更為重要,且提供更多關於文件之資訊。因此,例如在決定主語言以指派給文件時,與版權聲明之語言相比,應提供更多權重給標題之語言。第3圖為圖示可應用於特定區段之不同權重之表。第3圖中所得表係基於訓練及測試組,該等組量測提供最佳結果(亦即,較高得分)之類別。然而,該等組僅圖示為示例性區段權重。其他權重及加權系統亦涵蓋於本發明之實施例內。當將文件分成不同區段以供個別處理時,每一區段亦使用加權系統來為文件之更重要區段提供較大權重。因此,第2圖之分段及分類部件220含有:多個工具,以提供文件之較佳語言指定。
使用參考第4圖及第5圖之實例圖示分段及分類部件220。第4圖為網路搜尋文件之實例,該網路搜尋文件含有:多個文句及多種語言。藉由使用如上所述之分段及分類部件220獲得結果,諸如第5圖中所圖示之結果。第4圖之單個文件已被分成區段,如第5圖中所圖示之「區段」主題下方所列舉的。隨後,將每一區段分類,諸如標頭、左側條及主要區塊,如「類別」主題下方所列舉的。諸如鏈接及下拉式列表之項目亦視為經分類區段。另外,每一分類區段具有相關聯區段之文句分類。「權重」主題下方之得分為每一分類區段及每一分類區段之相關聯文句之組合得分。
第2圖之語言得分部件230決定每一文句片段(或文句區段,在整個區段僅包含:一個文句之情況下)可對應之可能語言列表,且計算該等語言之相應得分。若文句片段對應於單個語言,則基於文句片段權重、預設單元得分及該片段所含有的單元數目來計算語言得分,如下文所描述的。藉由使用上述參考第3圖所述之區段權重,且亦藉由使用語言等級,來計算文句片段權重。本發明之實施例使用貝氏(Bayesian)理論,該理論假設特定文件語言之先驗機率(prior)相似度(在分析該文件之前)。例如,因為文件更有可能為英語,而非某一其他語言,所以英語具有高得分,。貝氏先驗機率決定為因素組合之函數,該等因素諸如語言在網路上之普及性、文件來源之國家、文件編碼所使用之碼頁(如上所述,參考碼轉換部件210)及文件之URL。當在文句片段中僅呈現一種語言時,將預指派之語言得分應用於預設單元得分。單元數目代表空格分離文句之單字數目,且單元數目代表無空格分離文句之字元數目。
當文句片段可能含有:多種語言時,則藉由查找相似度來計算語言得分,相似度諸如每一單字、片語或字元n元語法之對數相似度,該每一單字、片語或字元n元語法屬於字典中之每一種語言。字典含有:屬於一或更多種語言之每一單字之對數相似度。為每一種語言組合對數相似度得分,以獲得每一片段或區段內每一種語言之最終得分。
第6圖圖示用於自語言得分部件230獲得結果之程序。對第一語言(語言1)而言,組合區段1內每一單字之對數相似度得分(S1k),然後乘以S1k可適用之區段權重(w1),以獲得區段1=ΣS1kw1在k值範圍內之總和得分。對語言1而言,組合區段2內每一單字之對數相似度得分(S1k),然後乘以S1k可適用之區段權重(w2),以獲得區段2=ΣS1kw2在k值範圍內之總和得分。對語言1而言,組合任何剩餘區段n內每一單字之對數相似度得分(S1k),然後乘以S1k可適用之區段權重(wn),以獲得區段n=ΣS1kwn在k值範圍內之總和得分。藉由組合區段1至區段n之所有區段之總和得分來計算語言1之總文件得分(符號表示為D1),其中D1=ΣS 1k w 1→n (在k值範圍內)。進行相同過程,以決定呈現於文件中之任何其他語言j之總文件得分(Dj)。
第7圖為用於決定語言j之文件得分之簡要計算。第7圖之計算亦考慮了其他因素,諸如截止計數,其中僅保留具有截止計數以上之得分的單字,並除去小於截止計數之剩餘得分。
將所有文件得分D1至Dm按得分值之次序排序。返回參考第2圖,輸出語言選擇部件240現在可輸出排序最高之語言得分作為文件之主語言。輸出語言選擇部件240亦可指派第二輸出語言、第三輸出語言等。在另一個實施例中,輸出語言選擇部件240進一步按順序檢查每一排序較低語言,以決定該排序較低語言是否覆蓋未被當前語言輸出覆蓋之替代性字母或文句。若是,則可將該排序較低語言添加至輸出列表作為替代性語言。輸出語言選擇部件240決定每一種輸出語言之邊界,且輸出語言選擇部件240可聚合文句片段,該等文句段對該輸出語言之得分做出貢獻。
第8圖為圖示識別文件中多語文本之電腦實施方法的流程圖。在步驟810中,隔離含有明文內容之文件區域。在步驟820中,基於諸如HTML標記及標點之因素,將經隔離之明文內容分成區段。基於相關聯標記、該等標記之屬性及語言性質,來決定每一區段之語法種類及語義種類(category)。種類包括(但不限於):錨點文本(anchor text)、下拉列表、原始碼、版權聲明及使用者註解。在步驟830中,每一區段被指派一個重要性權重。上文參考第3圖論述了各種重要性權重之實例。在步驟840中,為每一區段計算語言相似度得分,且在步驟850中,為每一種語言計算最終得分。第6圖及第7圖圖示在步驟830及步驟840中所使用之計算。在為文件內每一種語言計算最終相似度得分之後,根據得分將最終相似度得分排序。在步驟860中,將排序最高之得分輸出為文件之主語言。
第9圖為流程圖,該流程圖圖示:一或更多電腦可讀取儲存媒體含有電腦可讀取指令,該等電腦可讀取指令實施於該一或更多電腦可讀取儲存媒體上,當由計算裝置執行時,一或更多電腦可讀取儲存媒體執行選擇多語文件之主語言之方法。在步驟910中,將明文內容分成經加權之文句區段。第4圖圖示多語文件之實例,且第5圖圖示可如何分割或分類第4圖之該多語文件。第5圖亦已基於相關聯標記及標點被剖析成為區段,其中根據文件內每一區段之重要性為該區段指派相應權重。第5圖僅為將多語文件分段及分類之一個實例,且其他實施例亦涵蓋於本發明內。在步驟920中,為經加權之文句區段中之每一者內之每一單字、片語或字元n元語法決定相似度得分。使用特定斷詞工具來允許在多語言字典中定位個別單字、片語或字元n元語法。本發明之實施例使用每一單字、片語或字元n元語法之多語言字典得分之對數相似度。某些文句或寫入系統(諸如,拉丁語)係基於單字,其中單字由空格分離。其他文句(諸如,中文)係基於字元,因為在單字之間不存在空格。在步驟930中,決定每一經加權之文句區段內每一種語言之相似度得分。將自多語言字典獲得之個別相似度得分組合在一起,且乘以該得分之各別區段權重值。如第6圖中所圖示,為每一經加權之文句區段內每一種語言,計算經組合的個別相似度得分。在步驟940中,將每一區段之經組合的個別相似度得分總計在一起,以提供文件中每一種語言之語言總和得分。此總和得分在第6圖中由Dj得分圖示。在步驟950中,將該等文件得分排序,諸如按最高得分值至最低得分值,將每一種語言之得分排序。隨後,在步驟960中,可將主文件語言選擇為最高文件排序得分。由於所有文件得分係按得分值之次序排序,故另一個實施例亦提供決定排序第二語言及排序第三語言。
在已為每一區段決定語言後,基於每一區段之語言指派適合語言之斷詞工具。使用本發明之實施例對呈現於文件中之語言進行更準確的分析。因此,亦對相關斷詞工具進行更準確的選擇。本發明之實施例包含:使用本文所述之方法、系統及媒體,高度準確地為多語文件中以不同語言寫成的文本編索引。
在不脫離本發明之精神及範疇之情況下,可能存在所圖示之各種部件之許多不同佈置以及未圖示之實施例。已以闡釋之意圖來描述本發明之實施例,而非以限制之意圖。
應理解,某些特徵及次組合具有效用,且可在不參考其他特徵及次組合之情況下使用該等特徵及次組合,並且該等特徵及次組合涵蓋於申請專利範圍之範疇內。並非列於各種圖式中之所有步驟均需要按所述之特定次序執行。
100...計算裝置
110...匯流排
112...記憶體
114...處理器
116...呈現部件
118...輸入/輸出(I/O)埠
120...輸入/輸出部件
122...電源供應器
200...系統
210...碼頁轉換部件
220...分段及分類部件
230...語言得分部件
240...輸出語言選擇部件
810...步驟
820...步驟
830...步驟
840...步驟
850...步驟
860...步驟
910...步驟
920...步驟
930...步驟
940...步驟
950...步驟
960...步驟
上文結合隨附圖式詳細描述了本發明之闡釋性實施例,該等附圖全體皆引用作為本說明書的揭示內容,且在附圖中:
第1圖為圖示根據本發明之實施例使用之示例性電腦作業系統之方塊圖;
第2圖為圖示根據本發明之實施例使用之識別多語文本之系統的方塊圖;
第3圖為圖示根據本發明之實施例使用之不同區段權重的表;
第4圖為根據本發明之實施例使用之多語網路搜尋文件;
第5圖為根據本發明之實施例使用之網路搜尋文件的分段及分類表;
第6圖為根據本發明之實施例使用之計算的圖示;
第7圖為根據本發明之實施例使用之計算的圖示;
第8圖為根據本發明之實施例使用之識別多語文本之方法的流程圖;以及
第9圖為根據本發明之實施例使用之選擇主語言之方法的流程圖。
200...系統
210...碼頁轉換部件
220...分段及分類部件
230...語言得分部件
240...輸出語言選擇部件

Claims (18)

  1. 一種電腦實施系統,該電腦實施系統用於使用電腦處理器、記憶體及資料儲存子系統來識別一文件中之多語文本,該電腦實施系統包含:一碼頁(code-page)轉換部件,該碼頁轉換部件用於識別由一文件使用之字元編碼,且用於經由該處理器將該編碼解碼成一通用代表性編碼;一分段及分類部件,該分段及分類部件用於將該文件之明文(plain-text)內容分成一個或更多個經加權之區段(section),根據該等區段於傳遞相關於該文件的一內容的資訊之相對重要性來加權該等區段,且該等區段包含該文件的一佈局的邏輯區域,包含標題、主題(heading)、文章內容、標頭(header)、及註腳之其中一者或更多者;一語言計分部件,該語言計分部件針對出現在該文件中的每一語言計算一文件得分,該計算係藉由:(1)獲得該一個或更多個經加權區段中之每一單字、片語或字元n元語法(n-gram)的一語言相似度得分(2)針對出現的每一語言,在該一個或更多個經加權區段內產生該等所獲得之語言相似度得分的一總合; (3)針對每一區段,藉由估算每一語言相似度得分總合乘以相關聯於該區段的一權重而針對每一語言產生一總得分,以及(4)藉由加總該文件內的該等總得分來計算該文件得分;以及一輸出語言選擇部件,該輸出語言選擇部件用於選擇該文件之一主語言,其中該主語言具有最高的文件得分。
  2. 如請求項1所述之電腦實施系統,其中該通用代表性編碼包含:萬國碼(Unicode)。
  3. 如請求項1所述之電腦實施系統,其中該一個或更多個經加權區段包含:一標題,該標題具有較一註腳高的一權重。
  4. 如請求項1所述之電腦實施系統,其中該明文內容基於該文件之HTML標記、視覺佈局、結構及語義內容被剖析(parse)成區段。
  5. 如請求項1所述之電腦實施系統,其中該語言相似度得分包含:每一單字、片語或字元n元語法之一相似度,該單字、片語或字元n元語法屬於一個或更多個語言。
  6. 如請求項1所述之電腦實施系統,其中該輸出語言選擇部件將每一語言之該等經組合之語言相似度得分之結果排序。
  7. 一種使用一計算系統識別一文件中之多語文本之電腦實施方法,該計算系統具有:處理器、記憶體及資料儲存子系統,該電腦實施方法包含以下步驟:隔離一文件中之明文內容之一個或更多個區域;根據語義種類(category)及語法種類將該明文內容分成區段,該區段包含該文件的一佈局的邏輯區域,包含標題、主題(heading)、文章內容、標頭(header)、及註腳之其中一者或更多者;根據於傳遞相關於該文件的一內容的資訊之相對重要性,指派一權重給該等區段中之每一者;為該等區段中之每一者中之每一單字、片語或字元n元語法,計算一語言相似度得分;藉由加總該等區段中之每一者中之每一單字、片語或字元n元語法的該等語言相似度得分且乘以指派給該區段的該權重,為每一語言之該等區段中之每一者計算一經組合之語言相似度得分;針對每一語言藉由加總該文件的該等語言相似度得分來計算每一語言的一文件得分;以及 將具有一最高排序文件得分之一語言輸出為該文件之一主語言。
  8. 如請求項7所述之電腦實施方法,該電腦實施方法進一步包含以下步驟:識別用於該文件之一編碼;以及解碼成一通用代表性編碼。
  9. 如請求項7所述之電腦實施方法,其中該計算步驟包含以下步驟:計算乘以該相關聯區段之一權重的一區段內每一單字、片語或字元n元語法之該等語言相似度得分。
  10. 如請求項7所述之電腦實施方法,該電腦實施方法進一步包含以下步驟:根據所使用之一寫入文句(writing script),將明文內容之該等區段中之每一者分成片段(segment)。
  11. 如請求項10所述之電腦實施方法,其中該指派步驟包含以下步驟:指派一權重至該等片段中之每一者。
  12. 一種電腦可讀取儲存裝置,該電腦可讀取儲存裝置含有:電腦可讀取指令,該等電腦可讀取指令實施 於該電腦可讀取儲存裝置上,當該等電腦可讀取指令由一計算裝置執行時,該等電腦可讀取指令執行一方法,該方法用於選擇一多語文件之一主語言,該方法包含以下步驟:將一文件之明文內容劃分成一個或更多個經加權之區段,根據該等區段於傳遞相關於該文件的一內容的資訊之相對重要性來加權該等區段,且該等區段包含該文件的一佈局的邏輯區域,包含標題、主題(heading)、文章內容、標頭(header)、及註腳之其中一者或更多者;決定每一單字、片語或字元n元語法之一相似度得分,該單字、片語或字元n元語法屬於該等經加權之區段中之每一者之一個或更多個語言;針對每一個別語言,將來自該等區段中之每一者的每一單字、片語或字元n元語法之所有該等相似度得分加總且將一總合乘以相關聯於該區段的該權重,以獲得一個或更多個區段語言總和;針對每一個別語言,組合所有該等區段語言總和,以獲得每一個別語言之一文件得分;將所有該等文件得分排序;以及自最高文件得分選擇一主文件語言。
  13. 如請求項12所述之裝置,該方法進一步包含以下步驟:將該文件之一編碼轉換成一通用代表性編碼。
  14. 如請求項12所述之裝置,其中該劃分步驟係使用HTML標記來實施。
  15. 如請求項12所述之裝置,其中經由一斷詞工具(word-breaker)自一字典獲得每一單字、片語或字元n元語法之該等相似度得分。
  16. 如請求項12所述之裝置,該方法進一步包含以下步驟:將該一個或更多個經加權之區段中之每一者分成一個或更多個經加權之語言區段。
  17. 如請求項12所述之裝置,該方法進一步包含以下步驟:選擇額外語言,該等額外語言覆蓋未被該主語言輸出覆蓋之替代性字母或文句。
  18. 如請求項12所述之裝置,其中該一個或更多個經加權之區段係基於每一區段之重要性及每一語言之一普及性。
TW100133247A 2010-10-14 2011-09-15 在多語文本中的語言識別 TWI536181B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/904,642 US8635061B2 (en) 2010-10-14 2010-10-14 Language identification in multilingual text

Publications (2)

Publication Number Publication Date
TW201217996A TW201217996A (en) 2012-05-01
TWI536181B true TWI536181B (zh) 2016-06-01

Family

ID=45884784

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100133247A TWI536181B (zh) 2010-10-14 2011-09-15 在多語文本中的語言識別

Country Status (6)

Country Link
US (1) US8635061B2 (zh)
EP (1) EP2628095A4 (zh)
CN (1) CN102402584B (zh)
AR (1) AR086633A1 (zh)
TW (1) TWI536181B (zh)
WO (1) WO2012050743A2 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US8600730B2 (en) * 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
US20120240039A1 (en) * 2011-03-15 2012-09-20 Walker Digital, Llc Systems and methods for facilitating translation of documents
WO2012150637A1 (ja) * 2011-05-02 2012-11-08 富士通株式会社 抽出方法、情報処理方法、抽出プログラム、情報処理プログラム、抽出装置、および情報処理装置
US9336197B2 (en) * 2013-01-22 2016-05-10 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
US20140267045A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Adaptive Language Models for Text Predictions
US20140278349A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Language Model Dictionaries for Text Predictions
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
US9495620B2 (en) 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US9424247B1 (en) 2013-12-31 2016-08-23 Google Inc. Associating one or more terms in a message trail with a task entry
US9928295B2 (en) 2014-01-31 2018-03-27 Vortext Analytics, Inc. Document relationship analysis system
CN107109863B (zh) 2014-08-18 2019-04-19 合稳锁公司 改善的锁定设备、锁定部件和使用方法
US10162811B2 (en) * 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9672831B2 (en) 2015-02-25 2017-06-06 International Business Machines Corporation Quality of experience for communication sessions
US20170068868A1 (en) * 2015-09-09 2017-03-09 Google Inc. Enhancing handwriting recognition using pre-filter classification
DK179374B1 (en) 2016-06-12 2018-05-28 Apple Inc Handwriting keyboard for monitors
CN106529899A (zh) * 2016-09-28 2017-03-22 王建勇 一种基于工作流的中文实体标准化方法
CN106528535B (zh) * 2016-11-14 2019-04-26 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
US10037309B1 (en) 2017-05-02 2018-07-31 International Business Machines Corporation Encoded text data management
EP3401797A1 (en) 2017-05-12 2018-11-14 Samsung Electronics Co., Ltd. Speech navigation for multilingual web pages
US10540424B2 (en) * 2017-06-13 2020-01-21 Microsoft Technology Licensing, Llc Evaluating documents with embedded mathematical expressions
CN109032379B (zh) * 2018-07-25 2023-06-02 维沃移动通信有限公司 一种语言选项显示方法及终端
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
US11475054B2 (en) 2020-04-24 2022-10-18 Roblox Corporation Language detection of user input text for online gaming
WO2024075086A1 (en) * 2022-10-07 2024-04-11 Open Text Corporation System and method for hybrid multilingual search indexing
CN118171648B (zh) * 2024-05-11 2024-09-06 中移(苏州)软件技术有限公司 文本提取方法、装置、电子设备及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
FI20010644A (fi) * 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
US7386438B1 (en) 2003-08-04 2008-06-10 Google Inc. Identifying language attributes through probabilistic analysis
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US7392474B2 (en) 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
JP4384939B2 (ja) * 2004-05-31 2009-12-16 株式会社インパルスジャパン 言語判別装置、翻訳装置、翻訳サーバ、言語判別方法並びに翻訳処理方法
US7437284B1 (en) 2004-07-01 2008-10-14 Basis Technology Corporation Methods and systems for language boundary detection
US7865355B2 (en) * 2004-07-30 2011-01-04 Sap Aktiengesellschaft Fast text character set recognition
US8027832B2 (en) 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
US20080120317A1 (en) * 2006-11-21 2008-05-22 Gile Bradley P Language processing system
US7729899B2 (en) * 2007-02-06 2010-06-01 Basis Technology Corporation Data cleansing system and method
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20080243477A1 (en) 2007-03-30 2008-10-02 Rulespace Llc Multi-staged language classification
WO2009073856A1 (en) 2007-12-05 2009-06-11 Facebook, Inc. Community translation on a social network
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8306806B2 (en) 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor

Also Published As

Publication number Publication date
AR086633A1 (es) 2014-01-15
TW201217996A (en) 2012-05-01
US20120095748A1 (en) 2012-04-19
WO2012050743A3 (en) 2012-06-21
CN102402584A (zh) 2012-04-04
CN102402584B (zh) 2015-06-17
WO2012050743A2 (en) 2012-04-19
EP2628095A4 (en) 2018-01-10
EP2628095A2 (en) 2013-08-21
US8635061B2 (en) 2014-01-21

Similar Documents

Publication Publication Date Title
TWI536181B (zh) 在多語文本中的語言識別
CA2777520C (en) System and method for phrase identification
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
Agarwal et al. Sentiment analysis of twitter data
US6978275B2 (en) Method and system for mining a document containing dirty text
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN107357777B (zh) 提取标签信息的方法和装置
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
EP1503295A1 (en) Text generation method and text generation device
CN107239455B (zh) 核心词识别方法及装置
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN111460177B (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
CN113806491B (zh) 一种信息处理的方法、装置、设备和介质
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
Kelm et al. How Spatial Segmentation improves the Multimodal Geo-Tagging.
Desta et al. Automatic spelling error detection and correction for Tigrigna information retrieval: a hybrid approach
JP2011113097A (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP2011113099A (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
Rajman et al. Conceptual document indexing using a large scale semantic dictionary providing a concept hierarchy

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees