TWI443529B - 自動化領域名詞建置方法及系統,及其電腦程式產品 - Google Patents

自動化領域名詞建置方法及系統,及其電腦程式產品 Download PDF

Info

Publication number
TWI443529B
TWI443529B TW099110086A TW99110086A TWI443529B TW I443529 B TWI443529 B TW I443529B TW 099110086 A TW099110086 A TW 099110086A TW 99110086 A TW99110086 A TW 99110086A TW I443529 B TWI443529 B TW I443529B
Authority
TW
Taiwan
Prior art keywords
domain
word
candidate
nouns
noun
Prior art date
Application number
TW099110086A
Other languages
English (en)
Other versions
TW201135478A (en
Inventor
Ting Chun Peng
Chia Chun Shih
Wen Tai Hsieh
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW099110086A priority Critical patent/TWI443529B/zh
Priority to US12/900,326 priority patent/US20110246486A1/en
Publication of TW201135478A publication Critical patent/TW201135478A/zh
Application granted granted Critical
Publication of TWI443529B publication Critical patent/TWI443529B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

自動化領域名詞建置方法及系統,及其電腦程式產品
本發明係有關於一種自動化領域名詞建置方法及系統,且特別有關於一種可以依據候選詞之至少一部分於一特定領域之複數領域名詞的出現情形以及於複數領域名詞中不同位置的出現情形,來判定候選詞是否係領域名詞,以自動化建置該領域名詞的方法及系統。
隨著網際網路的發展,每個人都可以將他們對於店家或商品的意見,發表到部落格、討論區、或任何一個允許使用者自由張貼意見的線上空間。這些意見可以總合地反映出使用者的觀感,稱為「口碑資訊」。現今,口碑資訊深切地影響到許多人的購買決策。根據PowerReview在2008年調查1200位線上消費者的結果指出,超過80%的線上消費者會根據網路上的消費者使用評論來在兩到三個備選產品中做出決定。許多知名網站也致力於蒐集消費者在某一些特定領域的使用評論,例如美食、網路購物、汽車及其用品專賣,以提供消費者參考,亦證明口碑資訊的重要性。
此外,在一些專為特定領域所開設的網站、特定領域商品購物網站、為特定領域所建立的專用電子字典/辭典、或是特定領域知識網站的資訊關聯性建立等等,為了建立、更新或修正該特定領域的相關內容,經常都需要為某些特定領域來大量收集和更新特定領域的領域名詞和領域新詞。
目前來說,特定領域的名詞整理、新詞建立多透過人工進行。舉例來說,必須由人員收集相關資料,親自檢視或閱讀資料之後,再對該資料中所提到之領域名詞進行萃取。透過人工萃取領域名詞係非常耗時與費力,因此收集和建置的速度緩慢,數量也無法大量提升,此外,由於是由人員來決定,因此會受到人為主觀、判斷的影響,所獲得的特定領域名詞、新詞,可能也不夠客觀。另一方面,由於網際網路環境的變化快速,資訊大量出現,許多新詞不斷地創造和產生,因此,目前業界也開發出一些機制可以自動搜尋新詞,例如中華民國專利第490654號「自動提取新詞方法和系統」等。
然而,這些自動搜尋名詞/新詞的機制通常僅係單純地依據統計方法來進行判斷,例如,先將語料分割成字串,然後計算該字串在語料庫中或是網際網路搜尋結果中的出現次數行統計,過濾掉假詞以輸出名詞,亦可再依據已存在之名詞進行過濾,以輸出新詞。然而,此種方式所輸出之名詞或新詞,往往錯誤率過高,例如目前技術中在搜尋「美食」領域的名詞/新詞時,因無法針對所搜尋出的名詞/新詞來判斷其是否屬於「美食」領域,故通常是先經過文章分類或是針對「美食」領域所建立語料庫來判斷,但是需要大量語料庫作為訓練來源才能有效判斷領域新詞所屬文章的領域為何,因此相當耗費時間及人力,此外,其搜尋出的名詞/新詞,可能會出現像是「很不錯」、「五十塊」等非「美食」領域的名詞但出現頻率很高的詞句。因此,先前技術也缺乏對特定領域的判斷機制,無法辨別所搜尋出來的名詞/新詞是否屬於某一特定領域,因此無法有效達成自動化領域名詞建置之目的。提醒的是,在一些技術中可以透過文章分類或是針對不同領域建立語料庫來判斷,但是需要大量語料庫作為訓練來源才能有效判斷領域新詞所屬文章的領域為何。因此,亦係相當耗費時間及人力。
有鑑於此,本發明提供自動化領域名詞建置方法及系統。
本發明實施例之一種自動化領域名詞建置方法。首先,提供相應一特定領域之一領域名詞資料庫。其中,領域名詞資料庫包括複數領域名詞。接收一候選詞,依據候選詞之至少一部分於領域名詞資料庫中之每一領域名詞中之出現情形及候選詞之至少一部分於每一領域名詞中不同位置之出現情形計算相應候選詞之一代表性分數。接著,判斷相應候選詞之代表性分數是否大於一既定代表性門檻值。當相應候選詞之代表性分數大於既定代表性門檻值時,判定候選詞係此特定領域之一領域名詞。
本發明實施例之一種自動化領域名詞建置系統,至少包括一儲存單元與一處理單元。儲存單元至少包括相應一特定領域之一領域名詞資料庫。其中,領域名詞資料庫包括複數領域名詞。處理單元鏈結至該儲存單元,對於一候選詞,依據候選詞之至少一部分於領域名詞資料庫中之每一領域名詞中之出現情形及候選詞之至少一部分於每一領域名詞中不同位置之出現情形計算相應候選詞之一代表性分數,且判斷相應候選詞之代表性分數是否大於一既定代表性門檻值。當相應候選詞之代表性分數大於既定代表性門檻值時,處理單元判定候選詞係此特定領域之一領域名詞。
本發明另一實施例之一種自動化領域名詞建置方法。首先,提供相應一特定領域之一領域名詞資料庫,該領域名詞資料庫包括複數領域名詞。提供相應該特定領域之一領域特徵詞資料庫,該領域特徵詞資料庫包括複數領域特徵詞,每一該等領域特徵詞係由該等領域名詞中萃取得到,且該領域特徵詞資料庫更記錄每一該等領域特徵詞於該等領域名詞中不同位置之出現情形。接著,接收一候選詞,依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形。依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數。判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值。然後,當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係該特定領域之一領域名詞。
本發明另一實施例之一種自動化領域名詞建置系統,至少包括一儲存單元與一處理單元。一儲存單元至少包括相應一特定領域之一領域名詞資料庫以及相應該特定領域之一領域特徵詞資料庫,其中,該領域名詞資料庫包括複數領域名詞,該領域特徵詞資料庫包括複數領域特徵詞,每一該等領域特徵詞係由該等領域名詞中萃取得到,且該領域特徵詞資料庫更包括記錄每一該等領域特徵詞於該等領域名詞中不同位置之出現情形。一處理單元鏈結至該儲存單元,接收一候選詞,依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形,依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數,判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值,以及當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係該特定領域之一領域名詞。
在一些實施例中,候選詞包括複數字元,其中任一字元或該等字元中相連之至少兩者組合,成為至少一特徵元素,且候選詞之至少一部分於領域名詞資料庫中之出現情形,係依據相應每一該等至少一特徵元素於領域名詞資料庫中之每一該等領域名詞中出現之頻率所計算。在另一些實施例中,候選詞之至少一部分於每一該等領域名詞中不同位置之出現情形係依據相應每一該至少一特徵元素於每一該等領域名詞中不同位置之出現情形所決定。
在一些實施例中,候選詞可以包括複數字元,且其中任一字元或相連之至少兩字元可以組合成至少一特徵元素。候選詞之至少一部分於每一領域名詞中不同位置之出現情形可以依據相應每一特徵元素於每一領域名詞中不同位置之出現情形所決定。
本發明上述方法可以透過程式碼方式存在,該程式碼成為一種電腦程式產品。當程式碼被一機器或一電子裝置載入且執行時,機器或電子裝置變成用以實行本發明之裝置及系統,且執行本發明之方法步驟。
為使本發明之上述目的、特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖示,詳細說明如下。
第1A圖顯示依據本發明一實施例之自動化領域名詞建置系統。依據本發明實施例之自動化領域名詞建置系統100可以係以處理器為基礎之電子裝置,如電腦、伺服器、筆記型電腦、可攜式行動裝置、與工作站等。
自動化領域名詞建置系統100至少包括一儲存單元110與一處理單元120。儲存單元110可以至少包括一領域名詞資料庫111,其可以包括相應一特定領域之複數領域名詞。處理單元120鏈結至該儲存單元110,其可以是同時設置在一電子裝置中,亦可分別設置在二個電子裝置中,再進行通訊鏈結,如透過RS232連線、Intranet、Internet等進行連結。候選詞113係用以等待處理單元120判定其是否係此特定領域之領域名詞,在一些實施例中,其可以是先輸入並儲存在儲存單元110中,在另一些實施例中,自動化領域名詞建置系統100可以包括一接收單元(未顯示),如有線或無線通訊單元、通訊介面裝置等,以接收來自外部的複數個候選詞113。舉例來說,先經由網路自動搜尋以取得相應此特定領域之至少一文件或一資料,依據至少一統計機率模型,例如統計關聯規則探勘(Association Rule Mining)或TF(Term Frequency)/IDF(Inverse Document Frequency)統計模型等,從該文件或資料中取得候選詞113。在另一些實施例中,自動化領域名詞建置系統100亦可以包括一輸入單元(未顯示),如鍵盤、滑鼠、觸控螢幕或其他操作介面等,用以供使用者自行輸入候選詞113。處理單元120,係經由硬體及軟體結合,可以執行本發明之自動化領域名詞建置方法,其細節將於後進行說明。
第2圖顯示依據本發明一實施例之自動化領域名詞建置方法。
步驟S210,提供相應一特定領域之一領域名詞資料庫,其中,該領域名詞資料庫包括複數領域名詞。在此實施例中,複數領域名詞係為某一特定領域所事先收集且儲存之複數領域名詞。一般來說,領域名詞之數量並不需要太多,在一些實施例中,領域名詞之數量可大約在100~600之間,其自動化領域名詞建置之準確度即相當不錯。
步驟S220,接收一候選詞。如前所述,該候選詞可以是事先儲存在儲存單元中,亦可以是經由一接收單元或一輸入單元來予以接收。
步驟S230,依據該候選詞之至少一部分於該領域名詞資料庫中之每一該等領域名詞中之出現情形及該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數。
在一些實施例中,該候選詞包括複數字元,其中任一字元或該等字元中相連之至少兩者組合,可作為該候選詞的特徵元素,一候選詞可包含有複數個特徵元素,每一個特徵元素即為該候選詞的一部分。提醒的是,特徵元素間可以存在字元重疊的現象。舉例來說,當候選詞係「牛肉湯麵」時,則特徵元素可以包括牛肉、肉湯、湯麵、湯和麵等。因此,步驟S230中所述,該候選詞之該至少一部分於該領域名詞資料庫中之出現情形,可依據該候選詞的每一特徵元素,計算其於該領域名詞資料庫之該等領域名詞中出現的頻率,來給予一對應的分數,例如出現頻率為高時給予一較高之分數,稱之為第一特徵分數。在另一些實施例中,步驟S230中所述,該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形,可依據該候選詞的每一特徵元素其分別於該候選詞的位置(例如候選詞的前面、中間、後面),計算特徵元素在領域名詞資料庫之該等領域名詞中的相關位置之頻率,來給予一對應的分數,例如,一特徵元素係位於候選詞的前面,當該特徵元素位於該等領域名詞的前面之頻率高時,給予一較高之分數,可稱之為第二特徵分數。
在一些實施例中,該候選詞的代表性分數,可以將上述之第一特徵分數和第二特徵分數相加而獲得,或者使用不同係數來分別調整第一特徵分數和第二特徵分數的權重或比例而獲得,亦或者依據一計算式、第一特徵分數和第二特徵分數而獲得。
步驟S240,判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值。在一些實施例中,該既定代表性門檻值可以採用專家所建議或決定之一經驗值,或者依據一統計分佈方式來決定,或者經由一特定計算公式而決定。
步驟S250,當相應該候選詞之該代表性分數大於該既定代表性門檻值時(如步驟S240的是),判定該候選詞係該特定領域之一領域名詞。
更進一步時,當相應該候選詞之該代表性分數並未大於該既定代表性門檻值時(如步驟S240的否),則判定該候選詞係非該特定領域之一領域名詞。
更進一步時,在步驟S250之後,該方法更可包含一步驟S260(第二圖未顯示),將判定為該領域名詞之候選詞,儲存於該領域名詞資料庫,以更新該領域名詞資料庫。
更進一步時,在另一些實施例中,當該候選詞之該代表性分數係以分數越低而表示其代表性越高時,步驟S240中,係判斷相應該候選詞之該代表性分數是否小於一既定代表性門檻值。該既定代表性門檻值亦可以是專家所建議或決定之一經驗值,或依據一統計分佈方式、一特定計算公式來決定。而步驟S250中,則是當相應該候選詞之該代表性分數小於該既定代表性門檻值時(如步驟S240的是),判定該候選詞係該特定領域之一領域名詞。
第1B圖顯示依據本發明另一實施例之自動化領域名詞建置系統。
自動化領域名詞建置系統100至少包括一儲存單元110與一處理單元120。儲存單元110可以至少包括一領域名詞資料庫111、一領域特徵詞資料庫112、與至少一候選詞113。領域名詞資料庫111可以包括相應一特定領域之複數領域名詞。領域特徵詞資料庫112可以包括複數領域特徵詞,領域特徵詞可以由領域名詞資料庫111中的領域名詞中萃取得到,而領域特徵詞資料庫112更可包括記錄有每一領域特徵詞於領域名詞資料庫111中領域名詞之不同位置的出現情形。例如,一領域特徵詞可能會分別在該等領域名詞中的前面、中間或後面來出現,而其出現情形可用該領域特徵詞分別對應該等領域名詞之前面、中間、後面的出現頻率來表示。領域特徵詞的產生方式將於後進行說明。值得注意的是,系統100亦可經由接收單元或輸入單元來接收或輸入候選詞。本發明另一自動化領域名詞建置方法,其細節將於後進行說明。
第3圖顯示依據本發明另一實施例之自動化領域名詞建置方法。
如步驟S310,提供一領域名詞資料庫與一領域特徵詞資料庫。類似地,領域名詞資料庫和領域特徵詞資料庫說明如前所述,在此不重複贅述。
更進一步時,從領域名詞資料庫中之領域名詞萃取領域特徵詞可以有多種方式。在一些實施例中,例如可先選取一特定領域名詞中任相鄰之至少二字元作為一關聯字詞,分別依據每一關聯字詞於該等領域名詞中之出現頻率為基礎,計算每一關聯字詞的一關聯度。然後依據該關聯度是否大於一既定關聯門檻值,從該特定領域名詞中萃取出該特定領域之該領域特徵詞。在一些實施例中,當從該特定領域名詞中所選取出之關聯字詞只有一個時,判斷其關聯度是否大於一既定關聯門檻值,當關聯度大於既定關聯門檻值時,將該等關聯字詞萃取成為該特定領域之該領域特徵詞。在另一些實施例中,當從該特定領域名詞中所選取出之關聯字詞為複數個時,分別判斷該複數個關聯字詞之關聯度是否大於一既定關聯門檻值,當關聯度大於既定關聯門檻值時,將該等關聯字詞萃取成為該特定領域之該領域特徵詞,若是將該特定領域名詞中取出已成為該領域特徵詞後,有剩下單一字,依據其在該等領域名詞中之出現頻率,決定是否萃取成為該特定領域之該領域特徵詞。又在一些實施例中,當從該特定領域名詞中所選取出之關聯字詞為複數個時,依據該複數個關聯度之間的相對大小關係,將相對為大的關聯度所對應之關聯字詞,萃取成為領域特徵詞,如將該特定領域名詞中取出已成為該領域特徵詞後,有剩下單一字,依據其在該等領域名詞中之出現頻率,決定是否萃取成為該特定領域之該領域特徵詞。
在另一些實施例中,萃取方式可選取該等領域名詞之一特定領域名詞中任一單字和任相鄰之至少二字元以組成一領域特徵詞候選集合,分別依據該領域特徵詞候選集合中每一字或字詞於該等領域名詞中之出現頻率為基礎,判斷其出現頻率是否小於一既定門檻值,當小於該既定門檻值時,將該字或字詞從該領域特徵詞候選集合中刪除,最後將該領域特徵詞候選集合中所保存之字或字詞成為該特定領域之該領域特徵詞。
更進一步時,既定關聯門檻值之決定方式,亦可採用專家所決定之一經驗值,或者依據統計分佈公式而決定,或者經由一特定公式而決定。
在一些實施例中,可採用共同資訊量(Mutual Information,MI)技術來計算任兩相鄰字元間的關聯度。共同資訊量技術的公式如下:
其中,c a c b 為兩相鄰之字元,freq (c a c b )係兩字元c a c b 在領域名詞資料庫中各個領域名詞裡同時出現的頻率,freq (c a )係字元c a 在領域名詞資料庫中各個領域名詞裡出現的頻率,freq (c b )係字元c b 在領域名詞資料庫中各個領域名詞裡出現的頻率,N 係領域名詞資料庫中領域名詞的數目,且MI (c a c b )係兩字元c a c b 間的關聯度。相應此至少二字元之關聯度可以與一既定關聯門檻值進行比對。當相應此至少二字元之關聯度大於既定關聯門檻值時,此至少二字元可以被判定為此特定領域之領域特徵詞。
舉例來說,當領域名詞係「雞絲燴魚肚」時,相鄰之兩字元可以包括雞絲、絲燴、燴魚和魚肚,作為關聯字詞,如依據上述共同資訊量之公式計算,可分別相應之關聯度為1.701、0.0、0.84和1.463。當既定關聯門檻值為1.0時,則由此領域名詞所萃取到之領域特徵詞包括雞絲(1.701)與魚肚(1.463),而最後剩下的「燴」字,可另依據其在該領域名詞資料庫之領域名詞的出現頻率來決定其是否亦可作為領域特徵詞,又或可直接決定其即為領域特徵詞。在另一實施方式中,當雞絲、絲燴、燴魚和魚肚等分別相應之關聯度為1.701、0.0、0.84和1.463時,依據該複數個關聯度之相對大小,可判斷1.701和1.463相對為大,因此對應之雞絲、魚肚等字詞可作為領域特徵詞。另外,領域特徵詞於相應此特定領域之領域名詞中之不同位置出現時可以分別具有一權重,如領域特徵詞於相應特定領域之領域名詞中之個別位置的出現頻率。由此特定領域之領域名詞中所萃取出之領域特徵詞,及其於領域名詞資料庫中之每一領域名詞中的出現頻率及於領域名詞中不同位置之出現情形,例如每一領域特徵詞分別出現在各領域名詞之前、中、後的出現頻率,將會分別記錄至領域特徵詞資料庫之中。
如步驟S320,接收一候選詞。類似地,在一些實施例中,候選詞可以係依據至少一統計機率模型由一文件中所取得,其已是相當習知之技術,在此不重複贅述。
如步驟S330,依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形,依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數。提醒的是,如前所述,領域特徵詞資料庫可以包括由領域名詞中所萃取出之複數領域特徵詞,且分別記錄每一領域特徵詞於領域名詞資料庫中之每一領域名詞中的出現頻率,或者是每一領域特徵詞於領域名詞資料庫中之每一領域名詞中不同位置之出現情形,如在不同位置的出現頻率。在一些實施例中,可以先將候選詞和領域特徵詞資料庫進行比對找出相符之至少一特定領域特徵詞,且由領域特徵詞資料庫擷取得到相應此特定領域特徵詞於領域名詞資料庫中之每一領域名詞中的出現頻率,或是每一領域特徵詞於領域名詞資料庫中之每一領域名詞中不同位置之出現情形,如在不同位置的出現頻率。
值得注意的是,在一些實施例中,代表性分數亦可以包括一第一特徵分數與一第二特徵分數,相應之計算方式將於後進行說明。在一些實施例中,相應候選詞之第一特徵分數可以依據該至少一特定領域特徵詞在領域名詞中的出現頻率來計算。
另一方面,相應候選詞之第二特徵分數可以依據候選詞之該至少一特定領域特徵詞於相應特定領域之領域名詞中所出現之不同位置來計算。該至少一特定領域特徵詞於領域名詞之不同位置時的出現頻率及於領域名詞中可能發生不同位置的數目來計算。舉例來說,當領域名詞中可能發生不同位置的數目等於3時,不同位置可以係領域名詞之前綴、中綴、後綴等位置。
當第一特徵分數與第二特徵分數得到之後,在一些實施例中,代表性分數可以是將第一特徵分數與第二特徵分數相加而獲得,在另一些實施例中,相應候選詞之代表性分數亦可以依據一特定公式來計算,例如,以下述公式進行計算:
Score (T j )=α×S 1 1 / k +(1-α)×S 2
其中,Score (T j )係候選詞T j 之代表性分數,S 1 係第一特徵分數,S 2 係第二特徵分數,α係用以調解第一特徵分數與第二特徵分數之權重,而k 係用以降低候選詞之長度對於候選詞所造成的影響。注意的是,α可以依據不同應用與需求進行調整。
舉一例子說明,當同時考量候選詞中該至少一特定領域特徵詞的重要性與前綴後綴位置的影響時,相應候選詞之代表性分數可以依據下述公式進行計算:Score (T j )=α×S 1 +(1-α)(S 2 ( p r e f i x ) +S 2 ( s u f f i x ) ),其中,S2 ( p r e f i x )S 2 ( s u f f i x ) 分別代表候選詞T j 的前、後綴字的影響。
提醒的是,前述計算相應候選詞之第一特徵分數、第二特徵分數與代表性分數之公式僅為本案之例子。任何依據候選詞於領域名詞資料庫中出現之頻率及候選詞於每一領域名詞中不同位置之出現情形所設計之公式皆可應用至本發明中。
當相應候選詞之代表性分數得到之後,如步驟S340,判斷相應候選詞之代表性分數是否大於一既定代表性門檻值。當相應候選詞之代表性分數並未大於既定代表性門檻值時(步驟S340的否),流程結束。當相應候選詞之代表性分數大於既定代表性門檻值時(步驟S340的是),如步驟S350,判定候選詞係此特定領域之一新領域名詞,且將此新領域名詞加入領域名詞資料庫中。
本發明實施例之一種電腦程式產品,用以被一電子裝置載入以執行一自動化領域名詞建置方法,其中,該電子裝置至少包括有相應一特定領域之一領域名詞資料庫,該領域名詞資料庫包括複數領域名詞,且該電腦程式產品包括:一第一程式碼,用以取得一候選詞:一第二程式碼,用以依據該候選詞之至少一部分於一領域名詞資料庫中之複數領域名詞中之出現情形及該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數;一第三程式碼,用以判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值;以及一第四程式碼,用以當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係該特定領域之一領域名詞。
本發明實施例之另一種電腦程式產品,用以被一電子裝置載入以執行一自動化領域名詞建置方法,其中,該電子裝置至少包括相應一特定領域之一領域名詞資料庫以及相應該特定領域之一領域特徵詞資料庫,其中,該領域名詞資料庫包括複數領域名詞,該領域特徵詞資料庫包括複數領域特徵詞,每一該等領域特徵詞係由該等領域名詞中萃取得到,且該領域特徵詞資料庫更包括記錄每一該等領域特徵詞於該等領域名詞中不同位置之出現情形,且該電腦程式產品包括:一第一程式碼,用以取得一候選詞:一第二程式碼,用以依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形;一第三程式碼,用以依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數;一第四程式碼,用以判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值;以及一第五程式碼,用以當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係該特定領域之一領域名詞。
因此,透過本案之自動化領域名詞建置方法及系統可以依據候選詞於一特定領域之出現頻率與候選詞於領域名詞中不同位置的出現情形來判定候選詞是否係領域名詞。透過本發明可以大幅節省人工萃取領域名詞所需耗費之時間與人力。
本發明之方法,或特定型態或其部份,可以以程式碼的型態存在。程式碼可以包含於實體媒體,如軟碟、光碟片、硬碟、或是任何其他電子設備或機器可讀取(如電腦可讀取)儲存媒體,亦或不限於外在形式之電腦程式產品,其中,當程式碼被機器,如電腦載入且執行時,此機器變成用以參與本發明之裝置或系統,且可執行本發明之方法步驟。程式碼也可以透過一些傳送媒體,如電線或電纜、光纖、或是任何傳輸型態進行傳送,其中,當程式碼被電子設備或機器,如電腦接收、載入且執行時,此機器變成用以參與本發明之系統或裝置。當在一般用途處理單元實作時,程式碼結合處理單元提供一操作類似於應用特定邏輯電路之獨特裝置。
雖然本發明已以較佳實施例揭露如上,然其並非用以限定本發明,任何熟悉此項技藝者,在不脫離本發明之精神和範圍內,當可做些許更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧自動化領域名詞建置系統
110‧‧‧儲存單元
111‧‧‧領域名詞資料庫
112‧‧‧領域特徵詞資料庫
113‧‧‧候選詞
120‧‧‧處理單元
S210、S220、...、S250‧‧‧步驟
S310、S320、...、S350‧‧‧步驟
第1A圖為一示意圖係顯示依據本發明實施例之自動化領域名詞建置系統。
第1B圖為一示意圖係顯示依據本發明另一實施例之自動化領域名詞建置系統。
第2圖為一流程圖係顯示依據本發明實施例之自動化領域名詞建置方法。
第3圖為一流程圖係顯示依據本發明另一實施例之自動化領域名詞建置方法。
S210、S220、...、S250...步驟

Claims (12)

  1. 一種自動化領域名詞建置方法,包括下列步驟:提供一領域名詞資料庫,其中,該領域名詞資料庫包括複數領域名詞;接收一候選詞;依據該候選詞之至少一部分於該領域名詞資料庫中之每一該等領域名詞中之出現情形及該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數;判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值;以及當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係一領域名詞:其中,該候選詞包括複數字元,其中任一字元或該等字元中相連之至少兩者組合,成為至少一特徵元素,且該候選詞之該至少一部分於該領域名詞資料庫中之出現情形,係依據相應每一該至少一特徵元素於該領域名詞資料庫中之每一領域名詞中出現之頻率所計算。
  2. 如申請專利範圍第1項所述之自動化領域名詞建置方法,其中,該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形係依據相應每一該至少一特徵元素於每一該等領域名詞中不同位置之出現情形所決定。
  3. 一種自動化領域名詞建置方法,包括下列步驟:提供一領域名詞資料庫,其中,該領域名詞資料庫包括複數領域名詞; 提供一領域特徵詞資料庫,其中,該領域特徵詞資料庫包括複數領域特徵詞,每一該等領域特徵詞係由該等領域名詞中萃取得到,且該領域特徵詞資料庫更包括記錄每一該等領域特徵詞於該等領域名詞中不同位置之出現情形;接收一候選詞;依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形;依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數;判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值;以及當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係一領域名詞。
  4. 如申請專利範圍第3項所述之自動化領域名詞建置方法,更包括下列步驟:選取該等領域名詞之一特定領域名詞中任相鄰之至少二字元作為一關聯字詞,依據該等關聯字詞於該等領域名詞中之出現頻率為基礎,計算該等關聯字詞之一關聯度;判斷相應該等關聯字詞之關聯度是否大於一既定關聯門檻值;以及當相應該等關聯字詞之該關聯度大於該既定關聯門檻值時,將該等關聯字詞萃取成為該領域特徵詞。
  5. 如申請專利範圍第3項所述之自動化領域名詞建置 方法,更包括下列步驟:選取該等領域名詞之一特定領域名詞中任一單字和任相鄰之至少二字元以組成一領域特徵詞候選集合,依據該領域特徵詞候選集合中每一字或字詞於該等領域名詞中之出現頻率為基礎,判斷其出現頻率是否小於一既定門檻值;以及當小於該既定門檻值時,將該等該字或字詞從該領域特徵詞候選集合中刪除,再將該領域特徵詞候選集合中所保存之字和字詞成為該領域特徵詞。
  6. 一種自動化領域名詞建置系統,包括:一儲存單元,至少包括一領域名詞資料庫,其中,該領域名詞資料庫包括複數領域名詞;以及一處理單元,鏈結至該儲存單元,接收一候選詞,依據該候選詞之至少一部分於該領域名詞資料庫中之每一該等領域名詞中之出現情形及該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數,判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值,且當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係一領域名詞;其中,該候選詞包括複數字元,其中任一字元或該等字元中相連之至少兩者組合,成為至少一特徵元素,且該候選詞之該至少一部分於該領域名詞資料庫中之出現情形,係依據相應每一該至少一特徵元素於該領域名詞資料庫中之每一該等領域名詞中出現之頻率所計算。
  7. 如申請專利範圍第6項所述之自動化領域名詞建置系統,其中,該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形係依據相應每一該至少一特徵元素於每一該等領域名詞中不同位置之出現情形所決定。
  8. 一種自動化領域名詞建置系統,包括:一儲存單元,至少包括一領域名詞資料庫以及一領域特徵詞資料庫,其中,該領域名詞資料庫包括複數領域名詞,該領域特徵詞資料庫包括複數領域特徵詞,每一該等領域特徵詞係由該等領域名詞中萃取得到,且該領域特徵詞資料庫更包括記錄每一該等領域特徵詞於該等領域名詞中不同位置之出現情形;以及一處理單元,鏈結至該儲存單元,接收一候選詞,依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形,依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數,判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值,以及當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係一領域名詞。
  9. 如申請專利範圍第8項所述之自動化領域名詞建置系統,其中,該處理單元更包括選取該等領域名詞之一特定領域名詞中任相鄰之至少二字元作為一關聯字詞,依據該等關聯字詞於該等領域名詞中之出現頻率為基礎,計算該等關聯字詞之一關聯度,判斷相應該等關聯字詞之關聯 度是否大於一既定關聯門檻值,以及,當相應該等關聯字詞之該關聯度大於該既定關聯門檻值時,將該等關聯字詞萃取成為該領域特徵詞。
  10. 如申請專利範圍第8項所述之自動化領域名詞建置系統,其中,該處理單元更包括選取該等領域名詞之一特定領域名詞中任一單字和任相鄰之至少二字元以組成一領域特徵詞候選集合,依據該領域特徵詞候選集合中每一字或字詞於該等領域名詞中之出現頻率為基礎,判斷其出現頻率是否小於一既定門檻值;以及當小於該既定門檻值時,將該等該字或字詞從該領域特徵詞候選集合中刪除,再將該領域特徵詞候選集合中所保存之字和字詞成為該領域特徵詞。
  11. 一種電腦程式產品,用以被一電子裝置載入以執行一自動化領域名詞建置方法,其中,該電子裝置至少包括有一領域名詞資料庫,該領域名詞資料庫包括複數領域名詞,且該電腦程式產品包括:一第一程式碼,用以取得一候選詞:一第二程式碼,用以依據該候選詞之至少一部分於一領域名詞資料庫中之複數領域名詞中之出現情形及該候選詞之該至少一部分於每一該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數;一第三程式碼,用以判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值;以及一第四程式碼,用以當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係一領域名詞; 其中,該候選詞包括複數字元,其中任一字元或該等字元中相連之至少兩者組合,成為至少一特徵元素,且該候選詞之該至少一部分於該領域名詞資料庫中之出現情形,係依據相應每一該至少一特徵元素於該領域名詞資料庫中之每一該等領域名詞中出現之頻率所計算。
  12. 一種電腦程式產品,用以被一電子裝置載入以執行一自動化領域名詞建置方法,其中,該電子裝置至少包括一領域名詞資料庫以及一領域特徵詞資料庫,其中,該領域名詞資料庫包括複數領域名詞,該領域特徵詞資料庫包括複數領域特徵詞,每一該等領域特徵詞係由該等領域名詞中萃取得到,且該領域特徵詞資料庫更包括記錄每一該等領域特徵詞於該等領域名詞中不同位置之出現情形,且該電腦程式產品包括:一第一程式碼,用以取得一候選詞:一第二程式碼,用以依據該候選詞及該領域特徵詞資料庫,萃取該候選詞所對應之至少一特定領域特徵詞,擷取該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形;一第三程式碼,用以依據該至少一特定領域特徵詞於該等領域名詞中不同位置之出現情形計算相應該候選詞之一代表性分數;一第四程式碼,用以判斷相應該候選詞之該代表性分數是否大於一既定代表性門檻值;以及一第五程式碼,用以當相應該候選詞之該代表性分數大於該既定代表性門檻值時,判定該候選詞係一領域名詞。
TW099110086A 2010-04-01 2010-04-01 自動化領域名詞建置方法及系統,及其電腦程式產品 TWI443529B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW099110086A TWI443529B (zh) 2010-04-01 2010-04-01 自動化領域名詞建置方法及系統,及其電腦程式產品
US12/900,326 US20110246486A1 (en) 2010-04-01 2010-10-07 Methods and Systems for Extracting Domain Phrases

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099110086A TWI443529B (zh) 2010-04-01 2010-04-01 自動化領域名詞建置方法及系統,及其電腦程式產品

Publications (2)

Publication Number Publication Date
TW201135478A TW201135478A (en) 2011-10-16
TWI443529B true TWI443529B (zh) 2014-07-01

Family

ID=44710861

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099110086A TWI443529B (zh) 2010-04-01 2010-04-01 自動化領域名詞建置方法及系統,及其電腦程式產品

Country Status (2)

Country Link
US (1) US20110246486A1 (zh)
TW (1) TWI443529B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726028B2 (en) 2016-11-25 2020-07-28 Alibaba Group Holding Limited Method and apparatus for matching names

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
USD642563S1 (en) 2010-08-16 2011-08-02 Apple Inc. Electronic device
US20130084009A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg Systems, methods and user interfaces in a patent management system
CN103106214B (zh) * 2011-11-14 2016-02-24 索尼爱立信移动通讯有限公司 一种候选词组输出方法和电子设备
TWI477996B (zh) * 2011-11-29 2015-03-21 Iq Technology Inc 自動分析個人化輸入之方法
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
WO2016058138A1 (en) * 2014-10-15 2016-04-21 Microsoft Technology Licensing, Llc Construction of lexicon for selected context
US20160117386A1 (en) * 2014-10-22 2016-04-28 International Business Machines Corporation Discovering terms using statistical corpus analysis
US9613133B2 (en) * 2014-11-07 2017-04-04 International Business Machines Corporation Context based passage retrieval and scoring in a question answering system
US9594746B2 (en) 2015-02-13 2017-03-14 International Business Machines Corporation Identifying word-senses based on linguistic variations
US9940323B2 (en) * 2016-07-12 2018-04-10 International Business Machines Corporation Text classifier operation
US11200510B2 (en) 2016-07-12 2021-12-14 International Business Machines Corporation Text classifier training
CN108228555A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 基于栏目主题的文章处理方法和装置
CN113886569B (zh) * 2020-06-16 2023-07-25 腾讯科技(深圳)有限公司 一种文本分类方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2472250A (en) * 2009-07-31 2011-02-02 Stephen Timothy Morris Method for determining document relevance

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726028B2 (en) 2016-11-25 2020-07-28 Alibaba Group Holding Limited Method and apparatus for matching names

Also Published As

Publication number Publication date
TW201135478A (en) 2011-10-16
US20110246486A1 (en) 2011-10-06

Similar Documents

Publication Publication Date Title
TWI443529B (zh) 自動化領域名詞建置方法及系統,及其電腦程式產品
CN104965905B (zh) 一种网页分类的方法和装置
CN104462593B (zh) 一种提供用户个性化资源消息推送的方法和装置
TWI609278B (zh) Method and system for recommending search words
CN107862022B (zh) 文化资源推荐系统
JP5449628B2 (ja) マルチステージを使用したカテゴリ情報の決定
CN103902597B (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
Margaris et al. What makes a review a reliable rating in recommender systems?
US20120330971A1 (en) Itemized receipt extraction using machine learning
CN109325182B (zh) 基于会话的信息推送方法、装置、计算机设备及存储介质
US10664888B2 (en) Method and system for attribute extraction from product titles using sequence labeling algorithms
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及系统
CN104077407B (zh) 一种智能数据搜索系统及方法
CN108694647A (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
US20130006975A1 (en) System and method for matching entities and synonym group organizer used therein
CN111444304A (zh) 搜索排序的方法和装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN105975547B (zh) 基于内容与位置特征的近似web文档检测方法
CN107894994A (zh) 一种检测热点话题类别的方法和装置
JP2013061756A (ja) 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
CN111488385A (zh) 基于人工智能的数据处理方法、装置和计算机设备
US20090307238A1 (en) Method and system for classification of venue by analyzing data from venue website