TWI396983B - 名詞標記裝置、名詞標記方法及其電腦程式產品 - Google Patents

名詞標記裝置、名詞標記方法及其電腦程式產品 Download PDF

Info

Publication number
TWI396983B
TWI396983B TW099111577A TW99111577A TWI396983B TW I396983 B TWI396983 B TW I396983B TW 099111577 A TW099111577 A TW 099111577A TW 99111577 A TW99111577 A TW 99111577A TW I396983 B TWI396983 B TW I396983B
Authority
TW
Taiwan
Prior art keywords
noun
nouns
file
processor
marked
Prior art date
Application number
TW099111577A
Other languages
English (en)
Other versions
TW201135479A (en
Inventor
Ping Che Yang
Tsun Ku
wei shen Lin
Chia Ching Lu
Wen Tai Hsieh
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW099111577A priority Critical patent/TWI396983B/zh
Priority to US12/788,119 priority patent/US8244732B2/en
Priority to JP2010132907A priority patent/JP5020352B2/ja
Priority to KR1020100056181A priority patent/KR101145979B1/ko
Publication of TW201135479A publication Critical patent/TW201135479A/zh
Application granted granted Critical
Publication of TWI396983B publication Critical patent/TWI396983B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Description

名詞標記裝置、名詞標記方法及其電腦程式產品
本發明係關於一種名詞標記裝置、名詞標記方法及其電腦程式產品。更詳細地說,本發明係分階段地標記一電子文件,於不同階段利用上階段之標記結果以及一名詞資料庫之不同集合,對電子文件進行標記。
近年來,隨著網際網路的蓬勃發展以及各式電子產品(如手機、個人數位助理、筆記型電腦及電子書等)的普及,有越來越多的廠商及使用者提供社會大眾各式各樣的電子化資訊與電子閱讀服務,使得電子化資訊儼然成為現今人們獲取資訊的主要來源,也因此閱讀電子資訊已成為人們日常生活不可或缺的一部分。
一般而言,使用者於使用電子閱讀服務(如電子書、網站瀏覽)時,若遇到一陌生或感興趣的詞彙,會希望能得知該詞彙之涵義、基本資訊及其他相關聯之衍生資訊。基於這樣的需求,出現了電子化資訊之名詞標記與自動鏈結搜尋等服務。
習知技術中,名詞自動標記技術大多依據名詞出現頻率來篩選出特定字串(如人名、地名、或專有名詞等),然後予以標記,以標示該名詞之類別、說明、解釋或其他相關資訊。舉例而言,習知技術多以網路搜尋引擎關鍵字查詢頻率較高之字串作為名詞標記之依據,亦有使用斷詞技術或斷詞器並搭配具有詞性之詞庫和句法樹等方式,依據頻率以從句子中進行斷詞並產生斷詞結果(例如取出一個或數個標註有詞性之名詞),以作為名詞標記。然而,這些習知名詞標記技術,通常僅依據出現頻率而未考慮到其類別,無法依據待標記文件之內容來決定進行標記的名詞,以及當新詞其出現頻率不高時無法進行標記等種種問題,因此存在著經常標記錯誤、標記不相關詞彙及無法標記新詞等缺點,導致於名詞標記之效果不佳。為了減少標記錯誤及提高標記準確度,習知名詞標記技術經常需要以人工方式來進行事後修正,如此將耗費大量的人力與時間,無法達到完全自動化標記名詞的目的。
綜上所述,如何提供一可標記新詞以及可依據待標記文件來決定標記名詞之名詞標記方法,讓待標記文件可以完全自動化標記名詞且具有極高準確度、無須再經由人工事後修正等,實為該領域之技術者亟需解決之課題。
本發明之一目的在於提供一種名詞標記裝置。該名詞標記裝置包含一處理器及一儲存單元,該處理器與該儲存單元電性連接。該儲存單元儲存有一電子文件及一名詞資料庫。該名詞資料庫包含複數個名詞,且各該名詞對應至至少一類別。
該處理器以該名詞資料庫之一第一集合標記該電子文件為一第一標記文件,俾該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一。該處理器更依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合。該處理器進一步以該第二集合,重新標記該電子文件為一第二標記文件。
本發明之另一目的在於提供一種用於前述名詞標記裝置之名詞標記方法。該名詞標記裝置包含一處理器及一儲存單元,且該處理器與該儲存單元電性連接。該儲存單元儲存有一電子文件及一名詞資料庫。該名詞資料庫包含複數個名詞,且各該名詞對應至至少一類別。該名詞標記方法包含下列步驟:(a)令該處理器以該名詞資料庫之一第一集合標記該電子文件為一第一標記文件,俾該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一;(b)令該處理器依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合;以及(c)令該處理器以該第二集合,重新標記該電子文件為一第二標記文件。
本發明之又一目的在於提供一種電腦程式產品,內儲一種能執行名詞標記方法之程式,該程式經由一電子裝置載入後執行。該電子裝置包含一處理器及一儲存單元,且該處理器與該儲存單元電性連接。該儲存單元儲存有一電子文件及一名詞資料庫,該名詞資料庫包含複數個名詞,各該名詞對應至至少一類別。該程式包含一程式指令A、一程式指令B及一程式指令C。該程式指令A令該處理器以該名詞資料庫之一第一集合標記該電子文件為一第一標記文件,俾該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一。該程式指令B令該處理器依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合。該程式指令C令該處理器以該第二集合,重新標記該電子文件為一第二標記文件。
本發明係以一名詞資料庫之一第一集合標記該電子文件為一第一標記文件,再依據該第一標記文件所具有之該等被標記名詞所對應之該等類別,決定一個或一個以上的第一選取類別,再依據該第一選取類別決定該名詞資料庫之一第二集合,並以該第二集合重新標記該電子文件為一第二標記文件。如此一來,本發明即可依據初步的被標記名詞來決定選取類別,再依據所決定的選取類別重新標記,以避免標記出與該電子文件相關性較小之名詞。此外,本發明重新標記該電子文件時,係依據選取類別而非依據出現頻率,因此即使出現頻率不高之名詞,如新詞或較少出現之名詞,也可被標記出來。更進一步時,本發明可再根據該第二標記文件,界定該名詞資料庫之一第三集合,並可以該第三集合標記該第二標記文件為一第三標記文件。藉此,本發明係可克服習知技術無法標記新詞以及提供具有高準確度之名詞標記方法之缺點。
在參閱圖式及隨後描述之實施方式後,該技術領域具有通常知識者便可瞭解本發明之其他目的,以及本發明之技術手段及實施態樣。
以下將透過實施例來解釋本發明之內容,本發明的實施例並非用以限制本發明須在如實施例所述之任何特定的環境、應用或特殊方式方能實施。因此,關於實施例之說明僅為闡釋本發明之目的,而非用以限制本發明。須說明者,以下實施例及圖式中,與本發明非直接相關之元件已省略而未繪示。
本發明之第一實施例為一名詞標記裝置1,其示意圖描繪於第1圖。名詞標記裝置1包含一儲存單元11以及一處理器13,其中處理器13與儲存單元11電性連接,且儲存單元11可儲存有一電子文件110和一名詞資料庫112。儲存單元11可為記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或所屬技術領域中具有通常知識者可輕易思及具有相同功能之儲存媒體。處理器13可為目前或未來的各種處理器、中央處理器、微處理器、計算器、或所屬技術領域中具有通常知識者所能輕易思及具有計算能力之裝置。
本發明所指之電子文件110可為各種由電子裝置所產生及可讀取之檔案,如超文字標記語言(Hyper Text Markup Language,HTML)檔、可攜式文件格式(Portable Document Format,PDF)檔、純文字(txt)檔、Microsoft office word檔、經由圖形辨識軟體進行辨識之圖形檔(如bmp檔、jpeg檔及gif檔)及經由音訊辨識軟體對一音訊檔(如mp3檔、wav檔及wmv檔)進行辨識所產生之文字檔。進一步言,電子文件110可以是可由處理器13所辨識或讀取之文字所形成之檔案。
以下將詳述本發明之名詞標記裝置1如何標記電子文件110中之名詞。為便於理解,茲先說明標記電子文件110之涵義,其係指將電子文件110中所出現之某些名詞加以標識,甚至進一步加註與該某些名詞相關之資料,例如:該名詞之類別、該名詞所屬之領域、該名詞之解釋、介紹或相關說明以及與該名詞相關之網頁連結等,俾一使用者於閱讀標記後之電子文件110時,可針對被標記之名詞,透過上述名詞之標記獲得有關該名詞之相關資料,以增添閱讀的方便性以及獲取知識之便利性。
本發明係利用一包含複數個名詞之名詞資料庫112,來標記電子文件。本發明所述之名詞資料庫,其所包含之各名詞對應至至少一類別(例如該名詞可被分類至一個或一個以上的類別),並可進一步地對應至至少一資訊(例如與該名詞相關之資料,像是所屬領域、定義、解釋、介紹、或其他相關說明等)。本發明可自行建立一名詞資料庫,或利用一現有的名詞資料庫。以下則舉例說明名詞標記裝置1於建立名詞資料庫112之方式,例如,由處理器13自至少一具有標記之電子文件中,擷取其所包含之至少一被標記名詞及其對應類類別等,以儲存在名詞資料庫112中。該至少一具有標記之電子文件,例如是來自網際網路的網頁、已具有標記的電子書或其他文件檔案等。
於一實施例中,處理器13可自網際網路蒐集複數個被標記過的電子文件,例如複數個網頁、一第一網頁和一第二網頁。第一網頁係為一關於「哈利波特」小說之網頁,且第一網頁是一以名詞標記過後之網頁。第一網頁所記載之內容包含複數個被標記名詞,且各該被標記名詞對應至至少一類別及一資訊,舉例說明於以下表一中。
處理器13可從第一網頁中擷取被標記之名詞及其對應的類別及資訊。舉例來說,其可依據網頁標籤將第一網頁分割為複數個網頁段落,其中該等網頁段落包含該等被標記名詞、該等資訊及該等類別之網頁段落。具體而言,處理器13先從第一網頁擷取出「哈利波特」等被標記之名詞,再於第一網頁之內容中搜尋出具有「哈利波特」之位置,並依據網頁標籤如「<a href=”…”></a>」分割第一網頁為複數個網頁段落。
接著,處理器13利用一演算法自該等網頁段落擷取出包含有該等名詞、該等資訊及該等類別之資訊段落。於本實施例中,該演算法可以利用一正規表示法來擷取網頁資訊;於其它實施例中,該演算法亦可為任一可用來擷取網頁內容之演算法。換言之,本發明並不限制此階段所使用之演算法。一般來說,正規表示法是一種電腦底層的形式語言(適合用來抽取有特定排列規則但卻有無限組合的文字段落),屬於處理器可辨認並處理的通用機器語言。本發明所屬技術領域中具有通常知識者應可輕易了解正規表示法之詳細運作,故在此不加贅述。
接著,處理器13利用該演算法,去除資訊段落中與網頁呈現相關的元資料(meta data),例如:字型大小、顏色及排版等網頁標籤。另外,處理器13利用該演算法將資訊段落中的文字進行語言一致性之處理,例如:將資訊段落中出現的簡體字轉換為繁體字。此外,處理器13亦可利用該演算法判斷資訊段落中之結構模版(template),藉此自資訊段落中擷取出該等名詞所對應之該等資訊以及該等類別。舉例而言,處理器13利用正規表示法去除資訊段落中之「新細明體」及「2009年9月20日」等元資料,並將簡體字「妙丽」轉換為繁體字「妙麗」,以及判斷結構模版「<td>魔法學校裡的高材生…</td>」中具有一資訊「魔法學校裡的高材生…」,且擷取出該資訊。
綜上所述,處理器13可自多個具有標記之電子文件中,例如多個網頁或其他的電子書檔案中擷取名詞、名詞所對應之資訊及類別,並建立或儲存在名詞資料庫112。
當已存在有名詞資料庫112後,處理器13可進一步的,定期地或不定期地根據新增或被更新的電子文件(例如新網頁或新的電子書),以更新名詞資料庫112。舉例來說,儲存單元11更可儲存有一第二網頁的相關資料,處理器13可擷取出第二網頁之一網頁更新時間,並根據該網頁更新時間判斷儲存單元11所儲存的第二網頁是否已被更新。若是,則處理器13可擷取出第二網頁之一更新內容,並根據該更新內容判斷是否更新名詞資料庫112,以下將詳述處理器13如何判斷是否更新名詞資料庫112。
針對該更新內容,處理器13依據前述建立名詞資料庫112之方法,為該更新內容建立一名詞清單,其中,該名詞清單可包含從該更新內容所擷取出之至少一個以上的名詞及其對應的類別和資訊。接著,處理器13藉由比對該名詞清單中的名詞與名詞資料庫112,判斷該名詞清單是否具有與名詞資料庫112所包含之該等名詞相同之名詞;如是,處理器13可進一步判斷是否更新名詞資料庫112之內容,例如是否更新名詞資料庫112中名詞之對應類別或相關資訊。另一方面,處理器13亦藉由比對該名詞清單與名詞資料庫112,判斷該名詞清單是否具有與名詞資料庫112所包含之該等名詞相異之名詞;如是,處理器13將判斷是否將相異之名詞新增至名詞資料庫112。以下進一步詳述此二種情形。
於處理器13判斷該名詞清單具有與名詞資料庫112所包含之該等名詞相同之名詞後,處理器13根據該名詞清單之新增內容計算該名詞清單與名詞資料庫112之一差異比例。若處理器13判斷該差異比例大於一預設值,則處理器13以該名詞清單之新增內容更新名詞資料庫112。
更進一步,處理器13可利用一停用字詞表(stoplist)儲存數個出現頻率過高或是過低的特定字串,且依據停用字詞表排除表中的特定字串作為名詞資料庫112中的名詞、名詞清單中的名詞、被標記的名詞、或是名詞的更新內容等。詳言之,處理器13可將所有的字詞做一個字數的統計和頻率處理過程,通常出現頻率過高或是過低之特定字串,其通常不會是和該內容最有關聯的「主題字」,因此儲存在該停用字詞表中。該停用字詞表可進一步包含了本身和系統有關之字詞但和該內容之名詞本身沒有關係的特定字串。上述的字數頻率處理過程,例如可使用TF-IDF(term frequency-inverse document frequency)進行處理,其亦可依據以往經驗或歷史數據資料來設定並儲存在停用字詞表中。
舉例而言,處理器13判斷該名詞清單具有「哈利波特」,且「哈利波特」所對應之資訊中具有一100個字之內容,處理器13計算該100個字之內容相較於名詞資料庫112中「哈利波特」所對應之資訊之差異比例為20%,大於一預設值5%,因此處理器13判斷應更新「哈利波特」所對應之資訊,例如將新增內容加入到名詞資料庫112中「哈利波特」所對應之資訊。另一例子中,當其停用字詞表中包含有「編輯戰」及「爭議更新」等字串時,處理器13判斷第二網頁之一編輯者註解未包含「編輯戰」及「爭議更新」等字串,且由於判斷之結果為該差異比例大於一預設值,因此處理器13將判斷應更新名詞資料庫112中「哈利波特」所對應之資訊。
另一方面,於處理器13判斷該名詞清單具有與名詞資料庫112所包含之該等名詞相異之一新名詞後,則處理器13將該新名詞新增至名詞資料庫112。在另一些例子中,處理器13在判斷是否將該新名詞新增至名詞資料庫112時,更進一步可擷取第二網頁之一編輯者註解,判斷該編輯者註解未不包含停用字詞表中的特定字串時,則處理器13將該新名詞新增至名詞資料庫112。舉例而言,處理器13判斷該名詞清單具有一新名詞「跩哥馬份」,所對應資訊之字數為200字,且其停用字詞表中包含有「廣告」及「侵權」等字串,處理器13判斷第二網頁之一編輯者註解未包含「廣告」及「侵權」等字串,因此將新名詞「跩哥馬份」及其對應的200字對應資訊新增至名詞資料庫112。
於建立名詞資料庫112後,處理器13便可根據名詞資料庫112標記一電子文件110。於本實施例中,電子文件110係為一哈利波特小說電子書。以下將詳述處理器13如何根據名詞資料庫112標記電子文件110。
首先,處理器13決定名詞資料庫112之一第一集合,其中該第一集合係為一由名詞資料庫112中的至少一名詞所構成之集合。在某些實施例中,處理器13可將名詞資料庫112中之該等所包含之所有名詞,來作為此第一集合。在另一些實施例中,處理器13亦可將名詞資料庫112中,依據各個名詞之字數多寡,由字數多至字數少進行排序,並根據排序之結果產生此第一集合,例如:選取字數較多的前50個名詞,或是排序前30%的名詞。在又一些實施例中,處理器13亦可直接選取字數大於一特定數目之名詞形成第一集合,例如:字數大於2或3者。
接著,處理器13以名詞資料庫112之第一集合,標記電子文件110為第一標記電子文件。在較佳實施例中,處理器13可先擷取電子文件110之部分內容作為一待標記電子文件,例如:處理器13可將電子文件110平分為數個段落,並擷取各段落中一特定數量(例如1000個)的文字作為一待標記電子文件。接著,處理器13根據第一集合所包含之名詞,以字串比對方式,標記該待標記電子文件為一第一標記文件,俾第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一。舉例而言,假設第一集合包含名詞「消失的密室」,則電子文件110被擷取出之待標記電子文件中的字串「消失的密室」則會被處理器13標出,而被標出之這些字串,於本發明中被稱之為被標記名詞。需說明者,於其他實施態樣中,處理器13亦可省略自電子文件110擷取一待標記電子文件之運作,而直接以第一集合內所包含之名詞,標記電子文件110為第一標記電子文件。
當產生第一標記電子文件後,處理器13再依據第一標記電子文件所包含之該等被標記名詞所對應之該等類別決定至少一第一選取類別。處理器13選取第一選取類別之作法可以有多種實施方式,例如,將所有被標記名詞之所有類別均作為第一選取類別,或是選取被標記名詞之所有類別中的部分類別來作為第一選取類別,亦或是選取出現頻率較高之被標記名詞的所有或全部類別來作為第一選取類別。在一較佳實施例中,處理器13可統計第一標記電子文件所具有之該等被標記名詞所對應之該等類別以得一統計數目,此統計數目為各該類別所對應之各該被標記名詞於該第一標記文件中被標記次數之總和。接著,處理器13根據該統計數目選取至少一個類別為第一選取類別。依據此第一選取類別於該名詞資料庫界112,決定一第二集合,且此第二集合包含該至少一第一選取類別所對應之該等名詞。接著,處理器13根據該第二集合以一字串比對方式,重新標記該待標記電子文件為一第二標記文件。之後,處理器13更可將第二標記文件儲存於儲存單元11中或傳送至一顯示單元(未繪示於圖式中)予以顯示。
舉例而言,於本實施例中,該第一標記文件具有「哈利波特」、「妙麗」及「消失的密室」等複數個被標記名詞。處理器13統計「哈利波特」於第一標記文件中出現576次,且「妙麗」於第一標記文件中出現327次。由於「哈利波特」及「妙麗」皆對應至類別「哈利波特人物」,因此處理器13統計類別「哈利波特人物」之統計數目即為576+327=903。假設本實施例之統計結果為:類別「哈利波特人物」之統計數目為903,類別「魔法學校學生」之統計數目為432,且類別「哈利波特小說名稱」之統計數目為10。接著,處理器13根據這些統計數目,選取統計數目最大或較大之類別作為第一選取類別,例如:選取「哈利波特人物」為第一選取類別。依據第一選取類別於名詞資料庫112界定第二集合,如上述之例子,第二集合包含其類別對應到「哈利波特人物」之該等名詞。應注意的是,上述計算方式只是一種實施方式,並不是唯一的計算方式。
須特別說明者,於本實施例中,界定第二集合之第一選取類別可以是名詞資料庫112所定義之該等類別其中之一(即統計數目最大者),但於其他實施例中,界定第二集合之選取類別亦可以是該等類別其中之複數個類別,例如:統計數目較多之前二名或前三名。換言之,本發明並不限制第一選取類別之個數,例如:可同時選取類別「哈利波特人物」及類別「魔法學校學生」為第一選取類別,並以此二類別所對應之該等名詞界定第二集合。
上述根據第二集合標記之第二標記文件,具有複數個被標記名詞,且第二標記文件之各被標記名詞為第二集合所包含之該等名詞其中之一。一般來說,第二標記文件中的被標記名詞,是依據一個或一個以上的第一選取類別來進行標記,和第一標記文件中的被標記名詞可能部份相同、部份不相同。
更進一步時,可另提供一種機制,若採用該機制進一步處理第二標記文件,使電子文件110能夠被標記出更多之名詞。具體而言,處理器13可進一步根據第二標記文件之該等被標記名詞所對應之該等資訊,決定名詞資料庫112之一第三集合,並根據該第三集合以一字串比對方式,標記該第二標記文件為一第三標記文件。在一些實施例中,第三集合所包含的名詞,是依據第二標記文件之該等被標記名詞所對應之該等資訊,以於名詞資料庫112中擷取出第二集合中未包含有的名詞,而處理器13可再根據該第三集合,於第二標記文件中為第二集合中未包含有的名詞來新增加標記。
進一步言,處理器13可根據下列二種實施方式其中之一,決定名詞資料庫112之第三集合:首先說明第一種決定第三集合之方式。處理器13判斷第二標記文件之該等被標記名詞所對應之該等資訊,具有該第二標記文件所未標記名詞,此未標記名詞不屬於第二集合且對應至一第二選取類別,其中第二選取類別係非屬於該第一選取類別。處理器13便可決定第三集合包含此第二選取類別所對應且第二集合中未包含有之該等名詞。
舉例而言,處理器13判斷該第二標記文件之一被標記名詞「哈利波特」所對應之資訊「本書主角,額頭上有一閃電型傷痕…」具有一未標記名詞「霍格華茲學院」,且名詞「霍格華茲學院」不屬於前述第二集合。由於「霍格華茲學院」對應至類別「魔法學院」(為名詞資料庫112所定義之該等類別其中之一),於是處理器13便可決定第三集合包含類別「魔法學院」所對應之該等名詞。
接著說明第二種決定第三集合之方式。處理器13判斷第二標記文件之該等被標記名詞所對應之該等資訊具有一未標記名詞,且該未標記名詞不屬於該第二集合。處理器13便可決定第三集合包含該未標記名詞。
舉例而言,處理器13判斷該第二標記文件之一被標記名詞「哈利波特」所對應之資訊「本書主角,額頭上有一閃電型傷痕…」具有一未標記名詞「霍格華茲學院」,且此未標記名詞「霍格華茲學院」不屬於該第二集合,於是處理器13便可決定第三集合包含「霍格華茲學院」。
處理器13根據第三集合,再將第二標記文件新增標記為該第三標記文件後,該第三標記文件具有複數個已標記名詞(如上述實施例中,其包含有依據第二集合和第三集合所標記的名詞),此時即可視為完成對電子文件110之名詞標記,並可將第三標記文件儲存於儲存單元11中或傳送至一顯示單元(未繪示於圖式中)予以顯示。
本發明更進一步時,可於第二標記文件或是第三標記文件中該等已標記名詞間建立一關聯性。
首先,處理器13利用一分群演算法將該等已標記名詞分群為複數個群組,分群之依據為該等已標記名詞所對應之該等類別。接著,選擇一核心標記名詞,處理器13利用該分群演算法計算該核心標記名詞和各個群組中各個名詞之一特徵值,以及計算核心標記名詞和各個群組之一群特徵值。之後,處理器13可選取群特徵值最高之複數個群組以及該等群組中特徵值最高之複數個名詞建立一關聯性,其可經由一顯示裝置或一操作介面予以顯示,如第2圖所示。
在第2圖中,假設標記完成電子文件具有46個已標記名詞,且此46個已標記名詞係對應至7個類別,因此處理器13可利用一分群演算法將該等已標記名詞分群為7個群組。在本實施例中,選擇「哈利波特」作為核心標記名詞(在其他實施例中,亦可選擇其他標記名詞作為核心標記名詞),處理器13可計算各個群組中各個名詞和核心標記名詞之間的一特徵值,如第2圖所示之「哈利波特人物」群組中的「妙麗(420)」,其中420即為「哈利波特人物」群組中「妙麗」所對應「哈利波特」之特徵值,而「魔法學校學生」群組中的「妙麗(375)」,其中375即為「魔法學校學生」群組中「妙麗」所對應「哈利波特」之特徵值。處理器13另計算各個群組之一群特徵值,如第2圖所示之「哈利波特人物(787)」,其中787即為「哈利波特人物」所對應之群特徵值。最後,處理器13選取群特徵值最高之數個(例如3個)群組以及數個群組中特徵值最高之數個(例如3個),繪示出「哈利波特」和「哈利波特人物」群組、「魔法學校學生」群組、「魔法學校學院」群組、以及和「妙麗」、「佛地魔」、「鄧不利多」、「榮恩」……等標記名詞之間的關聯性,如第2圖所示。
各個群組中每一個名詞和核心標記名詞之間的特徵值,可以依據一事先建立的知識本體、名詞語意樹狀結構、或一特徵值計算公式來進行計算,例如每一個名詞和核心標記名詞在名詞語意樹狀結構的距離等。而各群組和核心標記名詞之間的群特徵值,可依據該群組中部分或全部名詞的特徵值來進行計算,在一實施例中,可用貪婪演算法(greedy algorithm),列出一群組中所有名詞和核心標記名詞之間的距離,將所有名詞排序並區分成數個區段(例如3等分或5等分),每個區段分別給予一個係數;之後,經由一特定公式來計算群特徵值,例如將該群組中每一個名詞(也可以是該群組中排序在前面的數個名詞)的特徵值分別乘上其所屬區段的係數後全部相加,以作為該群組的群特徵值。群特徵值計算方式亦有多種實施方式,例如,直接將群組中全部或部分名詞的特徵值相加而獲得,亦或經由其他計算公式來計算獲得。
本發明之第二實施例如第3圖所示,其係為一種用於如第一實施例所述之名詞標記裝置之名詞標記方法。該名詞標記裝置包含一處理器及一儲存單元,該處理器與該儲存單元電性連接,該儲存單元儲存有一電子文件及一名詞資料庫,該名詞資料庫包含複數個名詞,各該名詞對應至至少一類別以及一資訊。
此外,第二實施例所描述之名詞標記方法亦可由一電腦程式產品執行,當名詞標記裝置經由一電子裝置(如電腦、計算器、伺服器、PDA、筆記型電腦及小筆電等等)載入該電腦程式產品並執行該電腦程式產品所包含之複數個程式指令後,即可完成第二實施例所述之名詞標記方法。前述之電腦程式產品可儲存於電腦可讀取記錄媒體中,例如唯讀記憶體(read only memory;ROM)、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟習此項技藝者所習知且具有相同功能之任何其它儲存媒體中。
第3圖係描繪第二實施例之名詞標記方法之流程圖。步驟304係令處理器以名詞資料庫之一第一集合標記電子文件為一第一標記文件。其中,該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一。
執行完步驟304之後,接著,執行步驟306,令該處理器依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合。接著,執行步驟307,令處理器以第二集合重新標記電子文件為一第二標記文件。
更進一步時,此名詞標記方法更可執行步驟308,令處理器根據第二標記文件之被標記名詞所對應之資訊決定名詞資料庫之一第三集合。接著,執行步驟309,令處理器以第三集合,標記第二標記文件為一第三標記文件。最後,執行步驟310,令處理器於已標記名詞間建立一關聯性。
在其他實施例中,此名詞標記方法更可包含有步驟301~303(第3圖中未繪示)。步驟301中,令處理器自至少一電子文件擷取複數個名詞以形成該名詞資料庫,其中處理器可利用一正規表示法自至少一網頁擷取等名詞。步驟302中,令處理器判斷該電子文件是否已被更新。若是,執行步驟303,令處理器更新名詞資料庫,之後再執行步驟304;若否,處理器則直接執行步驟304。
在另一些實施例中,在步驟304之後可新增一步驟305,令處理器統計第一標記文件之被標記名詞所對應之類別以得複數個統計數目,其中各統計數目為各類別所對應之各被標記名詞於第一標記文件中被標記次數之總和。
除了上述步驟,第二實施例亦能執行第一實施例所描述之操作及功能,所屬技術領域具有通常知識者可直接瞭解第二實施例如何基於上述第一實施例以執行此等操作及功能,故不贅述。
綜上所述,本發明係以一名詞資料庫之一第一集合標記一電子文件為一第一標記文件,以依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,便能得知該電子文件與哪些類別之相關性較大。本發明再根據相關性較大之類別,決定該名詞資料庫之一第二集合,並以第二集合重新標記該電子文件為一第二標記文件。如此一來,即能避免標記出與電子文件相關性較小之名詞。藉此,本發明係可克服習知技術無法標記新詞以及提供具有高準確度之名詞標記方法之缺點。
上述之實施例僅用來例舉本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技術者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。
1...名詞標記裝置
11...儲存單元
110...電子文件
112...名詞資料庫
13...處理器
第1圖係為本發明第一實施例之名詞標記裝置示意圖;
第2圖係為本發明第一實施例之一關聯性之示意圖;以及
第3圖係為本發明第二實施例之流程圖。

Claims (17)

  1. 一種名詞標記裝置,包含:一儲存單元,用以儲存一電子文件及一名詞資料庫,該名詞資料庫包含複數個名詞,各該名詞對應至至少一類別;以及一處理器,與該儲存單元電性連接,並用以:以該名詞資料庫之一第一集合標記該電子文件為一第一標記文件,俾該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一;依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合;以及以該第二集合,重新標記該電子文件為一第二標記文件。
  2. 如請求項1所述之名詞標記裝置,其中該處理器係根據複數個統計數目決定該至少一第一選取類別,各該統計數目為各該類別所對應之各該被標記名詞於該第一標記文件中被標記次數之總和。
  3. 如請求項1所述之名詞標記裝置,其中該第二集合包含於該名詞資料庫之該至少一第一選取類別所對應之該等名詞。
  4. 如請求項1所述之名詞標記裝置,其中各該名詞更對應至一資訊,該第二標記文件具有複數個被標記名詞,該第二標記文件之各該被標記名詞為該第二集合所包含之該等名詞其中之一,該處理器更根據該第二標記文件之該等被標記名詞所對應之該等資訊,決定該名詞資料庫之一第三集合,並以該第三集合,標記該第二標記文件為一第三標記文件。
  5. 如請求項4所述之名詞標記裝置,其中該處理器係判斷該第二標記文件之該等被標記名詞所對應之該等資訊具有該第二標記文件中之一未標記名詞,該未標記名詞不屬於該第二集合且對應至一第二選取類別時,該處理器係決定該第三集合包含該第二選取類別所對應之該等名詞。
  6. 如請求項4所述之名詞標記裝置,其中該處理器係判斷該第二標記文件之該等被標記名詞所對應之該等資訊具有該第二標記文件中之一未標記名詞,該未標記名詞不屬於該第二集合,該處理器係決定該第三集合包含該未標記名詞。
  7. 如請求項1所述之名詞標記裝置,其中該處理器更自至少一具有標記之電子文件擷取其所包含之至少一被標記名詞以形成該名詞資料庫。
  8. 如請求項1所述之名詞標記裝置,其中該第二標記文件具有複數個被標記名詞,該處理器更用以於該等被標記名詞間建立一關聯性。
  9. 一種名詞標記方法,係用於一名詞標記裝置,該名詞標記裝置包含一處理器及一儲存單元,該處理器與該儲存單元電性連接,該儲存單元儲存有一電子文件及一名詞資料庫,該名詞資料庫包含複數個名詞,各該名詞對應至至少一類別,該名詞標記方法包含下列步驟:(a)令該處理器以該名詞資料庫之一第一集合標記該電子文件為一第一標記文件,俾該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一;(b)令該處理器依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合;以及(c)令該處理器以該第二集合,重新標記該電子文件為一第二標記文件。
  10. 如請求項9所述之名詞標記方法,其中該處理器於該步驟(b)係根據複數個統計數目決定該至少一第一選取類別,各該統計數目為各該類別所對應之各該被標記名詞於該第一標記文件中被標記次數之總和。
  11. 如請求項9所述之名詞標記方法,其中該第二集合包含於該名詞資料庫該至少一第一選取類別所對應之該等名詞。
  12. 如請求項9所述之名詞標記方法,其中各該名詞更對應至一資訊,該第二標記文件具有複數個被標記名詞,該第二標記文件之各該被標記名詞為該第二集合所包含之該等名詞其中之一,該名詞標記方法更包含下列步驟:(d)令該處理器根據該第二標記文件之該等被標記名詞所對應之該等資訊,決定該名詞資料庫之一第三集合;以及(e)令該處理器以該第三集合,標記該第二標記文件為一第三標記文件。
  13. 如請求項12所述之名詞標記方法,其中該步驟(d)更包含下列步驟:(d1)令該處理器判斷該第二標記文件之該等被標記名詞所對應之該等資訊具有該第二標記文件中之一未標記名詞,該未標記名詞不屬於該第二集合且對應至一第二選取類別時,該處理器係決定該第三集合包含該第二選取類別所對應之該等名詞。
  14. 如請求項12所述之名詞標記方法,其中該步驟(d)更包含下列步驟:(d2)令該處理器判斷該第二標記文件之該等被標記名詞所對應之該等資訊具有該第二標記文件中之一未標記名詞,該未標記名詞不屬於該第二集合,該處理器係決定該第三集合包含該未標記名詞。
  15. 如請求項9所述之名詞標記方法,更包含下列步驟於步驟(a)前:令該處理器自至少一具有標記之電子文件擷取其所包含之至少一被標記名詞以形成該名詞資料庫。
  16. 如請求項9所述之名詞標記方法,其中該第二標記文件具有複數個被標記名詞,該名詞標記方法更包含下列步驟:(f)令該處理器於該等被標記名詞間建立一關聯性。
  17. 一種電腦程式產品,內儲一種能執行名詞標記方法之程式,該程式經由一電子裝置載入後執行,其中該電子裝置包含一處理器及一儲存單元,該處理器與該儲存單元電性連接,該儲存單元儲存有一電子文件及一名詞資料庫,該名詞資料庫包含複數個名詞,各該名詞對應至至少一類別,該程式包含:一程式指令A,令該處理器以該名詞資料庫之一第一集合標記該電子文件為一第一標記文件,俾該第一標記文件具有複數個被標記名詞,各該被標記名詞為該第一集合所包含之該等名詞其中之一;一程式指令B,令該處理器依據該等被標記名詞所對應之該等類別決定至少一第一選取類別,且依據該至少一第一選取類別於該名詞資料庫界定一第二集合;以及一程式指令C,令該處理器以該第二集合,重新標記該電子文件為一第二標記文件。
TW099111577A 2010-04-14 2010-04-14 名詞標記裝置、名詞標記方法及其電腦程式產品 TWI396983B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW099111577A TWI396983B (zh) 2010-04-14 2010-04-14 名詞標記裝置、名詞標記方法及其電腦程式產品
US12/788,119 US8244732B2 (en) 2010-04-14 2010-05-26 Named entity marking apparatus, named entity marking method, and computer readable medium thereof
JP2010132907A JP5020352B2 (ja) 2010-04-14 2010-06-10 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
KR1020100056181A KR101145979B1 (ko) 2010-04-14 2010-06-14 개체명 마킹 장치, 개체명 마킹 방법, 및 이를 위한 컴퓨터 판독가능 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099111577A TWI396983B (zh) 2010-04-14 2010-04-14 名詞標記裝置、名詞標記方法及其電腦程式產品

Publications (2)

Publication Number Publication Date
TW201135479A TW201135479A (en) 2011-10-16
TWI396983B true TWI396983B (zh) 2013-05-21

Family

ID=44788990

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099111577A TWI396983B (zh) 2010-04-14 2010-04-14 名詞標記裝置、名詞標記方法及其電腦程式產品

Country Status (4)

Country Link
US (1) US8244732B2 (zh)
JP (1) JP5020352B2 (zh)
KR (1) KR101145979B1 (zh)
TW (1) TWI396983B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012859A1 (en) * 2012-07-03 2014-01-09 AGOGO Amalgamated, Inc. Personalized dynamic content delivery system
US10552539B2 (en) * 2015-12-17 2020-02-04 Sap Se Dynamic highlighting of text in electronic documents
TWI595367B (zh) * 2016-10-24 2017-08-11 洪信傑 網路資訊分析方法及採用此方法之網路資訊分析系統
CN109165388B (zh) * 2018-09-28 2022-06-21 郭派 一种构建英语多义词释义语义树的方法和系统
US11907678B2 (en) * 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
TWI225994B (en) * 2003-12-16 2005-01-01 Inst Information Industry System, method and machine-readable storage medium for automated sentence annotation
CN101192220A (zh) * 2006-11-21 2008-06-04 财团法人资讯工业策进会 标签建构方法及系统
US20080319978A1 (en) * 2007-06-22 2008-12-25 Xerox Corporation Hybrid system for named entity resolution

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001090921A2 (en) * 2000-05-25 2001-11-29 Kanisa, Inc. System and method for automatically classifying text
US6892204B2 (en) * 2001-04-16 2005-05-10 Science Applications International Corporation Spatially integrated relational database model with dynamic segmentation (SIR-DBMS)
CA2475319A1 (en) * 2002-02-04 2003-08-14 Cataphora, Inc. A method and apparatus to visually present discussions for data mining purposes
US7269544B2 (en) * 2003-05-20 2007-09-11 Hewlett-Packard Development Company, L.P. System and method for identifying special word usage in a document
JPWO2005029353A1 (ja) 2003-09-18 2006-11-30 富士通株式会社 注釈管理システム、注釈管理方法、文書変換サーバ、文書変換プログラム、電子文書付加プログラム
US20080072134A1 (en) * 2006-09-19 2008-03-20 Sreeram Viswanath Balakrishnan Annotating token sequences within documents
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2009217741A (ja) * 2008-03-12 2009-09-24 Fujifilm Corp メタデータ付与方法及び装置、並びにメタデータ付与プログラム
US8275608B2 (en) * 2008-07-03 2012-09-25 Xerox Corporation Clique based clustering for named entity recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
TWI225994B (en) * 2003-12-16 2005-01-01 Inst Information Industry System, method and machine-readable storage medium for automated sentence annotation
CN101192220A (zh) * 2006-11-21 2008-06-04 财团法人资讯工业策进会 标签建构方法及系统
US20080319978A1 (en) * 2007-06-22 2008-12-25 Xerox Corporation Hybrid system for named entity resolution

Also Published As

Publication number Publication date
JP5020352B2 (ja) 2012-09-05
US8244732B2 (en) 2012-08-14
US20110258194A1 (en) 2011-10-20
KR101145979B1 (ko) 2012-05-15
KR20110115061A (ko) 2011-10-20
JP2011221978A (ja) 2011-11-04
TW201135479A (en) 2011-10-16

Similar Documents

Publication Publication Date Title
US20210342404A1 (en) System and method for indexing electronic discovery data
Quan et al. Unsupervised product feature extraction for feature-oriented opinion determination
US9613024B1 (en) System and methods for creating datasets representing words and objects
US20190236102A1 (en) System and method for differential document analysis and storage
US9864741B2 (en) Automated collective term and phrase index
US8402036B2 (en) Phrase based snippet generation
Liu et al. Literature retrieval based on citation context
US10445063B2 (en) Method and apparatus for classifying and comparing similar documents using base templates
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
US20110282651A1 (en) Generating snippets based on content features
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
US11074595B2 (en) Predicting brand personality using textual content
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
TWI396983B (zh) 名詞標記裝置、名詞標記方法及其電腦程式產品
JP5629976B2 (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
JP2020067987A (ja) 要約作成装置、要約作成方法、及びプログラム
Sariki et al. A book recommendation system based on named entities
JP6871642B2 (ja) 辞書構築装置、マップ作成装置、検索装置、辞書構築方法、マップ作成方法、検索方法、およびプログラム
JP5187187B2 (ja) 体験情報検索システム
CN111444413B (zh) 一种数据查询方法、装置和计算设备
Milosevic Marvin: Semantic annotation using multiple knowledge sources