TWI550420B - 資訊取得系統與方法、以及儲存裝置 - Google Patents

資訊取得系統與方法、以及儲存裝置 Download PDF

Info

Publication number
TWI550420B
TWI550420B TW104104845A TW104104845A TWI550420B TW I550420 B TWI550420 B TW I550420B TW 104104845 A TW104104845 A TW 104104845A TW 104104845 A TW104104845 A TW 104104845A TW I550420 B TWI550420 B TW I550420B
Authority
TW
Taiwan
Prior art keywords
word
information
text file
synonym
captured
Prior art date
Application number
TW104104845A
Other languages
English (en)
Other versions
TW201629801A (zh
Inventor
黃純敏
李亞哲
吳政毅
陳柏宏
羅嘉文
蕭維慶
李謦哲
Original Assignee
國立雲林科技大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立雲林科技大學 filed Critical 國立雲林科技大學
Priority to TW104104845A priority Critical patent/TWI550420B/zh
Priority to US14/837,692 priority patent/US20160239561A1/en
Publication of TW201629801A publication Critical patent/TW201629801A/zh
Application granted granted Critical
Publication of TWI550420B publication Critical patent/TWI550420B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

資訊取得系統與方法、以及儲存裝置
本發明係關於一種資訊取得系統和方法,特別關於一種可以提供概括縮詞資訊、或同義詞資訊、或同形異義詞資訊的資訊取得系統和方法。
在中文文件中,字詞常以縮寫型態出現,例如:「台灣鐵路局」會縮寫成「台鐵局」。此外,字詞的用法也會隨著時間、文化以及使用頻率的不同而不斷地增加及改變。例如:在過去從未出現的社群網站「Facebook」,現今許多人會直稱「臉書」或「FB」來代表。這些不斷被創造的同義詞,以及高度「可縮寫性」之用法,雖然為現代人爭取了時效及便利性,也豐富了情感上的表達,但對於字詞處理則是一大難題,影響所及包括搜尋引擎的檢索效果都受到很大的考驗。
例如,當使用者想要檢索「三軍」是哪三軍,若是在Google的檢索畫面輸入「三軍」,則會出現許多關於「三軍總醫院」的資訊,卻非使用者所想要知道的答案。如此一來,使用者要花非常多的時間才能夠從大量的資料找到自己所想要的資訊。像這樣的例子非常多,因此這些概括詞或縮詞的詞句結構,會造成檢索引擎的檢索效能下降,並增加使用者找尋正確答案的時間成本。
有鑒於此,本發明提供一種資訊取得系統、方法和應用程式,可以提升檢索效益,快速地提供使用者所欲查詢之字詞的正確資訊。
本發明所提供的一種資訊取得系統,包括字詞建立單元、字詞對應單元、資料庫組和使用者介面單元。字詞建立單元係連線至一第一 伺服器,其中第一伺服器具有至少一第一文字檔案,而字詞建立單元分析文字檔案的內容而產生至少一擷取字詞。字詞對應單元係連線至字詞建立單元和一第二伺服器,其中第二伺服器具有多筆第二文字檔案,而字詞對應單元將擷取字詞與第二文字檔案的內容進行比對,而決定是否進行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序,並且對應產生一概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊。資料庫組與字詞建立單元和字詞對應單元連線,以儲存擷取字詞,並儲存概括縮詞資訊、或同義詞資訊、或同形異義詞資訊。此外,使用者介面單元與資料庫組連線,並接收一待查詢字詞。當待查詢字詞與擷取字詞相同時,則使用者介面單元提供概括縮詞資訊、或同義詞資訊、或同形異義詞資訊。
從另一觀點來看,本發明提供一種資訊取得方法,包括從一第一伺服器擷取至少一第一文字檔案,接著分析第一文字檔案而產生至少一擷取字詞。另外,連線至一第二伺服器,並且第二伺服器具有多筆第二文字檔案。當至少其中一第二文字檔案存在擷取字詞時,則執行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序,並對應產生一概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊。
在一實施例中,本發明之資訊取得方法更包括當接收到一待查詢字詞時,則比對待查詢字詞與擷取字詞是否相同。若是待查詢字詞與擷取字詞相同時,則提供概括縮詞資訊、或同義詞資訊、或同形異義詞資訊。
在一實施例中,上述的第一伺服器係一新聞伺服器,並且第一文字檔案係一新聞網頁的原始碼檔案。
在一實施例中,產生擷取字詞的步驟,至少包括擷取第一文字檔案的文字內容,並且將第一文字檔案的文字內容進行一斷詞處理,以產生擷取字詞。
在一實施例中,上述的斷詞處理包括詞庫斷詞法、或統計斷詞法、或混合斷詞法。
在一實施例中,第二伺服器係一開放編輯資訊伺服器,而第二文字檔案則是一被編輯字詞的網頁。
在一實施例中,本發明之資訊取得方法更包括判斷擷取字詞是否有中文數字。若是擷取字詞存在中文數字時,則執行概括縮詞萃取程序。
在一實施例中,當其中一第二文字檔案的內容存在擷取字詞時,則概括縮詞萃取程序包括尋找相符之第二文字檔案中,擷取字詞所在的位置,並且判斷相符之第二文字檔案中,擷取字詞所在之位置後是否出現至少一特殊字元。當判斷編輯字詞所在之位置後出現特殊字元時,則判斷至少一特殊字元出現的次數是否與中文數字相符。若是特殊字元出現的次數與中文數字相符,則擷取特殊字元之前和之後所出現的內容當作概括縮詞資訊。
在一實施例中,當其中一第二文字檔案的內容存在擷取字詞時,則同義詞萃取程序包括尋找相符之第二文字檔案中,擷取字詞所在的位置,並且將擷取字詞所在之段落的第一個字詞當作同義詞資訊。
在一實施例中,當其中一第二文字檔案的內容存在擷取字詞,則同義詞萃取程序包括尋找相符之第二文字檔案中,擷取字詞所在的位置,然後將擷取字詞所在之段落中的粗體字詞集合當作同義詞資訊。
在一實施例中當其中一第二文字檔案的內容存在擷取字詞,則同義詞萃取程序包括依據第二文字檔案編排的規則,而擷取相符之第二文字檔案之一特定位置的字詞當作同義詞資訊。
在一實施例中,當超過一個以上的第二文字檔案的內容存在擷取字詞時,則同形異義詞萃取程序包括依據一字詞組合規則,而將這些相符的第二文字檔案的內容進行處理,而產生一同形異義詞資訊。
在一實施例中,本發明之資訊取得方法,更包括依據一接受度評分來調整概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊;或是依據一輸入內容來調整該概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊。
從另一觀點來看,本發明提供一種儲存裝置,儲存一應用程式,而此應用程式會從一第一伺服器擷取至少一第一文字檔案,並且分析第一文字檔案而產生至少一擷取字詞。接著,此應用程式會連線至一第二 伺服器,而第二伺服器具有至少一第二文字檔案。此外,上述的應用程式係將擷取字詞與第二文字檔案進行比對。當第二文字檔案存在擷取字詞時,則執行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序,並對應產生一概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊。
從另一觀點來看,本發明還提供一種資訊取得方法,至少包括接收一待查詢字詞。當待查詢字詞具有中文數字時,則提供依據一概括縮詞萃取程序而獲得的一概括縮詞資訊。
在一實施例中,當待查詢字詞沒有中文數字時,則提供依據一同義詞萃取程序或一同形異義詞萃取程序所獲得的一同義詞資訊或一同形異義詞資訊。
承上所述,本發明的資訊取得方法可以先藉由第一伺服器中的第一文字檔案獲得至少一擷取字詞,並且在將此擷取字詞與第二伺服器中的第二文字檔案進行比對,而依據比對結果而選擇執行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序。因此,本發明可以提升檢索的效能,而讓使用者快速地找到正確的資訊。
1‧‧‧資訊取得系統圖
12‧‧‧字詞建立單元
14‧‧‧字詞對應單元
16‧‧‧資料庫組
18‧‧‧使用者介面單元
20‧‧‧第一伺服器
22‧‧‧第二伺服器
60‧‧‧檢索畫面
62‧‧‧字詞、待查詢字詞
64a、64b、64c、64d、64e‧‧‧字詞、概括縮詞資訊
68a、68b‧‧‧同義詞資訊
70‧‧‧接受度評分畫面
72‧‧‧新增字詞畫面
122‧‧‧擷取字詞
182、66‧‧‧待查詢字詞
202‧‧‧第一文字檔案
222‧‧‧第二文字檔案
1000‧‧‧資訊盒
1002‧‧‧框線
S22、S24、S26、S28、S30、S32‧‧‧資訊取得方法的步驟流程
S242、S244‧‧‧分析第一文字檔案的步驟流程
S502、S504、S506、S508、S510、S512‧‧‧執行概括縮詞萃取程序的步驟流程
S702、S704、S802、S804、S902、S904、S906、S1004、S1006‧‧‧同義詞萃取程序的步驟流程
S1102、S1104、S1106‧‧‧同形異義詞萃取程序的步驟流程
圖1繪示為依照本發明之一較佳實施例的一種資訊取得系統的方塊圖。
圖2繪示為依照本發明之一較佳實施例資的一種資訊取得方法的步驟流程圖。
圖3繪示為依照本發明之一較佳實施例之執行圖2之步驟S24的步驟流程圖。
圖4繪示為依照本發明之一較佳實施例的擷取字詞列表。
圖5繪示為依照本發明之一較佳實施例之圖2步驟S30中執行概括縮詞萃取程序的步驟流程圖。
圖6A繪示為依照本發明第一實施例之檢索結果畫面的示意圖。
圖6B繪示為依照本發明第二實施例之檢索結果畫面的示意圖。
圖7繪示為依照本發明第一實施例之進行同義詞萃取程序的步驟流程圖。
圖8繪示為依照本發明第二實施例之進行同義詞萃取程序的步驟流程圖。
圖9繪示為依照本發明第三實施例之進行同義詞萃取程序的步驟流程圖。
圖10A繪示為一種資訊盒的示意圖。
圖10B繪示為依照本發明第四實施例之進行同義詞萃取程序的步驟流程圖。
圖11繪示為依照本發明之一較佳實施例的一種同形異義詞萃取程序的步驟流程圖。
圖12A繪示為依照本發明之一較佳實施例的一種接收度評分畫面的示意圖。
圖12B繪示為依照本發明之一較佳實施例的新增字詞畫面的示意圖。
圖12C繪示為依照本發明之一較佳實施例的新增字詞後之概括縮詞資訊的示意圖。
以下將參照相關圖式,說明依本發明較佳實施例的一種熱交換模組,其中相同的元件將以相同的參照符號加以說明。
圖1繪示為依照本發明之一較佳實施例的一種資訊取得系統的方塊圖。請參照圖1,本實施例所提供的資訊取得系統圖1,包括字詞建立單元12、字詞對應(mapping)單元14、資料庫組16和使用者介面單元18。本領域具有通常知識者當知,圖1中的各功能方塊都可以利用硬體,例如計算機、晶片、電腦、行動裝置、中央處理器等的方式實現,亦可利用像是軟體或韌體的形式來實現。
請繼續參照圖1,字詞建立單元12係連線至一第一伺服器20,並且第一伺服器20具有至少一第一文字檔案202。在本實施例中,第 一伺服器20為一新聞伺服器,例如是雅虎新聞的伺服器。相對地,第一文字檔案202則可以是新聞網頁的原始碼檔案。
另一方面,字詞對應單元14則可以連線一第二伺服器22。,第二伺服器22則具有多筆第二文字檔案222。在一些實施例中,第二伺服器22是一開放編輯資訊伺服器,例如維基百科(Wikipedia)伺服器。相對地,這些第二文字檔案222係多個被編輯字詞的資訊網頁,例如維基百科中多個詞目的資訊網頁。雖然以下的實施例皆以維基百科為例敘述,但本領域具有通常知識者當知,第二伺服器22也可以是其它的伺服器,例如百度伺服器、台灣維基伺服器…等。
圖2繪示為依照本發明之一較佳實施例的一種資訊取得方法的步驟流程圖。請合併參照圖1和圖2,當字詞建立單元12與第一伺服器20連線時,會如步驟S22所述,擷取至少第一文字檔案202。接著,字詞建立單元12可以進行步驟S24,就是分析第一文字檔案202而產生至少一擷取字詞122。
圖3繪示為依照本發明之一較佳實施例之執行圖2之步驟S24的步驟流程圖。請合併參照圖3,當字詞建立單元12取得第一文字檔案202後,會擷取第一文字檔案202的文字內容,就如步驟S242所述。接著,字詞建立單元12可以執行步驟S244,就是將第一文字檔案202的文字內容進行一斷詞處理,以產生該擷取字詞。
在圖3的步驟S244中,進行斷詞處理的步驟包括詞庫斷詞法、或統計斷詞法、或混合斷詞法。在一些實施例中,步驟S244可以利用中研院研發的CKIP斷詞系統將第一文字檔案202的文字內容進行斷詞,而產生多筆擷取字詞122。圖4繪示為依照本發明之一較佳實施例的擷取字詞列表。圖4中所繪示的擷取字詞列表,係將2013年10月25日在雅虎奇摩新聞所發佈之「派遣工比例過高教育部挨轟」之新聞網頁的原始碼檔案進行斷詞處理而獲得。在一些實施例中,當獲得擷取字詞122後,就會將這些擷取字詞122存入資料庫組16中。其中,資料庫組16可以是本地儲存裝置或是遠端(雲端)儲存設備,也可以是上述兩者並存。
請再參照圖1和圖2,接著,如步驟S26所述,字詞對應單 元14會從資料庫組16取出擷取字詞122,並且與第二伺服器22中的第二文字檔案222進行比對。接著,就可以執行步驟S28,就是檢查第二伺服器22中,是否有至少一第二文字檔案222的內容存在擷取字詞122。若是有至少其中一第二文字檔案222的內容存在擷取字詞122,則從標示為「是」的路徑前往步驟S30,就是執行概括縮詞萃取程序、或同義詞萃取程序、或同形異義詞萃取程序,以獲得概括縮詞資訊、或同義詞資訊、或同形異義詞資訊。當獲得概括縮詞資訊、或同義詞資訊、或同形異義詞資訊後,可以將其存入資料庫組16,並且存入與擷取字詞相同或不同的資料庫中。另外,當使用者介面單元18接收到使用者所輸入的一待查詢字詞182時,則可以如步驟S32所述,依據待查詢字詞182而提供概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊。
圖5繪示為依照本發明之一較佳實施例之圖2步驟S30中執行概括縮詞萃取程序的步驟流程圖。請參照圖5,當在圖2的步驟S28中,判斷其中一第二文字檔案的內容存在擷取字詞時,則執行圖5的步驟S502,就是判斷擷取字詞中是否有中文數字。若是在步驟S502中,發現擷取字詞中有中文數字時,則順著步驟S502標示為「是」的路徑前往步驟S506,就是尋找相符之第二文字檔案中,擷取字詞所在的位置,以開始進行概括縮詞萃取程序。
接著,如步驟S508所述,判斷擷取字詞所在之位置後是否出現至少一特殊字元。在本實施例中,此特殊字元例如是「、」、「或」、「以及」或是「和」等字元。若是發現第二文字檔案中,擷取字詞所在位置之後出現至少一上述的特殊字元,則進行步驟S510,就是判斷上述之特殊字元在擷取字詞所在位置之後出現的次數是否與擷取字詞中的中文數字相符。當注意的是,在此所謂的「相符」,並不是「等於」之意。一般來說,特殊字元出現的次數會小於中文數字。以「、」之特殊字元而論,其出現的次數應該會是中文數字減1,以下會有詳細的敘述。
在步驟S510中,若是發現擷取字詞所在位置之後出現前述之特殊字元的次數與擷取字詞中的中文數字相符時,則沿步驟S510標示為「是」的路徑,而執行步驟S512,就是擷取特殊字元之前和之後所出現的 內容當作概括縮詞資訊。
例如,當圖1的擷取字詞122是「三軍」時,字詞對應單元14會發現擷取字詞122含有中文數字「三」。此時,字詞對應單元14就會開始進行概括縮詞萃取程序,也就是從維基百科的伺服器中判斷是否有出現「三軍」詞目的相關資訊網頁。當從維基百科找到「三軍」詞目的相關資訊網頁後,就會從此資訊網頁找尋「三軍」所在的位置,並且找尋在「三軍」之字詞所在位置之後是否出現上述的特殊字元。
實際從維基百科的「三軍」之詞目的資訊網頁(也就是相符之第二文字檔案222)中,可以發現以下敘述“三軍,常稱為上軍、中軍、下軍”
在此可以發現,在以上的敘述中,「三軍」之字詞後出現了「、」之特殊字元2次,也就是3-1次。因此,可視作特殊字元出現的次數與中文數字「相符」。此時,字詞對應單元14就可以將「、」之特殊字元前後的內容,也就是「上軍」、「中軍」和「下軍」當作概括縮詞資訊而存入資料庫組16中。
請回頭參照圖1,承上述,若是使用者介面單元18接收到由使用者所輸入的待查詢字詞182時,使用者介面18將待查詢字詞182與資料庫組16中的擷取字詞122是否相符。若此時,使用者在本實施例所提供的檢索畫面60輸入「三軍」作為待查詢字詞182,則使用者介面單元18就會將上述的概括縮詞資訊顯是在畫面上,如圖6A所示。在圖6A中,字詞62就是使用者所輸入的查詢字詞,而字詞64a、64b、64c和64d則是上述的概括縮詞資訊。如此一來,使用者就可以快速地查詢到正確的資訊。
在本發明之一實施例中,上述的使用者介面單元18可以是一網頁瀏覽器,例如Chrome、Firefox、Safari、IE等網頁瀏覽器。然而在其它的實施例中,上述之本發明的資訊取得系統可以以插件或是外掛程式的方式掛載在上述的網頁伺服器上。
請回到圖5,當在步驟S502中,判斷擷取字詞不含中文數 字時,則可以沿著步驟S502標示為「否」的路徑執行步驟S504,就是進行其它程序,如上所述,也就是執行同義詞萃取程序或同形異義詞萃取程序。圖7繪示為依照本發明第一實施例之進行同義詞萃取程序的步驟流程圖。請參照圖7,當在圖2之步驟S28中,發現其中一第二文字檔案的內容存在擷取字詞,並且在圖5的步驟S502中,判斷擷取字詞不含中文數字時,則可以進行步驟S702,尋找相符之第二文字檔案中,該擷取字詞所在的位置。接著,如步驟S704所述,擷取該擷取字詞所在之段落的第一個字詞當作同義詞資訊。
例如,當圖1中的擷取字詞122係「雲科大」時,字詞對應單元14就會從第二伺服器22(例如是維基百科的伺服器)搜尋到以下具有以下內容的相符之第二文字檔案222(其中一詞目的網頁):“國立雲林科技大學,簡稱雲科大或雲科。前身為國立雲林技術學院。...”此時,字詞對應單元14就會將擷取字詞122所在段落(如以上段落)的第一個字詞當作同義詞資訊。在此例子中,就是將「國立雲林科技大學」當作同義詞資訊。
圖8繪示為依照本發明第二實施例之進行同義詞萃取程序的步驟流程圖。請參照圖8,在本實施例中,當要進行同義詞萃取程序時,同樣地,也要先進行步驟S802,就是尋找相符之第二文字檔案222中擷取字詞122所在的位置。另外,由於維基百科對於描述語與簡稱均使用粗體字表示。因此在本實施例中,當獲得擷取字詞所在的位置後,就會如步驟S804所述,將擷取字詞所在之段落中的粗體字詞集合當作同義詞資訊。例如在上述,以「雲科大」當作擷取字詞122,則字詞對應單元14會發現在第二文字檔案222中,擷取字詞所在的段落中有「國立雲林科技大學」和「雲科」等粗體字。因此,字詞對應單元14就會將這些粗體字集合當作同義詞資訊。
在另外一些實施例中,上述的同義詞萃取程序還可以依據該 些第二文字檔案編排的規則,而擷取相符之第二文字檔案之一特定位置的字詞當作同義詞資訊。
圖9繪示為依照本發明第三實施例之進行同義詞萃取程序的步驟流程圖。以維基百科為例,其機構詞目有時候會緊接英文翻譯(有時無英文翻譯),其後則是該機構的簡稱,而此簡稱就可當作同義詞資訊。因此,在本實施例中,上述的字詞對應單元14會先如步驟S902所述,判斷擷取字詞122是否為相符之第二文字檔案222的標題(詞目)。若是字詞對應單元14判斷擷取字詞122即為相符之第二文字檔案222的標題,則沿步驟S902所標示為「是」的路徑而進行步驟S904,就是將標題後續的字詞當作同義詞資訊。相對地,若是判斷擷取字詞122並非第二文字檔案222的標題,則如步驟S906所述,進行其它同義詞萃取程序。
例如,若是上述的字詞對應單元14以「雲林科技大學」當作擷取字詞122搜尋,就可以找到相符之第二文字檔案222(內容如上),並且判斷此擷取字詞122即為相符之第二文字檔案222的標題。此時,字詞對應單元14就會將詞目之後的字詞,像是「雲科大」和「雲科」當作同義詞資訊。
另外,經觀察維基百科的編排結構發現,該百科全書係採用「資訊盒(Infobox)」的表格記載許多結構化資訊,如圖10A所示。因此,同義詞萃取程序的步驟還可以如圖10B所繪示。請參照圖10B,首先,可以如步驟S1004所述,擷取上述第二文字檔案222(詞目的網頁)的資訊盒(如圖10A所示)內容。接著,就可以進行步驟S1006,就是擷取資訊盒對應欄位的資訊當作同義詞資訊。例如,圖10A所示的資訊盒1000係「國立台灣大學」之詞目網頁上的資訊盒。在本實施例中,上述的字詞對應單元14可以擷取資訊盒1000中之「暱稱」欄位(如框線1002所標示的欄位)的資訊(「杜鵑花城」)當作同義詞資訊。
以上係本發明提出的數個同義詞萃取程序之實施例的步驟,本發明在進行同義詞萃取程序時,可以採取上述其中一實施例或數個實施例的組合。另外,本領域具有通常知識者若是採取其它同義詞萃取程序時,當不影響本發明的精神。
另外,字詞對應單元14在第二伺服器22中搜尋到有超過一個的第二文字檔案222存在擷取字詞122時,則會進行一同形異義詞萃取程序。在本實施例中,字詞對應單元14會依據一字詞組合規則,而將所有相符之第二文字檔案的內容進行處理,而產生作同形異義詞資訊。圖11繪示為依照本發明之一較佳實施例的一種同形異義詞萃取程序的步驟流程圖。請參照圖11,當上述的字詞對應單元14在第二伺服器22發現有多個第二文字檔案222存在有擷取字詞122時,則可以如步驟S1102所述,判斷每一相符之第二文字檔案222中擷取字詞122所在的段落是否存在一用來限定擷取字詞122的限定字詞。若是擷取字詞122所在的段落中並沒有任何的限定字詞,則進行步驟S1104,就是將擷取字詞122加入同形異義詞資訊。
相對地,若是字詞對應單元14在一相符之第二文字檔案222中擷取字詞122所在的段落發現一限定字詞,則就會沿步驟S1102所標示為「是」的路徑前進到步驟S1106,就是將限定字詞連同擷取字詞122而加入到同形異義詞資訊內。
例如,當擷取字詞122是「小甜甜」時,字詞對應單元14會在維基百科的伺服器中發現有卡通「小甜甜」之詞目的網頁,也會有「藝人小甜甜」之詞目的網頁。此時,上述的字詞對應單元14會發現,在卡通「小甜甜」之詞目的網頁中擷取字詞122所存在的段落並沒有發現任何預設的限定字詞,因此字詞對應單元14直接將「小甜甜」三個字加入同形異義詞資訊中。又或者是,預設的限定詞句包括「漫畫」或「卡通」,則字詞對應單元14就會在對應的段落中發現相對應的限定字詞。此時,字詞對應單元14就會將「漫畫小甜甜」和/或「卡通小甜甜」的詞句加入同形異義詞資訊中。
同樣地,若是上述的限定字詞包括「藝人」,則字詞對應單元14就會在「藝人小甜甜」之詞目的網頁中擷取字詞122所在的段落中發現同樣的限定字詞,因此字詞對應單元14會將「藝人小甜甜」的詞句加入同形異義詞資訊中。此時,同形異義詞資訊就會包括「小甜甜」和「藝人小甜甜」,或是包括「卡通小甜甜」(和/或「漫畫小甜甜」)和「藝人小甜甜」。
接著,請回頭參照圖1和圖2的步驟S32,並且請合併參照圖6B,其繪示為依照本發明第二實施例之檢索結果畫面的示意圖。若是使用者在檢索畫面60輸入「雲科大」當作待查詢字詞66,則使用者介面單元18就會提供像是68a或68b等的同義詞資訊。當然,若是與待查詢字詞66相符的第二文字檔案222有多筆時,則使用者介面單元18還會提供上述的同形異義詞資訊,在此不再贅述。
另外,為了增加檢索結果的正確性,在一些實施例中,本發名還可以提供一接收度評分機制來與使用者互動。圖12A繪示為依照本發明之一較佳實施例的一種接收度評分畫面的示意圖。請合併參照圖12A,在本實施例中,上述的使用者介面單元18可以提供接受度評分畫面70來與使用者互動。本實施例係以「三軍」作為上述的待查詢字詞為例敘述。在本實施例中所提供的接受度評分畫面70中,會列出所有對應之概括縮詞資訊的字詞,例如64a、64b、64c和64d,如此使用者就可以就每一字詞進行接受度的調整。當其中一字詞的接受度低於一閥值時,例如字詞64a的接受度低於閥值時,該字詞64a就會從概括縮詞資訊中移除。而同樣的操作也適用於上述的同義詞資訊和同形異義詞資訊,在此不再贅述。
除此之外,本發明在一些實施例中,還允許使用者新增字詞到上述的概括縮詞資訊、同義詞資訊和同形異義詞資訊中。圖12B繪示為依照本發明之一較佳實施例的新增字詞畫面的示意圖。請參照圖12B,本實施例提供一新增字詞畫面72,係以「三軍」當作上述的待查詢字詞為例敘述,本領域具有通常知識者可自行推得其它待查詢字詞的操作。在新增字詞畫面72中,使用者可以新增字詞64e加入「三軍」之待查詢字詞對應的概括縮詞資訊。如此一來,「三軍」之待查詢字詞所對應的概括縮詞資訊就會包括字詞64e,就如圖12C所繪示。同樣地,此新增的字詞64e也可以由使用者來進行評分,以決定是否留在概括縮詞資訊中。由此可知,上述的概括縮詞資訊、同義詞資訊和同形異義詞資訊並非只能單純從第二伺服器22的第二文字檔案222而來,而可以開放使用者進行編輯,而應加了準確性和適用性。
綜上所述,由於本發明從第一伺服器取得擷取字詞,並且將 所取得的擷取字詞與第二伺服器的第二文字檔案而獲得概括縮詞資訊、同義詞資訊和同形異義詞資訊,因此本發明可以迅速並準確地讓使用者查詢到所需要的資訊。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
S22、S24、S26、S28、S30、S32‧‧‧資訊取得方法的步驟流程

Claims (17)

  1. 一種資訊取得系統,包括:一字詞建立單元,連線至一第一伺服器,該第一伺服器具有至少一第一文字檔案,而該字詞建立單元分析該文字檔案的內容而產生至少一擷取字詞;一字詞對應單元,連線至該字詞建立單元和一第二伺服器,該第二伺服器具有多個第二文字檔案,而該字詞對應單元將該擷取字詞與該些第二文字檔案進行比對,而決定是否進行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序,並對應產生一概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊;一資料庫組,與該字詞建立單元和該字詞對應單元連線,以儲存該擷取字詞,並儲存該概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊;以及一使用者介面單元,與該資料庫組連線,並接收一待查詢字詞,其中當該待查詢字詞與該擷取字詞相同時,則該使用者介面單元提供該概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊,其中當該擷取字詞存在中文數字時,則執行該概括縮詞萃取程序,且該使用者介面單元提供該概括縮詞資訊。
  2. 一種資訊取得方法,至少包括下列步驟:從一第一伺服器擷取至少一第一文字檔案;分析該第一文字檔案而產生至少一擷取字詞;連線至一第二伺服器,該第二伺服器具有多個第二文字檔案;將該擷取字詞與該第二文字檔案進行比對;當至少其中一第二文字檔案的內容出現該擷取字詞時,則執行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序,並對應產生一概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊;判斷該擷取字詞是否有中文數字;以及當該擷取字詞存在中文數字時,則執行該概括縮詞萃取程序。
  3. 如申請專利範圍第2項所述之資訊取得方法,更包括: 當接收到一待查詢字詞時,則比對該待查詢字詞與該擷取字詞是否相同;以及當該待查詢字詞與該擷取字詞相同時,則提供該概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊。
  4. 如申請專利範圍第2項所述之資訊取得方法,其中該第一伺服器係一新聞伺服器,且該第一文字檔案係一新聞網頁的原始碼檔案。
  5. 如申請專利範圍第2項所述之資訊取得方法,其中產生該擷取字詞的步驟,包括:擷取該第一文字檔案的文字內容;以及將該第一文字檔案的文字內容進行一斷詞處理,以產生該擷取字詞。
  6. 如申請專利範圍第5項所述之資訊取得方法,其中該斷詞處理包括詞庫斷詞法、或統計斷詞法、或混合斷詞法。
  7. 如申請專利範圍第2項所述之資訊取得方法,其中該第二伺服器係一開放編輯資訊伺服器,而該第二文字檔案係一被編輯字詞的資訊網頁。
  8. 如申請專利範圍第2項所述之資訊取得方法,其中當其中一第二文字檔案的內容出現該擷取字詞時,則該概括縮詞萃取程序包括:尋找該相符之第二文字檔案中,該擷取字詞所在的位置;判斷該相符之第二文字檔案中,該擷取字詞所在之位置後是否出現至少一特殊字元;當判斷該擷取字詞所在之位置後出現該特殊字元時,則判斷該至少一特殊字元出現的次數是否與該中文數字相符;以及當該至少一特殊字元出現的次數與該中文數字相符,則擷取該特殊字元之前和之後所出現的內容當作該概括縮詞資訊。
  9. 如申請專利範圍第2項所述之資訊取得方法,其中當其中一第二文字檔案的內容出現該擷取字詞時,則該同義詞萃取程序包括:尋找該相符之第二文字檔案中,該擷取字詞所在的位置;以及擷取該擷取字詞所在之段落的第一個字詞當作該同義詞資訊。
  10. 如申請專利範圍第2項所述之資訊取得方法,其中當其中一第二文字檔案的內容出現該擷取字詞時,則該同義詞萃取程序包括: 尋找該相符之第二文字檔案中,該擷取字詞所在的位置;以及擷取該擷取字詞所在之段落中的粗體字詞集合當作該同義詞資訊。
  11. 如申請專利範圍第2項所述之資訊取得方法,其中當其中一第二文字檔案的內容出現該擷取字詞時,則該同義詞萃取程序包括依據該些第二文字檔案編排的規則,而擷取該相符之第二文字檔案之一特定位置的字詞當作該同義詞資訊。
  12. 如申請專利範圍第2項所述之資訊取得方法,其中當有多個第二文字檔案的內容存在該擷取字詞時,則該同形異義詞萃取程序包括依據一字詞組合規則,而將所有相符之第二文字檔案的內容進行處理,而產生作該同形異義詞資訊。
  13. 如申請專利範圍第2項所述之資訊取得方法,更包括下列步驟:依據一接受度評分來調整該概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊。
  14. 如申請專利範圍第2項所述之資訊取得方法,更包括下列步驟:依據一輸入內容來調整該概括縮詞資訊、或該同義詞資訊、或該同形異義詞資訊。
  15. 一種儲存裝置,儲存一應用程式,該應用程式執行至少下列步驟:從一第一伺服器擷取至少一第一文字檔案;分析該第一文字檔案而產生至少一擷取字詞;連線至一第二伺服器,該第二伺服器具有多個第二文字檔案;將該擷取字詞與該第二文字檔案進行比對;當至少其中一第二文字檔案的標題與該擷取字詞相符時,則執行一概括縮詞萃取程序、或一同義詞萃取程序、或一同形異義詞萃取程序,並對應產生一概括縮詞資訊、或一同義詞資訊、或一同形異義詞資訊;判斷該擷取字詞是否有中文數字;以及當該擷取字詞存在中文數字時,則執行該概括縮詞萃取程序。
  16. 一種資訊取得方法,至少包括下列步驟:接收一待查詢字詞;以及 當該待查詢字詞具有中文數字時,則提供依據一概括縮詞萃取程序而獲得的一概括縮詞資訊。
  17. 如申請專利範圍第16項所述之資訊取得方法,更包括下列步驟:當該待查詢字詞沒有該中文數字時,則提供依據一同義詞萃取程序或一同形異義詞萃取程序所獲得的一同義詞資訊或一同形異義詞資訊。
TW104104845A 2015-02-12 2015-02-12 資訊取得系統與方法、以及儲存裝置 TWI550420B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104104845A TWI550420B (zh) 2015-02-12 2015-02-12 資訊取得系統與方法、以及儲存裝置
US14/837,692 US20160239561A1 (en) 2015-02-12 2015-08-27 System and method for obtaining information, and storage device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104104845A TWI550420B (zh) 2015-02-12 2015-02-12 資訊取得系統與方法、以及儲存裝置

Publications (2)

Publication Number Publication Date
TW201629801A TW201629801A (zh) 2016-08-16
TWI550420B true TWI550420B (zh) 2016-09-21

Family

ID=56621350

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104104845A TWI550420B (zh) 2015-02-12 2015-02-12 資訊取得系統與方法、以及儲存裝置

Country Status (2)

Country Link
US (1) US20160239561A1 (zh)
TW (1) TWI550420B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI709048B (zh) * 2018-08-10 2020-11-01 全球華人股份有限公司 高頻詞企業特質屬性推薦方法
US20220253470A1 (en) * 2021-02-05 2022-08-11 SparkCognition, Inc. Model-based document search
CN113486184B (zh) * 2021-09-07 2022-01-21 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101523338A (zh) * 2005-03-18 2009-09-02 搜索引擎科技有限责任公司 应用来自用户的反馈来改进搜索结果的搜索引擎
US7653654B1 (en) * 2000-09-29 2010-01-26 International Business Machines Corporation Method and system for selectively accessing files accessible through a network
CN101727464B (zh) * 2008-10-29 2012-08-08 北京搜狗科技发展有限公司 获取别称匹配对的方法及装置
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
TW201435628A (zh) * 2013-03-11 2014-09-16 Hon Hai Prec Ind Co Ltd 內容推薦系統及方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998016889A1 (fr) * 1996-10-16 1998-04-23 Sharp Kabushiki Kaisha Appareil d'entree de caracteres et support de donnees dans lequel le programme d'entree de caracteres est mis en memoire
US20050005266A1 (en) * 1997-05-01 2005-01-06 Datig William E. Method of and apparatus for realizing synthetic knowledge processes in devices for useful applications
US20020152258A1 (en) * 2000-06-28 2002-10-17 Hongyi Zhou Method and system of intelligent information processing in a network
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method
US20050182755A1 (en) * 2004-02-14 2005-08-18 Bao Tran Systems and methods for analyzing documents over a network
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
US20080154576A1 (en) * 2006-12-21 2008-06-26 Jianchao Wu Processing of reduced-set user input text with selected one of multiple vocabularies and resolution modalities
US9529974B2 (en) * 2008-02-25 2016-12-27 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US8745051B2 (en) * 2008-07-03 2014-06-03 Google Inc. Resource locator suggestions from input character sequence
CN101872351B (zh) * 2009-04-27 2012-10-10 阿里巴巴集团控股有限公司 识别同义词的方法、装置及利用其进行搜索的方法和装置
JP2010282507A (ja) * 2009-06-05 2010-12-16 Casio Computer Co Ltd 辞書機能を備えた電子機器およびプログラム
US20110161068A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of using a sense model for symbol assignment
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
JP2014517428A (ja) * 2011-06-24 2014-07-17 グーグル・インコーポレーテッド 検索クエリのソース言語を検出すること
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
TWI489862B (zh) * 2011-11-09 2015-06-21 Inst Information Industry Digital TV instant translation system and its method
US20130325839A1 (en) * 2012-03-05 2013-12-05 TeleCommunication Communication Systems, Inc. Single Search Box Global
US8775165B1 (en) * 2012-03-06 2014-07-08 Google Inc. Personalized transliteration interface
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
JP5708569B2 (ja) * 2012-06-18 2015-04-30 コニカミノルタ株式会社 画像処理装置、画像処理方法およびプログラム
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US20140379719A1 (en) * 2013-06-24 2014-12-25 Tencent Technology (Shenzhen) Company Limited System and method for tagging and searching documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653654B1 (en) * 2000-09-29 2010-01-26 International Business Machines Corporation Method and system for selectively accessing files accessible through a network
CN101523338A (zh) * 2005-03-18 2009-09-02 搜索引擎科技有限责任公司 应用来自用户的反馈来改进搜索结果的搜索引擎
CN101727464B (zh) * 2008-10-29 2012-08-08 北京搜狗科技发展有限公司 获取别称匹配对的方法及装置
TW201435628A (zh) * 2013-03-11 2014-09-16 Hon Hai Prec Ind Co Ltd 內容推薦系統及方法
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法

Also Published As

Publication number Publication date
TW201629801A (zh) 2016-08-16
US20160239561A1 (en) 2016-08-18

Similar Documents

Publication Publication Date Title
US12026194B1 (en) Query modification based on non-textual resource context
US8812508B2 (en) Systems and methods for extracting phases from text
US9665643B2 (en) Knowledge-based entity detection and disambiguation
US7890493B2 (en) Translating a search query into multiple languages
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
US20150363476A1 (en) Linking documents with entities, actions and applications
CN110704743A (zh) 一种基于知识图谱的语义搜索方法及装置
US9798776B2 (en) Systems and methods for parsing search queries
JP2015523659A (ja) 多言語混合検索方法およびシステム
US9165058B2 (en) Apparatus and method for searching for personalized content based on user's comment
US8645363B2 (en) Spreading comments to other documents
EP2192503A1 (en) Optimised tag based searching
US20120179709A1 (en) Apparatus, method and program product for searching document
TWI550420B (zh) 資訊取得系統與方法、以及儲存裝置
US9811592B1 (en) Query modification based on textual resource context
KR20140091375A (ko) 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법
JP2010003219A (ja) 関連クエリ導出装置、関連クエリ導出方法及びプログラム
US9336317B2 (en) System and method for searching aliases associated with an entity
JP4909946B2 (ja) クエリ置換検索サーバ、検索方法及びプログラム
US11023519B1 (en) Image keywords
JP5544003B2 (ja) 情報検索装置、情報検索システム、及び情報検索方法
JP2005025418A (ja) 質問応答装置、質疑応答方法及びプログラム
JP2008242622A (ja) 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法
US20150169526A1 (en) Heuristically determining key ebook terms for presentation of additional information related thereto
Hashimoto et al. Construction of a domain dictionary for fundamental vocabulary and its application to automatic blog categorization using dynamically estimated domains of unknown words

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees