TWI817092B

TWI817092B - 常見問答檢索方法

Info

Publication number: TWI817092B
Application number: TW110108750A
Authority: TW
Inventors: 陳建宇
Original assignee: 宏碁股份有限公司
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-10-01
Also published as: TW202236112A

Abstract

本發明提供一種常見問答檢索方法，包括：在常見問答集中取得問答文章；辨識問答文章中的多個第一詞語及各第一詞語的詞性，並據以從第一詞語中找出第二詞語；估計各第二詞語在問答文章中的詞語統計參數；辨識該檢索句中的多個第三詞語及各第三詞語的詞性，並據以從第三詞語中找出第四詞語；反應於判定問答文章的第二詞語中的特定詞語匹配於第四詞語的至少其中之一，基於各特定詞語的詞語統計參數估計問答文章與檢索句的匹配程度；反應於判定問答文章與檢索句的匹配程度符合預設條件，顯示問答文章。

Description

常見問答檢索方法

本發明是有關於一種檢索技術，且特別是有關於一種常見問答檢索方法。

一般而言，許多網站都設有常見問答集(Frequently Asked Questions,FAQ)來減少重複性的人工回覆。然而，絕大多數的常見問答集檢索系統都是以使用者輸入的關鍵字去做搜尋。在此情況下，如果輸入的關鍵字不夠精確，將導致搜尋不到任何結果，對使用者來說無疑是增加了不少困擾。

目前常見的檢索技術大致可分為兩種：基於關鍵字比對和基於句子向量比對。基於關鍵字比對是較為傳統的做法，而其做法主要包括將使用者輸入的檢索句作為關鍵字去進行檢索。因此，只要使用者輸入的檢索句過長或者較為口語，就會搜尋不到結果。另外，基於句子向量比對是近年較為新穎的做法，而其做法主要包括將使用者輸入的問題編碼成句向量，接著再與資料庫中事先編碼好的句向量進行相似性比對，最後以相似度高至低來排列結果。此方法雖然對於句子的比對有不錯的效果，但是當使用者輸入的問題越短時則效果越差。

有鑑於此，本發明提供一種常見問答檢索方法，其可用於解決上述技術問題。

本發明提供一種常見問答檢索方法，適於一電子裝置，包括：在包括多個問答文章的一常見問答集中取得一第一問答文章；辨識第一問答文章中的多個第一詞語及各第一詞語的詞性，並據以從所述多個第一詞語中找出多個第二詞語；估計各第二詞語在第一問答文章中的一詞語統計參數；反應於取得關聯於常見問答集的一檢索句，辨識檢索句中的多個第三詞語及各第三詞語的詞性，並據以從所述多個第三詞語中找出多個第四詞語；反應於判定第一問答文章的所述多個第二詞語中的至少一特定詞語匹配於所述多個第四詞語的至少其中之一，基於各特定詞語的詞語統計參數估計第一問答文章與檢索句的一匹配程度；反應於判定第一問答文章與檢索句的匹配程度符合一預設條件，顯示第一問答文章。

100:電子裝置

102:儲存電路

104:處理器

311,312:矩陣

S210~S260:步驟

n _1,1~n _T,D:詞出現次數

tf _1,1~tf _T,D:詞頻

圖1是依據本發明之一實施例繪示的電子裝置示意圖。

圖2是依據本發明之一實施例繪示的常見問答檢索方法流程圖。

圖3是依據本發明之一實施例繪示的估計詞頻的示意圖。

請參照圖1，其是依據本發明之一實施例繪示的電子裝置示意圖。在不同的實施例中，圖1的電子裝置100可實現為各式電腦裝置及/或智慧型裝置，但可不限於此。

如圖1所示，電子裝置100可包括儲存電路102及處理器104。儲存電路102例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合，而可用以記錄多個程式碼或模組。

處理器104耦接於儲存電路102，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器(microprocessor)、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、現場可程式閘陣列電路(Field Programmable Gate Array，FPGA)、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器(Advanced RISC Machine，ARM)的處理器以及類似品。

在本發明的實施例中，處理器104可存取儲存電路102中記錄的模組、程式碼來實現本發明提出的常見問答檢索方法，其細節詳述如下。

請參照圖2，其是依據本發明之一實施例繪示的常見問答檢索方法流程圖。本實施例的方法可由圖1的電子裝置100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，處理器104可在包括多個問答文章的常見問答集中取得第一問答文章。在上述常見問答集中，可包括各式問題(例如，「USB 2.0/3.0 port是否有支援關機充電？」、「我可以透過USB充電的方式來幫A500充電嗎？」等)及對應的解答文章，但可不限於此。

在本發明的實施例中，處理器104可對常見問答集中的各個問答文章執行相似的前置作業，以利使用者進行後續的查找操作。為便於說明，以下暫以處理器104對所述多個問答文章的其中之一(即，上述第一問答文章)執行的前置作業為例進行說明，而本領域具通常知識者應可相應推得處理器104對常見問答集中的其他問答文章所進行的前置作業的內容，但可不限於此。

在一實施例中，第一問答文章可包括多個第一詞語。在不同的實施例中，上述第一詞語可全部位於第一問答文章的問題中，或是分布於第一問答文章的問題及解答文章中。為便於說明，以下假設所考慮的第一詞語皆位於第一問答文章的問題中，但可不限於此。

在取得第一問答文章之後，在步驟S220中，處理器104可辨識各第一詞語的詞性，並據以從所述多個第一詞語中找出多個第二詞語。在一實施例中，處理器104可將第一問答文章輸入一詞性標註模型，而此詞性標註模型可因應於第一問答文章而辨識各第一詞語及標註各第一詞語的詞性。由於先前假設所考慮的第一詞語皆位於第一問答文章的問題中，故處理器104可僅將第一問答文章的問題輸入詞性標註模型，以由此詞性標註模型因應於第一問答文章的問題而辨識各第一詞語及標註各第一詞語的詞性。

在一實施例中，上述詞性標註模型可採用JIEBA(結巴)或其他類似的語句斷詞工具，但可不限於此。

在第一實施例中，假設所考慮的第一問答文章的問題為「USB 2.0/3.0 port是否有支援關機充電？」，則在處理器104將此問題輸入上述詞性標註模型之後，詞性標註模型可相應地找出「USB」(詞性為外文)、「2.0」(詞性為名詞)、「3.0」(詞性為名詞)、「port」(詞性為外文)、「是否」(詞性為副詞)、「有」(詞性為動詞)、「支援」(詞性為動詞)、「關機」(詞性為動詞)及「充電」(詞性為動詞)等第一詞語，但可不限於此。

在第二實施例中，假設所考慮的第一問答文章的問題為「我可以透過USB充電的方式來幫A500充電嗎？」，則在處理器104將此問題輸入上述詞性標註模型之後，詞性標註模型可相應地找出「我」(詞性為名詞)、「可以」(詞性為副詞)、「透過」(詞性為介詞)、「USB」(詞性為外文)、「充電」(詞性為動詞)、「的」(詞性為助詞)、「方式」(詞性為名詞)、「來」(詞性為副詞)、「幫」(詞性為介詞)、「A500」(詞性為外文)、「充電」(詞性為動詞)及「嗎」(詞性為助詞)等第一詞語，但可不限於此。

在找出第一問答文章的各個第一詞語及詞性之後，處理器104可據以從所述多個第一詞語中找出多個第二詞語。在一實施例中，處理器104可僅保留詞性為動詞、副詞、名詞及外文的至少其中之一的第一詞語作為第二詞語，但可不限於此。

在第一實施例中，基於上述原則所找出的第二詞語例如包括「USB」、「2.0」、「3.0」、「port」、「是否」、「有」、「支援」、「關機」及「充電」等詞性為動詞、副詞、名詞及/或外文的第二詞語。另外，在第二實施例中，基於上述原則所找出的第二詞語例如包括「我」、「可以」、「USB」、「充電」、「方式」、「來」、「A500」、「充電」等詞性為動詞、副詞、名詞及/或外文的第二詞語，但可不限於此。

之後，在步驟S230中，處理器104可估計各第二詞語在第一問答文章中的詞語統計參數。在一實施例中，處理器104可估計各第二詞語在第一問答文章中的詞頻。

請參照圖3，其是依據本發明之一實施例繪示的估計詞頻的示意圖。在本實施例中，處理器104可先對全部的問答文章皆進行上述操作，以找出常見問答集中全部的第二詞語，並將這些第二詞語在各個問答文章中出現的次數記錄為圖3中的矩陣311。

在矩陣311中，詞1~詞T即為常見問答集中全部的第二詞語，而文件1~文件D則對應於全部的問答文章(即，問答文章的總數為D)。在圖3中，n _t,d即為詞t在文件d中出現的次數，但可不限於此。

在此情況下，處理器104可依據矩陣311估計詞1~詞T在各文件1~文件D中的詞頻。在一實施例中，詞t在文件d中的詞頻可表徵為

，並可記錄為矩陣312的形式，但可不限於此。

基此，處理器104即可查找矩陣312以找出第一問答文章中各第二詞語的詞頻，但可不限於此。

另外，處理器104還可估計第一問答文章中各第二詞語在常見問答集中的逆向文件頻率。在一實施例中，對於詞t而言，其對應的逆向文件頻率可表徵為

，其中d _t為詞t在多少文件中出現的次數。基此，在取得第一問答文章中各第二詞語之後，處理器104即可基於上述教示相應地取得第一問答文章中各第二詞語的逆向文件頻率，但可不限於此。

之後，處理器104可基於第一問答文章中各第二詞語的詞頻及逆向文件頻率估計各第二詞語在第一問答文章中的詞語統計參數。在一實施例中，對於詞t而言，其對應的詞語統計參數可表徵為idf _t=tf _t,d×idf _t。基此，處理器104即可基於上述教示相應地取得第一問答文章中各第二詞語的詞語統計參數，但可不限於此。

在一些實施例中，在取得第一問答文章中各第二詞語的詞語統計參數之後，處理器104例如可將其記錄於一資料結構中。相似地，在處理器104取得其他問答文章中各第二詞語的詞語統計參數之後，處理器104亦可將其記錄於上述資料結構中。

在一實施例中，上述資料結構可具有如下表1所例示的形式。

在表1中，問答文章識別碼例如是對應的第二詞語所屬的問答文章的識別碼。由表1可看出，「關機」在識別碼為「F141」的問答文章中的詞語統計參數為0.4；「USB」在識別碼為「F141」的問答文章中的詞語統計參數為0.43；「USB」在識別碼為「F106」的問答文章中的詞語統計參數為0.3。表1中其餘欄位的意義應可基於以上教示推得，於此不另贅述。

在一實施例中，上述常見問答集的網頁中例如可提供一檢索框，以供使用者輸入用於查找所需問答文章的檢索句。為便於理解，以下假設使用者所輸入的檢索句為「關機後USB是否能充電？」，但可不限於此。

相應地，在步驟S240中，反應於取得關聯於常見問答集的檢索句，處理器104可辨識檢索句中的多個第三詞語及各第三詞語的詞性，並據以從所述多個第三詞語中找出多個第四詞語。

在一實施例中，處理器104可將檢索句輸入上述詞性標註模型，而此詞性標註模型可因應於檢索句而辨識檢索句中的各第三詞語及詞性。在本實施例中，在詞性標註模型取得「關機後USB是否能充電？」的檢索句之後，其例如可輸出「關機」(詞性為動詞)、「後」(詞性為介詞)、「USB」(詞性為外文)、「是否」(詞性為副詞)、「能」(詞性為介詞)及「充電」(詞性為動詞)等第三詞語，但可不限於此。

在找出檢索句的各個第三詞語及詞性之後，處理器104可據以從所述多個第三詞語中找出多個第四詞語。在一實施例中，處理器104可僅保留詞性為動詞、副詞、名詞及外文的至少其中之一的第三詞語作為第四詞語，但可不限於此。在檢索句為「關機後USB是否能充電？」的情況下，所找出的第四詞語例如包括「關機」、「USB」、「是否」及「充電」等，但不限於此。

接著，在步驟S250中，反應於判定第一問答文章的所述多個第二詞語中的至少一特定詞語匹配於所述多個第四詞語的至少其中之一，處理器104可基於各特定詞語的詞語統計參數估計第一問答文章與檢索句的匹配程度。

在第一實施例中，假設所考慮的第一問答文章(其識別碼例如是表1中的「F141」)的問題為「USB 2.0/3.0 port是否有支援關機充電？」，處理器104可將其中的「USB」、「2.0」、「3.0」、「port」、「是否」、「有」、「支援」、「關機」及「充電」等第二詞語與「關機」、「USB」、「是否」及「充電」等第四詞語比較。在此實施例中，由於上述第二詞語中存在「USB」、「是否」、「關機」及「充電」等匹配於「USB」、「是否」、「關機」及「充電」等第四詞語的特定詞語，故處理器104可相應地基於各特定詞語的詞語統計參數估計第一問答文章與檢索句的匹配程度。

在第一實施例中，處理器104將各特定詞語的詞語統計參數加總為參考分數。例如，處理器104可參照表1的內容而找出第一問答文章的各特定詞語的詞語統計參數，例如「關機」的0.4、「USB」的0.43、「充電」的0.48及「是否」的0.3，並將其加總為參考分數(即，1.61)。

之後，處理器104可取得上述第四詞語的第一數量(即，4)，以及取得上述特定詞語的第二數量(即，4)。並且，處理器104可基於第一數量及第二數量決定修正係數，並據以將參考分數修正為第一問答文章與檢索句的匹配程度。在第一實施例中，處理器104例如可以第二數量除以第一數量，以產生上述修正係數(即，4/4=1)。之後，處理器104可將此修正係數乘以上述參考分數，以將參考分數修正為第一問答文章與檢索句的匹配程度(即，1.61x1=1.61)，但可不限於此。

在第二實施例中，假設所考慮的第一問答文章(其識別碼例如是表1中的「F106」)的問題為「我可以透過USB充電的方式來幫A500充電嗎？」，處理器104可將其中的「我」、「可以」、「USB」、「充電」、「方式」、「來」、「A500」、「充電」等第二詞語與「關機」、「USB」、「是否」及「充電」等第四詞語比較。在此實施例中，由於上述第二詞語中存在「USB」及「充電」等匹配於「USB」及「充電」等第四詞語的特定詞語，故處理器104可相應地基於各特定詞語的詞語統計參數估計第一問答文章與檢索句的匹配程度。

在第二實施例中，處理器104將各特定詞語的詞語統計參數加總為參考分數。例如，處理器104可參照表1的內容而找出第一問答文章的各特定詞語的詞語統計參數，例如「USB」的0.3及「充電」的0.73，並將其加總為參考分數(即，1.03)。

之後，處理器104可取得上述第四詞語的第一數量(即，4)，以及取得上述特定詞語的第二數量(即，2)。並且，處理器104可基於第一數量及第二數量決定修正係數，並據以將參考分數修正為第一問答文章與檢索句的匹配程度。在第一實施例中，處理器104例如可以第二數量除以第一數量，以產生上述修正係數(即，2/4=0.5)。之後，處理器104可將此修正係數乘以上述參考分數，以將參考分數修正為第一問答文章與檢索句的匹配程度(即，1.03x0.5=0.51)，但可不限於此。

在本發明的實施例中，藉由引入上述修正係數的方式，可更為精準地估計第一問答文章與檢索句的匹配程度。

在一實施例中，處理器104可判斷第一問答文章與檢索句的匹配程度是否符合預設條件。舉例而言，處理器104可取得常見問答集中各問答文章與檢索句之間的匹配程度，並據以降冪排序所述多個問答文章。反應於判定第一問答文章屬於排序在前的N個問答文章，處理器104可判定第一問答文章與檢索句的匹配程度符合上述預設條件。另一方面，反應於判定第一問答文章不屬於排序在前的N個問答文章，處理器104可判定第一問答文章與檢索句的匹配程度不符合預設條件，但可不限於此。

之後，在步驟S260，反應於判定第一問答文章與檢索句的匹配程度符合預設條件，處理器104可顯示第一問答文章。在一實施例中，處理器104例如可將第一問答文章(及其他排序在前的N-1個問答文章)一同作為檢索句的檢索結果而顯示予使用者參考，但可不限於此。

綜上所述，本發明提出的方法可藉由對常見問答集中各問答文章進行相關的前置作業，以取得各問答文章中各第二詞語的詞語統計參數。之後，當使用者輸入檢索句時，本發明的方法可相應地估計各問答文章與檢索句之間的匹配程度，並將匹配程度較高的數個問答文章作為檢索結果提供予使用者參考。藉此，使用者即可取得與其檢索句較為相關的一或多個問答文章，進而得到較佳的檢索體驗。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S260:步驟

Claims

一種常見問答檢索方法，適於一電子裝置，包括：在包括多個問答文章的一常見問答集中取得一第一問答文章；辨識該第一問答文章中的多個第一詞語及各該第一詞語的詞性，並據以從該些第一詞語中找出多個第二詞語；估計各該第二詞語在該第一問答文章中的一詞語統計參數；反應於取得關聯於該常見問答集的一檢索句，辨識該檢索句中的多個第三詞語及各該第三詞語的詞性，並據以從該些第三詞語中找出多個第四詞語；反應於判定該第一問答文章的該些第二詞語中的至少一特定詞語匹配於該些第四詞語的至少其中之一，基於各該特定詞語的該詞語統計參數估計該第一問答文章與該檢索句的一匹配程度，包括：將各該特定詞語的該詞語統計參數加總為一參考分數；取得該些第四詞語的一第一數量，以及取得該至少一特定詞語的一第二數量；基於該第一數量及該第二數量決定一修正係數，並據以將該參考分數修正為該第一問答文章與該檢索句的該匹配程度，其中基於該第一數量及該第二數量決定該修正係數的步驟包括：以該第二數量除以該第一數量，以產生該修正係數；反應於判定該第一問答文章與該檢索句的該匹配程度符合一預設條件，顯示該第一問答文章。
如請求項1所述的方法，其中各該第二詞語的該詞性包括動詞、副詞、名詞及外文的至少其中之一。
如請求項1所述的方法，其中各該第四詞語的該詞性包括動詞、副詞、名詞及外文的至少其中之一。
如請求項1所述的方法，其中辨識該第一問答文章中的該些第一詞語及各該第一詞語的該詞性的步驟包括：將該第一問答文章輸入一詞性標註模型，其中該詞性標註模型因應於該第一問答文章而辨識各該第一詞語並標註各該第一詞語的該詞性；其中辨識該檢索句中的該些第三詞語及各該第三詞語的該詞性的步驟包括將該檢索句輸入該詞性標註模型，其中該詞性標註模型因應於該檢索句而辨識並標註各該第三詞語的該詞性。
如請求項1所述的方法，其中估計各該第二詞語在該第一問答文章中的該詞語統計參數的步驟包括：估計各該第二詞語在該第一問答文章中的一詞頻；估計各該第二詞語在該常見問答集中的一逆向文件頻率；基於各該第二詞語的該詞頻及該逆向文件頻率估計各該第二詞語在該第一問答文章中的該詞語統計參數。
如請求項1所述的方法，更包括：取得各該問答文章與該檢索句之間的該匹配程度，並據以排序該些問答文章；反應於判定該第一問答文章屬於排序在前的N個問答文章，判定該第一問答文章與該檢索句的該匹配程度符合該預設條件；反應於判定該第一問答文章不屬於排序在前的N個問答文章，判定該第一問答文章與該檢索句的該匹配程度不符合該預設條件。
如請求項1所述的方法，其中該第一問答文章包括一問題及對應於該問題的一解答文章，且該些第一詞語僅屬於該第一問答文章的該問題。