TW201232292A - System and method for searching indirect terms - Google Patents
System and method for searching indirect terms Download PDFInfo
- Publication number
- TW201232292A TW201232292A TW100103067A TW100103067A TW201232292A TW 201232292 A TW201232292 A TW 201232292A TW 100103067 A TW100103067 A TW 100103067A TW 100103067 A TW100103067 A TW 100103067A TW 201232292 A TW201232292 A TW 201232292A
- Authority
- TW
- Taiwan
- Prior art keywords
- vocabulary
- indirect
- relationship strength
- relationship
- strength
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
Description
201232292 六、發明說明: 【發明所屬之技術領域】 [0001] 本發明涉及一種關聯詞彙搜索系統及方法。 【先前技術"】
[0002] 在自然語言處理(Natural Language Processing, NLP)技術中,搜尋詞彙與詞彙之間的關係強度是相當重 要的方面。透過詞彙與詞彙之間的關係強度,傳統的自 然語言處理技術可以獲取一個詞彙的關聯詞彙,並透過 這些關聯詞彙延伸擴展出該詞彙的相關詞彙。 [0003] 但是,傳統的自然語言處理技術中只是透過詞彙與詞彙 之間的直接關係強度,獲取一個詞彙的直接關聯詞彙( 如近義詞和同義詞等),卻不能獲取與該詞彙有間接關 係的詞彙。例如,對於詞彙“棒球”而言,假設詞彙“ 棒球”與詞彙“運動”存在直接關係,而詞彙“運動” 又與詞彙“籃球”存在直接關係,傳統的自然語言處理 技術只能找到與詞彙“棒球”有直揍關聯的詞彙,如“ 運動”等,而對於與“棒球”有間接關係的詞彙,如“ 籃球”等,卻無法獲取。 【發明内容】 [0004] 鑒於以上内容,有必要提供一種關聯詞彙搜索系統及方 法,其可獲取詞彙的間接關聯詞彙,從而在詞彙與詞彙 之間的直接關係中找出間接的、隱性的關係,用以加強 輔佐詞彙與詞彙之間的直接關係。 [0005] 一種關聯詞彙搜索系統,應用於電子設備中,該系統包 括: 100103067 表單編號A0101 第3頁/共20頁 1002005433-0 201232292 [0006] [0007] [0008] [0009] [0010] [0011] [0012] [0013]
第一計算模組,用於計算詞彙與詞彙之間的直接關係強 度R i,得到一個直接關係強度矩陣R ; 1, J 第二計算模組,用於計算詞彙與詞彙之間的關係強度比 例Pi ’得到一個關係強度比例矩陣p ; 1» J 第三計算模組’用於根據詞彙與詞彙之間的直接關係強 度Ri j及關係強度比例Pi j,計算詞彙與詞彙之間的間 接關係強度R’ ..;及 1. J 關聯詞彙確定模組’用於根據詞彙與詞彙之間的間接關 係強度,確定間接關聯詞彙。 一種關聯詞彙搜索方法,運行於電子設備中,該方法包 括如下步驟: ' 計算詞彙與詞彙之間的直接關係強度' ,得到一個直 接關係強度矩陣R ; 計算詞彙與詞彙之間的關係強度比例Pi ,得到一個關 係強度比例矩陣p ; 根據詞彙與詞彙之間的直接關係強度R. •及關係強度比 1 * J 例Pi,j ’計算詞彙與詞彙之間的間接關係強度R, ; 及 i’ J
[0014] 根據詞彙與詞彙之間的間接關係強度,確定間接關聯詞 彙。 [0015] 前述方法可以由電子設備(如電腦)執行,其中該電子 設備具有附帶了圖形用戶介面(GUI)的顯示螢幕、一個 或多個處理器、儲存器以及儲存在儲存器中用於執行這 100103067 表單編號 A0101 ^ 4 I/* 20 1 1002005433-0 201232292 [0016] [0017] ο [0018] ❹ [0019] [0020] έ的個或多個模組、程式或指令集。在某些實施 中,該電子创供组ω 。又供了包括無線通信在内的多種功能 〇 夕;執行則述方法的指令可以包含在被配置成由一個或 夕個處理器執行的電腦程式產品中。 49較於f知技術’所述的關聯詞彙搜索系統及方法,其 可獲取珂彙的間接關聯詞彙,從而在詞彙與詞彙之間的 關係中找出間接的、隱性的關係,用以加強輔佐詞 囊與列囊之間的直接關係,提高了使用者使用檢索系統 (如自然語言處理搜索引擎)的效率。 【實施方式】 ;, t閲圖1所示,係本發明電子詨備的結構示意圖。在本實 施例中,所述電子設備(如#服器)2包括透過資料匯流 排相連的顯示設備20、輸入設備22、儲存器23、關聯詞 彙搜索系統24和處理器25 »可以理解,南菸他實施例中 ’所述關聯詞彙搜索系統24也可以設置於其他計算裝置 ’如PDA (Personal Digital Assistant ’ 個人數位 助理)。 所述關聯詞彙搜索系統24用於獲取詞彙的間接關聯詞彙 ,從而在詞彙與詞彙之間的直接關係中找出間接的、隱 性的關係,具體過程以下描述。 所述儲存器23用於儲存所述關聯詞彙搜索系統24的程式 碼等資料。所述顯示設備20和輸入設備22用做電子设備2 的輸入輸出設備。 100103067 表單編號A0101 第5買/共20頁 1002005433-0 201232292 [0〇21] 在本實施例中’所述關聯詞彙搜索系統24可以被分割成 一個或多個模組,所述一個或多個模組被儲存在所述儲 存器23中並被配置成由一個或多個處理器(本實施例為 一個處理器25 )執行’以完成本發明。例如,參閱圖2所 示,所述關聯詞彙搜索系統24被分割成第一計算模組201 、第二計算模組202、第三計算模組203和關聯詞彙確定 模組204。本發明所稱的模組是完成一特定功能的程式段 ’比程式更適合於描述軟體在電子設備2中的執行過程。 [0022] 參閱圖3所示’係本發明關聯詞彙搜索方法的較佳實施例 的流程圖。 [0023] 步驟S1,第一計算模組201計算詞彙與詞彙之間的直接關 係強度,得到一個直接關係強度斟(參閱圖4所示) 。其中’所述詞彙儲存於儲存器23中。可以理解,詞彙 與詞彙之間的直接關係強度與詞彙的排列順序有關。例 如,參閱圖4所示,詞彙“Terin^與詞彙“Term2”的直 接關係強度為2 ’而兩彙Term,,''與,詞彙“Teoii”的直 接關係強度為1。 [0024] 在其他實施例中,所述直接關係強度圖可以用矩陣!^表示 (參閱圖5所示,以下稱為“直接關係強度矩陣R”)。 參閱圖5所示’R ,表示詞彙“Term.”與詞彙“Term 1 » J 1 ^ j 的直接關係強度(Relation(term ,term ))。 1 j [0025] 步驟S2,第二計算模組202計算詞彙與詞彙之間的關係強 度比例),得到一個可轉移的關係強度比例矩陣p (或 簡稱為“關係強度比例矩陣P”)。 100103067 表單編號A0101 第6頁/共20頁 1002005433-0 201232292 [0026]纟第-實施例中,所述第二計算模組如透過計算詞囊與 巧彙之間的條件機率,以獲取詞彙與詞彙之間的關係強 度比例Pi, j。參閱圖6所示,矩陣p中的每個元素J>i j表 示詞彙與詞彙之間的條件機率p((Term门 ^ i
Termp丨Termi),Pi, i表示詞彙Ternii單獨出現的機率 。舉例而言,假設詞彙A出現次數為1〇〇次,當詞彙a出現 時詞彙B出現30次,則條件機率P(AnB)丨A) = 〇 3,或稱 之詞彙A可轉移至詞彙B的關係強度比例為3〇%。 0 [00271在其他實施例中,第二計算模組202也可以透過其他方法 來獲取S§]彙與詞彙之間的關係強度比例P .,得到一個
1 > J 可轉移的關係強度比例矩陣p,(參閱圖7所示)。舉例而 言,假設詞彙A與詞彙B的直接關勝強度為1〇〇,而詞彙B 除了與詞彙A有關係以外,還跟詞彙c有直接關係強度3〇〇 ’與其他詞索無關係(B—C )。因此..,所有跟詞彙b 有關的詞彙關係強度總和為400,其中詞彙A佔1〇〇,詞彙 C佔300。由此可知,詞彙B與詞彙C的知係強度比例為 Q 〇. 75 (或稱詞彙B可轉移至詞彙C的關係強度比例為〇. 75 )*進一步地,可用此方法推知詞彙A與詞彙c的間接關 係強度為100x0. 75 = 75。根據該方法,可以得到圖7所示 的詞彙與詞彙之間的關係強度比例。 [0028] 步驟S3,第三計算模組203根據詞彙與詞彙之間的直接關 係強度R i〗及關係強度比例P丨〗’計算出詞彙與詞彙之 間的間接關係強度R’ ..。.計算公式如下:
1» J
[0029] 。 = Σ ir-I ^ ^ 100103067 表單編號Α0101 第7頁/共20頁 1002005433-0 201232292 [0030] [0031] [0032] [0033] [0034] 其中,η為詞彙的數# (即圖4中的節點數)’以圖*為例 來說,n - 7,詞囊Term】與其他詞彙的間接關係強度參 閲圖8所示,所有詞彙之間的間接關係強度參閱圖9所示 〇 步驟S4 ’關聯詞彙確定模組2G4根據詞彙與詞彙之間的間 接關係強度’痛定間接關聯詞彙。在本實施例中,關聯· 詞彙確定模組2G4選取間接_強度大於或等於預設值( 如1. 〇)的詞彙作為一個詞彙的間接關聯詞彙。舉例而言 ’參閲圖9所示,依據間接關係強度由大到小的順序詞 彙Teri^的間接關聯詞彙有:Term7、Term4、Tei^ 、 Term. ° 3 5 在本實施财,只㈣挖掘第二層的間揍關係(即隱性 關係),例如,根據A—Β—C,可推知人―c。實際上,在 其他實施例中,該方法可以應用到更多層次的間接關係 挖掘,例如詞彙A與詞彙B有闕靡,詞* B與詞彙C常一起 出現,詞彙C與詞彙D常一起出現,則可推知詞彙几與詞彙 D也有間接關聯,即根據A—B—C—D,可推知A〜D。 最後應說明的是,以上實施例僅用以說明本發明的技術 方案而非限制,儘管參照較佳實施例對本發明進行了詳 細說明,本領域的普通技術人員應當理解,可以對本發 明的技術方案進行修改或等同替換,而錢離本發明^ 術方案的精神和範圍。 【圖式簡單說明】 圖1係本發明電子設備的結構示意圖。 100103067 表單編號A0101 第8頁/共20頁 1002005433-0 201232292 [0035] 圖2係關聯詞彙搜索系統的功能模組圖。 [0036] 圖3係本發明關聯詞彙搜索方法的較佳實施例的流程圖 [0037] 圖4係本發明直接關係強度示意圖。 [0038] 圖5係圖4所述直接關係強度示意圖對應的矩陣。 [0039] 圖6和圖7係可轉移的關係強度比例矩陣示意圖。 [0040] 圖8係本發明間接關係強度示意圖。 [0041] 〇 圖9係本發明間接關係強度矩陣示意圖。 【主要元件符號說明】 [0042] 電子設備:2 [0043] 顯示設備:20 [0044] 輸入設備:2 2 [0045] 儲存器:23 [0046] 關聯詞彙搜索系統:24 ❹[0047] 處理器:25 [0048] 第一計算模組:201 [0049] 第二計算模組:202 [0050] 第三計算模組:203 [0051] 關聯詞彙確定模組:204 100103067 表單編號A0101 第9頁/共20頁 1002005433-0
Claims (1)
- 201232292 七、申請專利範圍: 1 . 一種關聯詞彙搜索系統,應用於電子設備中,其中,該系 統包括: 第一計异模組,用於計算詞彙與詞彙之間的直接關係強度 R i, j ’得到一個直接關係強度矩陣R ; 第二計算模組,用於計算詞彙與詞彙之間的關係強度比例 Pi, j,得到一個關係強度比例矩陣P; 第二計算模組,用於根據詞彙與詞彙之間的直接關係強度 \ j及關係強度比例Pi,』,計算詞彙與詞彙之間的間接 關係強度R’ ;及 1. j 關聯詞彙確定模組,用於根據詞彙與詞彙之間的間接關係 強度,確定間接關聯詞彙。 2 ·如申請專利範園第1項所述之關聯詞彙搜索系統,其中, 所述第二計算模組透過計算詞彙與詞彙之間的條件機率, 以獲取詞彙與詞彙之間的關係強度比例p 。 i. j 3 ·如申請專利範圍第1項所述之關聯詞彙棱索系統,其中, 所述第三計算模組計算詞彙與詞彙之間的間接關係強度 R’ i,j的公式為: f ,η為詞彙的數 = XL,χΡ±ιίΛ ^ ίΛ 量。 4 ♦如申請專利範圍第1項所述之關聯詞彙搜索系統,其中, 所述關聯詞彙確定模組選取間接關係強度大於或等於預設 值的詞彙作為一個詞彙的間接關聯詞彙。 5 ·如申凊專利範圍第4項所述之關聯詞彙搜索系統,其中, 100103067 表單編號Α0101 第10頁/共20頁 1002005433-0 201232292 所述預設值為1. ο。 • 一種關聯詞彙搜索方法,運行於電子設備中,該方法包括 如下步驟: 計算詞彙與詞彙之間的直接關係強度1 ,得到一個直 !. 3 接關係強度矩陣R ; 計算詞彙與詞彙之間的關係強度比例Ρ ,得到一個關 ^ 1,j 係強度比例矩陣P ; 根據詞彙與詞彙之間的直接關係強度匕及關係強度比 V,jΟ 例’計算詞彙與詞彙之間的間接關係強度R, ; 1, 3 及 根據詞彙與詞彙之間的間接關係強度,確定間接關聯詞彙 〇 '- .如申請專利範圍第6項所述之關聯詞彙搜索方法,其中’ 所述詞彙與詞彙之間的關係強度比例P.透過計算詞彙 1,j 與詞彙之間的條件機率獲取。 .如申請專利範圍第6項所述聯詞彙後嗉:方法,其中, 所述詞彙與詞彙之間的間接關係強度R’ i .根據以下公式 獲取, \ 』,n為詞 = E:·丨兔.ix 戶 彙的數量。 .如申請專利範圍第6項所述之關聯詞彙搜索方法,其中, 所述根據詞彙與詞彙之間的間接關係強度,確定間接關聯 詞彙的步驟包括:選取間接關係強度大於或等於預設值的 詞彙作為一個詞彙的間接關聯詞彙。 10 .如申請專利範圍第9項所述之關聯詞彙搜索方法,其中, 所述預設值為1. 〇。 100103067 表單編號A0101 第11頁/共20頁 1002005433-0
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100103067A TW201232292A (en) | 2011-01-27 | 2011-01-27 | System and method for searching indirect terms |
US13/217,272 US8478770B2 (en) | 2011-01-27 | 2011-08-25 | Electronic device and method for searching related terms |
EP11179097A EP2482203A1 (en) | 2011-01-27 | 2011-08-26 | Electronic device and method for searching related terms |
US13/906,380 US20130262456A1 (en) | 2011-01-27 | 2013-05-31 | Electronic device and method for searching related terms |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100103067A TW201232292A (en) | 2011-01-27 | 2011-01-27 | System and method for searching indirect terms |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201232292A true TW201232292A (en) | 2012-08-01 |
Family
ID=44582471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100103067A TW201232292A (en) | 2011-01-27 | 2011-01-27 | System and method for searching indirect terms |
Country Status (3)
Country | Link |
---|---|
US (2) | US8478770B2 (zh) |
EP (1) | EP2482203A1 (zh) |
TW (1) | TW201232292A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216932B (zh) * | 2013-09-29 | 2017-11-07 | 北大方正集团有限公司 | 一种知识点关系强度的度量方法及其系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269368B1 (en) * | 1997-10-17 | 2001-07-31 | Textwise Llc | Information retrieval using dynamic evidence combination |
US6490577B1 (en) * | 1999-04-01 | 2002-12-03 | Polyvista, Inc. | Search engine with user activity memory |
WO2006012487A1 (en) * | 2004-07-22 | 2006-02-02 | Genometric Systems Llc | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
US7603349B1 (en) * | 2004-07-29 | 2009-10-13 | Yahoo! Inc. | User interfaces for search systems using in-line contextual queries |
US7856441B1 (en) * | 2005-01-10 | 2010-12-21 | Yahoo! Inc. | Search systems and methods using enhanced contextual queries |
US7752220B2 (en) * | 2005-08-10 | 2010-07-06 | Yahoo! Inc. | Alternative search query processing in a term bidding system |
US7634462B2 (en) * | 2005-08-10 | 2009-12-15 | Yahoo! Inc. | System and method for determining alternate search queries |
WO2008055120A2 (en) * | 2006-10-30 | 2008-05-08 | Seeqpod, Inc. | System and method for summarizing search results |
US8108405B2 (en) | 2007-10-05 | 2012-01-31 | Fujitsu Limited | Refining a search space in response to user input |
US20100106719A1 (en) * | 2008-10-23 | 2010-04-29 | Debora Donato | Context-sensitive search |
-
2011
- 2011-01-27 TW TW100103067A patent/TW201232292A/zh unknown
- 2011-08-25 US US13/217,272 patent/US8478770B2/en not_active Expired - Fee Related
- 2011-08-26 EP EP11179097A patent/EP2482203A1/en not_active Withdrawn
-
2013
- 2013-05-31 US US13/906,380 patent/US20130262456A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US8478770B2 (en) | 2013-07-02 |
EP2482203A1 (en) | 2012-08-01 |
US20120197878A1 (en) | 2012-08-02 |
US20130262456A1 (en) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5905638B2 (ja) | ユーザ・インターフェース・コンテンツ個人別最適化システム | |
WO2016091174A1 (zh) | 图数据的搜索方法和装置 | |
WO2019085327A1 (zh) | 电子装置、产品推荐方法、系统和计算机可读存储介质 | |
US9311407B2 (en) | Native application search results | |
TWI615723B (zh) | 網路搜尋方法及設備 | |
WO2012148293A1 (en) | Using feedback reports to determine performance of an application in a geographic location | |
CN101000607A (zh) | 用于增强搜索结果导航的可视化方法及装置 | |
WO2016015431A1 (zh) | 搜索方法、装置、设备及非易失性计算机存储介质 | |
RU2665920C2 (ru) | Оптимизированный процесс визуализации в браузере | |
US20130173655A1 (en) | Selective fetching of search results | |
US20210173833A1 (en) | Triggering knowledge panels | |
US20140280133A1 (en) | Structured Data to Aggregate Analytics | |
CA2815288A1 (en) | Method and apparatus for providing efficient context classification | |
US9275147B2 (en) | Providing query suggestions | |
US20150193832A1 (en) | Method, apparatus, and system for communicating and presenting product information | |
JP2013522798A5 (zh) | ||
WO2019091018A1 (zh) | 知识图谱建立方法、装置、计算机设备及计算机存储介质 | |
WO2020024403A1 (zh) | 目标语料数据的爬取方法、装置及存储介质 | |
WO2016078480A1 (zh) | 一种用于提供时效性图片搜索结果的方法与设备 | |
US20100274832A1 (en) | Identifying Relevant Data from Unstructured Feeds | |
US20140215298A1 (en) | Creating Tag Clouds Based on User Specified Arbitrary Shape Tags | |
WO2012151752A1 (en) | Annotating search results with images | |
US20110219030A1 (en) | Document presentation using retrieval path data | |
TW201232292A (en) | System and method for searching indirect terms | |
WO2017049767A1 (zh) | 一种用于生成查询结果的方法和装置 |