TW201232292A - System and method for searching indirect terms - Google Patents

System and method for searching indirect terms Download PDF

Info

Publication number
TW201232292A
TW201232292A TW100103067A TW100103067A TW201232292A TW 201232292 A TW201232292 A TW 201232292A TW 100103067 A TW100103067 A TW 100103067A TW 100103067 A TW100103067 A TW 100103067A TW 201232292 A TW201232292 A TW 201232292A
Authority
TW
Taiwan
Prior art keywords
vocabulary
indirect
relationship strength
relationship
strength
Prior art date
Application number
TW100103067A
Other languages
English (en)
Inventor
Chung-I Lee
Chien-Fa Yeh
Chiu-Hua Lu
Gen-Chi Lu
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW100103067A priority Critical patent/TW201232292A/zh
Priority to US13/217,272 priority patent/US8478770B2/en
Priority to EP11179097A priority patent/EP2482203A1/en
Publication of TW201232292A publication Critical patent/TW201232292A/zh
Priority to US13/906,380 priority patent/US20130262456A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Description

201232292 六、發明說明: 【發明所屬之技術領域】 [0001] 本發明涉及一種關聯詞彙搜索系統及方法。 【先前技術"】
[0002] 在自然語言處理(Natural Language Processing, NLP)技術中,搜尋詞彙與詞彙之間的關係強度是相當重 要的方面。透過詞彙與詞彙之間的關係強度,傳統的自 然語言處理技術可以獲取一個詞彙的關聯詞彙,並透過 這些關聯詞彙延伸擴展出該詞彙的相關詞彙。 [0003] 但是,傳統的自然語言處理技術中只是透過詞彙與詞彙 之間的直接關係強度,獲取一個詞彙的直接關聯詞彙( 如近義詞和同義詞等),卻不能獲取與該詞彙有間接關 係的詞彙。例如,對於詞彙“棒球”而言,假設詞彙“ 棒球”與詞彙“運動”存在直接關係,而詞彙“運動” 又與詞彙“籃球”存在直接關係,傳統的自然語言處理 技術只能找到與詞彙“棒球”有直揍關聯的詞彙,如“ 運動”等,而對於與“棒球”有間接關係的詞彙,如“ 籃球”等,卻無法獲取。 【發明内容】 [0004] 鑒於以上内容,有必要提供一種關聯詞彙搜索系統及方 法,其可獲取詞彙的間接關聯詞彙,從而在詞彙與詞彙 之間的直接關係中找出間接的、隱性的關係,用以加強 輔佐詞彙與詞彙之間的直接關係。 [0005] 一種關聯詞彙搜索系統,應用於電子設備中,該系統包 括: 100103067 表單編號A0101 第3頁/共20頁 1002005433-0 201232292 [0006] [0007] [0008] [0009] [0010] [0011] [0012] [0013]
第一計算模組,用於計算詞彙與詞彙之間的直接關係強 度R i,得到一個直接關係強度矩陣R ; 1, J 第二計算模組,用於計算詞彙與詞彙之間的關係強度比 例Pi ’得到一個關係強度比例矩陣p ; 1» J 第三計算模組’用於根據詞彙與詞彙之間的直接關係強 度Ri j及關係強度比例Pi j,計算詞彙與詞彙之間的間 接關係強度R’ ..;及 1. J 關聯詞彙確定模組’用於根據詞彙與詞彙之間的間接關 係強度,確定間接關聯詞彙。 一種關聯詞彙搜索方法,運行於電子設備中,該方法包 括如下步驟: ' 計算詞彙與詞彙之間的直接關係強度' ,得到一個直 接關係強度矩陣R ; 計算詞彙與詞彙之間的關係強度比例Pi ,得到一個關 係強度比例矩陣p ; 根據詞彙與詞彙之間的直接關係強度R. •及關係強度比 1 * J 例Pi,j ’計算詞彙與詞彙之間的間接關係強度R, ; 及 i’ J
[0014] 根據詞彙與詞彙之間的間接關係強度,確定間接關聯詞 彙。 [0015] 前述方法可以由電子設備(如電腦)執行,其中該電子 設備具有附帶了圖形用戶介面(GUI)的顯示螢幕、一個 或多個處理器、儲存器以及儲存在儲存器中用於執行這 100103067 表單編號 A0101 ^ 4 I/* 20 1 1002005433-0 201232292 [0016] [0017] ο [0018] ❹ [0019] [0020] έ的個或多個模組、程式或指令集。在某些實施 中,該電子创供组ω 。又供了包括無線通信在内的多種功能 〇 夕;執行則述方法的指令可以包含在被配置成由一個或 夕個處理器執行的電腦程式產品中。 49較於f知技術’所述的關聯詞彙搜索系統及方法,其 可獲取珂彙的間接關聯詞彙,從而在詞彙與詞彙之間的 關係中找出間接的、隱性的關係,用以加強輔佐詞 囊與列囊之間的直接關係,提高了使用者使用檢索系統 (如自然語言處理搜索引擎)的效率。 【實施方式】 ;, t閲圖1所示,係本發明電子詨備的結構示意圖。在本實 施例中,所述電子設備(如#服器)2包括透過資料匯流 排相連的顯示設備20、輸入設備22、儲存器23、關聯詞 彙搜索系統24和處理器25 »可以理解,南菸他實施例中 ’所述關聯詞彙搜索系統24也可以設置於其他計算裝置 ’如PDA (Personal Digital Assistant ’ 個人數位 助理)。 所述關聯詞彙搜索系統24用於獲取詞彙的間接關聯詞彙 ,從而在詞彙與詞彙之間的直接關係中找出間接的、隱 性的關係,具體過程以下描述。 所述儲存器23用於儲存所述關聯詞彙搜索系統24的程式 碼等資料。所述顯示設備20和輸入設備22用做電子设備2 的輸入輸出設備。 100103067 表單編號A0101 第5買/共20頁 1002005433-0 201232292 [0〇21] 在本實施例中’所述關聯詞彙搜索系統24可以被分割成 一個或多個模組,所述一個或多個模組被儲存在所述儲 存器23中並被配置成由一個或多個處理器(本實施例為 一個處理器25 )執行’以完成本發明。例如,參閱圖2所 示,所述關聯詞彙搜索系統24被分割成第一計算模組201 、第二計算模組202、第三計算模組203和關聯詞彙確定 模組204。本發明所稱的模組是完成一特定功能的程式段 ’比程式更適合於描述軟體在電子設備2中的執行過程。 [0022] 參閱圖3所示’係本發明關聯詞彙搜索方法的較佳實施例 的流程圖。 [0023] 步驟S1,第一計算模組201計算詞彙與詞彙之間的直接關 係強度,得到一個直接關係強度斟(參閱圖4所示) 。其中’所述詞彙儲存於儲存器23中。可以理解,詞彙 與詞彙之間的直接關係強度與詞彙的排列順序有關。例 如,參閱圖4所示,詞彙“Terin^與詞彙“Term2”的直 接關係強度為2 ’而兩彙Term,,''與,詞彙“Teoii”的直 接關係強度為1。 [0024] 在其他實施例中,所述直接關係強度圖可以用矩陣!^表示 (參閱圖5所示,以下稱為“直接關係強度矩陣R”)。 參閱圖5所示’R ,表示詞彙“Term.”與詞彙“Term 1 » J 1 ^ j 的直接關係強度(Relation(term ,term ))。 1 j [0025] 步驟S2,第二計算模組202計算詞彙與詞彙之間的關係強 度比例),得到一個可轉移的關係強度比例矩陣p (或 簡稱為“關係強度比例矩陣P”)。 100103067 表單編號A0101 第6頁/共20頁 1002005433-0 201232292 [0026]纟第-實施例中,所述第二計算模組如透過計算詞囊與 巧彙之間的條件機率,以獲取詞彙與詞彙之間的關係強 度比例Pi, j。參閱圖6所示,矩陣p中的每個元素J>i j表 示詞彙與詞彙之間的條件機率p((Term门 ^ i
Termp丨Termi),Pi, i表示詞彙Ternii單獨出現的機率 。舉例而言,假設詞彙A出現次數為1〇〇次,當詞彙a出現 時詞彙B出現30次,則條件機率P(AnB)丨A) = 〇 3,或稱 之詞彙A可轉移至詞彙B的關係強度比例為3〇%。 0 [00271在其他實施例中,第二計算模組202也可以透過其他方法 來獲取S§]彙與詞彙之間的關係強度比例P .,得到一個
1 > J 可轉移的關係強度比例矩陣p,(參閱圖7所示)。舉例而 言,假設詞彙A與詞彙B的直接關勝強度為1〇〇,而詞彙B 除了與詞彙A有關係以外,還跟詞彙c有直接關係強度3〇〇 ’與其他詞索無關係(B—C )。因此..,所有跟詞彙b 有關的詞彙關係強度總和為400,其中詞彙A佔1〇〇,詞彙 C佔300。由此可知,詞彙B與詞彙C的知係強度比例為 Q 〇. 75 (或稱詞彙B可轉移至詞彙C的關係強度比例為〇. 75 )*進一步地,可用此方法推知詞彙A與詞彙c的間接關 係強度為100x0. 75 = 75。根據該方法,可以得到圖7所示 的詞彙與詞彙之間的關係強度比例。 [0028] 步驟S3,第三計算模組203根據詞彙與詞彙之間的直接關 係強度R i〗及關係強度比例P丨〗’計算出詞彙與詞彙之 間的間接關係強度R’ ..。.計算公式如下:
1» J
[0029] 。 = Σ ir-I ^ ^ 100103067 表單編號Α0101 第7頁/共20頁 1002005433-0 201232292 [0030] [0031] [0032] [0033] [0034] 其中,η為詞彙的數# (即圖4中的節點數)’以圖*為例 來說,n - 7,詞囊Term】與其他詞彙的間接關係強度參 閲圖8所示,所有詞彙之間的間接關係強度參閱圖9所示 〇 步驟S4 ’關聯詞彙確定模組2G4根據詞彙與詞彙之間的間 接關係強度’痛定間接關聯詞彙。在本實施例中,關聯· 詞彙確定模組2G4選取間接_強度大於或等於預設值( 如1. 〇)的詞彙作為一個詞彙的間接關聯詞彙。舉例而言 ’參閲圖9所示,依據間接關係強度由大到小的順序詞 彙Teri^的間接關聯詞彙有:Term7、Term4、Tei^ 、 Term. ° 3 5 在本實施财,只㈣挖掘第二層的間揍關係(即隱性 關係),例如,根據A—Β—C,可推知人―c。實際上,在 其他實施例中,該方法可以應用到更多層次的間接關係 挖掘,例如詞彙A與詞彙B有闕靡,詞* B與詞彙C常一起 出現,詞彙C與詞彙D常一起出現,則可推知詞彙几與詞彙 D也有間接關聯,即根據A—B—C—D,可推知A〜D。 最後應說明的是,以上實施例僅用以說明本發明的技術 方案而非限制,儘管參照較佳實施例對本發明進行了詳 細說明,本領域的普通技術人員應當理解,可以對本發 明的技術方案進行修改或等同替換,而錢離本發明^ 術方案的精神和範圍。 【圖式簡單說明】 圖1係本發明電子設備的結構示意圖。 100103067 表單編號A0101 第8頁/共20頁 1002005433-0 201232292 [0035] 圖2係關聯詞彙搜索系統的功能模組圖。 [0036] 圖3係本發明關聯詞彙搜索方法的較佳實施例的流程圖 [0037] 圖4係本發明直接關係強度示意圖。 [0038] 圖5係圖4所述直接關係強度示意圖對應的矩陣。 [0039] 圖6和圖7係可轉移的關係強度比例矩陣示意圖。 [0040] 圖8係本發明間接關係強度示意圖。 [0041] 〇 圖9係本發明間接關係強度矩陣示意圖。 【主要元件符號說明】 [0042] 電子設備:2 [0043] 顯示設備:20 [0044] 輸入設備:2 2 [0045] 儲存器:23 [0046] 關聯詞彙搜索系統:24 ❹[0047] 處理器:25 [0048] 第一計算模組:201 [0049] 第二計算模組:202 [0050] 第三計算模組:203 [0051] 關聯詞彙確定模組:204 100103067 表單編號A0101 第9頁/共20頁 1002005433-0

Claims (1)

  1. 201232292 七、申請專利範圍: 1 . 一種關聯詞彙搜索系統,應用於電子設備中,其中,該系 統包括: 第一計异模組,用於計算詞彙與詞彙之間的直接關係強度 R i, j ’得到一個直接關係強度矩陣R ; 第二計算模組,用於計算詞彙與詞彙之間的關係強度比例 Pi, j,得到一個關係強度比例矩陣P; 第二計算模組,用於根據詞彙與詞彙之間的直接關係強度 \ j及關係強度比例Pi,』,計算詞彙與詞彙之間的間接 關係強度R’ ;及 1. j 關聯詞彙確定模組,用於根據詞彙與詞彙之間的間接關係 強度,確定間接關聯詞彙。 2 ·如申請專利範園第1項所述之關聯詞彙搜索系統,其中, 所述第二計算模組透過計算詞彙與詞彙之間的條件機率, 以獲取詞彙與詞彙之間的關係強度比例p 。 i. j 3 ·如申請專利範圍第1項所述之關聯詞彙棱索系統,其中, 所述第三計算模組計算詞彙與詞彙之間的間接關係強度 R’ i,j的公式為: f ,η為詞彙的數 = XL,χΡ±ιίΛ ^ ίΛ 量。 4 ♦如申請專利範圍第1項所述之關聯詞彙搜索系統,其中, 所述關聯詞彙確定模組選取間接關係強度大於或等於預設 值的詞彙作為一個詞彙的間接關聯詞彙。 5 ·如申凊專利範圍第4項所述之關聯詞彙搜索系統,其中, 100103067 表單編號Α0101 第10頁/共20頁 1002005433-0 201232292 所述預設值為1. ο。 • 一種關聯詞彙搜索方法,運行於電子設備中,該方法包括 如下步驟: 計算詞彙與詞彙之間的直接關係強度1 ,得到一個直 !. 3 接關係強度矩陣R ; 計算詞彙與詞彙之間的關係強度比例Ρ ,得到一個關 ^ 1,j 係強度比例矩陣P ; 根據詞彙與詞彙之間的直接關係強度匕及關係強度比 V,j
    Ο 例’計算詞彙與詞彙之間的間接關係強度R, ; 1, 3 及 根據詞彙與詞彙之間的間接關係強度,確定間接關聯詞彙 〇 '- .如申請專利範圍第6項所述之關聯詞彙搜索方法,其中’ 所述詞彙與詞彙之間的關係強度比例P.透過計算詞彙 1,j 與詞彙之間的條件機率獲取。 .如申請專利範圍第6項所述聯詞彙後嗉:方法,其中, 所述詞彙與詞彙之間的間接關係強度R’ i .根據以下公式 獲取, \ 』,n為詞 = E:·丨兔.ix 戶 彙的數量。 .如申請專利範圍第6項所述之關聯詞彙搜索方法,其中, 所述根據詞彙與詞彙之間的間接關係強度,確定間接關聯 詞彙的步驟包括:選取間接關係強度大於或等於預設值的 詞彙作為一個詞彙的間接關聯詞彙。 10 .如申請專利範圍第9項所述之關聯詞彙搜索方法,其中, 所述預設值為1. 〇。 100103067 表單編號A0101 第11頁/共20頁 1002005433-0
TW100103067A 2011-01-27 2011-01-27 System and method for searching indirect terms TW201232292A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW100103067A TW201232292A (en) 2011-01-27 2011-01-27 System and method for searching indirect terms
US13/217,272 US8478770B2 (en) 2011-01-27 2011-08-25 Electronic device and method for searching related terms
EP11179097A EP2482203A1 (en) 2011-01-27 2011-08-26 Electronic device and method for searching related terms
US13/906,380 US20130262456A1 (en) 2011-01-27 2013-05-31 Electronic device and method for searching related terms

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100103067A TW201232292A (en) 2011-01-27 2011-01-27 System and method for searching indirect terms

Publications (1)

Publication Number Publication Date
TW201232292A true TW201232292A (en) 2012-08-01

Family

ID=44582471

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100103067A TW201232292A (en) 2011-01-27 2011-01-27 System and method for searching indirect terms

Country Status (3)

Country Link
US (2) US8478770B2 (zh)
EP (1) EP2482203A1 (zh)
TW (1) TW201232292A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216932B (zh) * 2013-09-29 2017-11-07 北大方正集团有限公司 一种知识点关系强度的度量方法及其系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US6490577B1 (en) * 1999-04-01 2002-12-03 Polyvista, Inc. Search engine with user activity memory
WO2006012487A1 (en) * 2004-07-22 2006-02-02 Genometric Systems Llc Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units
US7603349B1 (en) * 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US7856441B1 (en) * 2005-01-10 2010-12-21 Yahoo! Inc. Search systems and methods using enhanced contextual queries
US7752220B2 (en) * 2005-08-10 2010-07-06 Yahoo! Inc. Alternative search query processing in a term bidding system
US7634462B2 (en) * 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
WO2008055120A2 (en) * 2006-10-30 2008-05-08 Seeqpod, Inc. System and method for summarizing search results
US8108405B2 (en) 2007-10-05 2012-01-31 Fujitsu Limited Refining a search space in response to user input
US20100106719A1 (en) * 2008-10-23 2010-04-29 Debora Donato Context-sensitive search

Also Published As

Publication number Publication date
US8478770B2 (en) 2013-07-02
EP2482203A1 (en) 2012-08-01
US20120197878A1 (en) 2012-08-02
US20130262456A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
JP5905638B2 (ja) ユーザ・インターフェース・コンテンツ個人別最適化システム
WO2016091174A1 (zh) 图数据的搜索方法和装置
WO2019085327A1 (zh) 电子装置、产品推荐方法、系统和计算机可读存储介质
US9311407B2 (en) Native application search results
TWI615723B (zh) 網路搜尋方法及設備
WO2012148293A1 (en) Using feedback reports to determine performance of an application in a geographic location
CN101000607A (zh) 用于增强搜索结果导航的可视化方法及装置
WO2016015431A1 (zh) 搜索方法、装置、设备及非易失性计算机存储介质
RU2665920C2 (ru) Оптимизированный процесс визуализации в браузере
US20130173655A1 (en) Selective fetching of search results
US20210173833A1 (en) Triggering knowledge panels
US20140280133A1 (en) Structured Data to Aggregate Analytics
CA2815288A1 (en) Method and apparatus for providing efficient context classification
US9275147B2 (en) Providing query suggestions
US20150193832A1 (en) Method, apparatus, and system for communicating and presenting product information
JP2013522798A5 (zh)
WO2019091018A1 (zh) 知识图谱建立方法、装置、计算机设备及计算机存储介质
WO2020024403A1 (zh) 目标语料数据的爬取方法、装置及存储介质
WO2016078480A1 (zh) 一种用于提供时效性图片搜索结果的方法与设备
US20100274832A1 (en) Identifying Relevant Data from Unstructured Feeds
US20140215298A1 (en) Creating Tag Clouds Based on User Specified Arbitrary Shape Tags
WO2012151752A1 (en) Annotating search results with images
US20110219030A1 (en) Document presentation using retrieval path data
TW201232292A (en) System and method for searching indirect terms
WO2017049767A1 (zh) 一种用于生成查询结果的方法和装置