TW202232363A - 文書檢索裝置、文書檢索方法、及文書檢索程式產品 - Google Patents
文書檢索裝置、文書檢索方法、及文書檢索程式產品 Download PDFInfo
- Publication number
- TW202232363A TW202232363A TW110126779A TW110126779A TW202232363A TW 202232363 A TW202232363 A TW 202232363A TW 110126779 A TW110126779 A TW 110126779A TW 110126779 A TW110126779 A TW 110126779A TW 202232363 A TW202232363 A TW 202232363A
- Authority
- TW
- Taiwan
- Prior art keywords
- term
- search
- terms
- document
- vector
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文書檢索裝置(100)係具備:用語間權重算出部(130)、及加權部(140)。用語間權重算出部(130)係針對由複數檢索文書(210)的至少任一者所包含的用語所成的向量用語所包含的各2個用語,若一方用語相當於另一方用語的下位時,算出一方用語與另一方用語的組合中對一方用語的的權重且依涵義上的距離而定的權重亦即用語間權重。加權部(140)係針對向量用語所包含的各用語,若向量用語包含相當於各用語的上位的其他用語,使用對應檢索文的檢索文特徵量與用語間權重,求出對應各用語的權重。
Description
本揭示係關於文書檢索裝置、文書檢索方法、及文書檢索程式產品。
在檢索系統中,必須應對因表記不統一等而無法正當評估本文(text)間的相似性的情形。
專利文獻1係揭示根據節目所具有的概要欄,檢索具有相似概要欄的節目時,利用相似關係、與上位下位關係等語言表現間的關係來擴張文章,藉此應對前述情形的技術。其中,概要欄為文章。
[先前技術文獻]
[專利文獻]
[專利文獻1]日本專利第5982174號公報
[發明所欲解決之課題]
藉由專利文獻1所揭示的技術,使用相當於上位概念或兄弟概念的單詞,擴張文書的單詞。因此,以具體例而言,若欲檢索「升降機的照明」的詳細內容,考量利用者欲求出比作為檢索文而輸入的內容更為具體的內容,惟因藉由作為「升降機的照明」的上位概念的「梯廂」等比檢索文所包含的單詞更為抽象的單詞,擴張檢索對象,有檢索包含利用者所未意圖的單詞的文書的課題。
尤其,若某單詞具有相當於複數上位概念的單詞時,較容易檢索包含與檢索所使用的單詞的關連性低的單詞的文書。
本揭示之目的在檢索文書的文書檢索裝置中,未使用相當於上位概念及兄弟概念的單詞而擴張文書的單詞。
[用以解決課題的手段]
本揭示之文書檢索裝置係檢索與包含由複數檢索文書的至少任一者所包含的用語所成的向量用語所包含的用語的檢索文相對應的檢索文書的文書檢索裝置,其具備:
記憶部,其係記憶:由與前述向量用語所包含的用語各個相對應的要素所成,且與使用前述檢索文與前述複數檢索文書所求出的前述檢索文相對應的檢索文特徵量;及表示前述向量用語所包含的用語間的上位下位關係的上位下位關係資訊;
用語間權重算出部,其係針對前述向量用語所包含的各2個用語,若前述上位下位關係資訊表示一方用語相當於另一方用語的下位時,算出根據前述另一方用語而定之對前述一方用語的權重,且依表示前述一方用語的涵義與前述另一方用語的涵義之間的距離的涵義上的距離而定的權重亦即用語間權重;及
加權部,其係針對前述向量用語所包含的各用語,參照前述上位下位關係資訊,若在前述向量用語所包含的前述各用語以外的用語之中存在相當於前述各用語的上位的各其他用語時,使用前述檢索文特徵量與前述用語間權重,求出對應前述各用語的權重。
[發明之效果]
藉由本揭示,用語間權重算出部針對向量用語所包含的各2個用語,若一方用語相當於另一方用語的下位時,求出根據另一方用語而定之對一方用語的用語間權重。之後,加權部使用用語間權重,求出對應向量用語所包含的各用語的權重。文書檢索裝置係使用加權部所求出的權重來檢索檢索文書。
因此,藉由本揭示,在檢索文書的文書檢索裝置中,可未使用相當於上位概念及兄弟概念的單詞來擴張文書的單詞。
在實施形態的說明及圖示中,對相同要素及對應要素標註相同符號。已標註相同符號的要素的說明係適當省略或簡化。圖中箭號主要表示資料流程或處理流程。此外,亦可將「部」適當改讀為「電路」、「工序」、「順序」、「處理」或「電路系統(circuitry)」。
實施形態1.
以下一邊參照圖示,一邊詳加說明本實施形態。
***構成的說明***
圖1係顯示本實施形態之文書檢索裝置100的構成例。文書檢索裝置100係如本圖所示,具備:檢索文受理部110、向量化處理部120、用語間權重算出部130、加權部140、相似度算出部150、及結果編輯部160。文書檢索裝置100係與終端機500進行通訊,此外,記憶:複數檢索文書210、複數檢索文書向量220、同義語辭典230、及上位下位關係辭典240。文書檢索裝置100亦為由複數檢索文書210檢索對應檢索文510的文書的檢索伺服器。其中,取代文書檢索裝置100,雲端伺服器等外部裝置記憶複數檢索文書210、同義語辭典230、及上位下位關係辭典240,文書檢索裝置100亦可為由該外部裝置適當取得複數檢索文書210、同義語辭典230、及上位下位關係辭典240所具有的資訊的構成。
終端機500係使用者檢索複數檢索文書210時所使用的機器,與文書檢索裝置100進行通訊。
使用者係將檢索用本文509輸入至終端機500,終端機500係將使用者所輸入的檢索用本文509傳送至文書檢索裝置100。檢索用本文509係用以檢索複數檢索文書210的本文。終端機500係收取與已傳送至文書檢索裝置100的檢索用本文509相對應的檢索結果,且對使用者提示所收取到的檢索結果。
檢索文510係檢索用本文509所包含的用語之中向量用語300所包含的用語的集合。檢索文510典型而言為名詞的集合。檢索文510係藉由首先將檢索用本文509劃分為單詞,接著在檢索用本文509所包含的單詞之中僅抽出名詞,接著抽出所抽出的名詞之中向量用語300所包含的名詞而得。
向量用語300係由複數檢索文書210的至少任一者所包含的用語所成。各檢索文書210亦有包含向量用語300所包含的用語的情形。其中,各檢索文書210及檢索文510並不一定包含向量用語300所包含的用語的全部。典型而言,向量用語300係複數檢索文書210的至少任一者所包含的名詞的集合。向量用語300係藉由首先將各檢索文書210的本文劃分為單詞,接著在各檢索文書210所包含的單詞之中僅抽出名詞而得。
各檢索文書210係文書檢索裝置100作為檢索對象的文書,亦可為複數文書的集合。
各檢索文書向量220係經向量化的各檢索文書210,表示各檢索文書210所包含的各用語的權重。各檢索文書向量220係以1對1對應各檢索文書210。
同義語辭典230係包含表示屬於同義的複數用語的彙集的資訊的辭典。
上位下位關係辭典240係包含表示向量用語300所包含的複數用語間的上位下位關係的上位下位關係資訊的辭典,此外,亦可為本體論(ontology)。
檢索文受理部110係由終端機500受理檢索用本文509,將所受理到的檢索用本文509交給向量化處理部120。
向量化處理部120係受理檢索用本文509與複數檢索文書210,使用所受理到的檢索用本文509,生成檢索文510,且使用所生成的檢索文510,生成檢索文向量512,使用所受理到的複數檢索文書210,生成複數檢索文書向量220。檢索文向量512係對應檢索文510的向量,為檢索文特徵量的具體例。各檢索文書向量220係已抽出各檢索文書210的特徵的檢索文書特徵量。檢索文特徵量與檢索文書特徵量係分別由與向量用語300所包含的用語各個相對應的要素所成,使用檢索文5l0與複數檢索文書210來求出。向量化處理部120係求出以1對1對應複數檢索文書210的複數檢索文書特徵量。
向量化處理部120亦可在將檢索文510與各檢索文書210向量化時使用同義語辭典230。向量化處理部120使用同義語辭典230時,以具體例而言,考慮同義語辭典230表示所謂「製作」的用語與所謂「作成」的用語為同義的情形。在該情形下,向量化處理部120係將對應所謂「製作」的用語的要素與對應所謂「作成」的用語的要素彙整為1個要素。
用語間權重算出部130係使用上位下位關係辭典240,根據用語間的涵義上的距離及用語間的上位下位關係,算出用語間權重。用語間權重係根據向量用語所包含的一方用語與另一方用語的上位下位關係所設定的權重,根據另一方用語所設定之對一方用語的權重,依一方用語與另一方用語之間的涵義上的距離而定的權重。涵義上的距離係表示一方用語的涵義與另一方用語的涵義之間的距離。用語間權重算出部130係針對向量用語300所包含的各2個用語,若上位下位關係資訊表示一方用語相當於另一方用語的下位時,算出用語間權重。用語間權重算出部130係當上位下位關係資訊未表示一方用語相當於另一方用語的下位時,亦可將一方用語與另一方用語的組合中對一方用語的用語間權重設為0。
以具體例而言,用語間權重算出部130係使用上位下位關係辭典240,建構用語的階層構造131,根據所建構出的階層構造131,求出用語間權重行列133。用語間權重行列133的各要素係用語間權重。階層構造131亦可為具有虛擬用語,作為最上位的用語者。
加權部140係根據用語間權重算出部130所求出的用語間權重,藉由對檢索文向量512供予權重而生成加權向量513。
加權部140係針對向量用語所包含的各用語,參照上位下位關係資訊,若在向量用語所包含的各用語以外的用語之中存在相當於各用語的上位的各其他用語時,使用檢索文特徵量與用語間權重,求出對應各用語的權重。亦有對應各用語的其他用語的總數為2以上的情形。
加權部140亦可針對向量用語所包含的各用語,若存在對應各用語的前述各其他用語,將對應各其他用語的檢索文特徵量的要素的值,乘以對應各用語與各其他用語之雙方的用語間權重,將相乘的結果、與對應各用語的檢索文特徵量的要素的值相加來求出對應各用語的權重。
相似度算出部150係使用加權向量513與各檢索文書向量220,算出檢索文510與各檢索文書210的相似度151。以具體例而言,相似度算出部150係算出檢索文特徵量與檢索文書特徵量的各個的餘弦相似度或向量間的距離,作為相似度151。若相似度算出部150算出向量間的距離,相似度算出部150係將各檢索文書向量220與加權向量513正規化。
結果編輯部160係根據相似度151,編輯複數檢索文書210的檢索結果,且將所編輯出的檢索結果輸出至終端機500。
複數檢索文書210、複數檢索文書向量220、同義語辭典230、與上位下位關係辭典240的各個係由記憶部所記憶。
圖2係顯示本實施形態之文書檢索裝置100的硬體構成例。文書檢索裝置100係由電腦所成。文書檢索裝置100亦可由複數電腦所成。
電腦係如本圖所示,具備:處理器11、主記憶裝置12、輔助記憶裝置13、輸入IF(Interface(介面))14、輸出IF、及通訊IF16等硬體的電腦。該等硬體係透過訊號線19而彼此相連接。
處理器11係進行運算處理的IC(Integrated Circuit,積體電路),而且控制電腦所具備的硬體。以具體例而言,處理器11為CPU(Central Processing Unit,中央處理單元)、DSP(Digital Signal Processor,數位訊號處理器)、或GPU(Graphics Processing Unit,圖形處理單元)。
文書檢索裝置100亦可具備替代處理器11的複數處理器。複數處理器係分擔處理器11的作用。
典型而言,主記憶裝置12為揮發性的記憶裝置。主記憶裝置12亦被稱為主記憶裝置或主記憶體。以具體例而言,主記憶裝置12為RAM(Random Access Memory,隨機存取記憶體)。被記憶在主記憶裝置12的資料係視需要保存在輔助記憶裝置13。
典型而言,輔助記憶裝置13為非揮發性的記憶裝置。以具體例而言,輔助記憶裝置13為ROM(Read Only Memory,唯讀記憶體)、HDD(Hard Disk Drive,硬碟驅動機)、或快閃記憶體。記憶在輔助記憶裝置13的資料係視需要被載入於主記憶裝置12。
主記憶裝置12及輔助記憶裝置13亦可一體構成。
輸入IF14係連接輸入裝置及輸出裝置之埠(port)。以具體例而言,輸入IF14為USB(Universal Serial Bus,通用串列匯流排)的端子。以具體例而言,輸入裝置為鍵盤及滑鼠。
輸出IF15係連接輸出裝置之埠。以具體例而言,輸出IF15係USB端子或HDMI(High-Definition Multimedia Interface(高畫質多媒體介面),註冊商標)端子。以具體例而言,輸出裝置為顯示器。
通訊IF16係接收機及發送機。以具體例而言,通訊IF16係通訊晶片或NIC(Network Interface Card,網路介面卡)。
文書檢索裝置100的各部與其他裝置等進行通訊時,亦可適當使用通訊IF16。文書檢索裝置100的各部亦可透過輸入IF14來受理資料,此外,亦可透過通訊IF16來受理資料。
輔助記憶裝置13係記憶有:複數檢索文書210、複數檢索文書向量220、同義語辭典230、上位下位關係辭典240、及文書檢索程式。文書檢索程式係使電腦實現文書檢索裝置100所具備的各部的功能的程式。文書檢索程式亦可由複數檔案所成。文書檢索程式係被載入於主記憶裝置12,藉由處理器11來執行。文書檢索裝置100所具備的各部的功能係藉由軟體予以實現。
執行文書檢索程式時所使用的資料、與藉由執行文書檢索程式所得的資料等係被適當記憶在記憶裝置。文書檢索裝置100的各部係適當利用記憶裝置。以具體例而言,記憶裝置係由主記憶裝置12、輔助記憶裝置13、處理器11內的暫存器、處理器11內的快取記憶體的至少1個所成。其中,資料與資訊亦有具有同等涵義的情形。記憶裝置亦可為與電腦獨立者。記憶部係由記憶裝置所成。
主記憶裝置12及輔助記憶裝置13的功能亦可藉由其他記憶裝置來實現。
文書檢索程式亦可記錄在電腦可讀取的非揮發性的記錄媒體。以具體例而言,非揮發性的記錄媒體為光碟或快閃記憶體。文書檢索程式亦可被提供作為程式產品。
***動作的說明***
文書檢索裝置100的動作順序係相當於文書檢索方法。此外,實現文書檢索裝置100的動作的程式係相當於文書檢索程式。
圖3係顯示供文書檢索裝置100可檢索複數檢索文書210之用的動作之一例的流程圖。使用本圖,說明文書檢索裝置100的動作。
(步驟S101:起動處理)
文書檢索裝置100係被起動。
(步驟S102:事前準備處理)
向量化處理部120係使用複數檢索文書210,準備向量用語300。之後,向量化處理部120係準備複數向量化文書211,用語間權重算出部130係準備用語間權重行列133。準備複數向量化文書211與用語間權重行列133的各個的處理容後詳述。
(步驟S103:輸入待機處理)
文書檢索裝置100係待機至檢索用本文509被輸入至檢索文受理部110為止。
圖4係顯示用語間權重算出部130的動作之一例的流程圖。使用本圖,說明用語間權重算出部130的動作。
(步驟S121:階層構造建構處理)
用語間權重算出部130係使用上位下位關係辭典240與向量用語300,建構針對向量用語300所包含的用語的階層構造131。
圖5係使用具體例,說明用語間權重算出部130使用上位下位關係辭典240來建構用語的階層構造131的處理的圖。在本例中,上位下位關係辭典240係定義關於升降機的用語的上位下位關係。用語間權重算出部130亦可按每個領域,建構階層構造131。階層構造131亦可為上位下位關係資訊,亦可為與將向量用語300所包含的用語各個作為節點的圖表相對應的資訊。涵義上的距離亦可依由對應一方用語的節點至對應另一方用語的節點的距離而定。
本圖的上部的表係表示上位下位關係辭典240的具體例。如本表所示,以具體例而言,上位下位關係辭典240係定義各上位語、對應各上位語的各下位語、與各上位語及各下位語的關係性。
在本圖的下部係顯示用語間權重算出部130所建構的階層構造131的具體例。各用語係以四角形包圍來表示。此外,藉由將2個用語以線適當連接、及將各用語的上下方向的位置適當錯開,表示用語間的上位下位關係。以具體例而言,「門框」係與「搭乘場」以線連接,「門框」位於比「搭乘場」更為下方,因此「門框」係「搭乘場」的下位的用語。此外,「搭乘場」與「梯廂」未以線連接,因此在「搭乘場」與「梯廂」之間並無上位下位關係。其中,「節能」係節省能量的簡稱。
(步驟S122:行列作成處理)
用語間權重算出部130係作成儲存將列作為參照源用語、將行作為參照端用語的修正前權重行列132的區域。參照源用語係參照關係的起點的用語。參照端用語係參照關係的終點的用語。
(步驟S123:修正前權重算出處理)
用語間權重算出部130係根據階層構造131,算出修正前權重行列132的各要素的值。
圖6係使用具體例,說明用語間權重算出部130算出修正前權重行列132的處理的圖。
在本圖的上部係顯示階層構造131。
在本圖的下部係顯示修正前權重行列132。修正前權重行列132的各要素係修正前權重,亦為用語間權重。以具體例而言,用語間權重係依一方用語所屬的階層、與另一方用語所屬階層的差的累積值而定。在本例中,若階層的差的累積值每增加1,用語間權重係作β(0<β<1)倍。因此,階層的差的累積值愈增加,權重愈小。以具體例而言,「門框」與「再生轉換器」的階層的差的累積值為7。因此,顯示出β
7,作為對應「門框」與「再生轉換器」的用語間權重。β的指數係在階層構造131中由參照源用語至參照端用語所經由的用語數加上1的值。
(步驟S124:用語間權重修正處理)
用語間權重算出部130係若在參照源用語的下位語未包含參照端用語時,將修正前權重行列132所對應的權重的值設為0,藉此作成用語間權重行列133。
圖7係使用具體例,說明用語間權重算出部130算出用語間權重行列133的處理的圖。
在本圖的上部係顯示階層構造131。
在本圖的下部係顯示用語間權重行列133。用語間權重算出部130係除了參照端用語為參照源用語的下位之外,將用語間權重設為0。以具體例而言,「LED(Light Emitting Diode,發光二極體)」係相當於「昇降機」的下位。因此,參照源用語為「昇降機」、參照端用語為「LED」時的用語間權重並非為0。此外,在「門框」與「再生轉換器」並不具上位下位關係。因此,「門框」為參照源用語且「再生轉換器」為參照端用語時的用語間權重、與「再生轉換器」為參照源用語且「門框」為參照端用語時的用語間權重均為0。
(步驟S125:用語間權重記憶處理)
用語間權重算出部130係將所作成的用語間權重行列133保存在記憶裝置。
圖8係顯示向量化處理部120將複數檢索文書210向量化的處理中的向量化處理部120的動作之一例的流程圖。使用本圖,說明向量化處理部120的動作。
(步驟S141:未處理判定處理)
文書檢索裝置100係若存在尚未處理的檢索文書210時,進至步驟S142。若為除此之外的情形,文書檢索裝置100係進至步驟S144。
(步驟S142:向量化處理)
向量化處理部120係選擇1個向量化處理部120尚未處理的檢索文書210,將所選擇出的檢索文書210轉換為向量而生成向量化文書211。以具體例而言,向量化處理部120係對各檢索文書210實施形態分析,生成將各單詞作為要素且將各單詞的出現次數作為各要素的值的各向量化文書211。
(步驟S143:同義語匯集處理)
向量化處理部120係針對各向量化文書211的要素,按對應作為同義語的複數單詞的複數要素的每個,將複數要素匯集為1個要素。以下,在本流程圖的說明中,各向量化文書211係指匯集了同義語的各向量化文書211。本步驟的處理結束後,文書檢索裝置100係返回至步驟S141。
其中,若文書檢索裝置100未使用同義語辭典230,文書檢索裝置100並不實施本步驟的處理。
圖9係顯示步驟S142及步驟S143的處理的具體例。其中,本圖亦包含將後述的檢索文510向量化的處理的說明。本圖所示之用語係向量用語300所包含的用語。在本例中,向量化處理部120係使用BoW(Bag-of-Words),將檢索文510及複數檢索文書210向量化而生成向量化檢索文511及複數向量化文書211各個者。檢索文510包含「梯廂」與「消耗電力」與「門框」,檢索文書210-1、與檢索文書210-2係如本圖所示者。其中,“-1”及“-2”係用以區別複數檢索文書210的表記。此時,若向量化處理部120由檢索文510及複數檢索文書210抽出檢索文510及複數檢索文書210所包含的名詞作為BoW的要素,成為如本圖的上部所示之表所示。
(步驟S144:輸出處理)
向量化處理部120係輸出所生成的各向量化文書211。
圖10係顯示文書檢索裝置100檢索複數檢索文書210的動作之一例的流程圖。使用本圖,說明文書檢索裝置100檢索複數檢索文書210的動作。
(步驟S161:檢索文受理處理〕
檢索文受理部110係由終端機500受理檢索用本文509,將所受理到的檢索用本文509交給向量化處理部120。
(步驟S162:向量化處理)
向量化處理部120係由檢索文受理部110收取檢索用本文509,且使用所收取到的檢索用本文509與向量用語300,生成檢索文510,將所生成的檢索文510向量化而生成向量化檢索文511。
(步驟S163:同義語匯集處理)
本處理係與步驟S143同樣的處理。向量化處理部120係使用向量化檢索文511,取代各向量化文書211。以下在本流程圖的說明中,向量化檢索文511係指將同義語匯集的向量化檢索文511。
(步驟S164:權重向量算出處理)
向量化處理部120係使用向量化處理部120所生成的各向量化文書211、與向量化檢索文511,生成對應各向量化文書211的各檢索文書向量220、與檢索文向量512。以具體例而言,檢索文向量512與各檢索文書向量220的各個係藉由TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆向文件頻率)所求出的向量。
圖11係顯示向量化處理部120求出針對檢索文書200-1的TF-IDF的具體例。本例係對應圖9。變數x
ij係表示針對文書d
i與單詞t
j的TF-IDF的值。文書d
i亦可為各檢索文書210,亦可為檢索文510。向量化處理部120係使用針對檢索文書200-1的TF、與針對檢索文書210-1與檢索文書210-2與檢索文510的IDF,求出針對檢索文書200-1的TF-IDF的值。藉由TF-IDF所求出的向量的各要素係表示向量用語300所包含的用語各個的特徵。此外,該向量係表示對於求出該向量時所使用的複數檢索文書210與檢索文510的特徵。求出對檢索文書210-1的TF-IDF的結果係對應檢索文書210-1的檢索文書向量220。
(步驟S165:加權向量算出處理)
加權部140係使用用語間權重行列133,將檢索文向量512加工,且生成加權向量513。
圖12係使用具體例,說明加權部140對檢索文向量512供予用語間權重的處理的圖。「LED」係相當於「梯廂」的下位,因此對對應「LED」的檢索文向量512的要素,附加將對應檢索文向量512的「梯廂」的值、與對應「LED」與「梯廂」的用語間權重相乘後的值作為權重。加權部140係對於對應「門框」及「門」各個的檢索文向量512的要素,亦同樣地附加權重。其中,若存在複數相當於某用語的上位的用語,加權部140係對於對應該某用語的檢索文向量512的要素,附加將使對應相當於該某用語的上位的用語各個的檢索文向量512的要素的值、與對應相當於該某用語的上位的用語各個的用語間權重相乘的結果全部相加後的值作為權重。
在用語間權重行列133中,參照端用語係相當於一方用語,參照源用語係相當於另一方用語。以具體例而言,若將一方用語設為「LED」、另一方用語設為「梯廂」時,上位下位關係資訊表示一方用語係相當於另一方用語的下位。因此,求出β
2,作為一方用語與另一方用語的組合中對一方用語的用語間權重。此外,若針對作為向量用語300所包含的用語的「LED」加以考量,向量用語300係包含作為相當於「LED」的上位的其他用語的「梯廂」。加權部140係將與作為該其他用語的「梯廂」所對應的檢索文特徵量的要素的值亦即0.33,乘以對應「LED」與「梯廂」之雙方的用語間權重亦即β
2,將相乘的結果加上對應「LED」的檢索文特徵量的要素的值亦即0.00,求出對應「LED」的權重。其中,若存在複數相當於各用語的上位的用語,對於對應各用語的檢索文特徵量的要素的值所相加的要素亦即乘算後的結果係存在複數個。
(步驟S166:正規化處理)
相似度算出部150係以各檢索文書向量220與加權向量513的各個的長度成為1的方式,將各檢索文書向量220與加權向量513正規化。以下在本流程圖的說明中,各檢索文書向量220係指經正規化的各檢索文書向量220,加權向量513係指經正規化的加權向量513。
圖13係使用具體例,說明相似度算出部150將加權向量513正規化的處理的圖。本圖係對應將圖12中的β設為0.5的情形。將加權向量513設為a時,加權部140係先求出a的長度。接著,加權部140係將a的各要素除以a的長度。
(步驟S167:相似度算出處理)
相似度算出部150係使用加權向量513與各檢索文書向量220,算出檢索文510與各檢索文書210的相似度151。
圖14係使用具體例,說明相似度算出部150求出餘弦相似度作為相似度151的處理的圖。在本圖中,加權向量513與各檢索文書向量220為2次元,惟該等向量的次元數並非侷限於2。θ
1係表示加權向量513與檢索文書220-1的相似度151,θ
2係表示加權向量513與檢索文書向量220-2的相似度151。
(步驟S168:輸出處理)
結果編輯部160係按照相似度151生成檢索結果,且輸出所生成的檢索結果。以具體例而言,結果編輯部160係抽出對應上位N件相似度151的各檢索文書210或對應M以上的相似度151的各檢索文書210而提示給利用者。在此,N為任意自然數,M為正數。
***實施形態1的效果的說明***
如以上所示,藉由本實施形態,文書檢索裝置100係根據是否在參照源用語的下位語包含有參照端用語,來作成用語間權重,且考慮用語間權重來檢索複數檢索文書210。因此,藉由本實施形態,即使在檢索文510所包含的某用語存在複數上位語的情形下,可防止提示利用者未意圖的檢索結果且為與該複數上位語各個相關連的檢索結果的情形。
此外,藉由本實施形態,可排除在複數領域為共通的上位語對檢索結果所造成的影響,由於亦可未按每個領域分開製作辭典,因此辭典的管理較為容易。
***其他構成***
<變形例1>
用語間權重算出部130亦可未求出修正前權重行列132而算出用語間權重行列133。
<變形例2>
圖15係顯示本變形例之文書檢索裝置100的硬體構成例。
文書檢索裝置100係如本圖所示,具備處理電路18,取代處理器11、主記憶裝置12、及輔助記憶裝置13的至少1個。
處理電路18係實現文書檢索裝置100所具備的各部的至少一部分的硬體。
處理電路18亦可為專用的硬體,此外,亦可為執行被儲存在主記憶裝置12的程式的處理器。
若處理電路18為專用的硬體,以具體例而言,處理電路18係單一電路、複合電路、經程式化的處理器、經並列程式化的處理器、ASIC(Application Specific Integrated Circuit,特殊應用積體電路)、FPGA(Field-Programmable Gate Array,現場可程式化閘陣列)或該等的組合。
文書檢索裝置100亦可具備替代處理電路18的複數處理電路。複數處理電路係分擔處理電路18的作用。
在文書檢索裝置100中,亦可藉由專用的硬體,實現一部分功能,藉由軟體或韌體,實現剩餘的功能。
以具體例而言,處理電路18係藉由硬體、軟體、韌體、或該等的組合來實現。
將處理器11、主記憶裝置12、輔助記憶裝置13、及處理電路18總稱為「處理電路」。亦即,文書檢索裝置100的各功能構成要素的功能係藉由處理電路來實現。
關於其他實施形態之文書檢索裝置100,亦可為與本變形例為同樣的構成。
實施形態2.
以下主要針對與前述之實施形態不同之處,一邊參照圖示,一邊說明之。
***構成的說明***
圖16係顯示本實施形態之文書檢索裝置100的構成例。文書檢索裝置100係如本圖所示,除了實施形態1之文書檢索裝置100所具備的構成要素之外,具備文書檢索部170。
文書檢索部170係使用既有的檢索手法,檢索對應檢索用本文509的各檢索文書210。文書換索部170係藉由未使用相似度151的手法,由複數檢索文書210檢索對應檢索用本文509的文書,且求出所檢索到的結果作為文書檢索結果。文書檢索部170在檢索複數檢索文書210時,可使用檢索用本文509,亦可使用檢索文510。文書檢索部170係使用全文一致檢索,作為具體例。
結果編輯部160係參照相似度151來編輯文書檢索結果。
***動作的說明***
圖17係顯示文書檢索裝置100的動作之一例的流程圖。使用本圖,說明文書檢索部170的動作。其中,文書檢索裝置100亦可未實施步驟S168的處理。
(步驟S201:受理處理)
文書檢索部170係由向量化處理部120受理檢索用本文509或檢索文510。
(步驟S202:檢索處理)
文書檢索部170係使用所受理到的檢索用本文509或檢索文510,檢索複數檢索文書210,且輸出所檢索到的結果。
(步驟S203:結果編輯處理)
結果編輯部160係將相似度151、與文書檢索部170所求出的檢索結果統合生成檢索結果,且輸出所生成的檢索結果。以具體例而言,結果編輯部160係對上位提示相似度151高的檢索結果。
圖18係使用具體例,說明結果編輯部160的處理的圖。使用本圖,說明結果編輯部160的處理。「相似度算出手法」係求出實施形態1所示之相似度151的手法。「全文一致檢索手法」係文書檢索部170所採用的手法。
如本圖所示、文書檢索部170係使用全文一致檢索手法,由複數檢索文書210檢索「AAA.doc」與「CCC.pdf」,文書檢索裝置100係藉由「相似度算出手法」,算出各檢索文書210的相似度151。在「檢索結果的類別」中,1係表示各檢索文書210被文書檢索部170檢索到, 2係表示各檢索文書210未被文書檢索部170檢索到。
在此,說明結果編輯部160提示各檢索文書210的順序的具體例。首先,結果編輯部160係藉由文書檢索部170被檢索到的各檢索文書210的顯示順序比藉由文書檢索部170未被檢索到的各檢索文書210的顯示順序更為上位。接著,結果編輯部160係將藉由文書檢索部170被檢索到的各檢索文書210依相似度151由高而低的順序排序,且將藉由文書檢索部170未被檢索到的各檢索文書210依相似度151由高而低的順序排序。
***實施形態2的效果的說明***
如以上所示,藉由本實施形態,藉由將實施形態1所示之手法與既有的檢索手法組合,可求出精度更高的檢索結果。
此外,藉由本實施形態,若文書檢索部170併用全文一致檢索手法,即使在與包含檢索文510所包含的用語全部的各檢索文書210相對應的相似度151低的情形下,亦可對上位提示包含檢索文510所包含的用語全部的各檢索文書210。
***其他實施形態***
可在前述各實施形態的自由組合、或各實施形態的任意構成要素的變形、或各實施形態中省略任意構成要素。
此外,實施形態並非為限定於實施形態1至2中所示者,可視需要作各種變更。使用流程圖等所說明的順序亦可作適當變更。
11:處理器
12:主記憶裝置
13:輔助記憶裝置
14:輸入IF
15:輸出IF
16:通訊IF
18:處理電路
19:訊號線
100:文書檢索裝置
110:檢索文受理部
120:向量化處理部
130:用語間權重算出部
131:階層構造
132:修正前權重行列
133:用語間權重行列
140:加權部
150:相似度算出部
151:相似度
160:結果編輯部
170:文書檢索部
210:檢索文書
211:向量化文書
220:檢索文書向量
230:同義語辭典
240:上位下位關係辭典
300:向量用語
500:終端機
509:檢索用本文
510:檢索文
511:向量化檢索文
512:檢索文向量
513:加權向量
[圖1]係顯示實施形態1之文書檢索裝置100的構成例的圖。
[圖2]係顯示實施形態1之文書檢索裝置100的硬體構成例的圖。
[圖3]係顯示實施形態1之文書檢索裝置100的動作的流程圖。
[圖4]係顯示實施形態1之用語間權重算出部130的動作的流程圖。
[圖5]係說明實施形態1之用語間權重算出部130的處理的圖。
[圖6]係說明實施形態1之用語間權重算出部130的處理的圖。
[圖7]係說明實施形態1之用語間權重算出部130的處理的圖。
[圖8]係顯示實施形態1之向量化處理部120的動作的流程圖。
[圖9]係說明實施形態1之向量化處理部120的處理的圖。
[圖10]係顯示實施形態1之文書檢索裝置100的動作的流程圖。
[圖11]係說明實施形態1之向量化處理部120的處理的圖。
[圖12]係說明實施形態1之加權部140的處理的圖。
[圖13]係說明實施形態1之加權部140的處理的圖。
[圖14]係說明實施形態1之相似度算出部150的處理的圖。
[圖15]係顯示實施形態1之變形例之文書檢索裝置100的硬體構成例的圖。
[圖16]係顯示實施形態2之文書檢索裝置100的構成例的圖。
[圖17]係顯示實施形態2之文書檢索裝置100的動作的流程圖。
[圖18]係說明實施形態2之結果編輯部160的處理的圖。
100:文書檢索裝置
110:檢索文受理部
120:向量化處理部
130:用語間權重算出部
140:加權部
150:相似度算出部
160:結果編輯部
210:檢索文書
220:檢索文書向量
230:同義語辭典
240:上位下位關係辭典
300:向量用語
500:終端機
509:檢索用本文
Claims (10)
- 一種文書檢索裝置,其係檢索與包含由複數檢索文書的至少任一者所包含的用語所成的向量用語所包含的用語的檢索文相對應的檢索文書的文書檢索裝置,其具備: 記憶部,其係記憶:由與前述向量用語所包含的用語各個相對應的要素所成,且與使用前述檢索文與前述複數檢索文書所求出的前述檢索文相對應的檢索文特徵量;及表示前述向量用語所包含的用語間的上位下位關係的上位下位關係資訊; 用語間權重算出部,其係針對前述向量用語所包含的各2個用語,若前述上位下位關係資訊表示一方用語相當於另一方用語的下位時,算出根據前述另一方用語而定之對前述一方用語的權重,且依表示前述一方用語的涵義與前述另一方用語的涵義之間的距離的涵義上的距離而定的權重亦即用語間權重;及 加權部,其係針對前述向量用語所包含的各用語,參照前述上位下位關係資訊,若在前述向量用語所包含的前述各用語以外的用語之中存在相當於前述各用語的上位的各其他用語時,使用前述檢索文特徵量與前述用語間權重,求出對應前述各用語的權重。
- 如請求項1之文書檢索裝置,其中,前述加權部係針對前述各用語,若存在前述各其他用語時,將對應前述各其他用語的檢索文特徵量的要素的值,乘以對應前述各用語與前述各其他用語之雙方的用語間權重,將相乘的結果、與對應前述各用語的檢索文特徵量的要素的值相加而求出對應前述各用語的權重。
- 如請求項1或2之文書檢索裝置,其中,前述權重算出部係若前述上位下位關係資訊表示前述一方用語相當於前述另一方用語的下位時,將根據前述另一方用語而定之對前述一方用語的用語間權重設為0。
- 如請求項1或2之文書檢索裝置,其中,前述上位下位關係資訊係與將前述向量用語所包含的用語各個作為節點的圖表相對應的資訊, 前述涵義上的距離係依由對應前述一方用語的節點至對應前述另一方用語的節點的距離而定。
- 如請求項1或2之文書檢索裝置,其中,前述文書檢索裝置係另外具備: 相似度算出部,其係由與前述向量用語所包含的用語各個相對應的要素所成,算出使用前述檢索文與前述複數檢索文書所求出的複數檢索文書特徵量各個、與前述檢索文特徵量的相似度, 前述複數檢索文書與前述複數檢索文書特徵量係以1對1對應。
- 如請求項5之文書檢索裝置,其中,前述文書檢索裝置係另外具備: 文書檢索部,其係藉由未使用前述相似度的手法,由前述檢索文書檢索對應前述檢索文的文書,且求出所檢索到結果作為文書檢索結果;及 結果編輯部,其係參照前述相似度來編輯前述文書檢索結果。
- 如請求項5之文書檢索裝置,其中,前述相似度算出部係使用前述檢索文特徵量、與前述檢索文書特徵量各個的餘弦相似度,作為前述相似度。
- 如請求項5之文書檢索裝置,其中,前述文書檢索裝置係另外具備: 向量化處理部,其係使用 TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆向文件頻率),求出前述檢索文特徵量與前述檢索文書特徵量的各個。
- 一種文書檢索方法,其係檢索與包含由複數檢索文書的至少任一者所包含的用語所成的向量用語所包含的用語的檢索文相對應的檢索文書的文書檢索方法,其係: 記憶部記憶:由與前述向量用語所包含的用語各個相對應的要素所成,且與使用前述檢索文與前述複數檢索文書所求出的前述檢索文相對應的檢索文特徵量;及表示前述向量用語所包含的用語間的上位下位關係的上位下位關係資訊; 用語間權重算出部針對前述向量用語所包含的各2個用語,若前述上位下位關係資訊表示一方用語相當於另一方用語的下位時,算出根據前述另一方用語而定之對前述一方用語的權重,且依表示前述一方用語的涵義與前述另一方用語的涵義之間的距離的涵義上的距離而定的權重亦即用語間權重;及 加權部針對前述向量用語所包含的各用語,參照前述上位下位關係資訊,若在前述向量用語所包含的前述各用語以外的用語之中存在相當於前述各用語的上位的各其他用語時,使用前述檢索文特徵量與前述用語間權重,求出對應前述各用語的權重。
- 一種文書檢索程式產品,其係使記憶:由與由複數檢索文書的至少任一者所包含的用語所成的向量用語所包含的用語各個相對應的要素所成,且與使用包含前述向量用語所包含的用語的檢索文與前述複數檢索文書所求出的前述檢索文相對應的檢索文特徵量;及表示前述向量用語所包含的用語間的上位下位關係的上位下位關係資訊之作為電腦的文書檢索裝置,由前述複數檢索文書,檢索對應前述檢索文的檢索文書,該文書檢索程式產品係使前述文書檢索裝置執行: 用語間權重算出處理,其係針對前述向量用語所包含的各2個用語,若前述上位下位關係資訊表示一方用語相當於另一方用語的下位時,算出根據前述另一方用語而定之對前述一方用語的權重,且依表示前述一方用語的涵義與前述另一方用語的涵義之間的距離的涵義上的距離而定的權重亦即用語間權重;及 加權處理,其係針對前述向量用語所包含的各用語,參照前述上位下位關係資訊,若在前述向量用語所包含的前述各用語以外的用語之中存在相當於前述各用語的上位的各其他用語時,使用前述檢索文特徵量與前述用語間權重,求出對應前述各用語的權重。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
WOPCT/JP2021/004202 | 2021-02-05 | ||
PCT/JP2021/004202 WO2022168247A1 (ja) | 2021-02-05 | 2021-02-05 | 文書検索装置、文書検索方法、及び、文書検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202232363A true TW202232363A (zh) | 2022-08-16 |
Family
ID=82740982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110126779A TW202232363A (zh) | 2021-02-05 | 2021-07-21 | 文書檢索裝置、文書檢索方法、及文書檢索程式產品 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2022168247A1 (zh) |
TW (1) | TW202232363A (zh) |
WO (1) | WO2022168247A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186203B (zh) * | 2023-03-01 | 2023-10-10 | 人民网股份有限公司 | 文本检索方法、装置、计算设备及计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4324650B2 (ja) * | 2005-12-28 | 2009-09-02 | 大学共同利用機関法人情報・システム研究機構 | 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム |
US8306987B2 (en) * | 2008-04-03 | 2012-11-06 | Ofer Ber | System and method for matching search requests and relevant data |
CN103294684B (zh) * | 2012-02-24 | 2016-08-24 | 浙江易网科技股份有限公司 | 关联词汇搜索系统及方法 |
-
2021
- 2021-02-05 JP JP2021538447A patent/JPWO2022168247A1/ja active Pending
- 2021-02-05 WO PCT/JP2021/004202 patent/WO2022168247A1/ja active Application Filing
- 2021-07-21 TW TW110126779A patent/TW202232363A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JPWO2022168247A1 (zh) | 2022-08-11 |
WO2022168247A1 (ja) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mallick et al. | Graph-based text summarization using modified TextRank | |
Peng et al. | A review of sentiment analysis research in Chinese language | |
US20190354878A1 (en) | Concept Analysis Operations Utilizing Accelerators | |
US11334608B2 (en) | Method and system for key phrase extraction and generation from text | |
US10409907B2 (en) | Tabular data compilation | |
Lossio-Ventura et al. | Combining c-value and keyword extraction methods for biomedical terms extraction | |
Gudivada et al. | Information retrieval: concepts, models, and systems | |
Franzoni et al. | SEMO: A semantic model for emotion recognition in web objects | |
Romanov et al. | Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts | |
Dutta et al. | A graph based approach on extractive summarization | |
Dorji et al. | Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary | |
Yousef et al. | TextNetTopics: text classification based word grouping as topics and topics’ scoring | |
KR20190118744A (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
Alrehamy et al. | SemCluster: unsupervised automatic keyphrase extraction using affinity propagation | |
Emu et al. | An efficient approach for keyphrase extraction from english document | |
TW202232363A (zh) | 文書檢索裝置、文書檢索方法、及文書檢索程式產品 | |
Tran et al. | The recent advances in automatic term extraction: A survey | |
Ma et al. | Document representation methods for clustering bilingual documents | |
Dash et al. | Linking Tabular Columns to Unseen Ontologies | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
Pan et al. | Performance evaluation of part-of-speech tagging for Bengali text | |
Hajlaoui et al. | Enhancing patent expertise through automatic matching with scientific papers | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Selivanova et al. | Classification of scientific texts based on the compression of annotations to publications | |
WO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |