TWI703453B - 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 - Google Patents

建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 Download PDF

Info

Publication number
TWI703453B
TWI703453B TW107126176A TW107126176A TWI703453B TW I703453 B TWI703453 B TW I703453B TW 107126176 A TW107126176 A TW 107126176A TW 107126176 A TW107126176 A TW 107126176A TW I703453 B TWI703453 B TW I703453B
Authority
TW
Taiwan
Prior art keywords
word
topic
words
score
subordinate
Prior art date
Application number
TW107126176A
Other languages
English (en)
Other versions
TW201915785A (zh
Inventor
吉田明子
粕渕清孝
吉和隆夫
Original Assignee
日商斯庫林集團股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商斯庫林集團股份有限公司 filed Critical 日商斯庫林集團股份有限公司
Publication of TW201915785A publication Critical patent/TW201915785A/zh
Application granted granted Critical
Publication of TWI703453B publication Critical patent/TWI703453B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明以較高之精度確實地提示與輸入單詞相關之單詞。
於建議詞語之生成中,對詞素解析完成文字進行主題分類,擷取從屬於各主題之主題詞。計算各主題詞之特徵度等。特定出從屬於各主題之從屬主題詞。以輸入單詞從屬於各被擷取主題之方式擷取被擷取主題。計算表示輸入單詞與從屬於被擷取主題之複數個候補單詞之各候補單詞之關聯度之強度的各候補單詞之分數。以各候補單詞從屬於各從屬主題之方式特定出從屬主題。根據對從屬主題分別計算出之各候補單詞之特徵度等,計算各候補單詞之分數。以由各候補單詞之分數所表示之關聯度之強度之順序提示複數個候補單詞。

Description

建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法
本發明係關於一種提示與輸入單詞相關之單詞之建議詞語生成裝置、建議詞語生成程式及建議詞語生成方法。
於製作文字之情況或對文字進行檢索之情況下,生成提示與輸入單詞相關之單詞的建議詞語。
建議詞語之生成有時藉由自使用者之檢索歷程擷取單詞並顯示所擷取之單詞而進行,有時亦藉由自要進行檢索之文字擷取包含輸入單詞之文字,自所擷取之文字進而擷取單詞,並顯示所擷取之單詞而進行。專利文獻1及2中所記載之技術為前者之例,專利文獻3中所記載之技術為後者之例。
於專利文獻1所記載之技術中,儲存檢索查詢之歷程作為檢索查詢候補,並提示所儲存之檢索查詢候補中適合使用者屬性之檢索查詢候補(段落0031及0032)。
於專利文獻2所記載之技術中,自檢索記錄資料庫中擷取檢索查詢與再檢索查詢之組合,針對所擷取之組合,算出表示檢索查詢與再檢索查詢之間之關聯度的分數,根據與所接收之檢索查詢對應之再檢索查詢,按照分數從高到低之順序擷取既定數量之再檢索查詢作為建議查詢(段落0026、0030及0034)。又,算出檢 索查詢與再檢索查詢之共同出現率,於共同出現率為既定以上之情況下排除組合(段落0027及0029)。
於專利文獻3所記載之技術中,自檢索對象之文件資料檔案群中檢索包含所指定之關鍵字之文件資料檔案,自包含所檢索之關鍵字之文件資料檔案中取出包含指定關鍵字之文件單元,擷取單詞,製作將所擷取之單詞按照時間順序配置之單詞相關資料,合成所製作之單詞相關資料之單詞列表並按文件製作時間之順序顯示(段落0040)。
[先前技術文獻] [專利文獻]
[專利文獻1]日本專利特開2015-106354號公報
[專利文獻2]日本專利特開2012-168844號公報
[專利文獻3]日本專利特開平9-259133號公報
然而,於習知之建議詞語生成中,存在有時無法提示與輸入單詞相關之單詞之問題。
例如,於專利文獻1所記載之技術中,由於根據檢索查詢之歷程生成檢索查詢候補,因此於使用者不知道與檢索查詢相關之檢索查詢,且於過去之檢索中未使用該檢索查詢之情況下,無法提示與檢索查詢相關之檢索查詢候補。
同樣地,於專利文獻2所記載之技術中,由於根據檢索記錄資料庫生成建議查詢,因此於使用者不知道與檢索查詢相關 之檢索查詢,且於過去之檢索中未使用該檢索查詢之情況下,無法提示與檢索查詢相關之建議查詢。
又,於專利文獻3所記載之技術中,根據檢索對象之文件資料檔案群生成要顯示之單詞列表,但以此種方式生成之單詞列表不一定包含與關鍵字相關之單詞。
本發明係為了解決上述問題而完成。本發明所欲解決之課題為:提供一種以較高之精度提示與輸入單詞相關之單詞的建議詞語生成裝置、建議詞語生成方法及建議詞語生成程式。
於建議詞語之生成中,對文字進行詞素解析,將文字分割為複數個單詞,而獲得詞素解析完成文字。
對詞素解析完成文字進行主題分類,自複數個單詞擷取從屬於複數個主題之各主題的至少一個主題詞。
針對至少一個主題詞之各主題詞所從屬之主題,計算各主題詞之分數因數。各主題詞之分數因數表示如下之特徵度及各主題詞所從屬之主題中各主題詞之主題內出現概率之至少一者,上述特徵度表示各主題詞對各主題詞所從屬之主題賦予特徵之程度。
特定出從屬於各主題之至少一個從屬主題詞。至少一個從屬主題詞包含所擷取之至少一個主題詞之至少一部分。
自複數個主題擷取至少一個被擷取主題。至少一個被擷取主題之擷取係以輸入單詞從屬於至少一個被擷取主題之各被擷取主題之方式進行。
計算表示輸入單詞與從屬於至少一個被擷取主題之複數個候補單詞之各候補單詞之關聯度之強度的各候補單詞之分 數。
於計算各候補單詞之分數時,於至少一個被擷取主題中特定出至少一個從屬主題。至少一個從屬主題之特定係以各候補單詞從屬於至少一個從屬主題之各從屬主題之方式進行。
根據對至少一個從屬主題分別計算出之各候補單詞之至少一個分數因數,計算各候補單詞之分數。
以由各候補單詞之分數所表示之關聯度之強度之順序提示複數個候補單詞。
根據本發明,自文字經主題分類而擷取要提示之單詞,因此提供一種以較高之精度提示與輸入單詞相關之單詞的建議詞語生成裝置、建議詞語生成方法及建議詞語生成程式。
本發明之目的、特徵、態樣、及優點係藉由以下之詳細說明及隨附圖式而進一步闡明。
1000‧‧‧建議詞語生成裝置
1020‧‧‧建議詞語生成程式
1040‧‧‧中央處理裝置(CPU)
1041‧‧‧記憶體
1042‧‧‧硬碟驅動器
1043‧‧‧顯示器
1060‧‧‧外部儲存媒體
1080‧‧‧網路
1100‧‧‧除去部
1101‧‧‧詞素解析部
1102‧‧‧主題分類部
1103‧‧‧分數因數計算部
1104‧‧‧特定部
1105‧‧‧分數計算部
1106‧‧‧提示部
1107‧‧‧儲存部
1200‧‧‧檢索或分析對象之文字(除去前文字)
1201‧‧‧輸入單詞
1202‧‧‧除去後文字
1203‧‧‧詞素解析完成文字
1204‧‧‧至少一個主題詞
1205‧‧‧各主題詞之分數因數
1206‧‧‧至少一個從屬主題詞
1207‧‧‧建議詞語字列表
1208‧‧‧建議詞語
1209‧‧‧至少一個主題詞
1210‧‧‧建議詞語候補列表
1250‧‧‧主題
1251‧‧‧至少一個被擷取主題
1252、1611‧‧‧至少一個從屬主題
1260、1261、1601、1830、1831‧‧‧候補單詞
1300‧‧‧強制擷取詞字典
1301‧‧‧排除詞字典
1302‧‧‧檢索記錄
1303‧‧‧使用者管理表格
1400、1401、1402、1403、1404、1405‧‧‧文字要素
1411、1412、1414、1415‧‧‧詞語
1416、1417‧‧‧專門用語
1420、1421、1422、1423、1424、1425、1426、1430、1431、1432、1433、1434、1551‧‧‧主題詞
1440、1441、1442、1443、1444、1620、1621、1623、1624‧‧‧特徵度
1450、1451、1452、1453、1454、1630、1632、1636、1637‧‧‧主題內出現概率
1500、1510‧‧‧使用者ID(使用者識別碼)
1501‧‧‧檢索字
1502‧‧‧檢索時刻
1511、1521‧‧‧姓名
1512、1520‧‧‧群組(部門)ID
1530、1542‧‧‧相加分數因數
1531‧‧‧相加前分數因數
1532、1552、1627、1629、1635、1639‧‧‧建議詞語分數
1540‧‧‧群組ID
1541、1550‧‧‧主題ID
1600‧‧‧輸入單詞
1610‧‧‧被擷取主題
1622、1625、1628、1631、1633‧‧‧乘積
1626、1634、1638‧‧‧最大值
1700‧‧‧相加前建議詞語分數
1701‧‧‧相加分數
1800‧‧‧畫面
1820‧‧‧文字框
1821‧‧‧按鈕
1822‧‧‧區域
k、l、m、t‧‧‧主題
圖1係圖示第1實施形態之建議詞語生成裝置之硬體構成之方塊圖。
圖2係圖示第1實施形態之建議詞語生成裝置之功能性構成之方塊圖。
圖3係說明第1實施形態之建議詞語生成裝置中進行之對複數個主題之處理的圖。
圖4係圖示第1實施形態之建議詞語生成裝置所進行之處理之流程的流程圖。
圖5係圖示第1實施形態之建議詞語生成裝置中之資料之變遷之例的圖。
圖6係圖示第1實施形態之建議詞語生成裝置中之資料之變遷之例的圖。
圖7係圖示第1實施形態之建議詞語生成裝置中之資料之變遷之例的圖。
圖8係對第1實施形態之建議詞語生成裝置中針對各使用者群組之建議詞語分數之計算演算法進行說明之圖。
圖9係圖示第1實施形態之建議詞語生成裝置中所儲存之檢索記錄之例的圖。
圖10(A)及(B)係圖示第1實施形態之建議詞語生成裝置中所儲存之使用者管理表格之例的圖。
圖11係圖示於第1實施形態之建議詞語生成裝置中計算之相加分數因數表格之例的圖。
圖12係圖示於第1實施形態之建議詞語生成裝置中製作之建議詞語字列表之例的圖。
圖13係對第1實施形態之建議詞語生成裝置中各候補單詞之建議詞語分數之、利用第1計算方法之計算例進行說明之圖。
圖14係對第1實施形態之建議詞語生成裝置中各候補單詞之建議詞語分數之、利用第2計算方法之計算例進行說明之圖。
圖15係對第1實施形態之建議詞語生成裝置中各候補單詞之建議詞語分數之、利用第3計算方法之計算例進行說明之圖。
圖16係對第1實施形態之建議詞語生成裝置中各候補單詞之建議詞語分數之、利用第4計算方法之計算例進行說明之圖。
圖17係對第1實施形態之建議詞語生成裝置中針對各使用者群組之各候補單詞之建議詞語分數之計算演算法之另一例進行說明的圖。
圖18係圖示第1實施形態之建議詞語生成裝置中所顯示之畫面之例的示意圖。
1硬體構成
圖1係圖示第1實施形態之建議詞語生成裝置之硬體構成之方塊圖。
圖1所圖示之建議詞語生成裝置1000係安裝有建議詞語生成程式1020之個人電腦(PC),具體中央處理裝置(CPU)1040、記憶體1041、硬碟驅動器1042及顯示器1043。建議詞語生成裝置1000亦可具備除該等構成物以外之構成物。
於建議詞語生成裝置1000中,建議詞語生成程式1020係安裝於硬碟驅動器1042。建議詞語生成程式1020之安裝既可藉由將自光碟(CD)、數位多功能光碟(DVD)、通用序列匯流排(USB)記憶體等外部儲存媒體1060讀出之資料寫入至硬碟驅動器1042而進行,亦可藉由將經由網路1080接收之資料寫入至硬碟驅動器1042而進行。亦可將硬碟驅動器1042置換為其他種類之輔助儲存裝置。例如,亦可將硬碟驅動器1042置換為固態驅動器、隨機存取記憶體(RAM)碟片等。硬碟驅動器1042、外部儲存媒體1060、固態驅動器、RAM碟片等為記錄有建議詞語生成程式1020之電腦可讀取之記錄媒體。
於建議詞語生成裝置1000中,將安裝於硬碟驅動器1042之建議詞語生成程式1020載入記憶體1041,且藉由CPU1040執行所載入之建議詞語生成程式1020,藉此使PC執行建議詞語生成程式1020,作為建議詞語生成裝置1000而發揮功能。
2功能性構成
圖2係圖示第1實施形態之建議詞語生成裝置之功能性構成之方塊圖。圖3係說明第1實施形態之建議詞語生成裝置中進行之對複數個主題之處理的圖。
如圖2所圖示,建議詞語生成裝置1000具備除去部1100、詞素解析部1101、主題分類部1102、分數因數計算部1103、特定部1104、分數計算部1105、提示部1106及儲存部1107,根據檢索或分析對象之文字1200及輸入單詞1201生成建議詞語1208。儲存部1107儲存強制擷取詞字典1300、排除詞字典1301、檢索記錄1302及使用者管理表格1303。建議詞語生成裝置1000亦可具備除該等構成物以外之構成物。輸入單詞1201既可為檢索中使用之檢索詞,亦可為為了製作新文字而輸入之單詞。建議詞語1208係與輸入單詞1201相關之單詞之提示。
除去部1100、詞素解析部1101、主題分類部1102、分數因數計算部1103、特定部1104、分數計算部1105及提示部1106係藉由使PC執行建議詞語生成程式1020而構成。儲存部1107係由記憶體1041及硬碟驅動器1042之至少一者所構成。
CPU1040所進行之處理之全部或一部分亦可藉由除CPU1040以外之處理裝置進行。例如,藉由CPU1040進行之處理 之全部或一部分亦可藉由圖形處理裝置(GPU)進行。藉由CPU1040進行之處理之全部或一部分亦可藉由不執行程式之硬體進行。
除去部1100自未除去停止字之除去前文字1200除去停止字而獲得停止字已被除去之除去後文字1202。於檢索或分析對象之文字1200不包含停止字之情況下等無需除去停止字之情況下,亦可省略除去部1100。
詞素解析部1101對除去後文字1202進行詞素解析而將除去後文字1202分割為複數個單詞,獲得包含藉由分割所得之複數個單詞之詞素解析完成文字1203。詞素解析部1101於對除去後文字1202進行之詞素解析中,使用強制擷取詞字典1300。亦可省略強制擷取詞字典1300之使用。
主題分類部1102對詞素解析完成文字1203進行主題分類而自詞素解析完成文字1203所包含之複數個單詞擷取從屬於複數個主題之各主題之至少一個主題詞1204。
分數因數計算部1103對藉由主題分類部1102所擷取之至少一個主題詞1204之各主題詞所從屬之主題,計算各主題詞之分數因數1205。各主題詞之分數因數1205表示如下之特徵度及各主題詞所從屬之主題中各主題詞之主題內出現概率之至少一者,上述特徵度表示各主題詞對各主題詞所從屬之主題賦予特徵之程度。各主題詞之分數因數1205可成為下述候補單詞之建議詞語分數所包含之因數。
如圖3所圖示般,特定部1104特定出屬於複數個主題1250之各主題之至少一個從屬主題詞1206。屬於各主題之至少一個從屬主題詞1206包含屬於藉由主題分類部1102所擷取之各主 題的至少一個主題詞1204之至少一部分。如圖2所圖示般,特定部1104於特定屬於各主題之至少一個從屬主題詞1206時,使用檢索記錄1302及排除詞字典1301。藉此,屬於各主題之至少一個從屬主題詞1206包含屬於各主題之至少一個主題詞1204之至少一部分,且包含屬於各主題之至少一個主題詞1204所不包含之未擷取單詞。亦可省略檢索記錄1302及排除詞字典1301之至少一者之使用。於省略檢索記錄1302之使用之情況下,屬於各主題之至少一個從屬主題詞1206不包含屬於各主題之至少一個主題詞1204所不包含之未擷取單詞。於省略排除詞字典1301之使用之情況下,屬於各主題之至少一個從屬主題詞1206包含屬於各主題之至少一個主題詞1204之全部。
如圖3所圖示般,分數計算部1105自複數個主題1250擷取輸入單詞1201所從屬之至少一個被擷取主題1251。至少一個被擷取主題1251之擷取係以輸入單詞1201從屬於至少一個被擷取主題1251之各擷取主題之方式進行。從屬於至少一個被擷取主題1251之複數個單詞成為可能於建議詞語1208之生成中被提示之複數個候補單詞1260。
分數計算部1105計算表示輸入單詞1201與複數個候補單詞1260之各候補單詞1261之關聯度之強度的各候補單詞1261之建議詞語分數。分數計算部1105於各候補單詞1261之建議詞語分數之計算中,於至少一個被擷取主題1251中特定出各候補單詞1261所從屬之至少一個從屬主題1252。至少一個從屬主題1252之特定係以各候補單詞1261從屬於至少一個從屬主題1252之各從屬主題之方式進行。
分數計算部1105根據針對至少一個從屬主題1252分別計算出之各候補單詞1261之至少一個分數因數,計算各候補單詞1261之建議詞語分數。
如圖2所圖示般,分數計算部1105以由各候補單詞1261之建議詞語分數所表示之關聯度之強度之順序,將複數個候補單詞1260進行排序並製作建議詞語字列表1207。分數計算部1105於建議詞語字列表1207之製作中,使用檢索記錄1302及使用者管理表格1303,針對各使用者群組,製作各使用者群組所固有之建議詞語字列表1207。
提示部1106按照建議詞語字列表1207生成建議詞語1208。於建議詞語1208中,以由各候補單詞1261之建議詞語分數所表示之關聯度之強度之順序提示建議詞語字列表1207所包含之複數個候補單詞1260。
根據建議詞語生成裝置1000,自檢索或分析對象之文字1200及輸入單詞1201生成建議詞語1208,因此於存在文字1200之情況下,即便於不存在檢索記錄1302等檢索歷程之情況或檢索記錄1302等檢索歷程不充分之情況下,亦會自動生成建議詞語1208,且自動提示與輸入單詞1201相關之單詞。又,根據建議詞語生成裝置1000,所提示之單詞並非單純自文字1200擷取之單詞,而是自文字1200經主題分類而擷取之單詞,因此生成具有較高之精度之建議詞語1208。
3處理及資料之變遷之例
圖4係圖示第1實施形態之建議詞語生成裝置所進行之處理之 流程的流程圖。圖5、圖6及圖7係圖示第1實施形態之建議詞語生成裝置中之資料之變遷之例的圖。
於圖4所圖示之步驟S101中,除去部1100自檢索或分析對象之文字1200除去停止字而獲得除去後文字1202。檢索或分析對象之文字1200為過去製作之文字等。要除去之停止字係作為以後之解析中不需要之雜訊之單詞。作為停止字而被除去之單詞係不表現文字1200之具體內容之識別符號等。「http://」等各種URL所共通地包含之字串亦作為停止字被除去。於圖5所圖示之例中,文字要素1400即「R000003」、文字要素1401即「開發步驟客製化」、文字要素1402即「主資料(使用者、計畫、製品、…」、文字要素1403即「R000002」、文字要素1404即「預測式登錄時之步驟比例之…」及文字要素1405即「步驟比例之輸入係能夠輸入至小數點第2位地…」係包含於文字1200,文字要素1400及1403作為停止字而被除去。
於圖4所圖示之繼步驟S101之後之步驟S102中,詞素解析部1101對除去後文字1202進行詞素解析,而將除去後文字1202分割為複數個單詞,獲得包含藉由分割所得之複數個單詞之詞素解析完成文字1203。於圖5所圖示之例中,文字要素1401被分割為複數個單詞1411即「開發步驟」及「客製化」,文字要素1402被分割為複數個單詞1412即「主資料」、「使用者」、「計畫」、「製品」等,文字要素1404被分割為複數個單詞1414即「預測式」、「登錄」、「時」、「之」、「步驟」、「比例」、「之」等,文字要素1405被分割為複數個單詞1415即「步驟」、「比例」、「之」、「輸入」、「係」、「能夠」、「輸入」、「至」、「小數點」、「第2位」、「地」等。
詞素解析部1101使用登錄有作為包含2個以上詞素之複合詞之專門用語的強制擷取詞字典1300,自除去後文字1202強制地擷取強制擷取詞字典1300中所登錄之專門用語,以詞素解析完成文字1203所包含之複數個單詞包含所擷取之專門用詞之方式將除去後文字1202分割為複數個單詞。藉此,作為複合詞之專門用語不會被分割而正常地被擷取。於圖5所示之例中,強制地擷取專門用語1416即「主資料」及專門用語1417即「預測式」。
於圖4所圖示之繼步驟S102之後之步驟S103中,主題分類部1102對詞素解析完成文字1203進行主題分類,自複數個單詞擷取屬於複數個主題1250之各主題之至少一個主題詞1204。所謂主題分類係指推定所輸入之文字中所涉及之主題,從而將構成所輸入之文字之文章分類為複數個主題。主題表示話題、領域等概略性意義。於圖6所圖示之例中,擷取屬於被賦予主題No.「0」之主題的複數個主題詞1420即「應用程式」、「版本」、「開發」及「規格」,擷取屬於被賦予主題No.「1」之主題的複數個主題詞1421即「測試」、「偵錯」、「單體」及「管理」,擷取屬於被賦予主題No.「2」之主題的複數個主題詞1422即「軟體」、「對應」、「日期」及「確認」,擷取屬於被賦予主題No.「3」之主題的複數個主題詞1423即「設計」、「使用案例」、「按鈕」及「配置」,擷取屬於被賦予主題No.「4」之主題的複數個主題詞1424即「發佈」、「對應」、「備註」及「準備」,擷取屬於被賦予主題No.「5」之主題的複數個主題詞1425即「諮詢」、「受理」、「回答」及「描述」,擷取屬於被賦予主題No.「6」之主題的複數個主題詞1426即「顧客」、「聽取」、「主要求」及「副要求」。
於圖4所圖示之繼步驟S103之後之步驟S104中,分數因數計算部1103對藉由主題分類部1102所擷取之至少一個主題詞1204之各主題詞所從屬之主題,計算各主題詞之分數因數。各主題詞之分數因數表示如下之特徵度及各主題所從屬之主題中各主題詞之主題內出現概率之至少一者,上述特徵度表示各主題詞對各主題詞所從屬之主題賦予特徵之程度。於圖6所圖示之例中,針對被賦予了主題ID「corpus1_0_0」之主題,計算「應用程式」之主題詞1430之特徵度1440「4.675」及主題內出現概率1450「11.21%」,計算「偵錯」之主題詞1431之特徵度1441「4.435」及主題內出現概率1451「5.00%」,計算「單體」之主題詞1432之特徵度1442「3.599」及主題內出現概率1452「4.30%」,計算「語言」之主題詞1433之特徵度1443「3.199」及主題內出現概率1453「3.40%」,計算「版本」之主題詞1434之特徵度1444「2.620」及主題內出現概率1454「3.35%」。
藉由主題分類部1102所擷取之至少一個主題詞1204之各主題詞之特徵度係表示各主題詞所從屬之主題中各主題詞容易出現之程度的指標,以主題分類中所求出之各主題詞之主題內出現概率越大則特徵度越大之方式決定,且係以檢索或分析對象之文字1200中各主題詞之出現頻率越大則特徵度越小之方式決定。較理想為如式(1)所示,各主題詞之特徵度係藉由使各主題詞之主題內出現概率除以文字中之各主題詞之出現頻率而獲得。除以文字中之各主題詞之出現頻率可抑制容易提示屬於各種主題且對各主題賦予特徵之性質較弱之單詞的情況。
特徵度=主題內出現概率/出現頻率(1)
如式(2)所示,文字中各主題詞之出現頻率係藉由使文字中各主題詞之出現數除以文字整體中之單詞數而獲得。
出現頻率=出現數/單詞數(2)
於圖4所圖示之繼步驟S104之後之步驟S105中,判定是否存在記錄有過去之檢索中所使用之單詞之檢索記錄1302。於判定為存在檢索記錄1302之情況下,於圖4所圖示之步驟S106中進行未擷取單詞之追加,於圖4所圖示之步驟S107中進行相加分數因數之計算,於圖4所圖示之步驟S108中進行排除詞之刪除。另一方面,於判定為不存在檢索記錄1302之情況下,於圖4所圖示之步驟S108中進行排除詞之刪除。
於步驟S106中,如圖7所圖示般,特定部1104自檢索記錄1302特定出在過去之檢索中被使用之次數多於設定次數但未包含於藉由主題分類部1102所擷取之至少一個主題詞1204的未擷取單詞,將所特定出之未擷取單詞追加至藉由主題分類部1102所擷取之至少一個主題詞1204,從而獲得經更新之至少一個主題詞1209。藉此,使藉由特定部1104所特定之至少一個從屬主題詞1206包含未擷取單詞。
圖8係對第1實施形態之建議詞語生成裝置中針對各使用者群組之各候補單詞之建議詞語分數之計算演算法進行說明的圖。圖9係圖示第1實施形態之建議詞語生成裝置中所儲存之檢索記錄之例的圖。圖10係圖示第1實施形態之建議詞語生成裝置中所儲存之使用者管理表格之例的圖。圖11係圖示第1實施形態 之建議詞語生成裝置中計算之相加分數因數表格之例的圖。
於檢索記錄1302中,將特定進行各檢索之使用者之資訊及各檢索中所使用之單詞以相互建立對應之狀態加以記錄。於圖9所圖示之例中,例如以相互建立對應之狀態記錄有使用者識別碼(ID)1500即「001」、檢索字1501即「應用程式」及檢索時刻1502即「2016-12-26 16:55:22.916」。使用者ID1500係特定進行各檢索之使用者之資訊。檢索字1501係各檢索中所使用之單詞。
於使用者管理表格1303中,將特定使用者之資訊及特定使用者所從屬之使用者群組之資訊以相互建立對應之狀態加以存放。於圖10所圖示之例中,例如以相互建立關聯之狀態存放有使用者ID1510即「001」、姓名1511即「XXXX」及群組(部門)ID1512即「G001」,且以相互建立關聯之狀態存放有群組(部門)ID1520即「G001」及姓名1521即「使用者窗口」。使用者ID1510及姓名1511係特定使用者之資訊。群組(部門)ID1520及姓名1521係特定使用者所從屬之使用者群組之資訊。
藉由參照檢索記錄1302及使用者管理表格1303,可特定出在過去之檢索中被從屬於各使用者群組之使用者使用之已使用單詞。
於圖4所圖示之步驟S107中,如圖8所圖示般,分數因數計算部1103針對各使用者群組,自檢索記錄1302及使用者管理表格1303特定出在過去之檢索中被從屬於各使用者群組之使用者使用之已使用單詞,並計算所特定出之已使用單詞所從屬之主題之相加分數因數1530。於圖11所圖示之例中,例如針對被賦予了群組ID1540即「G001」之使用者群組,計算被賦予了主題ID1541 即「corpus1_0_0」之主題之相加分數因數1542即「10」。
又,如圖8所圖示般,分數因數計算部1103針對各使用者群組,將藉由主題分類部1102所擷取之至少一個主題詞1204之各主題詞所屬之主題之相加分數因數1530與步驟S104中所計算出之各主題詞之相加前分數因數1531相加,藉此計算各主題詞之分數因數1205。各主題詞之分數因數1205亦表示如下之特徵度及各主題詞所從屬之主題中各主題詞之主題內出現概率之至少一者,成為各使用者群組所固有之各主題詞之分數因數,上述特徵度表示各主題詞對各主題詞所從屬之主題賦予特徵之程度。根據各使用者群組所固有之各主題詞之分數因數1205,能夠生成適合各使用者群組之建議詞語1208。步驟S107中所計算出之各主題詞之分數因數1205係用於計算各候補單詞1261之建議詞語分數1532。亦可省略步驟S107,而將步驟S104中所計算出之各主題詞之分數因數用於計算各候補單詞1261之建議詞語分數1532。
於圖4所圖示之步驟S108中,如圖7所圖示般,特定部1104使用登錄有檢索或分析中所不需要之排除詞之排除詞字典1301,自至少一個主題詞1209刪除登錄於排除詞字典1301之排除詞,而獲得至少一個從屬主題詞1206。藉此,使藉由特定部1104所特定之至少一個從屬主題詞1206不包含排除詞。
於圖4所圖示之繼步驟S108之後之步驟S109中,如圖3所圖示般,分數計算部1105自複數個主題1250擷取輸入單詞1201所從屬之至少一個被擷取主題1251。至少一個被擷取主題1251之擷取係以輸入單詞1201從屬於至少一個被擷取主題1251之各擷取主題之方式進行。
又,如圖7所圖示般,分數計算部1105製作包含複數個候補單詞1260之建議詞語候補列表1210,上述複數個候補單詞1260附屬於至少一個被擷取主題1251。
於圖4所圖示之繼步驟S109之後之步驟S110中,分數計算部1105計算表示輸入單詞1201與建議詞語候補列表1210所包含之複數個候補單詞1260之各候補單詞1261之關聯度之強度的各候補單詞1261之建議詞語分數1532。分數計算部1105於各候補單詞1261之建議詞語分數1532之計算中,在至少一個被擷取主題1251中特定出各候補單詞1261所從屬之至少一個從屬主題1252。至少一個從屬主題1252之特定係以各候補單詞1261從屬於至少一個從屬主題1252之各從屬主題之方式進行。
又,分數計算部1105根據對至少一個從屬主題1252分別計算出之各候補單詞1261之至少一個分數因數1205,計算各候補單詞1261之建議詞語分數1532。
又,如圖7所圖示般,分數計算部1105以由各候補單詞1261之建議詞語分數1532所表示之關聯度之強度之順序將建議詞語候補列表1210所包含之複數個候補單詞1260進行排序,而製作建議詞語字列表1207。
又,分數計算部1105根據針對輸入了輸入單詞1201之使用者所從屬之使用者群組所計算出之各候補單詞1261之至少一個分數因數1205,計算各候補單詞1261之建議詞語分數1532,製作使用者所屬之使用者群組所固有之建議詞語字列表1207。
圖12係圖示第1實施形態之建議詞語生成裝置中所製作之建議詞語字列表之例的圖。
於建議詞語字列表1207中,將特定主題之資訊、候補單詞及建議詞語分數以相互建立關聯之狀態加以存放。於圖12所圖示之例中,例如以相互建立關聯之狀態存放有主題ID1550即「corpus0_1_1」、主題詞1551即「應用程式」及建議詞語分數1552即「4.675」。主題ID1550係特定主題之資訊。主題詞1551係候補單詞。
於圖4所圖示之繼步驟S110之後之步驟S111中,如圖7所圖示般,提示部1106按照建議詞語字列表1207生成建議詞語1208。於建議詞語1208中,以由各候補單詞1261之建議詞語分數1532所表示之關聯度之強度之順序提示建議詞語字列表1207所包含之複數個候補單詞1260。
4建議詞語分數之第1計算方法
圖13係對第1實施形態之建議詞語生成裝置中候補單詞之建議詞語分數之、利用第1計算方法之計算例進行說明之圖。
於第1計算方法中,如圖3所圖示般,分數計算部1105以輸入單詞1201從屬於各擷取主題之方式自複數個主題1250擷取至少一個被擷取主題1251。於圖13所示之計算例中,以輸入單詞1600即「應用程式」從屬於各被擷取主題之方式,擷取至少一個被擷取主題1610即主題k、l及m。
又,如圖3所圖示般,分數計算部1105以候補單詞1261從屬於各從屬主題之方式,於至少一個被擷取主題1251中特定出至少一個從屬主題1252。於圖13所示之計算例中,以候補單詞1601即「版本」從屬於各從屬主題之方式,特定出至少一個從 屬主題1611即主題k及m。
又,分數計算部1105針對至少一個從屬主題1252之各從屬主題,計算對各從屬主題所計算出之輸入單詞1201之分數因數1205與對各從屬主題所計算出之候補單詞1261之分數因數1205之乘積。於圖13所圖示之計算例中,針對主題k,計算對主題k所計算出之輸入單詞1600即「應用程式」之特徵度1620即「31.2」與對主題k所計算出之候補單詞1601即「版本」之特徵度1621即「15.4」之乘積1622即「31.2×15.4=480.48」,針對主題m,計算對主題m所計算出之輸入單詞1600即「應用程式」之特徵度1623即「0.3」與對主題m所計算出之候補單詞1601即「版本」之特徵度1624即「87.0」之乘積1625即「0.3×87.0=26.1」。
又,分數計算部1105根據對至少一個從屬主題1252分別計算出之至少一個乘積之最大值,計算表示輸入單詞1201與候補單詞1261之關聯度之強度的候補單詞1261之建議詞語分數1532。於圖13所示之計算例中,將對主題k所計算出之乘積1622即「31.2×15.4=480.48」及對主題m所計算出之乘積1625即「0.3×87.0=26.1」之最大值1626即「480.48」設為候補單詞1601之建議詞語分數1627。亦可代替與最大值1626一致之候補單詞1601之建議詞語分數1627而計算包含最大值1626作為因數之候補單詞1601之建議詞語分數1627。例如,亦可計算與最大值1626之常數倍一致之候補單詞1601之建議詞語分數1627。
於第1計算方法中,一般而言,候補單詞word之建議詞語分數Score(word)係使用至少一個從屬主題T(keyword,word)、對主題t所計算出之輸入單詞keyword之特徵度 featurekeywordt及對主題t所計算出之候補單詞word之特徵度featurewordt,藉由式(3)而計算。
Figure 107126176-A0101-12-0020-1
根據第1計算方法,表示單詞對單詞所從屬之主題賦予特徵之程度較強之較大特徵度容易反映至候補單詞1261之建議詞語分數1532,表示單詞對單詞所從屬之主題賦予特徵之程度較弱之較小特徵度不易反映至候補單詞1261之建議詞語分數1532。
5建議詞語分數之第2計算方法
圖14係對第1實施形態之建議詞語生成裝置中候補單詞之建議詞語分數之、利用第2計算方法之計算例進行說明之圖。
於第2計算方法中,與第1計算方法同樣地,如圖3所圖示般,分數計算部1105自複數個主題1250擷取至少一個被擷取主題1251,於至少一個被擷取主題1251中特定出至少一個從屬主題1252,針對各從屬主題,計算對各從屬主題所計算出之輸入單詞1201之分數因數1205與對各從屬主題所計算出之候補單詞1261之分數因數1205之乘積。
於第2計算方法中,分數計算部1105根據對至少一個從屬主題1252分別計算出之至少一個乘積之乘積,計算表示輸入單詞1201與候補單詞1261之關聯度之強度的候補單詞1261之建議詞語分數1532。於圖14所示之計算例中,將對主題k所計算出之乘積1622即「31.2×15.4=480.48」及對主題m所計算出之乘積1625即「0.3×87.0=26.1」之乘積1628即「480.48×26.1= 12540.528」設為候補單詞1601之建議詞語分數1629。亦可代替與乘積1628一致之候補單詞1601之建議詞語分數1629而計算包含乘積1628作為因數之候補單詞1601之建議詞語分數1629。例如,亦可計算與乘積1628之常數倍一致之候補單詞1601之建議詞語分數1629。
於第2計算方法中,一般而言,候補單詞word之建議詞語分數Score(word)係使用至少一個從屬主題T(keyword,word)、對主題t所計算出之輸入單詞keyword之特徵度featurekeywordt、及對主題t所計算出之候補單詞word之特徵度featurewordt,藉由式(4)而計算。
Figure 107126176-A0101-12-0021-2
根據第2計算方法,表示單詞對單詞所從屬之主題賦予特徵之程度較強之較大特徵度及表示單詞對單詞所從屬之主題賦予特徵之程度較弱之較小特徵度均反映至候補單詞1261之建議詞語分數1532。
6建議詞語分數之第3計算方法
圖15係對第1實施形態之建議詞語生成裝置中候補單詞之建議詞語分數之、利用第3計算方法之計算例進行說明之圖。
於第3計算方法中,與第1計算方法同樣地,如圖3所圖示般,分數計算部1105自複數個主題1250擷取至少一個被擷取主題1251,於至少一個被擷取主題1251中特定出至少一個從屬主題1252。
於第3計算方法中,分數計算部1105針對各從屬主題,計算對各從屬主題所計算出之輸入單詞1201之分數因數1205與對各從屬主題所計算出之候補單詞1261之分數因數1205之乘積。於圖15所示之計算例中,針對主題k,計算對主題k所計算出之輸入單詞1600即「應用程式」之特徵度1620即「31.2」與對主題k所計算出之候補單詞1601即「版本」之主題內出現概率1630即「0.025」之乘積1631即「31.2×0.025=0.78」,針對主題m,計算對主題m所計算出之輸入單詞1600即「應用程式」之特徵度1623即「0.3」與對主題m所計算出之候補單詞1601即「版本」之主題內出現概率1632即「0.350」之乘積1633即「0.3×0.350=0.105」。
又,分數計算部1105根據對至少一個從屬主題1252分別計算出之至少一個乘積之最大值,計算表示輸入單詞1201與候補單詞1261之關聯度之強度的候補單詞1261之建議詞語分數1532。於圖15所示之計算例中,將對主題k所計算出之乘積1631即「31.2×0.025=0.78」及對主題m所計算出之乘積1633即「0.3×0.350=0.105」之最大值1634即「31.2×0.025=0.78」設為候補單詞1601之建議詞語分數1635。亦可代替與最大值1634一致之候補單詞1601之建議詞語分數1635而計算包含最大值1634作為因數之候補單詞1601之建議詞語分數1635。例如,亦可計算與最大值1634之常數倍一致之候補單詞1601之建議詞語分數1635。
於第3計算方法中,一般而言,候補單詞word之建議詞語分數Score(word)係使用至少一個從屬主題T(keyword,word)、對主題t所計算出之輸入單詞keyword之特徵度featurekeywordt、及對主題t所計算出之候補單詞word之主題內出 現概率probabilitywordt,藉由式(5)而計算。
Figure 107126176-A0101-12-0023-3
根據第3計算方法,表示單詞對單詞所從屬之主題賦予特徵之程度較強之較大特徵度、及表示單詞所從屬之主題中單詞之主題內出現概率較高之較大主題內出現概率容易反映至候補單詞1261之建議詞語分數1532,表示單詞對單詞所從屬之主題賦予特徵之程度較弱之較小特徵度及表示單詞所從屬之主題中單詞之主題內出現概率較低之較小主題內出現概率不易反映至候補單詞1261之建議詞語分數1532。
7建議詞語分數之第4計算方法
圖16係對第1實施形態之建議詞語生成裝置中候補單詞之建議詞語分數之、利用第4計算方法之計算例進行說明之圖。
於第4計算方法中,與第1計算方法同樣地,如圖3所圖示般,分數計算部1105自複數個主題1250擷取至少一個被擷取主題1251,於至少一個被擷取主題1251中特定出至少一個從屬主題1252。
於第4計算方法中,分數計算部1105根據對至少一個從屬主題1252分別計算出之候補單詞1261之至少一個分數因數1205之最大值,計算表示輸入單詞1201與候補單詞1261之關聯度之強度的候補單詞1261之建議詞語分數1532。於圖16所示之計算例中,將對主題k所計算出之候補單詞1601即「版本」之主題內出現概率1636即「0.025」及對主題m所計算出之候補單詞1601 即「版本」之主題內出現概率1637即「0.350」之最大值1638即「0.350」設為候補單詞1601之建議詞語分數1639。亦可代替與最大值1638一致之候補單詞1601之建議詞語分數1639而計算包含最大值1638作為因數之候補單詞1601之建議詞語分數1639。例如,亦可計算與最大值1638之常數倍一致之候補單詞1601之建議詞語分數1639。
於第4計算方法中,一般而言,候補單詞word之建議詞語分數Score(word)係使用至少一個從屬主題T(keyword,word)、及對主題t所計算出之候補單詞word之主題內出現概率probabilitywordt,藉由式(6)而計算。
Figure 107126176-A0101-12-0024-4
根據第4計算方法,表示單詞所從屬之主題中單詞之主題內出現概率較高之較大主題內出現概率容易反映至候補單詞1261之建議詞語分數1532,表示單詞所從屬之主題中單詞之主題內出現概率較低之較小主題內出現概率不易反映至候補單詞1261之建議詞語分數1532。
8針對各使用者群組之建議詞語分數之計算之另一例
圖17係對第1實施形態之建議詞語生成裝置中針對各使用者群組之各候補單詞之建議詞語分數之計算演算法之另一例進行說明的圖。
該另一例中,分數計算部1105根據各主題詞之分數因數1205,計算表示輸入單詞1201與各候補單詞1261之關聯度之 強度的相加前建議詞語分數1700。
又,分數計算部1105針對各使用者群組,自檢索記錄1302及使用者管理表格1303特定出過去之檢索中被從屬於各使用者群組之使用者使用之已使用單詞,計算已使用單詞之相加分數,將各候補單詞1261之相加分數1701與各候補單詞1261之相加前建議詞語分數1700相加,藉此計算各候補單詞1261之建議詞語分數1532。
9畫面之例
圖18係圖示第1實施形態之建議詞語生成裝置中所顯示之畫面之例的示意圖。
圖18所圖示之畫面1800係顯示於顯示器1043。
畫面1800具備受理檢索所使用之輸入單詞1201之輸入之文字框1820、受理開始檢索之指示之按鈕1821、及顯示建議詞語1208之區域1822。文字框1820及按鈕1821之各者亦可置換為其他種類之圖形使用者介面(GUI)零件。
於圖18所示之例中,複數個候補單詞1830同時顯示於區域1822,以與由各候補單詞1831之建議詞語分數所表示之關聯度之強度之順序一致之排列順序排列複數個候補單詞1830。亦可僅顯示1個候補單詞,並以與由各候補單詞1831之建議詞語分數所表示之關聯度之強度之順序一致之時間順序切換所顯示之1個候補單詞。
雖已對本發明詳細地進行了說明,但上述說明於所有態樣中均為例示,本發明並不受其等限定。可認為能夠不脫離本發 明之範圍而思及未例示之無複數個變形例。
1000‧‧‧建議詞語生成裝置
1100‧‧‧除去部
1101‧‧‧詞素解析部
1102‧‧‧主題分類部
1103‧‧‧分數因數計算部
1104‧‧‧特定部
1105‧‧‧分數計算部
1106‧‧‧提示部
1107‧‧‧儲存部
1200‧‧‧檢索或分析對象之文字(除去前文字)
1201‧‧‧輸入單詞
1202‧‧‧除去後文字
1203‧‧‧詞素解析完成文字
1204‧‧‧至少一個主題詞
1205‧‧‧各主題詞之分數因數
1206‧‧‧至少一個從屬主題詞
1207‧‧‧建議詞語字列表
1208‧‧‧建議詞語
1300‧‧‧強制擷取詞字典
1301‧‧‧排除詞字典
1302‧‧‧檢索記錄
1303‧‧‧使用者管理表格

Claims (16)

  1. 一種建議詞語生成裝置,其具備:詞素解析部,其對文字進行詞素解析而將上述文字分割為複數個單詞,獲得詞素解析完成文字;主題分類部,其對上述詞素解析完成文字進行主題分類,自上述複數個單詞擷取從屬於複數個主題之各主題的至少一個主題詞;分數因數計算部,其針對上述至少一個主題詞之各主題詞所從屬之主題,計算表示如下之特徵度及上述各主題詞所從屬之主題中上述各主題詞之主題內出現概率之至少一者的上述各主題詞之分數因數,上述特徵度表示上述各主題詞對上述各主題詞所從屬之主題賦予特徵之程度;特定部,其特定出從屬於上述各主題且包含上述至少一個主題詞之至少一部分的至少一個從屬主題詞;分數計算部,其以輸入單詞從屬於各被擷取主題之方式自上述複數個主題擷取至少一個被擷取主題,計算表示上述輸入單詞與從屬於上述至少一個被擷取主題之複數個候補單詞之各候補單詞之關聯度之強度的上述各候補單詞之分數,於上述計算中,以上述各候補單詞從屬於各從屬主題之方式特定出上述至少一個被擷取主題中之至少一個從屬主題,根據對上述至少一個從屬主題分別計算出之上述各候補單詞之至少一個分數因數,計算上述各候補單詞之分數;及提示部,其以由上述各候補單詞之分數所表示之關聯度之強度之順序提示上述複數個候補單詞。
  2. 如請求項1之建議詞語生成裝置,其中, 進而具備自除去前文字除去停止字而獲得上述文字之除去部。
  3. 如請求項1或2之建議詞語生成裝置,其中,進而具備儲存登錄有複合詞之強制擷取詞字典之儲存部,上述詞素解析部以上述複數個單詞包含上述複合詞之方式分割上述文字。
  4. 如請求項1或2之建議詞語生成裝置,其中,進而具備儲存部,該儲存部儲存記錄有過去之檢索中所使用之單詞之檢索記錄,上述分數因數計算部係,計算表示如下之特徵度及上述各主題詞所從屬之主題中上述各主題詞之主題內出現概率之至少一者的上述各主題詞之相加前分數因數,上述特徵度表示上述各主題詞對上述各主題詞所從屬之主題賦予特徵之程度,針對各使用者群組,自上述檢索記錄特定出上述過去之檢索中被從屬於上述各使用者群組之使用者使用之已使用單詞,計算上述已使用單詞所從屬之主題之相加分數因數,使上述各主題詞所從屬之主題之相加分數因數與上述各主題詞之相加前分數因數相加,藉此計算上述各主題詞之分數因數,上述分數計算部係,根據針對輸入了上述輸入單詞之使用者所屬之使用者群組所計算的上述各候補單詞之至少一個分數因數,計算上述各候補單詞之分數。
  5. 如請求項1或2之建議詞語生成裝置,其中,上述各主題詞之分數因數表示如下之特徵度,該特徵度表示上述 各主題詞對上述各主題詞所從屬之主題賦予特徵之程度,表示上述各主題詞對上述各主題詞所從屬之主題賦予特徵之程度的特徵度,係藉由上述各主題詞所從屬之主題中上述各主題詞之主題內出現概率除以上述文字中上述各主題詞之出現頻率而獲得。
  6. 如請求項1或2之建議詞語生成裝置,其中,進而具備儲存部,該儲存部儲存記錄有過去之檢索中所使用之單詞之檢索記錄,上述特定部自上述檢索記錄特定出上述過去之檢索中被使用之次數多於設定次數但不包含於上述至少一個主題詞之未擷取單詞,以上述至少一個從屬主題詞包含上述未擷取單詞之方式特定出上述至少一個從屬主題詞。
  7. 如請求項1或2之建議詞語生成裝置,其中,進而具備儲存登錄有排除詞之排除詞字典之儲存部,上述特定部以上述至少一個從屬主題詞不包含上述排除詞之方式特定出上述至少一個從屬主題詞。
  8. 如請求項1或2之建議詞語生成裝置,其中,上述分數計算部係,針對上述各從屬主題,計算對上述各從屬主題所計算出之上述輸入單詞之分數因數與對上述各從屬主題所計算出之上述各候補單詞之分數因數之乘積,根據對上述至少一個從屬主題分別計算出之至少一個乘積之最大值,計算上述各候補單詞之分數。
  9. 如請求項1或2之建議詞語生成裝置,其中,上述分數計算部係, 針對上述各從屬主題,計算對上述各從屬主題所計算出之上述輸入單詞之分數因數與對上述各從屬主題所計算出之上述各候補單詞之分數因數之乘積,根據對上述至少一個從屬主題分別計算出之至少一個乘積之乘積,計算上述各候補單詞之分數。
  10. 如請求項8之建議詞語生成裝置,其中,對上述各從屬主題所計算出之上述輸入單詞之分數因數表示如下之特徵度,該特徵度表示上述輸入單詞對上述各從屬主題賦予特徵之程度,對上述各從屬主題所計算出之上述各候補單詞之分數因數表示如下之特徵度,該特徵度表示上述各候補單詞對上述各從屬主題賦予特徵之程度。
  11. 如請求項8之建議詞語生成裝置,其中,對上述各從屬主題所計算出之上述輸入單詞之分數因數表示如下之特徵度,該特徵度表示上述輸入單詞對上述各從屬主題賦予特徵之程度,對上述各從屬主題所計算出之上述各候補單詞之分數因數,係表示上述各從屬主題中上述各候補單詞之主題內出現概率。
  12. 如請求項1或2之建議詞語生成裝置,其中,上述分數計算部係,根據對上述至少一個從屬主題分別計算出之上述各候補單詞之至少一個分數因數之最大值,計算上述各候補單詞之分數。
  13. 如請求項12之建議詞語生成裝置,其中,對上述各從屬主題所計算出之上述各候補單詞之分數因數係上 述各從屬主題中上述各候補單詞之主題內出現概率。
  14. 如請求項1或2之建議詞語生成裝置,其中,進而具備儲存部,該儲存部儲存記錄有過去之檢索中所使用之單詞之檢索記錄,上述分數計算部係,計算表示上述輸入單詞與上述各候補單詞之關聯度之強度的上述各候補單詞之相加前分數,針對各使用者群組,自上述檢索記錄特定出上述過去之檢索中被屬於上述各使用者群組之使用者使用之已使用單詞,計算上述已使用單詞之相加分數,使上述各候補單詞之相加分數與上述各候補單詞之相加前分數相加,藉此計算上述各候補單詞之分數。
  15. 一種記錄有建議詞語生成程式之電腦可讀取之記錄媒體,其使電腦執行如下步驟:a)對文字進行詞素解析而將上述文字分割為複數個單詞,獲得詞素解析完成文字之步驟;b)對上述詞素解析完成文字進行主題分類,自上述複數個單詞擷取從屬於複數個主題之各主題的至少一個主題詞之步驟;c)針對上述至少一個主題詞之各主題詞所從屬之主題,計算表示如下之特徵度及上述各主題詞所從屬之主題中上述各主題詞之主題內出現概率之至少一者的上述各主題詞之分數因數之步驟,上述特徵度表示上述各主題詞對上述各主題詞所從屬之主題賦予特徵之程度;d)特定出從屬於上述各主題且包含上述至少一個主題詞之至少一部分的至少一個從屬主題詞之步驟; e)以輸入單詞從屬於各被擷取主題之方式自上述複數個主題擷取至少一個被擷取主題,計算表示上述輸入單詞與從屬於上述至少一個被擷取主題之複數個候補單詞之各候補單詞之關聯度之強度的上述各候補單詞之分數,於上述計算中,以上述各候補單詞從屬於各從屬主題之方式特定出上述至少一個被擷取主題中之至少一個從屬主題,根據對上述至少一個從屬主題分別計算出之上述各候補單詞之至少一個分數因數,計算上述各候補單詞之分數之步驟;及f)以由上述各候補單詞之分數所表示之關聯度之強度之順序,提示上述複數個候補單詞之步驟。
  16. 一種建議詞語生成方法,其具備如下步驟:a)對文字進行詞素解析而將上述文字分割為複數個單詞,獲得詞素解析完成文字之步驟;b)對上述詞素解析完成文字進行主題分類,自上述複數個單詞擷取從屬於複數個主題之各主題的至少一個主題詞之步驟;c)針對上述至少一個主題詞之各主題詞所從屬之主題,計算表示如下之特徵度及上述各主題詞所從屬之主題中上述各主題詞之主題內出現概率之至少一者的上述各主題詞之分數因數之步驟,上述特徵度表示上述各主題詞對上述各主題詞所從屬之主題賦予特徵之程度;d)特定出從屬於上述各主題且包含上述至少一個主題詞之至少一部分的至少一個從屬主題詞之步驟;e)以輸入單詞從屬於各被擷取主題之方式自上述複數個主題擷取至少一個被擷取主題,計算表示上述輸入單詞與從屬於上述至少一個被擷取主題之複數個候補單詞之各候補單詞之關聯度之強度的 上述各候補單詞之分數,於上述計算中,以上述各候補單詞從屬於各從屬主題之方式特定出上述至少一個被擷取主題中之至少一個從屬主題,根據對上述至少一個從屬主題分別計算出之上述各候補單詞之至少一個分數因數,計算上述各候補單詞之分數之步驟;及f)以由上述各候補單詞之分數所表示之關聯度之強度之順序,提示上述複數個候補單詞之步驟。
TW107126176A 2017-09-20 2018-07-27 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 TWI703453B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017180015A JP6967412B2 (ja) 2017-09-20 2017-09-20 サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法
JP2017-180015 2017-09-20

Publications (2)

Publication Number Publication Date
TW201915785A TW201915785A (zh) 2019-04-16
TWI703453B true TWI703453B (zh) 2020-09-01

Family

ID=65811318

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107126176A TWI703453B (zh) 2017-09-20 2018-07-27 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法

Country Status (3)

Country Link
JP (1) JP6967412B2 (zh)
TW (1) TWI703453B (zh)
WO (1) WO2019058698A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248078A1 (en) * 2005-04-15 2006-11-02 William Gross Search engine with suggestion tool and method of using same
US20070192318A1 (en) * 2005-09-14 2007-08-16 Jorey Ramer Creation of a mobile search suggestion dictionary
CN102722477A (zh) * 2011-03-24 2012-10-10 卡西欧计算机株式会社 近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置
CN105095204A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 同义词的获取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3230868B2 (ja) * 1992-12-28 2001-11-19 株式会社リコー 音声合成装置
JP4869292B2 (ja) * 2008-06-20 2012-02-08 ヤフー株式会社 検索キーワードを推薦するサーバ、方法、およびプログラム
JP5311378B2 (ja) * 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP5558539B2 (ja) * 2012-09-24 2014-07-23 ヤフー株式会社 検索システム、検索方法およびプログラム
JP6470636B2 (ja) * 2015-06-04 2019-02-13 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248078A1 (en) * 2005-04-15 2006-11-02 William Gross Search engine with suggestion tool and method of using same
US20070192318A1 (en) * 2005-09-14 2007-08-16 Jorey Ramer Creation of a mobile search suggestion dictionary
CN102722477A (zh) * 2011-03-24 2012-10-10 卡西欧计算机株式会社 近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置
CN105095204A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 同义词的获取方法及装置

Also Published As

Publication number Publication date
TW201915785A (zh) 2019-04-16
JP6967412B2 (ja) 2021-11-17
JP2019057017A (ja) 2019-04-11
WO2019058698A1 (ja) 2019-03-28

Similar Documents

Publication Publication Date Title
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
US8346795B2 (en) System and method for guiding entity-based searching
US10366116B2 (en) Discrepancy curator for documents in a corpus of a cognitive computing system
EP2523126A2 (en) Information processing apparatus, information processing method, program, and information processing system
US20200285808A1 (en) Synonym dictionary creation apparatus, non-transitory computer-readable recording medium storing synonym dictionary creation program, and synonym dictionary creation method
US20090112845A1 (en) System and method for language sensitive contextual searching
US20080154853A1 (en) English-language translation of exact interpretations of keyword queries
JP5900367B2 (ja) 検索装置、検索方法及びプログラム
JP2005043977A (ja) 文書間の類似度算出方法および装置
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
CN113065018A (zh) 一种音视频的索引库创建和检索方法、装置及电子设备
JP6409071B2 (ja) 文の並び替え方法および計算機
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006178599A (ja) 文書検索装置および方法
TWI703453B (zh) 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP5916666B2 (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP7488207B2 (ja) 将来事象推定システム、および将来事象推定方法
WO2023218594A1 (ja) 情報処理装置
JP2012022443A (ja) 文書検索装置、文書検索方法及び文書検索プログラム
Bernardes et al. Exploring NPL: Generating Automatic Control Keywords
JP2002140346A (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
JP5903171B2 (ja) データ加工システムおよびデータ加工方法