WO2020039730A1 - 検索装置、検索方法及び検索プログラム - Google Patents

検索装置、検索方法及び検索プログラム Download PDF

Info

Publication number
WO2020039730A1
WO2020039730A1 PCT/JP2019/024937 JP2019024937W WO2020039730A1 WO 2020039730 A1 WO2020039730 A1 WO 2020039730A1 JP 2019024937 W JP2019024937 W JP 2019024937W WO 2020039730 A1 WO2020039730 A1 WO 2020039730A1
Authority
WO
WIPO (PCT)
Prior art keywords
result data
search result
search
data
similar
Prior art date
Application number
PCT/JP2019/024937
Other languages
English (en)
French (fr)
Inventor
明子 吉田
清孝 粕渕
清孝 宮井
北村 一博
万理 寺田
Original Assignee
株式会社Screenホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Screenホールディングス filed Critical 株式会社Screenホールディングス
Publication of WO2020039730A1 publication Critical patent/WO2020039730A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Definitions

  • the present invention relates to a search device, a search method, and a search program.
  • the search device extracts search result data that matches the search condition from the plurality of search target data, and causes the display to display the extracted search result data. In addition, when there is a plurality of search result data that match the search condition, the search device causes the display to display the plurality of search result data.
  • a user gives a score to all information and search results by showing opinions such as consent, likes, disagreement, and disagreement in a display list of search results. Do (summary). In addition, sorting is automatically performed according to the level of the score value, and the one with the highest score is displayed at the top (summary).
  • the conventional search device has a problem that search result data desired by the user may not be displayed at the top.
  • search results for which the user does not indicate an opinion that raises the evaluation score are not displayed at the top. For this reason, in the search engine sorting method described in Patent Literature 1, the search result desired by the user may not be displayed at the top.
  • An object of the present invention is to provide a search device, a search method, and a search program that increase the possibility that search result data desired by a user is displayed at a higher position.
  • the present invention is directed to a search device.
  • a plurality of search result data matching the search condition is extracted from the plurality of search target data.
  • the plurality of search result data is output by the output device.
  • Similarity information identifying search target data similar to each search target data included in the plurality of search target data is generated.
  • the output order of the plurality of search result data when outputting the plurality of search result data to the output device is determined.
  • the first search result data in which the number of assigned positive evaluations is equal to or greater than the first reference number, and the second search result data similar to the first search result data specified based on the similarity information
  • the output order is set higher than the output order of the third search result data in which the number of assigned positive evaluations is smaller than the first reference number and is not similar to the first search result data.
  • the present invention is also directed to a search method and a search program.
  • the first search result data to which a large number of positive evaluations are given and the second search result data similar to the first search result data are displayed at the top. Therefore, there is a high possibility that the search result data desired by the user is displayed at the top.
  • FIG. 2 is a block diagram illustrating hardware of the search device according to the first embodiment.
  • FIG. 2 is a block diagram illustrating a search device according to the first embodiment.
  • FIG. 7 is a diagram illustrating an example of a change in display order of a plurality of search result data before and after feedback learning in the search device of the first embodiment.
  • 5 is a flowchart illustrating a flow of acquisition of a plurality of search target data and learning of similar search target data performed in the search device of the first embodiment.
  • 5 is a flowchart illustrating a flow of feedback learning performed in the search device of the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a table used for managing a search target document in the search device of the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a table used for managing a search target document in the search device of the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a table used for managing a search target document in the search device of the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a table used for managing similar documents in the search device of the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a table used for browsing similar documents in the search device of the first embodiment.
  • FIG. 1 is a block diagram illustrating hardware of the search device according to the first embodiment.
  • the search device 1000 illustrated in FIG. 1 is a personal computer (PC) on which the search program 1020 is installed.
  • the search device 1000 includes a central processing unit (CPU) 1040, a memory 1042, a hard disk drive 1044, an input device 1046, and an output device 1048.
  • the search device 1000 may include elements other than these elements.
  • the search program 1020 is installed in the hard disk drive 1044.
  • the search program 1020 is installed in the hard disk drive 1044 by writing data read from an external storage medium 1060 such as a compact disk (CD), a digital versatile disk (DVD), or a universal serial bus (USB) memory to the hard disk drive 1044. This may be performed, or may be performed by writing data received via the network 1080 to the hard disk drive 1044.
  • the hard disk drive 1044 may be replaced with another type of auxiliary storage device.
  • the hard disk drive 1044 may be replaced with a solid state drive or a random access memory (RAM) disk.
  • the hard disk drive 1044, the external storage medium 1060, the solid state drive, the RAM disk, and the like are computer-readable recording media on which the search program 1020 is recorded.
  • the CPU 1040 loads the search program 1020 into the memory 1042, and executes the loaded search program 1020.
  • the PC functions as the search device 1000.
  • the input device 1046 is a keyboard, a mouse, a touchpad, a trackball, a touch panel, a switch, a dial, a microphone, or the like.
  • the output device 1048 is a display, a printer, a speaker, and the like. In the following, description will be given on the assumption that the output device 1048 is a display, and the data is output by displaying the data on the display.
  • FIG. 2 is a block diagram illustrating a search device according to the first embodiment.
  • the search device 1000 includes an input device 1046, an output device 1048, an acquisition unit 1200, a storage unit 1202, a search unit 1204, an output control unit 1206, a reception unit 1208, a generation unit 1210, and a determination unit 1212. Is provided.
  • the search device 1000 may include elements other than these elements.
  • the acquisition unit 1200, the search unit 1204, the output control unit 1206, the reception unit 1208, the generation unit 1210, and the determination unit 1212 are configured by causing the CPU 1040 to execute a search program 1020.
  • the storage unit 1202 includes at least one of the memory 1042 and the hard disk drive 1044.
  • All or a part of the processing performed by the CPU 1040 may be performed by another type of processing device.
  • all or a part of the processing performed by the CPU 1040 may be performed by a graphics processing device (GPU).
  • All or a part of the processing performed by the CPU 1040 may be performed by hardware that does not execute a program.
  • the acquisition unit 1200 acquires the plurality of search target data 1220, and stores the acquired plurality of search target data 1220 in the storage unit 1202.
  • the search unit 1204 extracts search result data matching the search condition from the plurality of search target data 1220 stored in the storage unit 1202.
  • search unit 1204 may extract a plurality of search result data 1240 from a plurality of search target data stored in a storage unit provided in a computer connected to the search device 1000 via the network 1080.
  • the output control unit 1206 causes the output device 1048 to output the extracted plurality of search result data 1240.
  • the output control unit 1206 may output the plurality of search result data 1240 to an output device provided in a computer connected to the search device 1000 via the network 1080.
  • the output device 1048 is a display
  • the output control unit 1206 is a display control unit
  • the plurality of search result data 1240 is output to the output device 1048 by displaying the plurality of search result data 1240 on the display.
  • the description proceeds assuming that the output order of the plurality of search result data 1240 is the display order of the plurality of search result data 1240.
  • the receiving unit 1208 detects that an operation of requesting to give “like” to the search result data selected from the plurality of displayed search result data 1240 has been performed on the input device 1046, Accepting “like” to the search result data is accepted. Also, when the receiving unit 1208 detects that an operation for requesting to give “bad” to the search result data selected from the plurality of displayed search result data 1240 has been performed on the input device 1046. Then, the application of “bad” to the search result data is accepted. The receiving unit 1208 also detects that an operation of requesting cancellation of the addition of “like” to the search result data selected from the plurality of displayed search result data 1240 has been performed on the input device 1046.
  • cancellation of the addition of “like” to the search result data is accepted.
  • the receiving unit 1208 detects that an operation requesting the addition of “like” has been performed on an input device included in a computer connected to the search device 1000 via the network 1080, the reception unit 1208 may perform “like”. May be accepted. The same applies to the assignment of “bad” and the cancellation of the assignment of “like”.
  • the receiving unit 1208 also generates feedback 1260 indicating the content of the assignment of “like”, the cancellation of the assignment of “like”, and the assignment of “bad”.
  • the operation requesting the addition of “like” is, for example, an operation of pressing a “like” button.
  • the operation for requesting the “bad” is, for example, an operation of pressing a “bad” button.
  • An operation for requesting cancellation of “like” is, for example, an operation of pressing a “like cancellation” button.
  • Likes may be replaced by other types of positive ratings. For example, “like” may be replaced with “vote”, “age”, and the like. “Issue” may be replaced by another type of negative evaluation. For example, “bad” may be replaced with “opposite voting”, “sage”, and the like.
  • the generation unit 1210 generates similarity information 1280 that specifies search target data similar to each search target data included in the plurality of search target data 1220 stored in the storage unit 1202.
  • Search target data similar to each search target data is search target data other than each search target data included in the plurality of search target data 1220 stored in the storage unit 1202.
  • the determination unit 1212 calculates display rank scores of the plurality of search result data 1240, and calculates a plurality of search result data 1240 on the display 1048 based on the calculated display rank scores of the plurality of search result data 1240.
  • the display order 1290 of the search result data 1240 is determined.
  • the determining unit 1212 learns the generated feedback 1260, and changes the display order 1290 of the plurality of search result data 1240 according to the learned feedback 1260. Change.
  • FIG. 3 is a diagram illustrating an example of change in display order of a plurality of search result data before and after feedback learning in the search device of the first embodiment. .
  • the search result data D 1 , D 2 , D 3 , D 4 , D 5 ,..., D n ⁇ 1 , D n illustrated in FIG. 3 are a plurality of search result data 1240 extracted by the search unit 1204. It is.
  • the search result data D 1 , D 2 , D 3 , D 4 , D 5 ,..., D n ⁇ 1 , D n are search result data D 1 , “Like "the number of times a is the search result data D 2 1 times, and" good I "number of times is 0 times the search result data D 3, D 4, D 5 , ⁇ , including the D n-1, D n.
  • the search result data D 1 , D 2 , D 3 , D 4 , D 5 ,..., D n ⁇ 1 , D n are the search result data D 3 and D 4 similar to the search result data D 1.
  • the search result data D 1 , D 2 , D 3 , D 4 , D 5 ,..., D n ⁇ 1 , D n are search result data D n in which the “bad” number of times is one, and
  • the search result data D 1 , D 2 , D 3 , D 4 , D 5 ,..., D n ⁇ 1 in which the number of “bad” times is 0 is included.
  • the determination unit 1212 determines the first search result data D 1 and D 2 whose number of “likes” is 1 or more, and the first search result data D 1 similar to the first search result data D 1 .
  • the display order of the second search result data D 3 and D 4 is changed to the third search result data D 5 ,..., D that is less than one “like” times and is not similar to the first search result data D 1. n-1, to the upper than the display order of D n.
  • the first search result data D 1 and D 2 having a large number of “likes” and the second search result data D 3 and D 4 similar to the first search result data D 1 are associated with each other.
  • Second search result data D 3 and D 4 similar to the first search result data D 1 is specified based on the generated similarity information 1280. For example, if the degree of similarity is the reference similarity above the second search result data D 3 first search result data D 1 of the first search result data D 1 and the second search result data D 3 It is determined to be similar, if the similarity is lower than the reference similarity is determined that the second search result data D 3 not similar to the first search result data D 1.
  • the first reference number compared with the number of “likes” may be other than one.
  • determination unit 1212, the search result data D 1 and D 2 of the plurality of first is included if present, the plurality of first search result data D 1 and D 2 as shown in FIG. 3 As the number of “likes” of each first search result data increases, the display order of each first search result data becomes higher.
  • the determination unit 1212 determines whether the first search result data D 1 and the plurality of second search results similarity between the second search result data is enough to each second top results display order of the data higher in the data D 3 and D 4.
  • the determination unit 1212, the second search results display order of the data D 3, the first search result relatively low data D 1 having a first search result data D 1 and a relatively high degree of similarity to higher order than display order of the second search result data D 4 having a degree of similarity.
  • determination unit 1212 as illustrated in Figure 3, the first search result display order of the data D 1 and D 2, to higher than the display order of the second search result data D 3 and D 4 .
  • First search result display order of the data D 1 is in the higher order than display order of the second search result data D 3 and D 4
  • the first search result display order of the data D 2 is a second search result data D 3 and may be lower than the display order of D 4.
  • the relationship between the display order of the first search result data D 1 and D 2 and the display order of the second search result data D 3 and D 4 can be adjusted by a display order score calculation algorithm described below.
  • determination unit 1212 as illustrated in Figure 3, the third search result display order of the data D n "bad ne" count is equal to or more than once, the first search result data D 1 and D from the display order of 2 and the second search result data D 3 and D 4 are lower. As a result, the "bad it" a large number of times the fourth search result data D n is displayed in the lower. Therefore, there is a high possibility that unnecessary search result data is displayed at a lower position.
  • the second reference number to be compared with the “bad” number may be other than one.
  • FIG. 4 shows a flow of acquisition of a plurality of search target data and learning of similar search target data performed in the search device of the first embodiment. It is a flowchart illustrated.
  • step S101 shown in FIG. 4 acquisition section 1200 determines whether or not a trigger for acquiring all data has been input.
  • the trigger for acquiring all data may be input according to a predetermined schedule or may be input manually. If it is determined that a trigger for acquiring all data has been input, steps S102, S103, and S104 are sequentially performed, and then step S105 is performed. On the other hand, when it is determined that the trigger for acquiring all data has not been input, step S105 is executed without executing steps S102, S103, and S104.
  • step S102 the acquisition unit 1200 starts crawling all data.
  • the acquisition unit 1200 acquires all data during all data crawls, and causes the storage unit 1202 to store all acquired data. All the stored data are included in the plurality of search target data 1220. Further, the acquiring unit 1200 creates a search index of all acquired data.
  • step S103 the generation unit 1210 learns search target data similar to each search target data included in the plurality of search target data 1220 stored in the storage unit 1202, and searches for search target data similar to each search target data. Is generated.
  • the generated similarity information 1280 includes a similarity score indicating the similarity between each search target data and search target data similar to each search target data.
  • step S104 the generation unit 1210 registers the similarity information 1280 generated in step S103 in a database (DB) configured by the storage unit 1202.
  • DB database
  • step S105 the acquisition unit 1200 determines whether a trigger for acquiring difference data has been input.
  • the trigger for acquiring the difference data may be input according to a predetermined schedule, or may be input manually. If it is determined that a trigger for acquiring difference data has been input, steps S106, S107, S108, and S109 are sequentially performed, and then step S110 is performed. On the other hand, if it is determined that the trigger for acquiring the difference data has not been input, step S110 is executed without executing steps S106, S107, S108 and S109.
  • step S106 the acquisition unit 1200 starts differential crawl.
  • the acquisition unit 1200 acquires the difference data during the difference crawl.
  • the difference data includes additional data, deleted data, and updated data.
  • step S107 the acquiring unit 1200 updates the plurality of search target data 1220 according to the acquired difference data.
  • the generation unit 1210 adds additional data to the plurality of search target data 1220, deletes deleted data from the plurality of search target data 1220, and updates the plurality of search target data The search target data included in the data 1220 is replaced.
  • step S108 the generation unit 1210 learns search target data similar to the updated search target data, and generates similarity information 1280 that specifies search target data similar to the updated search target data.
  • the generated similarity information 1280 includes a similarity score indicating the similarity between the updated search target data and the search target data similar to the updated search target data. Also, the generation unit 1210 deletes the similarity information 1280 that specifies search target data similar to the deleted data.
  • step S109 the generation unit 1210 registers the similarity information 1280 generated in step S108 in the DB configured by the storage unit 1202.
  • step S110 it is determined whether or not search device 1000 has been completed. If it is determined that the search device 1000 has not ended, step S101 is executed again. If it is determined that the search device 1000 has ended, the acquisition of a plurality of search target data and the learning of similar search target data end without executing step S101. Thus, steps S101 to S109 are repeatedly executed until the search device 1000 ends.
  • steps S101 to S110 after the plurality of search target data 1220 is obtained, the plurality of search target data 1220 is updated. Therefore, the plurality of search target data 1220 can be kept up to date. Further, similarity information 1280 that specifies search target data similar to each search target data included in the plurality of search target data 1220 can be kept up to date.
  • FIG. 5 is a flowchart illustrating a flow of feedback learning performed in the search device of the first embodiment.
  • step S121 illustrated in FIG. 5 the search unit 1204 performs a search on the plurality of search target data 1220 stored in the storage unit 1202, and matches the search condition from the plurality of search target data 1220.
  • a plurality of search result data 1240 is extracted.
  • the display control unit 1206 causes the display 1048 to display the extracted plurality of search result data 1240.
  • receiving unit 1208 performs an operation on input device 1046 to request input of “like” to the search result data selected from the plurality of search result data 1240 displayed on display 1048. It is determined whether or not it has been performed. Further, in step S124, reception unit 1208 determines whether or not an operation requesting cancellation of the addition of “like” to the search result data has been performed on input device 1046. In step S125, receiving unit 1208 determines whether or not an operation for requesting to give “bad” to the search result data is performed on input device 1046.
  • steps S126, S127, and S128 are sequentially performed, and then steps S131 and S128 are performed.
  • S132 is executed sequentially. When it is determined that the operation requesting the “bad” is performed, steps S129 and S130 are sequentially performed, and then steps S131 and S132 are sequentially performed. If it is determined that none of the operation requesting the grant of the "like”, the operation requesting the cancellation of the grant of the "like”, and the operation requesting the grant of the "bad” are performed, S132 is executed.
  • step S126 the determination unit 1212 updates the number of “likes” of the selected search result data.
  • the determination unit 1212 increases the number of “like” by one.
  • the determination unit 1212 reduces the number of “like” by one.
  • step S127 the determination unit 1212 recalculates the display order score of the search result data similar to the selected search result data.
  • the recalculated display ranking score includes “like count” of the selected search result data, and similarity indicating the similarity between the selected search result data and the search result data similar to the selected search result data. The degree score is reflected.
  • step S128 the determination unit 1212 calculates a display rank score of the selected search result data.
  • the calculated display rank score reflects the number of “likes” of the selected search result data and the display rank score of search result data similar to the selected search result data.
  • step S129 the determination unit 1212 updates the number of “bad” of the selected search result data. When it is determined that the operation requesting the “bad” is performed, the determining unit 1212 increases the number of “bad” by one.
  • step S130 the determination unit 1212 calculates a display rank score of the selected search result data.
  • the calculated display ranking score reflects the “number of bad times” of the selected search result data.
  • step S131 the determining unit 1212 determines the display order 1290 of the plurality of search result data 1240 based on the calculated display order scores of the plurality of search result data 1240.
  • the plurality of search result data 1240 is displayed on the display 1048 in accordance with the determined display order 1290 of the plurality of search result data 1240.
  • the display order 1290 of the plurality of search result data 1240 displayed reflects the feedback 1260 from the user.
  • step S132 it is determined whether or not the user has logged out of search device 1000. If it is determined that the user has not logged out, step S121 is executed again. If it is determined that the user has logged out, the feedback learning ends without performing step S121. Thus, steps S121 to S131 are repeatedly executed until the user logs out of the search device 1000.
  • steps S121 to S132 every time an operation requesting the grant of “like”, an operation requesting cancellation of the grant of “like”, or an operation requesting the grant of “bad” is performed,
  • the display order 1290 of the plurality of search result data 1240 is updated.
  • FIGS. 6, 7, and 8 are diagrams illustrating examples of tables used in managing search target documents in the search apparatus of the first embodiment.
  • the tables illustrated in FIGS. 6, 7, and 8 are tables used when the plurality of search target data 1220 is a plurality of search target documents.
  • the table 1300 illustrated in FIG. 6 includes a plurality of document identifiers (ID) 1320, a plurality of document names 1322, a plurality of document uniform resource locators (URLs) 1324, a plurality of “likes” 1326, and a plurality of “likes”.
  • the bad number 1328 is described.
  • the plurality of document names 1322 are respectively associated with the plurality of document IDs 1320.
  • a plurality of document URLs 1324 are associated with a plurality of document IDs 1320, respectively.
  • the plurality of “like” times 1326 are respectively associated with the plurality of document IDs 1320.
  • a plurality of “bad” times 1328 are respectively associated with a plurality of document IDs 1320.
  • the plurality of document IDs 1320 identify a plurality of search target documents, respectively.
  • Each document name included in the plurality of document names 1322 is the name of a document identified by a document ID associated with each document name.
  • Each document URL included in the plurality of document URLs 1324 is a URL of a document identified by a document ID associated with each document URL.
  • the number of “likes” included in the plurality of “likes” times 1326 is the number of “likes” of the document identified by the document ID associated with each “like” number.
  • Each “poor” count included in the plurality of “poor” counts 1328 is the “poor” count of the document identified by the document ID associated with each “poor” count.
  • the plurality of “likes” times 1326 and the plurality of “bad” times 1328 are used in learning the feedback 1260.
  • the plurality of “likes” times 1326 and the plurality of “bad” times 1328 are shared by a plurality of users.
  • the information to be obtained is shared by a plurality of users, and a user without sufficient knowledge can obtain the information to be obtained.
  • a plurality of document file paths 1420 are described in the table 1400 illustrated in FIG.
  • the plurality of document file paths 1420 are paths of files in which a plurality of search target documents are described.
  • paths 1520 of a plurality of morphological analysis result files are described.
  • the paths 1520 of the plurality of morphological analysis result files are paths of files describing the morphological analysis results of the plurality of search target documents, respectively. Morphological analysis results of a plurality of search target documents are used for learning similar search target data.
  • FIG. 9 is a diagram illustrating an example of a table used for managing similar documents in the search device of the first embodiment.
  • the table 1600 illustrated in FIG. 9 is a table used when the plurality of search target data 1220 is a plurality of search target documents.
  • a plurality of document IDs 1620, a plurality of similar document IDs 1622, and a plurality of similarities 1624 are described in the table 1600 shown in FIG.
  • the plurality of similar document IDs 1620 are respectively associated with the plurality of document IDs 1620.
  • the plurality of similarities 1624 are respectively associated with the plurality of document IDs 1620.
  • Each similar document ID included in the plurality of similar document IDs 1620 is a document ID for identifying a document similar to the document identified by the document ID associated with each similar document ID.
  • Each similarity included in the plurality of similarities 1624 is identified by a document identified by the document ID associated with each similarity and a similar document ID associated with the document ID associated with each similarity. The degree of similarity with the document to be processed.
  • FIG. 10 illustrates an example of a table used for browsing similar documents in the search device of the first embodiment.
  • the table 1700 illustrated in FIG. 10 is a table used when the plurality of search target data 1220 is a plurality of search target documents.
  • ⁇ ⁇ ⁇ ⁇ Table 1700 shown in FIG. 10 describes a plurality of document IDs 1720, a plurality of similar document IDs 1722, a plurality of document URLs 1724, a plurality of similar document URLs 1726, and a plurality of similarities 1728.
  • the plurality of document IDs 1720, the plurality of similar document IDs 1722, and the plurality of similarities 1728 are respectively similar to the plurality of document IDs 1620, the plurality of similar document IDs 1622, and the plurality of similarities 1624 shown in FIG.
  • the plurality of document URLs 1724 are respectively associated with the plurality of document IDs 1720.
  • the plurality of similar document URLs 1726 are respectively associated with the plurality of similar document IDs 1720.
  • Each document URL included in the plurality of document URLs 1724 is a URL of a document identified by a document ID associated with each document URL.
  • Each similar document URL included in the plurality of similar document URLs 1726 is a URL of a document identified by a similar document ID associated with each similar document URL.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ユーザが得たい検索結果データが上位に表示される可能性を高くする。複数の検索対象データから複数の検索結果データが抽出される。複数の検索結果データは、出力機器により出力される。選択された検索結果データへの肯定的評価の付与が受け付けられる。各検索対象データに類似する検索対象データを特定する類似情報が生成される。複数の検索結果データの出力順位が決定される際には、付与された肯定的評価の数が第1の基準数以上である第1の検索結果データ、及び類似情報に基づいて特定される、第1の検索結果データに類似する第2の検索結果データの出力順位が、付与された肯定的評価の数が第1の基準数より少なく第1の検索結果データに類似しない第3の検索結果データの出力順位より上位にされる。

Description

検索装置、検索方法及び検索プログラム
 本発明は、検索装置、検索方法及び検索プログラムに関する。
 検索装置は、複数の検索対象データから検索条件に合致する検索結果データを抽出し、抽出した検索結果データをディスプレイに表示させる。また、検索装置は、検索条件に適合する複数の検索結果データが存在する場合は、複数の検索結果データをディスプレイに表示させる。
 複数の検索結果データをディスプレイに表示させる場合は、ユーザが得たい検索結果データを上位に表示させることが期待される。
 特許文献1に記載された検索エンジンソーティング方法においては、ユーザが、検索結果の表示リストにおいて同意、好き、同意せず、反対等の意見を示すことですべての情報及び検索結果に対して評点を行う(要約)。また、評点値の高低に応じて自動的にソーティングが行われ、評点の高いものが上位に表示される(要約)。
 特許文献2に記載された文書検索システムにおいては、ユーザの検索履歴データに基づき、当該ユーザが業務上閲覧する可能性がある文書ファイルと、その可能性の無い文書ファイルとを区別する処理が行われる(要約)。また、その後のユーザ検索処理において、可能性の無い文書ファイルを合致度の算出対象から外す選択処理が行われる。その際には、潜在的に上位にランキングされる可能性を評価した上で選択が行われる(要約)。
特表2016-505178号公報 特開2012-53535号公報
 従来の検索装置は、ユーザが得たい検索結果データが上位に表示されない場合があるという問題を有する。
 例えば、特許文献1に記載された検索エンジンソーティング方法においては、ユーザが評価点を高める意見を示していない検索結果が上位に表示されない。このため、特許文献1に記載された検索エンジンソーティング方法においては、ユーザが得たい検索結果が上位に表示されない場合がある。
 また、特許文献2に記載された文書検索システムにおいては、ユーザの検索履歴データに基づいて特定された、ユーザが業務上閲覧する可能性の無い文書ファイルが上位に表示されない。このため、特許文献2に記載された文書検索システムにおいては、ユーザの検索履歴データによっては、ユーザが得たい検索結果が上位に表示されない場合がある。
 本発明は、これらの問題に鑑みてなされた。本発明が解決しようとする課題は、ユーザが得たい検索結果データが上位に表示される可能性を高くする検索装置、検索方法、及び検索プログラムを提供することである。
 本発明は、検索装置に向けられる。
 複数の検索対象データから検索条件に合致する複数の検索結果データが抽出される。複数の検索結果データは、出力機器により出力される。
 複数の検索結果データから選択された検索結果データへの肯定的評価の付与が受け付けられる。
 複数の検索対象データに含まれる各検索対象データに類似する検索対象データを特定する類似情報が生成される。
 複数の検索結果データを出力機器に出力させる際の複数の検索結果データの出力順位が決定される。付与された肯定的評価の数が第1の基準数以上である第1の検索結果データ、及び類似情報に基づいて特定される、第1の検索結果データに類似する第2の検索結果データの出力順位が、付与された肯定的評価の数が第1の基準数より少なく第1の検索結果データに類似しない第3の検索結果データの出力順位より上位にされる。
 本発明は、検索方法及び検索プログラムにも向けられる。
 本発明によれば、多数の肯定的評価が付与されている第1の検索結果データ、及び当該第1の検索結果データに類似する第2の検索結果データが上位に表示される。このため、ユーザが得たい検索結果データが上位に表示される可能性が高くなる。
 この発明の目的、特徴、局面、及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。
第1実施形態の検索装置のハードウェアを図示するブロック図である。 第1実施形態の検索装置を図示するブロック図である。 第1実施形態の検索装置におけるフィードバックの学習前後の複数の検索結果データの表示順位の変化の例を図示する図である。 第1実施形態の検索装置において行われる複数の検索対象データの取得、及び類似する検索対象データの学習の流れを図示するフローチャートである。 第1実施形態の検索装置において行われるフィードバックの学習の流れを図示するフローチャートである。 第1実施形態の検索装置において検索対象文書の管理に用いられるテーブルの例を図示する図である。 第1実施形態の検索装置において検索対象文書の管理に用いられるテーブルの例を図示する図である。 第1実施形態の検索装置において検索対象文書の管理に用いられるテーブルの例を図示する図である。 第1実施形態の検索装置において類似文書の管理に用いられるテーブルの例を図示する図である。 第1実施形態の検索装置において類似文書の閲覧に用いられるテーブルの例を図示する図である。
 1 検索装置のハードウェア
 図1は、第1実施形態の検索装置のハードウェアを図示するブロック図である。
 図1に図示される検索装置1000は、検索プログラム1020がインストールされたパーソナルコンピューター(PC)である。検索装置1000は、中央処理装置(CPU)1040、メモリー1042、ハードディスクドライブ1044、入力機器1046及び出力機器1048を備える。検索装置1000がこれらの要素以外の要素を備えてもよい。
 ハードディスクドライブ1044には、検索プログラム1020がインストールされる。ハードディスクドライブ1044への検索プログラム1020のインストールは、コンパクトディスク(CD)、デジタル多目的ディスク(DVD)、ユニバーサルシリアルバス(USB)メモリー等の外部記憶媒体1060から読み出したデータをハードディスクドライブ1044に書き込むことにより行われてもよいし、ネットワーク1080を経由して受信したデータをハードディスクドライブ1044に書き込むことにより行われてもよい。ハードディスクドライブ1044が他の種類の補助記憶装置に置き換えられてもよい。例えば、ハードディスクドライブ1044がソリッドステートドライブ、ランダムアクセスメモリー(RAM)ディスクに置き換えられてもよい。ハードディスクドライブ1044、外部記憶媒体1060、ソリッドステートドライブ、RAMディスク等は、検索プログラム1020を記録したコンピュータ読み取り可能な記録媒体である。
 CPU1040は、検索プログラム1020をメモリー1042にロードし、ロードした検索プログラム1020を実行する。これにより、PCは、検索装置1000として機能する。
 入力機器1046は、キーボード、マウス、タッチパッド、トラックボール、タッチパネル、スイッチ、ダイヤル、マイクロフォン等である。
 出力機器1048は、ディスプレイ、プリンタ、スピーカ等である。以下では、出力機器1048がディスプレイであり、データの出力がディスプレイへのデータの表示により行われるとして説明が進められる。
 2 検索装置
 図2は、第1実施形態の検索装置を図示するブロック図である。
 検索装置1000は、図2に図示されるように、入力機器1046、出力機器1048、取得部1200、記憶部1202、検索部1204、出力制御部1206、受け付け部1208、生成部1210及び決定部1212を備える。検索装置1000がこれらの要素以外の要素を備えてもよい。
 取得部1200、検索部1204、出力制御部1206、受け付け部1208、生成部1210及び決定部1212は、CPU1040に検索プログラム1020を実行させることにより構成される。記憶部1202は、メモリー1042及びハードディスクドライブ1044の少なくとも一方により構成される。
 CPU1040により行われる処理の全部又は一部が他の種類の処理装置により行われてもよい。例えば、CPU1040により行われる処理の全部又は一部がグラフィックス処理装置(GPU)により行われてもよい。CPU1040により行われる処理の全部又は一部がプログラムを実行しないハードウェアにより行われてもよい。
 取得部1200は、複数の検索対象データ1220を取得し、取得した複数の検索対象データ1220を記憶部1202に記憶させる。
 検索部1204は、記憶部1202に記憶されている複数の検索対象データ1220から検索条件に合致する検索結果データを抽出する。以下では、検索条件に合致する複数の検索結果データ1240が存在し、検索部1204が複数の検索対象データ1220から複数の検索結果データ1240を抽出するとして、説明が進められる。検索部1204が、検索装置1000にネットワーク1080を介して接続されたコンピュータに備えられる記憶部に記憶された複数の検索対象データから複数の検索結果データ1240を抽出してもよい。
 出力制御部1206は、抽出された複数の検索結果データ1240を出力機器1048に出力させる。出力制御部1206が、複数の検索結果データ1240を、検索装置1000にネットワーク1080を介して接続されたコンピュータに備えられる出力機器に出力させてもよい。
 以下では、出力機器1048がディスプレイであり、出力制御部1206が表示制御部であり、複数の検索結果データ1240を出力機器1048に出力させることが複数の検索結果データ1240をディスプレイに表示させることであり、複数の検索結果データ1240の出力順位が複数の検索結果データ1240の表示順位であるとして、説明が進められる。
 受け付け部1208は、表示された複数の検索結果データ1240から選択された検索結果データへの「いいね」の付与を要求する操作が入力機器1046に対して行われたことを検出した場合に、当該検索結果データへの「いいね」の付与を受け付ける。また、受け付け部1208は、表示された複数の検索結果データ1240から選択された検索結果データへの「わるいね」の付与を要求する操作が入力機器1046に対して行われたことを検出した場合に、当該検索結果データへの「わるいね」の付与を受け付ける。また、受け付け部1208は、表示された複数の検索結果データ1240から選択された検索結果データへの「いいね」の付与の取り消しを要求する操作が入力機器1046に対して行われたことを検出した場合に、当該検索結果データへの「いいね」の付与の取り消しを受け付ける。受け付け部1208が、「いいね」の付与を要求する操作が検索装置1000にネットワーク1080を介して接続されたコンピュータに備えられる入力機器に対して行われたことを検出した場合に、「いいね」の付与を受け付けてもよい。「わるいね」の付与、及び「いいね」の付与の取り消しについても同様である。また、受け付け部1208は、「いいね」の付与、「いいね」の付与の取り消し、及び「わるいね」の付与の内容を示すフィードバック1260を生成する。
 「いいね」の付与を要求する操作は、例えば「いいね」ボタンを押す操作である。「わるいね」の付与を要求する操作は、例えば「わるいね」ボタンを押す操作である。「いいね」の付与の取り消しを要求する操作は、例えば「いいね取り消し」ボタンを押下する操作である。「いいね」が他の種類の肯定的評価に置き換えられてもよい。例えば、「いいね」が「投票」、「あげ」等に置き換えられてもよい。「わるいね」が他の種類の否定的評価に置き換えられてもよい。例えば、「わるいね」が「反対投票」、「さげ」等に置き換えられてもよい。
 生成部1210は、記憶部1202に記憶されている複数の検索対象データ1220に含まれる各検索対象データに類似する検索対象データを特定する類似情報1280を生成する。各検索対象データに類似する検索対象データは、記憶部1202に記憶されている複数の検索対象データ1220に含まれる、各検索対象データ以外の検索対象データである。
 決定部1212は、複数の検索結果データ1240の表示順位スコアを計算し、計算した複数の検索結果データ1240の表示順位スコアに基づいて複数の検索結果データ1240をディスプレイ1048に表示させる際の複数の検索結果データ1240の表示順位1290を決定する。
 また、決定部1212は、複数の検索結果データ1240の表示順位1290を決定する際に、生成されたフィードバック1260を学習し、学習したフィードバック1260に応じて複数の検索結果データ1240の表示順位1290を変化させる。
 3 フィードバックの学習による複数の検索結果データの表示順位の変化
 図3は、第1実施形態の検索装置におけるフィードバックの学習前後の複数の検索結果データの表示順位の変化の例を図示する図である。
 以下では、検索結果データに付与された「いいね」及び「わるいね」の数をそれぞれ検索結果データの「いいね」回数及び「わるいね」回数という。
 図3に図示される検索結果データD,D,D,D,D,・・・,Dn-1,Dは、検索部1204により抽出された複数の検索結果データ1240である。検索結果データD,D,D,D,D,・・・,Dn-1,Dは、「いいね」回数が3回である検索結果データD、「いいね」回数が1回である検索結果データD、及び「いいね」回数が0回である検索結果データD,D,D,・・・,Dn-1,Dを含む。また、検索結果データD,D,D,D,D,・・・,Dn-1,Dは、検索結果データDに類似する検索結果データD及びDを含む。また、検索結果データD,D,D,D,D,・・・,Dn-1,Dは、「わるいね」回数が1回である検索結果データD、及び「わるいね」回数が0回である検索結果データD,D,D,D,D,・・・・,Dn-1を含む。
 決定部1212は、図3に図示されるように、「いいね」回数が1回以上である第1の検索結果データD及びD、並びに第1の検索結果データDに類似する第2の検索結果データD及びDの表示順位を、「いいね」回数が1回より少なく第1の検索結果データDに類似しない第3の検索結果データD,・・・,Dn-1,Dの表示順位より上位にする。これにより、「いいね」回数が多い第1の検索結果データD及びD、並びに第1の検索結果データDに類似する第2の検索結果データD及びDが互いに紐づけられた状態で上位に表示される。このため、ユーザが得たい検索結果データが上位に表示される可能性が高くなり、容易かつ効率的に検索を実行することができる。第1の検索結果データDに類似する第2の検索結果データD及びDは、生成された類似情報1280に基づいて特定される。例えば、第1の検索結果データDと第2の検索結果データDとの類似度が基準類似度以上である場合は第2の検索結果データDが第1の検索結果データDに類似すると判定され、当該類似度が基準類似度より低い場合は第2の検索結果データDが第1の検索結果データDに類似しないと判定される。「いいね」回数と比較される第1の基準数が、1回以外であってもよい。
 また、決定部1212は、図3に図示されるように複数の第1の検索結果データD及びDが存在する場合に、複数の第1の検索結果データD及びDに含まれる各第1の検索結果データの「いいね」回数が多くなるほど各第1の検索結果データの表示順位を上位にする。したがって、決定部1212は、「いいね」回数が3回である第1の検索結果データDの表示順位を、「いいね」回数が1回である第1の検索結果データDの表示順位より上位にする。
 また、決定部1212は、図3に図示されるように複数の第2の検索結果データD及びDが存在する場合に、第1の検索結果データDと複数の第2の検索結果データD及びDに含まれる各第2の検索結果データとの類似度が高くなるほど各第2の検索結果データの表示順位を上位にする。したがって、決定部1212は、第1の検索結果データDと相対的に高い類似度を有する第2の検索結果データDの表示順位を、第1の検索結果データDと相対的に低い類似度を有する第2の検索結果データDの表示順位より上位にする。
 また、決定部1212は、図3に図示されるように、第1の検索結果データD及びDの表示順位を、第2の検索結果データD及びDの表示順位より上位にする。第1の検索結果データDの表示順位が第2の検索結果データD及びDの表示順位より上位にされ、第1の検索結果データDの表示順位が第2の検索結果データD及びDの表示順位より下位にされてもよい。第1の検索結果データD及びDの表示順位と第2の検索結果データD及びDの表示順位との関係は、下述する表示順位スコアの計算アルゴリズムにより調整することができる。
 また、決定部1212は、図3に図示されるように、「わるいね」回数が1回以上である第3の検索結果データDの表示順位を、第1の検索結果データD及びD並びに第2の検索結果データD及びDの表示順位より下位にする。これにより、「わるいね」回数が多い第4の検索結果データDが下位に表示される。このため、不要な検索結果データが下位に表示される可能性が高くなる。「わるいね」回数と比較される第2の基準数が、1回以外であってもよい。
 4 複数の検索対象データの取得、及び類似する検索対象データの学習
 図4は、第1実施形態の検索装置において行われる複数の検索対象データの取得、及び類似する検索対象データの学習の流れを図示するフローチャートである。
 図4に図示されるステップS101においては、取得部1200が、全データの取得のトリガーが入力されたか否かを判定する。全データの取得のトリガーは、あらかじめ定められたスケジュールにしたがって入力されてもよいし、手動で入力されてもよい。全データの取得のトリガーが入力されたと判定された場合は、ステップS102、S103及びS104が順次に実行されてからステップS105が実行される。一方、全データの取得のトリガーが入力されていないと判定された場合は、ステップS102、S103及びS104が実行されることなくステップS105が実行される。
 ステップS102においては、取得部1200が、全データクロールを開始する。取得部1200は、全データクロール中に、全データを取得し、取得した全データを記憶部1202に記憶させる。記憶させられた全データは、複数の検索対象データ1220に含められる。また、取得部1200は、取得した全データの検索インデックスを作成する。
 ステップS103においては、生成部1210が、記憶部1202に記憶された複数の検索対象データ1220に含まれる各検索対象データに類似する検索対象データを学習し、各検索対象データに類似する検索対象データを特定する類似情報1280を生成する。生成される類似情報1280は、各検索対象データと各検索対象データに類似する検索対象データとの類似度を示す類似度スコアを含む。
 ステップS104においては、生成部1210が、ステップS103において生成した類似情報1280を記憶部1202により構成されるデータベース(DB)に登録する。
 ステップS105においては、取得部1200が、差分データの取得のトリガーが入力されたか否かを判定する。差分データの取得のトリガーは、あらかじめ定められたスケジュールにしたがって入力されてもよいし、手動で入力されてもよい。差分データの取得のトリガーが入力されたと判定された場合は、ステップS106、S107、S108及びS109が順次に実行されてからステップS110が実行される。一方、差分データの取得のトリガーが入力されていないと判定された場合は、ステップS106、S107、S108及びS109が実行されることなくステップS110が実行される。
 ステップS106においては、取得部1200が、差分クロールを開始する。取得部1200は、差分クロール中に、差分データを取得する。差分データは、追加データ、削除データ及び更新データを含む。
 ステップS107においては、取得部1200が、取得した差分データにしたがって複数の検索対象データ1220を更新する。生成部1210は、複数の検索対象データ1220を更新する際に、追加データを複数の検索対象データ1220に追加し、削除データを複数の検索対象データ1220から削除し、更新データで複数の検索対象データ1220に含まれる検索対象データを置換する。
 ステップS108においては、生成部1210が、更新された検索対象データに類似する検索対象データを学習し、更新された検索対象データに類似する検索対象データを特定する類似情報1280を生成する。生成される類似情報1280は、更新された検索対象データと更新された検索対象データに類似する検索対象データとの類似度を示す類似度スコアを含む。また、生成部1210は、削除データに類似する検索対象データを特定する類似情報1280を削除する。
 ステップS109においては、生成部1210が、ステップS108において生成した類似情報1280を記憶部1202により構成されるDBに登録する。
 ステップS110においては、検索装置1000が終了したか否かが判定される。検索装置1000が終了していないと判定された場合は、ステップS101が再び実行される。検索装置1000が終了したと判定された場合は、ステップS101が実行されることなく複数の検索対象データの取得、及び類似する検索対象データの学習が終了する。これにより、検索装置1000が終了するまでの間はステップS101からS109までが繰り返し実行される。
 ステップS101からS110までによれば、複数の検索対象データ1220が取得された後に、複数の検索対象データ1220が更新される。このため、複数の検索対象データ1220を最新の状態に保つことができる。また、複数の検索対象データ1220に含まれる各検索対象データに類似する検索対象データを特定する類似情報1280を最新の状態に保つことができる。
 5 フィードバックの学習
 図5は、第1実施形態の検索装置において行われるフィードバックの学習の流れを図示するフローチャートである。
 図5に図示されるステップS121においては、検索部1204が、記憶部1202に記憶されている複数の検索対象データ1220に対して検索を実行し、複数の検索対象データ1220から検索条件に合致する複数の検索結果データ1240を抽出する。
 続くステップS122においては、表示制御部1206が、抽出された複数の検索結果データ1240をディスプレイ1048に表示させる。
 続くステップS123においては、受け付け部1208が、ディスプレイ1048に表示された複数の検索結果データ1240から選択された検索結果データへの「いいね」の付与を要求する操作が入力機器1046に対して行われたか否かを判定する。また、ステップS124においては、受け付け部1208が、当該検索結果データへの「いいね」の付与の取り消しを要求する操作が入力機器1046に対して行われたか否かを判定する。ステップS125においては、受け付け部1208が、当該検索結果データへの「わるいね」の付与を要求する操作が入力機器1046に対して行われたか否かを判定する。
 「いいね」の付与を要求する操作、又は「いいね」の付与の取り消しを要求する操作が行われたと判定された場合は、ステップS126、S127及びS128が順次に実行された後にステップS131及びS132が順次に実行される。「わるいね」の付与を要求する操作が行われたと判定された場合は、ステップS129及びS130が順次に実行された後にステップS131及びS132が順次に実行される。「いいね」の付与を要求する操作、「いいね」の付与の取り消しを要求する操作、及び「わるいね」の付与を要求する操作のいずれも行われていないと判定された場合は、ステップS132が実行される。
 ステップS126においては、決定部1212が、選択された検索結果データの「いいね」回数を更新する。決定部1212は、「いいね」の付与を要求する操作が行われたと判定された場合は、「いいね」回数を1回分増加させる。一方、決定部1212は、「いいね」の付与の取り消しを要求する操作が行われたと判定された場合は、「いいね」回数を1回分減少させる。
 ステップS127においては、決定部1212が、選択された検索結果データに類似する検索結果データの表示順位スコアを再計算する。再計算される表示順位スコアには、選択された検索結果データの「いいね回数」、及び選択された検索結果データと選択された検索結果データに類似する検索結果データとの類似度を示す類似度スコアが反映される。
 ステップS128においては、決定部1212が、選択された検索結果データの表示順位スコアを計算する。計算される表示順位スコアには、選択された検索結果データの「いいね」回数、及び選択された検索結果データに類似する検索結果データの表示順位スコアが反映される。
 ステップS129においては、決定部1212が、選択された検索結果データの「わるいね」回数を更新する。決定部1212は、「わるいね」の付与を要求する操作が行われたと判定された場合は、「わるいね」回数を1回分増加させる。
 ステップS130においては、決定部1212が、選択された検索結果データの表示順位スコアを計算する。計算される表示順位スコアには、選択された検索結果データの「わるいね回数」が反映される。
 ステップS131においては、決定部1212が、計算された複数の検索結果データ1240の表示順位スコアに基づいて複数の検索結果データ1240の表示順位1290を決定する。これにより、次に検索が実行された際には、決定された複数の検索結果データ1240の表示順位1290にしたがって複数の検索結果データ1240がディスプレイ1048に表示される。表示される複数の検索結果データ1240の表示順位1290には、ユーザからのフィードバック1260が反映されている。
 ステップS132においては、ユーザが検索装置1000からログアウトしたか否かが判定される。ユーザがログアウトしていないと判定された場合は、ステップS121が再び実行される。ユーザがログアウトしたと判定された場合は、ステップS121が実行されることなくフィードバックの学習が終了する。これにより、ユーザが検索装置1000からログアウトするまで、ステップS121からS131までが繰り返し実行される。
 ステップS121からS132までによれば、「いいね」の付与を要求する操作、「いいね」の付与の取り消しを要求する操作、又は「わるいね」の付与を要求する操作が行われるごとに、複数の検索結果データ1240の表示順位1290が更新される。
 6 検索装置において用いられるテーブルの例
 図6、図7及び図8は、第1実施形態の検索装置において検索対象文書の管理に用いられるテーブルの例を図示する図である。
 図6、図7及び図8に図示されるテーブルは、複数の検索対象データ1220が複数の検索対象文書である場合に用いられるテーブルである。
 図6に図示されるテーブル1300には、複数の文書識別子(ID)1320、複数の文書名1322、複数の文書ユニフォームリソースロケータ(URL)1324、複数の「いいね」回数1326、及び複数の「わるいね」回数1328が記述される。複数の文書名1322は、それぞれ複数の文書ID1320に対応づけられる。複数の文書URL1324は、それぞれ複数の文書ID1320に対応づけられる。複数の「いいね」回数1326は、それぞれ複数の文書ID1320に対応づけられる。複数の「わるいね」回数1328は、それぞれ複数の文書ID1320に対応づけられる。
 複数の文書ID1320は、それぞれ複数の検索対象文書を識別する。複数の文書名1322に含まれる各文書名は、各文書名が対応づけられた文書IDにより識別される文書の名である。複数の文書URL1324に含まれる各文書URLは、各文書URLが対応づけられた文書IDにより識別される文書のURLである。複数の「いいね」回数1326に含まれる各「いいね」回数は、各「いいね」回数が対応づけられた文書IDにより識別される文書の「いいね」回数である。複数の「わるいね」回数1328に含まれる各「わるいね」回数は、各「わるいね」回数が対応づけられた文書IDにより識別される文書の「わるいね」回数である。複数の「いいね」回数1326、及び複数の「わるいね」回数1328は、フィードバック1260の学習において用いられる。
 複数の「いいね」回数1326、及び複数の「わるいね」回数1328は、複数のユーザで共有される。これにより、得たい情報が複数のユーザで共有され、十分な知見を有しないユーザが得たい情報を得ることができるようになる。
 図7に図示されるテーブル1400には、複数の文書ファイルパス1420が記述される。複数の文書ファイルパス1420は、それぞれ複数の検索対象文書が記載されたファイルのパスである。
 図8に図示されるテーブル1500には、複数の形態素解析結果ファイルのパス1520が記述される。複数の形態素解析結果ファイルのパス1520は、それぞれ複数の検索対象文書の形態素解析結果が記載されたファイルのパスである。複数の検索対象文書の形態素解析結果は、類似する検索対象データの学習に用いられる。
 図9は、第1実施形態の検索装置において類似文書の管理に用いられるテーブルの例を図示する図である。
 図9に図示されるテーブル1600は、複数の検索対象データ1220が複数の検索対象文書である場合に用いられるテーブルである。
 図9に図示されるテーブル1600には、複数の文書ID1620、複数の類似文書ID1622及び複数の類似度1624が記述される。複数の類似文書ID1620は、それぞれ複数の文書ID1620に対応づけられる。複数の類似度1624は、それぞれ複数の文書ID1620に対応づけられる。
 複数の類似文書ID1620に含まる各類似文書IDは、各類似文書IDが対応づけられた文書IDにより識別される文書に類似する文書を識別する文書IDである。複数の類似度1624に含まれる各類似度は、各類似度が対応づけられた文書IDにより識別される文書と、各類似度が対応づけられた文書IDに対応づけられた類似文書IDにより識別される文書との類似度である。
 図10は、第1実施形態の検索装置において類似文書の閲覧に用いられるテーブルの例を図示する。
 図10に図示されるテーブル1700は、複数の検索対象データ1220が複数の検索対象文書である場合に用いられるテーブルである。
 図10に図示されるテーブル1700には、複数の文書ID1720、複数の類似文書ID1722、複数の文書URL1724、複数の類似文書URL1726及び複数の類似度1728が記述されている。複数の文書ID1720、複数の類似文書ID1722及び複数の類似度1728は、それぞれ図9に図示される複数の文書ID1620、複数の類似文書ID1622及び複数の類似度1624と同様のものである。複数の文書URL1724は、それぞれ複数の文書ID1720に対応づけられる。複数の類似文書URL1726は、それぞれ複数の類似文書ID1720に対応づけられる。複数の文書URL1724に含まれる各文書URLは、各文書URLが対応づけられた文書IDにより識別される文書のURLである。複数の類似文書URL1726に含まれる各類似文書URLは、各類似文書URLが対応づけられた類似文書IDにより識別される文書のURLである。
 この発明は詳細に説明されたが、上記した説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
 1000 検索装置
 1046 入力機器
 1048 出力機器(ディスプレイ)
 1200 取得部
 1202 記憶部
 1204 検索部
 1206 出力制御部(表示制御部)
 1208 受け付け部
 1210 生成部
 1212 決定部
 1220 複数の検索対象データ
 1240 複数の検索結果データ
 1260 フィードバック
 1280 類似情報
 1290 表示順位
 D,D,D,D,D,・・・,Dn-1,D 検索結果データ

Claims (10)

  1.  複数の検索対象データから検索条件に合致する複数の検索結果データを抽出する検索部と、
     前記複数の検索結果データを出力機器に出力させる出力制御部と、
     前記複数の検索結果データから選択された検索結果データへの肯定的評価の付与を受け付ける受け付け部と、
     前記複数の検索対象データに含まれる各検索対象データに類似する検索対象データを特定する類似情報を生成する生成部と、
     前記複数の検索結果データを前記出力機器に出力させる際の前記複数の検索結果データの出力順位を決定し、付与された肯定的評価の数が第1の基準数以上である第1の検索結果データ、及び前記類似情報に基づいて特定される、前記第1の検索結果データに類似する第2の検索結果データの出力順位を、付与された肯定的評価の数が前記第1の基準数より少なく前記第1の検索結果データに類似しない第3の検索結果データの出力順位より上位にする決定部と、
    を備える検索装置。
  2.  前記受け付け部は、前記複数の検索結果データから選択された検索結果データへの肯定的評価の付与の取り消しを受け付ける
    請求項1の検索装置。
  3.  前記受け付け部は、前記複数の検索結果データから選択された検索結果データへの否定的評価の付与を受け付け、
     前記決定部は、付与された否定的評価の数が第2の基準数以上である第4の検索結果データの出力順位を、前記第1の検索結果データ及び前記第2の検索結果データの出力順位より下位にする
    請求項1又は2の検索装置。
  4.  前記決定部は、複数の第1の検索結果データが存在する場合に、各第1の検索結果データに付与された肯定的評価の数が多くなるほど前記各第1の検索結果データの出力順位を上位にする
    請求項1から3までのいずれかの検索装置。
  5.  前記決定部は、複数の第2の検索結果データが存在する場合に、前記第1の検索結果データと各第2の検索結果データとの類似度が高くなるほど前記各第2の検索結果データの出力順位を上位にする
    請求項1から4までのいずれかの検索装置。
  6.  前記決定部は、
     前記複数の検索結果データの表示順位スコアを計算し、
     前記複数の検索結果データに含まれる検索結果データに付与された肯定的評価の数、及び前記検索結果データと前記検索結果データに類似する検索結果データとの類似度を、前記検索結果データに類似する検索結果データの表示順位スコアに反映し、
     前記検索結果データに付与された肯定的評価の数、及び前記検索結果データに類似する検索結果データの表示順位スコアを、前記検索結果データの表示順位スコアに反映し、
     前記複数の検索結果データの表示順位スコアに基づいて前記複数の検索結果データの出力順位を決定する
    請求項1から5までのいずれかの検索装置。
  7.  前記受け付け部は、前記複数の検索結果データから選択された検索結果データへの否定的評価の付与を受け付け、
     前記決定部は、前記検索結果データに付与された否定的評価の数を前記検索結果データの表示順位スコアに反映する
    請求項6の検索装置。
  8.  前記決定部は、前記第1の検索結果データの出力順位を、前記第2の検索結果データの出力順位より上位にする
    請求項1から7までのいずれかの検索装置。
  9.  a) 複数の検索対象データから検索条件に合致する複数の検索結果データを抽出する工程と、
     b) 前記複数の検索結果データを出力機器に出力させる工程と、
     c) 前記複数の検索結果データから選択された検索結果データへの肯定的評価の付与を受け付ける工程と、
     d) 前記複数の検索対象データに含まれる各検索対象データに類似する検索対象データを特定する類似情報を生成する工程と、
     e) 前記複数の検索結果データを前記出力機器に出力させる際の前記複数の検索結果データの出力順位を決定し、付与された肯定的評価の数が第1の基準数以上である第1の検索結果データ、及び前記類似情報に基づいて特定される、前記第1の検索結果データに類似する第2の検索結果データの出力順位を、付与された肯定的評価の数が前記第1の基準数より少なく前記第1の検索結果データに類似しない第3の検索結果データの出力順位より上位にする工程と、
    を備える検索方法。
  10.  a) 複数の検索対象データから検索条件に合致する複数の検索結果データを抽出する工程と、
     b) 前記複数の検索結果データを出力機器に出力させる工程と、
     c) 前記複数の検索結果データから選択された検索結果データへの肯定的評価の付与を受け付ける工程と、
     d) 前記複数の検索対象データに含まれる各検索対象データに類似する検索対象データを特定する類似情報を生成する工程と、
     e) 前記複数の検索結果データを前記出力機器に出力させる際の前記複数の検索結果データの出力順位を決定し、付与された肯定的評価の数が第1の基準数以上である第1の検索結果データ、及び前記類似情報に基づいて特定される、前記第1の検索結果データに類似する第2の検索結果データの出力順位を、付与された肯定的評価の数が前記第1の基準数より少なく前記第1の検索結果データに類似しない第3の検索結果データの出力順位より上位にする工程と、
    をコンピュータに実行させる検索プログラム。
PCT/JP2019/024937 2018-08-23 2019-06-24 検索装置、検索方法及び検索プログラム WO2020039730A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-156035 2018-08-23
JP2018156035A JP2020030634A (ja) 2018-08-23 2018-08-23 検索装置、検索方法及び検索プログラム

Publications (1)

Publication Number Publication Date
WO2020039730A1 true WO2020039730A1 (ja) 2020-02-27

Family

ID=69593086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024937 WO2020039730A1 (ja) 2018-08-23 2019-06-24 検索装置、検索方法及び検索プログラム

Country Status (3)

Country Link
JP (1) JP2020030634A (ja)
TW (1) TWI743504B (ja)
WO (1) WO2020039730A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7394513B2 (ja) 2022-02-18 2023-12-08 Lineヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169797A (zh) * 2007-11-30 2008-04-30 朱廷劭 一种对搜索结果优化的方法
US20110004609A1 (en) * 2009-07-02 2011-01-06 International Business Machines, Corporation Generating search results based on user feedback
JP2019003406A (ja) * 2017-06-15 2019-01-10 株式会社日立ソリューションズ 情報収集装置、情報収集方法、および情報収集プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679462B (zh) * 2012-08-31 2019-01-15 阿里巴巴集团控股有限公司 一种评论数据处理方法和装置、一种搜索方法和系统
CN105808685B (zh) * 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
CN107423356A (zh) * 2017-05-31 2017-12-01 北京京东尚科信息技术有限公司 评价信息的处理方法及装置、计算机可读介质、电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169797A (zh) * 2007-11-30 2008-04-30 朱廷劭 一种对搜索结果优化的方法
US20110004609A1 (en) * 2009-07-02 2011-01-06 International Business Machines, Corporation Generating search results based on user feedback
JP2019003406A (ja) * 2017-06-15 2019-01-10 株式会社日立ソリューションズ 情報収集装置、情報収集方法、および情報収集プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7394513B2 (ja) 2022-02-18 2023-12-08 Lineヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
TWI743504B (zh) 2021-10-21
TW202009740A (zh) 2020-03-01
JP2020030634A (ja) 2020-02-27

Similar Documents

Publication Publication Date Title
US8117211B2 (en) Information processing device and method, and program
US8812493B2 (en) Search results ranking using editing distance and document information
JP5241370B2 (ja) テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
JP4930153B2 (ja) 文書検索システム、文書番号部分列取得装置、および文書検索方法
AU2011239618B2 (en) Ascribing actionable attributes to data that describes a personal identity
KR101679050B1 (ko) 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
US9552415B2 (en) Category classification processing device and method
JP4973503B2 (ja) ファイル検索プログラム、方法及び装置
JP2012038066A (ja) データ処理装置及びデータ処理方法及びプログラム
WO2020039730A1 (ja) 検索装置、検索方法及び検索プログラム
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
CN111737397A (zh) 信息处理装置、文档管理系统、记录媒体及信息处理方法
KR101823463B1 (ko) 연구자 검색 서비스 제공 장치 및 그 방법
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP2011103020A (ja) 検索条件推薦装置、検索条件推薦方法および検索条件推薦プログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
US20090319505A1 (en) Techniques for extracting authorship dates of documents
US20090327276A1 (en) Organising and storing documents
US20190087655A1 (en) Drawing management apparatus and system
RU2409849C2 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
CN113590736B (zh) 索引管理方法、装置、电子设备和可读存储介质
WO2021171546A1 (ja) 文書検索装置、プログラム及び新規属性値追加方法
JP6015417B2 (ja) クラスタ処理方法、クラスタ処理装置およびプログラム
JP5854957B2 (ja) 情報処理装置および特徴語評価方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19851925

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19851925

Country of ref document: EP

Kind code of ref document: A1