WO2023188234A1 - 文書検索システム、文書検索方法および記録媒体 - Google Patents

文書検索システム、文書検索方法および記録媒体 Download PDF

Info

Publication number
WO2023188234A1
WO2023188234A1 PCT/JP2022/016401 JP2022016401W WO2023188234A1 WO 2023188234 A1 WO2023188234 A1 WO 2023188234A1 JP 2022016401 W JP2022016401 W JP 2022016401W WO 2023188234 A1 WO2023188234 A1 WO 2023188234A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
search
documents
similar
examination
Prior art date
Application number
PCT/JP2022/016401
Other languages
English (en)
French (fr)
Inventor
俊彦 藤井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/016401 priority Critical patent/WO2023188234A1/ja
Publication of WO2023188234A1 publication Critical patent/WO2023188234A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Definitions

  • the present invention relates to a document search system and the like.
  • examiners In stock listing examinations, examiners examine applications submitted by companies wishing to be listed, for example, based on examination criteria. Since there are many items to check during an examination, examiners must, for example, efficiently check everything without missing anything. Furthermore, during the examination, descriptions in other companies' applications that have been examined in the past may be referred to. For this reason, it is desirable to be able to efficiently extract the parts that the examiner wants to view from the application form for examination.
  • the text implication determination device of Patent Document 1 searches for similar texts using implication relationships.
  • Patent Document 1 may have difficulty appropriately searching for documents to be referred to in stock listing examinations.
  • the present invention aims to provide a document search system etc. that can easily obtain documents to be referred to in stock listing examinations.
  • the document retrieval system of the present invention includes an acquisition means for acquiring documents related to stock listing examination, and documents similar to the acquired documents based on the degree of similarity and implication relationship between the documents. , a search means for searching, and an output means for outputting the search results.
  • the document search method of the present invention acquires documents related to stock listing examinations, searches for documents similar to the acquired documents based on the degree of similarity between the documents and implication relationships, and outputs the search results.
  • the recording medium of the present invention includes a process of acquiring a document related to stock listing examination, a process of searching for a document similar to the acquired document based on the degree of similarity between the documents and an implication relationship, and a process of searching for a document similar to the acquired document based on the similarity between the documents and the implication relationship.
  • a document retrieval program that causes a computer to perform output processing is non-temporarily recorded.
  • FIG. 1 is a diagram showing an example of the configuration of a document search system according to an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention. It is a figure showing an example of a display screen in an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of an operation flow of a document search system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of an operation flow of a document search system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of an operation flow of a document search system according to an embodiment of the present invention.
  • FIG. 1 is a diagram showing an example of the configuration of a document search system 10 according to this embodiment.
  • the document search system 10 includes an acquisition section 11, a search section 12, and an output section 13 as basic components.
  • the document search system 10 also includes a generation section 14 and a storage section 15.
  • the document search system 10 is a system that searches for documents written in an application form for stock listing examination.
  • An application for stock listing examination is a document submitted to the market administrator by a company that wishes to list its shares on the stock market. Stocks may include bonds listed on a securities market.
  • An examiner appointed by a market administrator for example, examines the contents of an application for listing examination and determines whether the company in question should be listed on the stock market.
  • the acquisition unit 11, search unit 12, output unit 13, and storage unit 15 of the document search system 10 perform processing related to, for example, searching for documents written in an application form for stock listing examination. Furthermore, the generation unit 14 and the storage unit 15 perform processing related to generation of a search model for searching for documents written in an application form for stock listing examination, for example.
  • the document search system 10 searches the application form for the listing examination for a document similar to a document described in a document related to the stock listing examination.
  • Documents related to stock listing examination include, for example, examination standards and application forms to be examined.
  • the document search system 10 searches, for example, a document similar to a document described in the screening criteria for stock listing screening from the listing screening application form. Further, the examination standards may include an examination manual.
  • the document search system 10 searches for documents similar to the documents written in the listing examination application form from other listing examination application forms.
  • Other listing examination application forms are, for example, listing examination application forms for other companies that have applied for listing in the past.
  • the document search system 10 uses a search model to search for documents written in an application form for stock listing examination.
  • the search model is a learning model that, when searching for similar documents in listing examination, searches for documents similar to the search source document from documents written in the listing examination application form.
  • the search source document is, for example, a document listed in the screening criteria for listing screening.
  • the search source document is, for example, a document written in an application form for listing examination that is the subject of examination.
  • a document to be searched includes one or more sentences. Further, the document may be a portion of a sentence.
  • a user of the document search system 10 is, for example, an examiner who conducts stock listing examinations.
  • a document similar to a document related to a stock listing examination is, for example, a document that an examiner who conducts a stock listing examination refers to in the examination.
  • the document that the examiner refers to during the examination is the document that the examiner inspects when determining whether the contents of the application to be examined satisfy the examination criteria.
  • the user of the document search system 10 may be a higher-ranking examiner who confirms the examination results by the examiner. Users of the document search system 10 are not limited to those mentioned above.
  • the search source document is a document for which the user of the document search system 10 needs to search for similar documents.
  • the search source document is, for example, a document used as a search query. Similar documents may be documents with the same content.
  • the search model searches for documents similar to the search source document, for example, based on the degree of similarity between documents and the implication relationship. For example, the search model searches for documents similar to the search source document from the listing examination application that is the subject of examination or the listing examination applications of other companies that have been examined in the past. Furthermore, the search model may search for documents similar to the search source document from documents related to finance or IR.
  • a document related to finance or IR is, for example, a securities report or a financial statement.
  • the degree of similarity between documents is, for example, an index indicating the similarity of words included in each document between documents.
  • the implication relationship is, for example, a relationship that indicates whether two sentences have the same meaning.
  • the implication relationship is evaluated using, for example, a score indicating the degree to which sentences have the same meaning.
  • the search model may be generated outside the document search system 10. For example, the score indicating the implication relationship becomes higher as the meanings are the same.
  • the acquisition unit 11 acquires documents related to stock listing examination.
  • the acquisition unit 11 acquires a search source document, for example, when searching for a similar document from an application form for stock listing examination.
  • the search source document is, for example, a document that serves as a search query.
  • a search source document is input into the document search system 10 by, for example, an operation by an examiner conducting a listing examination.
  • the acquisition unit 11 may acquire the search source document as a list of multiple search source documents.
  • the acquisition unit 11 may acquire a change value of the score standard indicating the implication relationship.
  • the change value of the score standard may be input by operating a slider bar displayed on the display screen and indicating the standard value.
  • the acquisition unit 11 acquires a change value of a score standard indicating an implication relationship input by operating a slider bar on a display screen.
  • the search unit 12 searches for documents similar to the search source document acquired by the acquisition unit 11 based on the degree of similarity between documents and the implication relationship.
  • the search unit 12 uses, for example, a search model to search for a document similar to the search source document acquired by the acquisition unit 11.
  • the search model is a learning model that searches for documents similar to the input search source document from the search destination application form.
  • the application form to be searched is an application form to be examined in stock listing examination, or an application form for listing examination of another company that has been examined in the past.
  • the search model searches for documents similar to the search source document, for example, using the degree of similarity between documents and a score indicating an implication relationship.
  • the search model converts text data of documents into feature vectors, and uses the feature vectors to calculate similarities between documents and scores indicating implication relationships.
  • the search model searches for documents that contain words similar to the search source document by calculating the degree of similarity between documents. When searching for documents based on the degree of similarity between documents, documents containing similar words but opposite meanings may be included. For this reason, the search model makes it possible to extract documents having the same meaning from the documents searched based on the degree of similarity by further calculating a score indicating the implication relationship.
  • the search unit 12 may use the search model only for the process of calculating the score indicating the implication relationship, of the process of calculating the similarity between documents and the process of calculating the score indicating the implication relationship.
  • the search unit 12 narrows down the documents to be searched, for example, depending on the degree of matching of words included in the documents.
  • the search unit 12 calculates the degree of similarity between documents based on the frequency of appearance of matched words, for example. Then, the search unit 12 uses the search model to calculate a score indicating the implication relationship.
  • search unit 12 searches for similar documents from application forms to be examined in stock listing examinations, for example.
  • search unit 12 searches for similar documents from listing examination application forms that have been examined in the past, for example.
  • Application forms for listing examination usually have a prescribed format, and it is assumed that the chapters will be the same. Therefore, when searching for a document similar to the document described in the application to be examined from applications for stock listing examination that have been examined in the past, the search unit 12 You may narrow down the search range for similar documents according to the chapter structure. For example, the search unit 12 may search for similar documents using a specific chapter as the search range. Setting the range for searching for similar documents is not limited to chapters.
  • the search unit 12 searches for listing examination applications of companies whose attributes are similar to the examination target company. You may also search for similar documents. The content that should be focused on in listing examinations may be similar for companies with similar attributes. By setting the search unit 12 to search for applications for listing examinations of companies whose attributes are similar to those of the companies to be examined, it becomes possible to search for documents that are useful in examinations by examiners.
  • the attributes of a company are, for example, attributes that can affect the similarity of the contents of the application form for listing examination. For example, when it comes to descriptions of risk factors, the trends in the descriptions may differ depending on whether a company has been established for a short period of time or a company that has been in business for a long time.
  • the attributes of a company are, for example, at least one of capital, industry, number of years since establishment, location of head office, major market, and shareholder structure.
  • the output unit 13 outputs the search results of the search unit 12.
  • the output unit 13 outputs the search results to, for example, a display device (not shown) connected to the document search system 10.
  • the output unit 13 outputs the search results as tabular data that can be viewed using spreadsheet software, for example.
  • the output unit 13 may output the search results as display data that can be viewed using a browser, for example.
  • the format of output data by the output unit 13 is not limited to the above.
  • the output unit 13 outputs, as a search result, documents whose scores indicating an implication relationship satisfy a set criterion among documents similar to the search source document.
  • the output unit 13 outputs, for example, documents whose scores indicating an implication relationship are equal to or higher than a standard in descending order of similarity.
  • the criteria for the score indicating the implication relationship is set in advance so that, for example, a document whose meaning is opposite to that of the search source document is not output as a search result.
  • the output unit 13 may output documents similar to the search source document in descending order of similarity by associating them with scores indicating the implication relationships of the respective documents.
  • the output unit 13 may output documents similar to the search source document in the order in which they are listed in the application form. Furthermore, when a document similar to the search source document is retrieved from multiple listing examination application forms, the output unit 13 classifies and outputs the documents for each chapter described in the listing examination application form that is the search destination. It's okay.
  • the output unit 13 may add the company name of the application form that includes the searched document to the document to be output as the search result. Further, the output unit 13 may output the document to be outputted as a search result, with information about where the searched document is written in the application form added. For example, the output unit 13 outputs a document to be output as a search result, with the page number of the location where the searched document is written in the application form added.
  • the output unit 13 may add information on whether or not the document passed the listing examination to the document output as the search result. For example, the output unit 13 outputs a document to be output as a search result by adding information indicating whether the document is an application form of a company that has passed the listing examination or an application form of a company that has not passed the listing examination. do.
  • the output unit 13 outputs, for example, a display screen in which a field for inputting a search source document is set. Further, the output unit 13 may output an operation screen for changing the criteria for the score indicating the implication relationship. When a changed value of the score standard indicating the implication relationship is input, the output unit 13 outputs a search result based on the changed value of the score indicating the implication relationship, for example. Further, when the criterion for the score indicating the implication relationship is changed, the output unit 13 may change the output of the search result according to the input result of the changed value of the criterion for the score indicating the implication relationship.
  • the output unit 13 may output the search results using score criteria that indicate different connotative relationships depending on the user or situation of the search results. For example, the score indicating the implication relationship is set to be higher as the meanings of two documents are closer to each other. For example, when it is necessary to refer to many documents in the examination stage, the output unit 13 outputs the search results with the score standard indicating the implication relationship set low, for example. By setting a low score standard indicating an implication relationship, for example, documents similar to the search source document can be comprehensively detected.
  • the output unit 13 may display a document indicating the implication relationship.
  • the output unit 13 may output a display screen that displays a slider bar for changing the criteria for the score indicating the implication relationship. Further, when the criterion for the score indicating the implication relationship is changed by operating the slider bar, the output unit 13 outputs the search result based on the criterion for the score indicating the implication relationship corresponding to the changed position. . Further, the output unit 13 may change the standard of the score indicating the implication relationship according to the change in the position of the slider bar, and change the output of the search result. That is, the output unit 13 may change the output of the search results in real time according to changes in the position of the slider bar.
  • the output unit 13 may output display data that emphasizes search results with high scores indicating similarity or implication relationships.
  • the output unit 13 outputs, for example, display data that emphasizes search results whose scores indicating similarity or connotation satisfy the criteria.
  • the output unit 13 may output display data that highlights and displays search results with a preset number of scores indicating similarity or implication relationships, starting from the highest scores.
  • the output unit 13 may output the search results of documents similar to the search source document with data related to the company that submitted the listing examination application.
  • the data related to the company that submitted the application for listing examination is, for example, data related to the company that submitted the application to be examined.
  • the data related to a company that submitted an application for listing examination may be data related to a company that submitted an application for listing examination that was examined in the past.
  • the output unit 13 may output the search result with an application form for listing examination and financial index data of the submitted company added.
  • the data related to companies that have submitted applications for listing examination, which are output in addition to the search results are not limited to the above example.
  • FIG. 2 is a diagram showing an example of a display screen that displays an input field for inputting a search source document.
  • an input field for inputting a search source document is displayed as a search query.
  • a button for executing a search is displayed as "Search.”
  • the search unit 12 uses the search model to search for documents similar to the document input in the search query. Search for documents.
  • FIG. 3 is a diagram showing an example of a state in which a document is input in the input field for inputting a search source document in the example of the display screen of FIG. 2.
  • the display screen in Figure 3 in the input field displayed as a search query, there is a message that reads, ⁇ Our company operates a business similar to parent company A's group companies in business B. The area is different.'' is input.
  • the search unit 12 uses the search model to search for a document similar to the document input in the search query.
  • FIG. 4 is a diagram showing an example of a display screen that displays search results of documents similar to the search source document.
  • search results of documents similar to the document input in the search query field are displayed in the search result field.
  • documents similar to the document input in the search query are displayed in the search result column in descending order of similarity.
  • a score indicating an implication relationship is displayed as an implication score.
  • the number 1, ⁇ The company is in a situation where it could have an impact on decisions on management policies, etc.'' is similar in meaning to the search source document ⁇ The company is in a situation where it could have an impact.'' Therefore, the implication score is as high as 0.9.
  • No. 2 “We are in a situation where we can make independent management decisions,” has a low connotation score of 0.1 because it has the opposite meaning to “We are in a situation where we can have an impact” in the search source document. It shows.
  • FIG. 5 is a diagram illustrating an example of a display screen that displays search results of documents similar to the search source document when a score standard indicating an implication relationship is set.
  • the standard for the implication score is set as 0.5 or more in the example of the display screen in FIG.
  • search results whose implication score is less than the standard are excluded, so the number of documents displayed as search results is smaller than in the example of the display screen in FIG. 4.
  • FIG. 6 is an example of a display screen showing search results of documents similar to the search source document in a table format.
  • search queries, search results, and pages are displayed in a table format as search results.
  • a search query is a document used in a search and is a search target.
  • the search result is a search result corresponding to the search query.
  • the page is the entry page in the application form of the document displayed as a search result.
  • the output unit 13 may output a page in which the search results are described in the application form.
  • the output unit 13 outputs the part of the application form where the search results are written and the documents written before and after the part where the search results are written. Good too.
  • the phrases before and after the portion where the search results are written refer to, for example, the paragraph before and the paragraph after the paragraph where the document to be output as the search results is written.
  • FIG. 7 is an example of a display screen that displays the presentation of documents to be displayed as search results when displaying search results of documents similar to the search source document in a table format.
  • the search query, the search result, and the application name are displayed in a table format as the search results.
  • the searched document indicates which application form the document displayed as a search result is retrieved from.
  • the output unit 13 may output the portion of the application form in which the search result document is written, in which the search result is written.
  • the output unit 13 outputs the part of the application form where the search results are written, and the documents written before and after the part where the search results are written. It's okay.
  • FIG. 8 is an example of a display screen that further shows information as to whether the application form that includes the document in the search result has passed the examination in the example of the display screen shown in FIG. 7.
  • the search query, search result, application name, and examination result are displayed in a table format as the search results.
  • the examination result is information as to whether the application form containing the document of the search result has passed the examination.
  • "pass" in the examination result column of Company X's application indicates, for example, that the application has passed the examination.
  • "rejected" in the examination result column of Company Y's application indicates, for example, that the application did not pass the examination.
  • FIG. 9 shows an example in which a button for selecting a search range is displayed on a display screen for inputting a search source document.
  • buttons for "Application Form" and "Past Cases" for selecting the search range are displayed.
  • the search unit 12 searches, for example, from the documents listed in the application form to be reviewed. , to search for documents that correspond to a search query.
  • the search unit 12 searches for documents that have been examined in the past, for example. Search for documents corresponding to a search query from document data.
  • similar documents searched by the search unit 12 are displayed in the search results column.
  • FIG. 10 shows an example of the display screen shown in FIG. 9 in which a slider bar for changing the criteria for the score indicating the implication relationship is displayed.
  • a slider bar for changing the score standard indicating the implication relationship is displayed as the implication score standard.
  • the output unit 13 outputs the search results according to the criteria after the settings have been changed.
  • the output unit 13 may change the output of the search results in response to changes in the criteria. That is, when the operator changes the criteria by operating the slider bar, the output unit 13 may change the output of the search results in real time using the criteria according to the position of the slider bar.
  • the search range is selected using a button, but by selecting or inputting the folder in which the search destination file is saved, A search range may be set. Furthermore, when setting the search range, files to be searched may be filtered using wildcards. The method of setting the search range is not limited to the above.
  • the generation unit 14 When generating a search model in the document search system 10, the generation unit 14 generates a search model for searching for similar documents based on similarity and implication relationships. For example, the generation unit 14 performs a search to search for a document similar to the search source document from the listing examination application form based on a score indicating the degree of similarity and implication relationship between the search source document and the search destination document. Generate the model.
  • the generation unit 14 generates a search model by, for example, machine learning using a natural language processing learning algorithm that can estimate implication relationships.
  • the generation unit 14 generates a search model using, for example, BERT (Bidirectional Encoder Representations from Transformers).
  • the learning algorithm used to generate the search model is not limited to BERT.
  • the generation unit 14 stores the generated search model in the storage unit 15, for example.
  • the storage unit 15 stores, for example, search models and data of application forms for listing examinations that have been examined in the past.
  • the storage unit 15 may store data of an application form for listing examination, which is the subject of examination.
  • the storage unit 15 may store the data related to the company in the application form.
  • the search model may be stored in a storage means other than the storage unit 15. Further, data of application forms for listing examinations that have been examined in the past may be stored in a storage means other than the storage unit 15.
  • FIG. 11 is a diagram illustrating an example of an operation flow when the document search system 10 searches for similar documents from listing examination applications.
  • the acquisition unit 11 acquires a document related to stock listing examination as a search source document (step S11).
  • the search unit 12 After acquiring the search source document, the search unit 12 uses the search model to search for a document similar to the acquired search source document (step S12).
  • the search model searches for documents similar to the document acquired by the acquisition unit 11 based on the degree of similarity between documents and the implication relationship.
  • the search unit 12 searches for similar documents from the application form for listing examination stored in the storage unit 15, for example.
  • the listing examination application form stored in the storage unit 15 is, for example, an application form for a listing examination conducted in the past.
  • search unit 12 searches for similar documents from the listing examination application form to be examined.
  • the search unit 12 After searching for a document similar to the search source document, the search unit 12 outputs the search results (step S13).
  • the search unit 12 outputs the search results to, for example, a display device (not shown).
  • FIG. 12 is a diagram illustrating an example of the operation flow when the document search system 10 searches for similar documents from the application form for listing examination and the criteria for the score indicating the implication relationship is changed.
  • the acquisition unit 11 acquires a document to be searched for similar documents as a search source document (step S21).
  • the search unit 12 After acquiring the search source document, the search unit 12 uses the search model to search for a document similar to the acquired search source document (step S22).
  • the search unit 12 After searching for a document similar to the search source document, the search unit 12 outputs an input screen for inputting the search results and a change value of the score standard indicating the implication relationship (step S23).
  • the search unit 12 outputs, for example, to a display device (not shown), an input screen for inputting a change value of the score standard indicating the search result and the implication relationship.
  • step S24 When the input screen for changing the score standard indicating the search result and the implication relationship is input, if the change value for the score standard indicating the implication relationship is input (Yes in step S24), the process returns to step S22 and outputs.
  • the unit 13 outputs search results according to a score criterion indicating the changed implication relationship.
  • FIG. 13 is a diagram illustrating an example of an operational flow when the document search system 10 generates a search model.
  • the acquisition unit 11 acquires an application form for stock listing examination as learning data used to generate a search model (step S31).
  • the acquisition unit 11 acquires, for example, application forms for multiple listing examinations conducted in the past as learning data used to generate a search model.
  • the generation unit 14 After acquiring the learning data, the generation unit 14 generates a search model using the learning data (step S32).
  • the search model is a learning model that searches for documents similar to a document obtained as a search source document based on the degree of similarity between documents and the implication relationship.
  • the generation unit 14 After generating the search model, the generation unit 14 saves the generated search model (step S33).
  • the generation unit 14 stores the generated search model in the storage unit 15, for example.
  • the document search system 10 When searching for documents similar to a search source document from an application form for stock listing examination, the document search system 10 searches for documents similar to the search source document based on the degree of similarity and implication relationship between the documents. Search based on.
  • the document search system 10 can easily obtain documents to be referred to in stock listing examinations by searching for documents using the similarity between documents and implication relationships in application forms for stock listing examinations.
  • the criteria for the score indicating the implication relationship can be changed, it becomes possible to set the criteria according to the status of the examination, for example. For example, in the initial stage of examination, if it is desired to refer to a wide range of documents similar to the search source document even if the meanings are different, the standard for the score indicating the implication relationship is set low. On the other hand, for example, in the final stage of examination, if it is desired to refer to only documents that have the same meaning as documents similar to the search source document, the standard for the score indicating the implication relationship is set high. By setting a score standard that indicates an implication relationship in this way, the document search system 10 can perform an appropriate search depending on the status of stock listing examination, for example. As a result, documents to be referred to in stock listing examinations can be obtained more efficiently.
  • Each process in the document search system 10 can be executed by executing a computer program on a computer. Further, a user who searches for documents in the document search system 10 may operate the document search system 10 via a terminal device.
  • FIG. 14 shows an example of the configuration of a computer 100 that executes a computer program that performs each process in the document search system 10.
  • the computer 100 includes a CPU (Central Processing Unit) 101, a memory 102, a storage device 103, an input/output I/F (Interface) 104, and a communication I/F 105.
  • CPU Central Processing Unit
  • the CPU 101 reads computer programs for performing each process from the storage device 103 and executes them.
  • the CPU 101 may be configured by a combination of multiple CPUs.
  • the memory 102 is configured with a DRAM (Dynamic Random Access Memory) or the like, and temporarily stores computer programs executed by the CPU 101 and data being processed.
  • the storage device 103 stores computer programs executed by the CPU 101.
  • the storage device 103 is configured by, for example, a nonvolatile semiconductor storage device. Other storage devices such as a hard disk drive may be used as the storage device 103.
  • the input/output I/F 104 is an interface that receives input from a worker and outputs display data and the like.
  • the communication I/F 105 is an interface for transmitting and receiving data with other information processing devices.
  • the computer program used to execute each process can also be stored and distributed in a computer-readable recording medium that non-temporarily records data.
  • a computer-readable recording medium for example, a magnetic tape for data recording or a magnetic disk such as a hard disk can be used.
  • an optical disc such as a CD-ROM (Compact Disc Read Only Memory) can also be used.
  • a nonvolatile semiconductor memory device may be used as the recording medium.
  • the output means outputs, as a result of the search, a document whose score indicating an implication relationship satisfies a criterion among documents similar to the obtained document; Document search system described in Appendix 2.
  • the acquisition means acquires a changed value of the standard, The output means outputs a document whose score satisfies the changed criterion among documents similar to the acquired document; Document search system described in Appendix 3.
  • the acquisition means acquires a change value of the standard input by operating a slider bar, The output means outputs, among documents similar to the acquired document, documents whose scores satisfy the changed criteria according to a change in the criteria; Document search system described in Appendix 4.
  • the search means searches for documents similar to the acquired document from past listing examination applications; The document retrieval system described in either appendix 1 or 5.
  • the search means searches for a document similar to the acquired document from listing examination applications of companies whose attributes are similar to the examination target company.
  • the output means outputs the search results with information on whether or not the listing examination has been passed.
  • the output means outputs the result of the search with at least one of the company name of the application form that includes the searched document and the place where the searched document is written in the application form.
  • the document search system according to any one of appendices 6 to 8.
  • the search means searches for a document similar to a document in which standards for listing examination are described, from the application form to be subject to listing examination.
  • the document search system according to any one of Supplementary Notes 1 to 9.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書検索システムは、取得部と、検索部と、出力部を備える。取得部は、株式の上場審査に関する文書を取得する。検索部は、取得した文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する。出力部は、検索の結果を出力する。

Description

文書検索システム、文書検索方法および記録媒体
 本発明は、文書検索システム等に関する。
 株式の上場審査では、審査官が、例えば、審査基準に基づいて、上場を希望する企業が提出する申請書を審査する。審査では確認する項目が多いことから、例えば、審査官は、漏れなく効率的に確認を行う必要がある。また、審査では、過去に審査が行われた他社の申請書の記載を参照することもあり得る。このため、審査官が閲覧したい箇所を、審査の申請書から効率的に抽出できることが望ましい。
 特許文献1のテキスト含意判定装置は、含意関係を用いて類似するテキストを検索する。
国際公開第2013/058118号
 特許文献1のテキスト含意判定装置は、株式の上場審査において参照する文書を適切に検索することが難しい場合がある。
 上記の課題を解決するため、本発明は、株式の上場審査において参照する文書を容易に得ることができる文書検索システム等を提供することを目的とする。
 上記の課題を解決するため、本発明の文書検索システムは、株式の上場審査に関する文書を取得する取得手段と、取得した文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する検索手段と、検索の結果を出力する出力手段を備える。
 本発明の文書検索方法は、株式の上場審査に関する文書を取得し、取得した文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索し、検索の結果を出力する。
 本発明の記録媒体は、株式の上場審査に関する文書を取得する処理と、取得した文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する処理と、検索の結果を出力する処理とをコンピュータに実行させる文書検索プログラムを非一時的に記録する。
 本発明によると、株式の上場審査において参照する文書を容易に得ることができる。
本発明の実施形態における文書検索システムの構成の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における表示画面の例を示す図である。 本発明の実施形態における文書検索システムの動作フローの例を示す図である。 本発明の実施形態における文書検索システムの動作フローの例を示す図である。 本発明の実施形態における文書検索システムの動作フローの例を示す図である。 本発明の他の実施形態の構成の例を示す図である。
 本発明の実施形態について、図を参照して詳細に説明する。図1は、本実施形態の文書検索システム10の構成の例を示す図である。文書検索システム10は、基本構成として、取得部11と、検索部12と、出力部13を備える。また、文書検索システム10は、生成部14と、記憶部15を備える。
 文書検索システム10は、株式の上場審査の申請書に記載された文書を検索するシステムである。株式の上場審査の申請書は、株式市場への株式の上場を希望する企業が市場の管理者に提出する書類である。株式には、証券市場に上場される債券が含まれていてもよい。市場の管理者によって選任された審査官は、例えば、上場審査の申請書の内容を審査して、当該企業の株式市場への上場の可否を決定する。
 文書検索システム10の取得部11と、検索部12と、出力部13と、記憶部15は、例えば、株式の上場審査の申請書に記載された文書の検索に関する処理を行う。また、生成部14と、記憶部15は、例えば、株式の上場審査の申請書に記載された文書を検索する検索モデルの生成に関する処理を行う。
 文書検索システム10は、例えば、株式の上場審査において、株式の上場審査に関する文書に記載された文書に類似する文書を上場審査の申請書から検索する。株式の上場審査に関する文書は、例えば、審査基準および審査対象の申請書である。
 文書検索システム10は、例えば、株式の上場審査の審査基準に記載された文書に類似する文書を上場審査の申請書から検索する。また、審査基準には、審査マニュアルが含まれていてもよい。
 文書検索システム10は、上場審査の申請書に記載された文書に類似する文書を、他の上場審査の申請書から検索する。他の上場審査の申請書は、例えば、過去に上場の申請が行われた他社の上場審査の申請書である。
 文書検索システム10は、検索モデルを用いて、株式の上場審査の申請書に記載された文書を検索する。検索モデルは、上場審査において類似する文書を検索する際に、検索元の文書に類似する文書を、上場審査の申請書に記載された文書から検索する学習モデルである。株式の上場審査の審査基準に記載された文書に類似する文書を検索する場合に、検索元の文書は、例えば、上場審査の審査基準に記載された文書である。また、上場審査の申請書に記載された文書に類似する文書を検索する場合に、検索元の文書は、例えば、審査対象となっている上場審査の申請書に記載された文書である。検索の対象となる文書は、1つ以上の文章を含む。また、文書は、文章の一部分でもよい。
 文書検索システム10の利用者は、例えば、株式の上場審査を行う審査官である。株式の上場審査に関する文書に類似する文書は、例えば、株式の上場審査を行う審査官が審査において参照する文書である。審査官が審査において参照する文書は、審査対象の申請書の記載内容が審査基準を満たしているかを判断する際に、審査官が閲覧する文書である。文書検索システム10の利用者は、審査官による審査結果を確認する上位の審査官でもよい。文書検索システム10の利用者は、上記に限られない。
 検索元の文書は、文書検索システム10の利用者が、類似する文書の検索を必要とする文書である。検索元の文書は、例えば、検索クエリとして用いられる文書である。類似する文書は、内容が同一の文書であってもよい。検索モデルは、例えば、文書間の類似度と、含意関係とを基に、検索元の文書に類似する文書を検索する。検索モデルは、例えば、検索元の文書に類似する文書を、審査対象になっている上場審査の申請書、または過去に審査が行われた他の企業の上場審査の申請書から検索する。また、検索モデルは、検索元の文書に類似する文書を、財務またはIRに関する文書から検索してもよい。財務またはIRに関する文書は、例えば、有価証券報告書または決算短信である。検索モデルが検索元の文書に類似する文書を検索する際、検索先の文書は、上記に限られない。
 文書間の類似度は、例えば、それぞれの文書に含まれる単語の文書間における類似性を示す指標である。含意関係は、例えば、2つの文章が存在した場合に、相互に同じ意味を有する文章として成り立つかを示す関係である。含意関係は、例えば、相互に同じ意味を有する文章として成り立つ度合いを示すスコアを用いて評価される。検索モデルは、文書検索システム10の外部で生成されたものであってもよい。含意関係を示すスコアは、例えば、相互に同じ意味を有するほど高い値になる。
 続いて、文書検索システム10の構成の詳細について説明する。
 取得部11は、株式の上場審査に関する文書を取得する。取得部11は、例えば、株式の上場審査の申請書から類似する文書を検索する際に、検索元の文書を取得する。検索元の文書は、例えば、検索クエリとなる文書である。検索元の文書は、例えば、上場審査を行う審査官の操作によって、文書検索システム10に入力される。取得部11は、検索元の文書を複数の検索元の文書の一覧として取得してもよい。
 取得部11は、含意関係を示すスコアの基準の変更値を取得してもよい。スコアの基準の変更値は、表示画面上に表示された、基準の値を示すスライダーバーの操作によって入力されてもよい。取得部11は、表示画面上のスライダーバーの操作によって入力される含意関係を示すスコアの基準の変更値を取得する。
 検索部12は、取得部11が取得した検索元の文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する。検索部12は、例えば、検索モデルを用いて、取得部11が取得した検索元の文書に類似する文書を検索する。検索モデルは、入力された検索元の文書に類似する文書を、検索先の申請書から検索する学習モデルである。検索先の申請書は、株式の上場審査において審査の対象の申請書、または、過去に審査が行われた他の企業の上場審査の申請書である。検索モデルは、例えば、文書間の類似度と、含意関係を示すスコアを用いて、検索元の文書に類似する文書を検索する。検索モデルは、文書のテキストデータを特徴ベクトルに変換し、特徴ベクトルを用いて文書間の類似度と、含意関係を示すスコアを算出する。検索モデルは、文書間の類似度を算出することで、含まれている単語が、検索元の文書に類似している文書を検索する。文書間の類似度を基に文書を検索した場合には、含まれる単語は類似しているが、意味が反対の文書が含まれ得る。このため、検索モデルは、含意関係を示すスコアをさらに算出することで、類似度を基に検索した文書から同じ意味を有する文書を抽出することを可能にする。
 検索部12は、文書間の類似度を算出する処理と、含意関係を示すスコアを算出する処理のうち、含意関係を示すスコアを算出する処理にのみ検索モデルを用いてもよい。検索部12は、例えば、文書に含まれる単語の一致の度合いに応じて、検索対象の文書を絞り込む。検索部12は、例えば、一致した単語の出現頻度によって文書間の類似度を算出する。そして、検索部12は、検索モデルを用いて、含意関係を示すスコアを算出する。
 検索元の文書が審査基準に記載された文書の場合に、検索部12は、例えば、株式の上場審査における審査対象の申請書から類似している文書を検索する。
 検索元の文書が上場審査の申請書に記載された文書の場合に、検索部12は、例えば、過去に審査が行われた上場審査の申請書から類似している文書を検索する。
 上場審査の申請書は、通常、形式が定められており、章立てが同じであることが想定される。このため、過去に審査が行われた株式の上場審査の申請書から、審査対象の申請書に記載された文書に類似している文書を検索する場合に、検索部12は、当該申請書の章立てに沿って、類似する文書を検索する範囲を絞って検索してもよい。例えば、検索部12は、特定の章を検索範囲として類似する文書を検索してもよい。類似する文書を検索する範囲の設定は、章に限られない。
 過去に審査が行われた上場審査の申請書から類似している文書を検索する場合に、検索部12は、審査対象の企業と属性が類似している企業の上場審査の申請書を検索範囲として類似する文書を検索してもよい。上場審査において重点的に審査すべき内容は、似た属性の企業において似る場合がある。検索部12が、審査対象の企業と属性が類似している企業の上場審査の申請書を検索範囲とすることで、審査官による審査において有用な文書が検索できるようになる。
 企業の属性は、例えば、上場審査の申請書の記載内容の類似性に影響を与え得る属性である。例えば、リスク要因に関する記載では、設立からの期間が短い企業と、長期に事業を行っている企業とで、記載内容の傾向が変わり得る。企業の属性は、例えば、資本金、業種、設立からの経過年数、本社所在地、主要な市場および株主構成のうち少なくとも1つである。 取得部11が検索元の文書を複数の検索元の文書の一覧として取得する場合に、検索部12は、例えば、複数の検索元の文書それぞれについて、類似する文書を検索する。
 出力部13は、検索部12の検索結果を出力する。出力部13は、例えば、文書検索システム10と接続されている、図示しない表示装置に、検索結果を出力する。出力部13は、例えば、表計算用のソフトウェアを用いることで閲覧可能な表形式のデータとして、検索結果を出力する。出力部13は、例えばブラウザを用いることで閲覧可能な表示データとして検索結果を出力してもよい。出力部13による出力データの形式は、上記に限られない。
 出力部13は、例えば、検索結果として、検索元の文書に類似する文書のうち、含意関係を示すスコアが、設定された基準を満たす文書を出力する。出力部13は、例えば、含意関係を示すスコアが基準以上の文書を、類似度が高い順に出力する。含意関係を示すスコアの基準は、例えば、検索元の文書と意味が反対の文書が検索結果として出力されないようにあらかじめ設定される。また、出力部13は、検索元の文書に類似する文書を、それぞれの文書の含意関係を示すスコアと関連づけて類似度が高い順に出力してもよい。また、出力部13は、検索元の文書に類似する文書を、申請書において記載されている順に出力してもよい。また、出力部13は、検索元の文書に類似する文書を複数の上場審査の申請書から検索した場合に、検索先の上場審査の申請書において記載されている章ごとに分類して出力してもよい。
 出力部13は、検索結果として出力する文書に、検索された文書が含まれる申請書の企業名を付加して出力してもよい。また、出力部13は、検索結果として出力する文書に、検索された文書の申請書における記載個所の情報を付加して出力してもよい。出力部13は、例えば、検索結果として出力する文書に、検索された文書の申請書における記載個所のページ番号を付加して出力する。
 検索先が過去の株式の上場審査の申請書の場合に、出力部13は、検索結果として出力する文書に、上場審査の通過の有無の情報を付加して出力してもよい。出力部13は、例えば、検索結果として出力する文書に、上場審査を通過した企業の申請書の記載か、上場審査を通過していない企業の申請書の記載かを示す情報を付加して出力する。
 出力部13は、例えば、検索元の文書を入力する欄が設定された表示画面を出力する。また、出力部13は、含意関係を示すスコアの基準を変更するための操作画面を出力してもよい。含意関係を示すスコアの基準の変更値が入力された場合に、出力部13は、例えば、含意関係を示すスコアの変更値を基に検索結果を出力する。また、含意関係を示すスコアの基準が変更された場合に、出力部13は、含意関係を示すスコアの基準の変更値の入力結果に応じて、検索結果の出力を変化させてもよい。
 出力部13は、検索結果の利用者または状況に応じて異なる含意関係を示すスコアの基準を用いて検索結果を出力してもよい。含意関係を示すスコアは、例えば、2つの文書間において、相互に意味が近いほど高くなるように設定される。例えば、審査段階において多くの文書を参照する必要がある場合、出力部13は、例えば、含意関係を示すスコアの基準が低く設定された状態で検索結果を出力する。含意関係を示すスコアの基準を低く設定することで、例えば、検索元の文書に類似した文書が網羅的に検出される。一方で、審査結果を確認する上位審査官が検索結果を利用する際に、検索対象の文書と意味が近い限られた文書を参照すればよい場合には、出力部13は、含意関係を示すスコアの基準が高く設定された状態で検索結果を出力する。含意関係を示すスコアの基準を高く設定することで、例えば、検索結果として出力される文書は、検索元の文書に類似した文書のうち、文書間の意味が近い文書に絞られる。
 出力部13は、含意関係を示すスコアの基準を変更するスライダーバーを表示する表示画面を出力してもよい。また、スライダーバーの操作によって、含意関係を示すスコアの基準が変更された場合に、出力部13は、変更後の位置に対応する含意関係を示すスコアの基準を基に、検索結果を出力する。また、出力部13は、スライダーバーの位置の変化に応じて含意関係を示すスコアの基準を変更し、検索結果の出力を変化させてもよい。すなわち、出力部13は、スライダーバーの位置の変化に応じて、リアルタイムに検索結果の出力を変化させてもよい。
 出力部13は、類似度または含意関係を示すスコアが高い検索結果を強調する表示データを出力してもよい。出力部13は、例えば、類似度または含意関係を示すスコアが基準を満たす検索結果を強調する表示データを出力する。また、出力部13は、例えば、類似度または含意関係を示すスコアが上位からあらかじめ設定された数までの検索結果を強調して表示する表示データを出力してもよい。
 出力部13は、検索元の文書に類似する文書の検索結果に、上場審査の申請書を提出した企業に関連するデータを付加して出力してもよい。検索元の文書が審査対象の申請書である場合、上場審査の申請書を提出した企業に関連するデータは、例えば、審査対象の申請書を提出した企業に関するデータである。上場審査の申請書を提出した企業に関連するデータは、過去に審査が行われた上場審査の申請書を提出した企業に関するデータでよい。出力部13は、例えば、検索元の文書が財務に関する文書である場合に、検索結果に、上場審査の申請書と提出した企業の財務指標のデータを付加して出力してもよい。検索結果に付加して出力する、上場審査の申請書を提出した企業に関連するデータは、上記の例に限られない。
 図2は、検索元の文書を入力する入力欄を表示する表示画面の例を示す図である。図2の表示画面の例では、検索元の文書を入力する入力欄が検索クエリとして表示されている。また、図2の表示画面の例では、検索を実行するボタンが「検索」として表示されている。図2の表示画面の例において、検索クエリに検索元の文書が入力され、「検索」ボタンが押されると、検索部12は、検索モデルを用いて、検索クエリに入力される文書に類似する文書を検索する。
 図3は、図2の表示画面の例において、検索元の文書を入力する入力欄に、文書が入力された状態の例を示す図である。図3の表示画面の例では、検索クエリとして表示されている入力欄に、「当社は、B事業において、親会社Aのグループ企業と類似した事業を営んでおります。しかしながら、Cの点で事業領域が異なっております。」が入力されている。図3の例に示す状態において、「検索」ボタンが押されると、検索部12は、検索モデルを用いて、検索クエリに入力される文書に類似する文書を検索する。
 図4は、検索元の文書に類似する文書の検索結果を表示する表示画面の例を示す図である。図4の表示画面の例では、検索クエリの欄に入力された文書に類似する文書の検索結果が検索結果の欄に表示されている。図4の表示画面の例では、検索結果の欄に、検索クエリに入力された文書に類似する文書が、類似度が高い順に表示されている。また、図4の表示画面の例では、含意関係を示すスコアが含意スコアとして表示されている。
 図4の表示画面の例において、1番の「当社の経営方針の決定などについて、影響を及ぼし得る状況にあります」は、検索元の文書の「影響を及ぼし得る状況にあります」と意味が近いため、含意スコアが0.9と高い値を示している。一方で、2番の「独自の経営判断が行える状況にあります」は、検索元の文書の「影響を及ぼし得る状況にあります」と反対の意味のため、含意スコアが0.1と低い値を示している。
 図5は、含意関係を示すスコアの基準が設定されている場合における、検索元の文書に類似する文書の検索結果を表示する表示画面の例を示す図である。図5の表示画面の例は、図4の表示画面の例において、含意スコアの基準が0.5以上として設定されている。図5の表示画面の例では、含意スコアが基準未満の検索結果が除外されているため、図4の表示画面の例よりも、検索結果として表示される文書の数が少なくなっている。
 図6は、検索元の文書に類似する文書の検索結果を表形式で示す表示画面の例である。図6の表示画面の例では、検索結果として、検索クエリと、検索結果と、ページとが表形式で表示されている。検索クエリは、検索に用いられた検索の対象となる文書である。検索結果は、検索クエリに対応する検索結果である。ページは、検索結果として表示される文書の申請書における記載ページである。また、ページの部分がクリックされた場合に、出力部13は、申請書において検索結果が記載されているページを出力してもよい。また、ページの部分がクリックされた場合に、出力部13は、申請書において検索結果が記載されている部分と、検索結果が記載されている部分の前後に記載された文書とを出力してもよい。検索結果が記載されている部分の前後とは、例えば、検索結果として出力する文書が記載されている段落よりも1つ前の段落と、1つ後の段落のことである。
 図7は、検索元の文書に類似する文書の検索結果を表形式で示す際に、検索結果として表示する文書の出展を表示する表示画面の例である。図7の表示画面の例では、検索結果として、検索クエリと、検索結果と、申請書名とが表形式で表示されている。検索文書は、検索結果として表示される文書がどの申請書から検索された文書であるかを示す。また、記載文書の申請書名の部分がクリックされた場合に、出力部13は、検索結果の文書が記載されている申請書のうち、検索結果が記載されている部分を出力してもよい。また、申請書名の部分がクリックされた場合に、出力部13は、申請書において検索結果が記載されている部分と、検索結果が記載されている部分の前後に記載された文書とを出力してもよい。
 図8は、図7の表示画面の例において、検索結果の文書が含まれる申請書が、審査を通過した申請書であるかの情報をさらに示す表示画面の例である。図8の表示画面の例では、検索結果として、検索クエリと、検索結果と、申請書名と、審査結果とが表形式で表示されている。審査結果は、検索結果の文書が含まれる申請書が、審査を通過した申請書であるかの情報である。図8の表示画面の例において、X社の申請書の審査結果の欄の「通過」は、例えば、審査に通過した申請書であることを示す。また、図8の表示画面の例において、Y社の申請書の審査結果の欄の「却下」は、例えば、審査を通過しなかった申請書であることを示す。
 図9は、検索元の文書を入力する表示画面において、検索範囲を選択するボタンが表示されている例を示す。図9の表示画面の例では、検索範囲を選択する「申請書」と、「過去事例」のボタンが表示されている。検索クエリに検索元の文書が入力され、「申請書」のボタンが選択された状態で「検索」ボタンが押されると、検索部12は、例えば、審査対象の申請書に記載された文書から、検索クエリに対応する文書を検索する。また、検索クエリに検索する対象の文書が入力され、「過去事例」のボタンが選択された状態で「検索」ボタンが押されると、検索部12は、例えば、過去に審査が行われた申請書のデータから、検索クエリに対応する文書を検索する。図9の表示画面の例において、検索部12が検索した類似する文書は、検索結果の欄に表示される。
 図10は、図9に示す表示画面の例において、含意関係を示すスコアの基準を変更するスライダーバーが表示されている例を示す。図10の表示画面の例では、図9と同様の項目に加え、含意関係を示すスコアの基準を変更するスライダーバーが含意スコア基準として表示されている。例えば、作業者がスライダーバーのスライダーの位置を変化させると、変化後のスライダーの位置に応じて含意関係を示すスコアの基準が設定される。出力部13は、設定の変更後の基準に応じて、検索結果の出力を行う。出力部13は、基準の変更に応じて、検索結果の出力を変化せてもよい。すなわち、出力部13は、作業者がスライダーバーを操作して基準を変更した場合に、スライダーバーの位置に応じた基準を用いて、リアルタイムに検索結果の出力を変化せてもよい。
 また、図9および図10に示す表示画面の例では、検索範囲がボタンを用いて選択されているが、検索先のファイルが保存されているフォルダを選択または入力することで、検索部12による検索範囲が設定されてもよい。また、検索範囲を設定する際に、ワイルドカードを用いて検索対象のファイルをフィルタリングできるようにしてもよい。検索範囲の設定方法は、上記に限られない。
 文書検索システム10において検索モデルを生成する場合に、生成部14は、類似度と含意関係に基づき、類似する文書を検索する検索モデルを生成する。生成部14は、例えば、検索元の文書と、検索先の文書との間の類似度と含意関係を示すスコアに基づき、検索元の文書に類似する文書を上場審査の申請書から検索する検索モデルを生成する。
 生成部14は、例えば、含意関係を推定可能な自然言語処理の学習アルゴリズムを用いた機械学習によって検索モデルを生成する。生成部14は、例えば、BERT(Bidirectional Encoder Representations from Transformers)を用いて検索モデルを生成する。検索モデルの生成に用いる学習アルゴリズムは、BERTに限られない。生成部14は、例えば、記憶部15に、生成した検索モデルを保存する。
 記憶部15は、例えば、検索モデルと、過去に審査が行われた上場審査の申請書のデータを保存する。記憶部15は、審査の対象となる、上場審査の申請書のデータを保存してもよい。検索結果に申請書の企業に関連するデータが付加される場合に、記憶部15は、申請書の企業に関連するデータを保存してもよい。
 検索モデルは、記憶部15以外の記憶手段に保存されてもよい。また、過去に審査が行われた上場審査の申請書のデータは、記憶部15以外の記憶手段に保存されてもよい。
 文書検索システム10が、株式の上場審査の申請書から類似する文書を検索する際の動作について説明する。図11は、文書検索システム10が、上場審査の申請書から類似する文書を検索する際の動作フローの例を示す図である。
 株式の上場審査の申請書から類似する文書を検索する際に、取得部11は、株式の上場審査に関する文書を検索元の文書として取得する(ステップS11)。
 検索元の文書を取得すると、検索部12は、検索モデルを用いて、取得した検索元の文書に類似する文書を検索する(ステップS12)。検索モデルは、取得部11が取得した文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する。
 検索元の文書が審査対象の申請書に記載された文書である場合、検索部12は、例えば、記憶部15に保存されている上場審査の申請書から類似している文書を検索する。記憶部15に保存されている上場審査の申請書は、例えば、過去に行われた上場審査における申請書である。
 検索元の文書が審査基準に記載された文書である場合、検索部12は、審査対象の上場審査の申請書から類似している文書を検索する。
 検索元の文書に類似している文書を検索すると、検索部12は、検索の結果を出力する(ステップS13)。検索部12は、例えば、図示しない表示装置に、検索の結果を出力する。
 文書検索システム10が、株式の上場審査の申請書から類似する文書を検索する際に、含意関係を示すスコアの基準の変更が行われる場合の動作について説明する。図12は、文書検索システム10が上場審査の申請書から類似する文書を検索する際に、含意関係を示すスコアの基準の変更が行われる場合の動作フローの例を示す図である。
 取得部11は、株式の上場審査の申請書から類似する文書を検索する際に、類似する文書を検索する対象の文書を検索元の文書として取得する(ステップS21)。
 検索元の文書を取得すると、検索部12は、検索モデルを用いて、取得した検索元の文書に類似する文書を検索する(ステップS22)。
 検索元の文書に類似している文書を検索すると、検索部12は、検索の結果と、含意関係を示すスコアの基準の変更値を入力する入力画面を出力する(ステップS23)。検索部12は、例えば、図示しない表示装置に、検索結果と含意関係を示すスコアの基準の変更値の入力画面を出力する。
 検索結果と含意関係を示すスコアの基準の変更値の入力画面を出力した際に、含意関係を示すスコアの基準の変更値が入力された場合(ステップS24でYes)、ステップS22に戻り、出力部13は、変更後の含意関係を示すスコアの基準に応じた検索結果を出力する。
 検索結果と含意関係を示すスコアの基準の変更値の入力画面を出力した際に、含意関係を示すスコアの基準の変更値が入力されない場合(ステップS24でNo)、文書検索システム10は、文書を検索する動作を終了し、次に検索元の文書が入力されるまで待機する。
 文書検索システム10において検索モデルを生成する場合に、文書検索システム10が検索モデルを生成する際の動作について説明する。図13は、文書検索システム10が検索モデルを生成する際の動作フローの例を示す図である。
 取得部11は、検索モデルの生成に用いる学習データとして、株式の上場審査の申請書を取得する(ステップS31)。取得部11は、例えば、検索モデルの生成に用いる学習データとして、過去に行われた複数の上場審査の申請書を取得する。
 学習データを取得すると、生成部14は、学習データを用いて、検索モデルを生成する(ステップS32)。検索モデルは、検索元の文書として取得した文書に類似する文書を、文書間の類似度と、含意関係とに基づき検索する学習モデルである。
 検索モデルを生成すると、生成部14は、生成した検索モデルを保存する(ステップS33)。生成部14は、例えば、記憶部15に、生成した検索モデルを保存する。
 文書検索システム10は、株式の上場審査の申請書から、検索元の文書に類似する文書を検索する際に、検索元の文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する。文書検索システム10は、株式の上場審査の申請書において、文書間の類似度と、含意関係を用いて文書を検索することで、株式の上場審査において参照する文書を容易に得ることができる。
 また、含意関係を示すスコアの基準を変更可能な場合に、例えば、審査の状況に応じた基準の設定が可能になる。例えば、審査の初期段階に、検索元の文書に類似する文書を、意味が異なっても幅広く参照したい場合には、含意関係を示すスコアの基準は、低く設定される。一方で、例えば、審査の最終段階で、検索元の文書に類似する文書と意味が同一の文書のみを参照したい場合には、含意関係を示すスコアの基準は、高く設定される。このように含意関係を示すスコアの基準を設定することで、例えば、文書検索システム10は、株式の上場審査の状況に応じて適切な検索を行うことができる。この結果、株式の上場審査において参照する文書をより効率的に得ることができる。
 文書検索システム10における各処理は、コンピュータプログラムをコンピュータで実行することによって実行することができる。また、文書検索システム10において文書検索を行う利用者は、端末装置を介して、文書検索システム10を操作してもよい。
 図14は、文書検索システム10における各処理を行うコンピュータプログラムを実行するコンピュータ100の構成の例を示したものである。コンピュータ100は、CPU(Central Processing Unit)101と、メモリ102と、記憶装置103と、入出力I/F(Interface)104と、通信I/F105を備える。
 CPU101は、記憶装置103から各処理を行うコンピュータプログラムを読み出して実行する。CPU101は、複数のCPUの組み合わせによって構成されていてもよい。メモリ102は、DRAM(Dynamic Random Access Memory)等によって構成され、CPU101が実行するコンピュータプログラムや処理中のデータが一時記憶される。記憶装置103は、CPU101が実行するコンピュータプログラムを記憶している。記憶装置103は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置103には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。入出力I/F104は、作業者からの入力の受付および表示データ等の出力を行うインタフェースである。通信I/F105は、他の情報処理装置との間でデータの送受信を行うインタフェースである。
 各処理の実行に用いられるコンピュータプログラムは、データを非一時的に記録するコンピュータ読み取り可能な記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、CD-ROM(Compact Disc Read Only Memory)等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
[付記1]
 株式の上場審査に関する文書を取得する取得手段と、
 取得した前記文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する検索手段と、
 前記検索の結果を出力する出力手段と
 を備える文書検索システム。
[付記2]
 前記出力手段は、前記検索の結果として、取得した前記文書に類似する文書を、含意関係を示すスコアに基づいて出力する、
 付記1に記載の文書検索システム。
[付記3]
 前記出力手段は、前記検索の結果として、取得した前記文書に類似する文書のうち、含意関係を示すスコアが基準を満たす文書を出力する、
 付記2に記載の文書検索システム。
[付記4]
 前記取得手段は、前記基準の変更値を取得し、
 前記出力手段は、取得した前記文書に類似する文書のうち、前記スコアが変更後の前記基準を満たす文書を出力する、
 付記3に記載の文書検索システム。
[付記5]
 前記取得手段は、スライダーバーの操作によって入力される前記基準の変更値を取得し、
 前記出力手段は、取得した前記文書に類似する文書のうち、前記スコアが変更後の前記基準を満たす文書を、前記基準の変化に応じて出力する、
 付記4に記載の文書検索システム。
[付記6]
 前記検索手段は、取得した前記文書に類似する文書を、過去の上場審査の申請書から検索する、
 付記1か5いずれかに記載の文書検索システム。
[付記7]
 前記検索手段は、取得した前記文書に類似する文書を、審査対象の企業に属性が類似している企業の上場審査の申請書から検索する、
 付記6に記載の文書検索システム。
[付記8]
 前記出力手段は、前記検索の結果に、上場審査の通過の有無の情報を付加して出力する、
 付記6または7に記載の文書検索システム。
[付記9]
 前記出力手段は、前記検索の結果に、検索された文書が含まれる申請書の企業名と、検索された文書の申請書における記載個所の少なくとも一方を付加して出力する、
 付記6から8いずれかに記載の文書検索システム。
[付記10]
 前記検索手段は、上場審査の基準が記載された文書に類似する文書を、上場審査の対象の申請書から検索する、
 付記1から9いずれかに記載の文書検索システム。
[付記11]
 株式の上場審査に関する文書を取得し、
 取得した前記文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索し、
 前記検索の結果を出力する、
 文書検索方法。
[付記12]
 株式の上場審査に関する文書を取得する処理と、
 取得した前記文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する処理と、
 前記検索の結果を出力する処理と
 をコンピュータに実行させる文書検索プログラムを非一時的に記録する記録媒体。
 以上、上述した実施形態を例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 10  文書検索システム
 11  取得部
 12  検索部
 13  出力部
 14  生成部
 15  記憶部
 100  コンピュータ
 101  CPU
 102  メモリ
 103  記憶装置
 104  入出力I/F
 105  通信I/F

Claims (12)

  1.  株式の上場審査に関する文書を取得する取得手段と、
     取得した前記文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する検索手段と、
     前記検索の結果を出力する出力手段と
     を備える文書検索システム。
  2.  前記出力手段は、前記検索の結果として、取得した前記文書に類似する文書を、含意関係を示すスコアに基づいて出力する、
     請求項1に記載の文書検索システム。
  3.  前記出力手段は、前記検索の結果として、取得した前記文書に類似する文書のうち、含意関係を示すスコアが基準を満たす文書を出力する、
     請求項2に記載の文書検索システム。
  4.  前記取得手段は、前記基準の変更値を取得し、
     前記出力手段は、取得した前記文書に類似する文書のうち、前記スコアが変更後の前記基準を満たす文書を出力する、
     請求項3に記載の文書検索システム。
  5.  前記取得手段は、スライダーバーの操作によって入力される前記基準の変更値を取得し、
     前記出力手段は、取得した前記文書に類似する文書のうち、前記スコアが変更後の前記基準を満たす文書を、前記基準の変化に応じて出力する、
     請求項4に記載の文書検索システム。
  6.  前記検索手段は、取得した前記文書に類似する文書を、過去の上場審査の申請書から検索する、
     請求項1か5いずれかに記載の文書検索システム。
  7.  前記検索手段は、取得した前記文書に類似する文書を、審査対象の企業に属性が類似している企業の上場審査の申請書から検索する、
     請求項6に記載の文書検索システム。
  8.  前記出力手段は、前記検索の結果に、上場審査の通過の有無の情報を付加して出力する、
     請求項6または7に記載の文書検索システム。
  9.  前記出力手段は、前記検索の結果に、検索された文書が含まれる申請書の企業名と、検索された文書の申請書における記載個所の少なくとも一方を付加して出力する、
     請求項6から8いずれかに記載の文書検索システム。
  10.  前記検索手段は、上場審査の基準が記載された文書に類似する文書を、上場審査の対象の申請書から検索する、
     請求項1から9いずれかに記載の文書検索システム。
  11.  株式の上場審査に関する文書を取得し、
     取得した前記文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索し、
     前記検索の結果を出力する、
     文書検索方法。
  12.  株式の上場審査に関する文書を取得する処理と、
     取得した前記文書に類似する文書を、文書間の類似度と、含意関係とに基づき、検索する処理と、
     前記検索の結果を出力する処理と
     をコンピュータに実行させる文書検索プログラムを非一時的に記録する記録媒体。
PCT/JP2022/016401 2022-03-31 2022-03-31 文書検索システム、文書検索方法および記録媒体 WO2023188234A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/016401 WO2023188234A1 (ja) 2022-03-31 2022-03-31 文書検索システム、文書検索方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/016401 WO2023188234A1 (ja) 2022-03-31 2022-03-31 文書検索システム、文書検索方法および記録媒体

Publications (1)

Publication Number Publication Date
WO2023188234A1 true WO2023188234A1 (ja) 2023-10-05

Family

ID=88199884

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/016401 WO2023188234A1 (ja) 2022-03-31 2022-03-31 文書検索システム、文書検索方法および記録媒体

Country Status (1)

Country Link
WO (1) WO2023188234A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047069A (ja) * 2018-09-20 2020-03-26 株式会社日立製作所 情報処理システム、情報処理システムを制御する方法及びプログラム
JP2021068376A (ja) * 2019-10-28 2021-04-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047069A (ja) * 2018-09-20 2020-03-26 株式会社日立製作所 情報処理システム、情報処理システムを制御する方法及びプログラム
JP2021068376A (ja) * 2019-10-28 2021-04-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANAKA, HITOMI; MINESHIMA, KOJI; MARTÍNEZ-GÓMEZ, PASCUAL; BEKKI, DAISUKE: "Learning Semantic Textual Relatedness using Natural Deduction Proofs", JOURNAL OF NATURAL LANGUAGE PROCESSING, ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, JAPAN, vol. 25, no. 3, 15 June 2018 (2018-06-15), JAPAN , pages 295 - 324, XP009549960, ISSN: 1340-7619, DOI: 10.5715/jnlp.25.295 *

Similar Documents

Publication Publication Date Title
DK176532B1 (da) Fremgangsmåde til integration af dokumenter med OLAP ved brug af sögning, computerlæsbart medium og computer
US20060155687A1 (en) Portable database search agent processing system
JP5315368B2 (ja) 文書処理装置
JP2000029902A (ja) 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
JP2005063332A (ja) 情報体系対応付け装置および対応付け方法。
JP4185500B2 (ja) 文書検索システム、文書検索方法及びプログラム
JP5552582B2 (ja) コンテンツ検索装置
JPH0484271A (ja) 文書内情報検索装置
Pojanapunya et al. The influence of the benchmark corpus on keyword analysis
Carter-Templeton et al. A bibliometric analysis of review types published in the nursing scientific literature
JP2007183796A (ja) 企業評価値算出システム
WO2023188234A1 (ja) 文書検索システム、文書検索方法および記録媒体
KR20230057114A (ko) 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치
JPWO2009020092A1 (ja) 関連情報検索システム及び関連情報検索方法
JP2019200449A (ja) 案件振分支援システム、案件振分支援装置、及び案件振分支援方法
JP7282014B2 (ja) ワークショップ支援システム及びワークショップ支援方法
JP4699909B2 (ja) キーワード対応関係分析装置及び分析方法
Dyduch Methods of measurement of CSR disclosure level in corporate reporting
KR100862587B1 (ko) 엑스엠엘 문서 유사도 측정 장치 및 그 방법
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
JP7416665B2 (ja) 対話システム、及び対話システムの制御方法
JP3711710B2 (ja) 情報検索収集システムおよび情報検索収集プログラムを記憶した記憶媒体
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
KR101078966B1 (ko) 문서 분석 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935379

Country of ref document: EP

Kind code of ref document: A1