WO2024084365A1 - 文書検索方法、文書検索システム - Google Patents

文書検索方法、文書検索システム Download PDF

Info

Publication number
WO2024084365A1
WO2024084365A1 PCT/IB2023/060394 IB2023060394W WO2024084365A1 WO 2024084365 A1 WO2024084365 A1 WO 2024084365A1 IB 2023060394 W IB2023060394 W IB 2023060394W WO 2024084365 A1 WO2024084365 A1 WO 2024084365A1
Authority
WO
WIPO (PCT)
Prior art keywords
document data
document
tag
search query
words
Prior art date
Application number
PCT/IB2023/060394
Other languages
English (en)
French (fr)
Inventor
桃純平
高瀬奈津子
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Publication of WO2024084365A1 publication Critical patent/WO2024084365A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • One aspect of the present invention relates to a document search system.
  • One aspect of the present invention relates to a document search method.
  • One aspect of the present invention relates to a method for outputting document search results.
  • One aspect of the present invention relates to a method for displaying document search results.
  • one embodiment of the present invention is not limited to the above technical field.
  • Examples of technical fields of one embodiment of the present invention include semiconductor devices, display devices, light-emitting devices, power storage devices, memory devices, electronic devices, lighting devices, input devices (e.g., touch sensors), input/output devices (e.g., touch panels), driving methods thereof, or manufacturing methods thereof.
  • Patent-related work includes prior art searches, patent rights, and invalid document searches.
  • a prior art search on an invention before filing an application it is possible to confirm whether related intellectual property rights exist.
  • domestic and international patent documents and papers obtained from a prior art search can be used to confirm the novelty and inventive step of an invention, as well as to determine whether to apply for a patent.
  • an invalid document search on patent documents it is possible to confirm whether there is a risk that one's own patent rights will be invalidated, or whether it is possible to invalidate patent rights owned by others.
  • Patent Document 1 discloses patent document search technology that combines keyword search and similarity search.
  • One aspect of the present invention has the objective of providing a document search system, a document search method, or a method for outputting document search results that is intuitive and allows users to perform efficient searches.
  • One aspect of the present invention has the objective of providing a document search system, a document search method, or a method for outputting document search results that is easy for users to operate.
  • One aspect of the present invention has the objective of providing a document search system, a document search method, or a method for outputting document search results that allows users to efficiently obtain the information they need.
  • One aspect of the present invention is a document search method having a first step of accepting a plurality of document data, a second step of accepting a search query, a third step of evaluating each of the plurality of document data based on the search query, a fourth step of outputting an evaluation result for at least a portion of the plurality of document data, a fifth step of accepting a classification for at least a portion of the plurality of document data, a sixth step of inferring importance for each of a plurality of tags from the classification, a seventh step of outputting importance for at least a portion of the plurality of tags, an eighth step of accepting at least one of the tags whose importance has been output in the seventh step, and a ninth step of searching for documents using the tag accepted in the eighth step.
  • each of the multiple document data is assigned at least one tag
  • the search query includes at least one tag
  • the method further includes a step between the first step and the third step of generating a feature vector for each of the multiple document data using the tag assigned to the document data, and a step between the second step and the third step of vectorizing the search query using the tag included in the search query, and in the third step, it is preferable to calculate the similarity between the feature vector and the vectorized search query for each of the multiple document data.
  • the sixth step of the document search method it is preferable to train a classifier using the classification and the feature vector as training data, and to calculate the importance of each of the multiple tags from the classifier.
  • the search query includes at least one word
  • the method further includes a step between the first step and the third step of generating a first feature vector for each of the multiple document data using the words extracted from the document data, and a step between the second step and the third step of vectorizing the search query using the words included in the search query, and in the third step, it is preferable to calculate the similarity between the first feature vector and the vectorized search query for each of the multiple document data.
  • each of the multiple document data is assigned at least one tag
  • a classifier is trained using the classification and the second feature vector as training data, an importance of each of the multiple tags is calculated from the classifier, and the second feature vector of the document data is preferably generated using the tag assigned to the document data.
  • the inference performed in the sixth step further calculates a judgment probability for the document data
  • the seventh step further outputs the judgment probability for the document data.
  • Another aspect of the present invention is a document search method having a first step of accepting a plurality of document data, a second step of accepting a search query, a third step of evaluating each of the plurality of document data based on the search query, a fourth step of outputting an evaluation result for at least a portion of the plurality of document data, a fifth step of accepting a classification for at least a portion of the plurality of document data, a sixth step of inferring importance for each of a plurality of words from the classification, a seventh step of outputting importance for at least a portion of the plurality of words, an eighth step of accepting at least one of the words whose importance has been output in the seventh step, and a ninth step of searching for documents using the word accepted in the eighth step.
  • the search query contains at least one word, and that between the first step and the third step, there is further a step of extracting words from the document data for each of the multiple document data, and in the third step, a similarity between the words extracted in the above step and the words included in the search query is calculated for each of the multiple document data.
  • the sixth step it is preferable to train a classifier using the classification and the words extracted in the above steps as training data, and to calculate the word importance for each of the multiple words from the classifier.
  • each of the multiple document data is assigned at least one tag
  • the search query includes at least one tag
  • the method further includes a step between the first step and the third step of generating a first feature vector for each of the multiple document data using the tag assigned to the document data, and a step between the second step and the third step of vectorizing the search query using the tag included in the search query, and in the third step, it is preferable to calculate the similarity between the first feature vector and the vectorized search query for each of the multiple document data.
  • a classifier is trained using the classification and the second feature vector as training data, the importance of each of the multiple words is calculated from the classifier, and the second feature vector contained in the document data is generated using words extracted from the document data.
  • the inference performed in the sixth step further calculates a judgment probability for the document data
  • the seventh step further outputs the judgment probability for the document data.
  • Another aspect of the present invention is a document search system having a reception unit, a processing unit, and an output unit, the reception unit having a function of receiving a search query, document data, a classification, and a tag, the processing unit having a function of evaluating the document data based on the search query and a function of inferring the importance of the tag from the classification, and the output unit having a function of outputting the evaluation result for the document data and a function of outputting the importance of the tag.
  • the document data is assigned at least one tag
  • the document data has a feature vector generated using the tag assigned to the document data
  • the processing unit further has a function of vectorizing the search query and a function of calculating the similarity between the vectorized search query and the feature vector.
  • the system further includes a memory unit in which a classifier is stored, and the processing unit has a function of training the classifier using the classification and the feature vector as training data, and a function of calculating the importance of tags from the classifier.
  • One aspect of the present invention can provide a document search system, a document search method, or a method for outputting document search results that allows users to perform searches that are intuitive and efficient.
  • One aspect of the present invention can provide a document search system, a document search method, or a method for outputting document search results that is easy for users to operate.
  • One aspect of the present invention can provide a document search system, a document search method, or a method for outputting document search results that allows users to efficiently obtain the information they need.
  • FIG. 1 is a diagram showing an example of a document search system.
  • FIG. 2 is a diagram showing an example of a document search method.
  • 3A to 3D are diagrams illustrating an example of a document search method.
  • 4A and 4B are diagrams illustrating an example of a document search method.
  • FIG. 5 is a diagram showing an example of a document search method.
  • 6A and 6B are diagrams illustrating an example of a document search method.
  • FIG. 7 is a diagram showing an example of a document search method.
  • FIG. 8 is a diagram showing an example of a document search method.
  • FIG. 9 is a diagram showing an example of a document search method.
  • 10A and 10B are diagrams illustrating an example of a document search method.
  • FIG. 11 is a diagram showing an example of a graphic user interface.
  • FIG. 12 is a diagram showing an example of a graphic user interface.
  • FIG. 13 is a diagram showing an example of a graphic user interface.
  • FIG. 14 is a diagram showing an example of a graphic user interface.
  • FIG. 15 is a diagram illustrating an example of a document search system.
  • FIG. 16 is a diagram illustrating an example of a document search system.
  • ordinal numbers such as “first,” “second,” and “third” used in this specification are used to avoid confusion of components and do not limit the numbers.
  • the first row is not limited to the first row
  • the first column is not limited to the first column.
  • a document is a description of an event in natural language, contains one or more sentences, is digitized and machine-readable.
  • Examples of documents include, but are not limited to, patent applications, books, magazines, newspapers, papers, court decisions, contracts, terms and conditions, regulations, product manuals, novels, publications, white papers, technical documents, and business documents.
  • patent applications are sometimes referred to as patent documents.
  • a search query is an expression of a concept that a user wants to find in some form, and here refers to various search conditions that a user inputs when searching.
  • search conditions include one or more words, one or more phrases, or one or more sentences.
  • examples include a search formula created with at least one of one or more words, one or more phrases, and one or more sentences and a logical operator.
  • Logical operators are also called Boolean operators, and examples include, but are not limited to, AND, OR, and NOT. When these logical operators are used, the search formula becomes an AND search, an OR search, or a NOT search.
  • natural language may be accepted as a search query, and words extracted by language processing may be used as search keywords, or sentence vectors may be created using distributed representations.
  • a collection of data organized in a model of rows and columns is called a table or tabular format. Therefore, as long as a collection of data is organized in a model of rows and columns (vertical and horizontal axes), it can be called a table or tabular format, regardless of whether it has lines or not.
  • a document search system searches for documents to which tags have been added.
  • the document search system creates a collection of document data, calculates the importance of tags based on classification of the collection of document data, and performs document search using the tags.
  • the collection of document data is created based on a search query.
  • the collection of document data is also created based on the results of evaluation performed based on the search query.
  • the user of the document search system inputs the search query, performs the classification, and selects tags to be used in document search.
  • the user can perform an intuitive and efficient search.
  • the document search system first accepts a plurality of document data. Then, a search query is accepted. Next, an evaluation is performed on each of the plurality of document data based on the search query. One example of the evaluation is the calculation of the similarity between the search query and the document data. Then, an evaluation result for at least a portion of the plurality of document data is output. Note that at least a portion of the plurality of document data corresponds to the set of document data described above.
  • the output can be performed, for example, by displaying it on a display screen (sometimes simply referred to as a screen in this specification and the like) of a terminal used by the user.
  • a display screen (sometimes simply referred to as a screen in this specification and the like) of a terminal used by the user.
  • the display screen is not particularly limited as long as it is a display device, and may be, for example, a multi-display, which will be described later.
  • a user of the document search system classifies at least a portion of the multiple document data.
  • the user can classify the document data while referring to the output evaluation results.
  • the document search system accepts the classification. It then infers the importance of the tag from the accepted classification. It then outputs the importance of the tag.
  • the user selects at least one of the tags for which the importance of the tag has been output.
  • the user can select a tag while referring to the importance of the tag that has been output.
  • the document search system accepts the selected tags. Then, the accepted tags are used to search for documents.
  • the document search system of one embodiment of the present invention can present tags that are preferably used in search queries for document searches. Therefore, users can easily understand tags that are preferably used in search queries for document searches, and can search for documents efficiently.
  • the document search system can also search for documents that are not tagged.
  • the document search system creates a collection of document data, calculates the importance of words based on classification of the collection of document data, and performs document search using the words.
  • the collection of document data is created based on a search query.
  • the user of the document search system inputs the search query, performs the classification, and selects words to be used in the document search.
  • the user can perform an intuitive and efficient search.
  • the document search system infers the importance of the words from the accepted classification. It then outputs the importance of the words.
  • the user selects at least one of the words for which the importance of the word has been output.
  • the user can select a word while referring to the importance of the word that has been output.
  • the document search system accepts the selected words. Then, the accepted words are used to search for documents.
  • the document search system of one embodiment of the present invention can present words that are preferable to use in a search query for a document search. Therefore, a user can easily understand words that are preferable to use in a search query for a document search, and can search for documents efficiently.
  • the use of the document search system of this embodiment is not particularly limited, and one example is patent document research.
  • ⁇ Document Search System 1> 1 shows a block diagram of a document retrieval system 100.
  • the document retrieval system 100 includes a receiving unit 110, a storage unit 120, a processing unit 130, an output unit 140, and a transmission path 150.
  • the document search system 100 may be provided in an information processing device such as a personal computer used by a user.
  • the processing unit of the document search system 100 may be provided in a server, and the system may be accessed and used from a client PC via a network.
  • the receiving unit 110 receives document data.
  • the number of document data received by the receiving unit 110 may be one or more.
  • the document data accepted by the reception unit 110 is not particularly limited, and various types of document data can be accepted.
  • Document data is a document that has been digitized and is machine-readable. Examples of documents include patent application documents, books, magazines, newspapers, papers, court decisions, contracts, terms and conditions, collections of regulations, product manuals, novels, publications, white papers, technical documents, and business documents. Patent application documents include at least one of a specification, claims, and abstract.
  • information about the document data is attached to the document data.
  • the information about the document data may include the application management number (including any number specified by the user), application family management number, application number, publication number, registration number, drawings, application date, priority date, publication date, status, classification (patent classification, utility model classification, etc.), category, and keywords (including any word or phrase specified by the user).
  • the document data can be identified by using one or more of these pieces of information. Thus, this information can be used as an item for identifying the document data. Alternatively, this information may be output together with the evaluation results described below.
  • Patent classifications include CPC, IPC, FI, and F-terms.
  • Patent classifications are made up of multiple classification codes.
  • information that is assigned according to the contents of a document such as patent classifications, is collectively called a classification.
  • Individual pieces of information that are assigned according to the contents of a document are called tags.
  • tags include codes made up of alphanumeric characters and other symbols, and keywords (including any words or phrases specified by the user).
  • information about the document data may include a number for identifying the document, a title, a date such as the publication date, an author, and a publisher.
  • the document data can be specified by using one or more of these pieces of information.
  • this information can be used as an item for identifying the document data.
  • each of these pieces of information may be output together with the evaluation results described below.
  • a classification is assigned to the document data received by the reception unit 110.
  • the reception unit 110 has a function for accepting tags.
  • the classification assigned to the document data may be referred to as a first classification.
  • the tag attached to the document data received by the reception unit 110 may be a code or a keyword.
  • the keyword may be, for example, a word or phrase included in the document data, or a word or phrase not included in the document data.
  • the keyword may be any word or phrase specified by the user as a word or phrase not included in the document data.
  • the document data received by the reception unit 110 does not need to be classified. In this case, it is preferable that the reception unit 110 has a function for receiving words.
  • the document data accepted by the accepting unit 110 may also have a feature vector.
  • the document data may have one feature vector, two feature vectors, or three or more feature vectors.
  • the feature vector held by the document data is generated using at least one piece of information relating to the document data. For example, if at least one tag is attached to the document data, it is preferable that the feature vector held by the document data is generated using the tag attached to the document data. It is also preferable that the feature vector held by the document data is generated using words extracted from the document data.
  • the document data accepted by the accepting unit 110 does not need to have a feature vector.
  • the reception unit 110 receives search queries.
  • the number of search queries received by the reception unit 110 may be one or more.
  • the search query received by the reception unit 110 is one or more words, one or more phrases, or one or more sentences, or a combination of these. Or, it includes one or more tags.
  • the reception unit 110 receives the classification.
  • the classification received by the reception unit 110 may be referred to as the second classification.
  • the reception unit 110 may have a function of transmitting and receiving data.
  • the reception unit 110 can be referred to as a communication unit.
  • Examples of the communication unit include a hub, a router, and a modem.
  • the reception unit 110 may also have a function of receiving input operations from the user.
  • the reception unit 110 can be referred to as an input unit.
  • Examples of the input unit include a mouse, a keyboard, a touch panel, a microphone, a scanner, and a camera.
  • the search query, document data, and other data supplied to the reception unit 110 are supplied to one or both of the storage unit 120 and the processing unit 130 via the transmission path 150.
  • the storage unit 120 has a function of storing a program executed by the processing unit 130.
  • the storage unit 120 may also have a function of storing data generated by the processing unit 130 (e.g., a calculation result, an inference result), data input to the receiving unit 110, and the like.
  • a classifier is stored in the memory unit 120.
  • the classifier include a neural network, a decision tree, a lasso regression, and a random forest.
  • the classifier is used for the learning and inference performed by the processing unit 130.
  • the classifier may also be used for the evaluation performed by the processing unit 130.
  • the memory unit 120 has at least one of a volatile memory and a non-volatile memory.
  • volatile memory include DRAM (Dynamic Random Access Memory) and SRAM (Static Random Access Memory).
  • non-volatile memory include ReRAM (Resistive Random Access Memory, also called resistive memory), PRAM (Phase change Random Access Memory), FeRAM (Ferroelectric Random Access Memory), MRAM (Magnetoresistive Random Access Memory, also called magnetoresistive memory), and flash memory.
  • the storage unit 120 may also have a recording media drive. Examples of the recording media drive include a hard disk drive (HDD) and a solid state drive (SSD).
  • HDD hard disk drive
  • SSD solid state drive
  • the storage unit 120 may have a database containing document data.
  • the document search system 100 may also have a function to extract (read) document data (specifically, data required for subsequent processing) from a database that exists outside the system.
  • the document search system 100 may have a function to extract data from a database that exists outside the system.
  • the document search system 100 may also have the ability to extract data from both its own database and an external database.
  • the database can be configured to contain, for example, text data and/or image data.
  • a database instead of a database, one or both of a storage and a file server may be used.
  • a storage and a file server may be used.
  • the database when using files stored in a file server, it is preferable that the database has paths to files stored in the file server.
  • an example of a database is an application database.
  • applications include applications related to intellectual property, such as patent applications, utility model registration applications, and design registration applications. There are no limitations on the status of each application, and it does not matter whether it is published, pending at the Patent Office, or registered.
  • an application database can have at least one of pre-examination applications, applications under examination, and registered applications, or it may have all of them.
  • the application database preferably has at least one of the specifications, abstracts, and claims for multiple patent applications.
  • the specifications, abstracts, and claims are stored, for example, as text data.
  • the database can manage various types of documents, such as books, magazines, newspapers, papers, court decisions, contracts, terms and conditions, regulations, product manuals, novels, publications, white papers, technical documents, and business documents.
  • the database holds at least document data.
  • the processing unit 130 has a function of performing processing such as calculation and inference using data supplied from one or both of the receiving unit 110 and the storage unit 120.
  • the processing unit 130 can supply the generated data (e.g., calculation result, inference result) to one or both of the storage unit 120 and the output unit 140.
  • the processing unit 130 has a function of evaluating document data based on a search query.
  • the processing unit 130 has a function of evaluating document data supplied to the reception unit 110 based on a search query supplied to the reception unit 110.
  • the processing unit 130 has a function of vectorizing the search query supplied to the reception unit 110. Furthermore, it is preferable that the processing unit 130 has a function of calculating the similarity between the vectorized search query and a feature vector that the document data has. Thereby, when the document data supplied to the reception unit 110 has a feature vector, it is possible to evaluate the document data by calculating the similarity between the vectorized search query and the feature vector.
  • the processing unit 130 has a function of generating a feature vector of the document data using at least one piece of information related to the document data. For example, if at least one tag is attached to the document data, it is preferable that the processing unit 130 has a function of generating a feature vector using the tag attached to the document data. Further, it is preferable that the processing unit 130 has a function of generating a feature vector using words extracted from the document data. Thereby, in a case where the document data supplied to the receiving unit 110 does not have a feature vector, it is possible to generate a feature vector of the document data using at least one piece of information related to the document data. By generating a feature vector, it is possible to evaluate the document data.
  • the processing unit 130 has a function of extracting words related to the document data.
  • the processing unit 130 has a function of performing one or both of morphological analysis and compound word analysis. This makes it possible to extract words from one or more sentences included in the document data. Furthermore, it is possible to extract words from one or more sentences included in at least one of the related information of the document data.
  • a word related to document data may refer to a word extracted from one or more sentences included in the document data, or a word extracted from one or more sentences included in at least one of the pieces of related information of the document data.
  • the processing unit 130 has a function of inferring the importance of a tag from the second classification.
  • the processing unit 130 has a function of inferring the importance of a tag included in the document data supplied to the reception unit 110 from the second classification supplied to the reception unit 110.
  • the processing unit 130 has a function of training a classifier supplied from the storage unit 120 using the second classification and feature vector supplied to the reception unit 110 as training data, and a function of calculating the importance of the tag from the classifier.
  • the feature vector is a feature vector contained in the document data, or a feature vector generated by the processing unit 130 using information related to the document data.
  • the processing unit 130 may also have a function of inferring the importance of words from the second classification.
  • the processing unit 130 has a function of inferring the importance of words included in the document data supplied to the reception unit 110 from the second classification supplied to the reception unit 110.
  • the processing unit 130 has a function of training a classifier supplied from the storage unit 120 using the second classification and feature vector supplied to the reception unit 110 as training data, and a function of calculating the importance of words from the classifier.
  • the words for which the importance is calculated are words included in the document data, or words extracted from the document data by the processing unit 130.
  • the processing unit 130 may also have a function of inferring a judgment probability for the document data from the second classification.
  • the processing unit 130 has a function of inferring a judgment probability for the document data supplied to the reception unit 110 from the second classification supplied to the reception unit 110.
  • the processing unit 130 has a function of training a classifier supplied from the storage unit 120 using the second classification and feature vector supplied to the reception unit 110 as training data, and a function of calculating a judgment probability for the document data from the classifier.
  • the feature vector used to calculate the similarity also called the first feature vector
  • the feature vector used to train the classifier also called the second feature vector
  • the processing unit 130 has a function for performing searches.
  • the processing unit 130 has a function for performing searches using a search expression created by combining tags, words, or phrases with logical operators.
  • the processing unit 130 may have, for example, an arithmetic circuit.
  • the processing unit 130 may have, for example, a central processing unit (CPU: Central Processing Unit).
  • the processing unit 130 may have a microprocessor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit).
  • the microprocessor may be realized by a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or an FPAA (Field Programmable Analog Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • FPAA Field Programmable Analog Array
  • the processing unit 130 may have a main memory.
  • the main memory has at least one of a volatile memory such as a RAM (Random Access Memory) and a non-volatile memory such as a ROM (Read Only Memory).
  • a volatile memory such as a RAM (Random Access Memory)
  • a non-volatile memory such as a ROM (Read Only Memory).
  • RAM for example, DRAM, SRAM, etc.
  • a virtual memory space is allocated and used as a working space for the processing unit 130.
  • the operating system, application programs, program modules, program data, lookup tables, etc. stored in the storage unit 120 are loaded into the RAM for execution. These data, programs, and program modules loaded into the RAM are each directly accessed and operated by the processing unit 130.
  • ROM can store BIOS (Basic Input/Output System) and firmware that do not require rewriting.
  • BIOS Basic Input/Output System
  • Examples of ROM include mask ROM, OTPROM (One Time Programmable Read Only Memory), and EPROM (Erasable Programmable Read Only Memory).
  • Examples of EPROM include UV-EPROM (Ultra-Violet Erasable Programmable Read Only Memory), which allows stored data to be erased by exposure to ultraviolet light, EEPROM (Electrically Erasable Programmable Read Only Memory), and flash memory.
  • the document search system uses artificial intelligence (AI) for at least some of its processing.
  • AI artificial intelligence
  • ANN artificial neural network
  • a neural network is realized by a circuit (hardware) or a program (software).
  • a neural network refers to a general model that mimics the neural circuit network of a living organism, determines the strength of connections between neurons through learning, and has problem-solving capabilities.
  • a neural network has an input layer, an intermediate layer (hidden layer), and an output layer.
  • connection strengths also called weighting coefficients
  • the output unit 140 outputs information based on the processing result of the processing unit 130. For example, data (e.g., calculation results, inference results) generated by the processing unit 130 can be supplied to the outside of the document search system 100.
  • the output unit 140 can output information to a terminal or display used by a user.
  • the output unit 140 has a function of outputting the evaluation results for the document data.
  • the output unit 140 also has a function of outputting the evaluation results for the document data together with information about the document data.
  • the output unit 140 outputs the evaluation results for the document data acquired by the processing unit 130 in a table format together with information about the document data.
  • the evaluation results output by the output unit 140 are not limited to a table format, and may be, for example, a tree format (tree structure).
  • the output unit 140 has a function of outputting the importance of a tag.
  • the output unit 140 also has a function of outputting the importance of a tag together with the tag.
  • the output unit 140 has a function of outputting a tag and the importance of the tag.
  • the output unit 140 outputs the importance of a tag calculated by the processing unit 130 together with the tag in a table format.
  • the results output by the output unit 140 are not limited to a table format, and may be, for example, a tree format (tree structure).
  • the output unit 140 has a function of outputting the judgment probability for the document data.
  • the output unit 140 also has a function of outputting the judgment probability for the document data together with information about the document data.
  • the output unit 140 has a function of outputting information about the document data and the judgment probability for the document data.
  • the output unit 140 outputs the judgment probability for the document data calculated by the processing unit 130 in a table format together with information about the document data.
  • the results output by the output unit 140 are not limited to a table format, and may be, for example, a tree format (tree structure).
  • the output unit 140 may have a function of transmitting and receiving data.
  • the output unit 140 may be referred to as a communication unit.
  • Examples of the communication unit include a hub, a router, and a modem.
  • the output unit 140 may also have a function of displaying the processing results.
  • the output unit 140 may be referred to as a display unit.
  • Examples of the display unit include display devices such as a liquid crystal display device and a light-emitting display device. There is no limit to the number of display devices used as the display unit. The number of display devices used as the display unit may be one or more.
  • a display unit configured by arranging multiple display devices may be called a multi-monitor or multi-display.
  • the transmission path 150 has a function of transmitting data. Data can be transmitted and received between the reception unit 110, the storage unit 120, the processing unit 130, and the output unit 140 via the transmission path 150.
  • the functions of the document search system 100 are classified and are independent of each other, but some or all of the functions of the document search system 100 may not be independent.
  • the processing unit 130 may have the functions of one or both of the reception unit 110 and the output unit 140.
  • the processing unit 130 may serve as one or both of the reception unit 110 and the output unit 140.
  • a document search method and a document search result output method in a document search system according to one embodiment of the present invention will be described using Figures 2 to 14. Note that, in the following, a display method on a display will be given as an example of an output method. In other words, in the following, a document search result display method according to one embodiment of the present invention will be described.
  • the document retrieval method 1 of the present embodiment a document retrieval method for retrieving documents using tags will be described.
  • the document retrieval method 1 of the present embodiment is effective for retrieving documents that have been assigned a classification (the above-mentioned first classification).
  • FIG. 11 to 14 is an example of a graphic user interface (GUI) for the document search system of this embodiment.
  • GUI graphic user interface
  • the icons, windows, buttons, and text boxes in Figures 11 to 14, as well as their arrangements, are merely examples and are not limited to these.
  • the GUI can be configured as a web page that the user accesses via a network.
  • the GUI can be configured as a screen of a program application that runs on an information processing device, such as a personal computer, used by the user.
  • the document retrieval method 1a of the present embodiment is an example of the document retrieval method 1 of the present embodiment.
  • the search query includes at least one tag.
  • the tag may be a code or a keyword.
  • the document search method 1a of this embodiment includes the processes of steps S101 to S110 shown in FIG. 2.
  • Step S101 a plurality of document data are accepted.
  • Each of the plurality of document data has text data.
  • Each of the plurality of document data may further include data other than text data (such as image data).
  • m pieces of document data (m is an integer equal to or greater than 1) are accepted.
  • the m pieces of document data accepted in step S101 are referred to as the first document data to the mth document data.
  • the plurality of document data accepted in step S101 (the first document data to the mth document data) are collectively referred to as a document data group.
  • step S102 onwards is mainly carried out using text data.
  • each of the multiple document data accepted in step S101 is assigned a classification (also referred to as a first classification).
  • each of the multiple document data is assigned at least one tag.
  • tags there are multiple types of tags.
  • the set of all tags prepared in advance is referred to as the first tag group.
  • n[i] tags (n[i] is an integer equal to or greater than 1) are assigned to the i-th (i is an integer equal to or greater than 1) piece of document data.
  • the set (union) of all tags assigned to the document data group is referred to as the second tag group.
  • the second tag group is also a subset of the first tag group.
  • step S102 a search query is accepted.
  • at least one tag is accepted as the search query.
  • Area 300 shown in Figs. 11 to 14 is an area that the user can use to input a search query.
  • area 300 displays area 301 for inputting a search query.
  • the user inputs the search query in area 301.
  • delimiters include a line break, tab, semicolon, slash, or backslash.
  • a word, phrase, or sentence contained in an area enclosed by single quotes, double quotes, parentheses, or the like may be considered as one search query. The same applies when multiple tags are input in area 301.
  • each of the multiple document data has a first feature vector.
  • the first feature vector of the document data is generated using the tags assigned to the document data.
  • the first feature vector of the i-th document data is generated using n[i] tags assigned to the i-th document data.
  • each of the multiple document data does not have to have a first feature vector.
  • a process of step S121 between the processes of steps S101 and S103.
  • step S121 a first feature vector is generated for each of the multiple document data accepted in step S101. It is preferable that the first feature vector of the document data is generated using tags assigned to the document data. For example, in step S121, the first feature vector of the i-th document data is generated using n[i] tags assigned to the i-th document data. This process may be performed for each of the m document data.
  • the first feature vector of the document data can be used as the second feature vector described in [Step S106] below.
  • step S122 the search query received in step S102 is vectorized.
  • the search query is vectorized using the tags included in the search query.
  • FIG. 3A shows an example in which the process of step S122 is performed after the process of step S121, the present invention is not limited to this.
  • the process of step S122 may be performed before the process of step S121, or the process of step S121 and the process of step S122 may be performed in parallel.
  • step S103 the document data is evaluated based on the search query.
  • the document data to be evaluated are the multiple document data accepted in step S101.
  • each of the m pieces of document data is evaluated based on the search query.
  • step S103 may be performed as step S103a shown in FIG. 3B.
  • Step S103a is a process for calculating the similarity between the first feature vector and the vectorized search query for each of the multiple document data received in step S101.
  • the distance between the first feature vector and the vectorized search query may be calculated for each of the multiple document data received in step S101.
  • step S103 the similarity or distance between the first feature vector of the i-th document data and the vectorized search query is calculated. This process may be performed for each of the m document data.
  • Methods for calculating the similarity between two vectors include cosine similarity, covariance, unbiased covariance, and Pearson's product-moment correlation coefficient. Of these, it is particularly preferable to use cosine similarity.
  • Methods for calculating the distance between two vectors include Euclidean distance, standard (standardized, average) Euclidean distance, Mahalanobis distance, Manhattan distance, Chebyshev distance, and Minkowski distance.
  • the document search system selects icon 302 marked "Evaluate" with mouse pointer 303, and the document search system accepts the search query and starts evaluating the document data based on the search query. That is, the processes of steps S102 and S103 are performed. Note that steps S121, S122, etc. are also performed depending on the document data accepted in step S101 and the search query accepted in step S102.
  • step S104 an evaluation result for the document data is output.
  • the document data for which the evaluation result is output is at least one of the multiple document data accepted in step S101.
  • the document data for which the evaluation result is output may be a part of the multiple document data accepted in step S101, or may be all of the document data accepted in step S101.
  • the document data for which the evaluation result is output may be a part of the m pieces of document data, or may be all of the m pieces of document data.
  • the document data for which the evaluation results are output in step S104 may be referred to as evaluated document data.
  • the evaluation results of p (p is an integer between 1 and m) pieces of document data out of the m pieces of document data are displayed in step S104. That is, in step S104, the evaluation results of the p pieces of evaluated document data are displayed. Furthermore, the p pieces of evaluated document data are referred to as the first evaluated document data through the pth evaluated document data. Furthermore, the first evaluated document data through the pth evaluated document data are collectively referred to as an evaluated document data group. That is, in step S104, the evaluation results of each of the evaluated document data groups are output. Furthermore, the evaluated document data group is also a subset of the document data group.
  • the document search method 1a of this embodiment may include the process of step S104a shown in FIG. 3C instead of the process of step S104.
  • step S104a the evaluation result for the document data is output together with related information of the document data.
  • the document data for which the evaluation result is output is the above-mentioned evaluated document data group.
  • the evaluation results for the document data may be output in a table format.
  • the evaluation results may be shown in at least one column of the table.
  • the first row of the table may show the evaluation results for the first document data
  • the second row may show the evaluation results for the second document data.
  • the evaluation results may be output together with information about the document data.
  • evaluation results for the document data, the importance of tags, etc. may be output as a file in CSV format, etc.
  • Area 310 shown in Figures 12 to 14 is an area where related information and evaluation results of document data are displayed. Various data contained in a database or the like may also be displayed in area 310. In Figure 12, a table 311 showing the evaluation results is displayed in area 310.
  • FIG. 12 is an example showing the evaluation results of document data.
  • the items on the vertical axis show information that identifies document data
  • the items on the horizontal axis show, as examples, related information of the document data, evaluation 421, and classification 431. Note that the information that identifies document data is also related information of the document data.
  • Table 311 in FIG. 12 shows document ID 401 as information for identifying document data. If the document data is a patent document, the document ID 401 may be, for example, an application number, a publication number, or a registration number.
  • the document data whose document ID 401 is "1111” is the first evaluated document data
  • the document data whose document ID 401 is "2222” is the second evaluated document data
  • the document data whose document ID 401 is "3333” is the third evaluated document data
  • the document data whose document ID 401 is "4444” is the fourth evaluated document data
  • the document data whose document ID 401 is "5555" is the fifth evaluated document data.
  • classification 411 refers to the first classification assigned to the document data. If the document data is a patent document, examples of classification 411 include CPC, IPC, FI, and F-terms. Also, examples of information 412 and information 413 include abstract, claims, representative claim, filing date, priority date, publication date, category, and keywords, respectively.
  • q[j] tags (q[j] is an integer equal to or greater than 1) are displayed on a line displaying information about the jth (j is an integer equal to or greater than 1) evaluated document data.
  • the set (union) of all tags assigned to the evaluated document data group is referred to as the third tag group.
  • the third tag group is also a subset of the second tag group.
  • the first evaluated document data is assigned the classifications 411 of "a1b1", “a1b2”, and “a1b3”
  • the second evaluated document data is assigned the classifications 411 of "a1b1” and "a1b2”
  • the third evaluated document data is assigned the classifications 411 of "a1b1", “a1b3", and "a1c1”
  • the fourth evaluated document data is assigned the classifications 411 of "a1b2" and "a1c1
  • the fifth evaluated document data is assigned the classification 411 of "a1c2".
  • each of the first evaluated document data to the fifth evaluated document data is assigned at least one of "a1b1", “a1b2", “a1b3”, “a1c1”, and “a1c2".
  • “a1b1” is the first tag
  • "a1b2” is the second tag
  • "a1b3” is the third tag
  • "a1c1” is the fourth tag
  • "a1c2" is the fifth tag.
  • the third tag group includes the first tag to the fifth tag.
  • the related information of the document data displayed in table 311 of FIG. 12 is not limited to the above, and may be one type, two types, or four or more types. Alternatively, the related information of the document data does not need to be displayed in table 311 of FIG. 12.
  • the evaluation 421 shown in table 311 in FIG. 12 is the evaluation result for the document data acquired in step S103.
  • the calculated similarity value or distance value may be displayed in the column in which the horizontal axis item indicates evaluation 421.
  • the document data output in table 311 is preferably displayed in descending order of evaluation.
  • the document data is displayed so that the higher the evaluation, the higher it is positioned in table 311.
  • the evaluation 421 of the first evaluated document data is 1.0
  • the evaluation 421 of the second evaluated document data is 0.7
  • the evaluation 421 of the third evaluated document data is 0.5
  • the evaluation 421 of the fourth evaluated document data is 0.3
  • the evaluation 421 of the fifth evaluated document data is 0.1.
  • the first evaluated document data, the second evaluated document data, the third evaluated document data, the fourth evaluated document data, and the fifth evaluated document data are displayed in order from top to bottom.
  • the document data output to table 311 is not limited to being displayed in descending order of evaluation.
  • the document data may be displayed in the order of document ID 401, information 412 or information 413, or lowest evaluation.
  • a selection column is provided in the column in which the horizontal axis item indicates classification 431.
  • One selection column may be provided per row, or multiple selection columns may be provided per row.
  • a first selection column 432 and a second selection column 433 are provided as selection columns.
  • a classification is accepted for at least a portion of the multiple document data.
  • the classification accepted in step S105 may be referred to as the second classification.
  • the document data for which the second classification is accepted is preferably evaluated document data.
  • the document data for which the second classification is accepted is p pieces of evaluated document data. The user can refer to information 412, information 413, evaluation 421, etc. of the evaluated document data and select the second classification for the evaluated document data.
  • the second classification is performed by selecting whether or not the document is close to the desired document.
  • the user selects whether or not the document is close to the desired document in the column in table 311 shown in FIG. 12 where the horizontal axis item indicates classification 431.
  • classification 431 in table 311 indicates the second classification.
  • a first selection column 432 and a second selection column 433 are provided for each row. At this time, if the user judges that the document data is close to the desired document, he or she checks the first selection column 432 of the row related to that document data. Also, if the user judges that the document data is not close (far) from the desired document, he or she checks the second selection column 433 of the row related to that document data.
  • the user may be unsure whether the document data is close to the desired document. In such cases, it is advisable to check both the first selection field 432 and the second selection field 433 of the row related to the document data. Alternatively, it is advisable not to check both the first selection field 432 and the second selection field 433 of the row related to the document data. By configuring in this way, the user's judgment can be accurately reflected in the learning described below.
  • a second classification may be performed in advance on the document data depending on the evaluation result. For example, if the evaluation 421 of the document data is a certain value (e.g., 0.8) or more, the first selection field 432 of the row related to the document data may be checked, and the second selection field 433 may not be checked. Also, for example, if the evaluation 421 of the document data is a different value (e.g., 0.2) or less, the first selection field 432 of the row related to the document data may not be checked, and the second selection field 433 may be checked.
  • This can reduce the amount of classification work for the user. Or, the user may only need to determine whether the classification performed in advance is appropriate. In this case, the amount of work for the user can be reduced.
  • the first selection column 432 is checked and the second selection column 433 is not checked.
  • both the first selection column 432 and the second selection column 433 are checked.
  • the third evaluated document data the first selection column 432 is checked and the second selection column 433 is not checked.
  • both the first selection column 432 and the second selection column 433 are not checked.
  • the fifth evaluated document data the first selection column 432 is not checked and the second selection column 433 is checked.
  • the selection field provided in the column in which the horizontal axis item indicates classification 431 may be one for each row. In this case, if the user judges that the document data is close to the desired document, the user may check the selection field for the row related to that document data. Also, if the user judges that the document data is not close (far) from the desired document, the user may not check the selection field for the row related to that document data.
  • step S106 the importance of the tag is inferred from the classification (second classification) accepted in step S105.
  • the tag for which importance is inferred is preferably at least one of the third tag group, more preferably a part of the third tag group, and even more preferably all of the third tag group.
  • at least one of the first tag to the fifth tag is assigned to each of the first evaluated document data to the fifth evaluated document data.
  • the tag for which importance is inferred is preferably at least one of the first tag to the fifth tag, more preferably a part of the first tag to the fifth tag, and even more preferably all of the first tag to the fifth tag.
  • the inference of tag importance may also be performed on tags that are not included in the third tag group (tags different from the first tag to the fifth tag in the example of FIG. 12).
  • the tags for which importance is inferred may be from the second tag group. Note that some of the second tag group may not be assigned to any of the evaluated document data groups. Furthermore, the importance of tags may be inferred not only from the second tag group, but also from tags that are not included in the second tag group.
  • the tags for which importance is inferred may be the first tag group. Note that some of the first tag group may not be assigned to any of the evaluation document data group.
  • the tags for which importance is inferred will be referred to as the fourth tag group. If the fourth tag group is composed of multiple tags, then the tags for which importance is inferred will be multiple tags.
  • step S106 An example of the processing of step S106 is the processing of step S106a shown in FIG. 3D.
  • the processing of step S106a is a processing of training a classifier using the classification (second classification) accepted in step S105 and the second feature vector of the document data as training data, and calculating the importance of the tag from the trained classifier.
  • the tag whose importance is calculated is the tag for which the importance inference described above is performed.
  • the first feature vector of the document data can be used as the second feature vector of the document data.
  • the training data may be the second feature vector of the evaluated document data and the second classification for the evaluated document data.
  • the training data may be the second feature vector and the second classification for each of the p pieces of evaluated document data.
  • the second classification may be used as a learning label.
  • the importance of the tag can be calculated from the intermediate layer of the neural network.
  • the importance of the tag can be calculated from the Gini coefficient of the branch.
  • the importance of the tag can be calculated.
  • step S106 As shown in FIG. 12, after the user has performed the second classification, learning and inference are performed by selecting the icon 305 marked "Learning" with the mouse pointer 303. In other words, the processing of step S106 or step S106a is performed.
  • step S107 the importance of the tag is output. Also, in step S107, the importance of the tag is output together with the tag. In other words, in step S107, the tag and the importance of the tag are output.
  • the tag output in step S107 is at least one of the tags whose importance has been inferred in step S106 or step S106a.
  • the tag output in step S107 may be some of the tags whose importance has been inferred, or all of the tags whose importance has been inferred.
  • the tag output in step S107 may be some of the fourth tag group, or all of the fourth tag group.
  • the tag output in step S107 may be at least one of the first tag to the fifth tag, some of the first tag to the fifth tag, or all of the first tag to the fifth tag.
  • Area 320 shown in FIG. 13 is an area where tags and the importance of the tags are displayed.
  • area 320 displays a table 321 showing the inference results.
  • region 320 is shown to be located to the right of region 310, but region 320 may be located to the left of region 310, between region 310 and region 300, or below region 310.
  • FIG. 13 is an example showing the inference result.
  • the items on the vertical axis show tags 501
  • the items on the horizontal axis show, as examples, the importance of tags 511 and selection 521.
  • the tags output to table 321 are preferably displayed in order of importance.
  • tags are displayed such that the higher the importance, the higher the position in table 321.
  • the importance 511 of a first tag whose tag 501 is "a1b1" is 0.5
  • the importance 511 of a third tag whose tag 501 is "a1b3" is "0.3”
  • the importance 511 of a second tag whose tag 501 is "a1b2” is 0.2
  • the importance 511 of a fourth tag whose tag 501 is "a1c1” is 0.1
  • the importance 511 of a fifth tag whose tag 501 is "a1c2" is 0.1.
  • tags output to table 321 do not necessarily have to be displayed in order of importance. For example, they may be displayed in order of frequency of being output to table 311, or in order of decreasing importance.
  • selection column 522 is provided as the selection column.
  • step S107 it is preferable that the number of rows or columns of table 311 displayed in step S107 is smaller than the number of rows or columns of table 311 displayed in step S105.
  • the number of columns of table 311 displayed in step S107 is smaller than the number of columns of table 311 displayed in step S105.
  • the number of rows of table 311 displayed in step S107 is smaller than the number of rows of table 311 displayed in step S105.
  • the number of rows of table 311 displayed in step S107 is smaller than the number of rows of table 311 displayed in step S105.
  • the number of rows of table 311 displayed in step S107 is smaller than the number of rows of table 311 displayed in step S105.
  • tables 311 and 321 are displayed side by side.
  • the horizontal axis items shown are document ID 401, classification 411, rating 421, and classification 431.
  • information 412 and information 413 are not shown as horizontal axis items.
  • the user can select tags while referring to table 311.
  • the user can also refer to table 311 to determine whether the desired results have been obtained, as will be explained next.
  • the user judges whether the desired results have been obtained.
  • the desired results refer to the tags used in document search being displayed. If it is determined that the desired results have been obtained, the process proceeds to step S108. On the other hand, if it is determined that the desired results have not been obtained, the process returns to step S105.
  • Step S108 At least one tag is accepted in step S108. Also, at least one of the tags whose importance is output in step S107 is accepted in step S108. In other words, at least one of the tags output in table 321 is accepted in step S108.
  • the user selects a tag in a column in table 321 where the horizontal axis item indicates selection 521.
  • the user checks the selection column 522 of the row related to that tag.
  • the user does not check the selection column 522 of the row related to that tag.
  • the selection box 522 is checked for the first tag, and the selection box 522 is not checked for the second to fifth tags.
  • a document search is performed using at least one tag.
  • a document search is performed using the tag accepted in step S108.
  • a document search is performed using the first tag, which is "a1b1" as the tag 501.
  • step S109 is performed.
  • the document search performed in step S109 is sometimes called the final search.
  • step S110 the search results are output.
  • the desired result means that the desired document has been searched. If it is determined that the desired result has been obtained, the search ends. On the other hand, if it is determined that the desired result has not been obtained, the process returns to step S105. By repeating the process from step S105 onwards, the search accuracy can be improved.
  • the tag used to search for the desired document is not necessarily the most important. Therefore, if it is determined that the desired result has not been obtained, the process may return to step S108. This makes it possible to omit the processing of steps S105 to S107 and shorten the time required to search for the desired document.
  • the first feature vector and the second feature vector match, so that the amount of calculations required to search for a document can be reduced. From the same perspective, the tags required for the final search can be reinforced.
  • the present invention is not limited to this.
  • the search query does not have to include a tag.
  • search query is one or more words, one or more phrases, one or more sentences, or a combination of these. In other words, the search query does not include a tag.
  • the document search method 1b of this embodiment has the processes of steps S101 to S110 shown in FIG. 2. Note that in the explanation of the document search method 1b of this embodiment, differences from the previously described [Document search method 1a] will be mainly explained, and explanations of parts that overlap with the explanation of the previously described [Document search method 1a] may be omitted.
  • the search query is accepted as one or more words, one or more phrases, or one or more sentences, or a combination of these.
  • the search query includes at least one word.
  • the search query received in step S102 is one or more words, one or more phrases, or a combination of these
  • the search query can be vectorized (the processing of step S122). At this time, the search query is vectorized using the words contained in the search query.
  • step S131 is a processing of analyzing the search query and extracting at least one word.
  • the word extracted in the processing of step S131 can be used to vectorize the search query (processing of step S122).
  • the search query is vectorized using the word extracted in the processing of step S131.
  • one or more sentences may be divided into phrases or words by performing one or both of morphological analysis and compound word analysis. Then, one or more sentences may be vectorized from the divided phrases or words.
  • methods for vectorizing one or more sentences based on the number of times a word occurs include TF-IDF (Term Frequency-Inverse Document Frequency) and Bag-of-Words.
  • one or more words, one or more phrases, or a combination thereof accepted as a search query in step S102 may be output to area 304 shown in Figures 11 to 14.
  • words extracted in step S131 may be output to area 304. This allows the user to check the words or phrases used in the evaluation performed in the processing of step S103.
  • the search query is vectorized using the words contained in the search query or the words extracted in the processing of step S131. Therefore, it is preferable that the first feature vector of the document data is generated without using the tags attached to the document data. In other words, it is preferable that the first feature vector of the document data is generated using at least one of the words related to the document data.
  • the first feature vector of the document data is generated using the document data.
  • the first feature vector of the document data is generated using at least one word extracted from the document data.
  • the document data is a patent document, it is preferable that the data be generated using words extracted from at least one of the specification, abstract, and claims. Also, if the document data is an article, novel, etc., it is preferable that the data be generated using words extracted from the main text of the document.
  • the first feature vector of the document data may be generated using at least one of the related information of the document data, excluding the first classification.
  • the first feature vector of the document data may be generated using at least one of the words extracted from one or more sentences included in the at least one of the related information of the document data.
  • each of the multiple document data does not have the first feature vector, it is preferable to include a process of step S121 between the processes of steps S101 and S103, as shown in FIG. 4A.
  • step S121 it is preferable that the first feature vector of the document data is generated using the document data. Furthermore, if the document data used to generate the first feature vector includes one or more sentences, it is preferable to perform the processing of step S141 before performing the processing of step S121. Note that before performing the processing of step S121 means, for example, between the processing of step S101 and the processing of step S103.
  • step S141 words are extracted from the document data. Specifically, it is preferable to perform one or both of morphological analysis and compound word analysis to divide one or more sentences included in the document data into phrases or words and extract the words.
  • the first feature vector of the document data is generated using at least one word extracted from at least one of the related information of the document data excluding the first classification. If the at least one of the related information of the document data used to generate the first feature vector includes one or more sentences, it is preferable to perform the processing of step S141 before performing the processing of step S121. For example, in step S141, words are extracted from the at least one of the related information of the document data. Specifically, it is preferable to perform one or both of morphological analysis and compound word analysis to divide one or more sentences included in the at least one of the related information of the document data into phrases or words and extract the words.
  • the first feature vector is generated using words.
  • the second feature vector is generated using tags.
  • the second feature vector of document data is generated using tags attached to the document data. Therefore, the first feature vector of document data and the second feature vector of the document data are different.
  • the second feature vector in document retrieval method 1b of this embodiment can refer to the first feature vector described above in [Document retrieval method 1a].
  • the document retrieval method 1c of this embodiment is another example of the above-mentioned document retrieval method 1b.
  • the document search method 1c of this embodiment has the processes of steps S101 to S110 shown in FIG. 2, similar to the document search method 1a described above.
  • the differences from the document search method 1b described above will be mainly explained, and explanations of parts that overlap with the explanations of the document search method 1a or document search method 1b described above may be omitted.
  • the search query accepted is one or more words, one or more phrases, or one or more sentences, or a combination of these.
  • step S102 contains one or more sentences, it is preferable to perform the processing of step S131 described above.
  • step S103 shown in FIG. 2 it is preferable to perform the process of step S103b shown in FIG. 4B.
  • the process of step S103b is a process of calculating the degree of match between the words extracted in the process of step S141 and the words included in the search query or the words extracted in the process of step S131 for each of the multiple document data accepted in step S101.
  • the first feature vector is not generated, and the second feature vector is generated using tags. Therefore, in the document search method 1c of this embodiment, the process for generating the first feature vector can be omitted. Also, there is no need to vectorize the search query. Therefore, the amount of calculation required for document search can be reduced.
  • the document retrieval method 1 of this embodiment may change part of the process shown in Fig. 2.
  • Fig. 5 shows another example of the document retrieval method 1 of this embodiment.
  • the document retrieval method shown in Fig. 5 differs from the document retrieval method 1 shown in Fig. 2 in that the process of steps S106b and S107b are performed instead of the process of steps S106 and S107.
  • step S106b explanations of parts that overlap with the explanations of step S106 or step S106a described above may be omitted. Also, in step S107b, explanations of parts that overlap with the explanations of step S107 described above may be omitted.
  • Steps S101 to S105 shown in FIG. 5 are the same as steps S101 to S105 shown in FIG. 2, so the above explanation can be referred to.
  • step S106b the importance of the tag and the probability of determination for the document data are inferred from the classification (second classification) accepted in step S105.
  • step S106b An example of the process of step S106b is the process of step S106c shown in FIG. 6A.
  • the process of step S106c is a process of training a classifier using the classification (second classification) accepted in step S105 and the second feature vector of the document data as training data, and calculating the importance of the tag and the probability of judgment for the document data from the trained classifier.
  • the judgment probability for the document data may be calculated based on the data output from the classifier.
  • the judgment probability can be considered as an evaluation of the document data reflecting the classification (second classification) accepted in step S105.
  • the judgment probability can be considered as the similarity or distance between the search query and the document data reflecting the second classification.
  • step S107b the determination probability for the document data and the importance of the tag are output.
  • the document data for which the judgment probability is output is at least one of the document data output in step S104.
  • the document data for which the judgment probability is output may be a portion of the multiple document data output in step S104, or may be all of the document data output in step S104.
  • the judgment probability of the evaluated document data group (p pieces of evaluated document data) may be displayed.
  • step S107c shown in FIG. 6B instead of step S107b.
  • step S107c the determination probability for the document data and the importance of the tag are output. Also, in step S107c, the determination probability for the document data is output together with information about the document data, and the importance of the tag is output together with the tag.
  • FIG. 14 is another example showing the inference results.
  • table 312 showing the judgment probability calculated in step S107 is output.
  • the item on the vertical axis shows document ID 401
  • the items on the horizontal axis show, as examples, classification 411, judgment probability 441, and classification 431.
  • the document data output in table 312 in FIG. 14 is preferably displayed in order of increasing judgment probability.
  • the document data is displayed so that the higher the judgment probability, the higher the position in table 312 the data is.
  • the judgment probability 441 of the first evaluated document data is 0.9
  • the judgment probability 441 of the third evaluated document data is 0.8
  • the judgment probability 441 of the second evaluated document data is 0.5
  • the judgment probability 441 of the fourth evaluated document data is 0.3
  • the judgment probability 441 of the fifth evaluated document data is 0.1. Therefore, in FIG. 14, the first evaluated document data, the third evaluated document data, the second evaluated document data, the fourth evaluated document data, and the fifth evaluated document data are displayed in order from the top.
  • the document data output to table 312 may be displayed in the order of document ID 401, or in the order of decreasing determination probability.
  • table 321 in FIG. 14 is the same as table 321 in FIG. 14.
  • Table 312 in FIG. 14 can be thought of as an evaluation result for the document data that reflects the classification (second classification) accepted in step S105. Therefore, if it is determined that the desired result has not been obtained and the process returns to step S105, the accuracy of the classifier can be improved by referring to table 312 in FIG. 14 and performing the classification in step S105 again.
  • Steps S108 to S110 shown in FIG. 5 are the same as steps S108 to S110 shown in FIG. 2, so the above description can be referred to.
  • ⁇ Document search method 2> In the document retrieval method 2 of this embodiment, a document retrieval method for searching documents using words will be described.
  • the document retrieval method 2 of this embodiment is effective for retrieving documents that have not been assigned a classification (the above-mentioned first classification).
  • the word whose importance has been inferred should be output as tag 501 shown in table 321 of Figs. 13 and 14. Also, the importance of the word should be output as tag importance 511 shown in table 321 of Figs. 13 and 14.
  • the document search method 2a of this embodiment is an example of the document search method 2 of this embodiment.
  • the search query includes at least one tag.
  • the tag may be a code or a keyword.
  • the document search method 2a of this embodiment includes the processes of steps S101 to S105, steps S206 to S209, and step S110 shown in FIG. 7.
  • Steps S101 to S105 shown in FIG. 7 are the same as steps S101 to S105 shown in FIG. 2, so the explanation of [Document Search Method 1a] above can be referred to.
  • step S141 Before performing the processing of step S206, it is preferable to perform the processing of step S141 described above. Furthermore, it is preferable that the document data on which the processing of step S141 is performed is a group of evaluated document data. Note that the document data on which the processing of step S141 is performed may be a group of document data. By performing the processing of step S141, it is possible to extract words related to the document data. The set (union) of all the words extracted in step S141 is defined as a first word group.
  • step S141 it is preferable to generate a second feature vector of the document data. Furthermore, it is preferable that the second feature vector of the document data is generated using words related to the document data acquired in step S141. For example, it is preferable that the second feature vector of the document data is generated using words extracted from the document data.
  • step S206 the importance of the word is inferred from the classification (second classification) accepted in step S105.
  • the same parts as in step S106 can be referred to in the explanation of the above-mentioned [Document retrieval method 1a]. In that case, it is advisable to read the tag in the explanation of the above-mentioned [Document retrieval method 1a] as a word.
  • the word for which importance is inferred is preferably at least one of the first word group, more preferably a part of the first word group, and even more preferably all of the first word group.
  • it is preferably at least one of the words extracted from p pieces of evaluated document data, more preferably a part of the words extracted from p pieces of evaluated document data, and even more preferably all of the words extracted from p pieces of evaluated document data.
  • it is preferably at least one of the words extracted from at least one of the related information of the p pieces of evaluated document data, more preferably a part of the words extracted from at least one of the related information of the p pieces of evaluated document data, and even more preferably all of the words extracted from at least one of the related information of the p pieces of evaluated document data.
  • the words for which importance is inferred are referred to as the second word group. If the words for which importance is inferred are all in the first word group, the second word group will be the same as the first word group. Furthermore, if the words for which importance is inferred are part of the first word group, the second word group will be a subset of the first word group. If the second word group is composed of multiple words, the words for which importance is inferred will be multiple words.
  • step S206 An example of the processing of step S206 is the processing of step S206a shown in FIG. 8.
  • the processing of step S206a is a processing of training a classifier using the classification (second classification) accepted in step S105 and the second feature vector of the document data as training data, and calculating the importance of words from the trained classifier.
  • the words whose importance is calculated are the words whose importance is inferred as described above.
  • the training data may be the second feature vector of the evaluated document data and the second classification for the evaluated document data.
  • the training data may be the second feature vector and the second classification for each of the p pieces of evaluated document data.
  • the second classification may be used as a learning label.
  • the importance of a word can be calculated from the intermediate layer of the neural network.
  • the importance of a word can be calculated from the Gini coefficient of the branch.
  • the importance of a word can be calculated.
  • the first feature vector is generated using tags, and the second feature vector is generated using words. Therefore, the first feature vector of the document data is different from the second feature vector of the document data.
  • step S207 the importance of the word is output.
  • step S107 the importance of the word is output together with the word.
  • step S207 the word and the importance of the word are output. Note that, in step S207, the same parts as in step S107 can be referred to in the explanation of [Document retrieval method 1a] described above. In that case, it is advisable to read the tag in the explanation of [Document retrieval method 1a] described above as a word.
  • the word output in step S207 is at least one of the words for which importance was inferred in step S206 or step S206a.
  • the word output in step S207 may be some of the words for which importance was inferred, or it may be all of the words for which importance was inferred.
  • the word output in step S207 may be some of the second word group, or it may be all of the second word group.
  • words in step S207 is not limited to the table format shown in FIG. 13.
  • words may be output in a size proportional to the importance value, such as a word cloud. Words may also be output so that words with higher importance values are positioned in the center. Outputting words in this format allows the user to visually confirm the importance of the words.
  • a word cloud is also called a tag cloud or a weighted list.
  • the user determines whether or not the desired results have been obtained.
  • the desired results refer to the words used in document search being displayed. If it is determined that the desired results have been obtained, the process proceeds to step S208. On the other hand, if it is determined that the desired results have not been obtained, the process returns to step S105.
  • step S208 At least one word is accepted. Also, in step S208, at least one of the words whose importance is output in step S207 is accepted. In other words, in step S208, at least one of the words output in table 321 is accepted. Note that, in step S208, the same parts as in step S108 can be referred to in the explanation of [Document retrieval method 1a] above. In that case, it is advisable to read the tag in the explanation of [Document retrieval method 1a] above as a word.
  • a selection box may not be provided and the words may be directly selected.
  • the selected word may be highlighted to increase the visibility of the selected word.
  • the selected word may be highlighted by underlining it, making the lines around the letters thicker, distinguishing the color of the letters from the other letters, highlighting the words, etc.
  • step S209 At least one word is used to search for documents.
  • the word accepted in step S208 is used to search for documents.
  • step S209 the same parts as in step S109 can be found in the above-mentioned explanation of [Document Search Method 1a]. In that case, it is advisable to read the tag in the above-mentioned explanation of [Document Search Method 1a] as the word.
  • Step 110 shown in FIG. 7 is the same as step 110 shown in FIG. 2, so the explanation of [Document search method 1a] above can be referred to.
  • the present invention is not limited to this.
  • the search query does not have to include a tag.
  • search query is one or more words, one or more phrases, one or more sentences, or a combination of these. In other words, the search query does not include a tag.
  • the document search method 2b of this embodiment includes the processes of steps S101 to S105, steps S206 to S209, and step S110 shown in FIG. 7.
  • step S110 shown in FIG. 7 in the document search method 2b of this embodiment the explanation of [Document search method 1a] above can be referred to.
  • the first feature vector and the second feature vector are each generated using words.
  • the first feature vector of the document data can be used as the second feature vector of the document data.
  • the first feature vector and the second feature vector match, so that the amount of calculations required to search for a document can be reduced. Also, from the same perspective, the words required for the final search can be reinforced.
  • the document retrieval method 2c of this embodiment is another example of the above-mentioned document retrieval method 2b.
  • the document search method 2c of this embodiment includes the processes of steps S101 to S105, steps S206 to S209, and step S110 shown in FIG. 7.
  • step S110 shown in FIG. 7 in the document search method 2c of this embodiment the explanation of [Document search method 1a] above can be referred to.
  • the first feature vector is not generated, and the second feature vector is generated using words. Therefore, in the document search method 2c of this embodiment, the process for generating the first feature vector can be omitted. Also, there is no need to vectorize the search query. Therefore, the amount of calculation required for document search can be reduced.
  • the document retrieval method 2 of this embodiment may change part of the process shown in Fig. 7.
  • Fig. 9 shows another example of the document retrieval method 2 of this embodiment.
  • the document retrieval method 2 shown in Fig. 9 differs from the document retrieval method 2 shown in Fig. 7 in that the process of steps S206b and S207b are performed instead of the process of steps S206 and S207.
  • step S206b explanations of parts that overlap with the explanations of step S206 or step S206a described above may be omitted. Also, in step S207b, explanations of parts that overlap with the explanations of step S207 or step S207a described above may be omitted.
  • Steps S101 to S105 shown in FIG. 9 are the same as steps S101 to S105 shown in FIG. 7, so the explanations of the above-mentioned ⁇ Document search method 1> and the above-mentioned [Document search method 2a] can be referred to.
  • step S206b the importance of words and the probability of judgment for the document data are inferred from the classification (second classification) accepted in step S105.
  • step S206b An example of the processing of step S206b is the processing of step S206c shown in FIG. 10A.
  • the processing of step S206c is a processing of training a classifier using the classification (second classification) accepted in step S105 and the second feature vector of the document data as training data, and calculating the importance of words and the probability of judgment for the document data from the trained classifier.
  • step S207b the determination probability for the document data and the importance of the words are output.
  • the document data for which the judgment probability is output is at least one of the document data output in step S104.
  • the document data for which the judgment probability is output may be a portion of the multiple document data output in step S104, or may be all of the document data output in step S104.
  • the judgment probability of the evaluated document data group (p pieces of evaluated document data) may be displayed.
  • step S207c the judgment probability for the document data and the importance of the word are output.
  • step S207c the judgment probability for the document data is output together with information about the document data, and the importance of the word is output together with the word.
  • Steps S208, S209, and S110 shown in FIG. 9 are the same as steps S208, S209, and S110 shown in FIG. 7, respectively, so the explanation of the above-mentioned ⁇ Document search method 1> and the explanation of the above-mentioned [Document search method 2a] can be referred to.
  • the document search system of this embodiment can present tags or words that are preferable to use in a search query for document search.
  • the tags or words presented by the document search system are presented by making inferences based on the results of user evaluations, and therefore are less noisy and more appropriate search queries than those input by the user to the document search system.
  • the document search system and document search method of this embodiment a user can perform an intuitive and efficient search. Furthermore, even if there are many documents to search, the desired document can be obtained in a short time.
  • Fig. 15 shows a block diagram of the document search system 210.
  • the document search system 210 includes a server 220 and a terminal 230 (such as a personal computer). Note that for the same components as those in the document search system 100 shown in Fig. 1, the description of ⁇ Document Search System 1> in the first embodiment can also be referred to.
  • the server 220 has a communication unit 171a, a transmission path 172, a storage unit 120, and a processing unit 130. Although not shown in FIG. 15, the server 220 may further have at least one of a reception unit, a database, an output unit, an input unit, etc.
  • the terminal 230 has a communication unit 171b, a transmission path 174, an input unit 115, a storage unit 125, a processing unit 135, and a display unit 145.
  • Examples of the terminal 230 include tablet terminals, notebook type information terminals, and various types of mobile information terminals.
  • the terminal 230 may also be a desktop type information terminal that does not have a display unit 145, and the terminal 230 may be connected to a monitor or the like that functions as the display unit 145.
  • the user of the document search system 210 inputs document data to the server 220 from the input unit 115 of the terminal 230.
  • a search query can also be input.
  • the contents of these inputs are transmitted from the communication unit 171b to the communication unit 171a.
  • the document data and the search query are transmitted from the communication unit 171b to the communication unit 171a.
  • the information received by the communication unit 171a is stored in the memory or storage unit 120 of the processing unit 130 via the transmission path 172. Information may also be supplied from the communication unit 171a to the processing unit 130 via a reception unit (see reception unit 110 shown in FIG. 1).
  • steps S103 and S106 described in ⁇ Document search method 1> of embodiment 1, and the process of step S206 described in ⁇ Document search method 2> of embodiment 1, etc. are performed by the processing unit 130. Since these processes require high processing capabilities, they are preferably performed by the processing unit 130 of the server 220. It is preferable that the processing unit 130 has a higher processing capability than the processing unit 135.
  • the processing results of the processing unit 130 are stored in the memory or storage unit 120 of the processing unit 130 via the transmission path 172.
  • the processing results are then output from the server 220 to the display unit 145 of the terminal 230.
  • the processing results are transmitted from the communication unit 171a to the communication unit 171b.
  • various data contained in the database may be transmitted from the communication unit 171a to the communication unit 171b based on the processing results of the processing unit 130.
  • the processing results may be supplied from the processing unit 130 to the communication unit 171a via an output unit (output unit 140 shown in FIG. 1).
  • Communication Unit 171a and Communication Unit 171b Using the communication units 171a and 171b, data can be transmitted and received between the server 220 and the terminal 230.
  • a hub, a router, a modem, or the like can be used as the communication units 171a and 171b.
  • Data can be transmitted and received using a wired connection or wirelessly (for example, radio waves, infrared rays, or the like).
  • Transmission path 172 and transmission path 174 have a function of transmitting data. Data can be transmitted and received between the communication unit 171a, the storage unit 120, and the processing unit 130 via the transmission path 172. Data can be transmitted and received between the communication unit 171b, the input unit 115, the storage unit 125, the processing unit 135, and the output unit 140 via the transmission path 174.
  • the input unit 115 can be used when a user specifies a document group and a search query.
  • the input unit 115 can have a function for operating the terminal 230, and specific examples of the input unit 115 include a mouse, a keyboard, a touch panel, a microphone, a scanner, a camera, and the like.
  • the document search system 210 may have a function of converting voice data into text data.
  • at least one of the processing unit 130 and the processing unit 135 may have this function.
  • the document search system 210 may have an optical character recognition (OCR) function. This allows it to recognize characters contained in image data and create text data.
  • OCR optical character recognition
  • at least one of the processing unit 130 and the processing unit 135 may have this function.
  • the storage unit 125 may store one or both of data related to documents and data supplied from the server 220. Furthermore, the storage unit 125 may store at least a portion of the data that the storage unit 120 can store.
  • the processing unit 135 has a function of performing calculations and the like using data supplied from the communication unit 171b, the storage unit 125, the input unit 115, and the like.
  • the processing unit 135 may have a function of executing at least a part of the processing that can be performed by the processing unit 130.
  • the processing unit 130 and the processing unit 135 can each have one or both of a transistor having a metal oxide in the channel formation region (OS transistor) and a transistor having silicon in the channel formation region (Si transistor).
  • OS transistor metal oxide in the channel formation region
  • Si transistor silicon in the channel formation region
  • a transistor that uses an oxide semiconductor or a metal oxide in the channel formation region is called an oxide semiconductor transistor or an OS transistor.
  • the channel formation region of an OS transistor preferably contains a metal oxide.
  • metal oxide is a metal oxide in a broad sense. Metal oxides are classified into oxide insulators, oxide conductors (including transparent oxide conductors), oxide semiconductors (also called oxide semiconductors or simply OS), and the like. For example, when a metal oxide is used in the semiconductor layer of a transistor, the metal oxide may be called an oxide semiconductor. In other words, when a metal oxide can form a channel formation region of a transistor that has at least one of an amplifying function, a rectifying function, and a switching function, the metal oxide can be called a metal oxide semiconductor, or OS for short.
  • the metal oxide in the channel formation region preferably contains indium (In).
  • the metal oxide in the channel formation region contains indium, the carrier mobility (electron mobility) of the OS transistor is increased.
  • the metal oxide in the channel formation region is preferably an oxide semiconductor containing element M.
  • the element M is preferably at least one of aluminum (Al), gallium (Ga), and tin (Sn).
  • element M Other elements that can be used as element M include boron (B), silicon (Si), titanium (Ti), iron (Fe), nickel (Ni), germanium (Ge), yttrium (Y), zirconium (Zr), molybdenum (Mo), lanthanum (La), cerium (Ce), neodymium (Nd), hafnium (Hf), tantalum (Ta), and tungsten (W).
  • element M a combination of a plurality of the above elements may be used.
  • the element M is, for example, an element having a high bond energy with oxygen.
  • the metal oxide in the channel formation region is preferably a metal oxide containing zinc (Zn). Metal oxides containing zinc may be more likely to crystallize.
  • the metal oxide of the channel formation region is not limited to metal oxides containing indium.
  • the semiconductor layer may be, for example, a metal oxide containing zinc but not indium, such as zinc tin oxide or gallium tin oxide, a metal oxide containing gallium, or a metal oxide containing tin.
  • the processing unit 130 preferably includes an OS transistor. Since the off-state current of an OS transistor is extremely small, by using the OS transistor as a switch for retaining charge (data) that has flowed into a capacitive element that functions as a memory element, it is possible to ensure a long data retention period. By using this characteristic in at least one of the register and cache memory of the processing unit 130, it is possible to operate the processing unit 130 only when necessary, and to turn off the processing unit 130 at other times by saving the information of the immediately previous process in the memory element. In other words, normally-off computing is possible, and it is possible to reduce the power consumption of the document search system. The same is true for the processing unit 135.
  • the display unit 145 has a function of displaying the output result.
  • Examples of the display unit 145 include display devices such as a liquid crystal display device and a light-emitting display device.
  • Examples of light-emitting elements that can be used in the light-emitting display device include LEDs (Light Emitting Diodes), OLEDs (Organic LEDs), QLEDs (Quantum-dot LEDs), and semiconductor lasers.
  • the display unit 145 can also be a display device using a shutter-type or optical interference-type MEMS (Micro Electro Mechanical Systems) element, a display device using a display element that applies a microcapsule type, an electrophoresis type, an electrowetting type, or an electronic liquid powder (registered trademark) type, or the like.
  • a shutter-type or optical interference-type MEMS Micro Electro Mechanical Systems
  • a display device using a display element that applies a microcapsule type, an electrophoresis type, an electrowetting type, or an electronic liquid powder (registered trademark) type or the like.
  • Figure 16 shows an image of the document search system of this embodiment.
  • the document search system shown in FIG. 16 includes a server 5100 and terminals (which can also be considered electronic devices). Communication between the server 5100 and each terminal can be carried out via an Internet line 5110.
  • the server 5100 can perform calculations using data input from the terminal via the internet line 5110.
  • the server 5100 can transmit the results of the calculations to the terminal via the internet line 5110. This can reduce the calculation burden on the terminal.
  • an information terminal 5300, an information terminal 5400, and an information terminal 5500 are shown as terminals.
  • the information terminal 5300 is an example of a mobile information terminal such as a smartphone.
  • the information terminal 5400 is an example of a tablet terminal.
  • the information terminal 5400 can also be used as a notebook information terminal by connecting it to a housing 5450 having a keyboard.
  • the information terminal 5500 is an example of a desktop information terminal.
  • the user can access the server 5100 from the information terminal 5300, the information terminal 5400, the information terminal 5500, and the like.
  • the user can then receive services provided by the administrator of the server 5100 through communication via the Internet line 5110.
  • services include services that use the document search method of one aspect of the present invention.
  • the server 5100 may use artificial intelligence.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書の検索を効率良く行う。 複数の文書データを受け付け、検索クエリを受け付け、検索クエリに基づいて、複数の文書データのそれぞれに対して評価を行い、複数の文書データのうちの少なくとも一部について、評価結果を出力し、複数の文書データのうちの少なくとも一部に対して、分類を受け付け、分類から、複数のタグのそれぞれに対して、重要度の推論を行い、複数のタグのうちの少なくとも一部について、重要度を出力し、重要度が出力されたタグの少なくとも一つを受け付け、受け付けたタグを用いて文書の検索を行う。

Description

文書検索方法、文書検索システム
 本発明の一態様は、文書検索システムに関する。本発明の一態様は、文書検索方法に関する。本発明の一態様は、文書検索結果の出力方法に関する。本発明の一態様は、文書検索結果の表示方法に関する。
 なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置(例えば、タッチセンサなど)、入出力装置(例えば、タッチパネルなど)、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。
 特許に関する業務として、先行技術調査、特許の権利化、および無効資料調査などが挙げられる。出願前の発明に関し先行技術調査を行うことで、関連する知的財産権が存在するか否かを確認することができる。先行技術調査を行うことで得られた国内外の特許文献及び論文などは、発明の新規性及び進歩性の確認、並びに、特許を出願するか否かの判断に、利用することができる。また、特許文献の無効資料調査を行うことで、自身の所有する特許権が無効化する恐れが無いか、又は、他者の所有する特許権を無効化できるか、を確認することができる。
 特許に関する業務は多岐に渡るため、近年では、特許出願書類の作成支援システム、特許情報分析システム、および特許検索システムなどの特許に関する業務を支援するシステムの開発が進められている。特許文献1には、キーワード検索と類似検索とを組み合わせた特許文献検索技術が開示されている。
特開2018−73309号公報
 文書の内容に則した検索を行う場合、ウェブ検索などのようなページランクの仕組みでは、客観性が失われてしまう。また、一つの語義に対して複数の表記(平仮名、カタカナ、漢字、代表語、同義語、上位語、下位語など)が存在しうるため、検索キーワードを適切に選択することは困難である。また、特許文献は、CPC(Cooperative Patent Classification:共同特許分類)、IPC(International Patent Classification:国際特許分類)、FI(File Index)、Fターム(File Forming Term)などの特許分類を利用して、技術内容をもとに分類されているが、分類コードの項目数は膨大であるため、分類コードを適切に選択することは困難である。
 本発明の一態様は、ユーザにとって直感的であって効率的な検索が可能な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供することを課題の一つとする。本発明の一態様は、ユーザにとって操作が容易な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供することを課題の一つとする。本発明の一態様は、ユーザが、必要な情報を効率良く得ることができる文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供することを課題の一つとする。
 なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。
 本発明の一態様は、複数の文書データを受け付ける第1のステップと、検索クエリを受け付ける第2のステップと、検索クエリに基づいて、複数の文書データのそれぞれに対して評価を行う第3のステップと、複数の文書データのうちの少なくとも一部について、評価結果を出力する第4のステップと、複数の文書データのうちの少なくとも一部に対して、分類を受け付ける第5のステップと、分類から、複数のタグのそれぞれに対して、重要度の推論を行う第6のステップと、複数のタグのうちの少なくとも一部について、重要度を出力する第7のステップと、第7のステップにおいて重要度が出力されたタグの少なくとも一つを受け付ける第8のステップと、第8のステップで受け付けたタグを用いて、文書の検索を行う第9のステップと、を有する、文書検索方法である。
 上記文書検索方法において、複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、検索クエリは少なくとも一つのタグを含み、第1のステップと第3のステップとの間に、複数の文書データのそれぞれについて、文書データに付与されているタグを用いて特徴ベクトルを生成するステップと、第2のステップと第3のステップとの間に、検索クエリに含まれるタグを用いて検索クエリのベクトル化を行うステップと、をさらに有し、第3のステップでは、複数の文書データのそれぞれに対して、特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出することが好ましい。
 上記文書検索方法において、第6のステップでは、分類と、特徴ベクトルと、を学習データとして分類器の学習を行い、分類器から複数のタグのそれぞれに対して重要度を算出することが好ましい。
 上記文書検索方法において、検索クエリは少なくとも一つの単語を含み、第1のステップと第3のステップとの間に、複数の文書データのそれぞれについて、文書データから抽出された単語を用いて第1の特徴ベクトルを生成するステップと、第2のステップと第3のステップとの間に、検索クエリに含まれる単語を用いて検索クエリのベクトル化を行うステップと、をさらに有し、第3のステップでは、複数の文書データのそれぞれに対して、第1の特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出することが好ましい。
 上記文書検索方法において、複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、第6のステップでは、分類と、第2の特徴ベクトルと、を学習データとして分類器の学習を行い、分類器から複数のタグのそれぞれに対して重要度を算出し、文書データが有する第2の特徴ベクトルは、文書データに付与されているタグを用いて生成されることが好ましい。
 上記文書検索方法において、第6のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、第7のステップでは、さらに、文書データに対する判定確率を出力することが好ましい。
 本発明の別の一態様は、複数の文書データを受け付ける第1のステップと、検索クエリを受け付ける第2のステップと、検索クエリに基づいて、複数の文書データのそれぞれに対して評価を行う第3のステップと、複数の文書データのうちの少なくとも一部について、評価結果を出力する第4のステップと、複数の文書データのうちの少なくとも一部に対して、分類を受け付ける第5のステップと、分類から、複数の単語のそれぞれに対して、重要度の推論を行う第6のステップと、複数の単語のうちの少なくとも一部について、重要度を出力する第7のステップと、第7のステップにおいて重要度が出力された単語の少なくとも一つを受け付ける第8のステップと、第8のステップで受け付けた単語を用いて、文書の検索を行う第9のステップと、を有する、文書検索方法である。
 上記文書検索方法において、検索クエリは少なくとも一つの単語を含み、第1のステップと第3のステップとの間に、複数の文書データのそれぞれについて、文書データから単語を抽出するステップをさらに有し、第3のステップでは、複数の文書データのそれぞれに対して、上記ステップで抽出された単語と、検索クエリに含まれる単語との類似度を算出することが好ましい。
 上記文書検索方法において、第6のステップでは、分類と、上記ステップで抽出された単語と、を学習データとして分類器の学習を行い、分類器から上記複数の単語のそれぞれに対して単語の重要度を算出することが好ましい。
 上記文書検索方法において、複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、検索クエリは少なくとも一つのタグを含み、第1のステップと第3のステップとの間に、複数の文書データのそれぞれについて、文書データに付与されているタグを用いて第1の特徴ベクトルを生成するステップと、第2のステップと第3のステップとの間に、検索クエリに含まれるタグを用いて検索クエリのベクトル化を行うステップと、をさらに有し、第3のステップでは、複数の文書データのそれぞれに対して、第1の特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出することが好ましい。
 上記文書検索方法において、第6のステップでは、分類と、第2の特徴ベクトルと、を学習データとして分類器の学習を行い、分類器から複数の単語のそれぞれに対して重要度を算出し、文書データが有する第2の特徴ベクトルは、文書データから抽出される単語を用いて生成されることが好ましい。
 上記文書検索方法において、第6のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、第7のステップでは、さらに、文書データに対する判定確率を出力することが好ましい。
 本発明の別の一態様は、受付部、処理部、及び、出力部を有し、受付部は、検索クエリと、文書データと、分類と、タグと、を受け付ける機能を有し、処理部は、検索クエリに基づいて、文書データに対して評価を行う機能と、分類から、タグの重要度の推論を行う機能と、を有し、出力部は、文書データに対する評価結果を出力する機能と、タグの重要度を出力する機能と、を有する、文書検索システムである。
 上記文書検索システムにおいて、文書データには、少なくとも一つのタグが付与されており、文書データは、文書データに付与されているタグを用いて生成される特徴ベクトルを有し、処理部は、検索クエリのベクトル化を行う機能と、ベクトル化された検索クエリと特徴ベクトルとの類似度を算出する機能と、をさらに有することが好ましい。
 上記文書検索システムにおいて、記憶部をさらに有し、記憶部には、分類器が格納されており、処理部は、分類と、特徴ベクトルと、を学習データとして分類器の学習を行う機能と、分類器からタグの重要度を算出する機能と、を有することが好ましい。
 本発明の一態様により、ユーザにとって直感的であって効率的な検索が可能な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供できる。本発明の一態様により、ユーザにとって操作が容易な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供できる。本発明の一態様により、ユーザが必要な情報を効率良く得ることができる文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供できる。
 なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。
図1は、文書検索システムの一例を示す図である。
図2は、文書検索方法の一例を示す図である。
図3A乃至図3Dは、文書検索方法の一例を示す図である。
図4A及び図4Bは、文書検索方法の一例を示す図である。
図5は、文書検索方法の一例を示す図である。
図6A及び図6Bは、文書検索方法の一例を示す図である。
図7は、文書検索方法の一例を示す図である。
図8は、文書検索方法の一例を示す図である。
図9は、文書検索方法の一例を示す図である。
図10A及び図10Bは、文書検索方法の一例を示す図である。
図11は、グラフィックユーザインターフェイスの一例を示す図である。
図12は、グラフィックユーザインターフェイスの一例を示す図である。
図13は、グラフィックユーザインターフェイスの一例を示す図である。
図14は、グラフィックユーザインターフェイスの一例を示す図である。
図15は、文書検索システムの一例を示す図である。
図16は、文書検索システムの一例を示す図である。
 実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
 なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチングパターンを同じくし、特に符号を付さない場合がある。
 また、本明細書等にて用いる「第1」、「第2」、「第3」等の序数詞は、構成要素の混同を避けるために付すものであり、数的に限定するものではない。例えば、第1の行は、1行目に限定されず、第1の列は、1列目に限定されない。
 また、図面において示す各構成の、位置、大きさ、または範囲などは、理解の簡単のため、実際の位置、大きさ、または範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、または範囲などに限定されない。
 本明細書等において、複数の要素に同じ符号を用いる場合、特に、それらを区別する必要があるときには、符号に“_1”、“[n]”、“[m,n]”等の識別用の符号を付記して記載する場合がある。
 本明細書等において特に記載が無い場合、文書とは自然言語による事象の記述であり、一つ以上の文を含み、電子化されて機械可読である。文書は、例えば、特許出願書類、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書などであるが、これらに限定されない。また、本明細書等では、特許出願書類を特許文献と呼ぶことがある。
 本明細書等において、検索クエリとは、ユーザが探したい概念を何らかの形で表現したものであり、ここでは、ユーザが検索する際に入力する各種検索条件を指す。当該検索条件としては、特に限定は無く、例えば、一つ以上の単語、一つ以上の語句、または一つ以上の文が挙げられる。または、例えば、一つ以上の単語、一つ以上の語句、及び、一つ以上の文の少なくとも一種と論理演算子とで作成された検索式などが挙げられる。論理演算子は、ブール演算子ともいい、例えば、AND、OR、及び、NOTが挙げられるが、これに限られない。これらの論理演算子を用いる場合、上記検索式は、AND検索、OR検索、または、NOT検索などとなる。また、検索クエリとして自然文を受け付け、言語処理により抽出した単語を検索キーワードとして用いる、または、分散表現を用いて文ベクトルを作成してもよい。
 本明細書等において、データの集合が行および列(縦軸および横軸)のモデルで構成されたものを表または表形式と呼ぶ。よって、データの集合が行および列(縦軸および横軸)のモデルで構成されていれば、罫線の有無に関わらず、表または表形式と呼ぶことができる。
(実施の形態1)
 本実施の形態では、本発明の一態様の文書検索システム、文書検索方法、文書検索結果の出力方法、及び、文書検索結果の表示方法について、図1乃至図14を用いて説明する。
 本発明の一態様の文書検索システムでは、一例として、タグが付与されている文書の検索を行う。例えば、当該文書検索システムでは、文書データの集合を作成し、文書データの集合に対する分類からタグの重要度を算出し、タグを用いて文書検索を行う。文書データの集合は、検索クエリに基づいて作成される。また、文書データの集合は、検索クエリに基づいて行われた評価の結果をもとに作成される。
 上記文書検索システムのユーザは、上記検索クエリを入力し、上記分類を行い、文書検索に用いるタグを選択する。当該ユーザは、文書検索を対話形式で行うことで、ユーザにとって直感的であって効率的な検索を行うことができる。
 具体的には、上記文書検索システムでは、まず、複数の文書データを受け付ける。次に、検索クエリを受け付ける。次に、当該検索クエリに基づいて、上記複数の文書データのそれぞれに対して評価を行う。評価の一例として、検索クエリと文書データの類似度の算出が挙げられる。そして、上記複数の文書データのうちの少なくとも一部について、文書データに対する評価結果を出力する。なお、複数の文書データのうちの少なくとも一部とは、上述した文書データの集合に相当する。
 出力は、例えば、ユーザが利用する端末の表示画面(本明細書等では、単に画面と記載する場合がある)に表示することで行うことができる。なお、表示画面は、表示装置であれば特に限定されず、例えば、後述するマルチディスプレイでもよい。
 上記文書検索システムのユーザは、複数の文書データのうちの少なくとも一部に対して、分類を行う。当該ユーザは、出力された評価結果を参照しながら、文書データの分類を行うことができる。
 次に、上記文書検索システムでは、分類を受け付ける。次に、受け付けた分類から、タグの重要度の推論を行う。そして、タグの重要度を出力する。
 上記ユーザは、タグの重要度が出力されたタグの少なくとも一つを選択する。当該ユーザは、出力されたタグの重要度を参照しながら、タグを選択することができる。
 次に、上記文書検索システムでは、選択されたタグを受け付ける。次に、受け付けたタグを用いて文書の検索を行う。
 このように、本発明の一態様の文書検索システムは、文書検索の検索クエリに用いることが好ましいタグを提示することができる。したがって、ユーザは、文書検索の検索クエリに用いることが好ましいタグを容易に把握することができ、効率的に文書を検索できる。
 なお、本発明の一態様の文書検索システムでは、別の一例として、タグが付与されていない文書の検索を行うこともできる。例えば、当該文書検索システムでは、文書データの集合を作成し、文書データの集合に対する分類から単語の重要度を算出し、単語を用いて文書検索を行う。文書データの集合は、検索クエリに基づいて作成される。
 上記文書検索システムのユーザは、上記検索クエリを入力し、上記分類を行い、文書検索に用いる単語を選択する。当該ユーザは、文書検索を対話形式で行うことで、ユーザにとって直感的であって効率的な検索を行うことができる。
 なお、上記文書検索システムでは、複数の文書データを受け付け、分類を受け付けるまでのステップは前述の文書検索システムと同様である。
 次に、上記文書検索システムでは、受け付けた分類から、単語の重要度の推論を行う。そして、単語の重要度を出力する。
 上記ユーザは、単語の重要度が出力された単語の少なくとも一つを選択する。当該ユーザは、出力された単語の重要度を参照しながら、単語を選択することができる。
 次に、上記文書検索システムでは、選択された単語を受け付ける。次に、受け付けた単語を用いて文書の検索を行う。
 このように、本発明の一態様の文書検索システムは、文書検索の検索クエリに用いることが好ましい単語を提示することができる。したがって、ユーザは、文書検索の検索クエリに用いることが好ましい単語を容易に把握することができ、効率的に文書を検索できる。
 本実施の形態の文書検索システムの用途は、特に限定されず、一例として、特許文献調査が挙げられる。
<文書検索システム1>
 図1に、文書検索システム100のブロック図を示す。文書検索システム100は、受付部110、記憶部120、処理部130、出力部140、及び伝送路150を有する。
 文書検索システム100は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。または、サーバに文書検索システム100の処理部を設け、クライアントPCからネットワーク経由でアクセスして利用する構成としてもよい。
[受付部110]
 受付部110は、文書データを受け付ける。なお、受付部110が受け付ける文書データの数は1であってもよいし複数であってもよい。
 受付部110が受け付ける文書データとしては、特に限定はなく、様々な種類の文書データを受け付けることができる。文書データとは、電子化されて機械可読である文書である。文書としては、例えば、特許出願書類、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書が挙げられる。特許出願書類には、明細書、特許請求の範囲、及び、要約書のうち少なくとも一つを有する。
 また、文書データには、当該文書データに関する情報(文書データの関連情報ともいう)が付与されている。例えば、文書が特許出願書類(特許文献)である場合、文書データに関する情報として、出願管理番号(使用者が指定する任意の番号を含む)、出願ファミリー管理番号、出願番号、公開番号、登録番号、図面、出願日、優先日、公開日、ステータス、分類(特許分類、実用新案分類など)、カテゴリ、及び、キーワード(使用者が指定する任意の単語又は語句を含む)等が挙げられる。これらの情報の一つ又は複数を用いることで、文書データを特定することができる。よって、これらの情報は、文書データを識別する項目として利用することができる。または、これらの情報は、後述する評価結果とともに、出力されてもよい。
 なお、特許分類として、CPC、IPC、FI、Fタームなどが挙げられる。特許分類は、複数の分類コードで構成される。特許分類のように、文書の内容に従って付与される情報をまとめて、本明細書等では分類と呼ぶ。また、文書の内容に従って付与される個別の情報を、タグと呼ぶ。タグとして、英数字などの符号から構成されるコード、及びキーワード(使用者が指定する任意の単語又は語句を含む)が挙げられる。
 また、例えば、文書が、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書などである場合、文書データに関する情報として、文書を識別する番号、タイトル、発行年月日などの日付、著者、及び、出版社等が挙げられる。これらの情報の一つ又は複数を用いることで、文書データを特定することができる。よって、これらの情報は、文書データを識別する項目として利用することができる。または、これらの情報は、それぞれ、後述する評価結果とともに、出力されてもよい。
 受付部110が受け付ける文書データには、分類が付与されていることが好ましい。例えば、当該文書データには、少なくとも一つのタグが付与されていることが好ましい。このとき、受付部110は、タグを受け付ける機能を有することが好ましい。なお、文書データに付与されている分類を、第1の分類と呼ぶことがある。
 また、受付部110が受け付ける文書データに付与されているタグは、コードであってもよいし、キーワードであってもよい。当該キーワードは、例えば、文書データに含まれる単語又は語句であってもよいし、文書データに含まれない単語又は語句であってもよい。文書データに含まれない単語又は語句として、使用者が指定する任意の単語又は語句でもよい。
 なお、受付部110が受け付ける文書データには、分類が付与されていなくてもよい。このとき、受付部110は、単語を受け付ける機能を有することが好ましい。
 また、受付部110が受け付ける文書データは、特徴ベクトルを有してもよい。文書データが有する特徴ベクトルは1つであってもよいし、2つであってもよいし、3つ以上であってもよい。
 文書データが有する特徴ベクトルは、当該文書データに関する情報の少なくとも一つを用いて生成されていることが好ましい。例えば、文書データに少なくとも一つのタグが付与されている場合、文書データが有する特徴ベクトルは、当該文書データに付与されているタグを用いて生成されていることが好ましい。また、文書データが有する特徴ベクトルは、当該文書データから抽出された単語を用いて生成されていることが好ましい。
 なお、受付部110が受け付ける文書データは、特徴ベクトルを有さなくてもよい。
 受付部110は、検索クエリを受け付ける。なお、受付部110が受け付ける検索クエリの数は1であってもよいし複数であってもよい。
 受付部110が受け付ける検索クエリは、一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせである。又は、一つ以上のタグを含む。
 受付部110は、分類を受け付ける。受付部110が受け付ける分類を、第2の分類と呼ぶことがある。
 受付部110は、データの送受信を行う機能を有するとよい。このとき、受付部110は通信部と言い換えることができる。当該通信部として、ハブ、ルータ、モデムなどが挙げられる。また、受付部110は、ユーザの入力操作を受け付ける機能を有してもよい。このとき、受付部110は入力部と言い換えることができる。当該入力部として、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ等が挙げられる。
 受付部110に供給された、検索クエリ、及び文書データなどのデータは、伝送路150を介して、記憶部120及び処理部130の一方または双方に供給される。
[記憶部120]
 記憶部120は、処理部130が実行するプログラムを記憶する機能を有する。また、記憶部120は、処理部130が生成したデータ(例えば、演算結果、推論結果)、及び、受付部110に入力されたデータなどを記憶する機能を有していてもよい。
 記憶部120には、分類器が格納されていることが好ましい。分類器として、ニューラルネットワーク、決定木、ラッソ回帰、ランダムフォレストなどが挙げられる。分類器は、処理部130にて行われる学習及び推論に用いられる。また、分類器は、処理部130にて行われる評価に用いられてもよい。
 記憶部120は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。揮発性メモリとしては、DRAM(Dynamic Random Access Memory)、及び、SRAM(Static Random Access Memory)等が挙げられる。不揮発性メモリとしては、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、及び、フラッシュメモリ等が挙げられる。また、記憶部120は、記録メディアドライブを有していてもよい。記録メディアドライブとしては、ハードディスクドライブ(Hard Disk Drive:HDD)、及び、ソリッドステートドライブ(Solid State Drive:SSD)等が挙げられる。
 記憶部120は、文書データを有するデータベースを有していてもよい。
 また、文書検索システム100は、システムの外部に存在するデータベースから、文書データ(具体的には、以降の処理に必要なデータ)を取り出す(読み出す)機能を有していてもよい。例えば、文書検索システム100は、システムの外部に存在するデータベースからデータを取り出す機能を有していてもよい。
 また、文書検索システム100は、自身が持つデータベースと、外部に存在するデータベースと、の双方からデータを取り出す機能を有していてもよい。
 データベースは、例えば、テキストデータ及び画像データの一方または双方を有する構成とすることができる。
 また、データベースの代わりに、ストレージ及びファイルサーバの一方または双方を用いてもよい。例えば、ファイルサーバが有するファイルを利用する場合、データベースは、ファイルサーバに保存されたファイルのパスを有すると好ましい。
 例えば、データベースとして、出願データベースが挙げられる。出願としては、特許出願、実用新案登録出願、及び、意匠登録出願等の知的財産に係る出願が挙げられる。各出願のステータスに限定は無く、公開の有無、特許庁における係属の有無、及び登録の有無はそれぞれ問わない。例えば、出願データベースは、審査前の出願、審査中の出願、及び、登録済みの出願のうち少なくとも一つを有することができ、全てを有していてもよい。
 例えば、出願データベースは、複数の特許出願における、明細書、要約、及び特許請求の範囲の少なくとも一つを有することが好ましい。明細書、要約、及び特許請求の範囲は、例えば、テキストデータで保存される。
 そのほか、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書など、様々な種類の文書の管理を、データベースで行うことができる。データベースは、文書データを少なくとも有する。
[処理部130]
 処理部130は、受付部110及び記憶部120の一方または双方から供給されたデータを用いて、演算及び推論などの処理を行う機能を有する。処理部130は、生成したデータ(例えば、演算結果、推論結果)を、記憶部120及び出力部140の一方または双方に供給することができる。
 処理部130は、検索クエリに基づいて、文書データに対して評価を行う機能を有する。例えば、処理部130は、受付部110に供給された検索クエリに基づいて、受付部110に供給された文書データに対して評価を行う機能を有する。
 また、処理部130は、受付部110に供給される検索クエリのベクトル化を行う機能を有することが好ましい。さらに、処理部130は、ベクトル化された検索クエリと、文書データが有する特徴ベクトルとの類似度を算出する機能を有することが好ましい。これにより、受付部110に供給される文書データが特徴ベクトルを有する場合において、ベクトル化された検索クエリと特徴ベクトルとの類似度を算出することで、文書データに対して評価を行うことができる。
 また、処理部130は、文書データに関する情報の少なくとも一つを用いて、当該文書データの特徴ベクトルを生成する機能を有することが好ましい。例えば、文書データに少なくとも一つのタグが付与されている場合、処理部130は、文書データに付与されているタグを用いて特徴ベクトルを生成する機能を有することが好ましい。また、処理部130は、文書データから抽出された単語を用いて特徴ベクトルを生成する機能を有することが好ましい。これにより、受付部110に供給される文書データが特徴ベクトルを有さない場合において、文書データに関する情報の少なくとも一つを用いて、当該文書データの特徴ベクトルを生成することができる。特徴ベクトルが生成されることで、文書データに対して評価を行うことができる。
 また、処理部130は、文書データに関連する単語を抽出する機能を有することが好ましい。例えば、処理部130は、形態素解析及び複合語解析の一方又は双方を行う機能を有することが好ましい。これにより、文書データに含まれる一つ以上の文から単語を抽出することができる。また、文書データの関連情報の少なくとも一つに含まれる一つ以上の文から単語を抽出することができる。
 なお、本明細書等では、文書データに関連する単語とは、文書データに含まれる一つ以上の文から抽出された単語、又は、文書データの関連情報の少なくとも一つに含まれる一つ以上の文から抽出された単語を指すことがある。
 処理部130は、第2の分類から、タグの重要度の推論を行う機能を有する。例えば、処理部130は、受付部110に供給された第2の分類から、受付部110に供給された文書データに含まれるタグの重要度の推論を行う機能を有する。具体的には、処理部130は、受付部110に供給された第2の分類と、特徴ベクトルと、を学習データとして、記憶部120から供給された分類器の学習を行う機能と、当該分類器からタグの重要度を算出する機能と、を有する。なお、当該特徴ベクトルは、文書データが有する特徴ベクトル、または、処理部130にて当該文書データに関する情報を用いて生成された特徴ベクトルである。
 また、処理部130は、第2の分類から、単語の重要度の推論を行う機能を有してもよい。例えば、処理部130は、受付部110に供給された第2の分類から、受付部110に供給された文書データに含まれる単語の重要度の推論を行う機能を有する。具体的には、処理部130は、受付部110に供給された第2の分類と、特徴ベクトルと、を学習データとして、記憶部120から供給された分類器の学習を行う機能と、当該分類器から単語の重要度を算出する機能と、を有する。なお、重要度が算出される単語は、文書データに含まれる単語、または、処理部130にて当該文書データから抽出された単語である。
 また、処理部130は、第2の分類から、文書データに対する判定確率の推論を行う機能を有してもよい。例えば、処理部130は、受付部110に供給された第2の分類から、受付部110に供給された文書データに対する判定確率の推論を行う機能を有する。具体的には、処理部130は、受付部110に供給された第2の分類と、特徴ベクトルと、を学習データとして、記憶部120から供給された分類器の学習を行う機能と、当該分類器から文書データに対する判定確率を算出する機能と、を有する。
 なお、類似度を算出する際に用いる特徴ベクトル(第1の特徴ベクトルともいう)と、分類器の学習を行う際に用いる特徴ベクトル(第2の特徴ベクトルともいう)とは、同じである場合と、異なる場合とがある。詳細については後述する。
 処理部130は、検索を行う機能を有する。特に、タグ、単語、又は語句と、論理演算子と、を組み合わせて作成した検索式を用いて、検索を行う機能を有することが好ましい。
 処理部130は、例えば、演算回路を有することができる。処理部130は、例えば、中央演算装置(CPU:Central Processing Unit)を有することができる。
 処理部130は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部130は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部120のうち少なくとも一方に格納される。
 処理部130はメインメモリを有していてもよい。メインメモリは、RAM(Random Access Memory)等の揮発性メモリ、及びROM(Read Only Memory)等の不揮発性メモリのうち少なくとも一方を有する。
 RAMとしては、例えばDRAM、SRAM等が用いられ、処理部130の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部120に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部130に直接アクセスされ、操作される。
 ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
 文書検索システムは、少なくとも一部の処理に人工知能(AI:Artificial Intelligence)を用いることが好ましい。
 文書検索システムは、特に、人工ニューラルネットワーク(ANN:Artificial Neural Network、以下、単にニューラルネットワークとも記す)を用いることが好ましい。ニューラルネットワークは、回路(ハードウェア)またはプログラム(ソフトウェア)により実現される。
 本明細書等において、ニューラルネットワークとは、生物の神経回路網を模し、学習によってニューロン同士の結合強度を決定し、問題解決能力を持たせるモデル全般を指す。ニューラルネットワークは、入力層、中間層(隠れ層)、及び出力層を有する。
 本明細書等において、ニューラルネットワークについて述べる際に、既にある情報からニューロンとニューロンの結合強度(重み係数ともいう)を決定することを「学習」と呼ぶ場合がある。
 本明細書等において、学習によって得られた結合強度を用いてニューラルネットワークを構成し、そこから新たな結論を導くことを「推論」と呼ぶ場合がある。
[出力部140]
 出力部140は、処理部130の処理結果に基づいて情報を出力する。例えば、処理部130が生成したデータ(例えば、演算結果、推論結果)を、文書検索システム100の外部に供給することができる。出力部140は、ユーザが用いる端末またはディスプレイ等に情報を出力することができる。
 出力部140は、文書データに対する評価結果を出力する機能を有する。また、出力部140は、文書データに対する評価結果を、当該文書データに関する情報と共に出力する機能を有する。例えば、出力部140は、処理部130にて取得された文書データに対する評価結果を、当該文書データに関する情報と共に、表形式で出力する。なお、出力部140が出力する評価結果は表形式に限定されず、例えば、ツリー形式(木構造)であってもよい。
 出力部140は、タグの重要度を出力する機能を有する。また、出力部140は、タグの重要度を、当該タグと共に出力する機能を有する。別言すると、出力部140は、タグ、及び当該タグの重要度を出力する機能を有する。例えば、出力部140は、処理部130にて算出されたタグの重要度を、当該タグと共に、表形式で出力する。なお、出力部140が出力する結果は表形式に限定されず、例えば、ツリー形式(木構造)であってもよい。
 出力部140は、文書データに対する判定確率を出力する機能を有する。また、出力部140は、文書データに対する判定確率を、当該文書データに関する情報と共に出力する機能を有する。別言すると、出力部140は、文書データに関する情報、及び当該文書データに対する判定確率を出力する機能を有する。例えば、出力部140は、処理部130にて算出された文書データに対する判定確率を、当該文書データに関する情報と共に、表形式で出力する。なお、出力部140が出力する結果は表形式に限定されず、例えば、ツリー形式(木構造)であってもよい。
 出力部140は、データの送受信を行う機能を有するとよい。このとき、出力部140は通信部と言い換えることができる。当該通信部として、ハブ、ルータ、モデムなどが挙げられる。また、出力部140は、処理結果を表示する機能を有してもよい。このとき、出力部140は表示部と言い換えることができる。当該表示部として、液晶表示装置、発光表示装置などの表示装置が挙げられる。表示部として用いる表示装置の数は限定されない。表示部として用いる表示装置の数は、一つであってもよいし、複数であってもよい。複数の表示装置を並べて構成した表示部を、マルチモニターまたはマルチディスプレイと呼ぶことがある。
[伝送路150]
 伝送路150は、データを伝達する機能を有する。受付部110、記憶部120、処理部130、及び、出力部140の間のデータの送受信は、伝送路150を介して行うことができる。
 図1においては、文書検索システム100が有する機能ごとに分類し、互いに独立しているが、文書検索システム100が有する機能の一部または全ては独立していなくてもよい。例えば、処理部130は、受付部110および出力部140の一方または双方が有する機能を備えてもよい。つまり、処理部130は、受付部110および出力部140の一方または双方を兼ねてもよい。
 図2乃至図14を用いて、本発明の一態様の文書検索システムにおける文書検索方法及び文書検索結果の出力方法について説明する。なお、以下では、出力方法の一例として、ディスプレイでの表示方法を挙げる。つまり、以下では、本発明の一態様の文書検索結果の表示方法について説明する。
<文書検索方法1>
 本実施の形態の文書検索方法1では、タグを用いて文書の検索を行う文書検索方法について説明する。本実施の形態の文書検索方法1は、分類(上述した第1の分類)が付与されている文書の検索に有効である。
 図11乃至図14は、それぞれ、本実施の形態の文書検索システムに係るグラフィックユーザインターフェイス(GUI)の一例である。図11乃至図14におけるアイコン、ウィンドウ、ボタン、及び、テキストボックス、ならびにこれらの配置などは一例であり、特に限定されない。GUIは、ユーザがネットワークを介してアクセスするウェブページとして構成することができる。または、GUIは、ユーザが利用するパーソナルコンピュータなどの情報処理装置上で実行するプログラムアプリケーションの画面として構成することができる。
[文書検索方法1a]
 本実施の形態の文書検索方法1aでは、本実施の形態の文書検索方法1の一例を示す。なお、本実施の形態の文書検索方法1aでは、検索クエリが少なくとも一つのタグを含むものとする。また、タグはコードであってもよいし、キーワードであってもよい。
 本実施の形態の文書検索方法1aは、図2に示すステップS101乃至ステップS110の処理を有する。
[ステップS101]
 ステップS101では、複数の文書データを受け付ける。複数の文書データのそれぞれは、テキストデータを有する。複数の文書データのそれぞれは、さらに、テキストデータ以外のデータ(イメージデータなど)を含んでいてもよい。本実施の形態の文書検索方法1では、m個(mは1以上の整数)の文書データを受け付けるものとする。以降では、ステップS101で受け付けるm個の文書データを、第1の文書データ乃至第mの文書データとする。また、ステップS101で受け付ける複数の文書データ(第1の文書データ乃至第mの文書データ)をまとめて、文書データ群とする。
 ステップS102以降の処理は、主に、テキストデータを用いて行う。
 ステップS101で受け付ける複数の文書データのそれぞれは、分類(第1の分類ともいう)が付与されていることが好ましい。特に、当該複数の文書データのそれぞれは、少なくとも一のタグが付与されていることが好ましい。なお、タグは、複数種存在する。以降では、あらかじめ用意されているタグ全体の集合を、第1のタグ群とする。
 本実施の形態の文書検索方法1aでは、第i(iは1以上m以下の整数)の文書データに、n[i]個(n[i]は1以上の整数)のタグが付与されているものとする。以降では、文書データ群が、第1の分類が付与されている文書データから構成される場合、当該文書データ群に付与されているタグ全体の集合(和集合)を、第2のタグ群とする。つまり、第2のタグ群は、第1のタグ群の部分集合でもある。
[ステップS102]
 ステップS102では、検索クエリを受け付ける。本実施の形態の文書検索方法1aでは、検索クエリとして、少なくとも一つのタグを受け付ける。
 図11乃至図14に示す領域300は、ユーザが検索クエリを入力するために利用できる領域である。図11乃至図14では、領域300に、検索クエリを入力する領域301が表示されている。ユーザは、領域301に検索クエリを入力する。なお、領域301に、複数の単語、複数の語句、又は単語と語句の組み合わせなどが入力される場合、区切り記号を単語間、語句間、又は単語と語句の間に設けるとよい。区切り記号として、改行、タブ、セミコロン、スラッシュ、またはバックスラッシュなどが挙げられる。または、シングルクォート、ダブルクォート、または括弧などで挟まれた領域に含まれる、単語、語句、または文を、一つの検索クエリとみなしてもよい。なお、領域301に、複数のタグが入力される場合も同様である。
 複数の文書データのそれぞれは、第1の特徴ベクトルを有することが好ましい。なお、検索クエリがタグを含む場合、文書データの第1の特徴ベクトルは、当該文書データに付与されているタグを用いて生成されていることが好ましい。例えば、第iの文書データが有する第1の特徴ベクトルは、第iの文書データに付与されているn[i]個のタグを用いて生成されていることが好ましい。
 なお、複数の文書データのそれぞれは、第1の特徴ベクトルを有さなくてもよい。この場合、図3Aに示すように、ステップS101の処理とステップS103の処理との間に、ステップS121の処理を有することが好ましい。ステップS121では、ステップS101で受け付けた複数の文書データのそれぞれに対して、第1の特徴ベクトルを生成する。文書データの第1の特徴ベクトルは、当該文書データに付与されているタグを用いて生成されることが好ましい。例えば、ステップS121では、第iの文書データに付与されているn[i]個のタグを用いて、第iの文書データの第1の特徴ベクトルを生成する。この処理を、m個の文書データのそれぞれに対して行うとよい。
 本実施の形態の文書検索方法1aでは、文書データの第1の特徴ベクトルは、後述する[ステップS106]で説明する第2の特徴ベクトルとして用いることができる。
 また、図3Aに示すように、ステップS102の処理とステップS103の処理との間に、ステップS122の処理を有することが好ましい。ステップS122では、ステップS102で受け付けた検索クエリのベクトル化を行う。本実施の形態の文書検索方法1aでは、検索クエリは、当該検索クエリに含まれるタグを用いてベクトル化される。
 なお、図3Aには、ステップS121の処理後に、ステップS122の処理が行われる例を示しているが、本発明はこれに限定されない。ステップS121の処理前に、ステップS122の処理が行われてもよいし、ステップS121の処理とステップS122の処理とが並行して行われてもよい。
[ステップS103]
 ステップS103では、検索クエリに基づいて、文書データに対して評価を行う。評価を行う文書データは、ステップS101で受け付けた複数の文書データである。例えば、ステップS103では、検索クエリに基づいて、m個の文書データのそれぞれに対して評価を行う。
 なお、ステップS103として、図3Bに示すステップS103aの処理が行われるとよい。ステップS103aの処理は、ステップS101で受け付けた複数の文書データのそれぞれに対して、第1の特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出する処理である。なお、ステップS103aでは、ステップS101で受け付けた複数の文書データのそれぞれについて、第1の特徴ベクトルと、ベクトル化された検索クエリとの距離を算出してもよい。例えば、ステップS103では、第iの文書データが有する第1の特徴ベクトルと、ベクトル化された検索クエリとの類似度又は距離を算出する。この処理を、m個の文書データのそれぞれに対して行うとよい。
 2つのベクトルの類似度を求める方法としては、コサイン類似度、共分散、不偏共分散、及び、ピアソンの積率相関係数などが挙げられる。このうち、特に、コサイン類似度を用いることが好ましい。
 2つのベクトルの距離を求める方法としては、ユークリッド距離、標準(標準化、平均)ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離などが挙げられる。
 図11に示すように、ユーザが領域301に検索クエリを入力した後、「評価」と記されたアイコン302をマウスポインタ303で選択することで、文書検索システムが検索クエリを受け付け、検索クエリに基づいて、文書データの評価を開始する。つまり、ステップS102及びステップS103の処理が行われる。なお、ステップS101で受け付けた文書データ、及びステップS102で受け付けた検索クエリによっては、ステップS121、ステップS122等も行われる。
[ステップS104]
 ステップS104では、文書データに対する評価結果を出力する。なお、評価結果が出力される文書データは、ステップS101で受け付けた複数の文書データのうちの少なくとも一つである。つまり、評価結果が出力される文書データは、ステップS101で受け付けた複数の文書データのうちの一部であってもよいし、ステップS101で受け付けた全ての文書データであってもよい。例えば、評価結果が出力される文書データは、m個の文書データの一部であってもよいし、m個の文書データの全てであってもよい。
 以降では、ステップS104で評価結果が出力される文書データを、評価済み文書データと呼ぶことがある。本実施の形態の文書検索方法1では、ステップS104において、m個の文書データのうちのp個(pは1以上m以下の整数)の文書データの評価結果が表示されるものとする。つまり、ステップS104において、p個の評価済み文書データの評価結果が表示される。また、p個の評価済み文書データを、第1の評価済み文書データ乃至第pの評価済み文書データとする。また、第1の評価済み文書データ乃至第pの評価済み文書データをまとめて、評価済み文書データ群とする。つまり、ステップS104では、評価済み文書データ群のそれぞれの評価結果が出力される。また、評価済み文書データ群は、文書データ群の部分集合でもある。
 なお、本実施の形態の文書検索方法1aは、ステップS104の処理に代えて、図3Cに示すステップS104aの処理を有してもよい。ステップS104aでは、文書データに対する評価結果を、当該文書データの関連情報と共に出力する。評価結果が出力される文書データは、上述した評価済み文書データ群である。
 文書データに対する評価結果は、一例として、表形式で出力されるとよい。例えば、表の少なくとも一つの列に、当該評価結果を示すことができる。また、当該表の第1の行には第1の文書データについての評価結果を示し、第2の行には第2の文書データについての評価結果を示すことができる。なお、評価結果が表形式で出力される場合、評価結果は文書データに関する情報とともに出力されてもよい。
 なお、文書データに対する評価結果、タグの重要度などは、CSV形式などのファイルとして出力されてもよい。
 図12乃至図14に示す領域310は、文書データの、関連情報及び評価結果が表示される領域である。なお、領域310には、データベース等に含まれる各種データが表示されてもよい。図12では、領域310に、評価結果を示す表311が表示されている。
 図12は、文書データの評価結果を示す例である。図12の表311では、縦軸の項目が文書データを特定する情報を示し、横軸の項目が一例として、文書データの関連情報、評価421、及び分類431を示す。なお、文書データを特定する情報は、文書データの関連情報でもある。
 図12の表311には、文書データを特定する情報として、文書ID401が示されている。文書データが特許文献である場合、文書ID401として、例えば、出願番号、公開番号、登録番号などが挙げられる。
 図12及び図13の表311、並びに、図14の表312では、一例として、5つの文書データに対する評価結果が示されている。つまり、図12及び図13の表311、並びに、図14の表312において、p=5である。ここで、文書ID401が“1111”である文書データを第1の評価済み文書データとし、文書ID401が“2222”である文書データを第2の評価済み文書データとし、文書ID401が“3333”である文書データを第3の評価済み文書データとし、文書ID401が“4444”である文書データを第4の評価済み文書データとし、文書ID401が“5555”である文書データを第5の評価済み文書データとする。
 また、図12の表311には、文書データの関連情報として、分類411、情報412、及び情報413が示されている。ここで、分類411は、文書データに付与されている第1の分類を指す。文書データが特許文献である場合、分類411として、例えば、CPC、IPC、FI、Fタームなどが挙げられる。また、情報412及び情報413としてそれぞれ、例えば、要約、特許請求の範囲、代表請求項、出願日、優先日、公開日、カテゴリ、キーワードなどが挙げられる。
 本実施の形態の文書検索方法1aでは、第j(jは1以上p以下の整数)の評価済み文書データに関する情報が表示される行には、q[j]個(q[j]は1以上の整数)のタグが表示される。以降では、評価文書データ群に付与されているタグ全体の集合(和集合)を、第3のタグ群とする。つまり、第3のタグ群は、第2のタグ群の部分集合でもある。
 図12では、一例として、第1の評価済み文書データには、分類411として“a1b1”、“a1b2”、及び“a1b3”が付与され、第2の評価済み文書データには、分類411として“a1b1”及び“a1b2”が付与され、第3の評価済み文書データには、分類411として“a1b1”、“a1b3”、及び“a1c1”が付与され、第4の評価済み文書データには、分類411として“a1b2”及び“a1c1”が付与され、第5の評価済み文書データには、分類411として“a1c2”が付与されている。
 図12では、一例として、第1の評価済み文書データ乃至第5の評価済み文書データのそれぞれには、“a1b1”、“a1b2”、“a1b3”、“a1c1”、及び“a1c2”の少なくとも一つが付与されている。ここで、“a1b1”を第1のタグとし、“a1b2”を第2のタグとし、“a1b3”を第3のタグとし、“a1c1”を第4のタグとし、“a1c2”を第5のタグとする。このとき、第3のタグ群は、第1のタグ乃至第5のタグを含む。
 なお、図12の表311に表示される文書データの関連情報は、上記に限られず、1種、2種、又は4種以上であってもよい。または、文書データの関連情報は、図12の表311に表示されなくてもよい。
 図12の表311に示されている評価421は、ステップS103で取得された文書データに対する評価結果である。例えば、ステップS103aの処理を行う(第1の特徴ベクトルと、ベクトル化された検索クエリとの類似度又は距離が算出される)場合、横軸の項目が評価421を示す欄には、算出された類似度の値又は距離の値が表示されるとよい。
 表311に出力される文書データは、評価が高い順に並べて表示されることが好ましい。図12では、評価が高いほど表311のより上方に位置するように、文書データが表示されている。図12では、一例として、第1の評価済み文書データの評価421は1.0であり、第2の評価済み文書データの評価421は0.7であり、第3の評価済み文書データの評価421は0.5であり、第4の評価済み文書データの評価421は0.3であり、第5の評価済み文書データの評価421は0.1である。つまり、図12では、上から順に、第1の評価済み文書データ、第2の評価済み文書データ、第3の評価済み文書データ、第4の評価済み文書データ、第5の評価済み文書データが表示されている。
 なお、表311に出力される文書データは、評価が高い順に並べて表示される場合に限られない。例えば、文書ID401の順に並べて表示されてもよいし、情報412又は情報413の順に並べて表示されてもよいし、評価が低い順に並べて表示されてもよい。
 表311において、横軸の項目が分類431を示す欄には、選択欄が用意されることが好ましい。当該選択欄は、行毎に一つ用意されてもよいし、行毎に複数用意されてもよい。図12の表311には、選択欄として、第1の選択欄432と、第2の選択欄433が用意されている。
[ステップS105]
 ステップS105では、複数の文書データの少なくとも一部に対して、分類を受け付ける。以降では、ステップS105で受け付ける分類を第2の分類と呼ぶことがある。ここで、第2の分類を受け付ける文書データは、評価済み文書データであることが好ましい。例えば、第2の分類を受け付ける文書データは、p個の評価済み文書データである。ユーザは、評価済み文書データの、情報412、情報413、評価421などを参照し、当該評価済み文書データに対する第2の分類を選択することができる。
 なお、第2の分類は、所望の文書に近いか否かが選択されることで行われる。ユーザは、図12に示す表311の、横軸の項目が分類431を示す欄において、所望の文書に近いか否かを選択する。つまり、ユーザは、評価済み文書データのそれぞれに対して分類を行う。また、表311の分類431は、第2の分類を指す。
 図12の表311では、行毎に、第1の選択欄432と、第2の選択欄433とが用意されている。このとき、ユーザは、文書データが所望の文書に近いと判断する場合、当該文書データに係る行の第1の選択欄432にチェックをする。また、ユーザは、文書データが所望の文書に近くない(遠い)と判断する場合、当該文書データに係る行の第2の選択欄433にチェックをする。
 なお、ユーザは、文書データが所望の文書に近いか否かの判断に迷う場合がある。その場合は、当該文書データに係る行の第1の選択欄432及び第2の選択欄433の両方にチェックをするとよい。又は、当該文書データに係る行の第1の選択欄432及び第2の選択欄433の両方にチェックをしないとよい。このような構成にすることで、ユーザの判断を後述する学習に的確に反映することができる。
 なお、評価結果に応じて、文書データに対する第2の分類があらかじめ行われてもよい。例えば、文書データの評価421がある値(例えば0.8)以上である場合、当該文書データに係る行の第1の選択欄432がチェックされ、第2の選択欄433がチェックされないとよい。また、例えば、文書データの評価421が別の値(例えば0.2)以下である場合、当該文書データに係る行の第1の選択欄432がチェックされず、第2の選択欄433がチェックされてもよい。これにより、ユーザが分類を行う作業量を低減させることができる。又は、ユーザはあらかじめ行われた分類が適切か否かの判断を行うのみでよい場合がある。この場合においても、ユーザの作業量を低減させることができる。
 図12では、一例として、第1の評価済み文書データでは、第1の選択欄432がチェックされ、第2の選択欄433がチェックされていない。また、第2の評価済み文書データでは、第1の選択欄432及び第2の選択欄433の両方がチェックされている。また、第3の評価済み文書データでは、第1の選択欄432がチェックされ、第2の選択欄433がチェックされていない。また、第4の評価済み文書データでは、第1の選択欄432及び第2の選択欄433の両方がチェックされていない。また、第5の評価済み文書データでは、第1の選択欄432がチェックされておらず、第2の選択欄433がチェックされている。
 図12より、第1の評価済み文書データ及び第3の評価済み文書データは所望の文書に近いと判断され、第5の評価済み文書データは所望の文書に近くない(遠い)と判断され、第2の評価済み文書データ及び第4の評価済み文書データは所望の文書に近いか否かの判断が困難であったことが分かる。
 なお、表311において、横軸の項目が分類431を示す欄に用意される選択欄は行毎に一つであってもよい。このとき、ユーザは、文書データが所望の文書に近いと判断する場合、当該文書データに係る行の選択欄にチェックをするとよい。また、文書データが所望の文書に近くない(遠い)と判断する場合、当該文書データに係る行の選択欄にチェックをしないとよい。
[ステップS106]
 ステップS106では、ステップS105で受け付けた分類(第2の分類)から、タグの重要度の推論を行う。
 重要度の推論が行われるタグは、第3のタグ群の少なくとも一つであることが好ましく、第3のタグ群の一部であることがより好ましく、第3のタグ群の全てであることがさらに好ましい。例えば、図12では、第1の評価済み文書データ乃至第5の評価済み文書データのそれぞれには、第1のタグ乃至第5のタグの少なくとも一つが付与されている。このとき、重要度の推論が行われるタグは、第1のタグ乃至第5のタグの少なくとも一つであることが好ましく、第1のタグ乃至第5のタグの一部であることがより好ましく、第1のタグ乃至第5のタグの全てであることがさらに好ましい。
 なお、タグの重要度の推論は、上記に加えて、第3のタグ群に含まれないタグ(図12の例では、第1のタグ乃至第5のタグとは異なるタグ)に対して行われてもよい。
 また、重要度の推論が行われるタグは、第2のタグ群であってもよい。なお、第2のタグ群の一部は、評価済み文書データ群のいずれにも付与されていない場合がある。また、タグの重要度の推論は、第2のタグ群に加えて、第2のタグ群に含まれないタグに対して行われてもよい。
 また、重要度の推論が行われるタグは、第1のタグ群であってもよい。なお、第1のタグ群の一部は、評価文書データ群のいずれにも付与されていない場合がある。
 以降では、重要度の推論が行われるタグを、第4のタグ群とする。第4のタグ群が複数のタグで構成される場合、重要度の推論が行われるタグは、複数のタグとなる。
 ステップS106の処理の一例として、図3Dに示すステップS106aの処理が挙げられる。ステップS106aの処理は、ステップS105で受け付けた分類(第2の分類)と、文書データが有する第2の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器からタグの重要度を算出する処理である。重要度が算出されるタグは、上述した重要度の推論が行われるタグである。
 本実施の形態の文書検索方法1aでは、文書データの第2の特徴ベクトルとして、当該文書データの第1の特徴ベクトルを用いることができる。
 上記学習データとして、評価済み文書データの第2の特徴ベクトルと、当該評価済み文書データに対する第2の分類と、を用いることができる。例えば、学習データとして、p個の評価済み文書データそれぞれの、第2の特徴ベクトルと、第2の分類と、を用いることができる。このとき、第2の分類を、学習のラベルとして用いることができる。
 例えば、分類器としてニューラルネットワークを用いる場合、当該ニューラルネットワークが有する中間層から、タグの重要度を算出するとよい。又は、例えば、分類器として決定木を用いる場合、分岐のジニ係数から、タグの重要度を算出するとよい。又は、例えば、分類器としてラッソ回帰又はランダムフォレストを用いて、タグの重要度を算出するとよい。
 図12に示すように、ユーザが第2の分類を行った後、「学習」と記されたアイコン305をマウスポインタ303で選択することで、学習及び推論が行われる。つまり、ステップS106又はステップS106aの処理が行われる。
[ステップS107]
 ステップS107では、タグの重要度を出力する。また、ステップS107では、タグの重要度を、当該タグと共に出力する。別言すると、ステップS107では、タグ、及び当該タグの重要度を出力する。
 ステップS107で出力されるタグは、ステップS106又はステップS106aで重要度の推論が行われたタグの少なくとも一つである。つまり、ステップS107で出力されるタグは、重要度の推論が行われたタグの一部であってもよいし、重要度の推論が行われた全てのタグであってもよい。例えば、ステップS107で出力されるタグは、第4のタグ群の一部であってもよいし、第4のタグ群の全てであってもよい。一例として、ステップS107で出力されるタグは、第1のタグ乃至第5のタグの少なくとも一つであってもよいし、第1のタグ乃至第5のタグの一部であってもよいし、第1のタグ乃至第5のタグの全てであってもよい。
 図13に示す領域320は、タグと、当該タグの重要度が表示される領域である。図13では、領域320に、推論結果を示す表321が表示されている。
 図13及び図14では、領域320は領域310の右側に配置されている構成を示しているが、領域320は領域310の左側に配置されてもよいし、領域310と領域300との間に配置されてもよいし、領域310の下側に配置されてもよい。
 図13は、推論結果を示す例である。図13の表321では、縦軸の項目がタグ501を示し、横軸の項目が一例として、タグの重要度511、及び選択521を示す。
 表321に出力されるタグは、重要度が高い順に並べて表示されることが好ましい。図13では、重要度が高いほど表321の上方に位置するようタグが表示されている。図13の表321では、一例として、タグ501が“a1b1”である第1のタグの重要度511は0.5であり、タグ501が“a1b3”である第3のタグの重要度511は“0.3”であり、タグ501が“a1b2”である第2のタグの重要度511は0.2であり、タグ501が“a1c1”である第4のタグの重要度511は0.1であり、タグ501が“a1c2”である第5のタグの重要度511は0.1である。
 なお、表321に出力されるタグは、重要度が高い順に並べて表示される場合に限られない。例えば、表311に出力される頻度が高い順に並べて表示されてもよいし、重要度が低い順に並べて表示されてもよい。
 表321において、横軸の項目が選択521を示す欄には、選択欄が用意されることが好ましい。当該選択欄は、行毎に一つ用意されるとよい。図13の表321には、選択欄として、選択欄522が用意されている。
 図13では領域300、領域310、及び領域320が示されている。次のステップS108では、ユーザがタグを選択するため、領域320に表示される表321が重要となる。そこで、ステップS107で表示される表311の行又は列の数は、ステップS105で表示される表311の行又は列の数よりも少ないことが好ましい。例えば、表311と表321とが横に並べて表示される場合、ステップS107で表示される表311の列の数は、ステップS105で表示される表311の列の数よりも少ないことが好ましい。また、例えば、表311と表321とが縦に並べて表示される場合、ステップS107で表示される表311の行の数は、ステップS105で表示される表311の行の数よりも少ないことが好ましい。
 図13では、一例として、表311と表321とが横に並べて表示されている。このとき、図13の表311では、横軸の項目が、文書ID401、分類411、評価421、及び分類431が示されている。つまり、横軸の項目として、情報412、及び情報413が示されていない。
 上記のようにすることで、領域320の範囲を十分に確保することができる。よって、ユーザは、表311を参照しながら、タグの選択を行うことができる。また、次に説明する、所望の結果が得られているか否かの判断を、ユーザは表311を参照しながら行うことができる。
 ここで、ユーザは、所望の結果が得られているか否かの判断を行う。ここで、所望の結果とは、文書検索に用いるタグが表示されていることを指す。所望の結果が得られていると判断された場合、ステップS108に進む。一方、所望の結果が得られていないと判断された場合、ステップS105に戻る。
[ステップS108]
 ステップS108では、少なくとも一つのタグを受け付ける。また、ステップS108では、ステップS107において重要度が出力されたタグの少なくとも一つを受け付ける。別言すると、ステップS108では、表321に出力されるタグの少なくとも一つを受け付ける。
 ユーザは、表321の、横軸の項目が選択521を示す欄において、タグを選択する。タグを選択する場合、当該タグに係る行の選択欄522にチェックをする。また、タグを選択しない場合、当該タグに係る行の選択欄522にチェックをしない。
 図13においては、第1のタグでは、選択欄522がチェックされ、第2のタグ乃至第5のタグでは、選択欄522がチェックされていない。
[ステップS109]
 ステップS109では、少なくとも一つのタグを用いて、文書の検索を行う。例えば、ステップS109では、ステップS108で受け付けたタグを用いて、文書の検索を行う。図13においては、タグ501が“a1b1”である第1のタグを用いて、文書の検索を行う。
 図13に示すように、ユーザは、タグの選択を行った後、「検索」と記されたアイコン306をマウスポインタ303で選択することで、文書の検索が行われる。つまり、ステップS109の処理が行われる。
 なお、ステップS109で行う文書の検索を、最終検索と呼ぶことがある。
[ステップS110]
 ステップS110では、検索結果を出力する。
 ユーザは、所望の結果が得られているか否かを判断する。ここで、所望の結果とは、所望の文書が検索できたことを指す。所望の結果が得られていると判断された場合、検索を終了する。一方、所望の結果が得られていないと判断された場合、ステップS105に戻る。ステップS105以降の処理を再度行うことで、検索精度を高めることができる。
 なお、所望の文書を検索するために用いるタグは、重要度が一番高いとは限らない。そこで、所望の結果が得られていないと判断された場合、ステップS108に戻ってもよい。これにより、ステップS105乃至ステップS107の処理を省略し、所望の文書の検索に要する時間を短縮することができる。
 以上より、ユーザは所望の文書を検索することができる。
 本実施の形態の文書検索方法1aでは、第1の特徴ベクトルと第2の特徴ベクトルとが一致することで、文書の検索に必要な演算量を低減できる。また、同じ観点で最終検索に必要なタグを補強できる。
 なお、本実施の形態の文書検索方法1aでは、検索クエリが少なくとも一つのタグを含む場合の文書検索方法について例示したが、本発明はこれに限定されない。検索クエリはタグを含まなくてもよい。
[文書検索方法1b]
 本実施の形態の文書検索方法1bでは、本実施の形態の文書検索方法1の別の一例を示す。本実施の形態の文書検索方法1bでは、検索クエリは、一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせであるとする。別言すると、検索クエリには、タグが含まれない。
 本実施の形態の文書検索方法1bは、前述した[文書検索方法1a]と同様に、図2に示すステップS101乃至ステップS110の処理を有する。なお、本実施の形態の文書検索方法1bの説明において、前述した[文書検索方法1a]と異なる点について主に説明し、前述した[文書検索方法1a]の説明と重複する部分については説明を省略することがある。
 本実施の形態の文書検索方法1bでは、検索クエリとして、検索クエリが一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせを受け付ける。例えば、検索クエリは、少なくとも一つの単語を含む。
 ステップS102で受け付けた検索クエリが、一つ以上の単語、もしくは一つ以上の語句、または、これらの組み合わせである場合、当該検索クエリのベクトル化(ステップS122の処理)を行うことができる。このとき、検索クエリは、当該検索クエリに含まれる単語を用いてベクトル化される。
 一方、ステップS102で受け付けた検索クエリが一つ以上の文を含む場合、当該一つ以上の文をベクトル化するのは困難である。そこで、図4Aに示すように、ステップS122の処理を行う前に、ステップS131の処理を行うことが好ましい。ステップS131の処理は、検索クエリを解析して、少なくとも一つの単語を抽出する処理である。ステップS131の処理で抽出された単語を用いて、検索クエリのベクトル化(ステップS122の処理)を行うことができる。このとき、検索クエリは、ステップS131の処理で抽出された単語を用いてベクトル化される。
 一つ以上の文(一つの文または文章)のベクトル化としては、様々な方法が挙げられる。例えば、形態素解析及び複合語解析の一方または双方を行うことで、一つ以上の文を、語句または単語で分割してもよい。そして、分割した語句または単語から、一つ以上の文のベクトル化を行なってもよい。
 例えば、単語の出現回数による、一つ以上の文のベクトル化の方法として、TF−IDF(Term Frequency−Inverse Document Frequency)、及び、Bag−of−Wordsが挙げられる。
 なお、ステップS102で検索クエリとして受け付けた一つ以上の単語、もしくは一つ以上の語句、または、それらの組み合わせは、図11乃至図14に示す領域304に出力されるとよい。また、ステップS131で抽出された単語が領域304に出力されてもよい。これにより、ユーザは、ステップS103の処理で行われる評価に用いられる単語又は語句を確認することができる。
 上述したように、検索クエリは、当該検索クエリに含まれる単語、又は、ステップS131の処理で抽出された単語を用いてベクトル化される。そこで、文書データの第1の特徴ベクトルは、当該文書データに付与されているタグを用いることなく生成されていることが好ましい。別言すると、文書データの第1の特徴ベクトルは、当該文書データに関連する単語の少なくとも一つを用いて生成されることが好ましい。
 例えば、文書データの第1の特徴ベクトルは、当該文書データを用いて生成されていることが好ましい。具体的には、文書データの第1の特徴ベクトルは、当該文書データから抽出される単語の少なくとも一つを用いて生成されていることが好ましい。
 文書データが特許文献である場合、例えば、明細書、要約、特許請求の範囲の少なくとも一つから抽出される単語を用いて生成されていることが好ましい。また、文書データが論文、小説などである場合、例えば、文書の本文から抽出される単語を用いて生成されていることが好ましい。
 また、例えば、文書データの第1の特徴ベクトルは、当該文書データの関連情報のうち、第1の分類を除く少なくとも一つを用いて生成されていてもよい。具体的には、文書データの第1の特徴ベクトルは、文書データの関連情報の上記少なくとも一つに含まれる一つ以上の文から抽出される単語の少なくとも一つを用いて生成されていてもよい。
 なお、複数の文書データのそれぞれが、第1の特徴ベクトルを有さない場合、図4Aに示すように、ステップS101の処理とステップS103の処理との間に、ステップS121の処理を有することが好ましい。
 なお、ステップS121において、文書データの第1の特徴ベクトルは、当該文書データを用いて生成されることが好ましい。さらに、第1の特徴ベクトルの生成に用いる文書データが一つ以上の文を含む場合、ステップS121の処理を行う前に、ステップS141の処理を行うことが好ましい。なお、ステップS121の処理を行う前とは、例えば、ステップS101の処理とステップS103の処理との間である。ステップS141では、文書データから単語を抽出する。具体的には、形態素解析及び複合語解析の一方または双方を行うことで、文書データに含まれる一つ以上の文を語句または単語で分割し、単語を抽出するとよい。
 又は、文書データの第1の特徴ベクトルは、当該文書データの関連情報のうち、第1の分類を除く少なくとも一つから抽出される単語の少なくとも一つを用いて生成されることが好ましい。なお、第1の特徴ベクトルの生成に用いる文書データの関連情報の上記少なくとも一つが一つ以上の文を含む場合、ステップS121の処理を行う前に、ステップS141の処理を行うことが好ましい。例えば、ステップS141では、文書データの関連情報の上記少なくとも一つから単語を抽出する。具体的には、形態素解析及び複合語解析の一方または双方を行うことで、文書データの関連情報の上記少なくとも一つに含まれる一つ以上の文を語句または単語で分割し、単語を抽出するとよい。
 本実施の形態の文書検索方法1bにおいて、第1の特徴ベクトルは単語を用いて生成される。また、第2の特徴ベクトルは、タグを用いて生成される。例えば、文書データの第2の特徴ベクトルは、当該文書データに付与されているタグを用いて生成される。よって、文書データの第1の特徴ベクトルと、当該文書データの第2の特徴ベクトルとは異なる。なお、本実施の形態の文書検索方法1bにおける第2の特徴ベクトルは、先の[文書検索方法1a]で説明した第1の特徴ベクトルを参照できる。
 本実施の形態の文書検索方法1bでは、所望の文書を検索する際に必要なタグの見当がつかない場合であっても、所望の文書を検索する際に有効なタグを得ることができる。
 文書検索結果の表示方法については、前述した<文書検索方法1>の説明を参照できる。なお、図12及び図13の表311に示す分類411、及び図14の表312に示す分類411には、文書データに関連する単語が出力されるとよい。
[文書検索方法1c]
 本実施の形態の文書検索方法1cは、前述した文書検索方法1bの別の一例である。
 本実施の形態の文書検索方法1cは、前述した[文書検索方法1a]と同様に、図2に示すステップS101乃至ステップS110の処理を有する。なお、本実施の形態の文書検索方法1cの説明において、前述した[文書検索方法1b]と異なる点について主に説明し、前述した[文書検索方法1a]又は[文書検索方法1b]の説明と重複する部分については説明を省略することがある。
 本実施の形態の文書検索方法1cでは、検索クエリとして、検索クエリが一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせを受け付ける。
 ここで、ステップS102で受け付けた検索クエリが一つ以上の文を含む場合、前述したステップS131の処理を行うことが好ましい。
 図2に示すステップS103として、図4Bに示すステップS103bの処理が行われることが好ましい。ステップS103bの処理は、ステップS101で受け付けた複数の文書データのそれぞれについて、ステップS141の処理で抽出された単語と、検索クエリに含まれる単語又はステップS131の処理で抽出された単語と、の一致度を算出する処理である。
 本実施の形態の文書検索方法1cにおいて、第1の特徴ベクトルは生成されず、第2の特徴ベクトルは、タグを用いて生成される。よって、本実施の形態の文書検索方法1cでは、第1の特徴ベクトルを生成するための処理を省くことができる。また、検索クエリのベクトル化を行わなくてもよい。したがって、文書の検索に必要な演算量を低減できる。
 文書検索結果の表示方法については、前述した<文書検索方法1>の説明を参照できる。なお、図12及び図13の表311に示す分類411、及び図14の表312に示す分類411には、文書データに関連する単語が出力されるとよい。
[変形例]
 なお、本実施の形態の文書検索方法1は、図2に示す処理の一部を変更してもよい。図5は、本実施の形態の文書検索方法1の別の一例である。図5に示す文書検索方法は、図2に示す文書検索方法1とは、ステップS106及びステップS107の処理に代えて、ステップS106b及びステップS107bの処理を行う点で異なる。
 なお、ステップS106bにおいて、前述したステップS106又はステップS106aの説明と重複する部分については説明を省略することがある。また、ステップS107bにおいて、前述したステップS107の説明と重複する部分については説明を省略することがある。
 図5に示すステップS101乃至ステップS105は、それぞれ、図2に示すステップS101乃至ステップS105と同じであるため、前述した説明を参照できる。
[ステップS106b]
 ステップS106bでは、ステップS105で受け付けた分類(第2の分類)から、タグの重要度、及び文書データに対する判定確率の推論を行う。
 ステップS106bの処理の一例として、図6Aに示すステップS106cの処理が挙げられる。ステップS106cの処理は、ステップS105で受け付けた分類(第2の分類)と、文書データが有する第2の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器からタグの重要度及び文書データに対する判定確率を算出する処理である。
 文書データに対する判定確率は、分類器から出力されるデータを元に算出されるとよい。つまり、判定確率は、ステップS105で受け付けた分類(第2の分類)が反映された、文書データに対する評価ともいえる。別言すると、判定確率は、第2の分類が反映された、検索クエリと文書データの類似度又は距離ともいえる。
[ステップS107b]
 ステップS107bでは、文書データに対する判定確率と、タグの重要度と、を出力する。
 判定確率が出力される文書データは、ステップS104で出力された文書データのうちの少なくとも一つである。つまり、判定確率が出力される文書データは、ステップS104で出力された複数の文書データのうちの一部であってもよいし、ステップS104で出力された全ての文書データであってもよい。例えば、ステップS107bにおいて、評価済み文書データ群(p個の評価済み文書データ)の判定確率が表示されるとよい。
 なお、図5に示す文書検索方法1の別の一例は、ステップS107bの処理に代えて、図6Bに示すステップS107cの処理を有してもよい。ステップS107cでは、文書データに対する判定確率と、タグの重要度とを出力する。また、ステップS107cでは、文書データに対する判定確率を、当該文書データに関する情報と共に出力し、タグの重要度を、当該タグと共に出力する。
 図14は、推論結果を示す別の例である。図14では、ステップS103で取得された評価結果が示された表311に代えて、ステップS107で算出された判定確率が示された表312が出力されている。図14の表312では、縦軸の項目が文書ID401を示し、横軸の項目が一例として、分類411、判定確率441、及び分類431を示す。
 図14の表312に出力される文書データは、判定確率が高い順に並べて表示されることが好ましい。図14では、判定確率が高いほど表312のより上方に位置するよう、文書データが表示されている。図14では、一例として、第1の評価済み文書データの判定確率441は0.9であり、第3の評価済み文書データの判定確率441は0.8であり、第2の評価済み文書データの判定確率441は0.5であり、第4の評価済み文書データの判定確率441は0.3であり、第5の評価済み文書データの判定確率441が0.1である。よって、図14では、上から順に、第1の評価済み文書データ、第3の評価済み文書データ、第2の評価済み文書データ、第4の評価済み文書データ、第5の評価済み文書データが表示されている。
 なお、表312に出力される文書データは、文書ID401の順に並べて表示されてもよいし、判定確率が低い順に並べて表示されてもよい。
 なお、図14の表321は、図14の表321と同様である。
 図14の表312は、ステップS105で受け付けた分類(第2の分類)が反映された、文書データに対する評価結果ともいえる。したがって、所望の結果が得られていないと判断され、ステップS105に戻る場合、図14の表312を参照して、ステップS105における分類を再度行うことで、分類器の精度を高めることができる。
 図5に示すステップS108乃至ステップS110は、それぞれ、図2に示すステップS108乃至ステップS110と同じであるため、前述した説明を参照できる。
 以上が、タグを用いて文書の検索を行う文書検索方法についての説明である。
<文書検索方法2>
 本実施の形態の文書検索方法2では、単語を用いて文書の検索を行う文書検索方法について説明する。本実施の形態の文書検索方法2は、分類(上述した第1の分類)が付与されていない文書の検索に有効である。
 なお、文書検索結果の表示方法については、前述した<文書検索方法1>の説明を参照できる。なお、本実施の形態の文書検索方法2では、図13及び図14の表321に示すタグ501には、重要度の推論が行われた単語が出力されるとよい。また、図13及び図14の表321に示すタグの重要度511には、単語の重要度が出力されるとよい。
[文書検索方法2a]
 本実施の形態の文書検索方法2aでは、本実施の形態の文書検索方法2の一例を示す。なお、本実施の形態の文書検索方法2aでは、検索クエリが少なくとも一つのタグを含むものとする。また、タグはコードであってもよいし、キーワードであってもよい。
 本実施の形態の文書検索方法2aは、図7に示すステップS101乃至ステップS105、ステップS206乃至ステップS209、及びステップS110の処理を有する。
 図7に示すステップS101乃至ステップS105は、それぞれ、図2に示すステップS101乃至ステップS105と同じであるため、前述した[文書検索方法1a]の説明を参照できる。
 ステップS206の処理を行う前に、前述したステップS141の処理を行うことが好ましい。また、ステップS141の処理が行われる文書データは、評価済み文書データ群であることが好ましい。なお、ステップS141の処理が行われる文書データは、文書データ群であってもよい。ステップS141の処理を行うことで、文書データに関連する単語を抽出することができる。ステップS141で抽出される単語全体の集合(和集合)を、第1の単語群とする。
 また、ステップS141の処理後に、文書データの第2の特徴ベクトルを生成することが好ましい。また、文書データの第2の特徴ベクトルは、ステップS141で取得された当該文書データに関連する単語を用いて生成されることが好ましい。例えば、文書データの第2の特徴ベクトルは、当該文書データから抽出される単語を用いて生成されることが好ましい。
[ステップS206]
 ステップS206では、ステップS105で受け付けた分類(第2の分類)から、単語の重要度の推論を行う。なお、ステップS206において、ステップS106と同様の部分については、前述した[文書検索方法1a]の説明を参照できる。その場合、前述した[文書検索方法1a]の説明におけるタグを単語に読み替えるとよい。
 重要度の推論が行われる単語は、第1の単語群の少なくとも一つであることが好ましく、第1の単語群の一部であることがより好ましく、第1の単語群の全てであることがさらに好ましい。例えば、p個の評価済み文書データから抽出された単語の少なくとも一つであることが好ましく、p個の評価済み文書データから抽出された単語の一部であることがより好ましく、p個の評価済み文書データから抽出された全ての単語であることがさらに好ましい。また、例えば、p個の評価済み文書データの関連情報の少なくとも一つから抽出された単語の少なくとも一つであることが好ましく、p個の評価済み文書データの関連情報の少なくとも一つから抽出された単語の一部であることがより好ましく、p個の評価済み文書データの関連情報の少なくとも一つから抽出された全ての単語であることがさらに好ましい。
 以降では、重要度の推論が行われる単語を、第2の単語群とする。重要度の推論が行われる単語が第1の単語群の全てである場合、第2の単語群は、第1の単語群と同じとなる。また、重要度の推論が行われる単語が第1の単語群の一部である場合、第2の単語群は、第1の単語群の部分集合となる。第2の単語群が複数の単語で構成される場合、重要度の推論が行われる単語は、複数の単語となる。
 ステップS206の処理の一例として、図8に示すステップS206aの処理が挙げられる。ステップS206aの処理は、ステップS105で受け付けた分類(第2の分類)と、文書データが有する第2の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器から単語の重要度を算出する処理である。重要度が算出される単語は、上述した重要度の推論が行われる単語である。
 上記学習データとして、評価済み文書データの第2の特徴ベクトルと、当該評価済み文書データに対する第2の分類と、を用いることができる。例えば、学習データとして、p個の評価済み文書データそれぞれの、第2の特徴ベクトルと、第2の分類と、を用いることができる。このとき、第2の分類を、学習のラベルとして用いることができる。
 例えば、分類器としてニューラルネットワークを用いる場合、当該ニューラルネットワークが有する中間層から、単語の重要度を算出するとよい。又は、例えば、分類器として決定木を用いる場合、分岐のジニ係数から、単語の重要度を算出するとよい。又は、例えば、分類器としてラッソ回帰又はランダムフォレストを用いて、単語の重要度を算出するとよい。
 本実施の形態の文書検索方法2aにおいて、第1の特徴ベクトルはタグを用いて生成され、第2の特徴ベクトルは、単語を用いて生成される。よって、文書データの第1の特徴ベクトルと、当該文書データの第2の特徴ベクトルとは異なる。
[ステップS207]
 ステップS207では、単語の重要度を出力する。また、ステップS107では、単語の重要度を、当該単語と共に出力する。別言すると、ステップS207では、単語、及び当該単語の重要度を出力する。なお、ステップS207において、ステップS107と同様の部分については、前述した[文書検索方法1a]の説明を参照できる。その場合、前述した[文書検索方法1a]の説明におけるタグを単語に読み替えるとよい。
 ステップS207で出力される単語は、ステップS206またはステップS206aで重要度の推論が行われた単語の少なくとも一つである。つまり、ステップS207で出力される単語は、重要度の推論が行われた単語の一部であってもよいし、重要度の推論が行われた全ての単語であってもよい。例えば、ステップS207で出力される単語は、第2の単語群の一部であってもよいし、第2の単語群の全てであってもよい。
 なお、ステップS207における単語の出力は、図13に示す表形式に限定されない。例えば、ワードクラウドのように、重要度の値の大きさに比例する大きさで、単語を出力してもよい。また、重要度の値が大きい単語ほど中央に位置するように、単語を出力してもよい。このような形式で出力されることで、ユーザは、単語の重要度を視覚的に確認することができる。なお、ワードクラウドは、タグクラウド又は加重リストともよばれる。
 ここで、ユーザは、所望の結果が得られているか否かを判断する。ここで、所望の結果とは、文書検索に用いる単語が表示されていることを指す。所望の結果が得られていると判断された場合、ステップS208に進む。一方、所望の結果が得られていないと判断された場合、ステップS105に戻る。
[ステップS208]
 ステップS208では、少なくとも一つの単語を受け付ける。また、ステップS208では、ステップS207において重要度が出力された単語の少なくとも一つを受け付ける。別言すると、ステップS208では、表321に出力される単語の少なくとも一つを受け付ける。なお、ステップS208において、ステップS108と同様の部分については、前述した[文書検索方法1a]の説明を参照できる。その場合、前述した[文書検索方法1a]の説明におけるタグを単語に読み替えるとよい。
 なお、ステップS207において、単語がワードクラウドの形式で出力される場合、選択欄を設けずに、単語を直接選択する形式としてもよい。このとき、選択された単語を、強調表示することで、選択された単語の視認性を高めることができる。例えば、下線を引く、文字の線を太くする、文字の色を他の文字の色と区別する、または、ハイライトマーカを引く、などにより、選択された単語を強調することができる。
[ステップS209]
 ステップS209では、少なくとも一つの単語を用いて、文書の検索を行う。例えば、ステップS209では、ステップS208で受け付けた単語を用いて、文書の検索を行う。なお、ステップS209において、ステップS109と同様の部分については、前述した[文書検索方法1a]の説明を参照できる。その場合、前述した[文書検索方法1a]の説明におけるタグを単語に読み替えるとよい。
 図7に示すステップ110は、図2に示すステップ110と同じであるため、前述した[文書検索方法1a]の説明を参照できる。
 以上より、ユーザは所望の文書を検索することができる。
 本実施の形態の文書検索方法2aでは、所望の文書を検索する際に必要な単語の見当がつかない場合であっても、所望の文書を検索する際に有効な単語を得ることができる。
 なお、本実施の形態の文書検索方法2aでは、検索クエリが少なくとも一つのタグを含む場合の文書検索方法について例示したが、本発明はこれに限定されない。検索クエリはタグを含まなくてもよい。
[文書検索方法2b]
 本実施の形態の文書検索方法2bでは、本実施の形態の文書検索方法2の別の一例を示す。本実施の形態の文書検索方法2bでは、検索クエリは、一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせであるとする。別言すると、検索クエリには、タグが含まれない。
 本実施の形態の文書検索方法2bは、前述した[文書検索方法2a]と同様に、図7に示すステップS101乃至ステップS105、ステップS206乃至ステップS209、及びステップS110の処理を有する。
 なお、本実施の形態の文書検索方法2bにおける、図7に示すステップS101乃至ステップS105については、前述した[文書検索方法1b]の説明を参照できる。
 また、本実施の形態の文書検索方法2bにおける、図7に示すステップS206乃至ステップS209については、前述した[文書検索方法2a]の説明を参照できる。
 また、本実施の形態の文書検索方法2bにおける、図7に示すステップS110については、前述した[文書検索方法1a]の説明を参照できる。
 本実施の形態の文書検索方法2bでは、第1の特徴ベクトル及び第2の特徴ベクトルはそれぞれ、単語を用いて生成される。つまり、文書データの第2の特徴ベクトルとして、当該文書データの第1の特徴ベクトルを用いることができる。このとき、文書データの第1の特徴ベクトルと、当該文書データの第2の特徴ベクトルとは一致するといえる。
 本実施の形態の文書検索方法2bでは、第1の特徴ベクトルと第2の特徴ベクトルとが一致することで、文書の検索に必要な演算量を低減できる。また、同じ観点で最終検索に必要な単語を補強できる。
[文書検索方法2c]
 本実施の形態の文書検索方法2cは、前述した文書検索方法2bの別の一例である。
 本実施の形態の文書検索方法2cは、前述した[文書検索方法2a]と同様に、図7に示すステップS101乃至ステップS105、ステップS206乃至ステップS209、及びステップS110の処理を有する。
 なお、本実施の形態の文書検索方法2cにおける、図7に示すステップS101乃至ステップS105については、前述した[文書検索方法1c]の説明を参照できる。
 また、本実施の形態の文書検索方法2cにおける、図7に示すステップS206乃至ステップS209については、前述した[文書検索方法2a]の説明を参照できる。
 また、本実施の形態の文書検索方法2cにおける、図7に示すステップS110については、前述した[文書検索方法1a]の説明を参照できる。
 本実施の形態の文書検索方法2cにおいて、第1の特徴ベクトルは生成されず、第2の特徴ベクトルは、単語を用いて生成される。よって、本実施の形態の文書検索方法2cでは、第1の特徴ベクトルを生成するための処理を省くことができる。また、検索クエリのベクトル化を行わなくてもよい。したがって、文書の検索に必要な演算量を低減できる。
[変形例]
 なお、本実施の形態の文書検索方法2は、図7に示す処理の一部を変更してもよい。図9は、本実施の形態の文書検索方法2の別の一例である。図9に示す文書検索方法2は、図7に示す文書検索方法2とは、ステップS206及びステップS207の処理に代えて、ステップS206b及びステップS207bの処理を行う点で異なる。
 なお、ステップS206bにおいて、前述したステップS206又はステップS206aの説明と重複する部分については説明を省略することがある。また、ステップS207bにおいて、前述したステップS207又はステップS207aの説明と重複する部分については説明を省略することがある。
 図9に示すステップS101乃至ステップS105は、それぞれ、図7に示すステップS101乃至ステップS105と同じであるため、前述した<文書検索方法1>の説明、及び前述した[文書検索方法2a]の説明を参照できる。
[ステップS206b]
 ステップS206bでは、ステップS105で受け付けた分類(第2の分類)から、単語の重要度、及び文書データに対する判定確率の推論を行う。
 ステップS206bの処理の一例として、図10Aに示すステップS206cの処理が挙げられる。ステップS206cの処理は、ステップS105で受け付けた分類(第2の分類)と、文書データが有する第2の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器から単語の重要度及び文書データに対する判定確率を算出する処理である。
[ステップS207b]
 ステップS207bでは、文書データに対する判定確率と、単語の重要度と、を出力する。
 判定確率が出力される文書データは、ステップS104で出力された文書データのうちの少なくとも一つである。つまり、判定確率が出力される文書データは、ステップS104で出力された複数の文書データのうちの一部であってもよいし、ステップS104で出力された全ての文書データであってもよい。例えば、ステップS207bにおいて、評価済み文書データ群(p個の評価済み文書データ)の判定確率が表示されるとよい。
 なお、図9に示す文書検索方法2の別の一例は、ステップS207bの処理に代えて、図10Bに示すステップS207cの処理を有してもよい。ステップS207cでは、文書データに対する判定確率と、単語の重要度とを出力する。また、ステップS207cでは、文書データに対する判定確率を、当該文書データに関する情報ととともに出力し、単語の重要度を、当該単語と共に出力する。
 図9に示すステップS208、ステップS209、及びステップS110は、それぞれ、図7に示すステップS208、ステップS209、及びステップS110と同じであるため、前述した<文書検索方法1>の説明、及び前述した[文書検索方法2a]の説明を参照できる。
 以上が、単語を用いて文書の検索を行う文書検索方法についての説明である。
 以上のように、本実施の形態の文書検索システムは、文書検索の検索クエリに用いることが好ましいタグ又は単語を提示することができる。文書検索システムが提示するタグ又は単語は、ユーザが評価した結果をもとに推論を行うことで提示されているため、ユーザが文書検索システムに入力した検索クエリよりも、ノイズが少なく、適切な検索クエリとなる。
 したがって、本実施の形態の文書検索システム及び文書検索方法を用いることで、ユーザにとって直感的であって、効率的な検索を行うことができる。また、検索対象の文書が多い場合であっても、所望の文書を短時間で得ることができる。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、一つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
(実施の形態2)
 本実施の形態では、本発明の一態様の文書検索システムについて図15及び図16を用いて説明する。
<文書検索システム2>
 図15に、文書検索システム210のブロック図を示す。文書検索システム210は、サーバ220と、端末230(パーソナルコンピュータなど)と、を有する。なお、図1に示す文書検索システム100と同じ構成要素については、実施の形態1の<文書検索システム1>の説明も参照できる。
 サーバ220は、通信部171a、伝送路172、記憶部120、及び、処理部130を有する。図15では図示しないが、さらに、サーバ220は、受付部、データベース、出力部、入力部などの少なくとも一つを有していてもよい。
 端末230は、通信部171b、伝送路174、入力部115、記憶部125、処理部135、及び、表示部145を有する。端末230としては、タブレット端末、ノート型情報端末、及び、各種携帯情報端末が挙げられる。また、端末230が表示部145を有さないデスクトップ型情報端末であり、端末230が、表示部145として機能するモニタ等と接続されていてもよい。
 文書検索システム210のユーザは、端末230の入力部115から、文書データをサーバ220に入力する。さらに、検索クエリを入力することもできる。これらの入力内容は、通信部171bから通信部171aに送信される。例えば、通信部171bから通信部171aに、文書データと、検索クエリとが送信される。
 通信部171aが受信した情報は、伝送路172を介して、処理部130が有するメモリまたは記憶部120に保存される。また、通信部171aから受付部(図1に示す受付部110参照)を介して処理部130に情報が供給されてもよい。
 実施の形態1の<文書検索方法1>で説明した、ステップS103及びステップS106の処理、並びに、実施の形態1の<文書検索方法2>で説明したステップS206の処理などは、処理部130にて行われる。これらの処理は、高い処理能力が求められるため、サーバ220が有する処理部130で行うことが好ましい。処理部130は、処理部135よりも処理能力が高いことが好ましい。
 処理部130の処理結果は、伝送路172を介して、処理部130が有するメモリまたは記憶部120に保存される。その後、サーバ220から、処理結果が、端末230の表示部145へと出力される。処理結果は、通信部171aから通信部171bに送信される。また、処理部130の処理結果に基づいて、データベースに含まれる各種データが、通信部171aから通信部171bに送信されてもよい。また、出力部(図1に示す出力部140)を介して、処理部130から通信部171aに処理結果が供給されてもよい。
[通信部171a及び通信部171b]
 通信部171a及び通信部171bを用いて、サーバ220と端末230との間で、データの送受信を行うことができる。通信部171a及び通信部171bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
[伝送路172及び伝送路174]
 伝送路172及び伝送路174は、データを伝達する機能を有する。通信部171a、記憶部120、及び、処理部130の間のデータの送受信は、伝送路172を介して行うことができる。通信部171b、入力部115、記憶部125、処理部135、及び、出力部140の間のデータの送受信は、伝送路174を介して行うことができる。
[入力部115]
 入力部115は、ユーザが文書群及び検索クエリを指定する際に用いることができる。例えば、入力部115は端末230を操作する機能を有することができ、具体的には、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ等が挙げられる。
 文書検索システム210は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部130及び処理部135の少なくとも一方が当該機能を有していてもよい。
 文書検索システム210は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部130及び処理部135の少なくとも一方が当該機能を有していてもよい。
[記憶部125]
 記憶部125は、文書に関するデータ、及び、サーバ220から供給されたデータの一方または双方を記憶してもよい。また、記憶部120が有することができるデータの少なくとも一部を、記憶部125が有していてもよい。
[処理部130及び処理部135]
 処理部135は、通信部171b、記憶部125、及び入力部115などから供給されたデータを用いて、演算などを行う機能を有する。処理部135は、処理部130で行うことができる処理の少なくとも一部を実行する機能を有していてもよい。
 処理部130及び処理部135は、それぞれ、チャネル形成領域に金属酸化物を有するトランジスタ(OSトランジスタ)、及び、チャネル形成領域にシリコンを有するトランジスタ(Siトランジスタ)の一方または双方を有することができる。
 なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをOxide Semiconductorトランジスタ、あるいはOSトランジスタと呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
 本明細書等において、金属酸化物(metal oxide)とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体(透明酸化物導電体を含む)、酸化物半導体(Oxide Semiconductorまたは単にOSともいう)などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、及びスイッチング作用の少なくとも一つを有するトランジスタのチャネル形成領域を構成し得る場合、当該金属酸化物を、金属酸化物半導体(metal oxide semiconductor)、略してOSと呼ぶことができる。
 チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含む酸化物半導体であると好ましい。元素Mは、アルミニウム(Al)、ガリウム(Ga)及びスズ(Sn)の少なくとも一つであることが好ましい。その他の元素Mに適用可能な元素としては、ホウ素(B)、シリコン(Si)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、及び、タングステン(W)などが挙げられる。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含む金属酸化物であると好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
 チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
 処理部130は、OSトランジスタを有することが好ましい。OSトランジスタはオフ電流が極めて小さいため、OSトランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部130が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部130を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部130をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。なお、処理部135についても同様である。
[表示部145]
 表示部145は、出力結果を表示する機能を有する。表示部145としては、液晶表示装置、発光表示装置などの表示装置が挙げられる。発光表示装置に用いることができる発光素子としては、LED(Light Emitting Diode)、OLED(Organic LED)、QLED(Quantum−dot LED)、及び、半導体レーザなどが挙げられる。また、表示部145には、シャッター方式または光干渉方式のMEMS(Micro Electro Mechanical Systems)素子を用いた表示装置、マイクロカプセル方式、電気泳動方式、エレクトロウェッティング方式、または電子粉流体(登録商標)方式等を適用した表示素子を用いた表示装置などを用いることもできる。
 図16に、本実施の形態の文書検索システムのイメージ図を示す。
 図16に示す文書検索システムは、サーバ5100と、端末(電子機器ともいえる)と、を有する。サーバ5100と各端末との間の通信は、インターネット回線5110を介して行うことができる。
 サーバ5100は、端末からインターネット回線5110を介して入力されたデータを用いて、演算を行うことができる。サーバ5100は、演算の結果を、インターネット回線5110を介して端末に送信することができる。これにより、端末における演算の負担を低減することができる。
 図16では、端末として、情報端末5300、情報端末5400、及び、情報端末5500を示している。情報端末5300は、スマートフォンなどの携帯情報端末の一例である。情報端末5400は、タブレット端末の一例である。また、情報端末5400は、キーボードを有する筐体5450と接続することで、ノート型情報端末として用いることもできる。情報端末5500は、デスクトップ型情報端末の一例である。
 このような形態を構成することにより、ユーザは、情報端末5300、情報端末5400、及び、情報端末5500などからサーバ5100に対してアクセスすることができる。そして、ユーザは、インターネット回線5110を介した通信によって、サーバ5100の管理者が提供するサービスを受けることができる。当該サービスとしては、例えば、本発明の一態様の文書検索方法を用いたサービスが挙げられる。当該サービスにおいて、サーバ5100で人工知能を利用してもよい。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。
100:文書検索システム、110:受付部、115:入力部、120:記憶部、125:記憶部、130:処理部、135:処理部、140:出力部、145:表示部、150:伝送路、171a:通信部、171b:通信部、172:伝送路、174:伝送路、210:文書検索システム、220:サーバ、230:端末、300:領域、301:領域、302:アイコン、303:マウスポインタ、304:領域、305:アイコン、306:アイコン、310:領域、311:表、312:表、320:領域、321:表、401:文書ID、411:分類、412:情報、413:情報、421:評価、431:分類、432:第1の選択欄、433:第2の選択欄、441:判定確率、501:タグ、511:重要度、521:選択、522:選択欄、5100:サーバ、5110:インターネット回線、5300:情報端末、5400:情報端末、5450:筐体、5500:情報端末

Claims (15)

  1.  複数の文書データを受け付ける第1のステップと、
     検索クエリを受け付ける第2のステップと、
     前記検索クエリに基づいて、前記複数の文書データのそれぞれに対して評価を行う第3のステップと、
     前記複数の文書データのうちの少なくとも一部について、評価結果を出力する第4のステップと、
     前記複数の文書データのうちの前記少なくとも一部に対して、分類を受け付ける第5のステップと、
     前記分類から、複数のタグのそれぞれに対して、重要度の推論を行う第6のステップと、
     前記複数のタグのうちの少なくとも一部について、前記重要度を出力する第7のステップと、
     前記第7のステップにおいて重要度が出力されたタグの少なくとも一つを受け付ける第8のステップと、
     前記第8のステップで受け付けたタグを用いて、文書の検索を行う第9のステップと、
     を有する、文書検索方法。
  2.  請求項1において、
     前記複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、
     前記検索クエリは少なくとも一つのタグを含み、
     前記第1のステップと前記第3のステップとの間に、前記複数の文書データのそれぞれについて、文書データに付与されているタグを用いて特徴ベクトルを生成するステップと、
     前記第2のステップと前記第3のステップとの間に、前記検索クエリに含まれるタグを用いて前記検索クエリのベクトル化を行うステップと、
     をさらに有し、
     前記第3のステップでは、前記複数の文書データのそれぞれに対して、前記特徴ベクトルと、ベクトル化された前記検索クエリとの類似度を算出する、文書検索方法。
  3.  請求項2において、
     前記第6のステップでは、前記分類と、前記特徴ベクトルと、を学習データとして分類器の学習を行い、前記分類器から前記複数のタグのそれぞれに対して重要度を算出する、文書検索方法。
  4.  請求項1において、
     前記検索クエリは少なくとも一つの単語を含み、
     前記第1のステップと前記第3のステップとの間に、前記複数の文書データのそれぞれについて、文書データから抽出された単語を用いて第1の特徴ベクトルを生成するステップと、
     前記第2のステップと前記第3のステップとの間に、前記検索クエリに含まれる単語を用いて前記検索クエリのベクトル化を行うステップと、
     をさらに有し、
     前記第3のステップでは、前記複数の文書データのそれぞれに対して、前記第1の特徴ベクトルと、ベクトル化された前記検索クエリとの類似度を算出する、文書検索方法。
  5.  請求項4において、
     前記複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、
     前記第6のステップでは、前記分類と、第2の特徴ベクトルと、を学習データとして分類器の学習を行い、前記分類器から前記複数のタグのそれぞれに対して重要度を算出し、
     文書データが有する前記第2の特徴ベクトルは、前記文書データに付与されているタグを用いて生成される、文書検索方法。
  6.  請求項1において、
     前記第6のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、
     前記第7のステップでは、さらに、文書データに対する判定確率を出力する、文書検索方法。
  7.  複数の文書データを受け付ける第1のステップと、
     検索クエリを受け付ける第2のステップと、
     前記検索クエリに基づいて、前記複数の文書データのそれぞれに対して評価を行う第3のステップと、
     前記複数の文書データのうちの少なくとも一部について、評価結果を出力する第4のステップと、
     前記複数の文書データのうちの前記少なくとも一部に対して、分類を受け付ける第5のステップと、
     前記分類から、複数の単語のそれぞれに対して、重要度の推論を行う第6のステップと、
     前記複数の単語のうちの少なくとも一部について、重要度を出力する第7のステップと、
     前記第7のステップにおいて重要度が出力された単語の少なくとも一つを受け付ける第8のステップと、
     前記第8のステップで受け付けた単語を用いて、文書の検索を行う第9のステップと、
     を有する、文書検索方法。
  8.  請求項7において、
     前記検索クエリは少なくとも一つの単語を含み、
     前記第1のステップと前記第3のステップとの間に、前記複数の文書データのそれぞれについて、文書データから単語を抽出するステップをさらに有し、
     前記第3のステップでは、前記複数の文書データのそれぞれに対して、前記ステップで抽出された単語と、前記検索クエリに含まれる単語との類似度を算出する、文書検索方法。
  9.  請求項8において、
     前記第6のステップでは、前記分類と、前記ステップで抽出された単語と、を学習データとして分類器の学習を行い、前記分類器から前記複数の単語のそれぞれに対して単語の重要度を算出する、文書検索方法。
  10.  請求項7において、
     前記複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、
     前記検索クエリは少なくとも一つのタグを含み、
     前記第1のステップと前記第3のステップとの間に、前記複数の文書データのそれぞれについて、文書データに付与されているタグを用いて第1の特徴ベクトルを生成するステップと、
     前記第2のステップと前記第3のステップとの間に、前記検索クエリに含まれるタグを用いて前記検索クエリのベクトル化を行うステップと、
     をさらに有し、
     前記第3のステップでは、前記複数の文書データのそれぞれに対して、前記第1の特徴ベクトルと、ベクトル化された前記検索クエリとの類似度を算出する、文書検索方法。
  11.  請求項10において、
     前記第6のステップでは、前記分類と、第2の特徴ベクトルと、を学習データとして分類器の学習を行い、前記分類器から前記複数の単語のそれぞれに対して重要度を算出し、
     文書データが有する前記第2の特徴ベクトルは、前記文書データから抽出される単語を用いて生成される、文書検索方法。
  12.  請求項7において、
     前記第6のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、
     前記第7のステップでは、さらに、文書データに対する判定確率を出力する、文書検索方法。
  13.  受付部、処理部、及び、出力部を有し、
     前記受付部は、文書データと、検索クエリと、分類と、タグと、を受け付ける機能を有し、
     前記処理部は、
     前記検索クエリに基づいて、文書データに対して評価を行う機能と、
     前記分類から、タグの重要度の推論を行う機能と、
     を有し、
     前記出力部は、
     文書データに対する評価結果を出力する機能と、
     タグの重要度を出力する機能と、
     を有する、文書検索システム。
  14.  請求項13において、
     前記文書データには、少なくとも一つのタグが付与されており、
     前記文書データは、前記文書データに付与されているタグを用いて生成される特徴ベクトルを有し、
     前記処理部は、前記検索クエリのベクトル化を行う機能と、ベクトル化された前記検索クエリと前記特徴ベクトルとの類似度を算出する機能と、をさらに有する、文書検索システム。
  15.  請求項14において、
     記憶部をさらに有し、
     前記記憶部には、分類器が格納されており、
     前記処理部は、前記分類と、前記特徴ベクトルと、を学習データとして前記分類器の学習を行う機能と、前記分類器からタグの重要度を算出する機能と、を有する、文書検索システム。
PCT/IB2023/060394 2022-10-21 2023-10-16 文書検索方法、文書検索システム WO2024084365A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-169261 2022-10-21
JP2022169261 2022-10-21

Publications (1)

Publication Number Publication Date
WO2024084365A1 true WO2024084365A1 (ja) 2024-04-25

Family

ID=90737103

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2023/060394 WO2024084365A1 (ja) 2022-10-21 2023-10-16 文書検索方法、文書検索システム

Country Status (1)

Country Link
WO (1) WO2024084365A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228581A (ja) * 2002-02-05 2003-08-15 Hitachi Ltd 適合性フィードバックによる類似検索方法
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228581A (ja) * 2002-02-05 2003-08-15 Hitachi Ltd 適合性フィードバックによる類似検索方法
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Similar Documents

Publication Publication Date Title
Shelar et al. Named entity recognition approaches and their comparison for custom ner model
US10354419B2 (en) Methods and systems for dynamic graph generating
Sulieman et al. Classifying patient portal messages using Convolutional Neural Networks
Ngoc et al. A C4. 5 algorithm for english emotional classification
US10832802B2 (en) Clinically relevant medical concept clustering
WO2014160309A1 (en) Method and apparatus for human-machine interaction
US11183175B2 (en) Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
Yogarajan et al. Transformers for multi-label classification of medical text: an empirical comparison
Abasi et al. A novel ensemble statistical topic extraction method for scientific publications based on optimization clustering
Lahby et al. Online fake news detection using machine learning techniques: a systematic mapping study
Ye et al. Geospatial and semantic mapping platform for massive COVID-19 scientific publication search
Wu et al. Sentiment analysis of stock markets using a novel dimensional valence–arousal approach
Zanibbi et al. Math search for the masses: Multimodal search interfaces and appearance-based retrieval
Al-Betar et al. Optimization of scientific publications clustering with ensemble approach for topic extraction
Kumari et al. Importance of data standardization methods on stock indices prediction accuracy
WO2024084365A1 (ja) 文書検索方法、文書検索システム
WO2024110824A1 (ja) 文書検索支援方法、プログラム、文書検索支援システム
WO2020201866A1 (ja) 画像検索システム、及び画像検索方法
WO2023073500A1 (ja) 文書検索結果の出力方法、文書検索システム
WO2022123386A1 (ja) 文書検索システム及び文書検索結果の出力方法
WO2022090849A1 (ja) 読解支援システム及び読解支援方法
WO2024023624A1 (ja) 文書閲覧装置
US20230334097A1 (en) Information Retrieval System And Information Retrieval Method
Deepika et al. Performance analysis of abstract-based classification of medical journals using machine learning techniques
Kahil et al. GreedyBigVis–A greedy approach for preparing large datasets to multidimensional visualization