WO2023195238A1 - 情報処理装置、情報処理システム及び情報処理方法 - Google Patents

情報処理装置、情報処理システム及び情報処理方法 Download PDF

Info

Publication number
WO2023195238A1
WO2023195238A1 PCT/JP2023/004881 JP2023004881W WO2023195238A1 WO 2023195238 A1 WO2023195238 A1 WO 2023195238A1 JP 2023004881 W JP2023004881 W JP 2023004881W WO 2023195238 A1 WO2023195238 A1 WO 2023195238A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
result
information processing
prediction
feature
Prior art date
Application number
PCT/JP2023/004881
Other languages
English (en)
French (fr)
Inventor
直哉 棚橋
浩也 松葉
一成 末光
健 本間
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2023195238A1 publication Critical patent/WO2023195238A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Definitions

  • the present invention relates to an information processing device, an information processing system, and an information processing method.
  • Appropriate budget and actual management is a necessary process for planning and optimizing human resources. In order to properly manage budget and actual results, it is necessary to accurately predict the probability that the project you are currently trying to acquire will be concluded in the future and the progress rate of the project.
  • the customer situation here refers to the customer situation, which changes from case to case, such as whether the customer is positive about the proposal or not, and the presence of competitors.
  • This customer situation is best understood by salespeople who interact with customers on a daily basis to close deals. Therefore, by extracting customer situation information from sales documents recorded in daily sales activities, it is expected that the accuracy of the case prediction algorithm will be improved.
  • Patent Document 1 describes an information processing device that can use a document file created for a case or a group of messages exchanged between a plurality of users regarding the case when predicting the conclusion of the case, such as whether the deal can be concluded or not. A method for providing such information is disclosed.
  • Patent Document 1 information is extracted from a document file or message group created for a case based on multiple rules, and the conclusion of the case is predicted based on the information in the document file or message group for each case.
  • the artificial intelligence that has learned this will predict the outcome of the case.
  • An object of the present invention is to prevent arbitrary judgments by automatically extracting feature quantities effective for prediction in an information processing device.
  • An information processing device includes a storage unit and a calculation unit, and the storage unit stores unstructured information regarding a prediction target, result information regarding the prediction target, and the prediction target. additional information regarding the target, and the calculation unit stores a plurality of first unstructured data that is a part of the unstructured information and the result information for each of the first unstructured data.
  • a feature extraction model construction unit that constructs a feature extraction model that predicts a result based on the feature extraction model; and inputting a plurality of second unstructured data, which is the remaining part of the unstructured information, to the feature extraction model.
  • the present invention is characterized by comprising a result prediction model construction unit that constructs a result prediction model for predicting the result based on the result information of each piece of structured data.
  • arbitrary judgments can be prevented by automatically extracting feature quantities effective for prediction in an information processing apparatus.
  • FIG. 1 is a block diagram showing an example of the configuration of an information processing device and an information processing system according to a first embodiment
  • FIG. 5 is a flowchart illustrating an example of processing in a feature extraction model construction unit in the information processing device.
  • FIG. 2 is a diagram illustrating an example of a data structure of unstructured information. It is a figure showing an example of the data structure of result information.
  • FIG. 3 is a diagram showing an example of document data of each case.
  • 7 is a flowchart illustrating an example of processing in a feature amount extraction unit and a result prediction model construction unit in the information processing device. It is a figure which shows an example of the data structure of other supplementary information. It is a figure showing an example of input data structure of a result prediction model.
  • FIG. 5 is a flowchart illustrating an example of processing in a feature extraction model construction unit in the information processing device.
  • FIG. 2 is a diagram illustrating an example of a data structure of unstructured information. It is a figure
  • FIG. 3 is a diagram illustrating an example of a data structure of prediction accuracy calculated based on a plurality of feature quantity sets.
  • FIG. 2 is a block diagram showing an example of the configuration of an information processing device and an information processing system according to a second embodiment. It is a flow chart which shows an example of processing in a prediction contribution information selection part in an information processing device.
  • FIG. 3 is a diagram illustrating an example of document data for selecting information contributing to prediction.
  • FIG. 3 is a diagram illustrating an example of a data structure for selecting prediction contribution information.
  • the information processing system 100 includes an information processing apparatus 101 communicably connected via a network 102, a user terminal 103 used by a user, and a database 104 in which information to be predicted is stored.
  • the network 102 enables the user terminal 103, the database device 104, and the information processing device 101 to communicate with each other.
  • the user terminal 103 is an information processing device such as a PC (Personal Computer).
  • the user terminal 103 inputs predetermined information by the user and outputs the result calculated by the information processing device 101.
  • the input information is the number of the case for which budget and actual management is desired, and the output information is the probability of closing the deal or the like.
  • data related to projects to be processed by the information processing device 101 and for which budget and actual management is desired is stored in the database device 104.
  • the information processing device 101 is an information processing device that automatically extracts feature amounts that contribute to improving the accuracy of result prediction from unstructured data, and constructs a model that predicts results based on the feature amounts.
  • unstructured data is, for example, free format data.
  • the information processing device 101 includes a storage section 110, a calculation section 120, and a communication section 130.
  • the storage unit 110 stores unstructured information 111 which is unstructured data regarding the prediction target, result information 112 which is result information regarding the prediction target, and other incidental information 113 which is information including at least structured data regarding the prediction target. remember.
  • the calculation unit 120 includes a feature extraction model construction unit 121, a feature extraction model 122, and a result prediction model construction unit 123.
  • the feature extraction model construction unit 121 constructs a machine learning model that predicts a result from the first plurality of unstructured data and result information for each of the first unstructured data.
  • the feature extraction unit 122 inputs the second plurality of unstructured data to the machine learning model and obtains intermediate layer data.
  • the result prediction model construction unit 123 generates data from the intermediate layer data, data including at least structured data regarding each of the second plurality of unstructured data, and result information regarding each of the second unstructured data. Predict the outcome.
  • the first unstructured data is a part of the unstructured information 111
  • the second unstructured data is the remaining part of the unstructured information 111.
  • the communication unit 130 communicates with the information processing device 101 and other devices via the network 102.
  • the information processing device 101 is configured with a computer
  • the calculation unit 120 is configured with a processor
  • the storage unit 110 is configured with a memory.
  • the feature extraction model construction unit 121, the feature extraction unit 122, and the result prediction model construction unit 123 are each composed of programs, and when these programs are processed by a processor, they operate as functional units that provide predetermined functions.
  • the processor functions as the feature extraction model construction unit 121 by processing according to the feature extraction model construction program. The same applies to other programs.
  • the unstructured data is not limited to document data, but other formats such as images and audio may also be used. Furthermore, multiple types of these unstructured data may be used. In that case, appropriate measures may be taken, such as increasing the number of machine learning models constructed by the feature quantity extraction model construction unit 121 by the amount of unstructured data.
  • FIG. 2 shows a processing flow in the feature extraction model construction unit 121.
  • the functions of the feature extraction model construction unit 121 will be described according to this flow.
  • step S202 document data of past cases stored in the unstructured information 111 is read. At that time, instead of reading all the data, the document data of some of the cases is read and used to build a machine learning model that extracts the features. Further, the document data of the remaining cases is used by the result prediction model construction unit 123 to construct a prediction model. In the first embodiment, these data are referred to as first plurality of document data and second plurality of document data, respectively.
  • FIG. 3 shows an example of data that is stored in the unstructured information 111 and stores document files for each information case.
  • Data 301 storing document files for each case is composed of a case number column 311 and an attached document data column 312.
  • the case number column 311 stores information regarding the case number that identifies the case.
  • the attached document file column 312 stores document data regarding each case.
  • the stored document files may be of one type or multiple types.
  • a method of processing one type of data in which interactions between a sales person and a customer, impressions of the sales person, etc. are recorded will be described.
  • use the appropriate method such as combining multiple document data into one document data or constructing a machine learning model by treating multiple document data as separate data. Just choose.
  • step S203 the result information of the case corresponding to the document data read in step S202 is read from the result information 112.
  • FIG. 4 shows an example of data stored in the result information 112, which stores result information for each case.
  • the data 401 storing result information of each case is composed of a case number column 411 and a case conclusion possibility result column 412.
  • the case number column 411 stores information regarding a case number that identifies a case.
  • the case deal conclusion result 412 stores information indicating the result of whether the target deal can be concluded.
  • step S204 a machine learning model that predicts whether or not a deal can be concluded is constructed from the document data read in step S202 and the result information of each deal read in step S203.
  • a machine learning model with an internal neural network is assumed as a machine learning model with an intermediate layer.
  • a neural network also known as a multi-perceptron, is a technology that has the ability to solve linearly non-separable problems by layering multiple perceptrons.
  • the intermediate layer may be any of a plurality of perceptron layers used to calculate the prediction result.
  • FIG. 5 shows an example of document data for each case used in the first embodiment.
  • Document data 501 for each case is constructed by a case number column 511 and a data content column 512.
  • a machine learning model is constructed based on document data as shown in FIG. 5 as unstructured data.
  • morphological analysis is performed to divide each sentence of a document into words that constitute the document, and to divide all words included in the document into word types and word information, and document data Use one-hot vectorization to quantify.
  • a one-hot vector is a vector in which one element among all the elements of the vector is 1 and all other elements are 0.
  • each element of the vector corresponds to a type of word or character.
  • the number of dimensions of a one-hot vector can be determined in advance based on the character types corresponding to each language, or determined after counting the types of words in the document data to be processed. It may be determined as appropriate.
  • image data is used as unstructured data
  • preprocessing such as color correction and image size modification, etc.
  • audio data such as standardization of the audio signal and conversion to spectrogram format. is possible.
  • the feature extraction model construction unit 121 constructs a machine learning model with an intermediate layer based on the unstructured data and its result information according to the above flow, and performs prediction to predict the result for the input unstructured data. Build the model.
  • this model is called a feature amount extraction model, and this model is mainly used to extract feature amounts that contribute to the accuracy of prediction of results from unstructured data such as document data.
  • FIG. 6 shows the processing flow in the feature extraction unit 122 and the predictive model construction unit 123.
  • steps S602 and S603 are processed by the feature amount extraction unit 122
  • steps S604 and S605 are processed by the predictive model construction unit 123.
  • the functions of the feature extraction unit 122 and the predictive model construction unit 123 are shown according to this flow.
  • step S602 document data of past cases stored in the unstructured information 111 is read.
  • the second plurality of document data that were not used in the construction of the machine learning model by the feature quantity extraction model construction unit 121 are read.
  • step S603 the document data read in step S602 is input into the feature extraction model. Then, the values of the intermediate layer of the model are obtained as a feature amount vector. At this time, the read document data is subjected to the same preprocessing as when constructing the feature extraction model.
  • the acquired feature quantity vector is a vector used when predicting the result with the feature quantity extraction model, so it is a feature quantity that contributes to the accuracy of the result prediction.
  • this method by using this method, it is possible to automatically extract a feature amount that contributes to improving the prediction accuracy of the result from unstructured data without the need to manually determine the rules for the feature amount.
  • step S604 the result information of the case corresponding to the document data read in step S602 is read from the result information 112, and other case incidental information related to the case is read from the other incidental information 113.
  • FIG. 7 shows an example of data in which other case incidental information is recorded, which is stored in the other incidental information 113.
  • Other project incidental information 701 includes a project number field 711, a customer industry field 712, a customer home office field 713, a contract amount field 714, and a product type field 715.
  • the case number field 711 stores information on case numbers that identify cases.
  • the customer industry column 712 stores information regarding the customer's industry. The industry has predetermined categories such as “finance”, “automobile”, and “medical”.
  • the customer home base column 713 stores information regarding the country where the customer is based. The home base has predetermined categories such as "Japan,” “America,” and “China.”
  • the contract amount column 714 stores information regarding the contract amount of the item.
  • the product type column 715 stores information regarding the product type sold or proposed in the case.
  • the product type has predetermined categories such as "X product,” "Y product,” and "Z product.”
  • this data may include unstructured data.
  • processing such as one-hot vectorization described above may be performed to appropriately convert unstructured data into numerical data and then into structured data.
  • step S605 a result prediction model is constructed to predict whether the deal can be closed or not based on the feature vector acquired in step S603, the result information of the job acquired in step S604, and other incidental information of the job. do.
  • Examples of the types of algorithms for the predictive model to be constructed include decision trees, random forests, support vector machines, and neural networks.
  • the feature vector and other case incidental information are combined using the case number written in the case number column as a key to create input data for the prediction model.
  • FIG. 8 shows an example of data that is the input data of the prediction model, in which feature vectors and other case incidental information are combined for each case number.
  • Input data 801 for the prediction model includes a case number field 811 , a customer industry field 812 , a customer home office field 813 , a contract amount field 814 , a product type field 815 , and a document feature amount 816 .
  • the document feature amount 816 is a feature amount vector for each document data of each case extracted in S603, and the number N of the feature amounts changes depending on the size of the intermediate layer of the constructed feature amount extraction model.
  • the input data 801 includes character data in the customer industry column, so labeling based on predetermined classifications, etc. Execute.
  • the pretreatment method there is no limit to the pretreatment method, and the pretreatment method may be changed as appropriate.
  • a result prediction model is constructed based on the input data and the case result information.
  • a result prediction model can be constructed based on the feature amount that contributes to improving the prediction accuracy of the result automatically extracted from unstructured data using this method.
  • the predictive model construction unit 123 may have a function of selecting information to be used as input data using the prediction accuracy when constructing the predictive model.
  • An example of a method for constructing a predictive model after selecting information to be used as input data will be described below.
  • input data 801 and the result information of the case acquired in step S604 are used for training (training data) and data for calculating accuracy (verification data). data).
  • multiple feature sets are created by selecting some of the features included in the input data, and a predictive model is constructed using the training data for each feature set, and then verified.
  • the prediction accuracy is calculated based on the data.
  • rules may be set in advance, such as a method of randomly determining the feature set, or a method of always using other project incidental information.
  • FIG. 9 is an example showing prediction accuracy calculated based on a plurality of created feature quantity sets.
  • the prediction accuracy rate of whether or not a deal can be concluded is used as the prediction accuracy.
  • the validity rate table 901 of whether or not a deal can be concluded calculated by each feature set includes a feature set number column 911, a used feature column 912, and a validity rate column 913.
  • the first row of the table 901 shows all the features included in the input data 801: "Customer industry, customer home base, ..., document feature 1, ..., document feature (N-1),” It is shown that the accuracy rate of the prediction model when using "document feature amount N" is 90%.
  • the second row of the table 901 shows "customer industry, customer base, . . . , document feature 1, . , document feature amount (N-1)'' is used, the accuracy rate of the prediction model is 95%.
  • the third row of the table 901 shows "customer industry, contract amount, ..., document feature amount 1, ..., document The accuracy rate of the prediction model when using "feature amount (N-1)" is 75%.
  • Example 1 as an accuracy calculation method, the prediction accuracy was calculated by simply dividing the training data and the verification data, but there is no restriction on the accuracy calculation method, and accuracy calculations such as cross-validation may be performed. There is no problem.
  • the information processing device of the second embodiment performs a process of selecting a portion that contributes to prediction from unstructured data when constructing a result prediction model.
  • Unstructured data can contain noise-like information that does not contribute to predicting results. If a result prediction model is constructed while including such information, events such as a prolonged result prediction model construction time and a decrease in prediction accuracy will occur.
  • the feature extraction unit 122 extracts a feature value vector from unstructured data. Prediction-contributing information can be selected from unstructured data to be used to train an outcome prediction model.
  • An information processing system 1000 includes an information processing apparatus 1001 communicably connected via a network 1002, a user terminal 1003 used by a user, and a database 1004 in which information to be predicted is stored. .
  • the network 1002 enables the user terminal 1003, the database device 1004, and the information processing device 1001 to communicate with each other.
  • the user terminal 1003 is an information processing device such as a PC (Personal Computer).
  • the user terminal 1003 inputs predetermined information from the user and outputs the result calculated by the information processing device 1001.
  • the input information is the number of the case for which budget and actual management is desired, and the output information is the probability of closing the deal or the like.
  • data related to projects to be processed by the information processing apparatus 1001 for which budget and actual management is desired is stored in the database apparatus 1004.
  • the information processing device 1001 is an information processing device that automatically extracts feature amounts that contribute to improving the accuracy of result prediction from unstructured data, and constructs a model for predicting results based on the feature amounts.
  • the information processing device 1001 includes a storage section 1010, a calculation section 1020, and a communication section 1030.
  • the storage unit 1010 stores unstructured information 1011 which is unstructured data regarding the prediction target, result information 1012 which is result information regarding the prediction target, and other incidental information 1013 which is information including at least structured data regarding the prediction target. remember.
  • the calculation unit 1020 includes a feature extraction model construction unit 1021, a feature extraction unit 1022, a result prediction model construction unit 1023, and a prediction contribution information selection unit 1024.
  • the feature extraction model construction unit 1021, the feature extraction unit 1022, and the result prediction model construction unit 1023 of the second embodiment are the same as the feature extraction model construction unit 121, the feature extraction unit 122, and the result prediction model of the first embodiment in FIG. Since the function is the same as that of the construction unit 123, the explanation thereof will be omitted.
  • the newly added prediction contribution information selection unit 1024 selects information that contributes to prediction accuracy from unstructured data based on the machine learning model constructed by the feature extraction model construction unit 1021.
  • the information processing device 1001 is configured with a computer
  • the calculation unit 1020 is configured with a processor
  • the storage unit 1010 is configured with a memory.
  • the feature extraction model construction unit 1021, the feature extraction unit 1022, the result prediction model construction unit 1023, and the prediction contribution information selection unit 1024 each consist of a program, and a processor processes these programs to provide a predetermined function. It operates as a functional department.
  • the processor functions as the predictive contribution information selection unit 1024 by processing according to the predictive contribution information selection program. The same applies to other programs.
  • the communication unit 1030 communicates with the information processing device 1001 and other devices via the network 1002.
  • the information processing apparatus 1001 and the information processing system 1000 of the second embodiment of FIG. 10 have the same configuration as the information processing of the first embodiment of FIG. This is similar to the device 101 and the information processing system 100.
  • the unstructured data used is only document data that records interactions between salespeople and customers, salespeople's impressions, etc.
  • a machine learning model for predicting whether a deal can be concluded is constructed from document data using the feature extraction model construction unit 1021.
  • FIG. 11 shows a processing flow in the prediction contribution information selection unit 1024.
  • the functions of the prediction contribution information selection unit 1024 will be described according to this flow.
  • step S1102 document data stored in the unstructured information 1011 is read.
  • step S1102 a second plurality of document data that was not used to construct the feature extraction model is read.
  • step S1103 the document data read in step S1102 is input to the feature extraction model to calculate the probability of closing the deal.
  • the read document data is subjected to the same preprocessing as when constructing the feature extraction model.
  • the probability of closing a deal is 95%, which is calculated by inputting the document data read in step S1102 into the feature extraction model.
  • step S1104 the probability of closing a deal is calculated when one word is masked in the document data used as input data in step S1103.
  • Masking here means that certain words in a sentence are not used as input data to the feature extraction model.
  • the one-hot vector for the masked word becomes a vector in which all elements are 0.
  • each word is simultaneously masked and used as input data.
  • This process it is possible to calculate the probability of closing a deal based on a sentence from which certain words have been removed from document data. This process is executed for each word included in the document data, and the predicted probability when each word is masked is held.
  • FIG. 12A shows an example of document data for selecting information that contributes to prediction
  • FIG. 12B shows an example of a table recording the predicted probability and the range of change in the predicted probability when each word included in the document data is masked.
  • the sentence ⁇ We received a positive response to the proposal.'' included in the document data 1201 means that the customer is satisfied with the proposal, and is thought to contribute to the accuracy of predicting whether a deal will be concluded. It will be done. On the other hand, the sentence ⁇ After that, I headed to a meeting with another company.'' clearly does not contribute to the accuracy of predicting whether a deal will be concluded.
  • the purpose of the information processing apparatus 1001 is to remove such sentences.
  • the table 1202 includes a masked word column 1211, a predicted probability column 1212, and a predicted probability change width column 1213.
  • the predicted probability change range column 1213 contains the probability of closing the deal calculated by inputting the original text calculated in step S1103 as input data to the feature extraction model, and the masked probability calculated in step S1104.
  • the absolute value of the difference between the sentence and the probability of closing a deal calculated by inputting a sentence with the words written in the word column 1211 as input data into the feature extraction model is stored.
  • the first line of the table 1202 shows the range of change in the probability of closing a deal and the predicted probability when the word "proposal" included in the document data 1201 is masked. Since the probability of closing a deal when "proposal" is masked is 93%, the range of change in predicted probability is 2%.
  • the second line of the table 1202 shows the range of change in the probability of closing the deal and the predicted probability when the word "prospective" included in the document data 1201 is masked. Since the probability of closing a deal when "positive" was masked was 75%, the range of change in the predicted probability is 20%.
  • the third line of the table 1202 shows the range of change in the probability of closing the deal and the predicted probability when the word "reaction" included in the document data 1201 is masked. Since the probability of closing a deal when "reaction" was masked was 90%, the range of change in predicted probability was 5%.
  • step S1105 a threshold value is set for the range of change in the prediction probability, words exceeding the threshold value are selected as words that contribute to the prediction of a deal, and sentences containing the word are It is output as input data of the extraction unit 1022.
  • the threshold value for the range of change in prediction probability is set to 10%.
  • the sentence "We received a positive response to the proposal" that includes the selected word is selected as input data for the feature extraction unit 1022.
  • the sentence ⁇ After that, I headed to a meeting with another company'' that does not include the word ⁇ positive'' is determined to be a sentence that does not contribute to predicting whether a deal will be closed or not, and the feature extraction unit 1022 Not selected as input data.
  • the sentences selected by this process are output as input data to the feature extraction unit 1022.
  • the subsequent processing executes the flow shown in FIG. 6 as shown in the first embodiment. Thereby, before the feature amount extraction unit 1022 acquires a feature amount vector from unstructured data, it is possible to select information that contributes to prediction and should be used as training data for the model.
  • Example 2 the words in the sentence are masked, the prediction probability is calculated, and it is determined whether each word contributes to prediction based on the range of change, but of course the method is not limited to this method.
  • the target to be masked was a word.
  • it can be handled by changing the masking target as appropriate.
  • a method can be considered in which a certain range of pixels or part of the image is masked, and the value of the masked pixels or part of the image is set to 0 and input data is used.
  • a method can be considered in which data at a certain time is masked and the amplitude value of the signal at the masked time is set to 0 and input data is used.
  • Information processing system 101 Information processing device 102 Network 103 User terminal 104 Database 110 Storage unit 120 Arithmetic unit 121 Feature extraction model construction unit 122 Feature extraction unit 123 Result prediction model construction unit 130 Communication unit 1024 Prediction contribution information selection unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数の第1の非構造化データと第1の非構造化データのそれぞれについての前記結果情報に基づいて結果を予測する特徴量抽出モデルを構築する特徴量抽出モデル構築部と、特徴量抽出モデルに複数の第2の非構造化データを入力して結果の予測精度に寄与する特徴量を抽出する特徴量抽出部と、特徴量と複数の第2の非構造化データのそれぞれの付帯情報と第2の非構造化データのそれぞれの前記結果情報に基づいて結果を予測する結果予測モデルを構築する結果予測モデル構築部とを有する。

Description

情報処理装置、情報処理システム及び情報処理方法
 本発明は、情報処理装置、情報処理システム及び情報処理方法に関する。
 適切な予実管理は計画の立案や人員リソースの最適化を行うために必要な過程である。予実管理を適切に実施するには、現時点で獲得しようとしている案件が将来的に成約される確率や案件の進捗率などを正確に予測することが必要となる。
 しかし、案件の成約可否やその進捗度合いを正確に予測することは困難なため、適切な予実管理は様々な企業にとって課題となっており、売上の低下や機会損失を招いてしまっている。ここで、案件の成約可否や進捗度合いを予測するのが困難な理由は、対象顧客のその時の状況によってその成約率が変わってしまい、過去の類似案件のデータのみを参考にした予測アルゴリズムでは精度が悪くなってしまうことが主な理由である。
 ここでいう顧客状況とは、顧客が提案に前向きか否か、や競合他社の存在など、案件ごとに変化する顧客の状況を意味している。
 この顧客状況は日々、案件成約のために顧客と接している営業が最もよく把握している。したがって、日々の営業活動にて記録された営業の記録文書から顧客の状況情報を抽出することで、案件予測アルゴリズムの精度向上が見込める。
 特許文献1には、案件の成約可否等の結論を予測する場合に、案件のために作成された文書ファイル又はその案件に関して複数のユーザー間でやり取りされたメッセージ群を用いることができる情報処理装置を提供する方法について開示されている。
特開2021-149844号公報
 特許文献1では、案件のために作成された文書ファイル又はメッセージ群から複数のルールをもとに情報を抽出し、案件毎の文書ファイル又はメッセージ群内の情報に対応した案件の結論を予測することを学習した人工知能によって、案件についての結論を予測する。
 しかし、上記技術では、人手で特徴量のルールを決めるため恣意的な判断基準になってしまうため、作成した特徴量が必ずしも予測に効くとは限らない。また、対象顧客や案件が増えるにつれ新たにルールを増やしていく必要があるため、かなりの工数が必要になってしまう。
 本発明の目的は、情報処理装置において、予測に効く特徴量を自動で抽出することにより、恣意的な判断を防止することにある。
 本発明の一態様の情報処理装置は、記憶部と演算部とを有する情報処理装置であって、前記記憶部は、予測対象に関する非構造化情報と、前記予測対象に関する結果情報と、前記予測対象に関する付帯情報とを記憶し、前記演算部は、前記非構造化情報の一部分である複数の第1の非構造化データと、前記第1の非構造化データのそれぞれについての前記結果情報に基づいて、結果を予測する特徴量抽出モデルを構築する特徴量抽出モデル構築部と、前記特徴量抽出モデルに前記非構造化情報の残りの部分である複数の第2の非構造化データを入力して、前記結果の予測精度に寄与する特徴量を抽出する特徴量抽出部と、前記特徴量と、複数の前記第2の非構造化データのそれぞれの前記付帯情報と、前記第2の非構造化データのそれぞれの前記結果情報に基づいて、前記結果を予測する結果予測モデルを構築する結果予測モデル構築部とを有することを特徴とする。
 本発明に一態様によれば、情報処理装置において、予測に効く特徴量を自動で抽出することにより、恣意的な判断を防止することができる。
実施例1に関する情報処理装置及び情報処理システムの構成の一例を示したブロック図である。 情報処理装置における特徴量抽出モデル構築部での処理の一例を示すフローチャートである。 非構造化情報のデータ構造の一例を示す図である。 結果情報のデータ構造の一例を示す図である。 各案件の文書データの一例を示す図である。 情報処理装置における特徴量抽出部と結果予測モデル構築部での処理の一例を示すフローチャートである。 その他付帯情報のデータ構造の一例を示す図である。 結果予測モデルの入力データ構造の一例を示す図である。 複数の特徴量セットをもとに算出された予測精度のデータ構造の一例を示す図である。 実施例2に関する情報処理装置及び情報処理システムの構成の一例を示したブロック図である。 情報処理装置における予測寄与情報選択部での処理の一例を示すフローチャートである。 予測に寄与する情報を選択する文書データの一例を示す図である。 予測寄与情報を選択するためのデータ構造の一例を示す図であるである。
 以下、本発明の実施例について図面を参照して説明する。
 図1を参照して、実施例1に関する情報処理装置及び情報処理システムの構成について説明する。
  情報処理システム100は、ネットワーク102を介して通信可能に接続された情報処理装置101と、ユーザーが使用するユーザー端末103と、予測対象の情報が格納されたデータベース104とを有する。
 ネットワーク102は、ユーザー端末103と、データベース装置104と、情報処理装置101と、を互いに通信可能にする。
 ユーザー端末103は、PC(Personal Computer)等の情報処理装置である。ユーザー端末103は、ユーザーが所定の情報を入力し、情報処理装置101において演算された結果を出力する。具体例として、営業活動における案件成約可否を予測する場合では、入力情報は予実管理を行いたい案件番号などであり、出力情報は案件の成約可否確率などである。ここで、情報処理装置101で処理する予実管理を行いたい案件に関するデータはデータベース装置104に格納されている。
 情報処理装置101は、非構造化データから結果予測の精度向上に寄与する特徴量を自動で抽出し、その特徴量をもとに結果を予測するモデルを構築する情報処理装置である。ここで、非構造化データとは、例えば、フリーフォーマットのデータである。
 情報処理装置101は、記憶部110と、演算部120と、通信部130とを有する。記憶部110は、予測対象に関する非構造化データである非構造化情報111と、予測対象に関する結果情報である結果情報112と、予測対象に関する少なくとも構造化データを含む情報であるその他付帯情報113とを記憶する。
 演算部120は、特徴量抽出モデル構築部121と、特徴量抽出部122と、結果予測モデル構築部123とを有する。
 特徴量抽出モデル構築部121は、第1の複数の非構造化データと、第1の非構造化データのそれぞれについての結果情報とから結果を予測する機械学習モデルを構築する。特徴量抽出部122は、機械学習モデルに第2の複数の非構造化データを入力し、中間層のデータを取得する。結果予測モデル構築部123は、中間層のデータと、第2の複数の非構造化データのそれぞれに関する少なくとも構造化データを含むデータと、第2の非構造化データのそれぞれについての結果情報とからその結果を予測する。ここで、第1の非構造化データとは、非構造化情報111の一部分であり、第2の非構造化データとは、非構造化情報111の残りの部分である。
 通信部130は、ネットワーク102を介して情報処理装置101と他の装置と通信を行う。
  例えば、情報処理装置101は計算機で構成され、演算部120はプロセッサで構成され、記憶部110はメモリで構成されている。
 特徴量抽出モデル構築部121、特徴量抽出部122及び結果予測モデル構築部123はそれぞれプログラムで構成され、これらのプログラムをプロセッサが処理することにより、所定の機能を提供する機能部として稼働する。例えば、プロセッサは、特徴量抽出モデル構築プログラムに従って処理することで特徴量抽出モデル構築部121として機能する。他のプログラムについても同様である。
 本実施例1では、営業活動における案件成約可否を予測する場合を想定する。またそれに伴い、使用する非構造化データとして、営業担当者と顧客とのやりとりや営業担当者の所感などが記された文書データのみを使用する。
 ここで、非構造化データは文書データに限らず、画像や音声など他の形式のものを使用しても良い。また、これらの非構造化データを複数種類使用してもよい。その場合、特徴量抽出モデル構築部121で構築する機械学習モデルの数を非構造化データの分だけ増やすなど、適宜対応すればよい。
 図2に特徴量抽出モデル構築部121での処理フローを示す。以下実施例では本フローに従い、特徴量抽出モデル構築部121の機能を示す。
  まず、ステップS202では、非構造化情報111に格納された過去案件の文書データを読み込む。その際、全データを読み込むのではなく、その一部の案件の文書データを読み込み、特徴量を抽出する機械学習モデルを構築するために使用する。また、残りの案件の文書データは、結果予測モデル構築部123において予測モデルを構築するために使用される。本実施例1ではこれらのデータをそれぞれ、第1の複数の文書データと第2の複数の文書データと呼ぶ。
 図3は、非構造化情報111に格納された、情報各案件における文書ファイルを格納したデータの例を示している。
  各案件における文書ファイルを格納したデータ301は、案件番号欄311と、添付文書データ欄312と、から構成される。
 案件番号欄311には、案件を識別する案件番号に関する情報が格納される。添付文書ファイル欄312には、各案件に関する文書データが格納される。
 ここで、格納されている文書ファイルは、一種類でも複数種類でもよい。本実施例1では例として、営業担当者と顧客とのやりとりや営業担当者の所感などが記された一種類のデータでの処理方法を示す。複数種類を使用する場合は、複数の文書データを一つの文書データとなるように結合する方法や、複数の文書データをそれぞれ別のデータとみなして機械学習モデルを構築する方法など、適宜方法を選択すればよい。
 次に、ステップS203では、ステップS202で読み込んだ文書データと対応した案件の結果情報を結果情報112から読み込む。
 図4は、結果情報112に格納された、各案件の結果情報を格納したデータの例を示している。
  各案件の結果情報を格納したデータ401は、案件番号欄411と、案件成約可否結果欄412と、から構成される。案件番号欄411には、案件を識別する案件番号に関する情報が格納される。案件成約可否結果412には、対象案件の成約可否の結果を示す情報が格納される。
 本実施例1では、営業活動に置ける案件成約可否を予測するため、対象の案件が成約したか否かの二値情報が格納されている。しかし、本情報処理装置で処理する結果情報の形式に制限はなく、例えば予測対象がプロジェクトの進捗率の場合などでは、実数や確率値のような連続値でもよい。
 次に、ステップS204では、ステップS202で読み込んだ文書データとステップS203で読み込んだ各案件の結果情報とから、案件成約可否結果を予測する機械学習モデルを構築する。
 本実施例1では、中間層をもつ機械学習モデルとして内部にニューラルネットワークを有した機械学習モデルを想定する。ニューラルネットワークとは、別名、マルチパーセプトロンとも呼ばれ、複数のパーセプトロンを多層的に重ねることで、線形分離不可能問題を解く能力をもたせた技術である。ここで、中間層は、予測結果を算出するために使用される複数のパーセプトロンの層のいずれであってもよい。
 図5に、本実施例1にて使用する各案件の文書データの例を示す。
  各案件の文書データ501は案件番号欄511とデータ内容欄512によって構築されている。本実施例1では、非構造化データとして図5に示したような文書データをもとに機械学習モデルを構築する。
 そこでまず、機械学習モデルが構築できるよう文書データの前処理を行う。本実施例1では、前処理方法として、文書を構成する文章ごとに文書を構成する単語に分割し、文書に含まれる全ての単語について単語の種類、単語情報に分割する形態素解析と、文書データの数値化を行うワンホットベクトル化を使用する。
 ワンホットベクトルとは、ベクトルの全要素のうち、1個の要素が1であり、それ以外の要素が全て0であるベクトルである。文書データをワンホットベクトル化する場合、ベクトルの各要素は単語や文字の種類に対応する。ワンホットベクトルの次元数は各言語に対応した文字の種類をもとに予め決定しておく方法や、処理する文書データの単語の種類を数えた後に決定する方法などがあるが、その時の分析に応じて適宜定めれば良い。
 また、文書データを機械学習モデルへの入力データとする前処理方法は埋め込みベクトル化など他にも多数あり、本実施例の方式に限られるものではない。
 また、非構造化データとして画像データを使用した場合には、色補正や画像の大きさの変更など、音声データを使用した場合は、音声信号の標準化やスペクトログラム形式への変換など、の前処理が考えられる。
 特徴量抽出モデル構築部121では、上記のフローによって非構造化データとその結果情報をもとに、中間層をもつ機械学習モデルを構築し、入力された非構造化データに対する結果を予測する予測モデルを構築する。本実施例1では本モデルを特徴量抽出モデルと呼び、本モデルは主に文書データなどの非構造化データから結果の予測の精度に寄与する特徴量を抽出するために使用される。
 図6に特徴量抽出部122と予測モデル構築部123での処理フローを示す。ここで図6において、ステップS602とステップS603は特徴量抽出部122によって処理され、ステップS604とステップS605は予測モデル構築部123によって処理される。
 本実施例1では本フローに従い、特徴量抽出部122と予測モデル構築部123の機能を示す。
 まず、ステップS602では、非構造化情報111に格納された過去案件の文書データを読み込む。その際、特徴量抽出モデル構築部121での機械学習モデルの構築に使用しなかった第2の複数の文書データを読み込む。
 次に、ステップS603では、ステップS602にて読み込んだ文書データを特徴量抽出モデルに入力する。そして、そのモデルの中間層の値を特徴量ベクトルとして取得する。その際、読み込んだ文書データには特徴量抽出モデル構築時と同様の前処理を施す。
 取得した特徴量ベクトルは、特徴量抽出モデルにて結果を予測する際に使用されるベクトルであるため、その結果予測の精度に寄与する特徴量である。本発明の情報処理装置では、この方法により人手で特徴量のルールを決める必要なく、非構造化データから自動的に結果の予測精度の向上に寄与する特徴量を抽出することができる。
 次に、ステップS604では、ステップS602にて読み込んだ文書データと対応した案件の結果情報を結果情報112から、案件に関係したその他案件付帯情報をその他付帯情報113から読み込む。
 図7にその他付帯情報113に格納された、その他案件付帯情報が記録されたデータの例を示す。
  その他案件付帯情報701は、案件番号欄711と、顧客業種欄712と、顧客本拠地欄713と、契約金額欄714と製品種別欄715と、から構成される。
 案件番号欄711には、案件を識別する案件番号の情報が格納される。顧客業種欄712には、顧客の業種に関する情報が格納される。業種は、「金融」、「自動車」、「医療」等、予め定められた区分を有する。顧客本拠地欄713には、顧客の拠点となる国に関する情報が格納される。本拠地は、「日本」、「アメリカ」、「中国」等、予め定められた区分を有する。
 契約金額欄714には、案件の契約金額に関する情報が格納される。製品種別欄715には、案件にて販売や提案した製品種別に関する情報が格納される。製品種別は、「X製品」、「Y製品」、「Z製品」等、予め定められた区分を有する。
 また、本データには非構造化データが含まれていても良い。その場合前述したワンホットベクトル化など、適宜非構造化データを数値データへと変換し、構造化データへと変換する処理を行えばよい。
 次に、ステップS605では、ステップS603にて取得した特徴量ベクトルとステップS604にて取得した案件の結果情報とその他案件付帯情報をもとに、案件の成約可否結果を予測する結果予測モデルを構築する。
 構築する予測モデルのアルゴリズムの種類として、例えば、決定木、ランダムフォレスト、サポートベクターマシン(Support Vector Machine)、ニューラルネットワークなどがある。
 上記のような予測モデルを構築するため、本ステップではまず特徴量ベクトルとその他案件付帯情報を、案件番号欄に記載された案件番号をキーとして結合し、予測モデルの入力データを作成する。
 図8に予測モデルの入力データである、特徴量ベクトルとその他案件付帯情報を案件番号ごとに結合したデータの例を示す。
  予測モデルの入力データ801は、案件番号欄811と、顧客業種欄812と、顧客本拠地欄813と、契約金額欄814と製品種別欄815と、文書特徴量816から構成される。文書特徴量816は、S603にて抽出した各案件の文書データごとの特徴量ベクトルであり、その特徴量数Nは構築した特徴量抽出モデルの中間層の大きさによって変化する。
 次に、使用する予測モデルに適した前処理方法によって作成した入力データの前処理を行う。例えば、予測モデルとしてニューラルネットワークなど数値データを処理するアルゴリズムを使用する場合、入力データ801では、顧客業種欄に文字データが含まれているため、予め定められた区分をもとにしたラベル化などを実行する。ここで、前処理方法に制限はなく、適宜前処理方法を変更してもよい。その後、入力データと、案件の結果情報をもとに結果予測モデルを構築する。
 本モデルをもとにある案件の成約確率を予測する際には、予測したい案件の文書データを特徴量抽出部に入力し、特徴量ベクトルを取得し、該特徴量ベクトルと結果予測モデル構築時と同様の前処理を施したその他案件付帯情報を結合し、予測モデルに入力することでその案件の成約確率を計算することができる。
 本実施例1の情報処理装置101では、この方法により非構造化データから自動的に抽出した結果の予測精度の向上に寄与する特徴量をもとに、結果予測モデルを構築することができる。
 また、本実施例1では、予測モデル構築部123において、予測モデル構築時に、その予測精度を用いて、入力データとして使用する情報を選択する機能を備えてもよい。以下、入力データとして使用する情報を選択した後、予測モデルを構築する方法の実施例を示す。
 まず、予測精度を計算するために、入力データ801と、ステップS604にて取得した案件の結果情報を、訓練に使用するためのデータ(訓練用データ)と精度を計算するためのデータ(検証用データ)に分割する。
 その後、入力データに含まれている特徴量のうち、いくつかの特徴量を選択した特徴量セットを複数作成し、各特徴量セットについて、訓練用データを用いて予測モデルを構築した後、検証用データによって、その予測精度を算出する。ここで、特徴量セットの作成方法に制限はなく、ランダムに決定する方法や、その他案件付帯情報は必ず使用するなど予めルールを定めておいてもよい。
 図9は作成された複数の特徴量セットをもとに算出された予測精度を示した例である。本実施例1では、予測精度として案件成約可否の予測正当率を使用している。
  各特徴量セットによって算出された案件成約可否の正当率表901は、特徴量セット番号欄911と、使用した特徴量欄912と、正当率欄913と、から構成される。
 例えば、表901の1行目は、入力データ801に含まれている全特徴量「顧客業種、顧客本拠地、...、文書特徴量1、...、文書特徴量(N-1)、文書特徴量N」を使用した場合の予測モデルの正当率は、90%であることを示している。
 また、表901の2行目は、入力データ801に含まれている特徴量のうち、文書特徴量Nを除いた、「顧客業種、顧客本拠地、...、文書特徴量1、...、文書特徴量(N-1)」を使用した場合の予測モデルの正当率は、95%であることを示している。
 また、表901の3行目は、入力データ801に含まれている特徴量のうち、顧客本拠地を除いた、「顧客業種、契約金額、...、文書特徴量1、...、文書特徴量(N-1)」を使用した場合の予測モデルの正当率は、75%であることを示している。
 したがって、本実施例1では、特徴量セットBをもとに構築した予測モデルの精度が高いことから、特徴量セットBを使用した結果予測モデルを構築し、使用する。
 このように、特徴量として使用する情報を選択することで、より精度の高く、高速な処理が可能な予測モデルの構築が可能となる。また、本実施例1では、精度計算方法として、単純に訓練用データと検証用データに分割し、予測精度を計算したが、精度計算方法に制限はなく、交差検証による精度計算などを行っても問題ない。
 次に、結果予測モデルを構築する際に、非構造化データから予測に寄与する部分を選択する処理を実施例2の情報処理装置で行う方法について述べる。
 非構造化データには、結果の予測に寄与しないノイズのような情報が含まれることがありうる。このような情報を含んだまま結果予測モデルを構築してしまうと、結果予測モデル構築時間の長期化や予測精度の低下といった事象が発生してしまう。
 そのため、実施例2の情報処理装置では、結果の予測に寄与しないノイズのような情報が結果予測モデルの訓練用データとして使用されないよう、特徴量抽出部122にて非構造化データから特徴量ベクトルを抽出する前に、結果予測モデルの訓練に使用すべき、予測に寄与する情報を非構造化データから選択することができる。
 本処理では、結果予測モデルの訓練データからノイズのような情報が除去することできるため、結果予測モデルの訓練時間の削減や予測精度の向上などという効果がある。
 図10を参照して、実施例2に関する情報処理装置及び情報処理システムの構成について説明する。
  本実施例2の情報処理システム1000は、ネットワーク1002を介して通信可能に接続された情報処理装置1001と、ユーザーが使用するユーザー端末1003と、予測対象の情報が格納されたデータベース1004とを有する。
 ネットワーク1002は、ユーザー端末1003と、データベース装置1004と、情報処理装置1001とを互いに通信可能にする。
 ユーザー端末1003は、PC(Personal Computer)等の情報処理装置である。ユーザー端末1003は、ユーザーが所定の情報を入力し、情報処理装置1001において演算された結果を出力する。具体例として、営業活動における案件成約可否を予測する場合では、入力情報は予実管理を行いたい案件番号などであり、出力情報は案件の成約可否確率などである。ここで、情報処理装置1001で処理する予実管理を行いたい案件に関するデータはデータベース装置1004に格納されている。
 情報処理装置1001は、非構造化データから結果予測の精度向上に寄与する特徴量を自動で抽出し、その特徴量をもとに結果を予測するモデルを構築する情報処理装置である。情報処理装置1001は、記憶部1010と、演算部1020と、通信部1030とを有する。
 記憶部1010は、予測対象に関する非構造化データである非構造化情報1011と、予測対象に関する結果情報である結果情報1012と、予測対象に関する少なくとも構造化データを含む情報であるその他付帯情報1013とを記憶する。
 演算部1020は、特徴量抽出モデル構築部1021と、特徴量抽出部1022と、結果予測モデル構築部1023と、予測寄与情報選択部1024とを有する。実施例2の特徴量抽出モデル構築部1021、特徴量抽出部1022及び結果予測モデル構築部1023は、図1の実施例1の特徴量抽出モデル構築部121、特徴量抽出部122及び結果予測モデル構築部123と機能は同じなのでその説明は省略する。
 新たに追加された予測寄与情報選択部1024は、特徴量抽出モデル構築部1021で構築した機械学習モデルをもとに非構造化データから予測精度に寄与する情報を選択する。
 例えば、情報処理装置1001は計算機で構成され、演算部1020はプロセッサで構成され、記憶部1010はメモリで構成されている。
 特徴量抽出モデル構築部1021、特徴量抽出部1022、結果予測モデル構築部1023及び予測寄与情報選択部1024はそれぞれプログラムで構成され、これらのプログラムをプロセッサが処理することにより、所定の機能を提供する機能部として稼働する。例えば、プロセッサは、予測寄与情報選択プログラムに従って処理することで予測寄与情報選択部1024として機能する。他のプログラムについても同様である。
 通信部1030は、ネットワーク1002を介して情報処理装置1001と他の装置と通信を行う。
 このように、図10の実施例2の情報処理装置1001及び報処理システム1000は、予測寄与情報選択部1024が新たに追加された点を除き、その構成は図1の実施例1の情報処理装置101及び報処理システム100と同様である。
 本実施例2でも実施例1と同様に例として営業活動における案件成約可否を予測する場合を想定する。また、使用する非構造化データとして、営業担当者と顧客とのやりとりや営業担当者の所感などが記された文書データのみを使用する。
 まず初めに、実施例1と同様の処理によって、特徴量抽出モデル構築部1021を用いて文書データから案件成約可否を予測する機械学習モデルを構築する。
 図11に予測寄与情報選択部1024での処理フローを示す。以下実施例では本フローに従い、予測寄与情報選択部1024の機能を示す。
  まず、ステップS1102では、非構造化情報1011に格納された文書データを読み込む。その際、特徴量抽出モデルの構築に使用しなかった第2の複数の文書データを読み込む。
 次に、ステップS1103では、ステップS1102にて読み込んだ文書データを特徴量抽出モデルに入力して、案件成約可否確率を算出する。その際、読み込んだ文書データには特徴量抽出モデル構築時と同様の前処理を施す。本実施例2では、ステップS1102にて読み込んだ文書データを特徴量抽出モデルに入力することによって算出された案件成約確率が95%であったとする。
 次に、ステップS1104では、ステップS1103で入力データとして使用した文書データのうち、ある一つの単語をマスクした場合の案件成約確率を算出する。ここでマスクするという意味は、文章中のある単語を使用しないで特徴量抽出モデルへの入力データとすることである。
 本実施例2では、ワンホットベクトル化を施しているため、マスクした単語についてワンホットベクトルは全ての要素が0であるベクトルとなる。その際、文書データにマスク対象の単語が2つ以上含まれている場合、それぞれ同時にマスクして、入力データとする。本処理により、文書データから、ある単語を除去した文章をもとに案件成約確率を算出することができる。本処理を文書データ内に含まれている各単語に対して実行し、各単語をマスクした際の予測確率を保持する。
 図12Aに予測に寄与する情報を選択する文書データの例と、図12Bに文書データに含まれる各単語をマスクした際の予測確率と予測確率の変化幅を記録した表の例を示す。
 文書データ1201に含まれる「提案に対して前向きな反応をいただいた。」という文章は、顧客が提案に納得していることを意味しており、案件成約可否の予測の精度には寄与すると考えられる。一方、「その後、私は別の会社との打合せに向かった。」という文章は、明らかに案件成約可否の予測の精度には寄与しない。本情報処理装置1001では、このような文章を除去することを目的とする。
 表1202は、マスクした単語欄1211と、予測確率欄1212と、予測確率の変化幅欄1213と、から構成される。ここで、予測確率の変化幅欄1213には、ステップS1103にて算出したオリジナルの文章を入力データとして特徴量抽出モデルに入力することで算出された案件成約確率と、S1104にて算出したマスクした単語欄1211に記載された単語をマスクした文章を入力データとして特徴量抽出モデルに入力することで算出された案件成約確率との差の絶対値が格納される。
 例えば、表1202の1行目は、文書データ1201に含まれた「提案」という単語をマスクした場合の案件成約確率と予測確率の変化幅を示している。「提案」をマスクした場合の案件成約確率が93%であったため、予測確率の変化幅は2%となる。
 表1202の2行目は、文書データ1201に含まれた「前向き」という単語をマスクした場合の案件成約確率と予測確率の変化幅を示している。「前向き」をマスクした場合の案件成約確率が75%であったため、予測確率の変化幅は20%となる。
 表1202の3行目は、文書データ1201に含まれた「反応」という単語をマスクした場合の案件成約確率と予測確率の変化幅を示している。「反応」をマスクした場合の案件成約確率が90%であったため、予測確率の変化幅は5%となる。
 算出した予測確率の変化幅が大きい場合、その単語は案件成約の予測に寄与する単語であると判断ができる。なぜならその単語を文書データから除去するだけで、オリジナルの文章での予測から大きく予測確率が変化したということを意味するためである。
 そこで、ステップS1105では、予測確率の変化幅のしきい値を設定し、そのしきい値を超えた単語を案件成約の予測に寄与する単語として選択し、その単語が含まれる文章を、特徴量抽出部1022の入力データとして出力する。
 本実施例2では、予測確率の変化幅のしきい値を10%と設定する。その結果、表1202の結果より、「前向き」という単語のみが予測に寄与する単語として選択されたとする。
 したがって、選択された単語が含まれる「提案に対して前向きな反応をいただいた。」という文章は、特徴量抽出部1022の入力データとして選択される。一方、「前向き」という単語が含まれない「その後、私は別の会社との打合せに向かった。」という文章は、案件成約可否の予測に寄与しない文章と判断され、特徴量抽出部1022の入力データとして選択されない。
 その後、本処理によって選択された文章を、特徴量抽出部1022の入力データとして出力する。以降の処理は、実施例1に示したように、図6のフローを実行する。これにより、特徴量抽出部1022において非構造化データから特徴量ベクトルを取得する前に、モデルの訓練用データとして使用すべき、予測に寄与する情報を選択することができる。
 本実施例2では、文章中の単語をマスクし、予測確率を算出し、その変化幅をもとに各単語が予測に寄与しているかを判定したが、もちろん本方式に制限されない。
 また、本実施例2では、文書データを例として扱ったため、マスクする対象を単語とした。同様の手法でその他の非構造化データを扱う場合には、そのマスク対象を適宜変更することで対応可能である。例えば、非構造化データとして画像を扱う場合には、ある特定の範囲のピクセルや画像の一部分をマスクし、マスクされたピクセルやや画像の一部分の値を0として入力データとする方法が考えられる。
 また、音声データでは、ある時間のデータをマスクし、マスクされた時間における信号の振幅値を0として入力データとする方法が考えられる。
 上記実施例によれば、文書データなど非構造化データを使用してある結果を予測するモデルを構築する場合に、非構造化データから結果予測の精度向上に寄与する特徴量を自動で抽出することができ、その特徴量をもとに結果を予測するモデルを構築することができる。
100 情報処理システム
101 情報処理装置
102 ネットワーク
103 ユーザー端末
104 データベース
110 記憶部
120 演算部
121 特徴量抽出モデル構築部
122 特徴量抽出部
123 結果予測モデル構築部
130 通信部
1024 予測寄与情報選択部

Claims (13)

  1.  記憶部と演算部とを有する情報処理装置であって、
     前記記憶部は、
     予測対象に関する非構造化情報と、
     前記予測対象に関する結果情報と、
     前記予測対象に関する付帯情報と、を記憶し、
     前記演算部は、
     前記非構造化情報の一部分である複数の第1の非構造化データと、前記第1の非構造化データのそれぞれについての前記結果情報に基づいて、結果を予測する特徴量抽出モデルを構築する特徴量抽出モデル構築部と、
     前記特徴量抽出モデルに前記非構造化情報の残りの部分である複数の第2の非構造化データを入力して、前記結果の予測精度に寄与する特徴量を抽出する特徴量抽出部と、
     前記特徴量と、複数の前記第2の非構造化データのそれぞれの前記付帯情報と、前記第2の非構造化データのそれぞれの前記結果情報に基づいて、前記結果を予測する結果予測モデルを構築する結果予測モデル構築部と、
     を有することを特徴とする情報処理装置。
  2.  前記特徴量抽出モデル構築部は、
     前記特徴量抽出モデルとして、中間層をもつ機械学習モデルを構築することを特徴とする請求項1に記載の情報処理装置。
  3.  前記特徴量抽出部は、
     複数の前記第2の非構造化データを前記特徴量抽出モデルに入力して、前記中間層の値を特徴量ベクトルとして取得して前記特徴量を抽出することを特徴とする請求項2に記載の情報処理装置。
  4.  前記結果予測モデル構築部は、
     所定の前記予測精度を満たす前記特徴量を選択し、選択した前記特徴量を用いて前記結果予測モデルを構築することを特徴とする請求項1に記載の情報処理装置。
  5.  前記結果予測モデル構築部は、
     前記予測精度として、前記結果の予測正当率を用いて前記特徴量を選択することを特徴とする請求項4に記載の情報処理装置。
  6.  前記特徴量抽出モデルに基づいて、前記非構造化情報から前記予測精度に寄与する予測寄与情報を選択する予測寄与情報選択部を更に有することを特徴とする請求項1に記載の情報処理装置。
  7.  前記非構造化情報は、
     所定の活動に関する複数の文書データを含み、
     前記結果情報は、
     前記所定の活動における案件成約可否の結果を含み、
     前記付帯情報は、
     少なくとも前記予測対象に関する構造化データを含むことを特徴とする請求項6に記載の情報処理装置。
  8.  前記予測寄与情報選択部は、
     前記第2の非構造化データとして複数の前記文書データを前記特徴量抽出モデルに入力して前記案件成約可否の案件成約可否確率を算出し、
     前記文書データ内に含まれている各単語をマスクして、前記各単語をマスクした際の予測確率をそれぞれ算出し、
     前記案件成約可否確率と比べた前記予測確率の変化幅が所定のしきい値を超えた前記単語を前記案件成約可否の予測に寄与する単語として選択し、
     前記予測に寄与する単語が含まれる前記文章データを前前記特徴量抽出モデルに入力することを特徴とする請求項7に記載の情報処理装置。
  9.  前記非構造化情報は、
     前記所定の活動として、営業活動に関する前記文書データを含み、
     前記結果情報は、
     前記所定の活動として、前記営業活動における前記案件成約可否の結果を含むことを特徴とする請求項8に記載の情報処理装置。
  10.  情報処理装置とユーザー端末とがネットワークを介して接続された情報処理システムであって、
     前記ユーザー端末は、
     ユーザーが所定の情報を入力し、前記情報処理装置において演算された結果を出力し、
     前記情報処理装置は、
     記憶部と演算部と通信部を有し、
     前記演算部は、
     前記非構造化情報の一部分である複数の第1の非構造化データと、前記第1の非構造化データのそれぞれについての前記結果情報に基づいて、結果を予測する特徴量抽出モデルを構築する特徴量抽出モデル構築部と、
     前記特徴量抽出モデルに前記非構造化情報の残りの部分である複数の第2の非構造化データを入力して、前記結果の予測精度に寄与する特徴量を抽出する特徴量抽出部と、
     前記特徴量と、複数の前記第2の非構造化データのそれぞれの前記付帯情報と、前記第2の非構造化データのそれぞれの前記結果情報に基づいて、前記結果を予測する結果予測モデルを構築する結果予測モデル構築部と、を有し、
     前記通信部は、
     前記ネットワークを介して、前記情報処理装置と前記ユーザー端末との通信を行うことを特徴とする情報処理システム。
  11.  前記情報処理装置の前記特徴量抽出モデル構築部は、
     前記特徴量抽出モデルとして、中間層をもつ機械学習モデルを構築することを特徴とする請求項10に記載の情報処理システム。
  12.  前記情報処理装置の前記特徴量抽出部は、
     複数の前記第2の非構造化データを前記特徴量抽出モデルに入力して、前記中間層の値を特徴量ベクトルとして取得して前記特徴量を抽出することを特徴とする請求項11に記載の情報処理システム。
  13.  予測対象に関する非構造化情報と、前記予測対象に関する結果情報と、前記予測対象に関する付帯情報と、を記憶する記憶ステップと、
     前記非構造化情報の一部分である複数の第1の非構造化データと、前記第1の非構造化データのそれぞれについての前記結果情報に基づいて、結果を予測する特徴量抽出モデルを構築する特徴量抽出モデル構築ステップと、
     前記特徴量抽出モデルに前記非構造化情報の残りの部分である複数の第2の非構造化データを入力して、前記結果の予測精度に寄与する特徴量を抽出する特徴量抽出ステップと、
     前記特徴量と、複数の前記第2の非構造化データのそれぞれの前記付帯情報と、前記第2の非構造化データのそれぞれの前記結果情報に基づいて、前記結果を予測する結果予測モデルを構築する結果予測モデル構築ステップと、
     を有することを特徴とする情報処理方法。
PCT/JP2023/004881 2022-04-06 2023-02-14 情報処理装置、情報処理システム及び情報処理方法 WO2023195238A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-063688 2022-04-06
JP2022063688A JP2023154367A (ja) 2022-04-06 2022-04-06 情報処理装置、情報処理システム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2023195238A1 true WO2023195238A1 (ja) 2023-10-12

Family

ID=88242830

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/004881 WO2023195238A1 (ja) 2022-04-06 2023-02-14 情報処理装置、情報処理システム及び情報処理方法

Country Status (2)

Country Link
JP (1) JP2023154367A (ja)
WO (1) WO2023195238A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016122A (ja) * 2017-07-06 2019-01-31 日本放送協会 モデル学習装置、情報判定装置およびそれらのプログラム
JP2019079302A (ja) * 2017-10-25 2019-05-23 日本電気株式会社 営業活動支援システム、営業活動支援方法および営業活動支援プログラム
JP2020042519A (ja) * 2018-09-10 2020-03-19 沖電気工業株式会社 異常検知装置、異常検知方法、及び異常検知プログラム
CN112837108A (zh) * 2019-11-25 2021-05-25 阿里巴巴集团控股有限公司 信息处理方法、装置及电子设备
JP2021149844A (ja) * 2020-03-23 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016122A (ja) * 2017-07-06 2019-01-31 日本放送協会 モデル学習装置、情報判定装置およびそれらのプログラム
JP2019079302A (ja) * 2017-10-25 2019-05-23 日本電気株式会社 営業活動支援システム、営業活動支援方法および営業活動支援プログラム
JP2020042519A (ja) * 2018-09-10 2020-03-19 沖電気工業株式会社 異常検知装置、異常検知方法、及び異常検知プログラム
CN112837108A (zh) * 2019-11-25 2021-05-25 阿里巴巴集团控股有限公司 信息处理方法、装置及电子设备
JP2021149844A (ja) * 2020-03-23 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP2023154367A (ja) 2023-10-19

Similar Documents

Publication Publication Date Title
CN109960761B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN111506723A (zh) 问答响应方法、装置、设备及存储介质
CN110110372B (zh) 一种用户时序行为自动切分预测方法
CN112163099A (zh) 基于知识图谱的文本识别方法、装置、存储介质和服务器
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN110858219A (zh) 物流对象信息处理方法、装置及计算机系统
CN112434501A (zh) 工单智能生成的方法、装置、电子设备及介质
Pfeiffer et al. Multivariate business process representation learning utilizing gramian angular fields and convolutional neural networks
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN113656699A (zh) 用户特征向量确定方法、相关设备及介质
CN117149996A (zh) 面向人工智能应用的人机界面数字会话挖掘方法及ai系统
WO2023195238A1 (ja) 情報処理装置、情報処理システム及び情報処理方法
CN112330442A (zh) 基于超长行为序列的建模方法及装置、终端、存储介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
CN115731030A (zh) 一种银行消费贷款客户需求挖掘方法、装置及存储介质
CN115660060A (zh) 一种模型训练方法以及检测方法、装置、设备及存储介质
CN115168585A (zh) 文本主题识别方法、装置、设备及存储介质
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN114741592A (zh) 一种基于多模型融合的产品推荐方法、设备及介质
CN114692022A (zh) 基于时空行为模式的位置预测方法及系统
CN111754195B (zh) 信息处理的方法及装置、电子设备及计算机可读存储介质
CN112328899A (zh) 信息处理方法、信息处理装置、存储介质与电子设备
Lo Top 10 essential data science topics to real-world application from the industry perspectives

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23784532

Country of ref document: EP

Kind code of ref document: A1