WO2021171373A1 - アイテム分類支援システム、方法およびプログラム - Google Patents

アイテム分類支援システム、方法およびプログラム Download PDF

Info

Publication number
WO2021171373A1
WO2021171373A1 PCT/JP2020/007495 JP2020007495W WO2021171373A1 WO 2021171373 A1 WO2021171373 A1 WO 2021171373A1 JP 2020007495 W JP2020007495 W JP 2020007495W WO 2021171373 A1 WO2021171373 A1 WO 2021171373A1
Authority
WO
WIPO (PCT)
Prior art keywords
item
name
classification
word
names
Prior art date
Application number
PCT/JP2020/007495
Other languages
English (en)
French (fr)
Inventor
昌史 小山田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/007495 priority Critical patent/WO2021171373A1/ja
Priority to JP2022502375A priority patent/JP7456486B2/ja
Priority to US17/797,951 priority patent/US20230065007A1/en
Publication of WO2021171373A1 publication Critical patent/WO2021171373A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to an item classification support system that supports item classification, an item classification support method, and an item classification support program.
  • FIG. 12 is a schematic diagram showing an example of data in which a product and a classification name are associated with each other.
  • the product is represented by the product name.
  • the product with the product name "Detective C 1/10" is classified as "figure”
  • the product with the product name "Kaito X poster” is classified as "poster”. Is shown.
  • the data associated with the product and the classification name is used, for example, as teacher data in machine learning for forecasting the demand for the product.
  • the work of determining the classification name of the classification according to the product is generally performed manually for each product.
  • Patent Document 1 describes an information processing device that generates a model for detecting data.
  • the information processing apparatus described in Patent Document 1 is set as a classification means for setting the classification of the target data based on the target data satisfying a predetermined condition among the data to be learned, and the target data and the target data. It is provided with a model generation means for generating a model that detects data based on the classification.
  • Patent Document 2 describes an information processing device related to e-commerce (Electronic Commerce) in which a user purchases a product via a communication network.
  • e-commerce Electronic Commerce
  • the classification name of the classification according to the item can be easily determined not only for the product but also for the item other than the product.
  • Patent Document 1 does not disclose that the classification name of the product classification is defined.
  • Patent Document 2 discloses that the classification name of the product classification is defined. Specifically, the information processing apparatus described in Patent Document 2 extracts keywords representing attributes for each of a plurality of selected products, and is common or similar to the plurality of products among the extracted keywords. Select at least one keyword as the group word (classification name).
  • an object of the present invention is to provide an item classification support system, an item classification support method, and an item classification support program that can present an appropriate classification name candidate for classification of an item to be classified to a user.
  • the item classification support system is an acquisition means for acquiring one or more words constituting the item name from an item name belonging to a group including a plurality of item names, and an acquired word.
  • the calculation means for calculating the degree of relevance, which is the degree of relevance to the item name, for each item name, and the sum of the calculated relevance over multiple item names among the acquired words is the top M (M). Is a natural number), and is characterized by having a determination means for determining a word up to (a natural number) as a candidate for a classification name of each item represented by a plurality of item names.
  • the computer acquires one or more words constituting the item name from the item names belonging to the group including a plurality of item names for each item name, and the acquired words.
  • the degree of relevance which is the degree of relevance to the item name, is calculated for each item name, and among the acquired words, the words with the highest sum of the calculated relevance over multiple item names are the top M words. It is characterized in that it is determined as a candidate for the classification name of each item represented by a plurality of item names.
  • the item classification support program acquires, from an item name belonging to a group including a plurality of item names, an acquisition process for acquiring one or more words constituting the item name for each item name on a computer.
  • the calculation process that calculates the degree of relevance that the word is related to the item name for each item name, and the sum of the calculated relevance over multiple item names is the top Mth among the acquired words. It is characterized in that a determination process of determining up to a word as a candidate for a classification name of each item represented by a plurality of item names is executed.
  • the present invention may be a computer-readable recording medium on which the above item classification support program is recorded.
  • the item to be classified is a product
  • the item to be classified is not limited to the product.
  • the item may be, for example, a company.
  • Items are represented by item names. For example, when the item is a product, the product name corresponds to the item name. If the item is a company, the company name corresponds to the item name.
  • FIG. 1 is a block diagram showing a configuration example of the item classification support system according to the embodiment of the present invention.
  • the item classification support system 1 of the embodiment of the present invention includes a grouped item name storage unit 2, a classification name candidate determination unit 3, a display control unit 4, a display device 5, and a classification determination unit 6.
  • the grouped item name storage unit 2 is a storage device that stores a plurality of item names of items that have already been divided into groups.
  • the grouped item name storage unit 2 stores a plurality of product names of the products divided into groups.
  • the grouped item name storage unit 2 stores a group of product names for a set of product names (item names) of products (items).
  • the product name group is, for example, a group composed of one predetermined product name and one or more product names whose similarity with the predetermined product name is equal to or higher than a predetermined standard.
  • the degree of similarity between two product names is, for example, "the reciprocal of the editing distance between two product names".
  • the group may be defined by a method other than the above.
  • the classification name candidate determination unit 3 has a function of determining the above-mentioned product classification name candidate.
  • FIG. 2 is a block diagram showing a configuration example of the classification name candidate determination unit 3.
  • the classification name candidate determination unit 3 of the present embodiment includes a word matrix creation unit 7, a word matrix correction unit 8, and a classification name candidate extraction unit 9. Further, the classification name candidate determination unit 3 is connected to the Internet. Hereinafter, a process in which the classification name candidate determination unit 3 of the present embodiment determines a candidate for the classification name of the product will be described.
  • FIG. 3 is an explanatory diagram showing an example of a word matrix created by the word matrix creation unit 7.
  • the word matrix creation unit 7 stores a plurality of product names included in the extracted group in the first column of the word matrix.
  • product names shown in FIG. 3 are "plenty of milk soda”, “plenty of pudding”, and “plenty of anpan”. In this example, a total of 10 product names are included in the extracted group.
  • the word matrix creation unit 7 performs morphological analysis as the first process for each product name stored in the word matrix.
  • each product name is divided into one or more words. For example, “plenty of milk soda” is divided into the word “plenty”, the word “milk”, and the word “soda”.
  • the word matrix creation unit 7 stores each word obtained by dividing each product name into the first line of the word matrix as shown in FIG.
  • the word matrix creation unit 7 stores only one acquired word.
  • the word matrix creation unit 7 acquires one or more words constituting the product name from the product names belonging to the group including a plurality of product names for each product name.
  • a 1 , a 2 , ... Shown in FIG. 3 are symbols for identifying each word stored in the first line of the word matrix. For example, a 1 indicates the word "plenty”.
  • the word matrix creation unit 7 performs a product name database search as a second process for each product name stored in the word matrix.
  • the word matrix creation unit 7 performs a product name database search using, for example, a product name, and extracts the attribute of the product name used in the search from the product name database.
  • the product name database is, for example, a database in which the product name and its attributes are searchably stored in the store where the user works.
  • the word matrix creation unit 7 connects to the product name database and searches for the product name.
  • the word matrix creation unit 7 searched the product name database using the product name "Plenty of pudding” and found that the attribute of "Plenty of pudding” was “smooth”. Therefore, as shown in FIG. 3, the word matrix creation unit 7 stores "smooth" in the first line of the word matrix.
  • the word matrix creation unit 7 extracts a word meaning a higher-level concept (category) of the word used in the product name database search from the product name database. You may.
  • the word matrix creation unit 7 extracts, for example, the word “bread” which is a superordinate concept of “chunky anpan” and the word “dairy product” which is a superordinate concept of "plenty milk soda", and the word It may be stored in a matrix.
  • the word matrix creation unit 7 performs a World Wide Web (hereinafter, simply referred to as Web) search for each product name stored in the word matrix as a third process.
  • Web World Wide Web
  • the word matrix creation unit 7 performs a Web search using, for example, a product name, and extracts words that often accompany the product name used in the search from the Web.
  • the word matrix creation unit 7 found many words "natural” on the Web as a result of performing a Web search using the product name "Plenty of milk soda". Therefore, as shown in FIG. 3, the word matrix creation unit 7 stores "natural" in the first line of the word matrix.
  • the word matrix creation unit 7 does not configure any of the plurality of product names, and acquires words related to any of the plurality of product names from the outside (product name database or Web).
  • the word matrix creation unit 7 determines whether or not each word stored in the first row of the word matrix is included in each product name stored in the first column. When a word is included in the product name, the word matrix creation unit 7 sets the value of the component of the corresponding word matrix to "1". When the word is not included in the product name, the word matrix creation unit 7 sets the value of the component of the corresponding word matrix to "0".
  • the word matrix creation unit 7 sets the value of the ("Plenty of milk soda", “Plenty”) component of the word matrix to "1”. Set to. Further, since the product name "Plenty of milk soda” does not contain the word "pudding”, the word matrix creation unit 7 sets the value of the ("plenty of milk soda", "pudding") component of the word matrix to "0”. Set to.
  • the word matrix creation unit 7 After determining all the components of the word matrix, the word matrix creation unit 7 inputs the created word matrix to the word matrix correction unit 8.
  • the word matrix correction unit 8 has a function of correcting the value of the input word matrix component.
  • FIG. 4 is an explanatory diagram showing an example of a word matrix corrected by the word matrix correction unit 8.
  • the underlined value shown in FIG. 4 is the value of the component of the word matrix corrected by the word matrix correction unit 8.
  • the word matrix correction unit 8 can correct the value (particularly "0") of each component of the word matrix based on an arbitrary rule.
  • the word matrix correction unit 8 sets the value of the component (“plenty of pudding”, “smooth”) to be larger than 0. It may be corrected to a value. In the example shown in FIG. 4, the word matrix correction unit 8 corrects the value of the component (“plenty of pudding”, “smooth”) from “0” to “0.9”.
  • the word matrix correction unit 8 may correct based on the similarity between a plurality of words defined in a dictionary held in advance. For example, when the dictionary defines that the word "plenty” and the word “plenty” are similar, the word matrix correction unit 8 sets the value of the component ("plenty", "plenty”) to 0. It may be corrected to a value larger than. In the example shown in FIG. 4, since the value of the component (“tightly anpan”, “tightly”) is “1”, the word matrix correction unit 8 sets the value of the (“tightly anpan”, “plenty”) component to “1”. It is corrected from "0" to "0.8".
  • the word matrix correction unit 8 sets the value of the component ("plenty of milk soda", “chunky") and the value of the component ("plenty of pudding", “chunky") both larger than 0. May be corrected to.
  • the word matrix correction unit 8 has a component value of (“plenty of milk soda”, “plenty”) of “1”, and therefore has a component value of (“plenty of milk soda”, “plenty”). Is corrected from “0” to "0.8”. Further, in the word matrix correction unit 8, since the value of the component (“plenty of pudding”, “plenty”) is “1”, the value of the component (“plenty of pudding”, “plenty”) is changed from “0” to “0”. It has been corrected to "0.8".
  • the word matrix correction unit 8 can correct the value of the component of the word matrix by various other methods. Further, the word matrix correction unit 8 may convert the word matrix into a matrix having a smaller number of components having a value of "0" by performing low-rank approximation.
  • the word matrix creation unit 7 and the word matrix correction unit 8 calculate the degree of relevance, which is the degree to which the acquired word is related to the product name, for each product name.
  • the word matrix creation unit 7 calculates the degree of relevance of the words constituting the product name to the product name as 1, and calculates the degree of relevance of the words not constituting the product name to the product name as 0.
  • the word matrix correction unit 8 may calculate the degree of relevance based on the similarity between a plurality of words defined in a dictionary held in advance.
  • the word matrix correction unit 8 inputs the corrected word matrix into the classification name candidate extraction unit 9.
  • the classification name candidate extraction unit 9 has a function of extracting classification name candidates from the input word matrix.
  • the classification name candidate extraction unit 9 of the present embodiment extracts a classification name candidate by using one of the following two methods.
  • the first method is to simply determine the candidate classification name to be extracted based on the value of the component of the word matrix.
  • FIG. 5 is an explanatory diagram showing an example of determining a candidate for a classification name to be extracted by the classification name candidate extraction unit 9.
  • the classification name candidate extraction unit 9 calculates the score S 1 (a i ) (i is a natural number) defined by the following formula for each word a i.
  • Each value below the word matrix shown in FIG. 5 is the score S 1 (a i ) calculated for each word a i.
  • the classification name candidate extraction unit 9 determines, among the words stored in the first line of the word matrix, the word having the highest calculated score as the candidate for the classification name to be extracted. In the example shown in FIG. 5, the classification name candidate extraction unit 9 determines the word “plenty” having the highest calculated score as one of the extraction classification name candidates.
  • the classification name candidate extraction unit 9 among the words acquired by the word matrix creation unit 7, the sum of the relevance calculated by the word matrix creation unit 7 and the word matrix correction unit 8 over a plurality of product names is higher. Words up to the Mth (M is a natural number) are determined as candidates for the classification name of each product represented by a plurality of product names.
  • the second method is to determine the candidates for the classification name to be extracted using the weight, which is the relative importance of each word.
  • FIG. 6 is an explanatory diagram showing an example in which the classification name candidate extraction unit 9 determines the weight of each word.
  • the classification name candidate extraction unit 9 is stored in the first row of the word matrix in the ten product names included in the extracted group, as in the second row of the matrix shown in FIG. Calculate the frequency of occurrence of each word.
  • the classification name candidate extraction unit 9 calculates the frequency of appearance in the group from which the word "plenty” is extracted as "4/10".
  • the appearance frequency "4/10" means that four words "plenty” were included in the ten product names.
  • classification name candidate extraction unit 9 indicates each word stored in the first row of the word matrix in the ten product names included in the other groups, as shown in the third row of the matrix shown in FIG. Calculate the frequency of occurrence of each.
  • the classification name candidate extraction unit 9 calculates the frequency of appearance of the word "plenty” in other groups as "2/10".
  • the appearance frequency "2/10" means that two words "plenty” were included in the ten product names.
  • the other groups are groups consisting of 10 product names that are arbitrarily searched by product name database search, Web search, or other methods.
  • the 10 product names arbitrarily searched are product names that do not belong to the retrieved group.
  • classification name candidate extraction unit 9 stores the classification name candidate extraction unit 9 in the first row of the word matrix by subtracting the appearance frequency in the other groups from the appearance frequency in the extracted group as in the fourth row of the matrix shown in FIG. Calculate the difference in the frequency of occurrence of each word.
  • the classification name candidate extraction unit 9 sets the difference in the appearance frequency as shown in FIG. Set to "0".
  • the difference in the frequency of appearance of the word "milk” shown in FIG. 6 is (2 / 10-5 / 10) ⁇ 0, so it is set to "0".
  • the classification name candidate extraction unit 9 calculates the score S 2 (a i ) defined by the following equation for each word a i.
  • w i in Eq. (2) is a weight indicating the relative importance of the word a i.
  • the weight w i in this example is the difference in the frequency of appearance of the word a i shown in FIG.
  • the classification name candidate extraction unit 9 may calculate the weight w i by the tf-idf method.
  • FIG. 7 is an explanatory diagram showing another example of determining the candidate of the classification name to be extracted by the classification name candidate extraction unit 9. Each calculated value below the word matrix shown in FIG. 7 is the score S 2 (a i ) calculated for each word a i.
  • the classification name candidate extraction unit 9 determines the word having the highest calculated score among the words stored in the first line of the word matrix as the candidate for the classification name to be extracted.
  • the classification name candidate extraction unit 9 determines the words "plenty”, “soda”, and "tight" with the calculated scores up to the top three as candidates for the classification name to be extracted. There is.
  • the classification name candidate extraction unit 9 calculates the weights of words in a plurality of product names for each word. Further, the classification name candidate extraction unit 9 calculates the sum of the words acquired by the word matrix creation unit 7 over a plurality of item names having a degree of relevance calculated by the word matrix creation unit 7 and the word matrix correction unit 8. The words up to the top M in the result of weighting with the weighted weight are determined as candidates for the classification name.
  • the classification name candidate extraction unit 9 calculates the word weight using the frequency of appearance of words in a plurality of product names and the frequency of appearance of words in arbitrarily selected product names. You may.
  • the classification name candidate determination unit 3 inputs the classification name candidates extracted by the classification name candidate extraction unit 9 to the display control unit 4.
  • the display control unit 4 displays the input classification name candidate on the display device 5 as a classification name candidate for each product represented by each product name belonging to the group.
  • the display device 5 is a device that displays information, and may be a general display device.
  • the operation of the display control unit 4 will be described below. Here, one group stored in the grouped item name storage unit 2 will be described. When a plurality of groups are stored in the grouped item name storage unit 2, the display control unit 4 may perform the same operation for each group.
  • the display control unit 4 displays individual product names belonging to the group on the display device 5, and displays a plurality of candidates for the classification name of each product represented by each product name belonging to the group on the display device 5. At this time, the display control unit 4 displays a plurality of candidates for the classification name on the display device 5 in a manner that can be specified by the user (for example, in a manner that can be specified by a mouse click or the like).
  • the screen displayed on the display device 5 by the display control unit 4 may include another GUI (Graphical User Interface) or the like.
  • FIG. 8 is an explanatory diagram showing an example of a screen displayed on the display device 5 by the display control unit 4.
  • the display control unit 4 displays a case where the product names belonging to the group such as “plenty of milk soda”, “plenty of pudding”, and “plenty of anpan” are displayed. Further, the display control unit 4 shows a case where "plenty”, “soda”, and “tightly” are displayed as candidate 50 for the classification name of each product represented by each product name. These candidates 50 can be specified by an operation such as a mouse click by the user.
  • the classification determination unit 6 When any one of the plurality of candidates 50 of the displayed classification name is specified by the user by an operation such as a mouse click, the classification determination unit 6 indicates each product name belonging to the group (that is, each displayed product name). It is determined that each product represented by the product name) is classified by the classification name specified by the user. Then, the classification determination unit 6 generates data in which each product name belonging to the group is associated with the designated classification name.
  • the classification determination unit 6 determines that each product represented by "plenty of milk soda", “plenty of pudding”, and "plenty of anpan” shown in FIG. 8 is classified by the classification name of "plenty”. Then, the classification determination unit 6 generates data in which each of "plenty of milk soda", “plenty of pudding", and "plenty of anpan” is associated with the classification name of "plenty".
  • the display control unit 4 displays a plurality of product names, and the user can specify a plurality of candidates for the classification name determined by the classification name candidate determination unit 3 for each product represented by the plurality of product names. Display with.
  • the display control unit 4 may display a product name including a word that is a candidate for the classification name together with the candidate for the classification name. For example, as shown in FIG. 8, when the user puts the cursor on the classification name candidate on the screen, the display control unit 4 puts a word that is a classification name candidate next to the classification name candidate. The including product name may be displayed.
  • the product name including the word that is a candidate for the classification name is, for example, a product name obtained by a Web search.
  • the classification name candidate determination unit 3 inputs a product name including a word that is a candidate for the classification name to the display control unit 4.
  • the user may be able to more easily determine the classification name that he / she wants to finally use from the multiple candidates for the classification name.
  • the classification name candidate determination unit 3, the display control unit 4, and the classification determination unit 6 are realized by, for example, a CPU (Central Processing Unit) of a computer that operates according to an item classification support program. For example, if the CPU reads an item classification support program from a program recording medium such as a computer program storage device and operates as a classification name candidate determination unit 3, a display control unit 4, and a classification determination unit 6 according to the item classification support program. good.
  • the grouped item name storage unit 2 is realized by, for example, a storage device provided in a computer.
  • FIG. 9 is a flowchart showing an example of the processing progress of the embodiment of the present invention. The details of the matters already described will be omitted. Further, the grouped item name storage unit 2 stores in advance the product names of the products already divided into groups.
  • the classification name candidate determination unit 3 extracts one group of product names stored in the grouped item name storage unit 2 (step S1).
  • the word matrix creation unit 7 of the classification name candidate determination unit 3 performs morphological analysis, product name database search, and Web search, respectively, to create a word matrix based on the product names included in the retrieved group. Create (step S2).
  • the word matrix creation unit 7 does not have to execute the product name database search or the Web search in step S2.
  • step S3 the word matrix correction unit 8 corrects the value of the component of the word matrix created by the word matrix creation unit 7 (step S3).
  • the process of step S3 may be omitted.
  • the classification name candidate extraction unit 9 extracts the classification name candidates from the word matrix corrected by the word matrix correction unit 8 (step S4).
  • the classification name candidate determination unit 3 inputs the classification name candidates extracted by the classification name candidate extraction unit 9 to the display control unit 4.
  • the display control unit 4 displays individual product names belonging to the group on the display device 5, and a plurality of candidates 50 (see FIG. 8 and the like) for the classification name of each product represented by each product name belonging to the group. ) Is displayed on the display device 5 (step S5).
  • step S5 the display control unit 4 displays the plurality of candidates 50 of the classification name on the display device 5 in a manner that can be specified by the user (for example, in a manner that can be specified by a mouse click or the like).
  • the plurality of classification name candidates 50 are a set of classification name candidates input from the classification name candidate determination unit 3.
  • the classification determination unit 6 determines that each product represented by each product name belonging to the group is a classification name designated to the user. It is determined that the product is classified according to (step S6). At this time, the classification determination unit 6 generates data in which each product name belonging to the group is associated with the designated classification name.
  • the word matrix creation unit 7 acquires one or more words constituting the item name from the item names belonging to the group including a plurality of item names, respectively. Further, the word matrix creation unit 7 and the word matrix correction unit 8 calculate the degree of relevance, which is the degree to which the acquired word is related to the item name, for each item name. In addition, the classification name candidate extraction unit 9 indicates the words with the highest sum of the acquired words over the plurality of item names of the calculated relevance to the highest M, and the classification name of each item represented by the plurality of item names. To be a candidate for.
  • the item classification support system 1 of the present embodiment can present to the user a candidate for a classification name having a high degree of relevance to a plurality of item names included in the group. Therefore, the item classification support system 1 can significantly reduce the burden on the user as compared with the general method of manually determining the classification name for each product. Further, the item classification support system 1 can present many types of classification name candidates to the user as compared with the information processing apparatus described in Patent Document 2.
  • FIG. 10 is a schematic block diagram showing a configuration example of a computer according to the item classification support system 1 according to the embodiment of the present invention.
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, an interface 1004, and a display device 1005.
  • the item classification support system 1 of the embodiment of the present invention is realized by the computer 1000.
  • the operation of the item classification support system 1 is stored in the auxiliary storage device 1003 in the form of a program (item classification support program).
  • the CPU 1001 reads a program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and executes the process described in the above embodiment according to the program.
  • the classification name candidate determination unit 3, the display control unit 4, and the classification determination unit 6 are realized by the CPU 1001.
  • the display device 5 is realized by the display device 1005.
  • Auxiliary storage 1003 is an example of a non-temporary tangible medium.
  • Other examples of non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Versatile Disk Read Only Memory), which are connected via interface 1004. Examples include semiconductor memory.
  • the distributed computer 1000 may expand the program to the main storage device 1002 and execute the process described in the above embodiment according to the program. ..
  • each component may be realized by a general-purpose or dedicated circuit (circuitry), a processor, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component may be realized by a combination of the above-mentioned circuit or the like and a program.
  • the plurality of information processing devices and circuits may be centrally arranged or distributed.
  • the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client-and-server system and a cloud computing system.
  • FIG. 11 is a block diagram showing an outline of the item classification support system of the present invention.
  • the item classification support system of the present invention includes an acquisition means 11, a calculation means 12, and a determination means 13.
  • the acquisition means 11 (for example, the word matrix creation unit 7) acquires one or more words constituting the item name from the item names belonging to the group including a plurality of item names for each item name.
  • the calculation means 12 calculates the degree of relevance, which is the degree to which the acquired word is related to the item name, for each item name.
  • a plurality of item names represent words having a sum of the calculated relevance to a plurality of item names up to the highest M. Determine as a candidate for the classification name of each item.
  • calculation means 12 may calculate the degree of relevance of the word constituting the item name to the item name as 1, and the degree of relevance of the word not constituting the item name to the item name as 0.
  • the acquisition means 11 may acquire a word related to any of the plurality of item names from the outside (for example, a product name database) without constructing any of the plurality of item names.
  • calculation means 12 may calculate the degree of relevance based on the similarity between a plurality of words defined in a dictionary held in advance.
  • the determining means 13 calculates the weights of the words in the plurality of item names for each word, and among the acquired words, the product of the sum of the calculated relevances over the plurality of item names and the calculated weights. May determine the top M words as candidates for the classification name.
  • the determination means 13 may calculate the weight of the word by using the frequency of appearance of the word in a plurality of item names and the frequency of appearance of the word in an arbitrarily selected item name.
  • the item classification support system 10 displays a plurality of item names, and displays a plurality of candidates of the classification name determined by the determination means 13 for each item represented by the plurality of item names in a manner that can be specified by the user.
  • the display control means for example, display control unit 4
  • the classification determination is determined so that each item is classified by the classification name specified by the user.
  • a means for example, a classification determination unit 6) may be provided.
  • the display control means may display the item name including the classification name candidate together with the classification name candidate.
  • the user can more easily determine the classification name of the classification of the item to be classified.
  • the present invention is suitably applicable to an item classification support system that supports item classification.
  • Item classification support system 1
  • Grouped item name storage unit 3
  • Classification name candidate determination unit 4
  • Display control unit 5
  • Display device 6
  • Classification determination unit 7
  • Word matrix creation unit 8
  • Word matrix correction unit 9

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

取得手段11は、複数のアイテム名を含むグループに属するアイテム名から、そのアイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する。算出手段12は、取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する。決定手段13は、取得された単語のうち、算出された関連度の複数のアイテム名に渡る和が上位M番目(Mは自然数)までの単語を、複数のアイテム名が表す各アイテムの分類名の候補に決定する。

Description

アイテム分類支援システム、方法およびプログラム
 本発明は、アイテムの分類を支援するアイテム分類支援システム、アイテム分類支援方法、および、アイテム分類支援プログラムに関する。
 商品と、その商品に応じた分類の分類名とを対応付けたデータを作成する場合がある。図12は、商品と分類名とを対応付けたデータの例を示す模式図である。なお、商品は、商品名で表される。図12に示す例では、例えば、「名探偵C 1/10」という商品名の商品は、「フィギュア」に分類され、「怪盗Xポスター」という商品名の商品は「ポスター」に分類されることを示している。
 商品と分類名とを対応付けたデータは、例えば、商品の需要予測を行うための機械学習における教師データとして利用される。
 商品に対して、その商品に応じた分類の分類名を定める作業は、商品毎に人手で行われることが一般的である。
 なお、特許文献1には、データを検出するためのモデルを生成する情報処理装置が記載されている。特許文献1に記載されている情報処理装置は、学習対象となるデータのうち、所定の条件を満たす対象データに基づいて対象データの分類を設定する分類手段と、対象データと対象データに設定された分類とに基づいてデータを検出するモデルを生成するモデル生成手段とを備える。
 また、特許文献2には、ユーザが通信ネットワークを介して商品の購入を行うeコマース(Electronic Commerce )に関する情報処理装置が記載されている。
国際公開第2019/187865号 国際公開第2015/132886号
 前述のように、商品に対して、その商品に応じた分類の分類名を定める作業は、商品毎に人手で行われることが一般的である。そのため、その作業には、非常に手間がかかる。
 また、商品だけでなく、商品以外のアイテムであっても、アイテムに応じた分類の分類名を容易に定められることが好ましい。
 特許文献1には、商品の分類の分類名を定めることは開示されていない。
 また、特許文献2には、商品の分類の分類名を定めることは開示されている。具体的には、特許文献2に記載されている情報処理装置は、選択された複数の商品のそれぞれについて属性を表すキーワードを抽出し、抽出されたキーワードのうちで複数の商品に共通または類似する少なくとも一つのキーワードをグループワード(分類名)として選択する。
 しかし、複数の商品に共通または類似する属性だけではなく、複数の商品に関連する属性も選択された方が、ユーザが選択できる分類名の候補の範囲が広がる。特許文献2に記載されている情報処理装置では、複数の商品に共通または類似するキーワードを選択することしか想定されていない。
 そこで、本発明は、分類対象となるアイテムの分類の適切な分類名の候補をユーザに提示できるアイテム分類支援システム、アイテム分類支援方法、および、アイテム分類支援プログラムを提供することを目的とする。
 本発明によるアイテム分類支援システムは、複数のアイテム名を含むグループに属するアイテム名から、そのアイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する取得手段と、取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する算出手段と、取得された単語のうち、算出された関連度の複数のアイテム名に渡る和が上位M番目(Mは自然数)までの単語を、複数のアイテム名が表す各アイテムの分類名の候補に決定する決定手段とを備えることを特徴とする。
 本発明によるアイテム分類支援方法は、コンピュータが、複数のアイテム名を含むグループに属するアイテム名から、そのアイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得し、取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出し、取得された単語のうち、算出された関連度の複数のアイテム名に渡る和が上位M番目までの単語を、複数のアイテム名が表す各アイテムの分類名の候補に決定することを特徴とする。
 本発明によるアイテム分類支援プログラムは、コンピュータに、複数のアイテム名を含むグループに属するアイテム名から、そのアイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する取得処理、取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する算出処理、および取得された単語のうち、算出された関連度の複数のアイテム名に渡る和が上位M番目までの単語を、複数のアイテム名が表す各アイテムの分類名の候補に決定する決定処理を実行させることを特徴とする。また、本発明は、上記のアイテム分類支援プログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。
 本発明によれば、分類対象となるアイテムの分類の適切な分類名の候補をユーザに提示できる。
本発明の実施形態のアイテム分類支援システムの構成例を示すブロック図である。 分類名候補決定部3の構成例を示すブロック図である。 単語行列作成部7が作成する単語行列の例を示す説明図である。 単語行列補正部8が補正する単語行列の例を示す説明図である。 分類名候補抽出部9が抽出する分類名の候補を決定する例を示す説明図である。 分類名候補抽出部9が各単語の重みを決定する例を示す説明図である。 分類名候補抽出部9が抽出する分類名の候補を決定する他の例を示す説明図である。 表示制御部4がディスプレイ装置5上に表示する画面の例を示す説明図である。 本発明の実施形態の処理経過の例を示すフローチャートである。 本発明の実施形態のアイテム分類支援システムに係るコンピュータの構成例を示す概略ブロック図である。 本発明のアイテム分類支援システムの概要を示すブロック図である。 商品と分類名とを対応付けたデータの例を示す模式図である。
 以下、本発明の実施形態を図面を参照して説明する。
 以下では、分類対象となるアイテムが商品である場合を例にして説明するが、分類対象となるアイテムは商品に限られない。アイテムは、例えば、会社であってもよい。
 アイテムは、アイテム名で表される。例えば、アイテムが商品である場合には、商品名がアイテム名に該当する。また、アイテムが会社である場合には、会社名がアイテム名に該当する。
 図1は、本発明の実施形態のアイテム分類支援システムの構成例を示すブロック図である。本発明の実施形態のアイテム分類支援システム1は、グルーピング済アイテム名記憶部2と、分類名候補決定部3と、表示制御部4と、ディスプレイ装置5と、分類決定部6とを備える。
 グルーピング済アイテム名記憶部2は、既にグループに分けられたアイテムのアイテム名を複数記憶する記憶装置である。本例では、グルーピング済アイテム名記憶部2は、グループに分けられた商品の商品名を複数記憶する。
 具体的には、グルーピング済アイテム名記憶部2には、商品(アイテム)の商品名(アイテム名)の集合に対する商品名のグループが記憶されている。
 商品名のグループは、例えば、1つの所定の商品名と、所定の商品名との類似度が所定の基準以上である1つ以上の商品名とで構成されるグループである。2つの商品名間の類似度は、例えば「2つの商品名間の編集距離の逆数」である。なお、グループは、上記以外の方法で定められてもよい。
 分類名候補決定部3は、上述した商品の分類名の候補を決定する機能を有する。図2は、分類名候補決定部3の構成例を示すブロック図である。
 図2に示すように、本実施形態の分類名候補決定部3は、単語行列作成部7と、単語行列補正部8と、分類名候補抽出部9とを含む。また、分類名候補決定部3は、インターネットに接続されている。以下、本実施形態の分類名候補決定部3が商品の分類名の候補を決定する処理を説明する。
 グルーピング済アイテム名記憶部2に記憶されているグループを1つ取り出すと、最初に分類名候補決定部3の単語行列作成部7は、単語行列を作成する。図3は、単語行列作成部7が作成する単語行列の例を示す説明図である。
 最初に、単語行列作成部7は、図3に示すように、単語行列の1列目に、取り出されたグループに含まれている複数の商品名をそれぞれ格納する。図3に示す商品名の例は、「たっぷりミルクソーダ」、「たっぷりプリン」、「ぎっしりアンパン」である。なお、本例では、取り出されたグループに商品名が全部で10個含まれている。
 単語行列作成部7は、単語行列に格納された各商品名に対して、最初の処理として形態素解析をそれぞれ行う。単語行列作成部7が形態素解析を行うと、各商品名は、1つ以上の単語に分割される。例えば、「たっぷりミルクソーダ」は、単語「たっぷり」と、単語「ミルク」と、単語「ソーダ」に分割される。
 次いで、単語行列作成部7は、各商品名が分割されて取得された各単語を、図3に示すように単語行列の1行目に格納する。なお、図3に示す単語「たっぷり」のように、複数の商品名から同一の単語がそれぞれ取得されたとき、単語行列作成部7は、取得された単語を1つだけ格納する。
 すなわち、単語行列作成部7は、複数の商品名を含むグループに属する商品名から、その商品名を構成する1つ以上の単語を、商品名毎にそれぞれ取得する。
 なお、図3に示すa1、a2、・・・は、単語行列の1行目に格納された各単語を識別する記号である。例えば、a1は、単語「たっぷり」を示す。
 また、単語行列作成部7は、単語行列に格納された各商品名に対して、2つ目の処理として商品名データベース検索を行う。
 単語行列作成部7は、例えば、商品名を用いて商品名データベース検索を行い、検索に用いられた商品名の属性を商品名データベースから抽出する。
 商品名データベースは、例えばユーザが勤務している店舗内に備えられている、商品名とその属性が検索可能に格納されたデータベースである。単語行列作成部7は、商品名データベースに接続し、商品名を検索する。
 本例において、単語行列作成部7は、商品名「たっぷりプリン」を用いて商品名データベース検索を行った結果、「たっぷりプリン」の属性が「なめらか」であることを発見した。よって、図3に示すように、単語行列作成部7は、単語行列の1行目に「なめらか」を格納している。
 なお、商品名データベースに商品名がカテゴリ毎に格納されている場合、単語行列作成部7は、商品名データベース検索に用いられた単語の上位概念(カテゴリ)を意味する単語を商品名データベースから抽出してもよい。
 上位概念を意味する単語として、単語行列作成部7は、例えば「ぎっしりアンパン」の上位概念である単語「パン」、「たっぷりミルクソーダ」の上位概念である単語「乳製品」を抽出し、単語行列に格納してもよい。
 また、単語行列作成部7は、単語行列に格納された各商品名に対して、3つ目の処理としてWorld Wide Web(以下、単にWeb と呼ぶ。)検索を行う。
 単語行列作成部7は、例えば、商品名を用いてWeb 検索を行い、検索に用いられた商品名に付随することが多い単語をWeb から抽出する。
 本例において、単語行列作成部7は、商品名「たっぷりミルクソーダ」を用いてWeb 検索を行った結果、「自然派」という単語をWeb に多数発見した。よって、図3に示すように、単語行列作成部7は、単語行列の1行目に「自然派」を格納している。
 すなわち、単語行列作成部7は、複数の商品名をいずれも構成せず、かつ複数の商品名のいずれかに関連する単語を外部(商品名データベース、またはWeb )から取得する。
 次いで、単語行列作成部7は、単語行列の1行目に格納された各単語が、1列目に格納された各商品名に含まれているか否かを判定する。単語が商品名に含まれている場合、単語行列作成部7は、対応する単語行列の成分の値を「1」に設定する。また、単語が商品名に含まれていない場合、単語行列作成部7は、対応する単語行列の成分の値を「0」に設定する。
 例えば、商品名「たっぷりミルクソーダ」には単語「たっぷり」が含まれているので、単語行列作成部7は、単語行列の(「たっぷりミルクソーダ」,「たっぷり」)成分の値を「1」に設定する。また、商品名「たっぷりミルクソーダ」には単語「プリン」が含まれていないので、単語行列作成部7は、単語行列の(「たっぷりミルクソーダ」,「プリン」)成分の値を「0」に設定する。
 単語行列の全ての成分に対して判定を行った後、単語行列作成部7は、作成された単語行列を単語行列補正部8に入力する。単語行列補正部8は、入力された単語行列の成分の値を補正する機能を有する。
 図4は、単語行列補正部8が補正する単語行列の例を示す説明図である。図4に示す下線付きの値が、単語行列補正部8が補正した単語行列の成分の値である。単語行列補正部8は、任意のルールに基づいて、単語行列の各成分の値(特に「0」)を補正できる。
 例えば、商品名データベースから「たっぷりプリン」の属性が「なめらか」であることが発見されたため、単語行列補正部8は、(「たっぷりプリン」,「なめらか」)成分の値を、0よりも大きい値に補正してもよい。図4に示す例では、単語行列補正部8は、(「たっぷりプリン」,「なめらか」)成分の値を「0」から「0.9」に補正している。
 また、単語行列補正部8は、予め保持されている辞書に定められている複数の単語間の類似性を基に補正してもよい。例えば、単語「たっぷり」と単語「ぎっしり」とが類似していることが辞書に定められている場合、単語行列補正部8は、(「ぎっしりアンパン」,「たっぷり」)成分の値を、0よりも大きい値に補正してもよい。図4に示す例では、単語行列補正部8は、(「ぎっしりアンパン」,「ぎっしり」)成分の値が「1」であるので、(「ぎっしりアンパン」,「たっぷり」)成分の値を「0」から「0.8」に補正している。
 同様の理由で、単語行列補正部8は、(「たっぷりミルクソーダ」,「ぎっしり」)成分の値、および(「たっぷりプリン」,「ぎっしり」)成分の値を、どちらも0よりも大きい値に補正してもよい。
 図4に示す例では、単語行列補正部8は、(「たっぷりミルクソーダ」,「たっぷり」)成分の値が「1」であるので、(「たっぷりミルクソーダ」,「ぎっしり」)成分の値を「0」から「0.8」に補正している。また、単語行列補正部8は、(「たっぷりプリン」,「たっぷり」)成分の値が「1」であるので、(「たっぷりプリン」,「ぎっしり」)成分の値を「0」から「0.8」に補正している。
 単語行列補正部8は、他にも様々な方法で単語行列の成分の値を補正できる。また、単語行列補正部8は、低ランク近似を行うことによって、単語行列を値が「0」の成分がより少ない行列に変換してもよい。
 すなわち、単語行列作成部7および単語行列補正部8は、取得された単語が商品名に関連する度合いである関連度を、商品名毎にそれぞれ算出する。特に、単語行列作成部7は、商品名を構成する単語のその商品名との関連度を1として算出し、商品名を構成しない単語のその商品名との関連度を0として算出する。
 また、単語行列補正部8は、予め保持されている辞書に定められている複数の単語間の類似性を基に関連度を算出してもよい。
 単語行列補正部8は、補正した単語行列を分類名候補抽出部9に入力する。分類名候補抽出部9は、入力された単語行列から分類名の候補を抽出する機能を有する。本実施形態の分類名候補抽出部9は、以下の2つの方法のいずれかを用いて分類名の候補を抽出する。
 1つ目の方法は、単純に単語行列の成分の値に基づいて抽出する分類名の候補を決定する方法である。図5は、分類名候補抽出部9が抽出する分類名の候補を決定する例を示す説明図である。
 分類名候補抽出部9は、以下の式で定義されるスコアS1(ai)(iは自然数)を、各単語aiに対してそれぞれ計算する。
 S1(ai) = Σn=1 N(bi n) ・・・式(1)
 なお、式(1)におけるbi は、単語行列の(i,n)成分の値である(nは1以上10以下の自然数、N=10)。図5に示す単語行列の下の各値が、各単語aiに対してそれぞれ計算されたスコアS1(ai)である。
 次いで、分類名候補抽出部9は、単語行列の1行目に格納された各単語のうち、算出されたスコアが上位の単語を、抽出される分類名の候補に決定する。図5に示す例では、分類名候補抽出部9は、算出されたスコアが最高である単語「たっぷり」を、抽出される分類名の候補の1つに決定している。
 すなわち、分類名候補抽出部9は、単語行列作成部7により取得された単語のうち、単語行列作成部7および単語行列補正部8により算出された関連度の複数の商品名に渡る和が上位M番目(Mは自然数)までの単語を、複数の商品名が表す各商品の分類名の候補に決定する。
 2つ目の方法は、各単語の相対的な重要度である重みも用いて抽出する分類名の候補を決定する方法である。図6は、分類名候補抽出部9が各単語の重みを決定する例を示す説明図である。
 本例において、分類名候補抽出部9は、図6に示す行列の2行目のように、取り出されたグループに含まれている10個の商品名における、単語行列の1行目に格納された各単語の出現頻度をそれぞれ計算する。
 例えば、図6に示すように、分類名候補抽出部9は、単語「たっぷり」の取り出されたグループにおける出現頻度を、「4/10」と計算している。出現頻度「4/10」は、10個の商品名に単語「たっぷり」が4個含まれていたことを意味する。
 また、分類名候補抽出部9は、図6に示す行列の3行目のように、その他のグループに含まれている10個の商品名における、単語行列の1行目に格納された各単語の出現頻度をそれぞれ計算する。
 例えば、図6に示すように、分類名候補抽出部9は、単語「たっぷり」のその他のグループにおける出現頻度を、「2/10」と計算している。出現頻度「2/10」は、10個の商品名に単語「たっぷり」が2個含まれていたことを意味する。
 なお、その他のグループは、商品名データベース検索、Web 検索、または他の方法で任意に検索された10個の商品名で構成されるグループである。任意に検索された10個の商品名は、取り出されたグループに属さない商品名である。
 また、分類名候補抽出部9は、図6に示す行列の4行目のように、取り出されたグループにおける出現頻度からその他のグループにおける出現頻度を引くことによって、単語行列の1行目に格納された各単語の出現頻度の差をそれぞれ計算する。
 例えば、図6に示すように、分類名候補抽出部9は、単語「たっぷり」の出現頻度の差を、「(4/10-2/10=)2/10」と計算している。
 なお、取り出されたグループにおける出現頻度からその他のグループにおける出現頻度が引かれた値が負の値になる場合、分類名候補抽出部9は、図6に示すように、出現頻度の差を「0」に設定する。例えば、図6に示す単語「ミルク」の出現頻度の差は、(2/10-5/10)<0であるため、「0」に設定されている。
 次いで、分類名候補抽出部9は、以下の式で定義されるスコアS2(ai) を、各単語aiに対してそれぞれ計算する。
 S2(ai) = Σn=1 N(wi×bi n) ・・・式(2)
 なお、式(2)におけるwiは、単語aiの相対的な重要度を示す重みである。本例における重みwiは、図6に示す単語aiの出現頻度の差である。なお、分類名候補抽出部9は、重みwiをtf-idf法で算出してもよい。
 図7は、分類名候補抽出部9が抽出する分類名の候補を決定する他の例を示す説明図である。図7に示す単語行列の下の計算された各値が、各単語aiに対してそれぞれ計算されたスコアS2(ai)である。
 次いで、分類名候補抽出部9は、単語行列の1行目に格納された各単語のうち、算出されたスコアが上位の単語を、抽出する分類名の候補に決定する。図7に示す例では、分類名候補抽出部9は、算出されたスコアが上位3番目までの単語「たっぷり」、「ソーダ」、「ぎっしり」を、抽出される分類名の候補に決定している。
 すなわち、分類名候補抽出部9は、複数の商品名における単語の重みを単語毎にそれぞれ算出する。また、分類名候補抽出部9は、単語行列作成部7により取得された単語のうち、単語行列作成部7および単語行列補正部8により算出された関連度の複数のアイテム名に渡る和を算出された重みで重み付けた結果が上位M番目までの単語を、分類名の候補に決定する。
 また、上記の例のように、分類名候補抽出部9は、複数の商品名における単語の出現頻度と、任意に選択された商品名における単語の出現頻度とを用いて、単語の重みを算出してもよい。
 分類名候補決定部3は、分類名候補抽出部9により抽出された分類名の候補を表示制御部4に入力する。表示制御部4は、入力された分類名の候補を、グループに属する各商品名が表す各商品の分類名の候補としてディスプレイ装置5上に表示する。
 ディスプレイ装置5は、情報を表示する装置であり、一般的なディスプレイ装置でよい。
 以下、表示制御部4の動作について説明する。ここでは、グルーピング済アイテム名記憶部2に記憶されている1つのグループに着目して説明する。なお、グルーピング済アイテム名記憶部2に複数のグループが記憶されている場合、表示制御部4は、グループ毎に同様の動作を行えばよい。
 表示制御部4は、グループに属する個々の商品名をディスプレイ装置5上に表示するとともに、そのグループに属する各商品名が表す各商品の分類名の複数の候補をディスプレイ装置5上に表示する。このとき、表示制御部4は、分類名の複数の候補を、ユーザによる指定可能な態様で(例えば、マウスクリック等で指定可能な態様で)、ディスプレイ装置5上に表示する。表示制御部4がディスプレイ装置5上に表示する画面には、他のGUI(Graphical User Interface)等が含まれていてもよい。
 図8は、表示制御部4がディスプレイ装置5上に表示する画面の例を示す説明図である。図8に示す例では、表示制御部4がグループに属する商品名である「たっぷりミルクソーダ」、「たっぷりプリン」、「ぎっしりアンパン」等を表示した場合を示している。また、表示制御部4が、各商品名が表す各商品の分類名の候補50として、「たっぷり」、「ソーダ」および「ぎっしり」を表示した場合を示している。これらの候補50は、ユーザによるマウスクリック等の操作によって指定可能である。
 分類決定部6は、表示された分類名の複数の候補50のうちのいずれかが、マウスクリック等の操作でユーザによって指定された場合、グループに属する各商品名(すなわち、表示されている各商品名)が表す各商品が、ユーザによって指定された分類名で分類されると決定する。そして、分類決定部6は、グループに属する各商品名と、指定された分類名とを対応付けたデータを生成する。
 例えば、図8に例示する画面において、各候補50のうち分類名「たっぷり」がユーザによって指定されたとする。この場合、分類決定部6は、図8に示す「たっぷりミルクソーダ」、「たっぷりプリン」および「ぎっしりアンパン」が表す各商品が、「たっぷり」という分類名で分類されると決定する。そして、分類決定部6は、「たっぷりミルクソーダ」、「たっぷりプリン」および「ぎっしりアンパン」のそれぞれと、「たっぷり」という分類名とを対応付けたデータを生成する。
 すなわち、表示制御部4は、複数の商品名を表示するとともに、複数の商品名が表す各商品の、分類名候補決定部3により決定された分類名の複数の候補をユーザによる指定可能な態様で表示する。
 また、表示制御部4は、分類名の候補と併せて、分類名の候補となる単語を含む商品名を表示してもよい。例えば、図8に示すように、表示制御部4は、ユーザが画面上でカーソルを分類名の候補に合わせたときに、該当の分類名の候補の横に、分類名の候補となる単語を含む商品名を表示してもよい。
 分類名の候補となる単語を含む商品名は、例えば、Web 検索で得られた商品名である。分類名候補決定部3は、分類名の候補となる単語を含む商品名を表示制御部4に入力する。
 グループに属する各商品名以外の商品名も参考にすることによって、ユーザは、分類名の複数の候補の中から最終的に使用したい分類名をより決めやすくなる可能性がある。
 分類名候補決定部3、表示制御部4および分類決定部6は、例えば、アイテム分類支援プログラムに従って動作するコンピュータのCPU(Central Processing Unit )によって実現される。例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体からアイテム分類支援プログラムを読み込み、そのアイテム分類支援プログラムに従って、分類名候補決定部3、表示制御部4および分類決定部6として動作すればよい。グルーピング済アイテム名記憶部2は、例えば、コンピュータが備える記憶装置によって実現される。
 次に、処理経過について説明する。図9は、本発明の実施形態の処理経過の例を示すフローチャートである。なお、既に説明した事項については、詳細な説明を省略する。また、グルーピング済アイテム名記憶部2は、既にグループに分けられた商品の商品名を、予め記憶している。
 最初に、分類名候補決定部3は、グルーピング済アイテム名記憶部2に記憶されている商品名のグループを1つ取り出す(ステップS1)。
 次いで、分類名候補決定部3の単語行列作成部7は、形態素解析、商品名データベース検索、およびWeb 検索をそれぞれ行うことによって、取り出されたグループに含まれている商品名を基に単語行列を作成する(ステップS2)。なお、単語行列作成部7は、ステップS2において、商品名データベース検索、またはWeb 検索を実行しなくてもよい。
 次いで、単語行列補正部8は、単語行列作成部7により作成された単語行列の成分の値を補正する(ステップS3)。なお、ステップS3の処理は、省略されてもよい。
 次いで、分類名候補抽出部9は、単語行列補正部8により補正された単語行列から分類名の候補を抽出する(ステップS4)。分類名候補決定部3は、分類名候補抽出部9により抽出された分類名の候補を表示制御部4に入力する。
 次いで、表示制御部4は、グループに属する個々の商品名をディスプレイ装置5上に表示するとともに、そのグループに属する各商品名が表す各商品の分類名の複数の候補50(図8等を参照)をディスプレイ装置5上に表示する(ステップS5)。
 ステップS5において、表示制御部4は、分類名の複数の候補50を、ユーザによる指定可能な態様で(例えば、マウスクリック等で指定可能な態様で)、ディスプレイ装置5上に表示する。なお、分類名の複数の候補50は、分類名候補決定部3から入力された分類名の候補の集合である。
 分類名の複数の候補50(図8等を参照)のいずれかがユーザによって指定された場合、分類決定部6は、グループに属する各商品名が表す各商品が、ユーザに指定された分類名で分類されると決定する(ステップS6)。このとき、分類決定部6は、グループに属する各商品名と、指定された分類名とを対応付けたデータを生成する。
 本実施形態によれば、単語行列作成部7が、複数のアイテム名を含むグループに属するアイテム名から、そのアイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する。また、単語行列作成部7および単語行列補正部8が、取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する。また、分類名候補抽出部9が、取得された単語のうち、算出された関連度の複数のアイテム名に渡る和が上位M番目までの単語を、複数のアイテム名が表す各アイテムの分類名の候補に決定する。
 従って、本実施形態のアイテム分類支援システム1は、グループに含まれている複数のアイテム名との関連度が高い分類名の候補をユーザに提示できる。よって、アイテム分類支援システム1は、商品毎に人手で分類名を定める一般的な方法に比べて、ユーザの負担を大幅に軽減することができる。また、アイテム分類支援システム1は、特許文献2に記載されている情報処理装置に比べて、多くの種類の分類名の候補をユーザに提示できる。
 図10は、本発明の実施形態のアイテム分類支援システム1に係るコンピュータの構成例を示す概略ブロック図である。例えば、コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005とを備える。
 本発明の実施形態のアイテム分類支援システム1は、コンピュータ1000によって実現される。アイテム分類支援システム1の動作は、プログラム(アイテム分類支援プログラム)の形式で、補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って、上記の実施形態で説明した処理を実行する。この場合、分類名候補決定部3、表示制御部4および分類決定部6は、CPU1001によって実現される。ディスプレイ装置5は、ディスプレイ装置1005によって実現される。
 補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、プログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、そのプログラムに従って上記の実施形態で説明した処理を実行してもよい。
 また、各構成要素の一部または全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本発明の概要について説明する。図11は、本発明のアイテム分類支援システムの概要を示すブロック図である。本発明のアイテム分類支援システムは、取得手段11と、算出手段12と、決定手段13とを備える。
 取得手段11(例えば、単語行列作成部7)は、複数のアイテム名を含むグループに属するアイテム名から、そのアイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する。
 算出手段12(例えば、単語行列作成部7および単語行列補正部8)は、取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する。
 決定手段13(例えば、分類名候補抽出部9)は、取得された単語のうち、算出された関連度の複数のアイテム名に渡る和が上位M番目までの単語を、複数のアイテム名が表す各アイテムの分類名の候補に決定する。
 また、算出手段12は、アイテム名を構成する単語のそのアイテム名との関連度を1として算出し、アイテム名を構成しない単語のそのアイテム名との関連度を0として算出してもよい。
 そのような構成により、分類対象となるアイテムの分類の適切な分類名の候補をユーザに提示できる。
 また、取得手段11は、複数のアイテム名をいずれも構成せず、かつ複数のアイテム名のいずれかに関連する単語を外部(例えば、商品名データベース)から取得してもよい。
 また、算出手段12は、予め保持されている辞書に定められている複数の単語間の類似性を基に関連度を算出してもよい。
 そのような構成により、分類対象となるアイテムのアイテム名から想定されない分類名の候補をユーザに提示できる。
 また、決定手段13は、複数のアイテム名における単語の重みを単語毎にそれぞれ算出し、取得された単語のうち、算出された関連度の複数のアイテム名に渡る和と算出された重みの積が上位M番目までの単語を、分類名の候補に決定してもよい。
 また、決定手段13は、複数のアイテム名における単語の出現頻度と、任意に選択されたアイテム名における単語の出現頻度とを用いて、単語の重みを算出してもよい。
 そのような構成により、分類対象となるアイテムの分類のより適切な分類名の候補をユーザに提示できる。
 また、アイテム分類支援システム10は、複数のアイテム名を表示するとともに、複数のアイテム名が表す各アイテムの、決定手段13により決定された分類名の複数の候補をユーザによる指定可能な態様で表示する表示制御手段(例えば、表示制御部4)と、分類名の複数の候補のいずれかがユーザに指定された場合、各アイテムがユーザに指定された分類名で分類されると決定する分類決定手段(例えば、分類決定部6)とを備えてもよい。
 そのような構成により、分類対象となるアイテムの分類の分類名をユーザが容易に定められるようにユーザを支援できる。
 また、表示制御手段は、分類名の候補と併せて、分類名の候補を含むアイテム名を表示してもよい。
 そのような構成により、分類対象となるアイテムの分類の分類名をユーザがより容易に定めることができる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、アイテムの分類を支援するアイテム分類支援システムに好適に適用可能である。
1 アイテム分類支援システム
2 グルーピング済アイテム名記憶部
3 分類名候補決定部
4 表示制御部
5 ディスプレイ装置
6 分類決定部
7 単語行列作成部
8 単語行列補正部
9 分類名候補抽出部

Claims (10)

  1.  複数のアイテム名を含むグループに属するアイテム名から、当該アイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する取得手段と、
     取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する算出手段と、
     取得された単語のうち、算出された関連度の前記複数のアイテム名に渡る和が上位M番目(Mは自然数)までの単語を、前記複数のアイテム名が表す各アイテムの分類名の候補に決定する決定手段とを備える
     ことを特徴とするアイテム分類支援システム。
  2.  算出手段は、
     アイテム名を構成する単語の当該アイテム名との関連度を1として算出し、
     アイテム名を構成しない単語の当該アイテム名との関連度を0として算出する
     請求項1記載のアイテム分類支援システム。
  3.  取得手段は、複数のアイテム名をいずれも構成せず、かつ前記複数のアイテム名のいずれかに関連する単語を外部から取得する
     請求項1または請求項2記載のアイテム分類支援システム。
  4.  算出手段は、予め保持されている辞書に定められている複数の単語間の類似性を基に関連度を算出する
     請求項1から請求項3のうちのいずれか1項に記載のアイテム分類支援システム。
  5.  決定手段は、
     複数のアイテム名における単語の重みを単語毎にそれぞれ算出し、
     取得された単語のうち、算出された関連度の前記複数のアイテム名に渡る和を算出された重みで重み付けた結果が上位M番目までの単語を、分類名の候補に決定する
     請求項1から請求項4のうちのいずれか1項に記載のアイテム分類支援システム。
  6.  決定手段は、複数のアイテム名における単語の出現頻度と、任意に選択されたアイテム名における単語の出現頻度とを用いて、単語の重みを算出する
     請求項5記載のアイテム分類支援システム。
  7.  複数のアイテム名を表示するとともに、前記複数のアイテム名が表す各アイテムの、決定手段により決定された分類名の複数の候補をユーザによる指定可能な態様で表示する表示制御手段と、
     前記分類名の複数の候補のいずれかが前記ユーザに指定された場合、前記各アイテムが前記ユーザに指定された分類名で分類されると決定する分類決定手段とを備える
     請求項1から請求項6のうちのいずれか1項に記載のアイテム分類支援システム。
  8.  表示制御手段は、分類名の候補と併せて、前記分類名の候補となる単語を含むアイテム名を表示する
     請求項7記載のアイテム分類支援システム。
  9.  コンピュータが、
     複数のアイテム名を含むグループに属するアイテム名から、当該アイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得し、
     取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出し、
     取得された単語のうち、算出された関連度の前記複数のアイテム名に渡る和が上位M番目までの単語を、前記複数のアイテム名が表す各アイテムの分類名の候補に決定する
     ことを特徴とするアイテム分類支援方法。
  10.  コンピュータに、
     複数のアイテム名を含むグループに属するアイテム名から、当該アイテム名を構成する1つ以上の単語を、アイテム名毎にそれぞれ取得する取得処理、
     取得された単語がアイテム名に関連する度合いである関連度を、アイテム名毎にそれぞれ算出する算出処理、および
     取得された単語のうち、算出された関連度の前記複数のアイテム名に渡る和が上位M番目までの単語を、前記複数のアイテム名が表す各アイテムの分類名の候補に決定する決定処理
     を実行させるためのアイテム分類支援プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2020/007495 2020-02-25 2020-02-25 アイテム分類支援システム、方法およびプログラム WO2021171373A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/007495 WO2021171373A1 (ja) 2020-02-25 2020-02-25 アイテム分類支援システム、方法およびプログラム
JP2022502375A JP7456486B2 (ja) 2020-02-25 2020-02-25 アイテム分類支援システム、方法およびプログラム
US17/797,951 US20230065007A1 (en) 2020-02-25 2020-02-25 Item classification assistance system, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/007495 WO2021171373A1 (ja) 2020-02-25 2020-02-25 アイテム分類支援システム、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2021171373A1 true WO2021171373A1 (ja) 2021-09-02

Family

ID=77489977

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/007495 WO2021171373A1 (ja) 2020-02-25 2020-02-25 アイテム分類支援システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US20230065007A1 (ja)
JP (1) JP7456486B2 (ja)
WO (1) WO2021171373A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150603A (ja) * 2010-01-22 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2015153013A (ja) * 2014-02-12 2015-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
JP2017072917A (ja) * 2015-10-05 2017-04-13 富士通株式会社 情報処理装置、名称決定方法、および名称決定プログラム
WO2018020842A1 (ja) * 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150603A (ja) * 2010-01-22 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2015153013A (ja) * 2014-02-12 2015-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
JP2017072917A (ja) * 2015-10-05 2017-04-13 富士通株式会社 情報処理装置、名称決定方法、および名称決定プログラム
WO2018020842A1 (ja) * 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Also Published As

Publication number Publication date
JPWO2021171373A1 (ja) 2021-09-02
JP7456486B2 (ja) 2024-03-27
US20230065007A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
US9886669B2 (en) Interactive visualization of machine-learning performance
US9135350B2 (en) Computer-generated sentiment-based knowledge base
EP2874076A1 (en) Generalized graph, rule, and spatial structure based recommendation engine
JP6836294B2 (ja) 検索用資料情報記憶装置
JP6714268B1 (ja) 質問文出力方法、コンピュータプログラム及び情報処理装置
US20220004885A1 (en) Computer system and contribution calculation method
JP7451157B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021171373A1 (ja) アイテム分類支援システム、方法およびプログラム
JP5141152B2 (ja) テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP2018045548A (ja) Fmea作成支援システムおよび方法
WO2014061285A1 (ja) コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
US20190347295A1 (en) Display apparatus and display method
JP2007122512A (ja) 類似品データ検索装置及び検索方法
CN111699472A (zh) 确定用于开发、设计和/或部署不同技术领域的复杂的嵌入式或信息物理系统,特别是其中使用的复杂的软件架构的措施的方法和计算机程序产品
JP2011191834A (ja) 文書分類方法、文書分類装置、およびプログラム
JPH08249353A (ja) 画像検索方法及び装置
JP7231354B2 (ja) 情報処理プログラム、情報処理装置、および情報処理方法
JP4337676B2 (ja) 商品評価装置
JP7042770B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109213830B (zh) 专业性技术文档的文档检索系统
JP2012014684A (ja) 名寄せ支援処理装置、方法及びプログラム
US20240185060A1 (en) Mathematical model training method
JP6613942B2 (ja) 情報出力システム、情報出力方法および情報出力プログラム
JP2020177465A (ja) 情報処理装置、機械学習モデルの製造方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20921777

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022502375

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20921777

Country of ref document: EP

Kind code of ref document: A1