WO2013122205A1 - 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 - Google Patents

辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
WO2013122205A1
WO2013122205A1 PCT/JP2013/053695 JP2013053695W WO2013122205A1 WO 2013122205 A1 WO2013122205 A1 WO 2013122205A1 JP 2013053695 W JP2013053695 W JP 2013053695W WO 2013122205 A1 WO2013122205 A1 WO 2013122205A1
Authority
WO
WIPO (PCT)
Prior art keywords
product
category
noun
dictionary
word
Prior art date
Application number
PCT/JP2013/053695
Other languages
English (en)
French (fr)
Inventor
浩司 村上
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to JP2013558750A priority Critical patent/JP5567749B2/ja
Priority to EP13748770.8A priority patent/EP2816491A4/en
Priority to US14/371,030 priority patent/US9430793B2/en
Publication of WO2013122205A1 publication Critical patent/WO2013122205A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Definitions

  • One embodiment of the present invention relates to an apparatus, a method, a program, and a recording medium for generating a dictionary used for determining a product category.
  • a product category (hereinafter also simply referred to as “category”) is often given to products traded in each store.
  • categories By classifying products using product categories, the manager of the virtual shopping mall can systematically manage a huge number of products that each store purchases based on its own sales plan. Can be used to search and compare products from different stores at once.
  • the merchandise transaction system described in Patent Document 1 below has a plurality of search databases corresponding to a plurality of categories representing the types of merchandise. In this system, for each search database corresponding to each category, product specification information of that category is associated with daily life words that express the features of the product.
  • the association between the product and the category is often performed by the store, but the person in charge of the store may assign the wrong category to the product. Then, the product information includes an error, and when the user searches for a product from the category, the product that should be extracted is not extracted. This not only means that the store loses the opportunity to sell, but it also means that the use of the product information in the entire virtual shopping street may be remarkably deteriorated due to overlapping wrong category registrations.
  • a dictionary related to the correct product category that is, the product category to be registered in the product, is prepared in advance, and whether the registered product category is correct or not is determined while referring to this dictionary. It is conceivable to correct the category accordingly.
  • the dictionary generation device includes (A) a field of product name and / or product description including a noun, a noun phrase or a noun sequence that is a continuation thereof, a product category, and a store handling the product. Determining whether or not a noun sequence included in the product name and / or product description of each record is set corresponding to the product category with reference to the product database storing a plurality of records included as (B) Count the number of stores in the records that contain noun sequences set corresponding to the product category for each product category, and calculate the aggregation level of each noun sequence store set corresponding to the product category.
  • the dictionary generation method includes (A) a field of product name and / or product description including a noun, a noun phrase or a noun sequence that is a continuation thereof, a product category, and a store handling the product. Determining whether or not a noun sequence included in the product name and / or product description of each record is set corresponding to the product category with reference to the product database storing a plurality of records included as (B) Count the number of stores in the records that contain noun sequences set corresponding to the product category for each product category, and calculate the aggregation level of each noun sequence store set corresponding to the product category.
  • the dictionary generation program includes (A) a field of product name and / or product description including a noun, a noun phrase or a noun sequence that is a continuation thereof, a product category, and a store where the product is handled. Determining whether or not a noun sequence included in the product name and / or product description of each record is set corresponding to the product category with reference to the product database storing a plurality of records included as (B) Count the number of stores in the records that contain noun sequences set corresponding to the product category for each product category, and calculate the aggregation level of each noun sequence store set corresponding to the product category.
  • (C) There is one product category that is uniquely derived from a noun sequence based on the degree of store aggregation for each product category.
  • (D) a dictionary that associates the determination unit that determines the continuation of the noun as a compulsory word when the one merchandise category exists, and the merchandise category that is uniquely derived from the compulsory word.
  • the computer executes the registration unit stored in the database.
  • a computer-readable recording medium includes (A) a product name and / or product description including a noun, a noun phrase or a noun sequence that is a continuation thereof, a product category, and a store handling the product.
  • A a product name and / or product description including a noun, a noun phrase or a noun sequence that is a continuation thereof, a product category, and a store handling the product.
  • the degree of aggregation is calculated based on the number of handling stores counted, and (C) one product category uniquely derived from a noun sequence based on the level of store aggregation for each product category And (D) a determination unit that determines the continuation of the noun as a compulsory word when the one merchandise category exists, and the compulsory word and a merchandise category uniquely derived are associated with each other.
  • a dictionary generation program for causing a computer to execute a registration unit that stores dictionary information in a dictionary database is stored.
  • one or more product categories are specified from a product name and / or product description including nouns, noun phrases, or consecutive noun sequences, and the number of stores is calculated for each of the product categories. .
  • an index indicating how many stores have registered the product category that is, the degree of store aggregation, is calculated based on the number of stores in each category. Based on this degree of aggregation, a compulsory word that uniquely leads one product category is determined, and the compulsory word and product category are registered in the dictionary database as dictionary information.
  • the determination unit calculates the number of consecutive nouns for each identified product category, calculates the noun continuous aggregation degree for each product category based on the number of appearances, It may be determined whether or not there is one product category uniquely derived from the noun continuation based on the aggregation degree of the store and the noun continuation degree for the category. In this case, the accuracy of the dictionary information can be further improved by paying attention also to the noun continuous aggregation degree for each product category.
  • the determination unit calculates the number of products corresponding to the product category for each specified product category, and calculates the degree of product aggregation for each product category based on the number of products. Then, it may be determined whether or not there is one product category that is uniquely derived from the noun sequence based on the store aggregation level and the product aggregation level for each product category. In this case, it is possible to further improve the accuracy of the dictionary information by paying attention to the degree of product aggregation for each product category.
  • the determination unit calculates the total number of stores in which product information including noun continuation is included in the product name, and when the total number of stores is equal to or less than a predetermined threshold, May not be determined as a forced word.
  • the determination unit refers to the unnecessary word dictionary that stores the unnecessary words, and if the noun continuation matches the unnecessary word, the determination unit does not determine the noun continuation as a compulsory word. Also good. Thus, the accuracy of dictionary information can be further improved by removing noun continuations that do not need to be registered as compulsory words.
  • the determination unit identifies the product category having the highest degree of aggregation of the store as the majority category and sets the product category having the aggregation level lower than the majority category as the minority category. And the degree of duplication of words between the product name of the minority category and the product name of the majority category is calculated, and when the degree of duplication is equal to or greater than a predetermined threshold, the majority category is a noun continuous It may be determined that the product category is uniquely derived from the product category. In this way, focusing on the degree of overlap of words between the majority category and minority category, the accuracy of dictionary information is further improved by determining whether the majority category is associated with a compulsory word. Can be made.
  • the Nth hierarchy of the majority category is a noun. It is determined that it is uniquely derived from the continuation, and in the (N + 1) th hierarchy of the majority category, the identification of the majority category and the minority category, the calculation of the multiplicity, and the determination based on the multiplicity are repeated. Also good.
  • N is 1 or more.
  • the merchandise category to be associated with the compulsory word is searched for while determining the majority category one by one in order from the highest hierarchy of the category tree, so that the merchandise category can be accurately identified. .
  • the dictionary generation device further includes an update unit that updates the product category of the product information including the forced word indicated by the dictionary information in the product name to the product category indicated by the dictionary information, After the product information is updated, processing by the determination unit, registration unit, and update unit is repeatedly performed, and the determination unit sets a threshold value related to the degree of aggregation of the store smaller than the value used in the previous determination process.
  • the determination unit sets a threshold value related to the degree of aggregation of the store smaller than the value used in the previous determination process.
  • the degree of aggregation of the store it may be determined whether there is one product category that is uniquely derived from the noun sequence.
  • the process of updating the product category of the product information to the correct one using the generated dictionary information is repeated while gradually lowering the threshold regarding the degree of aggregation of the store.
  • the accuracy of the dictionary information can be further improved by repeating a series of processes of generating dictionary information and organizing product information in order from a compulsory word with high accuracy.
  • the determination unit may extract a noun sequence from the product name by morphological analysis. Thereby, noun continuations can be extracted without preparing special rules or a dictionary.
  • the determination unit may extract a noun sequence from a product name with reference to a rule dictionary that stores a description rule of a product name indicating a noun sequence extraction range.
  • a rule dictionary that stores a description rule of a product name indicating a noun sequence extraction range.
  • the determination unit refers to an unnecessary word dictionary that stores unnecessary words, extracts words other than unnecessary words from the product name, and extracts a noun sequence from the extracted words. May be. By using an unnecessary word dictionary in this way, noun continuations can be easily extracted.
  • the registration unit may store recommendation information in which another noun sequence is associated with a product category other than the product category uniquely derived among the product categories in another dictionary database. Good. In this way, by registering the product category that may be related to the continuation of the noun as recommendation information separately from the dictionary information, the range of selection of the product category can be expanded.
  • the dictionary generation device there is one product category in which the determination unit is uniquely derived from the combination of the noun continuation and the store or the store category based on the degree of store aggregation for each product category.
  • the noun sequence is determined as a compulsory word
  • the registration unit associates the compulsory word with a store or store category and a uniquely derived product category.
  • the obtained dictionary information may be stored in a dictionary database. Thereby, dictionary information can be set in consideration of the characteristic of a store.
  • the determination unit may extract a continuation of nouns from the product name with reference to a notation dictionary that stores information related to notation fluctuation.
  • dictionary information can be generated by absorbing notation fluctuation.
  • the determination unit when there is only one product category in which the degree of aggregation of the store is greater than the first threshold, the determination unit has one product category that is uniquely derived from the noun continuation. Then, the noun sequence is determined as the first type compulsory word of the product category, and when there are a plurality of product categories having a store aggregation level greater than the first threshold, for each of the plurality of product categories The noun continuation is determined to be a second type compulsory word whose product category is less compulsory than the first type compulsory word, or a reference word whose product category is less compulsory than the second type compulsory word, and is registered.
  • the unit may store the dictionary information in which the first type compulsory word, the second type compulsory word, or the reference word and the product category are associated with each other in the dictionary database.
  • the noun continuation can be classified into the first type and the second type of compulsory words and reference words, finer dictionary information can be generated.
  • the determination unit when the number of product categories whose store aggregation level is greater than the first threshold is not 1, the determination unit stores the noun continuous registered stores in the remaining categories excluding the product category. It is determined whether the number is larger than the second threshold. If the number of registered stores is larger than the second threshold, it is determined that the noun continuation is an unnecessary word, and the registration unit stores the unnecessary word in a predetermined database. May be. In this case, continuation of nouns can be registered as an unnecessary word.
  • the registration unit extracts a phrase corresponding to the compulsory word with reference to a notation dictionary that stores information about the fluctuation of the notation, the compulsory word, the corresponding phrase, Dictionary information associated with a uniquely derived product category may be stored in the dictionary database.
  • dictionary information can be generated by absorbing notation fluctuation.
  • dictionary information used for determining a product category can be easily generated.
  • (A), (b) is a figure which shows another example of dictionary information (forced word dictionary). It is a flowchart which shows operation
  • the dictionary generation server 10 is a computer that manages a dictionary database 23 used in the electronic commerce (EC) system 1.
  • the EC system 1 is a computer system that provides a user (general consumer) with a website (EC site) of a virtual shopping street in which a plurality of virtual stores open.
  • the user can search for a product or perform a purchase procedure through the site.
  • the store operator registers the product to be sold in the virtual store in the virtual shopping mall, and delivers the product purchased by the user to the user.
  • the kind of goods is not limited, Arbitrary tangibles and intangibles, such as a service, may be sufficient.
  • the EC system 1 includes an EC server 90, a database group 20, terminals of each store operator, that is, a store terminal Ts, and a number of user terminals Tu. These devices are connected to each other via a communication network N.
  • the EC server 90 is a computer system that manages EC sites.
  • the EC server 90 provides various web pages such as a main page and a product page, assists in product search, and purchase processing (addition or deletion of a registered product based on input from the store terminal Ts) , Providing payment means, giving points to the user, etc.).
  • the EC server 90 executes product information update processing (product registration or deletion, inventory addition, etc.) in response to a request from the store terminal Ts.
  • the database group 20 is a collection of various databases necessary for the EC system 1.
  • the store terminal Ts is a computer owned by an operator of a store participating in the virtual shopping mall.
  • the type of store terminal Ts is not limited, and may be, for example, a stationary or portable personal computer, or a portable terminal such as a high-function mobile phone (smart phone), a mobile phone, or a personal digital assistant (PDA).
  • PDA personal digital assistant
  • the number of store terminals Ts present in the EC system 1 is not limited.
  • the user terminal Tu is a computer owned by a user (general consumer). Similar to the shop terminal Ts, the type of the user terminal Tu is not limited, and may be a stationary or portable personal computer, or a portable device such as a high-function mobile phone (smart phone), a mobile phone, or a personal digital assistant (PDA). It may be a terminal.
  • the number of user terminals Tu existing in the EC system 1 is not limited.
  • the store database 21 is means for storing store information regarding each virtual store in the virtual shopping mall.
  • the store information includes a store ID for uniquely identifying the store and attribute information indicating various attributes of the store.
  • the attribute information includes the store name, address, category, and URL, but the information included in the attribute information is not limited.
  • An example of store information is shown in FIG. From this figure, for example, it can be seen that the store with the store ID “S001” is “AB shop” and the category of this store is “alcoholic”.
  • the store category may be systematically managed by a tree structure.
  • the merchandise database 22 is means for storing merchandise information related to merchandise sold by each virtual store.
  • the product information includes a store ID of a store that provides the product (a handling store), a product ID that uniquely identifies the product, and attribute information that indicates various attributes of the product.
  • the attribute information includes the store name, price, URL, inventory quantity, and category, but the information included in the attribute information is not limited.
  • the product category is a concept indicating the classification of products.
  • the merchandise information is newly registered, updated, or deleted based on the instruction transmitted from the store terminal Ts.
  • the product name is the title displayed in the product name column of the product page (web page on which product information is posted) rather than the unique name or general name of the product, and is common to multiple types of products. (For example, a brand name, a manufacturer name, and an advertising phrase such as “free shipping”).
  • the merchandise category is a merchandise category input and registered by the store.
  • the store ID “S001” is associated with the product “BB beer” with the product ID “T002”, and the product category of this product is designated as “food> Japanese sake / shochu”. Yes.
  • the product categories are systematically managed by a tree structure. For example, “Food> Sake / Shochu>” indicates the second level “Sake / Shochu” located under the first level “Food”. .
  • each store sets not only the price of the product but also the product ID and registration category
  • different product IDs and registration categories can be assigned to the same product between stores.
  • the product ID of the product “AA liquor” is “T001” in the store “S001”
  • “T101” is set in the store “S002”.
  • both the product ID and the registration category are different between the stores “S001” and “S002”.
  • the dictionary database 23 is a means for storing a compulsory word dictionary that can be used for registering product categories.
  • a compulsory word dictionary is a set of dictionary information in which compulsory words (Definitive Category Words (DCW)) and product categories are associated, and a compulsory word is a phrase that uniquely identifies one product category. For example, it may be possible to set a proper noun of a product, a combination of a manufacturer name and a proper noun of a product, a general noun of an object, a series of general nouns, and the like as forced words.
  • the dictionary generation server 10 generates this compulsory word dictionary.
  • FIG. 1 An example of a forced word dictionary is shown in FIG. From this example, the compulsory word “AA liquor” is associated with only one product category “food> Japanese sake / shochu”, and the compulsory word “BB beer” has only one product category “food> beer / Western sake”. It can be seen that is associated.
  • the product category associated with the compulsory word may be a leaf category located at the end of the category tree, or may be a top or middle category.
  • the configurations of the store database 21 (store information), the product database 22 (product information), and the dictionary database 23 (dictionary information) are not limited to those shown in FIGS. 2 to 4, and any normalization or redundancy for each database. You may do.
  • the database group 20 includes a user database that stores user information (member information), a purchase history database that stores purchase history of each user, and the like. Detailed description will be omitted.
  • the dictionary generation server 10 includes a CPU 101 that executes an operating system, application programs, and the like, a main storage unit 102 that includes a ROM and a RAM, an auxiliary storage unit 103 that includes a hard disk, and the like.
  • the communication control unit 104 includes a network card, an input device 105 such as a keyboard and a mouse, and an output device 106 such as a display.
  • Each functional component of the dictionary generation server 10 to be described later reads predetermined software on the CPU 101 and the main storage unit 102, and controls the communication control unit 104, the input device 105, the output device 106, and the like under the control of the CPU 101.
  • the operation is realized by reading and writing data in the main storage unit 102 and the auxiliary storage unit 103. Data and databases necessary for processing are stored in the main storage unit 102 and the auxiliary storage unit 103.
  • FIG. 5 shows that the dictionary generation server 10 is configured by one computer, the function of the dictionary generation server 10 may be distributed to a plurality of computers.
  • the dictionary generation server 10 includes an extraction unit 11, a calculation unit 12, a determination unit 13, and a registration unit 14 as functional components.
  • the extraction unit 11 extracts one noun, one noun phrase, or a plurality of nouns or noun phrases arranged consecutively (a series of nouns or noun phrases) from the product names of the product information stored in the product database 22. Is a means for extracting as “noun continuation”. Noun continuation is a compulsory word candidate. In the following description, it is assumed that a noun sequence is extracted from the product name. However, the extraction unit 11 may extract a noun sequence from items other than the product name (for example, product description) in the product information.
  • Noun continuous extraction method is not limited.
  • the extraction unit 11 may extract a continuation of nouns from the product name using morphological analysis or the like. Thereby, noun continuations can be extracted without preparing special rules or a dictionary. If sales information such as an advertising phrase that is not suitable as a noun sequence to be extracted is associated as meta information with the words constituting the product name, the extraction unit 11 removes the meta information and selects only the noun sequence May be. For example, an advertising phrase such as “free shipping” is not suitable as a compulsory word because it is included in various product names in various categories, but if such an advertising phrase can be distinguished by meta information, the extraction unit 11 Extracts only a series of nouns other than advertising phrases.
  • the extraction unit 11 may extract a noun sequence according to a rule on the assumption that the product name is described under a predetermined rule.
  • the extraction unit 11 holds information indicating the rule as a rule dictionary in advance. For example, if the product name description rule (or extraction rule) is “(brand name) + (character string to be extracted) + (other character string to be excluded)”, the product name to be processed is “brand If “X BB beer free shipping”, the extraction unit 11 extracts “BB beer” from the product name as a noun series based on this rule.
  • the rule dictionary in this manner, noun continuations can be easily extracted.
  • the extraction unit 11 outputs all extracted noun continuation data to the calculation unit 12.
  • the calculation unit 12 is a means for reading product information including a noun sequence in the product name from the product database 22 and calculating statistical values necessary for processing for generating dictionary information based on the product information.
  • the calculation unit 12 executes the following processing for each input noun sequence.
  • the calculation unit 12 reads product information including a single noun sequence in the product name from the product database 22, and based on the product information, TF (Term Frequency), CTF (Term Frequency in the category), DF (Document frequency, CDF (Document frequency in the category), MF (Merchant frequency), and CMF (Merchant frequency in the category).
  • TF Terminal Frequency
  • CTF Terminal Frequency in the category
  • DF Document frequency
  • CDF Document frequency in the category
  • MF Mechant frequency
  • CMF Carchant frequency in the category
  • TF is the number of times a noun sequence appears in the product name of the read product information (one or more records) (that is, in all the read products).
  • CTF is a value calculated for each product category indicated by the read product information, and is the number of times a noun continuation appears in the product name corresponding to a certain category.
  • DF is the “number of categories” including products whose product names contain a noun series.
  • the CDF is a value calculated for each product category indicated by the read product information, and is the number of products (number of records) corresponding to a certain category.
  • the MF is the number of stores that register the read product information (that is, the number of stores counted based on all the read products).
  • the CMF is a value calculated for each product category indicated by the read product information, and is the number of stores in which product information belonging to a certain category is registered.
  • calculation unit 12 When the calculation unit 12 obtains the statistical value for each of the noun continuations, it outputs the statistical data to the determination unit 13.
  • Determining unit 13 is means for determining, as a compulsory word, a noun continuation that uniquely leads one product category based on a statistical value for each product category specified by the calculation unit 12. The determination unit 13 executes the following processing for each extracted noun sequence.
  • the determination unit 13 identifies a product category that satisfies the following five conditions for a noun sequence to be processed.
  • the following conditions 1 to 3 are filtering using a threshold, condition 4 is filtering related to the noun continuation itself, and condition 5 is filtering related to the product category itself.
  • Requirement 1 is intended to be treated as a compulsory word only for a series of nouns used by some stores.
  • Condition 2 is a condition that is provided with a focus on how many stores associate a product corresponding to a noun sequence with a specific product category, and can be said to be filtering based on the degree of aggregation of the stores.
  • Condition 3 is a condition that is provided with a focus on how many noun continuations appear in a specific product category, and can be said to be filtering based on the degree of aggregation of noun continuations.
  • Threshold values THa, THb, and THc in conditions 1 to 3 may be arbitrarily determined.
  • THa may be set to 10 or 1
  • THb may be set to 0.9 or 0.8
  • THc may be set to 0.8 or 0.7.
  • CDF and DF may be used instead of CTF and TF.
  • condition 3 is CDF / DF> threshold THd. This condition is set by paying attention to how many products corresponding to the noun sequence are included in a specific product category, and can be said to be filtering based on the degree of product aggregation. Conditions 1 and 3 may be omitted.
  • condition 4 is a condition relating to the continuation of the noun itself, this processing may be performed in the extraction unit 11 described above. In any case, by using such an unnecessary word dictionary, it is possible to easily extract only a continuation of nouns necessary for processing.
  • Condition 5 is a condition for excluding the “other” category in which various types of products can be included. Conditions 4 and 5 can also be omitted.
  • the determination unit 13 determines that the product category is uniquely derived from the noun sequence, in other words, determines that the noun sequence can be treated as a compulsory word.
  • the product category pair is output to the registration unit 14.
  • the determination unit 13 determines that one product category cannot be uniquely derived from the noun continuation, that is, determines that the noun continuation cannot be treated as a compulsory word, and sends data to the registration unit 14. The process ends without outputting.
  • the determination unit 13 determines that noun continuation cannot be treated as a compulsory word.
  • the registration unit 14 is means for generating dictionary information and registering it in the dictionary database 23 (forced word dictionary).
  • the registration unit 14 stores the noun continuation (forced word) and product category pair input from the determination unit 13 in the dictionary database 23 as dictionary information.
  • the extraction unit 11 extracts a noun series from the product information read from the product database 22 (step S11, extraction step). As described above, the extraction unit 11 can extract a noun sequence by various methods. Subsequently, the statistical values TF, CTF, DF, CDF, MF, and CMF are calculated for each of the extracted noun continuations by the calculation unit 12 (step S12, calculation step).
  • the determination unit 13 performs filtering according to the above conditions 1 to 5 for each of the noun continuations to determine whether or not to recognize the noun continuation as a compulsory word (determination step). Specifically, when there is only one product category as a result of filtering in step S13 (step S14; “1”), the determination unit 13 recognizes the noun continuation as a compulsory word (step S15). In this case, the registration unit 14 stores the noun sequence and one product category in the dictionary database 23 as dictionary information (step S16, registration step).
  • step S14 when no product category can be specified or when a plurality of product categories remain (step S14; “0 or multiple”), the determination unit 13 forces the noun continuation to be used. The process ends at that point without authorization.
  • steps S13 to S16 by the determination unit 13 and the registration unit 14 is executed for all noun sequences extracted from one product information (see step S17).
  • the dictionary generation program P1 includes a main module P10, an extraction module P11, a calculation module P12, a determination module P13, and a registration module P14.
  • the main module P10 is a part that comprehensively controls the dictionary generation function.
  • the functions realized by executing the extraction module P11, the calculation module P12, the determination module P13, and the registration module P14 are the same as the functions of the extraction unit 11, the calculation unit 12, the determination unit 13, and the registration unit 14, respectively. It is.
  • the dictionary generation program P1 is provided after being fixedly recorded on a tangible recording medium such as a CD-ROM, DVD-ROM, or semiconductor memory. Further, the dictionary generation program P1 may be provided via a communication network as a data signal superimposed on a carrier wave.
  • one or more product categories are identified from the product information including the noun sequence in the product name, and the statistical value regarding the noun sequence and the statistical value for each of the identified product category And are calculated.
  • These statistical values include at least a value related to the number of stores.
  • an index indicating how many stores have registered the product category that is, the degree of store aggregation, is calculated based on the statistical value.
  • a compulsory word that uniquely leads one product category is determined, and the compulsory word and product category are registered in the dictionary database 23 as dictionary information. In this way, focusing on the number of stores that registered which product category (store aggregation level. CMF / MF) for product information related to a single word (continuous noun), It is possible to easily generate good dictionary information.
  • the accuracy of dictionary information is further improved if forced words are determined by focusing on the degree of noun continuity (CTF / TF) or the degree of product aggregation (CDF / CF) for each product category. be able to.
  • the noun continuation can be a compulsory word only when the total number of stores (MF) in which product information including the noun continuation is registered in the product name exceeds a predetermined threshold, the accuracy of the dictionary information is further improved. Can do.
  • the precision of dictionary information can be further improved by removing the noun continuation which does not need to be registered as a forced word using the said condition 4.
  • the product information in the product database 22 can be organized using the dictionary information automatically generated in this way.
  • the product category of the product information can be updated to a correct value by referring to the dictionary information.
  • the store manager can set the correct product category without thinking about himself. As a result, merchandise that should be extracted by the category search is searched, and the store can more reliably obtain a sales opportunity.
  • the dictionary generation server 10 specifies a forced word in consideration of a store or a store category.
  • description of items that are the same as or similar to those in the first embodiment will be omitted, and items specific to the present embodiment will be particularly described.
  • the dictionary database 23 (dictionary information) is configured as shown in FIG. 9 in consideration of the fact that the same noun sequence may relate to different product categories depending on the store or store category.
  • the example of FIG. 9A is a case where a compulsory word dictionary is prepared for each store category, and each record includes a store category, a compulsory word, and a product category.
  • the example of FIG. 9B is a case where a compulsory word dictionary is prepared for each store, and each record includes a store ID, a compulsory word, and a product category.
  • a function (see FIG. 6) of the dictionary generation server 10 based on the dictionary database 23 will be described. Below, the function of the determination part 13 different from 1st Embodiment is demonstrated especially.
  • the determination unit 13 identifies the product category using the above conditions 1 to 5 for the noun series to be processed. If there is only one specified product category, the determination unit 13 determines that the product category is uniquely derived from the noun series in each store ID or each store category. Then, the determination unit 13 outputs a pair of the noun continuation, the product category, and the store ID or the store category to the registration unit 14.
  • the store ID or the store category corresponding to the continuous noun and the specified product category may be acquired from the product database 22 and / or the store database 21.
  • the determination unit 13 refers to the store database 21 and the product database 22 and acquires a store ID or store category corresponding to each product category. Then, the determination unit 13 outputs a pair of noun continuation, the product category, and the corresponding store ID or store category to the registration unit 14 for each product category.
  • step S14 the determination unit 13 recognizes the continuation of the noun as a compulsory word (step S15). Then, the registration unit 14 stores a pair of the compulsory word, one product category, and the corresponding store ID or store category as dictionary information in the dictionary database (step S16). In the present embodiment, the registration unit 14 can generate a plurality of dictionary information for one noun sequence. On the other hand, when no product category has been specified (step S14; “0”), the determination unit 13 ends the process for the noun continuation.
  • dictionary information can be set in consideration of store characteristics.
  • the present embodiment can also be applied when one store has a plurality of store categories (when one store information specified by one store ID includes a plurality of store categories). For example, it is assumed that there is a store having the two store categories “daily necessities” and “fashion” shown in FIG. Also in this case, depending on the filtering results of the above conditions 1 to 5, dictionary information related to the compulsory word “boots” may be generated for both of the two store categories, and for either one of the store categories. May only be generated.
  • the dictionary generation server 10 updates the product category of the product information based on the generated dictionary information. Then, the dictionary generation server 10 tries to generate further dictionary information using the updated product database 22. That is, the dictionary generation server 10 gradually accumulates the dictionary information while updating the product category of the product information to the correct one.
  • description of items that are the same as or similar to those in the first embodiment will be omitted, and items specific to the present embodiment will be particularly described.
  • the dictionary generation server 10 further includes an update unit 15.
  • the update unit 15 is means for updating the product information in the product database 22 based on the generated dictionary information.
  • the update unit 15 performs the following processing for each of the one or more dictionary information generated this time.
  • the update unit 15 specifies product information that includes a compulsory word indicated by the dictionary information in the product name and has a product category different from that indicated by the dictionary information. Subsequently, the update unit 15 updates the product category of the specified product information (product category estimated to be an error or noise) with the product category (product category that should be registered originally) indicated by the dictionary information.
  • the update process for all the dictionary information generated this time is completed, a series of processes (generation of dictionary information and update of the product database) starting from the extraction unit 11 are repeated based on the updated product database 22.
  • FIG. 12 shows a dictionary generation program P1 for causing a computer to function as the dictionary generation server 10 of the present embodiment.
  • the dictionary generation program P1 further includes an update module P15.
  • the function realized by executing the update module P15 is the same as the function of the update unit 15.
  • the process of updating the product category of the product information to the correct one using the generated dictionary information is repeated while gradually reducing the threshold regarding the degree of store aggregation (CMF / MF).
  • CMF / MF degree of store aggregation
  • the update unit 15 includes a compulsory word indicated by one dictionary information in the product name, the store ID corresponds to the store ID or store category indicated by the dictionary information, and the product category is the dictionary information. Update product category for product information different from what is shown. Therefore, the update unit 15 refers to the store database 21 as necessary in this specifying process.
  • the dictionary generation server 30 specifies a compulsory word in consideration of how much a phrase used as a part of a product name overlaps between categories.
  • description of items that are the same as or similar to those in the first embodiment will be omitted, and items specific to the present embodiment will be particularly described.
  • the hardware configuration of the dictionary generation server 30 is the same as that shown in FIG. As illustrated in FIG. 13, the dictionary generation server 30 includes an extraction unit 31, a calculation unit 32, a first determination unit 33, a second determination unit 34, and a registration unit 35 as functional components. Since the functions of the extraction unit 31, the calculation unit 32, and the registration unit 35 are the same as the functions of the extraction unit 11, the calculation unit 12, and the registration unit 14 in the first embodiment, the first determination unit 33 and the second determination unit will be described below. The determination unit 34 will be particularly described.
  • the first determination unit 33 is a unit that determines, as candidate words, a noun sequence that may uniquely lead one product category based on a statistical value for each product category specified by the calculation unit 32.
  • the 1st determination part 33 performs the following processes about each noun continuation.
  • the first determination unit 33 performs filtering according to the above conditions 1 to 5 in the same manner as the determination unit 13 described above, and identifies the product category corresponding to the noun continuation to be processed. If there is only one specified product category, the first determination unit 33 determines that the noun sequence is a “candidate word” and the product category is a “majority category”. Then, the first determination unit 33 outputs the candidate word and majority category pair to the second determination unit 34. On the other hand, if there are a plurality of specified product categories, the first determination unit 33 determines that one product category cannot be uniquely derived from the noun sequence, that is, the noun sequence cannot be treated as a compulsory word, and the second determination unit The process ends without outputting data to 34. Even when no product category can be specified, the first determination unit 33 determines that noun continuation cannot be treated as a compulsory word.
  • the second determination unit 34 is a means for determining whether or not a candidate word is finally set as a compulsory word based on the degree of overlap of words between product categories.
  • the second determination unit 34 executes the following process for each candidate word.
  • the second determination unit 34 reads product information whose candidate word is included in the product name from the product database 22 and identifies one or more product categories indicated by the product information.
  • the identified product category includes a product category other than the majority category, but the second determination unit 34 recognizes the other product category as a “minority category”.
  • the second determination unit 34 continues the noun sequence between the majority category and each minority category (candidate words and their names) while descending one layer at a time from the top (first layer) of the category tree of the product category. Judgment of how many (noun continuations other than) overlap. That is, the second determination unit determines the noun continuity redundancy.
  • the Nth layer of the product category is also referred to as “product category [N]”.
  • the majority category [1] corresponding to the candidate word is “Sake / Shochu”, while “Beer / Western sake”, “Ladies' fashion” and “Men's fashion” exist as the minority category [1]. Assume that.
  • the second determining unit 34 overlaps the group of consecutive nouns of all products included in the majority category [1] and the group of consecutive nouns of individual products included in the minority category [1].
  • the degree of overlap (duplication degree or overlap ratio) D (A ⁇ B) /
  • is calculated. Note that the formula for obtaining the degree of overlap D is not limited to this. This degree of overlap D is calculated for each product of each minority category [1].
  • the variable A indicates a group of consecutive nouns extracted from the product name of one product that belongs to the minority category [1] and the candidate word is included in the product name.
  • the variable B indicates a group of consecutive nouns extracted from the product names of all products that belong to the majority category [1] and whose candidate words are included in the product names. (A ⁇ B) is the number of nouns appearing in both groups A and B.
  • is the number of nouns constituting the group A.
  • the second determination unit 34 determines that the product belonging to the minority category [1] is not the minority category [1] but the majority. It is determined that it should belong to category [1], and the candidate word is held as it is. On the other hand, if the degree of overlap D is less than the threshold value THf, the second determination unit 34 determines that the product should belong to the minority category [1] (that is, the correct product category is set for the product). judge. This determination means that the candidate word can relate not only to the majority category [1] but also to the minority category [1]. Therefore, the 2nd determination part 34 complete
  • the candidate word is CW
  • the group A includes the candidate word CW and other noun series w1 and w2.
  • the group B includes a candidate word CW and other noun continuations w1, w2, w3, w4, w5, w6, w7, w8, and w9.
  • 3.
  • group A includes candidate word CW and other noun series w1, w10
  • group B includes candidate word CW and other noun series w1, w2, w3, w4, w5, w6. , W7, w8, and w9 are included.
  • 3.
  • the second determination unit 34 makes a determination based on the degree of overlap D for each product of each minority category [1], and if the candidate word can be retained until the end, the second determination unit 34 next The noun continuous duplication degree is determined for the second hierarchy of the school group.
  • the majority category [2] corresponding to the candidate words is “Sake / Shochu> Sake”, “Sake / Shochu> Shochu”, “Sake / Shochu> Plum”, “Sake / Shochu> Other” Is present as a minority category [2].
  • the second determining unit 34 uses the noun series included in the product name in an overlapping manner between the majority category [2] and the minority category [2], similarly to the processing in the first hierarchy.
  • the degree (redundancy) D (A ⁇ B) /
  • the variable A is a group of consecutive nouns extracted from the product name of one product that belongs to the minority category [2] and the candidate word is included in the product name.
  • the variable B is a group of consecutive nouns extracted from the product names of all products that belong to the majority category [2] and the candidate words are included in the product names.
  • the 2nd determination part 34 performs determination based on the duplication degree D and threshold value THf about each commodity of each minority category [2]. Then, if the candidate word can be held until the end, the second determination unit 34 next determines the noun continuous duplication degree for the third hierarchy of the majority category.
  • the second determination unit 34 cannot recognize the candidate word as a compulsory word considering the second hierarchy or lower. .
  • the majority category [1] can be uniquely identified from the candidate word in the first hierarchy, the second determination unit 34 recognizes the candidate word as a compulsory word, and the compulsory word and the majority category [1]. ] Is output to the registration unit 14.
  • the second determination unit 34 recognizes a compulsory word that can uniquely derive a middle category (upper or middle category) up to the leaf category.
  • the minority category includes noise that should be changed to the majority category, and noise that should not be changed to the majority category, and the second determination unit 34 is processing the minority. Compare the category of each category for each product.
  • the second determination unit 34 determines whether or not the candidate word can be treated as a compulsory word by repeatedly performing the above-described processing up to the lowest product category (leaf category).
  • the process of the 2nd determination part 34 can be put together as follows.
  • step S24 when only one product category can be specified for the noun sequence (step S24; “1”), the determination unit 13 recognizes the noun sequence and the product category as a candidate word and a majority category, respectively. (Step S25). In this case, forced word determination and dictionary information registration are performed in consideration of the degree of overlap of noun continuity between the majority category and the minority category (step S26).
  • is calculated (step S262), and if the degree of overlap is equal to or greater than a predetermined threshold (step S263; YES), the candidate word is held as it is (step S264), and further products to be compared The processing of steps S262 to S264 is executed for (see step S265). As a result of processing for each product in each minority category [N], if the candidate word can be kept, the second determination unit 34 determines whether the majority category [N] is a leaf category. Is determined (step S266).
  • step S266 If the majority category [N] is not a leaf category (step S266; NO), the second determination unit 34 executes the processing of steps S261 to S265 in the next (N + 1) hierarchy (step S267). If the majority category [N] is a leaf category (step S266; YES), the second determination unit 34 recognizes the candidate word as a compulsory word (step S268), and the registration unit 35 selects the compulsory word and the majority category. The pair with [N] is stored as dictionary information in the dictionary database (step S269).
  • step S263 if the degree of overlap is less than the threshold (step S263; NO), the process is executed according to the currently processed hierarchy. Specifically, if the degree of overlap has been determined in the second hierarchy or lower (step S270; YES), the second determination unit 34 recognizes the candidate word as a compulsory word (step S271), The registration unit 35 stores the pair of the candidate word and the majority category [N ⁇ 1] (that is, the category one level higher) in the dictionary database as dictionary information (step S272). On the other hand, if the degree of overlap has been determined in the first hierarchy (step S270; NO), the second determination unit 34 ends the process without generating dictionary information.
  • the dictionary generation program P2 includes a main module P20, an extraction module P21, a calculation module P22, a first determination module P23, a second determination module P24, and a registration module P25.
  • the main module P20 is a part that comprehensively controls the dictionary generation function.
  • the functions realized by executing the extraction module P21, the calculation module P22, the first determination module P23, the second determination module P24, and the registration module P25 are the extraction unit 31, the calculation unit 32, and the first determination unit, respectively. 33, the same as the functions of the second determination unit 34 and the registration unit 35.
  • the dictionary generation program P2 can also be distributed by various methods in the same manner as the dictionary generation program P1.
  • the same effect as that of the first embodiment can be obtained.
  • paying attention to the overlapping degree of the phrase between the majority category and the minority category it is determined whether or not the majority category is associated with the compulsory word.
  • the accuracy can be further improved. More specifically, the product category to be associated with the compulsory word is searched while determining the majority category one by one in order from the highest level of the category tree, so that the product category can be accurately specified. it can.
  • the dictionary database 23 (dictionary information) is configured in the same manner as in the second embodiment (FIG. 9) in consideration of the fact that the same word / phrase may relate to different product categories depending on the store or store category.
  • THf 0.7
  • the second determination unit 34 determines that the product should belong to the minority category [1], and in the hierarchy below this minority category [1]. Similar to the processing for the majority category, the determination based on the degree of overlap is performed.
  • the processing of the second determination unit 34 can be summarized as follows.
  • the second The determination unit 34 performs processing in the majority category [N + 1]. However, in this case, if the Nth hierarchy is a leaf category, the second determination unit 34 recognizes the candidate word as a compulsory word for the leaf category (same as in the fourth embodiment). If there is a minority category with a low degree of noun continuity with the majority category in the Nth hierarchy, the second determination unit 34 enforces the candidate word for any of the minority category below the Nth hierarchy. Authenticate that it can be a word. Then, the second determination unit 34 performs processing in the (N + 1) th hierarchy for each of the majority category and the minority category.
  • FIG. 17 shows the operation of the dictionary generation server 10 and the dictionary generation method in the present embodiment.
  • the difference from the fourth embodiment is the process in step S269 and the process in the case where the degree of overlap is less than the threshold in step S263.
  • step S269 the second determination unit 34 acquires the store ID or the store category corresponding to the pair from the product database 22 and / or the store database 21, generates dictionary information, and stores the dictionary information in the dictionary database 23. .
  • step S263 If the degree of duplication is less than the threshold (step S263; NO), the second determination unit 34 determines the majority category [N] and the minority category [N] based on the degree of duplication in the next lower hierarchy. A determination is made, and the registration unit 14 registers dictionary information (step S280).
  • dictionary information can be set in consideration of store characteristics.
  • the dictionary generation server 30 gradually accumulates the dictionary information while updating the product category of the product information to what seems to be correct.
  • description of items that are the same as or similar to those in the fourth embodiment will be omitted, and items specific to this embodiment will be particularly described.
  • the dictionary generation server 30 further includes an update unit 36.
  • the update unit 36 is means for updating the product information in the product database 22 based on the generated dictionary information.
  • the update unit 36 performs the following processing for each of the one or more dictionary information generated this time.
  • the updating unit 36 includes in the product database 22 product information that includes a compulsory word indicated by one dictionary information in the product name and has a product category different from that indicated by the dictionary information. Subsequently, the update unit 36 updates the product category of the specified product information (product category estimated to be error or noise) with the product category (correct product category that should be registered originally) indicated by the dictionary information. .
  • the update process for all the dictionary information generated this time is completed, a series of processes (generation of dictionary information and update of the product database) starting from the extraction unit 31 are repeated based on the updated product database 22.
  • the function of the update unit 36 is the same as the function of the update unit 15 in the third embodiment.
  • FIG. 19 shows a dictionary generation program P2 for causing a computer to function as the dictionary generation server 30 of the present embodiment.
  • the dictionary generation program P2 further includes an update module P26.
  • the function realized by executing the update module P26 is the same as the function of the update unit 36.
  • the process of updating the product category of the product information to the correct one using the generated dictionary information is repeated while gradually reducing the threshold regarding the degree of store aggregation (CMF / MF).
  • CMF / MF degree of store aggregation
  • the update unit 36 includes a compulsory word indicated by one dictionary information in the product name, the store ID corresponds to the store ID or store category indicated by the dictionary information, and the product category is the dictionary information. Product information different from that shown is specified in the product database 22. Therefore, the update unit 36 refers to the store database 21 as necessary in this specifying process.
  • the dictionary generation server 10A sets the noun continuation to one of the first type forced word, the second type forced word, the reference word, or the unnecessary word.
  • description of items that are the same as or similar to those in the first embodiment will be omitted, and items specific to the present embodiment will be particularly described.
  • the first type compulsory word is a phrase that uniquely identifies one product category, and corresponds to the “compulsory word” in the first to sixth embodiments.
  • the second type forced word is a word / phrase having a weaker force of the product category than the first type forced word.
  • the reference word is a phrase having a weaker product category force than the second type forced word.
  • the product category can be set as follows. When it is determined that a product belongs to the product category corresponding to the first type compulsory word, the product is always associated with the product category, and this association cannot be changed on the store side.
  • the store is determined conditionally (for example, on the condition that the approval of the administrator of the EC site is obtained).
  • the product can be associated with a product category other than the product category.
  • the store can unconditionally associate the product with a different product category from the determined one.
  • each store can also associate a product with a product category corresponding to the second type compulsory word or reference word.
  • One word / phrase may be the second type compulsory word in a plurality of product categories, or one word / phrase may be a reference word in a plurality of product categories.
  • a product category with one word becomes the second type compulsory word and a reference word in another product category.
  • one type 1 compulsory word does not become a type 1 compulsory word, a type 2 compulsory word, or a reference word in other product categories.
  • Unnecessary words are words to be excluded indicated by the above condition 4, and one unnecessary word does not serve as a first type forced word, a second type forced word, or a reference word.
  • the hardware configuration of the dictionary generation server 10A is the same as that in the first embodiment (see FIG. 5). As illustrated in FIG. 20, the dictionary generation server 10 ⁇ / b> A is different from the dictionary generation server 10 in the first embodiment in that a determination unit 13 ⁇ / b> A is provided instead of the determination unit 13.
  • the noun sequence corresponds to any of the first type forced word, the second type forced word, the reference word, and the unnecessary word. It is a means to determine.
  • the determination unit 13A uses the following conditions 1 and 2 in the first embodiment.
  • the first threshold value THb and the second threshold value THa can be set arbitrarily.
  • the noun continuation when the noun continuation satisfies the condition 1, it is defined that the noun continuation reaches the peak as a whole. Further, when a noun continuation satisfies the condition 2 for a certain product category, the noun continuation is defined as reaching a peak in the product category.
  • the determination unit 13A executes the process for each noun series.
  • the determination unit 13A determines whether or not one noun sequence has reached a peak in one or more product categories using the condition 2 (step S31). If the noun sequence reaches the peak only in one product category (step S31; 1), the determination unit 13A determines that the noun sequence is the first type compulsory word in the product category (step S32). Then, the registration unit 14 associates the noun series, the product category, and the type to generate dictionary information, and stores the dictionary information in the dictionary database 23 (step S32).
  • the type is any one of the first type forced word, the second type forced word, the reference word, and the unnecessary word.
  • the determination unit 13A determines the plurality of product categories as a peak category, and the noun continuation is a remaining category excluding the peak category. It is further determined whether or not it is a peak as a whole (step S33). For this determination, the determination unit 13A uses an additional condition “MpF> threshold THx”.
  • Mpf is obtained by the following formula.
  • THx second threshold value
  • MpF MF- (sum of CMF of each peak category)
  • the determination unit 13A is also referred to as a product category (hereinafter “peak category”) in which the noun sequence is a peak. ) And the store aggregation degree (CMF / MF) in each peak category (step S34).
  • peak category a product category
  • CMF / MF store aggregation degree
  • the registration unit 14 generates dictionary information by associating the noun series, the product category, and the type, and stores the dictionary information in the dictionary database 23 (step S34).
  • the method for determining the type is not limited. For example, if the number of peak categories is less than a threshold value (for example, 3 or 5) and the degree of store aggregation in each peak category is equal, the determination unit 13A determines that the noun continuation is a second type forced word in each peak category. You may determine that there is. Further, if the number of peak categories is equal to or greater than the threshold value and the store aggregation level (CMF / MF) in each peak category is equal, the noun sequence may be determined to be a reference word in each peak category.
  • a threshold value for example, 3 or 5
  • the degree of store aggregation in each peak category is equal
  • the determination unit 13A determines that the noun continuation is a second type forced word in each peak category. You may determine that there is.
  • the noun sequence may be determined to be a reference word in each peak category.
  • the determination unit 13A may determine that the noun continuation is a second-type forced word in the peak category having the highest store intensity (CMF / MF) and that the noun continuation is a reference word in other peak categories. Good.
  • the determination unit 13A uses a further threshold THy (THy> THb) for distinguishing the second type forced word and the reference word. Then, the determination unit 13A determines that if the store aggregation level (CMF / MF) in a certain peak category is larger than the threshold value THy, the noun continuation is a second type forced word in the peak category, and the store aggregation level is equal to or less than the threshold value THy. If there is, the noun continuation may be determined as a reference word in the peak category.
  • THy THy> THb
  • the determination unit 13A determines that the noun continuation is an unnecessary word (step S35). Then, the registration unit 14 generates dictionary information by associating the noun sequence, the product category, and the type, and stores the dictionary information in the dictionary database 23 (step S35).
  • step S36 determines whether the noun continuation is a peak as a whole. If the noun continuation is a peak as a whole (step S36; YES), the determination unit 13A determines that the noun continuation is an unnecessary word, and the registration unit 14 sets the noun continuation as an unnecessary word in the dictionary database 23. Store (step S35). On the other hand, if the continuation of the noun is not a peak as a whole (step S36; NO), the determination unit 13A excludes the continuation of the noun from the dictionary information generation target (step S37).
  • steps S31 to S37 by the determination unit 13A and the registration unit 14 is executed for all noun sequences extracted from one product information (see step S38).
  • the noun sequence is registered as a first type forced word, a second type forced word, or a reference word in the category.
  • the noun sequence is not registered as a first type forced word, a second type forced word, or a reference word.
  • the dictionary information stored in the dictionary database 23 indicates in which product category each phrase (noun sequence) is set as a first type forced word, a second type forced word, a reference word, or an unnecessary word. It is information to show. An example of the dictionary information is shown in FIG.
  • noun continuations can be classified into four types of first and second types of compulsory words, reference words, and unnecessary words, so that finer dictionary information can be generated.
  • unnecessary words may be stored in an unnecessary word dictionary different from the dictionary database 23. Further, registration of unnecessary words can be omitted, and in this case, the processes of steps S33, S35, and S36 are omitted.
  • a database that stores information related to notation fluctuation may be used.
  • the extraction unit, the calculation unit, and the (first and second) determination units may perform the processing after absorbing the noun continuous notation fluctuation with reference to the notation dictionary.
  • the registration unit may register not only continuous nouns recognized as compulsory words but also dictionary information including notation fluctuations of the continuous nouns in the dictionary database 23. This can absorb the notation shaking.
  • the registration unit 14 uses a plurality of product categories corresponding to the noun continuations as recommended categories, and is a database separate from the compulsory word dictionary. It may be registered in (Recommended Dictionary).
  • the recommendation information is information in which the noun series and the product category are associated, and a plurality of records are generated for one noun series. Such recommendation information can widen the selection range of the product category. For example, by presenting this recommendation dictionary at the time of product registration at a store, the labor of selecting a product category at the store can be reduced somewhat.
  • the dictionary generation server is provided separately from the EC server, but these two servers may be integrated.
  • the extractor With reference to the product database, the noun sequence specifies one or more product categories specified by the product information included in the product name, and for each specified product category, the number of stores specifying the product category is determined.
  • a calculation unit for calculating, The degree of store aggregation for each identified product category is calculated based on the number of stores, and one product category uniquely derived from the noun sequence based on the store aggregation level for each product category is A determination unit that determines whether or not it exists, and determines the continuation of the noun as a compulsory word when the one product category exists;
  • a dictionary generation apparatus comprising: a registration unit that stores dictionary information in which the compulsory word and the uniquely derived product category are associated with each other in a dictionary database.
  • the calculation unit calculates the number of appearances of the noun continuation for each identified product category,
  • the determination unit calculates a noun continuous aggregation level for each identified product category based on the number of appearances, and based on the store aggregation level and the noun continuous aggregation level for each product category, Determining whether there is one product category uniquely derived from the noun sequence; Item 4.
  • the dictionary generation device according to Item 1.
  • the calculation unit calculates the number of products corresponding to the product category for each identified product category
  • the determination unit calculates an aggregation level of products for each identified product category based on the number of products, and based on the aggregation level of the store and the aggregation level of the products for each product category, the noun Determine if there is one product category that is uniquely derived from the sequence, Item 4.
  • the dictionary generation device according to Item 1.
  • the calculation unit calculates the total number of stores in which the product information including the noun continuation is registered in the product name, The determination unit, when the total number of stores is less than or equal to a predetermined threshold, does not determine the noun continuation as the compulsory word, Item 4.
  • the dictionary generation device according to any one of Items 1 to 3.
  • the determination unit specifies a product category having the highest degree of aggregation of the store as a majority category, specifies a product category having a lower aggregation level than the majority category as a minority category, and sells products in the minority category.
  • the degree of duplication of a phrase between a name and the product name of the majority category is calculated, and when the degree of duplication is equal to or greater than a predetermined threshold, the majority category is a product category that is uniquely derived from the noun sequence.
  • the dictionary generation device according to any one of Items 1 to 5.
  • the Nth hierarchy of the majority category is uniquely derived from the noun continuation.
  • the majority (N + 1) hierarchy of the majority category the majority category and the minority category are specified, the degree of overlap is calculated, and the determination based on the degree of overlap is repeated.
  • N is 1 or more, Item 7.
  • the dictionary generation device according to item 6.
  • An update unit that updates the product category of the product information including the forced word indicated by the dictionary information in the product name to the product category indicated by the dictionary information; After the product information is updated by the update unit, processing by the extraction unit, the calculation unit, the determination unit, the registration unit, and the update unit is repeatedly executed, One item that is uniquely derived from the noun continuation based on the aggregation level of the store, after the determination unit sets a threshold value regarding the aggregation level of the store smaller than the value used in the previous determination process Determine if a category exists, Item 8.
  • the dictionary generation device according to any one of Items 1 to 7.
  • the extraction unit extracts the continuation of the noun from the product name by morphological analysis; Item 9.
  • the dictionary generation device according to any one of Items 1 to 8.
  • the extraction unit refers to a rule dictionary that stores a description rule of a product name indicating an extraction range of the noun sequence, and extracts the noun sequence from the product name.
  • Item 9 The dictionary generation device according to any one of Items 1 to 8.
  • the extraction unit refers to an unnecessary word dictionary that stores unnecessary words, extracts words other than the unnecessary words from the product name, and extracts the noun sequence from the extracted words, Item 9.
  • the dictionary generation device according to any one of Items 1 to 8.
  • the registration unit stores the recommendation information in which the noun continuation and the product category other than the uniquely derived product category among the identified product categories are associated in another dictionary database.
  • Item 12 The dictionary generation device according to any one of Items 1 to 11.
  • the determination unit determines whether there is one product category that is uniquely derived from a combination of the noun continuation and the store or the store category based on the degree of store aggregation for each product category, When there is one product category, the noun sequence is determined as a compulsory word,
  • the registration unit stores dictionary information in which the compulsory word, the store or store category, and the uniquely derived product category are associated with each other in the dictionary database. Item 13.
  • the dictionary generation device according to any one of Items 1 to 12.
  • the extraction unit extracts the continuation of the noun from the product name with reference to a notation dictionary that stores information about the shaking of the notation; Item 14.
  • the dictionary generation device according to any one of Items 1 to 13.
  • the registration unit extracts a word / phrase corresponding to the compulsory word with reference to a notation dictionary that stores information related to the fluctuation of the notation, and the compulsory word, the corresponding word / phrase, and the uniquely derived product category are Storing associated dictionary information in the dictionary database; Item 15.
  • the dictionary generation device according to any one of Items 1 to 14.
  • the determination unit is If there is only one merchandise category with the store aggregation level greater than the first threshold, it is determined that there is one merchandise category uniquely derived from the noun sequence, and the noun sequence is determined as the merchandise category. Judgment as type 1 compulsory word, When there are a plurality of product categories in which the degree of aggregation of the store is greater than the first threshold value, the noun continuation is greater than the first type compulsory word for each of the plurality of product categories.
  • the registration unit stores the dictionary information in which the first type compulsory word, the second type compulsory word, or the reference word and the product category are associated with each other in the dictionary database; Item 4.
  • the dictionary generation device according to Item 1.
  • the determination unit is If the number of merchandise categories in which the degree of aggregation of the stores is greater than the first threshold is not 1, it is determined whether or not the number of registered noun continuous stores in the remaining categories excluding the merchandise category is greater than a second threshold. And When the number of registered stores is larger than the second threshold, it is determined that the noun continuation is an unnecessary word, The registration unit stores the unnecessary words in a predetermined database; Item 17.
  • the dictionary generation device according to Item 16.
  • a dictionary generation method executed by a dictionary generation device It is an extraction step for extracting a noun or a series of nouns as a noun continuation from the product name of the product information read from the product database, wherein the product information includes the product name, the product category, and the store handling the product,
  • the extraction step With reference to the product database, the noun sequence specifies one or more product categories specified by the product information included in the product name, and for each specified product category, the number of stores specifying the product category is determined.
  • the degree of store aggregation for each identified product category is calculated based on the number of stores, and one product category uniquely derived from the noun sequence based on the store aggregation level for each product category is
  • a dictionary generation method including a registration step of storing in the dictionary database dictionary information in which the compulsory word is associated with the uniquely derived product category.
  • the extractor With reference to the product database, the noun sequence specifies one or more product categories specified by the product information included in the product name, and for each specified product category, the number of stores specifying the product category is determined.
  • a calculation unit for calculating, The degree of store aggregation for each identified product category is calculated based on the number of stores, and one product category uniquely derived from the noun sequence based on the store aggregation level for each product category is A determination unit that determines whether or not it exists, and determines the continuation of the noun as a compulsory word when the one product category exists;
  • a dictionary generation program that causes a computer to execute a registration unit that stores dictionary information in which a compulsory word and the uniquely derived product category are associated in a dictionary database.
  • the extractor With reference to the product database, the noun sequence specifies one or more product categories specified by the product information included in the product name, and for each specified product category, the number of stores specifying the product category is determined.
  • a calculation unit for calculating, The degree of store aggregation for each identified product category is calculated based on the number of stores, and one product category uniquely derived from the noun sequence based on the store aggregation level for each product category is A determination unit that determines whether or not it exists, and determines the continuation of the noun as a compulsory word when the one product category exists;
  • a computer-readable recording medium that stores a dictionary generation program that causes a computer to execute a registration unit that stores in a dictionary database dictionary information that associates the compulsory word with the uniquely derived product category.
  • Determination module P14 ... Registration module, P15 ... Update module, P2 ... Dictionary generation program, P20 ... Main module, P21 ... Extraction Module, P22 ... Calculation module, P23 ... Determination module, P24 ... Determination module, P25 ... Registration Module, P26 ... update module, Ts ... the shop terminal, Tu ... user terminal.

Abstract

 一実施形態に係る辞書生成装置は、(A)名詞連続を含む商品名/商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名/商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)そのような名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とを備える。

Description

辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
 本発明の一形態は、商品カテゴリの判定に用いる辞書を生成するための装置、方法、プログラム、及び記録媒体に関する。
 インターネットを介して多くの仮想店舗が出店する、いわゆる仮想商店街では、各店舗で取引される商品に商品カテゴリ(以下では単に「カテゴリ」ともいう)が付与されることが多い。商品カテゴリを用いて商品を分類することで、仮想商店街の管理者は、各店舗が独自の販売計画に基づき仕入れるなどした膨大な商品を体系的に管理することができ、また、ユーザはカテゴリを用いて異なる店舗の商品を一度に検索し、比較することができる。例えば、下記特許文献1に記載の商品取引システムは、商品の種類を表す複数のカテゴリに対応する複数の検索データベースを有している。このシステムでは、各カテゴリに対応する検索データベース毎に、そのカテゴリの商品の仕様情報と商品の特徴を現す日常的な生活語とが対応付けられている。
特開2007-264747号公報
 商品とカテゴリとの関連付けは店舗により行われることが多いが、店舗の担当者が間違ったカテゴリを商品に割り当ててしまうことがある。すると、商品情報が誤りを含んでしまい、ユーザがカテゴリから或る商品を検索する際に本来抽出されるべき商品が抽出されなくなってしまうなど、検索精度が低下することとなる。これは店舗が販売の機会を失ってしまうばかりでなく、間違ったカテゴリ登録が重なることにより仮想商店街全体における商品情報の使い勝手が著しく悪くなってしまうおそれがあることを意味する。
 このような状況を改善するために、正しい商品カテゴリ、すなわち商品に登録されるべき商品カテゴリに関する辞書を予め用意して、この辞書を参照しながら登録済の商品カテゴリの正否を判定し、必要に応じてそのカテゴリを修正することが考えられる。しかし、商品や商品カテゴリの種類は多岐にわたるので、その辞書を人手で作成するのは容易ではない。
 そこで、商品カテゴリの判定に用いる辞書を容易に生成することが要請されている。
 本発明の一形態に係る辞書生成装置は、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とを備える。
 本発明の一形態に係る辞書生成方法は、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップとを含む。
 本発明の一形態に係る辞書生成プログラムは、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とをコンピュータに実行させる。
 本発明の一形態に係るコンピュータ読取可能な記録媒体は、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とをコンピュータに実行させる辞書生成プログラムを記憶する。
 このような形態によれば、名詞、名詞句又はそれらの連続する名詞連続を含む商品名及び/又は商品説明から1以上の商品カテゴリが特定され、その商品カテゴリのそれぞれについて店舗数が算出される。続いて、各商品カテゴリについて、どのくらい多くの店舗がその商品カテゴリを登録したかを示す指数、すなわち店舗の集約度が各カテゴリの店舗数に基づいて算出される。そして、この集約度に基づいて、一の商品カテゴリを一意に導く強制語が判定され、その強制語及び商品カテゴリが辞書情報として辞書データベースに登録される。このように、ある一つの語句(名詞、名詞句又はそれらの連続する名詞連続、以下、単に「名詞連続」と記す)に関する商品情報に対して、どのくらいの数の店舗がどの商品カテゴリを登録したかという点(店舗の集約度)に着目して辞書情報を生成することで、商品カテゴリの判定に用いる辞書情報を容易に生成することができる。
 別の形態に係る辞書生成装置では、判定部が、特定した各商品カテゴリについて名詞連続の出現回数を算出し、各商品カテゴリについての名詞連続の集約度を出現回数に基づいて算出し、各商品カテゴリについての店舗の集約度及び名詞連続の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、各商品カテゴリについての名詞連続の集約度にも着目することで、辞書情報の精度をより向上させることができる。
 更に別の形態に係る辞書生成装置では、判定部が、特定した各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、各商品カテゴリについての商品の集約度を商品数に基づいて算出し、各商品カテゴリについての店舗の集約度及び商品の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、各商品カテゴリについての商品の集約度にも着目することで、辞書情報の精度をより向上させることができる。
 更に別の形態に係る辞書生成装置では、判定部が、商品名に名詞連続を含む商品情報を登録した総店舗数を算出し、総店舗数が所定の閾値以下である場合には、名詞連続を強制語として判定しなくてもよい。これにより、名詞連続がある程度多くの店舗により用いられている場合に限ってその名詞連続が強制語になり得るので、辞書情報の精度をより向上させることができる。
 更に別の形態に係る辞書生成装置では、判定部が、不要語を記憶する不要語辞書を参照して、名詞連続が不要語と一致する場合には、名詞連続を強制語として判定しなくてもよい。このように、強制語として登録する必要がない名詞連続を除くことで、辞書情報の精度をより向上させることができる。
 更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが名詞連続から一意に導かれる商品カテゴリであると判定してもよい。このように、多数派カテゴリと少数派カテゴリとの間の語句の重複度に着目して、当該多数派カテゴリが強制語と関連付けられるか否かを判定することで、辞書情報の精度をより向上させることができる。
 更に別の形態に係る辞書生成装置では、判定部が、多数派カテゴリ及び少数派カテゴリの第N階層において重複度が所定の閾値以上である場合には、該多数派カテゴリの第N階層が名詞連続から一意に導かれると判定して、該多数派カテゴリの第(N+1)階層において、多数派カテゴリ及び少数派カテゴリの特定と、重複度の算出と、該重複度に基づく判定とを繰り返してもよい。ここで、Nは1以上である。この場合には、カテゴリ・ツリーの最上位階層から順に1階層ずつ多数派カテゴリを確定させながら、強制語と関連付けられるべき商品カテゴリが探索されるので、当該商品カテゴリを的確に特定することができる。
 更に別の形態に係る辞書生成装置では、辞書情報で示される強制語を商品名に含む商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、更新部により商品情報が更新された後に、判定部、登録部、及び更新部による処理が繰り返し実行され、判定部が、店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、店舗の集約度に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。
 更に別の形態に係る辞書生成装置では、判定部が、形態素解析により商品名から名詞連続を抽出してもよい。これにより、特別なルールや辞書を用意することなく名詞連続を抽出することができる。
 更に別の形態に係る辞書生成装置では、判定部が、名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、商品名から名詞連続を抽出してもよい。このようにルール辞書を用いることで、名詞連続を容易に抽出することができる。
 更に別の形態に係る辞書生成装置では、判定部が、不要語を記憶する不要語辞書を参照して、商品名から不要語以外の語句を抽出し、抽出された語句から名詞連続を抽出してもよい。このように不要語辞書を用いることで、名詞連続を容易に抽出することができる。
 更に別の形態に係る辞書生成装置では、登録部が、名詞連続と、商品カテゴリのうち一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納してもよい。このように、名詞連続と関連する可能性がある商品カテゴリを辞書情報とは別に推薦情報として登録することで、商品カテゴリの選択の幅を広げることができる。
 更に別の形態に係る辞書生成装置では、判定部が、各商品カテゴリについての店舗の集約度に基づいて、名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、登録部が、強制語と、店舗又は店舗カテゴリと、一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。これにより、店舗の特性を考慮して辞書情報を設定することができる。
 更に別の形態に係る辞書生成装置では、判定部が、表記の揺れに関する情報を記憶する表記辞書を参照して商品名から名詞連続を抽出してもよい。これにより、表記揺れを吸収して辞書情報を生成することができる。
 更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が第1閾値より大きい商品カテゴリが一つのみ存在する場合には、名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第1種強制語として判定し、店舗の集約度が第1閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、第1種強制語よりも商品カテゴリの強制力が弱い第2種強制語、又は第2種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、登録部が、第1種強制語、第2種強制語又は参考語と商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。この場合には、名詞連続を第1種及び第2種の強制語と、参考語とに分類することができるので、より細かい辞書情報を生成することができる。
 更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が第1閾値より大きい商品カテゴリの個数が1でない場合に、該商品カテゴリを除いた残りのカテゴリにおける名詞連続の登録店舗数が第2閾値より大きいか否かを判定し、登録店舗数が第2閾値より大きい場合には、名詞連続が不要語であると判定し、登録部が不要語を所定のデータベースに格納してもよい。この場合には、名詞連続を不要語としても登録することができる。
 更に別の形態に係る辞書生成装置では、登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して強制語に対応する語句を抽出し、該強制語と、該対応する語句と、一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。これにより、表記揺れを吸収して辞書情報を生成することができる。
 本発明の一側面によれば、商品カテゴリの判定に用いる辞書情報を容易に生成することができる。
実施形態に係る電子商取引(EC)システムの全体構成を示す図である。 店舗情報の例を示す図である。 商品情報の例を示す図である。 辞書情報(強制語辞書)の例を示す図である。 実施形態に係る辞書生成サーバのハードウェア構成を示す図である。 第1及び第2実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第1実施形態における辞書生成サーバの動作を示すフローチャートである。 第1及び第2実施形態に係る辞書生成プログラムの構成を示す図である。 (a),(b)は、辞書情報(強制語辞書)の別の例を示す図である。 第2実施形態における辞書生成サーバの動作を示すフローチャートである。 第3実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第3実施形態に係る辞書生成プログラムの構成を示す図である。 第4及び第5実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第4実施形態における辞書生成サーバの動作を示すフローチャートである。 図14における、名詞連続の重複度に基づく処理の詳細を示すフローチャートである。 第4及び第5実施形態に係る辞書生成プログラムの構成を示す図である。 第5実施形態における、名詞連続の重複度に基づく処理の詳細を示すフローチャートである。 第6実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第6実施形態に係る辞書生成プログラムの構成を示す図である。 第7実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第7実施形態に係る辞書生成サーバの動作を示すフローチャートである。 第7実施形態に係る辞書情報(強制語辞書)の例を示す図である。
 以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
 (第1実施形態)
 まず、図1~6を用いて、第1実施形態に係る辞書生成サーバ(辞書生成装置)10の機能及び構成を説明する。辞書生成サーバ10は、電子商取引(EC)システム1で用いられる辞書データベース23を管理するコンピュータである。
 ECシステム1は、ユーザ(一般消費者)に、複数の仮想店舗が出店する仮想商店街のウェブサイト(ECサイト)を提供するコンピュータシステムである。ユーザはそのサイトを介して商品を検索したり、購入手続を行ったりすることができる。店舗運営者は販売する商品を仮想商店街の仮想店舗に登録し、ユーザが購入した商品をそのユーザに配送する。なお、商品の種類は限定されず、任意の有体物でもよいし、サービスなどの無体物でもよい。ECシステム1は、辞書生成サーバ10の他にECサーバ90、データベース群20、各店舗運営者の端末、即ち店舗端末Ts、及び多数のユーザ端末Tuを備えている。これらの装置は通信ネットワークNを介して互いに接続されている。
 ECサーバ90は、ECサイトを管理するコンピュータシステムである。ECサーバ90は、ユーザ端末Tuからのリクエストに応じて、メインページや商品ページなどの各種ウェブページの提供、商品検索、購入処理の補助(店舗端末Tsからの入力に基づく登録商品の追加や削除、決済手段の提供、ユーザへのポイント付与などを含む)などを実行する。また、ECサーバ90は、店舗端末Tsからのリクエストに応じて、商品情報更新の処理(商品の登録や削除、在庫の追加など)を実行する。
 データベース群20は、ECシステム1で必要な各種データベースの集まりである。
 店舗端末Tsは、仮想商店街に参加している店舗の運営者が所有するコンピュータである。店舗端末Tsの種類は限定されず、例えば据置型又は携帯型のパーソナルコンピュータでもよいし、高機能携帯電話機(スマートフォン)や携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。ECシステム1内に存在する店舗端末Tsの台数は限定されない。
 ユーザ端末Tuは、ユーザ(一般消費者)が所有するコンピュータである。店舗端末Tsと同様に、ユーザ端末Tuの種類も限定されず、例えば据置型又は携帯型のパーソナルコンピュータでもよいし、高機能携帯電話機(スマートフォン)や携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。ECシステム1内に存在するユーザ端末Tuの台数も限定されない。
 以上を前提として、辞書生成サーバ10の詳細を説明する。まず、この辞書生成サーバ10によりアクセスされる各種データベースについて詳しく説明する。
 店舗データベース21は、仮想商店街内の各仮想店舗に関する店舗情報を記憶する手段である。店舗情報は、店舗を一意に特定するための店舗IDと、その店舗の各種属性を示す属性情報とを含んでいる。属性情報は店舗の名称や住所、カテゴリ、URLを含んでいるが、属性情報に含める情報は限定されない。店舗情報の例を図2に示す。この図から例えば、店舗IDが「S001」である店舗が「ABショップ」であり、この店舗のカテゴリが「酒類」であることが分かる。なお、店舗カテゴリはツリー構造により体系的に管理されていてもよい。
 商品データベース22は、各仮想店舗が販売する商品に関する商品情報を記憶する手段である。商品情報は、商品を提供する店舗(取扱店舗)の店舗IDと、商品を一意に特定する商品IDと、その商品の各種属性を示す属性情報とを含んでいる。属性情報は店舗の名称や価格、URL、在庫数、カテゴリを含んでいるが、属性情報に含める情報は限定されない。ここで、商品カテゴリとは商品の分類を示す概念である。商品情報は、店舗端末Tsから送信された指示に基づいて新規登録、更新、あるいは削除される。ここで、商品名とは、商品の固有名称又は一般名称そのものというよりは、商品ページ(商品情報が掲載されたウェブページ)の商品名欄に表示されるタイトルであり、複数種類の商品に共通する語句(例えば、ブランド名やメーカ名、「送料無料」などの宣伝文句)も含むものである。
 商品情報の例を図3に示す。商品カテゴリとは、店舗により入力及び登録された商品カテゴリのことである。この例では、店舗IDが「S001」に対して、商品IDが「T002」である商品「BBビール」が関連付けられており、この商品の商品カテゴリが「食品>日本酒・焼酎」と指定されている。なお、商品カテゴリはツリー構造により体系的に管理されており、例えば「食品>日本酒・焼酎>」は、第1階層「食品」の下に位置する第2階層「日本酒・焼酎」を示している。
 本実施形態では、各店舗が商品の価格だけでなく商品ID及び登録カテゴリも独自に設定するので、同じ商品に対して店舗間で異なる商品ID及び登録カテゴリが割り当てられ得る。図3の例では、商品「AA酒」の商品IDが、店舗「S001」では「T001」であるのに対して、店舗「S002」では「T101」に設定されている。また、商品「CC水」について見ると、商品ID及び登録カテゴリの双方が店舗「S001」及び「S002」の間で異なっている。
 このように、全店舗が共通の商品ID及び商品カテゴリの使用を強制されない状況下では、後述する強制語辞書を用いて正しい商品カテゴリを判定することでECサイト内の商品カテゴリの整合性を取ることが有効である。仮に商品IDが全店舗共通であっても(例えば、JANコードなどのバーコードに基づいて店舗共通の商品IDを設定した場合でも)、各店舗が商品カテゴリを自由に設定できるのであれば、やはり強制語辞書を用いたカテゴリ判定は有効である。
 辞書データベース23は、商品カテゴリの登録等に用いることが可能な強制語辞書を記憶する手段である。強制語辞書とは、強制語(Definitive Category Words (DCW))と商品カテゴリとが関連付けられた辞書情報の集合であり、強制語とは、一の商品カテゴリを一意に特定する語句である。例えば、商品の固有名詞、メーカ名と商品の固有名詞との組合せ、物の一般名詞、一般名詞の連続などを強制語として設定することが考えられる。辞書生成サーバ10はこの強制語辞書を生成する。
 強制語辞書の例を図4に示す。この例から、強制語「AA酒」には一つの商品カテゴリ「食品>日本酒・焼酎」のみが関連付けられており、強制語「BBビール」には一つの商品カテゴリ「食品>ビール・洋酒」のみが関連付けられていることが分かる。なお、強制語に関連付けられる商品カテゴリは、カテゴリ・ツリーの末端に位置するリーフ・カテゴリ(leaf category)であってもよいし、最上位又は中位のカテゴリであってもよい。
 店舗データベース21(店舗情報)、商品データベース22(商品情報)、及び辞書データベース23(辞書情報)の構成は図2~4に示すものに限定されず、各データベースに対して任意の正規化又は冗長化を行ってよい。
 なお、データベース群20は、ユーザ情報(会員情報)を記憶するユーザデータベースや、各ユーザの購入履歴を記憶する購入履歴データベースなども含むが、強制語辞書の生成に直接関連しないこれらのデータベースについては、詳細な説明を省略する。
 次に、辞書生成サーバ10の機能及び構成を説明する。辞書生成サーバ10のハードウェア構成を図5に示す。この図に示すように、辞書生成サーバ10は、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、ハードディスクなどで構成される補助記憶部103と、ネットワークカードなどで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、ディスプレイなどの出力装置106とを備えている。
 後述する辞書生成サーバ10の各機能的構成要素は、CPU101や主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104や入力装置105、出力装置106などを動作させ、主記憶部102や補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部102や補助記憶部103内に格納される。なお、図5では辞書生成サーバ10が1台のコンピュータで構成されているように示しているが、辞書生成サーバ10の機能を複数台のコンピュータに分散させてもよい。
 図6に示すように、辞書生成サーバ10は機能的構成要素として抽出部11、算出部12、判定部13、及び登録部14を備えている。
 抽出部11は、商品データベース22に記憶されている商品情報の商品名から、一の名詞、一つの名詞句、又は連続して並んでいる複数の名詞又は名詞句(名詞又は名詞句の連続)を「名詞連続」として抽出する手段である。名詞連続は強制語の候補である。なお、以下では商品名から名詞連続を抽出することを前提とするが、抽出部11は商品情報の商品名以外の項目(例えば商品説明)から名詞連続を抽出してもよい。
 名詞連続の抽出方法は限定されない。例えば、抽出部11は形態素解析等を用いて商品名から名詞連続を抽出してもよい。これにより、特別なルールや辞書を用意することなく名詞連続を抽出することができる。商品名を構成する語句に、抽出すべき名詞連続として適さない宣伝文句などの販売情報がメタ情報として関連付けられているのであれば、抽出部11はそのメタ情報を除去して名詞連続のみを選択してもよい。例えば、「送料無料」などのような宣伝文句は様々なカテゴリの様々な商品名に含まれるので強制語として適さないが、そのような宣伝文句をメタ情報により区別可能であれば、抽出部11は宣伝文句以外の名詞連続のみを抽出する。
 更に別の手法として、抽出部11は、商品名が所定のルールの下で記載されていることを前提として、そのルールに沿って名詞連続を抽出してもよい。この場合には、抽出部11はそのルールを示す情報をルール辞書として予め保持している。例えば、商品名の記載ルール(あるいは抽出ルール)が「(ブランド名)+(抽出対象の文字列)+(除外すべき他の文字列)」であったとして、処理対象の商品名が「ブランドX BBビール 送料無料」であれば、抽出部11はこのルールに基づいて商品名から「BBビール」を名詞連続として抽出する。このようにルール辞書を用いることで、名詞連続を容易に抽出することができる。
 抽出部11は抽出したすべての名詞連続のデータを算出部12に出力する。
 算出部12は、名詞連続が商品名に含まれる商品情報を商品データベース22から読み出し、その商品情報に基づいて、辞書情報を生成する処理に必要な統計値を算出する手段である。算出部12は入力された名詞連続のそれぞれについて以下の処理を実行する。
 まず、算出部12は一の名詞連続が商品名に含まれる商品情報を商品データベース22から読み出し、その商品情報に基づいて、TF(Term Frequency),CTF(Term Frequency in the category),DF(Document frequency),CDF(Document frequency in the category),MF(Merchant frequency),CMF(Merchant frequency in the category)という各種の統計値を算出する。各統計値の定義を以下に示す。
 TFは、読み出した商品情報(1以上のレコード)の商品名において(すなわち、読み出した全商品において)名詞連続が現われる回数である。CTFは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある1カテゴリに対応する商品名において名詞連続が現われる回数である。
 DFは、商品名に名詞連続が含まれている商品を含む「カテゴリの数」である。CDFは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある1カテゴリに対応する商品数(レコード数)である。
 MFは、読み出した商品情報を登録した店舗の数(すなわち、読み出した全商品に基づいてカウントされる店舗の数)である。CMFは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある1カテゴリに属する商品情報を登録した店舗の数である。
 算出部12は名詞連続のそれぞれについて上記統計値を得ると、その統計データを判定部13に出力する。
 判定部13は、算出部12により特定された各商品カテゴリについての統計値に基づいて、一の商品カテゴリを一意に導く名詞連続を強制語として判定する手段である。判定部13は抽出された名詞連続のそれぞれについて以下の処理を実行する。
 判定部13は、処理対象の名詞連続に対して、下記の五つの条件を満たす商品カテゴリを特定する。下記条件1~3は閾値を用いたフィルタリングであり、条件4は名詞連続そのものに関するフィルタリングであり、条件5は商品カテゴリそのものに関するフィルタリングであると言える。
 (条件1)MF>閾値THa
 (条件2)CMF/MF>閾値THb
 (条件3)CTF/TF>閾値THc
 (条件4)名詞連続が所定の語句(例えば、「~用」などの接尾辞や、型番などの数値表現)を含まないこと。
 (条件5)名詞連続に対応する商品カテゴリ(リーフ・カテゴリ(leaf category))の末尾が「その他」でないこと。
 条件1は、ある程度多くの店舗により用いられている名詞連続に限って強制語として扱うことを意図している。条件2は、どのくらい多くの店舗が名詞連続に対応する商品を特定の商品カテゴリに関連付けているかという点に着目して設けられた条件であり、店舗の集約度によるフィルタリングであると言える。条件3は、名詞連続が特定の商品カテゴリにどのくらい多く出現しているかという点に着目して設けられた条件であり、名詞連続の集約度によるフィルタリングであると言える。
 条件1~3における閾値THa,THb,THcの値は任意に定めてよい。例えば、THaを10又は1と設定し、THbを0.9又は0.8と設定し、THcを0.8又は0.7と設定してもよい。また、条件3についてはCTF,TFに代えてCDF,DFを用いてもよく、この場合には、条件3はCDF/DF>閾値THdである。この条件は、名詞連続に対応する商品がどのくらい多く特定の商品カテゴリに含まれているかという点に着目して設けられたものであり、商品の集約度によるフィルタリングであると言える。なお、条件1,3を省略してもよい。
 条件4で示される除外対象の語句は、不要語データとして辞書生成サーバ10内に予め記憶されている。この条件4は名詞連続そのものに関する条件であるので、この処理は上記の抽出部11において行われてもよい。いずれにしろ、このような不要語辞書を用いることで、処理に必要な名詞連続のみを容易に抽出することができる。条件5は、様々な種類の商品が含まれ得る「その他」カテゴリを除くための条件である。なお、条件4,5も省略可能である。
 特定した商品カテゴリが一つのみであれば、判定部13はその商品カテゴリが名詞連続から一意に導き出されるものである、言い換えれば、当該名詞連続を強制語として扱えると判定し、この名詞連続及び商品カテゴリのペアを登録部14に出力する。一方、特定した商品カテゴリが複数であれば、判定部13は名詞連続から一つの商品カテゴリを一意に導けない、すなわち、名詞連続を強制語として扱えないと判定して、登録部14へデータを出力することなく処理を終了する。当然ながら、商品カテゴリを一つも特定できなかった場合にも、判定部13は名詞連続を強制語として扱えないと判定する。
 登録部14は、辞書情報を生成して辞書データベース23(強制語辞書)に登録する手段である。登録部14は判定部13から入力された名詞連続(強制語)及び商品カテゴリのペアを辞書情報として辞書データベース23に格納する。
 次に、図7を用いて、辞書生成サーバ10の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。
 まず、抽出部11が商品データベース22から読み出した商品情報から名詞連続を抽出する(ステップS11、抽出ステップ)。上述したように、抽出部11は様々な方法により名詞連続を抽出し得る。続いて、算出部12が抽出された名詞連続のそれぞれについて統計値TF,CTF,DF,CDF,MF,CMFを算出する(ステップS12、算出ステップ)。
 続いて、判定部13が名詞連続のそれぞれについて上記の条件1~5によるフィルタリングを行って、名詞連続を強制語として認定するか否かを判定する(判定ステップ)。具体的には、ステップS13におけるフィルタリングの結果、商品カテゴリが一つだけ存在する場合には(ステップS14;「1」)、判定部13はその名詞連続を強制語として認定する(ステップS15)。この場合には、登録部14がその名詞連続及び一の商品カテゴリを辞書情報として辞書データベース23に格納する(ステップS16、登録ステップ)。
 一方、フィルタリングの結果、商品カテゴリを一つも特定できなかった場合、あるいは商品カテゴリが複数残った場合には(ステップS14;「0又は複数」)、判定部13はその名詞連続を強制語して認定することなく、その時点で処理を終了する。
 判定部13及び登録部14によるステップS13~S16の処理は、一の商品情報から抽出されたすべての名詞連続に対して実行される(ステップS17参照)。
 次に、図8を用いて、コンピュータを辞書生成サーバ10として機能させるための辞書生成プログラムP1を説明する。
 辞書生成プログラムP1は、メインモジュールP10、抽出モジュールP11、算出モジュールP12、判定モジュールP13、及び登録モジュールP14を備えている。
 メインモジュールP10は、辞書生成機能を統括的に制御する部分である。抽出モジュールP11、算出モジュールP12、判定モジュールP13、及び登録モジュールP14を実行することにより実現される機能はそれぞれ、上記の抽出部11、算出部12、判定部13、及び登録部14の機能と同様である。
 辞書生成プログラムP1は、例えば、CD-ROMやDVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、辞書生成プログラムP1は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
 以上説明したように、本実施形態によれば、名詞連続を商品名に含む商品情報から1以上の商品カテゴリが特定され、名詞連続に関する統計値と、特定された商品カテゴリのそれぞれについての統計値とが算出される。これらの統計値には、少なくとも店舗数に関する値が含まれる。続いて、各商品カテゴリについて、どのくらい多くの店舗がその商品カテゴリを登録したかを示す指数、すなわち店舗の集約度がその統計値に基づいて算出される。そして、この集約度に基づいて、一の商品カテゴリを一意に導く強制語が判定され、その強制語及び商品カテゴリが辞書情報として辞書データベース23に登録される。このように、ある一つの語句(名詞連続)に関する商品情報に対して、どのくらいの数の店舗がどの商品カテゴリを登録したかという点(店舗の集約度。CMF/MF)に着目して、精度の良い辞書情報を容易に生成することができる。
 本実施形態において、各商品カテゴリについての名詞連続の集約度(CTF/TF)又は商品の集約度(CDF/CF)にも着目して強制語を判定すれば、辞書情報の精度をより向上させることができる。また、商品名に名詞連続を含む商品情報を登録した総店舗数(MF)が所定の閾値を超える場合に限ってその名詞連続が強制語になり得るので、辞書情報の精度をより向上させることができる。さらに、上記条件4を用いて、強制語として登録する必要がない名詞連続を除くことで、辞書情報の精度をより向上させることができる。
 このように自動的に生成された辞書情報を用いて、商品データベース22内の商品情報を整理することができる。例えば、辞書情報を参照して商品情報の商品カテゴリを正しい値に更新することができる。また、店舗端末Tsにおける商品情報の登録の際に強制語辞書を用いれば、店舗の管理者は自ら考えることなく正しい商品カテゴリを設定することができる。その結果、カテゴリ検索により本来抽出されるべき商品が検索されるようになり、店舗は販売機会をより確実に得ることができる。
 (第2実施形態)
 次に、図9,10を用いて第2実施形態を説明する。本実施形態では、辞書生成サーバ10は、店舗又は店舗カテゴリも考慮して強制語を特定する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
 本実施形態では、同じ名詞連続でも店舗又は店舗カテゴリにより異なる商品カテゴリに関連し得る点を考慮して、辞書データベース23(辞書情報)が図9に示すように構成される。図9(a)の例は店舗カテゴリ毎に強制語辞書を用意した場合であり、各レコードは店舗カテゴリ、強制語、及び商品カテゴリを含んでいる。図9(b)の例は店舗毎に強制語辞書を用意した場合であり、各レコードは店舗ID、強制語、及び商品カテゴリを含んでいる。
 例えば、図9(a),(b)の例では、長靴がファッションに関する商品にも、DIY(日曜大工)に関する商品にもなり得ることを考慮して、強制語「長靴」に対しては、店舗カテゴリ又は店舗毎に異なる商品カテゴリが関連付けられている。すなわち、図9(a)では、日用品を扱う店舗の商品のカテゴリを判定する場合には、強制語「長靴」に対して一つの商品カテゴリ「DIY>ガーデン・DIY」が対応し、ファッションを扱う店舗の商品のカテゴリを判定する場合には、強制語「長靴」に対して一つの商品カテゴリ「ファッション>靴」が対応する。図9(b)についても、図9(a)の場合と同様に、店舗ID「S101」の店舗と店舗ID「S201」の店舗とで、強制語「長靴」に対応する商品カテゴリが異なっている。
 このような辞書データベース23を前提とした辞書生成サーバ10の機能(図6参照)について説明する。以下では、第1実施形態と異なる判定部13の機能について特に説明する。
 第1実施形態と同様に、判定部13は処理対象の名詞連続に対して、上記の条件1~5を用いて商品カテゴリを特定する。そして、特定した商品カテゴリが一つのみであれば、判定部13は各店舗IDあるいは各店舗カテゴリにおいてその商品カテゴリが名詞連続から一意に導き出されるものであると判定する。そして、判定部13はその名詞連続と、その商品カテゴリと、店舗ID又は店舗カテゴリとのペアを登録部14に出力する。ここで、名詞連続及び特定した商品カテゴリに対応する店舗ID又は店舗カテゴリは、商品データベース22及び/又は店舗データベース21から取得すればよい。
 一方、特定した商品カテゴリが複数であれば、判定部13は店舗データベース21及び商品データベース22を参照して、各商品カテゴリに対応する店舗ID又は店舗カテゴリを取得する。そして、判定部13は各商品カテゴリについて、名詞連続と、該商品カテゴリと、対応する店舗ID又は店舗カテゴリとのペアを登録部14に出力する。
 次に、図10を用いて、本実施形態における辞書生成サーバ10の動作及び辞書生成方法について説明する。第1実施形態と異なる点は、ステップS14において、フィルタリングにより残った名詞連続及び商品カテゴリのペアが1以上見つかった場合の処理である。そのペアが1以上見つかった場合には(ステップS14;「1又は複数」)、判定部13はその名詞連続を強制語として認定する(ステップS15)。そして、登録部14が強制語と、一の商品カテゴリと、対応する店舗ID又は店舗カテゴリとのペアを辞書情報として辞書データベースに格納する(ステップS16)。本実施形態では、登録部14は一つの名詞連続について複数個の辞書情報を生成し得る。一方、商品カテゴリを一つも特定できなかった場合には(ステップS14;「0」)、判定部13はその名詞連続についての処理を終了する。
 以上説明した第2実施形態によっても、第1実施形態と同様の効果を得ることができる。また、本実施形態では店舗の特性を考慮して辞書情報を設定することができる。
 なお、一つの店舗が複数の店舗カテゴリを有している場合(一つの店舗IDで特定される一つの店舗情報が複数の店舗カテゴリを含んでいる場合)にも本実施形態を適用できる。例えば、図9に示す二つの店舗カテゴリ「日用品」「ファッション」を有する店舗があり、名詞連続「長靴」についての処理が行われたとする。この場合にも、上記条件1~5のフィルタリングの結果次第で、強制語「長靴」に関する辞書情報がそれら二つの店舗カテゴリの双方について生成されるかもしれないし、それらの店舗カテゴリのどちらか一方についてのみ生成されるかもしれない。
 (第3実施形態)
 次に、図11,12を用いて第3実施形態を説明する。本実施形態では、辞書生成サーバ10は生成した辞書情報に基づいて商品情報の商品カテゴリを更新する。そして、辞書生成サーバ10は、更新後の商品データベース22を用いて更なる辞書情報の生成を試みる。すなわち、辞書生成サーバ10は、商品情報の商品カテゴリを正しいものに更新しながら、辞書情報を徐々に蓄積する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
 図11に示すように、辞書生成サーバ10は更に更新部15を備えている。更新部15は、生成された辞書情報に基づいて商品データベース22の商品情報を更新する手段である。更新部15は、今回生成された1以上の辞書情報のそれぞれについて、以下の処理を行う。
 まず、更新部15は辞書情報で示される強制語を商品名に含み、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を特定する。続いて、更新部15は特定した商品情報の商品カテゴリ(誤り又はノイズと推定される商品カテゴリ)を、その辞書情報で示されている商品カテゴリ(本来登録されるべき商品カテゴリ)で更新する。今回生成された辞書情報のすべてについての更新処理が完了すると、更新後の商品データベース22に基づいて、抽出部11から始まる一連の処理(辞書情報の生成及び商品データベースの更新)が繰り返される。
 当該一連の処理が実行される度に、判定部13は、上記の条件2で用いられる閾値THb、すなわち店舗の集約度に関する閾値を徐々に下げて行く。例えば、判定部13は1巡目の処理ではTHb=1.0とし、2巡目以降はThbを所定の値ずつ(例えば、0.1ずつ、0.05ずつ)下げる。
 コンピュータを本実施形態の辞書生成サーバ10として機能させるための辞書生成プログラムP1は図12の通りである。本実施形態では、辞書生成プログラムP1は更新モジュールP15を更に備える。更新モジュールP15を実行することにより実現される機能は上記更新部15の機能と同様である。
 以上説明した第3実施形態によっても、第1実施形態と同様の効果を得ることができる。更に本実施形態では、店舗の集約度(CMF/MF)に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。
 繰り返し処理により辞書情報を生成する手法は第2実施形態にも同様に適用できる。この場合には、更新部15は一の辞書情報で示される強制語を商品名に含み、店舗IDがその辞書情報で示される店舗ID又は店舗カテゴリに対応し、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報について、商品カテゴリの更新を実行する。したがって、更新部15はこの特定処理において店舗データベース21を必要に応じて参照する。
 (第4実施形態)
 次に、図13~16を用いて第4実施形態を説明する。本実施形態に係る辞書生成サーバ30は、商品名の一部として使われている語句がカテゴリ間でどのくらい重複するかという点も考慮して強制語を特定する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
 辞書生成サーバ30のハードウェア構成は図5に示すものと同じである。図13に示すように、辞書生成サーバ30は機能的構成要素として抽出部31、算出部32、第1判定部33、第2判定部34、及び登録部35を備えている。抽出部31、算出部32、及び登録部35の機能は第1実施形態における抽出部11、算出部12、及び登録部14の機能と同様であるので、以下では第1判定部33及び第2判定部34について特に説明する。
 第1判定部33は、算出部32により特定された各商品カテゴリについての統計値に基づいて、一の商品カテゴリを一意に導く可能性がある名詞連続を候補語として判定する手段である。第1判定部33は名詞連続のそれぞれについて以下の処理を実行する。
 第1判定部33は、上記の判定部13と同様に上記条件1~5によるフィルタリングを行い、処理対象の名詞連続に対応する商品カテゴリを特定する。そして、特定した商品カテゴリが一つのみであれば、第1判定部33はその名詞連続を「候補語」とし、その商品カテゴリを「多数派カテゴリ」として認定する。そして、第1判定部33はその候補語及び多数派カテゴリのペアを第2判定部34に出力する。一方、特定した商品カテゴリが複数であれば、第1判定部33は名詞連続から一つの商品カテゴリを一意に導けない、すなわち、名詞連続を強制語として扱えないと判定して、第2判定部34へデータを出力することなく処理を終了する。商品カテゴリを一つも特定できなかった場合にも、第1判定部33は名詞連続を強制語として扱えないと判定する。
 第2判定部34は、商品カテゴリ間の語句の重複度に基づいて、候補語を最終的に強制語とするか否かを判定する手段である。第2判定部34は各候補語について以下の処理を実行する。
 まず、第2判定部34は候補語が商品名に含まれる商品情報を商品データベース22から読み出し、その商品情報で示されている1以上の商品カテゴリを特定する。特定した商品カテゴリには、多数派カテゴリ以外の商品カテゴリが含まれるが、第2判定部34は当該他の商品カテゴリを「少数派カテゴリ」と認定する。
 続いて、第2判定部34は商品カテゴリのカテゴリ・ツリーの最上位(第1階層)から順に1階層ずつ下がりながら、多数派カテゴリと各少数派カテゴリとの間で名詞連続(候補語及びそれ以外の名詞連続)がどのくらい重複するかを判定する。すなわち、第2判定部は名詞連続の重複度を判定する。以下では、商品カテゴリの第N階層を「商品カテゴリ[N]」ともいう。
 第1階層に対する第2判定部34の処理を説明する。例えば、候補語に対応する多数派カテゴリ[1]が「日本酒・焼酎」である一方で、「ビール・洋酒」、「レディス・ファッション」、「メンズ・ファッション」が少数派カテゴリ[1]として存在すると仮定する。
 この場合に、第2判定部34は、多数派カテゴリ[1]に含まれるすべての商品の名詞連続の群と、少数派カテゴリ[1]に含まれる個々の商品の名詞連続の群とが重複する程度(重複度又は重複率)D=(A∩B)/|A|を算出する。なお、重複度Dを得るための式はこれに限定されない。この重複度Dは各少数派カテゴリ[1]の各商品について算出される。変数Aは、少数派カテゴリ[1]に属し且つ候補語が商品名に含まれる1商品の商品名から抽出した名詞連続の群を示す。変数Bは、多数派カテゴリ[1]に属し且つ候補語が商品名に含まれる全商品の商品名から抽出した名詞連続の群を示す。(A∩B)は、二つの群A,Bの双方に現われる名詞の個数である。|A|は、群Aを構成する名詞の個数である。
 重複度Dが所定の閾値THf(例えばTHf=0.7)以上であれば、第2判定部34は、少数派カテゴリ[1]に属するその商品が当該少数派カテゴリ[1]ではなく多数派カテゴリ[1]に属するべきであると判定し、候補語をそのまま保持する。一方、重複度Dが閾値THf未満であれば、第2判定部34は、その商品が少数派カテゴリ[1]に属するべきである(すなわち、その商品について正しい商品カテゴリが設定されている)と判定する。この判定は、候補語が多数派カテゴリ[1]だけでなくその少数派カテゴリ[1]にも関連し得ることを意味する。したがって、第2判定部34は候補語を強制語として認定することなく、この候補語に関する処理を終了する。
 ここで、重複度の計算例を示す。例えば、候補語をCWとして、群Aには候補語CWと、他の名詞連続w1,w2とが含まれているとする。一方、群Bには、候補語CWと、他の名詞連続w1,w2,w3,w4,w5,w6,w7,w8,w9とが含まれているとする。この場合には|A|=3である。一方、群Aに含まれる語句CW,w1,w2はすべて群Bにも存在するので、(A∩B)=3である。したがって、この場合の重複度Dは3/3=1.0である。閾値THfを0.7とすればD≧THfであるので、第2判定部34は、群Aに対応する商品が多数派カテゴリに属するべきであると判定し、候補語CWを保持し続ける。
 これに対して、群Aには候補語CWと他の名詞連続w1,w10とが含まれており、群Bには候補語CWと他の名詞連続w1,w2,w3,w4,w5,w6,w7,w8,w9とが含まれているとする。この場合も|A|=3である。一方、群A,Bの双方に含まれる語句は二つ(CW及びw1)なので、(A∩B)=2である。したがって、この場合の重複度Dは2/3=0.66である。閾値THfを0.7とすればD<THfであるので、第2判定部34は、群Aに対応する商品がそのまま少数派カテゴリに属するべきであり、候補語CWは強制語ではないと判定する。
 第2判定部34は各少数派カテゴリ[1]の各商品について重複度Dに基づく判定を行い、候補語を最後まで保持し続けることができていれば、第2判定部34は次に多数派カテゴリの第2階層について名詞連続の重複度を判定する。ここでは、候補語に対応する多数派カテゴリ[2]が「日本酒・焼酎>日本酒」である一方で、「日本酒・焼酎>焼酎」、「日本酒・焼酎>梅酒」、「日本酒・焼酎>その他」が少数派カテゴリ[2]として存在すると仮定する。
 この場合に、第2判定部34は第1階層における処理と同様に、商品名に含まれている名詞連続が多数派カテゴリ[2]と少数派カテゴリ[2]との間で重複して用いられている程度(重複度)D=(A∩B)/|A|を算出する。この場合には、変数Aは、少数派カテゴリ[2]に属し且つ候補語が商品名に含まれる1商品の商品名から抽出した名詞連続の群である。また、変数Bは、多数派カテゴリ[2]に属し且つ候補語が商品名に含まれる全商品の商品名から抽出した名詞連続の群である。
 第2判定部34は各少数派カテゴリ[2]の各商品について重複度D及び閾値THfに基づく判定を行う。そして、候補語を最後まで保持し続けることができていれば、第2判定部34は次に多数派カテゴリの第3階層について名詞連続の重複度を判定する。
 一方、第2階層における判定処理の途中で、D<THfである商品が見つかった場合には、第2判定部34は、第2階層以下を考慮すると候補語を強制語として認定することはできない。しかし、第1階層においては候補語から多数派カテゴリ[1]を一意に特定できるので、第2判定部34は、その候補語を強制語として認定し、当該強制語と当該多数派カテゴリ[1]とのペアを登録部14に出力する。この場合には、第2判定部34は、リーフ・カテゴリに至るまでの途中のカテゴリ(上位又は中位のカテゴリ)を一意に導き出せる強制語を認定したことになる。
 このように、少数派カテゴリには、ノイズであって多数派カテゴリに変更すべきものと、ノイズではなく多数派カテゴリに変えるべきでないものとがあり、第2判定部34は、処理している少数派カテゴリがどちらの場合に該当するかを個々の商品毎に比較する。第2判定部34は上述した処理を、場合によっては最下層の商品カテゴリ(リーフ・カテゴリ)まで繰り返し行うことで、候補語を強制語として扱えるか否かを判定する。第2判定部34の処理は以下のようにまとめることができる。
 ・多数派カテゴリ[N]に含まれるすべての商品の名詞連続の群と、各少数派カテゴリ[N]の各商品の名詞連続の群との間で名詞連続の重複度が高ければ、第2判定部34は多数派カテゴリ[N+1]での処理を行う。ただし、この場合に第N階層がリーフ・カテゴリであれば、第2判定部34は候補語をリーフ・カテゴリに対する強制語として認定する。
 ・第N階層において多数派カテゴリとの間で名詞連続の重複度が低い少数派カテゴリが存在すれば、第2判定部34は候補語を多数派カテゴリ[N-1]に対する強制語として認定する。ただし、この場合にN=1であれば、第2判定部34はその候補語を棄却する。あるいは、N=1である場合に第2判定部34はその候補語を不要語辞書に登録してもよい。
 次に、図14,15を用いて、辞書生成サーバ30の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。ただし、ステップS21~24,S27の処理は第1実施形態(図7)におけるステップ11~14,S17の処理と同様であるので、以下では、第1実施形態と異なるステップS25,S26の処理についてのみ説明する。
 フィルタリングの結果、名詞連続に対して一の商品カテゴリのみを特定できた場合には(ステップS24;「1」)、判定部13はその名詞連続及び商品カテゴリをそれぞれ候補語及び多数派カテゴリとして認定する(ステップS25)。この場合には、多数派カテゴリと少数派カテゴリとの間の名詞連続の重複度を更に考慮して、強制語の判定と辞書情報の登録とが行われる(ステップS26)。
 ステップS26の詳細は図15に示す通りである。まず、第2判定部34は候補語に対応する商品情報に基づいて少数派カテゴリ[N]を特定する(ステップS261)。なお、Nの初期値は1である。続いて、第2判定部34は多数派カテゴリ[N]に含まれるすべての商品の名詞連続の群と一の少数派カテゴリ[N]の一の商品との重複度D=(A∩B)/|A|を算出し(ステップS262)、その重複度が所定の閾値以上であれば(ステップS263;YES)、その候補語をそのまま保持しつつ(ステップS264)、比較対象となる更なる商品についてステップS262~S264の処理を実行する(ステップS265参照)。各少数派カテゴリ[N]の各商品について処理した結果、候補語を保持し続けることができた場合には、第2判定部34は多数派カテゴリ[N]がリーフ・カテゴリであるか否かを判定する(ステップS266)。
 多数派カテゴリ[N]がリーフ・カテゴリでなければ(ステップS266;NO)、第2判定部34は次の第(N+1)階層において上記ステップS261~S265の処理を実行する(ステップS267)。多数派カテゴリ[N]がリーフ・カテゴリであれば(ステップS266;YES)、第2判定部34は候補語を強制語として認定し(ステップS268)、登録部35が該強制語と多数派カテゴリ[N]とのペアを辞書情報として辞書データベースに格納する(ステップS269)。
 以上に対して、重複度が閾値未満である場合には(ステップS263;NO)、現在処理している階層に応じて処理が実行される。具体的には、第2階層若しくはそれ以下の階層において重複度を判定していたのであれば(ステップS270;YES)、第2判定部34は候補語を強制語として認定し(ステップS271)、登録部35が該候補語と多数派カテゴリ[N-1](すなわち、一つ上の階層のカテゴリ)とのペアを辞書情報として辞書データベースに格納する(ステップS272)。一方、第1階層において重複度を判定していたのであれば(ステップS270;NO)、第2判定部34は辞書情報を生成することなく処理を終了する。
 次に、図16を用いて、コンピュータを辞書生成サーバ30として機能させるための辞書生成プログラムP2を説明する。
 辞書生成プログラムP2は、メインモジュールP20、抽出モジュールP21、算出モジュールP22、第1判定モジュールP23、第2判定モジュールP24、及び登録モジュールP25を備えている。
 メインモジュールP20は、辞書生成機能を統括的に制御する部分である。抽出モジュールP21、算出モジュールP22、第1判定モジュールP23、第2判定モジュールP24、及び登録モジュールP25を実行することにより実現される機能はそれぞれ、上記の抽出部31、算出部32、第1判定部33、第2判定部34、及び登録部35の機能と同様である。
 辞書生成プログラムP2も、上記の辞書生成プログラムP1と同様に様々な方法で配布しうる。
 以上説明した第4実施形態によっても、第1実施形態と同様の効果を得ることができる。加えて、本実施形態では、多数派カテゴリと少数派カテゴリとの間の語句の重複度に着目して、当該多数派カテゴリが強制語と関連付けられるか否かを判定することで、辞書情報の精度をより向上させることができる。より具体的には、カテゴリ・ツリーの最上位階層から順に1階層ずつ多数派カテゴリを確定させながら、強制語と関連付けられるべき商品カテゴリを探索されるので、当該商品カテゴリを的確に特定することができる。
 (第5実施形態)
 次に、図17を用いて第5実施形態を説明する。本実施形態は第4実施形態に第2実施形態の技術思想を取り込んだものであり、辞書生成サーバ30は、店舗又は店舗カテゴリも考慮して強制語を特定する。以下では、第4実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
 本実施形態では、同じ語句でも店舗又は店舗カテゴリにより異なる商品カテゴリに関連し得る点を考慮して、辞書データベース23(辞書情報)が第2実施形態(図9)と同様に構成される。
 このような辞書データベース23を前提とした辞書生成サーバ30の機能について説明する。以下では、第3実施形態と異なる第2判定部34の機能について特に説明する。
 まず、第2判定部34は候補語が商品名に含まれる商品情報を商品データベース22から読み出して少数派カテゴリを特定する。続いて、第2判定部34は商品カテゴリのカテゴリ・ツリーの最上位(第1階層)から順に1階層ずつ下がりながら、多数派カテゴリに含まれるすべての商品の名詞連続の群と、各少数派カテゴリの各商品との間で名詞連続の重複度を判定する。重複度Dが所定の閾値THf(例えばTHf=0.7)以上であれば、第2判定部34は、少数派カテゴリ[1]に属するその商品が当該少数派カテゴリ[1]ではなく多数派カテゴリ[1]に属するべきであると判定し、候補語をそのまま保持する。そして、第2判定部34は、この多数派カテゴリ[1]について以降の処理を更に進める。ここまでは第3実施形態と同様である。
 一方、重複度Dが閾値THf未満であれば、第2判定部34は、その商品が少数派カテゴリ[1]に属するべきであると判定し、この少数派カテゴリ[1]の下位の階層において、多数派カテゴリについての処理と同様に、重複度に基づく判定を行う。
 第2判定部34の処理は以下のようにまとめることができる。
 ・多数派カテゴリ[N]に含まれるすべての商品の名詞連続の群と、各少数派カテゴリ[N]の各商品の名詞連続の群との間で名詞連続の重複度が高ければ、第2判定部34は多数派カテゴリ[N+1]での処理を行う。ただし、この場合に第N階層がリーフ・カテゴリであれば、第2判定部34は候補語をリーフ・カテゴリに対する強制語として認定する(第4実施形態と同じ)。
 ・第N階層において多数派カテゴリとの間で名詞連続の重複度が低い少数派カテゴリが存在すれば、第2判定部34は候補語が当該少数派カテゴリの第N階層以下のいずれかに対する強制語にもなり得ると認定する。そして、第2判定部34は多数派カテゴリ及びその少数派カテゴリのそれぞれについて第(N+1)階層での処理を行う。
 本実施形態における辞書生成サーバ10の動作及び辞書生成方法を図17に示す。第4実施形態と異なる点としてステップS269の処理、及びステップS263において重複度が閾値未満である場合の処理が挙げられる。
 ステップS269では、第2判定部34は、ペアに対応する店舗ID又は店舗カテゴリを商品データベース22及び/又は店舗データベース21から取得して辞書情報を生成し、その辞書情報を辞書データベース23に格納する。
 重複度が閾値未満である場合には(ステップS263;NO)、第2判定部34は多数派カテゴリ[N]及び少数派カテゴリ[N]のそれぞれについて、一つ下の階層において重複度に基づく判定を行い、登録部14が辞書情報を登録する(ステップS280)。
 以上説明した第5実施形態によっても、第4実施形態と同様の効果を得ることができる。また、本実施形態では店舗の特性を考慮して辞書情報を設定することができる。
 (第6実施形態)
 次に、図18,19を用いて第6実施形態を説明する。本実施形態では、辞書生成サーバ30は商品情報の商品カテゴリを正しいと思われるものに更新しながら辞書情報を徐々に蓄積する。以下では、第4実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
 本実施形態では、辞書生成サーバ30は更に更新部36を備えている。更新部36は、生成された辞書情報に基づいて商品データベース22の商品情報を更新する手段である。更新部36は、今回生成された1以上の辞書情報のそれぞれについて以下の処理を行う。
 まず、更新部36は一の辞書情報で示される強制語を商品名に含み、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を商品データベース22内で特定する。続いて、更新部36は特定した商品情報の商品カテゴリ(誤り又はノイズと推定される商品カテゴリ)を、その辞書情報で示されている商品カテゴリ(本来登録されるべき正しい商品カテゴリ)で更新する。今回生成された辞書情報のすべてについての更新処理が完了すると、更新後の商品データベース22に基づいて、抽出部31から始まる一連の処理(辞書情報の生成及び商品データベースの更新)が繰り返される。このように、更新部36の機能は第3実施形態における更新部15の機能と同様である。
 当該一連の処理が実行される度に、第1判定部33は、上記の条件2で用いられる閾値THb、すなわち店舗の集約度に関する閾値を徐々に下げて行く。例えば、第1判定部33は1巡目の処理ではTHb=1.0とし、2巡目以降はThbを所定の値ずつ(例えば、0.1ずつ、0.05ずつ)下げる。
 コンピュータを本実施形態の辞書生成サーバ30として機能させるための辞書生成プログラムP2は図19の通りである。本実施形態では、辞書生成プログラムP2は更新モジュールP26を更に備える。更新モジュールP26を実行することにより実現される機能は上記更新部36の機能と同様である。
 以上説明した第6実施形態によっても、第4実施形態と同様の効果を得ることができる。更に本実施形態では、店舗の集約度(CMF/MF)に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。
 商品データベース22を用いた繰り返し処理により辞書情報を生成する手法は、第5実施形態についても同様に適用できる。この場合には、更新部36は一の辞書情報で示される強制語を商品名に含み、店舗IDがその辞書情報で示される店舗ID又は店舗カテゴリに対応し、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を商品データベース22内で特定する。したがって、更新部36はこの特定処理において店舗データベース21を必要に応じて参照する。
 (第7実施形態)
 次に、図20~22を用いて第7実施形態を説明する。本実施形態では、辞書生成サーバ10Aが名詞連続を第1種強制語、第2種強制語、参考語、又は不要語のいずれかに設定する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
 第1種強制語は、一の商品カテゴリを一意に特定する語句であり、上記第1~第6実施形態における「強制語」に相当する。第2種強制語は、第1種強制語よりも商品カテゴリの強制力が弱い語句である。参考語は、第2種強制語よりも商品カテゴリの強制力が弱い語句である。
 本実施形態で生成される辞書情報を用いる場合には、商品カテゴリは以下のように設定され得る。ある商品が、第1種強制語に対応する商品カテゴリに属すると判定された場合には、その商品は必ずその商品カテゴリに関連付けられ、店舗側でこの関連付けを変更することはできない。ある商品が、第2種強制語に対応する商品カテゴリに属すると判定された場合には、店舗は条件付きで(例えば、ECサイトの管理者の承認を得ることを条件に)、判定されたものとは別の商品カテゴリにその商品を関連付けることができる。ある商品が、参考語に対応する商品カテゴリに属すると判定された場合には、店舗は無条件で、判定されたものとは別の商品カテゴリにその商品を関連付けることができる。もちろん、各店舗は商品を第2種強制語又は参考語に対応する商品カテゴリと関連付けることもできる。
 一つの語句が複数の商品カテゴリにおいて第2種強制語になる場合もあるし、一つの語句が複数の商品カテゴリにおいて参考語になる場合もある。また、一つの語句がある商品カテゴリにおいて第2種強制語となり且つ別の商品カテゴリにおいて参考語となる場合もある。しかし、一つの第1種強制語が他の商品カテゴリにおいて第1種強制語、第2種強制語、及び参考語になることは無い。不要語は上記条件4で示される除外対象の語句であり、一つの不要語が第1種強制語、第2種強制語、又は参考語を兼ねることは無い。
 辞書生成サーバ10Aのハードウェア構成は第1実施形態におけるものと同様である(図5参照)。図20に示すように、辞書生成サーバ10Aは、判定部13に代えて判定部13Aを備える点で、第1実施形態における辞書生成サーバ10と異なる。
 判定部13Aは、算出部12により特定された各商品カテゴリについての統計値に基づいて、その名詞連続が第1種強制語、第2種強制語、参考語、及び不要語のいずれに該当するかを判定する手段である。
 本実施形態では、判定部13Aは第1実施形態における下記条件1,2を用いる。第1閾値THb及び第2閾値THaの値が任意に設定可能であることは第1実施形態と同様である。本実施形態では、名詞連続が条件1を満たす場合にはその名詞連続は全体でピーク(peak)に達していると定義する。また、ある一つの商品カテゴリについて名詞連続が条件2を満たす場合にはその名詞連続は該商品カテゴリにおいてピークに達していると定義する。
 (条件1)MF>THa
 (条件2)CMF/MF>THb
 図21を用いて判定部13Aの機能及び動作を説明する。第1実施形態と同様にステップS11,S12の処理が実行された後、判定部13Aは各名詞連続について処理を実行する。
 判定部13Aは条件2を用いて、一の名詞連続が一以上の商品カテゴリにおいてピークに達しているか否かを判定する(ステップS31)。その名詞連続が一つの商品カテゴリにおいてのみピークに達していれば(ステップS31;1)、判定部13Aはその名詞連続がその商品カテゴリにおける第1種強制語であると判定する(ステップS32)。そして、登録部14がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース23に格納する(ステップS32)。なお、種別とは、第1種強制語、第2種強制語、参考語、及び不要語のうちのいずれかである。
 名詞連続が複数の商品カテゴリにおいてピークに達していれば(ステップS31;複数)、判定部13Aは、該複数の商品カテゴリをピークカテゴリとして判定し、その名詞連続がピークカテゴリを除いた残りのカテゴリの全体でピークか否かを更に判定する(ステップS33)。この判定のために、判定部13Aは追加の条件「MpF>閾値THx」を用いる。ここで、Mpfは下記式で求まる。THx(第2閾値)は任意の基準により定めてよい。
 MpF=MF-(各ピークカテゴリのCMFの総和)
 その名詞連続が残りのカテゴリ全体でピークでない(すなわち、MpF≦THx)場合には(ステップS33;NO)、判定部13Aはその名詞連続がピークである商品カテゴリ(以下では「ピークカテゴリ」とも言う)の個数と各ピークカテゴリでの店舗集約度(CMF/MF)とに基づいて種別を設定する(ステップS34)。このステップS34では、名詞連続は第2種強制語又は参考語に分類される。そして、登録部14がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース23に格納する(ステップS34)。
 種別の決定方法は限定されない。例えば、判定部13Aは、ピークカテゴリの個数が閾値(例えば3や5など)未満であり且つ各ピークカテゴリでの店舗集約度が等しければ、その名詞連続が各ピークカテゴリにおいて第2種強制語であると判定してもよい。また、ピークカテゴリの個数がその閾値以上であり且つ各ピークカテゴリでの店舗集約度(CMF/MF)が等しければ、その名詞連続が各ピークカテゴリにおいて参考語であると判定してもよい。
 あるいは、判定部13Aは店舗集約度(CMF/MF)が最も高いピークカテゴリではその名詞連続が第2種強制語であり、他のピークカテゴリではその名詞連続が参考語であると判定してもよい。
 あるいは、判定部13Aは第2種強制語と参考語とを区分けするための更なる閾値THy(THy>THb)を用いる。そして判定部13Aは、あるピークカテゴリでの店舗集約度(CMF/MF)がその閾値THyより大きければ名詞連続がそのピークカテゴリにおいて第2種強制語であり、その店舗集約度が閾値THy以下であれば名詞連続がそのピークカテゴリにおいて参考語であると判定してもよい。
 名詞連続が残りのカテゴリ全体でピークである(すなわち、MpF>THx)場合には(ステップS33;YES)、判定部13Aはその名詞連続が不要語であると判定する(ステップS35)。そして、登録部14がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース23に格納する(ステップS35)。
 名詞連続がどの商品カテゴリにおいてもピークに達していなければ(ステップS31;0)、判定部13Aはその名詞連続が全体でピークであるか否かを判定する(ステップS36)。そして、その名詞連続が全体でピークであれば(ステップS36;YES)、判定部13Aはその名詞連続が不要語であると判定し、登録部14がその名詞連続を不要語として辞書データベース23に格納する(ステップS35)。一方、その名詞連続が全体でピークでなければ(ステップS36;NO)、判定部13Aはその名詞連続を辞書情報生成の対象外とする(ステップS37)。
 判定部13A及び登録部14によるステップS31~S37の処理は、一の商品情報から抽出されたすべての名詞連続に対して実行される(ステップS38参照)。
 このように、ある名詞連続が一部のカテゴリでのみピークであれば、その名詞連続はそのカテゴリにおける第1種強制語、第2種強制語又は参考語として登録される。一方、ある名詞連続が商品カテゴリ全体においてピークであると判定された場合には、その名詞連続は第1種強制語、第2種強制語又は参考語として登録されない。
 本実施形態において辞書データベース23に格納される辞書情報は、各語句(名詞連続)がどの商品カテゴリにおいて第1種強制語、第2種強制語、参考語、又は不要語として設定されているかを示す情報である。その辞書情報の例を図22に示す。
 この第7実施形態においても第1実施形態と同様の効果を得ることができる。加えて、本実施形態では名詞連続を第1種及び第2種の強制語と、参考語と、不要語という4種類に分類することができるので、より細かい辞書情報を生成することができる。
 本実施形態において、不要語は辞書データベース23とは別の不要語辞書に格納してもよい。また、不要語の登録は省略可能であり、その場合には、上記ステップS33,S35,S36の処理が省略される。
 以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
 言葉の表記揺れ(一つの言葉に対して複数の表記が存在すること)を吸収するために、表記の揺れに関する情報を記憶するデータベース(表記辞書)を用いてもよい。例えば、英単語「interface」を日本語表記すると「インタフェース(intafe-su)」「インターフェイス(inta-feisu)」といった表記揺れが生じ得る。そこで、抽出部、算出部、(第1及び第2)判定部は表記辞書を参照して名詞連続の表記揺れを吸収した上で処理を行ってもよい。また、登録部は強制語として認定された名詞連続だけでなく、当該名詞連続の表記揺れも含む辞書情報を辞書データベース23に登録してもよい。これにより表記揺れを吸収できる。
 上記第1及び第4実施形態では強制語として認定されない名詞連続は棄却されたが、登録部14は、この名詞連続に対応する複数の商品カテゴリを推薦カテゴリとして、強制語辞書とは別のデータベース(推薦辞書)に登録してもよい。この場合には、推薦情報は当該名詞連続及び商品カテゴリが関連付けられた情報であり、一の名詞連続に対して複数のレコードが生成される。このような推薦情報により商品カテゴリの選択の幅を広げることができる。例えば、店舗での商品登録時にこの推薦辞書を提示することで、店舗における商品カテゴリの選択の手間をいくらか減らすことができる。
 上記各実施形態では辞書生成サーバをECサーバとは別に設けたが、これら二つのサーバを統合してもよい。
 以上の説明から、本発明を以下のように規定することができる。
 商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
 前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
 前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
 前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
を備える辞書生成装置。
 前記算出部が、前記特定した各商品カテゴリについて前記名詞連続の出現回数を算出し、
 前記判定部が、前記特定された各商品カテゴリについての名詞連続の集約度を前記出現回数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記名詞連続の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項1に記載の辞書生成装置。
 前記算出部が、前記特定した各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、
 前記判定部が、前記特定された各商品カテゴリについての商品の集約度を前記商品数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記商品の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項1に記載の辞書生成装置。
 前記算出部が、前記商品名に前記名詞連続を含む商品情報を登録した総店舗数を算出し、
 前記判定部が、前記総店舗数が所定の閾値以下である場合には、前記名詞連続を前記強制語として判定しない、
項1~3のいずれか一項に記載の辞書生成装置。
 前記判定部が、不要語を記憶する不要語辞書を参照して、前記名詞連続が前記不要語と一致する場合には、前記名詞連続を前記強制語として判定しない、
項1~4のいずれか一項に記載の辞書生成装置。
 前記判定部が、前記店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが前記名詞連続から一意に導かれる商品カテゴリであると判定する、
項1~5のいずれか一項に記載の辞書生成装置。
 前記判定部が、前記多数派カテゴリ及び前記少数派カテゴリの第N階層において前記重複度が前記所定の閾値以上である場合には、該多数派カテゴリの第N階層が前記名詞連続から一意に導かれると判定して、該多数派カテゴリの第(N+1)階層において、前記多数派カテゴリ及び少数派カテゴリの特定と、前記重複度の算出と、該重複度に基づく判定とを繰り返し、ここで、Nは1以上である、
項6に記載の辞書生成装置。
 前記辞書情報で示される前記強制語を商品名に含む前記商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、
 前記更新部により前記商品情報が更新された後に、前記抽出部、前記算出部、前記判定部、前記登録部、及び前記更新部による処理が繰り返し実行され、
 前記判定部が、前記店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項1~7のいずれか一項に記載の辞書生成装置。
 前記抽出部が、形態素解析により前記商品名から前記名詞連続を抽出する、
項1~8のいずれか一項に記載の辞書生成装置。
 前記抽出部が、前記名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、前記商品名から前記名詞連続を抽出する、
項1~8のいずれか一項に記載の辞書生成装置。
 前記抽出部が、不要語を記憶する不要語辞書を参照して、前記商品名から前記不要語以外の語句を抽出し、抽出された語句から前記名詞連続を抽出する、
項1~8のいずれか一項に記載の辞書生成装置。
 前記登録部が、前記名詞連続と、前記特定された商品カテゴリのうち前記一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納する、
項1~11のいずれか一項に記載の辞書生成装置。
 前記判定部が、前記各商品カテゴリについての店舗の集約度に基づいて、前記名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、
 前記登録部が、前記強制語と、前記店舗又は店舗カテゴリと、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項1~12のいずれか一項に記載の辞書生成装置。
 前記抽出部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記商品名から前記名詞連続を抽出する、
項1~13のいずれか一項に記載の辞書生成装置。
 前記登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記強制語に対応する語句を抽出し、該強制語と、該対応する語句と、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項1~14のいずれか一項に記載の辞書生成装置。
 前記判定部が、
  前記店舗の集約度が第1閾値より大きい商品カテゴリが一つのみ存在する場合には、前記名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第1種強制語として判定し、
  前記店舗の集約度が前記第1閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、前記第1種強制語よりも商品カテゴリの強制力が弱い第2種強制語、又は前記第2種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、
 前記登録部が、前記第1種強制語、前記第2種強制語又は前記参考語と前記商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項1に記載の辞書生成装置。
 前記判定部が、
  前記店舗の集約度が前記第1閾値より大きい商品カテゴリの個数が1でない場合に、該商品カテゴリを除いた残りのカテゴリにおける前記名詞連続の登録店舗数が第2閾値より大きいか否かを判定し、
  前記登録店舗数が前記第2閾値より大きい場合には、前記名詞連続が不要語であると判定し、
 前記登録部が前記不要語を所定のデータベースに格納する、
項16に記載の辞書生成装置。
 辞書生成装置により実行される辞書生成方法であって、
 商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出ステップであって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出ステップと、
 前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出ステップと、
 前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、
 前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップと
を含む辞書生成方法。
 商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
 前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
 前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
 前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラム。
 商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
 前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
 前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
 前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。
 10,10A…辞書生成サーバ、11…抽出部、12…算出部、13,13A…判定部、14…登録部、15…更新部、20…データベース群、21…店舗データベース、22…商品データベース、23…辞書データベース、30…辞書生成サーバ、31…抽出部、32…算出部、33…第1判定部、34…第2判定部、35…登録部、36…更新部、90…ECサーバ、P1…辞書生成プログラム、P10…メインモジュール、P11…抽出モジュール、P12…算出モジュール、P13…判定モジュール、P14…登録モジュール、P15…更新モジュール、P2…辞書生成プログラム、P20…メインモジュール、P21…抽出モジュール、P22…算出モジュール、P23…判定モジュール、P24…判定モジュール、P25…登録モジュール、P26…更新モジュール、Ts…店舗端末、Tu…ユーザ端末。

Claims (20)

  1.  (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
     前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
    を備える辞書生成装置。
  2.  前記判定部が、各商品カテゴリについて前記名詞連続の出現回数を算出し、各商品カテゴリについての名詞連続の集約度を前記出現回数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記名詞連続の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
    請求項1に記載の辞書生成装置。
  3.  前記判定部が、各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、各商品カテゴリについての商品の集約度を前記商品数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記商品の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
    請求項1に記載の辞書生成装置。
  4.  前記判定部が、前記商品名に前記名詞連続を含む商品情報を登録した総店舗数を算出し、前記総店舗数が所定の閾値以下である場合には、前記名詞連続を前記強制語として判定しない、
    請求項1~3のいずれか一項に記載の辞書生成装置。
  5.  前記判定部が、不要語を記憶する不要語辞書を参照して、前記名詞連続が前記不要語と一致する場合には、前記名詞連続を前記強制語として判定しない、
    請求項1~4のいずれか一項に記載の辞書生成装置。
  6.  前記判定部が、前記店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが前記名詞連続から一意に導かれる商品カテゴリであると判定する、
    請求項1~5のいずれか一項に記載の辞書生成装置。
  7.  前記判定部が、前記多数派カテゴリ及び前記少数派カテゴリの第N階層において前記重複度が前記所定の閾値以上である場合には、該多数派カテゴリの第N階層が前記名詞連続から一意に導かれると判定して、該多数派カテゴリの第(N+1)階層において、前記多数派カテゴリ及び少数派カテゴリの特定と、前記重複度の算出と、該重複度に基づく判定とを繰り返し、ここで、Nは1以上である、
    請求項6に記載の辞書生成装置。
  8.  前記辞書情報で示される前記強制語を商品名に含む商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、
     前記更新部により前記商品情報が更新された後に、前記判定部、前記登録部、及び前記更新部による処理が繰り返し実行され、
     前記判定部が、前記店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
    請求項1~7のいずれか一項に記載の辞書生成装置。
  9.  前記判定部が、形態素解析により前記商品名から前記名詞連続を抽出する、
    請求項1~8のいずれか一項に記載の辞書生成装置。
  10.  前記判定部が、前記名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、前記商品名から前記名詞連続を抽出する、
    請求項1~8のいずれか一項に記載の辞書生成装置。
  11.  前記判定部が、不要語を記憶する不要語辞書を参照して、前記商品名から前記不要語以外の語句を抽出し、抽出された語句から前記名詞連続を抽出する、
    請求項1~8のいずれか一項に記載の辞書生成装置。
  12.  前記登録部が、前記名詞連続と、前記商品カテゴリのうち前記一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納する、
    請求項1~11のいずれか一項に記載の辞書生成装置。
  13.  前記判定部が、前記各商品カテゴリについての店舗の集約度に基づいて、前記名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、
     前記登録部が、前記強制語と、前記店舗又は店舗カテゴリと、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
    請求項1~12のいずれか一項に記載の辞書生成装置。
  14.  前記判定部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記商品名から前記名詞連続を抽出する、
    請求項1~13のいずれか一項に記載の辞書生成装置。
  15.  前記登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記強制語に対応する語句を抽出し、該強制語と、該対応する語句と、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
    請求項1~14のいずれか一項に記載の辞書生成装置。
  16.  前記判定部が、
      前記店舗の集約度が第1閾値より大きい商品カテゴリが一つのみ存在する場合には、前記名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第1種強制語として判定し、
      前記店舗の集約度が前記第1閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、前記第1種強制語よりも商品カテゴリの強制力が弱い第2種強制語、又は前記第2種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、
     前記登録部が、前記第1種強制語、前記第2種強制語又は前記参考語と前記商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
    請求項1に記載の辞書生成装置。
  17.  前記判定部が、
      前記店舗の集約度が前記第1閾値より大きい商品カテゴリの個数が1でない場合に、該商品カテゴリを除いた残りのカテゴリにおける前記名詞連続の登録店舗数が第2閾値より大きいか否かを判定し、
      前記登録店舗数が前記第2閾値より大きい場合には、前記名詞連続が不要語であると判定し、
     前記登録部が前記不要語を所定のデータベースに格納する、
    請求項16に記載の辞書生成装置。
  18.  辞書生成装置により実行される辞書生成方法であって、
     (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、
     前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップと
    を含む辞書生成方法。
  19.  (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
     前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
    をコンピュータに実行させる辞書生成プログラム。
  20.  (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
     前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
    をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。
PCT/JP2013/053695 2012-02-15 2013-02-15 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 WO2013122205A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013558750A JP5567749B2 (ja) 2012-02-15 2013-02-15 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
EP13748770.8A EP2816491A4 (en) 2012-02-15 2013-02-15 DICTIONARY, DICTIONARY, DICTIONARY, AND COMPUTER-READABLE RECORDING MEDIUM WITH A PROGRAM STORED THEREIN
US14/371,030 US9430793B2 (en) 2012-02-15 2013-02-15 Dictionary generation device, dictionary generation method, dictionary generation program and computer-readable recording medium storing same program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261598976P 2012-02-15 2012-02-15
US61/598976 2012-02-15

Publications (1)

Publication Number Publication Date
WO2013122205A1 true WO2013122205A1 (ja) 2013-08-22

Family

ID=48984314

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/053695 WO2013122205A1 (ja) 2012-02-15 2013-02-15 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

Country Status (4)

Country Link
US (1) US9430793B2 (ja)
EP (1) EP2816491A4 (ja)
JP (1) JP5567749B2 (ja)
WO (1) WO2013122205A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128211A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种物品分类方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
KR101687262B1 (ko) * 2015-05-21 2016-12-28 홍성민 사전 데이터 관리 방법 및 그 방법을 수행하는 장치
DE102018133449A1 (de) 2018-12-21 2020-06-25 Tracoe Medical Gmbh Einführhilfe für Tracheostomiekanülen
CN110032663B (zh) * 2019-03-28 2021-01-01 广州越秀金融科技有限公司 信息配置方法、装置,存储介质和处理器
CN111192128B (zh) * 2019-12-30 2023-06-02 航天信息股份有限公司 识别异常纳税行为的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190284A (ja) * 2003-12-26 2005-07-14 Nec Corp 情報分類装置および情報分類方法
JP2007264747A (ja) 2006-03-27 2007-10-11 Casio Comput Co Ltd 商品取引システムおよび商品検索方法
WO2011105606A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US20020059289A1 (en) * 2000-07-07 2002-05-16 Wenegrat Brant Gary Methods and systems for generating and searching a cross-linked keyphrase ontology database
US7376620B2 (en) * 2001-07-23 2008-05-20 Consona Crm Inc. System and method for measuring the quality of information retrieval
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US20030084066A1 (en) * 2001-10-31 2003-05-01 Waterman Scott A. Device and method for assisting knowledge engineer in associating intelligence with content
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
JP3891909B2 (ja) * 2002-09-03 2007-03-14 日本アイ・ビー・エム株式会社 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム
US7676462B2 (en) * 2002-12-19 2010-03-09 International Business Machines Corporation Method, apparatus, and program for refining search criteria through focusing word definition
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
AU2003278975A1 (en) * 2003-09-26 2005-05-11 Catherine V. Gardner Virtual shopping system
US8868405B2 (en) * 2004-01-27 2014-10-21 Hewlett-Packard Development Company, L. P. System and method for comparative analysis of textual documents
US20050198026A1 (en) * 2004-02-03 2005-09-08 Dehlinger Peter J. Code, system, and method for generating concepts
JP2007537515A (ja) * 2004-05-13 2007-12-20 ロジャーズ,ロバート,ジョン 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法
US20060074632A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Ontology-based term disambiguation
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
US7752243B2 (en) * 2006-06-06 2010-07-06 University Of Regina Method and apparatus for construction and use of concept knowledge base
US20100076979A1 (en) * 2008-09-05 2010-03-25 Xuejun Wang Performing search query dimensional analysis on heterogeneous structured data based on relative density
US9158790B2 (en) 2010-12-07 2015-10-13 Rakuten, Inc. Server, dictionary creation method, dictionary creation program, and computer-readable recording medium recording the program
JP4828653B1 (ja) * 2010-12-07 2011-11-30 楽天株式会社 サーバ、辞書生成方法、辞書生成プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190284A (ja) * 2003-12-26 2005-07-14 Nec Corp 情報分類装置および情報分類方法
JP2007264747A (ja) 2006-03-27 2007-10-11 Casio Comput Co Ltd 商品取引システムおよび商品検索方法
WO2011105606A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOJI MURAKAMI: "Category ni Tsuyoku Kanren suru Go no Hakken to Shohin Data Cleaning eno Tekiyo", PROCEEDINGS OF THE 18TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, TUTORIAL HONKAIGI, 13 March 2012 (2012-03-13), pages 195 - 198, XP008174091 *
See also references of EP2816491A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128211A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种物品分类方法及装置

Also Published As

Publication number Publication date
EP2816491A1 (en) 2014-12-24
JPWO2013122205A1 (ja) 2015-05-18
US9430793B2 (en) 2016-08-30
EP2816491A4 (en) 2015-10-14
JP5567749B2 (ja) 2014-08-06
US20150012264A1 (en) 2015-01-08

Similar Documents

Publication Publication Date Title
JP5567749B2 (ja) 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2014048862A (ja) サプライヤ検索装置およびサプライヤ検索プログラム
CN108596705A (zh) 一种适用于电子商务的商品与信息分类推荐方法及系统
WO2017013770A1 (ja) 検索装置、検索方法、記録媒体、および、プログラム
JP2024042023A (ja) データ変形システムおよび方法
CN116308684B (zh) 一种网购平台店铺信息推送方法及系统
JP2016038658A (ja) サプライヤ探索装置および探索方法
WO2012077423A1 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
CN110647679A (zh) 一种o2o场景下的搜索结果综合排序方法
CN113191838A (zh) 一种基于异质图神经网络的购物推荐方法及系统
TWI507902B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
CN110968670B (zh) 一种流行商品的属性获取方法、装置、设备及存储介质
KR20230170879A (ko) 노출지수를 이용한 검색어 추천 방법 및 이를 위한 장치
Anusha et al. Segmentation of retail mobile market using HMS algorithm
CN110647504A (zh) 司法文书的检索方法及装置
CN112988848A (zh) 一种数据处理方法、装置、设备及存储介质
KR101671890B1 (ko) 거래관계 분석 장치 및 방법
WO2014174558A1 (ja) サプライヤ検索装置およびサプライヤ検索プログラム
JP5530047B1 (ja) カテゴリ名抽出装置、カテゴリ名抽出方法及びカテゴリ名抽出プログラム
CN108009726B (zh) 一种结合用户评论的事物评价系统
US20150206158A1 (en) System and method for spend analysis of the service category
JP5670490B2 (ja) カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN108182608B (zh) 电子装置、产品推荐方法和计算机可读存储介质
CN113781180A (zh) 一种物品推荐方法、装置、电子设备及存储介质
CN112579896A (zh) 一种信息推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13748770

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013558750

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2013748770

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14371030

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE