WO2012063770A1 - 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体 - Google Patents

関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体 Download PDF

Info

Publication number
WO2012063770A1
WO2012063770A1 PCT/JP2011/075572 JP2011075572W WO2012063770A1 WO 2012063770 A1 WO2012063770 A1 WO 2012063770A1 JP 2011075572 W JP2011075572 W JP 2011075572W WO 2012063770 A1 WO2012063770 A1 WO 2012063770A1
Authority
WO
WIPO (PCT)
Prior art keywords
character string
related word
search
word
search query
Prior art date
Application number
PCT/JP2011/075572
Other languages
English (en)
French (fr)
Inventor
勇宇 平手
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US13/884,344 priority Critical patent/US8606565B2/en
Priority to KR1020137015030A priority patent/KR101361403B1/ko
Priority to ES11839828.8T priority patent/ES2577938T3/es
Priority to BR122013013420-4A priority patent/BR122013013420B1/pt
Priority to KR1020137014718A priority patent/KR101368594B1/ko
Priority to CN201180053722.8A priority patent/CN103201737B/zh
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to CA2817131A priority patent/CA2817131C/en
Priority to JP2012533417A priority patent/JP5101759B2/ja
Priority to EP11839828.8A priority patent/EP2639705B1/en
Priority to BR112013011573-4A priority patent/BR112013011573B1/pt
Publication of WO2012063770A1 publication Critical patent/WO2012063770A1/ja
Priority to US13/923,744 priority patent/US8738366B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Definitions

  • the present invention relates to a technical field of a related word registration device, an information processing device, a related word registration method, a related word registration device program, and a recording medium for registering a search keyword as a related word.
  • Patent Literature 1 discloses a semantic dictionary registration device that automatically assigns semantic information to an input dictionary entry using information on a dictionary entry that has already been given semantic information in a semantic dictionary. .
  • Patent Literature 1 since the similarity is determined based on the semantic distance between simple words of the input data and all registered data, the accuracy of the determination of the similarity is low. , Registration of related terms such as unnecessary synonyms could not be suppressed. Therefore, it has been difficult to construct a dictionary of related terms such as a synonym dictionary with high accuracy.
  • the present invention has been made in view of such problems, and an object of the present invention is to provide a related word registration device or the like that can register related words with high accuracy.
  • the invention according to claim 1 is related to generating a related word candidate set by extracting related word candidates from a search query log storing a log related to a search query based on a predetermined condition.
  • Word candidate set generation means, reception means for receiving a search query for a search word input by a user, partial character string generation means for generating a partial character string from a character string of the search word, and the generated partial character string A candidate character string extracting unit that extracts a candidate character string from the related word candidate set, a similarity between the candidate character string and the search word, the number of uses of the candidate character string, and the candidate character string
  • a criterion generation unit that generates a criterion line of the suitability score for the ranking as a criterion for determining whether or not to
  • a registered character string extracting means for extracting a candidate character string whose deviation between the suitability score and the reference line is a preset threshold value or more as a registered character string, and the extracted registered character string;
  • a related word registration means for registering the search word as a related word in a related word database.
  • the partial character string generation unit sets the length of the partial character string based on the number of characters of the search word, and the setting is performed. It generates a partial character string of a certain length.
  • the partial character string generation means determines the number of characters of the search word when generating the partial character string based on the number of characters of the search word.
  • a moving width is set, and a partial character string is generated with the set moving width.
  • the partial character string generation means converts the search word into a search word that has been phonetically converted. On the other hand, the partial character string is generated.
  • the parameter adjustment is performed to adjust the similarity and the information on the number of times of use of the score calculation means. Means are further provided.
  • the determination criterion generating unit approximates a relationship between the ranking and the suitability score.
  • the reference line is obtained from a function or from the ranking data within a predetermined range.
  • the registered character string extracting means sets an upper limit on the number of the registered character strings to be extracted. It is characterized by that.
  • the invention according to claim 8 stores the search word related to the product sold on the internal or external EC site in the related word registration device according to any one of claims 1 to 7.
  • a search word storage means is further provided.
  • the score calculation means calculates the suitability score based on log data related to the search query. It is characterized by calculating.
  • a tenth aspect of the present invention is the related word registration device according to any one of the first to ninth aspects, wherein the received search query is stored in accordance with the reception order, and preset.
  • the search query extraction means for extracting the search query earlier in the receiving order than the received search query from the search query storage means, and the destination constituting the extracted search query
  • Character string set storage means for storing the search word of the received search query and the search word constituting the received search query as a character string set, and the character string set storage means in accordance with a preset character string set extraction start condition
  • a character string extracting means for extracting a character string set whose search word is the same or similar from the above, and a related word from the extracted character string set based on a preset registration condition Becomes a related word specifying means for specifying a character string set, further wherein the related-word registration unit, and registers the associated word database the specific character string set as a related word.
  • the invention according to claim 11 is the related word registration device according to claim 10, wherein the search query storage means further stores user identification information, and the search query extraction means has the search query extraction condition as: The previous search query that matches the user identification information of the user who has input the search query is extracted.
  • the search query extraction unit includes, as the search query extraction condition, within a predetermined time from the reception time of the search query. In this case, a search query received in advance is extracted.
  • the search query storage means further stores category information
  • the search query extraction means The previous search query is extracted based on the category information as the search query extraction condition.
  • the character string extraction unit uses the search query storage unit as the character string set extraction start condition.
  • the search query storage unit uses the search query storage unit as the character string set extraction start condition.
  • the character string extraction unit satisfies a predetermined condition after the character string set extraction start condition is satisfied.
  • the character string set is extracted when time elapses.
  • the related word specifying unit is configured such that the previous search word is the same as the registration condition.
  • the character It is characterized by specifying a column set as a related word.
  • the invention according to claim 17 is an information processing apparatus for performing information processing with reference to the related word database of the related word registration apparatus according to any one of claims 1 to 16, wherein the related word database And a related word extracting unit that extracts a related word corresponding to a search word of the received search query, and a related word output unit that outputs a related word extracted by the related word extracting unit. It is characterized by that.
  • a related word candidate is extracted based on a predetermined condition from a search query log storing a log related to a search query.
  • a ranking step for ranking the candidate character strings in sequence, and a criterion for a suitability score for the ranking as a criterion for determining whether or not to register the candidate character string as a related word based on the suitability score and ranking of the candidate character string A criterion generation step for generating a line, and a registered character string extraction step for extracting a candidate character string
  • related word candidate set generation means for generating a related word candidate set by extracting related word candidates from a search query log storing a log related to a search query based on a predetermined condition.
  • candidate character string extraction means for extracting candidate character strings from the set, the similarity between the candidate character string and the search word, the number of uses of the candidate character string, and the number of search results of the search using the candidate character string
  • Score calculating means for calculating suitability scores of the candidate character strings, ranking means for ranking the candidate character strings in the order of the scores, and the candidate sentences
  • Judgment criterion generating means for generating a reference line of suitability scores for the ranking as a criterion for determining whether or not to register the candidate character string as a related
  • the invention according to claim 20 is a related word candidate set generation means for generating a related word candidate set by extracting a related word candidate from a search query log storing a log related to a search query based on a predetermined condition.
  • candidate character string extraction means for extracting candidate character strings from the set, the similarity between the candidate character string and the search word, the number of uses of the candidate character string, and the number of search results of the search using the candidate character string
  • Judgment criterion generating means for generating a reference line of suitability scores for the ranking as a criterion for determining whether or not to register the candidate character string as
  • a related word candidate set obtained by extracting related word candidates based on a predetermined condition is generated from a search query log storing a log related to a search query, and a search word search query input by a user is received.
  • Generate a partial character string from the character string of the search word extract the candidate character string from the related word candidate set based on the partial character string, the similarity between the candidate character string and the search word, the number of times the candidate character string is used, And based on the number of search results of the search with the candidate character string, the suitability score of the candidate character string is calculated, the candidate character strings are ranked in order of the score, and the candidate based on the suitability score and the ranking of the candidate character string
  • a reference line of suitability scores for ranking is generated as a criterion for determining whether or not to register a character string as a related word, and the deviation between the suitability score and the reference line is preset.
  • the number of characters is reduced by extracting candidate character strings that are equal to or higher than the threshold as registered character strings for registering as related words, and registering the extracted registered character strings and search words as related words in the related word database. Since a candidate character string is extracted from the related word candidate set based on the partial character string thus formed, registration of unnecessary related words can be suppressed by the suitability score of the candidate character string, and the accuracy of the related words can be improved.
  • FIG. 6 is a flowchart showing an operation example of generation of a related word candidate set of a related word registration server in the operation of the related word registration system 1 of FIG. 1 according to the first embodiment. It is a schematic diagram which shows an example of the web page displayed on the terminal of FIG.
  • FIG. 1 is a schematic diagram showing a schematic configuration example of a related word registration system 1 according to the present embodiment.
  • a related word registration system 1 includes a related word registration server 10 (an example of a related word registration device) for registering related words, and a shopping site (internal EC) that is an example of an information providing site used by a user. (Example of electronic commerce) site)
  • An information providing server 20 for providing users with information and product information that is installed for management and registered in the related word registration server 10, and the information providing server 20 And a terminal 30 for searching for products and the like.
  • the related word registration server 10 and the information providing server 20 are connected by a local area network or the like, and are capable of transmitting and receiving data to each other, and constitute a server system 5.
  • the server system 5 and the terminal 30 are connected by the network 3 and can transmit and receive data using a communication protocol (for example, TCP / IP).
  • the network 3 is constructed by, for example, the Internet, a dedicated communication line (for example, a CATV (Community Antenna Television) line), a mobile communication network (including a base station, etc.), a gateway, and the like.
  • the related word registration server 10 builds a database of related words from the search behavior of the user in the terminal 30 or the like, and supports the search behavior of the user in the terminal 30 or the like.
  • the information providing server 20 receives a search query including a search word from the terminal 30 and performs a search, and transmits the search result to the terminal 30. In addition, the information providing server 20 transmits the received search query to the related word registration server 10 in order to construct a related word database. In addition, the information providing server 20 performs a product search, product information provision, advertisement information provision, product purchase procedure, and the like as a shopping site.
  • FIG. 2 is a block diagram illustrating an example of a schematic configuration of the related word registration server 10.
  • the related word registration server 10 that functions as a computer includes a communication unit 11, a storage unit 12, an input / output interface unit 13, and a system control unit 14.
  • the system control unit 14 and the input / output interface unit 13 are connected via a system bus 15.
  • the communication unit 11 is connected to the network 3 to control the communication state with the terminal 30 and the like, and is further connected to the local area network to transmit and receive data to and from other servers such as the information providing server 20 on the local area network. I do.
  • the storage unit 12 is configured by, for example, a hard disk drive or the like, and stores various programs such as an operating system and a server program, data, and the like. Note that the various programs may be acquired from, for example, another server device via the network 3, or may be recorded on a recording medium and read via a drive device (not shown). Also good.
  • the storage unit 12 also includes a search query log database 12a (hereinafter referred to as “search query log DB 12a”) that stores a log related to the search query received from the terminal 30, and a candidate character string of related words generated from the search query.
  • search query log DB 12a search query log database 12a
  • Related word candidate database 12b (hereinafter referred to as “related word candidate DB 12b") stored as a related word candidate set
  • related word database 12c hereinafter referred to as “related word DB 12c”
  • character string set database 12d hereinafter referred to as “character string set DB 12d” and the like.
  • the search query log DB 12a, the related word candidate DB 12b, the related word DB 12c, and the character string set DB 12d may be constructed in a server other than the related word registration server 10 in the server system 5, or the server system 5 It may be built externally.
  • the search query log DB 12a (an example of a search query storage unit) stores a search query associated with user identification information for identifying a user such as a reception time and a user ID when the search query is received.
  • the user identification information includes a user ID of a shopping site, a user terminal or access point identification number, an IP address, and the like.
  • the search query is also associated with category information such as the product category to which the product belongs and the product category indicated by the Web page opened by the user. It is stored in the search query log DB 12a.
  • related word candidate DB 12b candidate character strings of related words extracted based on predetermined conditions from the search query log of the search query log DB 12a are stored as a related word candidate set.
  • related words generated by the related word registration server 10 are stored.
  • the character string set DB 12d (an example of a character string set storage unit) stores a character string set of the search word of the received search query and the search word of the search query extracted from the search query log DB 12a.
  • the input / output interface unit 13 performs interface processing between the communication unit 11 and the storage unit 12 and the system control unit 14.
  • the system control unit 14 includes a CPU (Central Processing Unit) 14a, a ROM (Read Only Memory) 14b, a RAM (Random Access Memory) 14c, and the like.
  • the CPU 14 a reads and executes various programs stored in the ROM 14 b and the storage unit 12 to perform related word registration processing and the like.
  • FIG. 3 is a block diagram illustrating an example of a schematic configuration of the information providing server 20.
  • the information providing server 20 includes a communication unit 21, a storage unit 22, an input / output interface unit 23, and a system control unit 24, and the system control unit 24, the input / output interface unit 23, and the like. Are connected via a system bus 25.
  • the configuration and function of the information providing server 20 are substantially the same as the configuration and function of the related word registration server 10, and therefore, different points will be mainly described in each configuration and function of the related word registration server 10.
  • the communication unit 21 controls the communication state with the terminal 30 and the related word registration server 10 through the network 3 and the local area network.
  • product DB product database
  • member DB member database
  • the product DB 22a is associated with a product ID that is an identifier for identifying a product, and stores a product name, type, product image, specifications, product information, advertisement information about each product, and the like.
  • the product DB 22a stores a product web page file described in a markup language such as HTML (HyperText Markup Language), XML (Extensible ⁇ Markup Language), or the like.
  • the product DB 22a is an example of a search word storage unit that stores a search word related to a product sold on an EC site inside the server system 5.
  • the user ID, name, address, telephone number, e-mail address, occupation, hobby, purchase history, theme and genre of interest of the user (product category) of the registered user (shopping site user) are stored in the member DB 22b. Such user information is registered.
  • a user ID, a login ID, and a password necessary for the user to log in to the shopping site from the terminal 30 are registered.
  • the login ID and the password are login information used for login processing (user authentication processing).
  • the system control unit 24 includes a CPU 24a, a ROM 24b, a RAM 24c, and the like.
  • the CPU 24a reads out and executes various programs stored in the ROM 24b and the storage unit 22, thereby performing product search processing, product purchase processing by the user, and the like.
  • FIG. 4 is a block diagram illustrating an example of a schematic configuration of the terminal 30.
  • the terminal 30 that functions as a computer is a portable terminal such as a portable wireless telephone or a PDA including a personal computer or a smartphone, and includes a communication unit 31, a storage unit 32, a display unit 33, and the like. , An operation unit 34, an input / output interface unit 35, and a system control unit 36.
  • the system control unit 36 and the input / output interface unit 35 are connected via a system bus 37.
  • the communication unit 31 controls communication with the information providing server 20 and the like through the network 3.
  • the communication unit 31 has a wireless communication function in order to connect to the mobile communication network of the network 3.
  • the storage unit 32 includes, for example, a hard disk drive and stores an operating system, a web browser program, a web browser toolbar program, and the like.
  • the display unit 33 is configured by, for example, a liquid crystal display element or an EL (Electro Luminescence) element.
  • a liquid crystal display element or an EL (Electro Luminescence) element.
  • the web page of the search screen and the web page of the result of the product search provided from the information providing server 20 are displayed by the web browser.
  • the operation unit 34 includes, for example, a keyboard and a mouse. The user inputs a response through the operation unit 34.
  • the display unit 33 is a touch switch type display panel such as a touch panel
  • the operation unit 34 acquires position information of the display unit 33 that is touched or approached by the user.
  • the input / output interface unit 35 is an interface between the communication unit 31 and the storage unit 32 and the system control unit 36.
  • the system control unit 36 includes, for example, a CPU 36a, a ROM 36b, and a RAM 36c.
  • the CPU 36a reads out and executes various programs stored in the ROM 36b, the RAM 36c, and the storage unit 32.
  • the system control unit 36 executes a web browser program and functions as a web browser.
  • FIG. 5 is a flowchart showing an operation example of generation of a related word candidate set of the related word registration server 10.
  • FIG. 6 is a schematic diagram illustrating an example of a web page displayed on the terminal 30.
  • FIG. 7 is a flowchart showing an operation example of registration of related words in the related word registration server.
  • FIG. 8 is a schematic diagram illustrating an example of partial character string extraction.
  • FIG. 9 is a schematic diagram showing an example of a ranking-score graph.
  • FIG. 10 is a flowchart showing a subroutine of an operation example for calculating the suitability score in the related word registration server 10.
  • FIG. 11 is a diagram showing an example of an availability pattern for calculating a suitability score.
  • the information providing server 20 when the information providing server 20 receives a search query including a search word input by the user from the terminal 30, the information providing server 20 performs a search and transmits the search query to the related word registration server 10. Further, the information providing server 20 also transmits the number of search results for the search query to the related word registration server 10.
  • the related word registration server 10 receives the search query and the number of search results from the information providing server 20, and stores the search query in the search query log DB 12a in association with the number of search results. At this time, the related word registration server 10 may store the search query in association with the user identification information for distinguishing the user such as the reception time when the search query is received, the user ID and the IP address.
  • the related word registration server 10 extracts a search query from the search query log (step S1). Specifically, the system control unit 14 of the related word registration server 10 extracts one search query from the search query log DB 12a.
  • the related word registration server 10 determines whether or not the number of search results is one or more search queries (step S2). Specifically, the system control unit 14 of the related word registration server 10 reads the number of search results corresponding to the extracted search query from the search query log DB 12a, and determines whether the number of search results is one or more. To do. The system control unit 14 of the related word registration server 10 transmits the extracted search query to the information providing server 20 and receives the number of hits from the information providing server 20 in order to obtain the number of search results hit by the search query. You may comprise as follows.
  • the related word registration server 10 registers the extracted search query in the related word candidate set (step S3). Specifically, the system control unit 14 of the related word registration server 10 determines the search query (related word candidate) when the number of search results is one or more, that is, the number of search results is not zero. (Including a search word as a character string) is registered in the related word candidate DB 12b as a related word candidate set.
  • step S2 If the number of search results is not one or more (step S2; NO), the related word registration server 10 does not register the extracted search query in the related word candidate set.
  • step S4 it is determined whether or not there are remaining search queries. Specifically, the system control unit 14 of the related word registration server 10 determines whether there is a search query that has not yet been determined for the number of search results in the search query log DB 12a.
  • step S4 When there is a remaining search query (step S4; YES), the process returns to step S1, and the related word registration server 10 extracts the next search query, and when there is no remaining search query (step S4; NO), The process of generating the related word candidate set is terminated.
  • the related word registration server 10 generates a related word candidate set of a certain scale in advance.
  • the related word registration server 10 functions as an example of a related word candidate set generation unit that generates a related word candidate set by extracting related word candidates based on a predetermined condition from a search query log storing a log related to a search query. .
  • the information providing server 20 When the information providing server 20 receives a search query and performs a search, if the number of search results is not zero, the information providing server 20 adds information that is not zero to the related query registration server 10. You may send it. In this case, when the related word registration server 10 receives a search query in which the number of search results is not zero, the related word registration server 10 stores it in the related word candidate DB 12b.
  • the search word input field 41 of the Web page 40 provided from the information providing server 20 is displayed on the display unit 33 of the terminal 30 by, for example, “A family table” and the search word from the user. Entered. A search is performed by clicking the search button 42, and the terminal 30 transmits a search query including this search word to the information providing server 20.
  • the information providing server 20 receives a search query including a search word input by the user from the terminal 30, the information providing server 20 transmits the search query to the related word registration server 10.
  • the related word registration server 10 receives a search query including a search word input by the user (step S10). Specifically, the system control unit 14 of the related word registration server 10 receives a search query from the information providing server 20 through the communication unit 11. Note that, as described in the generation of the related word candidate set, the related word registration server 10 stores the received search query in the search query log DB 12a. Moreover, the related word registration server 10 may register a search query in a related word candidate set, when the conditions of step S2 are satisfy
  • the related word registration server 10 acquires the number of characters of the search word (step S11). Specifically, when the search word included in the search query is kanji or the like, the system control unit 14 of the related word registration server 10 converts it into a reading such as hiragana or converts it into romaji. For example, the system control unit 14 of the related word registration server 10 converts the phonetic table of “A family's table” to “excellent” and increases the number of characters from 5 to 9 characters. Furthermore, the system control unit 14 of the related word registration server 10 may convert “eike no shokutaku” into “eikenoshokutaku” in Roman letters and increase it to 15 characters. Then, the system control unit 14 of the related word registration server 10 acquires the number of characters (for example, 9 characters or 15 characters) of the search word subjected to phonetic conversion such as hiragana conversion or romaji conversion.
  • the related word registration server 10 determines whether or not the number of characters in the search word is 5 or more (step S12). Specifically, the system control unit 14 of the related word registration server 10 determines whether or not the number of characters of the search word subjected to phonetic conversion is five or more.
  • the related word registration server 10 extracts a 4-character partial character string from the search word (step S13). Specifically, as shown in FIG. 8, the system control unit 14 of the related word registration server 10 sets the length (Window Size) L of the partial character string to 4 for the character string “eikenoshokutaku” of the search word. Then, the sliding width (Sliding Size) S of the window is set to 2, and partial character strings such as the partial character string p1 (“eike”) and the partial character string p2 (“keno”) are generated and extracted. Note that the threshold value (5 characters) in step S2 is set to a value larger than the length L of the partial character string based on the length L of the partial character string.
  • the related word registration server 10 functions as an example of a partial character string generation unit that generates a partial character string from a character string of a search word.
  • the related word registration server 10 functions as an example of a partial character string generation unit that sets the length of the partial character string based on the number of characters of the search word and generates the partial character string having the set length. Further, the related word registration server 10 sets the movement width of the number of characters of the search word when generating the partial character string based on the number of characters of the search word, and generates the partial character string with the set movement width. It functions as an example of a column generation unit.
  • the related word registration server 10 functions as an example of a partial character string generation unit that generates a partial character string for a search word obtained by phonetic conversion of the search word.
  • the partial match is a candidate character string including “eike” or a candidate character string including a part “eik” of “eike”.
  • the related word registration server 10 functions as an example of a candidate character string extraction unit that extracts a candidate character string from a related word candidate set based on the generated partial character string.
  • the related word registration server 10 extracts a related character candidate character string partially matching the search word from the related word candidate set (Ste S15). Specifically, the system control unit 14 of the related word registration server 10 does not extract the partial character string, but selects the received search word itself or a candidate character string that partially matches the phonetic converted search word as the related word candidate DB 12b. Extract from
  • system control unit 14 of the related word registration server 10 may extract a candidate character string similar to a partial character string or a search word based on the similarity.
  • the similarity includes distances between character strings such as Jaro-Winker distance and Levenstein distance.
  • the related word registration server 10 calculates a suitability score for each related word candidate character string (step S16). Specifically, the system control unit 14 of the related word registration server 10 calculates a suitability score for each extracted candidate character string by a suitability score subroutine described later.
  • the related word registration server 10 obtains rankings in order of suitability scores (step S17). Specifically, the system control unit 14 of the related word registration server 10 performs a process of arranging the candidate character strings in descending order of suitability scores. Then, the system control unit 14 of the related word registration server 10 takes out a certain upper character string, for example, the upper 50 candidate character strings, and further narrows down the candidate character strings. As described above, the related word registration server 10 functions as an example of a ranking unit that ranks candidate character strings in the order of scores.
  • the related word registration server 10 generates a reference line of suitability scores (step S18). Specifically, the system control unit 14 of the related word registration server 10 determines and generates a reference line from words having a higher suitability score among the extracted upper related word candidate character strings. More specifically, as shown in FIG. 9A, in the graph illustrating the relative suitability score with respect to the ranking, the system control unit 14 approximates the points of the suitability score from the 1st place to the nth place, for example. Let the function be the reference line L1.
  • an approximation function as an example of the reference line, a logarithmic function, an exponential function, a linear function, a power function such as a quadratic function or a cubic function, a function of a conic curve such as a hyperbola, or the like can be given.
  • the approximation function may be a function that approximates or interpolates each point of the ranking-score graph.
  • a criterion such as a least square method may be used.
  • the relative suitability score is, for example, a value obtained by dividing each score by the value of the suitability score ranked first.
  • the lower suitability score and the scores from the 50th to the 10th may be determined by the least square method. Since the ranking-score curve is arranged in the ranking of the suitability score, it becomes a monotonically decreasing graph in a broad sense.
  • the related word registration server 10 generates a reference line of the suitability score for the ranking as a reference for determining whether or not to register the candidate character string as a related word based on the suitability score and ranking of the candidate character string. It functions as an example of means.
  • the related word registration server 10 functions as an example of a determination criterion generation unit that obtains a reference line from an approximation function that approximates the relationship between the ranking and the suitability score.
  • the related word registration server 10 functions as an example of a criterion generation unit that obtains a reference line from ranking data in a predetermined range.
  • the related word registration server 10 determines whether or not the difference between each suitability score and the reference line is greater than or equal to a threshold value (step S19). Specifically, the system control unit 14 of the related word registration server 10 determines whether or not the difference between the reference line L1 and the first ranking score is equal to or greater than a threshold value. More specifically, the system control unit 14 of the related word registration server 10 calculates a difference by subtracting a value obtained by assigning the ranking value to the formula of the reference line L1 from the suitability score of the first ranking. If the difference is greater than or equal to the threshold ⁇ , the candidate character string is extracted as a related character registration character string.
  • the threshold value is obtained in advance by simulation, for example, 0.1 times the reference line by changing a parameter or the like for adjusting the suitability score.
  • the system control unit 14 of the related word registration server 10 extracts candidate character strings whose suitability scores are 1.1 times or more of the reference line as related words.
  • the related word registration server 10 extracts a registered character string that extracts a candidate character string whose deviation between the suitability score and the reference line L1 is equal to or greater than a preset threshold value ⁇ as a related character string. It functions as an example of means.
  • the related word registration server 10 registers a candidate character string of the related word whose deviation from the reference line is equal to or larger than the threshold as a related word (Ste S20). Specifically, the system control unit 14 of the related word registration server 10 registers the related word of the received search word as the candidate character string ranked first when the deviation between each suitability score and the reference line is equal to or greater than the threshold. It registers in related word DB12c as a character string.
  • the system control unit 14 of the related word registration server 10 selects the candidate character string ranked first. Not limited to, a predetermined number of candidate character strings such as the first to third ranking candidate character strings, the first and third ranking candidate character strings, or a predetermined ranking like the second ranking ranking A candidate character string may be stored.
  • the related word registration server 10 functions as an example of related word registration means for registering the extracted registered character string and search word as related words in the related word database.
  • step S19 If the difference is not greater than or equal to the threshold (step S19; NO), the related word registration server 10 ends the process.
  • the information providing server 20 When the information providing server 20 performs a search based on the search query received from the user's terminal 30, as an example of the related word extraction unit, the information providing server 20 refers to the related word DB 12c of the related word registration server 10 and corresponds to the search word of the search query. Extract related terms. For example, the information providing server 20 transmits the received search query to the related word registration server 10. The related word registration server 10 receives the search query from the information providing server 20, and extracts a registered character string corresponding to the search word of the search query from the related word DB 12c. Then, the related word registration server 10 transmits the extracted registered character string as a related word to the information providing server 20 as an example of the related word output unit. The information providing server 20 transmits the received related word to the terminal 30.
  • the terminal 30 displays the received related word in the related word display field 43 like “Maybe“ OO ”.
  • a plurality of related words may be displayed, such as “related words of ranking 1” and “related words of ranking 2”. Moreover, not only when the number of search results is zero or small, related terms may be displayed.
  • the related word registration server 10 calculates the distance between the extracted related word candidate character string and the search word (Ste S30). Specifically, the system control unit 14 of the related word registration server 10 calculates the distance Distance (w, u) between the search word u and the candidate character string w, for example, according to the equation (1).
  • Distance (w, u) is a distance between the search word u and the candidate character string w, and is an index (an example of similarity) indicating how similar they are.
  • Dist (w, u) is the Jaro-Winkler distance between the candidate character string w and the search word u
  • Dist.Yomi (w, u) is the reading of the candidate character string w and the reading of the search word u.
  • Distance (w, u) is preferably a Jaro-Winkler distance that can be expressed as a distance of 0 to 1. However, the distance is not limited to the Jaro-Winkler distance, and the similarity between the Levenshtein distance and the search word u and the candidate character string w. May be used as an index.
  • the related word registration server 10 acquires the occurrence frequency of the candidate character string of each related word (step S31). Specifically, the system control unit 14 of the related word registration server 10 calculates the occurrence frequency of candidate character strings of each related word in the search query log. More specifically, the system control unit 14 of the related word registration server 10 calculates P (w) for each candidate character string w based on the data of the search query log DB 12a according to Expression (2).
  • P (w) relates to the occurrence frequency of how much the candidate character string w is searched in the search log data of the search query log DB 12a.
  • Occ.Count (w) is the number of appearances of the candidate character string w in the search query log (the number of times the candidate character string is used).
  • a word having a high P (w) is a general word that is often input in searches by various users.
  • the system control unit 14 of the related word registration server 10 calculates the suitability score based on the data of the search query storage unit (search query log DB 12a) as an example of the suitability score calculation unit.
  • the related word registration server 10 calculates the searchability (availability) from the number of searches in the product DB 22a of the candidate character string of each related word (step S32). Specifically, first, the system control unit 14 of the related word registration server 10 transmits the candidate character string w of each related word to the information providing server 20, and the system control unit 24 of the information providing server 20 in the product DB 22a The number of searches (number of search results) is obtained, and the number of searches for each candidate character string w is transmitted to the related word registration server 10.
  • the system control part 14 of the related word registration server 10 calculates the value of the search possibility of each candidate character string w from the number of search according to Formula (3).
  • Availability (w) is a weighting factor for the number of search results (search hit count) for the search using the candidate character string w, and is expressed by, for example,
  • #of Search Result (w) is the number of search results of the candidate character string w.
  • FIG. 11 (A) the availability has various variations as shown in FIGS. 11 (B) and 11 (C) in addition to the formula (3).
  • the related word registration server 10 determines each related word based on the distance between the search word and the related character candidate character string, the occurrence frequency of each related word candidate character string, and the search possibility of each related word candidate character string.
  • the suitability score of the candidate character string is calculated (step S33).
  • the system control unit 14 of the related word registration server 10 calculates the suitability score of each candidate character string w according to Expression (4).
  • ⁇ and ⁇ are parameters for adjusting the suitability score.
  • the parameter ⁇ is an adjustment value for P (w), and represents a degree of allowing correction to a word that is not so much input. Since the value of P (w) is small for words that are not input so much, it is difficult to pick up new words and new products by searching. If you want to be able to pick up words that are not yet used by searching as much as possible, increase the value of parameter ⁇ according to the server settings.
  • the parameter ⁇ is an adjustment value for Distance (w, u) and mainly prevents Distance (w, u) from becoming zero and the score value to diverge.
  • the related word registration server 10 determines the candidate character string based on the similarity between the candidate character string and the search word, the number of times the candidate character string is used, and the number of search results of the search using the candidate character string. It functions as an example of a score calculation means for calculating the suitability score. Further, the related word registration server 10 functions as an example of a parameter adjustment unit that adjusts information on the degree of similarity and the number of times of use.
  • a related word candidate set obtained by extracting candidate character strings of related words based on one or more search results (an example of a predetermined condition) from the search query log DB 12a storing a log related to a search query.
  • Generated and stored in the related word candidate DB 12b receives the search query of the search word input by the user, generates a partial character string from the character string of the search word, and related words in the related word candidate DB 12b based on the partial character string
  • a candidate character string is extracted from the candidate set, and the suitability score of the candidate character string is based on the similarity between the candidate character string and the search word, the number of times the candidate character string is used, and the number of search results of the candidate character string.
  • a reference line of the suitability score for the ranking is generated as a reference, and a candidate character string whose deviation between the suitability score and the reference line is equal to or greater than a preset threshold is extracted as a registered character string for registering as a related word and extracted. Since the candidate character string is extracted from the related word candidate set based on the partial character string having a reduced number of characters by registering the registered character string in the related word DB 12c as the related word of the search word, the suitability score of the candidate character string Thus, registration of unnecessary related words can be suppressed, and the accuracy of related words can be improved. Furthermore, according to the present embodiment, the processing can be speeded up.
  • the search word when presented to the user based on the related word, the user can quickly reach the target search target.
  • the related word registration server 10 sets the length of the partial character string based on the number of characters of the search word and generates the partial character string having the set length, the length of the partial character string is determined.
  • the processing efficiency can be improved, the processing speed can be increased, and the precision of related words can be improved.
  • the related word registration server 10 sets the movement width of the number of characters of the search word when generating the partial character string based on the number of characters of the search word, and generates the partial character string with the set movement width, Processing can be further accelerated.
  • the related word registration server 10 when the related word registration server 10 generates a partial character string for a search word obtained by phonetic conversion of the search word, the partial character string can be efficiently extracted even with a short word, and the processing speed can be increased. The accuracy of related words can be improved.
  • the related word registration server 10 further includes parameters ⁇ and ⁇ for adjusting the similarity of the score calculation unit and the information on the number of times of use as the parameter adjustment unit, the user can be adjusted by adjusting the parameters ⁇ and ⁇ .
  • the suitability score can be changed according to the characteristics and circumstances of the, and the accuracy of related words can be further improved.
  • the related word registration server 10 obtains a reference line from an approximate function that approximates the relation between the ranking and the suitability score as a determination reference generation unit, and as a result, an associated value registered character string as an abnormal value deviating from the approximate function. Can be easily detected, and the accuracy of related words can be further improved.
  • the related word registration server 10 obtains the reference line L1 from the ranking data in a predetermined range (for example, higher rank) as the determination reference generation means, the candidate characters that are out of the reference line L1 from the higher ranking Since a column can be detected, a candidate character string in a higher ranking can be appropriately extracted.
  • a predetermined range for example, higher rank
  • the product DB 22a is further provided as an example of a search word storage means for storing a search word related to a product sold on an internal or external EC site, in particular, availability is easily made using data of the product DB 22a. Can be calculated and reflected in the suitability score.
  • the related term registration server 10 further includes a search query log DB 12a as an example of a search query storage unit that stores a log related to a search query, and calculates a suitability score based on data in the search query log DB 12a
  • the related word registration server 10 stores the search query log DB 12a. If candidate character strings are extracted from the words that have been created, it is possible to first narrow down to candidate character strings in which the user's interests are aggregated. In particular, based on the latest log, candidate character strings that particularly reflect user preferences can be extracted.
  • the related word registration server 10 may set an upper limit on the number of registered character strings to be extracted as a registered character string extracting unit in step S19. In this case, registration of unnecessary related words can be suppressed, and the accuracy of related words can be improved.
  • the information providing server 20 refers to the related word database and extracts and outputs related words corresponding to the search word of the received search query, the accuracy with which the user can quickly reach the target search target. High related words can be presented to the user.
  • the reference line may be determined from the candidate character strings with the suitability score of the lower ranking among the extracted candidate character strings of the higher related words. More specifically, as shown in FIG. 9B, in the graph illustrating the relative suitability score for the ranking, the system control unit 14 of the related word registration server 10 has, for example, the suitability scores of the 50th place and the 10th place. Is determined (reference line L2).
  • the relative suitability score is, for example, a value obtained by dividing each score by the value of the suitability score ranked first.
  • the lower suitability score and the scores from the 50th to the 10th may be determined by the least square method.
  • the lower suitability score is a suitability score that approximates each other in the ranking order as compared with the upper suitability score.
  • the reference line L2 is an example of an approximation function that approximates the relationship between the ranking and the suitability score, and is a straight line connecting the suitability scores of the 50th place and the 10th place.
  • the approximate function may be a logarithmic function, an exponential function, a power function such as a quadratic function or a cubic function, a function of a conic curve such as a hyperbola, etc. in addition to a straight line (linear function).
  • the related word registration server 10 obtains the value of the intercept b with respect to the y-axis (relative adequacy score axis) of the reference line, and obtains a value obtained by multiplying the value of the intercept b by a constant.
  • the threshold value ⁇ is assumed.
  • the shopping site may be an external EC site connected to the network 3, and the information providing server 20 may be a general search server as well as a product search.
  • the searchability is calculated from the number of search servers on the external EC site or the like.
  • search query log DB12a stores a search query associated with the reception time of the search query together with the user identification information. Further, a search query is also stored in association with the category information of the product (category information will be described later).
  • the user identification information for example, in the case of a search query from the terminal 30 of the user A who is logged in to the shopping site, the user ID of the user A or the header of the search query transmitted from the terminal 30 of the user A An existing IP address is listed.
  • the reception time includes the reception time when the information providing server 20 receives the search query from the terminal 30, and the reception time when the related word registration server 10 receives the search query from the information providing server 20. If the information providing server 20 receives the search query from the terminal, the information providing server 20 also transmits the search query reception time to the related word registration server 10. Further, the reception time may be a time stamp added when the search query is stored in the search query log DB 12a.
  • a user for example, user A logs in to a shopping site using the terminal 30 of user A, as shown in FIG. 6, information on the web page 40 that is the top page of the shopping site is obtained from the information providing server 20. It is transmitted to the terminal 30. Then, the web page 40 is displayed on the display unit 33 of the terminal 30.
  • the Web page 40 is a top page of a shopping site, and a top category display 45 is displayed, and links to each category are provided. Furthermore, the category display 46 of the goods and services of the related group company of this shopping site is displayed, and the link to each category is made.
  • the Web page 40 information "A's, Hello" indicating the user A is displayed.
  • This search query is an example of the input search word, category information of the Web page 50 (category identification number indicating the category display 65 of the top category “home appliance”, etc.), and user identification information (user A) ID etc.
  • the information providing server 20 receives this search query from the terminal 30, transmits it to the related word registration server 10, and searches for the product with reference to the product DB 22a. Further, the IP address of the transmission source of this search query is specified, and this IP address is also transmitted to the related word registration server 10.
  • This IP address is an example of user identification information, and is used instead of the user ID when the user is not logged in.
  • the related word registration server 10 receives a search query including a search word (step S41). Specifically, the system control unit 14 of the related word registration server 10 receives the search query from the information providing server 20 through the communication unit 11, and associates the received search query with the reception time of the search query in the search query log DB 12a.
  • the system control unit 14 of the related word registration server 10 stores the search query in the search query log DB 12a in association with the IP address. Note that the system control unit 14 of the related word registration server 10 may include an IP address in the search query.
  • the system control unit 14 of the related word registration server 10 may store the search query in the search query log DB 12a with the received order instead of the reception time. Good.
  • the system control unit 14 of the related word registration server 10 functions as an example of a search query storage unit that stores the received search queries in accordance with the reception order.
  • the related word registration server 10 determines whether or not a search query having a matching user ID exists in the search query log (step S42). Specifically, the system control unit 14 of the related word registration server 10 searches for a search query that coincides with the user ID of the user A and whose reception time is earlier than the received search query (an example of reception order earlier). The query log DB 12a is extracted. Then, the system control unit 14 of the related word registration server 10 determines that the previous search query exists in the search query log when the previous search query can be extracted, and determines that the previous search query does not exist when it cannot be extracted. To do. Note that the system control unit 14 of the related word registration server 10 may extract the search query log DB 12a for a search query that matches the IP address of the received search query and whose reception time is earlier than the received search query.
  • the case of matching with the user ID or the case of matching with the IP address is an example of preset search query extraction conditions.
  • the related term registration server 10 functions as an example of a search query extraction unit that extracts a search query that matches the user identification information of the user who has input the search query as the search query extraction condition.
  • the related word registration server 10 determines whether the reception time and the reception time of the previous search query are within a predetermined time. (Step S43). Specifically, the system control unit 14 of the related word registration server 10 determines that the difference between the reception time of the received search query and the reception time of the previous search query is within a predetermined time (for example, 3 to 60 seconds). The previous search query in between) is extracted. Then, the system control unit 14 of the related word registration server 10 determines that the previous search query is within a predetermined time when the previous search query can be extracted, and determines that the previous search query is not within the predetermined time when it cannot be extracted.
  • a predetermined time for example, 3 to 60 seconds
  • the predetermined time is an example of a preset search query extraction condition.
  • the related term registration server 10 is based on a search query extraction condition that is set in advance, and the search query extraction unit that extracts a search query having a reception time earlier than the received search query from the search query storage unit. It serves as an example. Further, the related term registration server 10 functions as an example of a search query extraction unit that extracts a previous search query whose reception time is within a predetermined time from the reception time of the search query as a search query extraction condition.
  • the related word registration server 10 determines that the received search word is the closest search word with the closest reception time.
  • the character string set is stored (step S44). Specifically, the system control unit 14 of the related word registration server 10 configures a search query having the closest reception time to a search word constituting the received search query among the extracted search queries. A search word is selected, and a character string set of the previous search word and the received search word is stored in the character string set DB 12d.
  • system control unit 14 of the related word registration server 10 may further narrow down to a search query that matches the category information (for example, the top category) as an example of a search query extraction condition set in advance.
  • the related word registration server 10 stores the search query in the search query log in association with the user ID and the reception time (step S45). Specifically, the system control unit 14 of the related word registration server 10 stores the search query in the search query log DB 12a in association with the category information, the user ID (may be an IP address) and the reception time. In addition, when a search query having a matching user ID does not exist in the search query log (step S42; NO), or when the reception time and the reception time of the previous search query are not within a predetermined time (step S43; NO). In addition, the system control unit 14 of the related word registration server 10 stores the search query in the search query log DB 12a in association with the user ID and the reception time.
  • the related word registration server 10 is an example of a character string set storage unit that stores a search word that constitutes the extracted search query and a search word that constitutes the received search query as a character string set. Function as.
  • the information on the Web page 60 is transmitted to the terminal 30 as a search result as shown in FIG.
  • the terminal 30 receives the information of the Web page 60 from the information providing server 20 and displays it on the display unit 33.
  • the user A looks at the search result of the Web page 60, and if there is a target product, clicks on the product in the product display column 63. If there is no target product, the user A further inputs a search word into the search word input column 61.
  • the terminal 30 transmits a search query including the search word “ ⁇ O ⁇ ” and category information (“home appliance”) to the information providing server 20 as described above.
  • the information provision server 20 receives this search query, transmits to the related word registration server 10, and performs a search.
  • the related word registration server 10 receives the search query as described above (step S41), and performs the processing from step S42 to step S45.
  • the above-described processing is also performed for a search query from another user B or the like, and a search query log of the search query associated with the reception time together with the category information, each user ID, and each IP address is generated in the search query log DB 12a. Then, a character string set set in which the character strings are collected is generated in the character string set DB 12d.
  • the related word registration server 10 determines whether or not the extraction start condition is satisfied (step S50). Specifically, the system control unit 14 of the related word registration server 10 stores, as an example of the extraction start condition, the number of search queries (total number of search queries) of the search query log in the search query log DB 12a and the character string set DB 12d. It is determined whether or not the number of elements in the character string set set (total number of character string set sets) exceeds a predetermined threshold. Further, the system control unit 14 of the related word registration server 10 may determine whether or not a predetermined time has elapsed since the character string set extraction start condition was satisfied last time.
  • the related word registration server 10 extracts a character string set having the same search word from the character string set set (step S51). Specifically, as shown in FIG. 16, the system control unit 14 of the related word registration server 10 extracts a character string set 70 in which the previous search word 71 is the same (the search word is the same) from the character string set DB 12d. To do. If the extraction start condition is not satisfied (step S50; NO), the related word registration process is terminated.
  • the system control unit 14 of the related word registration server 10 may extract a character string set having a similar previous search word from the character set DB 12d according to a preset character string set extraction start condition.
  • the search words are similar if, for example, the similarity value based on the distance between character strings such as the Jaro-Winker distance and the Levenstein distance is equal to or greater than a predetermined threshold.
  • the system control unit 14 of the related word registration server 10 also extracts a character string set having the previous search word “ ⁇ ⁇ ” that is similar to the previous search word 71.
  • the related word registration server 10 extracts a character string set whose character string set is the same or similar to the previous search word from the character set set according to a preset character string set extraction start condition. Functions as an example.
  • the related word registration server 10 determines whether or not the total number of extracted character string sets is equal to or greater than a predetermined value (step S52). Specifically, the system control unit 14 of the related word registration server 10 determines whether or not the total number of character string groups related to a certain search word 71 is greater than or equal to a predetermined value (for example, 3 or more). As shown in FIG. 16, the character string set relating to the previous search word 71 is the character string set 70 of ⁇ previous search word 71-search word 71>, and the character string set of ⁇ previous search word 71-search word 72>. 70, and a total of three character string sets 70 of ⁇ previous search word 71-search word 73>.
  • a predetermined value for example, 3 or more
  • the related word registration server 10 determines whether there is a character string set that satisfies the registration condition among the extracted character string sets (step S52). S53). Specifically, the system control unit 14 of the related word registration server 10 determines whether or not the number of each character string set 70 is a predetermined number or more (for example, 10 or more) as an example of the registration condition. As described above, the system control unit 14 of the related word registration server 10 sets the character string set having the same or similar search words 72, 73, 74 in the character string set 70 having the same or similar search word 71. It is determined whether the number has exceeded a predetermined threshold.
  • the system control unit 14 of the related word registration server 10 specifies a character string set that exceeds a predetermined threshold as a related word. It should be noted that the system control unit 14 of the related word registration server 10 may count the same character string set if there is a search word “ ⁇ ⁇ ” similar to the search word 73 “ ⁇ ”.
  • the related word registration server 10 functions as an example of a related word specifying unit that specifies a character string set as a related word from the extracted character string set based on preset registration conditions.
  • the related word registration server 10 has, as a registration condition, a case where the number of character string sets having the same or similar search word exceeds a predetermined threshold in a character string set having the same or similar previous search word.
  • it functions as an example of related word specifying means for specifying the character string set as a related word.
  • the system control unit 14 of the related word registration server 10 has a ratio of character string sets having the same or similar search word in character string sets having the same or similar search word 71. It may be determined whether or not a predetermined threshold value (for example, 80%) is exceeded.
  • a predetermined threshold value for example, 80%
  • the related word registration server 10 has, as a registration condition, the ratio of character string sets having the same or similar search word in a character string set having the same or similar previous search word exceeds a predetermined threshold.
  • a predetermined threshold for specifying the character string set as a related word.
  • the related word registration server 10 registers the character string set as a related word (step S54).
  • the system control unit 14 of the related word registration server 10 includes three (15%) character string groups 70 of ⁇ previous search word 71-search word 71>.
  • the character string set 70 of ⁇ previous search word 71-search word 72> is registered in the related word DB 12c as a related word.
  • the related word registration server 10 functions as an example of related word registration means for registering the specified character string set as a related word.
  • the related word registration server 10 determines whether or not a character string set that does not satisfy the registration condition is registered in the related word DB (step S53). S55). Specifically, the system control unit 14 of the related word registration server 10 reduces the ratio of the previously registered ⁇ previous search word-search word> character string set 70 in the character string set DB 12d. It is determined whether or not a predetermined threshold value (for example, 80%) has been cut. This occurs when the number of other character string sets having the same or similar previous search word increases.
  • a predetermined threshold value for example, 80%
  • the related word registration server 10 deletes the character string set that does not satisfy the registration condition from the related word DB (step S56). Specifically, the system control unit 14 of the related word registration server 10 deletes, from the related word DB 12c, a character string set that does not satisfy the registration condition from the already registered character string sets.
  • the related word registration server 10 determines whether or not all character string groups have been extracted (step S57). Specifically, the system control unit 14 of the related word registration server 10 determines whether or not the character string set extraction processing in step S51 has been performed on all previous search words in the character string set set of the character string set DB 12d. If not extracted for all character string groups (step S57; NO), the process returns to step S11, and if extracted for all character string groups (step S57; YES), related words are registered. Terminate the process.
  • the search query of the search word input by the user is received, and the previous search query acquired earlier in time than the received search query is based on the preset search query extraction condition.
  • the search word extracted from the search query log, the search word of the previous search query and the search word of the received search query are stored as a character string set in the character string set DB 12d, and a preset character string set extraction start condition Is received by extracting the character string set having the same or similar previous search word and registering the extracted character string set satisfying the preset registration condition as the related word in the related word DB 12c.
  • a certain amount of character string pairs of the search query and the previous search query based on the search query extraction conditions is accumulated as the character string combination extraction start condition, and the stored character string pairs are registered.
  • the related word registration server 10 further stores user identification information and extracts a search query that matches the user identification information of the user who has input the search query as a search query extraction condition, a character string for the same user Since a set can be generated, the accuracy of related words can be further improved.
  • the related word registration server 10 extracts a previous search query whose reception time is within a predetermined time from the reception time of the search query as a search query extraction condition, Since the search query can be extracted, the accuracy of related terms can be further improved.
  • the related word registration server 10 further stores category information and extracts a previous search query based on the category information as a search query extraction condition, search words having the same or related category are grouped into character strings. Therefore, the accuracy of related words can be further improved.
  • the related word registration server 10 extracts a character string set when the number of elements of the character string set exceeds a predetermined threshold as a character string set extraction start condition, a character string set of a certain scale is obtained. Since it can be stored and an appropriate character string set can be extracted from it, the accuracy of related words can be further improved.
  • the related word registration server 10 has a registration condition, the number of character string sets having the same or similar search word in a character string set having the same or similar previous search word exceeds a predetermined threshold If a character string set is registered as a related word, a highly accurate character string set can be selected, and the accuracy of the related word can be further improved.
  • the related word registration server 10 has, as a registration condition, the ratio of character string sets having the same or similar search word in a character string set having the same or similar previous search word exceeds a predetermined threshold If the character string set is registered as a related word, a highly accurate character string set can be selected, and the accuracy of the related word can be further improved.
  • the related word registration server 10 may extract a character string set in step S51 when the number of search queries in the search query log DB 12a exceeds a predetermined threshold as a character string set extraction start condition.
  • a character string set of a certain scale can be accumulated, and an appropriate character string set can be extracted from the character string set. Therefore, the precision of related words can be further improved.
  • the related word registration server 10 may extract a character string set when a predetermined time has elapsed after satisfying the character string set extraction start condition in step S50.
  • a character string set of a certain scale can be accumulated, and an appropriate character string set can be extracted from the character string set. Therefore, the precision of related words can be further improved.
  • the related words may be registered by combining the operations of the first and second embodiments in the related word registration system.
  • a related word in which the distance between character strings is considered as in the operation of the first embodiment and a related word in which the order in which the search query is used is considered as in the operation in the second embodiment.
  • the related word database may be constructed in the related word DB 12c.
  • the information providing server 20 is constructed in the related word DB 12 c by the operation of the first embodiment.
  • the related word database as shown in FIG. 6, “probably“ XXX ”is displayed on the Web page 40 as the related word.
  • the information providing server 20 refers to the related word database constructed by the operation of the second embodiment in the related word DB 12c. Then, as a related word, “? ...?” May be displayed on the Web page 40.
  • these related words may be displayed simultaneously.
  • the present invention is not limited to the above embodiments.
  • Each of the embodiments described above is an exemplification, and any configuration that has substantially the same configuration as the technical idea described in the claims of the present invention and has the same operational effects can be used. It is included in the technical scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 検索クエリログ(12a)から、所定の条件に基づいて関連語の候補を抽出した関連語候補集合(12b)を生成し(S1~S4)、ユーザが入力した検索ワードの検索クエリを受信し(S10)、検索ワードの文字列から部分文字列を生成し(S13)、部分文字列に基づいて関連語候補集合から候補文字列を抽出し(S14)、候補文字列の適否スコアを算出し(S16)、スコアの順に候補文字列に対するランキングを行い(S17)、適否スコアとランキングとに基づき、ランキングに対する適否スコアの基準ラインL1を生成し(S18)、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し(S19)、抽出された登録文字列と検索ワードとを関連語として関連語DB12cに登録する(S20)。

Description

関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
 本発明は、検索キーワードを関連語として登録する関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体の技術分野に関する。
 同義語辞書のような単語のデータベースは、情報検索システムや、自然言語処理システムや、機械翻訳システム等において、検索キーワードの補完や、翻訳等の精度を高めるために利用されている。この同義語辞書を自動的に構築するための装置が様々研究されている。例えば、特許文献1には、意味辞書中の既に意味情報が付与されている辞書エントリーの情報を利用して、自動的に入力辞書エントリーに意味情報を付与する意味辞書登録装置が開示されている。
特開2000-268035号公報
 しかしながら、特許文献1に記載の技術では、入力データと登録済である全てのデータの単純な単語間の意味的な距離に基づいて類義を判定していたため、類義の判定の精度が低く、不要な同義語のような関連語の登録の抑制ができなかった。そのため、精度の高い同義語辞書等の関連語の辞書を構築することが難しかった。
 本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、精度の高い関連語を登録できる関連語登録装置等を提供することを目的とする。
 上記課題を解決するために、請求項1に記載の発明は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、を備える。
 請求項2に記載の発明は、請求項1に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成することを特徴とする。
 請求項3に記載の発明は、請求項1に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成することを特徴とする。
 請求項4に記載の発明は、請求項1から請求項3のいずれか1項に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする。
 請求項5に記載の発明は、請求項1から請求項4のいずれか1項に記載の関連語登録装置において、前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする。
 請求項6に記載の発明は、請求項1から請求項5のいずれか1項に記載の関連語登録装置において、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする。
 請求項7に記載の発明は、請求項1から請求項6のいずれか1項に記載の関連語登録装置において、前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする。
 請求項8に記載の発明は、請求項1から請求項7のいずれか1項に記載の関連語登録装置において、内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする。
 請求項9に記載の発明は、請求項1から請求項8のいずれか1項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする。
 請求項10に記載の発明は、請求項1から請求項9のいずれか1項に記載の関連語登録装置において、前記受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段と、予め設定した検索クエリ抽出条件に基づいて、前記受信した検索クエリより受信順が早い先の検索クエリを、前記検索クエリ記憶手段から抽出する検索クエリ抽出手段と、前記抽出した先の検索クエリを構成する先の検索ワードと、前記受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段と、予め設定した文字列組抽出開始条件に応じて、前記文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段と、予め設定した登録条件に基づいて、前記抽出した文字列組から関連語となる文字列組を特定する関連語特定手段と、を更に備え、前記関連語登録手段が、前記特定された文字列組を関連語として関連語データベースに登録することを特徴とする。
 請求項11に記載の発明は、請求項10に記載の関連語登録装置において、前記検索クエリ記憶手段は、ユーザ識別情報をさらに記憶し、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリを入力したユーザのユーザ識別情報が一致する前記先の検索クエリを抽出することを特徴とする。
 請求項12に記載の発明は、請求項10または請求項11に記載の関連語登録装置において、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリの受信時刻から所定の時間内に受信した先の検索クエリを抽出することを特徴とする。
 請求項13に記載の発明は、請求項10から請求項12のいずれか1項に記載の関連語登録装置において、前記検索クエリ記憶手段は、カテゴリ情報をさらに記憶し、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記カテゴリ情報に基づき、前記先の検索クエリを抽出することを特徴とする。
 請求項14に記載の発明は、請求項10から請求項13いずれか1項に記載の関連語登録装置において、前記文字列抽出手段が、前記文字列組抽出開始条件として、前記検索クエリ記憶手段における検索クエリ数が、または、前記文字列組集合の要素数が、所定の閾値を超えた場合に、前記文字列組を抽出することを特徴とする。
 請求項15に記載の発明は、請求項10から請求項13のいずれか1項に記載の関連語登録装置において、前記文字列抽出手段が、前記文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、前記文字列組を抽出することを特徴とする。
 請求項16に記載の発明は、請求項10から請求項15のいずれか1項に記載の関連語登録装置において、前記関連語特定手段が、前記登録条件として、前記先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数、または、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定することを特徴とする。
 請求項17に記載の発明は、請求項1から請求項16のいずれか1項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、を備えたことを特徴とする。
 請求項18に記載の発明は、関連語を登録する関連語登録装置の関連語登録方法において、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、を含む。
 請求項19に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させる。
 請求項20に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させる関連語登録装置用のプログラムを記録する。
 本発明によれば、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出した関連語候補集合を生成し、ユーザが入力した検索ワードの検索クエリを受信し、検索ワードの文字列から部分文字列を生成し、部分文字列に基づいて関連語候補集合から候補文字列を抽出し、候補文字列と検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出し、スコアの順に候補文字列に対するランキングを行い、候補文字列の適否スコアとランキングとに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成し、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し、抽出された登録文字列と検索ワードとを、関連語データベースに関連語として登録することにより、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。
本発明の一実施形態に係る関連語登録システムの概要構成例を示す模式図である。 図1の関連語登録サーバの概要構成の一例を示すブロック図である。 図1の情報提供サーバの概要構成の一例を示すブロック図である。 図1の端末の概要構成の一例を示すブロック図である。 図1の関連語登録システム1の第1実施形態の動作において、関連語登録サーバの関連語候補集合の生成の動作例を示すフローチャートである。 図1の端末に表示されたウェブページの一例を示す模式図である。 図1の関連語登録サーバにおける第1実施形態の関連語の登録の動作例を示すフローチャートである。 部分文字列の抽出の一例を示す模式図である。 (A)および(B)は、ランキング-スコア・グラフの一例を示す模式図である。 図1の関連語登録サーバにおける適否スコアを算出する動作例のサブルーチンを示すフローチャートである。 (A)~(C)は、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 図1の関連語登録システム1の第2実施形態の動作において、端末に表示されたウェブページの一例を示す模式図である。 図1の関連語登録サーバの検索クエリログ・データベース構築の動作例を示すフローチャートである。 図1の端末に表示されたウェブページの一例を示す模式図である。 図1の関連語登録サーバの関連語の登録の動作例を示すフローチャートである。 文字列組の一例を示す模式図である。
 以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、関連語登録システムに対して本発明を適用した場合の実施形態である。
[1.関連語登録システムの構成および機能概要]
 まず、本発明の一実施形態に係る関連語登録システムの構成および概要機能について、図1を用いて説明する。
 図1は、本実施形態に係る関連語登録システム1の概要構成例を示す模式図である。
 図1に示すように、関連語登録システム1は、関連語を登録する関連語登録サーバ10(関連語登録装置の一例)と、ユーザが利用する情報提供サイトの一例であるショッピングサイト(内部EC(electronic commerce)サイトの一例)運営のために設置され、関連語登録サーバ10に登録されている情報や商品の情報をユーザに提供するための情報提供サーバ20と、情報提供サーバ20においてユーザが商品等の検索を行う端末30と、を備えている。
 関連語登録サーバ10と、情報提供サーバ20とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム5を構成している。そして、サーバシステム5と端末30とは、ネットワーク3により接続され、通信プロトコル(例えば、TCP/IP)により、データの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、および、ゲートウェイ等により構築されている。
 また、関連語登録サーバ10は、端末30等におけるユーザの検索行動等から、関連語のデータベースを構築し、端末30等におけるユーザの検索行動を支援する。
 情報提供サーバ20は、端末30から検索ワードを含んだ検索クエリを受信して検索を行い、端末30に検索結果を送信する。また、情報提供サーバ20は、関連語のデータベースを構築するために、受信した検索クエリを関連語登録サーバ10に送信する。また、情報提供サーバ20は、ショッピングサイトとして、商品の検索、商品の情報の提供、広告の情報の提供、および、商品の購入の手続き等を行う。
 ユーザの端末30は、複数存在する。
[2.各サーバの構成および機能]
(2.1 関連語登録サーバ10の構成および機能)
 次に、関連語登録サーバ10の構成および機能について、図2を用いて説明する。
 図2は、関連語登録サーバ10の概要構成の一例を示すブロック図である。
 図2に示すように、コンピュータとして機能する関連語登録サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
 通信部11は、ネットワーク3に接続して端末30等との通信状態を制御し、さらに、ローカルエリアネットワークに接続して、ローカルエリアネットワーク上の情報提供サーバ20等の他のサーバとデータの送受信を行う。
 記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置(図示せず)を介して読み込まれるようにしてもよい。
 また、記憶部12には、端末30から受信した検索クエリに関するログを記憶した検索クエリログ・データベース12a(以下「検索クエリログDB12a」とする。)と、検索クエリから生成される関連語の候補文字列を関連語候補集合として記憶した関連語候補データベース12b(以下「関連語候補DB12b」とする。)と、検索クエリから生成される関連語を記憶した関連語データベース12c(以下「関連語DB12c」とする。)と、文字列組データベース12d(以下「文字列組DB12d」とする。)等が構築されている。なお、検索クエリログDB12a、関連語候補DB12b、関連語DB12c、および、文字列組DB12dは、サーバシステム5内において、関連語登録サーバ10以外の他のサーバに構築されてもよいし、サーバシステム5外部に構築されてもよい。
 検索クエリログDB12a(検索クエリ記憶手段の一例)には、検索クエリを受信した受信時刻、ユーザID等のユーザを区別するためのユーザ識別情報と対応付けた検索クエリが記憶されている。なお、ユーザ識別情報として、ショッピングサイト等のユーザID、ユーザ端末やアクセスポイントの識別番号、IPアドレス等が挙げられる。さらに、情報提供サーバ20において、ユーザが商品検索を行って場合、商品の属する商品カテゴリや、ユーザが開いているWebページが示している商品カテゴリ等のカテゴリ情報にも対応付けて、検索クエリが検索クエリログDB12aに記憶される。
 関連語候補DB12bには、検索クエリログDB12aの検索クエリログから所定の条件に基づいて抽出された関連語の候補文字列が関連語候補集合として記憶される。
 関連語DB12cには、関連語登録サーバ10による生成される関連語が記憶される。
 文字列組DB12d(文字列組記憶手段の一例)には、受信した検索クエリの検索ワードと、検索クエリログDB12aの中から抽出された検索クエリの検索ワードとの文字列組が記憶される。
 次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行う。
 システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。システム制御部14は、CPU14aがROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、関連語の登録処理等を行う。
(2.2 情報提供サーバ20の構成および機能)
 次に、情報提供サーバ20の構成および機能について、図3を用いて説明する。
 図3は、情報提供サーバ20の概要構成の一例を示すブロック図である。
 図3に示すように、情報提供サーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、情報提供サーバ20の構成および機能は、関連語登録サーバ10の構成および機能とほぼ同じであるので、関連語登録サーバ10の各構成や各機能において、異なるところを中心に説明する。
 通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、端末30や関連語登録サーバ10等との通信状態を制御等するようになっている。
 記憶部22には、商品データベース(以下「商品DB」とする。)22aや、会員データベース(以下「会員DB」とする。)22b等が構築されている。
 商品DB22aには、商品を識別するための識別子である商品IDに関連付けられ、商品名、種類、商品の画像、スペック、および、商品情報や、各商品に関する広告情報等が記憶されている。また、商品DB22aには、HTML(HyperText Markup Language)、XML(Extensible Markup Language)等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。
 さらに、商品DB22aには、商品を検索するための検索データベースが構築されている。商品DB22aは、サーバシステム5内部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段の一例である。
 会員DB22bには、会員登録されたユーザ(ショッピングサイトの利用者)のユーザID、名称、住所、電話番号、メールアドレス、職業、趣味、購買履歴、ユーザの関心があるテーマやジャンル(商品カテゴリ)等のユーザ情報が登録されている。また、会員DB22bには、ユーザが端末30からショッピングサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。
 システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、商品検索処理や、ユーザによる商品購入処理等を行う。
(2.3 端末30の構成および機能)
 次に、端末30の構成および機能について、図4を用いて説明する。
 図4は、端末30の概要構成の一例を示すブロック図である。
 図4に示すように、コンピュータとして機能する端末30は、例えば、パーソナルコンピュータやスマートフォンを含む携帯型無線電話機やPDA等の携帯端末であり、通信部31と、記憶部32と、表示部33と、操作部34と、入出力インターフェース部35と、システム制御部36とを備えている。そして、システム制御部36と入出力インターフェース部35とは、システムバス37を介して接続されている。
 通信部31は、ネットワーク3を通して、情報提供サーバ20等との通信を制御する。なお、端末30が携帯端末装置の場合、ネットワーク3の移動体通信網に接続するために、通信部31は、無線通信機能を有する。
 記憶部32は、例えば、ハードディスクドライブ等からなり、オペレーティングシステム、ウェブブラウザのプログラムやウェブブラウザ用ツールバーのプログラム等を記憶する。
 表示部33は、例えば、液晶表示素子またはEL(Electro Luminescence)素子等によって構成されている。表示部33には、検索画面のウェブページや、情報提供サーバ20から提供された商品検索の結果のウェブページがウェブブラウザにより表示される。
 操作部34は、例えば、キーボードおよびマウス等によって構成されている。ユーザは、操作部34により応答を入力する。なお、表示部33がタッチパネルのようなタッチスイッチ方式の表示パネルの場合、操作部34は、ユーザが接触または近接した表示部33の位置情報を取得する。
 入出力インターフェース部35は、通信部31および記憶部32とシステム制御部36とのインターフェースである。
 システム制御部36は、例えば、CPU36aと、ROM36bと、RAM36cとを有する。システム制御部36は、CPU36aが、ROM36bや、RAM36cや、記憶部32に記憶された各種プログラムを読み出して実行する。例えば、システム制御部36は、ウェブブラウザのプログラムを実行しウェブブラウザとして機能する。
[3.関連語登録システムにおける第1実施形態の動作]
 次に、本発明の一実施形態に係る関連語登録システム1における第1実施形態の動作について図5から図11を用い説明する。
 図5は、関連語登録サーバ10の関連語候補集合の生成の動作例を示すフローチャートである。図6は、端末30に表示されたウェブページの一例を示す模式図である。図7は、関連語登録サーバの関連語の登録の動作例を示すフローチャートである。図8は、部分文字列の抽出の一例を示す模式図である。図9は、ランキング-スコア・グラフの一例を示す模式図である。図10は、関連語登録サーバ10における適否スコアを算出する動作例のサブルーチンを示すフローチャートである。図11は、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。
(3.1 関連語候補集合の生成)
 関連語候補集合の生成について、図5を用いて説明する。
 まず、情報提供サーバ20が、ユーザが入力した検索ワードを含む検索クエリを端末30から受信した際、検索を行うと共に、この検索クエリを関連語登録サーバ10に送信する。さらに、情報提供サーバ20は、検索クエリに対する検索結果の件数も関連語登録サーバ10に送信する。
 そして、関連語登録サーバ10は、情報提供サーバ20から検索クエリおよび検索結果の件数を受信して、検索クエリを検索結果の件数に対応付けて検索クエリログDB12aに記憶する。このとき、関連語登録サーバ10は、検索クエリを受信した受信時刻、ユーザIDやIPアドレス等のユーザを区別するためのユーザ識別情報と対応付けて検索クエリを記憶してもよい。
 次に、図5に示すように、関連語登録サーバ10は、検索クエリログから検索クエリを抽出する(ステップS1)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリログDB12aから、検索クエリを1つ抽出する。
 次に、関連語登録サーバ10は、検索結果の件数が1件以上の検索クエリか否かを判定する(ステップS2)。具体的には、関連語登録サーバ10のシステム制御部14は、抽出した検索クエリに対応した検索結果の件数を検索クエリログDB12aから読み出し、検索結果の件数が1件以上であるか否かを判定する。なお、関連語登録サーバ10のシステム制御部14は、検索クエリによりヒットする検索結果の件数を求めるため、抽出した検索クエリを情報提供サーバ20に送信し、ヒット件数を情報提供サーバ20から受信するように構成してもよい。
 検索結果の件数が1件以上の場合(ステップS2;YES)、関連語登録サーバ10は、抽出した検索クエリを関連語候補集合に登録する(ステップS3)。具体的には、関連語登録サーバ10のシステム制御部14は、検索結果の件数が1件以上、すなわち、検索結果の件数がゼロ件で無い検索クエリの場合、この検索クエリ(関連語の候補文字列としての検索ワードを含む)を関連語候補集合として、関連語候補DB12bに登録する。
 検索結果の件数が1件以上で無い場合(ステップS2;NO)、関連語登録サーバ10は、抽出した検索クエリを関連語候補集合に登録しない。
 次に、残りの検索クエリが存在するかを判定する(ステップS4)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリログDB12aに、未だ検索結果の件数の判定を行っていない検索クエリが存在するか否かを判定する。
 残りの検索クエリが存在する場合(ステップS4;YES)、ステップS1に戻り、関連語登録サーバ10は、次の検索クエリを抽出し、残りの検索クエリは存在しない場合(ステップS4;NO)、関連語候補集合の生成の処理を終了する。このように関連語登録サーバ10は、予めある程度の規模の関連語候補集合を生成しておく。関連語登録サーバ10は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段の一例として機能する。
 なお、情報提供サーバ20は、検索クエリを受信して検索を行った際、検索結果の件数がゼロ件で無かった場合、検索クエリにゼロ件で無い情報を付加して関連語登録サーバ10に送信してもよい。この場合、関連語登録サーバ10は、検索結果の件数がゼロ件で無ない検索クエリを受信した際、関連語候補DB12bに記憶する。
(3.2 関連語の登録)
 次に、関連語の登録の動作について、図6~図9を用いて説明する。
 まず、図6に示すように、端末30の表示部33に、情報提供サーバ20から提供されたWebページ40の検索ワード入力欄41に、例えば、”A家の食卓”と検索ワードがユーザより入力される。検索ボタン42がクリックされ検索が行われ、端末30は、この検索ワードを含む検索クエリを、情報提供サーバ20に送信する。次に、情報提供サーバ20が、ユーザが入力した検索ワードを含む検索クエリを端末30から受信した際、この検索クエリを関連語登録サーバ10に送信する。
 次に、図7に示すように、関連語登録サーバ10は、ユーザが入力した検索ワードを含む検索クエリを受信する(ステップS10)。具体的には、関連語登録サーバ10のシステム制御部14は、情報提供サーバ20から、通信部11を通して検索クエリを受信する。なお、上記関連語候補集合の生成で説明したように、関連語登録サーバ10は、受信した検索クエリを検索クエリログDB12aに記憶する。また、関連語登録サーバ10は、ステップS2の条件を満たした場合、検索クエリを関連語候補集合に登録してもよい。
 次に、関連語登録サーバ10は、検索ワードの文字数を取得する(ステップS11)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリに含まれる検索ワードが漢字等の場合、平仮名のような読みに変換したり、ローマ字変換したりする。例えば、関連語登録サーバ10のシステム制御部14は、”A家の食卓”を”えいけのしょくたく”に表音変換させて文字数を、5文字から9文字に増加させる。さらに、関連語登録サーバ10のシステム制御部14は、”えいけのしょくたく”を”eikenoshokutaku”にローマ字変換し、15文字に増加させてもよい。そして、関連語登録サーバ10のシステム制御部14は、平仮名変換やローマ字変換等の表音変換させた検索ワードの文字数(例えば、9文字や15文字)を取得する。
 次に、関連語登録サーバ10は、検索ワードの文字数が5文字以上か否かを判定する(ステップS12)。具体的には、関連語登録サーバ10のシステム制御部14は、表音変換させた検索ワードの文字数が5文字以上か否かを判定する。
 検索ワードの文字数が5文字以上の場合(ステップS12;YES)、関連語登録サーバ10は、検索ワードから4文字の部分文字列を抽出する(ステップS13)。具体的には、関連語登録サーバ10のシステム制御部14は、図8に示すように、検索ワードの文字列”eikenoshokutaku”に対して、部分文字列の長さ(Window Size)Lを4として、Windowのスライド幅(Sliding Size)Sを2として、部分文字列p1(”eike”)、部分文字列p2(”keno”)等の部分文字列を生成して抽出する。なお、ステップS2の閾値(5文字)は、部分文字列の長さLに基づいて当該部分文字列の長さLより大きい値に設定される
 このように関連語登録サーバ10は、検索ワードの文字列から部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ10は、検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ10は、検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ10は、検索ワードを表音変換させた検索ワードに対して、部分文字列を生成する部分文字列生成手段の一例として機能する。
 次に、関連語登録サーバ10は、部分文字列と部分一致する関連語の候補文字列を関連語候補集合から抽出する(ステップS14)。具体的には、関連語登録サーバ10のシステム制御部14は、図8に示す、部分文字列から、検索クエリQuery = "eike" OR "keno" OR "nosh" OR "shok" OR "okut" OR "utak"を生成し、この検索クエリから、関連語候補DB12bから、関連語の候補文字列を抽出する。すなわち、関連語登録サーバ10のシステム制御部14は、抽出された各部分文字列に部分一致する候補文字列を抽出する。ここで部分一致するとは、例えば、部分文字列"eike"の場合、"eike"を含む候補文字列や、"eike"の一部"eik"を含む候補文字列である。このように、関連語登録サーバ10は、生成された部分文字列に基づいて、関連語候補集合から候補文字列を抽出する候補文字列抽出手段の一例として機能する。
 また、検索ワードの文字数が5文字以上で無い場合(ステップS12;NO)の場合、関連語登録サーバ10は、検索ワードと部分一致する関連語の候補文字列を関連語候補集合から抽出する(ステップS15)。具体的には、関連語登録サーバ10のシステム制御部14は、部分文字列を抽出せず、受信した検索ワード自体か、表音変換した検索ワードを部分一致する候補文字列を関連語候補DB12bから抽出する。
 なお、関連語登録サーバ10のシステム制御部14は、類似度に基づき、部分文字列や検索ワードに類似する候補文字列を抽出してもよい。なお、類似度としては、Jaro-Winkler距離、レーベンシュタイン距離等の文字列間の距離が挙げられる。
 次に、関連語登録サーバ10は、各関連語の候補文字列の適否スコアを算出する(ステップS16)。具体的には、関連語登録サーバ10のシステム制御部14は、後述する適否スコアサブルーチンにより、抽出された各候補文字列の適否スコアを算出する。
 次に、関連語登録サーバ10は、適否スコア順にランキングを求める(ステップS17)。具体的には、関連語登録サーバ10のシステム制御部14は、適否スコアの高い順に、各候補文字列を並べる処理を行う。そして、関連語登録サーバ10のシステム制御部14は、上位一定数、例えば上位50位の候補文字列を取り出し、候補文字列を更に絞る。このように関連語登録サーバ10は、スコアの順に候補文字列に対するランキングを行うランキング手段の一例として機能する。
 次に、関連語登録サーバ10は、適否スコアの基準ラインを生成する(ステップS18)。具体的には、関連語登録サーバ10のシステム制御部14は、取り出した上位の関連語の候補文字列のうち、適否スコアが上位ランキングのワードより基準ラインを決定して生成する。さらに具体的には、図9(A)に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、システム制御部14が、例えば1位からn位の適否スコアの点を近似する近似関数を基準ラインL1とする。
 ここで、基準ラインの一例としての近似関数として、対数関数、指数関数、1次関数、2次関数や3次関数等の累乗関数、双曲線のような円錐曲線の関数等が挙げられる。近似関数は、ランキング-スコア・グラフの各点を近似したり、補間したりする関数ならばよい。近似関数を求める際、最小2乗法等の基準を利用すればよい。また、相対的な適否スコアは、例えば、ランキング1位の適否スコアの値で、各スコアを割った値である。なお、基準ラインL1を決める際、下位の適否スコア、50位から10位の各スコアを最小二乗法により決めてもよい。なお、ランキング-スコアの曲線は、適否スコアのランキング順に並べているので、広義の単調減少のグラフになる。
 このように関連語登録サーバ10は、候補文字列の適否スコアとランキングに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成する判定基準生成手段の一例として機能する。また、関連語登録サーバ10は、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求める判定基準生成手段の一例として機能する。また、関連語登録サーバ10は、所定の範囲のランキングのデータより、基準ラインを求める判定基準生成手段の一例として機能する。
 次に、関連語登録サーバ10は、各適否スコアと基準ラインとの乖離が閾値以上か否かを判定する(ステップS19)。具体的には、関連語登録サーバ10のシステム制御部14は、基準ラインL1とランキング1位のスコアとの差分が閾値以上か否かを判定する。さらに具体的には、関連語登録サーバ10のシステム制御部14が、基準ラインL1の式にランキングの値を代入した値をランキング1位の適否スコアから引き算をして差分を算出する。そして、差分が閾値θ以上ならば、候補文字列を関連語の登録文字列として抽出する。ここで、閾値は、適否スコアを調節するパラメータ等を変えて、シミュレーションにより、例えば、基準ラインの0.1倍のように予め求めておく。この場合、関連語登録サーバ10のシステム制御部14は、適否スコアが基準ラインの1.1倍以上である候補文字列を関連語として抽出する。
 このように関連語登録サーバ10は、適否スコアと基準ラインL1との乖離が予め設定された閾値θ以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段の一例として機能する。
 各適否スコアと基準ラインとの乖離が閾値以上の場合(ステップS19;YES)、関連語登録サーバ10は、基準ラインとの乖離が閾値以上の関連語の候補文字列を関連語として登録する(ステップS20)。具体的には、関連語登録サーバ10のシステム制御部14は、各適否スコアと基準ラインとの乖離が閾値以上の場合、ランキング1位の候補文字列を、受信した検索ワードの関連語の登録文字列として関連語DB12cに登録する。なお、各適否スコアと基準ラインとの乖離が閾値以上である候補文字列が複数(例えば、3つ)存在する場合、関連語登録サーバ10のシステム制御部14は、ランキング1位の候補文字列に限らず、ランキング1位~3位の候補文字列や、1位および3位の候補文字列のように、所定数の候補文字列を記憶したり、ランキング2位のように所定の順位の候補文字列を記憶したりしてもよい。このように関連語登録サーバ10は、抽出された登録文字列と検索ワードとを、関連語データベースに関連語として登録する関連語登録手段の一例として機能する。
 差分が閾値以上で無い場合(ステップS19;NO)、関連語登録サーバ10は、処理を終了する。
 次に、構築された関連語データベースの利用について説明する。
 情報提供サーバ20は、ユーザの端末30から受信した検索クエリに基づき検索する際、関連語抽出手段の一例として、関連語登録サーバ10の関連語DB12cを参照して、検索クエリの検索ワードに対応する関連語を抽出する。例えば、情報提供サーバ20は、関連語登録サーバ10に受信した検索クエリを送信する。関連語登録サーバ10が、情報提供サーバ20から検索クエリを受信し、関連語DB12cから、検索クエリの検索ワードに対応する登録文字列を抽出する。そして、関連語登録サーバ10が、関連語出力手段の一例として、抽出した登録文字列を関連語として情報提供サーバ20に送信する。情報提供サーバ20は、受信した関連語を端末30に送信する。そして、図6に示すように、端末30は、受信した関連語を、”もしかして’○○▲’?”のように関連語表示欄43に表示する。なお、”ランキング1の関連語”、”ランキング2の関連語”のように、複数個の関連語が表示されてもよい。また、検索結果の件数がゼロ件や少なかったかった場合に限らず、関連語が表示されてもよい。
(3.3 適否スコアの算出のサブルーチン)
 次に、適否スコアの算出のサブルーチンについて、図10および図11を用いて説明する。
 ステップS14やステップS15で、関連語の候補文字列を抽出した後、図10に示すように、関連語登録サーバ10は、抽出した関連語の候補文字列と検索ワードとの距離を算出する(ステップS30)。具体的には、関連語登録サーバ10のシステム制御部14は、例えば、式(1)に従い、検索ワードuと候補文字列wとの距離Distance(w,u)を算出する。
Figure JPOXMLDOC01-appb-M000001
 ここで、Distance(w,u)は、検索ワードuと候補文字列wとの距離であり、これらがどのくらい似ているかを示す指標(類似度の一例)である。なお、Dist(w,u)は、候補文字列wと検索ワードuとのJaro-Winkler距離であり、Dist.Yomi(w,u)は、候補文字列wの読みと検索ワードuの読みとのJaro-Winkler距離である。係数αと係数βとは、α+β=1の関係があり、読みに重きを置きたいとき係数βの割合を大きくする(例えば、α<β、α=0.3、β=0.7)。なお、Distance(w,u)は、距離として0~1で表現できるJaro-Winkler距離が好ましいが、Jaro-Winkler距離に限らず、レーベンシュタイン距離や検索ワードuと候補文字列wとの類似度を表す指標であってもよい。
 次に、関連語登録サーバ10は、各関連語の候補文字列の生起頻度を取得する(ステップS31)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリログにおける各関連語の候補文字列の生起頻度を算出する。さらに具体的には、関連語登録サーバ10のシステム制御部14は、式(2)に従い、検索クエリログDB12aのデータに基づき、各候補文字列wに対するP(w)を算出する。
Figure JPOXMLDOC01-appb-M000002
 ここで、P(w)は、候補文字列wが、検索クエリログDB12aの検索ログデータにおいて、どのくらい検索されているかの生起頻度に関係する。なお、Occ.Count(w)は、検索クエリログにおける候補文字列wの出現回数(候補文字列の使用回数)である。検索クエリログDB12aの検索クエリログデータを使用する場合、P(w)が高いワードは、様々なユーザによる検索でよく入力される一般的な単語である。このように関連語登録サーバ10のシステム制御部14は、適否スコア算出手段の一例として、検索クエリ記憶手段(検索クエリログDB12a)のデータに基づき、適否スコアを算出する。
 次に、関連語登録サーバ10は、各関連語の候補文字列の商品DB22aにおける検索件数より検索可能性(アベイラビリティ)を算出する(ステップS32)。具体的には、まず、関連語登録サーバ10のシステム制御部14が、情報提供サーバ20に各関連語の候補文字列wを送信し、情報提供サーバ20のシステム制御部24が、商品DB22aにおける検索件数(検索結果数)を求め、関連語登録サーバ10に各候補文字列wの検索件数を送信する。
 そして、関連語登録サーバ10のシステム制御部14が、式(3)に従い、検索件数から各候補文字列wの検索可能性の値を算出する。
Figure JPOXMLDOC01-appb-M000003
 また、Availability(w)は、候補文字列wによる検索の検索結果数(検索ヒット数)に対する重み係数であり、例えば、次式で表現される。ここで、#of Search Result(w)は、候補文字列wの検索結果数である。なお、アベイラビリティ(Availability)は、図11(A)に示すように、式(3)の他に、図11(B)(C)に示すように、様々なバリエーションがある。
 次に、関連語登録サーバ10は、検索ワードと関連語の候補文字列との距離、各関連語の候補文字列の生起頻度、各関連語の候補文字列の検索可能性より各関連語の候補文字列の適否スコアの算出する(ステップS33)。具体的には、関連語登録サーバ10のシステム制御部14は、式(4)に従い、各候補文字列wの適否スコアを算出する。
Figure JPOXMLDOC01-appb-M000004
 ここで、γおよびδは、適否スコアを調整するためのパラメータである。パラメータγは、P(w)に対する調整値であり、あまり入力されないワードへの修正も許す度合いを表す。あまり入力されないワードはP(w)の値が小さくなるので、新しい言葉、新しい商品を検索で拾うことが難しい。まだあまり使われていないワードでも、できるだけ検索で拾えるようにしたい場合は、サーバ側の設定によってパラメータγの値を大きくする。
 また、パラメータδは、Distance(w,u)に対する調整値であり、主に、Distance(w,u)がゼロになり、スコアの値が発散することを防止している。なお、関連語登録サーバ10は、式(4)におけるパラメータγおよびδや、式(1)におけるパラメータαおよびβを予め設定しておく(例えば、γ>δ、γ>1、δ<1、γ=2、δ=0.01)。
 これらのように関連語登録サーバ10は、候補文字列と前記検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出するスコア算出手段の一例として機能する。また、関連語登録サーバ10は、類似度と使用回数の情報とを調節するパラメータ調節手段に一例として機能する。
 以上、本実施形態によれば、検索クエリに関するログを記憶した検索クエリログDB12aから、検索結果が1以上(所定の条件の一例)に基づいて関連語の候補文字列を抽出した関連語候補集合を生成して関連語候補DB12bに記憶し、ユーザが入力した検索ワードの検索クエリを受信し、検索ワードの文字列から部分文字列を生成し、部分文字列に基づいて関連語候補DB12bの関連語候補集合から候補文字列を抽出し、候補文字列と検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出し、スコアの順に候補文字列に対するランキングを行い、候補文字列の適否スコアとランキングとに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成し、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し、抽出された登録文字列を検索ワードの関連語として関連語DB12cに登録することにより、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。さらに、本実施形態によれば、処理を高速化することができる。
 また、関連語に基づき、ユーザに検索ワードを提示すると、ユーザが目標とする検索対象に早くたどり着くことができる。
 また、関連語登録サーバ10が、検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成する場合、部分文字列の長さを決めることで、処理の効率化を図ることができ、処理の高速化および関連語の精度を向上させることができる。
 また、関連語登録サーバ10が、検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成する場合、処理をより高速化することができる。
 また、関連語登録サーバ10が、検索ワードを表音変換させた検索ワードに対して、部分文字列を生成する場合、短いワードでも、効率的に部分文字列を抽出でき、処理の高速化および関連語の精度を向上させることができる。
 また、関連語登録サーバ10が、パラメータ調節手段として、スコア算出手段の類似度と使用回数の情報とを調節するパラメータδ、γを更に備えた場合、パラメータδ、γを調整することにより、ユーザの特性や状況に応じて、適否スコアを変えることができ、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、判定基準生成手段として、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求めることにより、近似関数から外れた異常値として、関連語の登録文字列を検出しやすくなり、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、判定基準生成手段として、所定の範囲(例えば、上位)のランキングのデータより、基準ラインL1を求める場合、上位のランキングの中から、基準ラインL1から外れる候補文字列を検出できるため、更に上位のランキングにある候補文字列を適切に抽出できる。
 内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段の一例として商品DB22aを更に備えられた場合、特に、商品DB22aのデータを用いて、アベイラビリティを容易に算出でき、適否スコアに反映させることができる。
 また、関連語登録サーバ10が、検索クエリに関するログを記憶する検索クエリ記憶手段の一例として検索クエリログDB12aを更に備え、検索クエリログDB12aのデータに基づき、適否スコアを算出する場合、検索クエリログDB12aに蓄積されているワードから、候補文字列を抽出すると、ユーザの興味が集約された候補文字列に一次的に絞ることができる。特に、直近のログに基づいた場合、ユーザの好みが特に反映された候補文字列を抽出できる。
 また、関連語登録サーバ10が、ステップS19において、登録文字列抽出手段として、抽出する登録文字列の数に上限を設けてもよい。この場合、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。
 また、情報提供サーバ20が、関連語データベースを参照して、受信した検索クエリの検索ワードに対応する関連語を抽出し、出力する場合、ユーザが目標とする検索対象に早くたどり着くことができる精度の高い関連語を、ユーザに提示することができる。
 なお、取り出した上位の関連語の候補文字列のうち、適否スコアが下位ランキングの候補文字列より基準ラインを決定してもよい。さらに具体的には、図9(B)に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、関連語登録サーバ10のシステム制御部14は、例えば50位と10位の適否スコアを結ぶ直線(基準ラインL2)を決定する。
 基準ラインL2は、x軸がランキング、y軸が相対的な適否スコアのグラフにおいてy=ax+bの直線の式で表現される。ここで、相対的な適否スコアは、例えば、ランキング1位の適否スコアの値で、各スコアを割った値である。なお、基準ラインL2を決める際、下位の適否スコア、50位から10位の各スコアを最小二乗法により決めてもよい。ここで、図9(B)に示すように、下位の適否スコアは、上位の適否スコアに比べて、ランキング順で相互に近似する適否スコアになっている。
 ここで、基準ラインL2は、ランキングと適否スコアとの関連を近似する近似関数の一例であり、50位と10位の適否スコアを結ぶ直線である。なお、近似関数として、直線(1次関数)の他に、対数関数、指数関数、2次関数や3次関数等の累乗関数、双曲線のような円錐曲線の関数等でもよい。
 基準ラインL2が決定した後、関連語登録サーバ10は、基準ラインのy軸(相対的な適否スコアの軸)との切片bの値を求め、切片bの値に、定数を掛けた値を閾値θとする。
 なお、ステップS13において、関連語登録サーバ10が部分文字列を抽出に、検索ワードの文字数に応じて、部分文字列の長さLやWindowのスライド幅Sを動的に変更してもよい。例えば、検索ワードの文字数が多い場合、部分文字列の長さLを長くし、スライド幅Sを広くする。基準値として、文字数が15に対してL=4、S=3とした場合、検索ワードの文字数が40のとき、L=8、S=3のように文字列の長さを長くしたり、L=4、S=5のようにスライド幅を広くしたり、L=8、S=5のように文字列の長さおよびスライド幅を広くする。このように、関連語登録サーバ10が検索ワードの文字数に応じて、部分文字列の長さLやWindowのスライド幅Sを動的に変更する場合、処理の高速化および関連語の精度を向上させることができる。
 また、ショッピングサイトは、ネットワーク3に接続した外部ECサイトでもよく、情報提供サーバ20は、商品検索に限らず、一般の検索サーバでもよい。この場合、外部ECサイト等における検索サーバの検索件数から、検索可能性(アベイラビリティ)を算出する。
[4.関連語登録システムにおける第2実施形態の動作]
 次に、本発明の一実施形態に係る関連語登録システム1における第2実施形態の動作について、図6、および、図12から図16を用い説明する。なお、前記第1実施形態の動作と同一または対応する部分には、同一の符号を用いて異なるところを主に説明する。その他の実施形態および変形例も同様とする。
(4.1 検索クエリログおよび文字列組集合の生成)
 まず、検索クエリログおよび文字列組集合の生成について、図6、および、図12から図14を用いて説明する。
 なお、検索クエリログDB12aがある程度構築されている状態から説明する。この検索クエリログDB12aには、ユーザ識別情報と共に検索クエリの受信時刻に対応付けた検索クエリが記憶されている。さらに、商品のカテゴリ情報にも対応付けられて検索クエリが記憶されている(カテゴリ情報については後述する)。
 このユーザ識別情報の一例として、例えば、ショッピングサイトにログインしているユーザAの端末30からの検索クエリの場合、ユーザAのユーザIDや、ユーザAの端末30から送信された検索クエリのヘッダに存在するIPアドレスが挙げられる。
 この受信時刻は、情報提供サーバ20が、端末30から検索クエリを受信した受信時刻や、関連語登録サーバ10が、この検索クエリを情報提供サーバ20から受信した受信時刻が挙げられる。端末から検索クエリを情報提供サーバ20が受信した時刻ならば、情報提供サーバ20は、検索クエリの受信時刻も関連語登録サーバ10に送信する。また、受信時刻は、検索クエリログDB12aに検索クエリが記憶されるときに付されるタイムスタンプでもよい。
 まず、ユーザ(例えばユーザA)が、ユーザAの端末30で、ショッピングサイトにログインすると、図6に示すように、ショッピングサイトのトップページであるWebページ40の情報が情報提供サーバ20から、この端末30に送信される。そして、端末30の表示部33にWebページ40が表示される。このWebページ40には、ショッピングサイトのトップページであり、トップカテゴリ表示45が表示され、各カテゴリへのリンクが張られている。さらに、このショッピングサイトの関連グループ企業の商品やサービスのカテゴリ表示46が表示され、各カテゴリへのリンクが張られている。また、Webページ40には、ユーザAを示す情報“Aさん、こんにちは”が表示されている。
 次に、図6に示すように、Webページ40において、”家電”の商品カテゴリのリンクがクリックされると、図12に示すように、”家電”のWebページ50が表示部33に表示される。このWebページ50には、トップカテゴリ”家電”のカテゴリ表示55のサブカテゴリ表示56が表示される。
 このWebページ50の検索ワード記入欄51に、検索ワード”▼▼○”が入力され、検索ボタン52がクリックされると、端末30のシステム制御部36は、通信部31を通して、検索クエリを情報提供サーバ20に送信する。この検索クエリは、入力された検索ワードと、Webページ50のカテゴリ情報(トップカテゴリ”家電”のカテゴリ表示65を示すカテゴリ識別番号等)と、ユーザ識別情報の一例である(ユーザAの)ユーザID等を有する。
 次に、情報提供サーバ20は、この検索クエリを端末30から受信し、関連語登録サーバ10に送信すると共に、商品DB22aを参照して商品の検索を行う。また、この検索クエリの送信元のIPアドレスを特定し、このIPアドレスも関連語登録サーバ10に送信する。このIPアドレスは、ユーザ識別情報の一例であり、ユーザがログインしていない場合に、ユーザIDの代わりに使用される。
 次に、図13に示すように、関連語登録サーバ10は、検索ワードを含む検索クエリを受信する(ステップS41)。具体的には、関連語登録サーバ10のシステム制御部14は、通信部11を通して検索クエリを情報提供サーバ20から受信し、受信した検索クエリと検索クエリの受信時刻を対応付けて検索クエリログDB12aに記憶する。さらに、関連語登録サーバ10のシステム制御部14は、IPアドレスと対応付けて検索クエリを検索クエリログDB12aに記憶する。なお、関連語登録サーバ10のシステム制御部14は、検索クエリにIPアドレスを含ませてもよい。また、検索クエリの受付の前後関係が分かればよいので、関連語登録サーバ10のシステム制御部14は、受信時刻でなく、受信した順番を付けて、検索クエリを検索クエリログDB12aに記憶してもよい。このように、関連語登録サーバ10のシステム制御部14は、受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段の一例として機能する。
 次に、関連語登録サーバ10は、ユーザIDが一致する先の検索クエリが検索クエリログに存在するか否かを判定する(ステップS42)。具体的には、関連語登録サーバ10のシステム制御部14は、ユーザAのユーザIDと一致し、受信した検索クエリより受信時刻が早い先(受信順が早いの一例)の検索クエリを、検索クエリログDB12aを抽出する。そして、関連語登録サーバ10のシステム制御部14は、先の検索クエリを抽出できた場合、先の検索クエリが検索クエリログに存在すると判定し、抽出できない場合、先の検索クエリが存在しないと判定する。なお、関連語登録サーバ10のシステム制御部14は、受信した検索クエリのIPアドレスと一致し、受信した検索クエリより受信時刻が早い先の検索クエリを、検索クエリログDB12aを抽出してもよい。
 ここで、ユーザIDと一致する場合や、IPアドレスと一致する場合が、予め設定した検索クエリ抽出条件の一例である。このように関連語登録サーバ10は、検索クエリ抽出条件として、検索クエリを入力したユーザのユーザ識別情報が一致する先の検索クエリを抽出する検索クエリ抽出手段の一例として機能する。
 ユーザIDが一致する先の検索クエリが検索クエリログに存在する場合(ステップS42;YES)、関連語登録サーバ10は、受信時刻と先の検索クエリの受信時刻とが所定時間内か否かを判定する(ステップS43)。具体的には、関連語登録サーバ10のシステム制御部14は、受信した検索クエリの受信時刻と、先の検索クエリの受信時刻との差が、所定時間内(例えば、3秒~60秒の間)にある先の検索クエリを抽出する。そして、関連語登録サーバ10のシステム制御部14は、先の検索クエリを抽出できた場合、先の検索クエリが所定時間内であると判定し、抽出できない場合、所定時間内でないと判定する。
 ここで、所定時間内が、予め設定した検索クエリ抽出条件の一例である。これらのように、関連語登録サーバ10は、予め設定した検索クエリ抽出条件に基づいて、受信した検索クエリより受信時刻が早い先の検索クエリを、検索クエリ記憶手段から抽出する検索クエリ抽出手段の一例として機能する。また、関連語登録サーバ10は、検索クエリ抽出条件として、受信時刻が検索クエリの受信時刻から所定の時間内にある先の検索クエリを抽出する検索クエリ抽出手段の一例として機能する。
 受信時刻と先の検索クエリの受信時刻とが所定時間内である場合(ステップS43;YES)、関連語登録サーバ10は、受信した検索ワードと、受信時刻が一番近い先の検索ワードとの文字列組を記憶する(ステップS44)。具体的には、関連語登録サーバ10のシステム制御部14は、抽出した先の検索クエリのうち、受信した検索クエリを構成する検索ワードと、受信時刻が一番近い先の検索クエリを構成する検索ワードを選択し、これら先の検索ワードと受信した検索ワードとの文字列組を文字列組DB12dに記憶する。
 なお、関連語登録サーバ10のシステム制御部14は、予め設定した検索クエリ抽出条件の一例として、カテゴリ情報(例えば、トップカテゴリ)が一致した先の検索クエリに更に絞ってもよい。
 次に、関連語登録サーバ10は、ユーザIDおよび受信時刻と対応付けて検索クエリを検索クエリログに記憶する(ステップS45)。具体的には、関連語登録サーバ10のシステム制御部14は、カテゴリ情報、ユーザID(IPアドレスでもよい)および受信時刻と対応付けて検索クエリを検索クエリログDB12aに記憶する。また、ユーザIDが一致する先の検索クエリが検索クエリログに存在しない場合(ステップS42;NO)、や、受信時刻と先の検索クエリの受信時刻とが所定時間内でない場合(ステップS43;NO)も、関連語登録サーバ10のシステム制御部14は、ユーザIDおよび受信時刻と対応付けて検索クエリを検索クエリログDB12aに記憶する。
 このように関連語登録サーバ10は、抽出した先の検索クエリを構成する先の検索ワードと、受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段の一例として機能する。
 次に、情報提供サーバ20が商品の検索を行った後、検索結果として、図14に示すように、Webページ60の情報を、端末30に送信する。
 次に、端末30は、Webページ60の情報を情報提供サーバ20から受信し、表示部33に表示させる。
 ユーザAは、Webページ60の検索結果を見て、目的の商品がある場合は、商品表示欄63の商品をクリックするが、目的の商品がない場合は、さらに検索ワードを検索ワード入力欄61に入力し、検索ボタン62をクリックすると、端末30は、上述のように、検索ワード“▲▲ O■”とカテゴリ情報(”家電”)を含む検索クエリを情報提供サーバ20に送信する。そして、情報提供サーバ20は、この検索クエリを受信して、関連語登録サーバ10に送信し、検索を行う。関連語登録サーバ10は、上述のように、検索クエリを受信し(ステップS41)、ステップS42からステップS45の処理を行う。
 他のユーザB等からの検索クエリに対しても上述の処理が行われ、カテゴリ情報や、ユーザID毎やIPアドレス毎と共に受信時刻と対応付けられた検索クエリの検索クエリログが検索クエリログDB12aに生成され、文字列を集めた文字列組集合が文字列組DB12dに生成される。
(4.2 関連語の登録)
 次に、関連語の登録について、図15および図16を用いて説明する。
 まず、図15に示すように、関連語登録サーバ10は、抽出開始条件を満たしたか否かを判定する(ステップS50)。具体的には、関連語登録サーバ10のシステム制御部14は、抽出開始条件の一例として、検索クエリログDB12aにおける検索クエリログの検索クエリ数(総検索クエリ数)や、文字列組DB12dに記憶された文字列組集合の要素数(文字列組集合の総数)が、所定の閾値を超えた否かを判定する。また、関連語登録サーバ10のシステム制御部14は、前回この文字列組抽出開始条件を満たしてから所定の時間を経過したか否かを判定してもよい。
 抽出開始条件を満たした場合に(ステップS50;YES)、関連語登録サーバ10は、文字列組集合から先の検索ワードが同一である文字列組を抽出する(ステップS51)。具体的には、関連語登録サーバ10のシステム制御部14は、図16に示すように、文字列組DB12dから先の検索ワード71が同一(検索ワードが同一)である文字列組70を抽出する。抽出開始条件を満たしていない場合は(ステップS50;NO)、関連語登録の処理を終了する。
 なお、関連語登録サーバ10のシステム制御部14は、予め設定した文字列組抽出開始条件に応じて文字列組DB12dから先の検索ワードが類似である文字列組を抽出してもよい。検索ワード同士が類似であるとは、例えば、Jaro-Winkler距離、レーベンシュタイン距離等の文字列間の距離に基づく類似度の値が所定閾値以上の場合である。例えば、関連語登録サーバ10のシステム制御部14は、先の検索ワード71と類似である先の検索ワード”▼▼●”を有する文字列組も抽出する。
 このように関連語登録サーバ10は、予め設定した文字列組抽出開始条件に応じて、文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段の一例として機能する。
 次に、関連語登録サーバ10は、抽出した文字列組の総数が所定以上か否かを判定する(ステップS52)。具体的には、関連語登録サーバ10のシステム制御部14は、ある先の検索ワード71に関する文字列組の総数が所定以上(例えば、3以上)か否かを判定する。図16に示すように、先の検索ワード71に関する文字列組は、<先の検索ワード71―検索ワード71>の文字列組70、<先の検索ワード71―検索ワード72>の文字列組70、<先の検索ワード71―検索ワード73>の文字列組70の計3個ある。
 抽出した文字列組の総数が所定以上の場合(ステップS52;YES)、関連語登録サーバ10は、抽出した文字列組のうち登録条件を満たす文字列組があるか否かを判定する(ステップS53)。具体的には、関連語登録サーバ10のシステム制御部14は、登録条件の一例として、各文字列組70の数が所定の数以上(例えば、10以上)であるか否かを判定する。このように、関連語登録サーバ10のシステム制御部14は、先の検索ワード71が同一または類似である文字列組70において、同一または類似の検索ワード72、73、74を有する文字列組の数が、所定の閾値を超えたか否かを判定する。関連語登録サーバ10のシステム制御部14は、所定の閾値を超えた文字列組を関連語として特定する。なお、関連語登録サーバ10のシステム制御部14は、検索ワード73”▲▲▲”に類似する検索ワード”▲▲△”が存在するならば、同じ文字列組としてカウントしてもよい。
 このように関連語登録サーバ10は、予め設定した登録条件に基づいて、抽出した文字列組から関連語となる文字列組を特定する関連語特定手段の一例として機能する。また、関連語登録サーバ10は、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数が、所定の閾値を超えた場合に、当該文字列組を関連語として特定する関連語特定手段の一例として機能する。
 また、関連語登録サーバ10のシステム制御部14は、登録条件の一例として、先の検索ワード71が同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値(例えば80%)を超えた否かを判定してもよい。
 このように関連語登録サーバ10は、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定する関連語特定手段の一例として機能する。
 次に、登録条件を満たす文字列組がある場合(ステップS53;YES)、関連語登録サーバ10は、文字列組を関連語として登録する(ステップS54)。具体的には、関連語登録サーバ10のシステム制御部14は、図16に示すように、<先の検索ワード71―検索ワード71>の文字列組70は、3個(15%)で、<先の検索ワード71―検索ワード72>の文字列組70は、16個(80%)で、<先の検索ワード71―検索ワード73>の文字列組70は、1個(5%)であるので、<先の検索ワード71―検索ワード72>の文字列組70を、関連語として関連語DB12cに登録する。
 このように関連語登録サーバ10は、特定された文字列組を関連語として登録する関連語登録手段の一例として機能する。
 なお、登録条件を満たす文字列組がない場合(ステップS53;NO)、関連語登録サーバ10は、登録条件を満たさない文字列組が関連語DBに登録されているか否かを判定する(ステップS55)。具体的には、関連語登録サーバ10のシステム制御部14は、既に登録してある<先の検索ワード―検索ワード>の文字列組70の割合が、文字列組DB12dにおいて、減少して、所定の閾値(例えば80%)を切った否かを判定する。このようなことは、同一または類似の先の検索ワードを有する他の文字列組が増加した場合に発生する。
 登録条件を満たさない場合(ステップS55;YES)、関連語登録サーバ10は、登録条件を満たさない文字列組を関連語DBから削除する(ステップS56)。具体的には、関連語登録サーバ10のシステム制御部14は、既に登録されている文字列組の中から、登録条件を満たさない文字列組を関連語DB12cから削除する。
 ステップS54の後、関連語登録サーバ10は、全ての文字列組に対して抽出したか否かを判定する(ステップS57)。具体的には、関連語登録サーバ10のシステム制御部14は、文字列組DB12dの文字列組集合における全ての先の検索ワードに対して、ステップS51の文字列組の抽出処理を行ったか判定し、全ての文字列組に対して抽出していない場合(ステップS57;NO)、ステップS11に戻り、全ての文字列組に対して抽出している場合(ステップS57;YES)、関連語登録の処理を終了する。
 以上、本実施形態によれば、ユーザが入力した検索ワードの検索クエリを受信し、受信した検索クエリより時間的に先に取得した先の検索クエリを、予め設定した検索クエリ抽出条件に基づいて検索クエリログから抽出し、抽出した先の検索クエリの先の検索ワードと、受信した検索クエリの検索ワードと、を文字列組として文字列組DB12dに記憶し、予め設定した文字列組抽出開始条件を満たした際に、先の検索ワードが同一または類似である文字列組を抽出し、予め設定した登録条件を満たす抽出した文字列組を関連語として関連語DB12cに登録することにより、受信した検索クエリと検索クエリ抽出条件に基づいた先の検索クエリとの文字列組が文字列組抽出開始条件で一定量蓄積され、この蓄積された文字列組の中から登録条件を満たす文字列組を関連語として関連語DB12cに登録するため、関連語の精度を向上させることができる。
 また、関連語登録サーバ10が、ユーザ識別情報をさらに記憶し、検索クエリ抽出条件として、検索クエリを入力したユーザのユーザ識別情報が一致する先の検索クエリを抽出する場合、同一ユーザにおける文字列組が生成できるため、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、検索クエリ抽出条件として、受信時刻が検索クエリの受信時刻から所定の時間内にある先の検索クエリを抽出する場合、所定時間内にあり関連性が高い先の検索クエリを抽出できるため、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、カテゴリ情報をさらに記憶し、検索クエリ抽出条件として、カテゴリ情報に基づき、先の検索クエリを抽出する場合、カテゴリが同一または関連した検索ワード同士を文字列組にできるため、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、文字列組抽出開始条件として、文字列組集合の要素数が、所定の閾値を超えた場合に、文字列組を抽出すると、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数が、所定の閾値を超えた場合に、文字列組を関連語として登録すると、精度の高い文字列組を選択でき、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として登録すると、精度の高い文字列組を選択でき、関連語の精度をより向上させることができる。
 なお、関連語登録サーバ10が、ステップS51で、文字列組抽出開始条件として、検索クエリログDB12aにおける検索クエリ数が、所定の閾値を超えた場合に、文字列組を抽出してもよい。この場合、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。
 また、関連語登録サーバ10が、ステップS50において、文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、文字列組を抽出してもよい。この場合、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。
 さらに、関連語登録システムにおける第1および第2実施形態の動作を組み合わせて、関連語を登録してもよい。この場合、第1実施形態の動作のように、文字列同士の距離が考慮された関連語と、第2実施形態の動作のように、検索クエリが使用された順序が考慮された関連語と、が区別できるように、関連語DB12cの中に、関連語データベースが構築されてもよい。
 関連語データベースの活用方法として、例えば、まず、端末30において、「○▽」と入力されて検索が行われ場合、情報提供サーバ20が、関連語DB12cの中に第1実施形態の動作により構築された関連語データベースを参照して、図6に示すように、関連語として、”もしかして’○○▲’?”がWebページ40に表示される。次に、端末30において、”○○▲”が選択され検索が行なれた場合、情報提供サーバ20が、関連語DB12cの中に第2実施形態の動作により構築された関連語データベースを参照して、関連語として、”’・・・▲・’のことですか?”がWebページ40に表示されるようにしてもよい。
 なお、このように段階的に関連語を表示する代わりに、これらの関連語を同時に表示させてもよい。
 さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
 1:関連語登録システム
 10:関連語登録サーバ(関連語登録装置)
 12a:検索クエリログDB
 12b:関連語候補DB
 12c:関連語DB
 12d:文字列組DB
 20:情報提供サーバ(情報処理装置)
 22a:商品DB
 30:端末

Claims (20)

  1.  検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、
     ユーザが入力した検索ワードの検索クエリを受信する受信手段と、
     前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、
     前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、
     前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、
     前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、
     前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、
     前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、
     前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、
     を備えた関連語登録装置。
  2.  請求項1に記載の関連語登録装置において、
     前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成することを特徴とする関連語登録装置。
  3.  請求項1に記載の関連語登録装置において、
     前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成することを特徴とする関連語登録装置。
  4.  請求項1から請求項3のいずれか1項に記載の関連語登録装置において、
     前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする関連語登録装置。
  5.  請求項1から請求項4のいずれか1項に記載の関連語登録装置において、
     前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする関連語登録装置。
  6.  請求項1から請求項5のいずれか1項に記載の関連語登録装置において、
     前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする関連語登録装置。
  7.  請求項1から請求項6のいずれか1項に記載の関連語登録装置において、
     前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする関連語登録装置。
  8.  請求項1から請求項7のいずれか1項に記載の関連語登録装置において、
     内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする関連語登録装置。
  9.  請求項1から請求項8のいずれか1項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする関連語登録装置。
  10.  請求項1から請求項9のいずれか1項に記載の関連語登録装置において、
     前記受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段と、
     予め設定した検索クエリ抽出条件に基づいて、前記受信した検索クエリより受信順が早い先の検索クエリを、前記検索クエリ記憶手段から抽出する検索クエリ抽出手段と、
     前記抽出した先の検索クエリを構成する先の検索ワードと、前記受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段と、
     予め設定した文字列組抽出開始条件に応じて、前記文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段と、
     予め設定した登録条件に基づいて、前記抽出した文字列組から関連語となる文字列組を特定する関連語特定手段と、
     を更に備え、
     前記関連語登録手段が、前記特定された文字列組を関連語として関連語データベースに登録することを特徴とする関連語登録装置。
  11.  請求項10に記載の関連語登録装置において、
     前記検索クエリ記憶手段は、ユーザ識別情報をさらに記憶し、
     前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリを入力したユーザのユーザ識別情報が一致する前記先の検索クエリを抽出することを特徴とする関連語登録装置。
  12.  請求項10または請求項11に記載の関連語登録装置において、
     前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリの受信時刻から所定の時間内に受信した先の検索クエリを抽出することを特徴とする関連語登録装置。
  13.  請求項10から請求項12のいずれか1項に記載の関連語登録装置において、
     前記検索クエリ記憶手段は、カテゴリ情報をさらに記憶し、
     前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記カテゴリ情報に基づき、前記先の検索クエリを抽出することを特徴とする関連語登録装置。
  14.  請求項10から請求項13いずれか1項に記載の関連語登録装置において、
     前記文字列抽出手段が、前記文字列組抽出開始条件として、前記検索クエリ記憶手段における検索クエリ数が、または、前記文字列組集合の要素数が、所定の閾値を超えた場合に、前記文字列組を抽出することを特徴とする関連語登録装置。
  15.  請求項10から請求項13のいずれか1項に記載の関連語登録装置において、
     前記文字列抽出手段が、前記文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、前記文字列組を抽出することを特徴とする関連語登録装置。
  16.  請求項10から請求項15のいずれか1項に記載の関連語登録装置において、
     前記関連語特定手段が、前記登録条件として、前記先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数、または、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定することを特徴とする関連語登録装置。
  17.  請求項1から請求項16のいずれか1項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、
     前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、
     前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、
     を備えたことを特徴とする情報処理装置。
  18.  関連語を登録する関連語登録装置の関連語登録方法において、
     検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、
     ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、
     前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、
     前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、
     前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、
     前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、
     前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、
     前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、
     前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、
     を含む関連語登録方法。
  19.  コンピュータを、
     検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、
     ユーザが入力した検索ワードの検索クエリを受信する受信手段、
     前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、
     前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、
     前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、
     前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、
     前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、
     前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、
     前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させる関連語登録装置用プログラム。
  20.  コンピュータを、
     検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、
     ユーザが入力した検索ワードの検索クエリを受信する受信手段、
     前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、
     前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、
     前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、
     前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、
     前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、
     前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、
     前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させる関連語登録装置用のプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/075572 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体 WO2012063770A1 (ja)

Priority Applications (11)

Application Number Priority Date Filing Date Title
KR1020137015030A KR101361403B1 (ko) 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체
ES11839828.8T ES2577938T3 (es) 2010-11-10 2011-11-07 Dispositivo de registro de palabras relacionadas, dispositivo de procesamiento de información, método de registro de palabras relacionadas, programa para dispositivo de registro de palabras relacionadas, y medio de almacenamiento
BR122013013420-4A BR122013013420B1 (pt) 2010-11-10 2011-11-07 dispositivo e método de registro de palavra relacionada
KR1020137014718A KR101368594B1 (ko) 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체
CN201180053722.8A CN103201737B (zh) 2010-11-10 2011-11-07 关联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介质
US13/884,344 US8606565B2 (en) 2010-11-10 2011-11-07 Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
CA2817131A CA2817131C (en) 2010-11-10 2011-11-07 Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
JP2012533417A JP5101759B2 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
EP11839828.8A EP2639705B1 (en) 2010-11-10 2011-11-07 Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
BR112013011573-4A BR112013011573B1 (pt) 2010-11-10 2011-11-07 dispositivo e método de registro de palavra relacionada, sistema servidor e mídia de gravação legível por computador
US13/923,744 US8738366B2 (en) 2010-11-10 2013-06-21 Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010252325 2010-11-10
JP2010252326 2010-11-10
JP2010-252326 2010-11-10
JP2010-252325 2010-11-10

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/884,344 A-371-Of-International US8606565B2 (en) 2010-11-10 2011-11-07 Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
US13/923,744 Division US8738366B2 (en) 2010-11-10 2013-06-21 Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium

Publications (1)

Publication Number Publication Date
WO2012063770A1 true WO2012063770A1 (ja) 2012-05-18

Family

ID=46050916

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/075572 WO2012063770A1 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Country Status (9)

Country Link
US (2) US8606565B2 (ja)
EP (2) EP2650805B1 (ja)
JP (2) JP5101759B2 (ja)
KR (2) KR101368594B1 (ja)
CN (2) CN103279557B (ja)
BR (2) BR122013013420B1 (ja)
CA (2) CA2822273C (ja)
ES (2) ES2577938T3 (ja)
WO (1) WO2012063770A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106832A (ja) * 2012-11-29 2014-06-09 Nec Software Tohoku Ltd 情報提供装置及び情報提供方法
CN106407764A (zh) * 2016-09-30 2017-02-15 深圳天珑无线科技有限公司 信息生成方法及装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8606565B2 (en) 2010-11-10 2013-12-10 Rakuten, Inc. Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US10261994B2 (en) * 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
JP6068901B2 (ja) * 2012-09-26 2017-01-25 京セラ株式会社 情報端末、音声操作プログラムおよび音声操作方法
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams
JP6342678B2 (ja) * 2014-03-07 2018-06-13 クラリオン株式会社 関連データ生成装置、関連データ生成方法およびプログラム
GB2549240A (en) * 2015-01-06 2017-10-18 What3Words Ltd A method for suggesting one or more multi-word candidates based on an input string received at an electronic device
GB2535439A (en) * 2015-01-06 2016-08-24 What3Words Ltd A method for suggesting candidate words as replacements for an input string received at an electronic device
JP6621652B2 (ja) * 2015-11-18 2019-12-18 シャープ株式会社 電子機器、およびその制御方法
WO2018009369A1 (en) * 2016-07-06 2018-01-11 Mastercard International Incorporated Method and system for providing sales information and insights through a conversational interface
CN106528534A (zh) * 2016-11-09 2017-03-22 天津赛因哲信息技术有限公司 基于专有名词的关联词提取方法
US10719539B2 (en) * 2017-06-06 2020-07-21 Mastercard International Incorporated Method and system for automatic reporting of analytics and distribution of advice using a conversational interface
US11537644B2 (en) * 2017-06-06 2022-12-27 Mastercard International Incorporated Method and system for conversational input device with intelligent crowd-sourced options
JP6762678B2 (ja) 2018-03-27 2020-09-30 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP6947307B2 (ja) * 2018-07-25 2021-10-13 日本電信電話株式会社 解析装置、解析方法及び解析プログラム
JP7443667B2 (ja) * 2019-03-25 2024-03-06 カシオ計算機株式会社 検索装置、辞書検索プログラム、辞書検索方法
JP6780129B1 (ja) * 2019-03-27 2020-11-04 三菱電機ビルテクノサービス株式会社 設備機器情報収集システム
JP7256935B2 (ja) * 2019-09-02 2023-04-13 富士通株式会社 辞書作成装置及び辞書作成方法
CN111261165B (zh) * 2020-01-13 2023-05-16 佳都科技集团股份有限公司 车站名称识别方法、装置、设备及存储介质
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
JP7426302B2 (ja) * 2020-06-30 2024-02-01 日立建機株式会社 同義語生成装置、及び同義語生成プログラム
CN112818262B (zh) * 2021-01-28 2023-07-21 上海博泰悦臻网络技术服务有限公司 基于用户数据的地图poi搜索方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268035A (ja) 1999-03-12 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 意味辞書登録装置
JP2010231433A (ja) * 2009-03-26 2010-10-14 Fujitsu Ten Ltd 検索装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP3219386B2 (ja) * 1997-12-26 2001-10-15 松下電器産業株式会社 情報フィルタ装置及び情報フィルタ方法
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
DE19952769B4 (de) * 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
JP4342753B2 (ja) * 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
JP4226862B2 (ja) * 2002-08-29 2009-02-18 株式会社リコー 文書検索装置
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7657518B2 (en) * 2006-01-31 2010-02-02 Northwestern University Chaining context-sensitive search results
JP2008250625A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
CN100476800C (zh) * 2007-06-22 2009-04-08 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US8606565B2 (en) 2010-11-10 2013-12-10 Rakuten, Inc. Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268035A (ja) 1999-03-12 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 意味辞書登録装置
JP2010231433A (ja) * 2009-03-26 2010-10-14 Fujitsu Ten Ltd 検索装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP2639705A4 *
YU HIRATE ET AL.: "Keyword correction algorithm in keyword based search engine", DAI 2 KAI FORUM ON DATA ENGINEERING AND INFORMATION MANAGEMENT-DEIM 2010-RONBUNSHU, 9 June 2010 (2010-06-09), pages 1 - 8 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106832A (ja) * 2012-11-29 2014-06-09 Nec Software Tohoku Ltd 情報提供装置及び情報提供方法
CN106407764A (zh) * 2016-09-30 2017-02-15 深圳天珑无线科技有限公司 信息生成方法及装置

Also Published As

Publication number Publication date
JP2013008372A (ja) 2013-01-10
EP2639705A4 (en) 2014-01-08
CN103279557A (zh) 2013-09-04
KR20130080059A (ko) 2013-07-11
CN103279557B (zh) 2016-08-17
EP2650805A2 (en) 2013-10-16
EP2650805B1 (en) 2017-08-30
US20130346391A1 (en) 2013-12-26
CA2822273A1 (en) 2012-05-18
BR122013013420A2 (pt) 2019-08-06
KR20130083468A (ko) 2013-07-22
BR112013011573B1 (pt) 2021-01-12
BR122013013420B1 (pt) 2020-11-10
US8738366B2 (en) 2014-05-27
ES2577938T3 (es) 2016-07-19
KR101368594B1 (ko) 2014-02-27
JP5101759B2 (ja) 2012-12-19
BR112013011573A2 (pt) 2016-08-09
ES2642379T3 (es) 2017-11-16
US20130226563A1 (en) 2013-08-29
EP2650805A3 (en) 2014-01-08
KR101361403B1 (ko) 2014-02-11
CA2822273C (en) 2014-09-23
US8606565B2 (en) 2013-12-10
EP2639705B1 (en) 2016-04-13
CN103201737B (zh) 2016-06-29
CA2817131A1 (en) 2012-05-18
JP5170804B2 (ja) 2013-03-27
CN103201737A (zh) 2013-07-10
CA2817131C (en) 2014-08-26
JPWO2012063770A1 (ja) 2014-05-12
EP2639705A1 (en) 2013-09-18

Similar Documents

Publication Publication Date Title
JP5170804B2 (ja) 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
US10783156B1 (en) Scoring candidate answer passages
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US10691679B2 (en) Providing query completions based on data tuples
US9990442B2 (en) Method for determining relevant search results
US9317606B1 (en) Spell correcting long queries
JP6506489B1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
EP2720156B1 (en) Information processing device, information processing method, program for information processing device, and recording medium
JP2017045196A (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
TWI529546B (zh) Information processing apparatus, information processing method and recording medium
JP4839295B2 (ja) クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
JP2007188134A (ja) 索引ファイルを用いた文書検索の方法
WO2012052983A1 (en) Method for scoring and ranking search engine keywords at a website
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
JP2013109514A (ja) 関連ワード表示制御装置、関連ワード表示方法、及びプログラム
JP2009277154A (ja) 情報検索装置及び情報検索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11839828

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012533417

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 2817131

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 13884344

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20137014718

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011839828

Country of ref document: EP

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013011573

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112013011573

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130509