WO2020235135A1 - 対話システム - Google Patents

対話システム Download PDF

Info

Publication number
WO2020235135A1
WO2020235135A1 PCT/JP2020/002402 JP2020002402W WO2020235135A1 WO 2020235135 A1 WO2020235135 A1 WO 2020235135A1 JP 2020002402 W JP2020002402 W JP 2020002402W WO 2020235135 A1 WO2020235135 A1 WO 2020235135A1
Authority
WO
WIPO (PCT)
Prior art keywords
key
extension
acquisition
unit
expansion
Prior art date
Application number
PCT/JP2020/002402
Other languages
English (en)
French (fr)
Inventor
昂宗 橋本
友理子 尾▲崎▼
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to US17/611,299 priority Critical patent/US20220237214A1/en
Priority to JP2021520044A priority patent/JP7320058B2/ja
Publication of WO2020235135A1 publication Critical patent/WO2020235135A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Definitions

  • the present invention relates to a dialogue system that interacts with a user.
  • Patent Document 1 the output of answers to questions written in natural sentences is controlled to avoid the risk of selecting answers that do not match the intent of the customer's question, and the narrowing down of answers is efficiently processed. There is a description about the question and answer control program to do.
  • the dialogue system of the present invention is a dialogue system that presents a response content based on an input sentence from a user, a key acquisition unit that acquires an acquisition key from the input sentence, and the input sentence. From the candidate acquisition unit that acquires a key candidate word that is a character string other than the acquisition key, the extension unit that acquires a plurality of extension candidates related to the key candidate word, and the input sentence from the plurality of extension candidates. It is provided with a narrowing-down unit for determining an extension key according to the purpose of the above, and a search unit for searching the response contents based on the acquisition key and the expansion key.
  • the present invention it is possible to search by expanding from a plurality of extension candidates to an appropriate keyword. Therefore, it is possible to prevent searching for the response content that does not match the purpose, and it is possible to reduce the number of dialogues.
  • FIG. 1 is a block diagram showing the functions of the dialogue system 100 of the present embodiment.
  • the dialogue system 100 is a system that interactively responds to a sentence input by the user.
  • the dialogue system 100 in the present embodiment functions as an FAQ system, and based on a sentence input by the user, performs a dialogue process (presentation of search results and instructions for the search result) and asks a question sentence and its answer desired by the user.
  • a dialogue process presentation of search results and instructions for the search result
  • the dialogue system 100 includes a sentence acquisition unit 101, a key acquisition unit 102, a candidate acquisition unit 103, an extension unit 104, a narrowing unit 105, a domain acquisition unit 106, a question sentence DB 107, a key DB 108, and a relationship. It includes a DB 109, a search unit 110, a presentation unit 111, an update unit 112, and a history DB 113. Each DB may be owned by the dialogue system 100, or may be held by another server such as a DB server.
  • the text acquisition unit 101 is a portion that acquires text transmitted from the user terminal via the network. On the user terminal, the user inputs a sentence by operating a keyboard or the like. In the present embodiment, the sentence acquisition unit 101 acquires text information as a sentence.
  • the dialogue system 100 may be provided with a keyboard or the like so that the user can directly input a sentence.
  • the key acquisition unit 102 divides the acquired input sentence into word units by performing predetermined natural language processing such as morphological analysis, and the divided one or a plurality of words are registered in the key DB 108.
  • the part that acquires the key that matches the key as one or more acquisition keys.
  • a search key obtained by morphological analysis of a question sentence in advance is described.
  • the candidate acquisition unit 103 acquires a characteristic word that was not treated as an acquisition key from the input sentence as a key candidate word. That is, the candidate acquisition unit 103 acquires a key that is not registered in the key DB 108 as a key candidate word among one or a plurality of words obtained by morphological analysis by the key acquisition unit 102.
  • the extension unit 104 is a part that acquires a plurality of extension candidates based on the key candidate word. For example, the extension unit 104 acquires a plurality of extension candidates based on fluctuations in key candidate words, synonyms, synonyms, and the like.
  • the expansion unit 104 stores fluctuations, synonyms, and synonyms for each word in advance, and can use these to acquire a plurality of expansion candidates.
  • the narrowing unit 105 determines one expansion key from a plurality of expansion candidates.
  • the narrowing-down unit 105 refers to at least one of the question sentence DB 107, the key DB 108, the relationship DB 109, and the history DB 113, and determines an extension key according to the purpose of the input sentence from a plurality of extension candidates. To do. Detailed processing for narrowing down a plurality of extension candidates to one extension key will be described later.
  • the domain acquisition unit 106 is a part that refers to the key DB 108, acquires the domain of the acquisition key, and acquires another key (other than the acquisition key) corresponding to the acquired domain.
  • a domain is defined in advance for each key.
  • the search unit 110 refers to the question sentence DB 107 based on the acquisition key and the extension key, and searches for the question sentence and its answer as needed.
  • the presentation unit 111 is a part that presents the searched question text and the answer to the user as needed, and accepts the approval or disapproval.
  • the presentation unit 111 presents to the user by transmitting the question text or the like to the user terminal.
  • the presentation unit 111 may present the user by displaying a question sentence or the like.
  • the update unit 112 is a part that registers or updates the relationship between the key candidate word and the extension candidate in the relationship DB 109 based on whether or not the user can accept the question text received by the presentation unit 111. That is, the update unit 112 counts the number of times the key candidate word and the extension candidate are exchanged for the search by replacing the key candidate word included in the input sentence with one of the extension candidates (extension key), and the search is performed. The number of replacements is registered or updated in the relationship DB 109.
  • the question text DB 107 is a database that stores the question text, the search key, and the answer to the question text in association with each other.
  • FIG. 2A is a diagram showing a specific example thereof. In this figure, a plurality of search keys are associated with the question text.
  • the search unit 110 searches for the question text corresponding to the previously acquired acquisition key and extension key and the respective search keys.
  • the question text DB 107 may further associate a domain (category) with respect to the question text (see FIG. 2B), or may associate a domain with the answer associated with the question text.
  • the search key stored in the interrogative sentence DB 107 is a word obtained by morphologically analyzing the interrogative sentence in advance.
  • the key DB 108 is a database that stores a key (word) and a domain in association with each other.
  • FIG. 2C is a diagram showing a specific example thereof.
  • the domain means a category, but may include other meanings.
  • This key DB 108 shows the relationship between the key and the domain. Multiple domains may be linked to one key.
  • the key stored in the key DB 108 is a word obtained by morphological analysis of the question sentence in advance, like the search key stored in the question sentence DB 107.
  • the relationship DB 109 is a database that stores the relationships of the acquired key, the key candidate word, and the extended key in the past search in association with each other. Acquired keys, key candidate words, and extended keys are associated and stored according to the user's search log. The acquisition key is not always essential.
  • 2 (d) and 2 (e) are diagrams showing specific examples of the relationship DB 109.
  • the key candidate word, the extension candidate (that is, the extension key), and the number of exchanges from the acquisition key to the question sentence are stored in association with each other. This indicates that the more replacements there are, the more important the expansion candidates are.
  • the history DB 113 is a part that stores the history information associated with the input sentence, the acquisition key, the key candidate word, the extension candidate, and the reached question sentence input by the user (see FIG. 2 (f)). Since this history DB 113 is used for totaling the number of simultaneous appearances of the acquisition key and the extension candidate, which will be described later, at least the association between the acquisition key and the extension candidate may be stored.
  • FIG. 3 is a diagram schematically showing an extension candidate acquisition process using a specific input sentence.
  • the sentence acquisition unit 101 acquires the input sentence "mail cannot be sent”. Then, the key acquisition unit 102 acquires the acquisition key "mail" by performing morphological analysis. On the other hand, the candidate acquisition unit 103 acquires the key candidate word "cannot be sent” excluding the acquisition key from the input text.
  • the expansion unit 104 acquires the fluctuations, synonyms, synonyms, etc., such as “not delayed”, “cannot be transmitted”, and “cannot be delivered” as expansion candidates based on "cannot be sent".
  • the narrowing-down unit 105 determines an expansion key according to the purpose of the input sentence from these three expansion candidates.
  • FIG. 4 is a diagram schematically showing the question text presentation process.
  • the search unit 110 refers to the question sentence DB 107 and searches for the question sentences 1 to 3 based on the acquisition key and, if necessary, the extension key.
  • the presentation unit 111 presents the searched question sentences 1 to 3 (answers thereof if necessary) to the user.
  • the presentation unit 111 may present all of the question sentences 1 to 3 to the user, or may present one of the question sentences. In addition, the user may be asked the validity of the presented question.
  • the question sentence 1 is searched based on the acquisition key "email”
  • the question sentence 2 is searched based on the acquisition key "email” and the extension key "cannot be sent”
  • the question sentence 3 is the acquisition key.
  • the priority of the presentation may be changed, such as placing the question text by the extension key higher than the question text by other extension candidates.
  • the question sentence 1 is displayed at the top because it is not a search using the extended key. Since the question sentence 2 is a search based on the extended key, it is displayed below it.
  • Question sentence 3 is displayed at the bottom because it is a search using one of the extension candidates that did not become an extension key.
  • the display order is not limited to this and should be set according to the service status.
  • FIG. 5 is a diagram showing a key candidate determination process using a key included in a question sentence candidate.
  • the narrowing-down unit 105 acquires the question sentence candidates “mail cannot be sent”, “mail error”, and “mail is malfunctioning” in response to the input sentence “mail cannot be sent”. This acquisition process is performed based on the match between the search key (see FIG. 2A) in each question sentence candidate and the acquisition key.
  • a question sentence candidate may be acquired based on a document vector of an input sentence by a document classifier of a known technique.
  • the narrowing-down unit 105 performs morphological analysis on the acquired question sentence candidates, and acquires the keys included in the question sentence candidates as one or more related keys. Then, the narrowing-down unit 105 uses an extension candidate that matches the related key as an extension key.
  • the narrowing-down unit 105 determines the expansion candidate “transmission impossible” as the expansion key because the expansion candidate “transmission impossible” matches the related key “transmission impossible”.
  • FIG. 6 is a diagram showing processing based on the domain of the acquisition key.
  • the input sentence, the acquisition key, the key candidate word, and the extension candidate are the same as the description in FIG.
  • the narrowing-down unit 105 acquires the domain corresponding to the acquisition key or the interrogative text with reference to the key DB 108.
  • the narrowing-down unit 105 refers to the key DB 108 (see FIG. 2C) to acquire the domain “mail-related” of the acquisition key “mail”. Then, the narrowing unit 105 further refers to the key DB 108 to acquire another key corresponding to the domain “mail-related”.
  • the narrowing-down unit 105 acquires the related key “transmission not possible”. Note that FIG. 6B shows processing based on the domain of one acquisition key, but the present invention is not limited to this.
  • the domain with the largest number from the domain of each acquisition key may be used as the domain for the input text.
  • the narrowing-down unit 105 may acquire the question sentence candidate and acquire the domain of the question sentence candidate by referring to the question sentence DB 107 (see FIG. 2B).
  • the narrowing unit 105 determines this extension candidate "cannot be transmitted” as the extension key.
  • the domain associated with the largest number of acquisition keys may be determined based on the number of matching acquisition keys in the key DB 108.
  • a priority may be set for the acquisition key itself, and the domain may be determined according to the priority.
  • FIG. 7 is a diagram showing processing based on the search result obtained by adding each of the plurality of extension candidates.
  • the input sentence, acquisition key, key candidate word, and extension candidate in FIG. 7A are the same as those in FIG.
  • the search unit 110 performs a search process based on the acquisition key and each extension candidate.
  • the search unit 110 performs a search process using the acquisition key “mail” and the extension candidate “not late” (pronounced “okurenai” in Japanese), the acquisition key “mail” and the extension candidate “mail”.
  • a search process using "cannot be sent” and a search process using the acquisition key "mail” and the extension candidate "cannot be delivered” are performed.
  • the search unit 110 acquires the number of remaining question sentences as a result of performing each search.
  • the number of remaining question sentences indicates the number of question sentence candidates obtained by the search.
  • the number of remaining question sentences is 0 based on the acquisition key "email” and the extension candidate "not late (pronounced” okurenai "in Japanese)", and the acquisition key "email".
  • 5 cases are acquired as the number of cases based on the extension candidate "cannot be sent", and 1 case is acquired as the number of cases based on the acquisition key "mail” and the extension candidate "delivery not possible”.
  • the narrowing down unit 105 determines the extension candidate "cannot send", which has the largest number of remaining question sentences, as the extension key.
  • the narrowing-down unit 105 may determine the expansion key from the expansion candidates based on the score of each expansion candidate calculated by a predetermined method instead of the number of remaining question sentences.
  • a predetermined method includes a score by a document classifier. For example, the narrowing-down unit 105 calculates the first-ranked score for each expansion candidate. In FIG. 7B, the remaining 5 question sentences are associated with the extension candidate “cannot be transmitted”. Scores are calculated by the classifier for each of these five interrogative candidates.
  • the classifier is similar to each question sentence candidate searched using each of the extension candidates and the input sentence for each extension candidate, and each target character string combined with the input sentence while exchanging each extension candidate. Calculate the degree as a score. That is, the score is calculated based on the degree of similarity between each question sentence candidate, the input sentence, and each extension candidate. Then, the score of the question sentence candidate having the highest degree of similarity with each input sentence is set as the first score.
  • the narrowing-down unit 105 determines an expansion key from a plurality of expansion candidates based on the score of the first place.
  • the classifier may include each question sentence candidate searched by the search unit 110 using the input sentence "mail cannot be sent” and the extension candidate "send not possible", and the input sentence "mail cannot be sent” and the extension candidate ".
  • the similarity with the target character string consisting of "cannot be transmitted” is calculated as a score, and the highest similarity is set as the first score. Then, some of these calculation processes are performed for each expansion candidate, and the expansion key is determined from the expansion candidates based on the score of the first place among the calculated scores.
  • the highest score (1st place score) of the calculated score is the 1st place score for the expansion candidate "cannot be transmitted".
  • the first-ranked score for each expansion candidate is calculated.
  • the score of the first place cannot be calculated for the extension candidate "not late (pronounced” okurenai "in Japanese)", but for the extension candidate "cannot send",
  • the 1st place score is 0.89
  • the 1st place score is 0.34 for the expansion candidate "Delivery not possible”. Therefore, the extension candidate "cannot be transmitted” with a score of 0.89 in the first place is used as the extension key. In this way, the extension key can be determined from the extension candidates based on the ranking of the question sentence candidate list.
  • FIG. 8 is a diagram showing processing based on the relationship of the acquired key, the key candidate word, and the extended candidate in the past history.
  • the input text, the acquisition key, the key candidate word, and the extension candidate are the same as those described in FIG.
  • Input sentences, acquisition keys, key candidate words, and expansion candidates (extension keys) are described in the history DB as search history of all users, and the narrowing unit 105 refers to the history DB 113 and acquires in the past. Get the number of cases where the key and the extension candidate (extension key) appear at the same time.
  • the number of replacements of the extension candidate (extension key) indicated by the relationship 2 is the number of times the key candidate word is input when the sentence is input and when the question sentence is reached (when the user finally obtains the question sentence). Shows the number of cases that have been replaced.
  • the key candidate word "cannot be sent" obtained at the time of inputting a sentence may be replaced with the extended candidate "cannot be sent” to obtain a question sentence.
  • the key candidate word is replaced with the extension candidate (extension key) and the frequency at which the question text is obtained is defined as the number of replacements.
  • the degree of relevance is a numerical value obtained by calculating each numerical value of relationship 1 to relationship 3 according to a predetermined formula. For example, it is obtained by dividing the total value of the numerical values of each extension candidate (extension key) shown in the relationship 1 to the relationship 3 by the total total value.
  • the method for calculating the degree of relevance is not limited to this, and various methods can be considered.
  • the replacement count condition is that the target keys have a one-to-one relationship. That is, it is necessary that the acquisition key and the extension candidate (extension key) correspond to each one. Furthermore, the relationship with the acquisition key (dependency, sentence structure, etc.) may be the same.
  • the update unit 112 updates the number of exchanges between the keys of the relationship DB 109 when the exchange condition is satisfied. Taking FIG. 3D as an example, in the relation DB 109, the key candidate word “cannot be sent” and the extension candidate “cannot be sent” are associated with each other. The update unit 112 increases the number of replacements by one. Further, when considering the acquisition key, the update unit 112 may increase the number of exchanges of the key candidate word and the extension candidate (extension key) corresponding to the acquisition key "mail" by one (relationship 3). ..
  • relationship DB 109 may describe information aggregated for each domain instead of the key alone.
  • the relationship DB 109 may be provided with a domain column, and the number of replacements may be totaled within the range of the domain "mail-related".
  • relationships 1 to 3 may be aggregated by distinguishing them by one user unit, user attribute unit (age, gender, etc.), overall, and the like.
  • the narrowing-down unit 105 determines an expansion key from a plurality of expansion candidates based on the relationships 1 to 3 for each expansion candidate and the degree of relevance.
  • the extension candidate having the largest number of predetermined relationships among the relationships 1 to 3 may be used as the extension key, or the extension key may be determined based only on the degree of relevance.
  • the distance between the acquired key and each extension candidate word, or the distance between the key candidate word and each extension candidate word may be used.
  • the narrowing unit 105 may determine the expansion key based on this distance.
  • FIG. 9 is a flowchart showing the processing of the dialogue system 100.
  • the sentence acquisition unit 101 acquires the input sentence input by the user operation (S101).
  • the key acquisition unit 102 acquires an acquisition key from the input text (S102).
  • the candidate acquisition unit 103 acquires the key candidate word (S103).
  • the expansion unit 104 acquires expansion candidates for the key candidate word (S104).
  • the narrowing-down unit 105 determines one key according to the purpose of the input sentence as the expansion key from the expansion candidates (S105).
  • the search unit 110 searches for the question text using the acquisition key and the extension key (S106).
  • the presentation unit 111 presents the searched question text (and its answer, if necessary) to the user (S107). If necessary, the dialogue system 100 asks the user about the validity of the searched question text, and when the user receives an instruction that the question text is valid, the question text and the question text are received. Present the answer.
  • the update unit 112 updates the relationship DB 109 (S109).
  • the dialogue system 100 is a system that presents a question sentence candidate which is a response content based on an input sentence from a user and an answer as needed.
  • the sentence acquisition unit 101 acquires an input sentence from the user terminal.
  • the key acquisition unit 102 acquires an acquisition key from the input text.
  • the candidate acquisition unit 103 acquires a key candidate word that is a character string other than the acquisition key from the input sentence.
  • the extension unit 104 acquires a plurality of extension candidates related to the key candidate word, such as fluctuations, synonyms, and similar words.
  • the narrowing-down unit 105 determines an expansion key according to the purpose of the input sentence from a plurality of expansion candidates. The response content is searched based on the acquisition key and the extension key.
  • the dialogue system 100 uses the question text DB 107, which is a response content storage unit for storing the search key and the response content (question text and its answer), and the response content (question text) from the question text DB 107 using the acquisition key and the extension key.
  • a search unit 110 for acquiring (and answers) is further provided.
  • the narrowing-down unit 105 refers to the question sentence DB 107, and among the plurality of extension candidates, a plurality of extensions based on the related key included in the question sentence (or the answer thereof if necessary). Determine the extension key from the candidates.
  • the dialogue system 100 refers to the key DB 108 and the key DB 108, which are domain storage units for storing the keyword which is a text word and the domain, and acquires the domain based on the acquisition key, and acquires the domain in the domain. It includes a domain acquisition unit 106 that acquires a keyword associated with the key as a related key. The narrowing-down unit 105 determines an expansion key from a plurality of expansion candidates based on the related key.
  • the search unit 110 performs a search together with the acquisition key while exchanging each of the plurality of expansion candidates. Then, the narrowing unit 105 acquires the number of search results based on the response content obtained by the search, and determines the expansion key from the expansion candidates based on the number of search results.
  • the extension key can be determined based on the number of search results. For example, an extension candidate with a large number of search results is considered to be a keyword that meets the input purpose.
  • the narrowing-down unit 105 exchanges each extension candidate with a question sentence candidate searched using each of the extension candidates and an input sentence, and each target in which each extension candidate is exchanged with an input sentence.
  • the extension key is determined from a plurality of extension candidates based on the similarity with each of the character strings.
  • the dialogue system 100 further includes a history DB 113 as a history storage unit that stores history information including an acquisition key and an extension candidate acquired based on an input sentence input in the past.
  • the narrowing-down unit 105 determines an expansion key from a plurality of expansion candidates based on the acquisition key and the number of simultaneous appearances in the history information of each of the plurality of expansion candidates.
  • the extension key can be determined based on the past history information acquisition key and the extension candidate.
  • the fact that the acquired key and the extension candidate are used for the search at the same time can be considered to be related to each other, and an appropriate extension key suitable for the search purpose. Is considered to be.
  • the dialogue system 100 stores relationship information indicating the relationship between the key candidate word and the extension candidate, which is generated when the key candidate word is replaced with the extension candidate and the question sentence is reached from the input sentence.
  • the relationship DB 109 as a sexual memory unit is further provided. Then, the narrowing-down unit 105 determines an expansion key from a plurality of expansion candidates based on the relationship information.
  • this relationship is closely related to the fact that the question text is reached based on the keyword that became the extension key from the key candidate word through the extension candidate.
  • the degree of closeness can be measured. Therefore, determining the extension key based on this relationship becomes an extension key according to the purpose of the input sentence, and enables a search according to the purpose.
  • the relationship DB 109 further associates and stores an acquisition key as information indicating the relationship. Then, the narrowing-down unit 105 determines the expansion key from a plurality of expansion candidates based on the relationship information associated with the acquisition key.
  • the dialogue system 100 further includes a presentation unit 111 that presents a plurality of response contents.
  • the presentation unit 111 controls the presentation order of the question text obtained by using the extension key to be lower than the other response contents.
  • each functional block may be realized by using one device that is physically or logically connected, or directly or indirectly (for example, by using two or more physically or logically separated devices). , Wired, wireless, etc.) and may be realized using these plurality of devices.
  • the functional block may be realized by combining the software with the one device or the plurality of devices.
  • Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption.
  • broadcasting notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but only these. I can't.
  • a functional block that functions transmission is called a transmitting unit (transmitting unit) or a transmitter (transmitter).
  • transmitting unit transmitting unit
  • transmitter transmitter
  • the dialogue system 100 in one embodiment of the present disclosure may function as a computer that processes the dialogue method of the present disclosure.
  • FIG. 10 is a diagram showing an example of the hardware configuration of the dialogue system 100 according to the embodiment of the present disclosure.
  • the above-mentioned dialogue system 100 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the word “device” can be read as a circuit, device, unit, etc.
  • the hardware configuration of the dialogue system 100 may be configured to include one or more of the devices shown in the figure, or may be configured not to include some of the devices.
  • the processor 1001 For each function in the dialogue system 100, by loading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, the processor 1001 performs an operation and controls communication by the communication device 1004, or the memory 1002. And by controlling at least one of reading and writing of data in the storage 1003.
  • predetermined software program
  • the processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with peripheral devices, a control device, an arithmetic unit, a register, and the like.
  • CPU Central Processing Unit
  • the above-mentioned key acquisition unit 102, candidate acquisition unit 103, expansion unit 104, narrowing unit 105, domain acquisition unit 106, search unit 110, and the like may be realized by the processor 1001.
  • the processor 1001 reads a program (program code), a software module, data, etc. from at least one of the storage 1003 and the communication device 1004 into the memory 1002, and executes various processes according to these.
  • a program program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
  • the key acquisition unit 102, the candidate acquisition unit 103, the expansion unit 104, the narrowing unit 105, the domain acquisition unit 106, and the search unit 110 of the dialogue system 100 are stored in the memory 1002 and realized by a control program that operates in the processor 1001. It may be realized, and other functional blocks may be realized in the same manner.
  • the various processes described above are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
  • Processor 1001 may be implemented by one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, or the like that can be executed in order to carry out the interactive method according to the embodiment of the present disclosure.
  • the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, a magneto-optical disk (for example, a compact disk, a digital versatile disk, or a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium described above may be, for example, a database, server or other suitable medium containing at least one of memory 1002 and storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for communicating between computers via at least one of a wired network and a wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the communication device 1004 includes, for example, a high frequency switch, a duplexer, a filter, a frequency synthesizer, and the like in order to realize at least one of frequency division duplex (FDD: Frequency Division Duplex) and time division duplex (TDD: Time Division Duplex). It may be composed of.
  • FDD Frequency Division Duplex
  • TDD Time Division Duplex
  • It may be composed of.
  • the above-mentioned sentence acquisition unit 101, presentation unit 111, and the like may be realized by the communication device 1004.
  • the text acquisition unit 101 and the presentation unit 111 may be physically or logically separated from each other, or may be implemented as one device.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • each device such as the processor 1001 and the memory 1002 is connected by the bus 1007 for communicating information.
  • the bus 1007 may be configured by using a single bus, or may be configured by using a different bus for each device.
  • the dialogue system 100 includes hardware such as a microprocessor, a digital signal processor (DSP: Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured, and the hardware may realize a part or all of each functional block. For example, processor 1001 may be implemented using at least one of these hardware.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the input / output information and the like may be stored in a specific location (for example, memory) or may be managed using a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
  • the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
  • Software is an instruction, instruction set, code, code segment, program code, program, subprogram, software module, whether called software, firmware, middleware, microcode, hardware description language, or another name.
  • Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, features, etc. should be broadly interpreted to mean.
  • software, instructions, information, etc. may be transmitted and received via a transmission medium.
  • a transmission medium For example, a website that uses at least one of wired technology (coaxial cable, fiber optic cable, twist pair, digital subscriber line (DSL: Digital Subscriber Line), etc.) and wireless technology (infrared, microwave, etc.) When transmitted from a server, or other remote source, at least one of these wired and wireless technologies is included within the definition of transmission medium.
  • data, instructions, commands, information, signals, bits, symbols, chips, etc. may be voltage, current, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
  • a channel and a symbol may be a signal (signaling).
  • the signal may be a message.
  • the component carrier CC: Component Carrier
  • CC Component Carrier
  • system and “network” used in this disclosure are used interchangeably.
  • MS Mobile Station
  • UE User Equipment
  • Mobile stations can be subscriber stations, mobile units, subscriber units, wireless units, remote units, mobile devices, wireless devices, wireless communication devices, remote devices, mobile subscriber stations, access terminals, mobile terminals, wireless, depending on the trader. It may also be referred to as a terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable term.
  • determining and “determining” used in this disclosure may include a wide variety of actions.
  • “Judgment” and “decision” are, for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigation (investigating), search (looking up, search, inquiry). It may include (eg, searching in a table, database or another data structure), ascertaining as “judgment” or “decision”.
  • judgment and “decision” are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access. (Accessing) (for example, accessing data in memory) may be regarded as “judgment” or “decision”.
  • judgment and “decision” mean that “resolving”, “selecting”, “choosing”, “establishing”, “comparing”, etc. are regarded as “judgment” and “decision”. Can include. That is, “judgment” and “decision” may include that some action is regarded as “judgment” and “decision”. Further, “judgment (decision)” may be read as “assuming”, “expecting”, “considering” and the like.
  • connection means any direct or indirect connection or connection between two or more elements, and each other. It can include the presence of one or more intermediate elements between two “connected” or “combined” elements.
  • the connection or connection between the elements may be physical, logical, or a combination thereof.
  • connection may be read as "access”.
  • the two elements use at least one of one or more wires, cables and printed electrical connections, and, as some non-limiting and non-comprehensive examples, the radio frequency domain. Can be considered to be “connected” or “coupled” to each other using electromagnetic energies having wavelengths in the microwave and light (both visible and invisible) regions.
  • the term "A and B are different” may mean “A and B are different from each other”.
  • the term may mean that "A and B are different from C”.
  • Terms such as “separate” and “combined” may be interpreted in the same way as “different”.
  • 100 ... Dialogue system, 101 ... Sentence acquisition unit, 102 ... Key acquisition unit, 103 ... Candidate acquisition unit, 104 ... Expansion unit, 105 ... Narrowing unit, 106 ... Domain acquisition unit, 107 ... Question text DB, 108 ... Key DB , 109 ... Relationship DB, 110 ... Search unit, 111 ... Presentation unit, 112 ... Update unit, 113 ... History DB.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

適切なキーワードの拡張を行うことができる対話システムを提供することを目的とする。 対話システム100は、ユーザからの入力文章に基づいて応答内容である質問文候補および必要に応じてその回答を提示するシステムである。文章取得部101は、ユーザ端末から入力文章を取得する。キー取得部102は、入力文章から取得キーを取得する。候補取得部103は、入力文章から、取得キー以外の文字列であるキー候補ワードを取得する。拡張部104は、キー候補ワードに関連する複数の拡張候補、例えば、ゆらぎ、類義語、類似語を取得する。絞込部105は、複数の拡張候補から、入力文章の目的に則した拡張キーを決定する。検索部110は、取得キーおよび拡張キーに基づいて応答内容の検索を行う。

Description

対話システム
 本発明は、ユーザと対話を行う対話システムに関する。
 下記特許文献1には、自然文で記述された質問への回答の出力を制御し、顧客の質問の意図に合致しない回答を選択するリスクを回避することや、回答の絞り込みを効率的に処理するための質問回答制御プログラムについての記載がある。
特開2015-36945号公報
 特許文献1に記載されているキーワードベースでの検索処理を行う技術においては、ユーザの入力から適切にキーワードを取得するために、キーワードを拡張することが重要である。すなわち、キーワードのゆらぎ、同義語、類義語を管理することが重要である。
 キーワードを拡張する候補として、システムが持つ全てのキーワードに拡張することが考えられるが、拡張候補が複数あった場合、目的に合致しない応答内容に導かれてしまうという問題が考えられる。
 そこで、上述の問題を解決するために、本発明は、適切なキーワードの拡張を行うことができる対話システムを提供することを目的とする。
 上述の課題を解決するために、本発明の対話システムは、ユーザからの入力文章に基づいて応答内容を提示する対話システムにおいて、前記入力文章から取得キーを取得するキー取得部と、前記入力文章から、前記取得キー以外の文字列であるキー候補ワードを取得する候補取得部と、前記キー候補ワードに関連する複数の拡張候補を取得する拡張部と、前記複数の拡張候補から、前記入力文章の目的に則した拡張キーを決定する絞込部と、前記取得キーおよび前記拡張キーに基づいて応答内容の検索を行う検索部と、を備える。
 この発明によれば、複数の拡張候補から適切なキーワードに拡張して検索することができる。したがって、目的に合致しない応答内容を検索することを防止することができ、対話回数を削減することができる。
 本発明によると、適切なキーワードに拡張して検索することができ、対話回数の削減を図ることができる。
本実施形態の対話システム100の機能を示すブロック図である。 質問文DB、キーDB、関係性DBの具体例を示す図である。 具体的な入力文章を用いて、拡張候補の取得処理を模式的に示した図である。 質問文の提示処理を模式的に示した図である。 質問文の候補に含まれるキーを用いたキー候補決定処理を示す図である。 取得キーのドメインに基づいた処理を示した図である。 複数の拡張候補のそれぞれを追加して検索した検索結果に基づいた処理を示した図である。 取得キー、キー候補ワード、および拡張候補の、過去の履歴における関係性に基づいた処理を示す図である。 対話システム100の処理を示すフローチャートである。 本開示の一実施の形態に係る対話システム100のハードウェア構成の一例を示す図である。
 添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
 図1は、本実施形態の対話システム100の機能を示すブロック図である。この対話システム100は、ユーザにより入力された文章に対して対話応答するシステムである。本実施形態における対話システム100は、FAQシステムとして機能し、ユーザにより入力された文章に基づいて、対話処理(検索結果の提示およびそれに対する指示)をしながらユーザが希望する質問文およびその回答を提示する。
 図1に示されるとおり、対話システム100は、文章取得部101、キー取得部102、候補取得部103、拡張部104、絞込部105、ドメイン取得部106、質問文DB107、キーDB108、関係性DB109、検索部110、提示部111、更新部112および履歴DB113を含んで構成されている。なお、各DBは、対話システム100が有してもよいし、DBサーバなど別のサーバが保持してもよい。
 文章取得部101は、ユーザ端末からネットワークを介して送信された文章を取得する部分である。ユーザ端末においては、ユーザがキーボードなどを操作することにより文章を入力する。本実施形態では、文章取得部101は、文章として、テキスト情報を取得する。なお、対話システム100にキーボード等を備え、ユーザが直接文章を入力することとしてもよい。
 キー取得部102は、取得された入力文章を形態素解析など所定の自然言語処理を行うことにより、単語単位に文章を分割し、分割された一または複数の単語から、キーDB108に登録されているキーと一致するキーを、一または複数の取得キーとして取得する部分である。キーDB108には、あらかじめ質問文を形態素解析などをして得られた検索キーが記述されている。
 候補取得部103は、入力された文章から取得キーとして扱われなかった特徴的な単語をキー候補ワードとして取得する。すなわち、候補取得部103は、キー取得部102により形態素解析して得られた一または複数の単語のうち、キーDB108に登録されていないキーをキー候補ワードとして取得する。
 拡張部104は、キー候補ワードに基づいて、複数の拡張候補を取得する部分である。例えば、拡張部104は、キー候補ワードのゆらぎ、同義語、類義語などに基づいて、複数の拡張候補を取得する。拡張部104は、予め単語ごとのゆらぎ、同義語、類義語を記憶しており、これを利用して複数の拡張候補を取得することができる。
 絞込部105は、複数の拡張候補から、一の拡張キーを決定する。本実施形態では、絞込部105は、質問文DB107、キーDB108、関係性DB109および履歴DB113の少なくとも一つを参照して、複数の拡張候補から、入力文章の目的に則した拡張キーを決定する。複数の拡張候補から一の拡張キーに絞り込む詳細処理については、後述する。
 ドメイン取得部106は、キーDB108を参照して、取得キーのドメインを取得し、取得したドメインに対応する他のキー(取得キー以外)を取得する部分である。キーDB108には、キーごとにドメインが、あらかじめ定義づけられている。
 検索部110は、取得キーと、拡張キーとに基づいて、質問文DB107を参照して、質問文および必要に応じてその回答を検索する。
 提示部111は、検索した質問文および必要に応じてその回答をユーザに提示して、その可否を受け付ける部分である。提示部111は、ユーザ端末に対してその質問文等を送信することにより、ユーザに提示する。提示部111は、質問文等を表示することでユーザに提示してもよい。
 更新部112は、提示部111が受け付けた質問文に対するユーザの可否に基づいて、キー候補ワードと拡張候補との関係性を、関係性DB109に登録または更新する部分である。すなわち、更新部112は、入力文章に含まれるキー候補ワードから、拡張候補の一つ(拡張キー)に入れ替わって検索されたことを、キー候補ワードと拡張候補との入れ替わり回数を計数し、その入れ替わり回数を関係性DB109に登録または更新する。
 質問文DB107は、質問文、検索キー、質問文に対する回答を対応付けて記憶するデータベースである。図2(a)は、その具体例を示す図である。この図においては、複数の検索キーが、質問文に対応付けられている。検索部110は、先に取得した、取得キーおよび拡張キーと、それぞれ一致する検索キーに対応する質問文を検索する。なお、質問文DB107は、さらに質問文に対するドメイン(カテゴリ)を対応付けてもよい(図2(b)参照)し、また質問文に対応付けられている回答にドメインを対応付けてもよい。質問文DB107に記憶されている検索キーは、事前に質問文を形態素解析することにより得られた単語である。
 キーDB108は、キー(単語)とドメインとを対応付けて記憶するデータベースである。図2(c)は、その具体例を示す図である。本実施形態においては、ドメインとはカテゴリを意味するが、その他の意味を含んでもよい。このキーDB108は、キーとドメインとの関連を示している。一のキーに複数のドメインが紐付いていてもよい。キーDB108に記憶されているキーは、質問文DB107に記憶されている検索キーと同様に、事前に質問文を形態素解析して得られた単語である。
 関係性DB109は、過去検索における、取得キー、キー候補ワード、および拡張キーのそれぞれの関係性を対応付けて記憶するデータベースである。ユーザによる検索ログにしたがって、取得キー、キー候補ワード、および拡張キーを対応付けて記憶する。なお、取得キーは必ずしも必須ではない。
 図2(d)および図2(e)は、関係性DB109の具体例を示す図である。図に示されるように、キー候補ワードと、拡張候補(すなわち拡張キー)と、取得キーから質問文に到達に至ったその入れ替わり回数とを対応付けて記憶している。これは、入れ替わりが多いほど、その拡張候補が重要であることを示す。
 履歴DB113は、ユーザから入力された入力文章、取得キー、キー候補ワード、拡張候補、到達した質問文を対応付けた履歴情報を記憶する部分である(図2(f)参照)。この履歴DB113は、後述する取得キーと拡張候補との同時出現数を集計するために用いられるため、少なくとも取得キーと、拡張候補との対応付けを記憶していればよい。
 つぎに、このように構成された対話システム100における処理を模式的に説明する。図3は、具体的な入力文章を用いて、拡張候補の取得処理を模式的に示した図である。
 文章取得部101は、入力文章「メールが送れない」を取得する。そして、キー取得部102は、形態素解析を行うことにより、取得キー「メール」を取得する。一方、候補取得部103は、入力文章から取得キーを除いたキー候補ワード「送れない」を取得する。
 拡張部104は、「送れない」に基づいて、そのゆらぎ、同義語、類義語などである「遅れない」「送信不可」「配達不可」を、拡張候補として、取得する。絞込部105は、これら3つの拡張候補から、入力文章の目的に則した拡張キーを決定する。
 ところで、図3において、「遅れない」が拡張候補として提示されている。「遅れない」は、日本語では“okurenai”と発音され、「送れない」(日本語では“okurenai”と発音)の同音異義語である。本実施形態においては、このような同音異義語の拡張候補が提示される場合がある。以降の例示においても同様である。
 図4は、質問文の提示処理を模式的に示した図である。検索部110は、質問文DB107を参照して、取得キーおよび必要に応じて拡張キーに基づいて、質問文1~3を検索する。提示部111は、検索した質問文1~3(必要に応じてその回答)をユーザに提示する。提示部111は、質問文1~3の全てをユーザに提示してもよいし、そのうちの一つの質問文を提示してもよい。また、ユーザに対して、提示した質問の妥当性を問うてもよい。
 図4では、質問文1は、取得キー「メール」に基づいて検索され、質問文2は、取得キー「メール」および拡張キー「送信不可」に基づいて検索され、質問文3は、取得キー「メール」および拡張キー「遅れない」(日本語では“okurenai”と発音される)に基づいて検索されることを示す。なお、拡張キーによって検索された質問文については、その提示の優先度を下げることが考えられる。例えば、表示順位を下にするなどである。
 また、拡張候補が複数取得された場合には、拡張キーによる質問文を、他の拡張候補による質問文より上位にするなど、その優先度を提示の優先度を変えてもよい。例えば、図4においては、質問文1は、拡張キーを用いた検索ではないため、最上位に表示されている。質問文2は、拡張キーに基づいた検索であることから、その下に表示されている。質問文3は、拡張キーとはならなかった拡張候補の一つを用いた検索であることから、最下位に表示される。なお、表示順については、これに限らずサービス状況に合わせて設定されるのがよい。
 つぎに、複数の拡張候補から拡張キーを決定する処理について詳細に説明する。図5は、質問文の候補に含まれるキーを用いたキー候補決定処理を示す図である。
 図5(a)において、入力文章、取得キー、キー候補ワード、および拡張候補については、図3における説明と同じである。図5(b)においては、絞込部105は、入力文章「メールが送れない」に対して、質問文候補「メールが送信不可」「メールのエラー」「メールが動作不良」を取得する。この取得処理は、各質問文候補における検索キー(図2(a)参照)と、取得キーとの一致に基づいて行われる。なお、公知技術の文書分類器により、入力文章の文書ベクトルに基づいて、質問文候補が取得されてもよい。
 そして、絞込部105は、取得された質問文候補に対して形態素解析を行い、質問文候補に含まれるキーを、一または複数の関連キーとして取得する。そして、絞込部105は、関連キーと一致する拡張候補を拡張キーとする。
 図5においては、絞込部105は、拡張候補「送信不可」が、関連キー「送信不可」と一致するため、拡張候補「送信不可」を拡張キーとして決定する。
 つぎに、拡張候補から拡張キーを決定する他の処理について説明する。図6は、取得キーのドメインに基づいた処理を示した図である。図6(a)において、入力文章、取得キー、キー候補ワード、および拡張候補については、図3における説明と同じである。
 図6(b)において、絞込部105は、取得キーまたは質問文に対応するドメインを、キーDB108を参照して、取得する。図6においては、絞込部105は、キーDB108を参照して(図2(c)参照)、取得キー「メール」のドメイン「メール関連」を取得する。そして、絞込部105は、さらに、キーDB108を参照して、ドメイン「メール関連」に対応する他のキーを取得する。図6(b)では、絞込部105は、関連キー「送信不可」を取得する。なお、図6(b)においては、一つの取得キーのドメインに基づいた処理を示すが、これに限るものではない。複数の取得キーがあった場合には、それぞれの取得キーのドメインから最も数が多いドメインを入力文章に対するドメインとしてもよい。図5のように絞込部105は、質問文候補を取得し、その質問文候補のドメインを、質問文DB107(図2(b)参照))を参照することにより取得してもよい。
 絞込部105は、関連キー「送信不可」と、拡張候補「送信不可」とが一致するため、この拡張候補「送信不可」を拡張キーとして決定する。
 取得キーが複数あった場合のドメインの決定処理は、キーDB108における取得キーの一致数に基づいて、最も多くの取得キーに関連付けられているドメインを決定してもよい。また、取得キー自体に優先度を設定しておき、その優先度に従って、ドメインを決定してもよい。
 つぎに、拡張候補から拡張キーを決定する別の処理について説明する。図7は、複数の拡張候補のそれぞれを追加して検索した検索結果に基づいた処理を示した図である。図7(a)の入力文章、取得キー、キー候補ワード、および拡張候補については、図3における説明と同じである。
 検索部110は、取得キーと、各拡張候補とに基づいて検索処理を行う。図7(b)において、検索部110は、取得キー「メール」と拡張候補「遅れない」(日本語では“okurenai”と発音)とを用いた検索処理、取得キー「メール」と拡張候補「送信不可」とを用いた検索処理、および取得キー「メール」と拡張候補「配達不可」とを用いた検索処理のそれぞれを行う。そして、検索部110は、それぞれの検索を行った結果として、残り質問文数を取得する。残り質問文数は、検索によって得られた質問文候補の件数を示す。
 図7(b)においては、残り質問文数として、取得キー「メール」と拡張候補「遅れない(日本語では“okurenai”と発音)」とに基づいた件数として0件、取得キー「メール」と拡張候補「送信不可」とに基づいた件数として5件、および取得キー「メール」と拡張候補「配達不可」とに基づいた件数として1件が取得される。
 絞込部105は、この残り質問文数の数が一番多い拡張候補「送信不可」を拡張キーとして決定する。
 なお、絞込部105は、残り質問文数に代えて、所定の方法で算出した各拡張候補のスコアに基づいて、拡張候補から拡張キーを決定してもよい。所定の方法としては、文書分類器によるスコアなどがある。例えば、絞込部105は、拡張候補ごとに、1位のスコアを算出する。図7(b)においては、拡張候補「送信不可」に対して、残り質問文数5件が紐付けられている。この5件の質問文候補のそれぞれに対して分類器によるスコアがそれぞれ算出される。
 分類器は、拡張候補ごとに、当該拡張候補のそれぞれと入力文章とを用いて検索した各質問文候補と、各拡張候補を入替えながら入力文章と組合せた各対象文字列のそれぞれ、との類似度をスコアとして算出する。すなわち、スコアは、各質問文候補と、入力文章および各拡張候補との類似度に基づいて算出される。そして、各入力文章との間で最も類似度が高い質問文候補のスコアを、1位のスコアとする。絞込部105は、その1位のスコアに基づいて、複数の拡張候補から拡張キーを決定する。
 例えば、分類器は、入力文章「メールが送れない」と拡張候補「送信不可」とを用いて検索部110により検索された各質問文候補と、入力文章「メールが送れない」および拡張候補「送信不可」からなる対象文字列と、の類似度をスコアとして算出し、そのうち最も高い類似度を1位のスコアとする。そして、この算出処理を、拡張候補ごとにいくつかおこない、それぞれ算出されたスコアのうち1位のスコアに基づいて、拡張候補から拡張キーが決定される。
 図7(b)においては、算出されたスコアの最も高いスコア(1位のスコア)が、拡張候補「送信不可」に対する1位のスコアとなる。それぞれ拡張候補ごとに行うことにより、拡張候補ごとの1位のスコアが算出される。図7においては、拡張候補「遅れない(日本語では“okurenai”と発音)」に対しては、1位のスコアは算出不能となっているが、拡張候補「送信不可」に対しては、1位のスコア0.89、拡張候補「配達不可」に対しては、1位のスコア0.34が算出される。よって、1位のスコア0.89の拡張候補「送信不可」を拡張キーとする。このように、質問文候補リストのランキングを元に拡張候補から拡張キーを決定することができる。
 つぎに、拡張候補から拡張キーを決定するさらに別の処理について説明する。図8は、取得キー、キー候補ワード、および拡張候補の、過去の履歴における関係性に基づいた処理を示す図である。入力文章、取得キー、キー候補ワード、および拡張候補については、図3における説明と同じである。
 図8においては、過去の履歴における関係性として、以下の4つを例示している。
 ・取得キーと拡張候補との同時出現件数(関係性1)
・全体における拡張候補(拡張キー)の入れ替わり件数(関係性2)
・取得キーごとに区分したときの拡張候補の入れ替わり件数(関係性3)
・上記関係性1~関係性3を総合的に算出した関連度
 関係性1で示される、取得キーと拡張候補(拡張キー)との同時出現件数とは、例えば、履歴DB113における検索履歴において、取得キー「メール」、拡張候補(拡張キー)「遅れない」(日本語では“okurenai”と発音)が同時に出現した件数を示す。図8においては、その件数は1である。履歴DBには、全ユーザの検索履歴として、入力文章、取得キー、キー候補ワード、拡張候補(拡張キー)が記述されており、絞込部105は、履歴DB113を参照して、過去に取得キーと拡張候補(拡張キー)とが同時に出現した件数を取得する。
 また、関係性2で示される、拡張候補(拡張キー)の入れ替わり件数とは、キー候補ワードが、文章入力時と質問文到達時(最終的にユーザが質問文として取得したとき)とにおいて、入れ替わった件数を示す。例えば、文章入力時で得たキー候補ワード「送れない」は、拡張候補「送信不可」に入れ替わることで、質問文が取得される場合がある。このように、最終的な質問文に到達した際に、キー候補ワードが、拡張候補(拡張キー)に入れ替わって質問文が得られた頻度を、入れ替わり件数とする。
 また、関係性3は、関係性2に、取得キーを考慮したものである。
 また、関連度は、関係性1~関係性3の各数値を所定の計算式に従って算出した数値である。例えば、関係性1~関係性3に示される各拡張候補(拡張キー)の数値の合算値を、全体の総計値で除算することにより得られる。関連度の算出方法は、これに限らず種々の方法が考えられる。
 入れ替わりのカウント条件としては、対象のキーが1対1の関係となっていることである。すなわち、取得キーと、拡張候補(拡張キー)とが1体1に対応付いていることが必要である。なお、さらに、取得キーとの関係性(係り受け、文章構造等)が同一であることとしてもよい。
 更新部112は、入れ替わり条件を満たした場合に、関係性DB109のキー同士の入れ替わり回数を更新する。図3(d)を例にとると、関係性DB109において、キー候補ワード「送れない」と拡張候補「送信不可」とが対応付けられている。更新部112は、その入れ替わり回数を1つ増加させる。また、更新部112は、取得キーを考慮する場合には、取得キー「メール」に対応したキー候補ワード、拡張候補(拡張キー)の入れ替わり回数を1つ増加させてもよい(関係性3)。
 なお、上述関係性DB109は、キー単独ではなく、ドメイン単位で集計した情報を記述してもよい。例えば、関係性DB109に、ドメイン欄を設け、ドメイン「メール関連」の範囲において、入れ替わり回数を集計してもよい。
 また、関係性1~関係性3について、一のユーザ単位、ユーザの属性単位(年齢、性別など)、全体などで区別して、集計してもよい。
 絞込部105は、拡張候補ごとの関係性1~関係性3、および関連度に基づいて、複数の拡張候補から拡張キーを決定する。関係性1~3のうち予め定めた関係性の件数が最も大きい拡張候補を拡張キーとしてもよいし、関連度のみに基づいて拡張キーを決定してもよい。
 また、関係性として、上記に代えて、取得キーと各拡張候補とのワード間の距離、キー候補ワードと各拡張候補とのワード間の距離としてもよい。絞込部105は、この距離に基づいて拡張キーを決定してもよい。
 つぎに、本実施形態の対話システム100の動作について説明する。図9は、対話システム100の処理を示すフローチャートである。
 文章取得部101は、ユーザ操作により入力された入力文章を取得する(S101)。キー取得部102は、入力文章から取得キーを取得する(S102)。候補取得部103は、キー候補ワードを取得する(S103)。拡張部104は、キー候補ワードの拡張候補を取得する(S104)。
 絞込部105は、拡張候補から、入力文章の目的に則した一のキーを拡張キーとして決定する(S105)。検索部110は、取得キーおよび拡張キーを用いて質問文の検索を行う(S106)。提示部111は、ユーザに対して検索した質問文(および必要に応じてその回答)を提示する(S107)。なお、必要に応じて、対話システム100は、ユーザに対して検索した質問文の妥当性を問い、ユーザによりその質問文が妥当である旨の指示を受け付けた場合には、その質問文とその回答とを提示する。
 更新部112は、質問文およびその回答の検索が終了すると(S108)、関係性DB109の更新を行う(S109)。
 つぎに、本実施形態の対話システム100の作用効果について説明する。この対話システム100は、ユーザからの入力文章に基づいて応答内容である質問文候補および必要に応じてその回答を提示するシステムである。文章取得部101は、ユーザ端末から入力文章を取得する。キー取得部102は、入力文章から取得キーを取得する。候補取得部103は、入力文章から、取得キー以外の文字列であるキー候補ワードを取得する。
 拡張部104は、キー候補ワードに関連する複数の拡張候補、例えばゆらぎ、同義語、類似語などを取得する。絞込部105は、複数の拡張候補から、入力文章の目的に則した拡張キーを決定する。取得キーおよび拡張キーに基づいて応答内容の検索が行われる。
 この構成により、システムがもつ全てのキーワードに拡張することによる目的に合致しない応答内容(質問文等)に導くといった課題を解決することができる。したがって、無駄な対話を繰り返すことを防止し、対話システムの処理負荷を軽減することができる。ユーザ端末が対話システム100とネットワークを介して対話する場合には、そのネットワークのトラフィックを軽減することもできる。
 この対話システム100は、検索キーおよび応答内容(質問文およびその回答)を記憶する応答内容記憶部である質問文DB107と、取得キーおよび拡張キーを使って、質問文DB107から応答内容(質問文および回答)を取得する検索部110と、をさらに備える。
 この構成により、入力文章から得た取得キーおよび拡張キーを用いた検索を可能にする。
 この対話システム100において、絞込部105は、質問文DB107を参照して、複数の拡張候補のうち、質問文(または必要に応じてその回答)に含まれる関連キーに基づいて、複数の拡張候補から、拡張キーを決定する。
 この構成により、入力文章の目的に応じた適切な拡張キーを追加することができる。すなわち、応答内容である質問文に含まれているキーは、その入力文章の目的に密接に関連すると考えられる。よって、適切なキーワードの拡張を可能にする。
 この対話システム100は、テキスト単語であるキーワードと、ドメインとを記憶するドメイン記憶部であるキーDB108と、キーDB108を参照して、取得キーに基づいてドメインを取得するとともに、当該ドメインに、取得キーとは別に対応付けられているキーワードを、関連キーとして取得するドメイン取得部106と、を備える。絞込部105は、関連キーに基づいて、複数の拡張候補から拡張キーを決定する。
 この構成により、単語のカテゴリなどを示すドメインに基づいた拡張キーを決定することができる。したがって、入力文章のドメイン(カテゴリ)に対応した拡張キーを決定することになり、それを用いた検索を可能にする。
 この対話システム100において、検索部110により、複数の拡張候補のそれぞれを入替えながら、取得キーとともに検索が行われる。そして、絞込部105は、その検索により得た応答内容に基づいた検索結果数を取得し、その検索結果数に基づいて拡張候補から拡張キーを決定する。
 この構成により、検索結果数に基づいた拡張キーを決定することができる。例えば、検索結果数が多い拡張候補は、その入力目的に則したキーワードであると考えられる。
 この対話システム100において、絞込部105は、各拡張候補を入れ替えながら当該拡張候補のそれぞれと入力文章とを用いて検索した質問文候補と、各拡張候補を入替えながら入力文章と組合せた各対象文字列のそれぞれとの類似度に基づいて、複数の拡張候補から拡張キーを決定する。
 この構成により、いわゆる文書分類器によるスコアに従った拡張キーを決定することができ、入力文章の目的に則した拡張キーを決定することができる。
 この対話システム100は、過去に入力された入力文章に基づいて取得された、取得キーと拡張候補とを含む履歴情報を記憶する履歴記憶部としての履歴DB113をさらに備える。絞込部105は、取得キーと、複数の拡張候補それぞれとの履歴情報における同時出現件数に基づいて、複数の拡張候補から拡張キーを決定する。
 この構成により、過去の履歴情報の取得キーと拡張候補とに基づいて拡張キーを決定することができる。過去の履歴において、同時に取得キーと、拡張候補とが同時に検索に用いられる(すなわち同時出現数)ことは、相互に関連しているものと考えることができ、検索目的に適した適切な拡張キーであると考えられる。
 この対話システム100は、キー候補ワードから拡張候補に入れ替わって、入力文章から質問文に到達した場合に生成される、当該キー候補ワードと拡張候補との関係性を示す関係性情報を記憶する関係性記憶部としての関係性DB109をさらに備える。そして、絞込部105は、関係性情報に基づいて、複数の拡張候補から拡張キーを決定する。
 この関係性は、キー候補ワードから拡張候補を経て拡張キーとなったキーワードに基づいて質問文に到達したということは、その関係性は密接であると考えられる。このような関係性を有するキー候補ワードと拡張候補(拡張キー)との検索頻度を集計することで、その密接度合いを計ることができる。したがって、この関係性に基づいて拡張キーを決定することは、入力文章の目的に則した拡張キーとなり、その目的に則した検索を可能にする。
 対話システム100において、関係性DB109は、関係性を示す情報として、さらに取得キーを対応付けて記憶する。そして、絞込部105は、取得キーに対応付けられている関係性情報に基づいて、複数の拡張候補から拡張キーを決定する。
 この構成により、取得キーとの関係性をみることで、より適切な拡張キーを決定できる。
 対話システム100は、複数の応答内容を提示する提示部111をさらに備える。提示部111は、拡張キーを使って得られた質問文については、その提示順位を、他の応答内容より下げる制御を行う。
 拡張キーによる検索結果は、推定したものとなることから、その提示順位を下げることが、望ましいと考えられる。
 上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本開示の一実施の形態における対話システム100などは、本開示の対話方法の処理を行うコンピュータとして機能してもよい。図10は、本開示の一実施の形態に係る対話システム100のハードウェア構成の一例を示す図である。上述の対話システム100は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対話システム100のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 対話システム100における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述のキー取得部102,候補取得部103、拡張部104、絞込部105、ドメイン取得部106、検索部110などは、プロセッサ1001によって実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対話システム100のキー取得部102,候補取得部103、拡張部104、絞込部105、ドメイン取得部106、検索部110は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る対話方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の文章取得部101,提示部111などは、通信装置1004によって実現されてもよい。文章取得部101,提示部111は、物理的に、または論理的に分離された実装がなされてもよいし、一つのデバイスとして実装がなされてもよい。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
 また、対話システム100は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
 本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
 本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及びシンボルの少なくとも一方は信号(シグナリング)であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア(CC:Component Carrier)は、キャリア周波数、セル、周波数キャリアなどと呼ばれてもよい。
 本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
 本開示においては、「移動局(MS:Mobile Station)」、「ユーザ端末(user terminal)」、「ユーザ装置(UE:User Equipment)」、「端末」などの用語は、互換的に使用され得る。
 移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。
 本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
 「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
 本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
 本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
 本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
 本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
 100…対話システム、101…文章取得部、102…キー取得部、103…候補取得部、104…拡張部、105…絞込部、106…ドメイン取得部、107…質問文DB、108…キーDB、109…関係性DB、110…検索部、111…提示部、112…更新部、113…履歴DB。

Claims (10)

  1.  ユーザからの入力文章に基づいて応答内容を提示する対話システムにおいて、
     前記入力文章から取得キーを取得するキー取得部と、
     前記入力文章から、前記取得キー以外の文字列であるキー候補ワードを取得する候補取得部と、
     前記キー候補ワードに関連する複数の拡張候補を取得する拡張部と、
     前記複数の拡張候補から、前記入力文章の目的に則した拡張キーを決定する絞込部と、
     前記取得キーおよび前記拡張キーに基づいて応答内容の検索を行う検索部と、
    を備える、対話システム。
  2.  検索キーおよび応答内容を記憶する応答内容記憶部を備え、
    前記検索部は、前記取得キーおよび前記拡張キーを使って、前記応答内容記憶部から応答内容を取得する、
    請求項1に記載の対話システム。
  3.  前記絞込部は、前記応答内容記憶部を参照して、前記複数の拡張候補のうち、応答内容に含まれる関連キーに基づいて、前記複数の拡張候補から、拡張キーを決定する、
    請求項2に記載の対話システム。
  4.  キーワードと、ドメインとを記憶するドメイン記憶部と、
     前記ドメイン記憶部を参照して、前記取得キーに基づいてドメインを取得するとともに、当該ドメインに、前記取得キーとは別に対応付けられているキーワードを関連キーとして取得するドメイン取得部と、
    を備え、
     前記絞込部は、前記関連キーに基づいて、前記複数の拡張候補から拡張キーを決定する、
    請求項1または2に記載の対話システム。
  5.  前記絞込部は、前記複数の拡張候補のそれぞれを入替えながら、前記取得キーとともに検索を行って得られた応答内容に基づいた検索結果数を取得し、その検索結果数に基づいて拡張候補から拡張キーを決定する、
    請求項1または2に記載の対話システム。
  6.  前記絞込部は、各拡張候補を入れ替えながら当該拡張候補のそれぞれと入力文章とを用いて検索した応答内容と、各拡張候補を入替えながら入力文章と組合せた各対象文字列のそれぞれとの類似度に基づいて、前記複数の拡張候補から拡張キーを決定する、
    請求項1または2に記載の対話システム。
  7.  過去に入力された入力文章に基づいて取得された、取得キーと拡張候補とを含む履歴情報を記憶する履歴記憶部をさらに備え、
     前記絞込部は、前記取得キーと、前記複数の拡張候補それぞれと、の前記履歴情報における同時出現件数に基づいて、前記複数の拡張候補から拡張キーを決定する、請求項1または2に記載の対話システム。
  8.  前記キー候補ワードから前記拡張候補に入れ替わって、前記入力文章から前記応答内容に到達した場合に生成される、当該キー候補ワードと拡張候補との関係性を示す関係性情報を記憶する関係性記憶部をさらに備え、
     前記絞込部は、前記関係性情報に基づいて、前記複数の拡張候補から拡張キーを決定する、
    請求項1または2に記載の対話システム。
  9.  前記関係性記憶部は、関係性を示す情報として、さらに取得キーを対応付けて記憶し、
     前記絞込部は、前記取得キーに対応付けられている前記関係性情報に基づいて、複数の拡張候補から拡張キーを決定する、
    請求項8に記載の対話システム。
  10.  複数の応答内容を提示する提示部をさらに備え、
     前記提示部は、前記拡張キーを使って得られた応答内容については、その提示順位を、他の応答内容より下げる、
    請求項1~9のいずれか一項に記載の対話システム。
PCT/JP2020/002402 2019-05-20 2020-01-23 対話システム WO2020235135A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/611,299 US20220237214A1 (en) 2019-05-20 2020-01-23 Interactive system
JP2021520044A JP7320058B2 (ja) 2019-05-20 2020-01-23 対話システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-094532 2019-05-20
JP2019094532 2019-05-20

Publications (1)

Publication Number Publication Date
WO2020235135A1 true WO2020235135A1 (ja) 2020-11-26

Family

ID=73459393

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002402 WO2020235135A1 (ja) 2019-05-20 2020-01-23 対話システム

Country Status (3)

Country Link
US (1) US20220237214A1 (ja)
JP (1) JP7320058B2 (ja)
WO (1) WO2020235135A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004320A1 (ja) * 2022-06-30 2024-01-04 有限会社Bond 教育装置、教育方法及び記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278982A (ja) * 1995-04-05 1996-10-22 Fuji Electric Co Ltd 類似語または類似文章の検索方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953718A (en) * 1997-11-12 1999-09-14 Oracle Corporation Research mode for a knowledge base search and retrieval system
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
JP5340491B2 (ja) * 2010-11-10 2013-11-13 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム
KR101192439B1 (ko) * 2010-11-22 2012-10-17 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
JP5542729B2 (ja) * 2011-04-13 2014-07-09 日本電信電話株式会社 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
US8762389B1 (en) * 2012-02-02 2014-06-24 Google Inc. Synonym identification based on search quality
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
US10546012B2 (en) * 2014-06-27 2020-01-28 Shutterstock, Inc. Synonym expansion
KR102254329B1 (ko) * 2014-10-27 2021-05-21 삼성에스디에스 주식회사 사용자 맞춤형 검색 결과 제공 방법 및 장치
CN109960749B (zh) * 2019-02-22 2021-04-06 清华大学 模型获取方法、关键词生成方法、装置、介质及计算设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278982A (ja) * 1995-04-05 1996-10-22 Fuji Electric Co Ltd 類似語または類似文章の検索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUKUCHI, DAISUKE ET AL.: "Discovery of Meaning Similarity Query for Web Searches Based on Q&A Corpus Learning", DEIM FORUM 2017 BL-2 (15TH ANNUAL MEETING OF THEDATABASE SOCIETY OF JAPAN), 27 February 2017 (2017-02-27), Retrieved from the Internet <URL:http://db-event.jpn.org/deim2017/papers/201.pdf> [retrieved on 20170706] *
KANEKO, YASUFUMI ET AL.: "Detecting Search Intention by Analyzing Relationship between Keywords with Relaxation Value and an Interface for Inputting Keywords", JOURNAL OF THE DBSJ, vol. 7, no. 1, 27 June 2008 (2008-06-27), pages 181 - 186, ISSN: 1883-1060 *
NISHIMURA, RYO: "Flexible Matching of User Query Expanded Using Similar Predicates", IPSJ SIG TECHNICAL REPORT, vol. 2006, no. 124, 22 November 2006 (2006-11-22), pages 25 - 32, ISSN: 0919-6072 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004320A1 (ja) * 2022-06-30 2024-01-04 有限会社Bond 教育装置、教育方法及び記録媒体

Also Published As

Publication number Publication date
JPWO2020235135A1 (ja) 2020-11-26
JP7320058B2 (ja) 2023-08-02
US20220237214A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
US20210286949A1 (en) Dialogue system
US20210312919A1 (en) Conversation device
WO2020235135A1 (ja) 対話システム
JP6976448B2 (ja) 機械翻訳制御装置
JP7054731B2 (ja) 対話システム
JP2021124913A (ja) 検索装置
JP7043593B2 (ja) 対話サーバ
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
WO2020235136A1 (ja) 対話システム
JP6980404B2 (ja) 表示順序提示装置および表示順序提示方法
US11914601B2 (en) Re-ranking device
JPWO2019187463A1 (ja) 対話サーバ
JP7490670B2 (ja) 検索装置
KR102351264B1 (ko) 사용자 맞춤형 신간 도서 정보의 제공 방법 및 그 시스템
WO2023007921A1 (ja) 時系列データ処理装置
JP6976447B2 (ja) 機械翻訳制御装置
WO2023007922A1 (ja) 情報処理装置
WO2022044923A1 (ja) 情報処理装置
JP7339148B2 (ja) 検索支援装置
JP6895580B2 (ja) 対話システム
JP7477359B2 (ja) 文章作成装置
WO2021157254A1 (ja) 解析装置
US20230015324A1 (en) Retrieval device
JP2021149297A (ja) 株式銘柄推薦装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20810573

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021520044

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20810573

Country of ref document: EP

Kind code of ref document: A1