WO2019098185A1 - 発話文生成システム及び発話文生成プログラム - Google Patents

発話文生成システム及び発話文生成プログラム Download PDF

Info

Publication number
WO2019098185A1
WO2019098185A1 PCT/JP2018/041958 JP2018041958W WO2019098185A1 WO 2019098185 A1 WO2019098185 A1 WO 2019098185A1 JP 2018041958 W JP2018041958 W JP 2018041958W WO 2019098185 A1 WO2019098185 A1 WO 2019098185A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
sentence
user
unit
interest
Prior art date
Application number
PCT/JP2018/041958
Other languages
English (en)
French (fr)
Inventor
唯子 角森
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to US16/640,104 priority Critical patent/US11055495B2/en
Priority to JP2019554224A priority patent/JP6840862B2/ja
Publication of WO2019098185A1 publication Critical patent/WO2019098185A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • the present invention relates to an utterance sentence generation system and an utterance sentence generation program.
  • the response content to the user may be monotonous. Also, it is conceivable to connect multiple sentences etc. and use it for the user's response in order to improve the response content becoming monotonous, but when the length of the connected speech is not appropriate, monotony And sometimes become redundant.
  • the present invention has been made in view of the above problems, and an utterance capable of outputting an utterance sentence of an appropriate length when generating an utterance sentence for connecting a plurality of sentences and responding to the user. It aims at providing a sentence generation device and a speech sentence generation program.
  • the utterance sentence generation device concerning one form of the present invention is the utterance sentence generation system which outputs the utterance sentence for responding to the utterance inputted by the user, and is inputted by the user
  • a focus extraction unit which extracts focus information representing at least a part of a topic of the user's utterance based on the user's utterance
  • an interest state estimation unit which estimates an interest state indicating the degree of user's interest in the topic represented by the focus information Based on the state of interest, a connected sentence number determination unit that determines the number of utterance sentences to be connected and a number of utterance sentences determined by the connected sentence number determination unit are connected to generate a connected utterance sentence
  • an utterance sentence output unit that outputs a connected utterance sentence.
  • the utterance sentence generation program is an utterance sentence generation program for causing a computer to function as an utterance sentence generation system that outputs an utterance sentence for responding to an utterance inputted by a user.
  • a focus extraction function of extracting focus information representing at least a part of the topic of the user's utterance inputted by the user based on the user's utterance, and an interest indicating the degree of interest of the user for the topic represented by the focus information The number of utterance sentences determined by the number of utterance sentences determined by the number of utterance sentences determined by the number of utterance sentences determined by the interest state estimation function for estimating the state and the number of utterance sentences to be concatenated based on the state of interest
  • a connected speech sentence generation function for generating a speech sentence and a speech sentence output function for outputting a connected speech sentence are realized.
  • focus information representing the topic of the user's utterance is extracted, and the number of sentences to be connected is determined according to the degree of user's interest in the focus information.
  • a connected speech sentence of an appropriate length in which the degree of interest of the user is reflected is output.
  • FIG. 4A shows an example of data stored in the utterance text DB.
  • FIG. 4B is a diagram showing an example of data stored in the utterance text DB. It is a figure which shows the example of the data memorize
  • FIG. 1 is a diagram showing a functional configuration of an utterance sentence generation system 1 including an utterance sentence generation device 10 according to the present embodiment.
  • the utterance sentence generation device 10 is a device that outputs an utterance sentence for responding to the utterance inputted by the user.
  • the utterance sentence generation system 1 is not for a specific application such as presenting a route to a destination, for example, but according to a user's utterance for which no special assumption about the content is made, such as a chat. Utterance is output by voice, text, etc.
  • the apparatus which comprises the utterance sentence generation system 1 or the utterance sentence generation apparatus 10 is not limited, it may be comprised by apparatuses, such as a portable terminal and a personal computer, and may be comprised by the robot in which the computer was integrated. .
  • the utterance sentence generation system 1 includes an utterance sentence generation device 10, a user state acquisition unit 30, a connected sentence number table 40 and an utterance sentence DB 50.
  • the utterance sentence generation system 1 may be configured as one device, or one or more of the utterance sentence generation device 10, the user state acquisition unit 30, the number-of-connected-states table 40, and the utterance sentence DB 50 may be one.
  • the device may be configured.
  • user state acquisition part 30 may be constituted as one terminal
  • utterance sentence DB 50 may be constituted by a server.
  • the utterance sentence generation device 10 and the user state acquisition unit 30 may be configured as one terminal.
  • the respective storage means of the connected sentence number table 40 and the utterance sentence DB 50 may be configured by a device of any form as long as the utterance sentence generation device 10 is configured to be accessible.
  • the terminal constituting the user state acquisition unit 30 or the terminal constituting the utterance sentence generation device 10 and the user state acquisition unit 30 is, for example, a portable terminal such as a smart phone or smart phone. Configured as
  • the utterance sentence generation device 10 functionally includes a user utterance acquisition unit 11, a focus extraction unit 12, an interest state estimation unit 13, a connected sentence number determination unit 14, a connected utterance sentence generation unit 15, A non-statement determination unit 16, a sentence formation determination unit 17, an output information control unit 18, a linked sentence correction unit 19, and an utterance sentence output unit 20 are provided.
  • the user state acquisition unit 30 includes a voice acquisition unit 31 and an image acquisition unit 32. Each of these functional units will be described in detail later.
  • each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly two or more physically and / or logically separated devices. It may be connected by (for example, wired and / or wireless) and realized by the plurality of devices.
  • the utterance sentence generation device 10 may function as a computer.
  • FIG. 2 is a diagram showing an example of a hardware configuration of the utterance sentence generation device 10 according to the present embodiment.
  • the utterance sentence generation device 10 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007 and the like.
  • the term "device” can be read as a circuit, a device, a unit, or the like.
  • the hardware configuration of the utterance sentence generation device 10 may be configured to include one or more of the devices illustrated in FIG. 2 or may be configured without including some devices.
  • Each function in the utterance sentence generation device 10 performs a calculation by causing the processor 1001 to read a predetermined software (program) on hardware such as the processor 1001 and the memory 1002, and performs communication by the communication device 1004. This is realized by controlling reading and / or writing of data in the storage 1003.
  • the processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with a peripheral device, a control device, an arithmetic device, a register, and the like.
  • CPU Central Processing Unit
  • the functional units 11 to 20 and the like illustrated in FIG. 1 may be realized by the processor 1001.
  • the processor 1001 reads a program (program code), a software module or data from the storage 1003 and / or the communication device 1004 to the memory 1002, and executes various processing according to these.
  • a program a program that causes a computer to execute at least a part of the operations described in the above embodiments is used.
  • the functional units 11 to 13 of the utterance sentence generation device 10 may be realized by a control program stored in the memory 1002 and operated by the processor 1001.
  • the various processes described above have been described to be executed by one processor 1001, but may be executed simultaneously or sequentially by two or more processors 1001.
  • the processor 1001 may be implemented by one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer readable recording medium, and includes, for example, at least one of a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). It may be done.
  • the memory 1002 may be called a register, a cache, a main memory (main storage device) or the like.
  • the memory 1002 can store a program (program code), a software module, and the like that can be executed to implement the storage allocation information generation method according to an embodiment of the present invention.
  • the storage 1003 is a computer readable recording medium, and for example, an optical disc such as a CD-ROM (Compact Disc ROM), a hard disc drive, a flexible disc, a magneto-optical disc (eg, a compact disc, a digital versatile disc, a Blu-ray A (registered trademark) disk, a smart card, a flash memory (for example, a card, a stick, a key drive), a floppy (registered trademark) disk, a magnetic strip, and the like may be used.
  • the storage 1003 may be called an auxiliary storage device.
  • the above-mentioned storage medium may be, for example, a database including the memory 1002 and / or the storage 1003, a server or any other suitable medium.
  • the communication device 1004 is hardware (transmission / reception device) for performing communication between computers via a wired and / or wireless network, and is also called, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, and the like) that receives an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that performs output to the outside.
  • the input device 1005 and the output device 1006 may be integrated (for example, a touch panel).
  • bus 1007 for communicating information.
  • the bus 1007 may be configured by a single bus or may be configured by different buses among the devices.
  • the utterance sentence generation device 10 includes hardware such as a microprocessor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a programmable logic device (PLD), and a field programmable gate array (FPGA). It may be configured to include, and part or all of each functional block may be realized by the hardware. For example, processor 1001 may be implemented in at least one of these hardware.
  • DSP digital signal processor
  • ASIC application specific integrated circuit
  • PLD programmable logic device
  • FPGA field programmable gate array
  • the user state acquisition unit 30 includes a voice acquisition unit 31 and an image acquisition unit 32.
  • the sound acquisition unit 31 acquires a sound. Specifically, the sound acquisition unit 31 can acquire the sound emitted by the user, and for example, acquires the sound acquired by a device such as a microphone.
  • the image acquisition unit 32 acquires an image. Specifically, the image acquisition unit 32 can acquire an image representing the appearance of the user, and for example, acquires an image acquired by an imaging device such as a camera.
  • the user speech acquisition unit 11 acquires a user speech.
  • the user utterance is an utterance input by the user.
  • the input of the utterance is performed by, for example, voice and text.
  • the user speech acquisition unit 11 acquires the voice uttered by the user via, for example, the voice acquisition unit 31.
  • the user utterance acquisition unit 11 may acquire the user utterance as text via the input device 1005 such as a keyboard, an input key configured on a touch panel, and the like.
  • user's utterance can be targeted for what a special assumption about the content is not made like, for example, a chat.
  • the focus extraction unit 12 extracts focus information representing at least a part of the topic of the user utterance based on the user utterance acquired by the user utterance acquisition unit 11.
  • the focus information is, for example, a word that is the most central topic in the user's speech.
  • machine learning methods such as deep learning and SVM can be used.
  • the focus extraction unit 12 extracts a word extracted by morphological analysis of the user's utterance as a candidate of focus information, and based on a predetermined feature amount extracted from the word of the focus information candidate A score is calculated using an estimation model of focus information based on a predetermined feature amount obtained in advance by predetermined machine learning, and focus information is extracted based on the calculated score.
  • the interest state estimation unit 13 estimates an interest state indicating the degree of user's interest in the topic represented by the focus information. Specifically, the state of interest estimation unit 13 estimates the state of interest based on, for example, predetermined detection information related to the state of the user. More specifically, the interest state estimation unit 13 can acquire at least one of an acoustic feature of the user's speech, the user's gaze, the user's expression, and the user's speech content as detection information.
  • the interest state estimation unit 13 determines the state of interest based on the predetermined feature obtained in advance by the predetermined machine learning based on the predetermined feature extracted from the detection information on the state of the user. Using the estimation model, a score indicating the degree of interest of the user is calculated.
  • the interest state estimation unit 13 extracts a predetermined feature amount based on the detection information. For example, the interest state estimation unit 13 can use the user's voice height (frequency) and voice strength (sound volume), which are acoustic features of the user's speech, as feature amounts. Further, the interest state estimation unit 13 can acquire the direction of the user's line of sight, the gaze time, and the like from the image of the user's eye acquired via the image acquisition unit 32 and use it as a feature value.
  • voice height frequency
  • voice strength sound volume
  • the interest state estimation unit 13 can determine the expression based on the face image of the user acquired via the image acquisition unit 32, and can use the determined expression as the feature amount. Further, the interest state estimation unit 13 can use the utterance content of the user acquired via the voice acquisition unit 31 as a feature amount. Specifically, for example, the interest state estimation unit 13 performs morphological analysis on the user's utterance content to extract a word, and uses the positive / negative degree of the meaning represented by the extracted word as the feature amount It can be used.
  • the interest state estimation unit 13 can use information that can be acquired from the device used by the user as the feature amount. Specifically, for example, the interest state estimation unit 13 may estimate the interest state based on the profile information of the user.
  • the profile information of the user may be, for example, the web browsing history of the user and the point of interface (POI).
  • POI point of interface
  • the interest state estimation unit 13 performs morphological analysis on the web browsing history, the POI visit history, etc. to extract a word, and the degree of association between the extracted word and the topic indicated in the focus information and the frequency of the word It can be used as a feature quantity.
  • the connected sentence number determination unit 14 determines the number of utterance sentences to be connected based on the estimated interest state. As an example, specifically, the connected sentence number determination unit 14 refers to the connected sentence number table 40 to determine the number of utterance sentences to be connected.
  • the connected sentence number table 40 is a table in which information representing the state of interest and the number of utterance sentences to be connected are stored in association with each other.
  • FIG. 3 is a diagram showing an example of the configuration of the connected sentence number table 40 and data stored therein.
  • states of interest is1 to is5 indicate scores indicating the degree of interest of the user.
  • the connected sentence number determination unit 14 determines the number of utterance sentences to be connected as “2”. .
  • the connected utterance sentence generation unit 15 generates a connected utterance sentence by connecting the utterance sentences of the number determined by the connected sentence number determination unit 14.
  • the connected speech sentence generation unit 15 acquires speech sentences from the speech sentence DB 50 and connects the acquired speech sentences.
  • the utterance sentence DB 50 is a database storing utterance sentences.
  • FIG. 4A and FIG. 4B are diagrams showing an example of the configuration of the utterance sentence DB 50 and data stored therein.
  • the utterance sentence DB 50 stores utterance sentence data 50A including a predicate term structure pair associated with the focus information.
  • a predicate term structure pair is a pair of a predicate as exemplified in a verb and a term as a subject and an object of the predicate.
  • the connected utterance sentence generation unit 15 “eats rice”, “want to eat rice” by a known method based on the predicate term structure pair “rice_eat” indicated in the utterance sentence data 50A. "" Etc. can be generated.
  • the utterance sentence DB 50 may store utterance sentence data 50B in a mode in which one utterance sentence is associated with the focus information.
  • the connected utterance sentence generation unit 15 may connect a plurality of utterance sentences having a topic represented by the focus information extracted by the focus extraction unit 12.
  • generation part 15 is demonstrated below.
  • the focus information “rice” is extracted by the focus extraction unit 12 and the number “2” of sentences to be connected is determined by the connected sentence number determination unit 14.
  • the connected utterance sentence generation unit 15 refers to the utterance sentence DB 50 to acquire two utterance sentences associated with the focus information “rice”.
  • FIG. 5 is a view showing the configuration of the utterance sentence DB 50 and an example of the utterance sentence data stored.
  • the connected utterance sentence generation unit 15 utters the utterance sentence "I like belly” and the utterance sentence "supper” associated with the focus information "rice”. Get good.
  • the connected utterance sentence generation unit 15 connects the two utterance sentences acquired from the utterance sentence DB 50, and generates a connected utterance sentence “I like a stomach. What is good for dinner?”.
  • the connected utterance sentence generation unit 15 generates an utterance
  • the three speech sentences associated with the focus information "rice" are acquired with reference to the sentence DB 50.
  • the connected utterance sentence generation unit 15 says that the utterance sentence "I like the stomach” associated with the focus information "rice", the utterance sentence "I have something for dinner And get the utterance sentence "I am ashamed now.” Then, the connected utterance sentence generation unit 15 connects the three utterance sentences obtained from the utterance sentence DB 50, and a connected utterance sentence “I like a stomach. What's good for dinner. Generate
  • the non-sentence determination unit 16 is configured such that the utterance sentence acquired from the utterance sentence DB 50 or the utterance sentence generated from the predicate term structure pair acquired from the utterance sentence DB 50 prior to the generation of the coupled utterance sentence by the coupled utterance sentence generation unit 15 Determine the naturalness of the sentence as a spoken sentence.
  • the non-sentence determination unit 16 uses the determination model of the naturalness of the utterance based on the predetermined feature obtained in advance by the predetermined machine learning based on the feature of the utterance. Determine the naturalness of each utterance sentence. For example, a vector expression of a speech is used for the feature amount of the speech, and a known method such as Bag of words and Word2Vec can be applied.
  • the connected utterance-sentence generation unit 15 determines only the utterance sentence determined by the non-sentence determination unit 16 to have a predetermined or more naturalness. May be used to generate the connected utterance sentence generation unit 15.
  • the non-statement determination unit 16 is not an essential component.
  • the sentence formation determination unit 17 determines the extent to which the connected utterance sentence generated by the connected utterance sentence generation unit 15 is established as an utterance sentence.
  • Various well-known techniques can be applied to this determination, and for example, machine learning techniques such as deep learning and SVM can be used.
  • machine learning techniques such as deep learning and SVM can be used.
  • a plurality of (a large amount of) sentences are prepared with a formation label indicating whether or not a sentence is established. These sentences are vectorized by a known technique such as Bag of words, Word2Vec, etc., and the above-described predetermined machine learning is performed on the vectorized sentences and the pair of the formation label to generate a model for determination.
  • the sentence formation determination unit 17 uses this model to output a score indicating the degree of formation as a sentence of the connected utterance sentence.
  • the output information control unit 18 determines that the sentence formation determination unit 17 determines that it is formed as a sentence.
  • a connected utterance sentence whose degree is determined to be a predetermined degree or more is output to the utterance sentence output unit 20. That is, the output information control unit 18 causes only the connected utterance sentence whose score determined by the sentence formation determination unit 17 is equal to or more than a predetermined value to be output to the utterance sentence output unit 20, and the connected utterance sentence whose score is less than the predetermined value. Control is made not to cause the utterance sentence output unit 20 to output.
  • the sentence formation determination unit 17 and the output information control unit 18 are not essential components.
  • the connected sentence correction unit 19 unifies the style of each utterance sentence included in the connected utterance sentence into a predetermined style. Specifically, for example, the connected sentence correction unit 19 analyzes style of each utterance sentence included in the connected utterance sentence (for example, formal style, formal style, etc.) by a known method. Do. Then, the connected sentence correction unit 19 corrects the connected utterance sentence so that the style is unified when the connected utterance sentences include utterance sentences of different style.
  • the style to be unified may be, for example, the style of the utterance sentence at the beginning or end of the connected utterance sentence, or the most frequent style of a plurality of utterance sentences included in the connected utterance sentence.
  • the linked sentence correction unit 19 may also determine the style to be unified based on the user's attribute information.
  • FIG. 6 is a diagram showing an example of correction of a connected utterance sentence.
  • the consolidated speech sentence CS1 before correction is the speech sentence of the respected subject "I am hungry.” And the usual speech sentence "What is supper like. "What do you want to have for dinner?)”.
  • the consolidated sentence correction unit 19 corrects the ordinary utterance sentence in the consolidated speech sentence CS1 before the correction to the speech sentence of the polite body “What would you like to have for dinner?” Then, the corrected connected utterance sentence CS2 can be generated.
  • FIG. 7 is a diagram showing an example of correction of a connected utterance sentence in English.
  • the coupled speech sentence CS21 before correction includes a formal style speech sentence "May I help you?" And an informal style speech sentence "Open the window?".
  • the connected sentence correction unit 19 corrects the informal-style utterance sentence in the connected utterance sentence CS21 before correction into a formal-style utterance sentence "Could you open the window?", And generates a corrected connected utterance sentence CS22. be able to.
  • the connected sentence correction unit 19 may add a predetermined conjunction between the utterance sentences included in the connected utterance sentences. Specifically, the connected sentence correction unit 19 performs morphological analysis, syntactic analysis, semantic analysis, context analysis, and the like by using a well-known language processing technique on each utterance sentence included in the connected utterance sentence. For example, the connected sentence correction unit 19 adds a conjunction between the two utterance sentences according to the difference in the meaning of the two connected utterance sentences (for example, the difference in the degree of positive / negative of the meaning of the sentence). . In addition, the connected sentence correction unit 19 may vectorize each of the two connected utterance sentences, and add a conjunction between the two utterance sentences according to the degree of similarity between the vectors. Note that, in the utterance sentence generation device 10 of the present embodiment, the connected sentence correction unit 19 is not an essential component.
  • the utterance sentence output unit 20 outputs a connected utterance sentence. Specifically, according to the user's utterance acquired by the user's utterance acquisition unit 11, the utterance sentence output unit 20 outputs the utterance sentence by voice, text, and the like.
  • FIG. 8 is a flowchart showing an example of processing content of the utterance sentence generation method according to the present embodiment.
  • step S1 the user speech acquisition unit 11 acquires a user speech.
  • step S2 the focus extraction unit 12 extracts focus information on the user utterance based on the user utterance acquired by the user utterance acquisition unit 11 in step S1.
  • step S3 the interest state estimation unit 13 sets the interest state indicating the degree of user's interest in the topic represented by the focus information extracted by the focus extraction unit 12 in step S2 to predetermined detection information regarding the user's state Estimate based on.
  • step S4 the connected sentence number determination unit 14 determines the number of utterance sentences to be connected based on the interest state estimated by the interest state estimation unit 13 in step S3.
  • step S5 the coupled utterance sentence generation unit 15 couples the utterance sentences of the number determined by the coupled sentence number determination unit 14 in step S4 to generate a coupled utterance sentence.
  • the non-statement determination unit 16 may determine the naturalness of the utterance sentence acquired from the utterance sentence DB 50 as the utterance sentence.
  • step S6 the sentence formation determination unit 17 determines a score indicating the degree of formation of the connected utterance sentence generated by the connected utterance sentence generation unit 15 in step S5 as an utterance sentence.
  • step S7 the output information control unit 18 determines whether the score determined in step S6 is equal to or more than a predetermined value. If it is determined that the score is equal to or higher than the predetermined value, the process proceeds to step S8. On the other hand, when it is not determined that the score is equal to or more than the predetermined value, the process ends.
  • steps S6 and S7 are not essential processing steps.
  • step S8 the utterance sentence output unit 20 outputs the coupled utterance sentence generated by the coupled utterance sentence generation unit 15 in step S5.
  • the connected sentence correction unit 19 unifies the style of each utterance sentence included in the connected utterance sentence into a predetermined style, or predetermined between the utterance sentences included in the connected utterance sentence. It is good also as attaching the conjunction of.
  • FIG. 9 is a diagram showing the configuration of the utterance sentence generation program P1.
  • the utterance sentence generation program P1 has a main module m10 for overall control of the utterance sentence generation processing in the utterance sentence generation device 10, a user speech acquisition module m11, a focus extraction module m12, an interest state estimation module m13, and a connected sentence number determination module m14.
  • the respective functions for the sentence formation determination unit 17, the output information control unit 18, the connected sentence correction unit 19, and the utterance sentence output unit 20 are realized.
  • the utterance sentence generation program P1 may be transmitted via a transmission medium such as a communication line, or may be stored on the recording medium M1 as shown in FIG. .
  • the non-statement determination module m16, the sentence formation determination module m17, the output information control module m18, and the connected sentence correction module m19 are not essential components in the utterance sentence generation program P1.
  • the shelving information generation method, and the utterance sentence generation program P1 of the present embodiment described above focus information representing a topic of the user's utterance is extracted, and according to the user's interest in the focus information The number of sentences to be linked is determined. As a result, a connected speech sentence of an appropriate length in which the degree of interest of the user is reflected is output.
  • the interest state estimation unit may estimate the interest state based on predetermined detection information related to the state of the user.
  • the degree of interest is estimated according to the state of the user. Therefore, the state of interest for the focus information is properly estimated.
  • the interest state estimation unit acquires at least one of the acoustic feature in the user's utterance, the user's gaze, the user's expression, and the user's utterance content as detection information. It is also good.
  • the degree of interest is estimated based on various types of detection information in which the state of interest of the user appears. Therefore, the state of interest for the focus information is properly estimated.
  • the coupled utterance sentence generation unit may be configured to couple a plurality of utterance sentences having a topic represented by the focus information extracted by the focus extraction unit.
  • the connected speech sentence is constituted by a plurality of speech sentences including the topic represented by the focus information extracted based on the user speech, an appropriate speech sentence is generated as a response to the user speech.
  • the connected sentence number determination unit refers to the connected sentence number table in which the information indicating the interest state is stored in association with the number of utterance sentences to be linked.
  • the number of utterance sentences to be linked may be determined.
  • the number assumed to be preferable as the number of sentences to be linked according to the information indicating the state of interest is set in the table in advance, it is possible to connect an appropriate number of utterance sentences.
  • the number of utterance sentences to be connected can be determined only by referring to a preset table without requiring special calculation processing, the processing load can be reduced.
  • the sentence establishment determination unit that determines the degree of establishment of the connected utterance sentence as the utterance sentence and the sentence establishment determination unit are established as the utterance sentence
  • the information processing apparatus may further include an output information control unit that causes the utterance sentence output unit to output a connected utterance sentence that is determined to have a degree of the predetermined degree or more.
  • a connected utterance sentence whose degree of being established as an utterance sentence is less than a predetermined degree will not be output. Therefore, it is prevented that a connected utterance sentence which is not valid as an utterance sentence is used for a response to the user's utterance.
  • the utterance sentence generation device is a connected sentence correction unit which unifies the style of each utterance sentence included in the connected utterance sentence into a predetermined style or adds a predetermined conjunction between the utterance sentences. , May be further provided.
  • Each aspect / embodiment described in the present specification is LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA (Registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-Wide Band),
  • the present invention may be applied to a system utilizing Bluetooth (registered trademark), other appropriate systems, and / or an advanced next-generation system based on these.
  • Information and the like may be output from the upper layer (or lower layer) to the lower layer (or upper layer). Input and output may be performed via a plurality of network nodes.
  • the input / output information or the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Information to be input or output may be overwritten, updated or added. The output information etc. may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be performed by a value (0 or 1) represented by one bit, may be performed by a boolean value (Boolean: true or false), or may be compared with a numerical value (for example, a predetermined value). Comparison with the value).
  • notification of predetermined information is not limited to what is explicitly performed, but is performed by implicit (for example, not notifying of the predetermined information) It is also good.
  • Software may be called software, firmware, middleware, microcode, hardware description language, or any other name, and may be instructions, instruction sets, codes, code segments, program codes, programs, subprograms, software modules. Should be interpreted broadly to mean applications, software applications, software packages, routines, subroutines, objects, executables, threads of execution, procedures, functions, etc.
  • software, instructions, etc. may be sent and received via a transmission medium.
  • software may use a wireline technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or a website, server or other using wireless technology such as infrared, radio and microwave When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
  • wireline technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or a website, server or other using wireless technology such as infrared, radio and microwave
  • data, instructions, commands, information, signals, bits, symbols, chips etc may be voltage, current, electromagnetic waves, magnetic fields or particles, optical fields or photons, or any of these May be represented by a combination of
  • system and "network” as used herein are used interchangeably.
  • information, parameters, and the like described in the present specification may be represented by absolute values, may be represented by relative values from predetermined values, or may be represented by corresponding other information. .
  • the phrase “based on” does not mean “based only on,” unless expressly stated otherwise. In other words, the phrase “based on” means both “based only on” and “based at least on.”
  • any reference to such elements does not generally limit the quantity or order of those elements. These designations may be used herein as a convenient way of distinguishing between two or more elements. Thus, reference to the first and second elements does not mean that only two elements can be taken there, or that in any way the first element must precede the second element.
  • SYMBOLS 1 ... utterance sentence generation system, 10 ... utterance sentence generation device, 11 ... user utterance acquisition part, 12 ... focus extraction part, 13 ... interest state estimation part, 14 ... connection sentence number determination part, 15 ... connection speech sentence generation part, 16 ... non sentence determination unit, 17 ... sentence formation determination unit, 18 ... output information control unit, 19 ... connected sentence correction unit, 20 ... utterance sentence output unit, 30 ... user state acquisition unit, 31 ... speech acquisition unit, 32 ...
  • Image acquisition unit 40 Concatenated sentence number table 50: Utterance sentence DB, M1: Recording medium, m10: Main module, m11: User speech acquisition module, m12: Focus extraction module, m13: Interest state estimation module, m14: Concatenation Sentence number determination module, m15 ... connected utterance sentence generation module, m16 ... non-statement judgment module, m17 ... sentence establishment judgment module, m18 ... output information control module, m19 ... connected sentence Positive module, m20 ... spoken sentence output module, P1 ... spoken sentence generation program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

発話文生成システムは、ユーザにより入力された発話に応答するための発話文を出力するシステムであって、ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報をユーザ発話に基づいて抽出する焦点抽出部と、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定部と、興味状態に基づいて、連結させる発話文の数を決定する連結文数決定部と、連結文数決定部により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成部と、連結発話文を出力する発話文出力部と、を備える。

Description

発話文生成システム及び発話文生成プログラム
 本発明は、発話文生成システム及び発話文生成プログラムに関する。
 ユーザと対話を行うシステムが知られている。このようなシステムでは、雑多な話題に対応可能とされており、ユーザからの発話の入力に応じて、適切な発話文を出力する。例えば、WebやSNS等から取得した語句及び文章から適切なものを抽出して、ユーザに応答するための適切な発話を構成するシステムが知られている(例えば、特許文献1参照)。
特開2014-219872号公報
 しかしながら、Web等から取得した文章等を用いて発話を構成すると、ユーザに対する応答内容が単調になる場合があった。また、応答内容が単調となることを改善すべく、複数の文章等を連結してユーザの応答に用いることが考えられるが、連結された発話文の長さが適切ではない場合に、単調さを解消できなかったり、冗長となったりすることがあった。
 そこで、本発明は、上記問題点に鑑みてなされたものであり、複数の文を連結してユーザに応答するための発話文を生成するに際して、適切な長さの発話文を出力可能な発話文生成装置及び発話文生成プログラムを提供することを目的とする。
 上記課題を解決するために、本発明の一形態に係る発話文生成装置は、ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムであって、ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報をユーザ発話に基づいて抽出する焦点抽出部と、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定部と、興味状態に基づいて、連結させる発話文の数を決定する連結文数決定部と、連結文数決定部により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成部と、連結発話文を出力する発話文出力部と、を備える。
 また、本発明の一形態に係る発話文生成プログラムは、コンピュータを、ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムとして機能させるための発話文生成プログラムであって、コンピュータに、ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報をユーザ発話に基づいて抽出する焦点抽出機能と、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定機能と、興味状態に基づいて、連結させる発話文の数を決定する連結文数決定機能と、連結文数決定機能により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成機能と、連結発話文を出力する発話文出力機能と、を実現させる。
 上記の形態によれば、ユーザ発話の話題を表す焦点情報が抽出され、焦点情報に対するユーザの興味の度合いに応じて、連結される文の数が決定される。これにより、ユーザの興味の度合いが反映された適切な長さの連結発話文が出力される。
 複数の文を連結してユーザに応答するための発話文を生成するに際して、適切な長さの発話文を出力可能な発話文生成装置及び発話文生成プログラムを提供することが可能となる。
本実施形態の発話文生成装置を含む発話文生成システムの機能的構成を示すブロック図である。 発話文生成装置のハードブロック図である。 連結文数テーブルの構成及び記憶されているデータの例を示す図である。 図4(a)は、発話文DBに記憶されているデータの例を示す図である。図4(b)は、発話文DBに記憶されているデータの例を示す図である。 発話文DBに記憶されているデータの例を示す図である。 連結発話文の修正の例を示す図である。 連結発話文の修正の例を示す図である。 本実施形態の発話文生成方法の処理内容を示すフローチャートである。 発話文生成プログラムの構成を示す図である。
 本発明に係る発話文生成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
 図1は、本実施形態に係る発話文生成装置10を含む発話文生成システム1の機能的構成を示す図である。発話文生成装置10は、ユーザにより入力された発話に応答するための発話文を出力する装置である。
 本実施形態の発話文生成システム1は、例えば、目的地までの経路を提示する等の特定の用途のためではなく、例えば雑談のように、内容についての特段の想定がされないユーザ発話に応じて、音声及びテキスト等により発話文を出力する。発話文生成システム1または発話文生成装置10を構成する装置は限定されないが、携帯端末及びパーソナルコンピュータ等の装置により構成されることとしてもよいし、コンピュータが組み込まれたロボットにより構成されてもよい。
 図1に示すように、発話文生成システム1は、発話文生成装置10、ユーザ状態取得部30、連結文数テーブル40及び発話文DB50を含む。
 発話文生成システム1は、1つの装置として構成されてもよいし、発話文生成装置10、ユーザ状態取得部30、連結文数テーブル40及び発話文DB50のうちの一つまたは複数がそれぞれ一つの装置を構成してもよい。一例としては、ユーザ状態取得部30が一つの端末として構成され、発話文生成装置10、連結文数テーブル40及び発話文DB50がサーバにより構成されてもよい。また、他の一例としては、発話文生成装置10及びユーザ状態取得部30が一つの端末として構成されてもよい。連結文数テーブル40及び発話文DB50の各記憶手段は、発話文生成装置10からアクセス可能に構成されていればいかなる態様の装置で構成されてもよい。
 本実施形態では、ユーザ状態取得部30を構成する端末、または、発話文生成装置10及びユーザ状態取得部30を構成する端末は、例えば、高機能携帯電話機(スマートフォン)や携帯電話機などの携帯端末として構成される。
 図1に示すように、発話文生成装置10は、機能的には、ユーザ発話取得部11、焦点抽出部12、興味状態推定部13、連結文数決定部14、連結発話文生成部15、非文判定部16、文成立判定部17、出力情報制御部18、連結文修正部19、発話文出力部20を備える。また、ユーザ状態取得部30は、音声取得部31及び画像取得部32を備える。これらの各機能部については後に詳述する。
 なお、図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
 例えば、本発明の一実施の形態における発話文生成装置10は、コンピュータとして機能してもよい。図2は、本実施形態に係る発話文生成装置10のハードウェア構成の一例を示す図である。発話文生成装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。発話文生成装置10のハードウェア構成は、図2に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 発話文生成装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、図1に示した各機能部11~20などは、プロセッサ1001で実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、発話文生成装置10の各機能部11~13は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る棚割情報生成方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
 また、発話文生成装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
 再び図1を参照して、ユーザ状態取得部30について説明する。ユーザ状態取得部30は、音声取得部31及び画像取得部32を含む。音声取得部31は、音声を取得する。具体的には、音声取得部31は、ユーザにより発せられた音声を取得することができ、例えば、マイク等の装置により取得された音声を取得する。
 画像取得部32は、画像を取得する。具体的には、画像取得部32は、ユーザの外観を表す画像を取得することができ、例えば、カメラ等の撮像装置により取得された画像を取得する。
 続いて、発話文生成装置10の各機能部について説明する。ユーザ発話取得部11は、ユーザ発話を取得する。ユーザ発話は、ユーザにより入力された発話である。発話の入力は、例えば音声及びテキスト等により行われる。具体的には、ユーザ発話取得部11は、ユーザにより発せられた音声を、例えば音声取得部31を介して取得する。また、ユーザ発話取得部11は、キーボード等の入力装置1005、タッチパネルに構成された入力キー等を介して、テキストとしてのユーザ発話を取得してもよい。なお、本実施形態の発話文生成システム1では、ユーザ発話は、例えば雑談のように、内容についての特段の想定がされないものを対象とすることができる。
 焦点抽出部12は、ユーザ発話の話題の少なくとも一部を表す焦点情報を、ユーザ発話取得部11により取得されたユーザ発話に基づいて抽出する。焦点情報は、例えば、ユーザの発話において最も話題の中心となっている単語である。ユーザ発話からの焦点情報の抽出には、種々の周知の技術を適用することができ、例えば、ディープラーニング、SVM等の機械学習の手法を用いることができる。
 一例として、具体的には、焦点抽出部12は、ユーザ発話に対する形態素解析により抽出された単語を焦点情報の候補として抽出し、焦点情報の候補の単語から抽出された所定の特徴量に基づいて、予め所定の機械学習により得られた所定特徴量に基づく焦点情報の推定モデルを用いてスコアを算出し、算出されたスコアに基づいて焦点情報を抽出する。
 興味状態推定部13は、焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する。具体的には、興味状態推定部13は、例えば、ユーザの状態に関する所定の検出情報に基づいて興味状態を推定する。より具体的には、興味状態推定部13は、ユーザ発話における音響的特徴、ユーザの視線、ユーザの表情及びユーザの発話内容の少なくとも一つを検出情報として取得することができる。
 興味状態の推定には、種々の周知の技術を適用することができ、例えば、ディープラーニング、SVM等の機械学習の手法を用いることができる。一例として、具体的には、興味状態推定部13は、ユーザの状態に関する検出情報から抽出された所定の特徴量に基づいて、予め所定の機械学習により得られた所定特徴量に基づく興味状態の推定モデルを用いて、ユーザの興味の度合いを示すスコアを算出する。
 興味状態推定部13は、検出情報に基づいて所定の特徴量を抽出する。例えば、興味状態推定部13は、ユーザ発話における音響的特徴である、ユーザの声の高さ(周波数)及び声の強さ(音量)等を特徴量として用いることができる。また、興味状態推定部13は、画像取得部32を介して取得したユーザの眼の画像から、ユーザの視線の方向及び注視時間等を取得して、特徴量として用いることができる。
 また、興味状態推定部13は、画像取得部32を介して取得したユーザの顔画像に基づいて表情を判定し、判定した表情を特徴量として用いることができる。また、興味状態推定部13は、音声取得部31を介して取得したユーザの発話内容を特徴量として用いることができる。具体的には、例えば、興味状態推定部13は、ユーザの発話内容に対して形態素分析を実施して単語を抽出し、抽出された単語が表す意味の肯定的/否定的度合いを特徴量として用いることができる。
 また、興味状態推定部13は、ユーザが使用するデバイスから取得できる情報を特徴量として用いることができる。具体的には、例えば、興味状態推定部13は、ユーザのプロファイル情報に基づいて興味状態を推定してもよい。ユーザのプロファイル情報は、例えば、ユーザのWeb閲覧履歴及びPOI(Point of Interface)等が例示される。興味状態推定部13は、Web閲覧履歴及びPOI訪問履歴等に対して形態素解析を実施して単語を抽出し、抽出された単語と焦点情報に示される話題との関連度及びその単語の頻度を特徴量として用いることができる。
 連結文数決定部14は、推定された興味状態に基づいて、連結させる発話文の数を決定する。一例として、具体的には、連結文数決定部14は、連結文数テーブル40を参照して、連結させる発話文の数を決定する。
 連結文数テーブル40は、興味状態を表す情報と、連結する発話文の数とを関連付けて記憶しているテーブルである。図3は、連結文数テーブル40の構成及び記憶されているデータの例を示す図である。図3において、興味状態is1~is5は、ユーザの興味の度合いを示すスコアを表す。例えば、興味状態推定部13により、ユーザの興味の程度が興味状態is2であることが推定された場合には、連結文数決定部14は、連結させる発話文の数を「2」に決定する。
 連結発話文生成部15は、連結文数決定部14により決定された数の発話文を連結させて連結発話文を生成する。連結発話文生成部15は、発話文DB50から、発話文を取得して、取得した発話文を連結させる。
 発話文DB50は、発話文を記憶しているデータベースである。図4(a)及び図4(b)は、発話文DB50の構成及び記憶されているデータの例を示す図である。図4(a)に示されるように、発話文DB50は、焦点情報に関連付けられた述語項構造ペアを含む発話文データ50Aを記憶している。述語項構造ペアは、動詞に例示されるような述語と、その述語の主語及び目的語となるような項とのペアである。本実施形態では、連結発話文生成部15は、発話文データ50Aに示される述語項構造ペア「ご飯_食べる」に基づいて、周知の手法により、「ご飯を食べます」、「ご飯を食べたい」等の種々の形式の発話文を生成することができる。
 また、図4(b)に示されるように、発話文DB50は、焦点情報に一つの発話文を関連付けた態様の発話文データ50Bを記憶していてもよい。
 連結発話文生成部15は、焦点抽出部12により抽出された焦点情報により表される話題を有する複数の発話文を連結させることとしてもよい。連結発話文生成部15による発話文の連結の例を以下に説明する。ここでは、焦点抽出部12により、焦点情報「ご飯」が抽出され、連結文数決定部14により、連結する文の数「2」が決定されたとする。このような場合において、連結発話文生成部15は、発話文DB50を参照して、焦点情報「ご飯」に関連付けられた2つの発話文を取得する。
 図5は、発話文DB50の構成及び記憶されている発話文データの例を示す図である。連結発話文生成部15は、図5の発話文データ50Cに示される発話文の中から、例えば、焦点情報「ご飯」に関連付けられた発話文「おなかがすきました」及び発話文「夕食はなにが良いか」を取得する。連結発話文生成部15は、発話文DB50から取得した2つの発話文を連結させて、連結発話文「おなかがすきました。夕食は何が良いか。」を生成する。
 また、焦点抽出部12により、焦点情報「ご飯」が抽出され、連結文数決定部14により、連結する文の数「3」が決定された場合には、連結発話文生成部15は、発話文DB50を参照して、焦点情報「ご飯」に関連付けられた3つの発話文を取得する。例えば、連結発話文生成部15は、発話文データ50Cに示される発話文の中から、焦点情報「ご飯」に関連付けられた発話文「おなかがすきました」、発話文「夕食はなにが良いか」及び発話文「今の旬は筍です」を取得する。そして、連結発話文生成部15は、発話文DB50から取得した3つの発話文を連結させて、連結発話文「おなかがすきました。夕食は何が良いか。今の旬は筍です。」を生成する。
 なお、発話文DB50から取得した個々の発話文について、発話文としての自然さが判定されることとしてもよい。非文判定部16は、連結発話文生成部15による連結発話文の生成に先立って、発話文DB50から取得した発話文、または、発話文DB50から取得した述語項構造ペアから生成された発話文の、発話文としての自然さを判定する。
 発話文の自然さの判定には、種々の周知の技術を適用することができ、例えば、ディープラーニング、SVM等の機械学習の手法を用いることができる。一例として、具体的には、非文判定部16は、発話文の特徴量に基づいて、予め所定の機械学習により得られた所定特徴量に基づく発話文の自然さの判定モデルを用いて、発話文ごとの自然さを判定する。発話文の特徴量には、例えば、発話文のベクトル表現が用いられ、Bag of words、Word2Vecといった周知の手法を適用できる。
 非文判定部16により個々の発話文の自然さが判定される場合には、連結発話文生成部15は、非文判定部16により所定以上の自然さを有することが判定された発話文のみを、連結発話文生成部15の生成に用いることとしてもよい。なお、本実施形態の発話文生成装置10において、非文判定部16は必須の構成ではない。
 文成立判定部17は、連結発話文生成部15により生成された連結発話文が発話文として成立していることの程度を判定する。この判定には、種々の周知の技術を適用することができ、例えば、ディープラーニング、SVM等の機械学習の手法を用いることができる。一例として、具体的には、文として成立しているか否かを示す成立ラベルを伴う複数の(大量の)文章を複数準備する。それらの文章をBag of words、Word2Vec等の周知の技術によりベクトル化し、ベクトル化された文章と成立ラベルとのペアに対して、前述の所定の機械学習を行い、判定のためのモデルを生成する。文成立判定部17は、このモデルを用いて、連結発話文の文として成立していることの程度を示すスコアを出力する。
 文成立判定部17により、連結発話文に対して文として成立していることの判定が行われる場合には、出力情報制御部18は、文成立判定部17により文として成立していることの程度が所定の程度以上であることが判定された連結発話文を発話文出力部20に出力させる。即ち、出力情報制御部18は、文成立判定部17により判定されたスコアが所定値以上である連結発話文のみを発話文出力部20に出力させ、当該スコアが所定値未満の連結発話文を発話文出力部20に出力させないように制御する。なお、本実施形態の発話文生成装置10において、文成立判定部17及び出力情報制御部18は必須の構成ではない。
 連結文修正部19は、連結発話文に含まれる各発話文の文体を所定の文体に統一させる。具体的には、例えば、連結文修正部19は、周知の手法により、連結発話文に含まれる各発話文の文体(例えば、常体(informal style)、敬体(formal style)など)を解析する。そして、連結文修正部19は、連結発話文が異なる文体の発話文を含んでいる場合に、文体が統一されるように、連結発話文を修正する。統一させる文体は、例えば、連結発話文の冒頭または末尾の発話文の文体、連結発話文に含まれる複数の発話文の文体のうち最も多い文体であってもよい。また、連結文修正部19は、ユーザの属性情報に基づいて、統一させる文体を決定してもよい。
 図6は、連結発話文の修正の例を示す図である。図6に示すように、修正前の連結発話文CS1は、敬体の発話文「おなかがすきました。(I am hungry.)」及び常体の発話文「夕食はなにが良いか。(What do you want to have for dinner ?)」を含む。連結文修正部19は、修正前の連結発話文CS1における常体の発話文を敬体の発話文「夕食はなにが良いですか。(What would you like to have for dinner ?)」に修正して、修正後の連結発話文CS2を生成することができる。
 図7は、英語における連結発話文の修正の例を示す図である。図7に示すように、修正前の連結発話文CS21は、フォーマルスタイルの発話文”May I help you ?”及びインフォーマルスタイルの発話文”Open the window?”を含む。連結文修正部19は、修正前の連結発話文CS21におけるインフォーマルスタイルの発話文をフォーマルスタイルの発話文”Could you open the window ?”に修正して、修正後の連結発話文CS22を生成することができる。
 また、連結文修正部19は、連結発話文に含まれる発話文の間に所定の接続詞を付与することとしてもよい。具体的には、連結文修正部19は、連結発話文に含まれる各発話文に対して、周知の言語処理技術による形態素解析、構文解析、意味解析及び文脈解析等を実施する。例えば、連結文修正部19は、連結された2つの発話文の意味の差異(例えば、文が有する意味のポジティブ/ネガティブ度合いの差異)に応じて、2つの発話文の間に接続詞を付与する。また、連結文修正部19は、連結された2つの発話文のそれぞれをベクトル化して、それらのベクトルの類似度に応じて、2つの発話文の間に接続詞を付与することとしてもよい。なお、本実施形態の発話文生成装置10において、連結文修正部19は必須の構成ではない。
 発話文出力部20は、連結発話文を出力する。具体的には、発話文出力部」20は、ユーザ発話取得部11により取得されたユーザ発話に応じて、音声及びテキスト等により発話文を出力する。
 次に、図8を参照して、発話文生成装置10における発話文生成方法について説明する。図8は、本実施形態の発話文生成方法の処理内容の例を示すフローチャートである。
 ステップS1において、ユーザ発話取得部11は、ユーザ発話を取得する。ステップS2において、焦点抽出部12は、ユーザ発話に関する焦点情報を、ステップS1においてユーザ発話取得部11により取得されたユーザ発話に基づいて抽出する。
 ステップS3において、興味状態推定部13は、ステップS2において焦点抽出部12により抽出された焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を、ユーザの状態に関する所定の検出情報に基づいて推定する。
 ステップS4において、連結文数決定部14は、ステップS3において興味状態推定部13により推定された興味状態に基づいて、連結させる発話文の数を決定する。ステップS5において、連結発話文生成部15は、ステップS4において連結文数決定部14により決定された数の発話文を連結させて連結発話文を生成する。なお、連結発話文生成部15による連結発話文の生成に先立って、非文判定部16は、発話文DB50から取得した発話文の、発話文としての自然さを判定してもよい。
 ステップS6において、文成立判定部17は、ステップS5において連結発話文生成部15により生成された連結発話文が発話文として成立していることの程度を示すスコアを判定する。
 ステップS7において、出力情報制御部18は、ステップS6において判定されたスコアが所定値以上であるか否かを判定する。スコアが所定値以上であると判定された場合には、処理はステップS8に進む。一方、スコアが所定値以上であると判定されなかった場合には、処理は終了する。なお、このフローチャートにおいて、ステップS6,S7は必須の処理ステップではない。
 ステップS8において、発話文出力部20は、ステップS5において連結発話文生成部15により生成された連結発話文を出力する。なお、連結発話文の出力に先立って連結文修正部19は、連結発話文に含まれる各発話文の文体を所定の文体に統一させ、または、連結発話文に含まれる発話文の間に所定の接続詞を付与することとしてもよい。
 次に、コンピュータを、本実施形態の発話文生成装置10として機能させるための発話文生成プログラムについて説明する。図9は、発話文生成プログラムP1の構成を示す図である。
 発話文生成プログラムP1は、発話文生成装置10における発話文生成処理を統括的に制御するメインモジュールm10、ユーザ発話取得モジュールm11、焦点抽出モジュールm12、興味状態推定モジュールm13、連結文数決定モジュールm14、連結発話文生成モジュールm15、非文判定モジュールm16、文成立判定モジュールm17、出力情報制御モジュールm18、連結文修正モジュールm19及び発話文出力モジュールm20を備えて構成される。そして、各モジュールm11~m20により、発話文生成装置10におけるユーザ発話取得部11、焦点抽出部12、興味状態推定部13、連結文数決定部14、連結発話文生成部15、非文判定部16、文成立判定部17、出力情報制御部18、連結文修正部19及び発話文出力部20のための各機能が実現される。なお、発話文生成プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図9に示されるように、記録媒体M1に記憶される態様であってもよい。なお、非文判定モジュールm16、文成立判定モジュールm17、出力情報制御モジュールm18及び連結文修正モジュールm19は、発話文生成プログラムP1における必須の構成ではない。
 以上説明した本実施形態の発話文生成装置10、棚割情報生成方法及び発話文生成プログラムP1では、ユーザ発話の話題を表す焦点情報が抽出され、焦点情報に対するユーザの興味の度合いに応じて、連結される文の数が決定される。これにより、ユーザの興味の度合いが反映された適切な長さの連結発話文が出力される。
 また、別の形態に係る発話文生成装置では、前記興味状態推定部は、前記ユーザの状態に関する所定の検出情報に基づいて前記興味状態を推定することとしてもよい。
 上記形態によれば、ユーザの状態に応じて興味の度合いが推定される。従って、焦点情報に対する興味状態が適切に推定される。
 また、別の形態に係る発話文生成装置では、興味状態推定部は、ユーザ発話における音響的特徴、ユーザの視線、ユーザの表情及びユーザの発話内容の少なくとも一つを検出情報として取得することとしてもよい。
 上記形態によれば、ユーザの興味の状態が現れる各種の検出情報に基づいて、興味の度合いが推定される。従って、焦点情報に対する興味状態が適切に推定される。
 また、別の形態に係る発話文生成装置では、連結発話文生成部は、焦点抽出部により抽出された焦点情報により表される話題を有する複数の発話文を連結させることとしてもよい。
 上記形態によれば、ユーザ発話に基づき抽出された焦点情報により表される話題を含む複数の発話文により連結発話文が構成されるので、ユーザ発話に対する応答として適切な発話文が生成される。
 また、別の形態に係る発話文生成装置では、連結文数決定部は、興味状態を表す情報と、連結する発話文の数とを関連付けて記憶している連結文数テーブルを参照して、連結させる発話文の数を決定することとしてもよい。
 上記形態によれば、興味状態を表す情報に応じて連結させる文の数として好ましいと想定される数が予めテーブルに設定されているので、適切な数の発話文を連結させることができる。また、特段の計算処理を要さずに予め設定されたテーブルを参照するのみ連結させる発話文の数を決定できるので、処理負荷が軽減される。
 また、別の形態に係る発話文生成装置は、連結発話文が、発話文として成立していることの程度を判定する文成立判定部と、文成立判定部により発話文として成立していることの程度が所定の程度以上であることが判定された連結発話文を発話文出力部に出力させる出力情報制御部と、を更に備えることとしてもよい。
 上記形態によれば、発話文として成立していることの程度が所定の程度未満の連結発話文が出力されないこととなる。従って、発話文として妥当でない連結発話文がユーザ発話に対する応答に用いられることが防止される。
 また、別の形態に係る発話文生成装置は、連結発話文に含まれる各発話文の文体を所定の文体に統一させる、または、発話文の間に所定の接続詞を付与する、連結文修正部、を更に備えることとしてもよい。
 上記形態によれば、複数の発話文の連結により構成される連結発話文を、全体として自然な態様とすることができる。
 以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
 本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
 本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 情報等は、上位レイヤ(または下位レイヤ)から下位レイヤ(または上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
 本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
 また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
 本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
 本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
 本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
 1…発話文生成システム、10…発話文生成装置、11…ユーザ発話取得部、12…焦点抽出部、13…興味状態推定部、14…連結文数決定部、15…連結発話文生成部、16…非文判定部、17…文成立判定部、18…出力情報制御部、19…連結文修正部、20…発話文出力部、30…ユーザ状態取得部、31…音声取得部、32…画像取得部、40…連結文数テーブル、50…発話文DB、M1…記録媒体、m10…メインモジュール、m11…ユーザ発話取得モジュール、m12…焦点抽出モジュール、m13…興味状態推定モジュール、m14…連結文数決定モジュール、m15…連結発話文生成モジュール、m16…非文判定モジュール、m17…文成立判定モジュール、m18…出力情報制御モジュール、m19…連結文修正モジュール、m20…発話文出力モジュール、P1…発話文生成プログラム。

Claims (8)

  1.  ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムであって、
     ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報を前記ユーザ発話に基づいて抽出する焦点抽出部と、
     前記焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定部と、
     前記興味状態に基づいて、連結させる発話文の数を決定する連結文数決定部と、
     前記連結文数決定部により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成部と、
     前記連結発話文を出力する発話文出力部と、
     を備える発話文生成システム。
  2.  前記興味状態推定部は、前記ユーザの状態に関する所定の検出情報に基づいて前記興味状態を推定する、請求項1に記載の発話文生成システム。
  3.  前記興味状態推定部は、前記ユーザ発話における音響的特徴、前記ユーザの視線、前記ユーザの表情及び前記ユーザの発話内容の少なくとも一つを前記検出情報として取得する、
     請求項2に記載の発話文生成システム。
  4.  前記連結発話文生成部は、前記焦点抽出部により抽出された前記焦点情報により表される話題を有する複数の発話文を連結させる、
     請求項1~3のいずれか一項に記載の発話文生成システム。
  5.  前記連結文数決定部は、
     前記興味状態を表す情報と、連結する発話文の数とを関連付けて記憶している連結文数テーブルを参照して、連結させる発話文の数を決定する、
     請求項1~4のいずれか一項に記載の発話文生成システム。
  6.  前記連結発話文が、発話文として成立していることの程度を判定する文成立判定部と、
     前記文成立判定部により発話文として成立していることの程度が所定の程度以上であることが判定された前記連結発話文を前記発話文出力部に出力させる出力情報制御部と、
     を更に備える請求項1~5の何れか一項に記載の発話文生成システム。
  7.  前記連結発話文に含まれる各発話文の文体を所定の文体に統一させる、または、前記発話文の間に所定の接続詞を付与する、連結文修正部、
     を更に備える請求項1~6のいずれか一項に記載の発話文生成システム。
  8.  コンピュータを、ユーザにより入力された発話に応答するための発話文を出力する発話文生成システムとして機能させるための発話文生成プログラムであって、
     前記コンピュータに、
     ユーザにより入力されたユーザ発話の話題の少なくとも一部を表す焦点情報を前記ユーザ発話に基づいて抽出する焦点抽出機能と、
     前記焦点情報により表される話題に対するユーザの興味の度合いを示す興味状態を推定する興味状態推定機能と、
     前記興味状態に基づいて、連結させる発話文の数を決定する連結文数決定機能と、
     前記連結文数決定機能により決定された数の発話文を連結させて連結発話文を生成する連結発話文生成機能と、
     前記連結発話文を出力する発話文出力機能と、
    を実現させる発話文生成プログラム。
     
PCT/JP2018/041958 2017-11-16 2018-11-13 発話文生成システム及び発話文生成プログラム WO2019098185A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/640,104 US11055495B2 (en) 2017-11-16 2018-11-13 Utterance sentence generation system and utterance sentence generation program
JP2019554224A JP6840862B2 (ja) 2017-11-16 2018-11-13 発話文生成システム及び発話文生成プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-220731 2017-11-16
JP2017220731 2017-11-16

Publications (1)

Publication Number Publication Date
WO2019098185A1 true WO2019098185A1 (ja) 2019-05-23

Family

ID=66539513

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/041958 WO2019098185A1 (ja) 2017-11-16 2018-11-13 発話文生成システム及び発話文生成プログラム

Country Status (3)

Country Link
US (1) US11055495B2 (ja)
JP (1) JP6840862B2 (ja)
WO (1) WO2019098185A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022012300A (ja) * 2020-07-01 2022-01-17 トヨタ自動車株式会社 情報処理装置、プログラム、及び、情報処理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2000207214A (ja) * 1999-01-20 2000-07-28 Victor Co Of Japan Ltd 対話装置
JP2006252419A (ja) * 2005-03-14 2006-09-21 Toshiba Corp 文書検索システム、文書検索方法及びプログラム
US20140317030A1 (en) * 2013-04-22 2014-10-23 Palo Alto Research Center Incorporated Method and apparatus for customizing conversation agents based on user characteristics
JP2017037603A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
CN106599998A (zh) * 2016-12-01 2017-04-26 竹间智能科技(上海)有限公司 基于情感特征调整机器人回答的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5718405B2 (ja) 2013-05-09 2015-05-13 日本電信電話株式会社 発話選択装置、方法、及びプログラム、対話装置及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2000207214A (ja) * 1999-01-20 2000-07-28 Victor Co Of Japan Ltd 対話装置
JP2006252419A (ja) * 2005-03-14 2006-09-21 Toshiba Corp 文書検索システム、文書検索方法及びプログラム
US20140317030A1 (en) * 2013-04-22 2014-10-23 Palo Alto Research Center Incorporated Method and apparatus for customizing conversation agents based on user characteristics
JP2017037603A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
CN106599998A (zh) * 2016-12-01 2017-04-26 竹间智能科技(上海)有限公司 基于情感特征调整机器人回答的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022012300A (ja) * 2020-07-01 2022-01-17 トヨタ自動車株式会社 情報処理装置、プログラム、及び、情報処理方法

Also Published As

Publication number Publication date
JP6840862B2 (ja) 2021-03-10
US20210133398A1 (en) 2021-05-06
US11055495B2 (en) 2021-07-06
JPWO2019098185A1 (ja) 2020-07-09

Similar Documents

Publication Publication Date Title
US20220035999A1 (en) Electronic apparatus for recommending words corresponding to user interaction and controlling method thereof
US11676585B1 (en) Hybrid decoding using hardware and software for automatic speech recognition systems
CN104157285B (zh) 语音识别方法、装置及电子设备
US20190115007A1 (en) Systems and methods for providing non-lexical cues in synthesized speech
US11586689B2 (en) Electronic apparatus and controlling method thereof
US20210343287A1 (en) Voice processing method, apparatus, device and storage medium for vehicle-mounted device
US11468892B2 (en) Electronic apparatus and method for controlling electronic apparatus
WO2017166631A1 (zh) 语音信号处理方法、装置和电子设备
WO2020191828A1 (zh) 基于图的上下文关联回复生成方法、计算机及介质
CN112632987B (zh) 词槽的识别方法、装置及电子设备
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
WO2021070819A1 (ja) 採点モデル学習装置、採点モデル及び判定装置
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
JP2019015838A (ja) 音声認識システム、端末装置、及び辞書管理方法
JP2012018201A (ja) テキスト補正方法及び認識方法
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
US20210110824A1 (en) Electronic apparatus and controlling method thereof
WO2019098185A1 (ja) 発話文生成システム及び発話文生成プログラム
JPWO2018079379A1 (ja) 通信端末装置、プログラム及び情報処理方法
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
JP2020187262A (ja) 感情推定装置、感情推定システム、及び感情推定方法
JP7326596B2 (ja) 音声データ作成装置
JP7348818B2 (ja) 対話装置
CN113553413A (zh) 对话状态的生成方法、装置、电子设备和存储介质
WO2019235100A1 (ja) 対話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18878565

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019554224

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18878565

Country of ref document: EP

Kind code of ref document: A1