WO2016136062A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- WO2016136062A1 WO2016136062A1 PCT/JP2015/083232 JP2015083232W WO2016136062A1 WO 2016136062 A1 WO2016136062 A1 WO 2016136062A1 JP 2015083232 W JP2015083232 W JP 2015083232W WO 2016136062 A1 WO2016136062 A1 WO 2016136062A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- information
- response
- processing apparatus
- information processing
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 196
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000004044 response Effects 0.000 claims abstract description 277
- 238000001514 detection method Methods 0.000 claims description 51
- 230000014509 gene expression Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 description 122
- 108091027981 Response element Proteins 0.000 description 60
- 230000007613 environmental effect Effects 0.000 description 59
- 238000000034 method Methods 0.000 description 34
- 238000003058 natural language processing Methods 0.000 description 27
- 238000012790 confirmation Methods 0.000 description 26
- 239000000284 extract Substances 0.000 description 23
- 238000010191 image analysis Methods 0.000 description 23
- 238000003384 imaging method Methods 0.000 description 22
- 238000000605 extraction Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 20
- 230000004048 modification Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 244000205754 Colocasia esculenta Species 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 2
- 241000234435 Lilium Species 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241001446467 Mama Species 0.000 description 1
- 241001442654 Percnon planissimum Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Definitions
- the present disclosure relates to an information processing apparatus, an information processing method, and a program.
- Patent Document 1 discloses an example of an information processing apparatus that can instruct an intended operation to a user through a dialog with the user.
- phrases used in the dialogue there are phrases having the same meaning but different expressions (that is, phrases having different expressions) such as “3 pm” and “15:00”.
- the words used on a daily basis may differ. For this reason, when a response is output in a different expression from the words that the user uses on a daily basis, the user may feel uncomfortable with the response.
- the situation in which a dialogue with the user is performed (for example, the user's state and the surrounding environment) is not always constant, and in response to a response that the user feels more natural in a certain situation, The user may feel uncomfortable.
- an interactive user interface based on voice input is required that can realize dialogue with the user in a more natural (ie, less uncomfortable) manner according to changes in the user and the situation. Yes.
- the present disclosure proposes an information processing apparatus, an information processing method, and a program capable of controlling a response to a voice input in a more preferable manner according to a change in a user or a situation.
- an information processing apparatus including a control unit that controls output of a response to the user's utterance according to the acquired information on the user's utterance state.
- an information processing method including a processor controlling output of a response to the user's utterance according to the acquired information on the user's utterance state.
- a program that causes a computer to control output of a response to the user's utterance according to the acquired information on the user's utterance state.
- an information processing apparatus capable of controlling a response to a voice input in a more preferable aspect according to a change in a user or a situation.
- FIG. 3 is an explanatory diagram for describing an overview of an information processing apparatus according to an embodiment of the present disclosure. It is the block diagram shown about an example of the function structure of the information processing apparatus which concerns on the embodiment. It is explanatory drawing for demonstrating an example of the process based on the analysis of the meaning content which a voice input shows, and the result of the said analysis. It is explanatory drawing for demonstrating an example of the relationship between a user's state and calmness. It is explanatory drawing for demonstrating an example of the relationship between a user's state and calmness. It is explanatory drawing for demonstrating an example of the relationship between a user's state and calmness. It is explanatory drawing for demonstrating an example of the response parameter memorize
- FIG. 5 is a flowchart illustrating an example of a flow of a series of operations of the information processing apparatus according to the embodiment.
- 6 is a flowchart illustrating an example of an operation of the information processing apparatus according to the embodiment.
- 6 is a flowchart illustrating an example of an operation of the information processing apparatus according to the embodiment.
- FIG. It is explanatory drawing for demonstrating the outline
- FIG. It is explanatory drawing for demonstrating the Example of the information processing apparatus which concerns on embodiment. It is explanatory drawing for demonstrating the Example of the information processing apparatus which concerns on embodiment.
- FIG. 1 is an explanatory diagram for explaining an overview of the information processing apparatus 1 according to the present embodiment.
- the information processing apparatus 1 applies a so-called interactive user interface (UI) to input speech (hereinafter referred to as “user interface”). It may be referred to as “voice input”), and various processes can be executed based on the voice input. Specifically, the information processing apparatus 1 acquires a voice input from a user as acoustic information, and analyzes the acoustic information based on a voice recognition technology or a natural language processing technology, so that the content spoken by the user can be obtained. recognize. Then, the information processing apparatus 1 executes various processes according to the content recognized based on the voice input, and the natural sentence indicating the execution result is given to the user as voice (acoustic information) or character information (display information). Present.
- UI interactive user interface
- the information processing apparatus 1 receives the voice input c10b of “What time is London?” From the user Ub and confirms the time in London.
- Response information c11b is output as voice.
- the information processing apparatus 1 recognizes the instruction content indicated by the voice input c10b (that is, confirmation of the current time in London) based on the analysis result of the voice input c10b, for example. Then, the information processing apparatus 1 executes, for example, an application for confirming the time for each country (for example, an application that provides a timekeeping function) based on the recognition result of the instruction content indicated by the voice input c10b. Check the time. Then, the information processing apparatus 1 generates response information c11b for presenting the confirmation result as a natural sentence based on the confirmation result of the time, and outputs the response information c11b as sound.
- an application for confirming the time for each country for example, an application that provides a timekeeping function
- the information processing apparatus 1 recognizes the individual user based on the so-called personal recognition technology based on the analysis result of the voice input and information acquired other than the voice input (for example, captured image information). Various processes may be executed according to the recognition result.
- the information processing apparatus 1 receives the voice input c ⁇ b> 10 a of “Tell me about 1:00 pm tomorrow” by the user Ua, confirms the schedule of the user Ua, and the result of the confirmation Based on the above, the response information c11a “It is a meeting with Mr. Yamada in the conference room A” is output as voice.
- the information processing apparatus 1 recognizes the instruction content indicated by the voice input c10a (that is, confirmation of the schedule at 1 pm tomorrow). Further, the information processing apparatus 1 personally recognizes the user Ua based on, for example, the analysis result of the voice input c10a or the image of the user Ua separately captured by an imaging unit (not shown). Then, the information processing apparatus 1 registers with the application by executing, for example, an application for managing the schedule based on the recognition result of the instruction content indicated by the voice input c10a and the result of personal recognition of the user Ua. The schedule of the user Ua is confirmed. Then, the information processing apparatus 1 generates response information c11a for presenting the confirmation result as a natural sentence based on the confirmation result of the schedule, and outputs the response information c11a as voice.
- the user can cause the information processing apparatus 1 to execute various functions by performing a voice conversation with the information processing apparatus 1.
- words used in dialogue between people have the same meaning but different expressions such as “3 pm” and “15:00”
- the phrase that is used on a daily basis differs depending on the speaker (that is, the utterance style is different). Therefore, for example, when the information processing apparatus 1 outputs “15 o'clock” as a response indicating the time to a user who regularly utters “3:00 p.m.”, the user speaks his / her own utterance. You may feel uncomfortable with responses that differ from your style.
- Such a difference in the utterance style is not limited to the above-mentioned time designation, and a specific example is the name of a person.
- a certain user may call a person named “Taro Yamada” with a honorary name for the surname, such as “Yamada-san”.
- a person named “Taro Yamada” may be called only by name, such as “Taro”.
- the information processing apparatus 1 outputs a response in which a person named “Taro Yamada” is called with a full name such as “Taro Yamada”, the user who calls “Yamada-san” is In some cases, the response is uncomfortable.
- the situation for example, the state of the user and the surrounding environment
- the situation in which a dialogue is performed between the information processing apparatus 1 and the user is not always constant, and there are many cases where the situation dynamically changes sequentially.
- information processing apparatuses configured to be carried by users, such as smartphones, tablet terminals, and wearable terminals, have become widespread, and the information processing apparatuses include a so-called interactive UI.
- usage scenes of the information processing apparatuses that is, states or situations in which the information processing apparatuses are used
- dialogues occur between the two, and the situation may change dynamically.
- the information processing apparatus 1 controls the output mode of the response (for example, volume or speech speed) so that the user feels more natural in accordance with a predetermined situation, Below, the user may feel uncomfortable with the response.
- the information processing apparatus 1 outputs sound information indicating a response at a predetermined volume, the user feels easy to hear the response according to the volume of the environmental sound in the surrounding environment, It may be assumed that it feels difficult.
- whether or not the user feels the response output from the information processing apparatus 1 more naturally can be assumed to change depending on the state of the user.
- the information processing apparatus 1 for example, an environment around the user
- a state where the user is calm for example, a state where the user is not in a hurry. May be paying attention to. Therefore, in such a situation, when a relatively long natural sentence response is output from the information processing apparatus 1, the user may feel annoying the length of the response.
- the information processing apparatus 1 makes the user feel a more natural conversation with the user according to changes in the user and the situation (for example, the user's state and surrounding environment) (more It is intended to be able to be realized in a mode with less sense of incongruity.
- the features of the information processing apparatus 1 according to the present embodiment will be described in more detail.
- FIG. 2 is a block diagram illustrating an example of a functional configuration of the information processing apparatus 1 according to the present embodiment.
- the information processing apparatus 1 includes a control unit 10, a sound collection unit 21, a storage unit 30, and an output unit 40. Further, the information processing apparatus 1 may include the imaging unit 23. In the example illustrated in FIG. 2, the information processing apparatus 1 illustrates an example including the sound collection unit 21, the imaging unit 23, the storage unit 30, and the output unit 40, but is not necessarily limited to the same configuration. . That is, at least some of the sound collection unit 21, the imaging unit 23, the storage unit 30, and the output unit 40 may be provided outside the information processing apparatus 1.
- the sound collection unit 21 has a configuration for acquiring acoustic information such as voice input from the user and so-called environmental sounds such as ambient noise.
- the sound collection unit 21 may be configured by a sound collection device for collecting surrounding acoustic information, such as a microphone.
- the sound collection unit 21 includes a plurality of sound collection devices (for example, microphone arrays), and is configured to be able to estimate the arrival direction of the collected sound information according to the sound collection result of each sound collection device. May be.
- the sound collection unit 21 outputs the acquired acoustic information to the sound analysis unit 11 and the environmental sound analysis unit 13.
- the imaging unit 23 includes an imaging element such as a CMOS (Complementary Metal-Oxide Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and an optical system such as a lens, and is configured to capture an image of a subject. .
- the imaging unit 23 outputs the captured image to the image analysis unit 14.
- the operation related to acquisition of acoustic information by the sound collection unit 21 and the operation related to image capturing by the imaging unit 23 are performed by the control unit 10, for example. It may be controlled. As a specific example, the control unit 10 may cause the sound collection unit 21 to acquire acoustic information based on an instruction from a user via an input device (not shown). Similarly, the control unit 10 may cause the imaging unit 23 to capture an image based on an instruction from a user via an input device (not shown).
- the output unit 40 is an output interface for the information processing apparatus 1 to present information to the user.
- the output unit 40 may include, for example, an acoustic device for outputting voice and sound like a so-called speaker, and may output information to be presented to the user as voice and sound.
- the output unit 40 includes a display device such as a liquid crystal display (LCD: Liquid Crystal Display) device or an organic EL (OLED: Organic Light Emitting Diode) display, and outputs information to be presented to the user as display information. Also good.
- the control unit 10 includes a voice analysis unit 11, a response element generation unit 12, an environmental sound analysis unit 13, an image analysis unit 14, a user state estimation unit 15, a response parameter generation unit 16, and a response generation unit 17. including.
- the voice analysis unit 11 analyzes the acquired acoustic information, thereby recognizing the meaning content indicated by the voice input from the user included in the acoustic information and the characteristics of the voice input (for example, loudness, utterance) The speed (speech speed)) is extracted.
- the voice analysis unit 11 includes a voice section detection unit 111, a voice recognition unit 112, a voice feature extraction unit 113, a semantic analysis unit 114, and an utterance style detection unit 115.
- the voice section detection unit 111 acquires the collected sound information from the sound collection unit 21.
- the voice section detection unit 111 analyzes the acquired acoustic information to detect a section occupied by the voice input in the acoustic information (hereinafter, sometimes referred to as “voice section”).
- voice section a section occupied by the voice input in the acoustic information
- the method for detecting the voice section is not particularly limited as long as the voice section detection unit 111 can detect the voice section from the acquired acoustic information.
- the speech segment detection unit 111 may detect a speech segment based on the amplitude and zero crossing of the acoustic signal acquired as acoustic information.
- the audio section detection unit 111 determines the timing at which the number of zero crossings exceeds a predetermined threshold for the amplitude exceeding a predetermined level in the acoustic signal acquired as the acoustic information, at the start of the audio section. Recognize as In addition, the voice section detection unit 111 recognizes, as the end of the voice section, the timing at which the amplitude of the acoustic signal is equal to or lower than a predetermined level after the start of the voice section.
- the speech segment detection unit 111 extracts a feature amount indicating a feature of a predefined speech signal from an acoustic signal acquired as acoustic information, and starts the speech segment based on the extracted feature amount. And the end may be recognized.
- a voice section detection method based on a Gaussian mixture model can be cited.
- the voice section detection unit 111 may extract a frequency component corresponding to the voice signal from the acoustic signal acquired as the acoustic information, and may use the extracted frequency component as an analysis target.
- the speech segment detection unit 111 detects a speech segment from the acquired acoustic information, and extracts a portion corresponding to the speech segment (that is, an acoustic signal) from the acoustic information as a speech input. Then, the speech section detection unit 111 outputs the extracted speech input to the speech recognition unit 112 and the speech feature extraction unit 113.
- the voice recognition unit 112 acquires the voice input included in the collected acoustic information from the voice section detection unit 111.
- the voice recognition unit 112 converts the acquired voice input into character information by analyzing it based on the voice recognition technology. Then, the voice recognition unit 112 outputs the character information obtained by converting the voice input to the voice feature extraction unit 113 and the semantic analysis unit 114.
- the voice feature extraction unit 113 acquires a voice input included in the collected acoustic information from the voice section detection unit 111. Further, the voice feature extraction unit 113 acquires character information obtained by converting the voice input based on the voice recognition technology from the voice recognition unit 112.
- the voice feature extraction unit 113 analyzes the voice signal acquired as the voice input, and detects the volume of the voice (that is, the volume of the voice input) based on the amplitude of the voice signal, for example. Then, the voice feature extraction unit 113 outputs information indicating the detected voice volume to the external environment estimation unit 132 of the environmental sound analysis unit 13 described later.
- the voice feature extraction unit 113 also determines the speech speed based on the length of the acquired voice input (that is, the length of the utterance section) and the length of the character information converted from the voice input (for example, the number of characters). Is calculated. Then, the voice feature extraction unit 113 outputs information indicating the calculated speech speed to the user state estimation unit 15 described later.
- the semantic analysis unit 114 acquires, from the voice recognition unit 112, character information obtained by converting the voice input based on the voice recognition technology.
- the semantic analysis unit 114 performs analysis based on natural language processing technology (for example, lexical analysis (morpheme analysis), syntax analysis, semantic analysis, etc.) on the acquired character information (that is, character information obtained by converting voice input). ) To recognize the meaning content indicated by the character information (in other words, the meaning content indicated by the voice input).
- natural language processing technology for example, lexical analysis (morpheme analysis), syntax analysis, semantic analysis, etc.
- the analysis method based on the natural language processing technology is not particularly limited.
- the semantic analysis unit 114 may use a technique for recognizing the semantic content of character information based on the result of machine learning as a semantic analysis technique, or the character analysis of the character information based on a preset rule. A technique for recognizing meaning content may be used.
- various information for example, dictionary information
- the storage position is not particularly limited.
- the semantic analysis unit 114 performs a task to be executed according to a result of analysis based on the natural language processing technology for the acquired character information (hereinafter, simply described as “result of natural language processing”). And an argument for executing the task.
- FIG. 3 is an explanatory diagram for explaining an example of the analysis of the semantic content indicated by the voice input and an example of processing based on the result of the analysis, and an example of the operation of the semantic analysis unit 114 and the response element generation unit 12 described later. Show.
- FIG. 3 shows a case where the user utters “tell me the schedule for 1 pm tomorrow” to the information processing apparatus 1 in order to confirm the schedule. That is, in the example shown in FIG. 3, the semantic analysis unit 114 converts the character information “Tell me tomorrow at 1 pm” as the character information obtained by converting the voice input based on the voice recognition technology. Obtained from the recognition unit 112.
- the semantic analysis unit 114 performs an analysis based on the natural language processing technique on the acquired character information “Tell me about 1:00 pm tomorrow”, thereby performing a task to be executed based on the character information (that is, As a task for generating a response to the inquiry from the user, the “schedule confirmation” task is specified.
- the semantic analysis unit 114 extracts morphemes from the character information by performing morphological analysis on the acquired character information “Tell me the schedule for 1 pm tomorrow”.
- the semantic analysis unit 114 recognizes that the user has instructed the execution of the task “schedule confirmation” based on the keywords “schedule” and “tell me” in the extracted morphemes.
- the semantic analysis unit 114 identifies a task to be executed based on an instruction from the user, the acquired character “Tell me tomorrow at 1:00 pm” is used to obtain an argument necessary for executing the identified task. Extract from information.
- the semantic analysis unit 114 determines the date and time required to execute the “schedule confirmation” task from the result of morphological analysis on the acquired character information “tell me the schedule for 1 pm tomorrow”. As an argument indicating “”, the keyword “1 pm tomorrow” is extracted.
- words and phrases used in the dialogue between the user and the information processing apparatus 1 include words whose meaning cannot be uniquely specified only by the words or phrases.
- the phrase “tomorrow” is an expression for relatively specifying the date, and the date designated as “tomorrow” is uniquely determined by establishing a reference date such as “today”. Identified.
- the semantic analysis unit 114 confirms the date of “today” based on the calendar function or the like, The date designated as “Tomorrow” is identified based on the confirmation result of the date “Today”. For example, when the date of “today” is “2014/9/30 (ie, September 30, 2014)”, the semantic analysis unit 114 sets “2014/9” as the date designated as “tomorrow”. 10/1 (that is, October 1, 2014) ". Then, the semantic analysis unit 114 replaces the keyword “tomorrow” among the keywords extracted as arguments with the date corresponding to the identified “tomorrow”.
- information whose meaning cannot be uniquely specified only by the corresponding word / phrase is not limited to information indicating date and date / time such as “Tomorrow”, “Today”, “Tomorrow”, and “Now”.
- information indicating a position such as “here” and “current location”, can be cited.
- the semantic analysis unit 114 specifies the location information of “current location” based on GPS (Global Positioning System) and the like and extracts the keyword “current location” as an argument. May be replaced with the specified position information.
- the semantic analysis unit 114 specifies a task to be executed and an argument for executing the task according to the result of natural language processing on the acquired character information.
- the example shown above is merely an example, and the semantic analysis unit 114 recognizes the semantic content of the acquired character information (that is, the character information obtained by converting the voice input), and executes based on the recognized semantic content.
- the method is not particularly limited as long as a task to be performed and an argument for executing the task can be specified.
- the semantic analysis unit 114 outputs information indicating the identified task to be executed and an argument necessary for executing the task to the response element generation unit 12 described later.
- the semantic analysis unit 114 also sends the results of natural language processing (for example, results of lexical analysis (morpheme analysis), syntax analysis, semantic analysis, etc.) to the utterance style detection unit 115 for the character information obtained by converting the speech input. Output.
- the utterance style detection unit 115 acquires the result of natural language processing on the character information obtained by converting the voice input from the semantic analysis unit 114. Based on the acquired natural language processing result, the utterance style detection unit 115 uses words or phrases that may be used differently depending on changes in the user or situation from the character information obtained by converting the voice input. (It may be described as “specific expression”).
- proper expressions include proper nouns such as names of people and places, and phrases having different expressions such as dates and times.
- the phrase “tomorrow” can be expressed as “tomorrow”, “tomorrow”, and “myonichi”, and which expression is used may vary depending on the user. is there.
- the person named “Taro Yamada” differs depending on the user, such as “Yamada-san”, “Taro”, “Yamada Taro”, etc.
- An expression may be used.
- the utterance style detection unit 115 extracts a specific expression from the character information based on the result of natural language processing on the character information obtained by converting the voice input.
- the phrase extracted by the utterance style detection unit 115 as a specific expression is not necessarily a proper noun such as a person name or a place name, as long as the expression used may vary depending on a change in user or situation. It is not limited to date, time, or the like.
- the utterance style detection unit 115 may extract a phrase corresponding to a so-called dialect as a specific expression.
- the utterance style detection unit 115 uses, as information indicating the utterance style, a unique parameter extracted from the character information based on the result of natural language processing on the character information obtained by converting the voice input, and a response parameter generation unit 16 to be described later. Output to.
- the environmental sound analysis unit 13 is a configuration for extracting the environmental sound in the surrounding environment by analyzing the acquired acoustic information and extracting features of the environmental sound. In this description, the environmental sound analysis unit 13 extracts the “noise level” indicating the degree of the volume of noise in the surrounding environment relative to the volume of the sound input as an example of the environmental sound. The operation of the sound analysis unit 13 will be described.
- the environmental sound analysis unit 13 includes an environmental sound recognition unit 131 and an external environment estimation unit 132.
- the environmental sound recognition unit 131 acquires the collected acoustic information from the sound collection unit 21.
- the environmental sound recognizing unit 131 extracts the environmental sound (that is, acoustic information other than the voice input) from the acoustic information by analyzing the acquired acoustic information.
- the method for extracting the environmental sound is not particularly limited as long as the environmental sound recognizing unit 131 can extract the environmental sound from the acquired acoustic information.
- the environmental sound recognizing unit 131 detects the direction (in other words, the arrival direction of the target sound) in which the user (that is, the speaker) is located with respect to the information processing apparatus 1, and the blind spot ( form a filter with null beam). Then, the environmental sound recognizing unit 131 applies the formed filter to the acoustic information collected by the sound collecting unit 21, so that other acoustic information other than the voice input from the user is obtained from the acoustic information. May be extracted as an environmental sound.
- the method is not particularly limited as long as the environmental sound recognition unit 131 can identify the direction in which the user is located with respect to the information processing apparatus 1.
- the direction in which the user is positioned with respect to the information processing apparatus 1 may be detected based on the position of the user in the image acquired as an analysis result of the image captured by the imaging unit 23.
- the direction in which the user is positioned with respect to the information processing apparatus 1 may be detected based on the arrival direction of the acoustic information collected by the sound collection unit 21.
- the information processing apparatus 1 is used in a limited state depending on the state of attachment to the user, such as a so-called wearable terminal, information based on the attachment state
- the direction in which the user is located with respect to the processing device 1 may be specified.
- the environmental sound recognition unit 131 extracts a frequency component other than the audio signal from the acoustic signal acquired as the acoustic information, and uses the extracted frequency component for analysis for extracting the environmental sound. It may be a target.
- the environmental sound recognition unit 131 detects the volume of the environmental sound by analyzing the acoustic signal of the environmental sound extracted from the acoustic information.
- the environmental sound recognition unit 131 may detect the volume of the environmental sound based on the amplitude of the acoustic signal. Then, the environmental sound recognizing unit 131 outputs information indicating the detected volume of the environmental sound to the external environment estimating unit 132 as information indicating the volume of the noise.
- the external environment estimation unit 132 acquires information indicating the volume of noise from the environmental sound recognition unit 131.
- the external environment estimation unit 132 acquires information indicating the volume of the voice (that is, the volume of the voice input) from the voice feature extraction unit 113 of the voice analysis unit 11.
- the external environment estimation unit 132 uses a voice input from the user as a target sound, and calculates a numerical value (for example, an SN ratio) indicating the volume of the noise with respect to the volume of the target sound (that is, the volume of the voice). Calculated as noise level.
- the external environment estimation unit 132 outputs information indicating the calculated noise level to the response parameter generation unit 16 described later.
- the image analysis unit 14 is configured to perform image analysis on a captured image, thereby recognizing a user captured in the image based on the result of the image analysis, and acquiring information about the user. It is.
- the image analysis unit 14 acquires an image of the subject imaged by the imaging unit 23.
- the image analysis unit 14 performs image analysis on the acquired image, and extracts a captured user from the image based on the result of the image analysis.
- the method is not particularly limited as long as it is possible to extract the user who has been captured from the image at this time.
- the image analysis unit 14 extracts a characteristic shape unique to a person such as a person's face or a body part such as a hand or a foot from an image to be processed.
- the captured user may be extracted from the image.
- the image analysis unit 14 recognizes the user by performing an analysis process based on a so-called personal recognition technique on the user extracted from the image.
- a personal recognition technique based on an image for example, a technique for recognizing an individual user based on an image of a user's face can be given.
- the method is not particularly limited.
- various information for example, dictionary information, etc. for recognizing the individual user based on the result of image analysis on the acquired image is omitted in FIG. 2, but can be read by the image analysis unit 14. As long as it is stored in advance at any position, the storage position is not particularly limited.
- the image analysis unit 14 estimates information on the user and information about the user (for example, attribute information) such as the user's posture, age, and sex based on the result of image analysis on the acquired image. Also good.
- the image analysis unit 14 estimates the analysis result of the acquired image, that is, the recognition result of the individual user captured in the image, information on the user, such as the posture, age, and sex. The result is output to the user state estimation unit 15 described later.
- the user state estimation unit 15 is a configuration for estimating various states of the user based on various pieces of acquired information such as the analysis result of the captured image and the analysis result of the acquired voice input.
- the user state estimation unit 15 determines whether the user's psychological state (specifically, whether the user is calm or not) based on the analysis result of the captured image and the analysis result of the acquired voice input.
- the operation of the user state estimator 15 will be described by taking as an example the case of calculating the “degree of calmness” that is a parameter for determining whether or not.
- the user state estimation unit 15 adds or subtracts a preset initial value of the degree of calmness according to the analysis result of the captured image or the user state recognized based on the acquired voice input analysis result. (In other words, by weighting), the degree of calmness of the user is calculated.
- FIGS. 4 to 6 are explanatory diagrams for explaining an example of the relationship between various states of the user and the degree of calmness.
- FIG. 4 is a diagram illustrating an example of the relationship between the posture of the user recognized based on the analysis result of the captured image and the degree of calmness.
- the user state estimation unit 15 can easily recognize that the user is in a calm state. Add calmness.
- the user state estimation unit 15 subtracts the degree of calm so that the user is easily recognized as being in a hurry state.
- the user's posture is “lie down”, it is recognized that the user is more relaxed than in the “sitting” state.
- a value larger than the addition value in the “sitting” state is set as the addition value in the “lie down” state.
- FIG. 5 is a diagram showing an example of the relationship between the speech speed of the voice input recognized based on the acquired voice input analysis result and the degree of calmness.
- the user state estimation unit 15 uses the case where the speech speed is “4-6 characters / second” as a speech speed reference value, and the case where the speech speed is slower than the reference value (that is, the speech speed). Is “less than 4 characters / second”), the degree of calm is added so that the user can easily recognize a calm state.
- the user state estimation unit 15 can easily recognize that the user is in a rushing state when the speaking speed is faster than the reference value (that is, when the speaking speed is “7 characters / second or more”). So subtract calmness.
- FIG. 6 is a diagram showing an example of the relationship between the user's action (in other words, the user's action) and the degree of calmness.
- an example of the addition / subtraction value of the calmness degree is shown for each of the case where the user is “stopped”, “walked”, and “running”.
- the user state estimation unit 15 adds the degree of calm so that the user can be easily recognized as being in a calm state.
- the user state estimation unit 15 subtracts the degree of calm so that the user is easily recognized as being in a hurry state. Yes.
- the user when the user is “running”, the user can recognize that the user is in a hurry state compared with the case of “walking”.
- As a subtraction value for “when walking”, a value larger than the subtraction value for “walking” is set.
- the method is not particularly limited as long as the user state estimation unit 15 can estimate the user's action (user's action).
- the user state estimation unit 15 includes various sensors (for example, acceleration) for detecting changes in the position and orientation of a casing (for example, the information processing apparatus 1 configured as a wearable terminal) carried by the user.
- the user's behavior may be estimated based on the detection result of the sensor or the angular velocity sensor.
- the user state estimation unit 15 estimates a user's action (for example, whether or not the user is moving) based on a change in position information of a casing carried by the user detected by GPS or the like. Also good.
- the user state estimation unit 15 performs, for example, “settlement” based on at least a part of the recognized information among “user posture”, “speech speed of voice input”, and “user action”. "Degree” is calculated.
- the “user posture”, “speech speed of voice input”, And the user state of “user behavior” is associated.
- the user state estimation unit 15 is directly detected (estimated) based on acquired information such as “user posture”, “speech speed of voice input”, and “user behavior”. It is possible to manage the user status as an abstracted user status rather than “degree of calm”.
- the user state estimation unit 15 has a “degree of calmness” in a plurality of states in which at least one of “user posture”, “speech speed of voice input”, and “user behavior” is different. Can be recognized as the same state.
- the user state estimation unit 15 may dynamically switch the initial value of the degree of calm and the addition / subtraction value of the degree of calm according to the recognized state for each user according to the recognition result of the individual user.
- the user's normal state that is, a reference) State
- the user state estimation unit 15 may calculate the addition / subtraction value of the degree of calm for each user based on the recognized relative values of the various states of the user based on the normal state.
- the user state estimation unit 15 estimates the “degree of calmness” as the user state has been described as an example.
- the user state estimated by the user state estimation unit 15 is not necessarily “the degree of calmness”. It goes without saying that it is not limited to ".” That is, if the user's state can be estimated based on various types of acquired information such as the analysis result of the captured image and the analysis result of the acquired voice input, the state of the user to be estimated is There is no particular limitation.
- the user state estimation unit 15 outputs information indicating the estimated user state (for example, calmness level) to the response parameter generation unit 16. At this time, the user state estimation unit 15 outputs information related to the user such as the acquired estimation result of “user's age and gender” and “recognition result of individual user” to the response parameter generation unit 16. Also good.
- the user state estimation unit 15 estimates the user state mainly based on the analysis result of the image and the analysis result of the voice input.
- the configuration is not necessarily limited to the same configuration. Absent. That is, information that can be acquired by the information processing apparatus 1 such as an image, voice input, or detection results by various sensors, and if the user's state can be estimated based on the information, the user's state
- the type of information used for estimation is not particularly limited.
- the response parameter generation unit 16 relates to the detected user state, situation, or characteristic (for example, language characteristic) such as the detection result of the user's external environment, information indicating the user's state, and the user's speech style. This is a configuration for generating response parameters based on information and managing the response parameters.
- the response parameter generation unit 16 utters the unique expression extracted from the character information based on the result of the natural language processing on the character information obtained by converting the voice input from the utterance style detection unit 115 of the speech analysis unit 11. Acquired as information indicating the style.
- the response parameter generation unit 16 acquires information indicating the noise level (in other words, a detection result of the user's external environment) from the external environment estimation unit 132 of the environmental sound analysis unit 13.
- the response parameter generation unit 16 receives information from the user state estimation unit 15 such as “degree of calmness”, “user age and gender”, “user personal recognition result”, etc. Get information about.
- the response parameter generation unit 16 has information about the detected user state, situation, or characteristic (for example, language characteristic) (hereinafter, sometimes referred to as “information about the user's speech state”). To get. And the response parameter production
- the acquired “information about the user's utterance state” includes transient information that changes depending on the situation, such as “detection result of user's external environment” and “user state”. , Continuous information indicating user characteristics such as “user's utterance style”.
- the response parameter generation unit 16 stores the response parameter based on continuous information indicating user characteristics such as “user utterance style” among the acquired “information on the user utterance state”. You may accumulate in The storage unit 30 is a storage unit for storing response parameters generated based on “information related to the user's speech state”.
- FIG. 7 is an explanatory diagram for explaining an example of response parameters stored as continuous information, and shows an example of response parameters based on “user utterance style”.
- the response parameter d10 indicating “user's utterance style” includes personal name call data d11 and a date / time expression pattern d13, and is generated and managed for each user using the user ID as an identifier.
- the personal name designation data d11 is data for managing an utterance style relating to the designation of a personal name, and stores “official name” and “nominal name” corresponding to the “official name” in association with each person.
- the date / time expression pattern d13 is data for managing the expression of the calendar and time.
- the date and time expression pattern d13 stores information indicating that it is called in the Japanese calendar as information indicating the expression related to the calendar.
- the date and time expression pattern d13 distinguishes between “am” and “afternoon” as information indicating the expression related to time. Information indicating that to do is stored.
- the response parameter generation unit 16 generates a response parameter d10 based on the acquired information indicating the “user's utterance style”, and stores the response parameter d10 for each user who has recognized the response parameter d10 according to the acquired recognition result of the individual user. Accumulate in unit 30.
- the response parameter generation unit 16 notifies the response generation unit 17 of a name corresponding to the utterance style of the voice input speaker based on an instruction from the response generation unit 17 described later. Good.
- the response parameter generation unit 16 is instructed by the response generation unit 17 to notify the name corresponding to “Taro Yamada”.
- the response parameter generation unit 16 extracts the response parameter d10 corresponding to the user (that is, the speaker) from the storage unit 30 based on the acquired recognition result of the individual user.
- the response parameter generation unit 16 refers to the person name call data d11 of the extracted response parameter d10, so that the “name” of the person whose “official name” is “Taro Yamada” is “Mr. Yamada”. Recognize and notify the response generation unit 17 of information indicating “name” “Mr. Yamada”.
- the response generation unit 17 can generate a response in which the person “Taro Yamada” is called “Mr. Yamada” in accordance with the utterance style of the speaker.
- the response parameter generation unit 16 temporarily sets “Taro Yamada” temporarily in accordance with the name “Mr. Yamada” included in the voice input based on the acquired information indicating the utterance style. May be recognized as “Mr. Yamada Taro”. As another example, the response parameter generation unit 16 also changes the name of the person “Taro Yamada” to “Yamada-san” in accordance with the utterance style that the user uses on a daily basis. You may call it. Note that the response parameter generation unit 16 may be configured to switch which one of the operations described above is selected based on a prior user setting.
- the response element generation unit 12 is a configuration for acquiring information necessary for generating a response to a query from a user acquired as a voice input.
- the response element generation unit 12 means information indicating a task to be executed and an argument necessary for executing the task, specified based on a result of natural language processing on the character information obtained by converting the voice input. Obtained from the analysis unit 114.
- the response element generation unit 12 executes the task indicated by the information acquired from the semantic analysis unit 114 using the acquired argument as input information, and information necessary for generating a response to the user as an execution result of the task To get.
- the response element generation unit 12 causes the application for managing the schedule to search for a schedule corresponding to the search key using “2014/10/1 13:00” specified as an argument as a search key. .
- the response element generation unit 12 may acquire the personal recognition result of the user who uttered the voice input, and add the acquired personal recognition result to the search key for searching the schedule.
- the response element generation unit 12 acquires the search result of the schedule corresponding to the search key from the application for managing the schedule.
- the response element generation unit 12 has the information “A meeting in the conference room A” registered as “Title” and “Participant” registered as “Participant” as the search result of the schedule.
- the information “Taro Yamada” has been acquired.
- the response element generation unit 12 uses the information acquired as the search result as a response element for generating a response to the voice input from the user, information indicating the response element, and information indicating the executed task, It outputs to the response generation part 17 mentioned later.
- the response element generation unit 12 indicates information used as a search key (for example, “2014/10/1 13:00” indicating the date and time) as a response element. You may output to the response generation part 17 as information.
- the response generation unit 17 is a configuration for generating a response to voice input from the user.
- the response generation unit 17 acquires information indicating a response element for generating a response to a voice input from the user and information indicating a task executed to acquire the response element from the response element generation unit 12 To do.
- the response generation unit 17 transmits information indicating the acquired response element to the response parameter generation unit 16, and acquires information indicating the name of the response element from the response parameter generation unit 16 according to the user's utterance style.
- the response generation unit 17 has acquired information “Taro Yamada” indicating a personal name as information indicating a response element.
- the response generation unit 17 acquires information indicating the name “Mr. Yamada” from the response parameter generation unit 16 as information indicating the name of the person “Taro Yamada” according to the user's utterance style. To do.
- the response generation unit 17 acquires information “13:00” indicating time as information indicating a response element.
- the response generation unit 17 uses information indicating the name “1:00 pm” as the information indicating the name of the time “13:00” corresponding to the user's utterance style. Get from.
- the response generation unit 17 recognizes the content of the inquiry from the user based on the voice input based on the information indicating the acquired task.
- the response generation unit 17 inputs a voice message “Tell me about 1:00 pm tomorrow” based on the acquired information indicating the task.
- the task for “schedule confirmation” has been executed.
- the response generation unit 17 generates information (for example, character information) indicating the response content based on the recognition result of the executed task and the name corresponding to the user's utterance style corresponding to the response element.
- information for example, character information
- the response generation unit 17 recognizes that the task for “schedule confirmation” has been executed based on the acquired information indicating the task, the result of “schedule confirmation” is sent to the user. Generate a response template to present. And the response production
- the response generation unit 17 creates a response model “A meeting with Taro Yamada in the conference room A” as a response to the prominent voice of “Tell me the schedule for 1 pm tomorrow”. Then, the response generation unit 17 replaces the response element in the created template with a name corresponding to the acquired response element. That is, in the example shown above, the response generation unit 17 replaces the response element indicating the person name “Taro Yamada” with the name “Mr. Yamada” according to the user's utterance style, The information indicating the response content “A meeting is in meeting room A” is generated.
- the response generation unit 17 sets the information indicating the dates “2014/9/30” and “2014/10/1” to relative dates such as “today”, “tomorrow”, “the day after tomorrow”, and the like. Instead of the expression shown in the above, information indicating the response content may be generated.
- the response generation unit 17 responds to the probable voice of “Tell me the schedule for 1 pm tomorrow” with “Taro Yamada and A meeting room from 2014/10/1 13:00. It is assumed that a response template “It is a meeting” has been created. In this case, the response generation unit 17 sets the response element indicating “13:00” and time and the response element indicating the personal name “Taro Yamada” to “1 pm” according to the user's utterance style. Replaced with the name “Mr. Yamada”. Further, the response generation unit 17 may replace the response element indicating the date “2014/10/1” with the name “Tomorrow” in accordance with the voice input expression (in other words, the utterance style). That is, in this case, the response generation unit 17 generates information indicating the content of the response that “It is a meeting with Mr. Yamada from the meeting room A from 1:00 pm tomorrow”.
- the response generation unit 17 may change a part of the information to be output as the response content based on the acquired response element.
- the response generation unit 17 When the information indicating the response content is generated, the response generation unit 17 causes the output unit 40 to output information indicating the response content. At this time, the response generation unit 17 generates a voice signal that utters the response content from the character information indicating the response content based on, for example, a voice synthesis technique, and causes the output unit 40 to output the voice signal. Also good. Moreover, the response generation part 17 may make the output part 40 output the character information which shows the response content as display information.
- the response generation unit 17 indicates the user's utterance state during the dialogue between the user and the information processing apparatus 1 such as the “noise level” of the environment around the user or the “degree of calmness” of the user.
- Information (that is, transient information) may be acquired from the response element generation unit 12.
- the response generation unit 17 may control the output mode of the response according to the acquired information.
- the response generation unit 17 may control the volume of the acoustic information output as a response according to the acquired information indicating the “noise level”.
- the response generation unit 17 may control the output mode of the response according to the acquired information indicating the “noise level”. Specifically, the response generation unit 17 performs control so that the response is output as acoustic information when the “noise level” is equal to or less than a predetermined threshold, and the “noise level” exceeds the predetermined threshold. May be controlled so that a response is output as display information.
- the response generation unit 17 may control the amount of information output as a response according to the acquired information indicating the “degree of calmness”.
- the information processing apparatus 1 may be configured to output additional information related to the response content in addition to the information indicating the response content in response to the voice input from the user.
- the response generation unit 17 may control whether or not to output additional information according to the acquired information indicating the “degree of calmness”.
- a response to present “Transfer information for going to Tokyo Station” is generated as information indicating the response content. It is assumed that information for presenting “weather around Tokyo Station” is generated as additional information.
- the response generation unit 17 may cause the output unit 40 to output only “transfer information for going to Tokyo Station” indicating the response content.
- the response generation unit 17 adds “information on the weather around Tokyo Station”, which is additional information, in addition to “transfer information for going to Tokyo Station” indicating the response content. May be output to the output unit 40.
- the response generation unit 17 may acquire information regarding other users associated with the user as additional information.
- the response generation unit 17 adds the location of the user's relatives (eg, whereabouts, etc.) in addition to the weather around the user and the user's destination. ) May be output to the output unit 40 as additional information.
- the response generation unit 17 may output a link such as a URL of a site that provides the information as additional information. .
- the response element generation unit 12 described above executes a task, a search key acquired from voice input, an acquired response element, and the like. Based on the above, it is possible to generate by executing a new task.
- the response element generation unit 12 executes a task for confirming the weather based on the information “Tokyo Station” used as a search key to acquire a response element indicating transfer information. A response element indicating “weather around Tokyo station” may be acquired separately.
- the response generation unit 17 may control the information content itself of the response content with respect to the inquiry from the user.
- the response generation unit 17 notifies the information according to the estimation result of “degree of calmness” when “confirmation of received mail” or “confirmation of distributed news” is instructed by the user.
- the method may be switched between title-only notification, summary notification, and full-text notification.
- the response generation unit 17 may control the degree of detail of the information notified to the user according to the estimation result of the “degree of calm”.
- the response generation unit 17 may present additional information according to the user's utterance state regardless of whether there is an inquiry from the user. As a specific example, it is assumed that the response generation unit 17 recognizes that the user is calm after presenting a route to the destination in response to an inquiry from the user. In this case, the response generation unit 17 may present information on other spots (so-called detour information) existing in the route to the destination as additional information.
- the response generation unit 17 may suppress the presentation of the additional information, and whether or not the additional information is presented according to the change in the degree of calmness of the user. May be switched dynamically. Moreover, it cannot be overemphasized that the response production
- the response generation unit 17 may perform control so that information indicating the response content in different expressions is output according to the acquired information indicating the “degree of calmness”.
- the response generation unit 17 uses a natural sentence “the weather around Tokyo Station is sunny” as information indicating “the weather around Tokyo Station”. Information indicating response contents is generated.
- the response generation unit 17 indicates the response content more simply as “sunny” as information indicating “weather around Tokyo station”. Information may be generated.
- the response generation unit 17 obtains information indicating the estimated result of the recognized “age” of the user from the response element generation unit 12, and outputs a response according to the estimation result of the “age” of the user.
- the aspect may be controlled. Specifically, when the response generation unit 17 recognizes that the user is an elderly person from the estimation result of “age”, the response output speed (for example, the speech speed of voice output or the output speed of display information) ) May be controlled to be slower.
- the response generation unit 17 may control the frequency band of the audio signal (acoustic signal) output as a response to the audio input according to the estimation result of the “age” of the user.
- the response generation unit 17 may estimate the environment where the user's utterance is performed based on the user's position information, and may control the output mode of the response based on the estimation result. As a specific example, the response generation unit 17 improves the sound quality of the acoustic information output as a response when the user is at home, and saves the battery when the user is away from home. In order to do so, the sound quality of the acoustic information may be temporarily reduced.
- the response generation unit 17 may control the output mode of the response according to the power supply source for driving the information processing apparatus 1 or the state of the power supply source.
- the response generation unit 17 temporarily changes the sound quality of the acoustic information output as a response in order to save the battery. It may be lowered. Further, the response generation unit 17 may temporarily reduce the sound quality of the acoustic information output as a response when the remaining amount of the battery becomes less than a predetermined value.
- the response generation unit 17 described above controls the output mode according to the information related to the user's utterance state (ie, transient information) (for example, response volume, response speech speed, and output). At least a part of the information amount or the like may be switched between valid and invalid based on a user's previous setting. Of course, the validity and invalidity of each control of the output mode described above may be selectively controlled based on a user's previous setting.
- the functional configuration described above is merely an example, and is not necessarily limited to the same configuration.
- a part of the configuration of the control unit 10 may be provided in an external device different from the information processing device 1.
- the type and form of the information processing apparatus 1 are not particularly limited, and functions and configurations may be added according to the type and form.
- the type and usage form of the information processing apparatus 1 are not particularly limited.
- the information processing apparatus 1 may be configured to be carried by the user, such as a so-called smartphone, tablet terminal, and wearable terminal.
- the information processing apparatus 1 may be configured as an information device such as a so-called personal computer, or may be configured as various home appliances such as a television receiver.
- FIG. 8 is a flowchart illustrating an example of a flow of a series of operations of the information processing apparatus 1 according to the present embodiment.
- Step S101 First, acoustic information such as voice input from a user or so-called environmental sound such as ambient noise is acquired, and the acquired acoustic information is output to the voice analysis unit 11 and the environmental sound analysis unit 13.
- the voice section detection unit 111 of the voice analysis unit 11 acquires the collected sound information from the sound collection unit 21.
- the voice section detection unit 111 detects the voice section in the acoustic information by analyzing the acquired acoustic information.
- the voice section detection unit 111 extracts a portion corresponding to the voice section (that is, an acoustic signal) from the acquired acoustic information as a voice input.
- the speech section detection unit 111 outputs the extracted speech input to the speech recognition unit 112 and the speech feature extraction unit 113.
- the voice recognition unit 112 acquires the voice input included in the collected acoustic information from the voice section detection unit 111, and converts the acquired voice input into character information by analyzing the voice input based on the voice recognition technology. Then, the voice recognition unit 112 outputs the character information obtained by converting the voice input to the voice feature extraction unit 113 and the semantic analysis unit 114.
- the voice feature extraction unit 113 acquires a voice input included in the collected acoustic information from the voice section detection unit 111. Further, the voice feature extraction unit 113 acquires character information obtained by converting the voice input based on the voice recognition technology from the voice recognition unit 112.
- the voice feature extraction unit 113 analyzes the voice signal acquired as the voice input, and detects the volume of the voice (that is, the volume of the voice input) based on the amplitude of the voice signal, for example. Then, the voice feature extraction unit 113 outputs information indicating the detected voice volume to the external environment estimation unit 132 of the environmental sound analysis unit 13.
- the voice feature extraction unit 113 also determines the speech speed based on the length of the acquired voice input (that is, the length of the utterance section) and the length of the character information converted from the voice input (for example, the number of characters). Is calculated. Then, the voice feature extraction unit 113 outputs information indicating the calculated speech speed to the user state estimation unit 15.
- the semantic analysis unit 114 acquires, from the voice recognition unit 112, character information obtained by converting the voice input based on the voice recognition technology.
- the semantic analysis unit 114 performs natural language processing on the acquired character information (i.e., character information obtained by converting the voice input), thereby performing the semantic content indicated by the character information (in other words, the meaning indicated by the voice input). Content).
- the semantic analysis unit 114 performs a task to be executed according to a result of analysis based on the natural language processing technology for the acquired character information (hereinafter, simply described as “result of natural language processing”). And an argument for executing the task.
- the semantic analysis unit 114 determines from the user based on the keywords “schedule” and “tell me” included in the character information. It is recognized that the execution of the “schedule confirmation” task is instructed. The semantic analysis unit 114 extracts the keyword “1 pm tomorrow” as an argument indicating the date and time necessary for executing the “schedule confirmation” task from the acquired character information. At this time, the semantic analysis unit 114, for example “10/1”, can be used to identify a meaning that cannot be uniquely specified only by the corresponding word / phrase, such as “Tomorrow”, “Today”, and “Tomorrow”. Alternatively, it may be converted into information indicating the actual date.
- the semantic analysis unit 114 outputs information indicating the identified task to be executed and an argument necessary for executing the task to the response element generation unit 12 described later.
- the semantic analysis unit 114 also sends the results of natural language processing (for example, results of lexical analysis (morpheme analysis), syntax analysis, semantic analysis, etc.) to the utterance style detection unit 115 for the character information obtained by converting the speech input. Output.
- the response element generation unit 12 means information indicating a task to be executed and an argument necessary for executing the task, specified based on a result of natural language processing on the character information obtained by converting the voice input. Obtained from the analysis unit 114.
- the response element generation unit 12 executes the task indicated by the information acquired from the semantic analysis unit 114 using the acquired argument as input information, and information necessary for generating a response to the user as an execution result of the task To get.
- the response element generation unit 12 uses “2014/10/1 13:00” specified as an argument to the application for managing the schedule as a search key in order to execute the “schedule confirmation” task.
- the schedule corresponding to the search key is searched.
- generation part 12 acquires the search result of the schedule corresponding to a search key from the said application.
- the response element generation unit 12 acquires the information “Meeting in the meeting room A” registered as “Title” and the information “Taro Yamada” registered as “Participant” as the search result of the schedule. To do.
- the response element generation unit 12 uses the information acquired as the search result as a response element for generating a response to the voice input from the user, information indicating the response element, and information indicating the executed task, It outputs to the response generation part 17 mentioned later.
- the utterance style detection unit 115 acquires the result of natural language processing on the character information obtained by converting the voice input from the semantic analysis unit 114. Based on the acquired natural language processing result, the utterance style detection unit 115 uses a phrase (that is, a unique phrase) that may be used depending on a change in a user or a situation from character information obtained by converting voice input. Expression).
- a phrase that is, a unique phrase
- the utterance style detection unit 115 uses, as information indicating the utterance style, a unique parameter extracted from the character information based on the result of natural language processing on the character information obtained by converting the voice input, and a response parameter generation unit 16 to be described later. Output to.
- the environmental sound analysis unit 13 extracts the environmental sound in the surrounding environment by analyzing the acquired acoustic information, and extracts features of the environmental sound. For example, the environmental sound analysis unit 13 extracts the “noise level” as the characteristic of the environmental sound based on the volume of each of the voice input and the environmental sound.
- FIG. 9 is a flowchart showing an example of the operation of the information processing apparatus 1, and shows an example of processing when the information processing apparatus 1 extracts the “noise level” as a feature of the environmental sound.
- the environmental sound recognition unit 131 of the environmental sound analysis unit 13 acquires the collected acoustic information from the sound collection unit 21.
- the environmental sound recognition unit 131 detects the direction in which the user is located with respect to the information processing apparatus 1 (in other words, the arrival direction of the target sound).
- the method is not particularly limited as long as the direction in which the user is positioned with respect to the information processing apparatus 1 can be detected.
- the environmental sound recognition unit 131 is positioned with respect to the information processing apparatus 1 based on the position of the user in the image acquired as an analysis result of the image captured by the imaging unit 23. The direction may be detected.
- the arrival direction of the collected sound information can be changed according to the sound collection result of each sound collection device.
- the information processing apparatus 1 may be configured.
- Step S203 and S205 Next, the environmental sound recognition unit 131 forms a filter having a blind beam in the direction in which the user is positioned with respect to the information processing apparatus 1 (step S203). Then, the environmental sound recognizing unit 131 applies the formed filter to the acoustic information collected by the sound collecting unit 21, so that other acoustic information other than the voice input from the user is obtained from the acoustic information. Are extracted as environmental sounds (step S205).
- Step S207 the environmental sound recognizing unit 131 detects the volume of the environmental sound based on the amplitude of the acoustic signal, for example, by analyzing the acoustic signal of the environmental sound extracted from the acoustic information. Then, the environmental sound recognizing unit 131 outputs information indicating the detected volume of the environmental sound and information indicating the volume of the noise to the external environment estimating unit 132.
- the external environment estimation unit 132 acquires information indicating the volume of noise from the environmental sound recognition unit 131.
- the external environment estimation unit 132 acquires information indicating the volume of the voice (that is, the volume of the voice input) from the voice feature extraction unit 113 of the voice analysis unit 11.
- the external environment estimation unit 132 uses a voice input from the user as a target sound, and calculates a numerical value (for example, an SN ratio) indicating the volume of the noise with respect to the volume of the target sound (that is, the volume of the voice). Calculated as noise level.
- the external environment estimation unit 132 outputs information indicating the calculated noise level to the response parameter generation unit 16.
- Step S300 the information processing apparatus 1 estimates various states of the user based on various information acquired such as a voice input from the user and a captured user image. Therefore, with reference to FIG. 10, an example of the operation when the information processing apparatus 1 estimates the “degree of calmness” of the user based on the acquired various information will be described below.
- FIG. 10 is a flowchart illustrating an example of the operation of the information processing apparatus 1, and illustrates an example of processing when the information processing apparatus 1 estimates “degree of calmness” as the user state.
- Step S311 the image analysis unit 14 performs image analysis on the captured image, and based on the result of the image analysis, the user's state, such as the user's posture, age, and sex, and the user Information (for example, attribute information) is estimated.
- the image analysis unit 14 may personally recognize the user imaged in the image by performing an analysis process based on a so-called personal recognition technique on the captured image.
- the image analysis unit 14 estimates the analysis result of the acquired image, that is, the recognition result of the individual user captured in the image, information on the user, such as the posture, age, and sex. The result is output to the user state estimation unit 15.
- the user state estimation unit 15 acquires an estimation result of the user state and information related to the user based on the analysis result of the image captured from the image analysis unit 14, and the acquired estimation result (for example, an estimation result of the user posture) ) To specify a weight (that is, an addition / subtraction value) for calculating the “degree of calmness” of the user.
- the user state estimation unit 15 is in a state where the user is calm when the user's posture is “sitting” or “lie down”.
- a weight is specified as an added value of the degree of calmness so that objects can be easily recognized.
- the user state estimating unit 15 specifies the subtraction value of the calmness level as a weight so that the user is easily recognized as being in a hurry state. .
- Step S321 the user state estimation unit 15 acquires information indicating the speech speed of the speech input recognized based on the analysis result of the speech input from the speech feature extraction unit 113, and based on the acquired information indicating the speech speed, A weight (that is, an addition / subtraction value) for calculating the “degree of calmness” may be specified.
- the user state estimation unit 15 uses the case where the speech speed is “4-6 characters / second” as a speech speed reference value, and the speech speed is slower than the reference value.
- the weight is specified as the added value of the calmness level so that the user can easily recognize a calm state.
- the user state estimation unit 15 can easily recognize that the user is in a rushing state when the speaking speed is faster than the reference value (that is, when the speaking speed is “7 characters / second or more”). In this way, the subtraction value of the calmness level is specified as the weight.
- the user state estimation unit 15 may identify the weight (that is, the addition / subtraction value) for calculating the “degree of calmness” of the user based on the estimation result of the user's action according to the detection result of various sensors. Good.
- the user state estimation unit 15 adds the degree of calm so that the user can be easily recognized as being in a calm state. Specify the weight as a value. In addition, when the user is “walking” or “running”, the user state estimation unit 15 sets the subtraction value of the calm degree so that the user is easily recognized as being in a hurry state. Specify as weight.
- Step S340 the user state estimation unit 15 performs, for example, “settlement” based on at least a part of the recognized information among “user posture”, “speech speed of voice input”, and “user action”.
- a weight that is, an addition / subtraction value for calculating “degree” is specified.
- the user state estimation part 15 calculates a user's calmness degree by applying the specified weight with respect to the initial value of the calmness degree set beforehand.
- the user state estimation unit 15 outputs information indicating the estimated user state (for example, calmness level) to the response parameter generation unit 16.
- the user state estimation unit 15 may output information about the user, such as an estimation result of “user's age and gender” and a “user personal recognition result”, to the response parameter generation unit 16. .
- the response parameter generation unit 16 detects the user's external environment, information indicating the user's state, and the user's utterance style, etc. Alternatively, a response parameter is generated based on information on characteristics (for example, language characteristics).
- the acquired “information about the user's utterance state” includes transient information that changes depending on the situation, such as “detection result of user's external environment” and “user state”. , Continuous information indicating user characteristics such as “user's utterance style”.
- the response parameter generation unit 16 stores the response parameter based on continuous information indicating user characteristics such as “user utterance style” among the acquired “information on the user utterance state”. You may accumulate in
- the response generation unit 17 acquires information indicating a response element for generating a response to a voice input from the user and information indicating a task executed to acquire the response element from the response element generation unit 12 To do.
- the response generation unit 17 transmits information indicating the acquired response element to the response parameter generation unit 16, and acquires information indicating the name of the response element from the response parameter generation unit 16 according to the user's utterance style.
- the response generation unit 17 recognizes the content of the inquiry from the user based on the voice input based on the information indicating the acquired task.
- the response generation unit 17 inputs a voice message “Tell me about 1:00 pm tomorrow” based on the acquired information indicating the task.
- the task for “schedule confirmation” has been executed.
- the response generation unit 17 generates information (for example, character information) indicating the response content based on the recognition result of the executed task and the name corresponding to the user's utterance style corresponding to the response element.
- information for example, character information
- the response generation unit 17 recognizes that the task for “schedule confirmation” has been executed based on the acquired information indicating the task, the result of “schedule confirmation” is sent to the user. Generate a response template to present. And the response production
- the response generation unit 17 When the information indicating the response content is generated, the response generation unit 17 causes the output unit 40 to output information indicating the response content. At this time, the response generation unit 17 generates a voice signal that utters the response content from the character information indicating the response content based on, for example, a voice synthesis technique, and causes the output unit 40 to output the voice signal. Also good. Moreover, the response generation part 17 may make the output part 40 output the character information which shows the response content as display information.
- the response generation unit 17 indicates the user's utterance state during the dialogue between the user and the information processing apparatus 1 such as the “noise level” of the environment around the user or the “degree of calmness” of the user.
- Information (that is, transient information) may be acquired from the response element generation unit 12.
- the response generation unit 17 may control the output mode of the response according to the acquired information.
- the information processing apparatus 1 according to Modification 1 estimates various states such as “noise level” and “degree of calmness” acquired to generate a response to the voice input (in other words, the user's utterance state) Information is fed back to the user in accordance with various states such as “noise level” and “degree of calmness” acquired to generate a response to the voice input (in other words, the user's utterance state) Information is fed back to the user in accordance with
- FIG.11 and FIG.12 is explanatory drawing for demonstrating the outline
- 3 shows an example of a display screen for feeding back the received information as display information to the user.
- the information processing apparatus 1 is configured to further improve the recognition accuracy of voice input according to the estimation result of “noise level” and “degree of calmness”, as indicated by reference sign v11.
- Information indicating advice may be presented.
- the information processing apparatus 1 may present display information that visualizes the estimation result of the “noise level” and the “degree of calmness” to the user.
- FIG. 12 illustrates an example of a display screen when the information processing apparatus 1 having a relatively small screen for displaying information, such as a smartphone or a wearable terminal, feeds back information to the user.
- the information processing apparatus 1 may present only an icon indicating the degree of “noise level” or “degree of calmness” to the user.
- the information processing apparatus 1 may control the content of information to be fed back to the user and the mode of the feedback in accordance with the estimation result of the “noise level” and “degree of calm”.
- the information processing apparatus 1 feeds back information v11 and v13 as shown in FIG. 12 when the user is in a calm state, and FIG. 12 when the user is in a hurry. As shown, only the information v11 may be fed back. Further, when the information processing apparatus 1 recognizes that the user is in a very rushing state, only the icon indicating the degree of “noise level” or “degree of calmness” may be fed back to the user.
- the information processing apparatus 1 may present information according to the estimation result of “noise level” and “degree of calmness” to the user in a mode different from the display information.
- the information processing apparatus 1 uses information corresponding to the estimation result of “noise level” or “degree of calmness” as acoustic information. You may feed back to the user.
- the information processing apparatus 1 according to Modification 1 has been described above with reference to FIGS. 11 and 12.
- the user Ua who is a speaker switches the name of another user Ub according to the situation where the user Ua is placed.
- the user Ua and the user Ub are a couple, a child is between the two, and the name of the user Ub is “lily”.
- the user Ua refers to the user Ub as “mom” in a situation where there is a child, whereas the user Ub is referred to as “lily” in a situation where there is no child.
- a case of calling by name can be assumed.
- the switching of the name (ie, utterance style) according to the situation may be reproduced according to the situation when the information processing apparatus 1 makes a response.
- the name of the user Ua is “Hirofumi”
- the name of the user Ub who is the wife of the user Ua is “Yuri”
- the name of the user Uc who is the child of the users Ua and Ub is “Utah” To do.
- the information processing apparatus 1 detects, for example, users existing around itself by analyzing an image captured by the imaging unit 23, and individually recognizes each detected user. Then, the information processing apparatus 1 switches the names of the users Ua, Ub, and Uc based on the result of personal recognition.
- the information processing apparatus 1 when the information processing apparatus 1 recognizes that only the users Ua and Ub exist around the user U and the user Uc who is a child of the users Ua and Ub does not exist, the users Ua and Ub respectively
- the response may be generated so as to be called “Hirofumi” or “Yumi”.
- the users Ua, Ub, and Uc are referred to as “papa”, “mama”, and “Yuta-kun”, respectively.
- a response may be generated as follows.
- the information processing apparatus 1 should accumulate
- the example shown above is merely an example, and the situation in which the information processing apparatus 1 switches the utterance style and the utterance style to be switched are not limited to the above examples.
- the response generation unit 17 in accordance with the time zone that has acquired the voice input from the user, of the information to be output as the response content, a representation of the information indicating the greeting, "Good morning”, “Hello”, You may switch like "Good evening”.
- the response generation unit 17 controls the content of the response so that it is expressed in a softer manner when there are only parties related to the predetermined user (for example, only family members). If it exists, the response content may be controlled so that the expression is harder.
- Modification 2 an example has been described in which the information processing apparatus 1 controls the response content according to the recognition result of the individual user and the recognition result of the situation where the user is placed.
- FIGS. 13 to 16 are explanatory diagrams for explaining examples of the information processing apparatus 1 according to the present embodiment, and “English” is used as a language for dialogue between the information processing apparatus 1 and the user. An example when used is shown. In this description, the description will be given mainly focusing on a different part from the case where the language used is “Japanese”, and the detailed description of the other part will be omitted.
- FIG. 13 illustrates an example of processing based on the analysis of the semantic content indicated by the voice input and the analysis result when the information processing apparatus 1 according to the embodiment acquires the English voice input. It is explanatory drawing of.
- FIG. 13 shows a case where the user utters “Check my schedule tomorrow 1 o’clock afternoon” to the information processing apparatus 1 to confirm the schedule. That is, in the example illustrated in FIG. 13, the information processing apparatus 1 acquires character information “Check my schedule tomorrow 1 o′clock afternoon” as a result of the speech recognition for the acquired speech input.
- the information processing apparatus 1 performs an analysis based on the natural language processing technology on the acquired character information “Check my schedule tomorrow 1 o'clock afternoon.”, Thereby performing a task to be executed based on the character information (ie, As a task for generating a response to the inquiry from the user, a “schedule confirmation” task is specified.
- processing corresponding to the English language may be applied as speech recognition for the speech input and natural language processing for the speech recognition result.
- generally used methods may be applied for speech recognition for English speech input and natural language processing for English natural sentences. In this description, detailed description of the contents of the processing is omitted. To do.
- an argument necessary for executing the identified task is obtained as “Check my schedule tomorrow 1 o'clock afternoon.” Extract from text information. Specifically, the information processing apparatus 1 determines that the “Date Confirmation” task required to execute the “schedule confirmation” task from the result of the morphological analysis for the acquired character information “Check my schedule tomorrow 1 o'clock afternoon.” The keyword “tomorrow 1 o'clock afternoon” is extracted as an argument indicating “-Time”. At this time, the information processing apparatus 1 may convert the keyword “tomorrow 1 o’clock afternoon” into an expression “2014/10/1 13:00”.
- the information processing apparatus 1 acquires a response element for generating a response to the voice input by executing the specified task based on the specified argument. For example, in the case of the example illustrated in FIG. 13, the information processing apparatus 1 uses “2014/10/1 13:00” specified as an argument for the application for managing the schedule as a search key. Search the schedule corresponding to the search key. Then, the information processing apparatus 1 acquires information “Meeting at room A” registered as “title” and information “Michael” registered as “participant” as a search result of the schedule.
- FIG. 14 is an explanatory diagram for explaining an example of response parameters stored as continuous information. Response parameters based on “user's utterance style” when “English” is used. An example is shown. FIG. 14 shows an example of the name name data d11 included in the response parameter d10 indicating “user's utterance style”.
- the name “Mickey” is associated with the official name “Michael Smith”. That is, the data indicates that the corresponding user calls the person named “Michael Smith” as “Mickey”.
- the name “Betty” is associated with the official name “Elizabeth Green”.
- the official name “Katharine McPhee” is associated with the name “Kate”.
- FIG. 14 is merely an example, and is not necessarily limited to the content shown in FIG.
- the title is given to the person's official name. Names marked with may be associated with each other.
- the subsequent operation is the same as that of the information processing apparatus 1 according to the above-described embodiment. That is, the information processing apparatus 1 acquires the name of the response element acquired as a task execution result as a response parameter, and embeds the acquired response parameter in a response content template corresponding to the executed task, thereby Generate information to show. Then, the information processing apparatus 1 causes the output unit 40 to output information indicating the response content.
- the information processing apparatus 1 like the information processing apparatus 1 according to the first modification described above, estimates various states such as “noise level” and “degree of calmness” (in other words, The information may be fed back to the user in accordance with the user's speech state information.
- FIG.15 and FIG.16 is explanatory drawing for demonstrating the outline
- An example of a display screen for feeding back information to the user as display information is shown.
- FIG. 17 is a diagram illustrating an example of a hardware configuration of the information processing apparatus 1 according to the embodiment of the present disclosure.
- the information processing apparatus 1 includes a processor 901, a memory 903, a storage 905, an operation device 907, a notification device 911, a sound collection device 915, and an imaging device 917. And bus 919. Further, the information processing apparatus 1 may include a communication device 913.
- the processor 901 may be, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a DSP (Digital Signal Processor), or a SoC (System on Chip), and executes various processes of the information processing apparatus 1.
- the processor 901 can be configured by, for example, an electronic circuit for executing various arithmetic processes. Each configuration of the control unit 10 described above can be realized by the processor 901.
- the memory 903 includes RAM (Random Access Memory) and ROM (Read Only Memory), and stores programs and data executed by the processor 901.
- the storage 905 can include a storage medium such as a semiconductor memory or a hard disk.
- the storage unit 30 described above can be realized by at least one of the memory 903 and the storage 905, or a combination of both.
- the operation device 907 has a function of generating an input signal for a user to perform a desired operation.
- the operation device 907 can be configured as a touch panel, for example.
- the operation device 907 includes an input unit such as buttons and switches for the user to input information, an input control circuit that generates an input signal based on the input by the user, and supplies the input signal to the processor 901, etc. It may consist of
- the notification device 911 is an example of an output device, and may be, for example, a device such as a liquid crystal display (LCD) device or an organic EL (OLED: Organic Light Emitting Diode) display. In this case, the notification device 911 can notify the user of predetermined information by displaying a screen. Further, the notification device 911 may be a device that notifies a user of predetermined information by outputting a predetermined acoustic signal, such as a speaker.
- the output unit 40 described above can be realized by the notification device 911.
- the notification device 911 may be a device that notifies the user of predetermined information using a lighting or blinking pattern, such as an LED (Light Emitting Diode). Further, the notification device 911 may be a device that notifies a user of predetermined information by vibrating like a so-called vibrator.
- a lighting or blinking pattern such as an LED (Light Emitting Diode).
- the notification device 911 may be a device that notifies a user of predetermined information by vibrating like a so-called vibrator.
- the communication device 913 is a communication unit included in the information processing apparatus 1 and communicates with an external device via a network.
- the communication device 913 is a wired or wireless communication interface.
- the communication device 913 may include a communication antenna, an RF (Radio Frequency) circuit, a baseband processor, and the like.
- the communication device 913 has a function of performing various kinds of signal processing on a signal received from an external device, and can supply a digital signal generated from the received analog signal to the processor 901.
- the sound collection device 915 is a device such as a microphone that collects sound emitted from the user and the sound of the surrounding environment and acquires it as acoustic information (acoustic signal).
- the sound collection device 915 may acquire data indicating an analog sound signal indicating the collected sound or sound as sound information, or convert the analog sound signal into a digital sound signal and perform conversion. Data indicating a later digital acoustic signal may be acquired as acoustic information.
- the sound collecting unit 21 described above can be realized by the sound collecting device 915.
- the imaging device 917 includes an imaging device that captures a subject and obtains digital data of the captured image, such as a CMOS (Complementary Metal-Oxide Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor. That is, the imaging device 917 has a function of capturing a still image or a moving image via an optical system such as a lens in accordance with the control of the processor 901.
- the imaging device 917 may store the captured image in the memory 903 or the storage 905.
- the imaging unit 23 described above can be realized by the imaging device 917.
- the bus 919 connects the processor 901, the memory 903, the storage 905, the operation device 907, the display device 909, the communication device 913, the sound collecting device 915, and the imaging device 917 to each other.
- the bus 919 may include a plurality of types of buses.
- the information processing apparatus 1 includes the detected user state, such as the detection result of the user's external environment, information indicating the user's state, and the user's utterance style.
- a response parameter is generated based on information on the situation or characteristics (for example, language characteristics) (that is, information on the user's speech state).
- the information processing apparatus 1 then, based on the generated response parameter, the content of the response to the voice input from the user (for example, the name of the specific expression, the amount of information to be output, etc.) and the output mode of the response (for example, the volume) Output speed (speech speed), frequency band, etc.).
- the information processing apparatus 1 feels the response to the voice input in a more suitable aspect according to the change of the user and the situation, in other words, the user feels more natural (that is, less uncomfortable). It becomes possible to control to become an aspect. That is, the information processing apparatus 1 according to the present embodiment can provide an interactive user interface based on voice input, which can be realized in a more natural manner for a dialog with a user. .
- An information processing apparatus comprising: (2) The said control part is an information processing apparatus as described in said (1) which controls the content output as the said response according to the information regarding the acquired said user's speech state. (3) The information processing apparatus according to (2), wherein the control unit controls a type of information output as the content according to information related to a user's speech state. (4) The control unit performs control so that information of a predetermined type included in the content output as the response is output in an expression according to the acquired information related to the utterance state of the user, (2) or The information processing apparatus according to (3).
- control unit controls an information amount of the content output as the response in accordance with the acquired information related to the utterance state of the user. Processing equipment.
- control unit controls a degree of detail of the content output as the response according to the acquired information regarding the user's utterance state.
- the said control part is an information processing apparatus as described in said (5) which controls the output of the additional information relevant to the response with respect to the inquiry uttered from the said user according to the acquired information regarding the said user's utterance state.
- One or more states recognized based on a detection result of one or more detection units are associated with at least a part of the acquired information on the user's utterance state, In a case where information indicating a state recognized based on a detection result of one or more of the detection units is acquired, the control unit responds according to information related to the user's speech state associated with the state.
- the information processing apparatus according to any one of (1) to (8), wherein the information is controlled so that is output.
- the control unit is configured to personally recognize the user according to at least a part of the acquired information regarding the user's utterance state, and to control the response to be output according to a result of the personal recognition. (1) The information processing apparatus according to any one of (12).
- the information processing apparatus (14) The information processing apparatus according to (13), wherein the control unit controls the response to be output according to the result of the personal recognition and at least a part of the acquired information related to the user's utterance state. .
- the information processing apparatus according to any one of (1) to (14), wherein the information related to the utterance state of the user includes information based on the utterance of the user acquired in the past.
- the information processing apparatus according to any one of (1) to (15), wherein the information related to the utterance state of the user includes information indicating the recognized action of the user.
- the information related to the utterance state of the user includes information indicating a recognized environment around the user.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様で制御する。 【解決手段】取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、を備える、情報処理装置。
Description
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年では、文字情報を音声に変換する音声合成技術や、ユーザが発話した内容を文字情報として認識する音声認識技術、及び、文章が示す内容を認識する自然言語処理技術が発展してきている。そのため、これらの技術を応用することで、ユーザが、テレビ受像機等の各種家電機器や、パーソナルコンピュータ等の情報機器と、音声により対話を行うことで、当該機器を操作可能とした、音声入力に基づく対話型のユーザインタフェース(UI:User Interface)が普及してきている。例えば、特許文献1には、ユーザとの対話により、意図する動作を当該ユーザに対して指示することが可能な情報処理装置の一例が開示されている。
一方で、対話で使用される語句の中には、「午後3時」と「15時」とのように、同じ意味を持つが表現の異なる語句(即ち、異なる表現を有する語句)が存在し、ユーザに応じて日常的に使用する語句が異なる場合がある。そのため、ユーザの音声入力に対して、当該ユーザが日常的に使用する語句とは異なる表現で応答が出力された場合に、当該ユーザが応答に対して違和感をもつ場合がある。
また、ユーザとの対話が行われる状況(例えば、ユーザの状態や周囲の環境)も常に一定とは限らず、ある状況においてユーザがより自然に感じる応答に対して、他の状況下では、当該ユーザが違和感をもつ場合もある。
そのため、音声入力に基づく対話型のユーザインタフェースとして、ユーザや状況の変化に応じて、より自然な(即ち、より違和感の少ない)態様でユーザとの間の対話を実現可能なものが求められている。
そこで、本開示では、音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様で制御することが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。
本開示によれば、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータに、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、を実行させる、プログラムが提供される。
以上説明したように本開示によれば、音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様で制御することが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概要
2.機能構成
3.処理
4.変形例
4.1.変形例1:認識した各種状態のフィードバック
4.2.変形例2:個人の認識結果と状況に応じた応答内容の制御例
5.実施例
6.ハードウェア構成
7.まとめ
1.概要
2.機能構成
3.処理
4.変形例
4.1.変形例1:認識した各種状態のフィードバック
4.2.変形例2:個人の認識結果と状況に応じた応答内容の制御例
5.実施例
6.ハードウェア構成
7.まとめ
<1.概要>
まず、図1を参照して、本開示の一実施形態に係る情報処理装置の概要について説明したうえで、本実施形態に係る情報処理装置の課題について整理する。図1は、本実施形態に係る情報処理装置1の概要について説明するための説明図である。
まず、図1を参照して、本開示の一実施形態に係る情報処理装置の概要について説明したうえで、本実施形態に係る情報処理装置の課題について整理する。図1は、本実施形態に係る情報処理装置1の概要について説明するための説明図である。
図1に示すように、本実施形態に係る情報処理装置1は、所謂対話型のユーザインタフェース(UI:User Interface)を適用することで、ユーザにより発話された音声を入力情報(以降では、「音声入力」と称する場合がある)とし、当該音声入力に基づき各種処理を実行可能に構成されている。具体的には、情報処理装置1は、ユーザからの音声入力を音響情報として取得し、当該音響情報を、音声認識技術や自然言語処理技術に基づき解析することで、当該ユーザが発話した内容を認識する。そして、情報処理装置1は、音声入力を基に認識した内容に応じて、各種処理を実行し、当該実行結果を示す自然文を、音声(音響情報)や文字情報(表示情報)としてユーザに提示する。
例えば、図1に示す例では、情報処理装置1は、ユーザUbの「ロンドンは何時?」という音声入力c10bを受けて、ロンドンの時間を確認し、当該確認の結果に基づき、「午後5時です」という応答情報c11bを音声として出力している。
この場合には、情報処理装置1は、例えば、音声入力c10bの解析結果に基づき、当該音声入力c10bが示す指示内容(即ち、ロンドンの現在時刻の確認)を認識する。そして、情報処理装置1は、音声入力c10bが示す指示内容の認識結果に基づき、例えば、国ごとの時刻を確認するためのアプリケーション(例えば、計時機能を提供するアプリケーション)を実行することで、ロンドンの時刻を確認する。そして、情報処理装置1は、時刻の確認結果に基づき、当該確認結果を自然文として提示するための応答情報c11bを生成し、当該応答情報c11bを音声として出力する。
また、情報処理装置1は、音声入力の解析結果や、当該音声入力以外に取得される情報(例えば、撮像された画像情報)を基に、所謂個人認識技術に基づきユーザ個人を認識し、当該認識結果に応じて各種処理を実行してもよい。
例えば、図1に示す例では、情報処理装置1は、ユーザUaの「明日午後1時の予定を教えて」という音声入力c10aを受けて、当該ユーザUaのスケジュールを確認し、当該確認の結果に基づき、「山田さんとA会議室で打ち合わせです」という応答情報c11aを音声として出力している。
この場合には、情報処理装置1は、例えば、音声入力c10aの解析結果に基づき、当該音声入力c10aが示す指示内容(即ち、明日午後1時のスケジュールの確認)を認識する。また、情報処理装置1は、例えば、音声入力c10aの解析結果や、別途撮像部(図示しない)により撮像されたユーザUaの画像に基づき、ユーザUaを個人認識する。そして、情報処理装置1は、音声入力c10aが示す指示内容の認識結果と、ユーザUaの個人認識の結果とに基づき、例えば、スケジュールを管理するためのアプリケーションを実行することで、当該アプリケーションに登録されたユーザUaのスケジュールを確認する。そして、情報処理装置1は、スケジュールの確認結果に基づき、当該確認結果を自然文として提示するための応答情報c11aを生成し、当該応答情報c11aを音声として出力する。
このような構成により、ユーザは、情報処理装置1との間で音声により対話を行うことで、情報処理装置1に各種機能を実行させることが可能となる。
一方で、人と人との間(即ち、ユーザ間)の対話で使用される語句の中には、「午後3時」と「15時」とのように、同じ意味を持つが表現の異なる語句が存在し、発話者に応じて日常的に使用する語句が異なる(即ち、発話スタイルが異なる)場合がある。そのため、例えば、日常的に「午後3時」と発話しているユーザに対して、情報処理装置1が、時刻を示す応答として「15時」と出力した場合に、当該ユーザは、自身の発話スタイルと異なる応答に対して違和感をもつ場合がある。
このような発話スタイルの違いは、上記に示した時刻の呼称に限られず、具体的な他の一例として、人の呼称が挙げられる。例えば、あるユーザは、「山田太郎」という名前の人物のことを、「やまださん」というように、姓に対して敬称を付して呼称する場合がある。また、他のユーザについては、「山田太郎」という名前の人物のことを、「たろう」というように、名のみで呼称する場合もある。このような場合には、情報処理装置1が、「山田太郎」という名前の人物を、「やまだたろう」というように姓名で呼称した応答を出力した場合に、「やまださん」と呼称するユーザは、当該応答に対して違和感をもつ場合がある。
また、情報処理装置1とユーザとの間で対話が行われる状況(例えば、ユーザの状態や周囲の環境)についても常に一定とは限らず、逐次動的に状況が変化する場合も少なくない。特に、近年では、スマートフォン、タブレット端末、及びウェアラブル端末のように、ユーザが携行可能に構成された情報処理装置も普及してきており、当該情報処理装置が、所謂対話型のUIを備えている場合もある。このように、情報処理装置の種別の多様化に伴い、当該情報処理装置の利用シーン(即ち、情報処理装置が利用される状態または状況)も多様化してきており、情報処理装置1とユーザとの間で対話が行われる状況も多岐にわたり、当該状況が動的に変化する場合もある。
このような条件下では、情報処理装置1が、所定の状況にあわせて、ユーザがより自然に感じるように、応答の出力態様(例えば、音量や話速)を制御したとしても、他の状況下では、当該応答に対してユーザが違和感をもつ場合がある。具体的には、情報処理装置1が所定の音量で応答を示す音声情報を出力した場合に、ユーザは、周囲の環境における環境音の音量に応じて、当該応答を聞き取りやすく感じる場合や、聞き取りにくく感じる場合が想定され得る。
また、ユーザが、情報処理装置1から出力される応答をより自然に感じるか否かは、ユーザの状態によっても変化する場合も想定され得る。具体的な一例として、ユーザは、急いでいる状態では、落ち着いている状態(例えば、急いでいない状態)に比べて、情報処理装置1以外にも多くのもの(例えば、ユーザの周囲の環境)に注意を向けている場合がある。そのため、このような状況下において、情報処理装置1から比較的長い自然文の応答が出力された場合に、ユーザは、当該応答の長さを煩わしく感じる場合もあり得る。
そこで、本実施形態に係る情報処理装置1は、ユーザや状況(例えば、ユーザの状態や周囲の環境)の変化に応じて、ユーザとの間の対話を、当該ユーザがより自然に感じる(より、違和感の少ない)態様で実現可能とすることを目的としている。なお、以降では、本実施形態に係る情報処理装置1の特徴について、より詳しく説明する。
<2.機能構成>
まず、図2を参照して、本実施形態に係る情報処理装置1の機能構成の一例について説明する。図2は、本実施形態に係る情報処理装置1の機能構成の一例について示したブロック図である。
まず、図2を参照して、本実施形態に係る情報処理装置1の機能構成の一例について説明する。図2は、本実施形態に係る情報処理装置1の機能構成の一例について示したブロック図である。
図2に示すように、本実施形態に係る情報処理装置1は、制御部10と、集音部21と、記憶部30と、出力部40とを含む。また、情報処理装置1は、撮像部23を含んでもよい。なお、図2に示す例では、情報処理装置1が、集音部21、撮像部23、記憶部30、及び出力部40を含む例について示しているが、必ずしも同構成に限定するものではない。即ち、集音部21、撮像部23、記憶部30、及び出力部40の少なくとも一部は、情報処理装置1の外部に設けられていてもよい。
集音部21は、ユーザからの音声入力や、周囲の騒音のような所謂環境音等の、音響情報を取得するための構成である。集音部21は、例えば、マイクロフォンのように周囲の音響情報を集音するための集音デバイスにより構成され得る。また、集音部21は、複数の集音デバイス(例えば、マイクアレイ)を備え、各集音デバイスの集音結果に応じて、集音された音響情報の到来方向を推定可能に構成されていてもよい。集音部21は、取得した音響情報を、音声解析部11と環境音解析部13とに出力する。
撮像部23は、CMOS(Complementary Metal-Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサ等の撮像素子と、レンズ等の光学系とを含み、被写体の画像を撮像するための構成である。撮像部23は、撮像された画像を、画像解析部14に出力する。
なお、図2中には明示的に図示してはいないが、集音部21による音響情報の取得に係る動作と、撮像部23による画像の撮像に係る動作とは、例えば、制御部10により制御されてもよい。具体的な一例として、制御部10は、図示しない入力デバイスを介したユーザからの指示に基づき、集音部21に音響情報を取得させてもよい。同様に、制御部10は、図示しない入力デバイスを介したユーザからの指示に基づき、撮像部23に画像を撮像させてもよい。
出力部40は、情報処理装置1がユーザに対して情報を提示するための出力インタフェースである。出力部40は、例えば、所謂スピーカのように音声や音響を出力するための音響デバイスを含み、ユーザに対して提示する情報を音声や音響として出力してもよい。また、出力部40は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイなどの表示デバイスを含み、ユーザに対して提示する情報を表示情報として出力してもよい。
制御部10は、音声解析部11と、応答要素生成部12と、環境音解析部13と、画像解析部14と、ユーザ状態推定部15と、応答パラメータ生成部16と、応答生成部17とを含む。
音声解析部11は、取得された音響情報を解析することで、当該音響情報に含まれるユーザからの音声入力が示す意味内容の認識や、当該音声入力の特徴(例えば、声の大きさ、発話の速度(話速))の抽出を行うための構成である。音声解析部11は、音声区間検出部111と、音声認識部112と、音声特徴抽出部113と、意味解析部114と、発話スタイル検出部115とを含む。
音声区間検出部111は、集音部21から、集音された音響情報を取得する。音声区間検出部111は、取得した音響情報を解析することで、当該音響情報中における、音声入力が占める区間(以降では、「音声区間」と記載する場合がある)を検出する。なお、音声区間検出部111が、取得された音響情報から音声区間を検出することが可能であれば、当該音声区間を検出するための方法は特に限定されない。
具体的な一例として、音声区間検出部111は、音響情報として取得された音響信号の振幅と零交差とに基づき、音声区間を検出してもよい。この場合には、例えば、音声区間検出部111は、音響情報として取得された音響信号のうち、所定のレベルを超える振幅について零交差の数が所定の閾値を超えたタイミングを、音声区間の始端として認識する。また、音声区間検出部111は、音声区間の開始後に、音響信号の振幅が所定のレベル以下となったタイミングを、音声区間の終端として認識する。
また、他の一例として、音声区間検出部111は、音響情報として取得された音響信号から、あらかじめ定義された音声信号の特徴を示す特徴量を抽出し、抽出した特徴量に基づき音声区間の始端と終端とを認識してもよい。音響信号から音声信号の特徴量を抽出することで音声区間を検出する方法の一例としては、例えば、ガウス混合分布モデル(GMM:Gaussian mixture model)に基づく音声区間の検出方法等が挙げられる。
また、音声区間検出部111は、例えば、音響情報として取得された音響信号から、音声信号に相当する周波数成分を抽出し、抽出された周波数成分を解析の対象としてもよい。
以上のようにして、音声区間検出部111は、取得した音響情報から音声区間を検出し、当該音響情報から当該音声区間に相当する部分(即ち、音響信号)を音声入力として抽出する。そして、音声区間検出部111は、抽出した音声入力を音声認識部112と音声特徴抽出部113とに出力する。
音声認識部112は、集音された音響情報に含まれる音声入力を音声区間検出部111から取得する。音声認識部112は、取得した音声入力を音声認識技術に基づき解析することで、文字情報に変換する。そして、音声認識部112は、音声入力が変換された文字情報を、音声特徴抽出部113と意味解析部114とに出力する。
音声特徴抽出部113は、集音された音響情報に含まれる音声入力を音声区間検出部111から取得する。また、音声特徴抽出部113は、当該音声入力が音声認識技術に基づき変換された文字情報を、音声認識部112から取得する。
音声特徴抽出部113は、音声入力として取得した音声信号を解析することで、例えば、当該音声信号の振幅に基づき、声の大きさ(即ち、音声入力の音量)を検出する。そして、音声特徴抽出部113は、検出した声の大きさを示す情報を、後述する環境音解析部13の外部環境推定部132に出力する。
また、音声特徴抽出部113は、取得した音声入力の長さ(即ち、発話区間の長さ)と、当該音声入力が変換された文字情報の長さ(例えば、文字数)とに基づき、話速を算出する。そして、音声特徴抽出部113は、算出した話速を示す情報を、後述するユーザ状態推定部15に出力する。
意味解析部114は、音声入力が音声認識技術に基づき変換された文字情報を、音声認識部112から取得する。意味解析部114は、取得した文字情報(即ち、音声入力が変換された文字情報)に対して、自然言語処理技術に基づく解析(例えば、字句解析(形態素解析)、構文解析、及び意味解析等)を施すことで、当該文字情報が示す意味内容(換言すると、音声入力が示す意味内容)を認識する。
なお、意味解析部114が、取得した文字情報が示す意味内容を認識できれば、自然言語処理技術に基づく解析の方法は特に限定されない。具体的な一例として、意味解析部114は、意味解析の手法として、機械学習の結果に基づき文字情報の意味内容を認識する手法を用いてもよいし、あらかじめ設定されたルールに基づき文字情報の意味内容を認識する手法を用いてもよい。また、取得された文字情報に対して自然言語処理技術に基づく解析を施すための各種情報(例えば、辞書情報等)については、図2では図示を省略しているが、意味解析部114が読み出し可能な位置にあらかじめ記憶させていれば、その記憶位置は特に限定されない。
また、意味解析部114は、取得した文字情報に対する自然言語処理技術に基づく解析の結果(以降では、単に「自然言語処理の結果」と記載する場合がある)に応じて、実行すべきタスクと、当該タスクを実行するための引数とを特定する。ここで、意味解析部114の当該処理の詳細について、図3を参照しながら、具体的な例を挙げて説明する。図3は、音声入力が示す意味内容の解析と、当該解析の結果に基づく処理の一例について説明するための説明図であり、意味解析部114と後述する応答要素生成部12の動作の一例について示している。
図3は、ユーザがスケジュールを確認するために、情報処理装置1に対して、「明日午後1時の予定を教えて」と発話した場合について示している。即ち、図3に示す例の場合には、意味解析部114は、音声入力が音声認識技術に基づき変換された文字情報として、「明日午後1時の予定を教えて」という文字情報を、音声認識部112から取得する。
意味解析部114は、取得した「明日午後1時の予定を教えて」という文字情報に対して、自然言語処理技術に基づく解析を施すことで、当該文字情報に基づき実行すべきタスク(即ち、ユーザからの問合せに対する応答を生成するためのタスク)として、「予定確認」のタスクを特定する。
より具体的な一例として、意味解析部114は、取得した「明日午後1時の予定を教えて」という文字情報に対して形態素解析を施すことで、当該文字情報から形態素を抽出する。そして、意味解析部114は、抽出された形態素中の、「予定」、「教えて」というキーワードに基づき、ユーザから、「予定確認」のタスクの実行が指示されているものと認識する。
また、意味解析部114は、ユーザからの指示に基づき実行すべきタスクを特定すると、特定したタスクを実行するために必要な引数を、取得した「明日午後1時の予定を教えて」という文字情報から抽出する。
より具体的な一例として、意味解析部114は、取得した「明日午後1時の予定を教えて」という文字情報に対する形態素解析の結果から、「予定確認」のタスクを実行するために必要な日時を示す引数として、「明日午後1時」というキーワードを抽出する。
なお、ユーザと情報処理装置1との間の対話で使用される語句の中には、当該語句のみでは意味を一意に特定できないものが含まれる。例えば、「明日」という語句は、相対的に日付を特定するための表現であり、「今日」等のような基準となる日付が確定することで、「明日」として指定された日付が一意に特定される。
そのため、意味解析部114は、特定したタスクを実行するために必要な引数として、例えば、「明日」というキーワードを抽出した場合には、カレンダー機能等に基づき「今日」の日付を確認し、「今日」の日付の確認結果に基づき、「明日」として指定された日付を特定する。例えば、「今日」の日付が、「2014/9/30(即ち、2014年9月30日)」の場合には、意味解析部114は、「明日」として指定された日付として、「2014/10/1(即ち、2014年10月1日)」を特定することとなる。そして、意味解析部114は、引数として抽出したキーワードのうち、「明日」というキーワードを、特定した当該「明日」に対応する日付に置き換える。
もちろん、対応する語句のみでは意味を一意に特定できないものは、「明日」、「今日」、「明後日」、及び「今」等のような、日付や日時を示す情報のみには限定されない。具体的な一例として、「ここ」及び「現在地」等のように、位置を示す情報等が挙げられる。例えば、意味解析部114は、引数として「現在地」というキーワードを抽出した場合には、GPS(Global Positioning System)等に基づき「現在地」の位置情報を特定し、引数として抽出した「現在地」というキーワードを、特定した位置情報に置き換えればよい。
以上のようにして、意味解析部114は、取得した文字情報に対する自然言語処理の結果に応じて、実行すべきタスクと、当該タスクを実行するための引数とを特定する。なお、上記に示す例は、あくまで一例であり、意味解析部114が、取得した文字情報(即ち、音声入力が変換された文字情報)の意味内容を認識し、認識した意味内容に基づき、実行すべきタスクと、当該タスクを実行するための引数とを特定できれば、その方法は特に限定されない。
そして、意味解析部114は、特定した実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、後述する応答要素生成部12に出力する。また、意味解析部114は、音声入力が変換された文字情報に対する自然言語処理の結果(例えば、字句解析(形態素解析)、構文解析、及び意味解析等の結果)を、発話スタイル検出部115に出力する。
発話スタイル検出部115は、意味解析部114から、音声入力が変換された文字情報に対する自然言語処理の結果を取得する。発話スタイル検出部115は、取得した自然言語処理の結果に基づき、音声入力が変換された文字情報から、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句(以降では、「固有表現」と記載する場合がある)を抽出する。
なお、固有表現としては、例えば、人名や地名等のような固有名詞や、日付、時間等のように異なる表現を有する語句が挙げられる。具体的な一例として、「明日」という語句は、「あす」、「あした」、及び「みょうにち」と表現することが可能であり、どの表現が使用されるかはユーザに応じて異なる場合がある。また、人名に着目した場合についても、前述したように、「山田太郎」という名前の人物のことを、「ヤマダさん」、「タロウ」、「ヤマダタロウ」等のように、ユーザに応じて異なる表現が使用される場合がある。
このように、発話スタイル検出部115は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から固有表現を抽出する。
なお、発話スタイル検出部115が固有表現として抽出する語句は、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句であれば、必ずしも、人名や地名等のような固有名詞や、日付、時間等には限定されない。具体的な一例として、発話スタイル検出部115は、所謂方言に相当する語句を、固有表現として抽出してもよい。
そして、発話スタイル検出部115は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から抽出した固有表現を、発話スタイルを示す情報として、後述する応答パラメータ生成部16に出力する。
環境音解析部13は、取得された音響情報を解析することで、周囲の環境における環境音を抽出し、当該環境音の特徴の抽出を行うための構成である。なお、本説明では、環境音解析部13は、環境音の特徴として、音声入力の音量に対する、周囲の環境の騒音の音量の度合いを示す「騒音度」を抽出する場合を例に、当該環境音解析部13の動作について説明する。環境音解析部13は、環境音認識部131と、外部環境推定部132とを含む。
環境音認識部131は、集音部21から、集音された音響情報を取得する。環境音認識部131は、取得した音響情報を解析することで、当該音響情報から、環境音(即ち、音声入力以外の音響情報)を抽出する。なお、環境音認識部131が、取得された音響情報から環境音を抽出することが可能であれば、当該環境音を抽出するための方法は特に限定されない。
具体的な一例として、環境音認識部131は、情報処理装置1に対してユーザ(即ち、発話者)が位置する方向(換言すると、目的音の到来方向)を検知し、当該方向に死角(null beam)を有するフィルタを形成する。そして、環境音認識部131は、集音部21により集音された音響情報に対して、形成したフィルタを適用することで、当該音響情報から、当該ユーザからの音声入力以外の他の音響情報を環境音として抽出してもよい。
なお、環境音認識部131が、情報処理装置1に対してユーザが位置する方向を特定できれば、その方法は特に限定されない。具体的な一例として、撮像部23により撮像された画像の解析結果として取得される、当該画像中におけるユーザの位置に基づき、情報処理装置1に対してユーザが位置する方向が検知されてもよい。また、他の一例として、集音部21により集音された音響情報の到来方向に基づき、情報処理装置1に対してユーザが位置する方向が検知されてもよい。また、情報処理装置1が、所謂ウェアラブル端末等のように、ユーザへの装着状態に応じて、当該情報処理装置1が利用される状況が限定される場合には、当該装着状態に基づき、情報処理装置1に対してユーザが位置する方向が特定されてもよい。
また、他の一例として、環境音認識部131は、音響情報として取得された音響信号から、音声信号以外の周波数成分を抽出し、抽出された周波数成分を、環境音を抽出するための解析の対象としてもよい。
次いで、環境音認識部131は、音響情報から抽出した環境音の音響信号を解析することで、環境音の音量を検出する。具体的な一例として、環境音認識部131は、当該音響信号の振幅に基づき、環境音の音量を検出してもよい。そして、環境音認識部131は、検出した環境音の音量を示す情報を、騒音の音量を示す情報として外部環境推定部132に出力する。
外部環境推定部132は、環境音認識部131から、騒音の音量を示す情報を取得する。また、外部環境推定部132は、音声解析部11の音声特徴抽出部113から、声の大きさ(即ち、音声入力の音量)を示す情報を取得する。そして、外部環境推定部132は、ユーザからの音声入力を目的音として、当該目的音の音量(即ち、声の大きさ)に対する、騒音の音量の大きさを示す数値(例えば、SN比)を、騒音度として算出する。外部環境推定部132は、算出した騒音度を示す情報を、後述する応答パラメータ生成部16に出力する。
画像解析部14は、撮像された画像に対して画像解析を施すことで、当該画像解析の結果に基づき、画像中に撮像されているユーザを認識し、当該ユーザに関する情報を取得するための構成である。
具体的には、画像解析部14は、撮像部23により撮像された被写体の画像を取得する。画像解析部14は、取得した画像に対して画像解析を施し、当該画像解析の結果に基づき、当該画像中から、撮像されたユーザを抽出する。なお、このとき画像中から撮像されたユーザを抽出することが可能であれば、その方法は特に限定されない。具体的な一例として、画像解析部14は、処理対象の画像から、人の顔や、手や足等のような身体の部位のように、人に固有の特徴的な形状を抽出することで、当該画像中から、撮像されたユーザを抽出してもよい。
画像解析部14は、画像中から抽出されたユーザに対して、所謂個人認識技術に基づく解析処理を施すことで、当該ユーザを個人認識する。なお、画像に基づく個人認識技術としては、例えば、ユーザの顔の画像に基づき、当該ユーザ個人を認識する技術が挙げられる。もちろん、画像中から抽出されたユーザ個人を認識することが可能であれば、その方法は特限定されないことは言うまでもない。また、取得された画像に対する画像解析の結果に基づきユーザ個人を認識するための各種情報(例えば、辞書情報等)については、図2では図示を省略しているが、画像解析部14が読み出し可能な位置にあらかじめ記憶させていれば、その記憶位置は特に限定されない。
また、画像解析部14は、取得した画像に対する画像解析の結果に基づき、ユーザの姿勢、年齢、性別等のような、当該ユーザの状態や当該ユーザに関する情報(例えば、属性情報)を推定してもよい。
そして、画像解析部14は、取得した画像の解析結果、即ち、当該画像に撮像されたユーザ個人の認識結果や、姿勢、年齢、性別等のような、ユーザの状態や当該ユーザに関する情報の推定結果を、後述するユーザ状態推定部15に出力する。
ユーザ状態推定部15は、撮像された画像の解析結果や、取得された音声入力の解析結果等のような取得された各種情報に基づき、ユーザの各種状態を推定するための構成である。なお、本説明では、ユーザ状態推定部15が、撮像された画像の解析結果と、取得された音声入力の解析結果とに基づき、ユーザの心理状態(具体的には、ユーザが落ち着いた状態か否か)を判別するためのパラメータである「落ち着き度」を算出する場合を例に、ユーザ状態推定部15の動作について説明する。
例えば、ユーザ状態推定部15は、あらかじめ設定された落ち着き度の初期値を、撮像された画像の解析結果や、取得された音声入力の解析結果に基づき認識されるユーザの状態に応じて加減算する(換言すると、重み付けする)ことで、当該ユーザの落ち着き度を算出する。例えば、図4~図6は、ユーザの各種状態と落ち着き度との関係の一例について説明するための説明図である。
具体的な一例として、図4は、撮像された画像の解析結果に基づき認識されたユーザの姿勢と、落ち着き度との間の関係の一例を示した図である。図4に示す例では、ユーザ状態推定部15は、ユーザの姿勢が「座っている」状態、または「寝そべっている」状態の場合には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度を加算する。また、ユーザ状態推定部15は、ユーザの姿勢が「立っている」状態の場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度を減算している。また、図4に示す例では、ユーザの姿勢が「寝そべっている」状態の場合には、「座っている」状態の場合に比べて、ユーザがより落ち着いた状態であるものと認識されるように、「寝そべっている」状態の加算値として、「座っている」状態の加算値よりも大きい値が設定されている。
また、図5は、取得された音声入力の解析結果に基づき認識された当該音声入力の話速と、落ち着き度との間の関係の一例を示した図である。図5に示す例では、ユーザ状態推定部15は、話速が「4-6文字/秒」の場合を話速の基準値として、当該基準値よりも話速が遅い場合(即ち、話速が「4文字未満/秒」の場合)には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度を加算する。また、ユーザ状態推定部15は、基準値よりも話速が速い場合(即ち、話速が「7文字以上/秒」の場合)には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度を減算する。
また、図6は、ユーザの動作(換言すると、ユーザの行動)と落ち着き度との間の関係の一例を示した図である。図6に示す例では、ユーザが「止まっている」場合、「歩いている」場合、及び「走っている」場合のそれぞれについて、落ち着き度の加減算値の一例が示されている。具体的には、ユーザ状態推定部15は、ユーザが「止まっている」場合には、当該ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度を加算する。また、ユーザ状態推定部15は、ユーザが「歩いている」場合、または「走っている」場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度を減算している。また、図6に示す例では、ユーザが「走っている」場合には、「歩いている」場合に比べて、ユーザがより急いでいる状態であるものと認識されるように、「走っている」場合の減算値として、「歩いている」場合の減算値よりも大きい値が設定されている。
なお、図6に示す例を適用する場合において、ユーザ状態推定部15が、ユーザの行動(ユーザの動作)を推定できれば、その方法は特に限定されない。具体的な一例として、ユーザ状態推定部15は、ユーザが携行する筐体(例えば、ウェアラブル端末として構成された情報処理装置1)の位置や向きの変化を検出するための各種センサ(例えば、加速度センサや角速度センサ)の検出結果に基づき、ユーザの行動を推定してもよい。また、他の一例として、ユーザ状態推定部15は、GPS等により検出した、ユーザが携行する筐体の位置情報の変化に基づき、ユーザの行動(例えば、移動中か否か)を推定してもよい。
以上のようにして、ユーザ状態推定部15は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」のうち認識された少なくとも一部の情報に基づき、「落ち着き度」を算出する。
このように、図4~図6を参照して説明した例では、「落ち着き度」というユーザの状態(ユーザの心理状態)に対して、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」というユーザの状態が関連付けられている。換言すると、ユーザ状態推定部15は、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」等のような、取得された情報に基づき直接的に検出される(推定される)ユーザの状態を、「落ち着き度」というより抽象化されたユーザの状態として管理することが可能となる。
このような構成により、ユーザ状態推定部15は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」の少なくともいずれかが異なる複数の状態において、「落ち着き度」が同程度の場合には、当該複数の状態を、同一の状態として認識することも可能となる。
なお、ユーザ状態推定部15は、ユーザ個人の認識結果に応じて、ユーザごとに、落ち着き度の初期値や、認識された状態に応じた落ち着き度の加減算値を動的に切り替えてもよい。具体的な一例として、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」を示す情報をユーザごとに蓄積することで、当該ユーザの普段の状態(即ち、基準となる状態)が蓄積された情報に基づき導出されてもよい。これにより、例えば、ユーザ状態推定部15は、ユーザごとに、普段の状態を基準とした、認識された当該ユーザの各種状態の相対値に基づき、落ち着き度の加減算値を算出してもよい。
また、上記では、ユーザ状態推定部15が、ユーザの状態として「落ち着き度」を推定する場合を例に説明したが、当該ユーザ状態推定部15により推定されるユーザの状態は、必ずしも「落ち着き度」のみには限定されないことは言うまでもない。即ち、撮像された画像の解析結果や、取得された音声入力の解析結果等のような取得された各種情報に基づき、推定可能なユーザの状態であれば、推定の対象となるユーザの状態は特に限定されない。
そして、ユーザ状態推定部15は、推定したユーザの状態(例えば、落ち着き度)を示す情報を、応答パラメータ生成部16に出力する。なお、このときユーザ状態推定部15は、取得した「ユーザの年齢や性別」の推定結果や「ユーザ個人の認識結果」等のような、ユーザに関する情報を、応答パラメータ生成部16に出力してもよい。
なお、上記では、ユーザ状態推定部15が、主に、画像の解析結果と、音声入力の解析結果とに基づき、ユーザの状態を推定する例について説明したが、必ずしも同構成に限定するものではない。即ち、画像、音声入力、または各種センサによる検出結果等のように、情報処理装置1が取得可能な情報であり、かつ、当該情報に基づきユーザの状態が推定可能であれば、ユーザの状態の推定に利用される情報の種別は特に限定されない。
応答パラメータ生成部16は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性(例えば、言語特性)に関する情報を基に応答パラメータを生成し、当該応答パラメータを管理するための構成である。
例えば、応答パラメータ生成部16は、音声解析部11の発話スタイル検出部115から、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から抽出された固有表現を、発話スタイルを示す情報として取得する。また、応答パラメータ生成部16は、環境音解析部13の外部環境推定部132から、騒音度を示す情報(換言すると、ユーザの外部環境の検出結果)を取得する。また、応答パラメータ生成部16は、ユーザ状態推定部15から、「落ち着き度」、「ユーザの年齢や性別」及び「ユーザ個人の認識結果」等のような、ユーザの状態を示す情報や、ユーザに関する情報を取得する。
以上のようにして、応答パラメータ生成部16は、検出されたユーザの状態、状況、または特性(例えば、言語特性)に関する情報(以降では、「ユーザの発話状態に関する情報」と称する場合がある)を取得する。そして、応答パラメータ生成部16は、取得したユーザの発話状態に関する情報を、応答パラメータとして後述する応答生成部17に出力する。
なお、取得される「ユーザの発話状態に関する情報」には、「ユーザの外部環境の検出結果」や「ユーザの状態」のように、その時々の状況に応じて変化する一過性の情報と、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報とが含まれる。
そのため、応答パラメータ生成部16は、取得した「ユーザの発話状態に関する情報」のうち、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報に基づく応答パラメータついては、記憶部30に蓄積してもよい。記憶部30は、「ユーザの発話状態に関する情報」に基づき生成された応答パラメータを記憶するための記憶部である。
例えば、図7は、継続的な情報として記憶される応答パラメータの一例について説明するための説明図であり、「ユーザの発話スタイル」に基づく応答パラメータの一例について示している。
図7に示す例では、「ユーザの発話スタイル」を示す応答パラメータd10は、人名呼称データd11と、日時表現パターンd13とを含み、ユーザIDを識別子としてユーザごとに生成され管理されている。人名呼称データd11は、人名の呼称に関する発話スタイルを管理するためのデータであり、人ごとに、「正式名」と、当該「正式名」に対応する「呼称」とが関連付けられて記憶される。また、日時表現パターンd13は、暦や時間の表現を管理するためのデータである。例えば、ユーザが、暦(例えば、「年」)を和暦で呼称する場合には、日時表現パターンd13には、暦に関する表現を示す情報として、和暦で呼称することを示す情報が記憶される。同様に、ユーザが、時間を「午前」及び「午後」で区別して呼称する場合には、日時表現パターンd13には、時間に関する表現を示す情報として、「午前」及び「午後」で区別して呼称することを示す情報が記憶される。
応答パラメータ生成部16は、取得した「ユーザの発話スタイル」を示す情報を基に応答パラメータd10を生成し、取得したユーザ個人の認識結果に応じて、当該応答パラメータd10を認識したユーザごとに記憶部30に蓄積する。
このような構成に基づき、応答パラメータ生成部16は、後述する応答生成部17からの指示に基づき、音声入力の発話者の発話スタイルに応じた呼称を、当該応答生成部17に通知してもよい。
具体的な一例として、図7に示す例において、応答パラメータ生成部16が、応答生成部17から「山田 太郎」に対応する呼称の通知を指示されたものとする。この場合には、応答パラメータ生成部16は、取得したユーザ個人の認識結果に基づき、当該ユーザ(即ち、発話者)に対応する応答パラメータd10を記憶部30から抽出する。そして、応答パラメータ生成部16は、抽出した応答パラメータd10の人名呼称データd11を参照することで、「正式名」が「山田 太郎」である人物の「呼称」が「ヤマダさん」であることを認識し、認識した「ヤマダさん」という「呼称」を示す情報を、応答生成部17に通知する。これにより、応答生成部17は、「山田 太郎」という人物を、発話者の発話スタイルにあわせて、「ヤマダさん」と呼称した応答を生成することが可能となる。
なお、ユーザは、必ずしも日常的に使用している呼称を常に使用するとは限らない。具体的な一例として、普段は「山田 太郎」という人物を「ヤマダさん」と呼称しているユーザが、ある状況下では、「ヤマダタロウさん」と呼称する場合もある。
このような場合には、応答パラメータ生成部16は、例えば、取得した発話スタイルを示す情報に基づき、音声入力に含まれる「ヤマダタロウさん」という呼称にあわせて、一時的に、「山田 太郎」という人物の「呼称」が「ヤマダタロウさん」であるものと認識してもよい。また、他の一例として、応答パラメータ生成部16は、このような状況下においても、「山田 太郎」という人物の呼称を、ユーザが日常的に使用する発話スタイルにあわせて、「ヤマダさん」と呼称してもよい。なお、応答パラメータ生成部16が、上記に示した動作のうち、いずれを選択するかについては、事前のユーザ設定に基づき切り替えられるように構成されていてもよい。
応答要素生成部12は、音声入力として取得されたユーザからの問合せに対する応答を生成するために必要な情報を取得するための構成である。応答要素生成部12は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき特定された、実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、意味解析部114から取得する。応答要素生成部12は、意味解析部114から取得した情報が示すタスクを、あわせて取得した引数を入力情報として実行し、当該タスクの実行結果として、ユーザに対する応答を生成するために必要な情報を取得する。
例えば、図3に示す例では、実行すべきタスクとして「予定確認」が指定されており、当該タスクを実行するために、日時の引数として「明日午後1時」に対応する「2014/10/1 13:00」が指定されている。そのため、応答要素生成部12は、スケジュールを管理するためのアプリケーションに対して、引数として指定された「2014/10/1 13:00」を検索キーとして、当該検索キーに対応するスケジュールを検索させる。なお、このとき応答要素生成部12は、音声入力を発話したユーザの個人認識の結果を取得し、取得した個人認識の結果を、スケジュールを検索するための検索キーに加えてもよい。
そして、応答要素生成部12は、スケジュールを管理するためのアプリケーションから、検索キーに対応するスケジュールの検索結果を取得する。図3に示す例の場合には、応答要素生成部12は、スケジュールの検索結果として、「タイトル」として登録された「A会議室で打ち合わせ」という情報と、「参加者」として登録された「山田 太郎」という情報とを取得している。
そして、応答要素生成部12は、検索結果として取得した情報を、ユーザからの音声入力に対する応答を生成するための応答要素として、当該応答要素を示す情報と、実行したタスクを示す情報とを、後述する応答生成部17に出力する。なお、このとき応答要素生成部12は、検索結果として取得した情報に加えて、検索キーとして使用した情報(例えば、日時を示す「2014/10/1 13:00」)を、応答要素を示す情報として応答生成部17に出力してもよい。
応答生成部17は、ユーザからの音声入力に対する応答を生成するための構成である。応答生成部17は、ユーザからの音声入力に対する応答を生成するための応答要素を示す情報と、当該応答要素を取得すために実行されたタスクを示す情報とを、応答要素生成部12から取得する。
応答生成部17は、取得した応答要素を示す情報を応答パラメータ生成部16に送信し、ユーザの発話スタイルに応じた、当該応答要素の呼称を示す情報を応答パラメータ生成部16から取得する。
具体的な一例として、応答生成部17は、応答要素を示す情報として、人名を示す「山田 太郎」という情報を取得したものとする。この場合には、例えば、応答生成部17は、ユーザの発話スタイルに応じた「山田 太郎」という人物の呼称を示す情報として、「ヤマダさん」という呼称を示す情報を応答パラメータ生成部16から取得する。
また、他の一例として、応答生成部17は、応答要素を示す情報として、時刻を示す「13:00」という情報を取得したものとする。この場合には、例えば、応答生成部17は、ユーザの発話スタイルに応じた「13:00」という時刻の呼称を示す情報として、「午後1時」という呼称を示す情報を応答パラメータ生成部16から取得する。
次いで、応答生成部17は、取得したタスクを示す情報を基に、音声入力に基づくユーザからの問合せの内容を認識する。具体的な一例として、図3に示す例での場合には、応答生成部17は、取得したタスクを示す情報を基に、ユーザからの「明日午後1時の予定を教えて」という音声入力に対して、「予定確認」のためのタスクが実行されたこと認識する。
そして、応答生成部17は、実行されたタスクの認識結果と、応答要素に対応するユーザの発話スタイルに応じた呼称とに基づき、応答内容を示す情報(例えば、文字情報)を生成する。
具体的には、応答生成部17は、取得したタスクを示す情報に基づき、「予定確認」のためのタスクが実行されたこと認識した場合には、「予定確認」の結果をユーザに対して提示するための応答の雛形を生成する。そして、応答生成部17は、生成した雛形に対して、応答要素に対応するユーザの発話スタイルに応じた呼称を、生成した雛形に対して埋め込むことで、応答内容を示す情報を生成する。
より具体的には、応答生成部17は、「明日午後1時の予定を教えて」という音声有力に対する応答として、「山田太郎と、A会議室で打ち合わせです」という応答の雛形を作成する。そして、応答生成部17は、作成した雛形中の応答要素を、取得した当該応答要素に対応する呼称に置き換える。即ち、上記に示す例の場合には、応答生成部17は、「山田太郎」という人名を示す応答要素を、ユーザの発話スタイルに応じた「ヤマダさん」という呼称に置き換え、「ヤマダさんと、A会議室で打ち合わせです」という応答内容を示す情報を生成する。
また、応答生成部17は、「2014/9/30」、「2014/10/1」という日付を示す情報を、「本日」、「明日」、「明後日」等のような、日付を相対的に表した表現に置き換えて、応答内容を示す情報を生成してもよい。
具体的な一例として、応答生成部17は、「明日午後1時の予定を教えて」という音声有力に対する応答として、「2014/10/1 13:00からは、山田太郎と、A会議室で打ち合わせです」という応答の雛形を作成したものとする。この場合には、応答生成部17は、「13:00」と時間を示す応答要素と、「山田太郎」という人名を示す応答要素とを、ユーザの発話スタイルに応じた、「午後1時」、「ヤマダさん」という呼称に置き換える。また、応答生成部17は、「2014/10/1」という日付を示す応答要素を、音声入力の表現(換言すると、発話スタイル)にあわせて、「明日」という呼称に置き換えてもよい。即ち、この場合には、応答生成部17は、「明日午後1時からは、ヤマダさんと、A会議室で打ち合わせです」という応答内容を示す情報を生成することとなる。
また、応答生成部17は、取得した応答要素に基づき、応答内容として出力する情報のうち一部の表現を変更してもよい。具体的な一例として、応答生成部17は、時間帯を示す応答要素に応じて、挨拶の表現を、「おはようございます」、「こんにちは」、「こんばんは」というように切り替えてもよい。
応答内容を示す情報を生成すると、応答生成部17は、当該応答内容を示す情報を出力部40に出力させる。このとき、応答生成部17は、応答内容を示す文字情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を生成し、当該音声信号を出力部40に出力させてもよい。また、応答生成部17は、応答内容を示す文字情報を、表示情報として出力部40に出力させてもよい。
また、このとき応答生成部17は、ユーザの周囲の環境の「騒音度」や、当該ユーザの「落ち着き度」のように、ユーザと情報処理装置1と間の対話時における、ユーザの発話状態に関する情報(即ち、一過性の情報)を、応答要素生成部12から取得してもよい。この場合には、応答生成部17は、取得した情報に応じて、応答の出力態様を制御してもよい。
具体的な一例として、応答生成部17は、取得した「騒音度」を示す情報に応じて、応答として出力される音響情報の音量を制御してもよい。また、応答生成部17は、取得した「騒音度」を示す情報に応じて、応答の出力態様を制御してもよい。具体的には、応答生成部17は、「騒音度」が所定の閾値以下の場合には、応答が音響情報として出力されるように制御し、「騒音度」が所定の閾値を超える場合には、応答が表示情報として出力されるように制御してもよい。
また、他の一例として、応答生成部17は、取得した「落ち着き度」を示す情報に応じて、応答として出力される情報の量を制御してもよい。
例えば、情報処理装置1は、ユーザからの音声入力に対して、応答内容を示す情報に加えて、当該応答内容に関連する付加的な情報が出力できるように構成されていてもよい。この場合には、応答生成部17は、取得した「落ち着き度」を示す情報に応じて、付加的な情報を出力するか否かを制御してもよい。
具体的な一例として、「東京駅への行き方を教えて」という音声入力に対して、応答内容を示す情報として、「東京駅へ行くための乗り換え情報」を提示するための応答が生成され、付加的な情報として、「東京駅の周辺の天気」を提示するための情報が生成されたものとする。このとき、応答生成部17は、ユーザが急いでいる状態の場合には、応答内容を示す「東京駅へ行くための乗り換え情報」のみを出力部40に出力させてもよい。また、応答生成部17は、ユーザが落ち着いている状態の場合には、応答内容を示す「東京駅へ行くための乗り換え情報」に加えて、付加的な情報である「東京駅の周辺の天気」を出力部40に出力させてもよい。
また、応答生成部17は、ユーザに関連付けられた他のユーザに関する情報を、付加的な情報として取得してもよい。具体的な一例として、応答生成部17は、ユーザから「天気」を問い合わせられた場合に、ユーザの周辺や、ユーザの目的地の天気に加えて、当該ユーザの親戚の所在地(例えば、居所等)の天気を、付加的な情報として出力部40に出力させてもよい。また、応答生成部17は、ユーザからの音声入力に基づき、ニュース等の情報を提示する場合には、当該情報を提供するサイトのURL等のリンクを、付加的な情報として出力させてもよい。
なお、付加的な情報を生成するための情報(例えば、応答要素)については、例えば、前述した応答要素生成部12が、実行したタスク、音声入力から取得した検索キー、及び取得した応答要素等に基づき、新たにタスクを実行することで生成することが可能である。具体的な一例として、応答要素生成部12は、乗換情報を示す応答要素を取得するために検索キーとして使用した「東京駅」という情報に基づき、天気を確認するためのタスクを実行することで、「東京駅の周辺の天気」を示す応答要素を別途取得すればよい。
また、応答生成部17は、ユーザからの問い合わせに対する応答内容の情報量自体を制御してもよい。具体的な一例として、応答生成部17は、ユーザから「受信メールの確認」や「配信されたニュースの確認」が指示された場合に、「落ち着き度」の推定結果に応じて、情報の通知方法を、タイトルのみの通知、要約の通知、及び全文の通知の間で切り替えてもよい。換言すると、応答生成部17は、「落ち着き度」の推定結果に応じて、ユーザに対して通知する情報の詳しさの度合いを制御してもよい。
また、応答生成部17は、ユーザからの問い合わせの有無に関わらず、ユーザの発話状態に応じて、付加的な情報を提示してもよい。具体的な一例として、応答生成部17は、ユーザからの問い合わせに対して目的地までの経路を提示した後に、ユーザが落ち着いている状態であるものと認識したものとする。この場合には、応答生成部17は、当該目的地までの経路中に存在する、他のスポットの情報(所謂、寄り道情報)を追加情報として提示してもよい。
なお、応答生成部17は、ユーザが急いでいる状態と認識している場合には、追加情報の提示を抑制してもよく、ユーザの落ち着き度の変化に応じて、追加情報の提示の有無を動的に切り替えてもよい。また、応答生成部17は、追加情報を提示するか否かを、各種条件に応じて切り替えてもよいことは言うまでもない。具体的な一例として、応答生成部17は、ユーザが外出中の場合に、当該ユーザの落ち着き度に応じて、追加情報を提示してもよい。
また、応答生成部17は、取得した「落ち着き度」を示す情報に応じて、異なる表現で応答内容を示す情報が出力されるように制御してもよい。
具体的な一例として、応答生成部17は、ユーザが落ち着いている状態の場合には、「東京駅周辺の天気」を示す情報として、「東京駅の周辺の天気は晴れです」という自然文の応答内容を示す情報を生成するものとする。これに対して、応答生成部17は、ユーザが急いでいる状態の場合には、「東京駅周辺の天気」を示す情報として、「晴れです」というように、応答内容をより端的に示した情報を生成してもよい。
また、応答生成部17は、認識されたユーザの「年齢」の推定結果を示す情報を応答要素生成部12から取得することで、当該ユーザの「年齢」の推定結果に応じて、応答の出力態様を制御してもよい。具体的には、応答生成部17は、「年齢」の推定結果から、ユーザが老人であると認識した場合には、応答の出力速度(例えば、音声出力の話速や、表示情報の出力速度)がより遅くなるように制御してもよい。
また、音響情報として出力される音響信号の一部の周波数帯については、高齢化に伴い、ユーザが認識することが困難となるものがある。そのため、応答生成部17は、ユーザの「年齢」の推定結果に応じて、音声入力に対する応答として出力される音声信号(音響信号)の周波数帯域を制御してもよい。
また、応答生成部17は、ユーザの位置情報に基づき、当ユーザの発話が行われている環境を推定し、当該推定の結果に基づき応答の出力態様を制御してもよい。具体的な一例として、応答生成部17は、ユーザが自宅にいる場合には、応答として出力される音響情報の音質を向上させ、当該ユーザが自宅から外出している場合には、バッテリーを節約するために、当該音響情報の音質を一時的に低下させてもよい。
また、他の一例として、応答生成部17は、情報処理装置1を駆動させるための電力の供給元、もしくは当該電力の供給元の状態に応じて、応答の出力態様を制御してもよい。具体的な一例として、応答生成部17は、情報処理装置1がバッテリーからの電力に基づき駆動している場合には、バッテリーを節約するために、応答として出力される音響情報の音質を一時的に低下させてもよい。また、応答生成部17は、当該バッテリーの残量が所定値未満となった場合に、応答として出力される音響情報の音質を一時的に低下させてもよい。
なお、上記に説明した、応答生成部17による、ユーザの発話状態に関する情報(即ち、一過性の情報)に応じた出力態様の制御(例えば、応答の音量、応答の話速、及び出力される情報量等)のうち少なくとも一部は、ユーザによる事前の設定に基づき、有効及び無効が切り替えられてもよい。もちろん、上述した当該出力態様の各制御それぞれの有効及び無効は、ユーザによる事前の設定に基づき選択的に制御されてもよい。
また、上記に説明した機能構成はあくまで一例であり、必ずしも同構成に限定するものではない。具体的な一例として、制御部10の各構成のうち、一部の構成が、情報処理装置1とは異なる外部装置に設けられていてもよい。また、上記に説明した各種機能が実現可能であれば、情報処理装置1の種別や形態は特に限定されず、当該種別や形態に応じて、機能や構成が追加されていてもよい。
また、上記に説明した機能構成が実現されれば、情報処理装置1の種別や利用形態についても特に限定されない。具体的な一例として、情報処理装置1は、所謂スマートフォン、タブレット端末、及びウェアラブル端末等のように、ユーザが携行可能に構成されていてもよい。また、情報処理装置1は、所謂パーソナルコンピュータ等の情報機器として構成されていてもよいし、テレビ受像機等のような各種家電機器として構成されていてもよい。
以上、図2~図7を参照して、本実施形態に係る情報処理装置1の機能構成の一例について説明した。
<3.処理>
次に、図8を参照して、本実施形態に係る情報処理装置1の一連の動作の流れの一例について説明する。図8は、本実施形態に係る情報処理装置1の一連の動作の流れの一例を示したフローチャートである。
次に、図8を参照して、本実施形態に係る情報処理装置1の一連の動作の流れの一例について説明する。図8は、本実施形態に係る情報処理装置1の一連の動作の流れの一例を示したフローチャートである。
(ステップS101)
まず、ユーザからの音声入力や、周囲の騒音のような所謂環境音等の、音響情報を取得し、取得した音響情報を、音声解析部11と環境音解析部13とに出力する。
まず、ユーザからの音声入力や、周囲の騒音のような所謂環境音等の、音響情報を取得し、取得した音響情報を、音声解析部11と環境音解析部13とに出力する。
(ステップS103)
音声解析部11の音声区間検出部111は、集音部21から、集音された音響情報を取得する。音声区間検出部111は、取得した音響情報を解析することで、当該音響情報中における音声区間を検出する。音声区間検出部111は、取得した音響情報から音声区間に相当する部分(即ち、音響信号)を音声入力として抽出する。そして、音声区間検出部111は、抽出した音声入力を音声認識部112と音声特徴抽出部113とに出力する。
音声解析部11の音声区間検出部111は、集音部21から、集音された音響情報を取得する。音声区間検出部111は、取得した音響情報を解析することで、当該音響情報中における音声区間を検出する。音声区間検出部111は、取得した音響情報から音声区間に相当する部分(即ち、音響信号)を音声入力として抽出する。そして、音声区間検出部111は、抽出した音声入力を音声認識部112と音声特徴抽出部113とに出力する。
音声認識部112は、集音された音響情報に含まれる音声入力を音声区間検出部111から取得し、取得した音声入力を音声認識技術に基づき解析することで、文字情報に変換する。そして、音声認識部112は、音声入力が変換された文字情報を、音声特徴抽出部113と意味解析部114とに出力する。
音声特徴抽出部113は、集音された音響情報に含まれる音声入力を音声区間検出部111から取得する。また、音声特徴抽出部113は、当該音声入力が音声認識技術に基づき変換された文字情報を、音声認識部112から取得する。
音声特徴抽出部113は、音声入力として取得した音声信号を解析することで、例えば、当該音声信号の振幅に基づき、声の大きさ(即ち、音声入力の音量)を検出する。そして、音声特徴抽出部113は、検出した声の大きさを示す情報を、環境音解析部13の外部環境推定部132に出力する。
また、音声特徴抽出部113は、取得した音声入力の長さ(即ち、発話区間の長さ)と、当該音声入力が変換された文字情報の長さ(例えば、文字数)とに基づき、話速を算出する。そして、音声特徴抽出部113は、算出した話速を示す情報を、ユーザ状態推定部15に出力する。
意味解析部114は、音声入力が音声認識技術に基づき変換された文字情報を、音声認識部112から取得する。意味解析部114は、取得した文字情報(即ち、音声入力が変換された文字情報)に対して、自然言語処理を施すことで、当該文字情報が示す意味内容(換言すると、音声入力が示す意味内容)を認識する。
また、意味解析部114は、取得した文字情報に対する自然言語処理技術に基づく解析の結果(以降では、単に「自然言語処理の結果」と記載する場合がある)に応じて、実行すべきタスクと、当該タスクを実行するための引数とを特定する。
例えば、意味解析部114は、「明日午後1時の予定を教えて」という文字情報を取得した場合には、当該文字情報に含まれる「予定」、「教えて」というキーワードに基づき、ユーザから、「予定確認」のタスクの実行が指示されているものと認識する。意味解析部114は、取得した文字情報から、「予定確認」のタスクを実行するために必要な日時を示す引数として、「明日午後1時」というキーワードを抽出する。なお、このとき、意味解析部114は、「明日」、「本日」、及び「明後日」のように、対応する語句のみでは意味を一意に特定できないものについては、「10/1」のように、実際の日付を示す情報に変換してもよい。
そして、意味解析部114は、特定した実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、後述する応答要素生成部12に出力する。また、意味解析部114は、音声入力が変換された文字情報に対する自然言語処理の結果(例えば、字句解析(形態素解析)、構文解析、及び意味解析等の結果)を、発話スタイル検出部115に出力する。
(ステップS105)
応答要素生成部12は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき特定された、実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、意味解析部114から取得する。応答要素生成部12は、意味解析部114から取得した情報が示すタスクを、あわせて取得した引数を入力情報として実行し、当該タスクの実行結果として、ユーザに対する応答を生成するために必要な情報を取得する。
応答要素生成部12は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき特定された、実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、意味解析部114から取得する。応答要素生成部12は、意味解析部114から取得した情報が示すタスクを、あわせて取得した引数を入力情報として実行し、当該タスクの実行結果として、ユーザに対する応答を生成するために必要な情報を取得する。
例えば、応答要素生成部12は、「予定確認」のタスクを実行するために、スケジュールを管理するためのアプリケーションに、引数として指定された「2014/10/1 13:00」を検索キーとして、当該検索キーに対応するスケジュールを検索させる。そして、応答要素生成部12は、当該アプリケーションから、検索キーに対応するスケジュールの検索結果を取得する。例えば、応答要素生成部12は、スケジュールの検索結果として、「タイトル」として登録された「A会議室で打ち合わせ」という情報と、「参加者」として登録された「山田 太郎」という情報とを取得する。
そして、応答要素生成部12は、検索結果として取得した情報を、ユーザからの音声入力に対する応答を生成するための応答要素として、当該応答要素を示す情報と、実行したタスクを示す情報とを、後述する応答生成部17に出力する。
(ステップS107)
発話スタイル検出部115は、意味解析部114から、音声入力が変換された文字情報に対する自然言語処理の結果を取得する。発話スタイル検出部115は、取得した自然言語処理の結果に基づき、音声入力が変換された文字情報から、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句(即ち、固有表現)を抽出する。
発話スタイル検出部115は、意味解析部114から、音声入力が変換された文字情報に対する自然言語処理の結果を取得する。発話スタイル検出部115は、取得した自然言語処理の結果に基づき、音声入力が変換された文字情報から、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句(即ち、固有表現)を抽出する。
そして、発話スタイル検出部115は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から抽出した固有表現を、発話スタイルを示す情報として、後述する応答パラメータ生成部16に出力する。
(ステップS200)
環境音解析部13は、取得された音響情報を解析することで、周囲の環境における環境音を抽出し、当該環境音の特徴の抽出を行う。例えば、環境音解析部13は、音声入力と環境音とのそれぞれの音量に基づき、環境音の特徴として「騒音度」を抽出する。図9は、情報処理装置1の動作の一例を示したフローチャートであり、情報処理装置1が、環境音の特徴として「騒音度」を抽出する場合における処理の一例を示している。
環境音解析部13は、取得された音響情報を解析することで、周囲の環境における環境音を抽出し、当該環境音の特徴の抽出を行う。例えば、環境音解析部13は、音声入力と環境音とのそれぞれの音量に基づき、環境音の特徴として「騒音度」を抽出する。図9は、情報処理装置1の動作の一例を示したフローチャートであり、情報処理装置1が、環境音の特徴として「騒音度」を抽出する場合における処理の一例を示している。
(ステップS201)
環境音解析部13の環境音認識部131は、集音部21から、集音された音響情報を取得する。環境音認識部131は、例えば、情報処理装置1に対してユーザが位置する方向(換言すると、目的音の到来方向)を検知する。なお、情報処理装置1に対してユーザが位置する方向が検出できれば、その方法は特に限定されない。具体的な一例として、環境音認識部131は、撮像部23により撮像された画像の解析結果として取得される、当該画像中におけるユーザの位置に基づき、情報処理装置1に対してユーザが位置する方向を検知してもよい。また、他の一例として、集音部21として複数の集音デバイス(例えば、マイクアレイ)を設けることで、各集音デバイスの集音結果に応じて、集音された音響情報の到来方向が推定されるように、情報処理装置1が構成されていてもよい。
環境音解析部13の環境音認識部131は、集音部21から、集音された音響情報を取得する。環境音認識部131は、例えば、情報処理装置1に対してユーザが位置する方向(換言すると、目的音の到来方向)を検知する。なお、情報処理装置1に対してユーザが位置する方向が検出できれば、その方法は特に限定されない。具体的な一例として、環境音認識部131は、撮像部23により撮像された画像の解析結果として取得される、当該画像中におけるユーザの位置に基づき、情報処理装置1に対してユーザが位置する方向を検知してもよい。また、他の一例として、集音部21として複数の集音デバイス(例えば、マイクアレイ)を設けることで、各集音デバイスの集音結果に応じて、集音された音響情報の到来方向が推定されるように、情報処理装置1が構成されていてもよい。
(ステップS203、S205)
次いで、環境音認識部131は、情報処理装置1に対してユーザが位置する方向に死角(null beam)を有するフィルタを形成する(ステップS203)。そして、環境音認識部131は、集音部21により集音された音響情報に対して、形成したフィルタを適用することで、当該音響情報から、当該ユーザからの音声入力以外の他の音響情報を環境音として抽出する(ステップS205)。
次いで、環境音認識部131は、情報処理装置1に対してユーザが位置する方向に死角(null beam)を有するフィルタを形成する(ステップS203)。そして、環境音認識部131は、集音部21により集音された音響情報に対して、形成したフィルタを適用することで、当該音響情報から、当該ユーザからの音声入力以外の他の音響情報を環境音として抽出する(ステップS205)。
(ステップS207)
次いで、環境音認識部131は、音響情報から抽出した環境音の音響信号を解析することで、例えば、当該音響信号の振幅に基づき、環境音の音量を検出する。そして、環境音認識部131は、検出した環境音の音量を示す情報、騒音の音量を示す情報として外部環境推定部132に出力する。
次いで、環境音認識部131は、音響情報から抽出した環境音の音響信号を解析することで、例えば、当該音響信号の振幅に基づき、環境音の音量を検出する。そして、環境音認識部131は、検出した環境音の音量を示す情報、騒音の音量を示す情報として外部環境推定部132に出力する。
外部環境推定部132は、環境音認識部131から、騒音の音量を示す情報を取得する。また、外部環境推定部132は、音声解析部11の音声特徴抽出部113から、声の大きさ(即ち、音声入力の音量)を示す情報を取得する。そして、外部環境推定部132は、ユーザからの音声入力を目的音として、当該目的音の音量(即ち、声の大きさ)に対する、騒音の音量の大きさを示す数値(例えば、SN比)を、騒音度として算出する。外部環境推定部132は、算出した騒音度を示す情報を、応答パラメータ生成部16に出力する。
以上、図9を参照して、環境音解析部13が、環境音の特徴として「騒音度」を抽出する場合における、一連の処理の流れの一例について説明した。
(ステップS300)
また、図8に示すように、情報処理装置1は、ユーザからの音声入力や、撮像されたユーザの画像等のように取得された各種情報に基づき、ユーザの各種状態を推定する。そこで、以下に図10を参照して、情報処理装置1が、取得された各種情報に基づきユーザの「落ち着き度」を推定する場合の動作の一例について説明する。図10は、情報処理装置1の動作の一例を示したフローチャートであり、情報処理装置1が、ユーザの状態として「落ち着き度」を推定する場合における処理の一例を示している。
また、図8に示すように、情報処理装置1は、ユーザからの音声入力や、撮像されたユーザの画像等のように取得された各種情報に基づき、ユーザの各種状態を推定する。そこで、以下に図10を参照して、情報処理装置1が、取得された各種情報に基づきユーザの「落ち着き度」を推定する場合の動作の一例について説明する。図10は、情報処理装置1の動作の一例を示したフローチャートであり、情報処理装置1が、ユーザの状態として「落ち着き度」を推定する場合における処理の一例を示している。
(ステップS311)
例えば、画像解析部14は、撮像された画像に対して画像解析を施すことで、当該画像解析の結果に基づき、ユーザの姿勢、年齢、性別等のような、当該ユーザの状態や当該ユーザに関する情報(例えば、属性情報)を推定する。また、このとき、画像解析部14は、撮像された画像に対して所謂個人認識技術に基づく解析処理を施すことで、当該画像中に撮像されたユーザを個人認識してもよい。そして、画像解析部14は、取得した画像の解析結果、即ち、当該画像に撮像されたユーザ個人の認識結果や、姿勢、年齢、性別等のような、ユーザの状態や当該ユーザに関する情報の推定結果を、ユーザ状態推定部15に出力する。
例えば、画像解析部14は、撮像された画像に対して画像解析を施すことで、当該画像解析の結果に基づき、ユーザの姿勢、年齢、性別等のような、当該ユーザの状態や当該ユーザに関する情報(例えば、属性情報)を推定する。また、このとき、画像解析部14は、撮像された画像に対して所謂個人認識技術に基づく解析処理を施すことで、当該画像中に撮像されたユーザを個人認識してもよい。そして、画像解析部14は、取得した画像の解析結果、即ち、当該画像に撮像されたユーザ個人の認識結果や、姿勢、年齢、性別等のような、ユーザの状態や当該ユーザに関する情報の推定結果を、ユーザ状態推定部15に出力する。
ユーザ状態推定部15は、画像解析部14から撮像された画像の解析結果に基づくユーザの状態や当該ユーザに関する情報の推定結果を取得し、取得した当該推定結果(例えば、ユーザの姿勢の推定結果)に基づき、ユーザの「落ち着き度」を算出するための重み(即ち、加減算値)を特定する。
具体的な一例として、図4に示すように、ユーザ状態推定部15は、ユーザの姿勢が「座っている」状態、または「寝そべっている」状態の場合には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度の加算値として重みを特定する。また、ユーザ状態推定部15は、ユーザの姿勢が「立っている」状態の場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度の減算値を重みとして特定する。
(ステップS321)
また、ユーザ状態推定部15は、音声特徴抽出部113から、音声入力の解析結果に基づき認識された当該音声入力の話速を示す情報取得し、取得した話速を示す情報に基づき、ユーザの「落ち着き度」を算出するための重み(即ち、加減算値)を特定してもよい。
また、ユーザ状態推定部15は、音声特徴抽出部113から、音声入力の解析結果に基づき認識された当該音声入力の話速を示す情報取得し、取得した話速を示す情報に基づき、ユーザの「落ち着き度」を算出するための重み(即ち、加減算値)を特定してもよい。
具体的な一例として、図5に示すように、ユーザ状態推定部15は、話速が「4-6文字/秒」の場合を話速の基準値として、当該基準値よりも話速が遅い場合(即ち、話速が「4文字未満/秒」の場合)には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度の加算値として重みを特定する。また、ユーザ状態推定部15は、基準値よりも話速が速い場合(即ち、話速が「7文字以上/秒」の場合)には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度の減算値を重みとして特定する。
(ステップS331)
また、ユーザ状態推定部15は、各種センサの検出結果等に応じたユーザの行動の推定結果に基づき、ユーザの「落ち着き度」を算出するための重み(即ち、加減算値)を特定してもよい。
また、ユーザ状態推定部15は、各種センサの検出結果等に応じたユーザの行動の推定結果に基づき、ユーザの「落ち着き度」を算出するための重み(即ち、加減算値)を特定してもよい。
具体的な一例として、図6に示すように、ユーザ状態推定部15は、ユーザが「止まっている」場合には、当該ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度の加算値として重みを特定する。また、ユーザ状態推定部15は、ユーザが「歩いている」場合、または「走っている」場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度の減算値を重みとして特定する。
(ステップS340)
以上のようにして、ユーザ状態推定部15は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」のうち認識された少なくとも一部の情報に基づき、「落ち着き度」を算出するための重み(即ち、加減算値)を特定する。そして、ユーザ状態推定部15は、あらかじめ設定された落ち着き度の初期値に対して、特定した重みを適用することで、ユーザの落ち着き度を算出する。
以上のようにして、ユーザ状態推定部15は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」のうち認識された少なくとも一部の情報に基づき、「落ち着き度」を算出するための重み(即ち、加減算値)を特定する。そして、ユーザ状態推定部15は、あらかじめ設定された落ち着き度の初期値に対して、特定した重みを適用することで、ユーザの落ち着き度を算出する。
そして、ユーザ状態推定部15は、推定したユーザの状態(例えば、落ち着き度)を示す情報を、応答パラメータ生成部16に出力する。なお、このときユーザ状態推定部15は、「ユーザの年齢や性別」の推定結果や「ユーザ個人の認識結果」等のような、ユーザに関する情報を、応答パラメータ生成部16に出力してもよい。
以上、図10を参照して、情報処理装置1が、取得された各種情報に基づきユーザの「落ち着き度」を推定する場合の動作の一例について説明した。
(ステップS109)
次いで、図8に示すように、応答パラメータ生成部16は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性(例えば、言語特性)に関する情報を基に応答パラメータを生成する。
次いで、図8に示すように、応答パラメータ生成部16は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性(例えば、言語特性)に関する情報を基に応答パラメータを生成する。
なお、取得される「ユーザの発話状態に関する情報」には、「ユーザの外部環境の検出結果」や「ユーザの状態」のように、その時々の状況に応じて変化する一過性の情報と、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報とが含まれる。
そのため、応答パラメータ生成部16は、取得した「ユーザの発話状態に関する情報」のうち、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報に基づく応答パラメータついては、記憶部30に蓄積してもよい。
(ステップS111)
応答生成部17は、ユーザからの音声入力に対する応答を生成するための応答要素を示す情報と、当該応答要素を取得すために実行されたタスクを示す情報とを、応答要素生成部12から取得する。
応答生成部17は、ユーザからの音声入力に対する応答を生成するための応答要素を示す情報と、当該応答要素を取得すために実行されたタスクを示す情報とを、応答要素生成部12から取得する。
応答生成部17は、取得した応答要素を示す情報を応答パラメータ生成部16に送信し、ユーザの発話スタイルに応じた、当該応答要素の呼称を示す情報を応答パラメータ生成部16から取得する。
次いで、応答生成部17は、取得したタスクを示す情報を基に、音声入力に基づくユーザからの問合せの内容を認識する。具体的な一例として、図3に示す例での場合には、応答生成部17は、取得したタスクを示す情報を基に、ユーザからの「明日午後1時の予定を教えて」という音声入力に対して、「予定確認」のためのタスクが実行されたこと認識する。
そして、応答生成部17は、実行されたタスクの認識結果と、応答要素に対応するユーザの発話スタイルに応じた呼称とに基づき、応答内容を示す情報(例えば、文字情報)を生成する。
具体的には、応答生成部17は、取得したタスクを示す情報に基づき、「予定確認」のためのタスクが実行されたこと認識した場合には、「予定確認」の結果をユーザに対して提示するための応答の雛形を生成する。そして、応答生成部17は、生成した雛形に対して、応答要素に対応するユーザの発話スタイルに応じた呼称を、生成した雛形に対して埋め込むことで、応答内容を示す情報を生成する。
応答内容を示す情報を生成すると、応答生成部17は、当該応答内容を示す情報を出力部40に出力させる。このとき、応答生成部17は、応答内容を示す文字情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を生成し、当該音声信号を出力部40に出力させてもよい。また、応答生成部17は、応答内容を示す文字情報を、表示情報として出力部40に出力させてもよい。
また、このとき応答生成部17は、ユーザの周囲の環境の「騒音度」や、当該ユーザの「落ち着き度」のように、ユーザと情報処理装置1と間の対話時における、ユーザの発話状態に関する情報(即ち、一過性の情報)を、応答要素生成部12から取得してもよい。この場合には、応答生成部17は、取得した情報に応じて、応答の出力態様を制御してもよい。
以上、図8~図10を参照して、本実施形態に係る情報処理装置1の一連の動作の流れの一例について説明した。
<4.変形例>
次に、本実施形態に係る情報処理装置1の変形例について説明する。
次に、本実施形態に係る情報処理装置1の変形例について説明する。
[4.1.変形例1:認識した各種状態のフィードバック]
まず、変形例1に係る情報処理装置1について説明する。変形例1に係る情報処理装置1は、音声入力に対する応答を生成するために取得した、「騒音度」や「落ち着き度」等のような、各種状態の推定結果(換言すると、ユーザの発話状態に関する情報)に応じて、ユーザに情報をフィードバックする。
まず、変形例1に係る情報処理装置1について説明する。変形例1に係る情報処理装置1は、音声入力に対する応答を生成するために取得した、「騒音度」や「落ち着き度」等のような、各種状態の推定結果(換言すると、ユーザの発話状態に関する情報)に応じて、ユーザに情報をフィードバックする。
例えば、図11及び図12は、変形例1に係る情報処理装置1の概要について説明するための説明図であり、情報処理装置1が、「騒音度」や「落ち着き度」の推定結果に応じた情報を、ユーザに表示情報としてフィードバックするための表示画面の一例を示している。
例えば、図11に示す例では、情報処理装置1は、参照符号v11に示すように、「騒音度」や「落ち着き度」の推定結果に応じて、音声入力の認識精度をより向上させるためのアドバイスを示す情報を提示してもよい。また、情報処理装置1は、参照符号v13に示すように、「騒音度」や「落ち着き度」の推定結果を可視化した表示情報をユーザに提示してもよい。
このように、「騒音度」や「落ち着き度」の推定結果に応じた情報をユーザに対してフィードバックすることで、当該ユーザは、音声入力が正確に認識されない場合において、その要因を当該フィードバックに基づき認識することが可能となる。
なお、情報処理装置1が、ユーザに対してフィードバックする情報の内容や、当該フィードバックの方法は特に限定されない。例えば、図12は、スマートフォンやウェアラブル端末のように、情報を表示するための画面が比較的小さい情報処理装置1が、ユーザに対して情報をフィードバックする場合の表示画面の一例を示している。図12に示す例では、図11において参照符号v11及びv13で示した各種情報のうち、音声入力の認識精度をより向上させるためのアドバイスを示す情報v11のみを提示している。また、情報処理装置1は、情報を表示するための画面が極めて小さい場合には、「騒音度」や「落ち着き度」の度合いを示すアイコンのみを、ユーザに対して提示してもよい。
また、情報処理装置1は、「騒音度」や「落ち着き度」の推定結果に応じて、ユーザに対してフィードバックする情報の内容や、当該フィードバックの態様を制御してもよい。具体的な一例として、情報処理装置1は、ユーザが落ち着いている状態の場合には、図12に示すように情報v11及びv13をフィードバックし、ユーザが急いでいる状態の場合には、図12に示すように、情報v11のみをフィードバックしてもよい。また、情報処理装置1は、ユーザが極めて急いでいる状態と認識した場合には、「騒音度」や「落ち着き度」の度合いを示すアイコンのみを、ユーザに対してフィードバックしてもよい。
また、情報処理装置1は、「騒音度」や「落ち着き度」の推定結果に応じた情報を、表示情報とは異なる態様で、ユーザに対して提示してもよい。具体的な一例として、情報処理装置1は、ヘッドフォン型の端末のように、表示部が備えていない場合には、「騒音度」や「落ち着き度」の推定結果に応じた情報を、音響情報としてユーザにフィードバックしてもよい。
以上、図11及び図12を参照して、変形例1に係る情報処理装置1について説明した。
[4.2.変形例2:個人の認識結果と状況に応じた応答内容の制御例]
次に、変形例2として、情報処理装置1が、ユーザ個人の認識結果と、当該ユーザが置かれている状況の認識結果とに応じて、応答内容を制御する場合の一例について説明する。
次に、変形例2として、情報処理装置1が、ユーザ個人の認識結果と、当該ユーザが置かれている状況の認識結果とに応じて、応答内容を制御する場合の一例について説明する。
例えば、発話者であるユーザUaが、他のユーザUbの呼称を、当該ユーザUaが置かれている状況に応じて切り替えて使用する場合がある。具体的な一例として、ユーザUaとユーザUbとが夫婦であり、二人の間には子供がおり、かつ、ユーザUbの名前が「ユリ」であるものとする。この場合には、ユーザUaは、例えば、子供がいる状況下では、ユーザUbのことを「ママ」と呼称するのに対して、子供がいない状況下では、ユーザUbのことを「ユリ」と名前で呼称する場合が想定され得る。
このような、状況に応じた呼称(即ち、発話スタイル)の切り替えを、情報処理装置1が、応答を行う際の状況に応じて再現してもよい。
具体的な一例として、ユーザUaの名前が「ヒロフミ」、ユーザUaの妻であるユーザUbの名前が「ユリ」、ユーザUa及びUbの子供であるユーザUcの名前が「ユウタ」であるものとする。
この場合には、情報処理装置1は、例えば、撮像部23により撮像された画像を解析することで、自身の周囲に存在するユーザを検出し、検出したユーザそれぞれを個人認識する。そして、情報処理装置1は、個人認識の結果に基づき、ユーザUa、Ub、及びUcの呼称を切り替える。
例えば、情報処理装置1は、自身の周囲にユーザUa及びUbのみが存在し、ユーザUa及びUbの子供であるユーザUcが存在しないことを認識した場合には、ユーザUa及びUbそれぞれが、「ヒロフミ」、「ユミ」と呼称されるように応答を生成してもよい。また、情報処理装置1は、自身の周囲にユーザUcが存在することを認識した場合には、ユーザUa、Ub、及びUcそれぞれが、「パパ」、「ママ」、「ユウタくん」と呼称されるように応答を生成してもよい。
なお、このような制御を行う場合には、情報処理装置1は、各ユーザの発話スタイルを示す応答パラメータを、想定される状況ごとに区別して蓄積すればよい。
もちろん、上記に示す例は、あくまで一例であり、情報処理装置1が、発話スタイルを切り替える状況や、切り替えの対象となる発話スタイルは、上記に示す例には限定されない。
例えば、応答生成部17は、ユーザからの音声入力を取得した時間帯に応じて、応答内容として出力される情報のうち、挨拶を示す情報の表現を、「おはようございます」、「こんにちは」、「こんばんは」というように切り替えてもよい。
また、他の一例として、応答生成部17は、所定のユーザの関係者のみ(例えば、家族のみ)が存在する場合には、よりやわらかい表現となるように応答内容を制御し、第三者が存在する場合には、よりかたい表現となるように応答内容を制御してもよい。
以上、変形例2として、情報処理装置1が、ユーザ個人の認識結果と、当該ユーザが置かれている状況の認識結果とに応じて、応答内容を制御する場合の一例について説明した。
<5.実施例>
上述した実施形態では、情報処理装置1とユーザとの間の対話のための言語として、「日本語」が使用される場合を例に説明したが、使用される言語は必ずしも「日本語」には限定されないことは言うまでもない。そこで、以下に、実施例として、情報処理装置1とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について、図13~図16を参照して説明する。図13~図16は、本実施形態に係る情報処理装置1の実施例について説明するための説明図であり、情報処理装置1とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について示している。なお、本説明では、主に、使用される言語が「日本語」の場合と異なる部分に着目して説明し、その他の部分については、詳細な説明は省略する。
上述した実施形態では、情報処理装置1とユーザとの間の対話のための言語として、「日本語」が使用される場合を例に説明したが、使用される言語は必ずしも「日本語」には限定されないことは言うまでもない。そこで、以下に、実施例として、情報処理装置1とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について、図13~図16を参照して説明する。図13~図16は、本実施形態に係る情報処理装置1の実施例について説明するための説明図であり、情報処理装置1とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について示している。なお、本説明では、主に、使用される言語が「日本語」の場合と異なる部分に着目して説明し、その他の部分については、詳細な説明は省略する。
例えば、図13は、実施例に係る情報処理装置1が、英語の音声入力を取得した場合における、当該音声入力が示す意味内容の解析と、当該解析の結果に基づく処理の一例について説明するための説明図である。
図13は、ユーザがスケジュールを確認するために、情報処理装置1に対して、「Check my schedule tomorrow 1 o’clock afternoon.」と発話した場合について示している。即ち、図13に示す例の場合には、情報処理装置1は、取得された音声入力対する音声認識の結果として、「Check my schedule tomorrow 1 o’clock afternoon.」という文字情報を取得する。
情報処理装置1は、取得した「Check my schedule tomorrow 1 o’clock afternoon.」という文字情報に対して、自然言語処理技術に基づく解析を施すことで、当該文字情報に基づき実行すべきタスク(即ち、ユーザからの問合せに対する応答を生成するためのタスク)として、「予定確認」のタスクを特定する。
なお、英語の音声入力が取得された場合には、当該音声入力に対する音声認識や、当該音声認識の結果に対する自然言語処理として、英語の言語に対応した処理を適用すればよいことは言うまでもない。また、英語の音声入力に対する音声認識や、英語の自然文に対する自然言語処理としては、一般的に使用されている手法を適用すればよく、本説明では、同処理の内容について詳細な説明は省略する。
また、情報処理装置1は、ユーザからの指示に基づき実行すべきタスクを特定すると、特定したタスクを実行するために必要な引数を、取得した「Check my schedule tomorrow 1 o’clock afternoon.」という文字情報から抽出する。具体的には、情報処理装置1は、取得した「Check my schedule tomorrow 1 o’clock afternoon.」という文字情報に対する形態素解析の結果から、「予定確認」のタスクを実行するために必要な「Date-Time」を示す引数として、「tomorrow 1 o’clock afternoon」というキーワードを抽出する。また、このとき、情報処理装置1は、「tomorrow 1 o’clock afternoon」というキーワードを、「2014/10/1 13:00」という表現に変換してもよい。
次いで、情報処理装置1は、特定した引数に基づき、特定したタスクを実行することで、音声入力に対する応答を生成するための応答要素を取得する。例えば、図13に示す例の場合には、情報処理装置1は、スケジュールを管理するためのアプリケーションに対して、引数として指定された「2014/10/1 13:00」を検索キーとして、当該検索キーに対応するスケジュールを検索させる。そして、情報処理装置1は、スケジュールの検索結果として、「タイトル」として登録された「Meeting at room A」という情報と、「参加者」として登録された「Michael」という情報とを取得する。
また、図14は、継続的な情報として記憶される応答パラメータの一例について説明するための説明図であり、「英語」が使用されている場合における、「ユーザの発話スタイル」に基づく応答パラメータの一例について示している。なお、図14では、「ユーザの発話スタイル」を示す応答パラメータd10に含まれる、人名呼称データd11の一例が示されている。
例えば、図14に示す例では、「Michael Smith」という正式名称に対して「Mickey」という呼称が関連付けられている。即ち、当該データは、対応するユーザが、「Michael Smith」という名前の人物を、「Mickey」と呼称していることを示している。同様に、「Elizabeth Green」という正式名称に対して「Betty」という呼称が関連付けられている。また、「Katharine McPhee」という正式名称には、「Kate」という呼称が関連付けられている。
もちろん、図14に示す例は、あくまで一例であり、必ずしも図14に示す内容には限定されない。具体的な一例として、対応するユーザが、ある人物に対して、「Mr.」や「Doctor」等の敬称を付して呼称している場合には、当該人物の正式名に対して、敬称が付された呼称が関連付けられていてもよい。
なお、以降の動作は、前述した実施形態に係る情報処理装置1と同様である。即ち、情報処理装置1は、タスクの実行結果として取得した応答要素の呼称を応答パラメータとして取得し、取得した応答パラメータを、実行したタスクに応じた応答内容の雛形に埋め込むことで、応答内容を示す情報を生成する。そして、情報処理装置1は、応答内容を示す情報を出力部40に出力させる。
なお、実施例に係る情報処理装置1は、前述した変形例1に係る情報処理装置1と同様に、「騒音度」や「落ち着き度」等のような、各種状態の推定結果(換言すると、ユーザの発話状態に関する情報)に応じて、ユーザに情報をフィードバックしてもよい。例えば、図15及び図16は、実施例に係る情報処理装置1の概要について説明するための説明図であり、情報処理装置1が、「騒音度」や「落ち着き度」の推定結果に応じた情報を、ユーザに表示情報としてフィードバックするための表示画面の一例を示している。
以上、実施例として、情報処理装置1とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について、図13~図16を参照して説明した。
<6.ハードウェア構成>
次に、図17を参照して、本開示の各実施形態に係る情報処理装置1のハードウェア構成の一例について説明する。図17は、本開示の実施形態に係る情報処理装置1のハードウェア構成の一例を示した図である。
次に、図17を参照して、本開示の各実施形態に係る情報処理装置1のハードウェア構成の一例について説明する。図17は、本開示の実施形態に係る情報処理装置1のハードウェア構成の一例を示した図である。
図17に示すように、本実施形態に係る情報処理装置1は、プロセッサ901と、メモリ903と、ストレージ905と、操作デバイス907と、報知デバイス911と、集音デバイス915と、撮像デバイス917と、バス919とを含む。また、情報処理装置1は、通信デバイス913を含んでもよい。
プロセッサ901は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)又はSoC(System on Chip)であってよく、情報処理装置1の様々な処理を実行する。プロセッサ901は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した制御部10の各構成は、プロセッサ901により実現され得る。
メモリ903は、RAM(Random Access Memory)及びROM(Read Only Memory)を含み、プロセッサ901により実行されるプログラム及びデータを記憶する。ストレージ905は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した記憶部30は、メモリ903及びストレージ905の少なくともいずれか、もしくは、双方の組み合わせにより実現され得る。
操作デバイス907は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス907は、例えば、タッチパネルとして構成され得る。また、他の一例として、操作デバイス907は、例えばボタン及びスイッチなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ901に供給する入力制御回路などから構成されてよい。
報知デバイス911は、出力デバイスの一例であり、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイなどのデバイスであってよい。この場合には、報知デバイス911は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。また、報知デバイス911は、スピーカ等のように、所定の音響信号を出力することで、所定の情報をユーザに報知するデバイスであってもよい。なお、前述した出力部40は、報知デバイス911により実現され得る。
また、上記に示した報知デバイス911の例はあくまで一例であり、ユーザに対して所定の情報を報知可能であれば、報知デバイス911の態様は特に限定されない。具体的な一例として、報知デバイス911は、LED(Light Emitting Diode)のように、点灯又は点滅のパターンにより、所定の情報をユーザに報知するデバイスであってもよい。また、報知デバイス911は、所謂バイブレータのように、振動することで、所定の情報をユーザに報知するデバイスであってもよい。
通信デバイス913は、情報処理装置1が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス913は、有線または無線用の通信インタフェースである。通信デバイス913を、無線通信インタフェースとして構成する場合には、当該通信デバイス913は、通信アンテナ、RF(Radio Frequency)回路、ベースバンドプロセッサなどを含んでもよい。
通信デバイス913は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ901に供給することが可能である。
集音デバイス915は、マイクロフォン等のような、ユーザから発せられた音声や周囲の環境の音響を集音し、音響情報(音響信号)として取得するためのデバイスである。また、集音デバイス915は、集音された音声や音響を示すアナログの音響信号を示すデータを音響情報として取得してもよいし、当該アナログの音響信号をデジタルの音響信号に変換し、変換後のデジタルの音響信号を示すデータを音響情報として取得してもよい。なお、前述した集音部21は、集音デバイス915により実現され得る。
撮像デバイス917は、CMOS(Complementary Metal-Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサ等の、被写体を撮像し、撮像画像のデジタルデータを得る撮像素子を含む。即ち、撮像デバイス917は、プロセッサ901の制御に従い、レンズ等の光学系を介して静止画像又は動画像を撮影する機能を有する。撮像デバイス917は、撮像した画像をメモリ903やストレージ905に記憶させてもよい。なお、前述した撮像部23は、撮像デバイス917により実現され得る。
バス919は、プロセッサ901、メモリ903、ストレージ905、操作デバイス907、表示デバイス909、通信デバイス913、集音デバイス915、及び撮像デバイス917を相互に接続する。バス919は、複数の種類のバスを含んでもよい。
また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置1が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。
<7.まとめ>
以上、説明したように、本実施形態に係る情報処理装置1は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性(例えば、言語特性)に関する情報(即ち、ユーザの発話状態に関する情報)を基に応答パラメータを生成する。そして、情報処理装置1は、生成した応答パラメータに基づき、ユーザからの音声入力に対する応答の内容(例えば、固有表現の呼称、出力される情報量等)や、当該応答の出力態様(例えば、音量、出力速度(話速)、周波数帯域等)を制御する。
以上、説明したように、本実施形態に係る情報処理装置1は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性(例えば、言語特性)に関する情報(即ち、ユーザの発話状態に関する情報)を基に応答パラメータを生成する。そして、情報処理装置1は、生成した応答パラメータに基づき、ユーザからの音声入力に対する応答の内容(例えば、固有表現の呼称、出力される情報量等)や、当該応答の出力態様(例えば、音量、出力速度(話速)、周波数帯域等)を制御する。
これにより、本実施形態に係る情報処理装置1は、音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様、換言すると、ユーザがより自然に感じる(即ち、より違和感の少ない)態様となるように制御することが可能となる。即ち、本実施形態に係る情報処理装置1は、ユーザとの間の対話を、より自然な態様で実現可能な実現可能な、音声入力に基づく対話型のユーザインタフェースを提供することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、
を備える、情報処理装置。
(2)
前記制御部は、取得された前記ユーザの発話状態に関する情報に応じて、前記応答として出力される内容を制御する、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記内容として出力される情報の種別を、ユーザの発話状態に関する情報に応じて制御する、前記(2)に記載の情報処理装置。
(4)
前記制御部は、前記応答として出力される前記内容に含まれる所定の種別の情報が、取得した前記ユーザの発話状態に関する情報に応じた表現で出力されるように制御する、前記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の情報量を制御する、前記(2)~(4)のいずれか一項に記載の情報処理装置。
(6)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の詳しさの度合いを制御する、前記(5)に記載の情報処理装置。
(7)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記ユーザから発話された問い合わせに対する応答に関連する付加情報の出力を制御する、前記(5)に記載の情報処理装置。
(8)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力態様を制御する、前記(1)~(7)のいずれか一項に記載の情報処理装置。
(9)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の音量を制御する、前記(8)に記載の情報処理装置。
(10)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力速度を制御する、前記(8)または(9)に記載の情報処理装置。
(11)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の周波数帯域を制御する、前記(8)~(10)のいずれか一項に記載の情報処理装置。
(12)
取得される前記ユーザの発話状態に関する情報の少なくとも一部には、1以上の検知部の検知結果に基づき認識される1以上の状態が関連付けられ、
前記制御部は、1以上の前記検知部の検出結果に基づき認識された状態を示す情報が取得された場合に、当該状態が関連付けられた、前記ユーザの発話状態に関する情報に応じて、前記応答が出力されるように制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(13)
前記制御部は、取得した前記ユーザの発話状態に関する情報の少なくとも一部に応じて、当該ユーザを個人認識し、当該個人認識の結果に応じて、前記応答が出力されるように制御する、前記(1)~(12)のいずれか一項に記載の情報処理装置。
(14)
前記制御部は、前記個人認識の結果と、取得した前記ユーザの発話状態に関する情報の少なくとも一部とに応じて前記応答が出力されるように制御する、前記(13)に記載の情報処理装置。
(15)
前記ユーザの発話状態に関する情報は、過去に取得した当該ユーザの前記発話に基づく情報を含む、前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
前記ユーザの発話状態に関する情報は、認識された当該ユーザの行動を示す情報を含む、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
前記ユーザの発話状態に関する情報は、認識された当該ユーザの周囲の環境を示す情報を含む、前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
前記ユーザの発話状態に関する情報の少なくとも一部は、当該ユーザの前記発話に基づき取得される、前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
を含む、情報処理方法。
(20)
コンピュータに、
取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
を実行させる、プログラム。
(1)
取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、
を備える、情報処理装置。
(2)
前記制御部は、取得された前記ユーザの発話状態に関する情報に応じて、前記応答として出力される内容を制御する、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記内容として出力される情報の種別を、ユーザの発話状態に関する情報に応じて制御する、前記(2)に記載の情報処理装置。
(4)
前記制御部は、前記応答として出力される前記内容に含まれる所定の種別の情報が、取得した前記ユーザの発話状態に関する情報に応じた表現で出力されるように制御する、前記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の情報量を制御する、前記(2)~(4)のいずれか一項に記載の情報処理装置。
(6)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の詳しさの度合いを制御する、前記(5)に記載の情報処理装置。
(7)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記ユーザから発話された問い合わせに対する応答に関連する付加情報の出力を制御する、前記(5)に記載の情報処理装置。
(8)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力態様を制御する、前記(1)~(7)のいずれか一項に記載の情報処理装置。
(9)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の音量を制御する、前記(8)に記載の情報処理装置。
(10)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力速度を制御する、前記(8)または(9)に記載の情報処理装置。
(11)
前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の周波数帯域を制御する、前記(8)~(10)のいずれか一項に記載の情報処理装置。
(12)
取得される前記ユーザの発話状態に関する情報の少なくとも一部には、1以上の検知部の検知結果に基づき認識される1以上の状態が関連付けられ、
前記制御部は、1以上の前記検知部の検出結果に基づき認識された状態を示す情報が取得された場合に、当該状態が関連付けられた、前記ユーザの発話状態に関する情報に応じて、前記応答が出力されるように制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(13)
前記制御部は、取得した前記ユーザの発話状態に関する情報の少なくとも一部に応じて、当該ユーザを個人認識し、当該個人認識の結果に応じて、前記応答が出力されるように制御する、前記(1)~(12)のいずれか一項に記載の情報処理装置。
(14)
前記制御部は、前記個人認識の結果と、取得した前記ユーザの発話状態に関する情報の少なくとも一部とに応じて前記応答が出力されるように制御する、前記(13)に記載の情報処理装置。
(15)
前記ユーザの発話状態に関する情報は、過去に取得した当該ユーザの前記発話に基づく情報を含む、前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
前記ユーザの発話状態に関する情報は、認識された当該ユーザの行動を示す情報を含む、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
前記ユーザの発話状態に関する情報は、認識された当該ユーザの周囲の環境を示す情報を含む、前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
前記ユーザの発話状態に関する情報の少なくとも一部は、当該ユーザの前記発話に基づき取得される、前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
を含む、情報処理方法。
(20)
コンピュータに、
取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
を実行させる、プログラム。
1 情報処理装置
10 制御部
11 音声解析部
111 音声区間検出部
112 音声認識部
113 音声特徴抽出部
114 意味解析部
115 発話スタイル検出部
12 応答要素生成部
13 環境音解析部
14 画像解析部
131 環境音認識部
132 外部環境推定部
15 ユーザ状態推定部
16 応答パラメータ生成部
17 応答生成部
21 集音部
23 撮像部
30 記憶部
40 出力部
10 制御部
11 音声解析部
111 音声区間検出部
112 音声認識部
113 音声特徴抽出部
114 意味解析部
115 発話スタイル検出部
12 応答要素生成部
13 環境音解析部
14 画像解析部
131 環境音認識部
132 外部環境推定部
15 ユーザ状態推定部
16 応答パラメータ生成部
17 応答生成部
21 集音部
23 撮像部
30 記憶部
40 出力部
Claims (20)
- 取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、
を備える、情報処理装置。 - 前記制御部は、取得された前記ユーザの発話状態に関する情報に応じて、前記応答として出力される内容を制御する、請求項1に記載の情報処理装置。
- 前記制御部は、前記内容として出力される情報の種別を、ユーザの発話状態に関する情報に応じて制御する、請求項2に記載の情報処理装置。
- 前記制御部は、前記応答として出力される前記内容に含まれる所定の種別の情報が、取得した前記ユーザの発話状態に関する情報に応じた表現で出力されるように制御する、請求項2に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の情報量を制御する、請求項2に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の詳しさの度合いを制御する、請求項5に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記ユーザから発話された問い合わせに対する応答に関連する付加情報の出力を制御する、請求項5に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力態様を制御する、請求項1に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の音量を制御する、請求項8に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力速度を制御する、請求項8に記載の情報処理装置。
- 前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の周波数帯域を制御する、請求項8に記載の情報処理装置。
- 取得される前記ユーザの発話状態に関する情報の少なくとも一部には、1以上の検知部の検知結果に基づき認識される1以上の状態が関連付けられ、
前記制御部は、1以上の前記検知部の検出結果に基づき認識された状態を示す情報が取得された場合に、当該状態が関連付けられた、前記ユーザの発話状態に関する情報に応じて、前記応答が出力されるように制御する、請求項1に記載の情報処理装置。 - 前記制御部は、取得した前記ユーザの発話状態に関する情報の少なくとも一部に応じて、当該ユーザを個人認識し、当該個人認識の結果に応じて、前記応答が出力されるように制御する、請求項1に記載の情報処理装置。
- 前記制御部は、前記個人認識の結果と、取得した前記ユーザの発話状態に関する情報の少なくとも一部とに応じて前記応答が出力されるように制御する、請求項13に記載の情報処理装置。
- 前記ユーザの発話状態に関する情報は、過去に取得した当該ユーザの前記発話に基づく情報を含む、請求項1に記載の情報処理装置。
- 前記ユーザの発話状態に関する情報は、認識された当該ユーザの行動を示す情報を含む、請求項1に記載の情報処理装置。
- 前記ユーザの発話状態に関する情報は、認識された当該ユーザの周囲の環境を示す情報を含む、請求項1に記載の情報処理装置。
- 前記ユーザの発話状態に関する情報の少なくとも一部は、当該ユーザの前記発話に基づき取得される、請求項1に記載の情報処理装置。
- プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
を含む、情報処理方法。 - コンピュータに、
取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
を実行させる、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15883352.5A EP3264258A4 (en) | 2015-02-27 | 2015-11-26 | Information processing device, information processing method, and program |
JP2017501851A JPWO2016136062A1 (ja) | 2015-02-27 | 2015-11-26 | 情報処理装置、情報処理方法、及びプログラム |
US15/531,827 US20170337921A1 (en) | 2015-02-27 | 2015-11-26 | Information processing device, information processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015039138 | 2015-02-27 | ||
JP2015-039138 | 2015-02-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016136062A1 true WO2016136062A1 (ja) | 2016-09-01 |
Family
ID=56789146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/083232 WO2016136062A1 (ja) | 2015-02-27 | 2015-11-26 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170337921A1 (ja) |
EP (1) | EP3264258A4 (ja) |
JP (1) | JPWO2016136062A1 (ja) |
WO (1) | WO2016136062A1 (ja) |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019054009A1 (ja) * | 2017-09-15 | 2019-03-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2019091006A (ja) * | 2017-11-16 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置、端末、サーバ及び可読記憶媒体 |
WO2019146199A1 (ja) * | 2018-01-23 | 2019-08-01 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
WO2019155887A1 (ja) * | 2018-02-07 | 2019-08-15 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
JP2019152833A (ja) * | 2018-03-06 | 2019-09-12 | 株式会社Jvcケンウッド | 音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム |
JP2019159060A (ja) * | 2018-03-12 | 2019-09-19 | 株式会社Jvcケンウッド | 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム |
JP2019164345A (ja) * | 2018-03-19 | 2019-09-26 | 三星電子株式会社Samsung Electronics Co.,Ltd. | サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法 |
EP3537364A4 (en) * | 2016-11-01 | 2019-11-27 | Sony Mobile Communications Inc. | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM |
JP2020030814A (ja) * | 2018-08-22 | 2020-02-27 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 情報を処理するための方法と装置 |
EP3567470A4 (en) * | 2017-11-07 | 2020-03-25 | Sony Corporation | INFORMATION PROCESSING DEVICE AND ELECTRONIC APPARATUS |
EP3599549A4 (en) * | 2017-03-24 | 2020-03-25 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
WO2020105302A1 (ja) * | 2018-11-22 | 2020-05-28 | ソニー株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
JP2020154356A (ja) * | 2019-03-18 | 2020-09-24 | コニカミノルタ株式会社 | 音声情報処理装置及びプログラム |
EP3686881A4 (en) * | 2017-09-21 | 2020-10-07 | Sony Corporation | DEVICE, TERMINAL AND PROCESS FOR PROCESSING INFORMATION, AND ASSOCIATED PROGRAM |
JP2020533869A (ja) * | 2017-09-08 | 2020-11-19 | ソノズ インコーポレイテッド | システム応答ボリュームの動的計算 |
US11302317B2 (en) | 2017-03-24 | 2022-04-12 | Sony Corporation | Information processing apparatus and information processing method to attract interest of targets using voice utterance |
JP2022185093A (ja) * | 2016-10-03 | 2022-12-13 | グーグル エルエルシー | 分離可能な基部を有する音声起動式電子装置アセンブリ |
US11538451B2 (en) | 2017-09-28 | 2022-12-27 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11556306B2 (en) | 2016-02-22 | 2023-01-17 | Sonos, Inc. | Voice controlled media playback system |
US11641559B2 (en) | 2016-09-27 | 2023-05-02 | Sonos, Inc. | Audio playback settings for voice interaction |
US11646023B2 (en) | 2019-02-08 | 2023-05-09 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11646045B2 (en) | 2017-09-27 | 2023-05-09 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US11689858B2 (en) | 2018-01-31 | 2023-06-27 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11714600B2 (en) | 2019-07-31 | 2023-08-01 | Sonos, Inc. | Noise classification for event detection |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11750969B2 (en) | 2016-02-22 | 2023-09-05 | Sonos, Inc. | Default playback device designation |
US11769505B2 (en) | 2017-09-28 | 2023-09-26 | Sonos, Inc. | Echo of tone interferance cancellation using two acoustic echo cancellers |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11817083B2 (en) | 2018-12-13 | 2023-11-14 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11881223B2 (en) | 2018-12-07 | 2024-01-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11881222B2 (en) | 2020-05-20 | 2024-01-23 | Sonos, Inc | Command keywords with input detection windowing |
US11887598B2 (en) | 2020-01-07 | 2024-01-30 | Sonos, Inc. | Voice verification for media playback |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US12047753B1 (en) | 2017-09-28 | 2024-07-23 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US12063486B2 (en) | 2018-12-20 | 2024-08-13 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US12062383B2 (en) | 2018-09-29 | 2024-08-13 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US12080314B2 (en) | 2016-06-09 | 2024-09-03 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US12118273B2 (en) | 2020-01-31 | 2024-10-15 | Sonos, Inc. | Local voice data processing |
US12119000B2 (en) | 2020-05-20 | 2024-10-15 | Sonos, Inc. | Input detection windowing |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074805A (zh) * | 2016-03-31 | 2018-12-21 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
JP2018129664A (ja) * | 2017-02-08 | 2018-08-16 | 京セラ株式会社 | 電子機器、制御方法、およびプログラム |
JP7131077B2 (ja) * | 2018-05-24 | 2022-09-06 | カシオ計算機株式会社 | 会話装置、ロボット、会話装置制御方法及びプログラム |
CN110517684B (zh) * | 2019-09-10 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 用于智能设备的控制方法、装置、智能设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877105A (ja) * | 1994-09-06 | 1996-03-22 | Nec Corp | 発話制御方法 |
JP2003210835A (ja) * | 2002-01-21 | 2003-07-29 | Aruze Corp | キャラクター選択システム、キャラクター選択装置、キャラクター選択方法、プログラム及び記録媒体 |
JP2004086001A (ja) * | 2002-08-28 | 2004-03-18 | Sony Corp | 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム |
JP2004226881A (ja) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2006113546A (ja) * | 2004-09-14 | 2006-04-27 | Honda Motor Co Ltd | 情報伝達装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
US7242752B2 (en) * | 2001-07-03 | 2007-07-10 | Apptera, Inc. | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application |
US20030167167A1 (en) * | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
GB2398913B (en) * | 2003-02-27 | 2005-08-17 | Motorola Inc | Noise estimation in speech recognition |
JP2005157494A (ja) * | 2003-11-20 | 2005-06-16 | Aruze Corp | 会話制御装置及び会話制御方法 |
JP2007272773A (ja) * | 2006-03-31 | 2007-10-18 | Xing Inc | 対話型インターフェイス制御システム |
DE602007011073D1 (de) * | 2007-10-17 | 2011-01-20 | Harman Becker Automotive Sys | Sprachdialogsystem mit an den Benutzer angepasster Sprachausgabe |
US8400332B2 (en) * | 2010-02-09 | 2013-03-19 | Ford Global Technologies, Llc | Emotive advisory system including time agent |
US9634855B2 (en) * | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US8401853B2 (en) * | 2010-09-22 | 2013-03-19 | At&T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
US8438023B1 (en) * | 2011-09-30 | 2013-05-07 | Google Inc. | Warning a user when voice input to a device is likely to fail because of background or other noise |
JP2013200133A (ja) * | 2012-03-23 | 2013-10-03 | Panasonic Corp | ナビゲーション装置 |
US9576574B2 (en) * | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9196248B2 (en) * | 2013-02-13 | 2015-11-24 | Bayerische Motoren Werke Aktiengesellschaft | Voice-interfaced in-vehicle assistance |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
US20140297272A1 (en) * | 2013-04-02 | 2014-10-02 | Fahim Saleh | Intelligent interactive voice communication system and method |
WO2014197336A1 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2015107681A1 (ja) * | 2014-01-17 | 2015-07-23 | 任天堂株式会社 | 情報処理システム、情報処理サーバ、情報処理プログラム、および情報提供方法 |
WO2016133319A1 (en) * | 2015-02-16 | 2016-08-25 | Samsung Electronics Co., Ltd. | Method and device for providing information |
-
2015
- 2015-11-26 EP EP15883352.5A patent/EP3264258A4/en not_active Withdrawn
- 2015-11-26 WO PCT/JP2015/083232 patent/WO2016136062A1/ja active Application Filing
- 2015-11-26 US US15/531,827 patent/US20170337921A1/en not_active Abandoned
- 2015-11-26 JP JP2017501851A patent/JPWO2016136062A1/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877105A (ja) * | 1994-09-06 | 1996-03-22 | Nec Corp | 発話制御方法 |
JP2003210835A (ja) * | 2002-01-21 | 2003-07-29 | Aruze Corp | キャラクター選択システム、キャラクター選択装置、キャラクター選択方法、プログラム及び記録媒体 |
JP2004086001A (ja) * | 2002-08-28 | 2004-03-18 | Sony Corp | 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム |
JP2004226881A (ja) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2006113546A (ja) * | 2004-09-14 | 2006-04-27 | Honda Motor Co Ltd | 情報伝達装置 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3264258A4 * |
Cited By (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US12047752B2 (en) | 2016-02-22 | 2024-07-23 | Sonos, Inc. | Content mixing |
US11556306B2 (en) | 2016-02-22 | 2023-01-17 | Sonos, Inc. | Voice controlled media playback system |
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11832068B2 (en) | 2016-02-22 | 2023-11-28 | Sonos, Inc. | Music service selection |
US11750969B2 (en) | 2016-02-22 | 2023-09-05 | Sonos, Inc. | Default playback device designation |
US12080314B2 (en) | 2016-06-09 | 2024-09-03 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11641559B2 (en) | 2016-09-27 | 2023-05-02 | Sonos, Inc. | Audio playback settings for voice interaction |
JP7373634B2 (ja) | 2016-10-03 | 2023-11-02 | グーグル エルエルシー | 分離可能な基部を有する音声起動式電子装置アセンブリ |
JP2022185093A (ja) * | 2016-10-03 | 2022-12-13 | グーグル エルエルシー | 分離可能な基部を有する音声起動式電子装置アセンブリ |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
EP3537364A4 (en) * | 2016-11-01 | 2019-11-27 | Sony Mobile Communications Inc. | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM |
US11568443B2 (en) | 2016-11-01 | 2023-01-31 | Sony Corporation | Information processing apparatus, information processing method, and program |
EP3599549A4 (en) * | 2017-03-24 | 2020-03-25 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US11183167B2 (en) | 2017-03-24 | 2021-11-23 | Sony Corporation | Determining an output position of a subject in a notification based on attention acquisition difficulty |
US11302317B2 (en) | 2017-03-24 | 2022-04-12 | Sony Corporation | Information processing apparatus and information processing method to attract interest of targets using voice utterance |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
JP2020533869A (ja) * | 2017-09-08 | 2020-11-19 | ソノズ インコーポレイテッド | システム応答ボリュームの動的計算 |
US11500611B2 (en) | 2017-09-08 | 2022-11-15 | Sonos, Inc. | Dynamic computation of system response volume |
WO2019054009A1 (ja) * | 2017-09-15 | 2019-03-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
EP3686881A4 (en) * | 2017-09-21 | 2020-10-07 | Sony Corporation | DEVICE, TERMINAL AND PROCESS FOR PROCESSING INFORMATION, AND ASSOCIATED PROGRAM |
US11586410B2 (en) | 2017-09-21 | 2023-02-21 | Sony Corporation | Information processing device, information processing terminal, information processing method, and program |
US11646045B2 (en) | 2017-09-27 | 2023-05-09 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US11769505B2 (en) | 2017-09-28 | 2023-09-26 | Sonos, Inc. | Echo of tone interferance cancellation using two acoustic echo cancellers |
US11538451B2 (en) | 2017-09-28 | 2022-12-27 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US12047753B1 (en) | 2017-09-28 | 2024-07-23 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
EP3567470A4 (en) * | 2017-11-07 | 2020-03-25 | Sony Corporation | INFORMATION PROCESSING DEVICE AND ELECTRONIC APPARATUS |
JP2019091006A (ja) * | 2017-11-16 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置、端末、サーバ及び可読記憶媒体 |
WO2019146199A1 (ja) * | 2018-01-23 | 2019-08-01 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
US11430429B2 (en) | 2018-01-23 | 2022-08-30 | Sony Corporation | Information processing apparatus and information processing method |
US11689858B2 (en) | 2018-01-31 | 2023-06-27 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
WO2019155887A1 (ja) * | 2018-02-07 | 2019-08-15 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
JP2019152833A (ja) * | 2018-03-06 | 2019-09-12 | 株式会社Jvcケンウッド | 音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム |
JP7000924B2 (ja) | 2018-03-06 | 2022-01-19 | 株式会社Jvcケンウッド | 音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム |
JP7010073B2 (ja) | 2018-03-12 | 2022-01-26 | 株式会社Jvcケンウッド | 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム |
JP2019159060A (ja) * | 2018-03-12 | 2019-09-19 | 株式会社Jvcケンウッド | 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム |
US11244675B2 (en) | 2018-03-12 | 2022-02-08 | Jvckenwood Corporation | Word replacement in output generation for detected intent by voice classification |
JP7317529B2 (ja) | 2018-03-19 | 2023-07-31 | 三星電子株式会社 | サウンドデータを処理するシステム、及びシステムの制御方法 |
JP2019164345A (ja) * | 2018-03-19 | 2019-09-26 | 三星電子株式会社Samsung Electronics Co.,Ltd. | サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法 |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
JP2020030814A (ja) * | 2018-08-22 | 2020-02-27 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 情報を処理するための方法と装置 |
US11474779B2 (en) | 2018-08-22 | 2022-10-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for processing information |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US12062383B2 (en) | 2018-09-29 | 2024-08-13 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
WO2020105302A1 (ja) * | 2018-11-22 | 2020-05-28 | ソニー株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
US11875776B2 (en) | 2018-11-22 | 2024-01-16 | Sony Group Corporation | Response generating apparatus, response generating method, and response generating program |
JP7491221B2 (ja) | 2018-11-22 | 2024-05-28 | ソニーグループ株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
JPWO2020105302A1 (ja) * | 2018-11-22 | 2021-12-16 | ソニーグループ株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
US11881223B2 (en) | 2018-12-07 | 2024-01-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11817083B2 (en) | 2018-12-13 | 2023-11-14 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US12063486B2 (en) | 2018-12-20 | 2024-08-13 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11646023B2 (en) | 2019-02-08 | 2023-05-09 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
JP2020154356A (ja) * | 2019-03-18 | 2020-09-24 | コニカミノルタ株式会社 | 音声情報処理装置及びプログラム |
JP7318241B2 (ja) | 2019-03-18 | 2023-08-01 | コニカミノルタ株式会社 | 音声情報処理装置及びプログラム |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11714600B2 (en) | 2019-07-31 | 2023-08-01 | Sonos, Inc. | Noise classification for event detection |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11887598B2 (en) | 2020-01-07 | 2024-01-30 | Sonos, Inc. | Voice verification for media playback |
US12118273B2 (en) | 2020-01-31 | 2024-10-15 | Sonos, Inc. | Local voice data processing |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
US11881222B2 (en) | 2020-05-20 | 2024-01-23 | Sonos, Inc | Command keywords with input detection windowing |
US12119000B2 (en) | 2020-05-20 | 2024-10-15 | Sonos, Inc. | Input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Also Published As
Publication number | Publication date |
---|---|
EP3264258A4 (en) | 2018-08-15 |
JPWO2016136062A1 (ja) | 2017-12-07 |
EP3264258A1 (en) | 2018-01-03 |
US20170337921A1 (en) | 2017-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016136062A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP7101322B2 (ja) | デジタルアシスタントのためのボイストリガ | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
CN112513833B (zh) | 用于基于预先合成的对话提供人工智能服务的电子设备和方法 | |
JP7341171B2 (ja) | 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード | |
WO2015178078A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2019164345A (ja) | サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法 | |
KR20190021143A (ko) | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 | |
KR20210008521A (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
CN112840396A (zh) | 用于处理用户话语的电子装置及其控制方法 | |
Dhanjal et al. | Tools and techniques of assistive technology for hearing impaired people | |
US11443738B2 (en) | Electronic device processing user utterance and control method thereof | |
JPWO2017175442A1 (ja) | 情報処理装置、および情報処理方法 | |
CN112219235A (zh) | 包括处理用户语音的电子设备和控制电子设备上语音识别的方法的系统 | |
EP4350690A1 (en) | Artificial intelligence device and operating method thereof | |
JP2008217370A (ja) | プロファイル登録システム、プロファイル登録方法およびプロファイル登録プログラム | |
JP2023115795A (ja) | 会話支援装置、会話支援システム、会話支援方法、および、プログラム | |
CN117056822A (zh) | 手语识别方法及电子设备 | |
JPWO2017221501A1 (ja) | 情報処理装置及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15883352 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017501851 Country of ref document: JP Kind code of ref document: A |
|
REEP | Request for entry into the european phase |
Ref document number: 2015883352 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |