WO2018055898A1 - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
WO2018055898A1
WO2018055898A1 PCT/JP2017/026399 JP2017026399W WO2018055898A1 WO 2018055898 A1 WO2018055898 A1 WO 2018055898A1 JP 2017026399 W JP2017026399 W JP 2017026399W WO 2018055898 A1 WO2018055898 A1 WO 2018055898A1
Authority
WO
WIPO (PCT)
Prior art keywords
response
information
utterance
control unit
processing apparatus
Prior art date
Application number
PCT/JP2017/026399
Other languages
English (en)
French (fr)
Inventor
淳也 小野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/318,829 priority Critical patent/US10976998B2/en
Priority to EP17852679.4A priority patent/EP3518095A4/en
Priority to CN201780057002.6A priority patent/CN109716285A/zh
Priority to JP2018540661A priority patent/JP6904361B2/ja
Publication of WO2018055898A1 publication Critical patent/WO2018055898A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method.
  • Patent Document 1 A technology for generating a response to an utterance by a user and presenting the generated response to the user who made the utterance is disclosed (see, for example, Patent Document 1).
  • the user may utter an utterance including response control information for controlling the response.
  • response control information for controlling the response.
  • the utterance sentence becomes complicated and the load on the user may increase.
  • the present disclosure proposes a new and improved information processing apparatus and information processing method capable of performing a response desired by the user while reducing the load on the user.
  • an information processing apparatus includes: an acquisition unit that acquires position information of a microphone that has accepted an utterance; the utterance; and a response control unit that controls a response to the utterance based on the position information. Is provided.
  • a communication unit that transmits position information of a microphone that has accepted an utterance and receives response information related to a response to the utterance based on the utterance and the position information, and performs processing based on the response information
  • An information processing apparatus including a processing unit is provided.
  • the information includes: acquiring position information of a microphone that has accepted an utterance; and a processor controlling a response to the utterance based on the utterance and the position information.
  • a processing method is provided.
  • the position information of the microphone that has accepted the utterance is transmitted, the response information related to the utterance and the response to the utterance based on the position information is received, and the processor is based on the response information. And an information processing method is provided.
  • FIG. 4 is an explanatory diagram for describing an overview of an information processing apparatus 1 according to an embodiment of the present disclosure.
  • FIG. It is explanatory drawing for demonstrating the outline
  • 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 1.
  • FIG. 12 is an explanatory diagram for explaining an application example 2.
  • FIG. It is explanatory drawing which shows the structure of the information processing system which concerns on the application example 3.
  • FIG. It is a block diagram which shows the structural example of the client terminal 2 which concerns on the application example.
  • FIG. 10 is a block diagram illustrating a configuration example of a client terminal 2-2 according to application example 4.
  • wearable device which is intended for users to wear on their bodies.
  • wearable devices such as glasses, wristwatches, and neckbands, but such wearable devices often have a small screen or no screen. Therefore, when the user performs input to such a wearable device, it is assumed that the input is performed not by directly operating the screen but by speaking (speaking) to the device. Further, even with a wearable device having an input function other than voice, if the user is difficult to use hands, such as during driving or cooking, input by utterance will be effective.
  • the response by a device having a small screen or no screen may be a response by voice, for example.
  • voice response for example, it may take a long time to present detailed information, so some users may want a response with only a summary, but a response that includes detailed information even if it takes a long time May want.
  • the user may utter an utterance including response control information for controlling the response (for example, “tell me more about tomorrow's weather”).
  • response control information for controlling the response
  • the response control information is included in the utterance, the utterance sentence becomes more complicated, so that the possibility of an error occurring in speech recognition and semantic analysis increases and the load on the user may increase.
  • the information processing apparatus 1 is a neckband type wearable device, for example, and is hung on the neck of a user U1.
  • the information processing apparatus 1 also includes a right microphone MR1 provided on the right side when viewed from the user U1 and a left microphone ML1 provided on the left side when viewed from the user U1, and collects the voice of the user U1. Get an utterance.
  • the user U1 can speak to the left microphone ML1 as shown in FIG. 2, or can speak to the right microphone MR1 as shown in FIG. .
  • the information processing apparatus 1 acquires the position information of the microphone that has received the speech from the user U1 as described above, and performs response control based on the position information.
  • the information processing apparatus 1 sends different responses between the example shown in FIG. 2 and the example shown in FIG. Can be output.
  • the information processing apparatus 1 is configured so that the amount of information presented to the user U1 is greater (detailed) in the response in the example illustrated in FIG. 3 than in the response in the example illustrated in FIG. Response control may be performed.
  • the response control by the information processing apparatus 1 is not limited to such an example, and various examples of response control will be described later.
  • the information processing apparatus 1 is a neckband-type wearable device, but the information processing apparatus according to the present technology is not limited to such an example.
  • Other device examples of the present technology will be described later as application examples of the present technology.
  • the outline of the information processing apparatus 1 according to this embodiment has been described above.
  • the information processing apparatus 1 according to the present embodiment by controlling the response based on the position information of the microphone that has accepted the utterance, for example, even if the user's utterance is the same, various responses can be performed. is there. Therefore, it is possible to perform a response desired by the user without complicating the spoken sentence.
  • a detailed configuration of the information processing apparatus 1 for realizing such an effect will be described with reference to FIG.
  • FIG. 4 is a block diagram illustrating a configuration example of the information processing apparatus 1 according to an embodiment of the present disclosure.
  • the information processing apparatus 1 according to the present embodiment includes a control unit 10, an input unit 20, an output unit 30, a communication unit 40, and a storage unit 50.
  • the control unit 10 will be described in detail.
  • the control unit 10 controls each configuration of the information processing apparatus 1. For example, the control unit 10 controls the output unit 30 based on the user's utterance input from the input unit 20 to output a response to the user's utterance. The detailed configuration of the control unit 10 will be described later.
  • the input unit 20 is for receiving user input.
  • the input unit 20 is provided in the information processing apparatus 1 for receiving utterances from the user.
  • the input unit 20 according to the present embodiment includes a plurality of microphones that collect user's voice, and may include, for example, the right microphone MR1 and the left microphone ML1 shown in FIGS. Further, the input unit 20 may include three or more microphones. In such a case, the accuracy of a beam forming process to be described later can be improved.
  • the input unit 20 is not limited to a microphone, and may include, for example, a camera or a depth sensor.
  • the input unit 20 sends data generated by a user input operation to the control unit 10.
  • the output unit 30 performs output according to the control of the control unit 10.
  • the output unit 30 outputs a response to the user's utterance.
  • the output unit 30 may be realized including, for example, a speaker that outputs sound, a display that displays characters, images, and other visual information, a lamp that outputs light, a vibration device that outputs vibration, and the like.
  • the communication unit 40 communicates information with other devices.
  • the communication unit 40 can acquire information serving as a basis for a response to the user's utterance from another device by communicating information with the other device based on the control of the control unit 10. .
  • the storage unit 50 stores programs and parameters for the functions of the information processing apparatus 1 to function. Further, as shown in FIG. 4, the storage unit 50 stores a general knowledge DB 52, a user knowledge DB 54, and an utterance history DB 56.
  • the general knowledge DB 52 is a database in which general knowledge is structured in a graph.
  • the user knowledge DB 54 is a database in which user-specific knowledge about users is structured in a graph.
  • the utterance history DB 56 is a database in which a user's utterance history is structured in a graph.
  • the general knowledge DB 52, the user knowledge DB 54, and the utterance history DB 56 may be referred to by the control unit 10 and updated by the control unit 10 as described later.
  • control unit> The overall configuration example of the information processing apparatus 1 according to the present embodiment has been described above. Next, the functional configuration of the control unit 10 included in the information processing apparatus 1 will be described in more detail.
  • the control unit 10 has functions as an utterance detection unit 110, a speaker recognition unit 120, a response control unit 130, an utterance analysis unit 140, and an output control unit 150, as shown in FIG.
  • the utterance detection unit 110 detects that the user has spoken to the input unit 20. When the utterance detection unit 110 detects that the user has uttered, the utterance detection unit 110 converts the content of the utterance into text and extracts the utterance text. When the utterance detection unit 110 detects that the user has uttered, the utterance detection unit 110 outputs the speech in the utterance section to the speaker recognition unit 120 at the subsequent stage. Further, the utterance detection unit 110 sends the content of the utterance (utterance text) converted into the text to the response control unit 130.
  • the utterance detection unit 110 includes a signal processing unit 112 and a voice recognition unit 114.
  • the signal processing unit 112 performs signal processing on the voice data sent from the input unit 20 in order to improve the accuracy of voice recognition.
  • the signal processing unit 112 performs signal processing for removing noise and reverberation from audio data, for example, in order to improve accuracy of speech recognition in the far field.
  • the voice recognition unit 114 converts the speech into text by performing processing for accepting that the user uttered the voice data subjected to signal processing by the signal processing unit 112 and performing voice recognition processing.
  • the voice recognition unit 114 accepts that the user uttered and detects the user's utterance section.
  • the accuracy of voice recognition can be improved by accepting that the user has spoken and limiting the utterance portion by detecting the user's utterance section.
  • by accepting that the user has spoken and detecting the user's utterance section to limit the utterance portion it is possible to limit the speech recognition processing period and achieve power saving.
  • the voice recognition unit 114 performs voice recognition processing in the detected user's utterance section, and converts the voice (utterance) into text.
  • the conversion process from speech to text is not limited to a specific process.
  • the speaker recognition unit 120 identifies the speaker who has spoken to the input unit 20.
  • the speaker recognition unit 120 according to the present embodiment also functions as an acquisition unit that acquires position information of a microphone that has accepted an utterance.
  • the speaker recognition unit 120 includes a beamforming unit 122, a microphone specifying unit 124, and a speaker identification unit 126.
  • the beam forming unit 122 identifies the uttered direction from the phase difference obtained by beam forming using a plurality of microphones provided as the input unit 20.
  • the microphone specifying unit 124 acquires the position information of the microphone that has accepted the utterance by identifying the microphone that has accepted the utterance from the utterance direction identified by the beamforming unit 122 and the volume of the voice.
  • the information processing apparatus 1 includes the right microphone MR1 provided on the right side when viewed from the user and the left microphone ML1 provided on the left side when viewed from the user.
  • the microphone identifying unit 124 may acquire position information indicating the right.
  • specification part 124 may acquire the positional information which shows the left, when specifying that the microphone which received the speech is the left microphone ML1.
  • the position information acquired by the microphone specifying unit 124 may not correspond one-on-one with the microphone included in the information processing apparatus 1. For example, when the user U1 speaks toward the center of the right microphone MR1 and the left microphone ML1 as in the example illustrated in FIG. 1, the microphone specifying unit 124 may acquire position information indicating the center.
  • the speaker identification unit 126 executes a process of identifying who is the person who spoke (speaker). For example, the speaker identifying unit 126 identifies a person (speaker) in the utterance direction identified by the beamforming unit 122 by face recognition processing on an image captured by a camera provided as the input unit 20. Further, the speaker identification unit 126 may analyze, for example, the voice of the utterance and specify who is the person who uttered based on the voice waveform. Note that the speaker identification unit 126 may inquire the user knowledge DB 54 stored in the storage unit 50 and acquire the profile information of the person stored in the user knowledge DB 54 in order to specify the person who spoke. Further, the speaker identification unit 126 may acquire profile information of the identified person who has spoken from the user knowledge DB 54 and provide the profile information to the response control unit 130.
  • the response control unit 130 controls the response to the utterance based on the user's utterance and the position information of the microphone that has accepted the utterance. For example, the response control unit 130 controls the response by generating response information related to the response to the utterance, and sends the response information to the output control unit 150. In addition, the response control unit 130 sends the utterance text and information indicating an utterance analysis pattern described later to the utterance analysis unit 140.
  • the response control unit 130 includes an analysis pattern control unit 132 and a response generation unit 134, as shown in FIG.
  • the analysis pattern control unit 132 controls the utterance analysis pattern by the utterance analysis unit 140 described later based on the position information of the microphone that has accepted the utterance.
  • the analysis pattern control unit 132 determines whether the analysis pattern is applied based on the position information of the microphone that has accepted the utterance, and sends information indicating the utterance analysis pattern to be applied to the utterance analysis unit 140.
  • the utterance analysis pattern will be described later, for example, the utterance analysis pattern that the analysis pattern control unit 132 determines to apply may be domain complementation, slot complementation, or personalization.
  • the analysis pattern control unit 132 controls the utterance analysis pattern based on the position information of the microphone that has accepted the utterance, the response information generated by the response generation unit 134 to be described later is different, so the response is controlled. Can do.
  • the response generation unit 134 controls the response by generating response information related to the response to the utterance based on the analysis result of the utterance by the utterance analysis unit 140 and the position information of the microphone.
  • the response generation unit 134 may control the response by generating response information according to the speaker specified by the speaker recognition unit 120.
  • the response generation unit 134 generates response information based on, for example, information acquired from a database stored in the storage unit 50 or information acquired from another device (not illustrated) via the communication unit 40. Also good.
  • the response information may include, for example, text information presented to the user by voice or display.
  • the response information may include information that has been converted into a data format to be presented to the user, such as acoustic data and image data. Further, the response information may include information on a predetermined condition for the output control unit 150 to be described later to determine the output timing. In such a case, the response generation unit 134 can control the output timing of the response. Further, the response information may include information indicating a response modal (a method of presenting a response to the user such as text-to-speech reading, text display, image display, etc.).
  • response control by the response control unit 130 will be described later.
  • the utterance analysis unit 140 analyzes the content of the utterance detected by the utterance detection unit 110.
  • the utterance analysis unit 140 analyzes the content of the utterance detected by the utterance detection unit 110 by language analysis, semantic analysis, or the like. If the speech analysis unit 140 analyzes the content of the speech detected by the speech detection unit 110 and the content of the speech is a question sentence, the speech analysis unit 140 makes an inquiry to the database stored in the storage unit 50 and obtains necessary information. get. In addition, the utterance analysis unit 140 sends the utterance analysis result to the response control unit 130.
  • the speech analysis unit 140 includes a language analysis unit 142 and an intention understanding unit 144.
  • the language analysis unit 142 analyzes the structure of the utterance text converted by the utterance detection unit 110.
  • the language analysis unit 142 can determine whether or not the content of the utterance by the user is a question, for example, by analyzing the structure of the utterance text.
  • the intention understanding unit 144 analyzes the utterance text converted by the utterance detection unit 110 and generates a semantic frame (table structure) representing a domain (operation command) and a slot (attached information).
  • the domain corresponds to an application category (for example, a weather application, a schedule application, etc.) executed by the information processing apparatus 1, for example.
  • the slot corresponds to a parameter passed to the application.
  • the meaning frame generated by the analysis of the utterance text “Tell me the weather of TUL tomorrow” is as shown in Table 1 below.
  • “Weather Information Check (Weather-Check)” is entered as the domain
  • “Tomorrow” is entered in the date / time slot
  • “TUL” is entered in the place slot.
  • the intention understanding unit 144 interprets an ambiguous expression included in the utterance text converted by the utterance detection unit 110, interprets the intention of the utterance by the user, and normalizes information. For example, the intention understanding unit 144 interprets an ambiguous expression by making an inquiry to a database stored in the storage unit 50.
  • Table 2 is a table showing examples of semantic frames obtained by the intention understanding unit 144 normalizing the semantic frames shown in Table 1. Since it is difficult to process when the date expression is “tomorrow”, the intention understanding unit 144 may normalize the time expression. In addition, since the place expression is “TUL”, the intention understanding unit 144 normalizes to “Tokyo Universal Land” by inquiring to the general knowledge DB 52 stored in the storage unit 50.
  • the intention understanding unit 144 may analyze the utterance text according to the information indicating the analysis pattern provided from the response control unit 130. For example, when information indicating domain complementation is provided as information indicating an analysis pattern, the intention understanding unit 144 may supplement (take over) a domain in a semantic frame from a previous utterance. In addition, the intention understanding unit 144 may supplement the slot in the semantic frame from the previous utterance when the information indicating the slot complement is provided as the information indicating the analysis pattern. The intent understanding unit 144 may perform the above-described complementation based on the utterance history stored in the utterance history DB 56 stored in the storage unit 50.
  • the information required for one utterance text is not included, and it is possible to supplement the information when divided utterances are spoken Become.
  • the intention understanding unit 144 may perform analysis optimized for the user (for example, a speaker) when information indicating application of personalization is provided as information indicating an analysis pattern. For example, when information indicating personalization application is provided as information indicating an analysis pattern, the intention understanding unit 144 makes an inquiry to the user knowledge DB 54 stored in the storage unit 50 to acquire user profile information. Normalization of semantic frames based on user profile information may be performed.
  • the analysis result optimized for the user is provided to the response control unit 130, and the response control unit 130 can generate response information optimized for the user.
  • the information processing apparatus 1 Since the information processing apparatus 1 has the above function of performing an utterance analysis with an analysis pattern based on the position information of the microphone that has accepted the utterance, the information processing apparatus can also display information that is not included in the utterance text by the user selecting the microphone. 1 can be provided.
  • the output control unit 150 controls output from the output unit 30. For example, the output control unit 150 outputs a response based on the response information provided from the response control unit 130. The output control unit 150 may control the response output timing.
  • the output control unit 150 may control the output unit 30 so as to feed back the position information of the microphone that has accepted the utterance to the user. For example, under the control of the output control unit 150, light, sound, vibration, or the like may be output from a position corresponding to the position information of the microphone that has accepted the utterance. With this configuration, the user (speaker) can confirm whether or not the microphone that has accepted the utterance has been specified as intended.
  • the output control unit 150 includes a trigger determination unit 152 and a speech synthesis unit 154 as shown in FIG.
  • the trigger determination unit 152 determines the response output timing.
  • the information processing apparatus 1 includes two types of modes: a mode for outputting a response in real time and a mode for outputting a response when a predetermined condition is satisfied.
  • a mode for outputting a response in real time is also referred to as a real time mode
  • a mode for outputting a response when a predetermined condition is satisfied is also referred to as a bookmark mode.
  • the predetermined condition used by the trigger determination unit 152 may be, for example, that the content being output is in a predetermined state, or may be, for example, that a predetermined time has been reached.
  • the predetermined state of the content being output may be, for example, the timing when the content ends, or may be the timing when the content is commercial if the content is a television program.
  • the timing at which the content ends can include both the timing at which the content is played back to the end and the timing at which the user explicitly ends playback of the content.
  • the predetermined time can include both a time relatively elapsed from the end time of the content and a time unrelated to the end of the content. Note that when a response is output on the condition that the predetermined time has come, it may be added to the predetermined condition used by the trigger determination unit 152 that the content is not output.
  • the predetermined condition used by the trigger determination unit 152 is not limited to the above, and the application, the information processing apparatus 1, or another apparatus may be in a predetermined state.
  • the predetermined state may be that a predetermined application has ended or that the information processing apparatus 1 is in a preparation state in which the power is turned off.
  • the predetermined state may be that the engine of the automobile has been turned off, that the brake has been depressed, the navigation has been completed, or the like. .
  • the speech synthesizer 154 converts the text information into speech data when the response information includes text information for speech reading.
  • the configuration of the information processing apparatus 1 according to the present embodiment has been specifically described above.
  • the configuration of the information processing apparatus 1 illustrated in FIG. 4 is an example, and the present embodiment is not limited to this.
  • each function of the control unit 10 according to the present embodiment may be included in another information processing apparatus connected via the communication unit 40. Such an example will be described later as an application example.
  • FIG. 5 is a flowchart illustrating an example of a processing flow of the information processing apparatus 1 according to the present embodiment.
  • the utterance detection unit 110 first detects an utterance and extracts an utterance sentence (utterance text) (S102).
  • the beam forming unit 122 performs the beam forming process, and specifies the spoken direction (S104). Further, the microphone identifying unit 124 identifies the microphone that has accepted the utterance from the uttered direction identified in step S104 and the volume of the voice, and acquires the position information of the microphone that has accepted the utterance (S106). Subsequently, the speaker identification unit 126 identifies who is the person (speaker) who spoke (S108).
  • the position information of the microphone that has accepted the utterance is fed back to the user under the control of the output control unit 150 (S110).
  • the analysis pattern control unit 132 determines an analysis pattern in the utterance analysis based on the position information of the microphone that has accepted the utterance (S112).
  • the utterance analysis unit 140 analyzes the utterance sentence (utterance text) with the analysis pattern determined in step S112 and acquires a semantic frame.
  • the response generation unit 134 generates response information based on the utterance analysis result (meaning frame) and the position information of the microphone that has accepted the utterance (S116). Further, the output control unit 150 performs output control for outputting a response based on the response information (S118).
  • the response control unit 130 may control the amount of information included in the response based on the utterance position. For example, the response control unit 130 may generate response information so that the amount of information included in the response is larger when the utterance position is “right” than when the utterance position is “left”. In order to prevent the user from being confused, it is desirable that responses are controlled so that the relationship between the utterance position and the information amount is consistent in all application services.
  • the response control unit 130 may control the depth (detail) of information based on the utterance position.
  • depth detail
  • An example in the weather application and an example in the news application will be described below.
  • response information including less information is generated if the utterance position is “left”, and more detailed if the utterance position is “right”.
  • Response information including such information may be generated. For example, if the utterance position is “left”, a response “Nishiori, 4th round crashed with carochibi” may be output. If the utterance position is “right”, a response may be output “tennis open on the 6th day of tennis, Saiori has advanced into the fourth round and clashed with Carochibi”.
  • the response control unit 130 may control the range (length) of information based on the utterance position. An example in a music application will be described below.
  • response information including audio data with a short audition sense for example, only the rust portion of the music
  • the utterance position is “ If “right”, response information including audio data of the entire song may be generated. It should be noted that before the music is played, a response regarding the range of information (for example, “play only the rust part”, “play full”, etc.) may be output.
  • the response control unit 130 may control the response so that the time direction related to the response corresponds to the utterance position.
  • the response control unit 130 includes response information so that past information is included when the utterance position is “left”, current information is included when “utterance” is “center”, and future information is included when it is “right”. May be generated.
  • it is desirable that responses are controlled so that the relationship between the utterance position and the time direction is consistent in all application services.
  • the time reference may be the time (current time) when the utterance was made.
  • the response output may be a display on a display or the like.
  • past information when past information is output as a response, data obtained at the past time (for example, photo, video, audio data, etc.) can be used. Therefore, for example, when the user utters “Show children's athletic meet”, if the utterance position is “left”, photo data, moving image data, etc. at the past athletic meet may be included in the response information. If the utterance position is “right”, response information including a future schedule may be generated. In such an example, the domain (the type of application in the above example) may be different depending on the utterance position.
  • the response control unit 130 may control the response so that the utterance position corresponds to the space related to the response.
  • the response control unit 130 includes information on the left side of the space when the utterance position is “left”, information on the center of the space when it is “center”, and information on the right side of the space when it is “right”.
  • response information may be generated.
  • the direction in the space may be a direction starting from the front of the user, for example.
  • the user when the user utters “Look for a convenience store nearby”, if the utterance position is “left”, response information including the search result on the left side is generated, and if the utterance position is “right”, the left side Response information including the search result may be generated.
  • the response control unit 130 may control the response output timing according to the utterance position. For example, if the utterance position is “left”, the response is output in real time, and if the utterance position is “right”, the response output timing is controlled so that a response is output when a predetermined condition is satisfied. May be. In this case, the response control unit 130 may control the output timing by generating information on a mode (real time mode or bookmark mode) related to the output timing and response information including a predetermined condition.
  • a mode real time mode or bookmark mode
  • the response output timing may be controlled so that TODO is reminded (notified output) when a predetermined condition is satisfied.
  • a voice regarding the output timing of the response (for example, “I will call Mr. XXX”, “Added to TODO”, etc.) may be output.
  • the user's father may be identified as “XXX” based on the user profile information stored in the user knowledge DB 54, and a call may be made.
  • response information including information on a plurality of past user responses may be generated based on the user profile information stored in the user knowledge DB 54.
  • the first user utters “buy milk” at the “right” utterance position
  • the second user who is a family member with the first user utters “rice” at the “right” utterance position.
  • each utterance content is added to each TODO list.
  • a response saying "What you buy is milk or rice” based on the user's profile information stored in the user knowledge DB 54 May be output.
  • timer photography is performed after a predetermined time. May be.
  • timer shooting may be performed after a predetermined time longer when the utterance position is “right” than when the utterance position is “left”. In such a case, sound related to the shooting timing (for example, “shoot after 3 seconds”, “shoot after 10 seconds”, etc.) may be output.
  • the response control unit 130 may control the response by determining whether to add additional information to the response information according to the utterance position. An example in a music application will be described below.
  • the additional information may include information on the reason for the response to the utterance including the ambiguous expression.
  • the response control unit 130 may generate response information that does not include the reason for the response when the utterance position is “left”, and may generate response information that includes the reason for the response when it is “right”. .
  • the response control unit 130 selects the song if the utterance position is “left”. May be generated, and if the utterance position is “right”, response information including the reason for music selection may be generated. For example, when the utterance position is “right”, a response such as “I play XXX with a large number of playbacks” or “I like your song” may be output.
  • the additional information added to the response information may be supplementary information (reptile) regarding the response.
  • the response control unit 130 When the user makes an utterance requesting the reproduction of music, for example, the response control unit 130 generates response information that does not include poo when the utterance position is “left”, and includes poo when it is “right”. Response information may be generated. For example, when the utterance position is “right”, a response such as “This song has won the first place in the music ranking” may be output.
  • the response control unit 130 may control the search range related to the response according to the utterance position. Below, the example in a map application is demonstrated.
  • a response related to the search range for example, “search within a radius of 1 m”, “search within a radius of 5 m”, etc.
  • the breadth of the search range may be determined based on, for example, the user's action state (car, walk, etc.).
  • the response control unit 130 may control the response based on a predetermined function corresponding to the utterance position.
  • the predetermined function may be, for example, a function assigned for each application or a function assigned by a user.
  • the response control unit 130 generates response information such that loop playback is performed when the utterance position is “left”, and shuffle playback is performed when the utterance position is “right”. Response information may be generated.
  • loop playback is performed when the utterance position is “left”
  • shuffle playback is performed when the utterance position is “right”.
  • Response information may be generated.
  • the response control unit 130 may determine whether to apply domain interpolation as the utterance analysis pattern by the utterance analysis unit 140. For example, when the utterance position is “left”, the response control unit 130 may provide the utterance analysis unit 140 with information indicating application of domain interpolation as an analysis pattern.
  • the response control unit 130 may determine whether to apply slot interpolation as the utterance analysis pattern by the utterance analysis unit 140. For example, when the utterance position is “left”, the response control unit 130 may provide the utterance analysis unit 140 with information indicating application of slot interpolation as an analysis pattern.
  • the place slot (“Tokyo” in this example) is supplemented in the utterance analysis, and a response such as “The weather in Tokyo tomorrow is rainy” is output.
  • a response such as “The weather in Tokyo tomorrow is rainy” is output.
  • the utterance position is “right”, in the utterance analysis, since the slot is not complemented and it is unknown where the weather is, a response requesting the location information such as “where?” Is output.
  • the response control unit 130 may determine whether or not to apply personalization as the utterance analysis pattern by the utterance analysis unit 140. For example, when the utterance position is “right”, the response control unit 130 may provide the utterance analysis unit 140 with information indicating application of personalization as an analysis pattern.
  • response control by the information processing apparatus 1 according to the present embodiment has been specifically described.
  • the above-described response control is an example, and the information processing apparatus 1 according to the present embodiment is not limited to this, and can perform various response controls.
  • FIG. 6 to 9 are explanatory diagrams for explaining the application example 1.
  • the automobile 7 has a left microphone ML ⁇ b> 2 provided on the left side with respect to the traveling direction and a right microphone MR ⁇ b> 2 provided on the right side with respect to the traveling direction.
  • User U2 and user U3 are sitting in the passenger seat.
  • the user U2 sitting in the driver's seat can speak to the left microphone ML2 as shown in FIG. 6, or can speak to the right microphone MR2 as shown in FIG.
  • the user U3 sitting in the passenger seat can speak toward the left microphone ML2 as shown in FIG. 8, or speak toward the right microphone MR2 as shown in FIG. Is also possible.
  • the in-vehicle device can acquire the position information of the microphone that has accepted the utterances by the users U2 and U3, and can perform response control based on the position information. is there.
  • the in-vehicle device since the position of the seat where the speaker sits and the microphone is fixed, by designing the direction from the microphone to each seat in advance, the in-vehicle device according to this application example has the driver seat as the seat where the speaker sits It is also possible to determine whether it is a passenger seat. In such a case, the in-vehicle device may control the modal related to the output of the response according to the information related to the speaker (for example, the speaker's seat). Note that modal information may be included in the response information.
  • Table 3 is a table showing an example of modal control according to the speaker.
  • Table 3 is a table showing an example of modal control according to the speaker.
  • a voice response may be output so as not to hinder driving.
  • a text response may be added in addition to the voice response.
  • the text response may be performed, for example, by being displayed on the display of the in-vehicle device, or the text is transmitted to an information terminal (for example, a smartphone) held by the speaker and displayed on the information terminal. It may be done.
  • Application Example 2 Further, the present technology may be applied to a home device (a content reproduction device, a robot, or the like) placed at home.
  • a home device a content reproduction device, a robot, or the like
  • Application Example 2 an example in which the present technology is applied to a home device will be described.
  • FIG. 10 is an explanatory diagram for explaining the application example 2.
  • the home device 8 includes microphones M1 to M8. Further, the home user U4 and the user U5 can speak from any direction and distance.
  • the home device 8 can acquire the position information of the microphone that has accepted the utterances by the users U2 and U3, and can perform response control based on the position information. is there.
  • the home device 8 may identify the microphone that has accepted the utterance from the microphones M1 to M8, and acquire the position information depending on whether the microphone is on the left side or the right side of the reference position P. .
  • the position information related to the utterance by the user U4 is “right”
  • the position information related to the utterance by the user U5 is “left”.
  • the home device 8 may acquire position information in a range finer than “left” and “right”, and in this case, a larger number of reference positions may be set.
  • FIG. 11 is an explanatory diagram showing a configuration of an information processing system according to this application example.
  • the information processing system according to this application example includes a client terminal 2, a server 3, and a communication network 5.
  • the client terminal 2 is, for example, a neckband type wearable device described with reference to FIGS. 1 to 3, an in-vehicle device described with reference to FIGS. 6 to 9, or a home device described with reference to FIG. Etc.
  • FIG. 12 is a block diagram illustrating a configuration example of the client terminal 2.
  • the client terminal 2 according to this application example is an information processing apparatus including a control unit 10-2, an input unit 20, an output unit 30, and a communication unit 40.
  • the configurations shown in FIG. 12 configurations that are substantially the same as the configurations shown in FIG. 4 are given the same reference numerals, and will be described while being omitted as appropriate.
  • the control unit 10-2 shown in FIG. 12 controls each configuration of the client terminal 2.
  • the control unit 10-2 according to this application example has functions as an utterance detection unit 110-2, a speaker recognition unit 120, a response control unit 130-2, and an output control unit 150-2. Have.
  • the utterance detection unit 110-2 has a function as the signal processing unit 112 among the functions of the utterance detection unit 110 described with reference to FIG. May not be included. Further, the utterance detection unit 110-2 causes the server 3 to transmit the voice data (speech voice) subjected to the signal processing by the signal processing unit 112 via the communication unit 40.
  • voice data speech voice
  • the response control unit 130-2 controls the response to the utterance based on the user's utterance and the position information of the microphone that has accepted the utterance.
  • the input / output destination is partially different from the response control unit 130.
  • the response control unit 130-2 includes an analysis pattern control unit 136 and a response generation unit 138.
  • the analysis pattern control unit 136 controls the utterance analysis pattern in the same manner as the analysis pattern control unit 132 described with reference to FIG. Since the utterance analysis is performed by the server 3, the analysis pattern control unit 136 according to this application example may generate information indicating the analysis pattern in a format that can be transmitted to the server 3.
  • the response generation unit 138 generates response information in the same manner as the response generation unit 134 described with reference to FIG.
  • the response generation unit 138 according to this application example generates response information related to the response to the utterance based on the analysis result of the utterance acquired from the server 3 via the communication unit 40 and the position information of the microphone. To control.
  • the generated response information is sent to the server 3 and the output control unit 150-2. Therefore, the response generation unit 138 according to this application example may generate response information in a format that can be transmitted to the server 3.
  • the output control unit 150-2 controls the output by the output unit 30 in the same manner as the output control unit 150 described with reference to FIG. As shown in FIG. 12, the output control unit 150-2 has a function as the trigger determination unit 152 among the functions of the output control unit 150 described with reference to FIG. It is not necessary to have this function.
  • FIG. 13 is a block diagram illustrating a configuration example of the server 3.
  • the server 3 according to this application example is an information processing apparatus including a control unit 310, a communication unit 340, and a storage unit 50.
  • the configurations shown in FIG. 12 configurations that are substantially the same as the configurations shown in FIG. 4 are given the same reference numerals, and will be described while being omitted as appropriate.
  • the control unit 310 controls each component of the server 3. As shown in FIG. 13, the control unit 310 according to this application example has functions as an utterance analysis unit 140, a speech recognition unit 314, and a speech synthesis unit 354.
  • the speech recognition unit 314 performs speech recognition processing on speech data (uttered speech) received from the client terminal 2 via the communication unit 340 and converts the speech into text.
  • the speech synthesizer 354 converts the text information into speech data when the response information received from the client terminal 2 via the communication unit 340 includes text information for speech reading.
  • the converted audio data is transmitted to the client terminal 2 via the communication unit 340.
  • the communication unit 340 communicates information with other devices.
  • the communication network 5 is a wired or wireless transmission path for information transmitted from a device or system connected to the communication network 5.
  • the communication network 5 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs including Ethernet (registered trademark), a wide area network (WAN), and the like.
  • the communication network 5 may include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).
  • the client terminal 2 and the server 3 are connected to each other via a communication network 5 and can communicate with each other.
  • a communication network 5 can communicate with each other.
  • an example of communication between the client terminal 2 and the server 3 will be described.
  • the analysis pattern determined by the response control unit 130-2 is set to apply domain complementation, apply slot complementation, and apply personalization.
  • FIG. 14 is an explanatory diagram illustrating an example of data to be transmitted.
  • the transmission data is delimited by the character string “multipart_boundary”.
  • the communication example shown in FIG. 14 shows a case where voice data from the start to the end of utterance is collectively transmitted for ease of explanation, but the voice data may be transmitted sequentially. If all voice data of an utterance is acquired and then transmitted, it will be transmitted after the user's utterance is over, resulting in a delay.
  • the voice recognition may be performed sequentially. In that case, the session from the client terminal 2 to the server 3 is always extended from the voice data at the start of speech to the voice data at the end of speech.
  • FIG. 15 is an explanatory diagram showing an example in which information indicating an analysis pattern is expressed in the JSON format.
  • the value of the Domain tag when the value of the Domain tag is 1, it indicates that domain complementing is applied, and when it is 0, it indicates that no complementing is applied.
  • the value of the Slot tag when the value of the Slot tag is 1, it indicates that slot complement is applied, and when it is 0, it indicates that no complement is applied.
  • the value of the Personalization tag is 1, it indicates that personalization is applied, and when it is 0, it indicates that personalization is not applied.
  • FIG. 16 is an explanatory diagram showing an example of values of audio data.
  • the audio data may be a hexadecimal binary code.
  • FIG. 17 is an explanatory diagram showing received data of the client terminal 2.
  • the semantic frame is expressed in the JSON format.
  • Table 4 is a table showing the description of the JSON tag in FIG.
  • “Subject” is NONE means that the utterance does not include subject information.
  • DateValue is NONE, which means that the utterance does not contain specific date information.
  • the response information generated by the response generation unit 138 of the client terminal 2 based on the utterance analysis result is transmitted to the server 3, converted into voice data by the voice synthesis unit 354 of the server 3, and returned to the client terminal 2.
  • the voice data received by the client terminal 2 from the server 3 may be binary data in accordance with the voice format for voice synthesis.
  • the client terminal 2 includes a speech synthesis unit, communication of response information and speech data is not necessary.
  • Application Example 4 A configuration example when the present technology is applied to an information system including a plurality of devices is not limited to the application example 3 described above. Hereinafter, as application example 4, another configuration example will be described. This application example is different from Application Example 3 in that response control is performed by the server, and is otherwise substantially the same as the above-described embodiment and Application Example 3 in other points. A description of the substantially similar points will be omitted as appropriate.
  • the client terminal 2-2 and the server 3-2 described below are connected to each other via the communication network 5 in the same manner as the client terminal 2 and the server 3 described with reference to FIG. Can be performed.
  • FIG. 18 is a block diagram showing a configuration example of the client terminal 2-2 according to this application example.
  • the client terminal 2-2 according to this application example is an information processing apparatus including a control unit 10-3, an input unit 20, an output unit 30, and a communication unit 40. 18 that are substantially the same as the components shown in FIGS. 4 and 12 are denoted by the same reference numerals, and therefore will be described while being omitted as appropriate.
  • the control unit 10-3 according to this application example controls each configuration of the client terminal 2-2. As shown in FIG. 18, the control unit 10-3 according to this application example has functions as an utterance detection unit 110-2, a speaker recognition unit 120-2, and an output control unit 150-3, and provides response control. It may not have a function as a part.
  • the speaker recognition unit 120-2 transmits the position information of the microphone that has accepted the utterance and the speaker information to the server 3-2 via the communication unit 40, as shown in FIG. Different from the speaker recognition unit 120 shown in FIG.
  • the output control unit 150-3 (an example of a processing unit) according to this application example performs response output control processing based on response information received from the server 3-2 via the communication unit 40. 4 is different from the output control unit 150 shown in FIG.
  • FIG. 19 is a block diagram showing a configuration example of the server 3-2 according to this application example.
  • the server 3-2 according to this application example is an information processing apparatus including a control unit 310-2, a communication unit 340, and a storage unit 50. Note that, in the configuration illustrated in FIG. 19, components substantially the same as the configurations illustrated in FIG. 4 and FIG.
  • the control unit 310-2 controls each component of the server 3-2. As shown in FIG. 19, the control unit 310-2 according to this application example has functions as an utterance analysis unit 140, a speech recognition unit 314, and a response control unit 330. Since the control unit 310-2 includes the response control unit 330, the control unit 310-2 also functions as an acquisition unit that receives (acquires) the positional information of the microphone that has accepted the utterance from the client terminal 2 via the communication unit 340.
  • the response control unit 330 controls the response to the utterance based on the user's utterance and the position information of the microphone that has accepted the utterance, like the response control unit 130-2 described with reference to FIG.
  • the response control unit 330 according to this application example is different from the response control unit 130-2 illustrated in FIG. 12 in that the response is controlled based on the position information of the microphone that has received the utterance received from the client terminal 2. Further, the response control unit 330 according to this application example is different from the response control unit 130-2 illustrated in FIG. 12 in that the generated response information is transmitted to the client terminal 2.
  • the server 3-2 includes a voice synthesis unit
  • the response information transmitted from the server 3-2 to the client terminal 2-2 may be voice data.
  • FIG. 20 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the present embodiment.
  • the information processing apparatus 900 shown in FIG. 20 includes, for example, the information processing apparatus 1, the client terminals 2, 2-2, and the servers 3, 3-3 shown in FIGS. 2 can be realized.
  • Information processing by the information processing apparatus 1, the client terminals 2, 2-2, and the servers 3 and 3-2 according to the present embodiment is realized by cooperation of software and hardware described below.
  • the information processing apparatus 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
  • the information processing apparatus 900 includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, a communication device 913, and a sensor 915.
  • the information processing apparatus 900 may include a processing circuit such as a DSP or an ASIC in place of or in addition to the CPU 901.
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 900 according to various programs. Further, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901 can form the control units 10, 10-2, 10-3, 310, and 310-2.
  • the CPU 901, ROM 902, and RAM 903 are connected to each other by a host bus 904a including a CPU bus.
  • the host bus 904 a is connected to an external bus 904 b such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 904.
  • an external bus 904 b such as a PCI (Peripheral Component Interconnect / Interface) bus
  • PCI Peripheral Component Interconnect / Interface
  • the host bus 904a, the bridge 904, and the external bus 904b do not necessarily have to be configured separately, and these functions may be mounted on one bus.
  • the input device 906 is realized by a device in which information is input by the user, such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever.
  • the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device such as a mobile phone or a PDA that supports the operation of the information processing device 900.
  • the input device 906 may include, for example, an input control circuit that generates an input signal based on information input by the user using the above-described input means and outputs the input signal to the CPU 901.
  • a user of the information processing apparatus 900 can input various data and instruct a processing operation to the information processing apparatus 900 by operating the input device 906.
  • the input device 906 can form the input unit 20, for example.
  • the output device 907 is formed of a device that can notify the user of the acquired information visually or audibly. Examples of such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, display devices such as lamps, audio output devices such as speakers and headphones, printer devices, and the like.
  • the output device 907 outputs results obtained by various processes performed by the information processing device 900. Specifically, the display device visually displays results obtained by various processes performed by the information processing device 900 in various formats such as text, images, tables, and graphs.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs it aurally.
  • the output device 907 can form the output unit 30, for example.
  • the storage device 908 is a data storage device formed as an example of a storage unit of the information processing device 900.
  • the storage apparatus 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 can form the storage unit 50, for example.
  • the drive 909 is a storage medium reader / writer, and is built in or externally attached to the information processing apparatus 900.
  • the drive 909 reads information recorded on a removable storage medium such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to a removable storage medium.
  • connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of transmitting data by USB (Universal Serial Bus), for example.
  • USB Universal Serial Bus
  • the communication device 913 is a communication interface formed by a communication device or the like for connecting to the network 920, for example.
  • the communication device 913 is, for example, a communication card for wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 913 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like.
  • the communication device 913 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet and other communication devices.
  • the communication device 913 can form the communication units 40 and 340.
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs including the Ethernet (registered trademark), a wide area network (WAN), and the like.
  • the network 920 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • IP-VPN Internet Protocol-Virtual Private Network
  • each of the above components may be realized using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to change the hardware configuration to be used as appropriate according to the technical level at the time of carrying out this embodiment.
  • a computer program for realizing each function of the information processing apparatus 900 according to the present embodiment as described above can be produced and mounted on a PC or the like.
  • a computer-readable recording medium storing such a computer program can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
  • the above computer program may be distributed via a network, for example, without using a recording medium.
  • each step in the above embodiment does not necessarily have to be processed in time series in the order described as a flowchart.
  • each step in the processing of the above embodiment may be processed in an order different from the order described as the flowchart diagram or may be processed in parallel.
  • An acquisition unit that acquires position information of the microphone that has accepted the utterance;
  • a response control unit that controls a response to the utterance based on the utterance and the position information;
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the response control unit controls an analysis pattern of the utterance based on the position information, and controls the response based on an analysis result of the utterance.
  • the analysis pattern includes at least one of domain complement, slot complement, and personalization.
  • the information processing apparatus controls an amount of information included in the response based on the position information.
  • the response control unit controls the response so that the position information corresponds to a time direction related to the response.
  • the response control unit is configured such that when the position information is on the left, the information included in the response is more future information when the position information is on the right than the information included on the response.
  • the information processing apparatus according to (6), wherein the response is controlled.
  • the response control unit controls the response so that the position information corresponds to a space related to the response.
  • the information processing apparatus controls an output timing of the response based on the position information.
  • the information processing apparatus determines whether to add additional information to the response based on the position information.
  • the additional information includes information on a reason related to the response or supplementary information related to the response.
  • the response control unit controls a search range related to the response based on the position information.
  • the response control unit controls the response based on a predetermined function corresponding to the position information.
  • the information processing apparatus according to any one of (1) to (13), wherein the response control unit further controls the response based on information related to a speaker of the utterance.
  • a communication unit that transmits position information of a microphone that has accepted an utterance, and receives response information related to a response to the utterance based on the utterance and the position information;
  • a processing unit that performs processing based on the response information;
  • An information processing apparatus comprising: (16) Obtaining the location information of the microphone that accepted the utterance; A processor controls a response to the utterance based on the utterance and the location information; Including an information processing method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理装置、及び情報処理方法を提供する。 発話を受け付けたマイクロフォンの位置情報を取得する取得部と、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、を備える、情報処理装置。

Description

情報処理装置、及び情報処理方法
 本開示は、情報処理装置、及び情報処理方法に関する。
 ユーザによる発話に対して、応答を生成し、生成した応答を、発話を行ったユーザに対して提示する技術が開示されている(例えば特許文献1等参照)。
特表2016-502192号公報
 ユーザが望む応答を得るためには、例えば応答を制御するための応答制御情報を含む発話をユーザが行うことが考えられる。しかし、発話に応答制御情報を含めると、発話文が複雑となり、ユーザにかかる負荷が増加する恐れがある。
 そこで、本開示では、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能な、新規かつ改良された情報処理装置、及び情報処理方法を提案する。
 本開示によれば、発話を受け付けたマイクロフォンの位置情報を取得する取得部と、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、を備える、情報処理装置が提供される。
 本開示によれば、発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、前記応答情報に基づいて処理を行う処理部と、を備える情報処理装置が提供される。
 また、本開示によれば、発話を受け付けたマイクロフォンの位置情報を取得することと、プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、を含む、情報処理方法が提供される。
 また、本開示によれば、発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、プロセッサが、前記応答情報に基づいて処理を行うことと、を含む、情報処理方法が提供される。
 以上説明したように本開示によれば、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能である。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置1の概要を説明するための説明図である。 同実施形態に係る情報処理装置1の概要を説明するための説明図である。 同実施形態に係る情報処理装置1の概要を説明するための説明図である。 同実施形態に係る情報処理装置1の構成例を示すブロック図である。 同実施形態に係るによる情報処理装置1の処理の流れの一例を示すフローチャート図である。 応用例1を説明するための説明図である。 応用例1を説明するための説明図である。 応用例1を説明するための説明図である。 応用例1を説明するための説明図である。 応用例2を説明するための説明図である。 応用例3に係る情報処理システムの構成を示す説明図である。 同応用例に係るクライアント端末2の構成例を示すブロック図である。 同応用例に係るサーバ3の構成例を示すブロック図である。 同応用例係るクライアント端末2の送信データの一例を示す説明図である。 同応用例における解析パターンを示す情報をJSON形式で表した一例を示す説明図である。 同応用例における音声データの値の一例を示す説明図である。 同応用例に係るクライアント端末2の受信データ示す説明図である。 応用例4に係るクライアント端末2-2の構成例を示すブロック図である。 同応用例に係るサーバ3-2の構成例を示すブロック図である。 ハードウェア構成例を示す説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 <<1.はじめに>>
  <1-1.背景>
  <1-2.概要>
 <<2.構成例>>
  <2-1.全体構成>
  <2-2.制御部の詳細>
 <<3.動作例>>
  <3-1.処理の流れ>
  <3-2.応答制御の具体例>
 <<4.応用例>>
  <4-1.応用例1>
  <4-2.応用例2>
  <4-3.応用例3>
  <4-4.応用例4>
 <<5.ハードウェア構成例>>
 <<6.むすび>>
 <<1.はじめに>>
  <1-1.背景>
 本開示の一実施形態に係る情報処理装置についての説明にあたり、まず本開示の一実施形態に係る情報処理装置の創作に至った背景を説明する。
 近年、ユーザが身体に装着して使用することを目的とした、いわゆるウェアラブルデバイスと呼ばれている機器が登場しつつある。ウェアラブルデバイスには、例えばメガネ型、腕時計型、ネックバンド型、などの様々な形態のデバイスがあるが、このようなウェアラブルデバイスは画面が小さい、または画面を備えていない場合が多い。従って、ユーザがこのようなウェアラブルデバイスへ入力を行う場合、画面を直接操作するのではなく、デバイスに向かって話しかける(発話する)ことで入力を行うことが想定される。また、音声以外の入力機能を備えたウェアラブルデバイスであっても、ユーザが運転中や料理中等、手の利用が困難である場合には、発話による入力が有効であろう。
 また、画面が小さい、または画面を備えていないデバイスによる応答は、例えば音声による応答が考えられる。音声による応答において、例えば詳細な情報を提示するためには長い時間が必要となり得るため、ユーザによっては概要のみの応答を望む場合もある一方、長い時間を要したとしても詳細な情報を含む応答を望む場合もある。
 このように、ユーザが望む応答を得るためには、例えば応答を制御するための応答制御情報を含む発話(例えば、「明日の天気について詳しく教えて」等)をユーザが行うことが考えられる。しかし、発話に応答制御情報を含めると、発話文がより複雑となるため、音声認識や意味解析において誤りが発生する可能性が高まると共に、ユーザにかかる負荷が増加し得る。
 そこで、本件開示者は、上記事情を一着眼点にして本実施形態を創作するに至った。本実施形態によれば、発話文を複雑化させることなく、ユーザの望む応答を行うことが可能である。以下、このような効果を有する本開示の一実施形態の概要について図1~図3を参照して説明を行う。
  <1-2.概要>
 以下では、本開示の一実施形態に係る情報処理装置の概要について説明する。なお、本実施形態に係る情報処理装置の詳細については図4を参照して後述する。
 図1~3は、本実施形態に係る情報処理装置1の概要を説明するための説明図である。図1に示すように、情報処理装置1は、例えばネックバンド型のウェアラブルデバイスであり、ユーザU1の首に掛けられている。また、情報処理装置1は、ユーザU1から見て右側に設けられた右マイクロフォンMR1と、ユーザU1から見て左側に設けられた左マイクロフォンML1とを有し、ユーザU1の音声を集音して発話を取得する。
 ここで、ユーザU1は、例えば図2に示すように、左マイクロフォンML1に向かって発話することも可能であるし、図3に示すように、右マイクロフォンMR1に向かって発話することも可能である。本実施形態に係る情報処理装置1は、上記のようなユーザU1による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行う。
 例えば、図2に示す例と図3に示す例とにおいて、ユーザU1が同一の発話を行ったとしても、情報処理装置1は、図2に示す例と図3に示す例とにおいて異なる応答を出力し得る。
 例えば、情報処理装置1は、図2に示す例における応答よりも、図3に示す例における応答の方が、ユーザU1に提示される情報の情報量が多くなる(詳細になる)ように、応答制御を行ってもよい。なお、情報処理装置1による応答制御は係る例に限定されず、後に応答制御の多様な例を説明する。
 また、図1~図3では情報処理装置1がネックバンド型のウェアラブルデバイスである例を示したが、本技術に係る情報処理装置は係る例に限定されない。本技術の他の装置例については、本技術の応用例として後述する。
 以上、本実施形態に係る情報処理装置1の概要を説明した。本実施形態による情報処理装置1によれば、発話を受け付けたマイクロフォンの位置情報に基づいて応答を制御することで、例えばユーザの発話が同一であっても、多様な応答を行うことが可能である。したがって、発話文を複雑化させることなく、ユーザの望む応答を行うことが可能である。以下、このような効果を実現するための情報処理装置1の詳細な構成について、図4を参照して説明する。
 <<2.構成例>>
 図4は、本開示の一実施形態に係る情報処理装置1の構成例を示すブロック図である。図4に示すように、本実施形態に係る情報処理装置1は、制御部10、入力部20、出力部30、通信部40、及び記憶部50を備える。以下、情報処理装置1の全体構成を説明した後に、制御部10について詳細に説明する。
  <2-1.全体構成>
 制御部10は、情報処理装置1の各構成を制御する。例えば、制御部10は、入力部20から入力されるユーザの発話に基づいて、出力部30を制御し、ユーザの発話に対する応答を出力させる。なお、制御部10の詳細な構成については後述する。
 入力部20は、ユーザの入力を受け付けるためのものであり、本実施形態では、ユーザからの発話を受け付けるためのものとして情報処理装置1に設けられている。本実施形態に係る入力部20は、ユーザの音声を集音する複数のマイクロフォンを含み、例えば図1~図3に示した右マイクロフォンMR1と、左マイクロフォンML1を含んでもよい。また、入力部20は、3以上のマイクロフォンを含んでもよく、係る場合には、後述するビームフォーミング処理の精度が向上し得る。
 なお、入力部20は、マイクロフォンに限定されず、例えばカメラやデプスセンサなどを含んでもよい。入力部20は、ユーザの入力操作によって生成されたデータを制御部10に送る。
 出力部30は、制御部10の制御に従って出力を行う。本実施形態では、出力部30は、ユーザの発話に対する応答を出力する。出力部30は、例えば、音声を出力するスピーカ、文字、画像その他の視覚情報を表示するディスプレイ、光を出力するランプ、振動を出力する振動デバイス等を含んで実現されてもよい。
 通信部40は、他の装置との間で情報の通信を行う。例えば、通信部40は、制御部10の制御に基づいて他の装置との間で情報を通信することで、他の装置から、ユーザの発話に対する応答の基になる情報を取得することができる。
 記憶部50は、情報処理装置1の各構成が機能するためのプログラムやパラメータを記憶する。また、記憶部50は、図4に示すように、一般知識DB52、ユーザ知識DB54、及び発話履歴DB56を記憶する。一般知識DB52は、一般的な知識をグラフ構造化したデータベースである。また、ユーザ知識DB54は、ユーザに関するユーザ固有の知識をグラフ構造化したデータベースである。また、発話履歴DB56は、ユーザの発話履歴をグラフ構造化したデータベースである。一般知識DB52、ユーザ知識DB54、及び発話履歴DB56は、後述するように制御部10に参照され、また制御部10により更新されてもよい。
  <2-2.制御部の詳細>
 以上、本実施形態に係る情報処理装置1の全体構成例を説明した。続いて、情報処理装置1が備える制御部10の機能構成をより詳細に説明する。
 本実施形態に係る制御部10は、図4に示すように、発話検出部110、話者認識部120、応答制御部130、発話解析部140、及び出力制御部150としての機能を有する。
 (発話検出部)
 発話検出部110は、ユーザが入力部20に対して発話されたことを検出する。そして発話検出部110は、ユーザが発話したことを検出すると、その発話の内容をテキストに変換し、発話テキストを抽出する。また発話検出部110は、ユーザが発話したことを検出すると、その発話の区間の音声を後段の話者認識部120へ出力する。また、発話検出部110は、テキストに変換された発話の内容(発話テキスト)を、応答制御部130へ送る。
 発話検出部110は、図4に示したように、信号処理部112、及び音声認識部114を含んで構成される。
 信号処理部112は、音声認識の精度の向上のために、入力部20から送られてくる音声データに対する信号処理を実行する。信号処理部112は、例えばファーフィールドでの音声認識の精度を向上させるために、音声データから雑音や残響を除去する信号処理を行う。
 音声認識部114は、信号処理部112で信号処理を行った音声データに対して、ユーザが発話したことを受け付ける処理と、音声認識処理を行い発話をテキストに変換する。
 例えば、音声認識部114は、ユーザが発話したことを受け付けて、ユーザの発話区間を検出する。このようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、音声認識の精度を向上させることができる。またこのようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、音声認識の処理期間を限定し、省電力化を実現できる。
 また、音声認識部114は、検出されたユーザの発話区間において、音声認識処理を実行して、音声(発話)をテキストに変換する。音声からテキストへの変換処理は、特定の処理に限定されるものではない。
 (話者認識部)
 話者認識部120は、入力部20に対して発話した話者を特定する。また、本実施形態に係る話者認識部120は、発話を受け付けたマイクロフォンの位置情報を取得する取得部としても機能する。
 話者認識部120は、図4に示したように、ビームフォーミング部122と、マイクロフォン特定部124と、話者識別部126と、を含んで構成される。
 ビームフォーミング部122は、入力部20として設けられている複数のマイクロフォンによるビームフォーミングで得られる位相差から、発話された方向を特定する。
 マイクロフォン特定部124は、ビームフォーミング部122により特定された発話された方向、及び音声のボリュームから、発話を受け付けたマイクロフォンを特定することで、発話を受け付けたマイクロフォンの位置情報を取得する。
 本実施形態において、図1を参照して説明したように情報処理装置1はユーザから見て右側に設けられた右マイクロフォンMR1と、ユーザから見て左側に設けられた左マイクロフォンML1とを有する。例えば、マイクロフォン特定部124は、発話を受け付けたマイクロフォンが右マイクロフォンMR1であると特定された場合、右を示す位置情報を取得してもよい。また、マイクロフォン特定部124は、発話を受け付けたマイクロフォンが左マイクロフォンML1であると特定された場合、左を示す位置情報を取得してもよい。
 なお、マイクロフォン特定部124が取得する位置情報は、情報処理装置1が有するマイクロフォンと一対一で対応していなくてもよい。例えば、図1に示した例のように、ユーザU1が右マイクロフォンMR1と左マイクロフォンML1の中央に向かって発話した場合、マイクロフォン特定部124は、中央を示す位置情報を取得してもよい。
 話者識別部126は、発話した人物(話者)が誰であるかを特定する処理を実行する。話者識別部126は、例えば、ビームフォーミング部122によって特定された発話方向にいる人物(話者)を、入力部20として設けられているカメラで撮像された画像に対する顔認識処理によって特定する。また話者識別部126は、例えば、発話の音声を解析して、音声波形に基づいて、発話した人物が誰であるかを特定してもよい。なお、話者識別部126は、発話した人物を特定するために、記憶部50に記憶されるユーザ知識DB54へ問い合わせ、ユーザ知識DB54に格納される人物のプロファイル情報を取得してもよい。また、話者識別部126は、特定された発話した人物のプロファイル情報をユーザ知識DB54から取得して、応答制御部130へ提供してもよい。
 (応答制御部)
 応答制御部130は、ユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御する。例えば、応答制御部130は、発話に対する応答に係る応答情報を生成することで応答を制御し、応答情報を出力制御部150へ送る。また、応答制御部130は、発話テキストと、後述する発話解析パターンを示す情報を発話解析部140へ送る。
 応答制御部130は、図4に示したように、解析パターン制御部132と、応答生成部134と、を含んで構成される。
 解析パターン制御部132は、発話を受け付けたマイクロフォンの位置情報に基づいて、後述する発話解析部140による発話解析パターンを制御する。本実施形態に係る解析パターン制御部132は、発話を受け付けたマイクロフォンの位置情報に基づいて、解析パターンの適用有無を判定し、適用する発話解析パターンを示す情報を発話解析部140に送る。なお、発話解析パターンについては後述するが、例えば、解析パターン制御部132が適用の判定を行う発話解析パターンは、ドメイン補完、スロット補完、個人化であってもよい。
 上記のように、解析パターン制御部132が発話を受け付けたマイクロフォンの位置情報に基づいて発話解析パターンを制御することにより、後述する応答生成部134により生成される応答情報が異なるため、応答を制御し得る。
 応答生成部134は、発話解析部140による発話の解析結果と、マイクロフォンの位置情報に基づいて、発話に対する応答に係る応答情報を生成することで、応答を制御する。また、応答生成部134は、話者認識部120により特定された話者に応じて、応答情報を生成することで、応答を制御してもよい。なお、応答生成部134は、例えば記憶部50に記憶されるデータベースから取得した情報、または通信部40を介して不図示の他の装置から取得した情報等に基づいて、応答情報を生成してもよい。
 応答情報は、例えばユーザへ音声、または表示等により提示されるテキスト情報を含んでもよい。また、応答情報は、音響データや画像データ等、ユーザへ提示されるデータ形式に変換済みの情報を含んでもよい。また、応答情報は、後述する出力制御部150が出力タイミングを決定するための所定の条件の情報を含んでもよく、係る場合、応答生成部134は応答の出力タイミングを制御し得る。また、応答情報は、応答のモーダル(テキストの音声読み上げ、テキスト表示、画像表示等、ユーザへ応答を提示する方法)を示す情報を含んでもよい。
 なお、応答制御部130による応答制御の例については、後述する。
 (発話解析部)
 発話解析部140は、発話検出部110が検出した発話の内容を解析する。発話解析部140は、言語解析、意味解析等によって発話検出部110が検出した発話の内容を解析する。そして発話解析部140は、発話検出部110が検出した発話の内容を解析した結果、その発話の内容が質問文であれば、記憶部50に記憶されるデータベースへ問い合わせを行い、必要な情報を取得する。また、発話解析部140は、発話の解析結果を応答制御部130へ送る。
 発話解析部140は、図4に示したように、言語解析部142と及び意図理解部144と、を含んで構成される。
 言語解析部142は、発話検出部110が変換した発話テキストの構造を解析する。言語解析部142は、発話テキストの構造を解析することで、例えば、ユーザによる発話の内容が質問であるか否かを判定することが出来る。
 意図理解部144は、発話検出部110が変換した発話テキストを解析して、ドメイン(動作命令)、スロット(付属情報)を表現した意味フレーム(テーブル構造)を生成する。本実施形態において、ドメインは、例えば情報処理装置1が実行するアプリケーションのカテゴリ(例えば天気アプリケーション、スケジュールアプリケーション等)に相当する。また、本実施形態において、スロットはアプリケーションに渡されるパラメータに相当する。
 例えば、「明日のTULの天気を教えて」という発話テキストの解析により生成される意味フレームは下記に示す表1のようになる。表1に示す例では、ドメインとして「天気情報の確認(Weather-Check)」が入り、日時スロットに「明日」、場所スロットに「TUL」が入る。
Figure JPOXMLDOC01-appb-T000001
 また、意図理解部144は、発話検出部110が変換した発話テキストに含まれる曖昧な表現を解釈して、ユーザによる発話の意図を解釈し、情報の正規化を行う。例えば、意図理解部144は、記憶部50に記憶されるデータベースへ問い合わせることで、曖昧な表現を解釈する。
 表2は、表1に示した意味フレームを意図理解部144が正規化することで得られる意味フレームの例を示す表である。日付表現が「明日」では処理し難いため、意図理解部144は、時刻表現に正規化を行ってもよい。また、場所表現が「TUL」では曖昧性があるため、意図理解部144は、記憶部50に記憶される一般知識DB52へ問い合わせることで、「東京ユニバーサルランド」に正規化する。
Figure JPOXMLDOC01-appb-T000002
 また、意図理解部144は、応答制御部130から提供される解析パターンを示す情報に応じて、発話テキストを解析してもよい。例えば、意図理解部144は、解析パターンを示す情報として、ドメイン補完を示す情報が提供された場合、意味フレームにおけるドメインを以前の発話から補完(引き継ぎ)してもよい。また、意図理解部144は、解析パターンを示す情報として、スロット補完を示す情報が提供された場合、意味フレームにおけるスロットを以前の発話から補完してもよい。なお、意図理解部144は、記憶部50に記憶される発話履歴DB56に格納される発話の履歴に基づいて、上記の補完を行ってもよい。
 上記のように、ドメイン、またはスロットを以前の発話から補完することにより、例えば一回の発話テキストに必要な情報が含まれず、分割して発話された場合に、情報を補完することが可能となる。
 また、意図理解部144は、解析パターンを示す情報として、個人化の適用を示す情報が提供された場合、ユーザ(例えば話者)に最適化した解析を行ってもよい。例えば、意図理解部144は、解析パターンを示す情報として、個人化適用を示す情報が提供された場合、記憶部50に記憶されるユーザ知識DB54へ問い合わせを行い、ユーザのプロファイル情報を取得して、ユーザのプロファイル情報に基づく意味フレームの正規化を行ってもよい。
 係る構成によれば、ユーザに最適化された解析結果が応答制御部130へ提供され、応答制御部130によるユーザに最適化された応答情報の生成が可能となる。
 情報処理装置1が、発話を受け付けたマイクロフォンの位置情報に基づく解析パターンで発話解析を行う上記機能を有することで、ユーザはマイクロフォンの選択により、発話テキストに含まれていない情報をも情報処理装置1に提供することが可能となる。
 (出力制御部)
 出力制御部150は、出力部30による出力を制御する。例えば、出力制御部150は、応答制御部130から提供される応答情報に基づいて、応答を出力させる。また、出力制御部150は、応答の出力タイミングを制御してもよい。
 また、出力制御部150は、発話を受け付けたマイクロフォンの位置情報をユーザへフィードバックするように出力部30を制御してもよい。例えば、出力制御部150の制御により、発話を受け付けたマイクロフォンの位置情報に応じた位置から、光、音、振動等が出力されてもよい。係る構成により、ユーザ(話者)は、発話を受け付けたマイクロフォンが、自身の意図通りに特定されているか否かを確認することが可能である。
 出力制御部150は、図4に示したように、トリガ判定部152と及び音声合成部154と、を含んで構成される。
 トリガ判定部152は、応答の出力のタイミングについての判定を行う。本実施形態に係る情報処理装置1は、応答の出力をリアルタイムに行うモードと、所定の条件を満たした時点で応答を出力するモードの2種類のモードを備える。応答の出力をリアルタイムに行うモードのことをリアルタイムモードとも称し、所定の条件を満たした時点で応答を出力するモードのことをブックマークモードとも称する。トリガ判定部152が使用する所定の条件は、例えば出力中のコンテンツが所定の状態になったことであってもよく、また例えば所定の時間になったことであってもよい。
 出力中のコンテンツの所定の状態としては、例えばコンテンツが終了したタイミングであってもよく、コンテンツがテレビ番組であればコマーシャルになったタイミングであってもよい。コンテンツが終了したタイミングは、コンテンツが最後まで再生されたタイミングと、ユーザが明示的にコンテンツの再生を終了したタイミングの両方が含まれうる。上記所定の時間には、コンテンツの終了時間から相対的に経過した時間と、コンテンツの終了とは無関係な時間の両方が含まれうる。なお、所定の時間になったことを条件に応答を出力する場合、コンテンツが出力されていない状態であることが、トリガ判定部152が使用する所定の条件に加えられていてもよい。
 また、トリガ判定部152が使用する所定の条件は上記に限定されず、アプリケーション、情報処理装置1、または他の装置が所定の状態になったことであってもよい。例えば、所定の状態は、所定のアプリケーションが終了したことや、情報処理装置1が電源オフになる準備状態となること等であってもよい。また、後述するように本技術が自動車に適用される場合、所定の状態は、自動車のエンジンが切られたことや、ブレーキを踏んで止まったこと、ナビゲーションが終了したこと等であってもよい。
 上述したように、応答の出力のタイミングを制御することで、例えば、ユーザが現在行っている行動を妨げることなく、ユーザにとってより望ましいタイミングで応答を出力することが可能となる。
 音声合成部154は、応答情報に音声読み上げ用のテキスト情報が含まれる場合に、テキスト情報を音声データに変換する。
 以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお、図4に示す情報処理装置1の構成は一例であって、本実施形態はこれに限定されない。例えば、本実施形態による制御部10の各機能は、通信部40を介して接続される他の情報処理装置が有してもよい。係る例については、応用例として後述する。
 <<3.動作例>>
 続いて、本実施形態による情報処理装置1の動作例について説明する。以下では、まず図5を参照して、処理の流れについて説明した後、本実施形態に係る応答制御の具体例について説明する。
  <3-1.処理の流れ>
 図5は、本実施形態による情報処理装置1の処理の流れの一例を示すフローチャート図である。図5に示すように、まず発話検出部110が発話の検出を行い、発話文(発話テキスト)を抽出する(S102)。
 続いて、ビームフォーミング部122ビームフォーミング処理を行い、発話された方向を特定する(S104)。さらに、マイクロフォン特定部124が、ステップS104において特定された発話された方向、及び音声のボリュームから、発話を受け付けたマイクロフォンを特定し、発話を受け付けたマイクロフォンの位置情報を取得する(S106)。続いて、話者識別部126が、発話した人物(話者)が誰であるかを特定する(S108)。
 続いて、出力制御部150の制御により、発話を受け付けたマイクロフォンの位置情報がユーザへフィードバックされる(S110)。
 続いて、解析パターン制御部132が、発話を受け付けたマイクロフォンの位置情報に基づいて、発話解析における解析パターンを判定する(S112)。発話解析部140は、ステップS112により判定された解析パターンで、発話文(発話テキスト)の解析を行って意味フレームを取得する。
 続いて、応答生成部134が、発話の解析結果(意味フレーム)と、発話を受け付けたマイクロフォンの位置情報に基づいて、応答情報を生成する(S116)。さらに、出力制御部150が、応答情報に基づいて、応答を出力させる出力制御を行う(S118)。
  <3-2.応答制御の具体例>
 以上、本実施形態に係る情報処理装置1の処理の流れの一例を説明した。続いて、上述した応答制御部130による応答制御の具体例について説明する。以下では、例として、発話を受け付けたマイクロフォンの位置情報(以下発話位置と呼ぶ場合がある)が、主に「左」または「右」である場合について説明する。
 (情報量)
 応答制御部130は発話位置に基づいて、応答に含まれる情報量を制御してもよい。例えば、応答制御部130は発話位置が「左」である場合より、「右」である場合の方が、応答に含まれる情報量が多くなるように、応答情報を生成してもよい。また、ユーザが迷わないように、全てのアプリケーション・サービスにおいても、上記の発話位置と情報量の関係が一貫するように応答が制御されることが望ましい。
 なお、文化圏にもよるが、情報が左から右へ流れると、人間は知覚しているため、発話位置が「左」である場合より、「右」である場合の方が情報量が多いことは、人間の知覚とも一致する。
 例えば、応答制御部130は発話位置に基づいて、情報の深さ(詳しさ)を制御してもよい。以下に天気アプリケーションでの例と、ニュースアプリケーションでの例を説明する。
 例えば、ユーザが「明日の東京の天気を教えて」と発話した場合、発話位置が「左」であれば最小限の情報(晴れ/曇り/雨、程度)を含む応答情報が生成され、発話位置が「右」であれば最小限の情報に加えてより詳細な情報(最高/最低気温、夜から晴れる等)を含む応答情報が生成されてもよい。例えば、発話位置が「左」であれば、「明日の東京の天気は、晴れです。」という応答が出力されてもよい。また、発話位置が「右」であれば、「明日の東京の天気は、最高気温30℃、最低気温20℃、夜から雨模様です。」という応答が出力されてもよい。
 また、ユーザが「西織圭のニュースを教えて」と発話した場合、発話位置が「左」であればより少ない情報を含む応答情報が生成され、発話位置が「右」であればより詳細な情報を含む応答情報が生成されてもよい。例えば、発話位置が「左」であれば、「西織、4回戦はカロチッビと激突。」という応答が出力されてもよい。また、発話位置が「右」であれば、「テニスの全米オープン第6日、西織は4回戦進出を果たし、カロチッビと激突。」という応答が出力されてもよい。
 また、応答制御部130は発話位置に基づいて、情報の範囲(長さ)を制御してもよい。以下に音楽アプリケーションでの例を説明する。
 例えば、ユーザが楽曲の再生を求める発話を行った場合、発話位置が「左」であれば試聴感覚の短い音声データ(例えば楽曲のさび部分のみ)を含む応答情報が生成され、発話位置が「右」であれば楽曲全体の音声データを含む応答情報が生成されてもよい。なお、楽曲が再生される前に、情報の範囲に関する応答(例えば「さび部分のみ再生します」、「フル再生します」等)が出力されてもよい。
 (時間方向と連動)
 応答制御部130は発話位置に対して応答に係る時間方向が対応するように、応答を制御してもよい。例えば、応答制御部130は発話位置が「左」である場合に過去の情報、「中央」である場合に現在の情報、「右」である場合に未来の情報が含まれるように、応答情報を生成してもよい。また、ユーザが迷わないように、全てのアプリケーション・サービスにおいても、上記の発話位置と時間方向の関係が一貫するように応答が制御されることが望ましい。
 なお、文化圏にもよるが、情報が左から右へ流れると、人間は知覚しているため、発話位置が「左」である場合より、「右」である場合の方が時間的に後(未来)であることは、人間の知覚とも一致する。
 以下にスケジュールアプリケーションでの例を説明する。
 例えば、ユーザが「子供の予定を見せて」と発話した場合、発話位置が「左」であれば過去のスケジュールを含む応答情報が生成され、発話位置が「右」であれば未来のスケジュールを含む応答情報が生成されてもよい。なお、時刻の基準は発話が行われた時刻(現在時刻)であってもよい。なお、係る例において、応答の出力はディスプレイ等への表示であってもよい。
 また、過去の情報を応答として出力する場合、過去の時点で得られたデータ(例えば写真、動画、音声のデータ等)が利用可能である。そこで、例えばユーザが「子供の運動会を見せて」と発話した場合、発話位置が「左」であれば、過去の運動会での写真データ、動画データ等が応答情報に含まれてもよい。また、発話位置が「右」であれば未来のスケジュールを含む応答情報が生成されてもよい。係る例では、発話位置に応じて、ドメイン(上記例ではアプリケーションの種類)が異なってもよい。
 (空間と連動)
 応答制御部130は発話位置と応答に係る空間が対応するように、応答を制御してもよい。例えば、応答制御部130は発話位置が「左」である場合に空間の左側の情報、「中央」である場合に空間の中央の情報、「右」である場合に空間の右側の情報が含まれるように、応答情報を生成してもよい。なお、空間における方向は、例えばユーザの正面を起点にした方向であってもよい。
 以下に地図アプリケーションでの例を説明する。
 例えば、ユーザが「この近くのコンビニを探して」と発話した場合、発話位置が「左」であれば左側の探索結果を含む応答情報が生成され、発話位置が「右」であれば左側の探索結果を含む応答情報が生成されてもよい。
 (出力タイミング)
 応答制御部130は発話位置に応じて応答の出力タイミングを制御してもよい。例えば、発話位置が「左」であればリアルタイムで応答が出力され、発話位置が「右」であれば、所定の条件を満たした時点で応答が出力されるように応答の出力タイミングが制御されてもよい。係る場合、応答制御部130は出力タイミングに係るモード(リアルタイムモード、またはブックマークモード)の情報、及び所定の条件を含む応答情報を生成することで、出力タイミングを制御してもよい。以下にリマインダアプリケーションでの例と、カメラアプリケーションでの例を説明する。
 例えば、ユーザが「父に電話する」と発話した場合、発話位置が「左」であればリアルタイムに電話がかけられ、発話位置が「右」であれば、発話内容がTODOリストに追加され、所定の条件が満たされた時点でTODOがリマインド(通知出力)されるように、応答の出力タイミングが制御されてもよい。なお、係る場合、応答の出力タイミングに関する音声(例えば「XXXさんに電話します」、「TODOに追加しました」等)が出力されてもよい。なお、係る例において、ユーザ知識DB54に格納されるユーザのプロファイル情報に基づいて、ユーザの父が「XXX」であることが特定されて、電話がかけられてもよい。
 また、出力タイミングが制御される場合、ユーザ知識DB54に格納されるユーザのプロファイル情報に基づいて、過去の複数のユーザの応答についての情報を含む応答情報が生成されてもよい。
 例えば、一人目のユーザが「右」の発話位置で「牛乳を買う」と発話し、さらに、一人目のユーザとは家族である二人目のユーザが「右」の発話位置で「お米を買う」と発話した場合、各々の発話内容が各々のTODOリストに追加される。さらに、いずれかのユーザが「家族のTODOリストを見せて」と発話した場合、ユーザ知識DB54に格納されるユーザのプロファイル情報に基づいて、「買うものは牛乳、お米になります」という応答が出力されてもよい。
 また、ユーザが「写真を撮って」と発話した場合、発話位置が「左」であればリアルタイムに写真が撮影され、発話位置が「右」であれば、所定時間後に、タイマー撮影が行われてもよい。また、発話位置が「左」である場合より、発話位置が「右」である場合の方が長い所定時間の後にタイマー撮影が行われてもよい。なお、係る場合、撮影タイミングに関する音声(例えば「3秒後に撮影します」、「10秒後に撮影します」等)が出力されてもよい。
 (付加情報)
 応答制御部130は発話位置に応じて、応答情報に付加情報を追加するか否かを決定して、応答を制御してもよい。以下に、音楽アプリケーションでの例を説明する。
 例えば、付加情報は、曖昧な表現を含む発話に対する応答に係る理由の情報を含んでもよい。例えば、応答制御部130は発話位置が「左」である場合に応答の理由を含まない応答情報を生成し、「右」である場合に応答の理由が含まれる応答情報を生成してもよい。
 例えば、ユーザが曖昧な表現を含む楽曲の再生を求める発話(曲名を含まずアーティスト名を含む発話等)を行った場合、応答制御部130は発話位置が「左」であれば楽曲選択の理由を含まない応答情報を生成し、発話位置が「右」であれば楽曲選択の理由が含まれる応答情報を生成してもよい。例えば、発話位置が「右」である場合、「再生回数が多いXXXです」、「あなたの好きな曲です」等の応答が出力されてもよい。
 また、応答情報に追加される付加情報は、応答に関する補足情報(うんちく)であってもよい。ユーザが楽曲の再生を求める発話を行った場合、例えば、応答制御部130は発話位置が「左」である場合にうんちくを含まない応答情報を生成し、「右」である場合にうんちくが含まれる応答情報を生成してもよい。例えば、発話位置が「右」である場合、「この曲は音楽ランキングで1位を獲得しました。」等の応答が出力されてもよい。
 (探索範囲)
 応答制御部130は発話位置に応じて、応答に係る探索範囲を制御してもよい。以下に、地図アプリケーションでの例を説明する。
 例えば、ユーザが「レストランを探して」と発話した場合、発話位置が「左」であれば狭い探索範囲(例えば半径1km以内)での探索結果を含む応答情報を生成し、発話位置が「右」であれば広い探索範囲(例えば半径5km以内)での探索結果を含む応答情報が生成されてもよい。なお、係る場合、探索範囲に関する応答(例えば「半径1m以内探します」、「半径5m以内探します」等)が出力されてもよい。また、探索範囲の広さ(探索に係る半径の値)は、例えばユーザの行動状態(自動車、徒歩等)に基づいて決定されてもよい。
 (所定機能)
 応答制御部130は、発話位置に応じた所定の機能に基づいて応答を制御してもよい。所定の機能は、例えばアプリケーションごとに割り当てられた機能、またはユーザが割り当てた機能であってもよい。
 例えば、応答制御部130は、音楽アプリケーションにおいて、発話位置が「左」であればループ再生が行われるような応答情報を生成し、発話位置が「右」であればシャッフル再生が行われるような応答情報を生成してもよい。多様な機能が割り当てられることで、発話位置の選択がショートカット機能としての役割を果たし得る。
 (ドメイン補完)
 応答制御部130は、発話解析部140による発話解析パターンとして、ドメイン補完を適用するか否かを判定してもよい。例えば、応答制御部130は発話位置が「左」である場合に、ドメイン補完の適用を示す情報を解析パターンとして発話解析部140に提供してもよい。
 例えば、ユーザが「明日の東京の天気を教えて」と発話した後に、「大崎について教えて」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、ドメイン(この例では「天気情報の確認」)が補完され、例えば「明日の大崎の天気は晴れです。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、ドメインが補完されず、ドメインが用語解析に強制的に切り替わり、例えば「大崎は東京都品川区の地名で、大崎地域内である。」といった応答が出力される。
 (スロット補完)
 応答制御部130は、発話解析部140による発話解析パターンとして、スロット補完を適用するか否かを判定してもよい。例えば、応答制御部130は発話位置が「左」である場合に、スロット補完の適用を示す情報を解析パターンとして発話解析部140に提供してもよい。
 例えば、ユーザが「明日の東京の天気は?」と発話した後に、「予定は?」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、日時スロット(この例では「明日」)が補完され、例えば「明日の予定XXXです。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、スロットが補完されず、いつの予定であるかが不明であるため、例えば「いつですか?」といった日時の情報を求める応答が出力される。さらに、上記に続けてユーザが「明後日の天気は?」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、場所スロット(この例では「東京」)が補完され、例えば「明後日の東京の天気は雨です。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、スロットが補完されず、どこの天気であるかが不明であるため、例えば「どこですか?」といった場所の情報を求める応答が出力される。
 (個人化)
 応答制御部130は、発話解析部140による発話解析パターンとして、個人化を適用するか否かを判定してもよい。例えば、応答制御部130は発話位置が「右」である場合に、個人化の適用を示す情報を解析パターンとして発話解析部140に提供してもよい。
 例えば、複数のアーティストが該当し得るアーティスト名を含む楽曲の再生を求める発話を行った場合、発話位置が「左」であれば個人化が適用されず、一般知識に基づいて解析が行われて、例えば該当するアーティストの中で最も人気のあるアーティストの楽曲が再生されてもよい。また、係る場合に、発話位置が「右」であれば個人化が適用されて解析が行われて、例えばユーザ(話者)の興味、再生履歴などに基づいて選択されたアーティストの楽曲が再生されてもよい。
 以上、本実施形態に係る情報処理装置1による応答制御の例を具体的に説明した。なお、上記の応答制御は一例であって、本実施形態に係る情報処理装置1はこれに限定されず、多様な応答制御を行い得る。
 <<4.応用例>>
 以上、本開示の一実施形態の構成例、及び動作例について説明した。続いて、本開示の実施形態のいくつかの応用例を説明する。
  <4-1.応用例1>
 上記実施形態では、本技術がネックバンド型のウェアラブルデバイスに適用される例を説明したが、本技術は係る例に限定されない。応用例1として、本技術が自動車(車両の一例)に搭載される車載デバイスに適用される例を説明する。
 図6~図9は、応用例1を説明するための説明図である。図6に示すように、自動車7は、進行方向に対して左側に設けられた左マイクロフォンML2、及び進行方向に対して右側に設けられた右マイクロフォンMR2を有し、自動車7の運転席にはユーザU2、助手席にはユーザU3が座っている。
 運転席に座るユーザU2は図6に示すように、左マイクロフォンML2に向かって発話することも可能であるし、図7に示すように、右マイクロフォンMR2に向かって発話することも可能である。また、同様に助手席に座るユーザU3は、図8に示すように、左マイクロフォンML2に向かって発話することも可能であるし、図9に示すように、右マイクロフォンMR2に向かって発話することも可能である。
 したがって、上述した実施形態と同様に、本応用例に係る車載デバイスは、ユーザU2、U3による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行うことが可能である。
 また、話者の座る座席とマイクロフォンの位置は固定されるため、予めマイクロフォンから各座席への方向を設計することで、本応用例に係る車載デバイスは、話者の座る座席が運転席であるか助手席であるかを判断することも可能である。係る場合、車載デバイスは、話者に係る情報(例えば話者の座席)に応じて、応答の出力に係るモーダルを制御してもよい。なお、モーダルの情報は、応答情報に含まれてもよい。
 表3は、話者に応じたモーダルの制御例を示す表である。例えば、話者の座席が運転席である場合、運転の妨げとならないように、音声による応答のみが出力されてもよい。また、話者の座席が助手席である場合、音声による応答に加え、テキストでの応答が追加されてもよい。テキストでの応答は、例えば車載デバイスのディスプレイに表示されることで行われてもよいし、話者の保有する情報端末(例えばスマートフォン等)へテキストが送信されて、当該情報端末に表示されることで行われてもよい。
Figure JPOXMLDOC01-appb-T000003
  <4-2.応用例2>
 また、本技術は、家庭に置かれる家庭用デバイス(コンテンツ再生デバイス、ロボット等)に適用されてもよい。以下では、応用例2として、本技術が家庭用デバイスに適用される例を説明する。
 図10は、応用例2を説明するための説明図である。図10に示すように、家庭用デバイス8は、マイクロフォンM1~M8を有する。また、家庭のユーザU4、及びユーザU5は、自由な方向、距離から発話することが可能である。
 上述した実施形態と同様に、本応用例に係る家庭用デバイス8は、ユーザU2、U3による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行うことが可能である。
 家庭用デバイス8は、発話を受け付けたマイクロフォンをマイクロフォンM1~M8の中から特定し、当該マイクロフォンが基準位置Pよりも左側にあるか右側にあるかに応じて、位置情報を取得してもよい。例えば、図10に示す例では、ユーザU4による発話に係る位置情報は「右」であり、ユーザU5による発話に係る位置情報は「左」である。なお、家庭用デバイス8は、「左」、「右」よりも細かな範囲の位置情報を取得してもよく、係る場合には、基準位置がより多数設定されてもよい。
  <4-3.応用例3>
 また、上記実施形態では、1の装置に図4を参照して説明した各機能が備えられる例を説明したが、本技術は係る例に限定されない。以下では、応用例3として、複数の装置が連携することで、上述したような効果が実現される例を説明する。
 図11は、本応用例に係る情報処理システムの構成を示す説明図である。図11に示すように、本応用例に係る情報処理システムは、クライアント端末2、サーバ3、通信網5を有する。
 クライアント端末2は、例えば、図1~図3を参照して説明したネックバンド型ウェアラブルデバイスや、図6~図9を参照して説明した車載デバイス、図10を参照して説明した家庭用デバイス等であってもよい。
 図12は、クライアント端末2の構成例を示すブロック図である。図12に示すように、本応用例に係るクライアント端末2は、制御部10-2、入力部20、出力部30、及び通信部40を備える情報処理装置である。なお、図12に示す構成のうち、図4に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
 図12に示す制御部10-2は、クライアント端末2の各構成を制御する。本応用例に係る制御部10-2は、図12に示すように、発話検出部110-2、話者認識部120、応答制御部130-2、及び出力制御部150-2としての機能を有する。
 図12に示すように、発話検出部110-2は、図4を参照して説明した発話検出部110の機能の内、信号処理部112としての機能を有し、音声認識部114としての機能を有しなくてもよい。また、発話検出部110-2は、信号処理部112で信号処理を行った音声データ(発話音声)を、通信部40を介してサーバ3に送信させる。
 応答制御部130-2は、図4を参照して説明した応答制御部130と同様にユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御するが、情報の入出力先が応答制御部130と一部異なる。応答制御部130-2は、図12に示したように、解析パターン制御部136と、応答生成部138と、を含んで構成される。
 解析パターン制御部136は、図4を参照して説明した解析パターン制御部132と同様に、発話解析パターンを制御する。発話解析はサーバ3で行われるため、本応用例に係る解析パターン制御部136は、サーバ3へ送信可能な形式で解析パターンを示す情報を生成してもよい。
 応答生成部138は、図4を参照して説明した応答生成部134と同様に、応答情報を生成する。本応用例に係る応答生成部138は、サーバ3から通信部40を介して取得した発話の解析結果と、マイクロフォンの位置情報に基づいて、発話に対する応答に係る応答情報を生成することで、応答を制御する。なお、生成された応答情報は、サーバ3、及び出力制御部150-2へ送られる。したがって、本応用例に係る応答生成部138は、サーバ3へ送信可能な形式で応答情報が生成してもよい。
 出力制御部150-2は、図4を参照して説明した出力制御部150と同様に、出力部30による出力を制御する。また、図12に示すように、出力制御部150-2は、図4を参照して説明した出力制御部150の機能の内、トリガ判定部152としての機能を有し、音声合成部354としての機能を有しなくてもよい。
 図13は、サーバ3の構成例を示すブロック図である。図13に示すように、本応用例に係るサーバ3は、制御部310、通信部340、及び記憶部50を備える情報処理装置である。なお、図12に示す構成のうち、図4に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
 制御部310は、サーバ3の各構成を制御する。本応用例に係る制御部310は、図13に示すように、発話解析部140、音声認識部314、及び音声合成部354としての機能を有する。
 音声認識部314は、通信部340を介してクライアント端末2から受信した音声データ(発話音声)に対して、音声認識処理を行い発話をテキストに変換する。
 音声合成部354は、通信部340を介してクライアント端末2から受信した応答情報に音声読み上げ用のテキスト情報が含まれる場合に、テキスト情報を音声データに変換する。なお、変換された音声データは、通信部340を介してクライアント端末2へ送信される。
 通信部340は、他の装置との間で情報の通信を行う。
 通信網5は、通信網5に接続されている装置、またはシステムから送信される情報の有線、または無線の伝送路である。例えば、通信網5は、インターネット、電話回線網、衛星通信網等の公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)等を含んでもよい。また、通信網5は、IP-VPN(Internet Protocol-Virtual Private Network)等の専用回線網を含んでもよい。
 図11に示すように、クライアント端末2とサーバ3は通信網5を介して相互に接続され、通信を行うことが可能である。以下にクライアント端末2とサーバ3との間の通信の一例を説明する。なお、以下の例では、ユーザが発話位置「左」において「子供の予定を見せて」と発話した場合の例を説明する。また、係る例において、応答制御部130-2により判定された解析パターンは、ドメイン補完の適用あり、スロット補完の適用あり、個人化の適用ありの設定になっていた場合を想定する。
 まず、クライアント端末2からサーバ3へは解析パターンを示す情報と音声データ(バイナリデータ)と、が送信される。図14は、送信されるデータの一例を示す説明図である。図14において、送信データは、「multipart_boundary」の文字列により区切られている。
 なお、図14に示す通信例は説明を容易にするため、発話開始から発話終了までの音声データをまとめて送信する場合を示しているが、音声データは逐次送信されてもよい。発話の音声データをすべて取得してから送信すると、ユーザの発話が終わってから送信することになり、遅延につながるため、逐次音声認識として、ユーザの発話中に音声データを分割して送信して、逐次的に音声認識を行ってもよい。その場合は常にクライアント端末2からサーバ3へのセッションは発話開始の音声データから発話終了の音声データまで張られている。
 図15は、解析パターンを示す情報をJSON形式で表した一例を示す説明図である。図15において、Domainタグの値が1の場合は、ドメイン補完の適用ありを示し、0の場合は補完の適用なしを示す。また、Slotタグの値が1の場合は、スロット補完の適用ありを示し、0の場合は補完の適用なしを示す。また、Personalizationタグの値が1の場合は、個人化の適用ありを示し、0の場合は個人化の適用なしを示す。
 図16は、音声データの値の一例を示す説明図である。図16に示すように、音声データは16進数のバリナリコードであってもよい。
 また、サーバ3による音声認識と発話解析が行われた後、発話解析結果として意味フレームがクライアント端末2へ送信される。図17は、クライアント端末2の受信データ示す説明図である。図17では、意味フレームがJSON形式で表現されている。表4は、図17におけるJSONタグの説明を示す表である。
Figure JPOXMLDOC01-appb-T000004
 なお、図17、表4において、SubjectがNONEであることは、当該発話には件名の情報が含まれていないことを意味する。また、図17、表4において、DateValueがNONEであることは、当該発話には具体的な日時の情報が含まれていないことを意味する。
 また、クライアント端末2の応答生成部138が発話の解析結果に基づいて生成した応答情報は、サーバ3へ送信され、サーバ3の音声合成部354により音声データに変換され、クライアント端末2へ返送される。
 クライアント端末2からサーバ3へ送信される応答情報をJSON形式で表現すると、例えば以下のようになる。
 { "ResponceText":  "太郎の予定はXXX"} }
 また、クライアント端末2がサーバ3から受信する音声データは、音声合成の音声フォーマットに沿ったバリナリデータであってもよい。
 なお、クライアント端末2が音声合成部を備える場合には応答情報、及び音声データの通信は不要である。
  <4-4.応用例4>
 本技術を複数の装置を有する情報システムに適用した場合の構成例は上記応用例3に限定されない。以下では、応用例4として、他の構成例を説明する。本応用例では、応答制御がサーバにより行われる点において応用例3と異なり、他の点においては上述した実施形態、及び応用例3と実質的に同様であるため、異なる点について主に説明を行い、実質的に同様な点については適宜説明を省略する。なお、以下に説明するクライアント端末2-2、及びサーバ3-2は、図11を参照して説明したクライアント端末2、及びサーバ3と同様に、通信網5を介して相互に接続され、通信を行うことが可能であるとする。
 図18は、本応用例に係るクライアント端末2-2の構成例を示すブロック図である。図18に示すように、本応用例に係るクライアント端末2-2は、制御部10-3、入力部20、出力部30、及び通信部40を備える情報処理装置である。なお、図18に示す構成のうち、図4、図12に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
 本応用例に係る制御部10-3は、クライアント端末2-2の各構成を制御する。本応用例に係る制御部10-3は、図18に示すように、発話検出部110-2、話者認識部120-2、及び出力制御部150-3としての機能を有し、応答制御部としての機能を有しなくてもよい。
 そのため、本応用例に係る話者認識部120-2は、通信部40を介して、発話を受け付けたマイクロフォンの位置情報、及び話者の情報をサーバ3-2へ送信させる点で、図4に示した話者認識部120と異なる。
 また、本応用例に係る出力制御部150-3(処理部の一例)は、通信部40を介してサーバ3-2から受信した応答情報に基づいて、応答の出力制御処理を行う点で図4に示した出力制御部150と異なる。
 図19は、本応用例に係るサーバ3-2の構成例を示すブロック図である。図19に示すように本応用例に係るサーバ3-2は、制御部310-2、通信部340、及び記憶部50を備える情報処理装置である。なお、図19に示す構成のうち、図4、図13に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
 制御部310-2は、サーバ3-2の各構成を制御する。本応用例に係る制御部310-2は、図19に示すように、発話解析部140、音声認識部314、及び応答制御部330としての機能を有する。制御部310-2は、応答制御部330を有するため、通信部340を介して、発話を受け付けたマイクロフォンの位置情報をクライアント端末2から受信(取得)する取得部としても機能する。
 応答制御部330は、図12を参照して説明した応答制御部130-2と同様にユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御する。本応用例に係る応答制御部330は、クライアント端末2から受信した発話を受け付けたマイクロフォンの位置情報に基づいて、応答を制御する点で、図12に示した応答制御部130-2と異なる。また、本応用例に係る応答制御部330は、生成した応答情報をクライアント端末2へ送信させる点で図12に示した応答制御部130-2と異なる。なお、サーバ3-2が音声合成部を備える場合には、サーバ3-2からクライアント端末2-2へ送信される応答情報は、音声データであってもよい。
 以上、説明したように、本応用例によれば、クライアント端末2-2が応答制御機能を有していなくても、発話を受け付けたマイクロフォンの位置情報に基づく応答が可能となる。
 <<5.ハードウェア構成例>>
 以上、本開示の実施形態を説明した。最後に、図20を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図20は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図20に示す情報処理装置900は、例えば、図4、図12、図13、図18、図19にそれぞれ示した情報処理装置1、クライアント端末2、2-2、サーバ3、3-2を実現し得る。本実施形態に係る情報処理装置1、クライアント端末2、2-2、サーバ3、3-2による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図20に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911、通信装置913、及びセンサ915を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、制御部10、10-2、10-3、310、310-2を形成し得る。
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば入力部20を形成し得る。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば出力部30を形成し得る。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置908は、例えば、記憶部50を形成し得る。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
 通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、通信部40、340を形成し得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
 なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 <<6.むすび>>
 以上、説明したように、本開示の実施形態によれば、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理される必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 発話を受け付けたマイクロフォンの位置情報を取得する取得部と、
 前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、
 を備える、情報処理装置。
(2)
 前記応答制御部は、前記位置情報に基づいて、前記発話の解析パターンを制御し、前記発話の解析結果に基づいて、前記応答を制御する、前記(1)に記載の情報処理装置。
(3)
 前記応答制御部は、前記位置情報に基づいて、前記解析パターンの適用有無を判定することで、前記発話の解析パターンを制御する、前記(2)に記載の情報処理装置。
(4)
 前記解析パターンは、ドメイン補完、スロット補完、個人化のうち、少なくともいずれか一つを含む、前記(3)に記載の情報処理装置。
(5)
 前記応答制御部は、前記位置情報に基づいて、前記応答に含まれる情報量を制御する、前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記応答制御部は、前記位置情報と、応答に係る時間方向とが対応するように、前記応答を制御する、前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
 前記応答制御部は、前記位置情報が左である場合に、前記応答に含まれる情報より、前記位置情報が右である場合に、前記応答に含まれる情報の方がより未来の情報であるように、前記応答を制御する、前記(6)に記載の情報処理装置。
(8)
 前記応答制御部は、前記位置情報と、応答に係る空間とが対応するように、前記応答を制御する、前記(1)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記応答制御部は、前記位置情報に基づいて、前記応答の出力タイミングを制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記応答制御部は、前記位置情報に基づいて、前記応答に付加情報を追加するか否かを決定する、前記(1)~(9)のいずれか一項に記載の情報処理装置。
(11)
 前記付加情報は、前記応答に係る理由の情報、または前記応答に係る補足情報を含む、前記(10)に記載の情報処理装置。
(12)
 前記応答制御部は、前記位置情報に基づいて、前記応答に係る探索範囲を制御する、前記(1)~(11)のいずれか一項に記載の情報処理装置。
(13)
 前記応答制御部は、前記位置情報に応じた所定の機能に基づいて、前記応答を制御する、前記(1)~(12)のいずれか一項に記載の情報処理装置。
(14)
 前記応答制御部は、さらに前記発話の話者に係る情報に基づいて、前記応答を制御する、前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
 発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、
 前記応答情報に基づいて処理を行う処理部と、
 を備える情報処理装置。
(16)
 発話を受け付けたマイクロフォンの位置情報を取得することと、
 プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、
 を含む、情報処理方法。
(17)
 発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、
 プロセッサが、前記応答情報に基づいて処理を行うことと、
 を含む、情報処理方法。
 1 情報処理装置
 2 クライアント端末
 3 サーバ
 5 通信網
 7 自動車
 8 家庭用デバイス
 10 制御部
 20 入力部
 30 出力部
 40 通信部
 50 記憶部
 110 発話検出部
 112 信号処理部
 114 音声認識部
 120 話者認識部
 122 ビームフォーミング部
 124 マイクロフォン特定部
 126 話者識別部
 130 応答制御部
 132 解析パターン制御部
 134 応答生成部
 136 解析パターン制御部
 138 応答生成部
 140 発話解析部
 142 言語解析部
 144 意図理解部
 150 出力制御部
 152 トリガ判定部
 154 音声合成部
 310 制御部
 314 音声認識部
 330 応答制御部
 340 通信部
 354 音声合成部

Claims (17)

  1.  発話を受け付けたマイクロフォンの位置情報を取得する取得部と、
     前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、
     を備える、情報処理装置。
  2.  前記応答制御部は、前記位置情報に基づいて、前記発話の解析パターンを制御し、前記発話の解析結果に基づいて、前記応答を制御する、請求項1に記載の情報処理装置。
  3.  前記応答制御部は、前記位置情報に基づいて、前記解析パターンの適用有無を判定することで、前記発話の解析パターンを制御する、請求項2に記載の情報処理装置。
  4.  前記解析パターンは、ドメイン補完、スロット補完、個人化のうち、少なくともいずれか一つを含む、請求項3に記載の情報処理装置。
  5.  前記応答制御部は、前記位置情報に基づいて、前記応答に含まれる情報量を制御する、請求項1に記載の情報処理装置。
  6.  前記応答制御部は、前記位置情報と、応答に係る時間方向とが対応するように、前記応答を制御する、請求項1に記載の情報処理装置。
  7.  前記応答制御部は、前記位置情報が左である場合に、前記応答に含まれる情報より、前記位置情報が右である場合に、前記応答に含まれる情報の方がより未来の情報であるように、前記応答を制御する、請求項6に記載の情報処理装置。
  8.  前記応答制御部は、前記位置情報と、応答に係る空間とが対応するように、前記応答を制御する、請求項1に記載の情報処理装置。
  9.  前記応答制御部は、前記位置情報に基づいて、前記応答の出力タイミングを制御する、請求項1に記載の情報処理装置。
  10.  前記応答制御部は、前記位置情報に基づいて、前記応答に付加情報を追加するか否かを決定する、請求項1に記載の情報処理装置。
  11.  前記付加情報は、前記応答に係る理由の情報、または前記応答に係る補足情報を含む、請求項10に記載の情報処理装置。
  12.  前記応答制御部は、前記位置情報に基づいて、前記応答に係る探索範囲を制御する、請求項1に記載の情報処理装置。
  13.  前記応答制御部は、前記位置情報に応じた所定の機能に基づいて、前記応答を制御する、請求項1に記載の情報処理装置。
  14.  前記応答制御部は、さらに前記発話の話者に係る情報に基づいて、前記応答を制御する、請求項1に記載の情報処理装置。
  15.  発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、
     前記応答情報に基づいて処理を行う処理部と、
     を備える情報処理装置。
  16.  発話を受け付けたマイクロフォンの位置情報を取得することと、
     プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、
     を含む、情報処理方法。
  17.  発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、
     プロセッサが、前記応答情報に基づいて処理を行うことと、
     を含む、情報処理方法。
PCT/JP2017/026399 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法 WO2018055898A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/318,829 US10976998B2 (en) 2016-09-23 2017-07-21 Information processing apparatus and information processing method for controlling a response to speech
EP17852679.4A EP3518095A4 (en) 2016-09-23 2017-07-21 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN201780057002.6A CN109716285A (zh) 2016-09-23 2017-07-21 信息处理装置和信息处理方法
JP2018540661A JP6904361B2 (ja) 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-186151 2016-09-23
JP2016186151 2016-09-23

Publications (1)

Publication Number Publication Date
WO2018055898A1 true WO2018055898A1 (ja) 2018-03-29

Family

ID=61690367

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/026399 WO2018055898A1 (ja) 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法

Country Status (5)

Country Link
US (1) US10976998B2 (ja)
EP (1) EP3518095A4 (ja)
JP (1) JP6904361B2 (ja)
CN (1) CN109716285A (ja)
WO (1) WO2018055898A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019230090A1 (ja) * 2018-05-31 2019-12-05 ソニー株式会社 音声処理装置および音声処理方法
WO2019234486A1 (en) * 2018-06-07 2019-12-12 Toyota Jidosha Kabushiki Kaisha Speech recognition system, information processing device and server
JP2021108095A (ja) * 2019-12-27 2021-07-29 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド スピーチ理解における解析異常の情報を出力するための方法
WO2022009626A1 (ja) * 2020-07-06 2022-01-13 Fairy Devices株式会社 音声入力装置
US20220375466A1 (en) * 2021-05-18 2022-11-24 Apple Inc. Siri integration with guest voices

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
JP2013156768A (ja) * 2012-01-27 2013-08-15 Sharp Corp 入力インターフェース装置、電子機器、携帯端末機器、プログラムおよび記録媒体
WO2015177856A1 (ja) * 2014-05-20 2015-11-26 三菱電機株式会社 音声操作装置、音声操作方法、および音声操作システム
JP2016502192A (ja) 2012-12-14 2016-01-21 ロウルズ リミテッド ライアビリティ カンパニー 応答エンドポイント選択

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4247002B2 (ja) * 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
US7548651B2 (en) * 2003-10-03 2009-06-16 Asahi Kasei Kabushiki Kaisha Data process unit and data process unit control program
DE602005008005D1 (de) * 2005-02-23 2008-08-21 Harman Becker Automotive Sys Spracherkennungssytem in einem Kraftfahrzeug
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
ATE434353T1 (de) * 2006-04-25 2009-07-15 Harman Becker Automotive Sys Fahrzeugkommunikationssystem
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
JP5493551B2 (ja) * 2009-07-30 2014-05-14 沖電気工業株式会社 情報処理システム、情報処理装置、及び情報処理方法
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
US9479867B2 (en) * 2013-07-11 2016-10-25 Texas Instruments Incorporated Method and circuitry for direction of arrival estimation using microphone array with a sharp null
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
JP2013156768A (ja) * 2012-01-27 2013-08-15 Sharp Corp 入力インターフェース装置、電子機器、携帯端末機器、プログラムおよび記録媒体
JP2016502192A (ja) 2012-12-14 2016-01-21 ロウルズ リミテッド ライアビリティ カンパニー 応答エンドポイント選択
WO2015177856A1 (ja) * 2014-05-20 2015-11-26 三菱電機株式会社 音声操作装置、音声操作方法、および音声操作システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3518095A4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019230090A1 (ja) * 2018-05-31 2019-12-05 ソニー株式会社 音声処理装置および音声処理方法
WO2019234486A1 (en) * 2018-06-07 2019-12-12 Toyota Jidosha Kabushiki Kaisha Speech recognition system, information processing device and server
JP2021108095A (ja) * 2019-12-27 2021-07-29 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド スピーチ理解における解析異常の情報を出力するための方法
US11482211B2 (en) 2019-12-27 2022-10-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for outputting analysis abnormality information in spoken language understanding
JP7182584B2 (ja) 2019-12-27 2022-12-02 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド スピーチ理解における解析異常の情報を出力するための方法
WO2022009626A1 (ja) * 2020-07-06 2022-01-13 Fairy Devices株式会社 音声入力装置
JP2022014137A (ja) * 2020-07-06 2022-01-19 Fairy Devices株式会社 音声入力装置
US20220375466A1 (en) * 2021-05-18 2022-11-24 Apple Inc. Siri integration with guest voices

Also Published As

Publication number Publication date
EP3518095A1 (en) 2019-07-31
JP6904361B2 (ja) 2021-07-14
US10976998B2 (en) 2021-04-13
JPWO2018055898A1 (ja) 2019-07-11
CN109716285A (zh) 2019-05-03
US20190163438A1 (en) 2019-05-30
EP3518095A4 (en) 2019-09-11

Similar Documents

Publication Publication Date Title
WO2018055898A1 (ja) 情報処理装置、及び情報処理方法
US11875820B1 (en) Context driven device arbitration
US11138977B1 (en) Determining device groups
US10540970B2 (en) Architectures and topologies for vehicle-based, voice-controlled devices
CN112074900B (zh) 用于自然语言处理的音频分析
EP3676828A1 (en) Context-based device arbitration
US11355098B1 (en) Centralized feedback service for performance of virtual assistant
US20150331665A1 (en) Information provision method using voice recognition function and control method for device
US11302325B2 (en) Automatic dialogue design
TW201503107A (zh) 語音控制系統、電子裝置及語音控制方法
US20200357399A1 (en) Communicating announcements
WO2019239656A1 (ja) 情報処理装置および情報処理方法
US20200365139A1 (en) Information processing apparatus, information processing system, and information processing method, and program
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
US10693944B1 (en) Media-player initialization optimization
US20230362026A1 (en) Output device selection
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
CN112492400B (zh) 互动方法、装置、设备以及通信方法、拍摄方法
CN111861666A (zh) 车辆信息的交互方法及装置
CN113409797A (zh) 语音处理方法和系统、及语音交互设备和方法
WO2019235013A1 (ja) 情報処理装置および情報処理方法
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10965391B1 (en) Content streaming with bi-directional communication
US20220108693A1 (en) Response processing device and response processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17852679

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018540661

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017852679

Country of ref document: EP

Effective date: 20190423