WO2019187543A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2019187543A1
WO2019187543A1 PCT/JP2019/001872 JP2019001872W WO2019187543A1 WO 2019187543 A1 WO2019187543 A1 WO 2019187543A1 JP 2019001872 W JP2019001872 W JP 2019001872W WO 2019187543 A1 WO2019187543 A1 WO 2019187543A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
voice
information processing
style
processing unit
Prior art date
Application number
PCT/JP2019/001872
Other languages
English (en)
French (fr)
Inventor
拓也 藤田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/040,532 priority Critical patent/US20210082427A1/en
Publication of WO2019187543A1 publication Critical patent/WO2019187543A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • This disclosure relates to an information processing apparatus and an information processing method.
  • Patent Literature 1 discloses a technique for determining whether or not to execute a response process for an input voice based on a distance from a user.
  • the present disclosure proposes a new and improved information processing apparatus and information processing method capable of accurately determining whether or not a response to input speech is correct.
  • the information processing includes: an intelligent processing unit that determines whether or not to execute a response process for the input sound based on at least one of the input sound style and the output sound style.
  • An apparatus is provided.
  • the processor includes determining whether to perform a response process for the input sound based on at least one of the input sound style and the output sound style.
  • the voice agent device is a general term for devices that provide various functions through voice interaction with the user.
  • the voice agent device can reply to an inquiry made by a user's utterance using an artificial voice or can execute various functions based on an instruction made by the user's utterance.
  • the voice agent device it is important to correctly accept only the utterance voice intended by the user and correctly reject the voice not intended by the user.
  • voices not intended by the user include various voices output from devices such as a television device, a radio, an audio player, and other agent devices.
  • voices that are not intended by the user include speech voices that are not intended to be input to the agent device, such as speeches with others or monologues, although they are speech voices of the user.
  • Patent Document 1 As a method for detecting the voice intended by the user with high accuracy, for example, the technique described in Patent Document 1 described above can be cited. However, in the technique of Patent Document 1 that determines whether or not a response is appropriate based on the distance to the user, there are many cases where the above-described voice that is not intended by the user cannot be rejected correctly. Examples of the above situation include a situation in which the user has a conversation with another person near the agent apparatus, and a situation in which a voice output from another apparatus is input when the user is in the vicinity of the agent apparatus. It is done.
  • an information processing apparatus that implements an information processing method according to an embodiment of the present disclosure is based on the content of input speech, the style of input speech, the content of output information, the style of output information, various contexts, and the like.
  • One of the features is that the rejection or acceptance of input speech is widely determined.
  • the content of the input speech includes the recognized command type (domain goal), the recognized character string, the interpreted utterance intention, and the like.
  • the above input speech style includes a wide range of prosodic information.
  • the style of input speech includes speech volume (amplitude, power), speech height (fundamental frequency), voice color (frequency spectrum), rhythm (tone), length, input timing, and the like.
  • the input audio style may include information such as the audio input direction (horizontal angle and vertical angle) and the distance to the sound source.
  • the contents of the output information include various sound information, visual information, and actions.
  • the sound information includes, for example, the contents of output sound, music, BGM, and type of sound effect.
  • the visual information includes a light emission expression using an image, text, LED, and the like.
  • movement may include a gesture etc., for example.
  • the output information style includes, for example, output timing, display size, brightness and darkness in the case of visual information.
  • the same elements and output timings as the input voice style described above, or an output mode described later may be included.
  • the timing, size, speed, etc. of the operation are included.
  • the above-mentioned context includes various states related to the device, the people existing around, the environment, and the like.
  • the context related to the device includes, for example, whether or not a PTT (Push To Talk) button is pressed, whether or not a startup word (WUW: Wake Up Word) is recognized within a certain period of time, etc. State is included.
  • the context related to the device may include various settings related to information input / output.
  • the setting include output modal (screen display and sound output), sound output setting, and sound input setting.
  • the audio output settings include external device connection settings such as speakers, earphones, and Bluetooth (registered trademark) connection, volume and mute settings, and the audio input settings include external device connection settings such as microphones and mute settings. It's okay.
  • the context relating to the device includes specification information such as a model number and a manufacturing date.
  • the context related to a person widely includes, for example, detection information such as how many people are in the room and recognition information such as facial expressions, line of sight, and actions. Examples of recognized actions include standing, sitting, sleeping, walking, running, dancing, calling, talking to others, etc. Can be cited.
  • the context related to the person may include attribute information such as the age and sex of the detected person and information related to the classification of whether or not the user is a registered user.
  • the current location category includes, for example, home, outdoor, train (type of subway or Shinkansen, etc., and degree of congestion), automobile, ship, airplane, and the like.
  • the information processing method according to the present embodiment it is possible to accurately receive only the voice input intended by the user and perform various actions at the time of reception by considering the various elements as described above. It becomes.
  • the information processing method according to the present embodiment it is possible to accurately reject voice input that is not intended by the user and to correctly execute the action at the time of rejection.
  • the action according to the present embodiment is not necessarily accompanied by expression, and includes various processes in the apparatus. Further, the information processing apparatus according to the present embodiment may not perform any action as a result of the response determination.
  • the present invention can be widely applied to an apparatus that performs some processing based on an input by a user.
  • the technical idea according to the present disclosure can be applied to, for example, an apparatus that performs processing based on a gesture input.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing system according to the present embodiment.
  • the information processing system according to the present embodiment includes an information processing terminal 10 and an information processing server 20.
  • the information processing terminal 10 and the information processing server 20 are connected via the network 30 so that they can communicate with each other.
  • the information processing terminal 10 is an information processing apparatus that performs a voice conversation with a user based on control by the information processing server 20.
  • the information processing terminal 10 according to the present embodiment is realized by, for example, a smartphone, a tablet, a wearable device, a general-purpose computer, a stationary type or an autonomous mobile type dedicated device.
  • the information processing server 20 is an information processing apparatus that determines whether or not to execute a response process for an input voice based on the various elements described above.
  • the network 30 has a function of connecting the information processing terminal 10 and the information processing server 20.
  • the network 30 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like. Further, the network 30 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network). Further, the network 30 may include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • the configuration example of the information processing system according to the present embodiment has been described above. Note that the above-described configuration described with reference to FIG. 1 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to the example.
  • the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by a single device.
  • the configuration of the information processing system according to the present embodiment can be flexibly modified according to specifications and operations.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the information processing terminal 10 according to the present embodiment.
  • the information processing terminal 10 according to the present embodiment includes a display unit 110, an audio output unit 120, an audio input unit 130, an imaging unit 140, a sensor unit 150, a control unit 160, and a server communication unit 170. .
  • the display unit 110 has a function of outputting visual information such as images and text.
  • the display unit 110 according to the present embodiment displays visual information as a response to the input voice based on, for example, control by the information processing server 20.
  • the display unit 110 includes a display device that presents visual information.
  • the display device include a liquid crystal display (LCD) device, an organic light emitting diode (OLED) device, and a touch panel.
  • the display unit 110 according to the present embodiment may output visual information using a projection function.
  • the audio output unit 120 has a function of outputting various sounds including audio.
  • the voice output unit 120 according to the present embodiment outputs, for example, an answer to the input voice by voice based on control by the information processing server 20.
  • the audio output unit 120 according to the present embodiment includes an audio output device such as a speaker or an amplifier.
  • the voice input unit 130 has a function of collecting sound information such as user utterances and ambient sounds generated around the information processing terminal 10.
  • the voice input unit 130 according to the present embodiment includes a microphone for collecting sound information.
  • the imaging unit 140 has a function of capturing an image of the user and the surrounding environment.
  • the image information captured by the imaging unit 140 may be used for user action recognition, state recognition, environment recognition, and the like by the information processing server 20.
  • the imaging unit 140 according to the present embodiment includes an imaging device that can capture an image.
  • the above image includes a moving image in addition to a still image.
  • the sensor unit 150 has a function of collecting various sensor information related to the surrounding environment and the user.
  • the sensor information collected by the sensor unit 150 can be used, for example, for user action recognition, state recognition, environment recognition, and the like by the information processing server 20.
  • the sensor unit 150 includes, for example, an infrared sensor, an ultraviolet sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, an illuminance sensor, a proximity sensor, a fingerprint sensor, a clothing shape sensor, a GNSS (Global Navigation Satellite System) signal receiver, A wireless signal receiver is provided.
  • GNSS Global Navigation Satellite System
  • the control unit 160 has a function of controlling each component included in the information processing terminal 10. For example, the control unit 160 controls starting and stopping of each component. Further, the control unit 160 inputs a control signal generated by the information processing server 20 to the display unit 110 and the audio output unit 120. Further, the control unit 160 according to the present embodiment may have a function equivalent to that of the intelligent processing unit 230 of the information processing server 20 described later. Similarly, the control unit 160 may have functions equivalent to the voice recognition unit 210, the context recognition unit 220, and the output control unit 240 of the information processing server 20.
  • the server communication unit 170 has a function of performing information communication with the information processing server 20 via the network 30. Specifically, the server communication unit 170 transmits sound information collected by the voice input unit 130, image information captured by the imaging unit 140, and sensor information collected by the sensor unit 150 to the information processing server 20. Further, the server communication unit 170 receives a control signal related to response processing from the information processing server 20.
  • the functional configuration example of the information processing terminal 10 according to the present embodiment has been described above. Note that the above-described configuration described with reference to FIG. 2 is merely an example, and the functional configuration of the information processing terminal 10 according to the present embodiment is not limited to the example.
  • the information processing terminal 10 according to the present embodiment does not necessarily include all the configurations illustrated in FIG.
  • the control unit 160 according to the present embodiment has the same functions as the voice recognition unit 210, the context recognition unit 220, the intelligent processing unit 230, and the output control unit 240 of the information processing server 20. Also good.
  • the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly modified according to specifications and operations.
  • FIG. 3 is a block diagram illustrating a functional configuration example of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a voice recognition unit 210, a context recognition unit 220, an intelligent processing unit 230, an output control unit 240, and a terminal communication unit 250.
  • the voice recognition unit 210 executes a voice recognition process based on the voice collected by the information processing terminal 10.
  • the speech recognition unit 210 may have a function of interpreting meaning based on the text in addition to the function of converting speech into text.
  • the context recognition unit 220 has a function of recognizing various contexts as described above based on sound information, image information, and sensor information collected by the information processing terminal 10.
  • the context recognition unit 220 may recognize contexts such as the user's behavior and position, the orientation of the information processing terminal 10, and the degree of congestion in the surroundings (how many people are around).
  • a method for calculating the above-described congestion degree for example, calculation based on the number of human bodies captured in an image, calculation based on a human-derived component included in sound, or based on a channel congestion degree related to wireless communication Calculation and the like.
  • the intelligent processing unit 230 determines whether to execute a response process for the input sound based on the content of the input sound, the style of the input sound, the content of the output information, the style of the output information, and the context. It has a function to judge.
  • the response processing according to the present embodiment refers to providing a function intended by the user based on voice intentionally input by the user. That is, the response processing according to the present embodiment is various actions that are executed when the intelligent processing unit 230 determines to accept the input voice.
  • the intelligent processing unit 230 may reject the input voice and control the execution of the action at the time of rejection. The action is not included in the response process. Details of the functions of the intelligent processing unit 230 according to this embodiment will be described later.
  • the output control unit 240 has a function of controlling output of response information by the information processing terminal 10 based on the response process determined by the intelligent processing unit 230.
  • Terminal communication unit 250 The terminal communication unit 250 according to the present embodiment performs information communication with the information processing terminal 10 via the network 30. For example, the terminal communication unit 250 receives sound information, image information, sensor information, and the like from the information processing terminal 10. Further, the terminal communication unit 250 transmits a control signal related to output control of the response information generated by the output control unit 240 to the information processing terminal 10.
  • the function configuration example of the information processing server 20 according to the present embodiment has been described above. Note that the above-described configuration described with reference to FIG. 3 is merely an example, and the functional configuration of the information processing server 20 according to the present embodiment is not limited to the example. For example, the configuration described above may be realized by being distributed by a plurality of devices. Further, as described above, the functions of the information processing terminal 10 and the information processing server 20 may be realized by a single device. The functional configuration of the information processing server 20 according to the present embodiment can be flexibly modified according to specifications and operations.
  • Examples of a general voice input method to a device having a voice dialogue function include a method using PTT, a method using a start word, and a method using both a start word and beam forming.
  • the method using PTT is complicated because it requires the user to press the button before performing voice input, and at the same time, it is premised that there is a device in which the button is arranged at the user's hand.
  • the speech recognition process by the device is started when the user speaks the activation word that is set in advance.
  • the apparatus accepts a voice input following the activation word.
  • the activation word is uttered before the user performs voice input.
  • the activation word needs to use a word that is not accidentally used in daily conversation in order to avoid an erroneous input, so that it may be difficult for some users to speak.
  • the apparatus sets beamforming in the direction in which the user utters the activation word, and receives sound from that direction for a certain period of time.
  • the information processing method it is possible to accurately determine whether or not a response is made without pressing a button or speaking an activation word, and the load on the user can be reduced. .
  • the information processing method according to the present embodiment can also be used in combination with, for example, the activation word and the beam forming described above.
  • the determination accuracy related to the response right or wrong is greatly improved. Is possible.
  • the information processing method according to the present embodiment is not used in combination with an activation word or beamforming will be described.
  • the intelligent processing unit 230 executes a response process for the input sound based on the content of the input sound, the style of the input sound, the content of the output information, the style of the output information, and the context. It has a function to determine whether or not to do.
  • the intelligent processing unit 230 detects only the input voice intended by the user with high accuracy by using the above elements alone or in combination, and performs response processing in accordance with the user's intention. Is possible.
  • the intelligent processing unit 230 may determine the response right or wrong by using the style of the input voice alone. Specifically, the intelligent processing unit 230 according to the present embodiment determines whether or not the input sound is input with the intention of response processing based on the style of the input sound, and determines the result of the determination. Based on this, it is possible to determine whether or not to execute response processing.
  • the intelligent processing unit 230 identifies the voice action that causes the input voice to be input based on the style of the input voice, and responds based on the voice action. It may be determined whether or not to execute the process.
  • the voice action according to the present embodiment may be various actions accompanied by utterance performed by a person.
  • the voice behavior includes, for example, normal speech, singing, reading aloud, emotional expression, non-linguistic speech (voice percussion, etc.).
  • the above normal utterances include orders, requests (requests), questions (questions), greetings, calls, companions, fillers, and standard utterances not applicable to the above.
  • the above songs include songs of various genres such as pops, pop songs, folk songs, folk songs, rhythm and blues, rock, metal, rap, opera and so on.
  • reading aloud may include reading a story, practicing pronunciation of a word, rumors, acting practice, and the like.
  • the above emotional expressions include laughter, cry, shout, cry, cheer, scream, etc.
  • the intelligent processing unit 230 does not need to reject the input voice and execute the response process when the specified voice action is not recognized as intended for the response process.
  • the intelligent processing unit 230 can determine that the user's voice is not intended for response processing, and can reject the voice. The same applies to the case where the voice action is aloud reading, emotional expression, or other non-language speech.
  • the intelligent processing unit 230 According to the above-described function of the intelligent processing unit 230 according to the present embodiment, even if the voice is uttered by the user, if it is estimated that no response processing is expected, the voice is rejected. Thus, it is possible to prevent a response process that is not assumed by the user from being erroneously executed.
  • the intelligent processing unit 230 estimates what the specific sound source is by using a speech action estimation history based on input speech input from a specific sound source, and returns the result of the estimation as a response. It is also possible to use it for judgment. For example, when only the voice action “singing” is estimated from the input sound input from a certain specific sound source, the intelligent processing unit 230 estimates that the specific sound source is an audio player, and thereafter It is possible to reject the input sound from the sound source.
  • the intelligent processing unit 230 actually detects the specific sound source around the information processing terminal 10 instead of the television device. It can be estimated that there is a high possibility that the person is present (possibility that the input voice is not an announcer's utterance), and can be used for subsequent response determination.
  • the intelligent processing unit 230 may specify various speech actions by, for example, decomposing an input waveform related to the input speech into frames and extracting feature quantities for each frame.
  • the feature amount include power, fundamental frequency (F0), number of zero crossings, mel frequency cepstrum coefficient (MFCC), and spectrum shape.
  • the determination of whether or not to respond based on the voice action according to the present embodiment has been described above. Next, the determination as to whether or not the response is appropriate based on phonological features according to the present embodiment will be described. The case has been described above where the intelligent processing unit 230 according to the present embodiment determines whether or not a response is appropriate based on the voice action specified from the input voice style.
  • the phonological characteristics change depending on the situation where the utterance is performed. For example, even when the voice action is “normal utterance”, when speaking directly to a partner (including the information processing terminal 10) or speaking to a call partner such as a telephone Then, changes occur in phonological characteristics. In addition, even when speaking to a partner who is present, the phonological characteristics can change depending on whether the partner is a single person or a plurality of persons (for example, a presentation).
  • the intelligent processing unit 230 determines whether or not the style of the input voice is similar to the style of the voice that is significantly detected in the predetermined environment, and based on the result of the determination, You may determine whether to perform a response process.
  • the intelligent processing unit 230 when the phonological feature extracted from the style of the input speech is similar to the phonological feature of the speech that is significantly detected in a predetermined environment, The response process may not be executed.
  • the audio style that is detected significantly in the above-mentioned predetermined environment refers to a prominently distinctive audio style that is not seen elsewhere in a predetermined scene or occupation.
  • the voice style corresponds to, for example, a characteristic voice style different from that of an ordinary person speaking by an announcer or the like.
  • the intelligent processing unit 230 uses the input speech as the utterance of the user.
  • the above-mentioned predetermined scenes and occupations include, for example, announcements in stations or trains, bus guides, characters in dramas and animations, election speeches, theater plays, rakugo, and dance performances. ⁇ , synthetic voice, robot, etc.
  • the intelligent processing unit 230 may determine whether the response is appropriate based on, for example, an emotion estimated from the voice style of the input voice.
  • the intelligent processing unit 230 determines that the input sound does not expect response processing when the degree of emotion estimated from the style of the input sound exceeds a threshold value. It is also possible.
  • the above emotions include, for example, joy, anger, sadness, enjoyment, anxiety, and excitement.
  • the intelligent processing unit 230 can perform various analyzes only from the speech style of the input speech, and can accurately determine the response based on the result of the analysis. is there. Moreover, the intelligent processing unit 230 can further improve the accuracy of determination by combining a plurality of analysis results as described above.
  • the intelligent processing unit 230 uses not only the style of the input voice but also the content of the input voice, the content of the output information, the style of the output information, and various contexts in combination. It is also possible to realize high-order response determination.
  • the output information includes output sound, output visual information, action, and the like. In the following, a case where the intelligent processing unit 230 determines a response based on the content of the output sound and the style of the output sound will be described as a main example.
  • FIG. 4 is a diagram illustrating an example of a response determination based on the content of the input voice according to the present embodiment.
  • FIG. 4 shows an example in which the user U inputs a voice to another agent device 50 different from the information processing terminal 10.
  • the content of the input voice includes an activation word for the other agent device 50 called “Hello Agent”.
  • the intelligent processing unit 230 may reject the input voice and not execute the response process.
  • the intelligent processing unit 230 According to the above-described function of the intelligent processing unit 230 according to the present embodiment, it is possible to prevent an input voice such as a request or an instruction from another agent device from being erroneously received and performing a response process that is not assumed by the user. Is possible.
  • FIG. 5 is a diagram showing an example of a response determination based on the voice action estimated from the input voice style according to the present embodiment.
  • FIG. 5 shows an example where the user U is singing in the vicinity of the information processing terminal 10.
  • the intelligent processing unit 230 according to the present embodiment can specify the voice action “singing” from the style of the input voice, as shown on the right side in the drawing.
  • the intelligent processing unit 230 may not reject the input voice and execute the response process.
  • the intelligent processing unit 230 may cause the information processing terminal 10 to output feedback related to the rejection of the input speech. At this time, the intelligent processing unit 230 can explicitly or implicitly indicate to the user what causes the rejection of the input speech.
  • the intelligent processing unit 230 causes the information processing terminal 10 to output a voice utterance SO1 “It is a good song. I want to sing”. According to the feedback, the user U can naturally learn that a command cannot be input while singing.
  • FIG. 5 shows an example of feedback when the input speech is rejected based on the voice behavior specified by the intelligent processing unit 230.
  • the intelligent processing unit 230 is detected significantly in the predetermined environment described above.
  • the input voice may be rejected based on the voice style or the estimated emotion or the like, and feedback regarding the rejection may be output to the information processing terminal 10.
  • the intelligent processing unit 230 may determine the content of feedback based on the voice action, the predetermined environment, the emotion type, and the like.
  • the intelligent processing unit 230 is based not only on the case where the input speech is rejected based on the speech input style, but also on the content of the speech input, the content of the output information, the style of the output information, the context, or a combination thereof. Similarly, when the rejection is made, the information processing terminal 10 can output the feedback as described above.
  • FIG. 6 is a diagram showing an example of a response determination based on the similarity to a voice style that is significantly detected in a predetermined environment according to the present embodiment.
  • FIG. 6 shows an example in which the television device 40 existing in the vicinity of the information processing terminal 10 is playing a news program.
  • the intelligent processing unit 230 according to the present embodiment can detect that the style of the input voice is similar to the voice style characteristic of the announcer, as shown on the right side of the drawing.
  • the intelligent processing unit 230 may estimate that the input voice is not that of the user and reject the input voice because the tongue of the input voice is a professional announcer level. According to the function of the intelligent processing unit 230 according to the present embodiment, it is possible to effectively reduce the possibility of erroneously performing a response process on the sound output from the television device or another agent device. is there.
  • the intelligent processing unit 230 may accept the input voice.
  • FIG. 7 shows an example in which the user U with a smooth tongue speaks toward the information processing terminal 10 in expectation of response processing.
  • the intelligent processing unit 230 detects that the style of the input voice is similar to the voice style characteristic of the announcer, as shown on the right side of the drawing.
  • the intelligent processing unit 230 can receive the input voice based on the context and execute a response process.
  • the context recognition unit 220 can recognize that the user is speaking by detecting, for example, the movement of the user's mouth from the captured image.
  • the intelligent processing unit 230 can improve the determination accuracy related to the response by using the context in addition to the voice input style.
  • the intelligent processing unit 230 recognizes the situation as a context and rejects the input voice even when, for example, “a voice is input from an angle close to the vertical direction when the user is not in the vicinity”. Can do.
  • the intelligent processing unit 230 determines the response by using the input speech style alone or in combination with the context.
  • the intelligent processing unit 230 can determine the response by learning the tone of the user who spoke the activation word and comparing the tone with the tone of the input voice.
  • the intelligent processing unit 230 can perform determination such as rejecting the input sound.
  • FIG. 8 is a diagram showing an example of a response determination based on the input voice style and the output information style according to the present embodiment.
  • FIG. 8 shows an example where the user U is singing in a situation where the information processing terminal 10 is outputting music. At this time, the melody line of the input voice and the melody line of the output voice are similar as shown on the right side in the figure.
  • the intelligent processing unit 230 does not have to reject the input voice and execute the response process.
  • FIG. 9 is a diagram showing an example of a response determination based on input contents and output contents according to the present embodiment.
  • FIG. 9 shows an example where the user U is singing in a situation where the information processing terminal 10 is outputting music. At this time, it is assumed that the contents of the input voice and the contents of the output voice, that is, the lyrics substantially coincide.
  • the intelligent processing unit 230 does not need to reject the input voice and execute the response process.
  • the intelligent processing unit 230 is not limited to voice, and can perform control such as rejecting the input gesture when the contents of the input gesture and the output gesture are similar, for example.
  • FIG. 10 is a diagram illustrating an example of response determination based on the input audio style, the input audio content, the output audio style, and the output audio content.
  • FIG. 10 shows an example in which the user U repeats the English sentence in a situation where the information processing terminal 10 outputs the English sentence. At this time, it is assumed that the contents of the input voice and the contents of the output voice are almost the same as in the example shown in FIG.
  • the intelligent processing unit 230 when it is estimated that the input sound repeats the output sound based on the input sound style, the input sound content, the output sound style, and the output sound content, the intelligent processing unit 230. Rejects the input voice and does not execute the response process.
  • the intelligent processing unit 230 According to the above function of the intelligent processing unit 230 according to the present embodiment, it is possible to effectively accept the user's utterance of language learning or the like as an object of acceptance and perform a response operation that the user does not expect. It is possible to reduce.
  • FIG. 11 is a diagram showing another example of response right / fail judgment based on the style of the input voice and the content of the input voice.
  • FIG. 11 shows an example in which the user U makes an utterance asking the weather in Tokyo to the information processing terminal 10.
  • the intelligent processing unit 230 acquires the pitch of the sound as the style of the input speech.
  • the style of the input voice is a question form with a ending and the content of the input voice is a ending form. Is expected.
  • the intelligent processing unit 230 accepts the input speech when the style of the input speech is questionable and the ending of the content of the input speech is a termination, and performs response processing. May be executed.
  • the intelligent processing unit 230 causes the information processing terminal 10 to output the voice utterance SO2 notifying that Tokyo is clear.
  • the intelligent processing unit 230 may reject the input speech when the style of the input speech is an affirmative form in which the ending is lowered.
  • the intelligent processing unit 230 it is possible to determine whether or not the input voice is intended for an inquiry based on the content of the input voice and the style of the input voice. It is.
  • the input speech style and the determination of response based on the content of the input speech have been described.
  • Another example in which the intelligent processing unit 230 determines whether or not to respond based on the input voice style and the content of the input voice is, for example, the case where the voice action “singing” is specified from the voice input style.
  • the input speech is accepted in consideration of the possibility that the user is performing speech input to the information processing terminal 10 while singing. Cases.
  • FIG. 12 is a diagram illustrating an example of a response determination based on the context according to the present embodiment.
  • FIG. 12 shows an example where the user U speaks with his back to the information processing terminal 10.
  • the intelligent processing unit 230 has a conversation with the other person.
  • the input speech may be rejected assuming that the user is going, talking on the phone, or speaking alone.
  • the intelligent processing unit 230 According to the above-described function of the intelligent processing unit 230 according to the present embodiment, it is possible to effectively reduce the possibility that a user's utterance that does not expect a response process is erroneously received and the user's conversation is disturbed. Is possible.
  • the response right / left determination using the context according to this embodiment alone has been described.
  • the intelligent processing unit 230 determines whether or not to respond from a context alone, when the user is facing another agent, when the user has a predetermined attribute such as an unregistered user, the user When the user is at a predetermined location, the user may be performing a predetermined action.
  • FIG. 13 to FIG. 18 are diagrams showing an example of the right or wrong response determination based on the context and the content of the input voice according to the present embodiment.
  • FIG. 13 shows an example in the case where the input voice having the content “maximum volume” is recognized while the user U is wearing the earphone.
  • FIG. 13 shows an example in which the information processing terminal 10 is a smartphone.
  • the intelligent processing unit 230 may reject the input sound related to the volume adjustment based on the fact that the information processing terminal 10 is in the earphone output mode as a context. This is to eliminate the possibility of damaging the user U's ear by, for example, rapidly increasing the volume while wearing the earphone.
  • information on various output modes related to earphone output and the like may be detected as one of the styles of output sound in addition to being recognized as context.
  • FIG. 14 shows an example of the case where the input voice with the content “Raise volume” is recognized in the state where the information processing terminal 10 is in the mute mode.
  • the intelligent processing unit 230 may reject the input sound related to the volume adjustment based on the fact that the information processing terminal 10 is in the mute mode is detected as the context or the style of the output sound. This is to eliminate the possibility that the mute mode is erroneously canceled when the input sound related to the volume adjustment is not due to the user's utterance.
  • FIG. 15 shows an example in which an input voice with the content “mail arrived” is recognized in a state in which the state where the user U is on the train is detected as a context. Further, in the example illustrated in FIG. 15, it is detected as the context or the output audio style that the information processing terminal 10 is in the speaker output mode.
  • the intelligent processing unit 230 does not need to reject the input voice and execute the response process in order to avoid outputting the content of the mail that may include personal information in the train to the speaker.
  • the intelligent processing unit 230 according to the present embodiment can reject a command (input speech) that cannot be accepted according to the operation mode.
  • the intelligent processing unit 230 may notify the user of the reason for rejecting the command.
  • the input voice of “Call Tanaka” is input in the state where the user U is on the train and in the state where it is detected as a context that the inside of the train is more than the threshold. An example in the case of being recognized is shown.
  • the intelligent processing unit 230 may reject the input voice in consideration of not disturbing the passengers around. Further, for example, as shown in the figure, the intelligent processing unit 230 may notify the user U that the telephone function cannot be used because the inside of the train is congested, by voice utterance SO3 or the like. As described above, the intelligent processing unit 230 controls the feedback related to the reason for rejecting the command, so that the user can naturally learn that the specific command cannot be used in the specific operation mode. Note that when the degree of congestion in the train is extremely high, the intelligent processing unit 230 may display that the telephone function cannot be used by visual information.
  • FIG. 17 also shows the contents of “Call Tanaka-san” in a state where the user U is on a train and in a state where it is detected as a context that the degree of congestion in the train is less than a threshold. An example in the case where the input voice is recognized is shown.
  • the intelligent processing unit 230 may accept the input voice and execute the response process because the train is empty and is unlikely to disturb the surrounding passengers.
  • the intelligent processing unit 230 causes the information processing terminal 10 to output a voice utterance SO4 for calling Mr. Tanaka, and then performs processing related to call control.
  • FIG. 18 shows an example of the case where the input voice including the activation word of the other agent device 50 is recognized in a state where it is detected as a context that the beam forming is applied to the user U. It is shown.
  • the intelligent processing unit 230 rejects the input speech and does not execute the response process even when the user U is in a beam forming state. It's okay.
  • the intelligent processing unit 230 according to the function of the intelligent processing unit 230 according to the present embodiment, the possibility of executing a response process unintended by the user is eliminated even when the user uses a plurality of agent devices. Is possible.
  • the intelligent processing unit 230 is not limited to the case where beam forming is applied to the user, and the same processing as described above may be performed when the beam forming is applied in a certain direction based on the information processing terminal 10. A determination can be made.
  • the determination of whether or not to respond based on the content and context of the input voice has been described.
  • the intelligent processing unit 230 determines whether or not to respond based on the content of the input voice and the context, for example, in the state where it is recognized that the user is a child as a context, the settlement is performed.
  • the input voice of the instructed content is recognized, there is a case where the input voice is rejected in consideration of the possibility that responsibility ability and judgment ability are insufficient.
  • the intelligent processing unit 230 performs accuracy based on any one or combination of the contents of the input sound, the style of the input sound, the contents of the output sound, the style of the output sound, and the context. It is possible to realize a high response determination.
  • FIG. 19 is a flowchart showing a flow of operations of the information processing server 20 according to the present embodiment.
  • the terminal communication unit 250 receives an audio signal collected by the information processing terminal 10 (S1101).
  • the intelligent processing unit 230 determines whether or not the input speech is detected by the speech recognition unit 210 (S1102).
  • the information processing server 20 returns to Step S1101.
  • the intelligent processing unit 230 extracts the feature amount of the detected input speech (S1103). Further, the intelligent processing unit 230 may extract the feature amount of the output sound.
  • the intelligent processing unit 230 determines whether or not to accept the input voice based on the feature amount extracted in step S1103 (S1104).
  • the intelligent processing unit 230 executes an action at the time of reception based on the input voice (S1105).
  • the intelligent processing unit 230 executes an action at the time of rejection based on the input voice (S1106).
  • FIG. 20 is a block diagram illustrating a hardware configuration example of the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing server 20 includes, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device 879.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Moreover, you may further include components other than the component shown here.
  • the processor 871 functions as, for example, an arithmetic processing unit or a control unit, and controls all or part of the operation of each component based on various programs recorded in the ROM 872, RAM 873, storage 880, or removable recording medium 901. .
  • the ROM 872 is a means for storing a program read by the processor 871, data used for calculation, and the like.
  • a program to be read by the processor 871 various parameters that change as appropriate when the program is executed, and the like are temporarily or permanently stored.
  • the processor 871, the ROM 872, and the RAM 873 are connected to each other via, for example, a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to an external bus 876 having a relatively low data transmission speed via a bridge 875, for example.
  • the external bus 876 is connected to various components via an interface 877.
  • the input device 878 for example, a mouse, a keyboard, a touch panel, a button, a switch, or a lever is used. Furthermore, as the input device 878, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • the input device 878 includes a voice input device such as a microphone.
  • the output device 879 is a display device such as a CRT (Cathode Ray Tube), LCD, or organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile. It is a device that can be notified visually or audibly.
  • the output device 879 according to the present disclosure includes various vibration devices that can output a tactile stimulus.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, or various semiconductor storage media.
  • the removable recording medium 901 may be, for example, an IC card on which a non-contact IC chip is mounted, an electronic device, or the like.
  • connection port 882 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the communication device 883 is a communication device for connecting to a network.
  • the information processing server 20 determines whether or not to execute the response process for the input sound based on at least one of the input sound style and the output sound style.
  • An intelligent processing unit 230 is provided. According to such a configuration, it is possible to accurately determine the response to the input voice.
  • each step related to the processing of the information processing server 20 in this specification does not necessarily have to be processed in time series in the order described in the flowchart.
  • each step related to the processing of the information processing server 20 may be processed in an order different from the order described in the flowchart, or may be processed in parallel.
  • An intelligent processing unit that determines whether or not to execute a response process to the input sound based on at least one of an input sound style and an output sound style; Comprising Information processing device.
  • the intelligent processing unit determines whether the input voice is input with the intention of the response process based on the style of the input voice, and performs the response process based on a result of the determination. Determine whether to execute, The information processing apparatus according to (1).
  • the intelligent processing unit identifies a voice action that causes the input voice to be input based on the style of the input voice, and determines whether to execute the response process based on the voice action To The information processing apparatus according to (1) or (2).
  • the intelligent processing unit rejects the input voice and does not execute the response process if the voice action is not recognized as intended for the response process, The information processing apparatus according to (3).
  • the voice action that is not recognized as intended for the response process includes at least one of singing, reading aloud, and emotional expression, The information processing apparatus according to (4).
  • the intelligent processing unit rejects the input speech when the feature extracted from the style of the input speech is similar to the feature of the speech detected significantly in the predetermined environment, and does not execute the response process;
  • the intelligent processing unit detects the presence of a user whose features extracted from the style of the input speech are similar to the features of the speech detected significantly in the predetermined environment and estimated to have uttered the input speech. If received, the input voice is received and the response process is executed.
  • the information processing apparatus according to (7). (9) The intelligent processing unit rejects the input speech when the input speech style and the output speech style are similar, and does not execute the response process.
  • the output audio style includes an output mode setting.
  • the information processing apparatus determines whether or not to execute the response process based on the content of the input voice; The information processing apparatus according to any one of (1) to (10). (12) The intelligent processing unit, when the style of the input voice is an interrogative form and the ending of the content of the input voice is an end form, accepts the input voice and executes the response process. The information processing apparatus according to (11). (13) The intelligent processing unit rejects the input voice and does not execute the response process when an activation word for executing the function of another terminal is included in the content of the input voice. The information processing apparatus according to (11) or (12). (14) The intelligent processing unit determines whether or not to execute the response process based on the content of the output voice.
  • the information processing apparatus according to any one of (1) to (12).
  • the intelligent processing unit rejects the input voice and does not execute the response process.
  • the information processing apparatus 13).
  • the intelligent processing unit rejects the input speech when the input speech is estimated to repeat the output speech, and does not execute the response process.
  • the information processing apparatus (13) or (14).
  • the intelligent processing unit determines whether or not to execute the response process based on the detected context.
  • the information processing apparatus according to any one of (1) to (15).
  • the intelligent processing unit when rejecting the input speech, outputs feedback related to the rejection of the input speech, The information processing apparatus according to any one of (1) to (17).
  • the input voice style includes at least one of a voice volume, a voice pitch, a voice color, and a rhythm.
  • the information processing apparatus according to any one of (1) to (18). (20) Determining whether or not to execute a response process to the input sound based on at least one of an input sound style and an output sound style; including, Information processing method.

Abstract

【課題】入力音声に対する応答是非を精度高く判定する。 【解決手段】入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、を備える、情報処理装置が提供される。また、プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、を含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関する。
 近年、ユーザの発話音声を検出し、当該発話音声に対する応答処理を実行する装置が普及している。また、上記のような装置において、ユーザが応答処理の享受を意図する発話音声のみを精度高く検出するための手法が提案されている。例えば、特許文献1には、ユーザとの距離に基づいて、入力音声に対する応答処理を実行するか否かを判定する技術が開示されている。
特開2017-144521号公報
 しかし、応答処理の実行是非に関し、考慮すべき要因はユーザとの距離のみに留まらない。このため、特許文献1に記載の技術では、入力音声に対する応答是非を正しく判定できない状況も想定される。
 そこで、本開示では、入力音声に対する応答是非を精度高く判定することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
 本開示によれば、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、を備える、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、を含む、情報処理方法が提供される。
 以上説明したように本開示によれば、入力音声に対する応答是非を精度高く判定することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係る入力音声の内容に基づく応答是非判定の一例を示す図である。 同実施形態に係る入力音声のスタイルから推定される音声行動に基づく応答是非判定の一例を示す図である。 同実施形態に係る所定環境において有意に検出される音声スタイルとの類似性に基づく応答是非判定の一例を示す図である。 同実施形態に係る所定環境において有意に検出される音声スタイルとの類似性に基づく応答是非判定の一例を示す図である。 同実施形態に係る入力音声のスタイルと出力情報のスタイルとに基づく応答是非判定の一例を示す図である。 同実施形態に係る入力内容および出力内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係る入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づく応答是非判定の一例を示す図である。 同実施形態に係る入力音声のスタイルおよび入力音声の内容に基づく応答是非判定の別の一例を示す図である。 同実施形態に係るコンテキストに基づく応答是非判定の一例を示す図である。 同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。 同実施形態に係る情報処理サーバ20の動作の流れを示すフローチャートである。 本開示の一実施形態に係る情報処理サーバのハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.システム構成例
  1.3.情報処理端末10の機能構成例
  1.4.情報処理サーバ20の機能構成例
  1.5.応答是非の判定
  1.6.応答是非判定の具体例
  1.7.動作の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.概要>>
 まず、本開示の一実施形態の概要について説明する。上述したように、近年では、ユーザの発話音声を検出し、当該発話音声に対応する応答処理を実行する種々の装置が普及している。上記のような装置には、例えば、音声エージェント装置が挙げられる。
 ここで、音声エージェント装置とは、ユーザとの音声対話により種々の機能を提供する装置の総称である。音声エージェント装置は、例えば、ユーザの発話による問い合わせに対し、人工音声を用いて回答を行ったり、ユーザの発話による指示に基づいて種々の機能を実行することができる。
 一方、音声エージェント装置では、ユーザが意図する発話音声のみを正しく受理し、ユーザが意図しない音声については、正しく棄却することが重要となる。
 上記のユーザが意図しない音声には、例えば、テレビジョン装置、ラジオ、オーディオプレイヤー、他のエージェント装置など、機器が出力する種々の音声が含まれる。また、ユーザが意図しない音声には、ユーザの発話音声であるものの、例えば、他者との発話や独り言など、エージェント装置への入力を意図しない発話音声が含まれる。
 ユーザが意図する音声を精度高く検出するための手法としては、例えば、上述した特許文献1に記載の技術が挙げられる。しかし、ユーザとの距離に基づいて、応答是非を判定する特許文献1の技術では、上述したユーザが意図しない音声を正しく棄却できない状況も多々想定される。上記の状況には、例えば、ユーザがエージェント装置の近くにおいて他者と会話を行う状況や、ユーザがエージェント装置の近くに居る場合において、他の装置が出力する音声が入力された状況などが挙げられる。
 このため、種々の状況に汎用的に適用可能であり、かつ入力音声に対する応答処理の是非を精度高く判定する手法が望まれていた。
 本開示に係る技術思想は上記の点に着目して発想されたものであり、入力音声に対する応答是非を精度高く判定することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置は、入力音声の内容、入力音声のスタイル、出力情報の内容、出力情報のスタイル、また種々のコンテキストなどに基づいて、入力音声の棄却または受理を幅広く判定することを特徴の一つとする。
 ここで、上記の入力音声の内容には、認識されたコマンドの種類(ドメインゴール)、認識された文字列、解釈された発話意図などが含まれる。
 また、上記の入力音声のスタイルには、韻律情報などを広く含む。具体的には、入力音声のスタイルには、音声の大きさ(振幅、パワー)、音声の高さ(基本周波数)、声色(周波数スペクトル)、リズム(口調)、長短、入力タイミングなどが含まれる。また入力音声のスタイルには、音声の入力方向(水平方向の角度、垂直方向の角度)、音源との距離などの情報が含まれてよい。
 また、上記の出力情報の内容には、種々の音情報、視覚情報、また動作が含まれる。ここで、上記の音情報には、例えば、出力音声の内容、楽曲やBGM、効果音の種別などが挙げられる。また、上記の視覚情報には、画像やテキスト、LEDなどを用いた発光表現などが挙げられる。また、上記の動作は、例えば、ジェスチャなどを含んでよい。
 また、上記の出力情報のスタイルには、例えば、視覚情報の場合には、出力タイミング、表示の大きさや明暗などが含まれる。また、音情報の場合には、上述した入力音声のスタイルと同様の要素や出力タイミング、または後述する出力モードなどが含まれてよい。また、動作の場合には、動作のタイミングや大きさ、速さなどが含まれる。
 また、上記のコンテキストは、装置、周囲に存在する人、環境などに係る種々の状態を含む。装置に係るコンテキストには、例えば、PTT(Push To Talk)ボタンが押下されているか否か、起動ワード(WUW:Wake Up Word)が認識されてから一定の時間内であるか否か、などの状態が含まれる。
 また、装置に係るコンテキストには、情報の入出力に係る各種の設定が含まれてよい。上記設定には、例えば、出力モーダル(画面表示や音出力)、音声出力設定や音声入力設定が挙げられる。なお、音声出力設定には、スピーカ、イヤホン、BlueTooth(登録商標)接続などの外部機器接続設定、音量、ミュート設定が、音声入力設定は、マイクロフォンなどの外部機器接続設定やミュート設定などが含まれてよい。
 また、装置に係るコンテキストには、上記の要素の他に、型番や製造年月日などのスペック情報が含まれる。
 また、人に係るコンテキストとしては、例えば、室内に人が何人いるかなどの検出情報や、表情、視線、行動などの認識情報が広く含まれる。なお、認識される行動の一例としては、立っている、座っている、眠っている、歩いている、走っている、踊っている、電話をしている、他者と会話している、などの行動が挙げられる。
 また、人に係るコンテキストは、検出した人物の年齢や性別などの属性情報や登録ユーザであるか否かの分類に係る情報が含まれてよい。
 また、環境に係るコンテキストとしては、装置の現在地に係る座標や現在地のカテゴリなどが用いられてよい。現在地のカテゴリには、例えば、自宅、屋外、電車(地下鉄や新幹線などの種別、また混雑度)、自動車、船舶、飛行機などが挙げられる。
 以上、本実施形態に係る応答是非の判定に用いられる得る要素について例を述べた。本実施形態に係る情報処理方法によれば、上記のような種々の要素を考慮することで、ユーザが意図する音声入力のみを精度高く受理し、受理時における種々のアクションを実行することが可能となる。また、本実施形態に係る情報処理方法によれば、ユーザが意図しない音声入力を精度高く棄却し、棄却時におけるアクションを正しく実行することが可能となる。なお、本実施形態に係るアクションは、必ずしも表出を伴うものではなく、装置内部における種々の処理が含まれる。また、本実施形態に係る情報処理装置は、応答是非判定の結果、なんらアクションを実行しない場合もある。
 なお、以下の説明においては、本開示に係る技術思想が、入力音声に対する応答是非の判定に適用される場合を主な例として説明するが、本開示に係る技術思想は、係る例に限定されず、ユーザによる入力に基づいて、なんらかの処理を実行する装置に広く適用され得る。本開示に係る技術思想は、例えば、ジェスチャ入力に基づいて処理を行う装置などにも適用可能である。
 <<1.2.システム構成例>>
 まず、本開示の一実施形態に係る情報処理システムの構成例について説明する。図1は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図1を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20は、互いに通信が行えるように、ネットワーク30を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザとの音声対話を行う情報処理装置である。本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、ウェアラブルデバイス、汎用コンピュータ、据え置き型または自律移動型の専用装置などにより実現される。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、上述した種々の要素に基づいて、入力音声に対する応答処理を実行するか否かを判定する情報処理装置である。
 (ネットワーク30)
 ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図1を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図2は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、センサ部150、制御部160、およびサーバ通信部170を備える。
 (表示部110)
 本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、入力音声への応答としての視覚情報を表示する。
 このために、本実施形態に係る表示部110は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部110は、プロジェクション機能により視覚情報を出力してもよい。
 (音声出力部120)
 本実施形態に係る音声出力部120は、音声を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、入力音声への回答などを音声により出力する。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
 (音声入力部130)
 本実施形態に係る音声入力部130は、ユーザの発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。本実施形態に係る音声入力部130は、音情報を収集するためのマイクロフォンを備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部140が撮像した画像情報は、情報処理サーバ20によるユーザの行動認識や状態認識、環境認識などに用いられてもよい。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (センサ部150)
 本実施形態に係るセンサ部150は、周囲環境やユーザに関する種々のセンサ情報を収集する機能を有する。センサ部150が収集したセンサ情報は、例えば、情報処理サーバ20によるユーザの行動認識や状態認識、環境認識などに用いられ得る。センサ部150は、例えば、赤外線センサ、紫外線センサ、加速度センサ、ジャイロセンサ、地磁気センサ、照度センサ、近接センサ、指紋センサ、服の形状を取得するセンサ、GNSS(Global Navigation Satellite System)信号受信機、無線信号受信機などを備える。
 (制御部160)
 本実施形態に係る制御部160は、情報処理端末10が備える各構成を制御する機能を有する。制御部160は、例えば、各構成の起動や停止を制御する。また、制御部160は、情報処理サーバ20により生成される制御信号を表示部110や音声出力部120に入力する。また、本実施形態に係る制御部160は、後述する情報処理サーバ20の知的処理部230と同等の機能を有してもよい。同様に、制御部160は、情報処理サーバ20の音声認識部210、コンテキスト認識部220、出力制御部240と同等の機能を有してもよい。
 (サーバ通信部170)
 本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部170は、音声入力部130が収集した音情報や、撮像部140が撮像した画像情報、センサ部150が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部170は、情報処理サーバ20から、応答処理に係る制御信号などを受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10は、図2に示す構成のすべてを必ずしも備えなくてもよい。また、上述したように、本実施形態に係る制御部160は、情報処理サーバ20の音声認識部210、コンテキスト認識部220、知的処理部230、出力制御部240と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図3は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理サーバ20は、音声認識部210、コンテキスト認識部220、知的処理部230、出力制御部240、および端末通信部250を備える。
 (音声認識部210)
 本実施形態に係る音声認識部210は、情報処理端末10が収集した音声に基づいて音声認識処理を実行する。なお、本実施形態に係る音声認識部210は、音声をテキストに変換する機能のほか、当該テキストに基づいて意味解釈を行う機能を有してよい。
 (コンテキスト認識部220)
 本実施形態に係るコンテキスト認識部220は、情報処理端末10が収集した音情報、画像情報、およびセンサ情報に基づいて、上述したような種々のコンテキストを認識する機能を有する。コンテキスト認識部220は、例えば、ユーザの行動や位置、情報処理端末10の向き、周囲の混雑度(周囲にどれだけの人がいるか)などのコンテキストを認識してもよい。なお、上記の混雑度を算出する手法としては、例えば、画像に写った人体の数に基づく算出や、音に含まれる人由来の成分に基づく算出、また無線通信に係るチャンネルの混雑度に基づく算出などが挙げられる。
 (知的処理部230)
 本実施形態に係る知的処理部230は、入力音声の内容、入力音声のスタイル、出力情報の内容、出力情報のスタイル、およびコンテキストに基づいて、入力音声に対する応答処理を実行するか否かを判定する機能を有する。なお、本実施形態に係る応答処理とは、ユーザが意図的に入力した音声に基づき、当該ユーザが意図する機能を提供すること、を指す。すなわち、本実施形態に係る応答処理とは、知的処理部230が入力音声を受理すると判定した場合に実行される種々のアクションである。一方、本実施形態に係る知的処理部230は、入力音声がユーザが意図したものではないと判定した場合、当該入力音声を棄却し、棄却時におけるアクションの実行を制御する場合もあるが、当該アクションは、上記の応答処理には含まれないものとする。本実施形態に係る知的処理部230が有する機能の詳細については別途後述する。
 (出力制御部240)
 本実施形態に係る出力制御部240は、知的処理部230が決定した応答処理に基づいて、情報処理端末10による応答情報の出力を制御する機能を有する。
 (端末通信部250)
 本実施形態に係る端末通信部250は、ネットワーク30を介して、情報処理端末10との情報通信を行う。例えば、端末通信部250は、情報処理端末10から、音情報、画像情報、センサ情報などを受信する。また、端末通信部250は、出力制御部240が生成した応答情報の出力制御に係る制御信号を情報処理端末10に送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、上記に示した構成は、複数の装置により分散されて実現されてもよい。また、上述したように、情報処理端末10と情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.応答是非の判定>>
 次に、本実施形態に係る応答是非の判定について詳細に説明する。まず、ここで、音声対話機能を有する装置への一般的な音声入力手法について説明する。
 音声対話機能を有する装置への一般的な音声入力手法としては、例えば、PTTを用いる手法、起動ワードを用いる手法、および起動ワードとビームフォーミングを併用する手法などが挙げられる。
 PTTを用いる手法では、ユーザが音声入力を開始するボタンを押下することにより、装置による音声認識処理が開始される。この際、装置は、ユーザの発話が終了するタイミング、またはユーザがボタンから指などを放したタイミングまで音声入力を受け付ける。
 しかし、PTTを用いる手法では、ユーザが音声入力を行う前にボタンを押下することが求められるため煩雑であると同時に、ユーザの手元にボタンを配した装置があることが前提となる。
 また、起動ワードを用いる手法では、予め設定された起動ワードをユーザが発話することにより、装置による音声認識処理が開始される。この際、装置は、起動ワードに続いて入力される音声を受理する。
 しかし、起動ワードを用いる手法では、ユーザが音声入力を行う前に都度起動ワードを発話することが求められる。また、一般的に、起動ワードは、誤入力を回避するために日常会話では偶然に使用されないような言葉を用いる必要があるため、ユーザによっては発話しづらいなどの状況も想定される。
 また、起動ワードとビームフォーミングを併用する手法では、装置が、ユーザが起動ワードを発話した方向にビームフォーミングを設定し、当該方向からの音声を一定時間受け付ける。
 しかし、当該手法も起動ワードの使用を前提としているため、上記と同様の煩雑さや困難さが認められる。
 一方、本実施形態に係る情報処理方法によれば、ボタンの押下や起動ワードの発話を行わなくても精度高く応答是非の判定を行うことができ、ユーザの負荷を低減することが可能である。
 他方で、本実施形態に係る情報処理方法は、例えば、上述した起動ワードやビームフォーミングなどと併用して用いることも可能である。この場合、まず起動ワードやビームフォーミングなどにより応答是非を判定した後に、本実施形態に係る情報処理手法により、再度応答是非の判定を行うことで、応答是非に係る判定精度を大幅に向上させることが可能である。なお、以下においては、本実施形態に係る情報処理方法が、起動ワードやビームフォーミングとは併用されない場合を例に説明を行う。
 上述したように、本実施形態に係る知的処理部230は、入力音声の内容、入力音声のスタイル、出力情報の内容、出力情報のスタイル、およびコンテキストに基づいて、入力音声に対する応答処理を実行するか否かを判定する機能を有する。
 本実施形態に係る知的処理部230が、上記の要素を単独、または組み合わせて利用することにより、ユーザの意図する入力音声のみを精度高く検出し、ユーザの意図に沿った応答処理を行うことが可能である。
 例えば、本実施形態に係る知的処理部230が、入力音声のスタイルを単独で利用して、応答是非を判定してもよい。具体的には、本実施形態に係る知的処理部230は、入力音声のスタイルに基づいて、入力音声が応答処理を意図して入力されたものか否かを判定し、当該判定の結果に基づいて、応答処理を実行するか否かを判定することができる。
 この際、本実施形態に係る知的処理部230は、例えば、入力音声のスタイルに基づいて、当該入力音声が入力される要因となった音声行動を特定し、当該音声行動に基づいて、応答処理を実行するか否かを判定してもよい。
 ここで、本実施形態に係る音声行動とは、人が行う、発声を伴う種々の行動であってよい。音声行動には、例えば、通常発話、歌唱、音読、感情表現、非言語発話(ボイスパーカッションなど)が含まれる。
 上記の通常発話には、命令、依頼(お願い)、質問(疑問)、挨拶、呼びかけ、相槌、フィラー、また上記に該当しない標準発話などが挙げられる。
 また、上記の歌唱には、ポップス、歌謡曲、民謡、フォークソング、リズム&ブルース、ロック、メタル、ラップ、オペラなどの様々なジャンルの歌の歌唱が含まれる。
 また、上記の音読には、物語などの朗読、単語などの発音練習、浪曲、演技の練習などが含まれてよい。
 また、上記の感情表現には、笑い声、泣き声、掛け声、叫び声、歓声、悲鳴などが挙げられる。
 このように、音声行動には多様な行動が含まれるが、一方で、応答処理を意図するものと想定されるのは、通常発話における一部の音声行動のみである。このため、本実施形態に係る知的処理部230は、特定した音声行動が、応答処理を意図するものとは認められない場合、入力音声を棄却し、応答処理を実行しなくてよい。
 例えば、知的処理部230は、音声スタイルに基づいて特定した音声行動が歌唱である場合、ユーザの音声は、応答処理を意図するものではないと判定し、当該音声を棄却することができる。また、音声行動が、音読、感情表現、その他の非言語発話である場合も同様である。
 本実施形態に係る知的処理部230が有する上記の機能によれば、ユーザが発声した音声であっても、応答処理を期待していないことが推定される場合には、当該音声を棄却することで、ユーザの想定しない応答処理が誤って実行されるのを防止することが可能となる。
 また、知的処理部230は、ある特定の音源から入力される入力音声に基づく音声行動の推定履歴を利用することで、当該特定の音源が何であるかを推測し、当該推定の結果を応答是非の判定に用いることも可能である。例えば、知的処理部230は、ある特定の音源からの入力される入力音声から音声行動「歌唱」ばかりが推定される場合、当該特定の音源がオーディオプレイヤーであると推測し、以降、当該特定の音源からの入力音声を棄却することができる。
 一方、知的処理部230は、ある特定の音源から音声行動「フィラー」が所定の割合以上で検出された場合、当該特定の音源がテレビジョン装置ではなく、情報処理端末10の周囲に実際に存在する人である可能性(入力音声がアナウンサーの発話ではない可能性)が高いと推測し、以降の応答是非判定に利用することが可能である。
 なお、本実施形態に係る知的処理部230は、例えば、入力音声に係る入力波形をフレームに分解し、フレームごとの特徴量を抽出することで、種々の音声行動を特定してもよい。上記の特徴量としては、例えば、パワー、基本周波数(F0)、ゼロ交差数、メル周波数ケプストラム係数(MFCC)、スペクトル形状などが挙げられる。
 以上、本実施形態に係る音声行動に基づく応答是非の判定について説明した。続いて、本実施形態に係る音韻的な特徴に基づく応答是非の判定について説明する。上記では、本実施形態に係る知的処理部230が、入力音声のスタイルから特定される音声行動に基づいて、応答是非を判定する場合について説明した。
 一方、同一の音声行動であっても、発話が行われる状況によっては、音韻的な特徴は変化することが想定される。例えば、音声行動が「通常発話」である場合であっても、直接その場にいる相手(情報処理端末10を含む)に対して発話を行う場合と、電話などの通話相手に発話を行う場合では、音韻的特徴に変化が生じる。また、その場にいる相手に対して発話を行う場合であっても、相手が1人なのか複数なのか(例えば、プレゼンテーションなど)によって、音韻的特徴は変化し得る。
 このため、本実施形態に係る知的処理部230は、入力音声のスタイルが、所定環境において有意に検出される音声のスタイルと類似するか否かを判定し、当該判定の結果に基づいて、応答処理を実行するか否かを判定してもよい。
 より具体的には、本実施形態に係る知的処理部230は、入力音声のスタイルから抽出した音韻的特徴が、所定環境において有意に検出される音声の音韻的特徴と類似する場合、入力音声を棄却し、応答処理を実行しないでよい。
 ここで、上記の所定環境において有意に検出される音声のスタイルとは、所定の場面や職業などにおいて、他には見られない、目立って特徴的な音声のスタイルを指す。当該音声のスタイルには、例えば、アナウンサーなどが話す一般人とは異なる特徴的な音声のスタイルが該当する。
 本実施形態に係る知的処理部230は、例えば、入力音声の音声スタイルから抽出された音韻的特徴がアナウンサーの音声スタイルに係る音韻的特徴と類似する場合、当該入力音声は、ユーザの発話ではなく、テレビジョン装置などから出力されたニュース番組のアナウンサーの発話であると推定し、当該入力音声を棄却することが可能である。
 なお、上記の所定の場面や職業には、ニュース番組のアナウンサーの他に、例えば、駅または電車内におけるアナウンス、バスガイド、ドラマやアニメの登場人物、選挙演説、演劇などの芝居、落語、歌舞伎、合成音声、ロボットなどが挙げられる。
 以上、本実施形態に係る音韻的な特徴に基づく応答是非の判定について説明した。続いて、本実施形態に係る感情推定に基づく応答是非の判定について説明する。本実施形態に係る知的処理部230は、例えば、入力音声の音声スタイルから推定される感情に基づいて、応答是非を判定してもよい。
 一般的に、エージェント装置と対話を行うユーザは、人と話す場合と比較して感情的にならずに、音声入力を行うことが想定される。このため、本実施形態に係る知的処理部230は、入力音声のスタイルから推定された感情の度合いが閾値を超える場合などには、当該入力音声が応答処理を期待するものではないと判定することも可能である。
 上記の感情には、例えば、喜び、怒り、悲しみ、楽しさ、不安、興奮などが挙げられる。
 以上説明したように、本実施形態に係る知的処理部230は、入力音声の音声スタイルのみからでも多様な分析を行い、当該分析の結果に基づいて応答是非を精度高く判定することが可能である。また、知的処理部230は、上述したような複数の分析結果を組み合わせることで、判定の精度をより向上させることも可能である。
 一方、本実施形態に係る知的処理部230は、入力音声のスタイルのみではなく、入力音声の内容、出力情報の内容、出力情報のスタイル、および種々のコンテキストを組み合わせて利用することで、より高次な応答是非判定を実現することも可能である。なお、上述したように、上記の出力情報には、出力音声、出力される視覚情報や動作などが含まれる。以下においては、知的処理部230が出力音声の内容および出力音声のスタイルに基づいて応答是非を判定する場合を主な例として説明する。
 以下では、本実施形態に係る知的処理部230が、上記の要素を単体で、あるいは組み合わせ実現する応答是非判定について、具体例を挙げながら説明する。
 <<1.6.応答是非判定の具体例>>
 まず、本実施形態に係る知的処理部230が、入力音声の内容を単体で用いて応答是非を判定する場合の例について説明する。図4は、本実施形態に係る入力音声の内容に基づく応答是非判定の一例を示す図である。
 図4には、情報処理端末10とは異なる他のエージェント装置50に対し、ユーザUが音声入力を行った場合の一例が示されている。この際、入力音声の内容には、図中右側に示すように、「ハロー エージェント」、という他のエージェント装置50に対する起動ワードが含まれている。
 このように、入力音声の内容に他の端末の機能を実行させるための起動ワードが含まれる場合、知的処理部230は、当該入力音声を棄却し、応答処理を実行しないでよい。
 本実施形態に係る知的処理部230が有する上記の機能によれば、他のエージェント装置に対する依頼や指示などの入力音声を誤って受理し、ユーザが想定しない応答処理を行うことを防止することが可能となる。
 また、図5は、本実施形態に係る入力音声のスタイルから推定される音声行動に基づく応答是非判定の一例を示す図である。図5には、ユーザUが情報処理端末10の近辺において歌っている場合の一例が示されている。この際、本実施形態に係る知的処理部230は、図中右側に示すように、入力音声のスタイルから音声行動「歌唱」を特定することが可能である。
 この場合、知的処理部230は、音声行動「歌唱」が一般的に応答処理を意図するものとは認められないことから、入力音声を棄却し、応答処理を実行しないでよい。
 一方、上記のように入力音声を棄却する場合、知的処理部230は、入力音声の棄却に係るフィードバックを情報処理端末10に出力させてもよい。この際、知的処理部230は、何を要因として入力音声の棄却を行ったのかを明示的または暗示的にユーザに示すことが可能である。
 図5に示す一例の場合、知的処理部230は、「よい歌ですね。私も歌いたくなってきました」、という音声発話SO1を情報処理端末10に出力させている。当該フィードバックによれば、ユーザUは、歌いながらではコマンドが入力できないことを自然に学習することができる。
 なお、図5では、知的処理部230が特定した音声行動に基づいて入力音声を棄却する場合のフィードバックについて一例を示したが、知的処理部230は、上述した所定環境において有意に検出される音声のスタイルや、推定した感情などに基づいて入力音声を棄却し、また棄却に係るフィードバックを情報処理端末10に出力させてもよい。また、知的処理部230は、音声行動、上記の所定環境、感情の種別などに基づいて、フィードバックの内容を決定してよい。
 また、知的処理部230は、音声入力のスタイルに基づいて入力音声を棄却した場合のみではなく、音声入力の内容、出力情報の内容、出力情報のスタイル、コンテキストのいずれか、または組み合わせに基づいて棄却を行った場合も同様に、上記のようなフィードバックを情報処理端末10に出力させることができる。
 また、図6は、本実施形態に係る所定環境において有意に検出される音声スタイルとの類似性に基づく応答是非判定の一例を示す図である。図6には、情報処理端末10の近辺に存在するテレビジョン装置40が、ニュース番組を再生している場合の一例が示されている。この際、本実施形態に係る知的処理部230は、図中右側に示すように、入力音声のスタイルがアナウンサーに特徴的な音声のスタイルに類似することを検出することができる。
 この場合、知的処理部230は、入力音声に係る滑舌がプロフェッショナルなアナウンサーのレベルであることから、当該入力音声がユーザのものではないと推定し、当該入力音声を棄却してよい。本実施形態に係る知的処理部230が有する上記の機能によれば、テレビジョン装置や他のエージェント装置が出力する音声に誤って応答処理を行う可能性を効果的に低減することが可能である。
 一方、入力音声のスタイルが所定環境において有意に検出される音声スタイルと類似する場合であっても、近辺に入力音声を発話したと推定されるユーザが検出された場合には、知的処理部230は、当該入力音声を受理してよい。
 図7には、滑舌のよいユーザUが、応答処理を期待して情報処理端末10に向かって発話を行った場合の一例が示されている。この際、本実施形態に係る知的処理部230は、図中右側に示すように、入力音声のスタイルがアナウンサーに特徴的な音声のスタイルに類似することを検出する。
 一方、図7に示す一例では、図6の場合とは異なり、コンテキストとして、「近辺に存在するユーザが発話」したことが認識されている。この場合、知的処理部230は、当該コンテキストに基づいて入力音声を受理し、応答処理を実行することができる。なお、コンテキスト認識部220は、例えば、撮像された画像からユーザの口の動きなどを検出することで、ユーザが発話を行っていることを認識することが可能である。
 このように、本実施形態に係る知的処理部230は、音声入力スタイルに加え、コンテキストを用いることで、応答是非に係る判定精度を高めることが可能である。知的処理部230は、例えば、「ユーザが近辺にいない状況で垂直方向に近い角度から音声が入力された」場合などにも、当該状況をコンテキストとして認識し、入力された音声を棄却することができる。
 以上、知的処理部230が入力音声のスタイルを単体で、あるいはコンテキストと組み合わせて利用して、応答是非を判定する場合の例について述べた。なお、知的処理部230が入力音声のスタイル単体で応答是非を判定する別の例としては、例えば、音声スタイルの口調によって応答是非を判定する場合などが挙げられる。この際、知的処理部230は、起動ワードを発話したユーザの口調を学習し、当該口調と入力音声の口調を比較することで、応答是非を判定することができる。また、知的処理部230は、入力音声の入力方向が、例えば窓の方向など、室内ではない方向から入力された場合、当該入力音声を棄却するなどの判定を行うことが可能である。
 次に、本実施形態に係る入力音声のスタイルと出力情報のスタイルとに基づく応答是非の判定について説明する。図8は、本実施形態に係る入力音声のスタイルと出力情報のスタイルとに基づく応答是非判定の一例を示す図である。
 図8には、情報処理端末10が音楽を出力している状況において、ユーザUが歌っている場合の一例が示されている。この際、入力音声のメロディラインと出力音声のメロディラインは、図中右側に示すように類似する。
 このように、入力音声のスタイルと出力音声のスタイルとが類似する場合、ユーザが情報処理端末10から出力される音声に合わせて歌っていることが想定される。このため、知的処理部230は、当該入力音声を棄却し、応答処理を実行しないでよい。
 また、上記のような出力音声に合わせた歌唱は、入力内容および出力内容とに基づいて推定することも可能である。図9は、本実施形態に係る入力内容および出力内容とに基づく応答是非判定の一例を示す図である。
 図9には、情報処理端末10が音楽を出力している状況において、ユーザUが歌っている場合の一例が示されている。この際、入力音声の内容および出力音声の内容、すなわち歌詞はほぼ一致することが想定される。
 このため、知的処理部230は、入力音声の内容と出力音声の内容とが類似する場合、当該入力音声を棄却し、応答処理を実行しないでよい。なお、知的処理部230は、音声に限らず、例えば、入力ジェスチャと出力ジェスチャの内容が類似する場合には、当該入力ジェスチャを棄却するなどの制御を行うことも可能である。
 次に、入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づく応答是非判定について説明する。図10は、入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づく応答是非判定の一例を示す図である。
 図10には、情報処理端末10が英文を出力している状況において、ユーザUが当該英文をリピートしている場合の一例が示されている。この際、入力音声の内容および出力音声の内容は、図9に示した一例と同様にほぼ一致することが想定される。
 また、図10に示すような一例の場合、入力音声の入力タイミングは、出力音声の出力タイミングに少し遅れることが想定される。
 このように、入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づいて、入力音声が出力音声をリピートしていることが推定される場合、知的処理部230は、当該入力音声を棄却し、応答処理を実行しないでよい。
 本実施形態に係る知的処理部230が有する上記の機能によれば、語学学習などを行っているユーザの発話を誤って受理対象とし、ユーザの期待しない応答動作を行う可能性を効果的に低減することが可能である。
 また、図11は、入力音声のスタイルおよび入力音声の内容に基づく応答是非判定の別の一例を示す図である。
 図11には、ユーザUが東京の天気を尋ねる発話を情報処理端末10に対し行う場合の一例が示されている。図11に示す一例の場合、知的処理部230は、入力音声のスタイルとして音の高低を取得している。
 この際、ユーザUによる入力音声が情報の問い合わせを目的としたものである場合、入力音声のスタイルは、語尾が上がった疑問形であり、かつ入力音声の内容は、語尾が終止形であることが予想される。
 このため、本実施形態に係る知的処理部230は、入力音声のスタイルが疑問形であり、かつ入力音声の内容に係る語尾が終止形である場合、当該入力音声を受理し、応答処理を実行してよい。図11に示す一例の場合、知的処理部230は、東京は晴れる旨を通知する音声発話SO2を情報処理端末10に出力させている。一方、知的処理部230は、入力音声のスタイルが、語尾が下がる断定形である場合には、入力音声を棄却してよい。
 このように、本実施形態に係る知的処理部230によれば、入力音声の内容と入力音声のスタイルとに基づいて、当該入力音声が問い合わせなどを目的としたものかを判定することが可能である。
 以上、本実施形態に係る入力音声のスタイルおよび入力音声の内容に基づく応答是非の判定について説明した。なお、知的処理部230が入力音声のスタイルおよび入力音声の内容に基づいて応答是非を判定する別の例としては、例えば、音声入力スタイルから音声行動「歌唱」が特定されている場合であっても、入力音声の内容からユーザが歌っている歌が既存の歌詞ではない場合、ユーザが歌いながら情報処理端末10に対する音声入力を実行している可能性を考慮して当該入力音声を受理する場合などが挙げられる。
 次に、本実施形態に係るコンテキストに基づく応答是非の判定について説明する。図12は、本実施形態に係るコンテキストに基づく応答是非判定の一例を示す図である。
 図12には、ユーザUが情報処理端末10に背を向けて発話を行った場合の一例が示されている。この際、知的処理部230は、入力音声の発話者であるユーザUが情報処理端末10の方向を向いていないことがコンテキストとして検出されたことに基づいて、ユーザUが他者と会話を行っているか、電話で話している、あるいは独り言を喋っていると推定し、当該入力音声を棄却してよい。
 本実施形態に係る知的処理部230が有する上記の機能によれば、応答処理を期待しないユーザの発話を誤って受理し、ユーザの会話などを妨害する可能性を効果的に低減することが可能である。
 以上、本実施形態に係るコンテキストを単体で用いた応答是非判定について説明した。なお、知的処理部230がコンテキスト単体から応答是非を判定する別の例としては、ユーザが別のエージェントの方向を向いている場合、ユーザが未登録ユーザなどの所定の属性を有する場合、ユーザが所定の所在地に居る場合、ユーザが所定の行動を行っている場合などが挙げられる。
 続いて、本実施形態に係るコンテキストと入力音声の内容とに基づく応答是非の判定について説明する。図13~図18は、本実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。
 図13には、ユーザUがイヤホンをしている状態で、「音量最大」という内容の入力音声が認識された場合の一例が示されている。なお、図13では、情報処理端末10が、スマートフォンである場合の一例が示されている。
 この際、知的処理部230は、情報処理端末10がイヤホン出力モードであることがコンテキストとして認識されたことに基づいて、音量調整に係る入力音声を棄却してよい。これは、イヤホンを装着中に音量を急激に上げることなどにより、ユーザUの耳に損傷を与える可能性を排除するためである。
 なお、図示するように、イヤホン出力などに係る各種の出力モードの情報は、コンテキストとして認識されることに加え、出力音声のスタイルの1つとして検出されてもよい。
 図14には、情報処理端末10がミュートモードである状態において、「音量を上げて」という内容の入力音声が認識された場合の一例が示されている。
 この際、知的処理部230は、情報処理端末10がミュートモードであることがコンテキストまたは出力音声のスタイルとして検出されたことに基づいて、音量調整に係る入力音声を棄却してよい。これは、音量調整に係る入力音声がユーザの発話によるものではない場合に、誤ってミュートモードを解除する可能性を排除するためである。
 また、図15には、ユーザUが電車に乗っている状態がコンテキストとして検出されている状態において、「メール届いてる」という内容の入力音声が認識された場合の一例が示されている。また、図15に示す一例では、情報処理端末10がスピーカ出力モードであることがコンテキストまたは出力音声のスタイルとして検出されている。
 この際、知的処理部230は、電車内で個人情報を含み得るメールの内容をスピーカ出力することを回避するため、入力音声を棄却し、応答処理を実行しなくてもよい。このように、本実施形態に係る知的処理部230は、動作モードに応じて受理できないコマンド(入力音声)を棄却することが可能である。
 また、知的処理部230は、動作モードに応じてコマンドを棄却する場合、当該コマンドを棄却する理由をユーザに対し通知させてもよい。図16には、ユーザUが電車に乗っている状態、および電車内が閾値以上に混雑していることがコンテキストとして検出されている状態において、「田中さんに電話掛けて」という内容の入力音声が認識された場合の一例が示されている。
 この際、知的処理部230は、周りの乗客の迷惑とならないように配慮し、入力音声を棄却してよい。また、知的処理部230は、例えば、図示するように、電車内が混雑しているため電話機能が利用できない旨を音声発話SO3などによりユーザUに通知してよい。このように、知的処理部230がコマンドの棄却理由に係るフィードバックを制御することで、ユーザが特定の動作モードでは特定のコマンドが使用できないことを自然に学習することが可能となる。なお、電車内の混雑度が著しく高い場合などにおいては、知的処理部230は、電話機能が利用できない旨を視覚情報により表示させてよい。
 また、図17には、ユーザUが電車に乗っている状態、および電車内の混雑度が閾値未満であることがコンテキストとして検出されている状態において、「田中さんに電話掛けて」という内容の入力音声が認識された場合の一例が示されている。
 この際、知的処理部230は、電車が空いており周りの乗客の迷惑となる可能性が低いことから、入力音声を受理し、応答処理を実行してよい。図17に示す一例の場合、知的処理部230は、田中さんに電話を掛ける旨の音声発話SO4を情報処理端末10に出力させ、その後、架電の制御に係る処理を実行する。
 また、図18には、ユーザUにビームフォーミングが張られていることがコンテキストとして検出されている状態において、他のエージェント装置50の起動ワードを含む内容の入力音声が認識された場合の一例が示されている。
 この際、知的処理部230は、上記の起動ワードが認識されたことに基づいて、ユーザUにビームフォーミングが張られている状態であっても、入力音声を棄却し、応答処理を実行しないでよい。本実施形態に係る知的処理部230が有する上記の機能によれば、ユーザが複数のエージェント装置を使い分けている場合であっても、ユーザの意図しない応答処理を実行する可能性を排除することが可能である。なお、知的処理部230は、ユーザにビームフォーミングが張られている場合に限定されず、情報処理端末10を基準としたある方向にビームフォーミングが張られている場合においても、上記と同様の判定を行うことが可能である。
 以上、本実施形態に係る入力音声の内容とコンテキストとに基づく応答是非の判定について説明した。なお、知的処理部230が、入力音声の内容とコンテキストとに基づいて応答是非を判定する別の例としては、例えば、ユーザが子供であることがコンテキストとして認識されている状態において、決済を指示する内容の入力音声が認識された場合、責任能力や判断能力が不十分である可能性を考慮し、当該入力音声を棄却する場合などが挙げられる。
 以上説明したように、本実施形態に係る知的処理部230は、入力音声の内容、入力音声のスタイル、出力音声の内容、出力音声のスタイル、コンテキストのいずれか、または組み合わせに基づいて、精度の高い応答是非判定を実現することが可能である。
 <<1.7.動作の流れ>>
 次に、本実施形態に係る情報処理サーバ20の動作の流れについて詳細に説明する。図19は、本実施形態に係る情報処理サーバ20の動作の流れを示すフローチャートである。
 図19を参照すると、まず、端末通信部250が、情報処理端末10が収集した音声信号を受信する(S1101)。
 次に、知的処理部230は、音声認識部210により入力音声が検出されたか否かを判定する(S1102)。
 ここで、音声認識部210により入力音声が検出されていない場合(S1102:No)、情報処理サーバ20は、ステップS1101に復帰する。
 一方、音声認識部210により入力音声が検出された場合(S1102:Yes)、知的処理部230は、検出された入力音声の特徴量を抽出する(S1103)。また、知的処理部230は、出力音声の特徴量を抽出してもよい。
 続いて、知的処理部230は、ステップS1103において抽出した特徴量に基づいて、入力音声を受理するか否かを判定する(S1104)。
 ここで、入力音声を受理する場合(S1104:Yes)、知的処理部230は、入力音声に基づいて受理時のアクションを実行する(S1105)。
 一方、入力音声を棄却する場合(S1104:No)、知的処理部230は、入力音声に基づいて棄却時のアクションを実行する(S1106)。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例について説明する。図20は、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例を示すブロック図である。図20を参照すると、情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、またはレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、入力音声に対する応答処理を実行するか否かを判定する知的処理部230を備える。係る構成によれば、入力音声に対する応答是非を精度高く判定することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、情報処理サーバ20が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、
 を備える、
情報処理装置。
(2)
 前記知的処理部は、前記入力音声のスタイルに基づいて、前記入力音声が前記応答処理を意図して入力されたものか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
前記(1)に記載の情報処理装置。
(3)
 前記知的処理部は、前記入力音声のスタイルに基づいて前記入力音声が入力される要因となった音声行動を特定し、前記音声行動に基づいて、前記応答処理を実行するか否かを判定する、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記知的処理部は、前記音声行動が前記応答処理を意図するものとは認められない場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記(3)に記載の情報処理装置。
(5)
 前記応答処理を意図するものとは認められない前記音声行動は、歌唱、音読、または感情表現のうち少なくともいずれかを含む、
前記(4)に記載の情報処理装置。
(6)
 前記知的処理部は、前記入力音声のスタイルが、所定環境において有意に検出される音声のスタイルと類似するか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
 前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記(6)に記載の情報処理装置。
(8)
 前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似し、かつ前記入力音声を発声したと推定されるユーザの存在が検出された場合、前記入力音声を受理し、前記応答処理を実行する、
前記(7)に記載の情報処理装置。
(9)
 前記知的処理部は、前記入力音声のスタイルと前記出力音声のスタイルとが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
 前記出力音声のスタイルは、出力モードの設定を含む、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
 前記知的処理部は、前記入力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
 前記知的処理部は、前記入力音声のスタイルが疑問形であり、かつ前記入力音声の内容に係る語尾が終止形である場合、前記入力音声を受理し、前記応答処理を実行する、
前記(11)に記載の情報処理装置。
(13)
 前記知的処理部は、前記入力音声の内容に他の端末の機能を実行させるための起動ワードが含まれる場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記(11)または(12)に記載の情報処理装置。
(14)
 前記知的処理部は、前記出力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
前記(1)~(12)のいずれかに記載の情報処理装置。
(15)
 前記知的処理部は、前記入力音声の内容と前記出力音声の内容とが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記(13)に記載の情報処理装置。
(16)
 前記知的処理部は、前記入力音声が前記出力音声をリピートしていることが推定される場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記(13)または(14)に記載の情報処理装置。
(17)
 前記知的処理部は、検出されたコンテキストにさらに基づいて、前記応答処理を実行するか否かを判定する、
前記(1)~(15)のいずれかに記載の情報処理装置。
(18)
 前記知的処理部は、前記入力音声を棄却した場合、前記入力音声の棄却に係るフィードバックを出力させる、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 前記入力音声のスタイルは、音声の大きさ、音声の高さ、声色、リズムのうち少なくとも1つを含む、
前記(1)~(18)のいずれかに記載の情報処理装置。
(20)
 プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、
 を含む、
情報処理方法。
 10   情報処理端末
 110  表示部
 120  音声出力部
 130  音声入力部
 140  撮像部
 150  センサ部
 160  制御部
 170  サーバ通信部
 20   情報処理サーバ
 210  音声認識部
 220  コンテキスト認識部
 230  知的処理部
 240  出力制御部
 250  端末通信部

Claims (20)

  1.  入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、
     を備える、
    情報処理装置。
  2.  前記知的処理部は、前記入力音声のスタイルに基づいて、前記入力音声が前記応答処理を意図して入力されたものか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
    請求項1に記載の情報処理装置。
  3.  前記知的処理部は、前記入力音声のスタイルに基づいて前記入力音声が入力される要因となった音声行動を特定し、前記音声行動に基づいて、前記応答処理を実行するか否かを判定する、
    請求項1に記載の情報処理装置。
  4.  前記知的処理部は、前記音声行動が前記応答処理を意図するものとは認められない場合、前記入力音声を棄却し、前記応答処理を実行しない、
    請求項3に記載の情報処理装置。
  5.  前記応答処理を意図するものとは認められない前記音声行動は、歌唱、音読、または感情表現のうち少なくともいずれかを含む、
    請求項4に記載の情報処理装置。
  6.  前記知的処理部は、前記入力音声のスタイルが、所定環境において有意に検出される音声のスタイルと類似するか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
    請求項1に記載の情報処理装置。
  7.  前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
    請求項6に記載の情報処理装置。
  8.  前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似し、かつ前記入力音声を発声したと推定されるユーザの存在が検出された場合、前記入力音声を受理し、前記応答処理を実行する、
    請求項7に記載の情報処理装置。
  9.  前記知的処理部は、前記入力音声のスタイルと前記出力音声のスタイルとが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
    請求項1に記載の情報処理装置。
  10.  前記出力音声のスタイルは、出力モードの設定を含む、
    請求項1に記載の情報処理装置。
  11.  前記知的処理部は、前記入力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
    請求項1に記載の情報処理装置。
  12.  前記知的処理部は、前記入力音声のスタイルが疑問形であり、かつ前記入力音声の内容に係る語尾が終止形である場合、前記入力音声を受理し、前記応答処理を実行する、
    請求項11に記載の情報処理装置。
  13.  前記知的処理部は、前記入力音声の内容に他の端末の機能を実行させるための起動ワードが含まれる場合、前記入力音声を棄却し、前記応答処理を実行しない、
    請求項11に記載の情報処理装置。
  14.  前記知的処理部は、前記出力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
    請求項1に記載の情報処理装置。
  15.  前記知的処理部は、前記入力音声の内容と前記出力音声の内容とが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
    請求項13に記載の情報処理装置。
  16.  前記知的処理部は、前記入力音声が前記出力音声をリピートしていることが推定される場合、前記入力音声を棄却し、前記応答処理を実行しない、
    請求項13に記載の情報処理装置。
  17.  前記知的処理部は、検出されたコンテキストにさらに基づいて、前記応答処理を実行するか否かを判定する、
    請求項1に記載の情報処理装置。
  18.  前記知的処理部は、前記入力音声を棄却した場合、前記入力音声の棄却に係るフィードバックを出力させる、
    請求項1に記載の情報処理装置。
  19.  前記入力音声のスタイルは、音声の大きさ、音声の高さ、声色、リズムのうち少なくとも1つを含む、
    請求項1に記載の情報処理装置。
  20.  プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも1つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、
     を含む、
    情報処理方法。
PCT/JP2019/001872 2018-03-30 2019-01-22 情報処理装置および情報処理方法 WO2019187543A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/040,532 US20210082427A1 (en) 2018-03-30 2019-01-22 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-067461 2018-03-30
JP2018067461A JP2021103191A (ja) 2018-03-30 2018-03-30 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
WO2019187543A1 true WO2019187543A1 (ja) 2019-10-03

Family

ID=68058029

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/001872 WO2019187543A1 (ja) 2018-03-30 2019-01-22 情報処理装置および情報処理方法

Country Status (3)

Country Link
US (1) US20210082427A1 (ja)
JP (1) JP2021103191A (ja)
WO (1) WO2019187543A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2008022512A (ja) * 2006-07-12 2008-01-31 Micro-Star Internatl Co Ltd 音量制御方法
JP2013072919A (ja) * 2011-09-27 2013-04-22 Nec Corp 音判定システム、音判定方法および音判定プログラム
JP2016004270A (ja) * 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
JP2016061970A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
JP2016075530A (ja) * 2014-10-03 2016-05-12 エヌ・ティ・ティ・インフラネット株式会社 ナビゲーション装置及びナビゲーション方法
JP2018036580A (ja) * 2016-09-02 2018-03-08 日本電信電話株式会社 疑問発話判定装置、その方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348581B2 (en) * 2019-07-12 2022-05-31 Qualcomm Incorporated Multi-modal user interface
US11355108B2 (en) * 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2008022512A (ja) * 2006-07-12 2008-01-31 Micro-Star Internatl Co Ltd 音量制御方法
JP2013072919A (ja) * 2011-09-27 2013-04-22 Nec Corp 音判定システム、音判定方法および音判定プログラム
JP2016004270A (ja) * 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
JP2016061970A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
JP2016075530A (ja) * 2014-10-03 2016-05-12 エヌ・ティ・ティ・インフラネット株式会社 ナビゲーション装置及びナビゲーション方法
JP2018036580A (ja) * 2016-09-02 2018-03-08 日本電信電話株式会社 疑問発話判定装置、その方法、及びプログラム

Also Published As

Publication number Publication date
JP2021103191A (ja) 2021-07-15
US20210082427A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US9553979B2 (en) Bluetooth headset and voice interaction control thereof
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US20130211826A1 (en) Audio Signals as Buffered Streams of Audio Signals and Metadata
WO2020244355A1 (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN108711429B (zh) 电子设备及设备控制方法
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
WO2020244416A1 (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
WO2020244402A1 (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
JP6904357B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6585733B2 (ja) 情報処理装置
WO2020244411A1 (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
WO2019242414A1 (zh) 语音处理方法、装置、存储介质及电子设备
JPWO2017154282A1 (ja) 音声処理装置および音声処理方法
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2023553867A (ja) ユーザ発話プロファイル管理
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2019187543A1 (ja) 情報処理装置および情報処理方法
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP4219129B2 (ja) テレビジョン受像機
US20240078731A1 (en) Avatar representation and audio generation
US20240087597A1 (en) Source speech modification based on an input speech characteristic

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19776547

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19776547

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP