WO2019021553A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019021553A1
WO2019021553A1 PCT/JP2018/016400 JP2018016400W WO2019021553A1 WO 2019021553 A1 WO2019021553 A1 WO 2019021553A1 JP 2018016400 W JP2018016400 W JP 2018016400W WO 2019021553 A1 WO2019021553 A1 WO 2019021553A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
information processing
user
information
important part
Prior art date
Application number
PCT/JP2018/016400
Other languages
English (en)
French (fr)
Inventor
亜由美 中川
貴宣 小俣
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/631,889 priority Critical patent/US11244682B2/en
Priority to EP18839071.0A priority patent/EP3660838A4/en
Publication of WO2019021553A1 publication Critical patent/WO2019021553A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 discloses a speech synthesis apparatus that displays an utterance time related to synthetic speech.
  • Patent Document 1 According to the speech synthesizer described in Patent Document 1, it becomes possible for the user to grasp the length of the speech to be output. However, with the technology described in Patent Document 1, it is difficult to make the user perceive when the voice corresponding to the information desired by the user is output.
  • the present disclosure proposes a novel and improved information processing apparatus, information processing method, and program capable of causing the user to perceive the output position of the important part in information presentation by speech utterance.
  • an output control unit for controlling an output of a speech utterance related to information presentation, the output control unit outputting the speech utterance and visualizing the output position of the important part in the speech utterance
  • An information processing apparatus for displaying
  • the processor includes controlling an output of a speech utterance related to information presentation, wherein the controlling causes the speech utterance to be output, and an output position of an important part in the speech utterance
  • An information processing method is provided, further comprising: displaying visually.
  • the computer is provided with an output control unit that controls an output of a voice utterance related to information presentation, and the output control unit causes the voice utterance to be output and
  • a program is provided to function as an information processing apparatus that causes an output position to be displayed visually.
  • FIG. 7 is a diagram for describing output control corresponding to a plurality of such users according to the embodiment. It is a figure for demonstrating the acceptability control of the operation input which concerns on the same embodiment. It is a figure for demonstrating the acceptability control of the operation input based on the user's concentration degree which concerns on the embodiment. It is a figure for demonstrating display control of the degree of concentration concerning the embodiment. It is a flowchart which shows the flow of the process by the information processing server which concerns on the embodiment. It is an example of hardware constitutions common to an information processing terminal and an information processing server concerning one embodiment of this indication.
  • Embodiment 1.1 Outline of embodiment 1.2.
  • System configuration example 1.3 Functional configuration example of information processing terminal 10 1.4.
  • Functional configuration example of information processing server 20 1.5. Details of Model Construction and Output Control 1.6. Output Control Corresponding to Multiple Users 1.7. Flow of processing 2.
  • the device as described above can transmit various information to the user as well as the response to the inquiry.
  • the device as described above may present the user with the recommendation information according to the learned user's preference or the like by speech utterance or visual information.
  • the user listens to the end of the voice utterance it may be assumed that the information requested by the user is not output. In this case, the user's time may be consumed unnecessarily, which may be a factor of reducing convenience.
  • an information processing apparatus, an information processing method, and a program according to an embodiment of the present disclosure are characterized by outputting a speech utterance and visually displaying the output position of the important part in the speech utterance.
  • FIG. 1 is a diagram for describing an overview of an embodiment of the present disclosure.
  • FIG. 1 shows an example in which the information processing terminal 10 presents information of a restaurant to the user U1 using the speech utterance SO1 and the visual information VI1.
  • the information processing terminal 10 may execute the above process based on control by the information processing server 20 described later.
  • the information processing server 20 according to an embodiment of the present disclosure can cause the information processing terminal 10 to output the information of the restaurant A, for example, as a response to the inquiry of the user U1.
  • the information processing server 20 may cause the information processing terminal 10 to output the output position of the important part in the speech utterance as the visual information VI1. More specifically, the information processing server 20 according to the present embodiment includes a bar B indicating the total output length of the speech utterance SO1, and a pointer P indicating the current position according to the output of the speech utterance SO1.
  • the visual information VI1 is output to the information processing terminal 10. That is, the pointer P is information indicating the progress related to the output of the speech utterance SO1.
  • the user U1 can grasp the degree of progress related to the output of the speech utterance SO1.
  • the information processing server 20 can display the output position of the important part IP in the speech utterance SO1 on the bar B.
  • the above-mentioned important part IP may be a section including information which is estimated to have higher priority for the user in speech utterance.
  • the information presentation related to the restaurant A may include various information such as the location, budget, atmosphere, and word of mouth related to the restaurant A.
  • the information processing server 20 estimates information having higher priority for the user U1 in the above information presentation, and a section including information having high priority in speech utterance corresponding to the information presentation. Is set as the important part IP. Further, the information processing server 20 can display the set output position of the important part IP on the bar B.
  • the information processing server 20 sets a section including money amount information estimated to have a higher priority for the user U1 as the important part IP, and has a lower priority than the money amount information.
  • a section including information such as the atmosphere and the like is set as the non-important part.
  • the information processing server 20 causes the information processing terminal 10 to output a voice utterance including the important part IP and the non-important part, and displays the output position of the important part IP in the voice utterance.
  • the information processing server 20 can set the priority and the important part based on the preference, the characteristic, the attribute, and the like of the user. For example, the information processing server 20 calculates the priority for each category of the information to be presented based on the user's preference, characteristics, attributes and the like, and sets a section including information whose priority is equal to or higher than the threshold as an important part Good. In addition, the information processing server 20 can also set a section including information with higher priority in the presentation information as the important part.
  • the information processing server 20 can also set a plurality of important parts. For example, in the information presentation concerning restaurant A, when the priority of amount-of-money information and word-of-mouth information is high, information processing server 20 may set sections including amount-of-money information and word-of-mouth information in voice utterance as important parts.
  • the information processing server 20 As described above, according to the information processing server 20 according to the present embodiment, it becomes possible for the user U1 to visually grasp the output position of the important part IP in the speech utterance SO1. For this reason, the user U1 should listen to the voice utterance SO1 appropriately until the important part IP is output, or after the output of the important part IP, perform operation input such as stop processing for the voice utterance SO1 and a barge-in utterance. Time can be used more effectively.
  • the above-described functions of the information processing server 20 according to the present embodiment will be described in detail.
  • FIG. 2 is a block diagram showing an example of the system configuration of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment includes an information processing terminal 10 and an information processing server 20.
  • the information processing terminal 10 and the information processing server 20 are connected via the network 30 so as to be able to communicate with each other.
  • the information processing terminal 10 is an information processing apparatus that performs information presentation using voice utterance and visual information to a user based on control by the information processing server 20. At this time, the information processing terminal 10 according to the present embodiment has a feature of visually displaying the output position of the important part in the speech utterance.
  • the information processing terminal 10 according to the present embodiment can be realized as various devices having an audio output function and a display function.
  • the information processing terminal 10 according to the present embodiment may be, for example, a mobile phone, a smartphone, a tablet, a wearable device, a computer, or a dedicated device of a stationary type or an autonomous moving type.
  • the information processing server 20 is an information processing apparatus having a function of controlling the output of voice utterance and visual information by the information processing terminal 10. At this time, the information processing server 20 according to the present embodiment has a feature of causing the information processing terminal 10 to visually display the output position of the important part in the speech utterance.
  • the network 30 has a function of connecting the information processing terminal 10 and the information processing server 20.
  • the network 30 may include the Internet, a public network such as a telephone network, a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like.
  • the network 30 may include a leased line network such as an Internet Protocol-Virtual Private Network (IP-VPN).
  • IP-VPN Internet Protocol-Virtual Private Network
  • the network 30 may also include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • the example of the system configuration of the information processing system according to the present embodiment has been described above.
  • the configuration described above with reference to FIG. 2 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to such an example.
  • the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by a single device.
  • the configuration of the information processing system according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 3 is a block diagram showing an example of a functional configuration of the information processing terminal 10 according to the present embodiment.
  • the information processing terminal 10 according to the present embodiment includes a display unit 110, an audio output unit 120, an audio input unit 130, an imaging unit 140, a sensor unit 150, a control unit 160, and a server communication unit 170. .
  • the display unit 110 has a function of outputting visual information such as an image or text.
  • the display unit 110 according to the present embodiment can visually display the output position of the important part in the speech utterance based on the control by the information processing server 20, for example.
  • the display unit 110 includes a display device or the like that presents visual information.
  • the display device include a liquid crystal display (LCD) device, an organic light emitting diode (OLED) device, and a touch panel.
  • the display unit 110 according to the present embodiment may output visual information by a projection function.
  • the voice output unit 120 has a function of outputting hearing information including voice utterances and the like.
  • the voice output unit 120 according to the present embodiment can output, for example, an answer corresponding to a user's inquiry as a voice utterance based on control by the information processing server 20.
  • the audio output unit 120 according to the present embodiment includes an audio output device such as a speaker or an amplifier.
  • the voice input unit 130 has a function of collecting sound information such as an utterance by a user and a background sound.
  • the sound information collected by the voice input unit 130 is used for voice recognition and action recognition by the information processing server 20.
  • the voice input unit 130 according to the embodiment includes a microphone for collecting sound information.
  • the imaging unit 140 has a function of capturing an image including the user and the surrounding environment.
  • the image captured by the imaging unit 140 is used for user recognition and action recognition by the information processing server 20.
  • the imaging unit 140 according to the present embodiment includes an imaging device capable of capturing an image. Note that the above image includes moving images as well as still images.
  • the sensor unit 150 has a function of collecting various sensor information related to the user's behavior.
  • the sensor information collected by the sensor unit 150 is used for state recognition and action recognition of the user by the information processing server 20.
  • the sensor unit 150 includes, for example, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a heat sensor, an optical sensor, a vibration sensor, a GNSS (Global Navigation Satellite System) signal receiving device, and the like.
  • GNSS Global Navigation Satellite System
  • Control unit 160 The control part 160 which concerns on this embodiment has a function which controls each structure with which the information processing terminal 10 is provided.
  • the control unit 160 controls, for example, start and stop of each component. Further, the control unit 160 can input a control signal generated by the information processing server 20 to the display unit 110 or the sound output unit 120. Moreover, the control part 160 which concerns on this embodiment may have a function equivalent to the output control part 230 of the information processing server 20 mentioned later.
  • the server communication unit 170 has a function of performing information communication with the information processing server 20 via the network 30. Specifically, the server communication unit 170 transmits, to the information processing server 20, the sound information collected by the voice input unit 130, the image information captured by the imaging unit 140, and the sensor information collected by the sensor unit 150. Further, the server communication unit 170 receives, from the information processing server 20, a control signal related to the output of the visual information and the voice utterance, and the artificial voice.
  • the example of the functional configuration of the information processing terminal 10 according to the present embodiment has been described above.
  • the above configuration described with reference to FIG. 3 is merely an example, and the functional configuration of the information processing terminal 10 according to the present embodiment is not limited to such an example.
  • the information processing terminal 10 according to the present embodiment may not necessarily include all of the configurations shown in FIG. 3.
  • the information processing terminal 10 can be configured not to include the imaging unit 140, the sensor unit 150, and the like.
  • the control unit 160 according to the present embodiment may have the same function as the output control unit 230 of the information processing server 20.
  • the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 4 is a block diagram showing an example of a functional configuration of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a recognition unit 210, a setting unit 220, an output control unit 230, a voice synthesis unit 240, a storage unit 250, and a terminal communication unit 260.
  • the storage unit 250 includes a user DB 252, a model DB 254, and a content DB 256.
  • the recognition unit 210 has a function of performing various recognitions related to the user.
  • the recognition unit 210 can perform user recognition by comparing the speech or image of the user collected by the information processing terminal 10 with the voice feature or image of the user stored in advance in the user DB 252.
  • the recognition unit 210 can also recognize the user's behavior or state based on the sound information, the image, and the sensor information collected by the information processing terminal 10. For example, the recognition unit 210 can perform voice recognition based on the user's utterance collected by the information processing terminal 10, and can detect a user's inquiry or a barge-in utterance. Also, for example, the recognition unit 210 can recognize the line of sight, the expression, the gesture, the action, and the like of the user based on the image and the sensor information collected by the information processing terminal 10.
  • the setting unit 220 has a function of setting an important part in speech utterance.
  • the setting unit 220 sets, as an important part, a section including information which is estimated to be higher priority for the user in speech utterance.
  • the setting unit 220 according to the present embodiment may set the priority and the important part based on an individual model set for each user or a common model set commonly for a plurality of users.
  • the setting unit 220 can, for example, acquire an individual model corresponding to the user recognized by the recognition unit 210 from a model DB 254 described later, and set the priority and the important part.
  • the setting unit 220 may set the important part based on a common model common to all the users.
  • the setting unit 220 can also obtain common models corresponding to the attributes from the plurality of common models based on the attributes of the user recognized by the recognition unit 210, and can set important parts.
  • the setting unit 220 can acquire the common model based on, for example, the gender, the age, the language used, and the like of the user recognized by the recognition unit 210.
  • the setting unit 220 has a function of generating an individual model based on the user's response utterance or response to the voice utterance. The details of the function of the setting unit 220 will be described later separately.
  • the output control unit 230 has a function of controlling the output of a speech utterance related to information presentation. Further, the output control unit 230 according to the present embodiment has a function of outputting a voice utterance and visually displaying the output position of the important part in the voice utterance. At this time, as shown in FIG. 1, the output control unit 230 according to the present embodiment causes the progress related to the output of the voice utterance to be displayed in association with the output position of the important part using the bar B and the pointer P. May be
  • the output control unit 230 has a function of controlling whether or not the operation input can be accepted during the output of the voice utterance. Details of the function of the output control unit 230 according to the present embodiment will be described later separately.
  • the speech synthesis unit 240 has a function of synthesizing artificial speech output by the information processing terminal 10 based on control by the output control unit 230.
  • the storage unit 250 includes a user DB 252, a model DB 254, and a content DB 256.
  • the user DB 252 stores various information related to the user.
  • the user DB 252 stores, for example, a user's face image and voice feature.
  • the user DB 252 may store information such as gender, age, preference, and tendency of the user.
  • the model DB 254 stores an individual model set for each user and a common model common to a plurality of users.
  • the common model may be a model common to all users or may be a model set for each attribute of the user.
  • the setting unit 220 can obtain the corresponding model from the model DB 254 based on the recognition result of the user by the recognition unit 210, and can set the important part.
  • the content DB 256 stores, for example, various content such as restaurant information.
  • the output control unit 230 according to the present embodiment can use the information stored in the content DB 256 to output an answer corresponding to a user's inquiry, recommendation information, an advertisement, etc. using speech or visual information. it can.
  • the content according to the present embodiment may not necessarily be stored in the content DB 256.
  • the output control unit 230 according to the present embodiment may acquire content from another device via the network 30, for example.
  • the terminal communication unit 260 has a function of performing information communication with the information processing terminal 10 via the network 30. Specifically, the terminal communication unit 260 receives sound information such as speech, image information, and sensor information from the information processing terminal 10. Also, the terminal communication unit 260 transmits the control signal generated by the output control unit 230 and the artificial voice synthesized by the voice synthesis unit 240 to the information processing terminal 10.
  • the functional configuration of the information processing server 20 has been described.
  • the above-mentioned functional composition explained using Drawing 4 is an example to the last, and functional composition of information processing server 20 concerning this embodiment is not limited to the example concerned.
  • the information processing server 20 may not necessarily have all of the configurations shown in FIG. 4.
  • the recognition unit 210, the setting unit 220, the voice synthesis unit 240, and the storage unit 250 can be provided in another device different from the information processing server 20.
  • the functional configuration of the information processing server 20 according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • the information processing server 20 according to the present embodiment is characterized in that the voice utterance including the important part and the non-important part is output, and the output position of the important part in the voice utterance is visually displayed.
  • the voice utterance including the important part and the non-important part is output, and the output position of the important part in the voice utterance is visually displayed.
  • the information processing server 20 can set the priority and the important part using the model corresponding to the recognized user. More specifically, the setting unit 220 according to the present embodiment acquires an individual model set for each user or a common model set commonly for a plurality of users based on the recognition result by the recognition unit 210. Can set priority and important parts.
  • the important part according to the present embodiment is a section including information which is estimated to have higher priority for the user among information presented by speech utterance.
  • information presentation concerning the restaurant illustrated in FIG. 1 it is estimated that the information to be emphasized by the user, that is, the information with high priority is different.
  • one user may be interested in price information, while another user may place importance on atmosphere, location, and the like.
  • the information processing server 20 generates an individual model for each user and performs setting of an important part based on the individual model, thereby realizing output control according to the needs of each user. It is possible.
  • the setting unit 220 may generate an individual model, for example, based on the user's utterance.
  • the user's utterance includes, for example, an utterance related to a query.
  • FIG. 5 is a diagram for describing generation of an individual model based on an inquiry utterance according to the present embodiment.
  • FIG. 5 shows a state in which the user U1 makes an inquiry to the information processing terminal 10 by the utterances UO1 and UO2.
  • the utterances UO1 and UO2 related to the inquiry may both be requests for information presentation of the restaurant.
  • the setting unit 220 can generate an individual model corresponding to the user U1 based on the vocabulary included in the utterances UO1 and UO2 of the user U1 recognized by the recognition unit 210.
  • the setting unit 220 tends to emphasize the price on the basis of the term “cheap shop” included in the utterance UO1, and the term “budget is ⁇ 3000” included in the utterance UO2. It is possible to estimate a certain thing and generate an individual model reflecting the estimation result.
  • the setting unit 220 can also generate an individual model based on the user's response utterance to the output voice utterance.
  • FIG. 6A and 6B are diagrams for explaining generation of an individual model based on a user's response utterance.
  • FIG. 6A shows a situation in which the user U1 is performing an utterance UO3 indicating a response to the speech utterance SO2 output by the information processing terminal 10.
  • the user U1 performs the speech UO3 at the timing when the price information included in the speech speech SO2 is output, and the speech UO3 is a barge-in speech instructing the output of the next restaurant information.
  • the setting unit 220 indicates that the information output when the speech UO3 indicating a response is detected is price information, and the speech UO3 instructs the output of the next restaurant information. Based on the barge-in utterance, it may be estimated that the user U1 tends to place importance on the price, and an individual model reflecting the estimation result may be generated.
  • FIG. 6B shows a situation in which the user U1 is performing an utterance UO4 indicating a response to the speech utterance SO3 output by the information processing terminal 10.
  • the user U1 performs the speech UO4 at the timing when the price information included in the speech speech SO3 is output, and the speech UO4 is a barge-in speech that instructs the output of the detailed information.
  • the setting unit 220 indicates that the information output when the speech UO4 indicating a response is detected is price information, and a barge-in speech in which the speech UO4 instructs the output of detailed information It is possible to estimate that the user U1 tends to place importance on the price, and to generate an individual model reflecting the estimation result.
  • the setting unit 220 can generate an individual model by estimating items that the user considers to be important based on response utterances such as barge-in utterances and voice utterances being output. is there. According to the above-described function of the setting unit 220 according to the present embodiment, by monitoring the user's response to the output voice utterance, it is possible to accurately estimate the item that the user considers to be important.
  • the setting unit 220 may generate an individual model based on the reaction of the user not depending on the utterance.
  • FIG. 7 is a diagram for describing generation of an individual model based on a user's reaction to information presentation.
  • FIG. 7 shows the response of the user U1 to the speech utterance SO4 output from the information processing terminal 10 and the visual information VI4.
  • the above reaction includes, for example, the user's facial expression, sight line, gesture, action and the like.
  • the example shown in FIG. 7 shows a situation in which the user U1 is gazing at the price information included in the visual information VI4.
  • the setting unit 220 estimates that the user U1 tends to place importance on the price based on the user U1 focusing on the displayed price information, and the estimation result It is possible to generate an individual model that reflects
  • the setting unit 220 estimates that the user U1 does not consider the location or the atmosphere important And the estimation result may be reflected in an individual model.
  • the setting unit 220 according to the present embodiment, it is possible to generate a highly accurate individual model based on various reactions of the user.
  • the individual models according to the present embodiment have been described in detail. Subsequently, output control based on the common model according to the present embodiment will be described in detail. For example, performing output control based on an individual model for each user, such as when information on the user's tendency is not sufficiently accumulated or when the information processing terminal 10 is a device used for an unspecified number of users Situations where it is difficult to In such a case, the information processing server 20 according to the present embodiment may display the output position of the important part based on a common model set commonly to a plurality of users.
  • FIG. 8 is a diagram for describing output control based on a common model according to the present embodiment.
  • FIG. 8 shows the speech UO5 of the user U1 related to the weather inquiry, and the speech speech SO5 and visual information VI5 output by the information processing terminal 10 in response to the speech UO5.
  • the setting unit 220 can set the important part according to a common model common to a plurality of users.
  • the setting unit 220 sets, as the important part, the information corresponding to the answer related to the inquiry of the user U1 among the information included in the voice utterance SO5.
  • the setting unit 220 may set an answer portion “10 degrees” corresponding to the utterance UO5 related to the inquiry among the information included in the speech utterance SO5 as the important portion.
  • setting the response part to the user's inquiry as an important part also allows the user to perceive the output position of information having higher priority for the user. It is possible.
  • the information processing server 20 can also display the output position of the important part based on the common model corresponding to the attribute of the user. For example, it may be assumed that male users in their 50s and female users in their 20s tend to emphasize different items. Therefore, the setting unit 220 according to the present embodiment realizes the setting of the important part with higher accuracy by setting the important part using the common model corresponding to the attribute of the user recognized by the recognition unit 210. It is possible.
  • FIG. 9 is a diagram for describing output control using a common model corresponding to the attribute of the user according to the present embodiment.
  • the setting unit 220 emphasizes the price information of the user of the attribute to which the user U1 corresponds based on the common model acquired based on the gender and age of the user U1 recognized by the recognition unit 210. It is possible to estimate that there is a tendency to do so and to set the price information as an important part.
  • the common model corresponding to the attribute of the user may be set in advance, or may be generated by diverting the personal model.
  • the setting unit 220 can also generate a common model corresponding to an attribute by averaging a plurality of generated personal models for each attribute.
  • the output control unit 230 mainly explains that the output position of the important part is visually displayed using the bar B, the pointer P, etc.
  • the output control unit 230 according to the present embodiment Not limited to the above example, it is possible to perform various output control.
  • the output control unit 230 displays the countdown C to more explicitly indicate to the user the time until the important part IP is voice-outputted. Good.
  • the output control unit 230 can also present the important part visually to the user, for example, by including price information “3000 yen” in advance in the visual information IV6.
  • the output control unit 230 may control an output mode relating to the speech utterance of the important part. For example, in the example shown in FIG. 9, the output control unit 230 emphasizes that the important part is output to the user U1 by outputting the speech utterance SO6 including the emphasis phrase “Please listen carefully!” doing. In addition, the output control unit 230 can also draw the attention of the user U1 by controlling the volume, the voice color, the prosody, and the like related to the voice output SO6.
  • FIG. 10 is a diagram for describing output control corresponding to a plurality of such users according to the present embodiment.
  • FIG. 10 shows a plurality of users U1 and U2, visual information IV7 output from the information processing terminal 10, and speech utterances SO7 and SO8.
  • the setting unit 220 acquires models corresponding to the users U1 and U2 recognized by the recognition unit 210 from the model DB 254, respectively, and sets important parts separately for the users U1 and U2. .
  • the setting unit 220 sets price information as the important part for the user U1, and sets location information as the important part for the user U2.
  • the output control unit 230 displays the output positions of the important parts IP1 and IP2 corresponding to each of the plurality of users U1 and U2 based on the degree of importance set by the setting unit 220.
  • the important parts corresponding to the respective users based on the individual models corresponding to the plurality of users.
  • the output position of can be displayed. According to the above-described function of the information processing server 20 according to the present embodiment, a plurality of users can grasp when the information which each user desires is output, and realize more convenient information presentation It becomes possible.
  • the output control unit 230 may control the output of the voice utterance or the visual information according to the position of the recognized user. For example, in the example shown in FIG. 10, the output control unit 230 outputs the speech utterance SO7 including price information in the direction in which the user U1 is positioned, and outputs the speech utterance SO8 including location information in the direction in which the user U2 is positioned I am doing it.
  • the output control unit 230 can realize the above-described processing by controlling the beamforming function of the audio output unit 120.
  • the output control unit 230 displays the price information that the user U1 considers important at a position where the user U1 can easily view, and the user U2 easily recognizes the location information that the user U2 considers important It may be displayed at the position. According to the above-described function of the output control unit 230 according to the present embodiment, the user can more easily perceive information related to the important part, and the convenience of information presentation can be enhanced.
  • the output control unit 230 may control acceptability of the operation input during the output of the voice utterance according to the output positions of the important parts related to the plurality of users.
  • FIG. 11 is a diagram for describing acceptance control of operation input according to the present embodiment. In FIG. 11, as in the case of FIG. 10, the output positions of the important parts IP1 and IP2 corresponding to the users U1 and U2 are shown as visual information VI8.
  • the user U1 performs an utterance UO6 instructing the output of the next restaurant information at the timing when the output of the important part IP1 corresponding to the price information that the user considers important is finished.
  • the voice output of the important part IP2 corresponding to the location information that the user U2 considers to be important has not been completed.
  • the output control unit 230 may perform control so as not to accept the operation by the user U1 until the voice output corresponding to the important part IP2 corresponding to the user U2 is completed. . That is, the output control unit 230 according to the present embodiment does not accept the operation input by the second user (user U1) before or during the output of the important part corresponding to the first user (user U2). It is possible to prevent the first user from listening to the voice utterance corresponding to the important part.
  • the output control unit 230 may indicate that the operation input is not explicitly received by displaying the icon I1 or the like.
  • the operation input as described above includes barge-in speech as shown in FIG. 11 and stop processing of information output by button operation or the like. According to the above-described function of the output control unit 230 according to the present embodiment, it is possible to effectively prevent the interrupt process by another user before the voice output of the important part is completed.
  • the output control unit 230 can also control the output of voice utterance and visual information based on the operation input detected before the output of the important part. For example, when the user U1 performs an utterance UO6 that is a barge-in utterance at the timing shown in FIG. 11, the output control unit 230 responds to the important part IP2 based on the fact that the voice output of the important part IP2 is not completed. After the completion of the voice output, the process may shift to presentation of the next restaurant information. The output control unit 230 can also shift to presentation of the next restaurant information after displaying the corresponding location information corresponding to the important part IP2 as the visual information VI8.
  • the output control unit 230 when the output control unit 230 according to the present embodiment detects the operation input of the second user during the output of the important part corresponding to the first user, the output control unit 230 is based on the concentration of the first user. It is also possible to control the acceptability of the operation input.
  • FIG. 12 is a diagram for describing acceptance control of an operation input based on the concentration degree of the user according to the present embodiment.
  • the user U1 instructs the output of the next restaurant information at the timing when the voice output of the important part IP1 corresponding to the price information regarded as important by itself ends. UO7 is being done.
  • the output control unit 230 accepts an operation input by the user U1 based on the detection that the concentration of the user U2 is low during voice output corresponding to the important part IP2, It may move to presentation of the next restaurant information.
  • the overall convenience can be achieved by excluding the influence of the user who is not concentrating on speech and by preferentially accepting the instructions from other users. It is possible to improve efficiently.
  • the output control unit 230 may visually display the degree of concentration of the user detected by the recognition unit 210.
  • FIG. 13 is a diagram for describing display control of the degree of concentration according to the present embodiment.
  • FIG. 13 shows visual information VI10 displayed in a virtual space shared by a plurality of users.
  • the output control unit 230 according to the present embodiment can realize, for example, output control of the visual information VI 10 displayed by the head mounted display type information processing terminal 10.
  • the output control unit 230 may control, for example, the output of the information presentation by the virtual character C. Specifically, the output control unit 230 controls the visual information related to the virtual character C, and controls the output of the voice utterance SO11 corresponding to the speech of the virtual character C. Further, the output control unit 230 displays the output position of the important part IP1 or IP2 in the speech utterance SO11 using the bar B or the pointer P.
  • the output control unit 230 corresponds avatar A to other users by displaying avatar A and an icon I2 indicating the concentration degree of the user corresponding to avatar A in association with each other.
  • the user can perceive the degree of concentration of the user's voice utterance SO11.
  • the user U2 views the icon I2 to make the user U1 the important part IP1. It can be understood that it is concentrating on the corresponding audio output.
  • the output control unit 230 according to the present embodiment, it becomes possible for the user to visually grasp the degree of concentration of another user, and the other user's listening behavior unwillingly Can be prevented.
  • FIG. 14 is a flowchart showing the flow of processing by the information processing server 20 according to the present embodiment.
  • the terminal communication unit 260 of the information processing server 20 receives the collected information collected by the information processing terminal 10 (S1101).
  • the above-mentioned collected information includes sound information including the user's speech, image information including the user, and sensor information related to the user.
  • the recognition unit 210 recognizes the user based on the collected information received in step S1101 (S1102). In addition, the recognition unit 210 may continuously recognize the user's state or action, and calculate the degree of concentration or the like.
  • the setting unit 220 acquires a model corresponding to the user recognized in step S1102 from the model DB 254 (S1103). At this time, the setting unit 220 may acquire an individual model corresponding to the user identified in step S1102 or may acquire a common model corresponding to the attribute of the recognized user.
  • the setting unit 220 sets an important part in the speech utterance based on the model acquired in step S1103 (S1104).
  • the output control unit 230 causes the speech synthesis unit 240 to synthesize an artificial speech corresponding to the speech utterance including the important part set in step S1104 (S1105).
  • the output control unit 230 performs output control of the speech utterance and displays the output position of the important part calculated based on the important part set in step S1103 and the artificial voice synthesized in step S1105. It is displayed on the part 110 (S1106).
  • the output control unit 230 controls whether or not the user can accept an operation input (S1107).
  • the setting unit 220 updates the corresponding model based on the response utterance or response (S1108).
  • FIG. 15 is a block diagram illustrating an exemplary hardware configuration of the information processing terminal 10 and the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing terminal 10 and the information processing server 20 include, for example, a CPU 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, and an input device 878. , An output device 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted. In addition, components other than the components shown here may be further included.
  • the CPU 871 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation or a part of each component based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901.
  • the ROM 872 is a means for storing a program read by the CPU 871, data used for an operation, and the like.
  • the RAM 873 temporarily or permanently stores, for example, a program read by the CPU 871 and various parameters appropriately changed when the program is executed.
  • the CPU 871, the ROM 872, and the RAM 873 are mutually connected via, for example, a host bus 874 capable of high-speed data transmission.
  • host bus 874 is connected to external bus 876, which has a relatively low data transmission speed, via bridge 875, for example.
  • the external bus 876 is connected to various components via an interface 877.
  • Input device 8708 For the input device 878, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, and the like are used. Furthermore, as the input device 878, a remote controller (hereinafter, remote control) capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • the input device 878 also includes a voice input device such as a microphone.
  • the output device 879 is a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, a speaker, an audio output device such as a headphone, a printer, a mobile phone, or a facsimile. It is a device that can be notified visually or aurally. Also, the output device 879 according to the present disclosure includes various vibration devices capable of outputting haptic stimulation.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 901, for example.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, DVD media, Blu-ray (registered trademark) media, HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact IC chip, an electronic device, or the like.
  • connection port 882 is, for example, a port for connecting an externally connected device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an externally connected device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network.
  • a communication card for wired or wireless LAN Bluetooth (registered trademark) or WUSB (Wireless USB), a router for optical communication, ADSL (Asymmetric Digital) (Subscriber Line) router, or modem for various communications.
  • Bluetooth registered trademark
  • WUSB Wireless USB
  • ADSL Asymmetric Digital
  • Subscriber Line Subscriber Line
  • the information processing server 20 can cause the information processing terminal 10 to output a voice utterance and can visually display the output position of the important part in the voice utterance. . According to such a configuration, it is possible to make the user perceive the output position of the important part in the information presentation by speech utterance.
  • each step concerning processing of information processing server 20 of this specification does not necessarily need to be processed in chronological order according to the order described in the flowchart.
  • the steps related to the processing of the information processing server 20 may be processed in an order different from the order described in the flowchart or may be processed in parallel.
  • An output control unit that controls an output of a voice utterance related to information presentation; Equipped with The output control unit outputs the voice utterance and visually displays the output position of the important part in the voice utterance.
  • Information processing device (2)
  • the speech utterance includes the important part including information estimated to be higher priority for the user, and a non-important part including information having a lower priority than the important part.
  • the information processing apparatus according to (1).
  • the output control unit associates and outputs the progress related to the output of the voice utterance and the output position of the important part.
  • the information processing apparatus according to (1) or (2).
  • the output control unit displays the output position of the important part based on an individual model set for each user.
  • the information processing apparatus according to any one of the above (1) to (3).
  • the output control unit displays an output position of the important part corresponding to each of a plurality of the users based on the individual models of the plurality of the users.
  • the information processing apparatus according to (4).
  • the output control unit displays the output position of the important part based on a common model set commonly to a plurality of users.
  • the information processing apparatus according to any one of the above (1) to (3).
  • the output control unit displays the output position of the important part based on the common model corresponding to the attribute of the user.
  • the information processing apparatus according to (6).
  • the output control unit controls acceptability of an operation input during output of the voice utterance.
  • the information processing apparatus according to any one of the above (1) to (7).
  • the output control unit does not accept the operation input by the second user before or during the output of the important unit corresponding to the first user.
  • the information processing apparatus according to (8). (10) The output control unit receives the operation input based on the concentration degree of the first user when detecting the operation input of the second user during the output of the important part corresponding to the first user. Control the availability, The information processing apparatus according to (8).
  • (11) The output control unit controls the output of at least one of the voice utterance and the visual information based on the operation input detected before or during the output of the important part.
  • (12) The operation input includes barge-in speech.
  • the individual model is generated based on the user's utterance.
  • the individual model is generated based on the user's response to the information presentation.
  • a setting unit configured to set the important part based on the recognized user; Further comprising The information processing apparatus according to any one of the above (1) to (14).
  • the setting unit generates an individual model corresponding to each user.
  • a voice output unit that outputs the voice utterance based on control by the output control unit; Further comprising The information processing apparatus according to any one of the above (1) to (17).
  • the processor controlling the output of speech utterances related to information presentation; Including The controlling may output the voice utterance and visually display the output position of the important part in the voice utterance. Further include, Information processing method.
  • Computer An output control unit that controls an output of a voice utterance related to information presentation; Equipped with The output control unit outputs the voice utterance and visually displays the output position of the important part in the voice utterance.
  • Information processing device Program to function as.
  • information processing terminal 110 display unit 120 voice output unit 130 voice input unit 140 imaging unit 150 sensor unit 160 control unit 170 server communication unit 20 information processing server 210 recognition unit 220 setting unit 230 output control unit 240 speech synthesis unit 250 storage unit 252 User DB 254 Model DB 256 Content DB 260 Terminal communication unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声発話による情報提示において、重要部の出力位置をユーザに知覚させる。 【解決手段】情報提示に係る音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、情報処理装置が提供される。また、プロセッサが、情報提示に係る音声発話の出力を制御すること、を含み、前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、音声を用いてユーザに情報提示を行う種々の装置が普及している。また、音声による情報提示に関し、ユーザの利便性を高めるための技術が多く開発されている。例えば、特許文献1には、合成音声に係る発話時間を表示する音声合成装置が開示されている。
実開昭60-3898号公報
 特許文献1に記載の音声合成装置によれば、ユーザが出力される音声の長さを把握することが可能となる。しかし、特許文献1に記載の技術では、ユーザが求める情報に対応する音声がいつ出力されるかを当該ユーザに知覚させることが困難である。
 そこで、本開示では、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、情報提示に係る音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、情報提示に係る音声発話の出力を制御すること、を含み、前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、をさらに含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、情報提示に係る音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、情報処理装置、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態の概要について説明するための図である。 同実施形態に係る情報処理システムのシステム構成例を示すブロック図である。 同実施形態に係る情報処理端末10の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。 同実施形態に係る問い合わせ発話に基づく個別モデルの生成について説明するための図である。 同実施形態に係るユーザの応答発話に基づく個別モデルの生成について説明するための図である。 同実施形態に係るユーザの応答発話に基づく個別モデルの生成について説明するための図である。 同実施形態に係る情報提示に対するユーザの反応に基づく個別モデルの生成について説明するための図である。 同実施形態に係る共通モデルに基づく出力制御について説明するための図である。 同実施形態に係るユーザの属性に対応する共通モデルを用いた出力制御について説明するための図である。 同実施形態に係る複数の係る複数のユーザに対応した出力制御について説明するための図である。 同実施形態に係る操作入力の受け入れ可否制御について説明するための図である。 同実施形態に係るユーザの集中度に基づく操作入力の受け入れ可否制御について説明するための図である。 同実施形態に係る集中度の表示制御について説明するための図である。 同実施形態に係る情報処理サーバによる処理の流れを示すフローチャートである。 本開示の一実施形態に係る情報処理端末と情報処理サーバとに共通するハードウェア構成例である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.実施形態の概要
  1.2.システム構成例
  1.3.情報処理端末10の機能構成例
  1.4.情報処理サーバ20の機能構成例
  1.5.モデル構築と出力制御の詳細
  1.6.複数のユーザに対応した出力制御
  1.7.処理の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.実施形態の概要>>
 まず、本開示の一実施形態の概要について説明する。上述したとおり、近年では、音声発話によりユーザに情報提示を行う種々の装置が普及している。上記のような装置は、例えば、ユーザの発話による問い合わせに対し、当該問い合わせに対応する回答を音声や視覚情報を用いてユーザに提示することが可能である。
 また、上記のような装置は、問い合わせに対する回答のみならず、種々の情報をユーザに発信することができる。例えば、上記のような装置は、学習したユーザの嗜好等に応じた推薦情報を音声発話や視覚情報によりユーザに提示してもよい。
 しかし、一般的に、音声発話による情報提示では、重要な情報がどのタイミングで出力されるのかをユーザが把握することが困難である。このため、ユーザは、求める情報が出力されるまで音声発話を傾聴する必要があり、高い集中力を求められる。
 また、ユーザが音声発話を最後まで傾聴した場合であっても、ユーザが求める情報が出力されない場合も想定される。この場合、ユーザの時間を不必要に消費させることとなり、利便性を低下させる要因となり得る。
 本開示に係る技術思想は、上記の点に着目して発想されたものであり、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることを可能とする。このために、本開示の一実施形態に係る情報処理装置、情報処理方法、およびプログラムは、音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させること、を特徴の一つとする。
 図1は、本開示の一実施形態の概要について説明するための図である。図1には、情報処理端末10が、ユーザU1に対し、レストランの情報を音声発話SO1および視覚情報VI1を用いて提示する場合の例が示されている。情報処理端末10は、後述する情報処理サーバ20による制御に基づいて、上記の処理を実行してよい。本開示の一実施形態に係る情報処理サーバ20は、例えば、ユーザU1の問い合わせに対する回答として、レストランAの情報を情報処理端末10に出力させることができる。
 この際、本実施形態に係る情報処理サーバ20は、図1に示すように、音声発話における重要部の出力位置を視覚情報VI1として情報処理端末10に出力させてよい。より具体的には、本実施形態に係る情報処理サーバ20は、音声発話SO1に係る全体の出力の長さを示すバーBと、音声発話SO1の出力に係る現在位置を示すポインタPとを含む視覚情報VI1を情報処理端末10に出力させる。すなわち、ポインタPは、音声発話SO1の出力に係る進捗を示す情報である。ユーザU1は、バーBとポインタPとを視認することで、音声発話SO1の出力に係る進捗度合いを把握することができる。
 さらに、本実施形態に係る情報処理サーバ20は、図1に示すように、音声発話SO1における重要部IPの出力位置をバーB上に表示させることができる。ここで、上記の重要部IPとは、音声発話において、ユーザにとってより優先度が高いと推定される情報を含む区間であってよい。
 例えば、レストランAに係る情報提示には、レストランAに係る所在や予算、雰囲気、口コミなど種々の情報が含まれ得る。この際、本実施形態に係る情報処理サーバ20は、上記の情報提示において、ユーザU1にとってより優先度が高い情報を推定し、情報提示に対応する音声発話において当該優先度が高い情報を含む区間を重要部IPとして設定する。また、情報処理サーバ20は、設定した重要部IPの出力位置をバーB上に表示させることができる。
 図1に示す一例の場合、情報処理サーバ20は、ユーザU1にとってより優先度が高いと推定される金額情報を含む区分を重要部IPとして設定し、金額情報と比較して優先度の劣る所在や雰囲気などの情報を含む区間を非重要部として設定している。また、情報処理サーバ20は、重要部IPと非重要部とを含む音声発話を情報処理端末10に出力させると共に、当該音声発話における重要部IPの出力位置を表示させている。
 なお、本実施形態に係る情報処理サーバ20は、ユーザの嗜好、特性、属性などに基づいて優先度および重要部を設定することができる。情報処理サーバ20は、例えば、ユーザの嗜好、特性、属性などに基づいて提示する情報のカテゴリごとに優先度を算出し、優先度が閾値以上の情報を含む区間を重要部として設定してもよい。また、情報処理サーバ20は、提示情報の中でより優先度の高い情報を含む区間を重要部として設定することもできる。
 なお、情報処理サーバ20は、複数の重要部を設定することも可能である。例えば、レストランAに係る情報提示において、金額情報と口コミ情報の優先度が高い場合、情報処理サーバ20は、音声発話において金額情報や口コミ情報を含む区間をそれぞれ重要部として設定してよい。
 このように、本実施形態に係る情報処理サーバ20によれば、ユーザU1が音声発話SO1における重要部IPの出力位置を視覚的に把握することが可能となる。このため、ユーザU1は、重要部IPが出力されるまでの間は音声発話SO1を適度に聞き流したり、重要部IPの出力後には音声発話SO1に対する停止処理やバージイン発話などの操作入力を行うことで、時間をより有効に活用することが可能となる。以下、本実施形態に係る情報処理サーバ20が有する上記の機能について詳細に説明する。
 <<1.2.システム構成例>>
 次に、本開示の一実施形態に係る情報処理システムのシステム構成例について説明する。図2は、本実施形態に係る情報処理システムのシステム構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20とは、互いに通信が行えるようにネットワーク30を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザに対し音声発話および視覚情報を用いた情報提示を行う情報処理装置である。この際、本実施形態に係る情報処理端末10は、音声発話における重要部の出力位置を視覚的に表示することを特徴の一つとする。
 本実施形態に係る情報処理端末10は、音声出力機能および表示機能を有する種々の装置として実現され得る。本実施形態に係る情報処理端末10は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、据え置き型または自律移動型の専用装置であってもよい。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、情報処理端末10による音声発話と視覚情報の出力を制御する機能を有する情報処理装置である。この際、本実施形態に係る情報処理サーバ20は、音声発話における重要部の出力位置を情報処理端末10に視覚的に表示させることを特徴の一つとする。
 (ネットワーク30)
 ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムのシステム構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図3は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、センサ部150、制御部160、およびサーバ通信部170を備える。
 (表示部110)
 本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、音声発話における重要部の出力位置を視覚的に表示することができる。
 このために、本実施形態に係る表示部110は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部110は、プロジェクション機能により視覚情報を出力してもよい。
 (音声出力部120)
 本実施形態に係る音声出力部120は、音声発話などを含む聴覚情報を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、ユーザの問い合わせに対応する回答などを音声発話により出力することができる。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
 (音声入力部130)
 本実施形態に係る音声入力部130は、ユーザによる発話や背景音などの音情報を収集する機能を有する。音声入力部130が収集する音情報は、情報処理サーバ20による音声認識や行動認識に用いられる。実施形態に係る音声入力部130は、音情報を収集するためのマイクロフォンを備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや周囲環境を含む画像を撮像する機能を有する。撮像部140が撮像した画像は、情報処理サーバ20によるユーザ認識や行動認識に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (センサ部150)
 本実施形態に係るセンサ部150は、ユーザの行動に関する種々のセンサ情報を収集する機能を有する。センサ部150が収集したセンサ情報は、情報処理サーバ20によるユーザの状態認識や行動認識に用いられる。センサ部150は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、光センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
 (制御部160)
 本実施形態に係る制御部160は、情報処理端末10が備える各構成を制御する機能を有する。制御部160は、例えば、各構成の起動や停止を制御する。また、制御部160は、情報処理サーバ20により生成される制御信号を表示部110や音声出力部120に入力することができる。また、本実施形態に係る制御部160は、後述する情報処理サーバ20の出力制御部230と同等の機能を有してもよい。
 (サーバ通信部170)
 本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部170は、音声入力部130が収集した音情報、撮像部140が撮像した画像情報、センサ部150が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部170は、情報処理サーバ20から視覚情報や音声発話の出力に係る制御信号、人工音声を受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10は、図3に示す構成のすべてを必ずしも備えなくてもよい。情報処理端末10は、撮像部140やセンサ部150などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部160は、情報処理サーバ20の出力制御部230と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理サーバ20は、認識部210、設定部220、出力制御部230、音声合成部240、記憶部250、および端末通信部260を備える。また、記憶部250は、ユーザDB252、モデルDB254、およびコンテンツDB256を備える。
 (認識部210)
 本実施形態に係る認識部210は、ユーザに係る種々の認識を行う機能を有する。例えば、認識部210は、情報処理端末10が収集したユーザの発話や画像と、ユーザDB252に予め記憶されるユーザの音声特徴や画像とを比較することでユーザの認識を行うことができる。
 また、認識部210は、情報処理端末10が収集した音情報や画像、センサ情報に基づいて、ユーザの行動や状態を認識することができる。例えば、認識部210は、情報処理端末10が収集したユーザの発話に基づいて音声認識を行い、ユーザの問い合わせやバージイン発話を検出することができる。また、例えば、認識部210は、情報処理端末10が収集した画像やセンサ情報に基づいて、ユーザの視線、表情、ジェスチャ、行動などをを認識することができる。
 (設定部220)
 本実施形態に係る設定部220は、音声発話における重要部を設定する機能を有する。設定部220は、音声発話においてユーザにとってより優先度が高いと推定される情報を含む区間を重要部として設定する。この際、本実施形態に係る設定部220は、ユーザごとに設定される個別モデル、または複数のユーザに共通して設定される共通モデルに基づいて、優先度および重要部の設定を行ってよい。設定部220は、例えば、認識部210が認識したユーザに対応する個別モデルを後述するモデルDB254から取得して優先度および重要部の設定を行うことができる。
 また、設定部220は、例えば、認識部210がユーザを認識できなかった場合には、全ユーザに共通する共通モデルに基づいて、重要部を設定してもよい。また、設定部220は、認識部210が認識したユーザの属性に基づいて、複数の共通モデルから当該属性に対応する共通モデルを取得し、重要部の設定を行うことも可能である。設定部220は、例えば、認識部210が認識したユーザの性別、年齢、使用言語などに基づいて、共通モデルを取得することができる。
 また、本実施形態に係る設定部220は、音声発話に対するユーザの応答発話や反応などに基づいて、個別モデルを生成する機能を有する。設定部220が有する機能の詳細については、別途後述する。
 (出力制御部230)
 本実施形態に係る出力制御部230は、情報提示に係る音声発話の出力を制御する機能を有する。また、本実施形態に係る出力制御部230は音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させる機能を有する。この際、本実施形態に係る出力制御部230は、図1に示したように、バーBやポインタPを用いて、音声発話の出力に係る進捗と重要部の出力位置とを関連付けて表示させてもよい。
 また、本実施形態に係る出力制御部230は、音声発話の出力中における操作入力の受け入れ可否を制御する機能を有する。本実施形態に係る出力制御部230が有する機能の詳細については、別途後述する。
 (音声合成部240)
 本実施形態に係る音声合成部240は、出力制御部230による制御に基づいて、情報処理端末10により出力される人工音声を合成する機能を有する。
 (記憶部250)
 本実施形態に係る記憶部250は、ユーザDB252、モデルDB254、およびコンテンツDB256を備える。
 ((ユーザDB252))
 本実施形態に係るユーザDB252は、ユーザに関する種々の情報を記憶する。ユーザDB252は、例えば、ユーザの顔画像や音声特徴などを記憶する。また、ユーザDB252は、ユーザの性別、年齢、嗜好、傾向などの情報を記憶してもよい。
 ((モデルDB254))
 本実施形態に係るモデルDB254は、ユーザごとに設定される個別モデルや、複数のユーザに共通する共通モデルを記憶する。上述したように、上記の共通モデルは、すべてのユーザに共通するモデルであってもよいし、ユーザの属性ごとに設定されるモデルであってもよい。設定部220は、認識部210によるユーザの認識結果に基づいて対応するモデルをモデルDB254から取得し、重要部の設定を行うことができる。
 ((コンテンツDB256))
 本実施形態に係るコンテンツDB256は、例えば、レストランの情報など種々のコンテンツを記憶する。本実施形態に係る出力制御部230は、コンテンツDB256に記憶される情報を用いて、ユーザの問い合わせに対応する回答や、推薦情報、広告などを、音声発話や視覚情報を用いて出力させることができる。なお、本実施形態に係るコンテンツは、必ずしもコンテンツDB256に記憶されなくてもよい。本実施形態に係る出力制御部230は、例えば、ネットワーク30を介して別の装置からコンテンツを取得してもよい。
 (端末通信部260)
 本実施形態に係る端末通信部260は、ネットワーク30を介して、情報処理端末10との情報通信を行う機能を有する。具体的には、端末通信部260は、情報処理端末10から発話などの音情報、画像情報、センサ情報を受信する。また、端末通信部260は、出力制御部230が生成した制御信号や、音声合成部240が合成した人工音声を情報処理端末10に送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、情報処理サーバ20は、必ずしも図4に示す構成のすべてを備えなくてもよい。認識部210、設定部220、音声合成部240、および記憶部250は、情報処理サーバ20とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.モデル構築と出力制御の詳細>>
 次に、本実施形態に係る情報処理サーバ20によるモデル構築と出力制御の詳細について説明する。上述したように、本実施形態に係る情報処理サーバ20は、重要部と非重要部とを含む音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させることを特徴の一つとする。情報処理サーバ20が有する上記の特徴によれば、音声発話における重要部の出力位置をユーザに明確に知覚させることができ、音声発話を用いた情報提示の利便性を大きく向上させることが可能となる。
 この際、本実施形態に係る情報処理サーバ20は、認識したユーザに対応するモデルを用いて優先度および重要部の設定を行うことができる。より具体的には、本実施形態に係る設定部220は、認識部210による認識結果に基づいて、ユーザごとに設定される個別モデル、または複数のユーザに共通して設定される共通モデルを取得し、優先度および重要部の設定を行うことができる。
 上述したように、本実施形態に係る重要部は、音声発話により提示される情報のうち、ユーザにとってより優先度が高いと推定される情報を含む区間である。例えば、図1に例示したレストランに係る情報提示の場合、ユーザによって重要視する情報、すなわち優先度の高い情報は異なることが推定される。例えば、あるユーザは価格情報に関心を持つ一方、別のユーザは、雰囲気や立地などを重要視することも考えられる。
 このため、本実施形態に係る情報処理サーバ20は、ユーザごとに個別モデルを生成し、当該個別モデルに基づいて重要部の設定を行うことで、ユーザごとのニーズに応じた出力制御を実現することが可能である。この際、本実施形態に係る設定部220は、例えば、ユーザの発話に基づいて、個別モデルを生成してもよい。ここで、上記のユーザの発話は、例えば、問い合わせに係る発話を含む。
 図5は、本実施形態に係る問い合わせ発話に基づく個別モデルの生成について説明するための図である。図5には、ユーザU1が情報処理端末10に対し、発話UO1およびUO2による問い合わせを行っている状況が示されている。ここで、問い合わせに係る発話UO1およびUO2は、共にレストランの情報提示に対するリクエストであってよい。
 この際、本実施形態に係る設定部220は、認識部210が認識したユーザU1の発話UO1およびUO2に含まれる語彙に基づいてユーザU1に対応する個別モデルを生成することができる。設定部220は、例えば、発話UO1に含まれる「安いお店」をいう語彙や、発話UO2に含まれる「予算は、3000円」という語彙に基づいて、ユーザU1が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成してよい。
 また、上記のユーザの発話は、問い合わせに限定されない。本実施形態に係る設定部220は、出力された音声発話に対するユーザの応答発話に基づいて、個別モデルの生成を行うことも可能である。
 図6Aおよび6Bは、ユーザの応答発話に基づく個別モデルの生成について説明するための図である。図6Aには、情報処理端末10が出力する音声発話SO2に対し、ユーザU1が応答を示す発話UO3を行っている状況が示されている。この際、ユーザU1は、音声発話SO2に含まれる価格情報が出力されたタイミングで発話UO3を行っており、また、発話UO3は、次のレストラン情報の出力を指示するバージイン発話である。
 この際、本実施形態に係る設定部220は、応答を示す発話UO3が検出された際に出力されていた情報が価格情報であること、また、発話UO3が次のレストラン情報の出力を指示するバージイン発話であることに基づいて、ユーザU1が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成してよい。
 また、図6Bには、情報処理端末10が出力する音声発話SO3に対し、ユーザU1が応答を示す発話UO4を行っている状況が示されている。この際、ユーザU1は、音声発話SO3に含まれる価格情報が出力されたタイミングで発話UO4を行っており、また、発話UO4は、詳細情報の出力を指示するバージイン発話である。
 この際、本実施形態に係る設定部220は、応答を示す発話UO4が検出された際に出力されていた情報が価格情報であること、また、発話UO4が詳細情報の出力を指示するバージイン発話であることに基づいて、ユーザU1が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成することができる。
 このように、本実施形態に係る設定部220は、バージイン発話などの応答発話と出力中の音声発話とに基づいて、ユーザが重要視する項目を推定し、個別モデルを生成することが可能である。本実施形態に係る設定部220が有する上記の機能によれば、出力される音声発話に対するユーザの応答発話をモニタリングすることで、ユーザが重要視する項目を精度高く推定することが可能となる。
 また、本実施形態に係る設定部220は、発話に依らないユーザの反応に基づいて、個別モデルの生成を行ってもよい。図7は、情報提示に対するユーザの反応に基づく個別モデルの生成について説明するための図である。図7には、情報処理端末10が出力する音声発話SO4および視覚情報VI4に対するユーザU1の反応が示されている。ここで、上記の反応には、例えば、ユーザの表情、視線、ジェスチャ、行動などを含まれる。図7に示す一例では、ユーザU1が、視覚情報VI4に含まれる価格情報を注視している状況が示されている。
 この際、本実施形態に係る設定部220は、ユーザU1が表示される価格情報を注視していることに基づいて、ユーザU1が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成することができる。
 設定部220は、例えば、立地や雰囲気に関する情報の音声出力時にユーザU1が当該音声出力を集中して聴いていないことが認識された場合、ユーザU1が立地や雰囲気を重要視していないと推定し、当該推定結果を個別モデルに反映してもよい。このように、本実施形態に係る設定部220によれば、ユーザの種々の反応に基づいた精度の高い個別モデルを生成することが可能である。
 以上、本実施形態に係る個別モデルについて詳細に説明した。続いて、本実施形態に係る共通モデルに基づく出力制御について詳細に説明する。例えば、ユーザの傾向に関する情報が十分に蓄積されていない場合や、情報処理端末10が不特定多数のユーザに用いられる装置である場合など、個々のユーザに対し個別モデルに基づく出力制御を行うことが困難な状況も想定される。このような場合、本実施形態に係る情報処理サーバ20は、複数のユーザに共通して設定される共通モデルに基づいて、重要部の出力位置を表示させてもよい。
 図8は、本実施形態に係る共通モデルに基づく出力制御について説明するための図である。図8には、天気の問い合わせに係るユーザU1の発話UO5と、発話UO5に対応して情報処理端末10が出力する音声発話SO5および視覚情報VI5とが示されている。
 この際、本実施形態に係る設定部220は、複数のユーザに共通する共通モデルに従い、重要部の設定を行うことができる。図8に示す一例の場合、設定部220は、音声発話SO5が含む情報のうち、ユーザU1の問い合わせに係る回答に該当する情報を重要部として設定している。具体的には、設定部220は、音声発話SO5が含む情報のうち、問い合わせに係る発話UO5に対応する回答部分「10度です」を重要部として設定してよい。このように、本実施形態に係る共通モデルに基づく出力制御では、ユーザの問い合わせに対する回答部分を重要部として設定することで、ユーザにとってより優先度の高い情報の出力位置をユーザに知覚させることも可能である。
 また、本実施形態に係る情報処理サーバ20は、ユーザの属性に対応する共通モデルに基づいて重要部の出力位置を表示させることもできる。例えば、50代男性のユーザと20代女性のユーザでは、異なる項目を重要視する傾向がある場合も想定される。このため、本実施形態に係る設定部220は、認識部210が認識したユーザの属性に対応した共通モデルを用いて重要部の設定を行うことで、より精度の高い重要部の設定を実現することが可能である。
 図9は、本実施形態に係るユーザの属性に対応する共通モデルを用いた出力制御について説明するための図である。図9に示す一例の場合、設定部220は、認識部210が認識したユーザU1の性別や年齢に基づいて取得した共通モデルに基づいて、ユーザU1が該当する属性のユーザは価格情報を重要視する傾向があることを推定し、当該価格情報を重要部として設定することができる。
 本実施形態に係る設定部220が有する上記の機能によれば、ユーザの個人データが不足している場合や、存在しない場合であっても、精度の高い重要部推定を実現することができ、ユーザの利便性を高めることが可能となる。なお、ユーザの属性に対応する共通モデルは、予め設定されるものであってもよいし、個人モデルの転用により生成されるものであってもよい。例えば、設定部220は、生成した複数の個人モデルを属性ごとに平均化することで属性に対応する共通モデルを生成することも可能である。
 以上、本実施形態に係る個人モデルおよび共通モデルに基づく出力制御について説明した。なお、上記の説明では、出力制御部230がバーBやポインタPなどを用いて重要部の出力位置を視覚的に表示させることを主に説明したが、本実施形態に係る出力制御部230は、上記の例に限らず種々の出力制御を行うことが可能である。
 本実施形態に係る出力制御部230は、例えば、図9に示すように、カウントダウンCを表示することで、重要部IPが音声出力されるまでの時間をより明示的にユーザに提示してもよい。また、出力制御部230は、例えば、「3000円」という価格情報を予め視覚情報IV6に含ませることで、重要部を視覚的にユーザに提示することも可能である。
 また、出力制御部230は、重要部の音声発話に係る出力態様を制御してもよい。例えば、図9に示す一例の場合、出力制御部230は、「よく聞いてください!」という強調句を含んだ音声発話SO6を出力させることで、ユーザU1に重要部が出力されることを強調している。また、出力制御部230は、音声出力SO6に係る音量や声色、韻律などを制御することで、ユーザU1の注意を引くことも可能である。
 <<1.6.複数のユーザに対応した出力制御>>
 次に、本実施形態に係る複数のユーザに対応した出力制御について説明する。上記の説明においては、単一のユーザに対する出力制御について説明した。一方、本実施形態に情報処理サーバ20は、複数のユーザが存在する場合であっても、それぞれのユーザに対応した重要部の出力位置表示を適切に制御することが可能である。
 図10は、本実施形態に係る複数の係る複数のユーザに対応した出力制御について説明するための図である。図10には、複数のユーザU1およびU2、情報処理端末10により出力される視覚情報IV7、音声発話SO7およびSO8が示されている。
 この際、本実施形態に係る設定部220は、認識部210が認識したユーザU1よびU2に対応するモデルをそれぞれモデルDB254から取得し、ユーザU1およびU2に対しそれぞれ別途に重要部の設定を行う。図10に示す一例の場合、設定部220は、ユーザU1に対しては価格情報を重要部として設定し、ユーザU2に対しては立地情報を重要部として設定している。
 また、出力制御部230は、設定部220が設定した重要度に基づいて、複数のユーザU1およびU2のそれぞれに対応した重要部IP1およびIP2の出力位置を表示させている。このように、本実施形態に係る情報処理サーバ20によれば、複数のユーザが存在する場合であっても、当該複数のユーザに対応する個別モデルに基づいて、ユーザのそれぞれに対応した重要部の出力位置を表示させることができる。本実施形態に係る情報処理サーバ20が有する上記の機能によれば、複数のユーザが、それぞれが求める情報がいつ出力されるのかを把握することができ、より利便性の高い情報提示を実現することが可能となる。
 また、この際、本実施形態に係る出力制御部230は、認識されたユーザの位置に応じて音声発話や視覚情報の出力を制御してもよい。例えば、図10に示す一例の場合、出力制御部230は、価格情報を含む音声発話SO7をユーザU1の位置する方向に出力させ、立地情報を含む音声発話SO8をユーザU2の位置する方向に出力させている。出力制御部230は、音声出力部120が有するビームフォーミング機能を制御することで、上記の処理を実現することが可能である。
 また、出力制御部230は、図10に示すように、ユーザU1が重要視する価格情報をユーザU1が視認しやすい位置に表示させ、ユーザU2が重要視する立地情報をユーザU2が視認しやすい位置に表示させてもよい。本実施形態に係る出力制御部230が有する上記の機能によれば、ユーザがより重要部に係る情報を知覚しやすくなり、情報提示の利便性を高めることができる。
 また、本実施形態に係る出力制御部230は、複数のユーザに係る重要部の出力位置に応じて、音声発話の出力中における操作入力の受け入れ可否を制御してもよい。図11は、本実施形態に係る操作入力の受け入れ可否制御について説明するための図である。図11には、図10の場合と同様に、ユーザU1およびU2にそれぞれ対応する重要部IP1およびIP2の出力位置が視覚情報VI8として示されている。
 この際、ユーザU1は、自身が重要視する価格情報に対応する重要部IP1の出力が終了したタイミングで、次のレストラン情報の出力を指示する発話UO6を行っている。しかし、図11を参照すると、上記のタイミングでは、ユーザU2が重要視する立地情報に対応する重要部IP2の音声出力が完了していないことがわかる。
 このような場合、本実施形態に係る出力制御部230は、ユーザU2に対応する重要部IP2に対応する音声出力が完了するまでの間は、ユーザU1による操作有力を受け入れない制御を行ってよい。すなわち、本実施形態に係る出力制御部230は、第1のユーザ(ユーザU2)に対応する重要部の出力前または出力中における第2のユーザ(ユーザU1)による操作入力を受け入れないことで、第1のユーザが重要部に対応する音声発話を聞き逃すことを防止することができる。
 また、この際、出力制御部230は、図11に示すように、アイコンI1などを表示させることで、明示的に操作入力を受け付けないことを示してもよい。なお、上記のような操作入力には、図11に示すようなバージイン発話や、ボタン操作などによる情報出力の停止処理が含まれる。本実施形態に係る出力制御部230が有する上記の機能によれば、重要部の音声出力が完了する前における他のユーザによる割り込み処理を効果的に防止することが可能となる。
 一方、本実施形態に係る出力制御部230は、重要部の出力前に検出された操作入力に基づいて、音声発話や視覚情報の出力を制御することもできる。例えば、図11に示すタイミングで、ユーザU1がバージイン発話である発話UO6を行った場合、出力制御部230は、重要部IP2の音声出力が完了していないことに基づいて、重要部IP2に対応する音声出力を完了させてから、次のレストラン情報の提示に移行してもよい。また、出力制御部230は、重要部IP2に対応する対応する立地情報を視覚情報VI8として表示させてから、次のレストラン情報の提示に移行することもできる。
 また、他方で、本実施形態に係る出力制御部230は、第1のユーザに対応する重要部の出力中に第2のユーザの操作入力を検出した場合、第1のユーザの集中度に基づいて、操作入力の受け入れ可否を制御することも可能である。
 図12は、本実施形態に係るユーザの集中度に基づく操作入力の受け入れ可否制御について説明するための図である。図12に示す一例では、図11の場合と同様に、ユーザU1が、自身が重要視する価格情報に対応する重要部IP1の音声出力が終了したタイミングで、次のレストラン情報の出力を指示する発話UO7を行っている。
 一方、図12に示す一例では、ユーザU2は、自身が重要視する立地情報に対応する重要部IP2の音声出力が開始されているにも関わらず、音声発話SO10を聴いていない。このような場合、本実施形態に係る出力制御部230は、重要部IP2に対応する音声出力中にユーザU2の集中度が低いと検出されたことに基づいて、ユーザU1による操作入力を受け入れ、次のレストラン情報の提示に移行してもよい。本実施形態に係る出力制御部230が有する上記の機能によれば、音声発話に集中していないユーザの影響を排除し、他のユーザによる指示を優先的に受け入れることで、全体の利便性を効率的に向上させることが可能となる。
 また、本実施形態に係る出力制御部230は、認識部210が検出したユーザの集中度を視覚的に表示させてもよい。図13は、本実施形態に係る集中度の表示制御について説明するための図である。図13には、複数のユーザが共有する仮想空間において表示される視覚情報VI10が示されている。このように、本実施形態に係る出力制御部230は、例えば、ヘッドマウントディスプレイ型の情報処理端末10により表示される視覚情報VI10の出力制御を実現することができる。
 この際、出力制御部230は、例えば、仮想キャラクターCによる情報提示の出力を制御してもよい。具体的には、出力制御部230は、仮想キャラクターCに係る視覚情報の制御や、仮想キャラクターCの台詞に対応する音声発話SO11の出力を制御する。また、出力制御部230は、音声発話SO11における重要部IP1やIP2の出力位置をバーBやポインタPを用いて表示させる。
 このような仮想空間においては、複数のユーザは互いに実体を知覚できない場合も多く、各ユーザは、例えば、アバターAなどを介して他のユーザの状態を把握することができる。このため、各ユーザは、他のユーザが実際にどれだけ集中して発話音声SO11に傾聴しているかを判断することが困難である。
 このため、本実施形態に係る出力制御部230は、アバターAと当該アバターAに対応するユーザの集中度を示すアイコンI2とを対応付けて表示させることで、他のユーザに、アバターAに対応するユーザの音声発話SO11に対する集中度を知覚させることができる。
 例えば、視覚情報VI10が図12に示したユーザU2の視点であり、アバターAに対応するユーザがユーザU1である場合、ユーザU2は、アイコンI2を視認することで、ユーザU1が重要部IP1に対応する音声出力に集中していることを把握することができる。このように、本実施形態に係る出力制御部230が有する上記の機能によれば、ユーザが他のユーザの集中度を視覚的に把握することが可能となり、不本意に他のユーザの傾聴行動を阻害することを防ぐことが可能となる。
 <<1.7.処理の流れ>>
 次に、本実施形態に係る情報処理サーバ20による処理の流れについて詳細に説明する。図14は、本実施形態に係る情報処理サーバ20による処理の流れを示すフローチャートである。
 図14を参照すると、まず、情報処理サーバ20の端末通信部260が、情報処理端末10により収集された収集情報を受信する(S1101)。ここで、上記の収集情報には、ユーザの発話を含む音情報、ユーザを含む画像情報、またユーザに係るセンサ情報が含まれる。
 続いて、認識部210は、ステップS1101において受信された収集情報に基づいて、ユーザの認識を行う(S1102)。また、認識部210は、継続してユーザの状態や行動を認識し、集中度などの算出を行ってよい。
 次に、設定部220は、ステップS1102において認識されたユーザに対応するモデルをモデルDB254から取得する(S1103)。この際、設定部220は、ステップS1102において特定されたユーザに対応する個別モデルを取得してもよいし、認識されたユーザの属性に対応する共通モデルを取得してもよい。
 続いて、設定部220は、ステップS1103において取得したモデルに基づいて、音声発話における重要部の設定を行う(S1104)。
 次に、出力制御部230は、ステップS1104において設定された重要部を含む音声発話に対応する人工音声を音声合成部240に合成させる(S1105)。
 続いて、出力制御部230は、音声発話の出力制御を行うと共に、ステップS1103において設定された重要部と、ステップS1105において合成された人工音声とに基づいて算出した当該重要部の出力位置を表示部110に表示させる(S1106)。
 また、出力制御部230は、ステップS1106における出力制御と並行して、ユーザによる操作入力の受け入れ可否を制御する(S1107)。
 また、設定部220は、音声発話に対するユーザの応答発話や反応が検出された場合、当該応答発話や反応に基づいて、対応するモデルを更新する(S1108)。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図15は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図15を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (CPU871)
 CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、情報処理端末10に音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させることができる。係る構成によれば、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 情報提示に係る音声発話の出力を制御する出力制御部、
 を備え、
 前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
情報処理装置。
(2)
 前記音声発話は、ユーザにとってより優先度が高いと推定される情報を含む前記重要部と、前記重要部と比較して優先度の劣る情報を含む非重要部と、を含む、
前記(1)に記載の情報処理装置。
(3)
 前記出力制御部は、前記音声発話の出力に係る進捗と前記重要部の出力位置とを関連付けて出力させる、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記出力制御部は、ユーザごとに設定される個別モデルに基づいて前記重要部の出力位置を表示させる、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記出力制御部は、複数の前記ユーザに係る前記個別モデルに基づいて、複数の前記ユーザのそれぞれに対応した前記重要部の出力位置を表示させる、
前記(4)に記載の情報処理装置。
(6)
 前記出力制御部は、複数のユーザに共通して設定される共通モデルに基づいて前記重要部の出力位置を表示させる、
前記(1)~(3)のいずれかに記載の情報処理装置。
(7)
 前記出力制御部は、前記ユーザの属性に対応する前記共通モデルに基づいて前記重要部の出力位置を表示させる、
前記(6)に記載の情報処理装置。
(8)
 前記出力制御部は、前記音声発話の出力中における操作入力の受け入れ可否を制御する、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
 前記出力制御部は、第1のユーザに対応する前記重要部の出力前または出力中における第2のユーザによる前記操作入力を受け入れない、
前記(8)に記載の情報処理装置。
(10)
 前記出力制御部は、第1のユーザに対応する前記重要部の出力中に第2のユーザの前記操作入力を検出した場合、前記第1のユーザの集中度に基づいて、前記操作入力の受け入れ可否を制御する、
前記(8)に記載の情報処理装置。
(11)
 前記出力制御部は、前記重要部の出力前または出力中に検出された前記操作入力に基づいて、前記音声発話または視覚情報のうち少なくともいずれかの出力を制御する、
前記(8)~(10)のいずれかに記載の情報処理装置。
(12)
 前記操作入力は、バージイン発話を含む、
前記(8)~(11)のいずれかに記載の情報処理装置。
(13)
 前記個別モデルは、前記ユーザの発話に基づいて生成される、
前記(4)または(5)に記載の情報処理装置。
(14)
 前記個別モデルは、前記情報提示に対する前記ユーザの反応に基づいて生成される、
前記(4)、5、または13に記載の情報処理装置。
(15)
 認識されたユーザに基づいて前記重要部を設定する設定部、
 をさらに備える、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
 前記設定部は、前記ユーザごとに対応する個別モデルを生成する、
前記(15)に記載の情報処理装置。
(17)
 前記出力制御部による制御に基づいて前記重要部の出力位置を表示する表示部、
 をさらに備える、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
 前記出力制御部による制御に基づいて前記音声発話を出力する音声出力部、
 をさらに備える、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 プロセッサが、情報提示に係る音声発話の出力を制御すること、
 を含み、
 前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、
 をさらに含む、
情報処理方法。
(20)
 コンピュータを、
 情報提示に係る音声発話の出力を制御する出力制御部、
 を備え、
 前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
 情報処理装置、
として機能させるためのプログラム。
 10   情報処理端末
 110  表示部
 120  音声出力部
 130  音声入力部
 140  撮像部
 150  センサ部
 160  制御部
 170  サーバ通信部
 20   情報処理サーバ
 210  認識部
 220  設定部
 230  出力制御部
 240  音声合成部
 250  記憶部
 252  ユーザDB
 254  モデルDB
 256  コンテンツDB
 260  端末通信部

Claims (20)

  1.  情報提示に係る音声発話の出力を制御する出力制御部、
     を備え、
     前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
    情報処理装置。
  2.  前記音声発話は、ユーザにとってより優先度が高いと推定される情報を含む前記重要部と、前記重要部と比較して優先度の劣る情報を含む非重要部と、を含む、
    請求項1に記載の情報処理装置。
  3.  前記出力制御部は、前記音声発話の出力に係る進捗と前記重要部の出力位置とを関連付けて出力させる、
    請求項1に記載の情報処理装置。
  4.  前記出力制御部は、ユーザごとに設定される個別モデルに基づいて前記重要部の出力位置を表示させる、
    請求項1に記載の情報処理装置。
  5.  前記出力制御部は、複数の前記ユーザに係る前記個別モデルに基づいて、複数の前記ユーザのそれぞれに対応した前記重要部の出力位置を表示させる、
    請求項4に記載の情報処理装置。
  6.  前記出力制御部は、複数のユーザに共通して設定される共通モデルに基づいて前記重要部の出力位置を表示させる、
    請求項1に記載の情報処理装置。
  7.  前記出力制御部は、前記ユーザの属性に対応する前記共通モデルに基づいて前記重要部の出力位置を表示させる、
    請求項6に記載の情報処理装置。
  8.  前記出力制御部は、前記音声発話の出力中における操作入力の受け入れ可否を制御する、
    請求項1に記載の情報処理装置。
  9.  前記出力制御部は、第1のユーザに対応する前記重要部の出力前または出力中における第2のユーザによる前記操作入力を受け入れない、
    請求項8に記載の情報処理装置。
  10.  前記出力制御部は、第1のユーザに対応する前記重要部の出力中に第2のユーザの前記操作入力を検出した場合、前記第1のユーザの集中度に基づいて、前記操作入力の受け入れ可否を制御する、
    請求項8に記載の情報処理装置。
  11.  前記出力制御部は、前記重要部の出力前または出力中に検出された前記操作入力に基づいて、前記音声発話または視覚情報のうち少なくともいずれかの出力を制御する、
    請求項8に記載の情報処理装置。
  12.  前記操作入力は、バージイン発話を含む、
    請求項8に記載の情報処理装置。
  13.  前記個別モデルは、前記ユーザの発話に基づいて生成される、
    請求項4に記載の情報処理装置。
  14.  前記個別モデルは、前記情報提示に対する前記ユーザの反応に基づいて生成される、
    請求項4に記載の情報処理装置。
  15.  認識されたユーザに基づいて前記重要部を設定する設定部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  16.  前記設定部は、前記ユーザごとに対応する個別モデルを生成する、
    請求項15に記載の情報処理装置。
  17.  前記出力制御部による制御に基づいて前記重要部の出力位置を表示する表示部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  18.  前記出力制御部による制御に基づいて前記音声発話を出力する音声出力部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  19.  プロセッサが、情報提示に係る音声発話の出力を制御すること、
     を含み、
     前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、
     をさらに含む、
    情報処理方法。
  20.  コンピュータを、
     情報提示に係る音声発話の出力を制御する出力制御部、
     を備え、
     前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2018/016400 2017-07-26 2018-04-23 情報処理装置、情報処理方法、およびプログラム WO2019021553A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/631,889 US11244682B2 (en) 2017-07-26 2018-04-23 Information processing device and information processing method
EP18839071.0A EP3660838A4 (en) 2017-07-26 2018-04-23 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-144362 2017-07-26
JP2017144362 2017-07-26

Publications (1)

Publication Number Publication Date
WO2019021553A1 true WO2019021553A1 (ja) 2019-01-31

Family

ID=65039515

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/016400 WO2019021553A1 (ja) 2017-07-26 2018-04-23 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US11244682B2 (ja)
EP (1) EP3660838A4 (ja)
WO (1) WO2019021553A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110125946A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 自动通话方法、装置、电子设备及计算机可读介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110959174A (zh) * 2017-08-01 2020-04-03 索尼公司 信息处理装置、信息处理方法以及程序
US11004449B2 (en) * 2018-11-29 2021-05-11 International Business Machines Corporation Vocal utterance based item inventory actions
US11520079B2 (en) 2019-02-01 2022-12-06 Vidubly Ltd Personalizing weather forecast
US11202131B2 (en) * 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS603898U (ja) 1983-06-20 1985-01-12 三洋電機株式会社 音声合成装置
US20120095983A1 (en) * 2010-10-18 2012-04-19 Samsung Electronics Co., Ltd. Method of providing search service and display device applying the same
JP2012159683A (ja) * 2011-01-31 2012-08-23 Toshiba Corp 電子機器
JP2014038209A (ja) * 2012-08-16 2014-02-27 Toshiba Corp 音声学習装置、方法およびプログラム
JP2014531671A (ja) * 2011-09-23 2014-11-27 アマゾン テクノロジーズ インコーポレイテッド デジタル作品のための補足情報の視覚表現

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743340B2 (en) * 2000-03-16 2010-06-22 Microsoft Corporation Positioning and rendering notification heralds based on user's focus of attention and activity
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US10489449B2 (en) * 2002-05-23 2019-11-26 Gula Consulting Limited Liability Company Computer accepting voice input and/or generating audible output
US7412389B2 (en) * 2005-03-02 2008-08-12 Yang George L Document animation system
US9449526B1 (en) 2011-09-23 2016-09-20 Amazon Technologies, Inc. Generating a game related to a digital work
US9639518B1 (en) 2011-09-23 2017-05-02 Amazon Technologies, Inc. Identifying entities in a digital work
US9613003B1 (en) 2011-09-23 2017-04-04 Amazon Technologies, Inc. Identifying topics in a digital work
KR102184987B1 (ko) 2013-11-15 2020-12-01 엘지전자 주식회사 영상 표시 장치 및 그 동작 방법
KR101827795B1 (ko) * 2016-03-02 2018-03-22 (주)아이쿱 의료상담시스템 및 의료상담프로그램을 기록한 컴퓨팅 장치로 읽을 수 있는 매체
WO2019098037A1 (ja) * 2017-11-15 2019-05-23 ソニー株式会社 情報処理端末、情報処理装置、および情報処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS603898U (ja) 1983-06-20 1985-01-12 三洋電機株式会社 音声合成装置
US20120095983A1 (en) * 2010-10-18 2012-04-19 Samsung Electronics Co., Ltd. Method of providing search service and display device applying the same
JP2012159683A (ja) * 2011-01-31 2012-08-23 Toshiba Corp 電子機器
JP2014531671A (ja) * 2011-09-23 2014-11-27 アマゾン テクノロジーズ インコーポレイテッド デジタル作品のための補足情報の視覚表現
JP2014038209A (ja) * 2012-08-16 2014-02-27 Toshiba Corp 音声学習装置、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKEMURA, HARUO: "Ambient interface, it's goal and strategies for the realization", JOURNAL OF HUMAN INTERFACE SOCIETY: HUMAN INTERFACE, vol. 11, no. 4, 25 November 2009 (2009-11-25), pages 15 - 20, XP009518522, ISSN: 1344-7254 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110125946A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 自动通话方法、装置、电子设备及计算机可读介质
CN110125946B (zh) * 2019-04-23 2021-08-27 北京淇瑀信息科技有限公司 自动通话方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
US11244682B2 (en) 2022-02-08
EP3660838A1 (en) 2020-06-03
US20200143813A1 (en) 2020-05-07
EP3660838A4 (en) 2020-09-09

Similar Documents

Publication Publication Date Title
WO2019021553A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102089487B1 (ko) 디지털 어시스턴트 서비스의 원거리 확장
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019050019A (ja) 提案される音声ベースのアクションクエリの提供
US10684754B2 (en) Method of providing visual sound image and electronic device implementing the same
JP6044553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN117033578A (zh) 基于设备间对话通信的主动协助
US10586528B2 (en) Domain-specific speech recognizers in a digital medium environment
WO2021083125A1 (zh) 通话控制方法及相关产品
KR20120099443A (ko) 컴퓨팅 디바이스 상에서의 음성 액션들
US11074292B2 (en) Voice tagging of video while recording
US20200327893A1 (en) Information processing device and information processing method
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6973380B2 (ja) 情報処理装置、および情報処理方法
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
JP6828741B2 (ja) 情報処理装置
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7230803B2 (ja) 情報処理装置および情報処理方法
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
EP3983875B1 (en) Electronic apparatus and method for providing manual thereof
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
JPWO2020116001A1 (ja) 情報処理装置および情報処理方法
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18839071

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018839071

Country of ref document: EP

Effective date: 20200226

NENP Non-entry into the national phase

Ref country code: JP