WO2019098037A1 - 情報処理端末、情報処理装置、および情報処理方法 - Google Patents

情報処理端末、情報処理装置、および情報処理方法 Download PDF

Info

Publication number
WO2019098037A1
WO2019098037A1 PCT/JP2018/040662 JP2018040662W WO2019098037A1 WO 2019098037 A1 WO2019098037 A1 WO 2019098037A1 JP 2018040662 W JP2018040662 W JP 2018040662W WO 2019098037 A1 WO2019098037 A1 WO 2019098037A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information processing
content
information
processing terminal
Prior art date
Application number
PCT/JP2018/040662
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
亜由美 中川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/473,105 priority Critical patent/US11120797B2/en
Priority to EP18878630.5A priority patent/EP3570141A4/en
Priority to JP2019527272A priority patent/JP7283384B2/ja
Publication of WO2019098037A1 publication Critical patent/WO2019098037A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes
    • H04N13/359Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes

Definitions

  • the present technology relates to an information processing terminal, an information processing apparatus, and an information processing method, and in particular, an information processing terminal, an information processing apparatus, and an information processing method capable of presenting information by a method according to the state of a user. About.
  • Some devices equipped with a voice assistant function that can be operated by voice are attracting attention.
  • Some devices, so-called smart speakers, have a display.
  • the user can request the presentation of certain information by voice, and can view the presented information in response to the request or the information that the device itself actively presents.
  • Patent Document 1 discloses a technique for detecting an object the user is focusing on based on the user's gaze on the display screen during content reproduction, and presenting information related to the detected object.
  • Patent Document 1 In the case of the technology disclosed in Patent Document 1, it is considered effective when the user continues to concentrate on viewing content. However, as a method of viewing actual content, it is conceivable to view while performing other work, and to view content while being interested or disinterested depending on the content.
  • the present technology has been made in view of such a situation, and enables information to be presented in a method according to the state of the user.
  • An information processing terminal includes: an estimation unit configured to estimate a state of attention of a user; and a presentation control unit that switches an output modal of content to be presented to the user according to the state of attention of the user .
  • An information processing apparatus transmits content to an information processing terminal connected via a network, while the content transmitted from the information processing terminal is being presented.
  • a communication unit for receiving information indicating the user's state, and presentation control information for specifying the presentation method of the content according to the state of the user's attention to the content to the information processing terminal, And a presentation control unit configured to control an output modal of the content in the processing terminal.
  • the state of the user's attention is estimated, and the output modal of the content to be presented to the user is switched according to the state of the user's attention.
  • FIG. 1 is a diagram illustrating an exemplary configuration of an information processing system according to an embodiment of the present technology.
  • the information processing system of FIG. 1 is configured by connecting the information processing terminal 1 and the information presentation server 2 via the Internet 3.
  • the information processing terminal 1 is a device equipped with a so-called voice assistant function that performs various processes for supporting the user's behavior using AI (Artificial Intelligence).
  • AI Artificial Intelligence
  • the function of the information processing terminal 1 is realized, for example, by communicating with the information presentation server 2. For example, a function of searching and presenting information requested by the user by the information processing terminal 1 and the information presentation server 2, a function of managing a user's task, a function of transmitting an e-mail or a social networking service (SNS) message Various functions are realized.
  • a function of searching and presenting information requested by the user by the information processing terminal 1 and the information presentation server 2 For example, a function of searching and presenting information requested by the user by the information processing terminal 1 and the information presentation server 2, a function of managing a user's task, a function of transmitting an e-mail or a social networking service (SNS) message Various functions are realized.
  • SNS social networking service
  • the information processing terminal 1 is installed, for example, at a predetermined position in a home.
  • the information processing terminal 1 is connected to the Internet 3 via a router (not shown) or the like installed in the home.
  • the information processing terminal 1 is a stationary device, but may be a portable device such as a smartphone, a tablet terminal, or a wristwatch-type wearable.
  • the operation of the information processing terminal 1 is mainly performed by a voice UI (User Interface).
  • the information processing terminal 1 is provided with a microphone (microphone) for collecting a user's uttered voice, and a speaker for presenting various information to the user by outputting a synthesized voice.
  • the information processing terminal 1 is provided with an image display device for displaying various screens, such as a projector and a display.
  • the information processing terminal 1 is a device having a role as an interface between the user and the information presentation server 2.
  • the user around the information processing terminal 1 utters, the user's voice is detected by the information processing terminal 1, and the voice data is transmitted from the information processing terminal 1 to the information presentation server 2 Be done.
  • the information presentation server 2 based on the voice data transmitted from the information processing terminal 1, speech recognition, semantic analysis of the contents of speech, and the like are performed. For example, when the user requests a search for information, the information search is performed, and the search result is acquired as presentation information to be presented to the user. In the information presentation server 2, for example, a plurality of presentation information are acquired and transmitted to the information processing terminal 1.
  • the presentation information transmitted from the information presentation server 2 is received by the information processing terminal 1 and presented to the user by an image display device such as a projector.
  • the user can confirm the search result from the screen displayed by the information processing terminal 1, for example, by requesting the information search by voice.
  • presentation of information using voice output and screen display actively activates the information acquired in the information presentation server 2 regardless of the user's request. It is also done by presenting.
  • recommended content information actively presented to the user from the information presentation server 2 side (the information processing terminal 1 side) is referred to as recommended content.
  • advertisements for products, services, and content such as movies and music are presented to the user as recommended content.
  • the recommended content includes, for example, an image which is a still image or a moving image, a text for display, and a text for TTS for outputting as a voice by performing TTS (Text-to-Speech).
  • TTS Text-to-Speech
  • audio data describing the content may be included in the recommended content.
  • the presentation of the recommendation content is realized by the information processing terminal 1 and the information presentation server 2, for convenience of explanation, the information processing terminal 1 will be described as presenting the recommendation content as appropriate.
  • the presentation screen including the image P is projected on the wall near the information processing terminal 1, and the presentation of the recommended content is performed.
  • the image P is an image relating to the recommended content, and in the example of FIG. 1, a building is shown.
  • the music used as BGM is output from the information processing terminal 1 with presentation of a recommendation content.
  • the recommended content including the image P is acquired from the information presentation server 2 via the Internet 3. For example, a plurality of recommended contents are acquired from the information presentation server 2.
  • the information processing terminal 1 when the information processing terminal 1 does not communicate with the user, the information processing terminal 1 actively projects the image of the recommended content or outputs the BGM without depending on the user's request, and outputs the space.
  • the information processing terminal 1 actively projects the image of the recommended content or outputs the BGM without depending on the user's request, and outputs the space.
  • the presentation of the recommended content using the display of such a screen is performed in a slide show format in which images of a plurality of recommended content are sequentially switched and displayed at predetermined time intervals.
  • the user performs various tasks.
  • the presentation of the recommended content may be performed by displaying a moving image, instead of being performed in a slide show format in which images of the plurality of recommended content are sequentially switched at predetermined time intervals.
  • FIG. 2 is a diagram illustrating an example of presentation of recommended content.
  • the slide show reproduction of the image of the recommended content is continued.
  • the recommended content is switched every predetermined time, and an image of each recommended content is displayed. At this time, the voice of narration is not output.
  • the state in which the user's attention is taken represents the state in which the user is focusing on the recommended content. Whether or not the user focuses on the recommended content is specified based on, for example, the direction of the user's gaze.
  • the user's attention is taken.
  • the user is performing other work, when viewing an area other than the presentation screen, or when moving, etc., the user's attention is not obtained.
  • the information processing terminal 1 also has a function of detecting the direction of the line of sight of the user by analyzing the image captured by the camera and detecting the state of attention of the user.
  • FIG. 3 is a diagram illustrating an example of presentation of recommended content according to the state of attention.
  • the information processing terminal 1 since the image P of the recommended content is continuously viewed for a predetermined time or more, when the user's attention is taken, the information processing terminal 1 performs slide show reproduction of the image of the recommended content. Stop and display only the image related to the recommended content viewed by the user. If there are a plurality of images related to the recommended content viewed by the user, the plurality of images are displayed.
  • the information processing terminal 1 outputs a voice of narration relating to the content of the recommended content, as indicated by a balloon, in accordance with the display of the image related to the recommended content viewed by the user.
  • the voice of narration is output based on the text for TTS included in the recommendation content.
  • Audio data in which a human voice is recorded may be included in the recommendation content, and an audio of narration may be output based on the audio data.
  • the information processing terminal 1 superimposes on the image P of the recommended content to display a text regarding the content of the recommended content.
  • the display of the text is performed based on the text for display included in the recommendation content.
  • a text having a content different from the content output by voice is displayed superimposed on the image P of the recommended content.
  • the voice of "It is possible to go on a day trip! Is output the text of "2 hours from Shinjuku Station" different from the content is displayed.
  • the text for TTS is the same as the text for display and a voice with the same content as the content presented in the text for display is output, the same information as the information that can be seen and checked is also presented by voice As a result, the user may feel bothersome to the voice.
  • the information processing terminal 1 gives such feeling to the user by outputting a voice having a content different from the content presented in the text for display, unlike the text for TTS, which is different from the text for display. It is not necessary.
  • quantitative information which is quantitative information represented by numerical values
  • the voice of the narration is constructed, for example, by selecting an adjective that modifies the recommended content and adverbial sentences.
  • Quantitative information is information that is difficult to understand even if presented by voice alone. By presenting quantitative information in text, the user can efficiently understand the presented information.
  • the presentation of the recommended content as shown in FIG. 3 is continued while the user's attention is taken.
  • the user can confirm the details of the information on the recommended content in question by reading the text displayed superimposed on the image P and can also confirm it by listening to the voice of the narration.
  • FIG. 4 is a diagram illustrating another example of presentation of recommended content according to the state of attention.
  • the information processing terminal 1 when the user repeats looking at the image P of the recommended content for a short time (when the user sees intermittently), the information processing terminal 1 performs slide show reproduction of the image of the recommended content. To continue.
  • the information processing terminal 1 outputs a voice of narration relating to the content of the recommended content that the user has flickered.
  • the voice of “If the foot is extended further” is output.
  • the user can listen to information on the recommended content of interest by the voice of the narration while continuing the work.
  • FIG. 5 is a diagram showing the relationship between the state of the user's attention and the modal used for outputting the recommended content.
  • the output modal (output method) of the recommended content includes screen display and audio output.
  • the image of the recommended content in which the user is interested is displayed using the output modal of the screen display, and the text for display is displayed. It is displayed superimposed on the image. Further, the voice of narration relating to the content of the recommended content is output using the output modal of audio output.
  • the image of each recommended content is displayed using the output modal of the screen display. Displayed in slide show format.
  • an output modal of audio output is used to output a voice of narration relating to the content of the recommended content in which the user is interested.
  • the output of narration voice is prioritized as the output modal used for presenting the recommended content. Even when it is recognized that the user is watching the recommended content while working, the same process may be performed as in the case where the time during which the user's attention is taken is short.
  • the presentation of the recommended content mainly includes the output of images such as photographs, pictures, and illustrations, and the output modal of the accompanying information such as the commentary can be switched according to the state of the user's attention.
  • the presentation of the recommended content using such screen display and audio output is dynamically switched according to the state of attention of the user.
  • the output modal is switched in units of good breaks.
  • the presentation before and after the switching may be duplicated so that there is no overheard speech or overlooked text.
  • the presentation of the recommended content according to the state of the attention of the user is performed not only when the information processing terminal 1 actively presents the recommended content, but also when presenting the recommended content in response to a request from the user.
  • FIG. 6 is a diagram showing another example of presentation of recommended content according to the state of attention.
  • the image of a tourist spot is displayed during the slide show reproduction of the image of the recommended content, and the user sees the image as shown by the broken arrow in FIG. It shall be done.
  • the information processing terminal 1 it is determined that the user's attention is taken. Further, voice data of the user is transmitted to the information presentation server 2.
  • the information presentation server 2 based on the voice of the user, a search for information on a coffee shop located near the tourist spot is performed, and the search result is transmitted to the information processing terminal 1.
  • the information processing terminal 1 uses information corresponding to the user's inquiry using the output modal of screen display as shown in FIG. To present.
  • the information of the coffee shop near the sightseeing spot designated by the user is displayed as a search result.
  • the information processing terminal 1 switches the output modal according to the state of attention of the user to present information.
  • FIG. 9 is a block diagram showing an example of the hardware configuration of the information processing terminal 1.
  • a central processing unit (CPU) 51, a read only memory (ROM) 52, and a random access memory (RAM) 53 are mutually connected by a bus 54.
  • the CPU 51 executes a predetermined program to control the overall operation of the information processing terminal 1.
  • the microphone 55, the camera 56, the speaker 57, the display 58, the image display device 59, the input unit 60, the storage unit 61, and the communication unit 62 are connected to the bus 54.
  • the microphone 55 detects the speech of the user.
  • the voice data detected by the microphone 55 is supplied to the communication unit 62 and transmitted to the information presentation server 2.
  • the camera 56 captures an image of the surroundings of the information processing terminal 1 and outputs an image obtained by capturing to the CPU 51.
  • the image captured by the camera 56 is also transmitted to the information presentation server 2 as appropriate.
  • Various situations are specified based on the image taken by the camera 56.
  • the speaker 57 outputs voice and music such as BGM.
  • the display 58 is configured of an LCD (Liquid Crystal Display), an organic EL (Electro Luminescence) display, or the like.
  • the display 58 displays various screens such as a menu screen and a screen of search results.
  • the image display device 59 is, for example, a projector.
  • the image display device 59 projects various screens such as a presentation screen of the recommended content on a wall surface or a floor surface.
  • the input unit 60 is configured of a touch panel provided overlapping the display 58, and various buttons provided on the housing of the information processing terminal 1.
  • the input unit 60 detects an operation by the user and outputs information representing the content of the operation.
  • the storage unit 61 is configured of a non-volatile memory or the like.
  • the storage unit 61 stores various data such as a program executed by the CPU 51.
  • the communication unit 62 is configured by a network interface or the like.
  • the communication unit 62 communicates with the information presentation server 2 via the Internet 3.
  • Various sensors such as an acceleration sensor, a gyro sensor, and a positioning sensor may be provided in the information processing terminal 1.
  • FIG. 10 is a block diagram showing an example of a functional configuration of the information processing terminal 1. At least a part of the configuration shown in FIG. 10 is realized by the CPU 51 of FIG. 9 executing a predetermined program.
  • the information processing unit 71 includes a user recognition unit 81, a user state estimation unit 82, a user information DB 83, a communication control unit 84, and a presentation control unit 85.
  • the user recognition unit 81 analyzes an image captured by the camera 56 and detects (recognizes) a user who is around the information processing terminal 1.
  • the user recognition unit 81 also detects the direction of the line of sight of the recognized user.
  • the user information DB 83 stores information used for recognition of the user, identification of the direction of the line of sight, and the like.
  • the processing by the user recognition unit 81 is appropriately performed based on the information stored in the user information DB 83.
  • the user recognition unit 81 outputs information representing the recognized direction of the user's gaze to the user state estimation unit 82.
  • the user recognition unit 81 When it is determined based on the user's location, posture, body orientation, etc. whether attention can be obtained, in the user recognition unit 81, the state of the user is specified based on the image captured by the camera 56. Be done. Various types of information representing the state of the user identified by the user recognition unit 81 are supplied to the user state estimation unit 82.
  • the state of the user may not be specified based on only the image captured by the camera 56, but may be specified based on information detected by another sensor provided in the information processing terminal 1. Further, the state of the user may be specified based on information detected by a device external to the information processing terminal 1 such as a portable terminal owned by the user.
  • the user state estimation unit 82 appropriately refers to the information stored in the user information DB 83, and estimates the state of the user's attention recognized by the user recognition unit 81. Information representing the estimation result of the attention state estimated by the user state estimation unit 82 is supplied to the communication control unit 84.
  • the communication control unit 84 controls the communication unit 62 to communicate with the information presentation server 2. For example, the communication control unit 84 transmits the information representing the estimation result of the state of attention, which is supplied from the user state estimation unit 82, to the information presentation server 2. Presentation control information for specifying a presentation method of the recommended content is transmitted from the information presentation server 2 that has received the information indicating the estimation result of the attention state.
  • the communication control unit 84 receives the presentation control information transmitted from the information presentation server 2 and outputs the presentation control information to the presentation control unit 85.
  • the communication control unit 84 also receives the recommended content transmitted from the information presentation server 2.
  • the presentation control unit 85 controls the speaker 57 and the image display device 59 to present the recommended content transmitted from the information presentation server 2. Further, the presentation control unit 85 controls the presentation of the recommended content by switching the output modal in accordance with the presentation control information transmitted from the information presentation server 2.
  • FIG. 11 is a block diagram showing an example of the hardware configuration of the information presentation server 2.
  • the CPU 101, the ROM 102, and the RAM 103 are mutually connected by a bus 104.
  • an input / output interface 105 is connected to the bus 104.
  • the input / output interface 105 is connected to an input unit 106 including a keyboard and a mouse, and an output unit 107 including a display and a speaker.
  • an input unit 106 including a keyboard and a mouse
  • an output unit 107 including a display and a speaker.
  • connected to the input / output interface 105 are a storage unit 108 made of a hard disk or a non-volatile memory, a communication unit 109 made of a network interface, and a drive 110 for driving the removable medium 111.
  • the information presentation server 2 is configured by one computer, but may be configured by a plurality of computers.
  • the functions of the information presentation server 2 are realized by a plurality of computers working in cooperation.
  • FIG. 12 is a block diagram showing an example of a functional configuration of the information presentation server 2. At least a part of the configuration shown in FIG. 12 is realized by the CPU 101 of FIG. 11 executing a predetermined program.
  • an information processing unit 151 is realized in the information presentation server 2.
  • the information processing unit 151 includes a speech recognition unit 161, a semantic analysis unit 162, a presentation information DB 163, and a presentation method control unit 164.
  • a microphone 55, a speaker 57, and an image display device 59 which are components of the information processing terminal 1, are shown in FIG.
  • Voice data detected by the microphone 55 in response to the user's speech and transmitted from the information processing terminal 1 is received by the communication unit 109 and input to the voice recognition unit 161.
  • the recommended content and the presentation control information output from the presentation method control unit 164 are transmitted from the communication unit 109 to the information processing terminal 1 and used for reproducing the sound in the speaker 57 and the screen of the image display device 59. Used for display.
  • Information that is estimated in the information processing terminal 1 and transmitted from the information processing terminal 1 and represents the state of attention of the user is received by the communication unit 109 and input to the presentation method control unit 164.
  • the speech recognition unit 161 recognizes the user's speech and outputs a character string representing the recognition result to the semantic analysis unit 162.
  • the semantic analysis unit 162 analyzes the meaning of the utterance content of the user based on the character string supplied from the speech recognition unit 161. Information representing the analysis result of the meaning of the user's speech is supplied to the presentation method control unit 164.
  • the presentation method control unit 164 reads and acquires the recommended content from the presentation information DB 163, and transmits the recommended content to the information processing terminal 1. In addition, the presentation method control unit 164 generates presentation control information for specifying the presentation method of the recommended content based on the information indicating the state of attention of the user transmitted from the information processing terminal 1, and the information processing terminal 1 Send to The presentation control information includes information for specifying an output modal.
  • the presentation method control unit 164 reads out and acquires information to be presented as a search result from the presentation information DB 163 based on the analysis result by the semantic analysis unit 162.
  • the presentation information DB 163 stores various types of information to be presented to the user. Information to be presented to the user may be acquired from another server on the Internet 3 or another device such as a portable terminal of the user.
  • the presentation method control unit 164 transmits information to be presented to the user to the information processing terminal 1.
  • the process of FIG. 13 is started, for example, when the recommended content is transmitted from the information presentation server 2.
  • the recommended content received by the communication unit 62 is acquired by the communication control unit 84 and supplied to the presentation control unit 85.
  • step S 1 the presentation control unit 85 controls the image display device 59 to display the recommended content transmitted from the information presentation server 2.
  • slide show reproduction of images of a plurality of recommended contents is performed.
  • the user While the slide show reproduction of the image of the recommended content is performed, the user is recognized by the user recognition unit 81 based on the image captured by the camera 56, and the direction of the line of sight is detected.
  • step S ⁇ b> 2 the user state estimation unit 82 estimates the state of attention of the user around the information processing terminal 1 based on the information indicating the direction of the sight line detected by the user recognition unit 81.
  • step S3 the communication control unit 84 transmits information representing the estimation result of the state of attention to the information presentation server 2.
  • the transmission of the information representing the estimation result of the state of attention to the information presentation server 2 is repeated while the slide show reproduction of the image of the recommended content is performed.
  • Presentation control information for specifying a presentation method of the recommended content is transmitted from the information presentation server 2 that has received the information indicating the estimation result of the attention state.
  • step S4 the communication control unit 84 receives the presentation control information transmitted from the information presentation server 2.
  • step S5 the presentation control unit 85 controls the presentation of the recommended content based on the presentation control information. According to the control by the presentation control unit 85, presentation of the recommended content is performed using each of the output modals described with reference to FIG.
  • the process of FIG. 14 is started when information representing the estimation result of the state of attention of the user is transmitted from the information processing terminal 1.
  • step S11 the presentation method control unit 164 receives the information indicating the estimation result of the state of attention transmitted from the information processing terminal 1.
  • step S12 the presentation method control unit 164 determines whether the user is concentrating on other work based on the estimation result of the state of attention.
  • step S12 If it is determined in step S12 that concentration is on another task, the presentation method control unit 164 transmits presentation control information to the information processing terminal 1 in step S13, and continues the slide show reproduction of the image of the recommended content.
  • the image of the recommended content is presented in a slide show format, and the voice of narration is not output.
  • step S12 If it is determined in step S12 that the user is not concentrating on other work, the process of step S13 is skipped. For example, when the user is looking at the image of the recommended content for a short time, it is determined that the user is not concentrating on other work.
  • step S14 the presentation method control unit 164 determines whether the user's attention has been taken.
  • step S14 If it is determined in step S14 that attention can not be obtained, the presentation method control unit 164 determines in step S15 whether there is high-priority information that needs to be presented to the user.
  • step S15 If it is determined in step S15 that there is no high priority information, the process returns to step S13 and the same process is repeated.
  • step S16 the presentation method control unit 164 transmits presentation control information to the information processing terminal 1, and presents an image with narration and text.
  • a text for display is displayed superimposed on the image of the recommended content, and a voice of narration is output.
  • presentation of quantitative information is not performed.
  • step S16 a narrated image and text are presented.
  • the user's line of sight may be directed to the image of the recommended content, and the information may be presented after the attention is taken as it is.
  • the voice of the narration is output and the attention is forcibly taken, the user's reaction after that is estimated by the user state estimation unit 82.
  • motion is given to the display of the image of the recommendation content
  • the reaction of the user is estimated by detecting whether the user's gaze follows the motion.
  • the line of sight of the user follows the movement of the image of the recommended content
  • it is estimated that the user does not ignore the recommended content and when it does not follow, it is estimated that the user ignores the recommended content.
  • Information representing the estimation result by the user state estimation unit 82 is transmitted to the information presentation server 2.
  • the presentation method control unit 164 receiving the information indicating the estimation result by the user state estimation unit 82 causes the information processing terminal 1 to return to the normal state in which the slide show reproduction is performed when the user immediately ignores the recommended content. Control the presentation of recommended content.
  • step S17 the presentation method control unit 164 determines whether the state in which the user's attention has been taken continues.
  • step S17 If it is determined in step S17 that the state in which attention has been taken continues, the process returns to step S16, and presentation of narrated images and text is continued.
  • step S18 the presentation method control unit 164 transmits presentation control information to the information processing terminal 1, and presents the recommended content with narration priority.
  • the voice of the narration describing the content of the recommended content is output.
  • the quantitative information may or may not be presented to the user by the voice output here.
  • step S19 the presentation method control unit 164 determines whether the user's attention has been taken.
  • step S19 When it is determined in step S19 that the attention is taken, the presentation method control unit 164 returns to step S17, and the presentation of the recommended content is continued according to the state of the user's attention.
  • step S19 when it is determined in step S19 that no attention has been taken, the process returns to step S11, and the above process is repeated.
  • the information processing terminal 1 can present the recommended content based on the state of attention of the user.
  • ⁇ Modification> Although the presentation of the recommended content is controlled based on the state of the user's attention, it may be controlled based on other states of the user such as the position of the user.
  • the voice of the narration is exceptionally exceptional for the quantitative information as well.
  • the content of the recommended content may be presented by the user. In this case, presentation of quantitative information using speech is performed by slowing the speech rate or repeating speech.
  • FIG. 15 is a diagram illustrating an example of presentation of information when there are a plurality of users.
  • the user A and the user B are present around the information processing terminal 1 which is performing slide show reproduction of the image of the recommended content.
  • the user A and the user B are users who are respectively performing predetermined tasks.
  • images of the recommended content C1 to C3 are displayed. Images of the recommended content C1 to C3 are displayed, for example, as moving from left to right. As described above, slide show reproduction may be performed by moving a sequence of images of a plurality of recommended contents in a certain direction, instead of sequentially switching and displaying the images of the recommended contents one by one.
  • the image P is divided into the area A1 and the area A2 as shown in FIG.
  • the recommended content is presented according to the state of attention of the user A.
  • the user B does not look at the image of the recommended content C1.
  • the display text is displayed superimposed on the image of the recommended content C1 in which the image of the recommended content C1 to which the user is directing attention is displayed enlarged in the area A2. Further, in accordance with the display of the image of the recommended content C1, as shown in the balloon, the voice of the narration describing the content of the recommended content C1 is output.
  • the screen displayed by the information processing terminal 1 is divided into a plurality of areas, and a presentation is performed according to the state of attention of the user who has turned the gaze at the recommended content using a predetermined area. It is also good.
  • Detailed information on the recommended content for the terminal of the user who has gained attention such as sending information on the recommended content C1 to the portable terminal possessed by the user A who is looking at the recommended content C1 May be sent.
  • the recommended content is presented using an output modal such as transmission of information to the portable terminal.
  • the content of the recommended content presented using the audio output may be controlled according to the degree to which the user concentrates on the work. For example, as the degree of concentration on work increases, the output content is switched in the order of BGM output, brand sound output, and narration sound output (BGM ⁇ brand sound ⁇ narration).
  • an image of a color tone that matches the color tone of a room and an image of a color tone that matches the color tone of the image of the recommended content presented so far are displayed at the start of the display of the image of the recommended content.
  • the image of the recommended content may be processed to generate such an image of each color tone.
  • a filter for use in generating a pink color image is applied to the image of the recommended content to generate an image for display start.
  • a pink-based image generated by performing such filter processing is presented, when the user's attention is taken, the original image of the recommended content is displayed.
  • each process for presenting the recommended content is performed by the information processing terminal 1 and the information presentation server 2, but at least a part of the functions of the information processing terminal 1 described above is information presentation It may be installed in the server 2.
  • At least a part of the functional units of the information processing unit 71 illustrated in FIG. 10 is provided in the information presentation server 2.
  • FIG. 17 is a diagram showing another functional configuration example of the information presentation server 2.
  • the configuration of the information processing unit 151 illustrated in FIG. 17 is different from the configuration described with reference to FIG. 12 in that a user recognition unit 81, a user state estimation unit 82, and a user information DB 83 are additionally provided.
  • the user's recognition and the estimation of the state of the user's attention are based on the information transmitted from the information processing terminal 1 (image taken by the camera 56). It will be done.
  • FIG. 18 is a diagram showing another functional configuration example of the information processing terminal 1.
  • the configuration of the information processing unit 71 shown in FIG. 18 is described with reference to FIG. 10 in that a voice recognition unit 161, a semantic analysis unit 162, a presentation information DB 163, and a presentation method control unit 164 are additionally provided. Different from the configuration. In the case of the example shown in FIG. 18, the speech recognition, the semantic analysis of the contents of the utterance, and the control of the presentation method are performed by the information processing terminal 1 itself.
  • the series of processes described above can be performed by hardware or software.
  • a program constituting the software is installed from a program recording medium in a computer incorporated in dedicated hardware, a general-purpose personal computer, or the like.
  • the program to be installed is provided by being recorded on a removable medium 111 shown in FIG. 11 made of an optical disc (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) or semiconductor memory. Also, it may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program can be installed in advance in the ROM 102 or the storage unit 108.
  • the program executed by the computer may be a program that performs processing in chronological order according to the order described in this specification, in parallel, or when necessary, such as when a call is made. It may be a program to be processed.
  • a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing or not. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the present technology can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
  • each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices.
  • the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
  • the present technology can also have the following configuration.
  • An estimation unit that estimates the state of attention of the user; A presentation control unit configured to switch an output modal of content to be presented to the user according to a state of attention of the user.
  • the information processing terminal according to (1) wherein the presentation control unit causes the content to be output using at least one of screen display and audio output as the output modal.
  • the presentation control unit continues the display of the image when the user's attention is directed to the content while displaying the image related to the content, and outputs the sound related to the content ((2 The information processing terminal according to the above.
  • the presentation control unit further causes a text related to the content to be displayed together with the image.
  • the estimation unit estimates that the attention of the user is directed to the content, when the line of sight of the user is directed to the image for a predetermined time or more, according to any one of (3) to (6). Information processing terminal as described.
  • the presentation control unit when displaying an image related to the content, outputs an audio related to the content when the attention of the user intermittently faces the content.
  • the information processing terminal according to any of the above.
  • the presentation control unit causes a plurality of images related to the plurality of contents to be displayed in order, and continues the display of the plurality of images when the user's attention is not directed to the contents.
  • the information processing terminal according to any of the above.
  • the information processing terminal Estimate the state of the user's attention, An information processing method, comprising: switching an output modal of content to be presented to the user according to a state of attention of the user.
  • a communication unit that transmits content to an information processing terminal connected via a network, and receives, from the information processing terminal, information representing a state of the user while the content is being presented
  • a presentation control unit that controls output modal of the content in the information processing terminal by transmitting presentation control information specifying the method of presenting the content according to the state of the user's attention to the content to the information processing terminal
  • an information processing apparatus comprising (13) The information processing apparatus Send content to an information processing terminal connected via a network, Receiving from the information processing terminal information representing a state of the user while the content is being presented; An information processing method for controlling an output modal of the content in the information processing terminal by transmitting to the information processing terminal presentation control information specifying a method of presenting the content according to the state of the user's attention to the content .
  • REFERENCE SIGNS LIST 1 information processing terminal 2 information presentation server, 51 CPU, 55 microphone, 56 camera, 57 speaker, 58 display, 59 image display device, 71 information processing unit, 81 user recognition unit, 82 user state estimation unit, 83 user information DB , 84 communication control unit, 85 presentation control unit, 151 information processing unit, 161 speech recognition unit, 162 semantic analysis unit, 163 presentation information DB, 164 presentation method control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、ユーザの状態に応じた方法で情報を提示することができるようにする情報処理端末、情報処理装置、および情報処理方法に関する。 本技術の一側面の情報処理装置は、ユーザのアテンションの状態を推定し、ユーザのアテンションの状態に応じて、ユーザに提示するコンテンツの出力モーダルを切り替える。本技術は、ユーザの行動を支援する音声アシスタント機能を有する装置に適用することができる。

Description

情報処理端末、情報処理装置、および情報処理方法
 本技術は、情報処理端末、情報処理装置、および情報処理方法に関し、特に、ユーザの状態に応じた方法で情報を提示することができるようにした情報処理端末、情報処理装置、および情報処理方法に関する。
 音声によって操作が可能な音声アシスタント機能を搭載したデバイスが注目されている。いわゆるスマートスピーカーと呼ばれるようなデバイスの中には、ディスプレイを搭載したものもある。
 ユーザは、ある情報の提示を音声によって要求し、要求に応じて提示された情報を見たり、デバイス自身が能動的に提示する情報を見たりすることができる。
 特許文献1には、コンテンツの再生中、表示画面に対するユーザの視線に基づいて、ユーザが注目しているオブジェクトを検出し、検出したオブジェクトに関連する情報を提示する技術が開示されている。
特開2015-46089号公報
 特許文献1に開示されている技術の場合、ユーザがコンテンツを見ることに集中し続けている場合には効果的であると考えられる。しかしながら、実際のコンテンツの視聴の仕方としては、他の作業をしながら見たり、内容によって興味を持ったり興味をなくしたりしながらコンテンツを見たりすることが考えられる。
 本技術はこのような状況に鑑みてなされたものであり、ユーザの状態に応じた方法で情報を提示することができるようにするものである。
 本技術の一側面の情報処理端末は、ユーザのアテンションの状態を推定する推定部と、前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える提示制御部とを備える。
 本技術の他の側面の情報処理装置は、ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信する通信部と、前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する提示制御部とを備える。
 本技術においては、ユーザのアテンションの状態が推定され、ユーザのアテンションの状態に応じて、ユーザに提示するコンテンツの出力モーダルが切り替えられる。
 本技術によれば、ユーザの状態に応じた方法で情報を提示することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係る情報処理システムの構成例を示す図である。 推薦コンテンツの提示の例を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。 アテンションの状態と出力モーダルの関係を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。 ユーザの問い合わせに応じた情報検索結果の提示の例を示す図である。 ユーザの問い合わせに応じた情報検索結果の他の提示の例を示す図である。 情報処理端末のハードウェア構成例を示すブロック図である。 情報処理端末の機能構成例を示すブロック図である。 情報提示サーバのハードウェア構成例を示すブロック図である。 情報提示サーバの機能構成例を示すブロック図である。 情報処理端末の処理について説明するフローチャートである。 情報提示サーバの処理について説明するフローチャートである。 ユーザが複数人である場合の推薦コンテンツの提示の例を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。 情報提示サーバの他の機能構成例を示す図である。 情報処理端末の他の機能構成例を示す図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.情報処理システムにおける情報提示
 2.各装置の構成
 3.各装置の動作
 4.変形例
 5.その他の例
<情報処理システムにおける情報提示>
 図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
 図1の情報処理システムは、情報処理端末1と情報提示サーバ2がインターネット3を介して接続されることによって構成される。
 情報処理端末1は、ユーザの行動を支援するための各種の処理をAI(Artificial Intelligence)を用いて行う、いわゆる音声アシスタントの機能を搭載した装置である。
 情報処理端末1の機能は、例えば情報提示サーバ2と通信を行うことによって実現される。例えば、情報処理端末1と情報提示サーバ2により、ユーザが要求する情報を検索して提示する機能、ユーザのタスクを管理する機能、電子メールやSNS(Social Networking Service)のメッセージを送信する機能などの各種の機能が実現される。
 情報処理端末1は、例えば、家庭内の所定の位置に設置される。情報処理端末1は、家庭内に設置されたルータ(図示せず)などを介してインターネット3に接続される。図1の例においては、情報処理端末1が設置型の装置とされているが、スマートフォン、タブレット端末、腕時計型のウェアラブルなどの携帯型の装置であってもよい。
 情報処理端末1の操作は、主に音声UI(User Interface)によって行われる。情報処理端末1には、ユーザの発話音声を集音するためのマイク(マイクロホン)や、合成音声を出力することによってユーザに対して各種の情報を提示するためのスピーカが設けられる。
 また、情報の提示は、画面UIによっても行われる。情報処理端末1には、プロジェクタやディスプレイなどの、各種の画面を表示するための画像表示デバイスが設けられている。
 情報処理端末1は、ユーザと情報提示サーバ2の間のインタフェースとしての役割を有するデバイスである。
 例えば、図1に示すように情報処理端末1の周りにいるユーザが発話を行った場合、ユーザの音声は情報処理端末1により検出され、音声データが情報処理端末1から情報提示サーバ2に送信される。
 情報提示サーバ2においては、情報処理端末1から送信されてきた音声データに基づいて、音声認識、発話内容の意味解析などが行われる。例えば、ユーザが情報の検索を要求している場合、情報の検索が行われ、検索結果が、ユーザに提示する提示情報として取得される。情報提示サーバ2においては、例えば複数の提示情報が取得され、情報処理端末1に対して送信される。
 情報提示サーバ2から送信された提示情報は、情報処理端末1により受信され、プロジェクタなどの画像表示デバイスにより、ユーザに提示される。
 このように、ユーザは、例えば、情報の検索を音声によって要求することにより、検索結果を、情報処理端末1により表示された画面から確認することができる。
 音声の出力や画面の表示を用いた情報の提示は、ユーザの要求に応じた情報を提示することのほかに、ユーザの要求によらずに情報提示サーバ2において取得された情報を能動的に提示することによっても行われる。
 このように、情報提示サーバ2側(情報処理端末1側)からユーザに能動的に提示される情報を推薦コンテンツという。例えば、商品、サービス、映画や音楽などのコンテンツの広告が推薦コンテンツとしてユーザに提示される。
 推薦コンテンツは、例えば、静止画や動画である画像、表示用のテキスト、および、TTS(Text-to-Speech)を行うことによって音声として出力するためのTTS用のテキストから構成される。TTS用のテキストに代えて、内容を解説する音声のデータが推薦コンテンツに含まれるようにしてもよい。
 推薦コンテンツの提示は、情報処理端末1と情報提示サーバ2により実現されるものであるが、説明の便宜上、適宜、情報処理端末1が推薦コンテンツを提示するものとして説明する。
 図1の例においては、情報処理端末1の近くの壁面に、画像Pを含む提示画面が投影され、推薦コンテンツの提示が行われている。画像Pは、推薦コンテンツに関する画像であり、図1の例においては建物が写っている。
 また、推薦コンテンツの提示とともに、BGMとなる音楽が情報処理端末1から出力される。画像Pを含む推薦コンテンツは、インターネット3を介して情報提示サーバ2から取得されたものである。例えば、複数の推薦コンテンツが情報提示サーバ2から取得される。
 なお、図1の例においては、画像Pの提示とBGMの出力のみが行われ、推薦コンテンツの内容を解説するナレーションの音声は出力されていない。
 このように、情報処理端末1は、ユーザとの間でコミュニケーションをとっていない場合、ユーザの要求によらずに能動的に、推薦コンテンツの画像を投影したり、BGMを出力したりして空間を演出する機能を有する。
 このような画面の表示を用いた推薦コンテンツの提示は、複数の推薦コンテンツの画像を所定の時間毎に順次切り替えて表示するスライドショー形式で行われる。推薦コンテンツの画像がスライドショー再生されている部屋の中で、ユーザは様々な作業を行うことになる。推薦コンテンツの提示が、複数の推薦コンテンツの画像を所定の時間毎に順次切り替えるスライドショー形式で行われるのではなく、動画像を表示することによって行われるようにしてもよい。
 推薦コンテンツの画像のスライドショー再生が行われている間、ユーザのアテンションの状態が繰り返し検出される。ユーザのアテンションの状態に応じて、推薦コンテンツの提示方法が切り替えられる。
 図2は、推薦コンテンツの提示の例を示す図である。
 図2の破線矢印に示すように、ユーザが推薦コンテンツの画像を見ておらず、ユーザのアテンションが取れていない場合、推薦コンテンツの画像のスライドショー再生が継続される。所定時間毎に推薦コンテンツが切り替わり、それぞれの推薦コンテンツの画像が表示される。このとき、ナレーションの音声は出力されない。
 ここで、ユーザのアテンションが取れている状態は、ユーザが推薦コンテンツに注目している状態を表す。ユーザが推薦コンテンツに注目しているか否かは、例えば、ユーザの視線の方向に基づいて特定される。
 例えば、所定の時間以上、ユーザの視線が推薦コンテンツに向いていることが検出された場合、ユーザのアテンションが取れているとして判定される。ユーザが他の作業を行っている場合、提示画面以外の領域を見ている場合、あるいは移動しているような場合などにおいて、ユーザのアテンションが取れていない状態となる。
 ユーザの場所、姿勢、体の向き、顔の向きなど、視線以外のユーザの状態に基づいて、アテンションが取れているか否かが判定されるようにしてもよい。このように、情報処理端末1は、カメラにより撮影された画像を解析することによってユーザの視線の方向を検出し、ユーザのアテンションの状態を検出する機能をも有する。
 図3は、アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。
 図3の破線矢印に示すように、推薦コンテンツの画像Pを所定の時間以上見続けていることから、ユーザのアテンションが取れている場合、情報処理端末1は、推薦コンテンツの画像のスライドショー再生を停止し、ユーザが見ている推薦コンテンツに関する画像だけを表示させる。ユーザが見ている推薦コンテンツに関する画像が複数ある場合、その複数の画像が表示される。
 また、情報処理端末1は、ユーザが見ている推薦コンテンツに関する画像の表示に合わせて、吹き出しに示すように、推薦コンテンツの内容に関するナレーションの音声を出力する。ナレーションの音声は、推薦コンテンツに含まれるTTS用のテキストに基づいて出力される。人の声を録音した音声データが推薦コンテンツに含まれており、ナレーションの音声が音声データに基づいて出力されるようにしてもよい。
 さらに、情報処理端末1は、推薦コンテンツの画像Pに重ねて、推薦コンテンツの内容に関するテキストを表示させる。テキストの表示は、推薦コンテンツに含まれる表示用のテキストに基づいて行われる。
 例えば、音声によって出力される内容とは異なる内容のテキストが、推薦コンテンツの画像Pに重ねて表示される。図3の例においては、「日帰りが可能な近さです!」の音声が出力されているのに対して、その内容と異なる、「新宿駅から2時間」のテキストが表示されている。
 TTS用のテキストが表示用のテキストと同じであり、表示用のテキストで提示される内容と同じ内容の音声が出力されるとした場合、見て確認できる情報と同じ情報が音声でも提示されることになり、ユーザは、その音声に対して煩わしさを感じることがある。
 TTS用のテキストが表示用のテキストと異なり、表示用のテキストで提示される内容と異なる内容の音声が出力されるようにすることにより、情報処理端末1は、そのような感覚をユーザに与えないで済む。
 例えば、数値により表される定量的な情報である定量情報については、テキストによってユーザに提示され、ナレーションの音声によっては提示されない。ナレーションの音声は、例えば推薦コンテンツを修飾する形容詞、副詞系の文章を選ぶことによって構成される。
 定量情報は、音声だけで提示されても理解しづらい情報である。定量情報がテキストで提示されることにより、ユーザは、提示された情報を効率的に理解することができる。
 図3に示すような推薦コンテンツの提示は、ユーザのアテンションが取れている間、継続される。ユーザは、気になった推薦コンテンツに関する情報の詳細を、画像Pに重ねて表示されるテキストを読むことによって確認することができるとともに、ナレーションの音声を聞くことによって確認することができる。
 図4は、アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。
 図4の破線矢印に示すように、推薦コンテンツの画像Pを短い時間だけ見ることをユーザが繰り返している場合(ちらちら見ている場合)、情報処理端末1は、推薦コンテンツの画像のスライドショー再生を継続させる。
 また、情報処理端末1は、ユーザがちらちら見ていた推薦コンテンツの内容に関するナレーションの音声を出力させる。図4の例においては、「さらに足を延ばせば・・・」の音声が出力されている。
 このように、ユーザが推薦コンテンツに興味を持っているものの、画像を集中して見ることができない状態にある場合、推薦コンテンツに関する情報が音声によって提示される。このとき、推薦コンテンツの画像に対するテキストの重畳表示は行われない。
 これにより、ユーザは、興味のある推薦コンテンツに関する情報を、作業を続けながらナレーションの音声によって聞くことができる。
 図5は、ユーザのアテンションの状態と推薦コンテンツの出力に用いられるモーダルの関係を示す図である。
 上述したように、推薦コンテンツの出力モーダル(出力方式)には、画面表示と音声出力がある。
 図5の上から2行目に示すように、ユーザのアテンションが取れていない場合、画面表示の出力モーダルを用いて、各推薦コンテンツの画像がスライドショー形式で表示される。このとき、推薦コンテンツの内容に関するナレーションの音声は出力されない。
 上から3行目に示すように、ユーザのアテンションが取れている場合、画面表示の出力モーダルを用いて、ユーザが興味を持っている推薦コンテンツの画像が表示されるとともに、表示用のテキストが画像に重ねて表示される。また、音声出力の出力モーダルを用いて、推薦コンテンツの内容に関するナレーションの音声が出力される。
 上から4行目に示すように、ユーザのアテンションが取れている時間が短い場合(ユーザのアテンションが間欠的に取れている場合)、画面表示の出力モーダルを用いて、各推薦コンテンツの画像がスライドショー形式で表示される。また、音声出力の出力モーダルを用いて、ユーザが興味を持っている推薦コンテンツの内容に関するナレーションの音声が出力される。このようにアテンションの継続時間が短い場合、推薦コンテンツの提示に用いる出力モーダルとして、ナレーションの音声の出力が優先される。ユーザが作業をしながら推薦コンテンツを見ていることが認識された場合も、ユーザのアテンションが取れている時間が短い場合と同様の処理が行われるようにしてもよい。
 このように、推薦コンテンツの提示は、写真、絵、イラストなどの画像の出力を中心に構成され、ユーザのアテンションの状態に応じて、解説などの付帯情報の出力モーダルが切り替えられる。
 このような画面表示と音声出力を用いた推薦コンテンツの提示は、ユーザのアテンションの状態に応じて動的に切り替えられる。ユーザのアテンションの状態が変化した場合、区切りが良い単位で出力モーダルが切り替えられる。ナレーションの音声の聞き逃しやテキストの見落としがないように、切り替えの前後の提示が重複されるようにしてもよい。
 ユーザのアテンションの状態に応じた推薦コンテンツの提示は、情報処理端末1が推薦コンテンツを能動的に提示する場合だけでなく、ユーザによる要求に応じて推薦コンテンツを提示する場合にも行われる。
 図6は、アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。
 例えば、推薦コンテンツの画像のスライドショー再生中に観光スポットの画像が表示され、図6の破線矢印に示すようにユーザがその画像を見て「近くの喫茶店を教えて。」と発話して問い合わせを行ったものとする。
 このとき、情報処理端末1においては、ユーザのアテンションが取れているものとして判定される。また、ユーザの音声データが情報提示サーバ2に対して送信される。
 情報提示サーバ2においては、ユーザの音声に基づいて、観光スポットの近くにある喫茶店の情報の検索が行われ、検索結果が情報処理端末1に対して送信される。
 推薦コンテンツの画像を見続けているためにユーザのアテンションが取れている場合、情報処理端末1は、図7に示すように、ユーザの問い合わせに応じた情報を、画面表示の出力モーダルを用いて提示する。図7の例においては、ユーザにより指定された観光スポットの近くにある喫茶店の情報が検索結果として表示されている。
 一方、ユーザによる問い合わせが、アテンションが取れていない状態で行われた場合、図8に示すように、ユーザの問い合わせに応じた情報が音声を用いて提示される。
 図8の例においては、観光スポットの近くにある喫茶店の検索結果として、「○○○店と○○○ビル店と○○○店があります。どの店舗の情報を知りたいですか?」の音声が出力されている。
 このように、情報処理端末1は、ユーザによる問い合わせに応じた情報を提示する場合にも、上述したようにユーザのアテンションの状態に応じて出力モーダルを切り替えて情報の提示を行う。
 以上のようなユーザのアテンションの状態に応じた提示を行う情報処理端末1と情報提示サーバ2の処理についてはフローチャートを参照して後述する。
<各装置の構成>
・情報処理端末1の構成
 図9は、情報処理端末1のハードウェア構成例を示すブロック図である。
 CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
 CPU51は、所定のプログラムを実行し、情報処理端末1の全体の動作を制御する。
 バス54には、マイク55、カメラ56、スピーカ57、ディスプレイ58、画像表示デバイス59、入力部60、記憶部61、および通信部62が接続される。
 マイク55は、ユーザの発話音声を検出する。マイク55により検出された音声のデータは、通信部62に供給され、情報提示サーバ2に送信される。
 カメラ56は、情報処理端末1の周りの様子を撮影し、撮影して得られた画像をCPU51に出力する。カメラ56により撮影された画像も、適宜、情報提示サーバ2に送信される。カメラ56により撮影された画像に基づいて各種の状況が特定される。
 スピーカ57は、音声や、BGMなどの音楽を出力する。
 ディスプレイ58は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。ディスプレイ58は、メニュー画面、検索結果の画面などの各種の画面を表示する。
 画像表示デバイス59は例えばプロジェクタである。画像表示デバイス59は、推薦コンテンツの提示画面などの各種の画面を壁面や床面などに投影する。
 入力部60は、ディスプレイ58に重ねて設けられたタッチパネルや、情報処理端末1の筐体に設けられた各種のボタンにより構成される。入力部60は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
 記憶部61は、不揮発性のメモリなどにより構成される。記憶部61は、CPU51が実行するプログラムなどの各種のデータを記憶する。
 通信部62は、ネットワークインタフェースなどにより構成される。通信部62は、インターネット3を介して情報提示サーバ2と通信を行う。
 加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサが情報処理端末1に設けられるようにしてもよい。
 図10は、情報処理端末1の機能構成例を示すブロック図である。図10に示す構成のうちの少なくとも一部は、図9のCPU51により所定のプログラムが実行されることによって実現される。
 図10に示すように、情報処理端末1においては情報処理部71が実現される。情報処理部71は、ユーザ認識部81、ユーザ状態推定部82、ユーザ情報DB83、通信制御部84、および提示制御部85から構成される。
 ユーザ認識部81は、カメラ56により撮影された画像を解析し、情報処理端末1の周りにいるユーザを検出(認識)する。また、ユーザ認識部81は、認識したユーザの視線の方向などを検出する。例えば、ユーザ情報DB83には、ユーザの認識、視線の方向の特定などに用いられる情報が記憶されている。ユーザ認識部81による処理は、適宜、ユーザ情報DB83に記憶されている情報に基づいて行われる。ユーザ認識部81は、認識したユーザの視線の方向を表す情報をユーザ状態推定部82に出力する。
 アテンションが取れているか否かがユーザの場所、姿勢、体の向きなどに基づいて判定される場合、ユーザ認識部81においては、それらのユーザの状態がカメラ56により撮影された画像に基づいて特定される。ユーザ認識部81により特定されたユーザの状態を表す各種の情報がユーザ状態推定部82に供給される。
 ユーザの状態がカメラ56により撮影された画像だけに基づいて特定されるのではなく、情報処理端末1に設けられた他のセンサにより検出された情報に基づいて特定されるようにしてもよい。また、ユーザが持っている携帯端末などの、情報処理端末1の外部の装置により検出された情報に基づいてユーザの状態が特定されるようにしてもよい。
 ユーザ状態推定部82は、ユーザ情報DB83に記憶されている情報を適宜参照し、ユーザ認識部81により認識されたユーザのアテンションの状態を推定する。ユーザ状態推定部82により推定された、アテンションの状態の推定結果を表す情報は通信制御部84に供給される。
 通信制御部84は、通信部62を制御し、情報提示サーバ2との間で通信を行う。例えば、通信制御部84は、ユーザ状態推定部82から供給された、アテンションの状態の推定結果を表す情報を情報提示サーバ2に送信する。アテンションの状態の推定結果を表す情報を受信した情報提示サーバ2からは、推薦コンテンツの提示方法を指定する提示制御情報が送信されてくる。
 また、通信制御部84は、情報提示サーバ2から送信されてきた提示制御情報を受信し、提示制御部85に出力する。通信制御部84においては、情報提示サーバ2から送信されてきた推薦コンテンツの受信なども行われる。
 提示制御部85は、スピーカ57および画像表示デバイス59を制御し、情報提示サーバ2から送信されてきた推薦コンテンツを提示させる。また、提示制御部85は、情報提示サーバ2から送信されてきた提示制御情報に従って出力モーダルを切り替えるなどして、推薦コンテンツの提示を制御する。
・情報提示サーバ2の構成
 図11は、情報提示サーバ2のハードウェア構成例を示すブロック図である。
 CPU101、ROM102、RAM103は、バス104により相互に接続されている。
 バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107が接続される。また、入出力インタフェース105には、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、リムーバブルメディア111を駆動するドライブ110が接続される。
 この例においては、情報提示サーバ2が1台のコンピュータにより構成されるものとしているが、複数のコンピュータにより構成されるようにしてもよい。複数のコンピュータが協働して処理を行うことにより、情報提示サーバ2の機能が実現される。
 図12は、情報提示サーバ2の機能構成例を示すブロック図である。図12に示す構成のうちの少なくとも一部は、図11のCPU101により所定のプログラムが実行されることによって実現される。
 図12に示すように、情報提示サーバ2においては情報処理部151が実現される。情報処理部151は、音声認識部161、意味解析部162、提示情報DB163、および提示方法制御部164から構成される。
 なお、説明の便宜上、図12には、情報処理端末1の構成であるマイク55、スピーカ57、および画像表示デバイス59が示されている。ユーザが発話を行うことに応じてマイク55により検出され、情報処理端末1から送信されてきた音声データは、通信部109において受信され、音声認識部161に入力される。
 また、提示方法制御部164が出力する推薦コンテンツと提示制御情報は、通信部109から情報処理端末1に対して送信され、スピーカ57において音声の再生に用いられるとともに、画像表示デバイス59において画面の表示に用いられる。
 情報処理端末1において推定され、情報処理端末1から送信されてきたユーザのアテンションの状態を表す情報は、通信部109において受信され、提示方法制御部164に入力される。
 音声認識部161は、ユーザの音声を認識し、認識結果を表す文字列を意味解析部162に出力する。
 意味解析部162は、音声認識部161から供給された文字列に基づいて、ユーザの発話内容の意味を解析する。ユーザの発話の意味の解析結果を表す情報は提示方法制御部164に供給される。
 提示方法制御部164は、推薦コンテンツを提示情報DB163から読み出して取得し、情報処理端末1に送信する。また、提示方法制御部164は、情報処理端末1から送信されてきた、ユーザのアテンションの状態を表す情報に基づいて、推薦コンテンツの提示方法を指定する提示制御情報を生成し、情報処理端末1に送信する。提示制御情報には、出力モーダルを指定する情報などが含まれる。
 また、提示方法制御部164は、ユーザが情報の検索を要求している場合、意味解析部162による解析結果に基づいて、検索結果として提示する情報を提示情報DB163から読み出して取得する。
 提示情報DB163には、ユーザに提示する各種の情報が記憶されている。ユーザに提示する情報が、インターネット3上の他のサーバや、ユーザの携帯端末などの他の装置から取得されるようにしてもよい。提示方法制御部164は、ユーザに提示する情報を情報処理端末1に送信する。
<各装置の動作>
 ここで、情報処理端末1と情報提示サーバ2の動作について説明する。
・情報処理端末1の動作
 はじめに、図13のフローチャートを参照して、情報処理端末1の処理について説明する。
 図13の処理は、例えば、推薦コンテンツが情報提示サーバ2から送信されてきたときに開始される。通信部62において受信された推薦コンテンツは、通信制御部84により取得され、提示制御部85に供給される。
 ステップS1において、提示制御部85は、画像表示デバイス59を制御し、情報提示サーバ2から送信されてきた推薦コンテンツを表示させる。ここでは、複数の推薦コンテンツの画像のスライドショー再生が行われる。
 推薦コンテンツの画像のスライドショー再生が行われている間、カメラ56により撮影された画像に基づいて、ユーザ認識部81によりユーザが認識され、視線の方向が検出される。
 ステップS2において、ユーザ状態推定部82は、ユーザ認識部81により検出された視線の方向を表す情報に基づいて、情報処理端末1の周りにいるユーザのアテンションの状態を推定する。
 ステップS3において、通信制御部84は、アテンションの状態の推定結果を表す情報を情報提示サーバ2に送信する。アテンションの状態の推定結果を表す情報を情報提示サーバ2に送信することは、推薦コンテンツの画像のスライドショー再生が行われている間、繰り返し行われる。アテンションの状態の推定結果を表す情報を受信した情報提示サーバ2からは、推薦コンテンツの提示方法を指定する提示制御情報が送信されてくる。
 ステップS4において、通信制御部84は、情報提示サーバ2から送信されてきた提示制御情報を受信する。
 ステップS5において、提示制御部85は、提示制御情報に基づいて、推薦コンテンツの提示を制御する。提示制御部85による制御に従って、推薦コンテンツの提示が図5を参照して説明したそれぞれの出力モーダルを用いて行われる。
・情報提示サーバ2の動作
 次に、図14のフローチャートを参照して、情報提示サーバ2の処理について説明する。
 図14の処理は、ユーザのアテンションの状態の推定結果を表す情報が情報処理端末1から送信されてきたときに開始される。
 ステップS11において、提示方法制御部164は、情報処理端末1から送信されてきたアテンションの状態の推定結果を表す情報を受信する。
 ステップS12において、提示方法制御部164は、アテンションの状態の推定結果に基づいて、ユーザが他の作業に集中しているか否かを判定する。
 他の作業に集中しているとステップS12において判定した場合、ステップS13において、提示方法制御部164は、提示制御情報を情報処理端末1に送信し、推薦コンテンツの画像のスライドショー再生を継続させる。情報処理端末1においては、推薦コンテンツの画像がスライドショー形式で提示され、ナレーションの音声は出力されない。
 ユーザが他の作業に集中していないとステップS12において判定された場合、ステップS13の処理はスキップされる。例えば、推薦コンテンツの画像にユーザが短時間でも視線を向けている場合、他の作業に集中していないと判定される。
 ステップS14において、提示方法制御部164は、ユーザのアテンションが取れているか否かを判定する。
 アテンションが取れていないとステップS14において判定した場合、ステップS15において、提示方法制御部164は、ユーザに対して提示する必要のある、優先度の高い情報があるか否かを判定する。
 優先度の高い情報がないとステップS15において判定された場合、ステップS13に戻り、同様の処理が繰り返される。
 一方、ステップS14においてアテンションが取れていると判定した場合、ステップS16において、提示方法制御部164は、提示制御情報を情報処理端末1に送信し、ナレーション付きの画像とテキストを提示させる。
 すなわち、情報処理端末1においては、推薦コンテンツの画像に重ねて表示用のテキストが表示されるとともに、ナレーションの音声が出力される。ここで出力される音声によっては、定量情報の提示は行われない。
 ステップS15において優先度の高い情報があると判定された場合も同様に、ステップS16において、ナレーション付きの画像とテキストの提示が行われる。
 このように、優先度の高い情報がある場合、ユーザの視線を推薦コンテンツの画像に向けさせ、アテンションをいわば強制的に取った上で情報を提示させるようにしてもよい。ナレーションの音声を出力してアテンションを強制的に取った場合、その後のユーザの反応がユーザ状態推定部82により推定される。
 例えば、推薦コンテンツの画像の表示に動きが与えられ、ユーザの視線が動きに追従しているかどうかを検出することにより、ユーザの反応が推定される。ユーザの視線が推薦コンテンツの画像の動きに追従している場合、ユーザが推薦コンテンツを無視していないと推定され、追従していない場合、ユーザが推薦コンテンツを無視していると推定される。ユーザ状態推定部82による推定結果を表す情報は情報提示サーバ2に送信される。
 ユーザ状態推定部82による推定結果を表す情報を受信した提示方法制御部164は、ユーザが推薦コンテンツをすぐに無視している場合、スライドショー再生を行う通常の状態に戻るように情報処理端末1における推薦コンテンツの提示を制御する。
 ステップS17において、提示方法制御部164は、ユーザのアテンションが取れている状態が継続しているか否かを判定する。
 アテンションが取れている状態が継続しているとステップS17において判定された場合、ステップS16に戻り、ナレーション付きの画像とテキストの提示が続けられる。
 一方、アテンションが継続していないとステップS17において判定した場合、ステップS18において、提示方法制御部164は、提示制御情報を情報処理端末1に送信し、ナレーション優先で推薦コンテンツを提示させる。
 情報処理端末1においては、推薦コンテンツの画像のスライドショー再生が継続されるとともに、推薦コンテンツの内容を解説するナレーションの音声が出力される。ここで出力される音声によって、定量情報がユーザに提示されるようにしてもよいし、提示されないようにしてもよい。
 ステップS19において、提示方法制御部164は、ユーザのアテンションが取れているか否かを判定する。
 アテンションが取れているとステップS19において判定した場合、提示方法制御部164は、ステップS17に戻り、推薦コンテンツの提示が、ユーザのアテンションの状態に応じて続けられる。
 一方、ステップS19においてアテンションが取れていないと判定された場合、ステップS11に戻り、以上の処理が繰り返される。
 以上の処理により、情報処理端末1は、ユーザのアテンションの状態に基づいて、推薦コンテンツを提示することができる。
<変形例>
 推薦コンテンツの提示がユーザのアテンションの状態に基づいて制御されるものとしたが、ユーザの位置などの、ユーザの他の状態に基づいて制御されるようにしてもよい。
 例えば、推薦コンテンツの画像を見ることができない位置にユーザがとどまっている場合、あるいは、そのような位置にユーザがとどまると予測される場合には、定量情報についても、例外的に、ナレーションの音声により推薦コンテンツの内容が提示されるようにしてもよい。この場合、音声を用いた定量情報の提示は、発話速度を遅くしたり、あるいは、発話を繰り返したりして行われる。
 また、例えば、ナレーションの音声を聞きとりにくい場所にユーザがいたり、他の音の出力が行われたりしているような場合、例外的に、発話によって提示するような質的な情報についても、画面表示の出力モーダルを用いて提示されるようにしてもよい。
 以上においては、推薦コンテンツを提示する対象となるユーザの人数が1人である場合について説明したが、複数人のユーザに対して情報を提示する場合にも、以上のような処理を適用することが可能である。
 図15は、ユーザが複数人である場合の情報の提示の例を示す図である。
 図15の例においては、推薦コンテンツの画像のスライドショー再生を行っている情報処理端末1の周りにユーザAとユーザBがいるものとする。ユーザAとユーザBはそれぞれ所定の作業を行っているユーザである。
 なお、情報処理端末1が表示する画像Pには、推薦コンテンツC1乃至C3の画像が表示されている。推薦コンテンツC1乃至C3の画像は、例えば、左から右に移動するようにして表示される。このように、推薦コンテンツの画像を1つずつ順に切り替えて表示させるのではなく、複数の推薦コンテンツの画像の並びを一定の方向に移動させることによってスライドショー再生が行われるようにしてもよい。
 図15の破線矢印に示すようにユーザAが推薦コンテンツC1の画像に視線を向けている場合、図16に示すように、画像Pが領域A1と領域A2に分割され、領域A2を用いて、ユーザAのアテンションの状態に応じた推薦コンテンツの提示が行われる。図15、図16の例においては、ユーザBは推薦コンテンツC1の画像に視線を向けていない。
 図16の例においては、ユーザがアテンションを向けていた推薦コンテンツC1の画像が領域A2に拡大して表示される、推薦コンテンツC1の画像に重ねて、表示用のテキストが表示されている。また、推薦コンテンツC1の画像の表示に合わせて、吹き出しに示すように、推薦コンテンツC1の内容を解説するナレーションの音声が出力されている。
 領域A1においては、推薦コンテンツの画像のスライドショー再生が続けられている。
 このように、情報処理端末1が表示する画面が複数の領域に分割され、所定の領域を用いて、推薦コンテンツに視線を向けていたユーザのアテンションの状態に応じた提示が行われるようにしてもよい。
 推薦コンテンツC1に視線を向けているユーザAが所持している携帯端末に対して推薦コンテンツC1の情報が送信されるといったように、アテンションが取れたユーザの端末に対して推薦コンテンツの詳細な情報が送信されるようにしてもよい。
 この場合、画面表示と音声出力の出力モーダルに加えて、携帯端末に対する情報の送信といった出力モーダルを用いて推薦コンテンツの提示が行われることになる。
 ユーザが作業に集中している度合いに応じて、音声の出力を用いて提示される推薦コンテンツの内容が制御されるようにしてもよい。例えば、作業に集中している度合い高くなるにつれ、BGMの出力、ブランド音の出力、ナレーションの音声の出力の順(BGM<ブランド音<ナレーション)に、出力内容が切り替えられる。
 推薦コンテンツの画像をスライドショー形式で表示させる場合、表示開始時は、空間の色調の邪魔にならない色調の画像が表示され、ユーザのアテンションが取れたときに、ユーザに見せたい画像が表示されるようにしてもよい。
 例えば、部屋の色調に合う色調の画像や、それまでに提示していた推薦コンテンツの画像の色調に合う色調の画像が、推薦コンテンツの画像の表示開始時に表示される。推薦コンテンツの画像に対して加工が施され、このような各色調の画像が生成されるようにしてもよい。
 例えば、部屋の色調がピンク系の色調である場合、ピンク系の画像の生成に用いるためのフィルタが推薦コンテンツの画像に適用され、表示開始時のための画像が生成される。このようなフィルタ処理が施されることによって生成されたピンク系の画像の提示が行われている場合において、ユーザのアテンションが取れたとき、推薦コンテンツのオリジナルの画像が表示される。
<その他の例>
 以上においては、推薦コンテンツを提示するための各処理が情報処理端末1と情報提示サーバ2により行われるものとしたが、上述した情報処理端末1の機能のうちの少なくとも一部の機能が情報提示サーバ2に搭載されるようにしてもよい。
 この場合、図10に示す情報処理部71の機能部のうち少なくとも一部が情報提示サーバ2に設けられる。
 図17は、情報提示サーバ2の他の機能構成例を示す図である。
 図17に示す情報処理部151の構成は、ユーザ認識部81、ユーザ状態推定部82、およびユーザ情報DB83が追加して設けられている点で、図12を参照して説明した構成と異なる。図17に示す例の場合、ユーザの認識、およびユーザのアテンションの状態の推定が、情報処理端末1から送信されてきた情報(カメラ56により撮影された画像)に基づいて、情報提示サーバ2において行われることになる。
 図18は、情報処理端末1の他の機能構成例を示す図である。
 図18に示す情報処理部71の構成は、音声認識部161、意味解析部162、提示情報DB163、および提示方法制御部164が追加して設けられている点で、図10を参照して説明した構成と異なる。図18に示す例の場合、音声認識、発話内容の意味解析、提示方法の制御が、情報処理端末1自身により行われることになる。
 このように、情報処理部71と情報処理部151の構成のうちのどの構成が情報処理端末1側と情報提示サーバ2側にそれぞれ設けられるようにするのかは任意に選択可能である。
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図11に示されるリムーバブルメディア111に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
・構成の組み合わせ例
 本技術は、以下のような構成をとることもできる。
(1)
 ユーザのアテンションの状態を推定する推定部と、
 前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える提示制御部と
 を備える情報処理端末。
(2)
 前記提示制御部は、画面の表示と音声の出力とのうちの少なくともいずれかを前記出力モーダルとして用いて、前記コンテンツを出力させる
 前記(1)に記載の情報処理端末。
(3)
 前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の表示を継続させるとともに、前記コンテンツに関する音声を出力させる
 前記(2)に記載の情報処理端末。
(4)
 前記提示制御部は、さらに、前記コンテンツに関するテキストを前記画像とともに表示させる
 前記(3)に記載の情報処理端末。
(5)
 前記提示制御部は、前記画像とともに表示させる前記テキストとは異なる他のテキストの音声合成を行って得られた前記音声を出力させる
 前記(4)に記載の情報処理端末。
(6)
 前記提示制御部は、前記コンテンツに関する定量情報を、前記テキストによって前記ユーザに提示する
 前記(5)に記載の情報処理端末。
(7)
 前記推定部は、前記ユーザの視線が、所定の時間以上、前記画像に向いている場合、前記ユーザのアテンションが前記コンテンツに向いているとして推定する
 前記(3)乃至(6)のいずれかに記載の情報処理端末。
(8)
 前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが間欠的に前記コンテンツに向いているとき、前記コンテンツに関する音声を出力させる
 前記(2)乃至(7)のいずれかに記載の情報処理端末。
(9)
 前記提示制御部は、複数の前記コンテンツに関する複数の画像を順に表示させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、複数の前記画像の表示を継続させる
 前記(2)乃至(8)のいずれかに記載の情報処理端末。
(10)
 前記提示制御部は、前記ユーザに提示する必要がある所定の情報を出力する場合、前記所定の情報に関する音声を出力させる
 前記(9)に記載の情報処理端末。
(11)
 情報処理端末が、
 ユーザのアテンションの状態を推定し、
 前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える
 情報処理方法。
(12)
 ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信する通信部と、
 前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する提示制御部と
 を備える情報処理装置。
(13)
 情報処理装置が、
 ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、
 前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信し、
 前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する
 情報処理方法。
 1 情報処理端末, 2 情報提示サーバ, 51 CPU, 55 マイク, 56 カメラ, 57 スピーカ, 58 ディスプレイ, 59 画像表示デバイス, 71 情報処理部, 81 ユーザ認識部, 82 ユーザ状態推定部, 83 ユーザ情報DB, 84 通信制御部, 85 提示制御部, 151 情報処理部, 161 音声認識部, 162 意味解析部, 163 提示情報DB, 164 提示方法制御部

Claims (13)

  1.  ユーザのアテンションの状態を推定する推定部と、
     前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える提示制御部と
     を備える情報処理端末。
  2.  前記提示制御部は、画面の表示と音声の出力とのうちの少なくともいずれかを前記出力モーダルとして用いて、前記コンテンツを出力させる
     請求項1に記載の情報処理端末。
  3.  前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の表示を継続させるとともに、前記コンテンツに関する音声を出力させる
     請求項2に記載の情報処理端末。
  4.  前記提示制御部は、さらに、前記コンテンツに関するテキストを前記画像とともに表示させる
     請求項3に記載の情報処理端末。
  5.  前記提示制御部は、前記画像とともに表示させる前記テキストとは異なる他のテキストの音声合成を行って得られた前記音声を出力させる
     請求項4に記載の情報処理端末。
  6.  前記提示制御部は、前記コンテンツに関する定量情報を、前記テキストによって前記ユーザに提示する
     請求項5に記載の情報処理端末。
  7.  前記推定部は、前記ユーザの視線が、所定の時間以上、前記画像に向いている場合、前記ユーザのアテンションが前記コンテンツに向いているとして推定する
     請求項3に記載の情報処理端末。
  8.  前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが間欠的に前記コンテンツに向いているとき、前記コンテンツに関する音声を出力させる
     請求項2に記載の情報処理端末。
  9.  前記提示制御部は、複数の前記コンテンツに関する複数の画像を順に表示させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、複数の前記画像の表示を継続させる
     請求項2に記載の情報処理端末。
  10.  前記提示制御部は、前記ユーザに提示する必要がある所定の情報を出力する場合、前記所定の情報に関する音声を出力させる
     請求項9に記載の情報処理端末。
  11.  情報処理端末が、
     ユーザのアテンションの状態を推定し、
     前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える
     情報処理方法。
  12.  ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信する通信部と、
     前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する提示制御部と
     を備える情報処理装置。
  13.  情報処理装置が、
     ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、
     前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信し、
     前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する
     情報処理方法。
PCT/JP2018/040662 2017-11-15 2018-11-01 情報処理端末、情報処理装置、および情報処理方法 WO2019098037A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/473,105 US11120797B2 (en) 2017-11-15 2018-11-01 Information processing terminal, information processing apparatus, and information processing method
EP18878630.5A EP3570141A4 (en) 2017-11-15 2018-11-01 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP2019527272A JP7283384B2 (ja) 2017-11-15 2018-11-01 情報処理端末、情報処理装置、および情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017219984 2017-11-15
JP2017-219984 2017-11-15

Publications (1)

Publication Number Publication Date
WO2019098037A1 true WO2019098037A1 (ja) 2019-05-23

Family

ID=66539020

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/040662 WO2019098037A1 (ja) 2017-11-15 2018-11-01 情報処理端末、情報処理装置、および情報処理方法

Country Status (4)

Country Link
US (1) US11120797B2 (ja)
EP (1) EP3570141A4 (ja)
JP (1) JP7283384B2 (ja)
WO (1) WO2019098037A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248814A1 (ja) * 2022-06-23 2023-12-28 ソニーグループ株式会社 情報処理装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3660838A4 (en) * 2017-07-26 2020-09-09 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
JPWO2020116193A1 (ja) * 2018-12-07 2020-06-11
KR20210068901A (ko) 2019-12-02 2021-06-10 삼성전자주식회사 음성 기반 인터페이스를 제공하는 전자 장치 및 그의 제어 방법
JP2022084116A (ja) * 2020-11-26 2022-06-07 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
KR20220128868A (ko) * 2021-03-15 2022-09-22 삼성전자주식회사 대체 컨텐츠를 제공하는 전자 장치 및 그의 동작 방법
US11984112B2 (en) * 2021-04-29 2024-05-14 Rovi Guides, Inc. Systems and methods to alter voice interactions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545051A (ja) * 2006-07-28 2009-12-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 注視された商品の情報表示のための注視インタラクション
JP2012022589A (ja) * 2010-07-16 2012-02-02 Hitachi Ltd 商品選択支援方法
JP2015045733A (ja) * 2013-08-28 2015-03-12 株式会社リコー 画像表示装置、画像表示制御方法及び画像表示制御プログラム
JP2015046089A (ja) 2013-08-29 2015-03-12 ソニー株式会社 情報処理装置および情報処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7284201B2 (en) * 2001-09-20 2007-10-16 Koninklijke Philips Electronics N.V. User attention-based adaptation of quality level to improve the management of real-time multi-media content delivery and distribution
US8292433B2 (en) * 2003-03-21 2012-10-23 Queen's University At Kingston Method and apparatus for communication between humans and devices
US9030536B2 (en) * 2010-06-04 2015-05-12 At&T Intellectual Property I, Lp Apparatus and method for presenting media content
WO2012160566A1 (en) * 2011-05-23 2012-11-29 Hewlett-Packard Development Company, L.P. Multimodal interactions based on body postures
US10120438B2 (en) * 2011-05-25 2018-11-06 Sony Interactive Entertainment Inc. Eye gaze to alter device behavior
US9426242B2 (en) * 2013-01-29 2016-08-23 Apple Inc. Determining an invitational content item type based on predicted user attention
US9958939B2 (en) * 2013-10-31 2018-05-01 Sync-Think, Inc. System and method for dynamic content delivery based on gaze analytics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545051A (ja) * 2006-07-28 2009-12-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 注視された商品の情報表示のための注視インタラクション
JP2012022589A (ja) * 2010-07-16 2012-02-02 Hitachi Ltd 商品選択支援方法
JP2015045733A (ja) * 2013-08-28 2015-03-12 株式会社リコー 画像表示装置、画像表示制御方法及び画像表示制御プログラム
JP2015046089A (ja) 2013-08-29 2015-03-12 ソニー株式会社 情報処理装置および情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3570141A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248814A1 (ja) * 2022-06-23 2023-12-28 ソニーグループ株式会社 情報処理装置

Also Published As

Publication number Publication date
US11120797B2 (en) 2021-09-14
EP3570141A1 (en) 2019-11-20
US20190348043A1 (en) 2019-11-14
EP3570141A4 (en) 2020-03-11
JPWO2019098037A1 (ja) 2020-10-01
JP7283384B2 (ja) 2023-05-30

Similar Documents

Publication Publication Date Title
WO2019098037A1 (ja) 情報処理端末、情報処理装置、および情報処理方法
US10347254B2 (en) Leveraging head mounted displays to enable person-to-person interactions
US9298704B2 (en) Language translation of visual and audio input
JP5556911B2 (ja) コンテンツ表現を作成する、方法、プログラム、及びシステム
US20190173816A1 (en) System and Method for Voice Networking
JP2020021025A (ja) 情報処理装置、情報処理方法及びプログラム
CN110945473A (zh) 信息处理装置和信息处理方法
Alkhalifa et al. Enssat: wearable technology application for the deaf and hard of hearing
US11275554B2 (en) Information processing apparatus, information processing method, and program
JP2016189121A (ja) 情報処理装置、情報処理方法およびプログラム
US11216242B2 (en) Audio output system, audio output method, and computer program product
JP7230803B2 (ja) 情報処理装置および情報処理方法
US11081100B2 (en) Sound processing device and method
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6496220B2 (ja) 情報配信装置および情報配信プログラム
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
JP2021121913A (ja) 情報処理装置、及び情報処理方法
US20230188635A1 (en) Information processing device, information processing method, program, and information processing system
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
JP7471979B2 (ja) 会議支援システム
US20240031758A1 (en) Information processing apparatus, information processing terminal, information processing method, and program
WO2021153263A1 (ja) 情報処理装置、及び情報処理方法
KR100596001B1 (ko) 사용자 단말기에 소정의 콘텐츠를 제공하기 위한 방법 및그 시스템
WO2018230056A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019527272

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18878630

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018878630

Country of ref document: EP

Effective date: 20190814

NENP Non-entry into the national phase

Ref country code: DE