WO2019123785A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019123785A1
WO2019123785A1 PCT/JP2018/037634 JP2018037634W WO2019123785A1 WO 2019123785 A1 WO2019123785 A1 WO 2019123785A1 JP 2018037634 W JP2018037634 W JP 2018037634W WO 2019123785 A1 WO2019123785 A1 WO 2019123785A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
user
content
content list
context
Prior art date
Application number
PCT/JP2018/037634
Other languages
English (en)
French (fr)
Inventor
長坂 英夫
亜世 後藤
裕介 土山
龍 青山
洋二 廣瀬
Original Assignee
ソニーモバイルコミュニケーションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーモバイルコミュニケーションズ株式会社 filed Critical ソニーモバイルコミュニケーションズ株式会社
Priority to US16/771,689 priority Critical patent/US20210076122A1/en
Priority to EP18891558.1A priority patent/EP3731067A4/en
Priority to JP2019560819A priority patent/JP6927331B2/ja
Publication of WO2019123785A1 publication Critical patent/WO2019123785A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 discloses an information processing apparatus that executes different processing according to the state of the apparatus for the same user operation.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program that allow a user to operate content more intuitively.
  • the output control unit controls the provision of a plurality of content lists corresponding to the context to the user based on the recognized context, and the output control unit is configured to operate the device by the user or An information processing apparatus is provided, which controls switching of the content list based on a gesture.
  • the processor includes, based on the recognized context, controlling provision of a plurality of content lists corresponding to the context to the user, the controlling being performed by the user
  • An information processing method is provided, further comprising: controlling switching of the content list based on a device operation or a gesture.
  • an output control unit for controlling provision of a plurality of content lists corresponding to the context to the user based on the recognized context, the output control unit further comprising: There is provided a program for functioning as an information processing apparatus, which controls switching of the content list based on a device operation or a gesture by a user.
  • the above-described apparatus includes, for example, a terminal that provides a user with content such as an audio program.
  • the wearable device may be, for example, a head mounted display worn on the head of a user and providing visual information and audio information, or a glasses-type device.
  • a head mounted display worn on the head of a user and providing visual information and audio information
  • a glasses-type device In the case of a head mounted display or the like, the user can perform the operation of the device in detail while visually confirming the information displayed on the user interface.
  • terminals that do not have a display device, such as a wearable device worn on the user's ear, are also in widespread use.
  • the user can operate the device by, for example, gestures such as device operation (button press, touch operation, etc.), speech, pitching and swing.
  • buttons disposed on the hierarchical device and the operation patterns that can be detected are limited, and the number of operations assigned to the gesture is also limited.
  • operation control by speech can be performed relatively flexibly, for example, there are many cases where operation by speech is difficult in a public place or the like. In this case, it is common for the user to perform an operation on a voice program, for example, using a terminal such as a smart phone that cooperates with the hierarchical device, and improvement of convenience has been desired.
  • the information processing apparatus has a function of controlling provision of a plurality of content lists for the context to the user based on the recognized context.
  • the information processing apparatus is characterized in that switching or selection of the content list is controlled based on the user's speech, gesture, device operation, and the like.
  • the information processing terminal 10 which provides a content is a hierarchy apparatus
  • the information processing terminal 10 which concerns on this embodiment is not limited to the example which concerns.
  • the information processing terminal 10 according to the present embodiment may be various devices for providing content to the user.
  • FIG. 1 is a diagram showing a basic structure of the information processing terminal 10 according to the present embodiment.
  • FIG. 1 is a diagram showing a basic structure in case the information processing terminal 10 which concerns on this embodiment is a wearable apparatus is shown by FIG.
  • the information processing terminal 10 includes a sound generating unit 610 that generates a sound, a sound guiding unit 620 that takes in the sound generated by the sound generating unit 610 from one end 621, and the sound guiding unit 620.
  • a holder 630 is provided for holding near the end 622.
  • the sound conducting portion 620 may be, for example, a hollow tube having an inner diameter of 1 to 5 millimeters, and both ends thereof may be open ends.
  • one end 621 of the sound guiding unit 620 is an acoustic input hole of the sound generated from the sound generation unit 610, and the other end 622 functions as an acoustic output hole. Therefore, the one end 621 is attached to the sound generation part 610, and the sound conduction part 620 is in an open state on one side.
  • the holding portion 630 is engaged with the vicinity of the entrance of the ear canal (for example, inter-collar notch), and the sound guiding portion 620 of the other end 622 of the sound guiding portion 620 faces the back side of the ear canal. Support near the other end 622.
  • the outer diameter near at least the other end 622 of the sound guiding portion 620 is formed to be much smaller than the inner diameter of the ear canal. Therefore, even if the other end 622 of the sound guiding part 620 is held by the holding part 630 near the entrance of the ear canal, the user's ear canal is not closed. That is, the ear holes are open.
  • the information processing terminal 10 can be said to be of the "open-ear type" unlike a general earphone.
  • the holding portion 630 is provided with an opening 631 for opening the ear canal entrance (ear hole) to the outside even when the sound guiding portion 620 is held.
  • the holding portion 630 is a ring-shaped structure, and a part of the inner side is connected to the vicinity of the other end 622 of the sound conducting portion 620, so the other parts of the ring-shaped structure are All are the openings 631.
  • the holding portion 630 is not limited to a ring-like structure, and may have any shape that can support the other end 622 of the sound conducting portion 620 as long as it has a hollow structure.
  • the holding portion 630 for holding the vicinity of the other end 622 of the sound guiding portion 620 includes the opening 631 for opening the entrance (ear hole) of the ear canal to the outside world. Therefore, even when the information processing terminal 10 is worn, the ear holes of the user are not closed. Even while the user wears the information processing terminal 10 and listens to the sound output from the sound generation unit 610, the user can sufficiently listen to the ambient sound through the opening 631.
  • the information processing terminal 10 opens the ear hole, it is possible to prevent leakage of the generated sound (reproduction sound) from the sound generation unit 610 to the outside.
  • the reason is that the other end 622 of the sound conducting part 620 is attached near the entrance of the ear canal and the air vibration of the generated sound is radiated near the tympanic membrane, so the sound quality is sufficient even if the output is reduced. It is because it can be obtained.
  • FIG. 2 shows that the information processing terminal 10 with the open-ear type outputs a sound wave to the user's ear.
  • air vibration is radiated from the other end 622 of the sound guiding portion 620 toward the inside of the ear canal.
  • the ear canal 700 is a hole starting from the ear canal entrance 701 and ending inside the tympanic membrane 702, and generally has a length of about 25 to 30 mm.
  • the ear canal 700 is a cylindrical closed space.
  • the air vibration radiated from the other end 622 of the sound guiding portion 620 toward the back of the ear canal 700 propagates to the eardrum 702 with directivity, as indicated by reference numeral 711. Moreover, since the air pressure increases the sound pressure in the ear canal 700, the sensitivity (gain) in the low frequency range is particularly improved.
  • the outside of the ear canal 700 that is, the outside is an open space. For this reason, the air vibration radiated from the other end 622 of the sound conducting portion 620 to the outside of the ear canal 700 has no directivity in the outside world and is sharply attenuated as indicated by reference numeral 712.
  • the tubular sound guiding part 620 has a bending shape that is folded back from the back side to the front side of the pinna in the middle part.
  • the bent portion is a pinch portion 623 having an open / close structure, and a pinch force can be generated to hold the earlobe.
  • the sound guiding portion 620 further includes a deformation portion 624 between the other end 622 disposed near the entrance of the ear canal and the pinch portion 623 to be bent.
  • the deforming portion 624 has a function of deforming when an excessive external force acts to prevent the other end 622 of the sound guiding portion 620 from getting deeper than necessary in the ear canal.
  • FIG. 3 is a block diagram showing an exemplary configuration of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment includes an information processing terminal 10, an information processing server 20, a sensor device 30, and a controlled device 40.
  • the above-described configurations are connected via the network 50 so as to enable information communication with each other.
  • the information processing terminal 10 is an information processing apparatus that provides a content list to the user based on control by the information processing server 20.
  • the information processing terminal 10 according to the present embodiment may be a wearable device as described with reference to FIGS. 1 and 2.
  • the information processing terminal 10 according to the present embodiment is not limited to such an example.
  • the information processing terminal 10 according to the present embodiment may be, for example, a wearable device, or a dedicated or stationary device.
  • the information processing terminal 10 according to the present embodiment may be various devices for providing content to the user.
  • the information processing terminal 10 has a function of collecting sensor information related to the user and the surroundings.
  • the sensor information collected by the information processing terminal 10 is used for recognition of the context by the information processing server 20.
  • the information processing server 20 is an information processing apparatus that controls provision of a plurality of content lists corresponding to the context by the information processing terminal 10 based on the recognized context. At this time, the information processing server 20 according to the present embodiment is characterized by controlling switching and selection of the above content list based on the user's speech, gesture, device operation and the like. Details of the functions of the information processing server 20 according to the present embodiment will be described later separately.
  • the sensor device 30 is an information processing device that collects sensor information related to the user and the surroundings.
  • the sensor information collected by the sensor device 30 is used for recognition of the context by the information processing server 20.
  • the sensor device 30 according to the present embodiment may be, for example, a mobile phone, a smartphone, a tablet, a wearable device, a home appliance, or the like.
  • the controlled device 40 is a device that executes various functions based on control by the information processing server 20.
  • the controlled device 40 according to the present embodiment may be, for example, a home appliance such as a lighting, an air conditioner, or a television.
  • the information processing server 20 can cause the controlled device 40 to execute various functions based on the user's utterance to the content list, a gesture, device operation, and the like.
  • the content list according to the present embodiment includes not only an audio program and the like but also a function command that defines a function to be executed by the controlled device 40. Details of the content list according to the present embodiment will be described later separately.
  • the network 50 has a function of connecting the components included in the information processing system.
  • the network 50 may include the Internet, a public network such as a telephone network, a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like.
  • the network 50 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the network 50 may include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • the configuration example of the information processing system according to the present embodiment has been described above.
  • the system configuration described using FIG. 3 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to such an example.
  • the information processing system according to the present embodiment may not necessarily include the sensor device 30 or the controlled device 40.
  • the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by a single device.
  • the configuration of the information processing system according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 4 is a block diagram showing an example of a functional configuration of the information processing terminal 10 according to the present embodiment.
  • the information processing terminal 10 according to the present embodiment includes an audio output unit 110, an input unit 120, a sensor unit 130, a control unit 140, and a server communication unit 150.
  • the voice output unit 110 has a function of outputting various sounds including voiced speech.
  • the audio output unit 110 according to the present embodiment can also be said to be a providing unit that provides a content list to the user based on control by the information processing server 20.
  • the audio output unit 110 according to the present embodiment includes an audio output device such as a speaker or an amplifier.
  • the input unit 120 has a function of detecting various device operations by the user.
  • the device operation described above may include, for example, button pressing and various touch operations.
  • the input unit 120 has a function of collecting sound information such as an utterance by a user and an ambient sound generated around the information processing terminal 10.
  • the sound information collected by the input unit 120 is used for voice recognition by the information processing server 20, recognition of the surrounding environment, and the like.
  • the input unit 120 according to the present embodiment includes a microphone for collecting sound information.
  • the sensor unit 130 has a function of collecting various sensor information related to the surrounding environment, the action of the user, and the state.
  • the sensor information collected by the sensor unit 130 is used for recognition of the context by the information processing server 20.
  • the sensor unit 130 includes an acceleration sensor, a gyro sensor, a geomagnetic sensor, a vibration sensor, a GNSS (Global Navigation Satellite System) signal receiving device, an imaging device, and the like.
  • GNSS Global Navigation Satellite System
  • Control unit 140 The control part 140 which concerns on this embodiment has a function which controls each structure with which the information processing terminal 10 is provided.
  • the control unit 140 controls, for example, start and stop of each component. Further, the control unit 140 inputs a control signal generated by the information processing server 20 to the voice output unit 110.
  • the control part 140 which concerns on this embodiment may have a function equivalent to the output control part 220 of the information processing server 20 mentioned later.
  • the server communication unit 150 has a function of performing information communication with the information processing server 20 via the network 50. Specifically, the server communication unit 150 transmits the sound information collected by the input unit 120 and the sensor information collected by the sensor unit 130 to the information processing server 20. Further, the server communication unit 150 receives, from the information processing server 20, a content list and a control signal related to the output of the content included in the content list.
  • the example of the functional configuration of the information processing terminal 10 according to the present embodiment has been described above.
  • the above configuration described using FIG. 4 is merely an example, and the functional configuration of the information processing terminal 10 according to the present embodiment is not limited to such an example.
  • the control unit 140 according to the present embodiment may have the same function as the output control unit 220 of the information processing server 20.
  • the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 5 is a block diagram showing an example of a functional configuration of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a recognition unit 210, an output control unit 220, a list generation unit 230, a history holding unit 240, and a communication unit 250.
  • the recognition unit 210 has a function of recognizing a context based on sensor information collected by the information processing terminal 10 or the sensor device 30.
  • the context according to the present embodiment can be said to define the state of the user or the environment.
  • the context according to the present embodiment may be, for example, a combination of elements related to the state such as "early morning”, “home”, “before coming to work”, “fine”, “user's emotion: calm", etc. Good.
  • the output control unit 220 can provide the content that matches the user or the state of the environment by controlling the provision of the content list according to the context as described above.
  • the recognition unit 210 can recognize various contexts based on the collected image, voice, acceleration information, angular velocity information, position information, usage information of a home appliance, and the like.
  • the recognition part 210 which concerns on this embodiment has a function which performs a speech recognition process based on the user's utterance which the information processing terminal 10 or the sensor apparatus 30 collected. Furthermore, the recognition unit 210 according to the present embodiment has a function of recognizing a user's gesture based on sensor information collected by the information processing terminal 10 or the sensor device 30. The speech or gesture of the user recognized by the recognition unit 210 is used to control the content list by the output control unit 220.
  • the output control unit 220 has a function of controlling provision of a plurality of content lists corresponding to the context to the user based on the context recognized by the recognition unit 210. At this time, one of the features is that the output control unit 220 according to the present embodiment controls the provision of the content list on the basis of the user's speech or gesture recognized by the recognition unit 210, or the device operation. . Details of the function of the output control unit 220 according to the present embodiment will be described later separately.
  • the list generation unit 230 has a function of generating a content list corresponding to a context and controlling the priority.
  • the list generation unit 230 according to the present embodiment may generate the content list or change the priority based on, for example, the preference of the user, the action history, and the like.
  • the generation of the content list by the list generation unit 230 according to this embodiment will be separately described in detail.
  • the history holding unit 240 holds history information on a user's operation history on the content list and feedback. Further, the history holding unit 240 according to the present embodiment holds the user's operation history (in particular, the function execution history) on the controlled device 40.
  • the communication unit 250 performs information communication with the information processing terminal 10, the sensor device 30, and the controlled device 40 via the network 50.
  • the communication unit 250 receives sound information and sensor information from the information processing terminal 10, and transmits a control signal related to the content list to the information processing terminal 10.
  • the functional configuration of the information processing server 20 according to the present embodiment has been described.
  • the above-described functional configuration described using FIG. 5 is merely an example, and the functional configuration of the information processing server 20 according to the present embodiment is not limited to such an example.
  • the information processing server 20 may not necessarily have all of the configurations shown in FIG.
  • the recognition unit 210, the list generation unit 230, and the history holding unit 240 can be provided in another device different from the information processing server 20.
  • the functional configuration of the information processing server 20 according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • a wearable device is capable of device operation, operation by speech or gesture, etc., but operation by button or gesture is limited in functions to be assigned (for example, playback, stop, transition to next content, etc.) Moreover, the operation by the utterance may be difficult depending on the situation such as the place and the time zone.
  • FIG. 6 is a diagram for explaining reproduction of content according to context.
  • FIG. 6 shows an example of the whereabouts of the user in one day, the trigger related to content reproduction, the context, and the content to be automatically reproduced according to the context.
  • the information processing server 20 uses the information processing terminal 10 as a trigger for the content type “relax (music that can be relaxed, etc.)” corresponding to the recognized context “morning preparation” triggered by wearing the information processing terminal 10 at home in the early morning May be played back automatically.
  • the information processing server 20 automatically reproduces the content type “Genki (music that makes good) etc.” corresponding to the recognized context “commuting” on the information processing terminal 10, triggered by the user leaving home. You may
  • the information processing server 20 automatically triggers the information processing terminal 10 to execute the content type “schedule (readout of registered schedule, etc.)” corresponding to the recognized context “starting business”, triggered by the arrival of the user at work. You may make it reproduce.
  • the content according to the present embodiment includes various audio programs related to music, schedule, news, reading, learning and the like.
  • the information processing server 20 automatically reproduces, on the information processing terminal 10, the content corresponding to the context based on various triggers such as various triggers such as work (work), leaving work, returning to home, before going to bed, etc. It is possible to
  • the recognition unit 210 of the information processing server 20 may, for example, use the above-described information based on the acceleration information and angular velocity information collected by the information processing terminal 10, the reception strength of the GNSS signal, the information of the Wi-Fi access point to be connected It can recognize triggers and contexts.
  • FIG. 7 is a diagram showing an example of the content list corresponding to the context according to the present embodiment.
  • FIG. 7 shows an example of a plurality of content lists (hereinafter, also referred to as channels) corresponding to the contexts “at home (morning)”, “outing”, and “at home (night)”. For example, in the context “at home (morning)”, “home channel 1-3", in the context “outing”, “out channel 1-3”, in the context “at home (night)” "home channel” 1 to 3 "are associated with each other.
  • the output control unit 220 can intuitively and easily select the content according to the preference by presenting the plurality of content lists corresponding to the context recognized by the recognition unit 210 to the user. It is possible to support
  • FIG. 8 is a diagram showing an example of a plurality of content lists according to the present embodiment.
  • FIG. 8 shows an example of a case where the information processing terminal 10 is caused to present a plurality of content lists related to the audio program based on the recognized trigger and context of the output control unit 220.
  • the plurality of content lists according to the present embodiment may be presented in the order of priority according to the preference of the user.
  • the output control unit 220 gives priority to “Genki channel (content list including a plurality of songs that are cheering)” in the trigger “wear” and context “set in the morning”, and “relax channel (includes plural songs that can be relaxed)”
  • the “content list)” may be presented to the information processing terminal 10 in the order as the second priority.
  • the output control unit 220 generates a content support list including a plurality of voice programs related to action support channels (e.g., schedule read-out, self-enlightenment, learning, etc.) in the trigger "departed from home” and the context "commuting and attending school”. ) May be presented to the information processing terminal 10 in the order given as “first priority” and “Genki channel” as second priority.
  • first priority is indicated by a high density dot
  • the second priority is indicated by a low density dot.
  • the user can easily select the content in accordance with the preference by presenting the plurality of content lists corresponding to the context to the user. .
  • the content list according to the present embodiment may have, for example, a hierarchical structure including a plurality of content groups.
  • the content list has a plurality of content groups such as a large group and a small group.
  • a genre such as "rock” may correspond to the large group
  • a category such as "artist J” or “artist K” may correspond to the small group.
  • Each of the above content groups may be composed of a plurality of contents. According to the above example, for example, the music of each artist is arranged under the small group.
  • the user can intuitively and easily switch or select the content list or content, for example, by performing a simple device operation or gesture on the content list name, content group name, or content name read out by voice. It is possible to
  • FIG. 9 is a diagram showing an example of the structure of the content list and the presentation control according to the present embodiment.
  • the output control unit 220 acquires a plurality of content lists corresponding to the context and causes the information processing terminal 10 to read the list name.
  • the output control unit 220 controls the selection of the content list based on, for example, recognition of the first gesture of the user, and causes the information processing terminal 10 to sequentially read out the content group name included in the content.
  • the above-mentioned first gesture may be, for example, an operation such as peeping.
  • the gesture according to the present embodiment broadly includes a specific action of the user using a part or the whole of the body.
  • the recognition unit 210 according to the present embodiment can sense a specific action based on various sensor information including an image, and can recognize the specific action as a gesture.
  • the output control unit 220 controls switching to the next content group or content belonging to the same layer. For example, when the second gesture of the user is recognized during the name reading of “small group 1”, the output control unit 220 transitions to the name reading control of “small group 2”. In addition, for example, when the second gesture of the user is recognized during reading out or reproducing the name of “content 1”, the output control unit 220 transitions to name reading or reproduction control of “content 2”.
  • the above-mentioned second gesture may be, for example, an operation such as shaking a neck.
  • the content group and the content can be presented to the user in order according to the hierarchical structure of the content list, and an instruction such as switching or presentation can be requested.
  • the user can intuitively and easily perform the selection operation related to the content matching the preference by the simple gesture as described above, for example, and enjoy the more flexible and convenient content provision It becomes possible.
  • the output control unit 220 may automatically select the content group or content being read out, for example, when the device operation or gesture by the user is not detected for a predetermined time or more.
  • the content which concerns on this embodiment is not limited to a music as above-mentioned.
  • Content according to the present embodiment includes, for example, various audio programs related to news, schedule, reading, learning, and the like.
  • the content according to the present embodiment may include a function command for causing the controlled device 40 to execute a predetermined function. That is, the user can easily cause the controlled device 40 to execute an arbitrary function by switching and selecting the function commands sequentially presented.
  • FIG. 10 is a view showing an example of the content list related to the function command according to the present embodiment. Compared with the example shown in FIG. 8, it can be seen that the content list “action support channel” is changed to the “function channel” in the example shown in FIG. 10.
  • the output control unit 220 presents the function commands “turn on TV”, “turn on air conditioner”, “enter coffee” etc. in order of priority It is possible to cause the controlled device 40 to execute a function according to the function command selected by the user.
  • the output control unit 220 presents the function commands “turn on air conditioner”, “noise cancellation”, etc. in order of priority, and to the function command selected by the user.
  • the corresponding function may be performed by the controlled device 40.
  • the list generation unit 230 can perform, for example, generation of a content list including an audio program and a function command as described above, and setting of a priority, based on the action history of the user.
  • the above-mentioned action history includes, for example, the operation history of the user on the content list or the like, and the execution history of the function of the controlled device 40.
  • the list generation unit 230 causes the information processing terminal 10 to record the utterance or the device operation performed by the user in association with the context in the history holding unit 240, and the number of times the same audio program is selected, etc. If exceeded, the content list or content may be registered.
  • the list generation unit 230 generates a content list related to the “relaxable audio program” and performs allocation, for example, when the number of times the user reproduces the “relaxable audio program” in the context “morning preparation” exceeds a threshold. be able to.
  • the list generation unit 230 causes the history holding unit 240 to record the execution of the predetermined function of the controlled device 40 by the user in association with the context, and the number of times the same function is performed exceeds a threshold.
  • a content list including function commands corresponding to the function may be assigned.
  • the list generation unit 230 generates a content list including a function command for “turn on television” and performs assignment, for example, when the number of times “turn on television” exceeds a threshold in the context “holiday morning” by the user. be able to.
  • the list generation unit 230 According to the above-described function of the list generation unit 230 according to the present embodiment, it is possible to present, in the order of priority, content lists that are highly likely to be selected by the user in a predetermined context. It is possible to realize high quality content provision corresponding to
  • the assignment of the content list may be performed by an inquiry to the user and an answer from the user.
  • the list generation unit 230 causes the information processing terminal 10 to output a voice such as “Do you want to assign XXX to a channel?”, And executes the assignment of the content list when the user indicates a positive response. Can.
  • assignment to the content list may not be performed, and control may be performed so as to be automatically performed when the corresponding context is recognized.
  • the list generation unit 230 may separate and generate a new content list from the existing content list, as the context is refined. For example, it is assumed that the function commands "enter coffee", “turn on TV”, and "stop music” corresponding to the context "holiday afternoon” already exist. At this time, when it is recognized from the accumulation of the user's action history that "stop music” is the case of "being in area C in the afternoon of a holiday” further detailed from the above context, the list generation unit 230 can separate the function command “stop music” from the context “holiday afternoon”, and generate a content list associated with the new context “being in area C on a holiday afternoon”. Note that the recognition unit 210 can recognize the context related to the place as described above, for example, based on information such as a GNSS signal received by the information processing terminal 10 and a Wi-Fi access point to be connected. .
  • the list generation unit 230 may perform generation of the content list or change of the priority based on the feedback of the user. For example, when the frequency of selecting the content set to the priority 2 is higher than the content set to the priority 1 by the user, the list generation unit 230 may perform a change such as changing the order of the two.
  • the user's feedback according to the present embodiment includes the user's selection act on the presented content.
  • the list generation unit 230 may execute the process of decreasing the priority or the deletion process for the content not selected by the user at all or the content with a low selection frequency.
  • the user's feedback according to the present embodiment may include implicit feedback such as no response to content.
  • the list generation unit 230 the number of content lists increases, and user selection is effectively prevented from becoming complicated, and high-quality content provision that always matches the user's preferences is realized can do.
  • the deletion of the content or the content list may be performed by an inquiry by the user and a response from the user.
  • the information processing server 20 controls the provision of a plurality of content lists corresponding to various contexts, and switches or selects the content list based on the user's device operation or gesture. Can be controlled. According to the above-described function of the information processing server 20 according to the present embodiment, high-quality content provision according to the user's situation or preference can be realized, and the user can select the content by a more intuitive and simple operation. It is possible to
  • the audio program and the function command may be controlled as a hierarchical structure in different dimensions.
  • the output control unit 220 may control switching or selection of the content list related to the audio program.
  • the output control unit 220 switches the content list related to the function command or The selection may be controlled.
  • the information processing server 20 can also recognize the gesture or the device operation of the user for each of a plurality of dimensions, and can control the presentation of the content list corresponding to the dimension. According to the above-described function of the information processing server 20 according to the present embodiment, it is possible to realize selection of more contents with less operation instructions without using visual information.
  • FIG. 11 is a flowchart showing a flow of control by the information processing server 20 according to the present embodiment.
  • the communication unit 250 receives sensor information from the information processing terminal 10 or the sensor device 30 (S1101).
  • the recognition unit 210 recognizes a context based on the sensor information received in step S1101 (S1102).
  • the output control unit 220 acquires and presents a plurality of content lists corresponding to the context (S1103).
  • the recognition unit 210 recognizes the user's device operation or gesture on the presented content list (S1104).
  • the output control unit 220 controls switching or selection related to the content list based on the device operation or gesture recognized in step S1104 (S1105).
  • the output control unit 220 executes output control based on the context selected in step S1105 (S1106).
  • FIG. 15 is a block diagram illustrating an exemplary hardware configuration of the information processing terminal 10 and the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing terminal 10 and the information processing server 20 include, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, and an input device 878. , An output device 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted. In addition, components other than the components shown here may be further included.
  • the processor 871 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation or a part of each component based on various programs recorded in the ROM 872, RAM 873, storage 880, or removable recording medium 901. .
  • the ROM 872 is a means for storing a program read by the processor 871, data used for an operation, and the like.
  • the RAM 873 temporarily or permanently stores, for example, a program read by the processor 871 and various parameters and the like that appropriately change when the program is executed.
  • the processor 871, the ROM 872, and the RAM 873 are connected to one another via, for example, a host bus 874 capable of high-speed data transmission.
  • host bus 874 is connected to external bus 876, which has a relatively low data transmission speed, via bridge 875, for example.
  • the external bus 876 is connected to various components via an interface 877.
  • Input device 8708 For the input device 878, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, and the like are used. Furthermore, as the input device 878, a remote controller (hereinafter, remote control) capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • the input device 878 also includes a voice input device such as a microphone.
  • the output device 879 is a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, a speaker, an audio output device such as a headphone, a printer, a mobile phone, or a facsimile. It is a device that can be notified visually or aurally. Also, the output device 879 according to the present disclosure includes various vibration devices capable of outputting haptic stimulation.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 901, for example.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, DVD media, Blu-ray (registered trademark) media, HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact IC chip, an electronic device, or the like.
  • connection port 882 is, for example, a port for connecting an externally connected device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an externally connected device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network.
  • a communication card for wired or wireless LAN Bluetooth (registered trademark) or WUSB (Wireless USB), a router for optical communication, ADSL (Asymmetric Digital) (Subscriber Line) router, or modem for various communications.
  • Bluetooth registered trademark
  • WUSB Wireless USB
  • ADSL Asymmetric Digital
  • Subscriber Line Subscriber Line
  • the information processing server 20 controls the output control unit 220 that controls provision of a plurality of content lists corresponding to the context to the user based on the recognized context.
  • the output control unit 220 has a function of controlling switching and selection of the content list based on an apparatus operation or a gesture by the user. According to such a configuration, the user can more intuitively operate the content.
  • each step concerning processing of information processing server 20 of this specification does not necessarily need to be processed in chronological order according to the order described in the flowchart.
  • the steps related to the processing of the information processing server 20 may be processed in an order different from the order described in the flowchart or may be processed in parallel.
  • An output control unit that controls provision of a plurality of content lists corresponding to the context to the user based on the recognized context; Equipped with The output control unit controls switching of the content list based on a device operation or a gesture by the user.
  • Information processing device (2)
  • the content list has a hierarchical structure composed of a plurality of content groups, The output control unit controls switching or selection of the content list and the content group based on a device operation or a gesture by the user.
  • the content group comprises a plurality of content, The output control unit controls switching or selection of the content based on a device operation or a gesture by the user.
  • the output control unit controls determination of the content list based on the recognized first gesture, and controls switching of the content list based on a second gesture.
  • the content list is provided by voice.
  • the content list includes a list related to an audio program, The output control unit controls selection or reproduction of the audio program based on a device operation or a gesture by the user.
  • the content list includes a list related to function commands, The output control unit controls selection or execution of the function command based on a voice or a gesture of the user.
  • the output control unit controls provision of the content list by a wearable device.
  • the output control unit controls provision of the content list by a hierarchical device.
  • a list generation unit that generates the content list corresponding to the context; Further comprising The information processing apparatus according to any one of the above (1) to (9).
  • the list generation unit generates the content list or changes the priority based on the action history of the user.
  • the action history of the user includes at least one of an operation history on the content list and a function execution history of a device.
  • the list generation unit generates a new content list from the existing content list as the context is refined.
  • the list generation unit generates the content list or changes the priority based on feedback of the user.
  • a recognition unit that recognizes the context; Further comprising The information processing apparatus according to any one of the above (1) to (14).
  • the processor controlling provision of a plurality of content lists corresponding to the context to the user based on the recognized context; Including The controlling may control switching of the content list based on a device operation or a gesture by the user. Further include, Information processing method. (18) Computer, An output control unit that controls provision of a plurality of content lists corresponding to the context to the user based on the recognized context; Equipped with The output control unit controls switching of the content list based on a device operation or a gesture by the user.
  • Information processing device Program to function as.

Abstract

【課題】ユーザがより直観的にコンテンツを操作する。 【解決手段】認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、を備え、前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、情報処理装置が提供される。また、プロセッサが、認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御すること、を含み、前記制御することは、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、ユーザに対しコンテンツや機能を提供する種々の装置が普及している。また、上記のような装置を利用するユーザの利便性を高めるための技術が開発されている。例えば、特許文献1には、同一のユーザ操作に対し装置の状態に応じた異なる処理を実行する情報処理装置が開示されている。
特開2017-147652号公報
 しかし、特許文献1に開示される情報処理装置の場合、ユーザが意図に沿った処理を装置に実行させるためには、装置の状態に応じた操作パターンを正しく入力することが求められる。
 そこで、本開示では、ユーザがより直観的にコンテンツを操作することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、を備え、前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御すること、を含み、前記制御することは、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御すること、をさらに含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、を備え、前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、情報処理装置、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、ユーザがより直観的にコンテンツを操作することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理端末の基本構造を示す図である。 同実施形態に係る耳穴開放型の情報処理端末がユーザの耳に音波を出力する様子を示す図である。 同実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係るコンテキストに応じたコンテンツの再生について説明するための図である。 同実施形態に係るコンテキストに対応するコンテンツリストの一例を示す図である。 同実施形態に係る複数のコンテンツリストの一例を示す図である。 同実施形態に係るコンテンツリストの構造と提示制御に係る一例を示す図である。 同実施形態に係る機能コマンドに係るコンテンツリストの一例を示す図である。 同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。 本開示の一実施形態に係るハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.情報処理端末10の一例
  1.3.システム構成例
  1.4.情報処理端末10の機能構成例
  1.5.情報処理サーバ20の機能構成例
  1.6.コンテンツリストの提示制御
  1.7.制御の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.概要>>
 まず、本開示の一実施形態の概要について説明する。上述したように、近年では、ユーザに対しコンテンツや機能を提供する種々の装置が普及している。上記のような装置には、例えば、ユーザに対し音声プログラムなどのコンテンツを提供する端末などが含まれる。
 また、ユーザの体に装着して利用されるウェアラブル装置も多く開発されている。ウェアラブル装置には、例えば、ユーザの頭部に装着され、視覚情報や音声情報を提供するヘッドマウントディスプレイや、眼鏡型の装置が挙げられる。ヘッドマウントディスプレイなどの場合、ユーザは、ユーザインタフェースに表示される情報を視覚的に確認しながら、装置の操作を詳細に実行することが可能である。
 一方、近年では、ユーザの耳に装着されるヒアラブル装置などの、表示装置を有しない端末も普及している。ヒアラブル装置の場合、ユーザは、例えば、機器操作(ボタン押下、タッチ操作など)、発話、頷きや首振りなどのジェスチャにより、装置の操作を行うことができる。
 しかし、ヒアラブル装置に配置されるボタンの数や検出し得る操作パターンには制限があり、また、ジェスチャに割り当てられる操作の数にも限界がある。また、発話による操作制御は比較的柔軟に行えると想定されるが、例えば、公共の場所などにおいては、発話による操作が困難な場合も多い。この場合、ユーザは、例えば、ヒアラブル装置と連携するスマートフォンなどの端末を用いて、音声プログラムに対する操作などを行うのが一般的であり、利便性の改善が求められていた。
 本開示の一実施形態に係る技術思想は、上記の点に着目して発想されたものであり、ユーザによるより直観的なコンテンツ操作を実現することを可能とする。このために、本開示の一実施形態に係る情報処理装置は、認識されたコンテキストに基づいて、ユーザに対し当該コンテキストに対する複数のコンテンツリストの提供を制御する機能を有する。また、本実施形態に係る情報処理装置は、ユーザの発話、ジェスチャ、機器操作などに基づいて、上記コンテンツリストの切り替えや選択を制御すること、を特徴の一つとする。
 本実施形態に係る情報処理装置が有する上記の機能によれば、より直観的かつ簡易な操作によりコンテンツの再生や実行を制御することが可能となり、装置の利便性を一層に高めることが可能となる。
 以下、本実施形態に係る情報処理装置が有する特徴と当該特徴が奏する効果について詳細に説明する。なお、以下においては、コンテンツの提供を行う情報処理端末10がヒアラブル装置である場合を主な例として説明するが、本実施形態に係る情報処理端末10は係る例に限定されない。本実施形態に係る情報処理端末10は、ユーザに対しコンテンツを提供する種々の装置であり得る。
 <<1.2.情報処理端末10の一例>>
 まず、本実施形態に係る情報処理端末10の一例について説明する。本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザに対しコンテンツを提供する情報処理装置である。図1は、本実施形態に係る情報処理端末10の基本構造を示す図である。なお、図1には、本実施形態に係る情報処理端末10がヒアラブル装置である場合の基本構造の一例が示されている。
 図1を参照すると、本実施形態に係る情報処理端末10は、音響を発生する音響発生部610、音響発生部610により発せられる音響を一端621から取り込む音導部620、音導部620を他端622付近で保持する保持部630を備える。音導部620は、例えば、内径が1~5ミリメートルの中空の管材からなり、その両端はともに開放端であってよい。また、音導部620の一端621は、音響発生部610からの発生音の音響入力孔であり、他端622は音響出力孔として機能する。したがって、一端621が音響発生部610に取り付けられることで、音導部620は片側開放状態となっている。
 また、保持部630は、外耳道の入り口付近(例えば、珠間切痕)と係合して、音導部620の他端622の音響出力孔が外耳道の奥側を向くように、音導部620を他端622付近で支持する。音導部620の少なくとも他端622付近の外径は、耳穴の内径よりもはるかに小さくなるように形成されている。したがって、音導部620の他端622が保持部630によって外耳道の入り口付近で保持されている状態でも、ユーザの耳穴を塞ぐことはない。すなわち、耳穴は開放されている。情報処理端末10は、一般的なイヤホンとは異なり、「耳穴開放型」ということができる。
 また、保持部630は、音導部620を保持した状態でも、外耳道入口(耳穴)を外界に開放する開口部631を備えている。図1に示す一例では、保持部630はリング状の構造体であり、内側の一部において音導部620の他端622付近と連結しているので、リング状構造体のそれ以外の部分はすべて開口部631となる。なお、保持部630は、リング状構造に限定されるものではなく、中空構造を備えていれば、音導部620の他端622を支持できる任意の形状でよい。
 管状の音導部620は、音響発生部610により発せられる音響をその一端621から管内に取り込むと、空気振動を伝搬して、保持部630によって外耳道入口付近に保持された他端622から外耳道にむけて放出して、鼓膜に伝える。
 上述したように、音導部620の他端622付近を保持する保持部630は、外耳道の入口(耳穴)を外界に開放する開口部631を備えている。したがって、情報処理端末10を装着している状態でも、ユーザの耳穴を塞ぐことはない。ユーザは、情報処理端末10を装着して音響発生部610から出力される音響を聴取している間も、開口部631を介して周囲音を十分に聴取することができる。
 また、本実施形態に係る情報処理端末10は、耳穴を開放しているが、音響発生部610からの発生音(再生音)の外部への漏れを防止することができる。なぜならば、音導部620の他端622が外耳道の入口付近で奥を向くように取り付けられ、発生音の空気振動を鼓膜の近くで放射することから、出力を小さくしても十分な音質を得ることができるからである。
 また、音導部620の他端622から放射される空気振動の指向性も音漏れの防止に寄与する。図2には、耳穴開放型の情報処理端末10がユーザの耳に音波を出力する様子が示されている。図2に示すように、音導部620の他端622から外耳道の内部に向けて空気振動が放射される。外耳道700は、外耳道入口701から始まり鼓膜702の内側で終了する穴であり、一般的におよそ25~30ミリメートルの長さがある。外耳道700は、筒状をした閉空間である。このため、音導部620の他端622から外耳道700の奥に向かって放射された空気振動は、参照番号711で示すように、指向性を以って鼓膜702まで伝搬する。また、空気振動は、外耳道700内では音圧が上がることから、とりわけ低域の感度(ゲイン)が向上する。他方、外耳道700の外側すなわち外界は開空間である。このため、音導部620の他端622から外耳道700の外に放射された空気振動は、参照番号712で示すように、外界では指向性がなく、急峻に減衰する。
 再び図1を参照しながら説明する。管状の音導部620は、中間部分に耳介の背面側から正面側に折り返す屈曲形状を有している。この屈曲部分は、開閉構造を有するピンチ部623となっており、ピンチ力を発生して耳垂を挟持することができる。
 また、音導部620は、外耳道の入口付近に配設される他端622と、屈曲するピンチ部623の間に、変形部624をさらに有している。変形部624は、過度な外力が作用すると変形して、音導部620の他端622が必要以上に外耳道の奥に入り込まないようにする機能を有する。
 <<1.3.システム構成例>>
 次に、本開示の一実施形態に係る情報処理システムの構成例について説明する。図3は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理システムは、情報処理端末10、情報処理サーバ20、センサ装置30、被制御装置40を備える。また、上記の各構成は、互いに情報通信が行えるように、ネットワーク50を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザに対しコンテンツリストを提供する情報処理装置である。本実施形態に係る情報処理端末10は、図1および図2を用いて説明したように、ヒアラブル装置であってもよい。一方、本実施形態に係る情報処理端末10は係る例に限定されない。本実施形態に係る情報処理端末10は、例えば、ウェアラブル装置、据え置き型または自律移動型の専用装置であってもよい。本実施形態に係る情報処理端末10は、ユーザに対しコンテンツを提供する種々の装置であり得る。
 また、本実施形態に係る情報処理端末10は、ユーザや周囲に係るセンサ情報を収集する機能を有する。情報処理端末10が収集するセンサ情報は、情報処理サーバ20によるコンテキストの認識に用いられる。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、認識したコンテキストに基づいて、情報処理端末10による、当該コンテキストに対応する複数のコンテンツリストの提供を制御する情報処理装置である。この際、本実施形態に係る情報処理サーバ20は、ユーザの発話、ジェスチャ、機器操作などに基づいて、上記のコンテンツリストの切り替えや選択を制御すること、を特徴の一つとする。本実施形態に係る情報処理サーバ20が有する機能の詳細については別途後述する。
 (センサ装置30)
 本実施形態に係るセンサ装置30は、ユーザや周囲に係るセンサ情報を収集する情報処理装置である。センサ装置30により収集されたセンサ情報は、情報処理サーバ20によるコンテキストの認識に用いられる。本実施形態に係るセンサ装置30は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、家電機器などであり得る。
 (被制御装置40)
 本実施形態に係る被制御装置40は、情報処理サーバ20による制御に基づいて種々の機能を実行する装置である。本実施形態に係る被制御装置40は、例えば、照明、空調機器、テレビジョン装置などの家電機器であってもよい。情報処理サーバ20は、コンテンツリストに対するユーザの発話、ジェスチャ、機器操作などに基づいて、被制御装置40に各種の機能を実行させることができる。このように、本実施形態に係るコンテンツリストには、音声プログラムなどのほか、被制御装置40に実行させる機能を定義する機能コマンドが含まれる。本実施形態に係るコンテンツリストの詳細については別途後述する。
 (ネットワーク50)
 ネットワーク50は、情報処理システムが備える各構成を接続する機能を有する。ネットワーク50は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク50は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク50は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図3を用いて説明したシステム構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理システムは、センサ装置30や被制御装置40を必ずしも備えなくてもよい。また、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図4は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理端末10は、音声出力部110、入力部120、センサ部130、制御部140、およびサーバ通信部150を備える。
 (音声出力部110)
 本実施形態に係る音声出力部110は、音声発話を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部110は、情報処理サーバ20による制御に基づいて、ユーザに対しコンテンツリストを提供する提供部ともいえる。このために、本実施形態に係る音声出力部110は、スピーカやアンプなどの音声出力装置を備える。
 (入力部120)
 本実施形態に係る入力部120は、ユーザによる種々の機器操作を検出する機能を有する。上記の機器操作には、例えば、ボタン押下や種々のタッチ動作などが含まれてよい。また、入力部120は、ユーザによる発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。入力部120が収集する音情報は、情報処理サーバ20による音声認識や周囲環境の認識などに用いられる。本実施形態に係る入力部120は、音情報を収集するためのマイクロフォンを備える。
 (センサ部130)
 本実施形態に係るセンサ部130は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ部130が収集したセンサ情報は、情報処理サーバ20によるコンテキストの認識に用いられる。センサ部130は、加速度センサ、ジャイロセンサ、地磁気センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置、撮像素子などを備える。
 (制御部140)
 本実施形態に係る制御部140は、情報処理端末10が備える各構成を制御する機能を有する。制御部140は、例えば、各構成の起動や停止を制御する。また、制御部140は、情報処理サーバ20により生成される制御信号を音声出力部110に入力する。また、本実施形態に係る制御部140は、後述する情報処理サーバ20の出力制御部220と同等の機能を有してもよい。
 (サーバ通信部150)
 本実施形態に係るサーバ通信部150は、ネットワーク50を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部150は、入力部120が収集した音情報や、センサ部130が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部150は、情報処理サーバ20からコンテンツリストおよび当該コンテンツリストが含むコンテンツの出力に係る制御信号などを受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図4を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、上述したように、本実施形態に係る制御部140は、情報処理サーバ20の出力制御部220と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図5は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図5を参照すると、本実施形態に係る情報処理サーバ20は、認識部210、出力制御部220、リスト生成部230、履歴保持部240、通信部250を備える。
 (認識部210)
 本実施形態に係る認識部210は、情報処理端末10やセンサ装置30が収集したセンサ情報に基づいてコンテキストを認識する機能を有する。本実施形態に係るコンテキストとは、ユーザや環境の状態を定義したものともいえる。本実施形態に係るコンテキストは、例えば、「早朝」、「自宅」、「出社前」、「晴れ」、「ユーザの感情:穏やか」、などの状態に係る要素が組み合わされたものであってもよい。本実施形態に係る出力制御部220は、上記のようなコンテキストに応じたコンテンツリストの提供を制御することで、ユーザや環境の状態により合致したコンテンツを提供することが可能である。なお、認識部210は、収集された画像、音声、加速度情報や角速度情報、位置情報、家電機器の利用情報などに基づいて、種々のコンテキストを認識することが可能である。
 また、本実施形態に係る認識部210は、情報処理端末10やセンサ装置30が収集したユーザの発話に基づいて、音声認識処理を行う機能を有する。さらには、本実施形態に係る認識部210は、情報処理端末10やセンサ装置30が収集したセンサ情報に基づいて、ユーザのジェスチャを認識する機能を有する。認識部210により認識されたユーザの発話やジェスチャは、出力制御部220によるコンテンツリストの制御に用いられる。
 (出力制御部220)
 本実施形態に係る出力制御部220は、認識部210が認識したコンテキストに基づいて、ユーザに対し当該コンテキストに対応する複数のコンテンツリストの提供を制御する機能を有する。この際、本実施形態に係る出力制御部220は、認識部210が認識したユーザの発話やジェスチャ、また機器操作などに基づいて、上記コンテンツリストの提供を制御すること、を特徴の一つとする。本実施形態に係る出力制御部220が有する機能の詳細については別途後述する。
 (リスト生成部230)
 本実施形態に係るリスト生成部230は、コンテキストに対応するコンテンツリストの生成や、優先度の制御を行う機能を有する。本実施形態に係るリスト生成部230は、例えば、ユーザの嗜好や行動履歴などに基づいて、コンテンツリストの生成や優先度の変更を行ってもよい。本実施形態に係るリスト生成部230によるコンテンツリストの生成については、別途詳細に説明する。
 (履歴保持部240)
 本実施形態に係る履歴保持部240は、コンテンツリストに対するユーザの操作履歴やフィードバックに係る履歴情報を保持する。また、本実施形態に係る履歴保持部240は、被制御装置40に対するユーザの操作履歴(特に、機能の実行履歴)を保持する。
 (通信部250)
 本実施形態に係る通信部250は、ネットワーク50を介して、情報処理端末10、センサ装置30、被制御装置40との情報通信を行う。例えば、通信部250は、情報処理端末10から音情報やセンサ情報を受信し、コンテンツリストに係る制御信号を情報処理端末10に送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図5を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、情報処理サーバ20は、必ずしも図5に示す構成のすべてを備えなくてもよい。認識部210、リスト生成部230、および履歴保持部240は、情報処理サーバ20とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.6.コンテンツリストの提示制御>>
 次に、本実施形態に係る出力制御部220によるコンテンツリストの提示制御について詳細に説明する。上述したように、近年においては、ユーザに対しコンテンツを提供する種々の装置が普及しているが、例えば、ヒアラブル装置のように、表示装置を有しない、あるいは表示装置の大きさに制限がある装置では、視覚情報を通じたコンテンツ操作が困難な場合も想定される。
 一方、ヒアラブル装置でも、機器操作、発話またはジェスチャによる操作などが可能であるが、ボタンやジェスチャによる操作では、割り当てられる機能(例えば、再生、停止、次コンテンツへの遷移など)に制限があり、また発話による操作は、場所や時間帯などの状況によっては困難な場合もある。
 そこで、上記のような制限に対し、コンテンツ操作に係るユーザの利便性を高める手法として、例えば、認識したコンテキストに基づいて、当該コンテキストに対応したコンテンツを情報処理端末10に自動的に再生させることも想定される。当該手法によれば、ユーザがあるコンテキストにおいて頻繁に再生する傾向があるコンテンツを自動再生することで、ユーザによる操作なしでも当該ユーザの嗜好に合致したコンテンツを提供することが可能となる。
 図6は、コンテキストに応じたコンテンツの再生について説明するための図である。図6には、一日におけるユーザの所在、コンテンツ再生に係るトリガー、コンテキスト、および当該コンテキストに応じて自動再生されるコンテンツの一例が示されている。
 例えば、情報処理サーバ20は、早朝自宅において、情報処理端末10を装着したことをトリガーとして、認識したコンテキスト「朝支度」に対応するコンテンツ種別「リラックス(リラックスできる楽曲など)」を情報処理端末10に自動再生させてもよい。
 また、例えば、情報処理サーバ20は、ユーザが自宅を出発したことをトリガーとして、認識したコンテキスト「通勤」に対応するコンテンツ種別「元気(元気が出る楽曲など)」を情報処理端末10に自動再生させてもよい。
 また、例えば、情報処理サーバ20は、ユーザが職場に到着したことをトリガーとして、認識したコンテキスト「始業」に対応するコンテンツ種別「予定(登録済み予定の読み上げなど)」を情報処理端末10に自動再生させてもよい。このように、本実施形態に係るコンテンツには、楽曲、予定、ニュース、朗読、学習などに係る種々の音声プログラムが含まれる。
 同様に、情報処理サーバ20は、各種のトリガーや、仕事(作業)、退勤、帰宅後、就寝前などの様々なコンテキストに基づいて、当該コンテキストに対応するコンテンツを情報処理端末10に自動で再生させることが可能である。なお、情報処理サーバ20の認識部210は、例えば、情報処理端末10が収集した加速度情報や角速度情報、またGNSS信号の受信強度や接続するWi-Fiアクセスポイントの情報などに基づいて、上記のトリガーやコンテキストを認識することができる。
 一方、上記のように、コンテキストに対応する単一のコンテンツあるいはコンテンツ種別の自動再生を行う場合、状況によっては、ユーザの意図に沿わないコンテンツが再生されてしまう場合も想定される。例えば、トリガーやコンテキストの認識が正確に行えた場合であっても、情報処理サーバ20が把握できていない新たなコンテキストは日々発生し、またユーザの嗜好も変化し得る。
 この場合、結局、ユーザは、コンテンツを自ら選びなおす操作を行わなくてはならず、二度手間となってしまう可能性も高い。また、上述したように、ヒアラブル装置などが提供可能なユーザインタフェースには制限があるため、機器操作やジェスチャによるコンテンツの選び直しは煩雑となることが予想される。このため、より簡易かつ迅速な操作を行いたい場合、発話による操作のみが選択肢として残ることとなるが、上述したように、発話による操作は、場所や時間帯などの環境によっては困難な場合も多い。
 そこで、本実施形態に係る情報処理サーバ20は、認識したコンテキストに対応する複数のコンテンツリストをユーザに提示し、ユーザの機器操作やジェスチャなどに基づいて、当該コンテンツリストの切り替えや選択を制御することを特徴の一つとする。図7は、本実施形態に係るコンテキストに対応するコンテンツリストの一例を示す図である。図7には、コンテキスト「在宅(朝)」、「外出」、「在宅(夜)」に対応する複数のコンテンツリスト(以下、チャンネル、とも称する)の一例が示されている。例えば、コンテキスト「在宅(朝)」には「在宅用チャンネル1~3」が、コンテキスト「外出」には「外出用チャンネル1~3」が、コンテキスト「在宅(夜)」には「帰宅用チャンネル1~3」がそれぞれ対応付けられている。
 この際、本実施形態に係る出力制御部220は、認識部210が認識したコンテキストに応じた複数のコンテンツリストをユーザに提示することで、嗜好に応じたコンテンツを直観的かつ簡易に選択できるようにサポートすることが可能である。
 図8は、本実施形態に係る複数のコンテンツリストの一例を示す図である。図8には、出力制御部220が認識されたトリガーおよびコンテキストに基づいて、音声プログラムに係る複数のコンテンツリストを情報処理端末10に提示させる場合の一例が示されている。
 なお、本実施形態に係る複数のコンテンツリストは、ユーザの嗜好等に応じた優先順位を以って提示されてよい。例えば、出力制御部220は、トリガー「装着」、コンテキスト「朝支度」において、「元気チャンネル(元気が出る楽曲を複数含むコンテンツリスト)」を第1優先、「リラックスチャンネル(リラックスできる楽曲を複数含むコンテンツリスト)」を第2優先として、当該順で情報処理端末10に提示させてもよい。
 一方、出力制御部220は、トリガー「家を出た」、コンテキスト「通勤・通学」において、「行動支援チャンネル(例えば、予定の読み上げや、自己啓発、学習などに係る音声プログラムを複数含むコンテンツリスト)」を第1優先、「元気チャンネル」を第2優先として、当該順で情報処理端末10に提示させてもよい。なお、図8に示す一例においては、第1優先が密度の高いドット、第2優先が密度の低いドットでそれぞれ示されている。
 このように、本実施形態に係る出力制御部220によれば、コンテキストに応じた複数のコンテンツリストをユーザに提示することで、ユーザが嗜好に沿ったコンテンツを容易に選択することが可能となる。
 なお、本実施形態に係るコンテンツリストは、例えば、複数のコンテンツグループから成る階層構造を有してもよい。例えば、コンテンツリストは、大グループや小グループなどの複数のコンテンツグループを有する。この場合、大グループには、「ロック」などのジャンルが該当し、小グループには、「アーティストJ」、「アーティストK」などの区分が該当してもよい。
 また、上記のコンテンツグループは、それぞれ複数のコンテンツから構成されてよい。上記の例に従うと、例えば、小グループの下位には、各アーティストの楽曲が配置される。
 この際、ユーザは、例えば、音声による読み上げられるコンテンツリスト名、コンテンツグループ名、コンテンツ名に対し、簡易な機器操作やジェスチャを行うことで、コンテンツリストやコンテンツなどの切り替えや選択を直観的かつ容易に行うことが可能である。
 図9は、本実施形態に係るコンテンツリストの構造と提示制御に係る一例を示す図である。出力制御部220は、例えば、認識部210が認識したコンテキストに基づいて、当該コンテキストに対応する複数のコンテンツリストを取得しリスト名の読み上げを情報処理端末10に実行させる。この際、出力制御部220は、例えば、ユーザの第1ジェスチャが認識されたことに基づいて、コンテンツリストの選択を制御し、当該コンテンツが含むコンテンツグループ名を情報処理端末10に順次読み上げさせる。ここで、上記の第1ジェスチャは、例えば、頷くなどの動作であってもよい。なお、本実施形態に係るジェスチャは、身体の一部または全体を用いたユーザの特定の動作を広く含む。本実施形態に係る認識部210は、画像を含む種々のセンサ情報に基づいて特定の動作をセンシングし、当該特定の動作をジェスチャとして認識することが可能である。
 一方、出力制御部220は、ユーザによる第2ジェスチャが認識された場合、同一の階層に属する次のコンテンツグループやコンテンツへの切り替えを制御する。例えば、「小グループ1」の名称読み上げ中にユーザの第2ジェスチャが認識された場合、出力制御部220は、「小グループ2」の名称読み上げ制御に遷移する。また、例えば、「コンテンツ1」の名称読み上げ中または再生中にユーザの第2ジェスチャが認識された場合、出力制御部220は、「コンテンツ2」の名称読み上げまたは再生制御に遷移する。なお、上記の第2ジェスチャは、例えば、首を振るなどの動作であってもよい。
 このように、本実施形態に係る出力制御部220が有する機能によれば、コンテンツリストの階層構造に従い、コンテンツグループおよびコンテンツを順にユーザに提示し、切り替えや提示などの指示を仰ぐことができる。係る機能によれば、ユーザは、例えば上述したような簡易なジェスチャにより嗜好に合致したコンテンツに係る選択操作を直観的かつ簡易に行うことができ、より柔軟で利便性の高いコンテンツ提供を享受することが可能となる。
 なお、図9を用いた上記の説明では、ジェスチャを用いて切り替えや選択を行う場合を例に述べたが、本実施形態に係るコンテンツリスト、コンテンツグループ、およびコンテンツの切り替えや選択は、係る例に限定されない。ユーザは、例えば、ボタン押下やタッチ操作などにより切り替えや選択を行うことが可能である。
 また、出力制御部220は、例えば、ユーザによる機器操作やジェスチャが所定時間以上検出されない場合には、読み上げ中のコンテンツグループやコンテンツを自動で選択してもよい。
 また、本実施形態に係るコンテンツは、上述したように楽曲に限定されない。本実施形態に係るコンテンツは、例えば、ニュース、予定、朗読、学習などに係る種々の音声プログラムを含む。
 また、本実施形態に係るコンテンツは、被制御装置40に所定の機能を実行させるための機能コマンドを含んでよい。すなわち、ユーザは、順次提示される機能コマンドを切り替え、選択することで、任意の機能を容易に被制御装置40に実行させることができる。
 図10は、本実施形態に係る機能コマンドに係るコンテンツリストの一例を示す図である。図8に示した一例と比較すると、図10に示す一例では、コンテンツリスト「行動支援チャンネル」が「機能チャンネル」に変わっていることがわかる。
 例えば、トリガー「装着」、コンテキスト「休日の朝」の場合、出力制御部220は、機能コマンド「テレビをつける」、「エアコンをつける」、「コーヒーを入れる」などを優先度順に提示させ、ユーザが選択した機能コマンドに応じた機能を被制御装置40に実行させることができる。
 また、例えば、トリガー「装着」、コンテキスト「仕事中」の場合、出力制御部220は、機能コマンド「エアコンをつける」や「ノイズキャンセル」などを優先度順に提示させ、ユーザが選択した機能コマンドに対応する機能を被制御装置40に実行させてよい。
 なお、本実施形態に係るリスト生成部230は、例えば、ユーザの行動履歴に基づいて、上記のような音声プログラムや機能コマンドを含むコンテンツリストの生成や、優先度の設定を行うことができる。ここで、上記の行動履歴には、例えば、コンテンツリストなどに対するユーザの操作履歴や、被制御装置40の機能の実行履歴が含まれる。
 例えば、リスト生成部230は、情報処理端末10に対してユーザが行った発話や機器操作などをコンテキストと対応付けて履歴保持部240に記録させ、同一の音声プログラムを選んだ回数などが閾値を超えた場合、コンテンツリストやコンテンツの登録を行ってもよい。リスト生成部230は、例えば、ユーザがコンテキスト「朝支度」において「リラックスできる音声プログラム」を再生した回数が閾値を超えた場合、「リラックスできる音声プログラム」に係るコンテンツリストを生成し、割り当てを行うことができる。
 また、例えば、リスト生成部230は、ユーザによる被制御装置40の所定機能の実行をコンテキストと対応付けて履歴保持部240に記録させ、同一の機能を実行させた回数が閾値を超えた場合、当該機能に対応する機能コマンドを含むコンテンツリストの割り当てを行ってもよい。リスト生成部230は、例えば、ユーザがコンテキスト「休日の朝」において「テレビをつける」回数が閾値を超えた場合、「テレビをつける」ための機能コマンドを含むコンテンツリストを生成し、割り当てを行うことができる。
 本実施形態に係るリスト生成部230が有する上記の機能によれば、所定のコンテキストにおいてユーザが選択する可能性が高いコンテンツリストを優先度順に提示することができ、日々変化するユーザの状態や嗜好に対応した質の高いコンテンツ提供を実現することが可能となる。
 なお、コンテンツリストの割り当てについては、ユーザへの問い合わせ、およびユーザの回答を以って実行されてもよい。例えば、リスト生成部230は、情報処理端末10に、「XXXをチャンネルに割り当てますか?」などの音声を出力させ、ユーザが肯定的な応答を示した場合にコンテンツリストの割り当てを実行することができる。
 また、ユーザが所定のコンテキストにおいて常に実行する機能などについては、コンテンツリストへの割り当てを行わず、対応するコンテキストが認識された際に、自動実行されるよう制御が行われてもよい。
 また、リスト生成部230は、コンテキストの詳細化に伴い、既存のコンテンツリストから新たなコンテンツリストを分離して生成してもよい。例えば、コンテキスト「休日の午後」に対応する機能コマンド「コーヒーを入れる」、「テレビをつける」、「音楽を停止する」が既存で存在する場合を想定する。この際、ユーザの行動履歴の蓄積から、「音楽を停止する」のは、上記コンテキストからさらに詳細化した「休日の午後にエリアCに居る」場合であることが認識された場合、リスト生成部230は、コンテキスト「休日の午後」から機能コマンドを「音楽を停止する」を分離し、新たなコンテキスト「休日の午後にエリアCに居る」に対応づけたコンテンツリストとして生成することができる。なお、認識部210は、例えば、情報処理端末10が受信するGNSS信号や、接続するWi-Fiアクセスポイントなどの情報に基づいて、上記のような場所に係るコンテキストを認識することが可能である。
 本実施形態に係るリスト生成部230が有する上記の機能によれば、ユーザが選択する音声プログラムや機能コマンドなどを対応付けるコンテキストをより詳細化させることで、細やかな条件に応じた精度の高いコンテンツ提供を実現することが可能である。
 また、本実施形態に係るリスト生成部230は、ユーザのフィードバックに基づいて、コンテンツリストの生成や優先度の変更を行ってもよい。例えば、ユーザが優先度1に設定したコンテンツよりも優先度2に設定したコンテンツを選択する頻度が高い場合、リスト生成部230は、両者の順番を入れ替えるなどの変更を行ってもよい。このように、本実施形態に係るユーザのフィードバックには、提示されたコンテンツに対するユーザの選択行為が含まれる。
 また、一方で、リスト生成部230は、ユーザがまったく選択しないコンテンツや選択頻度の低いコンテンツについては、優先度を下げる処理や削除処理を実行してもよい。このように、本実施形態に係るユーザのフィードバックには、コンテンツに対して反応がない、などの暗示的なフィードバックも含まれ得る。リスト生成部230が有する上記の機能によれば、コンテンツリストの数が増大し、ユーザの選択が煩雑になることを効果的に防止し、常にユーザの嗜好に合致した質の高いコンテンツ提供を実現することができる。なお、コンテンツやコンテンツリストの削除については、ユーザによる問い合わせ、およびユーザの応答を以って実行されてもよい。
 以上説明したように本実施形態に係る情報処理サーバ20は、種々のコンテキストに対応する複数のコンテンツリストの提供を制御し、ユーザの機器操作やジェスチャなどに基づいて、コンテンツリストの切り替えや選択を制御することができる。本実施形態に係る情報処理サーバ20が有する上記の機能によれば、ユーザの状況や嗜好などに応じた質の高いコンテンツ提供を実現すると共に、より直観的かつ簡易な操作でユーザがコンテンツを選択することが可能となる。
 なお、本実施形態に係るコンテンツは音声プログラムや機能コマンドを含むと述べたが、音声プログラムと機能コマンドとは、それぞれ異なるディメンションにおける階層構造として制御されてもよい。例えば、ユーザの顔の傾きが水平に近い場合に、首振りや頷きが認識された場合、出力制御部220は、音声プログラムに係るコンテンツリストの切り替えや選択を制御してよい。一方、ユーザの顔の傾きが閾値以上水平方向から離れている場合、例えば、ユーザが下方を向きながら首振りや頷きを行った場合、出力制御部220は、機能コマンドに係るコンテンツリストの切り替えや選択を制御してよい。このように、本実施形態に係る情報処理サーバ20は、ユーザのジェスチャや機器操作を複数のディメンションごとに認識し、当該ディメンションに対応したコンテンツリストの提示を制御することも可能である。本実施形態に係る情報処理サーバ20が有する上記の機能によれば、視覚情報を用いなくても、より少ない操作指示でより多くのコンテンツの選択を実現することができる。
 <<1.7.制御の流れ>>
 次に、本実施形態に係る情報処理サーバ20による制御の流れについて説明する。図11は、本実施形態に係る情報処理サーバ20による制御の流れを示すフローチャートである。
 図11を参照すると、まず、通信部250が情報処理端末10やセンサ装置30からセンサ情報を受信する(S1101)。
 次に、認識部210が、ステップS1101において受信したセンサ情報に基づいて、コンテキストの認識を行う(S1102)。
 次に、出力制御部220が、ステップS1102において認識されたコンテキストに基づいて、当該コンテキストに対応する複数のコンテンツリストを取得し、提示する(S1103)。
 次に、認識部210が、提示されるコンテンツリストに対するユーザの機器操作やジェスチャを認識する(S1104)。
 次に、出力制御部220が、ステップS1104において認識された機器操作やジェスチャに基づいて、コンテンツリストに係る切り替えや選択を制御する(S1105)。
 続いて、出力制御部220は、ステップS1105において選択されたコンテキストに基づく出力制御を実行する(S1106)。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図15は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図15を参照すると、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、認識されたコンテキストに基づいて、ユーザに対し当該コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部220を備える。また、本開示の一実施形態に係る出力制御部220は、ユーザによる機器操作やジェスチャに基づいて、コンテンツリストの切り替えや選択を制御する機能を有する。係る構成によれば、ユーザがより直観的にコンテンツを操作することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、情報処理サーバ20が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な非一過性の記録媒体も提供され得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、
 を備え、
 前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、
情報処理装置。
(2)
 前記コンテンツリストは、複数のコンテンツグループから成る階層構造を有し、
 前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストおよび前記コンテンツグループの切り替え、または選択を制御する、
前記(1)に記載の情報処理装置。
(3)
 前記コンテンツグループは、複数のコンテンツから成り、
 前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツの切り替え、または選択を制御する、
前記(2)に記載の情報処理装置。
(4)
 前記出力制御部は、認識された第1ジェスチャに基づいて前記コンテンツリストの決定を制御し、第2ジェスチャに基づいて前記コンテンツリストの切り替えを制御する、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記コンテンツリストは、音声により提供される、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記コンテンツリストは、音声プログラムに係るリストを含み、
 前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記音声プログラムの選択または再生を制御する、
前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
 前記コンテンツリストは、機能コマンドに係るリストを含み、
 前記出力制御部は、前記ユーザの音声またはジェスチャに基づいて、前記機能コマンドの選択または実行を制御する、
前記(1)~(6)のいずれかに記載の情報処理装置。
(8)
 前記出力制御部は、ウェアラブル装置による前記コンテンツリストの提供を制御する、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
 前記出力制御部は、ヒアラブル装置による前記コンテンツリストの提供を制御する、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
 前記コンテキストに対応する前記コンテンツリストを生成するリスト生成部、
 をさらに備える、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
 前記リスト生成部は、前記ユーザの行動履歴に基づいて、前記コンテンツリストの生成、または優先度の変更を行う、
前記(10)に記載の情報処理装置。
(12)
 前記ユーザの行動履歴は、前記コンテンツリストに対する操作履歴、または装置の機能実行履歴のうち少なくともいずれかを含む、
前記(11)に記載の情報処理装置。
(13)
 前記リスト生成部は、前記コンテキストの詳細化に伴い、既存の前記コンテンツリストから新たな前記コンテンツリストを生成する、
前記(10)~(12)のいずれかに記載の情報処理装置。
(14)
 前記リスト生成部は、前記ユーザのフィードバックに基づいて、前記コンテンツリストの生成、または優先度の変更を行う、
前記(10)~(13)のいずれかに記載の情報処理装置。
(15)
 前記コンテキストを認識する認識部、
 をさらに備える、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
 前記出力制御部による制御に基づいて前記ユーザに対し前記コンテンツリストを提供する提供部、
 をさらに備える、
前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
 プロセッサが、認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御すること、
 を含み、
 前記制御することは、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御すること、
 をさらに含む、
情報処理方法。
(18)
 コンピュータを、
 認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、
 を備え、
 前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、
 情報処理装置、
として機能させるためのプログラム。
 10   情報処理端末
 110  音声出力部
 120  入力部
 130  センサ部
 140  制御部
 150  サーバ通信部
 20   情報処理サーバ
 210  認識部
 220  出力制御部
 230  リスト生成部
 240  履歴保持部
 250  通信部
 30   センサ装置
 40   被制御装置

Claims (18)

  1.  認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、
     を備え、
     前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、
    情報処理装置。
  2.  前記コンテンツリストは、複数のコンテンツグループから成る階層構造を有し、
     前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストおよび前記コンテンツグループの切り替え、または選択を制御する、
    請求項1に記載の情報処理装置。
  3.  前記コンテンツグループは、複数のコンテンツから成り、
     前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツの切り替え、または選択を制御する、
    請求項2に記載の情報処理装置。
  4.  前記出力制御部は、認識された第1ジェスチャに基づいて前記コンテンツリストの決定を制御し、第2ジェスチャに基づいて前記コンテンツリストの切り替えを制御する、
    請求項1に記載の情報処理装置。
  5.  前記コンテンツリストは、音声により提供される、
    請求項1に記載の情報処理装置。
  6.  前記コンテンツリストは、音声プログラムに係るリストを含み、
     前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記音声プログラムの選択または再生を制御する、
    請求項1に記載の情報処理装置。
  7.  前記コンテンツリストは、機能コマンドに係るリストを含み、
     前記出力制御部は、前記ユーザの音声またはジェスチャに基づいて、前記機能コマンドの選択または実行を制御する、
    請求項1に記載の情報処理装置。
  8.  前記出力制御部は、ウェアラブル装置による前記コンテンツリストの提供を制御する、
    請求項1に記載の情報処理装置。
  9.  前記出力制御部は、ヒアラブル装置による前記コンテンツリストの提供を制御する、
    請求項1に記載の情報処理装置。
  10.  前記コンテキストに対応する前記コンテンツリストを生成するリスト生成部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  11.  前記リスト生成部は、前記ユーザの行動履歴に基づいて、前記コンテンツリストの生成、または優先度の変更を行う、
    請求項10に記載の情報処理装置。
  12.  前記ユーザの行動履歴は、前記コンテンツリストに対する操作履歴、または装置の機能実行履歴のうち少なくともいずれかを含む、
    請求項11に記載の情報処理装置。
  13.  前記リスト生成部は、前記コンテキストの詳細化に伴い、既存の前記コンテンツリストから新たな前記コンテンツリストを生成する、
    請求項10に記載の情報処理装置。
  14.  前記リスト生成部は、前記ユーザのフィードバックに基づいて、前記コンテンツリストの生成、または優先度の変更を行う、
    請求項10に記載の情報処理装置。
  15.  前記コンテキストを認識する認識部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  16.  前記出力制御部による制御に基づいて前記ユーザに対し前記コンテンツリストを提供する提供部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  17.  プロセッサが、認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御すること、
     を含み、
     前記制御することは、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御すること、
     をさらに含む、
    情報処理方法。
  18.  コンピュータを、
     認識されたコンテキストに基づいて、ユーザに対し前記コンテキストに対応する複数のコンテンツリストの提供を制御する出力制御部、
     を備え、
     前記出力制御部は、前記ユーザによる機器操作またはジェスチャに基づいて、前記コンテンツリストの切り替えを制御する、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2018/037634 2017-12-18 2018-10-10 情報処理装置、情報処理方法、およびプログラム WO2019123785A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/771,689 US20210076122A1 (en) 2017-12-18 2018-10-10 Information processing apparatus, information processing method, and program
EP18891558.1A EP3731067A4 (en) 2017-12-18 2018-10-10 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
JP2019560819A JP6927331B2 (ja) 2017-12-18 2018-10-10 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-242169 2017-12-18
JP2017242169 2017-12-18

Publications (1)

Publication Number Publication Date
WO2019123785A1 true WO2019123785A1 (ja) 2019-06-27

Family

ID=66992553

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/037634 WO2019123785A1 (ja) 2017-12-18 2018-10-10 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20210076122A1 (ja)
EP (1) EP3731067A4 (ja)
JP (1) JP6927331B2 (ja)
WO (1) WO2019123785A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250581A (ja) * 2004-03-01 2005-09-15 Denso Corp インタフェース装置
JP2010191802A (ja) * 2009-02-19 2010-09-02 Olympus Corp 情報処理システム、画像表示装置、プログラム及び情報記憶媒体
WO2017057010A1 (ja) * 2015-10-02 2017-04-06 シャープ株式会社 端末装置および制御サーバ
JP2017147652A (ja) 2016-02-18 2017-08-24 ソニーモバイルコミュニケーションズ株式会社 情報処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8417703B2 (en) * 2009-11-03 2013-04-09 Qualcomm Incorporated Data searching using spatial auditory cues
US9665344B2 (en) * 2010-02-24 2017-05-30 GM Global Technology Operations LLC Multi-modal input system for a voice-based menu and content navigation service

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250581A (ja) * 2004-03-01 2005-09-15 Denso Corp インタフェース装置
JP2010191802A (ja) * 2009-02-19 2010-09-02 Olympus Corp 情報処理システム、画像表示装置、プログラム及び情報記憶媒体
WO2017057010A1 (ja) * 2015-10-02 2017-04-06 シャープ株式会社 端末装置および制御サーバ
JP2017147652A (ja) 2016-02-18 2017-08-24 ソニーモバイルコミュニケーションズ株式会社 情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3731067A4

Also Published As

Publication number Publication date
JP6927331B2 (ja) 2021-08-25
EP3731067A4 (en) 2021-03-03
EP3731067A1 (en) 2020-10-28
JPWO2019123785A1 (ja) 2020-12-03
US20210076122A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
JP7274527B2 (ja) ウェアラブルデバイスの状態に基づいたコンパニオン通信デバイスの動作の変更
KR102102647B1 (ko) 무선 리시버 및 그 제어 방법
US9344878B2 (en) Method and system for operating communication service
US10893352B2 (en) Programmable interactive stereo headphones with tap functionality and network connectivity
EP3438974A1 (en) Information processing device, information processing method, and program
KR102545837B1 (ko) 디스플레이 장치, 디스플레이 장치의 배경음악 제공방법 및 배경음악 제공 시스템
JPWO2015133022A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2019033987A1 (zh) 提示方法、装置、存储介质及终端
CN109429132A (zh) 耳机系统
KR20140142476A (ko) 데이터 처리 방법 및 그 전자 장치
CN109104662A (zh) 指令执行方法、操作响应方法、终端及耳机设备
CN108780382B (zh) 创建并控制提供对来自各个音频提供者服务的内容的访问的频道
KR102135370B1 (ko) 이동 단말기 및 이동 단말기의 제어방법
JP7406874B2 (ja) 電子機器、その制御方法、およびそのプログラム
KR20180076830A (ko) 오디오 장치 및 그 제어방법
JP7243639B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11940896B2 (en) Information processing device, information processing method, and program
WO2019123785A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019142420A1 (ja) 情報処理装置および情報処理方法
WO2019183904A1 (zh) 自动识别音频中不同人声的方法
JP7216621B2 (ja) 電子機器、プログラムおよび音声認識方法
US20230041400A1 (en) Methods for improving wireless connections for previously paired devices
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18891558

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019560819

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018891558

Country of ref document: EP

Effective date: 20200720