WO2020255767A1 - 情報処理システム、情報処理方法、及び記録媒体 - Google Patents

情報処理システム、情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2020255767A1
WO2020255767A1 PCT/JP2020/022483 JP2020022483W WO2020255767A1 WO 2020255767 A1 WO2020255767 A1 WO 2020255767A1 JP 2020022483 W JP2020022483 W JP 2020022483W WO 2020255767 A1 WO2020255767 A1 WO 2020255767A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
scenario
content element
information processing
information
Prior art date
Application number
PCT/JP2020/022483
Other languages
English (en)
French (fr)
Inventor
木下 隆
龍 青山
泉 八木
洋二 廣瀬
文彬 徳久
長坂 英夫
正一 土居
山田 真
小池 薫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to KR1020217039153A priority Critical patent/KR20220019683A/ko
Priority to US17/618,682 priority patent/US20220246135A1/en
Priority to JP2021527610A priority patent/JPWO2020255767A1/ja
Priority to CN202080043410.8A priority patent/CN114008610A/zh
Priority to EP20825869.9A priority patent/EP3989083A4/en
Publication of WO2020255767A1 publication Critical patent/WO2020255767A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/687Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Definitions

  • the present technology relates to an information processing system, an information processing method, and a recording medium, and more particularly to an information processing system, an information processing method, and a recording medium capable of providing a better user experience.
  • Patent Document 1 In recent years, with the spread of information devices, various services that take advantage of the characteristics of the devices have been provided (see, for example, Patent Document 1).
  • processing may be performed using context information.
  • context information As a technique related to the context, the techniques disclosed in Patent Documents 2 to 5 are known.
  • This technology was made in view of such a situation, and makes it possible to provide a better user experience.
  • context information is associated with content elements in advance, and activation conditions can be set for at least the context information for each user, and the data set of the context information and the activation condition. It is possible to generate a user scenario consisting of, and when the sensor data obtained by sensing the user in real time satisfies the activation condition set in the user scenario, it is associated with the context information corresponding to the activation condition. It is an information processing system including a control unit that controls the created content elements so as to be presented to the user.
  • the information processing apparatus can associate context information with the content element in advance, and can set an activation condition for at least the context information for each user. It is possible to generate a user scenario consisting of a data set of activation conditions, and when the sensor data obtained by sensing the user in real time satisfies the activation conditions set in the user scenario, the activation conditions are met.
  • This is an information processing method that controls the content element associated with the context information so as to be presented to the user.
  • the computer is associated with the content element in advance with context information, and the activation condition can be set for at least the context information for each user, and the context information and the activation condition can be set. It is possible to generate a user scenario consisting of a data set, and when the sensor data obtained by sensing the user in real time satisfies the activation condition set in the user scenario, the context information corresponding to the activation condition is used.
  • a computer-readable recording medium that records a program for functioning as a control unit that controls the associated content elements to be presented to the user.
  • context information is associated with content elements in advance, and activation conditions are set for at least the context information for each user.
  • activation conditions are set for at least the context information for each user.
  • a figure which shows another example of the information stored in a scenario DB It is a figure which shows the example of a content element. It is a figure which shows the example of the combination of a content element and a context. It is a figure which shows the example of a scenario. It is a figure which shows the example of the scenario selection / new creation screen. It is a figure which shows the example of the scenario edit screen. It is a figure which shows the 1st example of the geofence edit screen. It is a figure which shows the 2nd example of the geofence edit screen. It is a figure which showed the whole image of the information processing in the 2nd Embodiment. It is a figure which showed the whole image of the information processing in the 3rd Embodiment.
  • First Embodiment Basic configuration 2.
  • Second embodiment Generation of scenario DB 3.
  • Third embodiment Generation of different media 4.
  • Fourth embodiment Generation of user scenario DB 5.
  • Sixth embodiment Configuration when the activation condition is set to a plurality of context information 7.
  • Seventh Embodiment Configuration in which a plurality of devices are interlocked 8.
  • Eighth embodiment Configuration in cooperation with another service 9.
  • Ninth Embodiment Configuration in which the scenario is shared 10.
  • Tenth Embodiment Other Examples of Data 11.
  • Eleventh embodiment Configuration using user feedback 12. Modification 13.
  • Computer configuration
  • FIG. 1 is a representative diagram showing an outline of the present technology.
  • This technology provides a better user experience by allowing users living in different locations to use one scenario.
  • the creator creates a scenario by adding context information, which is context information, to a content element, which is an element constituting the content, by using an editing device such as a personal computer.
  • the scenario created in this way is distributed via a server on the Internet.
  • Each user operates a playback device such as a smartphone, selects a desired scenario from the distributed scenarios, and sets the activation condition, which is a condition for presenting the content element, to set the user scenario.
  • the activation condition which is a condition for presenting the content element. Create each. That is, in FIG. 1, since two users, user A and user B, set their own activation conditions for the same scenario, the activation conditions of the user scenario are different for each user. ..
  • FIG. 2 shows an example of the configuration of an information processing system to which the present technology is applied.
  • the information processing system 1 is composed of a data management server 10, an editing device 20, and a playback device 30-1 to 30-N (N: an integer of 1 or more). Further, in the information processing system 1, the data management server 10, the editing device 20, and the playback devices 30-1 to 20-N are connected to each other via the Internet 40.
  • the data management server 10 is composed of one or a plurality of servers for managing data such as a database, and is installed in a data center or the like.
  • the editing device 20 is composed of information devices such as a personal computer and is managed by a business operator that provides the service.
  • the editing device 20 connects to the data management server 10 via the Internet 40, performs editing processing on the data stored in the database, and generates a scenario.
  • the playback device 30-1 is composed of information devices such as smartphones, mobile phones, tablet terminals, wearable devices, portable music players, game machines, and personal computers.
  • the playback device 30-1 connects to the data management server 10 via the Internet 40, sets activation conditions for the scenario, and generates a user scenario.
  • the playback device 30-1 reproduces the content element according to the activation condition based on the user scenario.
  • the playback devices 30-2 to 30-N are composed of information devices such as smartphones, like the playback devices 30-1, and reproduce content elements according to the activation conditions based on the generated user scenario.
  • the playback device 30 when it is not necessary to distinguish the playback devices 30-1 to 20-N, the playback device 30 is simply referred to.
  • FIG. 3 shows an example of the configuration of the data management server 10 of FIG.
  • the data management server 10 includes a control unit 100, an input unit 101, an output unit 102, a storage unit 103, and a communication unit 104.
  • the control unit 100 is composed of a processor such as a CPU (Central Processing Unit).
  • the control unit 100 is a central processing device that controls the operation of each unit and performs various arithmetic processes.
  • the input unit 101 is composed of a mouse, a keyboard, physical buttons, and the like.
  • the input unit 101 supplies an operation signal according to the user's operation to the control unit 100.
  • the output unit 102 is composed of a display, a speaker, and the like.
  • the output unit 102 outputs video, audio, and the like according to the control from the control unit 100.
  • the storage unit 103 is composed of a large-capacity storage device such as a non-volatile memory, a semiconductor memory including a volatile memory, and an HDD (Hard Disk Drive).
  • the storage unit 103 stores various data according to the control from the control unit 100.
  • the communication unit 104 is composed of a communication module or the like that supports wireless communication or wired communication conforming to a predetermined standard.
  • the communication unit 104 communicates with other devices according to the control from the control unit 100.
  • control unit 100 includes a data management unit 111, a data processing unit 112, and a communication control unit 113.
  • the data management unit 111 manages various databases and content data stored in the storage unit 103.
  • the data processing unit 112 performs data processing related to various types of data. This data processing includes processing related to contents, processing related to machine learning, and the like.
  • the communication control unit 113 controls the communication unit 104 to exchange various data with the editing device 20 or the playback device 30 via the Internet 40.
  • the configuration of the data management server 10 shown in FIG. 3 is an example, and some components may be removed or other components such as a dedicated image processing unit may be added.
  • FIG. 4 shows an example of the configuration of the editing device 20 of FIG.
  • the editing device 20 includes a control unit 200, an input unit 201, an output unit 202, a storage unit 203, and a communication unit 204.
  • the control unit 200 is composed of a processor such as a CPU.
  • the control unit 200 is a central processing device that controls the operation of each unit and performs various arithmetic processes.
  • the input unit 201 is composed of an input device such as a mouse 221 and a keyboard 222.
  • the input unit 201 supplies an operation signal corresponding to the user's operation to the control unit 200.
  • the output unit 202 is composed of an output device such as a display 231 and a speaker 232.
  • the output unit 202 outputs information according to various data according to the control from the control unit 200.
  • the display 231 displays an image corresponding to the image data from the control unit 200.
  • the speaker 232 outputs a voice (sound) corresponding to the voice data from the control unit 200.
  • the storage unit 203 is composed of a semiconductor memory such as a non-volatile memory.
  • the storage unit 203 stores various data according to the control from the control unit 200.
  • the communication unit 204 is composed of a communication module that supports wireless communication or wired communication that conforms to a predetermined standard.
  • the communication unit 204 communicates with other devices according to the control from the control unit 200.
  • control unit 200 includes an editing processing unit 211, a presentation control unit 212, and a communication control unit 213.
  • the editing processing unit 211 performs editing processing related to various data. This editing process includes processing related to a scenario described later.
  • the presentation control unit 212 controls the output unit 202 to control the presentation of information such as video and audio according to data such as video data and audio data.
  • the communication control unit 213 controls the communication unit 204 and exchanges various data with the data management server 10 via the Internet 40.
  • FIG. 4 Note that the configuration of the editing device 20 shown in FIG. 4 is an example, and some components may be removed or other components may be added.
  • FIG. 5 shows an example of the configuration of the reproduction device 30 of FIG.
  • the playback device 30 includes a control unit 300, an input unit 301, an output unit 302, a storage unit 303, a communication unit 304, a sensor unit 305, a camera unit 306, an output terminal 307, and a power supply unit 308. To.
  • the control unit 300 is composed of a processor such as a CPU.
  • the control unit 300 is a central processing device that controls the operation of each unit and performs various arithmetic processes.
  • the input unit 301 is composed of a physical button 321 and an input device such as a touch panel 322 and a microphone.
  • the input unit 301 supplies an operation signal according to the user's operation to the control unit 300.
  • the output unit 302 is composed of an output device such as a display 331 and a speaker 332.
  • the output unit 302 outputs information according to various data according to the control from the control unit 300.
  • the display 331 displays an image corresponding to the image data from the control unit 300.
  • the speaker 332 outputs a voice (sound) corresponding to the voice data from the control unit 300.
  • the storage unit 303 is composed of a semiconductor memory such as a non-volatile memory.
  • the storage unit 303 stores various data according to the control from the control unit 300.
  • the communication unit 304 is configured as a communication module compatible with wireless LAN (Local Area Network), cellular communication (for example, LTE-Advanced, 5G, etc.), wireless communication such as Bluetooth (registered trademark), or wired communication. ..
  • the communication unit 304 communicates with other devices according to the control from the control unit 300.
  • the sensor unit 305 is composed of various sensor devices and the like.
  • the sensor unit 305 senses the user and its surroundings, and supplies sensor data according to the sensing result to the control unit 300.
  • the sensor unit 305 includes an inertial sensor that measures position, orientation, acceleration, and speed, a biological sensor that measures information such as the heart rate, body temperature, or posture of a living organism, and the magnitude and direction of a magnetic field (magnetic field).
  • a magnetic sensor for measuring, a proximity sensor for measuring a proximity object, and the like can be included.
  • an acceleration sensor for measuring acceleration or a gyro sensor for measuring angle (attitude), angular velocity, and angular acceleration may be used.
  • the camera unit 306 is composed of an optical system, an image sensor, a signal processing circuit, and the like.
  • the camera unit 306 supplies the image pickup data obtained by imaging the subject to the control unit 300.
  • the output terminal 307 is connected to a device including an electroacoustic conversion device such as earphones and headphones via a cable.
  • the output terminal 307 outputs data such as voice data from the control unit 300.
  • the device such as earphones may be connected not only by wire but also by wireless communication such as Bluetooth (registered trademark).
  • the power supply unit 308 is composed of a battery such as a secondary battery and a power management circuit, and supplies power to each unit including the control unit 300.
  • control unit 300 includes a reproduction processing unit 311, a presentation control unit 312, and a communication control unit 313.
  • the playback processing unit 311 performs playback processing related to data of various contents. This reproduction process includes (a part of) music, a process of reproducing data such as a character's utterance, and the like.
  • the presentation control unit 312 controls the output unit 302 to control the presentation of information such as video and audio according to data such as video data and audio data. In addition, the presentation control unit 312 controls the presentation of the data reproduced by the reproduction processing unit 311.
  • the communication control unit 313 controls the communication unit 304 to exchange various data with the data management server 10 via the Internet 40.
  • the configuration of the playback device 30 shown in FIG. 5 is an example, and some components such as the camera unit 306 and the output terminal 307 may be removed, or other components such as the input terminal may be added. You may.
  • the information processing system 1 is configured as described above. Hereinafter, the specific contents of the information processing executed by the information processing system 1 will be described.
  • the storage unit 103 stores each database of the content element-context information DB 151, the scenario DB 152, and the user scenario DB 153.
  • the storage unit 103 also stores the data of the content elements.
  • Content element-context information DB 151 is a database that stores a table in which the content element and the context information are associated with each other.
  • the content element is an element that constitutes the content.
  • the content element includes lines, BGM, sound effects, environmental sounds, music, images, etc., which are generated from contents such as video and music.
  • the context information is the context information given to the content element.
  • the context information given according to the situation in which the content element is expected to be used is associated with the content element and accumulated in the content element-context information DB 151.
  • the machine learning technique may be used to automatically add context information to the content element.
  • Scenario DB 152 is a database that stores scenarios.
  • the scenario is a package of a data set consisting of a combination of content elements and context information (hereinafter, also referred to as "content element-context information”) based on a certain theme.
  • scenario DB 152 may store device function information related to the function of the playback device 30. By using this device function information, it is possible to execute processing according to the function of one or more playback devices 30.
  • the user scenario DB 153 is a database that stores user scenarios.
  • the user scenario is a scenario in which a data set consisting of content elements and context information is packaged, and activation conditions are set.
  • a user scenario can be said to be a user-defined scenario.
  • the activation condition is a condition for presenting the content element associated with the context information of the data set to the user.
  • a spatial condition such as a position or a place, a temporal condition, a user's action, or the like can be set.
  • the data management server 10 manages the above database, and the editing device 20 and the playback device 30 access the information stored in the database to perform the processing as shown in FIG. ..
  • the playback device 30 senses the user in real time (S101), and it is determined whether or not the sensor data obtained by the sensing satisfies the activation condition set in the user scenario (S102).
  • the processes in steps S121 to S127 are mainly the processes when the scenario generation tool is executed by the editing device 20 (control unit 200), and the processes in steps S128 to S133.
  • the processing is mainly the processing when the user scenario generation tool is executed by the playback device 30 (control unit 300).
  • the scenario generation tool is operated by the creator or the like who creates the scenario on the editing device 20, while the user scenario generation tool is operated by the user or the like who owns the playback device 30.
  • the operators are different, or even the same operator has different operation timings.
  • the content is acquired by the scenario generation tool (S121), and the candidate content elements are presented (S122). Then, a content element is cut out from the content according to the operation of the creator (S123).
  • the content element and context information associated in this way are sent to the data management server 10 and stored in the content element-context information DB 151.
  • the scenario generation tool generates a scenario according to the operation of the creator (S126), and the scenario is saved (S127).
  • the scenario generated by the scenario generation tool is sent to the data management server 10 and stored in the scenario DB 152.
  • the scenarios stored in the scenario DB 152 can be distributed via the Internet 40.
  • the scenario distributed from the data management server 10 is acquired by the user scenario generation tool (S128).
  • the activation condition is given according to the operation of the user (S129).
  • a user scenario corresponding to the user's operation is generated from the scenario, and the user scenario is saved (S130).
  • the user scenario generated by the user scenario generation tool is sent to the data management server 10 and stored in the user scenario DB 153.
  • the user scenario can be shared with other users and the like.
  • the created user scenario can be activated (S132) and evaluated by the user scenario generation tool (S133).
  • the details of the scenario generation tool will be described later with reference to FIGS. 14 to 17.
  • the details of the user scenario generation tool will be described later with reference to FIGS. 21 to 25 and 26 to 29.
  • a data set composed of a combination of content elements and context information is accumulated according to the operation of the user scenario generation tool.
  • the context information “home” is associated with the content elements “character utterance # 1” and “BGM # 1”.
  • activation conditions given to the data set are accumulated according to the operation of the user scenario generation tool. ing.
  • the content elements whose activation conditions are "center (35.631466, 139.743660)" and "radius 10 m” are "character utterance # 1" and "BGM # 1", and the context of "home”. It is given to the information.
  • a and b in the center (a, b) mean latitude (north latitude) and longitude (east longitude), and represent the activation range of the content element.
  • FIGS. 8 and 9 are examples, and other configurations may be used.
  • common context information is given to different works (for example, work A which is “movie”, work B which is “animation”, and work C which is "literary reading”). be able to.
  • the context information of "home” is "BGM # 2" of work A, "character utterance # 1" and “BGM # 1" of work B, and "reading # 1" of work C. It is associated with each content element that is.
  • context information is associated with content elements in advance
  • trigger conditions can be set for at least the context information for each user, and a user scenario including a dataset of context information and trigger conditions. Can be generated. Then, when the sensor data obtained by sensing the user at real timing satisfies the activation condition set in the user scenario, the content element associated with the context information corresponding to the activation condition is presented to the user. Will be done.
  • each user can enjoy the world view of the scenario according to the activation conditions in the user scenario, and a better user experience can be provided.
  • the contents currently distributed and distributed include formats such as videos such as movies, animations and games, still images such as photographs and paintings and manga, audio such as music and audio books, and texts such as books.
  • videos such as movies, animations and games
  • still images such as photographs and paintings and manga
  • audio such as music and audio books
  • texts such as books.
  • content with a story is often composed of elements such as lines, effects, and backgrounds.
  • the content may be re-edited.
  • This content can be re-edited, for example, by cutting out a part of the content in time to fit the spatial and temporal size of the user's current context, or by adding the above elements to fit the context. It is taken out and presented.
  • the content element of a certain content includes lines, a background, music, lyrics, a person, a symbol, a character, an object, and the like.
  • the expected context information is given to this content element as the above-mentioned context information in the form of text, image, voice, etc. Further, the relationship information itself between the content element and the context information, or a collection of a plurality of relationship information is stored in the scenario DB 152 as a scenario.
  • one or more context tags may be attached to one content element, or the same context tag may be attached to a plurality of content elements.
  • a combination of dialogue and background music used in a certain scene is used as one audio content, and a text "encounter at an inn" is added as context information.
  • the two "content element-context information" data sets shown in FIG. 12 are stored in the content element-context information DB 151.
  • an image there is also a method in which a person, a background, an object, etc. are photographed separately and then combined, and content elements can be extracted from the data before composition.
  • a dataset of "content element-context information" may be automatically generated from this information, or “content element-context information” may be manually set using this information as reference information. May be good.
  • a scenario is a dataset of one or more "content elements-context information" that follows a certain theme, such as the title of the work from which it was re-edited, the characters that appear, the stage that was set, and the emotions that are aroused. It is composed by summarizing and is accumulated in the scenario DB 152.
  • the data sets of the two "content elements-context information" shown in FIG. 12 can be stored in the scenario DB 152 as a scenario of the "city of departure".
  • the user not only searches and obtains the dataset of "content element-context information” that he / she wants to use, but also searches the dataset of multiple "content element-context information” packaged based on the scenario. ⁇ You can also get it.
  • This scenario generation tool is executed by the control unit 200 of the editing device 20 operated by the creator or the like, and various screens are displayed on the display 231.
  • This scenario selection / new creation screen includes a map / scenario display area 251, a scenario list 252, and a new scenario creation button 253.
  • the name is written on the pin 261A indicating the position on the map in the map / scenario display area 251, or the scenario display banner 262A is displayed as a list in a predetermined order such as the name order in the scenario list 252.
  • the new scenario creation button 253 is operated when creating a new scenario.
  • the creator can select the desired scenario by clicking the pin 261A on the map corresponding to the desired area or the scenario display banner 262A of the scenario list 252.
  • the scenario editing screen of FIG. 15 includes a map / geofence display area 254, a geofence list 255, and an editing tool display area 256.
  • the name of the geofence is written in the geofence areas 271A to 271E representing the area of the geofence on the map in the map / geofence display area 254, or the geofence display banner 272A is in the order of the name in the geofence list 255. It is displayed as a list in the predetermined order of.
  • the shape of the geofence areas 271A to 271E various shapes such as a circle and a polygon can be set.
  • the context information given to the activation condition (activation range) for which the default value is set is displayed in text or the like in each geofence, or when a desired geofence is selected. It is displayed in a balloon shape. Based on this display, the creator can confirm the context information associated with the activation range of each content element.
  • the creator can select the desired geofence by clicking the geofence areas 271A to 271E on the map corresponding to the desired area and the geofence display banner 272A of the geofence list 255.
  • the editing tool display area 256 includes a circular geofence creation button 273, a polygonal geofence creation button 274, a geofence move button 275, an overwrite save button 276, a new save button 277, a delete button 278, and a back button 279.
  • the circular geofence creation button 273 is operated when creating a geofence having a circular shape.
  • the polygon geofence creation button 274 is operated when creating a geofence having a polygonal shape.
  • the geofence move button 275 is operated when moving the desired geofence.
  • the overwrite save button 276 is operated when the scenario to be edited is overwritten and saved in the existing scenario.
  • the new save button 277 is operated when saving the scenario to be edited as a new scenario.
  • the delete button 278 is operated when deleting the scenario to be edited.
  • the back button 279 is operated when returning to the scenario selection / new creation screen.
  • the geofence area 271C which is the “geofence # 1” is selected.
  • the corresponding geofence name may be displayed in a balloon, and the content element set in the geofence may be reproduced.
  • the geofence editing screen of FIG. 16 includes the geofence detailed setting area 257.
  • the geofence detailed setting area 257 is a geofence name, center position, radius, playback time, weather, content element, playback range, volume, repeat playback, fade-in / out, and playback priority as detailed setting items of the geofence. Including level.
  • the geofence name corresponds to the context setting item.
  • the center position, radius, reproduction time, and weather correspond to the setting items of the activation condition, and the default values thereof are set here.
  • the content element, the reproduction range, the volume, the repeat reproduction, the fade-in / out, and the reproduction priority level correspond to the setting items of the content element and the reproduction condition, and the default values thereof are set here.
  • geofence name input field 281A "geofence # 1" is entered as the geofence name.
  • the content element input field 281F "http: xxx.com/sound/folder#1/01.mp3" is input as the default value of the content element.
  • the content element selection screen 283 displayed by clicking the selection button 282 can be used.
  • the audio file data of the content element stored in the storage unit 103 of the data management server 10 is displayed.
  • a desired folder from the folders displayed in a hierarchical structure on the content element selection screen 283, a desired audio file in the folder can be selected.
  • the search process may be performed using the desired keyword input in the search keyword input field 284A as the search condition, and a list of desired audio files according to the search result may be presented.
  • playback range input field 281G and the volume input field 281H "00:00:08-00:01:35" and "5" are input as default values for the playback range and volume.
  • the playback time and volume may be automatically input according to the content element.
  • repeat playback input field 281I and the fade-in / out input field 281J “repeat playback: do” and “fade in / out: do” are input as default values for repeat playback and fade-in and fade-out of the audio file. There is.
  • the reproduction priority level is a predetermined stage such as 3 stages of "1" to “3” and 5 stages of "1" to "5". The lower the numerical value, the higher the priority and the higher the numerical value. The lower the priority, the lower the priority.
  • the geofence editing screen of FIG. 16 shows a case where the shape of geofence # 1 is circular, but when the shape is polygonal (rectangular), the geofence editing screen of FIG. 17 is displayed. Will be done.
  • the geofence editing screen of FIG. 17 has a rectangular geofence apex position as a setting item of activation conditions instead of the center position and radius of the circular geofence. The point that it is provided is different.
  • a vertex position input field 291B composed of a list box is provided.
  • a combination of a plurality of latitudes and longitudes such as latitude # 1 and longitude # 1, latitude # 2 and longitude # 2, latitude # 3 and longitude # 3, ... Is displayed as a list, and the desired latitude and longitude combination selected from the list is set as the default value for the apex position of the rectangular geofence.
  • the user interface of the scenario generation tool described above is an example, and other user interfaces may be used, such as using other widgets instead of text boxes and radio buttons.
  • the geofence edit screen instead of the text box that constitutes the playback time input field 281D, the weather input field 281E, the volume input field 281H, or the playback priority level input field 281K, or the list box that constitutes the apex position input field 291B. You can use drop-down lists, combo boxes, etc.
  • the information processing shown in FIG. 18 is realized by at least linking the data management server 10 (control unit 100) and the editing device 20 (control unit 200) in the information processing system 1. That is, this information processing is executed by at least one of the control unit 100 and the control unit 200.
  • context information for example, "get courage”
  • content element for example, "character dialogue”
  • the data set of one or more "content elements-context information” is accumulated in the scenario DB 152 as a scenario (for example, "city of departure") (S204).
  • the data set can be packaged based on a certain theme (the title of the work that was the source of the re-editing, the set stage, the emotions that are aroused, etc.) and stored in the scenario DB 152 ( S211).
  • the content element for example, a part (a part of the music, etc.) of the streaming distribution content (the music, etc. distributed by the music streaming distribution service) can be included.
  • the content ID and the playback range of the content are specified (S221), and the information indicating the content ID and the playback range is associated with the target context information.
  • Content element- may be stored in the context information DB 151.
  • the introduction content (other content element) such as a character may be generated for the content element (S231), and the introduction content may be presented before the content element is reproduced.
  • an introductory text can be presented by a specific audio character (for example, a character of a disc jockey (DJ)) corresponding to context information.
  • DJ disc jockey
  • the context information can be automatically added to the new content element.
  • N Neural Network
  • various methods such as a neural network (NN: Neural Network) can be used, and for example, it is included in a certain scene from image information or audio information included in a moving image or a still image.
  • NN Neural Network
  • the range of content elements is determined, and one or more context information assumed from the identification result or a combination thereof is automatically generated. can do.
  • the extracted text itself is used as a content element, for example, as a character image. It is possible to display it on a public display or a display device such as AR glass, but voice (sound) may be used.
  • the AR glass is a spectacle-type device (device) compatible with augmented reality (AR).
  • data such as audio data and image data with related impressions (images) are searched or synthesized from texts that compose words and sentences, and the data is used as content elements. You may.
  • the text is used as a content element by searching or synthesizing the text that composes related words and sentences using machine learning technology. You may. That is, here, it is possible to add content that is not included in the existing content, or to add another modal expression that is not included in the original content, such as tactile sensation.
  • TTS technology is an example of voice synthesis technology that artificially creates human voice, and voice may be generated using other technology. Alternatively, a recorded reading by a person may be used. Further, in the above description, the case where the machine learning technique is used is shown, but the data as the content element may be generated by separately analyzing the acquired data.
  • the information processing shown in FIG. 19 is realized by at least linking the data management server 10 (control unit 100) and the editing device 20 (control unit 200) in the information processing system 1.
  • one or more content elements for example, texts, etc.
  • a first medium for example, texts, etc.
  • contents e-book novels, etc.
  • a content element for example, a sound corresponding to a sentence of a novel
  • a second medium for example, TTS audio or the like
  • context information for example, context information in which the voice of one sentence of the novel is assumed to be heard
  • content element for example, voice corresponding to one sentence of the novel
  • one or more "content element-context information" data sets are stored (stored) in the scenario DB 152 as a scenario (S304).
  • the relationship between the first media (text, etc.) and the second media (TTS voice, etc.) is machine-learned in advance (S311), and the first media is based on the result of the machine learning.
  • the content element of the second media can be generated from the content element of.
  • the third embodiment has been described above.
  • the user can acquire a desired scenario and a data set of desired "content element-context information" with the playback device 30 owned by the user.
  • a plurality of "content element-context information" data sets included in the acquired scenario are displayed and arranged in the actual space around the user.
  • a trigger condition consisting of a combination of sensingable conditions can be set for each "content element-context information" data set using the user interface for.
  • This activation condition includes, for example, information on GPS (Global Positioning System), position information such as latitude and longitude estimated from information from a wireless LAN (Local Area Network) access point, wireless beacons, and short-range wireless communication. It is possible to include usage status and authentication information obtained from the history of.
  • GPS Global Positioning System
  • position information such as latitude and longitude estimated from information from a wireless LAN (Local Area Network) access point
  • wireless beacons Wireless LAN (Local Area Network) access point
  • short-range wireless communication It is possible to include usage status and authentication information obtained from the history of.
  • activation conditions for example, the user position, posture, behavior estimated from the image captured by the camera, information on the surrounding environment, information on the time and time measured by the environmental information clock, and voice information obtained from the microphone. It includes environmental information and authentication information based on the above, information on body posture and movement obtained from the inertial sensor, information on riding condition, etc., and information on respiratory rate, pulse, emotion, etc. estimated from biological signal information.
  • the setting of this activation condition can be set using the user scenario generation tool, but it can also be completed before using the service, or the tool is started and set while using the service. You may do so.
  • the data set of "content element-context information" is displayed on the map, and the interface placed on the map by the user is used to display the sensingable activation condition on the map.
  • the case of setting the range and the time zone will be described.
  • the user can create a desired user scenario by operating a user scenario generation tool executed by, for example, a playback device 30 such as a smartphone or an information device such as a personal computer.
  • a user scenario generation tool executed by, for example, a playback device 30 such as a smartphone or an information device such as a personal computer.
  • the user scenario generation tool may be provided as a native application, or may be provided as a Web application using a browser.
  • Example of UI of user scenario generation tool the user interface of the user scenario generation tool executed by the playback device 30 such as a smartphone will be described with reference to FIGS. 21 to 25.
  • This user scenario generation tool is executed by, for example, the control unit 300 of the playback device 30 operated by the user, and various screens are displayed on the display 331.
  • This scenario selection / playback screen shown in FIG. 21 is displayed.
  • This scenario selection / playback screen includes a map / scenario display area 411, a scenario list 412, and a new scenario creation button 413.
  • the scenarios are displayed as a list in the map / scenario display area 411 with the name written on the pin 411A indicating the position on the map, or in the scenario list 412 in the order of the name or the shortest distance from the current location. Will be done.
  • the new scenario creation button 413 may be tapped. Further, on the scenario selection / playback screen, a search process may be performed using a desired keyword input in the search keyword input field 414 as a search condition, and a scenario corresponding to the search result may be presented.
  • the user can select a desired scenario by tapping the pin 411A on the map corresponding to the desired area or the scenario display banner 412A of the scenario list 412.
  • scenario # 1 is considered to be playing, and scenario # 2 and scenario # 3 are considered to be stopped.
  • scenario # 2 and scenario # 3 are considered to be stopped.
  • only the three scenario display banners 412A are displayed, but other scenarios may be displayed by flicking the screen to scroll.
  • the pin 411B is focused on among the plurality of pins 411A in the map / scenario display area 411, the pin 411B is in the selected state, so the scenario name corresponding to the pin 411B which is the “scenario # 1”. Is displayed in a balloon shape. Then, when the edit button 412B is tapped while the scenario # 1 corresponding to the pin 411B is selected, the activation condition setting screen of FIG. 22 is displayed as the scenario edit screen.
  • the activation condition setting screen of FIG. 22 includes a map / geofence display area 421, an overwrite save button 422, a new save button 423, a delete button 424, and a back button 425.
  • geofence areas 421A to 421E are displayed on a map of a desired area.
  • shape of the geofence regions 421A to 421E various shapes such as a circle and a polygon can be set.
  • the context information given to the activation condition is displayed in text or the like in each geofence, or is displayed in a balloon shape when the desired geofence is tapped. Will be done. Based on this display, the user can confirm the context information associated with the activation range of each content element.
  • Geofence can be moved on the screen.
  • the geofence area 421C if attention is paid to the geofence area 421C with the pattern among the geofence areas 421A to 421E, since it is in the selected state, the geofence area 421C corresponding to the “geofence # 1”
  • the offense name is displayed in a balloon.
  • the user moves the geofence area 421C in the diagonally lower right direction (the direction of the arrow in the figure) to move the position.
  • the area of the geofence area 421C can be enlarged or reduced by performing a pinch-out operation or a pinch-in operation with the geofence area 421C selected, or the area of the geofence area 421C can be enlarged or reduced according to a predetermined operation.
  • the shape of the offense region 421C may be modified.
  • the activation condition detailed setting screen of FIG. 23 is displayed.
  • the activation condition detailed setting screen of FIG. 23 includes a geofence detailed setting area 431, a save button 432, and a back button 433.
  • the geofence detailed setting area 431 includes a geofence name input field 431A, a center position input field 431B, a radius input field 431C, a playback time input field 431D, a weather input field 431E, a content element input field 431F, a playback range input field 431G, and a volume. It includes an input field 431H, a repeat playback input field 431I, a fade-in / out input field 431J, and a playback priority level input field 431K.
  • the geofence name input field 431A to the playback priority level input field 431K correspond to the geofence name input field 281A to the playback priority level input field 281K in FIG. 16, and the value set as the default value is displayed as it is. There is.
  • the save button 432 is operated when saving the setting contents of Geofence # 1. Further, the back button 433 is operated when returning to the activation condition setting screen.
  • the user may use the setting contents of the default value of Geofence # 1 as it is, or may change it to a desired setting content. For example, when the content element input field 431F is tapped, the content element selection screen of FIG. 24 is displayed.
  • the content element selection screen of FIG. 24 includes a content element display area 441, a selection button 442, and a back button 443.
  • icons 441A to 441F corresponding to each content element are arranged in a tile shape in 3 rows and 2 columns.
  • the selection button 442 is operated when a desired icon is selected from the icons 441A to 441F. Further, the back button 443 is operated when returning to the activation condition detailed setting screen.
  • the content element # 1 is played.
  • the content element editing screen of FIG. 25 includes a content reproduction partial display area 451, a content reproduction operation area 452, a song change button 453, and a back button 454.
  • the waveform of the music of the content element # 1 is displayed in order to edit the content element # 1 as a music, and the part to be reproduced is specified by sliding the sliders 451a and 451b left and right. can do.
  • the waveform of the music in the cut selection area 451B corresponding to the area outside the sliders 451a and 451b is regarded as the waveform to be non-reproduced, and the waveform inside the sliders 451a and 451b.
  • the waveform of the music in the reproduction selection area 451A corresponding to the area of is set as the waveform to be reproduced.
  • the seek bar 451c indicates the reproduction position of the music of the content element # 1 being reproduced.
  • a play button, a stop button, a skip button, and the like are displayed as buttons for operating the music of the content element # 1.
  • the user wants to play the music of the content element # 1 by operating the buttons, sliders 451a, 451b, etc. in the content playback operation area 452 while checking the waveform of the music in the content playback portion display area 451. Only the part can be cut out.
  • the song change button 453 is operated when changing the song to be edited. Further, the back button 454 is operated when returning to the activation condition detailed setting screen.
  • the user can create a desired user scenario by operating the user scenario generation tool executed by the playback device 30 such as a smartphone.
  • This scenario selection screen includes a map / scenario display area 471 and a scenario list 472.
  • the name is written on the pin 471A indicating the position on the map in the map / scenario display area 471, or the scenario display banner 472A is displayed as a list in the scenario list 472 in a predetermined order.
  • the user can select a desired scenario by clicking the pin 471A on the desired map or the scenario display banner 472A in the scenario list 472.
  • This activation condition setting screen includes a map / geofence display area 481 and a context list 482.
  • the geofence area 481A indicating the activation range of the content element is displayed.
  • the geofence area 481A is represented by a plurality of preset shapes such as a circle or a polygon.
  • the context information given to the activation condition is displayed in text or the like in the geofence area 481A, or when the desired geofence area 481A is clicked. It is displayed in a balloon shape.
  • the geofence area 481A can be moved on the screen according to a drag operation.
  • the geofence area 481B is moved diagonally upward to the right (in the direction of the arrow in FIG. 28) by a drag operation. It can be moved from the position shown in FIG. 27 to the position shown in FIG. 28.
  • the shape of the geofence area 481B can be transformed into a desired shape by moving the cursor to the white circle ( ⁇ ) on the thick line indicating the shape of the geofence area 481B and dragging in the desired direction. ..
  • the user sets by himself / herself which position in the real life space the context corresponds to by moving or transforming the geofence area 481B based on the context information displayed in the geofence area 481B. can do.
  • content elements may be presented in the form of a separate list.
  • unused content elements may be deleted, or separately obtained content elements may be added to the scenario currently being edited.
  • the geofence edit screen of FIG. 29 is displayed. Is displayed.
  • This geofence edit screen includes a geofence detailed setting area 491, a select button 492, an update button 493, a delete button 494, and a cancel button 495.
  • the geofence detailed setting area 491 includes a geofence name input field 491A, a content element input field 491B, a repeat playback input field 491C, a fade-in / out input field 491D, a playback range input field 491E, and a volume input field 491F. These setting items correspond to the setting items of the geofence detailed setting area 431 of FIG. 23.
  • a desired content element can be selected by using the content element selection screen as in the selection button 282 of FIG.
  • the update button 493 is operated when updating the setting item of the geofence area 481B.
  • the delete button 494 is operated when deleting the geofence area 481B.
  • the cancel button 495 is operated when canceling the edit.
  • the user can create a desired user scenario by operating the user scenario generation tool executed by the information device such as a personal computer.
  • a user interface using a map is illustrated as a user scenario generation tool, but another user interface that does not use a map may be used.
  • a method for setting activation conditions without using a map will be described.
  • the camera unit 306 of the playback device 30 such as a smartphone is used for the purpose.
  • Settings can be made by shooting the bench.
  • a voice command such as "shoot here” or “set on this bench” to shoot the target bench. It can also be set with.
  • the user can take a picture including his / her hand using a camera such as eyewear, he / she performs a hand gesture in the form of surrounding the bench, and when the gesture is recognized, the object and the scenery in the fence are recorded. It can be set by doing.
  • an activation condition that cannot be set by a map expression such as a user's biological state or emotion
  • a "current feeling” button is displayed on a playback device 30 such as a smartphone, and the button is tapped.
  • the data and the recognition result at the time of the click operation or at a certain time before and after that are recorded and can be set as the activation condition.
  • the "current status" button is displayed, or it is set in advance as a voice command or a specific gesture, and when there is an input to the button, , Data such as a position, time, weather, surrounding objects, weather, biological data, and emotions specified in advance may be acquired in a batch.
  • the data input by the user without using the screen is transmitted to, for example, the data management server 10 and stored in the user scenario DB 153.
  • the user can display the screen of the user scenario generation tool on the playback device 30 owned by the user. Then, the user can confirm the association between the activation condition displayed on this screen and the data set of "content element-context information", and can re-edit.
  • the above operation is an operation of setting only the activation condition for the content element in the scenario provided by the user, but depending on the usage condition, the content of the content such as audio data and image data constituting the content element, or The context information given to the content element may be allowed as an operation that can be changed by the user.
  • the edited scenario is stored in the user scenario DB 153 as a user scenario.
  • the user scenarios accumulated in the user scenario DB 153 can also be disclosed to other users by using a sharing means such as a social networking service (SNS: Social Networking Service).
  • SNS Social Networking Service
  • a data set of multiple "content elements-context information" included in the scenario is displayed in an editing means such as a user scenario generation tool, and the user can display the actual position and time zone of his / her living space, the environment, and his / her own.
  • an editing means such as a user scenario generation tool
  • FIG. 30 shows an example of setting a user scenario.
  • two users set trigger conditions A and B for the delivered scenario, and each creates their own user scenario.
  • the user A sets the activation condition A and the user B sets the activation condition B, so that the activation condition is different for each user.
  • the same scenario can be implemented in different places for each user. That is, one scenario can be used by users living in different places.
  • Another example of service is the cooperation with streaming distribution service.
  • audio data of a plurality of works in an existing music format is grouped together based on a certain theme such as for each creator (creator) or for each usage scene.
  • a certain theme such as for each creator (creator) or for each usage scene.
  • the work itself or a part of the work expressing a specific context is extracted and used as a content element, and a music is played for the content element (for example, a station at dusk).
  • Context information indicating a state for example, a tired return path
  • the scenario is collectively stored in the scenario DB 152 so that it can be distributed.
  • the user acquires the above scenario by the playback device 30, and refers to the specific "content element-context information" data set included in the data set in his / her own living area while referring to the given context information.
  • a user scenario can be created and registered in the user scenario DB 153 by arranging the user scenarios at various positions and time zones.
  • the user can also specify a part of the work itself that he / she wants to play as a content element by designating it as a playback range.
  • the scenario may include a content element (another content element) as a voice character that describes the work to be reproduced during or during the reproduction of the content element.
  • this voice character can be acquired not only by the same route as the scenario but also by a route different from the scenario.
  • a character preferred by the user explain from a plurality of voice characters. it can.
  • scenario DB 152 a combination of context information for various content elements is accumulated for the purpose of providing to the user by the creator.
  • this context information when this context information is used as teacher data and a recognizer that machine-learns the melody structure of a content element is used, the context that is easily recalled from the melody structure of a certain content element is reflected in the subjective tendency of the creator. Can be estimated. Then, using this estimation result, it is possible to automate the process of giving context information to the content element, or to support the giving of context information of the creator by presenting multiple contexts having a certain correlation. it can.
  • a data set of "content element-context information" associated with an activation condition consisting of the position, time, environment, physical condition, emotion, etc. of one's own living space is sequentially accumulated by the user. There is.
  • the user scenario DB 153 stores a large number of data sets of "content element-context information" for which activation conditions are set by a plurality of users, machine learning or analysis of the stored information is performed. With, you can create algorithms and recognizers that automate the process.
  • the information processing shown in FIGS. 31 and 32 is realized by at least linking the data management server 10 (control unit 100) and the playback device 30 (control unit 300) in the information processing system 1. That is, this information processing is executed by at least one of the control unit 100 and the control unit 300.
  • context information is added to each content element, and one or more "content element-context information" data sets are stored in the scenario DB 152 as a scenario (S401). ..
  • activation conditions are set according to the sensor data obtained by sensing the user for each context information given to the content element (S402).
  • a user scenario consisting of context information and a data set of user-specific activation conditions is generated (S403) and stored in the user scenario DB 153 (S404).
  • the activation condition it is possible to set the activation condition according to the captured image data, the characteristic operation data, and the like.
  • the image data includes image data that is assumed to be visually recognized by the user.
  • the characteristic operation data includes, for example, operation data of a button (current feeling button) for registering information according to the user's current emotion.
  • the information processing system 1 provides a user scenario generation tool as a user interface using a map for setting a user-specific activation condition.
  • this user scenario generation tool is provided as an application executed by a playback device 30 such as a smartphone or an information device such as a personal computer.
  • activation conditions are set for each context information given to the content element extracted from the content (S401, S402).
  • a data set of content elements and context information is presented on a map of a desired area (S441), and as an activation condition for the context information, a map of the desired area is displayed.
  • S441 a map of a desired area
  • S442 an interface capable of setting a predetermined area
  • the fourth embodiment has been described above.
  • the user's position, physical condition, and emotion are used as sensor data by the sensing means mounted on the playback device 30 possessed or worn by the user or the device (device) arranged around the user.
  • Motion information on objects, structures, buildings, products, people, animals, etc. in the surrounding environment, and data such as the current time are sequentially acquired.
  • the content element included in the "content element-context information" data set associated with the activation condition is specified in advance. It is reproduced from a device (for example, a playback device 30) or a combination of a plurality of devices (for example, a playback device 30 and devices arranged in the vicinity).
  • the reproduction location and timing are determined by comparing the sensor data by the sensing means with the activation condition, the determination process is based on subjective elements such as context and data including subjective elements. Since the recognition device by machine learning is not directly included, stable operation with reproducibility as a system is possible.
  • FIG. 33 shows an example of a combination of the activation condition and the sensing means.
  • the time and time can be set, and it is possible to measure and judge using a clock or timer.
  • spatial activation conditions it is possible to set positions such as latitude, longitude, and approach to a specific position, and it is possible to make a judgment by measuring using GPS, Wi-Fi (registered trademark), wireless beacon, etc. It is possible.
  • authentication information such as a user ID may be set as an activation condition, and it is possible to measure and judge using proximity communication such as Bluetooth (registered trademark).
  • proximity communication such as Bluetooth (registered trademark).
  • the user's posture such as standing, sitting, and sleeping, and the user's behavior such as train, bicycle, and escalator may be set as activation conditions, and the judgment is made by measuring using an inertia sensor, a camera, proximity communication, or the like. It is possible to do.
  • surrounding environment information such as chairs, desks, trees, buildings and rooms, scenery and scenes may be set as activation conditions, and measurements are made using cameras, RF tags, wireless beacons, ultrasonic waves, etc. Is possible.
  • states such as body posture, movement, respiratory rate, pulse, and emotion may be set as activation conditions, and measurement and determination can be made using an inertial sensor, a biological sensor, or the like.
  • the fifth embodiment has been described above.
  • the activation conditions set for two or more content elements included in at least one or more scenarios are the same.
  • two or more activation ranges are set in duplicate so as to include positions on the same map. There is.
  • the geofence 661 set as a circular activation range and the geofences 662A to 662E set as a circular activation range inside the circle are For example, when they are superimposed.
  • the content element can be appropriately reproduced.
  • the content element is the reading of a sentence by TTS voice
  • the utterance (line) by the character A is set as the activation condition A including the activation range of the entire area including the home, etc.
  • the activation condition B including the activation range a case where the utterance (speech) by the character B is specified in the presentation range setting user scenario is illustrated.
  • the lower layer L1 corresponds to the user scenario
  • the upper layer L2 corresponds to the presentation range setting user scenario.
  • the elliptical region corresponds to the activation range set by the geofence.
  • the character B makes an utterance when the activation condition C1 of the user scenario is satisfied, and the character A makes an utterance when the activation condition C2 is satisfied. Make an utterance. That is, in this case, there is always one character.
  • the character A or B makes an utterance when the activation condition C1 of the user scenario is satisfied. Whether character A or B speaks may be randomly determined, or specific rules may be set. Further, when the activation condition C2 is satisfied, only the character A speaks. That is, in this case, when the user is at home, there are two characters.
  • the priority to be set can be set based on the sensor data. For example, when a plurality of content elements are utterances (lines) by a plurality of characters and the user's position is a position where the activation conditions of the plurality of content elements overlap, all the corresponding content elements can be played. Imagine when you are in.
  • the position of the user 600 and the specific position of the activation range of the content element according to the geofences 672A to 672C when the user 600 is wearing the stereo earphone connected to the playback device 30, the position of the user 600 and the specific position of the activation range of the content element according to the geofences 672A to 672C.
  • the fixed position of the reproduced sound source for example, dialogue
  • the presentation of the sound source (for example, dialogue) by the desired character is directed to the body, head, or the like of the user 600. It becomes possible to select according to.
  • the volume of the sound source by the character may be changed according to the position of the user 600 on the Geofence 672A.
  • the volume of the sound source can be increased as the user 600 approaches the specific position 671A, while the volume of the sound source can be decreased as the user 600 moves away from the specific position 671A.
  • the user scenario for setting the presentation range may be referred to here as well.
  • the presentation range setting user scenario is provided with information for setting the activation range and information for designating the sound source setting positions P1 to P4 for each activation condition C1 to C4. To do so.
  • the sound source setting positions P1 to P4 are not limited to the positions within the activation range in which the activation conditions C1 to C4 are specified.
  • FIG. 38 four activation conditions C1 to C4 having a common activation condition region CA (diagonal lines in the figure) are shown, and sound source setting positions P1 to P4 (in the figure) are shown in the respective activation conditions C1 to C4. Black circle) is set.
  • the sound source setting position is searched for all the activation conditions for which the condition is satisfied.
  • the sound source setting position P2 in the viewing angle region VA calculated from the user's orientation information measured by the sensor unit 305 of the playback device 30 possessed by the user 600. Is identified. Then, the content element associated with the activation condition C2 having the specified sound source setting position P2 is reproduced.
  • control is an example of control when two or more activation ranges are set so as to include positions on the same map, and other controls may be performed.
  • one content element is used as the background sound and the other content elements are used as a plurality of lines, so that the user moves within the activation range as the user moves. It is possible to present an expression in which multiple lines are reproduced in the same BGM.
  • control is not limited to the presentation of voice (sound), and the presentation of a character image through a display device such as an augmented reality (AR) -compatible eyeglass-type device can be similarly controlled. .. Therefore, next, a case where the arrangement of a plurality of characters can be set for the scenario will be described with reference to FIGS. 39 to 45.
  • AR augmented reality
  • FIG. 39 shows an example of the configuration of the information processing system 1 in the case where the arrangement of a plurality of characters can be set.
  • FIG. 39 among the devices constituting the information processing system 1 of FIG. 2, the data management server 10 and the playback device 30 are shown. However, some of the processes executed by the data management server 10 may be executed by another device such as the editing device 20 or the playback device 30.
  • control unit 300 includes a user position detection unit 341, a user direction detection unit 342, a voice recognition intention understanding unit 343, and a content reproduction unit 344.
  • the user position detection unit 341 detects the user's position based on information related to GPS and the like.
  • the user direction detection unit 342 detects the direction in which the user is facing based on the sensor data from the sensor unit 305 (FIG. 5).
  • the voice recognition intention understanding unit 343 performs voice recognition / intention understanding processing based on the voice data of the user's utterance, and understands the user's utterance intention.
  • this voice recognition / intention understanding process is not limited to the control unit 300, and a server on the Internet 40 may perform a part or all of the process.
  • the voice data of the user's utterance is picked up by the microphone.
  • the transmission data processed by the user position detection unit 341, the user direction detection unit 342, and the voice recognition intention understanding unit 343 is transmitted to the data management server 10 via the Internet 40 by the communication unit 304 (FIG. 5). Further, the communication unit 304 receives the response data transmitted from the data management server 10 via the Internet 40.
  • the content reproduction unit 344 reproduces the content element based on the received response data.
  • the content element not only the utterance (line) by the character can be output from the speaker 332, but also the image of the character can be displayed on the display 331.
  • control unit 100 further includes an instruction character selection unit 131, a scenario processing unit 132, and a response generation unit 133. Further, the storage unit 103 (FIG. 3) further stores the character arrangement DB 161, the position-dependent information DB 162, and the scenario DB 163.
  • the communication unit 104 receives the transmission data transmitted from the playback device 30.
  • the instruction character selection unit 131 selects an instruction character by referring to the character arrangement DB 161 based on the received transmission data, and supplies the selection result to the scenario processing unit 132.
  • the character arrangement DB 161 As shown in FIG. 40, in the character arrangement DB 161, an arbitrary system and an arrangement location corresponding to the system are set for each character.
  • the scenario processing unit 132 processes the scenario by referring to the position-dependent information DB 162 and the scenario DB 163 based on the selection result from the instruction character selection unit 131, and supplies the processing result to the response generation unit 133.
  • the position-dependent information DB 162 relates to the type information, the position information such as latitude and longitude, and the contents associated with the type information and the position information for each information ID having a unique value. Information is set.
  • the type information and the information related to the content associated with the type information are set for each scenario ID having a unique value.
  • the information related to the character and the content corresponds to the content element
  • the system and type information correspond to the context information
  • the position information corresponds to the activation condition. It can be said that.
  • the response generation unit 133 generates response data based on the processing result from the scenario processing unit 132. This response data is transmitted to the playback device 30 via the Internet 40 by the communication unit 104 (FIG. 3).
  • the user can set a plurality of desired voice characters in the scenario, and detects the position and the direction facing the user with respect to the activation condition indicating the trigger of voice reproduction. Then, the voice character can be switched according to the detection result.
  • the information processing system 1 when providing the voice character service, it is possible to detect the position and direction of the user and switch the voice character according to the detection result, so that the voice character is divided into roles. It is possible to instruct the desired operation. Therefore, it becomes easy to give instructions to a plurality of voice characters.
  • the user 900 simply gives instructions to the characters 700A to 700C in the virtual space, and each of the characters 700A to 700C operates according to the instructions given to them. Will be done.
  • the user 600 simply asks a question by voice in the direction in which the character 700C exists in the virtual space, and the answer to the question can be obtained from the character 700C. That is, the character 700C can identify the information around the arranged position, so to speak, the user can obtain the access right to the surrounding information by the existence of the character 700C.
  • a user scenario in which voice characters talk to each other can be realized, and processing that does not cause conversation may be added by exclusive processing.
  • the environment information around the activation range indicated by the activation condition included in the user scenario may be acquired, and the voice may be provided to the user by the voice character specified in the activation range.
  • the position of the character in the user coordinate system can be specified.
  • the position of the character in the world coordinate system can be specified (designation of latitude / longitude or landmark, etc.), or the position of the character can be specified in a device such as a playback device 30 capable of displaying the character.
  • the information processing shown in FIG. 46 is realized by at least linking the data management server 10 (control unit 100) and the playback device 30 (control unit 300) in the information processing system 1.
  • the information processing system 1 acquires sensor data by real-time sensing (S601). It is determined whether or not the information obtained from the sensor data satisfies the activation condition of the user scenario stored in the user scenario DB 153 (S602).
  • step S602 If it is determined in the determination process of step S602 that the activation condition is satisfied, it is further determined whether or not there is only one condition that satisfies the activation condition (S603).
  • step S603 When it is determined in the determination process of step S603 that there is only one condition, the content element corresponding to the context information satisfying the activation condition is presented (S604).
  • step S603 when it is determined in the determination process of step S603 that there are a plurality of conditions, a rule for determining the order of the content elements to be presented is referred to (S605), and according to the rule, the context information satisfying the corresponding activation condition is used. The corresponding content element is presented (S604).
  • the order of the content elements to be presented can be determined from a plurality of content elements according to the orientation of the user estimated from the sensor data (S611, S605).
  • only the content elements having a specific orientation may be presented according to the orientation of the user estimated from the sensor data (S621). Further, as shown in FIG. 35, only the content elements set at a specific position may be presented according to the position of the user estimated from the sensor data (S631).
  • the content element corresponding to the first character is specified and presented to the user
  • the content element corresponds to the second character.
  • Content elements can be identified and presented to the user.
  • the content element playback device 30 may be a single device or a plurality of devices may operate in conjunction with each other.
  • the playback device 30 is a single device, for example, it is assumed that audio is reproduced from a stereo earphone worn by the user outdoors.
  • the environmental sound around the user can be superimposed on the content element and presented at the same time, the sense of consistency and fusion between the provided content element and the real world around the user can be further enhanced.
  • a means for providing the environmental sound around the user for example, an open type earphone that can directly propagate the ambient sound to the ear, or a closed type environmental sound acquired by a sound collecting function such as a microphone is superimposed as voice data. There is a way to do it.
  • one device may be assigned to one content element, or a plurality of devices may be assigned to one content element.
  • three speakers are arranged around the user, one is the dialogue of the character, the other is the noise of the cafe, and the other one is assigned to the background music and played to present a three-dimensional acoustic environment. Can be done.
  • the voice of the voice character may be localized at a specific position, and the appearance of the voice character may be presented on the peripheral display corresponding to that position.
  • This appearance presentation service may be provided as a paid service.
  • the dialogue of the character A is reproduced by detecting the speaker installed at the closest position among the three speakers, and is made to follow so as to be reproduced from the closest speaker according to the movement of the user. be able to.
  • the device has a means for grasping the position of the device and the position of the user or the position of another device.
  • a camera having a function of communicating the blinking code of an LED is installed in each pixel installed indoors, and each playback device is encoded and emitted by at least one LED.
  • LED Light Emitting Diode
  • the functions that can be reproduced by the playback device 30 are registered in advance in a dedicated database such as the device function information DB or the scenario DB 152 as device function information.
  • the device function describes a playback function that can be realized by a device having one ID, and one function is assigned to one device such as "voice playback" of a speaker, and a television.
  • Some devices are assigned multiple functions, such as “image display” and “voice reproduction” of a receiver, and “illuminance adjustment” and “voice reproduction” of a light bulb type speaker.
  • the TV receiver can be used as a device for "voice playback" only, for example.
  • the function combination inside the conventional device is released, and each function is individually independent based on the external cooperation signal. Have a mechanism to make it work.
  • the information processing shown in FIG. 47 is realized by at least coordinating a plurality of devices including the data management server 10 (control unit 100) and the playback device 30 (control unit 300) in the information processing system 1.
  • the information processing system 1 acquires sensor data by real-time sensing (S701), and determines whether or not the information obtained from the sensor data satisfies the conditions for invoking the user scenario (S702). ).
  • step S702 If it is determined in the determination process of step S702 that the activation condition is satisfied, the process proceeds to step S703. Then, in the information processing system 1, a device capable of presenting the content element is searched (S703), and at least one or more devices are controlled according to the search result (S704).
  • one or more devices to be controlled present content elements corresponding to the context information satisfying the activation condition (S705).
  • the sound of the agent among the content elements is output from the headphones worn by the user (the electroacoustic conversion device worn in the user's ear) (S711), and the display is displayed.
  • the appearance of the agent can be displayed (S712).
  • content elements can be presented by one or more output modals on one or more devices.
  • the seventh embodiment has been described above.
  • the contents that compose the scenario and the services using the context are coordinated. Can be provided.
  • the restaurant is provided with the content of the scenario and information that the scenario is being used.
  • menus such as omelet rice related to animation are prepared in advance, and it is assumed that the user who is using the scenario will display the menu for the electronic menu that opens in the restaurant. ..
  • the distribution status of context information in the user's daily living space set in the scenario created by another service may be acquired, and music according to the context may be automatically provided as a content element.
  • the user can receive a song or a part of the song that fits the context on a daily basis in a place with the context information set by the user, so that the user gets tired of listening to the same song every day. Can be avoided.
  • At least a server or the like provided by an external service cooperates with the data management server 10 (control unit 100) and the playback device 30 (control unit 300) in the information processing system 1. It is realized by.
  • At least one or more content elements are extracted from the contents composed of a plurality of media (S801), context information is given to each content element, and the content element-context information. It is accumulated in DB 151 (S802).
  • one or more "content element-context information" data sets are stored in the scenario DB 152 as a scenario (S803).
  • a user scenario is generated, it is stored in the user scenario DB 153 (S804).
  • the data set, scenario, or user scenario of "content element-context information" accumulated in this way can be provided to an external service (S805).
  • an external service such as a music streaming distribution service can control the service provided by itself to match a scenario, a user scenario, or the like (S811).
  • sensor data by real-time sensing is acquired (S821), and it is determined whether or not the information obtained from the sensor data satisfies the conditions for invoking the user scenario (S822).
  • step S822 If it is determined in the determination process of step S822 that the activation condition is satisfied, the content element corresponding to the context information that satisfies the activation condition is presented (S823).
  • a voice character corresponding to a content element (musical piece) associated with a user scenario may be selected (S841), and introduction information may be presented as a DJ introducing the music in the service (S842). it can.
  • the eighth embodiment has been described above.
  • the scenario created by the user can be shared among the users by using the sharing means.
  • social media such as social networking services (SNS) are used as a sharing means, and scenarios created by users (user scenarios) are published for each SNS account, for example, and the degree of similarity of content elements and the similarity of contexts. It is possible to search and classify according to the degree and the degree of similarity of the activation condition settings.
  • SNS social networking services
  • a map application is used as a sharing means, and a scenario including the user's current position as the activation condition is specified and presented so that the user can discover a new scenario. May be good.
  • Information on the work and author that is the basis of the content element of the scenario information on the author who extracted the content element and gave the context, and information on the user who set the activation condition can be obtained in association with the scenario, and the scenario can be obtained. Users can follow their favorite authors and users.
  • the information processing shown in FIG. 49 is performed by at least coordinating the data management server 10 (control unit 100) and the playback device 30 (control unit 300) in the information processing system 1 with a server or the like provided by social media. It will be realized.
  • At least one or more content elements are extracted from the contents composed of a plurality of media (S901), and context information is given to each content element (S902).
  • one or more "content element-context information" data sets are stored in the scenario DB 152 as a scenario (S903).
  • a user scenario is generated, it is stored in the user scenario DB 153 (S904).
  • the scenarios and user scenarios accumulated in this way can be uploaded to the social media server on the Internet 40 (S905).
  • other users can view the scenarios and user scenarios published on social media (S906).
  • the user can follow the author, the user, or the like of preference regarding the acquired scenario.
  • steps S911 to S913 when the sensor data by real-time sensing satisfies the activation condition of the user scenario, the content element corresponding to the context information satisfying the activation condition is presented.
  • the ninth embodiment has been described above.
  • the data constituting the content element is not limited to audio and video, and for example, a moving image is reproduced using AR glass or the like. It shall include formats and data that have devices that can be presented, such as images, tactile sensations, odors, etc., such as presenting the tactile sensation of the ground using shoes with vibrating devices.
  • the information processing shown in FIG. 50 is executed by the data management server 10 (control unit 100) in the information processing system 1.
  • At least one or more content elements are extracted from the content composed of a plurality of media (S1001), but the plurality of media can be presented by the playback device 30.
  • At least one of the tactile data and the odor data can be included.
  • control may be performed to switch the user scenario to another one according to the feedback from the user.
  • the user can surely receive the presentation of the content element suitable for himself / herself.
  • the information processing shown in FIG. 51 is realized by at least linking the data management server 10 (control unit 100) and the playback device 30 (control unit 300) in the information processing system 1.
  • At least one or more content elements are extracted from the contents composed of a plurality of media (S1101), and context information is given to each content element (S1102).
  • the data set of one or more "content elements-context information" is accumulated in the scenario DB 152 as a scenario. Then, a user scenario is generated by setting the activation condition for the scenario accumulated in the scenario DB 152 (S1103).
  • sensor data by real-time sensing is acquired (S1104), and it is determined whether or not the information obtained from the sensor data satisfies the activation condition of the user scenario (S1105).
  • step SS1105 If it is determined in the determination process of step SS1105 that the activation condition is satisfied, the content element corresponding to the context information that satisfies the activation condition is presented (S1106).
  • the user's preference for the content element is estimated (S1111), and the user scenario is recommended according to the user's preference (S1121).
  • the above-mentioned steps S1104 to S1106 are repeated in a state of switching to the recommended user scenario, and a content element (for example, a favorite voice character) more suitable for the user's taste can be presented.
  • the content element itself may be recommended so that the recommended content element is presented.
  • the eleventh embodiment has been described above.
  • the information processing system 1 is composed of the data management server 10, the editing device 20, and the playback devices 30-1 to 30-N has been described, but for example, another device may be added. Other configurations may be used.
  • the data management server 10 as one information processing device may be divided into a dedicated database server and a distribution server for distribution of scenarios, content elements, etc., and configured as a plurality of information processing devices. Good.
  • the editing device 20 or the playback device 30 may be configured not only as one information processing device but also as a plurality of information processing devices.
  • the playback device 30 executes a part of the information processing processing by the data management server 10 described above, or is connected to a network (peripheral part of the network) close to the playback device 30. It may be executed by an edge server.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems.
  • each component may be connected via the Internet 40 or may be connected via a local network (LAN (Local Area Network) or WAN (Wide Area Network)). Further, each component may be connected by wire or wirelessly.
  • LAN Local Area Network
  • WAN Wide Area Network
  • the conventional technology mainly aims to realize convenience of use by automating information retrieval work and device operation by the user.
  • This type of automation typically determines if a system-defined context classification matches a context inferred by sensing user behavior or state.
  • Such a system is composed of the elements shown in (a) to (d) below, and it is possible to specify the context defined by the system from the results of sensing the user's behavior, operation, and physical condition. It is a feature.
  • the user's context can be defined on the system side, so that the user also It is easier to agree with the system-defined context.
  • the content presented by the conventional technology is presented to the user without changing the provision format used in the conventional service.
  • the data or music that is selected and provided by recognizing the context is presented to the user in the same form without changing the form of distribution to the service.
  • the above-mentioned provision format is designed on the premise of the conventional viewing behavior, so that it can be a factor that hinders the free and diverse user behavior of the daily life.
  • content such as movies and music is a format that requires the audience to sit in front of the screen or speakers for viewing, and if it is designed on the premise of conventional viewing behavior, it may hinder user behavior. There is.
  • mobile devices such as smartphones are adapted to the user's daily activities with portability by pursuing portability, but the premise of viewing behavior centered on the screen remains the same. Therefore, for example, walking on general roads and public facilities is considered dangerous as so-called “smartphone walking” due to its characteristics of depriving sight and hearing.
  • Patent Document 1 discloses a device that estimates a landmark visually recognized by the user and uses the information to provide a navigation service that indicates the direction of travel of the user.
  • the triggering conditions for each user can be set for the context.
  • Patent Document 2 discloses a system that extracts context information and content information from a content item, generates an index, and responds to generate a recommendation based on the user's context and the content of the user's query.
  • the context information includes the time of the search, the recently accessed document, the running application, and the activity, and does not include the physical position of the user (see paragraph [0011]).
  • Patent Document 3 edits that when the content includes the faces of a plurality of persons as a plurality of objects (including audio), the faces of only two persons defined as context information are enlarged to a specified size.
  • Patent Document 4 based on the content broadcast schedule and broadcast history information, the correspondence relationship between the viewer's context (time zone, day, etc.) suitable for viewing the content and the feature amount of the content is learned in advance. , It is disclosed that by generating a correspondence table of "context-content feature amount", information indicating a context suitable for viewing the new content is generated and added as metadata. .. However, Patent Document 4 does not disclose that the content is cut out from the existing content.
  • Patent Document 5 records all the context information extracted from the sensing data (motion, voice, heartbeat, emotion, etc.) indicating the user's state and the video that the user is watching at that time. Using the context information that shows the current user's state, the content according to the user's state is extracted, and the context information that shows that "the user was excited and pushed up his arm while playing soccer" was generated. Then, the contents recorded in the past can be extracted and provided to the user according to the keywords such as soccer and excitement, the heart rate, and the movement of the arm.
  • Patent Document 5 does not disclose the extraction of content and context from existing content.
  • Patent Documents 1 to 5 As described above, even if the techniques disclosed in Patent Documents 1 to 5 are used, it is hard to say that a good user experience can be provided when providing a service using context information, and a better user experience is provided. Was required to do.
  • FIG. 52 is a block diagram showing a configuration example of hardware of a computer that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 1005 is further connected to the bus 1004.
  • An input unit 1006, an output unit 1007, a recording unit 1008, a communication unit 1009, and a drive 1010 are connected to the input / output interface 1005.
  • the input unit 1006 includes a microphone, a keyboard, a mouse, and the like.
  • the output unit 1007 includes a speaker, a display, and the like.
  • the recording unit 1008 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 1009 includes a network interface and the like.
  • the drive 1010 drives a removable recording medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads the program recorded in the ROM 1002 and the recording unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the above-mentioned series. Is processed.
  • the program executed by the computer can be recorded and provided on the removable recording medium 1011 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the recording unit 1008 via the input / output interface 1005 by mounting the removable recording medium 1011 in the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the recording unit 1008. In addition, the program can be installed in advance in the ROM 1002 or the recording unit 1008.
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing executed in parallel or individually (for example, parallel processing or processing by an object). Further, the program may be processed by one computer (processor) or may be distributed by a plurality of computers.
  • each step of information processing in each embodiment can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • Context information is pre-associated with the content element
  • at least the trigger condition can be set for the context information, and a user scenario consisting of the context information and the data set of the trigger condition can be generated.
  • the sensor data obtained by sensing the user in real time satisfies the activation condition set in the user scenario
  • the content element associated with the context information corresponding to the activation condition is presented to the user.
  • the control unit From content consisting of multiple media Extract content elements consisting of at least some media Based on the content, generate contextual information corresponding to the content element,
  • the information processing system according to (1) above which generates a corresponding database in which the content element and the context information are associated and accumulated.
  • control unit generates a scenario database in which a data set composed of the content element and the context information is packaged and accumulated based on a certain theme.
  • the content element is part of the streaming content and The information processing system according to (2) above, wherein information indicating the ID and playback range of the content is stored in association with the context information.
  • the control unit presents another content element including a specific voice character corresponding to the context information before reproducing the content element.
  • the control unit assigns content information to a new content element by machine learning the relationship between the content element stored in the corresponding database and the context information. Any of the above (2) to (5). Information processing system described in Crab.
  • the control unit A scenario consisting of the content element and the data set of the context information is presented together with the map information.
  • the information processing system according to (3) above which presents an interface in which a creator who creates a scenario can set a predetermined area on a map as a default value of an activation condition corresponding to the context information.
  • the control unit From the content consisting of the first media A second medium different from the first medium is generated and used as a content element. Based on the content, generate contextual information corresponding to the content element, The information processing system according to any one of (1) to (7) above, which generates a corresponding database in which the content element and the context information are associated and accumulated.
  • the first medium contains text and The information processing system according to (8) above, wherein the second medium includes TTS (Text To Speech) voice.
  • the control unit Machine learning the relationship between the first media and the second media in advance The information processing system according to (8) or (9), wherein the second medium is generated from the first medium based on the result of the machine learning.
  • the control unit For the context information Currently, it is possible to set the activation condition according to the sensor data obtained by sensing the user, and generate a user scenario database including a plurality of the context information and the data set of the activation condition (1) to (1). The information processing system according to any one of 10). (12) The information processing system according to (11) above, wherein the control unit sets activation conditions according to the captured image data.
  • the information according to any one of (11) to (16) above which acquires data that can set a temporal or spatial activation condition or an activation condition according to a user's behavior as the sensor data.
  • Processing system. (18)
  • the control unit Along with the map information, a scenario consisting of the content element and the context information dataset associated with each other is presented.
  • the information processing system according to any one of (1) and (11) to (17) above which presents an interface on which a user can set a predetermined area on a map as an activation condition corresponding to the context information.
  • the control unit presents a plurality of content elements corresponding to the plurality of context information to the user according to a predetermined rule.
  • the information processing system according to any one of (18).
  • (20) The information processing system according to (19), wherein the control unit identifies one content element from the plurality of content elements according to the orientation of the user estimated from the sensor data, and presents the content element to the user.
  • (21) The control unit When the orientation of the user estimated from the sensor data is the first orientation, the content element corresponding to the first character is specified and presented to the user.
  • (22) The information processing system according to (21), wherein the control unit provides information associated with the position of the first character or the second character according to the position of the first character or the second character.
  • the control unit When the sensor data satisfies the activation condition, a device capable of presenting a content element associated with the context information corresponding to the activation condition is searched around the user's current position.
  • the information processing system according to any one of (1) to (22) above, which controls the device so that the content element is presented to the user.
  • the control unit While controlling the electroacoustic conversion device worn on the user's ear so that the agent's voice included in the content element is presented to the user, The information processing system according to (23) above, which controls a display arranged around the user so that the appearance of the agent included in the content element is presented to the user.
  • control unit provides a specific user scenario to a service provider via a communication unit.
  • control unit provides a music character corresponding to the content element associated with the user scenario in the music streaming distribution service.
  • the information processing system according to (25) above which is set as a disk jockey (DJ) to be introduced.
  • DJ disk jockey
  • the content element includes at least one of tactile data and odor data that can be presented by a device.
  • the control unit switches the user scenario to another user scenario in response to feedback from the user presented with the content element.
  • the control unit estimates a user's preference for the content element by analyzing the feedback.
  • the control unit recommends the content element or the user scenario according to the preference of the user.
  • Information processing device Context information is pre-associated with the content element
  • at least the trigger condition can be set for the context information, and a user scenario consisting of the context information and the data set of the trigger condition can be generated.
  • the sensor data obtained by sensing the user in real time satisfies the activation condition set in the user scenario
  • the content element associated with the context information corresponding to the activation condition is presented to the user.
  • Context information is pre-associated with the content element
  • at least the trigger condition can be set for the context information, and a user scenario consisting of the context information and the data set of the trigger condition can be generated.
  • a computer-readable recording medium that records a program for functioning as a control unit.
  • 1 Information processing system 10 Data management server, 20 Editing equipment, 30, 30-1 to 30-N playback equipment, 40 Internet, 100 Control unit, 101 Input unit, 102 Output unit, 103 Storage unit, 104 Communication unit, 111 Data management unit, 112 data processing unit, 113 communication control unit, 131 presentation character selection unit, 132 scenario processing unit, 133 response generation unit, 151 content element-context information DB, 152 scenario DB, 153 user scenario DB, 161 character arrangement DB, 162 position-dependent information DB, 163 scenario DB, 200 control unit, 201 input unit, 202 output unit, 203 storage unit, 204 communication unit, 211 editing processing unit, 212 presentation control unit, 213 communication control unit, 221 mouse, 222 keyboard, 231 display, 232 speaker, 300 control unit, 301 input unit, 302 output unit, 303 storage unit, 304 communication unit, 305 sensor unit, 306 camera unit, 307 output terminal, 308 power supply unit, 311 playback processing unit, 312 presentation control unit, 313 communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、より良いユーザ体験を提供することができるようにする情報処理システム、情報処理方法、及び記録媒体に関する。 情報処理システムが、コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、コンテキスト情報と発動条件のデータセットからなるユーザシナリオを生成可能であり、ユーザをリアルタイムでセンシングすることで得られたセンサデータが、ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する制御部を備える。本技術は、例えば、音声サービスを提供するシステムに適用することができる。

Description

情報処理システム、情報処理方法、及び記録媒体
 本技術は、情報処理システム、情報処理方法、及び記録媒体に関し、特に、より良いユーザ体験を提供することができるようにした情報処理システム、情報処理方法、及び記録媒体に関する。
 近年、情報機器の普及に伴い、機器の特性を活かした様々なサービスが提供されている(例えば、特許文献1参照)。
 この種のサービスでは、コンテキストの情報を利用して処理が行われる場合がある。コンテキストに関する技術としては、特許文献2乃至5に開示された技術が知られている。
特許第6463529号公報 特開2015-210818号公報 国際公開第2013/136792号 特開2007-172524号公報 国際公開第2016/136104号
 ところで、コンテキストの情報を利用してサービスを提供するに際しては、より良いユーザ体験を提供することが求められる。
 本技術はこのような状況に鑑みてなされたものであり、より良いユーザ体験を提供することができるようにするものである。
 本技術の一側面の情報処理システムは、コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する制御部を備える情報処理システムである。
 本技術の一側面の情報処理方法は、情報処理装置が、コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する情報処理方法である。
 本技術の一側面の記録媒体は、コンピュータを、コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する制御部として機能させるためのプログラムを記録したコンピュータが読み取り可能な記録媒体である。
 本技術の一側面の情報処理システム、情報処理方法、及び記録媒体においては、コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件が設定され、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオが生成され、ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示される。
本技術の概要を示した代表図である。 本技術を適用した情報処理システムの構成の例を示す図である。 図2のデータ管理サーバの構成の例を示す図である。 図2の編集機器の構成の例を示す図である。 図2の再生機器の構成の例を示す図である。 第1の実施の形態における情報処理の全体像を表した図である。 第1の実施の形態における情報処理の詳細な流れを説明するフローチャートである。 シナリオDBに格納される情報の例を示す図である。 ユーザシナリオDBに格納される情報の例を示す図である。 シナリオDBに格納される情報の他の例を示す図である。 コンテンツ要素の例を示す図である。 コンテンツ要素とコンテキストとの組み合わせの例を示す図である。 シナリオの例を示す図である。 シナリオ選択・新規作成画面の例を示す図である。 シナリオ編集画面の例を示す図である。 ジオフェンス編集画面の第1の例を示す図である。 ジオフェンス編集画面の第2の例を示す図である。 第2の実施の形態における情報処理の全体像を表した図である。 第3の実施の形態における情報処理の全体像を表した図である。 コンテンツ要素-コンテキスト情報に対する発動条件の設定の例を示す図である。 シナリオ選択・再生画面の例を示す図である。 発動条件設定画面の例を示す図である。 発動条件詳細設定画面の例を示す図である。 コンテンツ要素選択画面の例を示す図である。 コンテンツ要素編集画面の例を示す図である。 シナリオ選択画面の例を示す図である。 発動条件設定画面の第1の例を示す図である。 発動条件設定画面の第2の例を示す図である。 ジオフェンス編集画面の例を示す図である。 ユーザシナリオの設定の例を示す図である。 第4の実施の形態における情報処理の全体像を表した図である。 第4の実施の形態における情報処理の全体像を表した図である。 発動条件とセンシング手段の組み合わせの例を示す図である。 発動条件が重なった場合の状態の例を示す図である。 発動条件が重なった場合の対応の第1の例を示す図である。 発動条件が重なった場合の対応の第2の例を示す図である。 発動条件が重なった場合の対応の第3の例を示す図である。 発動条件が重なった場合の対応の第4の例を示す図である。 複数キャラクタを配置する場合における情報処理システムの構成の例を示す図である。 キャラクタ配置DBに格納される情報の例を示す図である。 位置依存情報DBに格納される情報の例を示す図である。 シナリオDBに格納される情報の例を示す図である。 複数キャラクタ配置の第1の例を示す図である。 複数キャラクタ配置の第2の例を示す図である。 複数キャラクタ配置の第3の例を示す図である。 第6の実施の形態における情報処理の全体像を表した図である。 第7の実施の形態における情報処理の全体像を表した図である。 第8の実施の形態における情報処理の全体像を表した図である。 第9の実施の形態における情報処理の全体像を表した図である。 第10の実施の形態における情報処理の全体像を表した図である。 第11の実施の形態における情報処理の全体像を表した図である。 コンピュータの構成例を示す図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.第1の実施の形態:基本構成
2.第2の実施の形態:シナリオDBの生成
3.第3の実施の形態:異なるメディアの生成
4.第4の実施の形態:ユーザシナリオDBの生成
5.第5の実施の形態:センシング手段の構成
6.第6の実施の形態:発動条件が複数のコンテキスト情報に設定された場合の構成
7.第7の実施の形態:複数の機器が連動した構成
8.第8の実施の形態:別のサービスと協調した構成
9.第9の実施の形態:シナリオを共有した構成
10.第10の実施の形態:データの他の例
11.第11の実施の形態:ユーザフィードバックを利用した構成
12.変形例
13.コンピュータの構成
(代表図)
 図1は、本技術の概要を示した代表図である。
 本技術は、1つのシナリオを、別々の場所に住むユーザが、それぞれ利用することができるようにして、より良いユーザ体験を提供するものである。
 図1においては、制作者が、パーソナルコンピュータ等の編集機器を用いて、コンテンツを構成する要素であるコンテンツ要素に、コンテキストの情報であるコンテキスト情報を付与してシナリオを作成している。このようにして作成されたシナリオは、インターネット上のサーバを介して配信される。
 各ユーザは、スマートフォン等の再生機器を操作して、配信されているシナリオの中から所望のシナリオを選択し、コンテンツ要素を提示するときの条件である発動条件を設定することで、ユーザシナリオをそれぞれ作成する。つまり、図1においては、ユーザAとユーザBの2人のユーザが、同一のシナリオに対し、自己の発動条件をそれぞれ設定しているため、ユーザごとに、ユーザシナリオの発動条件が異なっている。
 そのため、同一のシナリオが、ユーザごとに、異なる場所で実施されることになり、1つのシナリオを、別々の場所に住むユーザが、それぞれ利用することが可能となる。
<1.第1の実施の形態>
(システムの構成例)
 図2は、本技術を適用した情報処理システムの構成の例を示している。
 情報処理システム1は、データ管理サーバ10、編集機器20、及び再生機器30-1乃至30-N(N:1以上の整数)から構成される。また、情報処理システム1において、データ管理サーバ10と、編集機器20及び再生機器30-1乃至20-Nとは、インターネット40を介して相互に接続されている。
 データ管理サーバ10は、データベース等のデータを管理するための1又は複数のサーバから構成され、データセンタ等に設置される。
 編集機器20は、パーソナルコンピュータ等の情報機器から構成され、サービスを提供する事業者により管理される。編集機器20は、インターネット40を介してデータ管理サーバ10に接続し、データベースに蓄積されたデータに関する編集処理を行い、シナリオを生成する。
 再生機器30-1は、スマートフォンや携帯電話機、タブレット端末、ウェアラブル機器、携帯音楽プレイヤ、ゲーム機、パーソナルコンピュータなどの情報機器から構成される。
 再生機器30-1は、インターネット40を介してデータ管理サーバ10に接続し、シナリオに対して発動条件を設定してユーザシナリオを生成する。再生機器30-1は、ユーザシナリオに基づいて、発動条件に応じたコンテンツ要素を再生する。
 再生機器30-2乃至30-Nは、再生機器30-1と同様に、スマートフォン等の情報機器から構成され、生成したユーザシナリオに基づいて、発動条件に応じたコンテンツ要素を再生する。
 なお、以下の説明では、再生機器30-1乃至20-Nを特に区別する必要がない場合、単に、再生機器30と称する。
(データ管理サーバの構成例)
 図3は、図2のデータ管理サーバ10の構成の例を示している。
 図3において、データ管理サーバ10は、制御部100、入力部101、出力部102、記憶部103、及び通信部104を含んで構成される。
 制御部100は、CPU(Central Processing Unit)等のプロセッサから構成される。制御部100は、各部の動作の制御や、各種の演算処理を行う中心的な処理装置である。
 入力部101は、マウスやキーボード、物理的なボタン等から構成される。入力部101は、ユーザの操作に応じた操作信号を、制御部100に供給する。
 出力部102は、ディスプレイやスピーカ等から構成される。出力部102は、制御部100からの制御に従い、映像や音声などを出力する。
 記憶部103は、不揮発性メモリや揮発性メモリを含む半導体メモリ、HDD(Hard Disk Drive)などの大容量の記憶装置から構成される。記憶部103は、制御部100からの制御に従い、各種のデータを記憶する。
 通信部104は、所定の規格に準拠した無線通信又は有線通信に対応した通信モジュールなどから構成される。通信部104は、制御部100からの制御に従い、他の機器と通信を行う。
 また、制御部100は、データ管理部111、データ処理部112、及び通信制御部113を含む。
 データ管理部111は、記憶部103に記憶される各種のデータベースやコンテンツのデータなどを管理する。
 データ処理部112は、各種のデータに関するデータ処理を行う。このデータ処理としては、コンテンツに関する処理や、機械学習に関する処理などが含まれる。
 通信制御部113は、通信部104を制御して、インターネット40を介して編集機器20又は再生機器30との間で、各種のデータをやり取りする。
 なお、図3に示したデータ管理サーバ10の構成は、一例であって、一部の構成要素を除いたり、あるいは専用の画像処理部などの他の構成要素を追加したりしてもよい。
(編集機器の構成例)
 図4は、図2の編集機器20の構成の例を示している。
 図4において、編集機器20は、制御部200、入力部201、出力部202、記憶部203、及び通信部204を含んで構成される。
 制御部200は、CPU等のプロセッサから構成される。制御部200は、各部の動作の制御や、各種の演算処理を行う中心的な処理装置である。
 入力部201は、マウス221やキーボード222等の入力装置から構成される。入力部201は、ユーザの操作に応じた操作信号を、制御部200に供給する。
 出力部202は、ディスプレイ231やスピーカ232等の出力装置から構成される。出力部202は、制御部200からの制御に従い、各種のデータに応じた情報を出力する。
 ディスプレイ231は、制御部200からの映像データに応じた映像を表示する。スピーカ232は、制御部200からの音声データに応じた音声(音)を出力する。
 記憶部203は、不揮発性メモリ等の半導体メモリ等から構成される。記憶部203は、制御部200からの制御に従い、各種のデータを記憶する。
 通信部204は、所定の規格に準拠した無線通信又は有線通信に対応した通信モジュールなどから構成される。通信部204は、制御部200からの制御に従い、他の機器と通信を行う。
 また、制御部200は、編集処理部211、提示制御部212、及び通信制御部213を含む。
 編集処理部211は、各種のデータに関する編集処理を行う。この編集処理としては、後述するシナリオに関する処理などを含む。
 提示制御部212は、出力部202を制御して、映像データや音声データ等のデータに応じた映像や音声等の情報の提示を制御する。
 通信制御部213は、通信部204を制御して、インターネット40を介してデータ管理サーバ10との間で、各種のデータをやり取りする。
 なお、図4に示した編集機器20の構成は、一例であって、一部の構成要素を除いたり、あるいは他の構成要素を追加したりしてもよい。
(再生機器の構成例)
 図5は、図2の再生機器30の構成の例を示している。
 図5において、再生機器30は、制御部300、入力部301、出力部302、記憶部303、通信部304、センサ部305、カメラ部306、出力端子307、及び電源部308を含んで構成される。
 制御部300は、CPU等のプロセッサから構成される。制御部300は、各部の動作の制御や、各種の演算処理を行う中心的な処理装置である。
 入力部301は、物理的なボタン321や、タッチパネル322、マイクロフォン等の入力装置から構成される。入力部301は、ユーザの操作に応じた操作信号を、制御部300に供給する。
 出力部302は、ディスプレイ331及びスピーカ332等の出力装置から構成される。出力部302は、制御部300からの制御に従い、各種のデータに応じた情報を出力する。
 ディスプレイ331は、制御部300からの映像データに応じた映像を表示する。スピーカ332は、制御部300からの音声データに応じた音声(音)を出力する。
 記憶部303は、不揮発性メモリ等の半導体メモリ等から構成される。記憶部303は、制御部300からの制御に従い、各種のデータを記憶する。
 通信部304は、無線LAN(Local Area Network)、セルラー方式の通信(例えばLTE-Advancedや5G等)、若しくはBluetooth(登録商標)などの無線通信、又は有線通信に対応した通信モジュールとして構成される。通信部304は、制御部300からの制御に従い、他の機器と通信を行う。
 センサ部305は、各種のセンサデバイス等から構成される。センサ部305は、ユーザやその周辺などのセンシングを行い、そのセンシング結果に応じたセンサデータを、制御部300に供給する。
 ここで、センサ部305としては、位置、方位、加速度、及び速度を測定する慣性センサ、生物の持つ心拍数、体温、又は姿勢といった情報を測定する生体センサ、磁場(磁界)の大きさや方向を測定する磁気センサ、近接するものを測定する近接センサなどを含めることができる。なお、慣性センサの代わりに、加速度を測定する加速度センサや、角度(姿勢)や角速度、角加速度を測定するジャイロセンサを用いてもよい。
 カメラ部306は、光学系やイメージセンサ、信号処理回路などから構成される。カメラ部306は、被写体を撮像して得られる撮像データを、制御部300に供給する。
 出力端子307は、ケーブルを介してイヤホンやヘッドホン等の電気音響変換機器を含む機器と接続される。出力端子307は、制御部300からの音声データ等のデータを出力する。なお、イヤホン等の機器とは、有線に限らず、Bluetooth(登録商標)等の無線通信により接続されてもよい。
 電源部308は、二次電池等の電池と電源管理回路から構成され、制御部300を含む各部に電源を供給する。
 また、制御部300は、再生処理部311、提示制御部312、及び通信制御部313を含む。
 再生処理部311は、各種のコンテンツのデータに関する再生処理を行う。この再生処理としては、楽曲(の一部)や、キャラクタの発話等のデータを再生する処理などが含まれる。
 提示制御部312は、出力部302を制御して、映像データや音声データ等のデータに応じた映像や音声等の情報の提示を制御する。また、提示制御部312は、再生処理部311により再生されたデータの提示を制御する。
 通信制御部313は、通信部304を制御して、インターネット40を介してデータ管理サーバ10との間で、各種のデータをやり取りする。
 なお、図5に示した再生機器30の構成は、一例であって、カメラ部306や出力端子307等の一部の構成要素を除いたり、あるいは入力端子等の他の構成要素を追加したりしてもよい。
 情報処理システム1は、以上のように構成される。以下、情報処理システム1で実行される情報処理の具体的な内容について説明する。
(処理の全体像)
 まず、図6を参照して、第1の実施の形態における情報処理の全体像を説明する。
 データ管理サーバ10において、記憶部103は、コンテンツ要素-コンテキスト情報DB151、シナリオDB152、及びユーザシナリオDB153の各データベースを記憶している。また、記憶部103は、コンテンツ要素のデータも記憶している。
 コンテンツ要素-コンテキスト情報DB151は、コンテンツ要素とコンテキスト情報とを対応付けたテーブルを格納したデータベースである。
 ここで、コンテンツ要素とは、コンテンツを構成する要素(エレメント)である。例えば、コンテンツ要素には、映像や音楽等のコンテンツから生成される、セリフやBGM、効果音、環境音、楽曲、画像などが含まれる。
 また、コンテキスト情報とは、コンテンツ要素に対して付与されるコンテキストの情報である。例えば、コンテンツ要素の使用が想定される状況に応じて付与されたコンテキスト情報が、当該コンテンツ要素に対応付けられて、コンテンツ要素-コンテキスト情報DB151に蓄積される。なお、ここでは、機械学習の技術を用いて、コンテンツ要素に対してコンテキスト情報を自動的に付与してもよい。
 シナリオDB152は、シナリオを格納したデータベースである。
 ここで、シナリオとは、コンテンツ要素とコンテキスト情報の組み合わせからなるデータセット(以下、「コンテンツ要素-コンテキスト情報」とも表記する)を、一定のテーマに基づいて、パッケージ化したものである。
 なお、シナリオDB152には、再生機器30の機能に関する機器機能情報を格納してもよい。この機器機能情報を用いることで、1又は複数の再生機器30の機能に応じた処理を実行することができる。
 ユーザシナリオDB153は、ユーザシナリオを格納したデータベースである。
 ここで、ユーザシナリオとは、コンテンツ要素とコンテキスト情報からなるデータセットをパッケージ化したシナリオに対して発動条件を設定したものである。
 すなわち、ユーザごとに、少なくともコンテキスト情報に対して発動条件が設定可能とされ、コンテキスト情報と発動条件のデータセットを含むユーザシナリオが生成可能とされる。いわば、ユーザシナリオは、ユーザ定義シナリオであると言える。
 発動条件とは、データセットとなるコンテキスト情報に対応付けられたコンテンツ要素を、ユーザに提示するときの条件である。この発動条件としては、例えば、位置や場所などの空間的な条件や、時間的な条件、ユーザの行動などが設定可能である。
 情報処理システム1では、データ管理サーバ10が上記のデータベースを管理し、当該データベースに格納された情報に、編集機器20や再生機器30がアクセスすることで、図6に示すような処理が行われる。
 すなわち、再生機器30がユーザをリアルタイムでセンシングし(S101)、そのセンシングで得られたセンサデータが、ユーザシナリオに設定される発動条件を満たしたかどうかが判定される(S102)。
 そして、センサデータが発動条件を満たしたとき(S102の「Yes」)、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示される(S103)。
 例えば、シナリオとして、「キャラクタ発話」であるコンテンツ要素に、「自宅」であるコンテキスト情報が対応付けられている場合に、当該コンテキスト情報に対して、「自宅の中心から半径10m」である発動条件が設定された場合を想定する。この場合、センサデータ(位置情報)に基づき、ユーザが自宅から10mの位置に来たとき、当該ユーザが所持する再生機器30から、所望のキャラクタの発話が出力される。
(処理の流れ)
 次に、図7のフローチャートを参照して、第1の実施の形態における情報処理の詳細な流れを説明する。
 なお、図7に示した処理のうち、ステップS121乃至S127の処理は、主に、編集機器20(の制御部200)によりシナリオ生成ツールが実行されたときの処理とされ、ステップS128乃至S133の処理は、主に、再生機器30(の制御部300)によりユーザシナリオ生成ツールが実行されたときの処理とされる。
 つまり、シナリオ生成ツールを操作するのは、編集機器20でシナリオを作成する制作者等である一方で、ユーザシナリオ生成ツールを操作するのは、再生機器30を所持するユーザ等であり、各ツールの操作者が異なっているか、同一の操作者であっても操作するタイミングが異なっている。
 編集機器20では、シナリオ生成ツールによって、コンテンツが取得され(S121)、コンテンツ要素の候補が提示される(S122)。そして、制作者の操作に応じて、コンテンツからコンテンツ要素が切り出される(S123)。
 また、編集機器20では、シナリオ生成ツールによって、コンテキスト情報の候補が提示される(S124)。そして、制作者の操作に応じて、コンテンツ要素にコンテキスト情報が付与される(S125)。ただし、ここでは、制作者の操作に限らず、機械学習の技術を用いて自動的に付与してもよい。
 なお、このようにして対応付けられたコンテンツ要素とコンテキスト情報は、データ管理サーバ10に送られ、コンテンツ要素-コンテキスト情報DB151に蓄積される。
 編集機器20では、シナリオ生成ツールによって、制作者の操作に応じたシナリオが生成され(S126)、当該シナリオが保存される(S127)。
 すなわち、シナリオ生成ツールにより生成されたシナリオは、データ管理サーバ10に送られ、シナリオDB152に蓄積される。シナリオDB152に蓄積されたシナリオは、インターネット40を介して配信可能となる。
 一方で、再生機器30では、ユーザシナリオ生成ツールによって、データ管理サーバ10から配信されるシナリオが取得される(S128)。
 そして、再生機器30では、ユーザの操作に応じて、発動条件が付与される(S129)。これにより、シナリオから、ユーザの操作に応じたユーザシナリオが生成され、当該ユーザシナリオが保存される(S130)。
 ユーザシナリオ生成ツールにより生成されたユーザシナリオは、データ管理サーバ10に送られ、ユーザシナリオDB153に蓄積される。これにより、ユーザシナリオが他のユーザ等と共有可能とされる。
 ここでは、さらにシナリオを追加する場合(S131の「Yes」)には、上述したステップS128乃至S130の処理が繰り返される。
 また、再生機器30では、ユーザシナリオ生成ツールによって、作成済みのユーザシナリオを起動して(S132)、評価することができる(S133)。
 なお、シナリオ生成ツールの詳細は、図14乃至図17を参照して後述する。また、ユーザシナリオ生成ツールの詳細は、図21乃至図25、及び図26乃至図29を参照して後述する。
 以上、情報処理の詳細な流れを説明した。
(データベースの例)
 次に、図8乃至図10を参照して、データ管理サーバ10により管理されるデータベースの例を説明する。
 図8に示すように、シナリオDB152には、ユーザシナリオ生成ツールの操作に応じて、コンテンツ要素とコンテキスト情報の組み合わせからなるデータセットが蓄積されている。例えば、図8においては、「自宅」であるコンテキスト情報が、「キャラクタ発話#1」及び「BGM#1」であるコンテンツ要素に対応付けられている。
 また、図9に示すように、ユーザシナリオDB153には、コンテンツ要素とコンテキスト情報の組み合わせからなるデータセットとともに、ユーザシナリオ生成ツールの操作に応じて、当該データセットに付与された発動条件が蓄積されている。
 例えば、図9においては、「中心(35.631466, 139.743660)」及び「半径10m」である発動条件が、「キャラクタ発話#1」及び「BGM#1」であるコンテンツ要素と、「自宅」であるコンテキスト情報に付与されている。ただし、中心(a, b)のa, bは、緯度(北緯)と経度(東経)を意味し、コンテンツ要素の発動範囲を表している。
 なお、図8及び図9に示したデータベースの構成は一例であり、他の構成を用いてもよい。例えば、図10に示すように、異なる作品(例えば、「映画」である作品Aと、「アニメ」である作品Bと、「文学朗読」である作品C)に、共通のコンテキスト情報を付与することができる。
 例えば、図10においては、「自宅」であるコンテキスト情報が、作品Aの「BGM#2」、作品Bの「キャラクタ発話#1」及び「BGM#1」、並びに作品Cの「朗読#1」であるコンテンツ要素にそれぞれ対応付けられている。
 以上、第1の実施の形態を説明した。この第1の実施の形態では、コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、コンテキスト情報と発動条件のデータセットを含むユーザシナリオを生成可能である。そして、ユーザをリアルタイミングでセンシングすることで得られたセンサデータが、ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示される。
 これにより、シナリオの世界観を、ユーザシナリオ内の発動条件に従って、各ユーザが楽しむことができ、より良いユーザ体験を提供することができる。
<2.第2の実施の形態>
 ところで、現在流通・配信されているコンテンツには、例えば、映画やアニメ、ゲーム等の動画、写真や絵画、マンガ等の静止画、音楽やオーディオブック等の音声、書籍等のテキストなどといったフォーマットがあるが、特にストーリ性(劇場性)を持つコンテンツは、セリフや効果、背景のような要素から構成されることが多い。
 ユーザの日常生活の空間への重畳を考慮する場合、上記のコンテンツを流通・配信されている形式でそのまま提示することに加えて、コンテンツの再編集を行うことがある。このコンテンツの再編集としては、例えば、ユーザの現在置かれているコンテキストの空間的・時間的なサイズに合うようにコンテンツの一部を時間的に切り取る、又はコンテキストに合うように上記の要素を取り出して提示する、といったことが行われる。
 以下、この再編集されたコンテンツの一部が、上述したコンテンツ要素に相当している。例えば、図11に示すように、あるコンテンツのコンテンツ要素としては、セリフや背景、音楽、歌詞、人物、記号、文字、物体などが含まれる。
 このコンテンツ要素に、想定されるコンテキストの情報を、テキストや画像、音声等の形式で表現するかたちで、上述したコンテキスト情報として付与する。また、コンテンツ要素とコンテキスト情報の関連性情報そのもの、又は複数の関連性情報をひとつにまとめたものをシナリオとしてシナリオDB152に蓄積する。
 なお、ここでは、1つのコンテンツ要素に対して、1つ以上のコンテキスト・タグを付与してもよく、また、同一のコンテキスト・タグを複数のコンテンツ要素に付与してもよい。
 例えば、図12に示すように、配信された映画やアニメ、ゲームのように映像と音声から構成されるコンテンツから、あるキャラクタのセリフのみを抜き出して音声コンテンツとし、そのセリフが聞かれると想定されるコンテキストとして、「勇気をもらう」であるテキストを、コンテキスト情報として付与する。
 また、例えば、図12に示すように、あるシーンで用いられているセリフと背景音楽の組み合わせを1つの音声コンテンツとし、「宿屋での出会い」であるテキストをコンテキスト情報として付与する。
 そして、図12に示した2つの「コンテンツ要素-コンテキスト情報」のデータセットを、コンテンツ要素-コンテキスト情報DB151に蓄積する。
 例えば、音声データでは、制作途中においてセリフ、効果音、背景音、背景音楽等がマルチトラックとして別々の音源で制作され、その後にミックスダウンして流通・配信されるコンテンツの形態とされる。そのため、コンテンツ要素は、これらミックスダウン前の各トラックから抽出することができる。
 また、例えば、画像においても、人物、背景、物体等が別々に撮影され、その後に合成される手法もあり、合成前のデータからコンテンツ要素を抽出することもできる。
 これらのコンテンツ要素の生成及びコンテキスト情報の付与は、人手で行う場合、人手を介さずに自動で行う場合、又はその組み合わせの場合の3通りが想定される。次に、特に、自動プロセスが関与する場合について述べる。
 機械学習の技術によって、動画若しくは静止画に含まれる画像情報又は音声情報からあるシーンに含まれる人、生物、物体、建築物、風景等の要素を識別する技術があり、これらの技術を用いてコンテンツ要素の範囲を決定し、識別結果、又はその組み合わせから想定される1つ以上のコンテキスト情報を(自動的に)生成することができる。
 これらの情報から、「コンテンツ要素-コンテキスト情報」のデータセットを自動的に生成してもよいし、あるいは、これらの情報を参考情報として、人手で「コンテンツ要素-コンテキスト情報」の設定を行ってもよい。
 シナリオは、1つ以上の「コンテンツ要素-コンテキスト情報」のデータセットを、再編集の元となった作品名、出演するキャラクタ、設定された舞台、喚起される感情など、一定のテーマに沿ってまとめることで構成され、シナリオDB152に蓄積される。
 例えば、図13に示すように、図12に示した2つの「コンテンツ要素-コンテキスト情報」のデータセットを、「出発の街」であるシナリオとして、シナリオDB152に蓄積することができる。
 これにより、ユーザは、利用したい「コンテンツ要素-コンテキスト情報」のデータセットを検索・入手するだけでなく、シナリオをもとにパッケージ化された複数の「コンテンツ要素-コンテキスト情報」のデータセットを検索・入手することもできる。
 ここでは、既に流通・配信されている従来のフォーマットに基づいたコンテンツから、コンテンツ要素を生成してコンテキスト情報を付与する手法について述べたが、本技術で提案する仕組みを前提に、コンテンツ要素に当たる作品を直接創作することもできる。
(シナリオ生成ツールのUIの例)
 ここで、図14乃至図17を参照して、シナリオを生成するためのシナリオ生成ツールのユーザインターフェースについて説明する。このシナリオ生成ツールは、制作者等により操作される編集機器20の制御部200により実行され、各種の画面がディスプレイ231に表示される。
 シナリオ生成ツールを起動すると、図14のシナリオ選択・新規作成画面が表示される。このシナリオ選択・新規作成画面は、地図・シナリオ表示領域251、シナリオリスト252、及び新規シナリオ作成ボタン253を含む。
 シナリオは、地図・シナリオ表示領域251において地図上の位置を表すピン261Aに名前が表記されるか、あるいはシナリオリスト252においてシナリオ表示バナー262Aが名前順などの所定の順序でリストとして表示される。また、新規シナリオ作成ボタン253は、新規のシナリオを作成する場合に操作される。
 制作者は、所望の領域に対応した地図上のピン261Aや、シナリオリスト252のシナリオ表示バナー262Aをクリック操作することで、所望のシナリオを選択できる。
 このとき、複数のピン261Aのうち、ピン261Bに注目すれば、カーソル260により選択状態になっているため、「シナリオ#1」であるピン261Bに応じたシナリオ名が吹き出し状に表示される。そして、ピン261Bに応じたシナリオ#1が選択された状態で、編集ボタン262Bがクリック操作された場合、図15のシナリオ編集画面が表示される。
 図15のシナリオ編集画面は、地図・ジオフェンス表示領域254、ジオフェンスリスト255、及び編集ツール表示領域256を含む。
 ジオフェンスは、地図・ジオフェンス表示領域254において地図上のジオフェンスの領域を表すジオフェンス領域271A乃至271Eに名前が表記されるか、あるいはジオフェンスリスト255においてジオフェンス表示バナー272Aが名前順などの所定の順序でリストとして表示される。
 なお、ジオフェンス領域271A乃至271Eの形状としては、円形や多角形などの様々な形状を設定可能である。
 地図・ジオフェンス表示領域254において、デフォルト値が設定される発動条件(発動範囲)に付与されたコンテキスト情報は、各ジオフェンス内にテキスト等で表示されるか、所望のジオフェンスを選択したときに吹き出し状に表示される。この表示をもとに、制作者は、各コンテンツ要素の発動範囲に紐付くコンテキスト情報を確認することができる。
 これにより、制作者は、所望の領域に対応した地図上のジオフェンス領域271A乃至271Eや、ジオフェンスリスト255のジオフェンス表示バナー272Aをクリック操作することで、所望のジオフェンスを選択できる。
 編集ツール表示領域256は、円形ジオフェンス作成ボタン273、多角形ジオフェンス作成ボタン274、ジオフェンス移動ボタン275、上書き保存ボタン276、新規保存ボタン277、削除ボタン278、及び戻るボタン279を含む。
 円形ジオフェンス作成ボタン273は、円形の形状からなるジオフェンスを作成する場合に操作される。多角形ジオフェンス作成ボタン274は、多角形の形状からなるジオフェンスを作成する場合に操作される。ジオフェンス移動ボタン275は、所望のジオフェンスを移動する場合に操作される。
 上書き保存ボタン276は、編集対象のシナリオを、既存のシナリオに上書きして保存する場合に操作される。新規保存ボタン277は、編集対象のシナリオを、新規のシナリオとして保存する場合に操作される。削除ボタン278は、編集対象のシナリオを削除する場合に操作される。戻るボタン279は、シナリオ選択・新規作成画面に戻る場合に操作される。
 ここで、ジオフェンス領域271A乃至271Eのうち、模様が付されたジオフェンス領域271Cに注目すれば、カーソル260により選択状態になっているため、「ジオフェンス#1」であるジオフェンス領域271Cに応じたジオフェンス名が吹き出し状に表示されるとともに、ジオフェンスに設定されたコンテンツ要素が再生されてもよい。
 そして、ジオフェンス領域271Cに応じたジオフェンス#1が選択された状態で、編集ボタン272Bがクリック操作された場合、図16のジオフェンス編集画面が表示される。
 図16のジオフェンス編集画面は、ジオフェンス詳細設定領域257を含む。ジオフェンス詳細設定領域257は、ジオフェンスの詳細な設定項目として、ジオフェンス名、中心位置、半径、再生時間、天候、コンテンツ要素、再生範囲、音量、リピート再生、フェードイン・アウト、及び再生優先レベルを含む。
 ただし、ジオフェンス名は、コンテキストの設定項目に相当する。また、中心位置、半径、再生時間、及び天候は、発動条件の設定項目に相当し、ここでは、そのデフォルト値が設定される。さらに、コンテンツ要素、再生範囲、音量、リピート再生、フェードイン・アウト、及び再生優先レベルは、コンテンツ要素と再生条件の設定項目に相当し、ここでは、そのデフォルト値が設定される。
 ジオフェンス名入力欄281Aには、ジオフェンス名として、「ジオフェンス#1」が入力されている。
 中心位置入力欄281Bと半径入力欄281Cには、円形のジオフェンスの中心位置と半径のデフォルト値として、「緯度、経度」と「80m」が入力されている。
 再生時間入力欄281Dには、再生時間のデフォルト値として、「7:00 - 10:00」が入力されている。なお、天候入力欄281Eは、「指定なし」となるため、天候のデフォルト値は未設定とされる。
 コンテンツ要素入力欄281Fには、コンテンツ要素のデフォルト値として、「http:xxx.com/sound/フォルダ#1/01.mp3」が入力されている。この入力方法としては、選択ボタン282をクリック操作することで表示されるコンテンツ要素選択画面283を利用することができる。
 コンテンツ要素選択画面283には、データ管理サーバ10の記憶部103に記憶されたコンテンツ要素の音声ファイルのデータが表示される。この例では、コンテンツ要素選択画面283において、階層構造で表示されるフォルダの中から所望のフォルダを選択することで、当該フォルダ内の所望の音声ファイルを選択することができる。
 なお、ここでは、検索キーワード入力欄284Aに入力された所望のキーワードを検索条件とした検索処理を行い、その検索結果に応じた所望の音声ファイルのリストを提示してもよい。
 再生範囲入力欄281Gと音量入力欄281Hには、再生範囲と音量のデフォルト値として、「00:00:08 - 00:01:35」と「5」が入力されている。なお、再生時間と音量は、コンテンツ要素に応じて自動で入力されてもよい。
 リピート再生入力欄281Iとフェードイン・アウト入力欄281Jには、音声ファイルのリピート再生とフェードイン及びフェードアウトのデフォルト値として、「リピート再生:する」と「フェードイン・アウト:する」が入力されている。
 再生優先レベル入力欄281Kには、再生優先レベルのデフォルト値として、「1」が入力されている。この再生優先レベルとしては、「1」乃至「3」の3段階や、「1」乃至「5」の5段階などの所定の段階で、より数値が低いほど優先度が高く、より数値が高いほど優先度が低いなどとすることができる。
 なお、図16のジオフェンス編集画面では、ジオフェンス#1の形状が円形である場合を示したが、その形状が多角形(矩形)である場合には、図17のジオフェンス編集画面が表示される。
 図17のジオフェンス編集画面は、図16に示したジオフェンス編集画面と比べて、発動条件の設定項目として、円形のジオフェンスの中心位置と半径の代わりに、矩形のジオフェンスの頂点位置が設けられる点が異なっている。
 また、図17のジオフェンス編集画面では、図16の中心位置入力欄281Bと半径入力欄281Cのテキストボックスの代わりに、リストボックスからなる頂点位置入力欄291Bが設けられる。
 この例では、頂点位置入力欄291Bには、緯度#1と経度#1、緯度#2と経度#2、緯度#3と経度#3、・・・のように、複数の緯度と経度の組み合わせがリストとして表示されるので、当該リストから選択された所望の緯度と経度の組み合わせが、矩形のジオフェンスの頂点位置のデフォルト値として設定される。
 なお、上述したシナリオ生成ツールのユーザインターフェースは一例であり、テキストボックスやラジオボタンの代わりに他のウィジェットを用いるなど、他のユーザインターフェースを用いてもよい。
 例えば、ジオフェンス編集画面において、再生時間入力欄281D、天候入力欄281E、音量入力欄281H、若しくは再生優先レベル入力欄281Kを構成するテキストボックス、又は頂点位置入力欄291Bを構成するリストボックスの代わりに、ドロップダウンリストやコンボボックスなどを用いることができる。
(処理の全体像)
 次に、図18を参照して、第2の実施の形態における情報処理の全体像を説明する。
 図18に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)と編集機器20(の制御部200)が少なくとも連携することで実現される。すなわち、この情報処理は、制御部100及び制御部200のうち少なくとも一方の制御部により実行される。
 図18に示すように、情報処理システム1では、複数のメディア(映像や音声等)からなるコンテンツ(映画やアニメ、ゲーム等)から、少なくとも一部のメディアからなる1つ以上のコンテンツ要素(例えば「キャラクタのセリフ」)が抽出され(S201)、当該コンテンツ要素に対してコンテキスト(例えばそのセリフが聞かれると想定されるコンテキスト)が生成される(S202)。
 そして、情報処理システム1では、各コンテンツ要素(例えば「キャラクタのセリフ」)に対してコンテキスト情報(例えば「勇気をもらう」)が付与される(S203)。これにより、コンテンツ要素-コンテキスト情報DB151には、コンテンツ要素とコンテキスト情報とが対応付けられて蓄積される。
 また、1以上の「コンテンツ要素-コンテキスト情報」のデータセットは、シナリオ(例えば「出発の街」)としてシナリオDB152に蓄積される(S204)。ここでは、当該データセットを、一定のテーマ(再編集の元となった作品名、設定された舞台、喚起される感情など)に基づいて、パッケージ化して、シナリオDB152に蓄積することができる(S211)。
 ここで、コンテンツ要素としては、例えば、ストリーミング配信コンテンツ(音楽ストリーミング配信サービスで配信される楽曲等)の一部(楽曲の一部等)を含めることができる。このとき、ストリーミング配信コンテンツの一部を識別するために、当該コンテンツのコンテンツIDと再生範囲を指定して(S221)、そのコンテンツIDと再生範囲を示す情報を、対象のコンテキスト情報に対応付けて、コンテンツ要素-コンテキスト情報DB151に蓄積してもよい。
 また、コンテンツ要素に対し、キャラクタ等の紹介コンテンツ(他のコンテンツ要素)を生成して(S231)、コンテンツ要素を再生する前に、紹介コンテンツを提示してもよい。例えば、音楽ストリーミング配信サービスから配信される楽曲(コンテンツ要素)を再生する前に、コンテキスト情報に対応する特定の音声キャラクタ(例えばディスクジョッキー(DJ)のキャラクタ)により紹介文を提示することができる。
 さらに、コンテンツ要素-コンテキスト情報DB151に蓄積されるコンテンツ要素とコンテキスト情報との関係を機械学習することにより(S241)、新たなコンテンツ要素に対して、コンテキスト情報を自動的に付与することができる。
 ここで、機械学習の技術としては、ニューラルネットワーク(NN:Neural Network)などの様々な手法を用いることができるが、例えば、動画若しくは静止画に含まれる画像情報又は音声情報からあるシーンに含まれる人、生物、物体、建築物、風景等の要素を識別する技術を用いて、コンテンツ要素の範囲を決定し、識別結果、又はその組み合わせから想定される1つ以上のコンテキスト情報を自動的に生成することができる。
 以上、第2の実施の形態を説明した。
<3.第3の実施の形態>
 ところで、電子書籍の小説のようなテキストのみから構成されるコンテンツから、コンテンツ要素とコンテキスト情報の組み合わせを生成する場合には、抽出されたテキストそのものをコンテンツ要素として利用し、例えば、文字画像として、公共のディスプレイやARグラス等の表示装置に表示することも可能であるが、音声(音)を利用してもよい。なお、ARグラスとは、拡張現実(AR:Augmented Reality)に対応した眼鏡型の機器(デバイス)である。
 すなわち、コンテンツ要素として利用されるテキストデータから、TTS(Text To Speech)の技術を用いて音声データを生成して、当該音声データを、コンテンツ要素とすることができる。
 また、機械学習の技術を用いて、例えば単語や文章を構成するテキストから関連する印象(イメージ)を伴う音声データや画像データ等のデータを検索又は合成して、当該データをコンテンツ要素として利用してもよい。
 一方で、音声データや画像データのみから構成されているコンテンツについて、機械学習の技術を用いて、関連する単語や文章を構成するテキストを検索又は合成することで、当該テキストをコンテンツ要素として利用してもよい。つまり、ここでは、既存のコンテンツに含まれていない内容を追加したり、あるいは触覚など元のコンテンツに含まれていない別のモーダルでの表現を付加したりすることができる。
 なお、TTSの技術は、人間の音声を人工的に作り出す音声合成の技術の一例であり、他の技術を用いて音声を生成してもよい。あるいは、人による朗読を録音したものを利用してもよい。また、上述した説明では、機械学習の技術を用いた場合を示したが、取得したデータの分析を別途行うことで、コンテンツ要素としてのデータを生成してもよい。
(処理の全体像)
 次に、図19を参照して、第3の実施の形態における情報処理の全体像を説明する。
 図19に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)と編集機器20(の制御部200)が少なくとも連携することで実現される。
 図19に示すように、情報処理システム1では、複数のメディア(テキスト等)からなるコンテンツ(電子書籍の小説等)から、第1のメディア(テキスト等)からなる1つ以上のコンテンツ要素(例えば小説の一文)が抽出され(S301)、第2のメディア(TTS音声等)からなるコンテンツ要素(例えば小説の一文に応じた音声)が生成される(S302)。
 そして、情報処理システム1では、各コンテンツ要素(例えば小説の一文に応じた音声)に対してコンテキスト情報(例えばその小説の一文の音声が聞かれると想定されるコンテキストの情報)が付与され(S303)、コンテンツ要素とコンテキスト情報とが対応付けられてコンテンツ要素-コンテキスト情報DB151に蓄積される。
 また、1以上の「コンテンツ要素-コンテキスト情報」のデータセットは、シナリオとして、シナリオDB152に保存(蓄積)される(S304)。
 ここでは、第1のメディア(テキスト等)と第2のメディア(TTS音声等)との関係をあらかじめ機械学習しておくことで(S311)、その機械学習の結果に基づいて、第1のメディアのコンテンツ要素から第2のメディアのコンテンツ要素を生成することができる。
 以上、第3の実施の形態を説明した。
<4.第4の実施の形態>
 ユーザは、ユーザシナリオ生成ツールを利用することで、所望のシナリオや、所望の「コンテンツ要素-コンテキスト情報」のデータセットを、自身が所持する再生機器30で取得することができる。
 すなわち、再生機器30においては、ユーザシナリオ生成ツールを実行することで、取得したシナリオに含まれる複数の「コンテンツ要素-コンテキスト情報」のデータセットを表示し、ユーザの周辺の実際の空間に配置するためのユーザインターフェースを用いて、センシング可能な条件の組み合わせからなる発動条件を、それぞれの「コンテンツ要素-コンテキスト情報」のデータセットに対して設定することができる。
 この発動条件としては、例えば、GPS(Global Positioning System)に関する情報や、無線LAN(Local Area Network)のアクセスポイントからの情報から推定される緯度・経度などの位置情報、無線ビーコンや近距離無線通信の履歴から得られる利用状況や認証情報を含めることができる。
 さらには、発動条件として、例えば、カメラにより撮像した撮像画像から推定されるユーザ位置や姿勢、行動、周辺環境に関する情報、環境情報時計で測定される時刻や時間に関する情報、マイクロフォンから得られる音声情報に基づく環境情報や認証情報、慣性センサから得られる身体の姿勢や運動、乗車状態等に関する情報、生体信号情報から推定される呼吸数、脈拍、情動等に関する情報が含まれる。
 例えば、図20に示すように、「コンテンツ要素-コンテキスト情報」のデータセットとして、あるキャラクタのセリフを抜き出した音声コンテンツに対し、「勇気をもらう」であるテキストが付与されている場合に、GPSに関する情報等から推定される「緯度・経度」を、発動条件として設定することができる。
 この発動条件の設定は、ユーザシナリオ生成ツールを利用して設定することができるが、サービスを利用する前に完了しておくこともできるし、あるいはサービス利用中にツールを起動して設定を行うようにしてもよい。
 ここでは、ユーザシナリオ生成ツールの一例として、地図上に、「コンテンツ要素-コンテキスト情報」のデータセットが表示され、ユーザによって地図上に配置するインターフェースを用いて、センシング可能な発動条件として地図上の範囲及び時間帯を設定する場合について説明する。
 ユーザは、例えばスマートフォン等の再生機器30、又はパーソナルコンピュータ等の情報機器により実行されるユーザシナリオ生成ツールを操作して、所望のユーザシナリオを作成することができる。なお、ユーザシナリオ生成ツールは、ネイティブアプリケーションとして提供されてもよいし、あるいは、ブラウザを利用したWebアプリケーションとして提供されてもよい。
(ユーザシナリオ生成ツールのUIの例)
 ここで、図21乃至図25を参照して、スマートフォン等の再生機器30により実行されるユーザシナリオ生成ツールのユーザインターフェースについて説明する。このユーザシナリオ生成ツールは、例えば、ユーザにより操作される再生機器30の制御部300により実行され、各種の画面がディスプレイ331に表示される。
 ユーザシナリオ生成ツールを起動すると、図21のシナリオ選択・再生画面が表示される。このシナリオ選択・再生画面は、地図・シナリオ表示領域411、シナリオリスト412、及び新規シナリオ作成ボタン413を含む。
 シナリオは、地図・シナリオ表示領域411において地図上の位置を表すピン411Aに名前が表記されるか、あるいはシナリオリスト412において名前順や現在地からの距離が短い順などの所定の順序でリストとして表示される。
 また、新規のユーザシナリオを作成する場合には、新規シナリオ作成ボタン413をタップ操作すればよい。また、シナリオ選択・再生画面では、検索キーワード入力欄414に入力された所望のキーワードを検索条件とした検索処理を行い、その検索結果に応じたシナリオを提示してもよい。
 ユーザは、所望の領域に対応した地図上のピン411Aや、シナリオリスト412のシナリオ表示バナー412Aをタップ操作することで、所望のシナリオを選択できる。
 この例では、シナリオリスト412に表示されたシナリオ表示バナー412Aのうち、シナリオ#1が再生中とされ、シナリオ#2及びシナリオ#3が停止中とされる。なお、この例では、3つのシナリオ表示バナー412Aのみを表示しているが、画面をフリック操作してスクロールさせるなどにより他のシナリオが表示される場合も有り得る。
 このとき、地図・シナリオ表示領域411において、複数のピン411Aのうち、ピン411Bに注目すれば、ピン411Bが選択状態となっているため、「シナリオ#1」であるピン411Bに応じたシナリオ名が吹き出し状に表示される。そして、ピン411Bに応じたシナリオ#1が選択された状態で、編集ボタン412Bがタップ操作された場合、シナリオ編集画面として、図22の発動条件設定画面が表示される。
 図22の発動条件設定画面は、地図・ジオフェンス表示領域421、上書き保存ボタン422、新規保存ボタン423、削除ボタン424、及び戻るボタン425を含む。
 地図・ジオフェンス表示領域421には、所望の地域の地図上に、ジオフェンス領域421A乃至421Eが表示される。ジオフェンス領域421A乃至421Eの形状としては、円形や多角形などの様々な形状を設定可能である。
 地図・ジオフェンス表示領域421において、発動条件(発動範囲)に付与されたコンテキスト情報は、各ジオフェンス内にテキスト等で表示されるか、所望のジオフェンスをタップ操作したときに吹き出し状に表示される。この表示をもとに、ユーザは、各コンテンツ要素の発動範囲に紐付くコンテキスト情報を確認することができる。
 ジオフェンスは、画面上を移動させることができる。ここでは、ジオフェンス領域421A乃至421Eのうち、模様が付されたジオフェンス領域421Cに注目すれば、選択状態になっているため、「ジオフェンス#1」であるジオフェンス領域421Cに応じたジオフェンス名が吹き出し状に表示される。
 ここでは、ユーザが指400を使って、当該ジオフェンス領域421Cを選択した状態で、右斜め下の方向(図中の矢印の方向)に動かしてその位置を移動させている。
 また、図示はしていないが、ジオフェンス領域421Cを選択した状態で、ピンチアウト操作又はピンチイン操作等を行うことでジオフェンス領域421Cの領域を拡大又は縮小したり、所定の操作に応じてジオフェンス領域421Cの形状を変形したりしてもよい。
 なお、この発動条件の設定内容をシナリオ#1として保存する場合には、上書き保存ボタン422をタップ操作する一方で、新規のシナリオとして保存する場合には、新規保存ボタン423をタップ操作すればよい。また、削除ボタン424は、シナリオ#1を削除する場合に操作される。戻るボタン425は、シナリオ選択・再生画面に戻る場合に操作される。
 また、ユーザが指400を使って、ジオフェンス領域421Cを長押し操作をした場合には、図23の発動条件詳細設定画面が表示される。
 図23の発動条件詳細設定画面は、ジオフェンス詳細設定領域431、保存ボタン432、及び戻るボタン433を含む。
 ジオフェンス詳細設定領域431は、ジオフェンス名入力欄431A、中心位置入力欄431B、半径入力欄431C、再生時間入力欄431D、天候入力欄431E、コンテンツ要素入力欄431F、再生範囲入力欄431G、音量入力欄431H、リピート再生入力欄431I、フェードイン・アウト入力欄431J、及び再生優先レベル入力欄431Kを含む。
 ジオフェンス名入力欄431A乃至再生優先レベル入力欄431Kは、図16のジオフェンス名入力欄281A乃至再生優先レベル入力欄281Kと対応しており、そこでデフォルト値として設定された値がそのまま表示されている。
 なお、保存ボタン432は、ジオフェンス#1の設定内容を保存する場合に操作される。また、戻るボタン433は、発動条件設定画面に戻る場合に操作される。
 ユーザは、このジオフェンス#1のデフォルト値の設定内容をそのまま用いてもよいし、あるいは、所望の設定内容に変更してもよい。例えば、コンテンツ要素入力欄431Fがタップ操作された場合、図24のコンテンツ要素選択画面が表示される。
 図24のコンテンツ要素選択画面は、コンテンツ要素表示領域441、選択ボタン442、及び戻るボタン443を含む。
 コンテンツ要素表示領域441には、各コンテンツ要素に応じたアイコン441A乃至441Fが3行2列でタイル状に配置されている。
 なお、選択ボタン442は、アイコン441A乃至441Fのうち、所望のアイコンを選択する場合に操作される。また、戻るボタン443は、発動条件詳細設定画面に戻る場合に操作される。
 ここでは、ユーザが指400を使って、アイコン441A乃至441Fのうち、アイコン441Aをタップ操作した場合、コンテンツ要素#1が再生される。
 また、ユーザが指400を使って、選択状態のアイコン441Aを長押し操作した場合、図25のコンテンツ要素編集画面が表示される。
 図25のコンテンツ要素編集画面は、コンテンツ再生部分表示領域451、コンテンツ再生操作領域452、曲変更ボタン453、及び戻るボタン454を含む。
 コンテンツ再生部分表示領域451は、楽曲としてのコンテンツ要素#1を編集するために、コンテンツ要素#1の楽曲の波形が表示され、スライダ451a,451bを左右にスライドさせることで、再生したい部分を指定することができる。
 この例では、コンテンツ要素#1の楽曲の波形のうち、スライダ451a,451bの外側の領域に応じたカット選択領域451B内の楽曲の波形が非再生対象の波形とされ、スライダ451a,451bの内側の領域に応じた再生選択領域451A内の楽曲の波形が再生対象の波形とされる。なお、シークバー451cは、再生中のコンテンツ要素#1の楽曲の再生位置を示している。
 コンテンツ再生操作領域452には、コンテンツ要素#1の楽曲を操作するためのボタンとして、再生ボタン、停止ボタン、スキップボタンなどが表示される。
 ユーザは、コンテンツ再生部分表示領域451内の楽曲の波形を確認しながら、コンテンツ再生操作領域452内のボタン及びスライダ451a,451b等を操作することで、コンテンツ要素#1の楽曲のうち、再生したい部分のみを切り出すことができる。
 なお、曲変更ボタン453は、編集対象の楽曲を変更する場合に操作される。また、戻るボタン454は、発動条件詳細設定画面に戻る場合に操作される。
 このように、ユーザは、スマートフォン等の再生機器30により実行されるユーザシナリオ生成ツールを操作して、所望のユーザシナリオを作成することができる。
 次に、図26乃至図29を参照して、パーソナルコンピュータ等の情報機器により実行されるユーザシナリオ生成ツールのユーザインターフェースについて説明する。
 ユーザシナリオ生成ツールを起動すると、図26のシナリオ選択画面が表示される。このシナリオ選択画面は、地図・シナリオ表示領域471、及びシナリオリスト472を含む。
 シナリオは、地図・シナリオ表示領域471において地図上の位置を表すピン471Aに名前が表記されるか、あるいは、シナリオリスト472においてシナリオ表示バナー472Aが所定の順序でリストとして表示される。
 ユーザは、所望の地図上のピン471Aや、シナリオリスト472のシナリオ表示バナー472Aをクリック操作することで、所望のシナリオを選択できる。
 なお、編集ボタン472Bをクリック操作した場合には、シナリオを編集するためのシナリオ編集画面が表示される。また、新規のシナリオを作成する場合には、新規シナリオ作成ボタン(不図示)が操作される。
 ユーザにより所望のシナリオが選択されると、図27の発動条件設定画面が表示される。この発動条件設定画面は、地図・ジオフェンス表示領域481、及びコンテキストリスト482を含む。
 地図・ジオフェンス表示領域481には、コンテンツ要素の発動範囲を示すジオフェンス領域481Aが表示される。ジオフェンス領域481Aは、あらかじめ設定された複数の円や多角形などの形状で表される。
 地図・ジオフェンス表示領域481において、発動条件(発動範囲)に付与されたコンテキスト情報は、ジオフェンス領域481A内にテキスト等で表示されるか、あるいは、所望のジオフェンス領域481Aをクリック操作したときに吹き出し状に表示される。
 ジオフェンス領域481Aは、画面上をドラッグ操作に応じて移動することができる。ここで、複数のジオフェンス領域481Aのうち、模様が付されたジオフェンス領域481Bに注目すれば、当該ジオフェンス領域481Bを、ドラッグ操作によって右斜め上の方向(図28の矢印の方向)に移動させて、図27に示した位置から、図28に示した位置に移動させることができる。
 また、ジオフェンス領域481Bの形状を示す太線上の白丸(〇)にカーソルを合わせて所望の方向にドラッグ操作をすることで、ジオフェンス領域481Bの形状を、所望の形状に変形することができる。
 このように、ユーザは、ジオフェンス領域481Bに表示されたコンテキスト情報をもとに、当該ジオフェンス領域481Bを移動又は変形することで、そのコンテキストが実生活空間のどの位置に当たるのかを自身で設定することができる。
 なお、別途リストの形式でコンテンツ要素を提示してもよい。さらに、利用しないコンテンツ要素を削除したり、別途入手したコンテンツ要素を現在編集中のシナリオに追加したりしてもよい。
 ここで、コンテキストリスト482において、ジオフェンス領域481Bに対応したコンテキスト表示バナー482Aの編集ボタン482Bがクリック操作されたり、ジオフェンス領域481Bに対する所定の操作がされたりすると、図29のジオフェンス編集画面が表示される。
 このジオフェンス編集画面は、ジオフェンス詳細設定領域491、選択ボタン492、更新ボタン493、削除ボタン494、及びキャンセルボタン495を含む。
 ジオフェンス詳細設定領域491は、ジオフェンス名入力欄491A、コンテンツ要素入力欄491B、リピート再生入力欄491C、フェードイン・アウト入力欄491D、再生範囲入力欄491E、及び音量入力欄491Fを含む。これらの設定項目は、図23のジオフェンス詳細設定領域431の設定項目に対応している。
 また、選択ボタン492をクリック操作した場合には、図16の選択ボタン282と同様に、コンテンツ要素選択画面を利用して、所望のコンテンツ要素を選択することができる。更新ボタン493は、ジオフェンス領域481Bの設定項目を更新する場合に操作される。削除ボタン494は、ジオフェンス領域481Bを削除する場合に操作される。キャンセルボタン495は、編集をキャンセルする際に操作される。
 このように、ユーザは、パーソナルコンピュータ等の情報機器により実行されるユーザシナリオ生成ツールを操作して、所望のユーザシナリオを作成することができる。
 なお、上述した説明では、ユーザシナリオ生成ツールとして、地図を用いたユーザインターフェースを例示したが、地図を用いない他のユーザインターフェースを利用してもよい。以下、地図を用いずに、発動条件を設定する手法を説明する。
 例えば、「駅前の広場のベンチ」など、地図上で表記されていない物体に対してその物体の周辺での発動を設定する場合には、スマートフォン等の再生機器30のカメラ部306で、目的のベンチを撮影することで設定を行うことができる。
 また、ユーザが身につけているウェアラブル機器のカメラで撮影しながら、例えば「ここを撮影して」や「このベンチで設定して」などの音声コマンドを発話して、目的のベンチを撮影することで設定することもできる。さらに、ユーザは、アイウェアなどのカメラを用いて自分の手も含めて撮影可能な場合に、ベンチを囲う形でハンドジェスチャを行い、ジェスチャを認識した時にその囲いの中の物体や景色を記録することで設定することができる。
 また、例えばユーザの生体状態や情動など、地図表現で設定不可能な発動条件の設定時にも、スマートフォン等の再生機器30上に、例えば「今の気持ち」ボタンを表示し、当該ボタンがタップ操作又はクリック操作された時点で、あるいはその前後一定時間でのデータや認識結果が記録されて発動条件として設定することもできる。なお、上述した場合と同様に、例えば、ユーザの音声やジェスチャコマンド等で入力することもできる。
 ここでは、複数のデータを簡便に設定するために、例えば「今の状況」ボタンを表示するか、又は音声コマンドや特定のジェスチャとしてあらかじめ設定しておき、当該ボタンに入力があった場合には、あらかじめ指定されていた位置や時間、天候、周辺物体、天候、生体データや情動などのデータが一括で取得されるようにしてもよい。
 これらの入力方法、特に画面を介しない入力方法を提供することによって、ユーザはサービスを体験しながら、あるいはサービス停止中に、日常生活の中で容易に入力を行うことができるようになる。
 このようにして、ユーザが画面を用いずに入力されたデータは、例えばデータ管理サーバ10に送信され、ユーザシナリオDB153に蓄積される。これにより、ユーザは、自身が所持する再生機器30で、ユーザシナリオ生成ツールの画面を表示することができる。そして、ユーザは、この画面に表示された発動条件と、「コンテンツ要素-コンテキスト情報」のデータセットとの紐付けを確認したり、再編集したりすることができる。
 以上の操作は、ユーザが提供されたシナリオ中のコンテンツ要素について発動条件のみを設定する操作であるが、利用条件に応じて、コンテンツ要素を構成する音声データや画像データ等のコンテンツの内容、又はコンテンツ要素に付与されたコンテキスト情報を、ユーザが変更可能な操作として許可するようにしてもよい。
 編集が終了したシナリオは、ユーザシナリオとして、ユーザシナリオDB153に蓄積される。なお、ユーザシナリオDB153に蓄積されたユーザシナリオは、ソーシャルネットワーキングサービス(SNS:Social Networking Service)などの共有手段を用いて他のユーザに開示することもできる。
 また、シナリオに含まれる複数の「コンテンツ要素-コンテキスト情報」のデータセットを、ユーザシナリオ生成ツール等の編集手段に表示し、ユーザが自身の生活空間の実際の位置や時間帯、環境や自身の動作や情動に対して紐づけを行うことで、例えば、以下のようなサービスに応用することができる。
 すなわち、1つのサービスの例としては、あるアニメ作品に登場する特定のキャラクタが様々なコンテキストで発するセリフで構成された複数の「コンテンツ要素-コンテキスト情報」のデータセットからなるシナリオを取得した場合を想定する。
 この場合において、例えば「自宅」、「駅」、「街路」、「交差点」、「カフェ」、「コンビニ」のように提示されるコンテキスト情報を参照しながら、ユーザシナリオ生成ツール等の編集手段によって、ユーザが実際に生活する「自宅」、「駅」、「街路」、「交差点」、「カフェ」、「コンビニ」の位置をユーザの主観によって発動条件として入力する。これにより、ユーザは、自身が生活する場所で、かつ、自身が想定するコンテキストを持つ場所(例えば交差点)において、所持する再生機器30によって、コンテキストに応じたコンテンツ要素の再生を受けることができる。
 図30は、ユーザシナリオの設定の例を示している。
 図30では、ユーザAとユーザBの2人のユーザが、配信されるシナリオに対して発動条件A,Bをそれぞれ設定して、それぞれが自己のユーザシナリオを作成している。
 このとき、同一のシナリオに対して発動条件を設定する際に、ユーザAは発動条件Aを設定し、ユーザBは発動条件Bを設定するため、ユーザごとに発動条件が異なっている。
 そのため、同一のシナリオを、ユーザごとに、異なる場所で実施することができる。つまり、1つのシナリオを、別々の場所に住むユーザが、それぞれ利用することができる。
 もう1つのサービスの例としては、ストリーミング配信サービスとの連携にかかるものである。
 例えば、従来の音楽ストリーミング配信サービスでは、制作者(クリエイタ)ごと、あるいは利用シーンごとなど、一定のテーマに基づき、既存の楽曲フォーマット(例えばシングル曲等)において複数の作品の音声データをひとまとめにしたプレイリストを制作して配信している。
 それに対して、本技術では、作品そのもの、あるいは作品の中で特定のコンテキストを表現している一部分を抜き出してコンテンツ要素とし、当該コンテンツ要素に対して楽曲を再生する状況(例えば夕暮れの駅)や状態(例えば疲れた帰り道)を表すコンテキスト情報を付与して、シナリオとしてまとめてシナリオDB152に蓄積して配信可能にする。
 ユーザは、再生機器30によって上記のシナリオを取得し、内包される複数の「コンテンツ要素-コンテキスト情報」のデータセットに対して、付与されたコンテキスト情報を参照しながら自分自身の生活圏における具体的な位置と時間帯に配置することでユーザシナリオを作成し、ユーザシナリオDB153へ登録することができる。
 ユーザは、ユーザシナリオの編集時に、作品そのものの中から再生したい一部分を、再生範囲として指定するかたちで、コンテンツ要素に指定することもできる。シナリオの中には、コンテンツ要素の再生時又はコンテンツ要素の再生の間に、再生する作品の説明を行う音声キャラクタとしてのコンテンツ要素(他のコンテンツ要素)を含むことができる。
 なお、この音声キャラクタは、シナリオと同一の経路は勿論、シナリオとは異なる経路で取得することも可能であり、例えば、複数の音声キャラクタの中から、ユーザが好むキャラクタに説明を行わせることができる。
 シナリオDB152には、制作者によってユーザへの提供を目的として様々なコンテンツ要素に対するコンテキスト情報の組み合わせが蓄積される。
 例えば、このコンテキスト情報を教師データとし、コンテンツ要素のメロディ構造を機械学習した認識器を用いた場合、あるコンテンツ要素のメロディ構造から想起されやすいコンテキストを制作者の主観的な傾向を反映したかたちで推定することができる。そして、この推定結果を用いて、コンテンツ要素へのコンテキスト情報の付与プロセスを自動化したり、一定の相関を持つ複数のコンテキストを提示することで制作者のコンテキスト情報の付与をサポートしたりすることができる。
 また、ユーザシナリオDB153には、ユーザによって自身の生活空間の位置や時間、環境、身体状態や情動等からなる発動条件に紐づけられた「コンテンツ要素-コンテキスト情報」のデータセットが順次蓄積されている。
 すなわち、ユーザシナリオDB153には、複数のユーザにより発動条件が設定された、多数の「コンテンツ要素-コンテキスト情報」のデータセットが蓄積されているため、この蓄積された情報を機械学習又は分析することで、プロセスの自動化を行うアルゴリズムや、認識器を作成することができる。
 また、例えば、ユーザシナリオDB153に蓄積された複数のユーザに関する情報から、ある特定の緯度・経度を持った実世界(実空間)の位置に付与されるコンテキスト情報の傾向を分析することができる。
 例えば、ある実在する駅の出口にある公園に「元気を出す」、あるいはそれに類似したコンテキストが設定される傾向があると分析された場合には、その分析結果を用いて、その公園で元気がでることを期待される食品や書籍を販売するというようなかたちで、別のサービスへのデータ活用をすることができる。
 また、例えば、ある場所からある時間帯に見える風景についてある作品のコンテンツ要素、例えば楽曲の一部のフレーズを歌詞に紐づけた特定のコンテキストが設定されている場合、楽曲の作曲者や作詞者へこの情報をフィードバックすることで、その後の作品の創作時における参考データとして活用することもできる。
(処理の全体像)
 次に、図31及び図32を参照して、第4の実施の形態における情報処理の全体像を説明する。
 図31及び図32に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)と再生機器30(の制御部300)が少なくとも連携することで実現される。すなわち、この情報処理は、制御部100及び制御部300のうち少なくとも一方の制御部により実行される。
 図31に示すように、情報処理システム1では、各コンテンツ要素にコンテキスト情報が付与され、1以上の「コンテンツ要素-コンテキスト情報」のデータセットが、シナリオとしてシナリオDB152に蓄積されている(S401)。
 このとき、情報処理システム1では、コンテンツ要素に付与された各コンテキスト情報に対して、ユーザをセンシングすることで得られるセンサデータに応じた発動条件が設定される(S402)。これにより、コンテキスト情報とユーザ固有の発動条件のデータセットからなるユーザシナリオが生成され(S403)、ユーザシナリオDB153に蓄積される(S404)。
 ここで、発動条件としては、撮影された画像データや特性操作データなどに応じた発動条件を設定することができる。ここで、画像データとしては、ユーザが視認していると想定される画像のデータを含む。また、特性操作データは、例えばユーザの現在の感情に応じた情報を登録するためのボタン(今の気持ちボタン)の操作のデータを含む。
 また、ユーザシナリオDB153に蓄積されるコンテキスト情報(「勇気をもらう」等)と発動条件(特定の駅の出口等)との関係を機械学習することにより(S411)、その機械学習の結果を出力することができる。
 より具体的には、機械学習の結果に応じて、特定の発動条件に対して、自動的にコンテキスト情報を生成可能である(S421)。例えば、センサデータに応じた場所が、勇気をもらえる場所であることが機械学習の結果により特定された場合には、コンテキスト情報として「勇気をもらう」が生成され、対象のコンテンツ要素に付与される。
 また、機械学習の結果に応じて、特定のコンテキスト情報に対して、自動的にユーザに対応した発動条件を生成可能である(S431)。例えば、勇気をもらえる場所が、ユーザの周辺であると、この場所であることが学習の結果により特定された場合には、「勇気をもらう」であるコンテキスト情報に対する発動条件として、当該場所に応じた位置情報が設定される。
 また、図32に示すように、情報処理システム1では、ユーザ固有の発動条件を設定するための地図を用いたユーザインターフェースとして、ユーザシナリオ生成ツールが提供される。なお、このユーザシナリオ生成ツールが、スマートフォン等の再生機器30、又はパーソナルコンピュータ等の情報機器により実行されるアプリケーションとして提供されるのは、先に述べた通りである。
 情報処理システム1では、コンテンツから抽出されたコンテンツ要素に付与された各コンテキスト情報に、発動条件が設定される(S401,S402)。
 ここでは、ユーザシナリオ生成ツールを利用することで、所望の地域の地図上に、コンテンツ要素とコンテキスト情報のデータセットを提示し(S441)、当該コンテキスト情報に対する発動条件として、所望の地域の地図上に所定領域を設定する(S442)ことが可能なインターフェースが提供される。
 以上、第4の実施の形態を説明した。
<5.第5の実施の形態>
 情報処理システム1においては、ユーザが所持又は装着する再生機器30、又は当該ユーザの周辺に配置された機器(デバイス)に実装されたセンシング手段によって、センサデータとして、ユーザの位置、身体状態や情動、動作、周辺環境における物体、構造物、建築物、製品、人、動物などの情報、及び現在時刻などのデータが逐次的に取得される。
 そして、これらのデータ、又はデータの組み合わせが、ユーザが設定した発動条件と一致するかどうかが判定手段により逐次判定される。
 ここで、発動条件とセンシング手段によるセンサデータとの一致が判定された場合には、発動条件に紐付けされた「コンテンツ要素-コンテキスト情報」のデータセットに含まれるコンテンツ要素が、あらかじめ指定された機器(例えば再生機器30)、又は複数の機器の組み合わせ(例えば再生機器30と周辺に配置された機器)から再生される。
 なお、ここでは、センシング手段によるセンサデータと、発動条件との比較により再生場所やタイミングが決定されるため、判定プロセスにはコンテキストのような主観的な要素や、主観的な要素を含むデータからなる機械学習による認識器を直接的に含まないため、システムとして再現性のある安定した動作が可能となる。
 一方で、発動条件と「コンテンツ要素-コンテキスト情報」のデータセットとの組み合わせをユーザが主体的に行なっているため、ユーザにとっては、適切な状況でのコンテンツ要素の提示であることが理解しやすい、というメリットもある。
 図33は、発動条件とセンシング手段の組み合わせの例を示している。
 時間的な発動条件としては、時刻や時間などを設定可能であり、時計やタイマなどを用いて測定して判定することが可能である。また、空間的な発動条件として、緯度や経度、特定位置への接近などの位置を設定可能であり、GPSやWi-Fi(登録商標)、無線ビーコンなどを用いて測定して判定することが可能である。
 また、ユーザIDなどの認証情報を発動条件として設定してもよく、Bluetooth(登録商標)等の近接通信などを用いて測定して判定することが可能である。さらに、立つ、座る、寝る等のユーザの姿勢や、電車、自転車、エスカレータ等のユーザの行動などを発動条件として設定してもよく、慣性センサやカメラ、近接通信などを用いて測定して判定することが可能である。
 また、椅子や机、木、建物や部屋、景色やシーンなどの周辺環境情報を発動条件として設定してもよく、カメラやRFタグ、無線ビーコン、超音波などを用いて測定して判定することが可能である。さらに、身体の姿勢や運動、呼吸数や脈拍、情動などの状態を発動条件として設定してもよく、慣性センサや生体センサなどを用いて測定して判定することが可能である。
 なお、図33の表に示した組み合わせの例は一例であり、発動条件とセンシング手段は、この表に示したものに限定されるものではない。
 以上、第5の実施の形態を説明した。
<6.第6の実施の形態>
 ところで、少なくとも1つ以上のシナリオに含まれる、2つ以上のコンテンツ要素に設定される発動条件が同一となる場合も想定される。例えば、発動条件が地図上の一定範囲で設定される複数のコンテンツ要素-コンテンツ情報のデータセットにおいて、2つ以上の発動範囲が同一の地図上の位置を含むように重複して設定される場合がある。
 具体的には、図34に示すように、地図651上において、円形の発動範囲として設定されたジオフェンス661と、その円の内部に円形の発動範囲として設定されたジオフェンス662A乃至662Eとが重畳している場合などである。
 このとき、再生機器30におけるコンテンツ要素の再生としては、例えば、あらかじめ設定されたルールに従い、同時にすべてのコンテンツ要素が再生される場合に、設定された優先順位に基づいて、一部のコンテンツ要素が再生されるときに、すべてのコンテンツ要素が再生されないことも想定される。
 ここでは、ユーザシナリオで発動条件が満たされた場合に参照される提示範囲設定用ユーザシナリオをあらかじめ用意しておくことで、適切にコンテンツ要素を再生することができる。
 具体的には、図35に示すように、TTS音声による文章の読み上げをコンテンツ要素とし、自宅等を含む全域の発動範囲を含む発動条件AにはキャラクタAによる発話(セリフ)を、自宅等の発動範囲を含む発動条件BにはキャラクタBによる発話(セリフ)を、提示範囲設定用ユーザシナリオに指定した場合を例示する。
 ただし、図35では、下層L1がユーザシナリオに相当し、上層L2が提示範囲設定用ユーザシナリオに相当する。また、下層L1において、楕円の領域は、ジオフェンスにより設定される発動範囲に相当する。
 このとき、キャラクタの活動範囲設定シナリオの発動条件を排他的とした場合、ユーザシナリオの発動条件C1が満たされたときの発話はキャラクタBが行い、発動条件C2が満たされた場合はキャラクタAが発話を行う。つまり、この場合においては、キャラクタが常に一人となる。
 一方で、キャラクタの活動範囲設定シナリオの発動条件を排他的としない場合、ユーザシナリオの発動条件C1が満たされたときの発話はキャラクタA又はBが行う。キャラクタA又はBのどちらが発話するかはランダムに決定してもよいし、あるいは特定のルールを設定してもよい。また、発動条件C2が満たされたときには、キャラクタAのみが発話を行う。つまり、この場合、ユーザが自宅にいるときは、キャラクタが2人となる。
 また、設定される優先順位を、センサデータに基づいて設定することができる。例えば、複数のコンテンツ要素が複数のキャラクタによる発話(セリフ)である場合に、ユーザの位置が複数のコンテンツ要素の発動条件が重なった位置となるときに、対応するコンテンツ要素がすべて再生可能な状態にあるときを想定する。
 このとき、図36に示すように、ユーザ600の位置と、ジオフェンス672A乃至672Cに応じたコンテンツ要素の発動範囲の特定の位置671A乃至671C(例えば円の中心)との相対位置関係と、ユーザ600の身体の正面の方向(例えば図中の右上方向)のセンサデータから、身体の正面に位置するジオフェンス672Aのコンテンツ要素のみが再生されるようにする。
 なお、このとき、ユーザ600が再生機器30に接続されたステレオイヤホンを装着している場合には、当該ユーザ600の位置と、ジオフェンス672A乃至672Cに応じたコンテンツ要素の発動範囲の特定の位置671A乃至671Cとの相対位置関係に応じて、再生される音源(例えばセリフ)の定位置を立体的に制御(音像定位)することができる。
 以上のような制御により、ユーザ600が向いた方向のキャラクタの発話の再生を得ることができるため、所望のキャラクタによる音源(例えばセリフ)の提示を、ユーザ600の身体や頭部などの向きに応じて選択することが可能になる。
 なお、図37に示すように、ジオフェンス672Aにおけるユーザ600の位置に応じて、キャラクタによる音源の音量を変化させてもよい。例えば、ユーザ600が特定の位置671Aに近づくほど音源の音量を上げる一方で、特定の位置671Aから離れるほど音源の音量を下げることができる。
 また、ユーザ600からの発話コマンドの受付けを発動条件に関連させることで、ユーザ600がある方向を向いて質問したときに、その方向に設定されたキャラクタがその位置に関連した情報を提示するような案内サービスを実現することができる。
 また、ここでも、提示範囲設定用ユーザシナリオが参照されてもよい。
 具体的には、図38に示すように、提示範囲設定用ユーザシナリオに、それぞれの発動条件C1乃至C4について、発動範囲を設定する情報とともに、音源設定位置P1乃至P4を指定する情報を持たせるようにする。ただし、音源設定位置P1乃至P4は、発動条件C1乃至C4を指定する発動範囲内の位置に限るものではない。
 図38においては、共通の発動条件領域CA(図中の斜線)を持つ4つの発動条件C1乃至C4を示しており、それぞれの発動条件C1乃至C4には音源設定位置P1乃至P4(図中の黒丸)が設定されている。
 このとき、ユーザシナリオで発動条件が満たされた場合、すなわち、共通の発動条件領域CAにユーザ600が侵入した場合、条件が満たされるすべての発動条件に対して、音源設定位置が探索される。
 ここでは、検索された音源設定位置P1乃至P4のうち、ユーザ600が所持する再生機器30のセンサ部305によって測定されたユーザの向き情報から計算された視野角領域VA内にある音源設定位置P2が特定される。そして、特定された音源設定位置P2を持つ発動条件C2に紐付いたコンテンツ要素が再生される。
 なお、上述した制御は、2つ以上の発動範囲が同一の地図上の位置を含むように重複して設定された場合の制御の一例であり、他の制御が行われてもよい。例えば、同時にすべてのコンテンツ要素が再生される場合に、1つのコンテンツ要素を背景音とし、他のコンテンツ要素を複数のセリフとする制御を行うことで、ユーザが発動範囲内を移動するにしたがって、同一のBGMの中で複数のセリフが再生されるような表現を提示することができる。
(複数キャラクタ配置)
 また、上述した制御は、音声(音)の提示に限るものではなく、拡張現実(AR)に対応した眼鏡型の機器等の表示装置を通じたキャラクタの画像提示についても同様に制御することができる。そこで、次に、図39乃至図45を参照して、シナリオに対して複数のキャラクタの配置を設定可能にする場合について説明する。
 図39は、複数キャラクタの配置を設定可能にする場合における情報処理システム1の構成の例を示している。
 図39においては、図2の情報処理システム1を構成する装置のうち、データ管理サーバ10と再生機器30を図示している。ただし、データ管理サーバ10により実行される処理のうち、一部の処理が、編集機器20又は再生機器30等の他の機器により実行されてもよい。
 再生機器30において、制御部300は、ユーザ位置検出部341、ユーザ方向検出部342、音声認識意図理解部343、及びコンテンツ再生部344を含む。
 ユーザ位置検出部341は、GPSに関する情報等に基づいて、ユーザの位置を検出する。
 ユーザ方向検出部342は、センサ部305(図5)からのセンサデータに基づいて、ユーザの向いている方向を検出する。
 音声認識意図理解部343は、ユーザの発話の音声データに基づいて、音声認識・意図理解処理を行い、ユーザの発話の意図を理解する。
 なお、この音声認識・意図理解処理は、制御部300に限らず、その一部又は全部の処理を、インターネット40上のサーバが行ってもよい。また、ユーザの発話の音声データは、マイクロフォンにより収音される。
 ユーザ位置検出部341、ユーザ方向検出部342、及び音声認識意図理解部343により処理された送信データは、通信部304(図5)によって、インターネット40を介してデータ管理サーバ10に送信される。また、通信部304は、インターネット40を介してデータ管理サーバ10から送信されてくる応答データを受信する。
 コンテンツ再生部344は、受信した応答データに基づいて、コンテンツ要素を再生する。このコンテンツ要素の再生に際しては、キャラクタによる発話(セリフ)をスピーカ332から出力するだけでなく、当該キャラクタの映像をディスプレイ331に表示することができる。
 データ管理サーバ10において、制御部100は、指示キャラクタ選択部131、シナリオ処理部132、及び応答生成部133をさらに含む。また、記憶部103(図3)は、キャラクタ配置DB161、位置依存情報DB162、及びシナリオDB163をさらに記憶している。
 通信部104(図3)は、再生機器30から送信されてくる送信データを受信する。指示キャラクタ選択部131は、受信した送信データに基づいて、キャラクタ配置DB161を参照することで指示キャラクタを選択し、その選択結果をシナリオ処理部132に供給する。
 図40に示すように、キャラクタ配置DB161には、キャラクタごとに、任意の系とその系に応じた配置の場所が設定されている。
 シナリオ処理部132は、指示キャラクタ選択部131からの選択結果に基づいて、位置依存情報DB162及びシナリオDB163を参照することでシナリオを処理し、その処理結果を、応答生成部133に供給する。
 図41に示すように、位置依存情報DB162には、ユニークな値となる情報IDごとに、そのタイプ情報と、緯度・経度等の位置情報と、タイプ情報と位置情報に紐付けられた内容に関する情報が設定されている。
 また、図42に示すように、シナリオDB163には、ユニークな値となるシナリオIDごとに、そのタイプ情報と、タイプ情報に紐付けられた内容に関する情報が設定されている。
 すなわち、キャラクタ配置DB161、位置依存情報DB162、及びシナリオDB163に格納された情報のうち、キャラクタや内容に関する情報がコンテンツ要素、系やタイプ情報等がコンテキスト情報、位置情報が発動条件に対応しているとも言える。
 応答生成部133は、シナリオ処理部132からの処理結果に基づいて、応答データを生成する。この応答データは、通信部104(図3)によって、インターネット40を介して再生機器30に送信される。
 以上のように構成される情報処理システム1では、シナリオに、ユーザが所望の音声キャラクタを複数設定可能であり、音声再生のトリガを示す発動条件に対し、ユーザの位置と向いている方向を検出し、その検出結果に応じて音声キャラクタを切り替えることができる。
 ここで、現状では、音声キャラクタのサービスを提供するに際し、複数の音声キャラクタを扱う場合に、キャラクタ間での役割分担が難しかったため、図43に示すように、音声キャラクタ700A乃至700Cごとに毎回指示をする必要があり、手間であった。
 一方で、情報処理システム1では、音声キャラクタのサービスを提供するに際して、ユーザの位置と方向を検出してその検出結果に応じて音声キャラクタを切り替えることが可能となるため、役割分担された音声キャラクタに所望の動作を指示することが可能となる。よって、複数の音声キャラクタに対する指示が容易になる。
 具体的には、図44に示すように、ユーザ900は、仮想空間内のキャラクタ700A乃至700Cにまとめて指示を与えるだけで、キャラクタ700A乃至700Cのそれぞれは自身に与えられた指示に従った動作を行うことになる。
 また、図45に示すように、ユーザ600は仮想空間内のキャラクタ700Cが存在する方向に向かって音声で質問をするだけで、キャラクタ700Cから質問の回答が得られる。つまり、キャラクタ700Cは、配置された位置の周囲の情報を識別可能になり、いわば、ユーザは、キャラクタ700Cの存在により、周囲の情報へのアクセス権を得ることができる。
 なお、例えば、音声キャラクタ同士が会話するようなユーザシナリオも実現可能であり、排他処理によって、会話が被らないような処理を加えてもよい。さらに、ユーザシナリオに含まれる発動条件が示す発動範囲の周辺の環境情報を取得し、その発動範囲に指定された音声キャラクタによって、ユーザに音声を提供してもよい。
 このように、情報処理システム1では、複数キャラクタの配置を設定可能にした場合に、ユーザが明示的に空間上のキャラクタの位置を指定するに際して、ユーザ座標系におけるキャラクタの位置を指定したり、世界座標系におけるキャラクタの位置を指定したり(緯度経度又はランドマークの指定等)、キャラクタを表示可能な再生機器30等の機器内に当該キャラクタの位置を指定したりすることができる。
 例えば、ユーザ座標系のキャラクタの配置によって、音だけの空間内でもキャラクタへの指示を方向として、指示の対象となるキャラクタを明確化することができる。また、例えば、ユーザによって世界座標系での指示を与えることで、各キャラクタの役割分担を容易に行うことができる。
(処理の全体像)
 次に、図46を参照して、第6の実施の形態における情報処理の全体像を説明する。
 図46に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)と再生機器30(の制御部300)が少なくとも連携することで実現される。
 図46に示すように、情報処理システム1では、リアルタイムのセンシングによるセンサデータが取得される(S601)。このセンサデータから得られる情報が、ユーザシナリオDB153に蓄積されたユーザシナリオの発動条件を満たすかどうかが判定される(S602)。
 ステップS602の判定処理で、発動条件を満たすと判定された場合には、さらに、発動条件を満たす条件が1つのみであるかどうかが判定される(S603)。
 ステップS603の判定処理で条件が1つのみであると判定された場合には、発動条件を満たすコンテキスト情報に対応したコンテンツ要素が提示される(S604)。
 また、ステップS603の判定処理で条件が複数あると判定された場合には、提示するコンテンツ要素の順序を決定するルールが参照され(S605)、そのルールに従い、該当する発動条件を満たすコンテキスト情報に対応したコンテンツ要素が提示される(S604)。
 このルールとしては、センサデータにより推定されるユーザの向きに応じて、複数のコンテンツ要素から、提示するコンテンツ要素の順序を決定することができる(S611,S605)。
 また、図38に示したように、センサデータにより推定されるユーザの向きに応じて、特定の向きのコンテンツ要素のみが提示されてもよい(S621)。さらに、図35に示したように、センサデータにより推定されるユーザの位置に応じて、特定の位置に設定したコンテンツ要素のみが提示されてもよい(S631)。
 例えば、ユーザの向きが第1の方向のときには、第1のキャラクタに対応するコンテンツ要素を特定して、ユーザに提示し、ユーザの向きが第2の方向のときには、第2のキャラクタに対応するコンテンツ要素を特定し、ユーザに提示することができる。
 以上、第6の実施の形態を説明した。
<7.第7の実施の形態>
 コンテンツ要素の再生機器30は、単一の機器である場合と、複数の機器が連動して動作する場合がある。
 再生機器30が単一の機器である場合としては、例えば、屋外でユーザが装着したステレオイヤホンから音声が再生される場合が想定される。
 このとき、ユーザの周辺の環境音をコンテンツ要素に重畳して同時に提示できると、提供するコンテンツ要素とユーザの周辺の実世界との整合感や融合感をより高めることができる。ユーザの周辺の環境音を提供する手段としては、例えば、直接周辺音を耳に伝搬できる解放型のイヤホンや、閉鎖型であるがマイクロフォンなどの集音機能により取得した環境音を音声データとして重畳する方法などがある。
 また、歩行などユーザの移動に伴う接近・離脱感覚に整合性を持たせるため、コンテンツ要素の再生開始や停止時にそれぞれ音量を徐々に上げる、下げる効果(フェードイン、フェードアウト)を提示することができる。
 一方で、再生機器30を含む複数の機器が連携してコンテンツ要素を提示する場合としては、例えば、屋内施設に配置された複数の機器で少なくとも1つのコンテンツ要素を再生する場合が想定される。
 このとき、1つのコンテンツ要素に1つの機器が割り当てられる場合と、1つコンテンツ要素に複数の機器が割り当てられる場合がある。
 例えば、ユーザの周辺に3つのスピーカが配置され、1つはキャラクタのセリフ、もう1つはカフェのざわめき、残りの1つは背景音楽に割り当てて再生することで、立体的な音響環境の提示をすることができる。
 上述した第6の実施の形態における音声キャラクタ(図45等)のセリフを、ユーザが装着したイヤホン等から再生することもできる。このとき、イヤホンが開放型であれば、ユーザの周辺の他のスピーカからの音も同時に聞くことができるため、連携したコンテンツ要素の提示ができる。
 また、音声キャラクタの音声を、特定の位置に音像定位させ、その位置に対応する周辺のディスプレイに、その音声キャラクタの外観を提示してもよい。この外観提示サービスは、有料のサービスとして提供してもよい。
 あるいは、キャラクタAのセリフが、3つのスピーカのうち、最も近い位置に設置されたスピーカを検知することで再生され、ユーザの移動に応じて最近接の1つのスピーカから再生されるように追従させることができる。
 このような動作を可能とするため、機器が自己位置とユーザの位置又は他の機器との位置を把握する手段を有する。この手段の一例としては、屋内に設置された各画素にLED(Light Emitting Diode)の点滅符合を通信できる機能を有するカメラを設置し、各再生機器に少なくとも1つ以上のLEDでの符号化発光送信機能を持たせることで、各機器のIDと想定的な配置状況を同時に取得することができる。
 また、再生機器30が再生することのできる機能について、機器機能情報としてあらかじめ機器機能情報DB等の専用のデータベース、又はシナリオDB152などに登録しておく。ここで、機器機能とは、1つのIDを持つ機器が実現できる再生機能を記述するもので、スピーカの「音声再生」のように1つの機器に1つの機能が割り当てられているものと、テレビ受像機の「画像表示」及び「音声再生」、電球型スピーカの「照度調整」及び「音声再生」のように1つの機器に複数の機能が割り当てられているものがある。
 この機器機能情報を用いることで、ユーザの近接にある再生機器が特定できるだけでなく、テレビ受像機を例えば「音声再生」のみの機器として利用することができるようになる。これを実現するため、テレビ受像機のような1つの機器で複数の機能を有する機器については、従来の機器内部としての機能結合を解除し、各機能を外部の連携信号に基づいて個別に独立に機能させるような仕組みを持つようにする。
(処理の全体像)
 次に、図47を参照して、第7の実施の形態における情報処理の全体像を説明する。
 図47に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)と再生機器30(の制御部300)を含む複数の機器が少なくとも連携することで実現される。
 図47に示すように、情報処理システム1では、リアルタイムのセンシングによるセンサデータが取得され(S701)、このセンサデータから得られる情報が、ユーザシナリオの発動条件を満たすかどうかが判定される(S702)。
 ステップS702の判定処理で、発動条件を満たすと判定された場合、処理は、ステップS703に進められる。そして、情報処理システム1では、コンテンツ要素を提示可能な機器が探索され(S703)、その探索結果に応じて少なくとも1つ以上の機器が制御される(S704)。
 これにより、制御対象の1以上の機器から、発動条件を満たすコンテキスト情報に対応したコンテンツ要素が提示される(S705)。
 また、このコンテンツ要素の提示に際しては、ユーザが装着したヘッドホン(当該ユーザの耳に装着された電気音響変換機器)から、コンテンツ要素のうちのエージェントの音声を出力する(S711)とともに、ディスプレイに当該エージェントの外観を表示する(S712)ことができる。
 このように、1又は複数の機器で、1又は複数の出力モーダルによって、コンテンツ要素を提示することができる。
 以上、第7の実施の形態を説明した。
<8.第8の実施の形態>
 ユーザが現在利用しているシナリオ(ユーザシナリオ)や「コンテンツ要素-コンテキスト情報」のデータセットの内容を外部のサービス提供者に共有することにより、シナリオを構成するコンテンツやコンテキストを利用したサービスを協調して提供することができる。
 その一例として、ここでは、飲食店とのコンテンツ要素の共有によるサービス協調の例を挙げる。
 あるアニメのコンテンツ要素とコンテキスト情報から構成されるシナリオを利用しているユーザが、現在そのシナリオを利用中である場合、飲食店にはシナリオの内容と利用中であるという情報が提供される。
 この飲食店では、アニメに関連するオムライス等のメニューがあらかじめ準備されており、シナリオを利用中のユーザが飲食店の中で開く電子メニューに対してそのメニューが表示されるといった場面が想定される。
 また、他の例として、英会話塾とのコンテキスト共有によるサービスの例を挙げる。
 これまでの例のように、英会話塾の保有する英会話スキットの音声データをコンテンツ要素とし、その会話がなされる状況をコンテキストとして設定したシナリオを作成してユーザへ提供することもできる。
 さらにここでは、上記のアニメの「コンテンツ要素-コンテキスト情報」のデータセットを利用する際にユーザが設定したコンテキスト情報のみを共有し、そのコンテキストに応じた英会話スキットを提供することで、より低コストでのサービス提供が可能となる。さらに、そのスキットの読み上げをアニメのキャラクタで行うなど、相互にユーザの接点を広げるかたちでのサービス設計を行うことができる。
 同様にして、音楽ストリーミング配信サービスと、飲食店や英会話塾等との連携も設定することができる。
 上述したように、配信されている楽曲やその一部をコンテンツ要素としたシナリオを利用中のユーザが飲食店に入ると、その世界観に合致したドリンクが提供される。また、歌詞を含まない楽曲のコンテキストにあった英会話のスキットを同時に提供する。さらに、楽曲と英会話を組み合わせたシナリオを新たに作成して提供したり、楽曲間の説明や新曲の紹介などをユーザが利用しているアニメのキャラクタで行ったりすることもできる。
 また、他のサービスが作成したシナリオで設定されたユーザの日常生活空間におけるコンテキスト情報の分布状況を取得し、コンテキストに応じた音楽をコンテンツ要素として自動的に提供してもよい。
 この機能により、ユーザは自己の設定したコンテキスト情報を持つ場所において、例えば日替わりでそのコンテキストに適合した楽曲又は楽曲の一部の提供を受けることができるため、毎日同じ曲を聴いて飽きるという状況を避けることができる。
 さらに、ユーザからの「いいね」などのフィードバックを得ることで、コンテキスト情報とコンテンツ要素の適合度についての情報を恒常的に取得して機械学習を行うことで、精度を向上することができる。
(処理の全体像)
 次に、図48を参照して、第8の実施の形態における情報処理の全体像を説明する。
 図48に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)及び再生機器30(の制御部300)とともに、外部のサービスにより提供されるサーバ等が少なくとも連携することで実現される。
 図48に示すように、情報処理システム1では、複数のメディアからなるコンテンツから、少なくとも1つ以上のコンテンツ要素が抽出され(S801)、各コンテンツ要素にコンテキスト情報が付与され、コンテンツ要素-コンテキスト情報DB151に蓄積される(S802)。
 そして、1以上の「コンテンツ要素-コンテキスト情報」のデータセットは、シナリオとしてシナリオDB152に蓄積される(S803)。また、ユーザシナリオが生成された場合には、ユーザシナリオDB153に蓄積される(S804)。
 このようにして蓄積された「コンテンツ要素-コンテキスト情報」のデータセット、シナリオ、又はユーザシナリオは、外部のサービスに提供可能である(S805)。これにより、音楽ストリーミング配信サービス等の外部のサービスの事業者は、自己の提供するサービスを、シナリオやユーザシナリオ等にマッチしたものに制御可能となる(S811)。
 また、情報処理システム1では、リアルタイムのセンシングによるセンサデータが取得され(S821)、このセンサデータから得られる情報が、ユーザシナリオの発動条件を満たすかどうかが判定される(S822)。
 ステップS822の判定処理で、発動条件を満たすと判定された場合、発動条件を満たすコンテキスト情報に対応したコンテンツ要素が提示される(S823)。
 このとき、シナリオやユーザシナリオ等を外部のサービスに提供している場合、当該シナリオやユーザシナリオ等に対応付けられたコンテンツ要素に適したサービス要素が選択され(S831)、当該サービス要素がコンテンツ要素と同時に提示される(S832)。
 例えば、音楽ストリーミング配信サービスでは、ユーザシナリオに対応付けられるコンテンツ要素(楽曲)に対応する音声キャラクタを選択し(S841)、当該サービスで楽曲を紹介するDJとして紹介情報を提示する(S842)ことができる。
 以上、第8の実施の形態を説明した。
<9.第9の実施の形態>
 ユーザが作成したシナリオ(ユーザシナリオ)は、共有手段を用いてユーザ間で共有することができる。
 ここでは、共有手段としてソーシャルネットワーキングサービス(SNS)等のソーシャルメディアを利用し、ユーザが作成したシナリオ(ユーザシナリオ)を、例えばSNSアカウントごとに公開して、コンテンツ要素の類似度や、コンテキストの類似度、発動条件設定の類似度などに応じて検索・分類が可能である。
 ここで、発動条件の設定の類似度に関しては、共有手段として地図アプリケーションを利用し、ユーザの現在位置を発動条件として含むシナリオを特定して提示することでユーザが新しいシナリオを発見できるようにしてもよい。
 シナリオのコンテンツ要素のもととなる作品や作者の情報、コンテンツ要素の抽出やコンテキストを付与した作者の情報、発動条件を設定したユーザの情報をシナリオと紐づけて得ることができ、シナリオを入手したユーザは、好みの作者やユーザをフォローすることができる。
(処理の全体像)
 次に、図49を参照して、第9の実施の形態における情報処理の全体像を説明する。
 図49に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)及び再生機器30(の制御部300)とともに、ソーシャルメディアにより提供されるサーバ等が少なくとも連携することで実現される。
 図49に示すように、情報処理システム1では、複数のメディアからなるコンテンツから、少なくとも1つ以上のコンテンツ要素が抽出され(S901)、各コンテンツ要素にコンテキスト情報が付与される(S902)。
 そして、1以上の「コンテンツ要素-コンテキスト情報」のデータセットは、シナリオとしてシナリオDB152に蓄積される(S903)。また、ユーザシナリオが生成された場合には、ユーザシナリオDB153に蓄積される(S904)。
 このようにして蓄積されたシナリオやユーザシナリオは、インターネット40上のソーシャルメディアのサーバへアップロード可能である(S905)。これにより、他のユーザは、ソーシャルメディアで公開されたシナリオやユーザシナリオを閲覧可能である(S906)。なお、ユーザは、入手したシナリオに関して好みの作者やユーザ等をフォローすることができる。
 ステップS911乃至S913においては、リアルタイムのセンシングによるセンサデータが、ユーザシナリオの発動条件を満たす場合に、当該発動条件を満たすコンテキスト情報に対応したコンテンツ要素が提示される。
 以上、第9の実施の形態を説明した。
<10.第10の実施の形態>
 上述した実施の形態では、主に音声データと映像データを中心に説明したが、コンテンツ要素を構成するデータは音声や映像に限られるものではなく、例えば、ARグラスなどを用いて動画を再生したり、振動デバイスを持つ靴を利用して地面の触覚を提示したりするなど、画像や触覚、匂い、など、提示可能な機器を有するフォーマット及びデータを含むものとする。
(処理の全体像)
 次に、図50を参照して、第10の実施の形態における情報処理の全体像を説明する。
 図50に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)により実行される。
 図50に示すように、情報処理システム1では、複数のメディアからなるコンテンツから、少なくとも1つ以上のコンテンツ要素が抽出される(S1001)が、この複数のメディアとしては、再生機器30により提示可能な触覚データ及び匂いデータの少なくとも一方のデータを含めることができる。
 以上、第10の実施の形態を説明した。
<11.第11の実施の形態>
 ところで、提示されたコンテンツ要素がユーザに適合しない場合も想定されるため、ユーザからのフィードバックに応じてユーザシナリオを別のものに切り替える制御を行ってもよい。これにより、ユーザは、確実に、自己に適合したコンテンツ要素の提示を受けることができる。
(処理の全体像)
 図51を参照して、第11の実施の形態における情報処理の全体像を説明する。
 図51に示した情報処理は、情報処理システム1におけるデータ管理サーバ10(の制御部100)と再生機器30(の制御部300)が少なくとも連携することで実現される。
 図51に示すように、情報処理システム1では、複数のメディアからなるコンテンツから、少なくとも1つ以上のコンテンツ要素が抽出され(S1101)、各コンテンツ要素にコンテキスト情報が付与される(S1102)。
 1以上の「コンテンツ要素-コンテキスト情報」のデータセットは、シナリオとしてシナリオDB152に蓄積される。そして、シナリオDB152に蓄積されたシナリオに対し、発動条件が設定されることで、ユーザシナリオが生成される(S1103)。
 また、情報処理システム1では、リアルタイムのセンシングによるセンサデータが取得され(S1104)、このセンサデータから得られる情報が、ユーザシナリオの発動条件を満たすかどうかが判定される(S1105)。
 ステップSS1105の判定処理で、発動条件を満たすと判定された場合、発動条件を満たすコンテキスト情報に対応したコンテンツ要素が提示される(S1106)。
 その後、ユーザからのフィードバックが入力された場合(S1107)、当該フィードバックに応じてユーザシナリオを変更する(S1108)。これにより、ユーザシナリオを別のものに切り替えた状態で、上述したステップS1104乃至S1106が繰り返され、よりユーザに適合したコンテンツ要素を提示することができる。
 また、ユーザから入力されたフィードバックを分析することで、コンテンツ要素に対するユーザの嗜好を推定し(S1111)、当該ユーザの嗜好に応じてユーザシナリオを推薦する(S1121)。これにより、推薦されたユーザシナリオに切り替えた状態で、上述したステップS1104乃至S1106が繰り返され、よりユーザの嗜好に適したコンテンツ要素(例えば好みの音声キャラクタ)を提示することができる。
 なお、ここでは、ユーザシナリオを推薦する代わりに、コンテンツ要素自体を推薦して、推薦されたコンテンツ要素が提示されるようにしてもよい。
 以上、第11の実施の形態を説明した。
<12.変形例>
 上述した説明では、情報処理システム1が、データ管理サーバ10、編集機器20、及び再生機器30-1乃至30-Nから構成される場合を説明したが、例えば、他の機器を追加するなど、他の構成を用いてもよい。
 具体的には、1つの情報処理装置としてのデータ管理サーバ10を、専用のデータベースサーバと、シナリオやコンテンツ要素等の配信用の配信サーバなどに分けて、複数の情報処理装置として構成してもよい。同様に、編集機器20又は再生機器30についても、1つの情報処理装置として構成されるだけでなく、複数の情報処理装置として構成されてもよい。
 また、情報処理システム1において、データ管理サーバ10、編集機器20、及び再生機器30の各装置を構成する構成要素(制御部)が、どの装置に含まれるかは任意である。例えば、エッジコンピューティングの技術を用いて、上述したデータ管理サーバ10による情報処理の一部の処理を、再生機器30が実行したり、再生機器30に近いネットワーク(ネットワークの周縁部)に接続されたエッジサーバが実行したりしてもよい。
 すなわち、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、各構成要素の通信形態も任意である。換言すれば、各構成要素は、インターネット40を介して接続されてもよく、ローカルネット(LAN(Local Area Network)又はWAN(Wide Area Network))を介して接続されてもよい。さらに、各構成要素は、有線で接続されてもよく、無線で接続されてもよい。
 なお、従来の技術では、主に、ユーザによる情報検索作業や機器操作を自動化することで利用の簡便性を実現することを目的としている。この種の自動化は、システムが定義したコンテキスト分類と、ユーザの行動や状態のセンシングにより類推されるコンテキストとが一致するかどうかを判定するのが一般的である。
 このようなシステムは、下記の(a)乃至(d)に示すような要素で構成されており、ユーザの行動、操作、身体状態のセンシングの結果から、システムが定義したコンテキストを特定することを特徴としている。
(a)ユーザの行動のセンシングデータからコンテキストを直接分析・認識する
(b)ユーザのアクセスしたコンテンツを認識し、当該コンテンツの属性データや内容の分析からコンテキストを認識する
(c)コンテキストとコンテンツの組み合わせのデータベースを持つ
(d)センシングデータとコンテキストを関連づけるデータベースを前提とする
 しかしながら、従来の技術であると、ユーザの行動目的がサービス内で固定されており、作業や操作が一定のルールに基づいている場合には、ユーザのコンテキストをシステム側で定義できるため、ユーザもシステムが定義したコンテキストに同意し易くなる。
 一方で、コンテンツを、ユーザの日常生活へ適応的に分散して連携させながら提示する場合には、ユーザのコンテキストは多岐にわたり、かつ、それぞれ固有の環境が動的に変化するため、システム側で定義したコンテキストをユーザが受容することが困難になる。
 ここで、ユーザが感じるコンテキストへの一致感は、主観的かつ発展的なものであり、これをシステム側で定義したコンテキスト定義に関する事後データの客観的かつ統計的な処理で、予測して適合させることは極めて困難である。仮に、それを可能にするには、膨大なデータの蓄積が必要であり、サービス開始前の投資は非現実的な規模となる。
 また、従来の技術で提示されるコンテンツは、従来のサービスで用いられてきた提供フォーマットを変化させることなく、ユーザに提示される。例えば、コンテキストを認識して選定され、提供されるデータや楽曲は、サービスに対して配信される形態を変化させることなく、そのままの形態でユーザに提示される。
 しかしながら、ユーザの日常生活への提示に際しては、上述した提供フォーマットが、従来の視聴行動を前提に設計されているため、日常生活の自由で多様なユーザ行動を阻害する要因になり得る。例えば、映画や音楽等のコンテンツは、観客として画面やスピーカの前に座って視聴することが要求されるフォーマットであり、従来の視聴行動を前提に設計してしまうと、ユーザ行動を阻害する恐れがある。
 さらに、従来の機器では、やはり従来の視聴行動を前提に設計されているため、個別の機器が個別のサービスを提供するように最適化されており、これらの従来の機器が、一部の機能を融通し合いながら連携してユーザの日常行動に適応する仕組みを持たないことが多いのが現状である。
 例えば、スマートフォン等の携帯機器は、携帯性を追求することにより、ユーザの日常行動に携帯性をもって適応させているが、画面を中心とした視聴行動の前提は従来のままである。そのため、例えば、一般道や公共施設における歩行に関しては、視覚と聴覚を奪う特性から、いわゆる「スマホ歩き」として危険とされている。
 なお、上述した特許文献1には、ユーザが視認しているランドマークを推定し、その情報を用いてユーザの進行方向を示すナビサービスを提供する装置が開示されているが、本技術のような、コンテキストに対して、ユーザごとの発動条件を設定可能な点については、開示も示唆もされていない。
 また、特許文献2には、コンテンツアイテムから、コンテキスト情報とコンテンツ情報を抽出してインデックス生成し、ユーザのコンテキストと、ユーザのクエリの内容に基づき、応答して推奨を生成するシステムが開示されている。しかしながら、特許文献2で、コンテキスト情報としては、検索、最近アクセスされた文書や、動作中のアプリケーション、アクティビティの時間であり、ユーザの物理的位置は含まれていない(段落[0011]参照)。
 さらに、特許文献3には、コンテンツに複数のオブジェクト(音声含む)として複数の人物の顔が含まれるとき、コンテキスト情報として定義されている2人だけの顔を規定サイズまで拡大する、という編集を自動的に行う処理装置が開示されているが、本技術のような、コンテンツに基づき、コンテキストと音声を対応付けて記録してそれを再利用することについては、開示も示唆もされていない。
 また、特許文献4には、コンテンツの放送予定、放送履歴情報に基づき、コンテンツの視聴に適する視聴者のコンテキスト(時間帯、曜日等)と、コンテンツの特徴量との対応関係を予め学習して、「コンテキスト-コンテンツの特徴量」の対応表を生成しておくことにより、新たなコンテンツに対して、その視聴に適するコンテキストを示す情報を生成し、メタデータとして付与することが開示されている。しかしながら、特許文献4には、既存のコンテンツから、コンテンツを切り出すことについては開示されていない。
 さらに、特許文献5には、ユーザの状態を示すセンシングデータ(動作、音声、心拍、感情等)から抽出されるコンテキスト情報と、そのときにユーザが視聴している映像が全て記録されており、現在のユーザの状態を示すコンテキスト情報を用いて、ユーザの状態に応じたコンテンツを抽出し、「ユーザがサッカー中継をしている際に興奮して腕を突き上げた」ことを示すコンテキスト情報を生成すると、サッカー、興奮などのキーワードや、心拍数、腕の動作に応じて、過去に記録したコンテンツを抽出して、ユーザに提供することができる。しかしながら、特許文献5には、既存のコンテンツから、コンテンツとコンテキストを抜き出すことについては開示されていない。
 このように、特許文献1乃至5に開示されている技術を用いても、コンテキストの情報を利用してサービスを提供するに際して、良いユーザ体験を提供できるとは言い難く、より良いユーザ体験を提供することが求められていた。
 そこで、本技術では、コンテキストの情報を利用してサービスを提供するに際し、1つのシナリオを、別々の場所に住むユーザが、それぞれ利用することができるようにして、より良いユーザ体験を提供することができるようにしている。
<13.コンピュータの構成>
 上述した一連の処理(図6に示した第1の実施の形態における情報処理等の各実施の形態における情報処理)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図52は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インターフェース1005が接続されている。入出力インターフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
 入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインターフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
 以上のように構成されるコンピュータでは、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インターフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インターフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、各実施の形態における情報処理の各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本技術は、以下のような構成をとることができる。
(1)
 コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、
 ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、
 ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する
 制御部を備える
 情報処理システム。
(2)
 前記制御部は、
  複数のメディアからなるコンテンツから、
  少なくとも一部のメディアからなるコンテンツ要素を抽出し、
  前記コンテンツに基づいて、前記コンテンツ要素に対応するコンテキスト情報を生成し、
  前記コンテンツ要素と前記コンテキスト情報とを対応付けて蓄積した対応データベースを生成する
 前記(1)に記載の情報処理システム。
(3)
 前記制御部は、前記コンテンツ要素と前記コンテキスト情報からなるデータセットを、一定のテーマに基づいてパッケージ化して蓄積したシナリオデータベースを生成する
 前記(2)に記載の情報処理システム。
(4)
 前記コンテンツ要素は、ストリーミング配信コンテンツの一部であり、
 前記コンテキスト情報に対応付けて、そのコンテンツのIDと再生範囲を示す情報が蓄積されている
 前記(2)に記載の情報処理システム。
(5)
 前記制御部は、前記コンテンツ要素を再生する前に、前記コンテキスト情報に対応する特定の音声キャラクタを含む他のコンテンツ要素を提示する
 前記(4)に記載の情報処理システム。
(6)
 前記制御部は、前記対応データベースに蓄積されるコンテンツ要素と前記コンテキスト情報との関係を機械学習することにより、新たなコンテンツ要素に対してコンテンツ情報を付与する
 前記(2)乃至(5)のいずれかに記載の情報処理システム。
(7)
 前記制御部は、
  地図情報とともに、前記コンテンツ要素と前記コンテキスト情報のデータセットからなるシナリオを提示し、
  前記コンテキスト情報に対応する発動条件のデフォルト値として、シナリオを作成する制作者が地図上に所定領域を設定可能なインターフェースを提示する
 前記(3)に記載の情報処理システム。
(8)
 前記制御部は、
  第1のメディアからなるコンテンツから、
  前記第1のメディアとは異なる第2のメディアを生成してコンテンツ要素とし、
  前記コンテンツに基づいて、前記コンテンツ要素に対応するコンテキスト情報を生成し、
  前記コンテンツ要素と前記コンテキスト情報とを対応付けて蓄積した対応データベースを生成する
 前記(1)乃至(7)のいずれかに記載の情報処理システム。
(9)
 前記第1のメディアは、テキストを含み、
 前記第2のメディアは、TTS(Text To Speech)音声を含む
 前記(8)に記載の情報処理システム。
(10)
 前記制御部は、
  前記第1のメディアと前記第2のメディアとの関係をあらかじめ機械学習しておき、
  当該機械学習の結果に基づいて、前記第1のメディアから、前記第2のメディアを生成する
 前記(8)又は(9)に記載の情報処理システム。
(11)
 前記制御部は、
  前記コンテキスト情報に対して、
  現在、ユーザをセンシングすることで得られるセンサデータに応じた発動条件を設定可能であり、複数の、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオデータベースを生成する
 前記(1)乃至(10)のいずれかに記載の情報処理システム。
(12)
 前記制御部は、撮像された画像データに応じた発動条件を設定する
 前記(11)に記載の情報処理システム。
(13)
 前記制御部は、ユーザの特性操作に応じて、そのときのセンサデータに応じた発動条件を設定する
 前記(11)に記載の情報処理システム。
(14)
 前記制御部は、
  前記コンテキスト情報と前記発動条件との関係を機械学習し、
  当該機械学習の結果に応じた情報を出力する
 前記(11)乃至(13)のいずれかに記載の情報処理システム。
(15)
 前記制御部は、前記機械学習の結果に応じて、特定の発動条件に対して、コンテキスト情報を生成する
 前記(14)に記載の情報処理システム。
(16)
 前記制御部は、前記機械学習の結果に応じて、特定のコンテキスト情報に対して、ユーザに対応した発動条件を設定する
 前記(14)に記載の情報処理システム。
(17)
 前記センシングでは、前記センサデータとして、時間的若しくは空間的な発動条件、又はユーザの行動に応じた発動条件を設定可能なデータを取得する
 前記(11)乃至(16)のいずれかに記載の情報処理システム。
(18)
 前記制御部は、
  地図情報とともに、あらかじめ対応付けられている前記コンテンツ要素と前記コンテキスト情報のデータセットからなるシナリオを提示し、
  前記コンテキスト情報に対応する発動条件として、ユーザが地図上に所定領域を設定可能なインターフェースを提示する
 前記(1)、及び(11)乃至(17)のいずれかに記載の情報処理システム。
(19)
 前記制御部は、同一の発動条件が、複数のコンテキスト情報に設定されているとき、所定のルールに従って、当該複数のコンテキスト情報に対応する複数のコンテンツ要素を、ユーザに提示する
 前記(1)乃至(18)のいずれかに記載の情報処理システム。
(20)
 前記制御部は、前記センサデータにより推定されるユーザの向きに応じて、前記複数のコンテンツ要素から、一のコンテンツ要素を特定し、ユーザに提示する
 前記(19)に記載の情報処理システム。
(21)
 前記制御部は、
  前記センサデータにより推定されるユーザの向きが第1の向きとなるとき、第1のキャラクタに対応するコンテンツ要素を特定して、ユーザに提示し、
  ユーザの向きが第2の向きとなるとき、第2のキャラクタに対応するコンテンツ要素を特定して、ユーザに提示する
 前記(20)に記載の情報処理システム。
(22)
 前記制御部は、前記第1のキャラクタ又は前記第2のキャラクタの位置に応じてその場所に紐付けられた情報を提供する
 前記(21)に記載の情報処理システム。
(23)
 前記制御部は、
  前記センサデータが前記発動条件を満たしたとき、ユーザの現在位置周辺に、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素を提示可能な機器を探索し、
  前記コンテンツ要素がユーザに提示されるように、当該機器を制御する
 前記(1)乃至(22)のいずれかに記載の情報処理システム。
(24)
 前記制御部は、
  前記コンテンツ要素に含まれるエージェントの音声が、ユーザに提示されるように、当該ユーザの耳に装着された電気音響変換機器を制御するとともに、
  前記コンテンツ要素に含まれるエージェントの外観が、ユーザに提示されるように、当該ユーザの周辺に配置されるディスプレイを制御する
 前記(23)に記載の情報処理システム。
(25)
 前記制御部は、通信部を介して、特定のユーザシナリオをサービス提供者に提供する
 前記(1)乃至(24)のいずれかに記載の情報処理システム。
(26)
 前記制御部は、通信部を介して、前記特定のユーザシナリオを音楽ストリーミング配信サービス業者に提供することにより、当該ユーザシナリオに対応付けられるコンテンツ要素に対応する音声キャラクタを、音楽ストリーミング配信サービスにおいて楽曲を紹介するディスクジョッキー(DJ)として設定する
 前記(25)に記載の情報処理システム。
(27)
 前記制御部は、通信部を介して、前記ユーザシナリオを、ソーシャルメディアにアップロードし、他のユーザと共有可能にする
 前記(1)乃至(24)のいずれかに記載の情報処理システム。
(28)
 前記コンテンツ要素は、機器により提示可能な触覚データ及び匂いデータの少なくとも一方のデータを含む
 前記(1)乃至(27)のいずれかに記載の情報処理システム。
(29)
 前記制御部は、前記コンテンツ要素が提示されたユーザからのフィードバックに応じて、前記ユーザシナリオを、別のユーザシナリオに切り替える
 前記(1)乃至(28)のいずれかに記載の情報処理システム。
(30)
 前記制御部は、前記フィードバックを分析することにより、前記コンテンツ要素に対するユーザの嗜好を推定する
 前記(29)に記載の情報処理システム。
(31)
 前記制御部は、前記ユーザの嗜好に応じて、前記コンテンツ要素又は前記ユーザシナリオを推薦する
 前記(30)に記載の情報処理システム。
(32)
 情報処理装置が、
 コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、
 ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、
 ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する
 情報処理方法。
(33)
 コンピュータを、
 コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、
 ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、
 ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する制御部として
 機能させるためのプログラムを記録したコンピュータが読み取り可能な記録媒体。
 1 情報処理システム, 10 データ管理サーバ, 20 編集機器, 30,30-1乃至30-N 再生機器, 40 インターネット, 100 制御部, 101 入力部, 102 出力部, 103 記憶部, 104 通信部, 111 データ管理部, 112 データ処理部, 113 通信制御部, 131 提示キャラクタ選択部, 132 シナリオ処理部, 133 応答生成部, 151 コンテンツ要素-コンテキスト情報DB, 152 シナリオDB, 153 ユーザシナリオDB, 161 キャラクタ配置DB, 162 位置依存情報DB, 163 シナリオDB, 200 制御部, 201 入力部, 202 出力部, 203 記憶部, 204 通信部, 211 編集処理部, 212 提示制御部, 213 通信制御部, 221 マウス, 222 キーボード, 231 ディスプレイ, 232 スピーカ, 300 制御部, 301 入力部, 302 出力部, 303 記憶部, 304 通信部, 305 センサ部, 306 カメラ部, 307 出力端子, 308 電源部, 311 再生処理部, 312 提示制御部, 313 通信制御部, 321 ボタン, 322 タッチパネル, 331 ディスプレイ, 332 スピーカ, 341 ユーザ位置検出部, 342 ユーザ方向検出部, 343 音声認識意図理解部, 344 コンテンツ再生部, 1001 CPU

Claims (33)

  1.  コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、
     ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、
     ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する
     制御部を備える
     情報処理システム。
  2.  前記制御部は、
      複数のメディアからなるコンテンツから、
      少なくとも一部のメディアからなるコンテンツ要素を抽出し、
      前記コンテンツに基づいて、前記コンテンツ要素に対応するコンテキスト情報を生成し、
      前記コンテンツ要素と前記コンテキスト情報とを対応付けて蓄積した対応データベースを生成する
     請求項1に記載の情報処理システム。
  3.  前記制御部は、前記コンテンツ要素と前記コンテキスト情報からなるデータセットを、一定のテーマに基づいてパッケージ化して蓄積したシナリオデータベースを生成する
     請求項2に記載の情報処理システム。
  4.  前記コンテンツ要素は、ストリーミング配信コンテンツの一部であり、
     前記コンテキスト情報に対応付けて、そのコンテンツのIDと再生範囲を示す情報が蓄積されている
     請求項2に記載の情報処理システム。
  5.  前記制御部は、前記コンテンツ要素を再生する前に、前記コンテキスト情報に対応する特定の音声キャラクタを含む他のコンテンツ要素を提示する
     請求項4に記載の情報処理システム。
  6.  前記制御部は、前記対応データベースに蓄積されるコンテンツ要素と前記コンテキスト情報との関係を機械学習することにより、新たなコンテンツ要素に対してコンテンツ情報を付与する
     請求項2に記載の情報処理システム。
  7.  前記制御部は、
      地図情報とともに、前記コンテンツ要素と前記コンテキスト情報のデータセットからなるシナリオを提示し、
      前記コンテキスト情報に対応する発動条件のデフォルト値として、シナリオを作成する制作者が地図上に所定領域を設定可能なインターフェースを提示する
     請求項3に記載の情報処理システム。
  8.  前記制御部は、
      第1のメディアからなるコンテンツから、
      前記第1のメディアとは異なる第2のメディアを生成してコンテンツ要素とし、
      前記コンテンツに基づいて、前記コンテンツ要素に対応するコンテキスト情報を生成し、
      前記コンテンツ要素と前記コンテキスト情報とを対応付けて蓄積した対応データベースを生成する
     請求項1に記載の情報処理システム。
  9.  前記第1のメディアは、テキストを含み、
     前記第2のメディアは、TTS(Text To Speech)音声を含む
     請求項8に記載の情報処理システム。
  10.  前記制御部は、
      前記第1のメディアと前記第2のメディアとの関係をあらかじめ機械学習しておき、
      当該機械学習の結果に基づいて、前記第1のメディアから、前記第2のメディアを生成する
     請求項8に記載の情報処理システム。
  11.  前記制御部は、
      前記コンテキスト情報に対して、
      現在、ユーザをセンシングすることで得られるセンサデータに応じた発動条件を設定可能であり、複数の、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオデータベースを生成する
     請求項1に記載の情報処理システム。
  12.  前記制御部は、撮像された画像データに応じた発動条件を設定する
     請求項11に記載の情報処理システム。
  13.  前記制御部は、ユーザの特性操作に応じて、そのときのセンサデータに応じた発動条件を設定する
     請求項11に記載の情報処理システム。
  14.  前記制御部は、
      前記コンテキスト情報と前記発動条件との関係を機械学習し、
      当該機械学習の結果に応じた情報を出力する
     請求項11に記載の情報処理システム。
  15.  前記制御部は、前記機械学習の結果に応じて、特定の発動条件に対して、コンテキスト情報を生成する
     請求項14に記載の情報処理システム。
  16.  前記制御部は、前記機械学習の結果に応じて、特定のコンテキスト情報に対して、ユーザに対応した発動条件を設定する
     請求項14に記載の情報処理システム。
  17.  前記センシングでは、前記センサデータとして、時間的若しくは空間的な発動条件、又はユーザの行動に応じた発動条件を設定可能なデータを取得する
     請求項11に記載の情報処理システム。
  18.  前記制御部は、
      地図情報とともに、あらかじめ対応付けられている前記コンテンツ要素と前記コンテキスト情報のデータセットからなるシナリオを提示し、
      前記コンテキスト情報に対応する発動条件として、ユーザが地図上に所定領域を設定可能なインターフェースを提示する
     請求項1に記載の情報処理システム。
  19.  前記制御部は、同一の発動条件が、複数のコンテキスト情報に設定されているとき、所定のルールに従って、当該複数のコンテキスト情報に対応する複数のコンテンツ要素を、ユーザに提示する
     請求項1に記載の情報処理システム。
  20.  前記制御部は、前記センサデータにより推定されるユーザの向きに応じて、前記複数のコンテンツ要素から、一のコンテンツ要素を特定し、ユーザに提示する
     請求項19に記載の情報処理システム。
  21.  前記制御部は、
      前記センサデータにより推定されるユーザの向きが第1の向きとなるとき、第1のキャラクタに対応するコンテンツ要素を特定して、ユーザに提示し、
      ユーザの向きが第2の向きとなるとき、第2のキャラクタに対応するコンテンツ要素を特定して、ユーザに提示する
     請求項20に記載の情報処理システム。
  22.  前記制御部は、前記第1のキャラクタ又は前記第2のキャラクタの位置に応じてその場所に紐付けられた情報を提供する
     請求項21に記載の情報処理システム。
  23.  前記制御部は、
      前記センサデータが前記発動条件を満たしたとき、ユーザの現在位置周辺に、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素を提示可能な機器を探索し、
      前記コンテンツ要素がユーザに提示されるように、当該機器を制御する
     請求項1に記載の情報処理システム。
  24.  前記制御部は、
      前記コンテンツ要素に含まれるエージェントの音声が、ユーザに提示されるように、当該ユーザの耳に装着された電気音響変換機器を制御するとともに、
      前記コンテンツ要素に含まれるエージェントの外観が、ユーザに提示されるように、当該ユーザの周辺に配置されるディスプレイを制御する
     請求項23に記載の情報処理システム。
  25.  前記制御部は、通信部を介して、特定のユーザシナリオをサービス提供者に提供する
     請求項1に記載の情報処理システム。
  26.  前記制御部は、通信部を介して、前記特定のユーザシナリオを音楽ストリーミング配信サービス業者に提供することにより、当該ユーザシナリオに対応付けられるコンテンツ要素に対応する音声キャラクタを、音楽ストリーミング配信サービスにおいて楽曲を紹介するディスクジョッキー(DJ)として設定する
     請求項25に記載の情報処理システム。
  27.  前記制御部は、通信部を介して、前記ユーザシナリオを、ソーシャルメディアにアップロードし、他のユーザと共有可能にする
     請求項1に記載の情報処理システム。
  28.  前記コンテンツ要素は、機器により提示可能な触覚データ及び匂いデータの少なくとも一方のデータを含む
     請求項1に記載の情報処理システム。
  29.  前記制御部は、前記コンテンツ要素が提示されたユーザからのフィードバックに応じて、前記ユーザシナリオを、別のユーザシナリオに切り替える
     請求項1に記載の情報処理システム。
  30.  前記制御部は、前記フィードバックを分析することにより、前記コンテンツ要素に対するユーザの嗜好を推定する
     請求項29に記載の情報処理システム。
  31.  前記制御部は、前記ユーザの嗜好に応じて、前記コンテンツ要素又は前記ユーザシナリオを推薦する
     請求項30に記載の情報処理システム。
  32.  情報処理装置が、
     コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、
     ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、
     ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する
     情報処理方法。
  33.  コンピュータを、
     コンテンツ要素にコンテキスト情報があらかじめ対応付けられ、
     ユーザごとに、少なくとも当該コンテキスト情報に対して発動条件を設定可能で、前記コンテキスト情報と前記発動条件のデータセットからなるユーザシナリオを生成可能であり、
     ユーザをリアルタイムでセンシングすることで得られたセンサデータが、前記ユーザシナリオに設定される発動条件を満たしたとき、当該発動条件に応じたコンテキスト情報に対応付けられたコンテンツ要素がユーザに提示されるように制御する制御部として
     機能させるためのプログラムを記録したコンピュータが読み取り可能な記録媒体。
PCT/JP2020/022483 2019-06-20 2020-06-08 情報処理システム、情報処理方法、及び記録媒体 WO2020255767A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020217039153A KR20220019683A (ko) 2019-06-20 2020-06-08 정보 처리 시스템, 정보 처리 방법 및 기록 매체
US17/618,682 US20220246135A1 (en) 2019-06-20 2020-06-08 Information processing system, information processing method, and recording medium
JP2021527610A JPWO2020255767A1 (ja) 2019-06-20 2020-06-08
CN202080043410.8A CN114008610A (zh) 2019-06-20 2020-06-08 信息处理系统、信息处理方法和记录介质
EP20825869.9A EP3989083A4 (en) 2019-06-20 2020-06-08 INFORMATION HANDLING SYSTEM, INFORMATION HANDLING METHOD AND RECORDING MEDIA

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-114626 2019-06-20
JP2019114626 2019-06-20

Publications (1)

Publication Number Publication Date
WO2020255767A1 true WO2020255767A1 (ja) 2020-12-24

Family

ID=74037294

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022483 WO2020255767A1 (ja) 2019-06-20 2020-06-08 情報処理システム、情報処理方法、及び記録媒体

Country Status (6)

Country Link
US (1) US20220246135A1 (ja)
EP (1) EP3989083A4 (ja)
JP (1) JPWO2020255767A1 (ja)
KR (1) KR20220019683A (ja)
CN (1) CN114008610A (ja)
WO (1) WO2020255767A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022224523A1 (ja) * 2021-04-21 2022-10-27 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4327558A1 (en) * 2021-04-20 2024-02-28 Block, Inc. Live playback streams
KR102538155B1 (ko) * 2022-08-26 2023-05-31 주식회사 스튜디오사월 시나리오를 창작, 공유 및 활용하는 플랫폼 서비스를 제공하기 위한 방법 및 그 장치

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172524A (ja) 2005-12-26 2007-07-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010136370A (ja) * 2008-12-02 2010-06-17 Palo Alto Research Center Inc コンテキストベースのコンテンツをユーザに配信する方法
WO2013136792A1 (ja) 2012-03-15 2013-09-19 パナソニック株式会社 コンテンツ処理装置、コンテンツ処理方法およびプログラム
JP2014034374A (ja) * 2012-08-10 2014-02-24 Yupiteru Corp 車両用システム及びプログラム
JP2015210818A (ja) 2014-04-24 2015-11-24 キヤノン株式会社 コンテキスト管理のための装置、システム、および方法
WO2016136104A1 (ja) 2015-02-23 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US20180081523A1 (en) * 2013-12-03 2018-03-22 Lenovo (Singapore) Pte. Ltd. Devices and methods to receive input at a first device and present output in response on a second device different from the first device
JP6463529B1 (ja) 2018-03-20 2019-02-06 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996361A (en) 1987-07-30 1991-02-26 The University Of British Columbia Process for the preparation of optically active secondary arylamines

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172524A (ja) 2005-12-26 2007-07-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010136370A (ja) * 2008-12-02 2010-06-17 Palo Alto Research Center Inc コンテキストベースのコンテンツをユーザに配信する方法
WO2013136792A1 (ja) 2012-03-15 2013-09-19 パナソニック株式会社 コンテンツ処理装置、コンテンツ処理方法およびプログラム
JP2014034374A (ja) * 2012-08-10 2014-02-24 Yupiteru Corp 車両用システム及びプログラム
US20180081523A1 (en) * 2013-12-03 2018-03-22 Lenovo (Singapore) Pte. Ltd. Devices and methods to receive input at a first device and present output in response on a second device different from the first device
JP2015210818A (ja) 2014-04-24 2015-11-24 キヤノン株式会社 コンテキスト管理のための装置、システム、および方法
WO2016136104A1 (ja) 2015-02-23 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP6463529B1 (ja) 2018-03-20 2019-02-06 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3989083A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022224523A1 (ja) * 2021-04-21 2022-10-27 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2020255767A1 (ja) 2020-12-24
EP3989083A4 (en) 2022-08-24
CN114008610A (zh) 2022-02-01
KR20220019683A (ko) 2022-02-17
EP3989083A1 (en) 2022-04-27
US20220246135A1 (en) 2022-08-04

Similar Documents

Publication Publication Date Title
US10915291B2 (en) User-interfaces for audio-augmented-reality
WO2020255767A1 (ja) 情報処理システム、情報処理方法、及び記録媒体
Rozier Here&There: an augmented reality system of linked audio
US9838818B2 (en) Immersive 3D sound space for searching audio
Jones et al. ONTRACK: Dynamically adapting music playback to support navigation
US20160041981A1 (en) Enhanced cascaded object-related content provision system and method
US11043216B2 (en) Voice feedback for user interface of media playback device
CN101803336B (zh) 用于对视频进行选择性音频修改的方法和系统
US20120226706A1 (en) System, apparatus and method for sorting music files based on moods
WO2002031710A1 (en) Authoring system
CN107038197A (zh) 情境及活动驱动的内容传送和交互
KR20160065670A (ko) 컨텐트를 제공하는 방법 및 디바이스
Indans et al. Towards an audio-locative mobile application for immersive storytelling
US9575960B1 (en) Auditory enhancement using word analysis
CN111630472A (zh) 信息处理装置、信息处理方法和程序
Kimura et al. A Digital Platform for Sharing Collective Human Hearing.
KR20160057122A (ko) 비선형 쌍방향 콘텐츠 제작 시스템을 활용한 스토리 허브 시스템
Pozzebon et al. Smart devices for intangible cultural heritage fruition
CN110209870A (zh) 音乐日志生成方法、装置、介质和计算设备
Li Loco-Radio: designing high-density augmented reality audio browsers
JP5814197B2 (ja) カラオケ装置の近辺のデジタルサイネージで映像音声による広告を出力する際の連携
WO2022080164A1 (ja) 情報処理システム、情報処理装置、及びコンテンツ再生装置
US20230403426A1 (en) System and method for incorporating audio into audiovisual content
Cliffe Audio augmented objects and the audio augmented reality experience
Sun Impact of auditory modality on user experience during augmented outdoor tourism navigation and exploration tasks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20825869

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021527610

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2020825869

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2020825869

Country of ref document: EP

Effective date: 20220120