WO2024080107A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2024080107A1
WO2024080107A1 PCT/JP2023/034646 JP2023034646W WO2024080107A1 WO 2024080107 A1 WO2024080107 A1 WO 2024080107A1 JP 2023034646 W JP2023034646 W JP 2023034646W WO 2024080107 A1 WO2024080107 A1 WO 2024080107A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
user
location
specific
information processing
Prior art date
Application number
PCT/JP2023/034646
Other languages
English (en)
French (fr)
Inventor
真 山田
隆 木下
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024080107A1 publication Critical patent/WO2024080107A1/ja

Links

Images

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and in particular to an information processing device, an information processing method, and a program that can provide a better user experience with less effort.
  • Patent Document 1 discloses a technology that recommends music content based on user behavioral information.
  • Patent Document 2 discloses a technology that establishes associations from user behavioral data extracted from a service provider and generates recommendations.
  • Patent Document 3 discloses a technology that predicts, automatically selects, and plays songs desired by a user based on behavioral information that represents the user's music listening behavior.
  • Patent Documents 1 to 3 can recommend music based on user behavior, but they cannot provide a sound experience to a specific user by placing music content in a specific location.
  • This disclosure has been made in light of these circumstances, and aims to provide a better user experience with less effort.
  • An information processing device is an information processing device that includes a control unit that sets a behavior pattern indicative of a user's behavior in advance, sets the behavior pattern according to a specific user for a specific location specified by the relative positional relationship between the specific user and a target in real space, and sets a specific content associated with the specific location from among multiple contents according to the set behavior pattern.
  • the information processing method and program of one aspect of the present disclosure are information processing methods and programs corresponding to the information processing device of one aspect of the present disclosure described above.
  • a behavioral pattern indicating a user's behavior is set in advance, and the behavioral pattern corresponding to a specific user is set for a specific location specified by the relative positional relationship between a specific user and a target in real space, and specific content associated with the specific location is set from among multiple contents according to the set behavioral pattern.
  • the information processing device of one aspect of the present disclosure may be an independent device or an internal block constituting a single device.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of a system to which the present disclosure is applied.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of the server in FIG. 1 .
  • 3 is a block diagram showing an example of a functional configuration of a control unit in the server of FIG. 2.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of the device shown in FIG. 1 .
  • 5 is a block diagram showing an example of a functional configuration of a control unit in the device of FIG. 4 .
  • FIG. 1 is a diagram illustrating a symbolization of a behavior pattern.
  • 13 is a flowchart illustrating a process flow on the service provider side.
  • 13 is a flowchart illustrating a process flow on the service provider side.
  • FIG. 11 is a flowchart illustrating the flow of a playback preparation process on the user side.
  • 11 is a flowchart illustrating the flow of a playback preparation process on the user side.
  • FIG. 13 is a diagram showing a first example of a UI when setting a location.
  • FIG. 13 is a diagram showing a second example of a UI when setting a location.
  • FIG. 13 is a diagram showing a third example of a UI when setting a location.
  • FIG. 13 is a diagram showing a first example of a UI when assigning meaning to a place.
  • FIG. 13 is a diagram showing a second example of a UI when assigning meaning to a place.
  • FIG. 13 is a diagram showing a second example of a UI when assigning meaning to a place.
  • FIG. 13 is a diagram showing a third example of a UI when assigning meaning to a place.
  • FIG. 11 is a diagram showing a first example of a UI when selecting content.
  • FIG. 13 is a diagram showing a second example of a UI when selecting content.
  • FIG. 13 is a diagram showing a third example of a UI when selecting content.
  • FIG. 11 is a diagram showing a first example of a UI when content is arranged.
  • FIG. 13 is a diagram showing a second example of a UI when content is arranged.
  • FIG. 13 is a diagram showing a third example of a UI when content is arranged.
  • 11 is a flowchart illustrating the flow of a playback process on the user side.
  • FIG. 5 is a diagram illustrating another example of the functional configuration of the control unit in the device of FIG. 4.
  • 13 is a flowchart illustrating the flow of adjustment processing on the user side.
  • FIG. 13 is a diagram showing a first example of a UI when adjusting settings.
  • FIG. 13 is a diagram showing a second example of a UI when adjusting settings.
  • FIG. 13 is a diagram showing a third example of a UI when adjusting settings.
  • 5 is a diagram illustrating yet another example of the functional configuration of the control unit in the device of FIG. 4.
  • ⁇ System Configuration> 1 is a diagram showing an example of the configuration of an embodiment of a system to which the present disclosure is applied.
  • a system refers to a logical collection of multiple devices.
  • system 1 is a system that provides spatial content.
  • spatial content will be described as spatial sound, which provides a space consisting of the world view (theme) of a work through sound such as stereophonic sound.
  • Spatial sound includes one or more spatial element contents (music content, etc.) that correspond to the world view of the work.
  • Spatial content and spatial element contents are collectively referred to as content.
  • the system 1 is composed of a server 10 and devices 20-1 through 20-N (N: an integer equal to or greater than 1).
  • the server 10 and each of the devices 20-1 through 20-N are connected to each other via a network 30, which may include the Internet or the like.
  • the server 10 is configured to provide a spatial sound service (hereinafter, simply referred to as the service).
  • the server 10 provides the service to devices 20-1 through 20-N via the network 30. Note that, in reality, multiple servers are provided for each function (service) provided, but for the sake of simplicity, only one server 10 is shown in FIG. 1.
  • the server 10 is managed by a business operator who is the service provider.
  • the server 10 is composed of servers such as an application providing server, a data providing server, an application linking server, and a content providing server.
  • the application providing server distributes applications (hereinafter simply referred to as applications) for using the services.
  • the applications are prepared by the service provider.
  • the data providing server provides various data used in the applications.
  • the application linking server performs processing in cooperation with the applications.
  • the content providing server provides spatial element content included in the spatial sound.
  • Device 20-1 is composed of information devices such as a smartphone, portable music player, tablet terminal, wearable device, game machine, mobile phone, PC (Personal Computer), etc. Device 20-1 can use services provided by server 10 via network 30. Device 20-1 prepares to play spatial sound by downloading applications and exchanging data in cooperation with server 10. After completing preparations for playback, device 20-1 plays spatial sound (including spatial element content) when playback conditions are met.
  • information devices such as a smartphone, portable music player, tablet terminal, wearable device, game machine, mobile phone, PC (Personal Computer), etc.
  • Device 20-1 can use services provided by server 10 via network 30.
  • Device 20-1 prepares to play spatial sound by downloading applications and exchanging data in cooperation with server 10. After completing preparations for playback, device 20-1 plays spatial sound (including spatial element content) when playback conditions are met.
  • devices 20-2 to 20-N are composed of information devices such as smartphones, prepare to play spatial sound, and play the spatial sound (or the spatial element content that it contains) when the playback conditions are met.
  • Devices 20-1 to 20-N are used by different users. In the following description, devices 20-1 to 20-N will be referred to as device 20 unless there is a need to distinguish between them.
  • Fig. 2 is a block diagram showing an example of a hardware configuration of the server 10 in Fig. 1.
  • the server 10 is an example of an information processing device to which the present disclosure is applied.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 101 controls the operation of each part of the server 10 by executing programs recorded in the ROM 102 and the memory unit 108.
  • Various data are appropriately stored in the RAM 103.
  • An input/output interface 105 is also connected to the bus 104.
  • An input unit 106, an output unit 107, a memory unit 108, a communication unit 109, and a drive 110 are connected to the input/output interface 105.
  • the input unit 106 is composed of an operating system such as a microphone, keyboard, and mouse.
  • the output unit 107 is composed of a speaker, display, etc.
  • the memory unit 108 is composed of auxiliary storage devices such as a HDD (Hard Disk Drive) and semiconductor memory.
  • the communication unit 109 is composed of communication circuits such as a NIC (Network Interface Card) that supports wireless communication including wireless LAN (Local Area Network) or wired communication including Ethernet (registered trademark).
  • the drive 110 drives a removable recording medium 111 such as a semiconductor memory, optical disk, magnetic disk, or magneto-optical disk.
  • the server 10 is configured as a server that provides various functions such as an application providing server, a data providing server, an application linking server, and a content providing server.
  • the functions provided by the server 10 configured as each server are realized by the CPU 101 executing a program corresponding to each function. Necessary data is used when executing a program.
  • the programs and data are recorded in the ROM 102 and the memory unit 108.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the control unit in the server 10 in FIG. 2.
  • the functions of the control unit in the server 10 are realized by the CPU 101 executing programs such as applications and setting tools.
  • applications executed by the server 10 are also referred to as server-side applications to distinguish them from applications executed by the device 20 (device-side applications).
  • control unit 151 in the server 10 has a behavior pattern setting unit 161, a location tag linking unit 162, a content tag linking unit 163, and an application linking processing unit 164.
  • the behavior pattern setting unit 161 sets a behavior pattern based on the characteristics of the location and the characteristics of the content. Data related to the behavior pattern is recorded in the storage unit 108.
  • the behavior pattern may be set through the operation of an operator on the service provider side, or may be set (automatically) without the operation of an operator by performing an analysis process of data including the characteristics of the location and the characteristics of the content.
  • a behavior pattern is a pattern that indicates a user's repeated daily behavior, and is prepared in advance by the service provider.
  • a user of device 20 places a desired behavior pattern in a desired location, spatial sound that matches the behavior pattern can be provided by grasping the location where the behavior pattern is placed. Details of behavior patterns will be described later with reference to FIG. 6 etc.
  • the location tag linking unit 162 assigns a tag (hereinafter referred to as a location tag) indicating the characteristics of a location to the set behavior pattern.
  • the behavior pattern adapted to the location is linked by the location tag.
  • the application linking processing unit 164 executes processing in cooperation with an application executed on the device 20 side.
  • the application linking processing unit 164 presents a behavior pattern according to the characteristics of an outdoor or indoor location (hereinafter referred to as a set location) set by the user to the application executed on the device 20 side.
  • the content tag linking unit 163 assigns a tag (hereinafter also referred to as a content tag) indicating the characteristics of the spatial element content to the spatial element content included in the spatial sound.
  • the content tag linking unit 163 also assigns a content tag to the set behavior pattern.
  • the behavior pattern adapted to the spatial element content is linked by the content tag.
  • the application linking processing unit 164 works in conjunction with an application executed on the device 20 side to arrange spatial element content associated with (linked to) the set location from among multiple spatial element contents according to the behavior pattern and spatial sound.
  • Fig. 4 is a block diagram showing an example of a hardware configuration of the device 20 in Fig. 1.
  • the device 20 is an example of an information processing device to which the present disclosure is applied.
  • CPU 201 controls the operation of each part of device 20 by executing programs recorded in ROM 202 and memory unit 208. Various data are appropriately stored in RAM 203.
  • Input/output interface 205 is also connected to bus 204.
  • Input unit 206, output unit 207, memory unit 208, communication unit 209, and short-range wireless communication unit 210 are connected to input/output interface 205.
  • the input unit 206 supplies input signals to each unit including the CPU 201 via the input/output interface 205.
  • the input unit 206 has an operation unit 221, a camera unit 222, a sensor unit 223, and a GPS unit 224.
  • the operation unit 221 is operated by a user and supplies an operation signal corresponding to the operation to the CPU 201.
  • the operation unit 221 is composed of physical buttons, a touch panel, etc.
  • the camera unit 222 photoelectrically converts the light incident thereon from a subject, and generates and outputs an image signal by performing signal processing on the resulting electrical signal.
  • the camera unit 222 is composed of an image sensor, a signal processing circuit, etc.
  • the sensor unit 223 senses spatial information, time information, etc., and outputs the resulting sensing signal.
  • the sensor unit 223 includes an acceleration sensor, a gyro sensor, etc.
  • the acceleration sensor measures acceleration in three directions, the XYZ axes.
  • the gyro sensor measures angular velocity in three axes, the XYZ axes.
  • An IMU Inertial Measurement Unit
  • the sensor unit 223 also includes a sensor that has the function of identifying feature points using recognition technology and acquiring distance information using distance measurement technology.
  • the sensor unit 223 may include various sensors, such as a biosensor that measures information such as the heart rate, body temperature, or posture of a living organism, a proximity sensor that measures nearby objects, and a magnetic sensor that measures the magnitude and direction of a magnetic field.
  • the GPS unit 224 receives signals from GPS (Global Positioning System) satellites, locates the current position, and outputs a signal indicating the resulting current position.
  • GPS Global Positioning System
  • GPS is an example of a positioning system, and other positioning systems may also be used.
  • the output unit 207 outputs various information under control of the CPU 201 via the input/output interface 205.
  • the output unit 207 has a display unit 231 and a sound output unit 232.
  • the display unit 231 displays images, videos, etc. in response to an image signal under control of the CPU 201.
  • the display unit 231 is composed of a panel such as an LCD panel or an OLED (Organic Light Emitting Diode) panel, a signal processing circuit, etc.
  • the sound output unit 232 outputs sound in response to a sound signal under control of the CPU 201.
  • the sound output unit 232 is composed of a speaker, headphones connected to an output terminal, etc.
  • the storage unit 208 records various data and programs under the control of the CPU 201.
  • the CPU 201 reads out various data from the storage unit 208 and processes it, and executes programs.
  • the storage unit 208 is configured as an auxiliary storage device such as a semiconductor memory.
  • the storage unit 208 may be configured as an internal storage, or may be an external storage such as a memory card.
  • the communication unit 209 communicates with other devices via the network 30 under the control of the CPU 201.
  • the communication unit 209 is composed of communication circuits such as a communication module that supports cellular communication (e.g., LTE-Advanced or 5G), wireless communication such as wireless LAN, or wired communication.
  • the short-range wireless communication unit 210 is composed of communication circuits that support wireless communication according to short-range wireless communication standards such as Bluetooth (registered trademark) and NFC (Near Field Communication).
  • a microphone may be provided as input section 206, or an image processing circuit such as a GPU (Graphics Processing Unit) may be provided.
  • a GPU Graphics Processing Unit
  • FIG. 5 is a block diagram showing an example of the functional configuration of the control unit in the device 20 in FIG. 4.
  • the functions of the control unit in the device 20 are realized by the CPU 201 executing a program of an application (device-side application) downloaded from the server 10.
  • the control unit 251 in the device 20 has a playback preparation unit 261 and a playback unit 262.
  • the playback preparation unit 261 performs a playback preparation process to prepare for playback of the spatial sound (spatial element content that the spatial sound includes) by setting spatial sound with a meaning assigned to a location in response to a user operation.
  • the playback unit 262 performs a playback process to play the spatial sound (spatial element content that the spatial sound includes) based on the settings set in the playback preparation process.
  • the playback preparation unit 261 has a location setting unit 271, a behavior pattern selection unit 272, a behavior pattern setting unit 273, a spatial sound selection unit 274, and a spatial element content setting unit 275.
  • the location setting unit 271 sets an outdoor or indoor location in response to a user operation.
  • the behavior pattern selection unit 272 presents behavior patterns acquired from the server 10 and accepts a selection from the user, thereby selecting a behavior pattern for the set location.
  • the behavior pattern setting unit 273 sets the selected behavior pattern for the set location.
  • the spatial sound selection unit 274 presents the spatial sounds obtained from the server 10 and accepts a selection from the user, thereby selecting a spatial sound for the set location.
  • the spatial element content setting unit 275 arranges spatial element content associated with the set location (tied to the set location) according to the selected behavior pattern and spatial sound, and sets it as the spatial element content to be played when the playback conditions are met.
  • the playback unit 262 has a spatial element content playback unit 281.
  • the spatial element content playback unit 281 plays the set spatial element content when it is determined that the playback conditions are met.
  • the playback conditions include, for example, that the user who possesses the device 20 is present within a range corresponding to the set location and that the preset setting conditions are met.
  • the method proposed in this disclosure focuses on the fact that, when using behavioral patterns, many of the basic actions of a typical user in their daily life are uniform and repetitive.
  • the behavioral patterns are prepared in advance by the service provider.
  • the method proposed in this disclosure allows the user to place the prepared behavioral patterns in their preferred locations, and provides the user with a user experience based on content that matches the behavioral pattern by grasping location information.
  • a behavioral pattern is a user's behavior that is repeated in daily life, and includes, for example, habitual actions such as “commuting to work,” “commuting to school,” “getting dressed,” “eating,” and “sleeping.”
  • a behavioral pattern is a symbolic representation of a user's habitual, especially daily, actions, and clearly indicates actions, impressions, etc.
  • Figure 6 is a diagram showing a schematic representation of the symbolization of behavioral patterns.
  • the outdoor and indoor behavioral patterns are shown when the outdoor area is represented by area A1 and the indoor area is represented by area A2 in the living area.
  • behavioral patterns P11 to P14 are defined as “going to work/school,” “respect,” “gathering,” “socializing,” etc.
  • behavioral patterns P21 to P23 are defined as “eating,” “resting,” “making things,” etc.
  • the service provider prepares behavioral patterns in advance, anticipating the user's various daily actions and impressions, making them easy for the user to select. Furthermore, by using input methods such as natural language by the user, the service provider can analyze expressions related to the user's own actions, goals, actions, impressions, etc., and use various machine learning and other technologies to increase examples and expressions of verbalization of behavioral patterns.
  • Tags such as location tags and content tags are assigned to behavioral patterns. Related locations and related content are linked based on the tagged behavioral patterns.
  • the tags assigned to behavioral patterns are an example of meta-information related to the behavioral patterns. Linking information between locations and content via behavioral patterns (tags) can be updated at any time based on the user's usage history of the service. This linking information is not only useful for improving the accuracy of the selection and timing of content played according to the user's behavior, but can also be used to accumulate and analyze the meanings of individual locations and even the meanings of content as information on actual usage by users, and can be used for various purposes (use and utilization).
  • the user sets the behavior pattern "commuting to work/school" to an uphill road between the user's home and the nearest station.
  • the presence of the uphill road is also recognized from map information, and it is easy to assume that moving up the road requires more energy than usual.
  • the road is a place visited on the way to work or school, the user has a desire to secure mental energy such as elevation and vitality to work or study, in addition to the physical energy required for the normal action of climbing a hill.
  • the latter requirement is clearly different from the behavior assumed from static information that can be read from a map, and is based on dynamic information such as the purpose and impression of the behavior, which can be said to be the user's subjective opinion.
  • such dynamic information is acquired in association with the behavior pattern, and content can be played back according to the purpose and impression of the user's behavior, such as going to work or study with enthusiasm in an outdoor location such as an uphill road.
  • the following case can be envisioned. Assume that the user takes the device 20 and moves to the vicinity of the bed in the bedroom at around 11 p.m. At this time, the behavioral pattern of "sleeping" or “resting” is preset for the location near the bed. As a result, if the user's behavior is carried out on the night before going on a weekend vacation, for example, it is possible to play content that provides a user experience that is particularly calming.
  • the method proposed in this disclosure associates (links) specific locations with specific content via behavioral patterns (tags), allowing content to be selected and played back taking into account the user's behavior and impressions, making it possible to provide content that users expect to be played appropriately in each location. This makes it possible to provide a better user experience.
  • FIG. 7 shows the process flow for linking behavior patterns with locations and presenting the behavior patterns.
  • the behavior pattern setting unit 161 sets a behavior pattern based on the characteristics of the location and the characteristics of the content. For example, behavior patterns that are set include “commuting to work/school,” “eating,” “relaxing,” and “sleeping.”
  • step S112 the location tag linking unit 162 links the behavior pattern to the location tag by assigning a tag (location tag) that indicates the characteristics of the location to the behavior pattern.
  • This linking process is executed before the playback preparation process ( Figure 9) on the user side is performed, and the behavior pattern with the location tag assigned is prepared in advance as linking information.
  • step S113 it is determined whether or not to perform the behavior pattern presentation process.
  • a request is accepted from an application executed on the device 20, and the process proceeds to step S114 after waiting for a determination that the behavior pattern presentation process is to be performed.
  • step S114 the application cooperation processing unit 164 presents to the device 20 an action pattern corresponding to the set location.
  • an action pattern with a location tag corresponding to the set location is presented to the application that sent the request (S213 in FIG. 9).
  • FIG. 8 shows the process flow for linking behavioral patterns with content and arranging the content.
  • the control unit 151 classifies the spatial sound according to the worldview of the work.
  • the control unit 151 tags the characteristics of the spatial element content included in the spatial sound.
  • the classification of spatial sound and the tagging of spatial element content may be performed through the operation of the creator who produced the content or an operator on the service provider side, or it may be performed (automatically) without the operation of the creator by performing an analysis process on the data of the spatial sound and spatial element content.
  • the content tag linking unit 163 links the behavior pattern to the content tag by assigning a tag (content tag) that indicates the characteristics of the spatial element content to the behavior pattern.
  • the behavior pattern is assigned the content tag intended by the creator or service provider by matching it with the tag that indicates the characteristics of the spatial element content.
  • the behavior pattern used in this linking process is the behavior pattern set in the process of step S111 in Figure 7, and is also linked to a location tag (S112 in Figure 7). This linking process is also executed before the playback preparation process ( Figure 9) is performed on the user's side, and the behavior pattern to which the content tag has been assigned is prepared in advance as linking information.
  • step S134 it is determined whether or not to perform content placement processing.
  • a request is accepted from an application executed on device 20, and the process proceeds to step S135 after waiting for a determination that content placement processing is to be performed.
  • step S135 the application cooperation processing unit 164 arranges spatial element content associated with a location according to the behavioral pattern and spatial sound.
  • spatial element content associated with a set location that has been assigned meaning is selected from the spatial element content included in the spatial sound and arranged for the application that sent the request.
  • a location tag and a content tag are assigned to the prepared behavior pattern and linked to the applicable tag. Also, during the execution of the user side playback preparation process ( Figure 9), the behavior pattern presentation process and content placement process are performed by linking with an application executed on the device 20.
  • step S211 the control unit 251 controls the communication unit 209 to send a request to the server 10 via the network 30, thereby downloading an application for using the service.
  • the downloaded application is recorded in the storage unit 208 and launched.
  • the user operates (e.g., taps) the setting screen of the application displayed on the display unit 231 to register the location where the user would like to experience the sound.
  • step S212 the location setting unit 271 sets an outdoor or indoor location in response to a user operation.
  • the UI of the application when setting the location is shown in Figs. 11 to 13.
  • a "location setting" setting screen 401 When setting an outdoor location, as shown in FIG. 11, a "location setting" setting screen 401 is displayed, and a specific location on a map 411 can be specified.
  • the user can confirm a desired location on the map 411, such as their home, the nearest train station, a shop they often visit, a resting place while jogging, or a bench they usually sit on while walking, and specify and set it as areas 411A to 411C.
  • an outdoor location may be set by recognizing an object (for example, an object that exists in real space, such as a fountain or tree in a park, or a structure such as a building) included in an image captured by a camera unit 222 linked to an application as a recognition object.
  • a recognition object can be recognized by applying an analysis process to the captured image using known technology.
  • recognition objects 412A to 412J surrounded by a dotted line frame on an outdoor captured image 412 are recognized, and their location can be set.
  • an "Object Recognition" setting screen 403 When setting an indoor location, as shown in FIG. 13, an "Object Recognition" setting screen 403 is displayed, and recognition objects 413A to 413H (e.g., furniture, home appliances, rooms, etc.) enclosed in dotted lines on an indoor photographed image 413 are recognized, allowing the user to set the location.
  • recognition objects 413A to 413H e.g., furniture, home appliances, rooms, etc.
  • analysis processing is applied to the image captured by the camera unit 222 linked to the application, and a function to assist in location identification using an object recognition identifier that identifies objects installed in the room can be used to recognize objects such as furniture, home appliances, and rooms (e.g., living room, dining table, bedroom, washroom, kitchen) as recognized objects.
  • the location identification assistance function can utilize beacons, tokens, two-dimensional codes (e.g., QR codes (registered trademark)), UWB (Ultra Wide Band), LED (Light Emitting Diode) lighting, etc. linked to devices such as wireless speakers installed in the room.
  • the set location is specified by the relative positional relationship between the user and the target in real space, with the specified area on the map or recognition object as the target.
  • the behavior pattern selection unit 272 presents behavior patterns and accepts a selection from the user.
  • the behavior patterns are tagged (S112 in FIG. 7) and presented by the server 10 (S114 in FIG. 7).
  • behavior patterns adapted to the set location set in step S212 are presented by the location tag of the behavior pattern, so that the user can select a desired behavior pattern from among the presented behavior patterns.
  • the behavior pattern setting unit 273 sets the selected behavior pattern for the set location. In this way, the behavior pattern selected by the user is set for the set location, and thus a meaning is assigned to the set location.
  • the UI of the application when assigning a location meaning is shown in FIG. 14 to FIG. 16.
  • FIGS. 14 and 15 show the setting screen for "place meaning" when an outdoor location is set.
  • a selection screen 441 is displayed for selecting an action pattern such as “commuting to work/school,” “eating,” “relaxing,” or “talking” for an area 411C set on a map 411.
  • an action pattern such as "commuting to work/school,” “eating,” “relaxing,” or “talking” for an area 411C set on a map 411.
  • the action pattern "commuting to work/school” is set for the location of area 411C, and a meaning is given to the location.
  • a selection screen 442 for selecting an action pattern such as "going to work/school” is displayed for location information 422H superimposed on a recognition object 412H included in a captured image 412. For example, when “talk" is selected from the selection screen 442 by a user's operation, the action pattern "talk” is set for the location of the recognition object 412H, and a meaning is given to the location.
  • FIG. 16 shows the setting screen for "location meaning” when an indoor location is set.
  • a selection screen 443 is displayed for selecting an action pattern such as “heal,” “eat,” “sleep,” or “talk” for location information 423E superimposed on recognition object 413E included in captured image 413.
  • an action pattern such as “heal,” “eat,” “sleep,” or “talk” for location information 423E superimposed on recognition object 413E included in captured image 413.
  • the action pattern "heal” is set for the location of recognition object 413E, and a meaning is given to that location.
  • the user selects and arranges the desired behavioral patterns for the location information presented on the "Place Meaning" setting screen.
  • the number and variety of behavioral patterns can be increased by allowing the user to input language, and analyzing and learning the content based on the resulting input information such as text and voice, and automatically generating behavioral patterns. Note that, although this explanation will be omitted to avoid repetition, similar behavioral patterns can be set for other set locations on the setting screen to give meaning to the locations. Alternatively, other set locations may be given the same meaning as a specific set location.
  • the spatial sound selection unit 274 presents spatial sounds and accepts a selection from the user.
  • the spatial sounds are classified according to the worldview of the work, and include spatial element content to which tags have been added (S131, S132 in FIG. 8).
  • the user is able to select content with a worldview that suits his or her preference.
  • channel information for streaming music distribution services used by the user music content and its meta information recorded in the storage unit 208 of the device 20, and other options may be referenced and presented in a selectable manner.
  • the UI of the application when selecting content is shown in Figures 17 to 19.
  • FIGS. 17 and 18 show the setting screen for "content selection” when an outdoor location is set.
  • a selection screen 451 is displayed for selecting spatial sounds such as "music suitable for sports,” “encouraging music,” “the world of drama ABC,” “the world of drama XYZ,” and “the world of artist NML” for the location in area 411C, where the behavior pattern of "commuting to work/school” is set.
  • the spatial sound "music suitable for sports” is selected from the selection screen 451 by the user's operation.
  • a selection screen 452 for selecting a spatial sound is presented at the location of recognition object 412H, which has the behavior pattern "talking" set. For example, the user operates to select "encouraging music” from selection screen 452.
  • a selection screen 453 for selecting a spatial sound is displayed at the location of recognition object 413E, which has the behavior pattern "healing", set. For example, the user operates to select "The world of artist NML" from selection screen 453.
  • the spatial element content setting unit 275 arranges the spatial element content associated with the set location according to the behavior pattern and spatial sound.
  • the spatial element content setting unit 275 sets the arranged spatial element content as content to be played when the playback conditions are satisfied.
  • the spatial element content placed here is the spatial element content included in the spatial sound, and is linked to the set location (meaningful location) where the behavior pattern is set. In this way, the spatial element content to be placed at the set location is selected according to the association between the behavior pattern and the characteristics of the location.
  • the spatial element content linked to the set location given meaning in step S214 is selected and placed from the spatial element content included in the spatial sound selected in step S215 according to the content tag of the behavior pattern. In this way, the spatial element content is placed at the set location according to the association between the behavior pattern and the characteristics of the spatial element content.
  • an application executed on the user's device 20 communicates with an application (server-side app) executed on the service provider's server 10.
  • the applications work together to comprehensively analyze the information and behavioral patterns selected by the user, and as a result, appropriate spatial sound (including spatial element content) is automatically placed in the set location that has been assigned meaning (S135 in FIG. 8, S216 in FIG. 9). Examples of the application UI when placing content are shown in FIG. 20 to FIG. 22.
  • FIGS. 20 and 21 show the "Content Placement" setting screen when an outdoor location is set.
  • content information 431A to 431C indicating spatial element content is placed for the locations of areas 411A to 411C on the map 411, respectively.
  • content information 432A to 432J indicating spatial element content is placed for the locations of recognition objects 412A to 412J on the captured image 412, respectively.
  • FIG. 22 shows the "Content Placement" setting screen when an indoor location is set.
  • content information 433A to 433H indicating spatial element content is placed at the locations of recognition objects 413A to 413H on the captured image 413, respectively.
  • step S231 in FIG. 10 is performed in parallel with the processes of steps S211 to S217, and the sensing environment is set.
  • various settings are made for the camera unit 222, sensor unit 223, GPS unit 224, etc. as sensing-related settings for measuring the relative positional relationship between the user and the target in real space.
  • step S218 the playback preparation unit 261 prepares for playback of the spatial element content.
  • processing such as generating playback conditions and preparing to play the spatial element content when the playback conditions are satisfied is performed.
  • the playback conditions are determined, for example, by the range of the set location or preset setting conditions.
  • the range of the set location is the range in which the spatial element content is played back, and is determined by a predetermined shape (for example, a circular or polygonal shape including the set location).
  • the setting conditions are conditions determined by static or dynamic information such as human information, environmental information, and group information.
  • Human information includes biometric information and context information.
  • Environmental information includes information on the date and time, day of the week, weather, and the like.
  • Group information includes information on individuals and groups (for example, whether the user is alone, or whether other users are included in addition to the user), group characteristics, and the like.
  • Information such as human information, environmental information, and group information may be prepared by the server 10 on the service provider side and provided to the device 20.
  • the user operates the application's settings screen to register the location where they would like to experience sound, and the content associated with the location is automatically placed and the playback conditions for the content are automatically generated.
  • the setting screen 401 transitions in the order of "Location setting” in FIG. 11, “Significance of location” in FIG. 14, "Content selection” in FIG. 17, and “Content placement” in FIG. 20. Based on the behavioral pattern, the content is automatically placed in the desired location according to the area on the map, and the playback conditions for the content are automatically generated.
  • the setting screen 402 transitions in the order of "Object Recognition” in FIG. 12, “Significance of Location” in FIG. 15, “Content Selection” in FIG. 18, and “Content Placement” in FIG. 21, so that the content is automatically placed in the desired location according to the recognition object based on the behavioral pattern, and the playback conditions for the content are automatically generated.
  • the setting screen 403 transitions in the order of "Object Recognition” in FIG. 13, “Significance of Location” in FIG. 16, “Content Selection” in FIG. 19, and “Content Placement” in FIG. 22, so that the playback conditions for the content are automatically generated.
  • the user can place multiple pieces of content produced by creators in multiple locations based on the association with tags that indicate the characteristics of the content. Therefore, from the perspective of service providers and creators, they can develop services with less effort (less labor and time) without having to carry out on-site research into the current situation and characteristics, and without having to carry out placement work for behavioral patterns and content, etc.
  • spatial element content linked to a location may also be placed without selecting spatial sound.
  • channel information for streaming of a music distribution service is used instead of spatial sound, the music content included in the channel information selected by the user is placed as content linked to a location.
  • the user's operations on the application settings screen include touch panel operations such as tapping, drag-and-drop, pinching out, and pinching in.
  • touch panel operations such as tapping, drag-and-drop, pinching out, and pinching in.
  • other operations may also be performed, such as physical button operations or voice input operations using the user's voice.
  • step S251 the camera unit 222, sensor unit 223, GPS unit 224, etc. sense the user's actions in the set location under control of the control unit 251.
  • step S252 the control unit 251 determines whether the location is within the range of the set location and satisfies the preset setting conditions based on the sensing result and the playback conditions.
  • the set location is specified by the relative positional relationship between the user and the target in real space. In this determination process, for example, the following determination is made.
  • the position of the user carrying the device 20 is within the range of a set location defined by a predetermined shape, that is, within the range in which spatial element content is played. For example, when an area is set on a map outdoors, information indicating the latitude and longitude of a target specified by the area can be acquired from map information. Therefore, by converting information indicating the latitude and longitude obtained by measurement using the GPS by the GPS unit 224 of the device 20 into a relative position with respect to the target and comparing the relative position with the position of the target, it is possible to determine whether the user is within the range of the set location.
  • SLAM Simultaneous Localization and Mapping
  • image markers In the case of indoors, image markers, beacons, etc. can be used. The point is that it is sufficient to be able to determine whether the user is within the range of the set location, and the method is arbitrary.
  • the preset conditions are met is judged based on information such as human information (biometric information, context information, etc.), environmental information (date and time, day of the week, weather, etc.), and group information (single vs. group, group characteristics, etc.).
  • Information such as human information may be provided from the server 10 as appropriate.
  • step S252 If it is not determined in step S252 that the location is within the range of the set location and that the set conditions are met, the process returns to step S251, and sensing and the determination process based on the sensing results are repeated. On the other hand, if it is determined in step S252 that the location is within the range of the set location and that the set conditions are met, the process proceeds to step S253.
  • step S253 the spatial element content playback unit 281 plays the spatial element content set in the playback preparation process ( Figure 9).
  • the sound of the spatial element content to be played is output from the sound output unit 232, which is composed of speakers, headphones, etc.
  • the user when the user, while wearing the device 20 to which the application has been downloaded, enters the range of the set location, if the preset conditions are met, playback of the spatial element content begins on the device 20. This allows the user to achieve a sound experience in the desired location.
  • step S254 the control unit 251 determines whether or not to continue playing the spatial element content. If it is determined in step S254 that playing is to be continued, the process returns to step S253, and playing of the spatial element content is continued. On the other hand, if it is determined in step S254 that playing is not to be continued, playing of the spatial element content is stopped, and the process ends. For example, it is determined that playing is not to be continued when the user moves out of the range of the set location, when the set conditions are no longer met, when the user explicitly instructs to end playing, when playing of the spatial element content has finished to the end, etc.
  • sensing is performed by the sensor unit 223 etc., and if it is determined that the playback conditions generated in the playback preparation process are satisfied, the content set in the playback preparation process is played back.
  • the range of the set location and preset setting conditions are used as playback conditions, it is not necessary to use the setting conditions.
  • FIG. 24 is a diagram showing another example of the functional configuration of the control unit 251 in the device 20 of FIG.
  • control unit 251A in FIG. 24 further includes an adjustment unit 263 in addition to a playback preparation unit 261 and a playback unit 262.
  • the adjustment unit 263 performs an adjustment process to adjust the setting contents set in the playback preparation process by the playback preparation unit 261 in response to a user operation.
  • the adjustment process includes, for example, adjusting the setting location set by the location setting unit 271, the selection of the spatial sound selected by the spatial sound selection unit 274, and the arrangement of the spatial element content set by the spatial element content setting unit 275.
  • step S271 the control unit 251A determines whether to adjust the settings.
  • step S271 an instruction from the user is accepted, and the process proceeds to step S272 after waiting for a determination that the settings should be adjusted.
  • step S272 the adjustment unit 263 adjusts the setting contents such as the setting location, spatial sound, or spatial element content in response to the user's operation.
  • the application UI when adjusting the setting contents is shown in Figs. 26 to 28.
  • a "location adjustment" setting screen 401 is displayed, and the location adjustment is realized by moving areas 411A to 411C set on the map 411 to the desired location.
  • the user U can adjust area 411A by dragging and dropping it to move it to the desired location on the map 411. This adjusts the location where the spatial element content in area 411A is placed.
  • a "location adjustment" setting screen 402 When adjusting the location of an outdoor recognition object, as shown in FIG. 27, a "location adjustment" setting screen 402 is displayed, and the location adjustment is realized by moving the recognition objects 412A to 412J included in the captured image 412 to the desired location.
  • the user U can drag and drop the location information 422J superimposed on the recognition object 412J to move it to the desired location on the captured image 412 and adjust it. This adjusts the location of the spatial element content arranged corresponding to the location information 422J.
  • the content information 432J arranged corresponding to that location may be operated.
  • adjusting the location of an indoor recognition object is achieved in the same way as adjusting the location of an outdoor recognition object by moving the location information 423 (or content information 433) superimposed on the recognition objects 413A to 413H included in the captured image 413 to the desired location.
  • the location adjustment of spatial element content linked to the location of a recognized object is performed, for example, as follows. That is, after moving an object in real space, the situation including the moved object is re-recognized by the recognized object using the camera function included in the "Location Adjustment" settings screen function, and the relationship between the changes and the spatial sound is automatically updated. This makes it possible to perform location adjustments and spatial editing within the space surrounding the user.
  • the movement of the potted plant is determined by image recognition, and the position of the location information 423D (or content information 433D) is changed in accordance with the change in position of the recognized recognition object 413D.
  • the movement of an object e.g., a potted plant
  • the object may also be one that has been moved from another location (e.g., another room such as a bedroom).
  • the user-side adjustment process can be realized by an application executed on the device 20 (device-side application) coordinating with an application executed on the server 10 (server-side application) in the same manner as the playback preparation process described above.
  • the user can freely change the settings such as the location and spatial sound set by the user, or the location of the spatial element content placed by the service provider using the system.
  • the user can adjust the spatial sound linked to a location based on their behavioral patterns according to the experience they get from using it themselves. More specifically, because it is possible to adjust the selection of spatial sound, the placement of spatial element content, playback conditions, etc., the user can create a sound space optimized for their own usage situation and sensibilities.
  • FIG. 29 is a diagram showing yet another example of the functional configuration of the control unit 251 in the device 20 of FIG.
  • control unit 251B in FIG. 29 further includes a learning unit 264 in addition to the playback preparation unit 261, playback unit 262, and adjustment unit 263.
  • the learning unit 264 performs machine learning using the learning data, generates a learned model, and supplies it to the playback preparation unit 261.
  • the learning data data input from the playback preparation unit 261, the playback unit 262, and the adjustment unit 263 can be used.
  • the adjustment unit 263 performs an adjustment process to adjust the setting contents set in the playback preparation process by the playback preparation unit 261 in response to user operation, and data related to the setting contents and the adjustment contents can be used as learning data.
  • the learning data may include data related to the playback contents played in the playback process by the playback unit 262.
  • the learning data may be data input from outside.
  • the learning unit 264 learns, for example, the situation in which the user selects and changes spatial sound, the situation in which spatial element content is set and changed, and the playback situation of spatial element content.
  • the learned model can use a DNN (Deep Neural Network) that has been trained using data related to the settings, adjustments, and playback contents as learning data as input and data related to the corrected settings as output.
  • DNN-based algorithm can use publicly known technology. For example, by using data related to the adjustments as training data during learning, the settings that take into account the user's adjustments are output as the corrected settings.
  • the playback preparation unit 261 is supplied with the trained model from the learning unit 264.
  • the playback preparation unit 261 inputs data on the setting contents according to the user's operation into the trained model, and can obtain data on the corrected setting contents as the output.
  • the trained model can be used for at least a part of the process.
  • the trained model can be used to correct the setting contents of the combination of location and spatial element content based on a behavior pattern, thereby improving the accuracy of the placement location of the spatial element content.
  • the playback preparation process can perform processing using the trained model obtained by machine learning.
  • FIG. 29 shows a configuration in which the learning unit 264 is provided in the control unit 251B on the device 20 side, it may also be provided in the control unit 151 on the server 10 side.
  • the control unit 151 has the learning unit 264, data related to the settings, adjustments, and playback contents is sent from the device 20 to the server 10, and the learning unit 264 performs machine learning using the data to generate a trained model.
  • the trained model is sent from the server 10 to the device 20 and recorded in the storage unit 208.
  • the above describes the system configuration proposed in this disclosure and the processing executed by each device.
  • the method proposed in this disclosure links locations and content using pre-prepared behavioral patterns, making it possible to play content associated with a location in response to the user's behavior.
  • the model is one in which business owners and promoters promise to provide the experience in an area previously agreed upon with the user, so by limiting the area and understanding the characteristics of each location within that area, music content can be placed and playback conditions can be set.
  • a user operates the application's settings screen, and locations and content are linked using pre-prepared behavioral patterns. This allows service providers and creators to develop services with less effort (less labor and time) without having to investigate the trends and preferences of individual users or locate music content in specific locations. It also makes it possible to provide content that users expect to be played appropriately in each location, providing a better user experience.
  • the functional configuration of the control unit 251 of the device 20 is shown in FIG. 5, but some of the functions of the playback preparation unit 261 and playback unit 262 in the control unit 251 may be provided in the control unit 151 of the server 10. That is, the above-mentioned series of processes can be realized by the cooperation of the server 10 (its control unit 151) on the service provider side and the device 20 (its control unit 251) on the user side.
  • the embodiment of the present disclosure can have a cloud computing configuration in which one function is shared and processed jointly by multiple devices via a network.
  • the relative positional relationship can also be considered as the positional relationship between the device 20 held by the user and the target (a target specified by an area on a map or a recognition object).
  • spatial sound that provides a space based on the worldview of the work through sound has been given as an example of spatial content, but other information such as video and images may also be presented.
  • spatial content can provide a space based on themes such as “healing,” “power,” and “memories” through sound such as stereophonic sound, video, and images.
  • spatial content that is “healing” includes spatial element content (music content) such as “Bird,” “Forest,” and “Creek.”
  • Spatial element content that is "Bird” provides a "healing” space for the user through the soothing sounds of birds.
  • Spatial element content that is "Forest” provides a “healing” space for the user through sounds that allow the user to feel the forest, such as the sound of wind rustling the leaves.
  • Spatial element content that is “Creek” provides a "healing” space for the user through the sound of water, such as the gentle flow of a stream.
  • the program executed by the computer can be provided by recording it on a removable recording medium such as a package medium.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • a program can be installed in the storage unit via an input/output interface by inserting a removable recording medium into a drive.
  • the program can also be received by the communications unit via a wired or wireless transmission medium and installed in the storage unit.
  • the program can be pre-installed in the ROM or storage unit.
  • the processing performed by a computer according to a program does not necessarily have to be performed chronologically in the order described in the flowchart.
  • the processing performed by a computer according to a program also includes processing executed in parallel or individually (for example, parallel processing or processing by objects).
  • a program may be processed by one computer (processor), or may be distributed and processed by multiple computers.
  • a program may be transferred to a remote computer and executed there.
  • Each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices. Furthermore, if a single step includes multiple processes, the multiple processes included in that single step can be executed by a single device, or can be shared and executed by multiple devices.
  • a behavior pattern indicating the user's behavior is preset, setting the behavior pattern according to a specific user for a specific location specified by a relative positional relationship between the specific user and a target in real space; an information processing device comprising: a control unit that sets, according to the set behavior pattern, a specific content associated with the specific location from among a plurality of contents; (2) The behavior pattern is assigned with meta information adapted to meta information indicating a location characteristic and meta information indicating a content characteristic, The information processing device according to (1), wherein the specific location and the specific content are associated with each other via the meta information assigned to the behavior pattern. (3) The information processing device according to (2), wherein the control unit arranges the specific content at the specific location according to a correlation between the behavior pattern and a characteristic of the content.
  • the information processing device selects the specific content to be placed at the specific location according to a correlation between the behavior pattern and a characteristic of the location.
  • the control unit adjusts settings of at least one of the specific location and the specific content in response to an operation of the specific user.
  • the control unit performs machine learning using data regarding settings of the specific location and the specific content and data regarding adjustments in response to the user's operation as learning data, and generates a learned model.
  • the trained model is a DNN trained with data on the setting contents and the adjustment contents as input and data on the corrected setting contents as output,
  • the information processing device according to (7), wherein the control unit corrects settings of at least one of the specific location and the specific content by using the trained model.
  • the information processing device (1), wherein the control unit reproduces the specific content when a reproduction condition according to the specific location is satisfied.
  • the information processing device (9), wherein the control unit reproduces the specific content when the user is present within a range corresponding to the specific location and satisfies a preset setting condition.
  • the plurality of contents includes spatial element contents classified by spatial contents, The information processing device described in any one of (1) to (10), wherein the control unit selects the spatial content in response to an operation of the user, and arranges the spatial element content included in the selected spatial content as the specific content associated with the specific location.
  • the spatial content is a spatial sound that provides a space based on the worldview of the work through sound, The information processing device according to (11), wherein the spatial element content is music content.
  • the target is specified by an area set on a map or a recognition object that recognizes an object existing in real space.
  • a behavior pattern indicating the user's behavior is preset, setting the behavior pattern according to a specific user for a specific location specified by a relative positional relationship between the specific user and a target in real space; and setting, from among a plurality of contents, a specific content associated with the specific location according to the set behavioral pattern.
  • Computer A behavior pattern indicating the user's behavior is preset, setting the behavior pattern according to a specific user for a specific location specified by a relative positional relationship between the specific user and a target in real space; A program that functions as a control unit to set a specific content associated with the specific location from among a plurality of contents according to the set behavior pattern.

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本開示は、より少ない手間で、より良いユーザ体験を提供することができるようにする情報処理装置、情報処理方法、及びプログラムに関する。 ユーザの行動を示す行動パターンが予め設定され、実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、特定のユーザに応じた行動パターンを設定し、設定された行動パターンに応じて、複数のコンテンツの中から特定の場所に関連付けられた特定のコンテンツを設定する制御部を備える情報処理装置が提供される。本開示は、例えば、空間コンテンツを提供するサービスで用いられる機器に適用することができる。

Description

情報処理装置、情報処理方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及びプログラムに関し、特に、より少ない手間で、より良いユーザ体験を提供することができるようにした情報処理装置、情報処理方法、及びプログラムに関する。
 屋外と屋内のいずれの場所においても、それらの様々な場所で、ユーザが自身の多様な行動と合致した音楽を楽しめることは、日常生活において重要な体験である。ユーザの行動に応じた音楽を推薦する技術としては、例えば、特許文献1乃至3に開示された技術がある。
 特許文献1には、ユーザの行動情報に基づいて音楽コンテンツを推薦する技術が開示されている。特許文献2には、サービスプロバイダから取り出されたユーザの行動データから関連付けを確立してレコメンデーションを生成する技術が開示されている。特許文献3には、ユーザの音楽鑑賞上の行動を表す行動情報から、当該ユーザが所望する曲を推測して自動選択し再生する技術が開示されている。
特開2016-048495号公報 特表2011-511968号公報 特開平11-288420号公報
 特許文献1乃至3に開示された技術では、ユーザの行動に応じて音楽を推薦することはできるものの、特定の場所に音楽コンテンツを配置して、特定のユーザに対しサウンド体験を提供することはできない。
 この種の体験を提供するサービス提供者は、サービスの展開を行うに際して、特定の場所に紐づいたコンテンツを配置するために、特定の場所に対する現地での調査作業やコンテンツの配置作業を行う必要があり、労力や時間がかかることが想定される。そのため、より少ない手間で、より良いユーザ体験を提供することが求められていた。
 本開示はこのような状況に鑑みてなされたものであり、より少ない手間で、より良いユーザ体験を提供することができるようにするものである。
 本開示の一側面の情報処理装置は、ユーザの行動を示す行動パターンが予め設定され、実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する制御部を備える情報処理装置である。
 本開示の一側面の情報処理方法、及びプログラムは、上述した本開示の一側面の情報処理装置に対応する情報処理方法、及びプログラムである。
 本開示の一側面の情報処理装置、情報処理方法、及びプログラムにおいては、ユーザの行動を示す行動パターンが予め設定され、実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンが設定され、設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツが設定される。
 なお、本開示の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本開示を適用したシステムの一実施の形態の構成例を示す図である。 図1のサーバのハードウェア構成例を示すブロック図である。 図2のサーバにおける制御部の機能的構成例を示すブロック図である。 図1のデバイスのハードウェア構成例を示すブロック図である。 図4のデバイスにおける制御部の機能的構成例を示すブロック図である。 行動パターンのシンボル化を模式的に示した図である。 サービス提供者側の処理の流れを説明するフローチャートである。 サービス提供者側の処理の流れを説明するフローチャートである。 ユーザ側の再生準備処理の流れを説明するフローチャートである。 ユーザ側の再生準備処理の流れを説明するフローチャートである。 場所設定時におけるUIの第1の例を示す図である。 場所設定時におけるUIの第2の例を示す図である。 場所設定時におけるUIの第3の例を示す図である。 場所意味付け時におけるUIの第1の例を示す図である。 場所意味付け時におけるUIの第2の例を示す図である。 場所意味付け時におけるUIの第3の例を示す図である。 コンテンツ選択時におけるUIの第1の例を示す図である。 コンテンツ選択時におけるUIの第2の例を示す図である。 コンテンツ選択時におけるUIの第3の例を示す図である。 コンテンツ配置時におけるUIの第1の例を示す図である。 コンテンツ配置時におけるUIの第2の例を示す図である。 コンテンツ配置時におけるUIの第3の例を示す図である。 ユーザ側の再生処理の流れを説明するフローチャートである。 図4のデバイスにおける制御部の機能的構成の他の例を示す図である。 ユーザ側の調整処理の流れを説明するフローチャートである。 設定内容調整時におけるUIの第1の例を示す図である。 設定内容調整時におけるUIの第2の例を示す図である。 設定内容調整時におけるUIの第3の例を示す図である。 図4のデバイスにおける制御部の機能的構成のさらに他の例を示す図である。
<システム構成>
 図1は、本開示を適用したシステムの一実施の形態の構成例を示す図である。システムとは、複数の装置が論理的に集合したものをいう。
 図1において、システム1は、空間コンテンツを提供するシステムである。以下、空間コンテンツとして、作品の世界観(テーマ)からなる空間を、立体音響等の音により提供する空間サウンドを説明する。空間サウンドは、その作品の世界観に応じた1以上の空間要素コンテンツ(音楽コンテンツ等)を含む。空間コンテンツと空間要素コンテンツを総称してコンテンツともいう。
 システム1は、サーバ10と、デバイス20-1乃至20-N(N:1以上の整数)から構成される。サーバ10と、デバイス20-1乃至20-Nのそれぞれとは、インターネット等を含むネットワーク30を介して相互に接続される。
 サーバ10は、空間サウンドのサービス(以下、単にサービスともいう)を提供するためのサーバで構成される。サーバ10は、デバイス20-1乃至20-Nに対し、ネットワーク30を介して、サービスを提供する。なお、実際には、提供される機能(サービス)ごとに複数のサーバが設けられるが、説明の簡略化のため、図1では、1台のサーバ10のみを図示している。サーバ10は、サービス提供者側である事業者により管理される。
 例えば、サーバ10は、アプリ提供サーバ、データ提供サーバ、アプリ連携サーバ、コンテンツ提供サーバ等のサーバで構成される。アプリ提供サーバは、サービスを利用するためのアプリケーション(以下、単にアプリケーションともいう)を配信する。アプリケーションは、サービス提供者により準備される。データ提供サーバは、アプリケーションで用いられる各種データを提供する。アプリ連携サーバは、アプリケーションと連携して処理を行う。コンテンツ提供サーバは、空間サウンドに含まれる空間要素コンテンツを提供する。
 デバイス20-1は、スマートフォン、携帯音楽プレイヤ、タブレット端末、ウェアラブル機器、ゲーム機、携帯電話機、PC(Personal Computer)等の情報機器で構成される。デバイス20-1は、ネットワーク30を介して、サーバ10により提供されるサービスを利用することができる。デバイス20-1は、アプリケーションをダウンロードして、サーバ10と連携してデータをやり取りすることで、空間サウンドの再生準備を行う。デバイス20-1は、再生準備の完了後に再生条件を満たしたとき、空間サウンド(が含む空間要素コンテンツ)を再生する。
 デバイス20-2乃至20-Nは、デバイス20-1と同様に、スマートフォン等の情報機器で構成され、空間サウンドの再生準備を行い、再生条件を満たしたときに空間サウンド(が含む空間要素コンテンツ)を再生する。デバイス20-1乃至20-Nは、それぞれ異なるユーザにより使用される。以下の説明では、デバイス20-1乃至20-Nを特に区別する必要がない場合、デバイス20という。
<サーバ構成>
 図2は、図1のサーバ10のハードウェア構成例を示すブロック図である。サーバ10は、本開示を適用した情報処理装置の一例である。
 図2に示すように、サーバ10において、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、及びRAM(Random Access Memory)103は、バス104により相互に接続されている。CPU101は、ROM102や記憶部108に記録されたプログラムを実行することで、サーバ10の各部の動作を制御する。RAM103には、各種データが適宜記憶される。バス104にはまた、入出力インターフェース105が接続されている。入出力インターフェース105には、入力部106、出力部107、記憶部108、通信部109、及びドライブ110が接続される。
 入力部106は、マイクロフォン、キーボード、マウス等の操作系で構成される。出力部107は、スピーカ、ディスプレイ等で構成される。記憶部108は、HDD(Hard Disk Drive)や半導体メモリ等の補助記憶装置で構成される。通信部109は、無線LAN(Local Area Network)を含む無線通信、又はイーサーネット(登録商標)を含む有線通信に対応したNIC(Network Interface Card)等の通信回路で構成される。ドライブ110は、半導体メモリ、光ディスク、磁気ディスク、又は光磁気ディスク等のリムーバブル記録媒体111を駆動する。
 サーバ10は、アプリ提供サーバ、データ提供サーバ、アプリ連携サーバ、コンテンツ提供サーバ等の各種機能を提供するサーバとして構成される。各サーバとして構成されるサーバ10により提供される機能は、CPU101によって各種機能に応じたプログラムが実行されることで実現される。プログラムの実行に際しては必要なデータが用いられる。プログラムやデータは、ROM102や記憶部108に記録される。
 図3は、図2のサーバ10における制御部の機能的構成例を示すブロック図である。サーバ10における制御部の機能は、CPU101によって、アプリケーションや設定ツール等のプログラムが実行されることで実現される。以下、サーバ10により実行されるアプリケーションを、デバイス20で実行されるアプリケーション(デバイス側アプリ)と区別するために、サーバ側アプリともいう。
 図3において、サーバ10における制御部151は、行動パターン設定部161、場所タグ紐づけ部162、コンテンツタグ紐づけ部163、及びアプリ連携処理部164を有する。
 行動パターン設定部161は、場所の特性とコンテンツの特性に基づいて、行動パターンを設定する。行動パターンに関するデータは、記憶部108に記録される。行動パターンの設定は、サービス提供者側のオペレータ等の操作を介して設定してもよいし、あるいは、場所の特性やコンテンツの特性を含むデータの解析処理を行うことで、オペレータ等の操作を介さずに設定(自動設定)されてもよい。
 行動パターンは、日常の中で反復されるユーザの行動を示すパターンであって、サービス提供者により予め用意されるものである。デバイス20を使用するユーザが、所望の行動パターンを所望の場所に配置することで、行動パターンに合致した空間サウンドを、行動パターンが配置された場所を把握することで提供することができる。行動パターンの詳細については、図6等を参照して後述する。
 場所タグ紐づけ部162は、設定された行動パターンに対し、場所の特性を示すタグ(以下、場所タグともいう)を付与する。場所タグによって、場所に適応する行動パターンが紐づけられる。アプリ連携処理部164は、デバイス20側で実行されるアプリケーションと連携して処理を実行する。アプリ連携処理部164は、デバイス20側で実行されるアプリケーションに対し、ユーザにより設定された屋外又は屋内の場所(以下、設定場所という)の特性に応じた行動パターンを提示する。
 コンテンツタグ紐づけ部163は、空間サウンドに含まれる空間要素コンテンツに対し、空間要素コンテンツの特性を示すタグ(以下、コンテンツタグともいう)を付与する。また、コンテンツタグ紐づけ部163は、設定された行動パターンに対し、コンテンツタグを付与する。コンテンツタグによって、空間要素コンテンツに適応する行動パターンが紐づけられる。アプリ連携処理部164は、デバイス20側で実行されるアプリケーションと連携して、行動パターンと空間サウンドに応じて、複数の空間要素コンテンツの中から、設定場所に関連付けられた(設定場所に紐づく)空間要素コンテンツが配置されるようにする。
<デバイス構成>
 図4は、図1のデバイス20のハードウェア構成例を示すブロック図である。デバイス20は、本開示を適用した情報処理装置の一例である。
 図4に示すように、デバイス20において、CPU201、ROM202、及びRAM203は、バス204により相互に接続される。CPU201は、ROM202や記憶部208に記録されたプログラムを実行することで、デバイス20の各部の動作を制御する。RAM203には、各種データが適宜記憶される。バス204にはまた、入出力インターフェース205が接続される。入出力インターフェース205には、入力部206、出力部207、記憶部208、通信部209、及び近距離無線通信部210が接続される。
 入力部206は、入力信号を、入出力インターフェース205を介してCPU201を含む各部に供給する。例えば、入力部206は、操作部221、カメラ部222、センサ部223、及びGPS部224を有する。
 操作部221は、ユーザによって操作され、その操作に対応する操作信号をCPU201に供給する。操作部221は、物理的なボタンやタッチパネル等で構成される。カメラ部222は、そこに入射される被写体からの光を光電変換して、その結果得られる電気信号に対する信号処理を行うことで画像信号を生成し、出力する。カメラ部222は、イメージセンサや信号処理回路等で構成される。
 センサ部223は、空間情報や時間情報等のセンシングを行い、その結果得られるセンシング信号を出力する。センサ部223は、加速度センサやジャイロセンサ等を含む。加速度センサは、XYZ軸の3方向の加速度を測定する。ジャイロセンサは、XYZ軸の3軸の角速度を測定する。なお、IMU(Inertial Measurement Unit)を設けて、3方向の加速度計と3軸のジャイロスコープにより、3次元の加速度と角速度を測定してもよい。また、センサ部223は、認識技術によって特徴点を識別したり、測距技術によって距離情報を取得したりする機能を有するセンサを含む。なお、センサ部223には、生物の持つ心拍数、体温、又は姿勢といった情報を測定する生体センサ、近接するものを測定する近接センサ、磁場(磁界)の大きさや方向を測定する磁気センサ等の各種センサを含めることができる。
 GPS部224は、GPS(Global Positioning System)衛星からの信号を受信して、現在位置の測位を行い、その結果得られる現在位置を示す信号を出力する。なお、GPSは、測位システムの一例であり、他の測位システムを利用しても構わない。
 出力部207は、入出力インターフェース205を介してCPU201からの制御に従い、各種情報を出力する。例えば、出力部207は、表示部231、及び音出力部232を有する。
 表示部231は、CPU201からの制御に従い、画像信号に応じた画像や映像等を表示する。表示部231、液晶パネルやOLED(Organic Light Emitting Diode)パネル等のパネルと信号処理回路等で構成される。音出力部232は、CPU201からの制御に従い、音信号に応じた音を出力する。音出力部232は、スピーカや、出力端子に接続されるヘッドホン等で構成される。
 記憶部208は、CPU201からの制御に従い、各種データやプログラムを記録する。CPU201は、記憶部208から各種データを読み出して処理したり、プログラムを実行したりする。記憶部208は、半導体メモリ等の補助記憶装置で構成される。記憶部208は、内部ストレージとして構成されてもよいし、メモリカード等の外部ストレージであってもよい。
 通信部209は、CPU201からの制御に従い、ネットワーク30を介して他の機器と通信を行う。通信部209は、セルラー方式の通信(例えばLTE-Advancedや5G等)や、無線LAN等の無線通信、又は有線通信に対応した通信モジュール等の通信回路で構成される。近距離無線通信部210は、Bluetooth(登録商標)やNFC(Near Field Communication)等の近距離無線通信規格による無線通信に対応した通信回路で構成される。
 なお、図4に示したデバイス20の構成は一例であって、一部のブロックを取り除いたり、あるいは新たなブロックを追加したりしてもよい。例えば、入力部206としてマイクロフォンを設けたり、GPU(Graphics Processing Unit)等の画像処理回路を設けたりしても構わない。
 図5は、図4のデバイス20における制御部の機能的構成例を示すブロック図である。デバイス20における制御部の機能は、CPU201によって、サーバ10からダウンロードされたアプリケーション(デバイス側アプリ)のプログラムが実行されることで実現される。
 図5において、デバイス20における制御部251は、再生準備部261、及び再生部262を有する。再生準備部261は、ユーザの操作に応じて場所に意味付けをして空間サウンドを設定することで、空間サウンド(が含む空間要素コンテンツ)の再生を準備する再生準備処理を行う。再生部262は、再生準備処理で設定された設定内容に基づき空間サウンド(が含む空間要素コンテンツ)を再生する再生処理を行う。
 再生準備部261は、場所設定部271、行動パターン選択部272、行動パターン設定部273、空間サウンド選択部274、及び空間要素コンテンツ設定部275を有する。
 場所設定部271は、ユーザの操作に応じて、屋外又は屋内の場所を設定する。行動パターン選択部272は、サーバ10から取得した行動パターンを提示して、ユーザからの選択を受け付けることで、設定場所に対する行動パターンを選択する。行動パターン設定部273は、設定場所に対し、選択された行動パターンを設定する。
 空間サウンド選択部274は、サーバ10から取得した空間サウンドを提示して、ユーザからの選択を受け付けることで、設定場所に対する空間サウンドを選択する。空間要素コンテンツ設定部275は、選択された行動パターンと空間サウンドに応じて、設定場所に関連付けられた(設定場所に紐づく)空間要素コンテンツを配置し、再生条件を満たしたときに再生される空間要素コンテンツとして設定する。
 再生部262は、空間要素コンテンツ再生部281を有する。空間要素コンテンツ再生部281は、再生条件を満たしていると判定された場合に、設定された空間要素コンテンツを再生する。再生条件としては、例えば、デバイス20を所持したユーザが設定場所に応じた範囲内に存在していることと、予め設定された設定条件を満たしていることを含む。
<行動パターンによる場所とコンテンツの紐づけ>
 以上のように構成されるシステム1においては、行動パターンを介して、それぞれの場所における行動(行為や動作を含む)と、選択したいコンテンツとが結び付くことで、ユーザの場所ごとに抱く心象と関連するコンテンツの提示を、より簡単に、かつ、効率的に行うことが可能となる。すなわち、行動パターンを介して、場所とコンテンツとを結び付けることによって、それぞれの場所における行動に関連するコンテンツの選択や配置を容易にすることができる。また、行動パターンは、各ユーザが選択するものであって、ユーザごとに異なるため、個々のユーザごとのカスタマイズも効率的に行うことができる。
 本開示で提案する手法では、行動パターンを用いるに際して、一般的なユーザの日常における基本的な行動の多くは、画一的であり反復性があることに注目している。屋外だけでなく屋内を含む生活圏におけるユーザの活動の場所というものは、大きくは変化しない。さらに、場所と場所とを結ぶ生活行動線も大きく変化することは稀であり、その場所や、場所から場所での行動も類似している。その上で、その類似の行動を、行動パターンとして定義する。行動パターンは、サービス提供者により予め用意される。本開示で提案する手法では、予め用意された行動パターンを、ユーザによって好みの場所に配置してもらうことで、その行動パターンに合致したコンテンツによるユーザ体験を、場所の情報を把握することで提供する。
 行動パターンは、日常の中で反復されるユーザの行動であり、例えば、「通勤する」、「通学する」、「身支度する」、「食べる」、「寝る」などの習慣的な行動が行動パターンに含まれる。つまり、行動パターンは、ユーザの習慣化される特に日常の行動をシンボル的に示したものであって、行動や心象等を明示したものである。
 図6は、行動パターンのシンボル化を模式的に示した図である。図6では、生活圏において、屋外を領域A1、屋内を領域A2で表したときに、屋外と屋内での行動パターンをそれぞれ示している。屋外においては、行動パターンP11乃至P14として、「通勤・通学する」、「畏れる」、「集まる」、「交歓する」などが定義される。屋内においては、行動パターンP21乃至P23として、「食べる」、「休む」、「つくる」などが定義される。
 サービス提供者は、行動パターンを、ユーザの様々な日常行動のおける行動や心象等を想定して、ユーザが選択しやすいように予め準備しておく。さらに、ユーザによる自然言語等の入力方法により、ユーザ自らの、行動、目的、行為、心象などに関する表現を分析し、様々な機械学習等の技術を活用して、行動パターンの言語化の事例や表現を増やしていくことができる。
 行動パターンには、場所タグやコンテンツタグ等のタグが付与される。タグ付けされた行動パターンを基軸として、関連する場所と、関連するコンテンツとが紐づけされる。行動パターンに付与されるタグは、行動パターンに関するメタ情報の一例である。行動パターン(のタグ)を介した場所とコンテンツとの紐づけ情報は、ユーザによるサービス利用実績に基づき、随時更新することができる。この紐づけ情報は、ユーザの行動に応じて再生されるコンテンツの選択やタイミングの精度向上のための目的だけでなく、個々の場所が持つ場所の意味の蓄積、さらにはコンテンツが持つ意味等を、ユーザが実際に使った実績情報として蓄積や分析を行い、様々な利活用(利用と活用)にも役立てることができる。
 例えば、「通勤・通学する」である行動パターンを、ユーザが自宅から最寄り駅の間にある上り坂に設定した場合を想定する。この場合において、上り坂の存在は、地図情報からも認識されるもので、その坂での移動には通常より多くのエネルギーを要することが容易に想定される。しかし、その坂が通勤や通学の途中に訪れる場所だとすると、ユーザには、通常に坂を上るという行動が要求する肉体的なエネルギー以上に、役務や勉学に向かうための意識の高揚や活力といった精神的なエネルギーの確保への欲求も存在する。後者の要件は、明らかに地図上から読み取れる静的情報から想定される行動とは別であり、ユーザの主観ともいえる行動の目的や心象といった動的情報を基にしたものである。本開示で提案する手法では、このような動的情報が、行動パターンに関連付けられて取得されることにより、上り坂等の屋外の場所において意欲的に役務や勉学に向かうなどのユーザの行動の目的や心象に応じたコンテンツを再生することができる。
 また、屋内でのユーザ体験としては、例えば、次のようなケースが想定される。ユーザが夜の11時頃に、デバイス20を持って、寝室にあるベッド付近に移動した場合を想定する。このとき、ベッド付近の場所には、「寝る」又は「休む」である行動パターンが予め設定されている。これにより、ユーザの行動の実施が、例えば週末休暇に入る前日の夜である場合に、特に気持ちを静めてくれるようなユーザ体験をもたらすコンテンツを再生することができる。
 このように、本開示で提案する手法では、行動パターン(のタグ)を介して特定の場所と特定のコンテンツとが関連付けられる(紐づけられる)ことで、ユーザの行動や心象等を考慮したコンテンツの選択と再生が行われ、ユーザが、それぞれの場所で適切に再生されることを期待するコンテンツの提供が可能となる。よって、より良いユーザ体験を提供することが可能となる。
<サービス提供者側の処理>
 次に、システム1における各装置で実行される処理の詳細を説明する。まず、図7,図8のフローチャートを参照して、サーバ10の制御部151により実行されるサービス提供者側の処理の流れを説明する。
 図7は、行動パターンの場所との紐づけ、及び行動パターンの提示を行う処理の流れを示している。ステップS111では、行動パターン設定部161が、場所の特性とコンテンツの特性に基づいて、行動パターンを設定する。例えば、行動パターンとしては、「通勤・通学する」、「食べる」、「癒す」、「寝る」などが設定される。
 ステップS112では、場所タグ紐づけ部162が、行動パターンに対し、場所の特性を示すタグ(場所タグ)を付与することで、場所タグに適応する行動パターンを紐づける。この紐づけ処理は、ユーザ側の再生準備処理(図9)が行われる前に実行され、場所タグが付与された行動パターンが、紐づけ情報として予め準備される。
 ステップS113では、行動パターンの提示処理を行うかどうかが判定される。ステップS113においては、デバイス20で実行されるアプリケーションからのリクエストを受け付けて、行動パターンの提示処理を行うと判定されるのを待って、処理はステップS114に進められる。
 ステップS114では、アプリ連携処理部164が、設定場所に応じた行動パターンをデバイス20に提示する。この提示処理では、ユーザ側の再生準備処理(図9)の実行中に、リクエストを送信してきたアプリケーションに対し、設定場所に応じた場所タグが付与された行動パターンが提示される(図9のS213)。
 図8は、行動パターンのコンテンツとの紐づけ、及びコンテンツの配置を行う処理の流れを示している。ステップS131では、制御部151が、作品の世界観に応じて空間サウンドを分類する。ステップS132では、制御部151が、空間サウンドに含む空間要素コンテンツの特性をタグ付けする。
 空間サウンドの分類や空間要素コンテンツのタグ付けは、コンテンツを制作したクリエイタや、サービス提供者側のオペレータ等の操作を介して行われてもよいし、あるいは、空間サウンドや空間要素コンテンツのデータの解析処理を行うことで、クリエイタ等の操作を介さずに(自動で)行われてもよい。
 ステップS133では、コンテンツタグ紐づけ部163が、行動パターンに対し、空間要素コンテンツの特性を示すタグ(コンテンツタグ)を付与することで、コンテンツタグに適応する行動パターンを紐づける。すなわち、行動パターンには、空間要素コンテンツの特性を示すタグとのマッチングにより、クリエイタやサービス提供者が意図するコンテンツタグが付与される。この紐づけ処理で用いられる行動パターンは、図7のステップS111の処理で設定された行動パターンであり、場所タグとの紐づけも行われる(図7のS112)。また、この紐づけ処理は、ユーザ側の再生準備処理(図9)が行われる前に実行され、コンテンツタグが付与された行動パターンが、紐づけ情報として予め準備される。
 ステップS134では、コンテンツの配置処理を行うかどうかが判定される。ステップS134においては、デバイス20で実行されるアプリケーションからのリクエストを受け付けて、コンテンツの配置処理を行うと判定されるのを待って、処理はステップS135に進められる。
 ステップS135では、アプリ連携処理部164が、行動パターンと空間サウンドに応じて、場所に紐づく空間要素コンテンツを配置する。この配置処理では、ユーザ側の再生準備処理(図9)の実行中に、リクエストを送信してきたアプリケーションに対し、空間サウンドに含まれる空間要素コンテンツの中から、意味付けされた設定場所に紐づいた空間要素コンテンツが選択されて配置されるようにする。
 以上のように、サービス提供者側の処理では、ユーザ側の再生準備処理(図9)の実行前に、予め準備した行動パターンに対し、場所タグとコンテンツタグが付与され、適応するタグに紐づけられる。また、ユーザ側の再生準備処理(図9)の実行中に、デバイス20で実行されるアプリケーションと連携することで、行動パターンの提示処理と、コンテンツの配置処理が行われる。
<ユーザ側の再生準備処理>
 次に、図9,図10のフローチャートを参照して、デバイス20の制御部251により実行されるユーザ側の再生準備処理の流れを説明する。図9の説明に際しては、図11乃至図22のUI(User Interface)の例を適宜参照しながら説明する。
 ステップS211では、制御部251が、通信部209を制御して、ネットワーク30を介してサーバ10にリクエストを送信することで、サービスを利用するためのアプリケーションをダウンロードする。ダウンロードされたアプリケーションは、記憶部208に記録され、起動される。ユーザは、表示部231に表示されるアプリケーションの設定画面を操作(タップ操作等)して、サウンド体験したい場所を登録していくことになる。
 ステップS212では、場所設定部271が、ユーザの操作に応じて、屋外又は屋内の場所を設定する。場所設定時におけるアプリケーションのUIを、図11乃至図13に示している。
 屋外の場所を設定する際には、図11に示すように、「場所設定」の設定画面401が表示され、地図411上における特定の場所が指定可能となる。ユーザは、自宅や日常的な最寄り駅、よく立ち寄るお店、ジョギングでの休憩場所、散歩でいつも座るベンチ等の所望の場所を地図411上で確認し、エリア411A乃至411Cのように指定して設定することができる。
 また、図12に示すように、屋外の場所は、アプリケーションと連携したカメラ部222で撮影した撮影画像に含まれる物体(例えば、公園の噴水や木、建物等の構造物などの実空間に存在する物体)を、認識オブジェクトとして認識することで設定してもよい。認識オブジェクトは、公知の技術を用いて、撮影画像に解析処理を適用することで認識することができる。「オブジェクト認識」の設定画面402では、屋外の撮影画像412上の点線の枠で囲まれた認識オブジェクト412A乃至412Jが認識され、その場所を設定することができる。
 屋内の場所を設定する際には、図13に示すように、「オブジェクト認識」の設定画面403が表示され、屋内の撮影画像413上の点線の枠で囲まれた認識オブジェクト413A乃至413H(例えば、家具、家電、部屋等)が認識され、その場所を設定することができる。
 ここでは、アプリケーションと連携したカメラ部222で撮影した撮影画像に解析処理を適用するとともに、部屋内に設置された物体を識別する物体認識識別子等を用いて場所の特定を支援する機能を用いることで、家具、家電、部屋(例えば、居間、食卓、寝室、洗面所、台所)等の物体を、認識オブジェクトとして認識することができる。場所特定の支援機能としては、部屋内に設置されたワイヤレススピーカ等の機器と連携されたビーコン、トークン、2次元コード(例えばQRコード(登録商標))、UWB(Ultra Wide Band)、LED(Light Emitting Diode)照明等を利用することができる。
 このように、屋外の場合には、地図上で設定されるエリア、又は認識オブジェクトが指定され、屋内の場合には、認識オブジェクトが指定されることで、屋外又は屋内の場所を設定することができる。すなわち、設定場所は、指定された地図上のエリア又は認識オブジェクトをターゲットとして、実空間におけるユーザとターゲットとの相対的な位置関係により特定される。
 図9に戻り、ステップS213では、行動パターン選択部272が、行動パターンを提示して、ユーザからの選択を受け付ける。行動パターンは、タグが付与されており(図7のS112)、サーバ10により提示される(図7のS114)。つまり、行動パターンの場所タグによって、ステップS212で設定された設定場所に適応した行動パターンが提示されるので、ユーザは、提示された行動パターンの中から、所望の行動パターンを選択することができる。ステップS214では、行動パターン設定部273が、設定場所に対し、選択された行動パターンを設定する。このように、ユーザにより選択された行動パターンが設定場所に設定されることで、当該設定場所に対する意味付けがなされる。場所意味付け時におけるアプリケーションのUIを、図14乃至図16に示している。
 図14,図15は、屋外の場所を設定したときの「場所の意味付け」の設定画面を示している。図14では、地図411上に設定されたエリア411Cに対し、「通勤・通学する」、「食べる」、「癒す」、「語る」等の行動パターンを選択するための選択画面441が表示される。例えば、ユーザの操作によって、選択画面441から「通勤・通学する」が選択された場合、エリア411Cの場所に対し、「通勤・通学する」である行動パターンが設定され、当該場所に意味が与えられる。
 図15では、撮影画像412に含まれる認識オブジェクト412Hに重畳された場所情報422Hに対し、「通勤・通学する」等の行動パターンを選択するための選択画面442が表示される。例えば、ユーザの操作によって、選択画面442から「語る」が選択された場合、認識オブジェクト412Hの場所に対し、「語る」である行動パターンが設定され、当該場所に意味が与えられる。
 図16は、屋内の場所を設定したときの「場所の意味付け」の設定画面を示している。図16では、撮影画像413に含まれる認識オブジェクト413Eに重畳された場所情報423Eに対し、「癒す」、「食べる」、「寝る」、「語る」等の行動パターンを選択するための選択画面443が表示される。例えば、ユーザの操作によって、選択画面443から「癒す」が選択された場合、認識オブジェクト413Eの場所に対し、「癒す」である行動パターンが設定され、当該場所に意味が与えられる。
 このように、屋外、屋内ともに、「場所の意味付け」の設定画面において、提示される場所情報に対して、ユーザが所望の行動パターンを選択して配置していく。また、ユーザによる言語入力が行われるようにして、その結果得られる文字や音声等の入力情報に基づき、その内容の分析処理や学習処理を行い、行動パターンを自動生成することで、行動パターンの数と種類を増やしてもよい。なお、繰り返しになるので、説明は省略するが、設定画面において、他の設定場所についても同様に行動パターンを設定して場所に意味を与えることができる。あるいは、他の設定場所に対し、特定の設定場所と同様の意味が与えられてもよい。
 図9に戻り、ステップS215では、空間サウンド選択部274が、空間サウンドを提示して、ユーザからの選択を受け付ける。空間サウンドは、作品の世界観に応じて分類されたものであって、タグが付与された空間要素コンテンツを含んでいる(図8のS131,S132)。サービス提供者が推薦する空間サウンドを提示することで、ユーザに対し、好みの世界観を有するコンテンツの選択を可能にする。
 なお、空間サウンドに限らず、ユーザが利用している音楽配信サービスのストリーミングのチャネル情報、デバイス20の記憶部208に記録されている音楽コンテンツやそのメタ情報などが参照され、それらの選択肢が選択可能に提示されてもよい。コンテンツ選択時におけるアプリケーションのUIを、図17乃至図19に示している。
 図17,図18は、屋外の場所を設定したときの「コンテンツ選択」の設定画面を示している。図17では、「通勤・通学する」である行動パターンが設定されたエリア411Cの場所に対し、「スポーツに合う音楽」、「元気をくれる音楽」、「ドラマABCの世界」、「ドラマXYZの世界」、「アーティストNMLの世界」等の空間サウンドを選択するための選択画面451が表示される。例えば、ユーザの操作によって、選択画面451から「スポーツに合う音楽」である空間サウンドが選択される。
 図18では、「語る」である行動パターンが設定された認識オブジェクト412Hの場所に対し、空間サウンドを選択するための選択画面452が提示される。例えば、ユーザの操作によって、選択画面452から「元気をくれる音楽」が選択される。図19では、「癒す」である行動パターンが設定された認識オブジェクト413Eの場所に対し、空間サウンドを選択するため選択画面453が表示される。例えば、ユーザの操作によって、選択画面453から「アーティストNMLの世界」が選択される。
 図9に戻り、ステップS216では、空間要素コンテンツ設定部275が、行動パターンと空間サウンドに応じて、設定場所に紐づく空間要素コンテンツを配置する。ステップS217では、空間要素コンテンツ設定部275が、配置された空間要素コンテンツを、再生条件を満たしたときに再生されるコンテンツとして設定する。
 ここで配置される空間要素コンテンツは、空間サウンドに含まれる空間要素コンテンツであって、行動パターンが設定された設定場所(意味付けされた場所)に紐づいた空間要素コンテンツである。このように、行動パターンと場所の特性との関連性に応じて、設定場所に配置する空間要素コンテンツが選択されている。換言すれば、行動パターンには、タグが付与されているので(図8のS133)、行動パターンのコンテンツタグによって、ステップS215で選択された空間サウンドに含まれる空間要素コンテンツの中から、ステップS214で意味付けされた設定場所に紐づいた空間要素コンテンツが選択されて配置される。このように、行動パターンと空間要素コンテンツの特性との関連性に応じて、設定場所に空間要素コンテンツが配置されている。
 すなわち、上述した一連の設定の後に、ユーザ側のデバイス20で実行されるアプリケーション(デバイス側アプリ)が、サービス提供者側のサーバ10で実行されるアプリケーション(サーバ側アプリ)と通信を行う。このようにして、アプリケーションが連携することで、ユーザが選択した情報と行動パターンとが総合的に分析され、その結果として、意味付けされた設定場所に適切な空間サウンド(が含む空間要素コンテンツ)が自動配置される(図8のS135,図9のS216)。コンテンツ配置時におけるアプリケーションのUIの例を、図20乃至図22に示している。
 図20,図21は、屋外の場所を設定したときの「コンテンツ配置」の設定画面を示している。図20では、地図411上のエリア411A乃至411Cの場所に対し、空間要素コンテンツを示すコンテンツ情報431A乃至431Cがそれぞれ配置される。図21では、撮影画像412上の認識オブジェクト412A乃至412Jの場所に対し、空間要素コンテンツを示すコンテンツ情報432A乃至432Jがそれぞれ配置される。
 図22は、屋内の場所を設定したときの「コンテンツ配置」の設定画面を示している。図22では、撮影画像413上の認識オブジェクト413A乃至413Hの場所に対し、空間要素コンテンツを示すコンテンツ情報433A乃至433Hがそれぞれ配置される。
 図9に戻り、ステップS211でアプリケーションをダウンロードした後に、ステップS211乃至S217の処理と並行して、図10のステップS231の処理が行われ、センシング環境が設定される。センシング環境の設定では、実空間におけるユーザとターゲットとの相対的な位置関係を測定するためのセンシングに関する設定として、カメラ部222、センサ部223、GPS部224等に関する各種設定が行われる。
 図9のステップS212乃至S217の処理と、図10のステップS231の処理が完了すると、処理はステップS218に進められる。ステップS218では、再生準備部261が、空間要素コンテンツの再生準備を行う。この再生準備処理では、再生条件の生成や、再生条件を満たしたときに空間要素コンテンツの再生を行うための準備などの処理が行われる。
 再生条件は、例えば、設定場所の範囲や、予め設定された設定条件などにより定められる。設定場所の範囲は、空間要素コンテンツを再生する範囲であり、所定の形状(例えば、設定場所を含む円形や多角形の形状等)により定められる。設定条件は、人的情報や、環境情報、集団情報等の静的又は動的な情報により定められる条件である。人的情報は、生体情報、コンテクスト情報などを含む。環境情報は、日時、曜日、天候などに関する情報を含む。集団情報は、単独と集団(例えば、ユーザ単独か、若しくはユーザ以外に他のユーザも含むか)、集団特性などに関する情報を含む。人的情報、環境情報、集団情報等の情報は、サービス提供者側のサーバ10で用意され、デバイス20に提供されてもよい。
 以上のように、ユーザ側の再生準備処理では、ユーザが、アプリケーションの設定画面を操作して、サウンド体験したい場所を登録していくことで、場所に紐づいたコンテンツが自動配置され、コンテンツの再生条件が自動生成される。
 例えば、地図情報を用いて屋外の場所を登録する場合には、図11の「場所設定」、図14の「場所の意味付け」、図17の「コンテンツ選択」、図20の「コンテンツ配置」の順に設定画面401が遷移していくことで、行動パターンを基軸として、地図上のエリアに応じた所望の場所にコンテンツが自動配置され、コンテンツの再生条件が自動生成される。
 認識オブジェクトを用いて屋外の場所を登録する場合、図12の「オブジェクト認識」、図15の「場所の意味付け」、図18の「コンテンツ選択」、図21の「コンテンツ配置」の順に設定画面402が遷移していくことで、行動パターンを基軸として、認識オブジェクトに応じた所望の場所にコンテンツが自動配置され、コンテンツの再生条件が自動生成される。同様に、認識オブジェクトを用いて屋内の場所を登録する場合には、図13の「オブジェクト認識」、図16の「場所の意味付け」、図19の「コンテンツ選択」、図22の「コンテンツ配置」の順に設定画面403が遷移していくことで、コンテンツの再生条件が自動生成される。
 このように、ユーザは、アプリケーションの設定画面を操作して、予め準備された行動パターンを自らの行動範囲内の場所に配置することで、コンテンツの特性を示すタグとの関連性に基づき、クリエイタにより制作された複数のコンテンツを、複数の場所にそれぞれ配置することができる。そのため、サービス提供者やクリエイタの側からすれば、現状の状況や特性等に関する現地での調査作業と、行動パターンやコンテンツ等に関する配置作業を行うことなく、より少ない手間で(より少ない労力や時間で)、サービスを展開していくことができる。
 なお、上述した一連の処理では、空間サウンドを選択することで、意味付けされた場所に、空間サウンドに含まれる空間要素コンテンツを配置する場合を説明したが、空間サウンドを選択せずに、場所に紐づいた空間要素コンテンツを配置してもよい。要は、行動パターンに応じて、場所に紐づけた空間要素コンテンツが配置できればよく、その分類としての空間サウンドを定義するかどうかは任意である。また、空間サウンドの代わりに、例えば、音楽配信サービスのストリーミングのチャネル情報を用いた場合には、ユーザが選択したチャネル情報に含まれる音楽コンテンツが、場所に紐づくコンテンツとして配置される。
 上述した一連の処理において、アプリケーションの設定画面に対するユーザの操作としては、タップ操作、ドラッグ&ドロップ操作、ピンチアウト操作、ピンチイン操作などのタッチパネル操作が行われる。タッチパネル操作に限らず、例えば、物理的なボタンの操作や、音声入力を用いたユーザの声での操作など、他の操作が行われてもよい。
<ユーザ側の再生処理>
 次に、図23のフローチャートを参照して、デバイス20の制御部251により実行されるユーザ側の再生処理の流れを説明する。再生処理は、上述した再生準備処理(図9)が完了した後に実行される。
 ステップS251では、カメラ部222、センサ部223、及びGPS部224等が、制御部251からの制御に従い、設定場所におけるユーザの行動をセンシングする。ステップS252では、制御部251が、センシング結果と再生条件に基づいて、設定場所の範囲内、かつ、予め設定された設定条件を満たすかどうかを判定する。設定場所は、実空間におけるユーザとターゲットとの相対的な位置関係により特定される。この判定処理では、例えば、次のような判定が行われる。
 すなわち、第1に、デバイス20を所持したユーザの位置が、所定の形状により定められる設定場所の範囲内、すなわち、空間要素コンテンツを再生する範囲内にあるかどうかが判定される。例えば、屋外の場合に地図上でエリアを設定したとき、当該エリアにより指定されたターゲットの緯度経度を示す情報は、地図情報から取得可能である。そのため、デバイス20のGPS部224によるGPSを利用した測定で得られる緯度経度を示す情報を、ターゲットに対する相対位置に変換して、当該相対位置をターゲットの位置と比較することで、ユーザが設定場所の範囲内にいるかを判定可能である。ここでは、地図サービスにより提供される地図情報のほか、SLAM(Simultaneous Localization and Mapping)等を利用しても構わない。屋内の場合には、画像マーカやビーコン等を利用することができる。要は、ユーザが設定場所の範囲内にいるかを判定できればよく、その手法は任意である。
 第2に、判定時において、人的情報(生体情報、コンテクスト情報等)、環境情報(日時、曜日、天候等)、集団情報(単独と集団、集団特性等)等の情報により予め設定される設定条件を満たしているかどうかが判定される。人的情報等の情報は、サーバ10から適宜提供されてもよい。
 ステップS252において、設定場所の範囲内で、かつ、設定条件を満たすと判定されたかった場合、処理はステップS251に戻り、センシングとセンシング結果に基づいた判定処理が繰り返される。一方で、ステップS252において、設定場所の範囲内で、かつ、設定条件を満たすと判定された場合、処理はステップS253に進められる。
 ステップS253では、空間要素コンテンツ再生部281が、再生準備処理(図9)で設定された空間要素コンテンツを再生する。これにより、デバイス20では、スピーカやヘッドホン等で構成される音出力部232から、再生対象の空間要素コンテンツの音が出力される。すなわち、ユーザが、アプリケーションをダウンロードしたデバイス20を身に着けた状態で、設定場所の範囲内に入ったときに、予め設定された条件を満たしている場合には、デバイス20で空間要素コンテンツの再生が開始される。これにより、ユーザは、所望の場所でのサウンド体験を実現できる。
 ステップS254では、制御部251が、空間要素コンテンツの再生を継続するかどうかを判定する。ステップS254において、再生を継続すると判定された場合、処理はステップS253に戻り、空間要素コンテンツの再生が継続される。一方で、ステップS254において、再生を継続しないと判定された場合、空間要素コンテンツの再生が停止され、一連の処理は終了される。例えば、ユーザが移動して設定場所の範囲内から出たとき、設定条件を満たさなくなったとき、ユーザにより明示的に再生の終了が指示されたとき、空間要素コンテンツの再生が最後まで終わったときなどに、再生を継続しないと判定される。
 以上のように、ユーザ側の再生処理では、センサ部223等によるセンシングが行われ、再生準備処理で生成された再生条件を満たすと判定された場合に、再生準備処理で設定されたコンテンツが再生される。なお、再生条件として、設定場所の範囲と、予め設定された設定条件を用いた場合を示したが、設定条件は必ずしも用いる必要はない。
<デバイス他構成>
 図24は、図4のデバイス20における制御部251の機能的構成の他の例を示す図である。
 図24の制御部251Aは、図5の制御部251と比べて、再生準備部261、及び再生部262に加えて、調整部263がさらに設けられる。
 調整部263は、ユーザの操作に応じて、再生準備部261による再生準備処理で設定された設定内容を調整する調整処理を行う。調整処理としては、例えば、場所設定部271により設定された設定場所、空間サウンド選択部274により選択された空間サウンドの選択内容、空間要素コンテンツ設定部275により設定された空間要素コンテンツの配置などが調整される。
<ユーザ側の調整処理>
 次に、図25のフローチャートを参照して、デバイス20の制御部251Aにより実行されるユーザ側の調整処理の流れを説明する。図25の説明に際しては、図26乃至図28のUIの例を適宜参照しながら説明する。
 ステップS271では、制御部251Aが、設定内容を調整するかどうかを判定する。ステップS271においては、ユーザからの指示を受け付けて、設定内容を調整すると判定されるのを待って、処理はステップS272に進められる。
 ステップS272では、調整部263が、ユーザの操作に応じて、設定場所、空間サウンド、又は空間要素コンテンツ等の設定内容を調整する。設定内容調整時におけるアプリケーションUIを、図26乃至図28に示している。
 屋外の設定場所を調整する際には、図26に示すように、「場所調整」の設定画面401が表示され、地図411上に設定されたエリア411A乃至411Cを所望の場所に移動させることで、場所の調整が実現される。例えば、ユーザUは、エリア411Aをドラッグ&ドロップ操作することで、地図411上の所望の場所に移動させて、調整することができる。これにより、エリア411A内の空間要素コンテンツが配置された場所が調整される。
 また、屋外の認識オブジェクトの場所を調整する際には、図27に示すように、「場所調整」の設定画面402が表示され、撮影画像412に含まれる認識オブジェクト412A乃至412Jを所望の場所に移動させることで、場所の調整が実現される。例えば、ユーザUは、認識オブジェクト412Jの場所を調整する場合、認識オブジェクト412Jに重畳された場所情報422Jをドラッグ&ドロップ操作することで、撮影画像412上の所望の場所に移動させて、調整することができる。これにより、場所情報422Jに対応して配置される空間要素コンテンツの場所が調整される。なお、場所情報422Jの代わりに、その場所に対応して配置されるコンテンツ情報432Jを操作してもよい。
 図示は省略するが、屋内の認識オブジェクトの場所の調整は、屋外の認識オブジェクトの場所の調整と同様に、撮影画像413に含まれる認識オブジェクト413A乃至413Hに重畳された場所情報423(又はコンテンツ情報433)を所望の場所に移動させることで、場所の調整が実現される。
 認識オブジェクトの場所に紐づく空間要素コンテンツの場所調整については、物理的に移動可能な物体の場合、例えば、次のように行われる。すなわち、実空間において、物体を移動させた後に、その移動させた物体を含む状況を、改めて「場所調整」の設定画面の機能に含まれるカメラ機能によって、認識オブジェクトを再認識させることで、その変更点と空間サウンドとの関係性が自動更新される。これにより、ユーザの取り巻く空間内での場所調整や空間編集を行うことが可能となる。
 具体的には、図28に示すように、実空間において、部屋の奥に設置されていた観葉植物が手前のテーブル付近に移動された場合、観葉植物の移動が画像認識で判別され、認識された認識オブジェクト413Dの位置変更に伴う場所情報423D(又はコンテンツ情報433D)の位置変更が行われる。ここでは、説明の都合上、同一の部屋内での物体(例えば、観葉植物)の移動を例示したが、物体は、他の場所(例えば、寝室等の他の部屋)から移動したものであってもよい。
 なお、ユーザ側の調整処理は、上述した再生準備処理と同様に、デバイス20で実行されるアプリケーション(デバイス側アプリ)が、サーバ10で実行されるアプリケーション(サーバ側アプリ)と連携して処理を行うことで実現することができる。
 以上のように、ユーザ側の調整処理では、ユーザにより設定された場所や空間サウンド、あるいは、サービス提供者がシステムを活用して配置した空間要素コンテンツの場所などの設定内容を、ユーザが自由に変更することができる。例えば、ユーザは、行動パターンによって場所に紐づいた空間サウンドを、自ら利用し得られる体感に応じて調整することができる。より具体的には、空間サウンドの選択内容、空間要素コンテンツの配置、再生条件などの調整が可能であるため、ユーザは、自身の利用状況と感覚に最適化されたサウンド空間を構築することができる。
<デバイス他構成>
 図29は、図4のデバイス20における制御部251の機能的構成のさらに他の例を示す図である。
 図29の制御部251Bは、図24の制御部251Aと比べて、再生準備部261、再生部262、及び調整部263に加えて、学習部264がさらに設けられる。
 学習部264は、学習データを用いた機械学習を行い、学習済みモデルを生成し、再生準備部261に供給する。学習データとしては、再生準備部261、再生部262、及び調整部263から入力されるデータを用いることができる。調整部263では、ユーザの操作に応じて、再生準備部261による再生準備処理で設定された設定内容を調整する調整処理が行われるが、設定内容や調整内容に関するデータを、学習データとして用いることができる。また、学習データには、再生部262による再生処理で再生された再生内容に関するデータを含めてもよい。学習データは、外部から入力されるデータでもよい。
 これらの学習データを用いることで、学習部264では、例えば、ユーザによる空間サウンドの選択と変更の状況、空間要素コンテンツの設定と変更の状況、空間要素コンテンツの再生状況などが学習される。学習済みモデルは、学習データとしての設定内容、調整内容、再生内容に関するデータを入力とし、補正後の設定内容に関するデータを出力として学習したDNN(Deep Neural Network)を用いることができる。このようなDNNをベースとしたアルゴリズムは、公知の技術を用いることができる。例えば、学習に際して、調整内容に関するデータを教師データとして用いることで、ユーザの調整が加味された設定内容が、補正後の設定内容として出力される。
 再生準備部261には、学習部264から学習済みモデルが供給される。再生準備部261は、再生準備処理を行うに際して、学習済みモデルに対し、ユーザの操作に応じた設定内容のデータを入力することで、その出力として補正後の設定内容のデータを得ることができる。再生準備処理では、少なくとも一部の処理で学習済みモデルを用いて処理を行うことができる。例えば、再生準備処理では、学習済みモデルを用いて、行動パターンによる場所と空間要素コンテンツの組み合わせの設定内容を補正し、空間要素コンテンツの配置場所の精度を向上させることができる。
 以上のように、学習部264を設けて、ユーザが自ら利用し得られる体感に応じて設定内容を変更した場合に、設定内容、調整内容、再生内容に関するデータを学習データとして用いて機械学習を行うことで、再生準備処理において、機械学習で得られた学習済みモデルを用いた処理を行うことができる。なお、図29では、学習部264を、デバイス20側の制御部251Bに設けた構成を示したが、サーバ10側の制御部151に設けても構わない。制御部151が学習部264を有する場合、設定内容、調整内容、再生内容に関するデータがデバイス20からサーバ10に送られるようにして、学習部264が、それらのデータを用いて機械学習を行い、学習済みモデルを生成する。学習済みモデルは、サーバ10からデバイス20に送られ、記憶部208に記録される。
 以上、本開示で提案するシステム構成と各装置で実行される処理について説明した。本開示で提案する手法では、予め準備した行動パターンにより場所とコンテンツとを紐づけることで、ユーザの行動に応じて、場所に関連付けられたコンテンツを再生することができる。
 屋外と屋内のいずれの場所においても、それらの様々な場所で、ユーザが多様な行動や動作と合致した音楽を楽しめることは、日常生活において重要な体験である。しかし、多くの場合は、その場所や居合わせるタイミングにおいて、ユーザが、自らの心象にあった所望する音楽コンテンツを、音楽配信サービスのストリーミングチャネルから選曲したり、デバイスに蓄積している音楽コンテンツのファイルにアクセスしたりすることで、音楽コンテンツの選択や再生を行うのが一般的である。
 近年、スマートフォンや携帯音楽プレイヤ等のデバイスには、位置情報や生体情報を把握する機能が搭載されているものがあり、これらの情報を活用して、ユーザが再生した音楽コンテンツの選択状況や視聴状況から、楽曲の推薦を行う機能が提供されている。
 一方、主に屋外の事例であるが、テーマパークや遊園地、さらに特定の街中において、それらの特定の場所にて、事業主や興行主等が提供する様々な体験価値を高めることを目的に、場所を特定し、音楽や効果音、ナレーション等を再生するケースは増えてきている。この種のケースでは、事業主や興行主等が、予め地図上に音楽コンテンツ等を配置して、ユーザが所持するスマートフォン等のデバイスのGPS機能を活用し、ユーザが配置場所に入ったり出たりする状況を検知することで、音楽コンテンツ等を再生するシステムが用いられる。
 上述のテーマパークや遊園地、さらに特定の街中といったいわば特別設定される非日常的体験の場合は、事業主や興行主等は、ユーザと予め合意したエリアにおいて体験を提供することを約束するモデルであるので、エリアが限定された上に、そのエリア内の個々の場所の特性を把握することで、音楽コンテンツを配置して再生条件の設定を行うことができる。
 しかながら、ユーザの移動先が特定しにくい場合や、日常の生活圏という特定が難しい場合においては、ユーザが音楽を聴きたいと思う場所を特定することは容易ではなく、ユーザ自らの心象にあった所望する音楽コンテンツの選択や提示のタイミングを設定することは容易ではない。当然のことではあるが、事業主や興行主等に含まれるサービス提供者やクリエイタが、個々のユーザの動向や嗜好を調査し、場所を特定して音楽コンテンツを配置していくことも、その負荷を考えると現実的ではない。
 本開示で提案する手法では、ユーザがアプリケーションの設定画面を操作することで、予め準備された行動パターンにより場所とコンテンツとが紐づけられる。そのため、サービス提供者やクリエイタが、個々のユーザの動向や嗜好を調査したり、場所を特定して音楽コンテンツを配置したりすることなく、より少ない手間で(より少ない労力や時間で)サービスを展開していくことができる。また、ユーザが、それぞれの場所で適切に再生されることを期待するコンテンツの提供が可能となるため、より良いユーザ体験を提供することが可能となる。
<変形例>
 上述した説明では、デバイス20の制御部251の機能的構成を、図5に示したが、制御部251における再生準備部261と再生部262の機能のうち、一部の機能がサーバ10の制御部151に設けられてもよい。すなわち、上述した一連の処理は、サービス提供者側のサーバ10(の制御部151)と、ユーザ側のデバイス20(の制御部251)とが協働して動作することで実現することができる。換言すれば、本開示の実施の形態は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 上述した説明では、「実空間におけるユーザとターゲットとの相対的な位置関係」について述べたが、ユーザの位置は、ユーザが所持するデバイス20の位置と等価であるため、相対的な位置関係とは、ユーザが所持するデバイス20と、ターゲット(地図上のエリア又は認識オブジェクトにより指定されるターゲット)との位置関係であると捉えることもできる。
 上述した説明では、空間コンテンツとして、作品の世界観からなる空間を音により提供する空間サウンドを例示したが、映像や画像等の他の情報が提示されてもよい。例えば、空間コンテンツは、「癒し」、「パワー」、「思い出」等のテーマからなる空間を、立体音響等による音や、映像、画像等により提供することができる。例えば、「癒し」である空間コンテンツには、「Bird」、「Forest」、「Creek」等の空間要素コンテンツ(音楽コンテンツ)を含む。「Bird」である空間要素コンテンツは、心地よい鳥の鳴き声などにより、ユーザに対して「癒し」の空間を提供する。「Forest」である空間要素コンテンツは、木の葉を揺らす風の音などの森を感じることができる音により、ユーザに対して「癒し」の空間を提供する。「Creek」である空間要素コンテンツは、ゆるやかな小川の流れなどの水の音により、ユーザに対して「癒し」の空間を提供する。
 図12の「オブジェクト認識」の設定画面402、又は図13の「オブジェクト認識」の設定画面403では、アプリケーションと連携したカメラ部222で撮影した撮影画像に含まれる認識オブジェクトを自動で認識し、その場所を設定するとして説明したが、撮影画像に含まれる物体(公園の噴水等の実空間に存在する物体)をユーザが手動で指定することで、指定された物体が認識オブジェクトとして認識されて場所が設定されてもよい。なお、本明細書において、「自動」と記載した場合、サーバ10、デバイス20等の機器が、ユーザ、サービス提供者、クリエイタ等の直接的な操作を介さずに処理を行うことを意味し、「手動」と記載した場合、ユーザ等の直接的な操作を介して機器が処理を行うことを意味する。
<コンピュータ構成>
 上述したフローチャートの各ステップの処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体をドライブに装着することにより、入出力インターフェースを介して、記憶部にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部で受信し、記憶部にインストールすることができる。その他、プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されてもよいし、複数のコンピュータによって分散処理されてもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されてもよい。
 上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 また、本開示は、以下のような構成をとることができる。
(1)
 ユーザの行動を示す行動パターンが予め設定され、
 実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、
 設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する
 制御部を備える
 情報処理装置。
(2)
 前記行動パターンには、場所の特性を示すメタ情報とコンテンツの特性を示すメタ情報とに適応したメタ情報が付与されており、
 前記行動パターンに付与された前記メタ情報を介して、前記特定の場所と前記特定のコンテンツとが関連付けられる
 前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記行動パターンと前記コンテンツの特性との関連性に応じて、前記特定の場所に前記特定のコンテンツを配置する
 前記(2)に記載の情報処理装置。
(4)
 前記制御部は、前記行動パターンと前記場所の特性との関連性に応じて、前記特定の場所に配置する前記特定のコンテンツを選択する
 前記(2)に記載の情報処理装置。
(5)
 前記行動パターンには、前記コンテンツの特性を示すメタ情報とのマッチングにより、前記コンテンツを制作するクリエイタ又は前記コンテンツを提供する提供者が意図するメタ情報が付与されている
 前記(2)に記載の情報処理装置。
(6)
 前記制御部は、前記特定のユーザの操作に応じて、前記特定の場所及び前記特定のコンテンツの少なくとも一方の設定内容を調整する
 前記(1)に記載の情報処理装置。
(7)
 前記制御部は、前記特定の場所及び前記特定のコンテンツの設定内容に関するデータと、前記ユーザの操作に応じた調整内容に関するデータとを学習データとして用いた機械学習を行い、学習済みモデルを生成する
 前記(6)に記載の情報処理装置。
(8)
 前記学習済みモデルは、前記設定内容と前記調整内容に関するデータを入力とし、補正後の設定内容に関するデータを出力として学習したDNNであり、
 前記制御部は、前記学習済みモデルを用い、前記特定の場所及び前記特定のコンテンツの少なくとも一方の設定内容を補正する
 前記(7)に記載の情報処理装置。
(9)
 前記制御部は、前記特定の場所に応じた再生条件を満たした場合に、前記特定のコンテンツを再生する
 前記(1)に記載の情報処理装置。
(10)
 前記制御部は、前記ユーザが前記特定の場所に応じた範囲内に存在し、かつ、予め設定された設定条件を満たす場合、前記特定のコンテンツを再生する
 前記(9)に記載の情報処理装置。
(11)
 前記複数のコンテンツは、空間コンテンツにより分類される空間要素コンテンツを含み、
 前記制御部は、前記ユーザの操作に応じた前記空間コンテンツを選択し、選択した前記空間コンテンツに含まれる前記空間要素コンテンツを、前記特定の場所に関連付けられた前記特定のコンテンツとして配置する
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記空間コンテンツは、作品の世界観からなる空間を音により提供する空間サウンドであり、
 前記空間要素コンテンツは、音楽コンテンツである
 前記(11)に記載の情報処理装置。
(13)
 前記ターゲットは、地図上で設定されるエリア、又は実空間に存在する物体を認識した認識オブジェクトにより指定される
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(14)
 情報処理装置が、
 ユーザの行動を示す行動パターンが予め設定され、
 実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、
 設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する
 情報処理方法。
(15)
 コンピュータを、
 ユーザの行動を示す行動パターンが予め設定され、
 実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、
 設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する
 制御部として機能させるプログラム。
 1 システム, 10 サーバ, 20,20-1乃至20-N デバイス, 30 ネットワーク,101 CPU, 151 制御部, 161 行動パターン設定部, 162 場所ダグ紐づけ部, 163 コンテンツタグ紐づけ部, 164 アプリ連携処理部, 201 CPU, 251,251A,251B 制御部, 261 再生準備部, 262 再生部, 263 調整部, 264 学習部, 271 場所設定部, 272 行動パターン選択部, 273 行動パターン設定部, 274 空間サウンド選択部, 275 空間要素コンテンツ設定部, 281 空間要素コンテンツ再生部

Claims (15)

  1.  ユーザの行動を示す行動パターンが予め設定され、
     実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、
     設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する
     制御部を備える
     情報処理装置。
  2.  前記行動パターンには、場所の特性を示すメタ情報とコンテンツの特性を示すメタ情報とに適応したメタ情報が付与されており、
     前記行動パターンに付与された前記メタ情報を介して、前記特定の場所と前記特定のコンテンツとが関連付けられる
     請求項1に記載の情報処理装置。
  3.  前記制御部は、前記行動パターンと前記コンテンツの特性との関連性に応じて、前記特定の場所に前記特定のコンテンツを配置する
     請求項2に記載の情報処理装置。
  4.  前記制御部は、前記行動パターンと前記場所の特性との関連性に応じて、前記特定の場所に配置する前記特定のコンテンツを選択する
     請求項2に記載の情報処理装置。
  5.  前記行動パターンには、前記コンテンツの特性を示すメタ情報とのマッチングにより、前記コンテンツを制作するクリエイタ又は前記コンテンツを提供する提供者が意図するメタ情報が付与されている
     請求項2に記載の情報処理装置。
  6.  前記制御部は、前記特定のユーザの操作に応じて、前記特定の場所及び前記特定のコンテンツの少なくとも一方の設定内容を調整する
     請求項1に記載の情報処理装置。
  7.  前記制御部は、前記特定の場所及び前記特定のコンテンツの設定内容に関するデータと、前記ユーザの操作に応じた調整内容に関するデータとを学習データとして用いた機械学習を行い、学習済みモデルを生成する
     請求項6に記載の情報処理装置。
  8.  前記学習済みモデルは、前記設定内容と前記調整内容に関するデータを入力とし、補正後の設定内容に関するデータを出力として学習したDNNであり、
     前記制御部は、前記学習済みモデルを用い、前記特定の場所及び前記特定のコンテンツの少なくとも一方の設定内容を補正する
     請求項7に記載の情報処理装置。
  9.  前記制御部は、前記特定の場所に応じた再生条件を満たした場合に、前記特定のコンテンツを再生する
     請求項1に記載の情報処理装置。
  10.  前記制御部は、前記ユーザが前記特定の場所に応じた範囲内に存在し、かつ、予め設定された設定条件を満たす場合、前記特定のコンテンツを再生する
     請求項9に記載の情報処理装置。
  11.  前記複数のコンテンツは、空間コンテンツにより分類される空間要素コンテンツを含み、
     前記制御部は、前記ユーザの操作に応じた前記空間コンテンツを選択し、選択した前記空間コンテンツに含まれる前記空間要素コンテンツを、前記特定の場所に関連付けられた前記特定のコンテンツとして配置する
     請求項1に記載の情報処理装置。
  12.  前記空間コンテンツは、作品の世界観からなる空間を音により提供する空間サウンドであり、
     前記空間要素コンテンツは、音楽コンテンツである
     請求項11に記載の情報処理装置。
  13.  前記ターゲットは、地図上で設定されるエリア、又は実空間に存在する物体を認識した認識オブジェクトにより指定される
     請求項1に記載の情報処理装置。
  14.  情報処理装置が、
     ユーザの行動を示す行動パターンが予め設定され、
     実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、
     設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する
     情報処理方法。
  15.  コンピュータを、
     ユーザの行動を示す行動パターンが予め設定され、
     実空間における特定のユーザとターゲットとの相対的な位置関係により特定される特定の場所に対し、前記特定のユーザに応じた前記行動パターンを設定し、
     設定された前記行動パターンに応じて、複数のコンテンツの中から前記特定の場所に関連付けられた特定のコンテンツを設定する
     制御部として機能させるプログラム。
PCT/JP2023/034646 2022-10-13 2023-09-25 情報処理装置、情報処理方法、及びプログラム WO2024080107A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-164513 2022-10-13
JP2022164513 2022-10-13

Publications (1)

Publication Number Publication Date
WO2024080107A1 true WO2024080107A1 (ja) 2024-04-18

Family

ID=90669143

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/034646 WO2024080107A1 (ja) 2022-10-13 2023-09-25 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024080107A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070419A (ja) * 2002-08-01 2004-03-04 Matsushita Electric Ind Co Ltd 広告情報送信装置
JP2007279853A (ja) * 2006-04-03 2007-10-25 Ntt Docomo Inc 携帯端末、コンテンツ提供システム、及びコンテンツ提供方法
JP2016062239A (ja) * 2014-09-17 2016-04-25 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070419A (ja) * 2002-08-01 2004-03-04 Matsushita Electric Ind Co Ltd 広告情報送信装置
JP2007279853A (ja) * 2006-04-03 2007-10-25 Ntt Docomo Inc 携帯端末、コンテンツ提供システム、及びコンテンツ提供方法
JP2016062239A (ja) * 2014-09-17 2016-04-25 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
CN105721266B (zh) 用于装置自动操作的系统和方法
JP6984004B2 (ja) 自律パーソナルコンパニオンによってユーザの人工知能モデルが実行するためのユーザのコンテクスト環境を記述する識別タグに基づくシナリオの継続的選択
CN106873773B (zh) 机器人交互控制方法、服务器和机器人
US7116789B2 (en) Sonic landscape system
US10991462B2 (en) System and method of controlling external apparatus connected with device
US20220278864A1 (en) Information processing system, information processing device, information processing method, and recording medium
CN107078706A (zh) 自动音频调整
US20180241864A1 (en) Wearable Devices
CN106465008B (zh) 终端混音系统和播放方法
JP6589880B2 (ja) 情報処理システム、制御方法、および記憶媒体
JP2009098446A (ja) 情報提供システム、情報提供装置、情報提供方法、端末装置、表示方法
US20220122328A1 (en) System and method for updating objects in a simulated environment
US20220246135A1 (en) Information processing system, information processing method, and recording medium
Indans et al. Towards an audio-locative mobile application for immersive storytelling
JP7136099B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2024080107A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230031587A1 (en) System and method of controlling image processing devices
Kimura et al. Case studies to enhance collectively sharing human hearing: ambient sounds memory and mindful speaker
JP6884854B2 (ja) 音声提供装置、音声提供方法及びプログラム
Dublon Sensor (y) landscapes: Technologies for new perceptual sensibilities
JPWO2020149031A1 (ja) 応答処理装置及び応答処理方法
Tsepapadakis et al. 3D Audio+ Augmented Reality+ AI Chatbots+ IoT: An Immersive Conversational Cultural Guide
CN110047341A (zh) 情景语言学习设备、系统和方法
CN114571449A (zh) 数据处理方法、装置,智能机器人及计算机介质
JP2016177514A (ja) 機能提供装置および機能提供システム