WO2024161991A1 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- WO2024161991A1 WO2024161991A1 PCT/JP2024/001049 JP2024001049W WO2024161991A1 WO 2024161991 A1 WO2024161991 A1 WO 2024161991A1 JP 2024001049 W JP2024001049 W JP 2024001049W WO 2024161991 A1 WO2024161991 A1 WO 2024161991A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- content
- user
- text
- information processing
- surrounding environment
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 46
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims description 29
- 230000002093 peripheral effect Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 38
- 230000007613 environmental effect Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 27
- 238000001514 detection method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000002360 preparation method Methods 0.000 description 8
- 238000003825 pressing Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 241000556720 Manga Species 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- VAYOSLLFUXYJDT-RDTXWAMCSA-N Lysergic acid diethylamide Chemical compound C1=CC(C=2[C@H](N(C)C[C@@H](C=2)C(=O)N(CC)CC)C2)=C3C2=CNC3=C1 VAYOSLLFUXYJDT-RDTXWAMCSA-N 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Definitions
- This technology relates to an information processing device, an information processing method, and a program, and in particular to an information processing device, an information processing method, and a program that can provide a user with content suited to the surrounding environment.
- One technology that supports user content selection is one that provides sounds that match the surrounding environment by inputting images of the surrounding environment into a recognizer that has learned to combine images and sounds.
- image and sound combinations are learned based on video images that are publicly available on the Internet, for example.
- An information processing device includes a similarity evaluation unit that evaluates the similarity between a first text linked to a content and peripheral data related to the user's surrounding environment input by the user, and a selection unit that selects the content corresponding to the surrounding environment from among a plurality of the contents based on the similarity.
- An information processing method evaluates the similarity between text associated with content and surrounding data about the user's surrounding environment input by the user, and selects the content corresponding to the surrounding environment from among a plurality of pieces of content based on the similarity.
- a program causes a computer to execute a process of evaluating the degree of similarity between text associated with content and peripheral data about the user's surrounding environment input by the user, and selecting the content corresponding to the surrounding environment from among a plurality of pieces of content based on the degree of similarity.
- the similarity between text associated with a content and surrounding data about the user's surrounding environment input by the user is evaluated, and the content corresponding to the surrounding environment is selected from among the multiple pieces of content based on the similarity.
- FIG. 1 is a diagram showing a configuration example of an embodiment of a content providing system to which the present technology is applied;
- FIG. 13 is a diagram showing an example of an application screen when spatial content is provided.
- 1A and 1B are diagrams illustrating an example of matching between a peripheral image and element content in the present technology.
- FIG. 13 is a diagram showing a flow of element content selection in the present technology.
- FIG. 13 is a diagram showing an example of a creator tool screen when registering element content.
- FIG. 11 is a diagram illustrating a first flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a first flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a first flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a second flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a second flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a third flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a third flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram illustrating a third flow in which a user prepares to play back spatial content.
- FIG. 11 is a diagram showing an example of a first flow for transmitting subjective text without selecting element content.
- FIG. 13 is a diagram showing an example of a second flow in which subjective text is sent without selecting element content.
- FIG. 2 is a block diagram showing an example of the configuration of a user terminal.
- FIG. 2 is a diagram illustrating an example of the configuration of a creator terminal.
- 11 is a flowchart illustrating a process performed by a user terminal.
- 13 is a flowchart illustrating a process performed by a creator terminal.
- FIG. 13 is a diagram illustrating a fourth flow in which a user prepares to play back spatial content.
- FIG. 13 is a diagram illustrating a fourth flow in which a user prepares to play back spatial content.
- FIG. 13 is a diagram illustrating a fifth flow in which a user prepares to play back spatial content.
- 13 is a flowchart illustrating a process performed by a user terminal in the second embodiment.
- FIG. 11 is a diagram showing an example of data acquired by the content providing system.
- FIG. 13 is a diagram illustrating an example of data used for learning.
- FIG. 2 is a block diagram showing an example of the hardware configuration of a computer.
- First embodiment 2.
- Second embodiment Example of using data acquired by a content providing system for learning
- FIG. 1 is a diagram showing a configuration example of an embodiment of a content providing system to which the present technology is applied.
- the content providing system in Figure 1 is a system that provides spatial content.
- Spatial content is content that provides a space consisting of the world view (theme) of a work such as animation, manga, movie, or drama, for example, through stereophonic sound.
- Spatial content includes one or more elemental contents (sound, image, text, etc.) that correspond to the world view of the work.
- spatial content and elemental contents are collectively referred to as content.
- the content provision system shown in FIG. 1 is composed of a user terminal 1, a creator terminal 2, and a server 3, and the user terminal 1, the creator terminal 2, and the server 3 can be connected to each other via a wired or wireless network.
- the user terminal 1 is an information processing device owned by a user who is a subscriber of the content provision service provided by the server 3.
- the user terminal 1 may be a smartphone, a tablet terminal, a wearable device, a wearable camera, a portable music player, a game console, a PC, or the like.
- the user can use the content provision service provided by the server 3. Specifically, the user terminal 1 downloads an application and cooperates with the server 3 to exchange data, thereby preparing to play back spatial content.
- elemental content that corresponds to the worldview of a work is placed in an area on a map.
- a scape is formed in which it is possible to experience, for example, one of the scenes that make up a work.
- a world an area of real space in which it is possible to experience all or part of a work by experiencing each scene in multiple scapes.
- the user terminal 1 plays the spatial content (element content).
- the creator terminal 2 is an information processing device such as a PC operated by a creator who produces the entire work expressed by the spatial content and each element content.
- the creator terminal 2 executes creator tools, generates content to be provided by the content providing service in response to the creator's operations, and registers the content to the server 3.
- the server 3 is an information processing device managed by the operator of the content provision service.
- the server 3 distributes applications for using the content provision service.
- the server 3 also records content created by creators, and transmits the content to the user terminal 1.
- the content does not necessarily have to be transmitted by the server 3, but may be transmitted to the user terminal 1 by the creator terminal 2 or another server different from the server 3.
- FIG. 2 is a diagram showing an example of an application screen when spatial content is provided.
- a map M1 showing the extent of the world is displayed on the user terminal 1, as shown in Figure 2.
- four areas A1 to A4 in which element content is placed are set within the world.
- the black pin Pi1 indicates the user's current location. As shown in FIG. 2, when the user is within area A1, element content arranged in area A1 is provided to the user by user terminal 1.
- element content multiple types are provided that allow the user to experience one of the scenes that make up the work. For example, when the user is in area A1, sound is provided as element content arranged in area A1, and image CP1 and text T1 are displayed at the bottom of the screen as element content arranged in area A1.
- image CP1 and text T1 are displayed at the bottom of the screen as element content arranged in area A1.
- the sound, image (moving image or still image), and text provided as element content are referred to as content sound, content image, and content text, respectively.
- Areas A1 to A4 arranged within the world are set up by the user going to a desired location within the world when preparing to play back spatial content, and repeatedly selecting and placing element content that suits the location where the user is located from among multiple element content that correspond to the worldview of a certain work.
- One possible method for supporting the user in selecting element content is for the user to take a picture of the surrounding environment using the user terminal 1, and for the content providing system to select element content that matches the surrounding environment from among multiple element contents based on the surrounding image (still image or video image) of the surrounding environment.
- This method requires scene-level matching, and requires comprehensive recognition of things contained in the surrounding environment, rather than a combination of objects.
- One example of a technology that performs this type of matching is one that provides sounds that match the surrounding environment by inputting images of the surrounding environment into a recognizer that has been trained to combine images and sounds.
- image and sound combinations are learned based on video images that are publicly available on the Internet, for example.
- Figure 3 shows an example of matching a surrounding image with element content using this technology.
- element content corresponding to the worldview of a certain work A is linked to environmental description text, which is a sentence that shows the state of the environment that matches that element content.
- environmental description text is a sentence that shows the state of the environment that matches that element content.
- the content provision system of this technology uses a general-purpose recognizer to evaluate the similarity between the surrounding image and the environmental description text, and can select element content that matches the surrounding environment based on that similarity.
- FIG. 4 shows the flow of element content selection in this technology.
- a user takes a picture of his/her surrounding environment using the user terminal 1, and inputs the surrounding image to the recognizer 11.
- the recognizer 11 is, for example, a recognizer that has undergone machine learning to detect correlations between a large amount of images and text published on the Internet.
- the recognizer 11 evaluates the similarity between the surrounding image and environmental description text that is linked to multiple element contents that correspond to the worldview of a certain work.
- the content providing system generates a ranking in which element contents are arranged in order of the similarity between the associated environmental description text and the surrounding image, and presents this to the user.
- a group of element contents that have been put together to allow the user to experience scenes A through F that make up a certain work are presented in order.
- the user can, for example, input subjective text.
- the subjective text is a sentence that expresses the user's subjective opinion about the surrounding environment itself or the combination of the surrounding environment and the element content, such as why the user thought the element content matched the surrounding environment, or how the user felt when viewing the element content in the user's location.
- the subjective text is used for additional training of the recognizer 11 and to support the creator when writing the environmental description text.
- Figure 5 shows an example of the creator tool screen when registering element content.
- a group of element contents is registered for each scene that constitutes the work. Element contents may also be registered one by one.
- thumbnail image Th11 of the content image When registering element content, as shown in FIG. 5, a thumbnail image Th11 of the content image, text T11 indicating the title of the scape (scene), the file name of the element content, etc., and a text box TB1 for inputting environmental description text are displayed on the creator terminal 2.
- the environment description text is entered, for example, by the creator when registering element content, and is registered in association with that element content.
- an edit button B1 for starting preparation for playback is displayed in the upper right part of the screen displayed on the user terminal 1.
- the screen in FIG. 6A only illustrates areas and pins, and the map showing the range of the world is omitted.
- the white pin indicates the user's destination.
- the edit button B1, area, pin, etc. are displayed superimposed on the map. The same applies to the other figures.
- the user can start preparing to play back spatial content by pressing edit button B1 while in area A1 in real space.
- a save button B2 for completing the changes to the element content is displayed in place of the edit button B1, as shown in FIG. 6B.
- a change button B3 for changing the element content already placed in area A1 is displayed to the right of the content text provided in area A1.
- a list is displayed in which multiple element contents corresponding to the worldview of a certain work are arranged, as shown in FIG. 6C.
- FIG. 6C combinations of thumbnail images of content images and content text are arranged according to the scenes that make up the work.
- selection buttons B5a to B5d are displayed to the right of each content text to select each element content group as the element content group to be placed in area A1.
- button B4 is displayed to present a ranking based on the similarity with surrounding images.
- thumbnail images and content text of the content images already placed in area A1 are displayed at the bottom of the screen, and a cancel button B6 for canceling changes to the element content is displayed to the right of the content text.
- the user terminal 1 When the user presses button B4, the user terminal 1 starts capturing an image of the surrounding environment (the user's first-person perspective image), and as shown in FIG. 7D, a surrounding image P1 is displayed on the screen of the user terminal 1.
- a capture button B7 for acquiring the surrounding image is displayed below the surrounding image P1.
- a surrounding image P1 of the current surrounding environment is acquired, and the similarity between the surrounding image P1 and the environmental description text linked to each element content group is evaluated. After that, a ranking of each element content group based on the similarity is generated, and the ranking is displayed as shown in FIG. 7E.
- selection buttons B11a to B11d are displayed to the right of each content text to select each element content group as the element content group to be arranged in area A1.
- the user can select a desired element content group from among the multiple element content groups displayed in the ranking. As shown in FIG. 7E, the user can place in area A1 the element content group linked to the environmental description text that is most similar to the surrounding image, for example, by pressing selection button B11a. In other words, the user can change the element content group already placed in area A1 to the element content group selected from the ranking.
- the user can say that the similarity between the environmental description text linked to the selected element content group and the surrounding image P1 is the highest. Therefore, the accuracy of the recognizer 11 can be improved by re-training the recognizer 11 using the environmental description text and the surrounding image P1 as training data.
- buttons B4 can press button B4 again to take another image of the surrounding area.
- a ranking of element contents taking into consideration the shooting conditions of the surrounding image may be presented, and element contents suitable for the surrounding environment may be selected from the element contents. For example, if the surrounding image was taken at night, a ranking of element contents provided only at night may be presented, or element contents provided only at night may be presented at the top of the ranking.
- the shooting conditions of the surrounding image may be identified by the user terminal 1 based on, for example, the shooting time of the surrounding image or the surrounding image itself. Some of the playback conditions of the element content, such as being provided only at night, may be determined by the creator when the element content is registered. A sentence regarding the playback conditions of the element content may be included in the environment description text.
- Second flow of preparation for playing spatial content (example of newly arranging element content)
- a second flow in which the user prepares to play back spatial content will be described with reference to FIG. 8 and FIG.
- the user terminal 1 When the user presses button B4 displayed at the top of the list, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 8C.
- the user can place a group of element contents linked to the environmental description text most similar to the surrounding image in a new area including the user's current location.
- the element contents are placed in a circular area of a predetermined size centered on the user's current location.
- the Select button B11a When the user presses, for example, the Select button B11a, the area A11 in which the element content group has been newly placed is displayed on the map as shown in FIG. 9E, and thumbnail images of the content images placed in area A11 and the content text are displayed below the map. Note that, as described with reference to FIG. 6 and FIG. 7, the user can change the element content group placed in area A11 by pressing the Change button B3 located to the right of the content text.
- the user terminal 1 When the user presses button B4 displayed at the top of the list, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 10B.
- a button B21 is displayed to the right of the capture button B7 displayed below the surrounding image P1.
- a list of surrounding images previously captured within the area where the user is currently located is displayed, as shown in FIG. 10C.
- area #11 enclosed by a dashed line displays surrounding images that the user has taken in the past using the user terminal 1 within the area in which the user is currently located.
- Area #12 enclosed by a dashed line displays surrounding images that other users have taken in the past within the area in which the user is currently located.
- surrounding images previously taken by other users are accumulated on server 3 and may include images posted on SNS (Social Network Service) and images obtained from other systems.
- SNS Social Network Service
- the user can select the desired surrounding image from multiple surrounding images displayed on the screen. For example, even if it is raining in the real world, the user can select an image taken on a sunny day as the surrounding image.
- the surrounding image P11 selected by the user is displayed at the top of the screen, as shown in FIG. 11D, and subjective text T21 entered by another user for the surrounding image P11 is displayed below the surrounding image P11.
- a text box TB11 is displayed for inputting the user's subjective text about the surrounding image P11.
- the user can input their impressions of the surrounding image P11 in the text box TB11.
- a send button B31 is displayed for sending the subjective text entered by the user to the server 3.
- the text entered in the text box TB11 is sent to the server 3 as subjective text for the surrounding image P11.
- Environmental description text may be generated based on the subjective text sent to the server 3.
- the subjective text sent to the server 3 may be linked directly as environmental description text to the element content ultimately selected by the user.
- the subjective text is transmitted, and the similarity between the environmental description text linked to each element content group and the surrounding image P11 is evaluated. After that, a ranking of each element content group based on the similarity is generated, and the ranking is displayed as shown in FIG. 11E.
- the user can place a group of element contents linked to the environmental description text that is most similar to the surrounding image in the area where the user is currently located, or in a new area that includes the user's current location.
- FIG. 12 is a diagram showing an example of a first flow in which subjective text is transmitted without selecting element content.
- a group of element contents arranged in area A1 is provided to the user.
- a share button B41 is displayed to the right of the content text provided to the user on the screen of the user terminal 1.
- the user terminal 1 When the user presses the share button B41 while element content is being provided, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 12B.
- the peripheral image P1 is acquired, and at least a part of the acquired peripheral image P1 is displayed at the top of the screen, as shown in FIG. 12C.
- a text box TB21 is displayed below the peripheral image P1 for inputting the user's subjective text regarding the combination of area A1 and element content. For example, the user can input their impressions of viewing the element content in area A1 in text box TB21.
- a send button B42 is displayed for sending the subjective text entered by the user to the server 3.
- the send button B42 When the send button B42 is pressed, the subjective text entered in the text box TB21 is sent to the server 3 together with the surrounding image P1, location information of area A1 (information on the user's current location), information indicating the element content provided in area A1, and the like.
- the element content group includes a content sound
- a video image of the user's surrounding environment that includes the content sound as audio may be transmitted to the server 3 instead of the surrounding image P1.
- the subjective text entered in the text box TB21 may be posted to an SNS.
- a hashtag or URL indicating the work itself (world) or a scene that constitutes the work may be automatically entered in the text box TB21. Even if the subjective text is posted to an SNS, it is possible to track the subjective text posted by users of the content providing service based on the hashtag or URL.
- FIG. 13 shows an example of a second flow for sending subjective text without selecting element content.
- a text box TB22 is displayed in which the user can enter subjective text about the combination of area A1 and element content, as shown in FIG. 13B. For example, the user can enter their impressions of viewing the element content in area A1 in text box TB22.
- a send button B43 is displayed for sending the subjective text entered by the user to the server 3.
- the send button B43 When the send button B43 is pressed, the subjective text entered in the text box TB22 is sent to the server 3 along with location information in area A1 (information about the user's current location), information such as the current time, and information indicating the element content provided in area A1.
- the similarity between the environmental description text linked to the element content and the surrounding data about the user's surrounding environment input by the user is evaluated, and an element content corresponding to the surrounding environment is selected from among multiple element contents based on the similarity.
- the surrounding data about the user's surrounding environment includes surrounding images captured of the surrounding environment and surrounding audio data captured of sounds in the surrounding environment.
- the selection of element content based on similarity is performed, for example, in response to a user's operation after viewing a ranking of element content based on similarity.
- the general-purpose recognizer only needs to evaluate the similarity between the surrounding image (surrounding sound data) input by the user and the environmental description text linked to the element content. Even if multiple element contents corresponding to the worldview of a certain work contain various types of content, the types of data input to the general-purpose recognizer are images and text. Therefore, the content provision system of this technology uses the general-purpose recognizer to accurately select element content that matches the user's surrounding environment from multiple element contents containing various types of content, and can present it to the user.
- FIG. 14 is a block diagram showing an example of the configuration of the user terminal 1.
- the user terminal 1 is composed of an input unit 51, a camera 52, a position detection unit 53, a control unit 54, a communication unit 55, a display unit 56, and a speaker 57.
- the input unit 51 is composed of a touch panel, switches, buttons, sensors, etc. superimposed on the display unit 56.
- the input unit 51 accepts input of user operations and supplies signals corresponding to the user operations to the control unit 54.
- the input unit 51 may be composed of a microphone that collects the user's voice and sounds from the surrounding environment.
- the camera 52 captures the user's surrounding environment and acquires surrounding images.
- the camera 52 supplies the acquired surrounding images to the control unit 54.
- the position detection unit 53 is composed of a positioning device using any positioning method, such as GNSS (Global Navigation Satellite System).
- GNSS Global Navigation Satellite System
- the position detection unit 53 detects (measures) the current position of the user (user terminal 1) and supplies the detection result to the control unit 54.
- the current location of the user terminal 1 may be detected by the location detection unit 53, or may be detected by another device other than the user terminal 1 that is carried by the user. In such a case, the communication unit 55 of the user terminal 1 receives (acquires) the detection result of the current location of the user terminal 1 detected by the other device from the other device.
- the control unit 54 is composed of an image acquisition unit 71, a similarity evaluation unit 72, a display control unit 73, a setting unit 74, a playback control unit 75, and a subjective text acquisition unit 76.
- the image acquisition unit 71 acquires surrounding images captured by the camera 52. Furthermore, based on the user's current location detected by the position detection unit 53, the image acquisition unit 71 acquires surrounding images previously captured by the user at the current location from the storage unit (not shown) of the user terminal 1. Based on the user's current location, the image acquisition unit 71 acquires surrounding images previously captured by other users at the current location from the server 3 via the communication unit 55.
- the image acquisition unit 71 supplies the acquired surrounding images to the similarity evaluation unit 72.
- the similarity evaluation unit 72 has, for example, the recognizer 11 ( Figure 4).
- the surrounding image supplied from the image acquisition unit 71 and the environmental description text linked to each element content are input to the recognizer 11, thereby evaluating the similarity between the surrounding image and the environmental description text.
- the similarity evaluation unit 72 generates a ranking of the element content based on the similarity, and supplies it to the display control unit 73 and the setting unit 74.
- the display control unit 73 controls the display unit 56 to display the rankings supplied from the similarity evaluation unit 72. In addition, when the user enters an area in which element content is arranged, the display control unit 73 causes the display unit 56 to display a content image.
- the setting unit 74 in response to user operations, places element content in a new area including the user's current location or changes already placed element content, and sets the element content so that it is provided when the user enters the area.
- the setting unit 74 can also automatically select element content linked to the environmental description text with the highest similarity based on the ranking supplied from the similarity evaluation unit 72, and set the element content.
- Information about the scape formed by arranging element content (information about the location of the area, the element content to be provided, etc.) is stored, for example, in the memory unit of the user terminal 1 or in the server 3.
- the playback control unit 75 When the user enters an area in which element content is placed, the playback control unit 75 outputs the content sound from the speaker 57.
- the display control unit 73 and the playback control unit 75 function as a content providing unit that provides the element content to the user when the user enters an area in which element content is placed.
- the subjective text acquisition unit 76 acquires the subjective text input by the user in response to the user's operation, and transmits the acquired subjective text to the server 3 via the communication unit 55.
- the communication unit 55 communicates with external devices such as the server 3 via the network. That is, the communication unit 45 transmits information provided by the control unit 54 to the external device, and receives information provided from the external device and provides it to the control unit 54.
- the display unit 56 is composed of, for example, an organic EL (Electro Luminescence) panel or a liquid crystal panel, and displays various screens and content images according to the control of the display control unit 73.
- organic EL Electro Luminescence
- the speaker 57 outputs the content sound according to the control of the playback control unit 75.
- the content sound may be output from an external device such as inner-ear headphones that can be worn on the user's ears, headphones, or a speaker unit provided on a wearable device that is connected to the user terminal 1 by wire or wirelessly.
- the playback control unit 75 supplies sound data representing the content sound to the external device to output it.
- a part of the configuration of the user terminal 1 may be provided in an external device such as the server 3 or a cloud.
- the similarity evaluation unit 72 and the setting unit 74 may be provided in the server 3.
- the user terminal 1 transmits a surrounding image to the server 3, and obtains and displays a ranking of element contents based on the similarity between the surrounding image and the environmental description text from the server 3.
- the user terminal 1 transmits information indicating a user operation to the server 3, and the server 3, for example, performs settings in response to the user operation so that element contents are provided when the user enters an area.
- FIG. 15 shows an example of the configuration of a creator terminal 2.
- the creator terminal 2 is composed of a production unit 81, a text acquisition unit 82, and a registration unit 83.
- the production unit 81 produces spatial content and element content in response to the creator's operations and supplies them to the registration unit 83.
- the text acquisition unit 82 acquires the environment description text entered by the creator and supplies it to the registration unit 83.
- the registration unit 83 links the element content provided by the production unit 81 with the environmental description text provided by the text acquisition unit 82 and registers them on the server 3.
- step S1 the control unit 54 accepts the selection of an edit mode by the user.
- the control unit 54 accepts pressing of the edit button B1 (A in FIG. 6) or the change button B3 (B in FIG. 6) as the selection of an edit mode.
- step S2 the control unit 54 determines whether or not the user has selected the peripheral image capture mode. For example, if the capture button B7 (D in FIG. 7) is pressed after the button B4 (C in FIG. 6) is pressed, it is determined that the peripheral image capture mode has been selected.
- step S3 the camera 52 captures a peripheral image.
- step S4 the control unit 54 determines whether or not the peripheral image selection mode has been selected by the user. For example, if button B4 (A in FIG. 10) is pressed and then button B21 (B in FIG. 10) is pressed, it is determined that the peripheral image selection mode has been selected.
- step S5 the image acquisition unit 71 acquires surrounding images that have already been captured, and the display control unit 73 causes the display unit 56 to display a list of surrounding images that have been captured in the past (already).
- step S6 the control unit 54 accepts the user's selection of a desired surrounding image from a list of surrounding images captured in the past.
- step S7 the display control unit 73 causes the display unit 56 to display a list of multiple element contents (multiple groups of element contents) that correspond to the worldview of a certain work.
- step S8 the setting unit 74 accepts the user's selection of a desired element content from the list of element contents.
- the setting unit 74 functions as a selection unit that selects the element content selected by the user from among multiple element contents, and places the selected element content in an area that includes the user's current location. After the element content has been placed, the process ends.
- step S9 the control unit 54 determines whether the user is within the area based on the user's current position detected by the position detection unit 53.
- step S10 the setting unit 74 generates a new area that includes the user's current location based on the user's current location.
- step S9 determines whether the user is within the area. If it is determined in step S9 that the user is within the area, step S10 is skipped and processing proceeds to step S11.
- step S11 the similarity evaluation unit 72 evaluates the similarity between the surrounding image and the environmental description text associated with each element content.
- step S12 the similarity evaluation unit 72 generates a ranking of the element contents based on the similarity.
- step S13 the setting unit 74 determines whether or not to automatically set the element content. Whether or not to automatically set the element content is determined in advance by the user, for example, before starting preparations for playback.
- step S14 the setting unit 74 places the element content associated with the environmental description text that has the highest similarity to the surrounding image in the area including the user's current location (setting is performed so that the element content is provided when the user enters that area). After the element content is set in step S14, the process ends.
- step S15 the display control unit 73 causes the display unit 56 to display the rankings of the element content.
- step S16 the setting unit 74 accepts the user's selection of a desired element content from the element content rankings.
- the setting unit 74 places the element content selected by the user in an area including the user's current location, and the process ends.
- step S21 the production unit 81 produces element content in response to the creator's operations.
- step S22 the registration unit 83 registers the created element content on the server 3.
- step S23 the text acquisition unit 82 accepts the input of the environment description text by the creator, and the registration unit 83 links the environment description text input by the creator with the element content and registers it.
- the content provision system of this technology can present to the user, in the form of a ranking, element content that matches the contents of the environmental description text and the user's surrounding environment from among multiple element content containing a wide variety of content.
- the user can easily find and place the desired element content without having to check all the element content.
- the content provision system of this technology can provide users with element content that matches the surrounding environment.
- the user terminal 1 automatically places the element contents without the user selecting the element contents.
- the user can place element contents in multiple areas while freely wandering around the world.
- Figs. 18 and 19 describe an example in which a user prepares to play spatial content using, for example, a smartphone as a user terminal 1.
- the preparation for playing spatial content begins, for example, when no element content has yet been placed in the world.
- an automatic generation button B101 for placing element content is displayed in the upper right portion of the screen displayed on the user terminal 1.
- the user terminal 1 When the automatic generation button B101 is pressed, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 18B.
- the surrounding image P1 is acquired and the similarity between the environmental description text linked to each element content and the surrounding image P1 is evaluated. After that, a ranking of each element content based on the similarity is generated, and an area A101 in which the element content with the highest similarity to the surrounding image P1 has been newly placed is displayed on the map, as shown in FIG. 18C.
- the element content is placed in area A101, the element content is provided to the user by the user terminal 1.
- the content image and content text provided to the user are displayed below the map.
- element contents are arranged one after another, and as shown in FIG. 19E, element contents are arranged in, for example, four areas A101 to A104.
- FIG. 20 describes a fifth flow in which a user prepares to play spatial content.
- a user prepares to play spatial content using, for example, a wearable camera 101 as a user terminal 1.
- the wearable camera 101 When a hand gesture is made, the wearable camera 101 starts capturing images of the surrounding environment in response to the user's hand gesture, and acquires a surrounding image. The wearable camera 101 then evaluates the similarity between the surrounding image and the environment description text associated with each element content, and generates a ranking of each element content based on the similarity.
- the wearable camera 101 automatically places the element content that has the highest similarity to the surrounding image P1 in an area A101 that includes the user's current location, as shown by the white arrow in A of Figure 20.
- the element content is placed in area A101, the element content is provided to the user by user terminal 1.
- element content is placed one after another, and as shown by the white arrows in Figure 20, element content is placed in, for example, four areas A101 to A104.
- the process performed by the user terminal 1 in the second embodiment will be described with reference to the flowchart in FIG. 21.
- the process in FIG. 21 is executed, for example, when the user prepares for playback.
- step S101 the control unit 54 accepts an instruction to generate a scape from the user.
- the user terminal 1 is, for example, a smartphone
- the instruction to generate a scape is input using a button such as the automatic generation button B101 (A in FIG. 18) or the capture button B7 (B in FIG. 18), or a voice command.
- the user terminal 1 is, for example, a wearable device
- the instruction to generate a scape is input using a tap on the wearable device or a voice command.
- the user terminal 1 is, for example, a wearable camera
- the instruction to generate a scape is input using a hand gesture or a voice command.
- step S102 the camera 52 captures an image of the surroundings.
- step S103 the control unit 54 determines whether the user is within the area based on the user's current location detected by the location detection unit 53.
- step S104 the setting unit 74 generates a new area that includes the user's current location based on the user's current location.
- step S104 determines whether the user is within the area. If it is determined in step S103 that the user is within the area, the process of step S104 is skipped and the process proceeds to step S105.
- step S105 the similarity evaluation unit 72 evaluates the similarity between the surrounding image and the environmental description text associated with each element content.
- step S106 the similarity evaluation unit 72 generates a ranking of the element contents based on the similarity.
- step S107 the setting unit 74 places the element content associated with the environmental description text that has the highest similarity to the surrounding image in the area including the user's current location (setting is performed so that the element content is provided when the user enters that area).
- the content providing system of this technology can select and place element content that matches the contents of the environmental description text and the user's surrounding environment from among multiple element content containing a wide variety of content.
- the user can place element content simply by inputting a command to generate the scape into the user terminal 1, and can easily place element content while walking around freely.
- the content provision system of this technology uses a general-purpose recognizer to accurately evaluate the similarity between the environmental description text and the surrounding image, so the user can experience each scene that makes up the work without feeling out of place, even if they do not make many changes to the element content placed by the user terminal 1.
- FIG. 22 is a diagram showing an example of data acquired by the content providing system.
- the content provision system can acquire, for example, user information, information about element content selected by the user, user location information, map information, information about surrounding images, user biometric information, user behavior information, user entry history into an area, and a 3rd Party DB, as shown in FIG. 22.
- User information includes demographic information such as age, gender, place of residence, and occupation, as well as the account ID for the content providing service.
- Information about the elemental content selected by the user includes the world ID, the scape (scene and elemental content) ID, and the environmental description text (matching text) associated with the elemental content (scene).
- the user's location information includes the coordinates of the area, the coordinates of the object on which element content is placed in place of the area, and the viewpoint direction.
- the map information includes information indicating map POIs (Points of Interest) such as buildings around the user, as well as floor information and store names associated with the map POIs.
- map POIs Points of Interest
- Information about the surrounding images includes the ID of the image input by the user as the surrounding image, the time the image was taken, the time the image was acquired, the source from which the image was acquired, the subjective text entered by the user, and the time the subjective text was entered.
- the 3rd Party DB includes, for example, information about the user's membership in a fan club, purchasing information indicating the purchase history of items such as content and merchandise, and information about targeted advertising.
- Figure 23 shows an example of data used for learning.
- user information consumer activity information including fan club membership information and purchasing information
- user location information user information
- element content selected by the user are used to learn the correlation between the user's content selection based on a specific location and the user's characteristics.
- user information, consumption activity information, map information, and information about elemental content selected by the user are used to learn correlations between the user's content selections based on specific map POIs and the user's characteristics.
- user information For example, user information, consumer activity information, information about surrounding images, and information about elemental content selected by the user are used to learn the correlation between the user's content selection based on specific surrounding images and the user's characteristics.
- information about the surrounding images, the matching results between the surrounding images and the environmental description text, the subjective text entered by the user, and information about the element content selected by the user are used to learn the correlation between the surrounding images and the subjective text.
- the results of learning the correlation between surrounding images and subjective text, and information about element content selected by the user are used to learn the correlation between subjective text and content.
- the learning results of the correlation between a user's content selection based on a specific peripheral image and user characteristics, and the learning results of the correlation between subjective text and content are used to learn text (environment description text) that links content and peripheral images.
- the learning results of the environment description text using these data may be used to support creators when inputting environment description text. For example, even if the creator does not input the environment description text, it is possible to obtain an environment description text that describes the appearance of the surrounding environment in which the element content should be provided (matching the element content) by inputting element content into a learning model obtained by learning the environment description text.
- the above-mentioned series of processes can be executed by hardware or software.
- the program constituting the software is installed from a program recording medium into a computer incorporated in dedicated hardware or a general-purpose personal computer.
- FIG. 24 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
- CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- an input/output interface 505 Connected to the input/output interface 505 are an input unit 506 consisting of a keyboard, mouse, etc., and an output unit 507 consisting of a display, speakers, etc. Also connected to the input/output interface 505 are a storage unit 508 consisting of a hard disk or non-volatile memory, a communication unit 509 consisting of a network interface, etc., and a drive 510 that drives removable media 511.
- the CPU 501 for example, loads a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executes the program, thereby performing the above-mentioned series of processes.
- the programs executed by the CPU 501 are provided, for example, by being recorded on removable media 511, or via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and are installed in the storage unit 508.
- the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or it may be a program in which processing is performed in parallel or at the required timing, such as when called.
- a system refers to a collection of multiple components (devices, modules (parts), etc.), regardless of whether all the components are in the same housing. Therefore, multiple devices housed in separate housings and connected via a network, and a single device in which multiple modules are housed in a single housing, are both systems.
- this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
- each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
- one step includes multiple processes
- the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
- a similarity evaluation unit that evaluates a similarity between a first text associated with the content and surrounding data related to the user's surrounding environment input by the user; and a selection unit that selects the content corresponding to the surrounding environment from among the plurality of contents based on the similarity.
- a display control unit that displays a ranking in which the contents are arranged in descending order of the degree of similarity between the associated first text and the associated peripheral data;
- the information processing device according to (1) or (2), wherein the selection unit selects the content corresponding to the surrounding environment from among a plurality of the contents in response to an operation by the user.
- the selection unit selects, from among the plurality of pieces of content, the piece of content associated with the first text having the highest similarity as the piece of content corresponding to the surrounding environment.
- the peripheral data is data acquired in the current peripheral environment by the user using a predetermined device.
- the information processing device according to any one of (1) to (4), wherein the surrounding data is data relating to the surrounding environment in the past.
- the information processing device (7)
- the surrounding data relating to the surrounding environment in the past is data acquired in the surrounding environment in the past by the user or another user using a predetermined device.
- the information processing device according to any one of (1) to (7), further comprising a content providing unit that provides the content to the user when the user enters an area in which the content is located.
- the selection unit changes the content already arranged in the area to the content corresponding to the surrounding environment.
- the information processing device (10) The information processing device according to (8) or (9), wherein the selection unit, when the user is not within the area, generates a new area including the user's current location and places the content corresponding to the surrounding environment in the new area.
- the surrounding data includes images of the surrounding environment and audio data of sounds collected from the surrounding environment.
- the content is composed of at least one of a moving image and a sound.
- the selection unit selects the content based on at least one of a time and a situation in which the peripheral data was acquired.
- the information processing device according to any one of (1) to (13), wherein the first text is input by a creator who produced the content.
- the information processing device according to any one of (1) to (13), further comprising an acquisition unit for acquiring a subjective text that acquires a second text indicating a subjective sentence of the user with respect to at least the surrounding environment.
- the first text is generated based on the second text.
- the text is entered by a creator who created the content;
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
The present technology relates to an information processing device, an information processing method and a program that make it possible for content suited to a surrounding environment to be provided to a user. An information processing device according to the present technology comprises: a similarity evaluating unit for evaluating a similarity between first text linked to an item of content, and surrounding data relating to the surrounding environment of the user, input by the user; and a selecting unit for selecting content corresponding to the surrounding environment from among a plurality of items of content on the basis of the similarity. The present technology is applicable to equipment employed in services for providing spatial content, for example.
Description
本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、周辺環境に合ったコンテンツをユーザに提供することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
This technology relates to an information processing device, an information processing method, and a program, and in particular to an information processing device, an information processing method, and a program that can provide a user with content suited to the surrounding environment.
近年、アニメーション、漫画、映画、ドラマなどの作品の舞台になった場所や観光地を訪れるユーザなどに対し、作品の世界観に応じたサウンドや画像などのコンテンツを提供するサービスが普及している。これらのサービスは、作品に描かれた実際の場所や観光地などの特定の場所に対して、コンテンツを配置するシステムとして構成される。
In recent years, services that provide content such as sounds and images that fit the worldview of works to users visiting locations or tourist spots that are the setting for works such as animations, manga, movies, and dramas have become popular. These services are configured as systems that place content in specific locations such as actual locations depicted in works or tourist spots.
上述したコンテンツを提供するサービスを利用したユーザには、居住地や施設内などでも同様の体験をしたいというニーズがある。そこで、従来から、クリエイタにより制作されたコンテンツをユーザがマップ上の各エリアに配置するシステムが提案されている。
Users who use the services that provide the above-mentioned content have a need to have a similar experience in their residential areas, facilities, etc. As a result, systems have been proposed that allow users to place content created by creators in various areas on a map.
ユーザにとって、マップ上の各エリアの様子を記憶から想起し、コンテンツをどのエリアに配置すべきかを判断することは難しい。あるエリアに合ったコンテンツを選択するために、ユーザが当該エリアに実際に赴いて周辺環境を観察しながらコンテンツを選択できるような機能が求められる。
It is difficult for users to recall from memory what each area on the map looks like and decide in which area content should be placed. In order to select content appropriate for a certain area, a function is required that allows users to actually go to the area and select content while observing the surrounding environment.
ユーザによるコンテンツの選択をサポートする技術として、例えば、画像とサウンドの組み合わせを学習した認識器に、周辺環境が撮影された画像を入力することで、周辺環境に合ったサウンドを提供する技術がある。この技術では、例えばインターネット上で公開されている動画像に基づいて、画像とサウンドの組み合わせが学習される。
One technology that supports user content selection is one that provides sounds that match the surrounding environment by inputting images of the surrounding environment into a recognizer that has learned to combine images and sounds. With this technology, image and sound combinations are learned based on video images that are publicly available on the Internet, for example.
また、ユーザによるコンテンツの選択をサポートする技術として、所望の画像の内容を記述したテキストに基づいて生成されたクエリ画像の特徴量と、検索対象となる被検索画像の特徴量とを比較し、クエリ画像に類似する被検索画像を所望の画像として出力する技術がある(例えば特許文献1を参照)。
Also, as a technology to support user content selection, there is a technology that compares the features of a query image generated based on text describing the contents of the desired image with the features of searched images that are the subject of the search, and outputs searched images that are similar to the query image as the desired image (see, for example, Patent Document 1).
しかし、インターネットに公開された大量のデータを用いた学習により取得された汎用認識器では、ある作品の世界観に応じた多様な種類のコンテンツの中から、周辺環境に合ったコンテンツを選択することは難しい。
However, it is difficult for a general-purpose recognizer obtained by learning from the large amount of data available on the Internet to select content that matches the surrounding environment from the wide variety of content that corresponds to the worldview of a particular work.
本技術はこのような状況に鑑みてなされたものであり、周辺環境に合ったコンテンツをユーザに提供することができるようにするものである。
This technology was developed in light of these circumstances, making it possible to provide users with content that suits their surroundings.
本技術の一側面の情報処理装置は、コンテンツに紐付けられた第1のテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価する類似度評価部と、前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する選択部とを備える。
An information processing device according to one aspect of the present technology includes a similarity evaluation unit that evaluates the similarity between a first text linked to a content and peripheral data related to the user's surrounding environment input by the user, and a selection unit that selects the content corresponding to the surrounding environment from among a plurality of the contents based on the similarity.
本技術の一側面の情報処理方法は、コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する。
An information processing method according to one aspect of the present technology evaluates the similarity between text associated with content and surrounding data about the user's surrounding environment input by the user, and selects the content corresponding to the surrounding environment from among a plurality of pieces of content based on the similarity.
本技術の一側面のプログラムは、コンピュータに、コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する処理を実行させる。
A program according to one aspect of the present technology causes a computer to execute a process of evaluating the degree of similarity between text associated with content and peripheral data about the user's surrounding environment input by the user, and selecting the content corresponding to the surrounding environment from among a plurality of pieces of content based on the degree of similarity.
本技術の一側面においては、コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度が評価され、前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツが選択される。
In one aspect of this technology, the similarity between text associated with a content and surrounding data about the user's surrounding environment input by the user is evaluated, and the content corresponding to the surrounding environment is selected from among the multiple pieces of content based on the similarity.
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.コンテンツ提供システムで取得されるデータを学習に利用する例 Hereinafter, an embodiment of the present technology will be described in the following order.
1.First embodiment 2. Second embodiment 3. Example of using data acquired by a content providing system for learning
1.第1の実施の形態
2.第2の実施の形態
3.コンテンツ提供システムで取得されるデータを学習に利用する例 Hereinafter, an embodiment of the present technology will be described in the following order.
1.
<1.第1の実施の形態>
・コンテンツ提供システムの構成
図1は、本技術を適用したコンテンツ提供システムの一実施の形態の構成例を示す図である。 1. First embodiment
Configuration of Content Providing System FIG. 1 is a diagram showing a configuration example of an embodiment of a content providing system to which the present technology is applied.
・コンテンツ提供システムの構成
図1は、本技術を適用したコンテンツ提供システムの一実施の形態の構成例を示す図である。 1. First embodiment
Configuration of Content Providing System FIG. 1 is a diagram showing a configuration example of an embodiment of a content providing system to which the present technology is applied.
図1のコンテンツ提供システムは、空間コンテンツを提供するシステムである。空間コンテンツは、アニメーション、漫画、映画、ドラマなどの作品の世界観(テーマ)からなる空間を、例えば立体音響のサウンドにより提供するコンテンツである。空間コンテンツは、その作品の世界観に応じた1以上の要素コンテンツ(サウンド、画像、テキストなど)を含む。以下では、空間コンテンツと要素コンテンツを総称してコンテンツともいう。
The content providing system in Figure 1 is a system that provides spatial content. Spatial content is content that provides a space consisting of the world view (theme) of a work such as animation, manga, movie, or drama, for example, through stereophonic sound. Spatial content includes one or more elemental contents (sound, image, text, etc.) that correspond to the world view of the work. In the following, spatial content and elemental contents are collectively referred to as content.
図1に示すコンテンツ提供システムは、ユーザ端末1、クリエイタ端末2、およびサーバ3により構成され、ユーザ端末1、クリエイタ端末2、およびサーバ3は、有線や無線のネットワークにより相互に接続可能となっている。
The content provision system shown in FIG. 1 is composed of a user terminal 1, a creator terminal 2, and a server 3, and the user terminal 1, the creator terminal 2, and the server 3 can be connected to each other via a wired or wireless network.
ユーザ端末1は、サーバ3により提供されるコンテンツ提供サービスの利用者であるユーザの所有する情報処理装置である。ユーザ端末1は、スマートフォン、タブレット端末、ウェアラブルデバイス、ウェアラブルカメラ、携帯音楽プレイヤ、ゲーム機、PCなどにより構成される。
The user terminal 1 is an information processing device owned by a user who is a subscriber of the content provision service provided by the server 3. The user terminal 1 may be a smartphone, a tablet terminal, a wearable device, a wearable camera, a portable music player, a game console, a PC, or the like.
ユーザは、ユーザ端末1を用いることにより、サーバ3により提供されるコンテンツ提供サービスを利用することができる。具体的には、ユーザ端末1は、アプリケーションをダウンロードして、サーバ3と連携してデータをやり取りすることで、空間コンテンツの再生準備を行う。
By using the user terminal 1, the user can use the content provision service provided by the server 3. Specifically, the user terminal 1 downloads an application and cooperates with the server 3 to exchange data, thereby preparing to play back spatial content.
空間コンテンツの再生準備では、ある作品の世界観に応じた要素コンテンツがマップ上のエリアに配置される。マップ上のエリアと、当該エリアに配置される要素コンテンツとが定義されることで、例えば作品を構成する1つのシーンを体験することが可能なスケープが形成される。以下では、複数のスケープで各シーンを体験することで1つの作品の全体または一部を体験することが可能な現実空間の領域をワールドと称する。
When preparing to play spatial content, elemental content that corresponds to the worldview of a work is placed in an area on a map. By defining the area on the map and the elemental content to be placed in that area, a scape is formed in which it is possible to experience, for example, one of the scenes that make up a work. Below, an area of real space in which it is possible to experience all or part of a work by experiencing each scene in multiple scapes is referred to as a world.
ユーザ端末1は、再生準備の完了後に再生条件を満たしたとき(例えば要素コンテンツが配置されたエリアにユーザが入ったとき)、空間コンテンツ(要素コンテンツ)を再生する。
When playback conditions are met after playback preparation is complete (for example, when the user enters an area in which the element content is located), the user terminal 1 plays the spatial content (element content).
クリエイタ端末2は、空間コンテンツにより表現される作品全体や各要素コンテンツを制作するクリエイタにより操作されるPCなどの情報処理装置である。クリエイタ端末2は、クリエイタツールを実行し、クリエイタの操作に応じて、コンテンツ提供サービスで提供されるコンテンツを生成して、サーバ3に登録する。
The creator terminal 2 is an information processing device such as a PC operated by a creator who produces the entire work expressed by the spatial content and each element content. The creator terminal 2 executes creator tools, generates content to be provided by the content providing service in response to the creator's operations, and registers the content to the server 3.
サーバ3は、コンテンツ提供サービスの運営者が管理する情報処理装置である。サーバ3は、コンテンツ提供サービスを利用するためのアプリケーションを配信する。また、サーバ3は、クリエイタにより制作されたコンテンツを記録しており、ユーザ端末1にコンテンツを送信する。
The server 3 is an information processing device managed by the operator of the content provision service. The server 3 distributes applications for using the content provision service. The server 3 also records content created by creators, and transmits the content to the user terminal 1.
なお、コンテンツの送信は、必ずしもサーバ3により行われる必要はなく、クリエイタ端末2や、サーバ3とは異なる他のサーバなどにより、ユーザ端末1に対してコンテンツが送信されるようにしてもよい。
Note that the content does not necessarily have to be transmitted by the server 3, but may be transmitted to the user terminal 1 by the creator terminal 2 or another server different from the server 3.
・本技術の概要
図2は、空間コンテンツの提供時におけるアプリケーションの画面の例を示す図である。 Overview of the Present Technology FIG. 2 is a diagram showing an example of an application screen when spatial content is provided.
図2は、空間コンテンツの提供時におけるアプリケーションの画面の例を示す図である。 Overview of the Present Technology FIG. 2 is a diagram showing an example of an application screen when spatial content is provided.
空間コンテンツの提供時、図2に示すように、ワールドの範囲を示すマップM1がユーザ端末1に表示される。図2の例では、要素コンテンツが配置された4つのエリアA1乃至A4がワールド内に設定されている。
When spatial content is provided, a map M1 showing the extent of the world is displayed on the user terminal 1, as shown in Figure 2. In the example of Figure 2, four areas A1 to A4 in which element content is placed are set within the world.
図2において、黒いピンPi1は、ユーザの現在位置を示す。図2に示すように、ユーザがエリアA1内にいる場合、ユーザに対して、エリアA1に配置された要素コンテンツがユーザ端末1により提供される。
In FIG. 2, the black pin Pi1 indicates the user's current location. As shown in FIG. 2, when the user is within area A1, element content arranged in area A1 is provided to the user by user terminal 1.
具体的には、作品を構成するある1つのシーンを体験できるような複数の種類の要素コンテンツが提供される。例えば、ユーザがエリアA1内にいる場合、エリアA1に配置された要素コンテンツとしてのサウンドが提供され、画面の下側には、エリアA1に配置された要素コンテンツとしての画像CP1とテキストT1が表示される。以下では、要素コンテンツとして提供されるサウンド、画像(動画像または静止画像)、およびテキストを、それぞれコンテンツサウンド、コンテンツ画像、およびコンテンツテキストと称する。
Specifically, multiple types of element content are provided that allow the user to experience one of the scenes that make up the work. For example, when the user is in area A1, sound is provided as element content arranged in area A1, and image CP1 and text T1 are displayed at the bottom of the screen as element content arranged in area A1. Below, the sound, image (moving image or still image), and text provided as element content are referred to as content sound, content image, and content text, respectively.
ワールド内に配置されたエリアA1乃至A4の設定は、空間コンテンツの再生準備時に、ユーザが、ワールド内の所望の場所に実際に赴き、ある作品の世界観に応じた複数の要素コンテンツの中から、自身がいる場所に合った要素コンテンツを選択して配置することを繰り返すことで行われる。
Areas A1 to A4 arranged within the world are set up by the user going to a desired location within the world when preparing to play back spatial content, and repeatedly selecting and placing element content that suits the location where the user is located from among multiple element content that correspond to the worldview of a certain work.
ユーザによる要素コンテンツの選択をサポートする方法として、ユーザがユーザ端末1を用いて周辺環境の撮影を行い、コンテンツ提供システムが、周辺環境が撮影された周辺画像(静止画像または動画像)に基づいて、複数の要素コンテンツの中から周辺環境に合った要素コンテンツを選択する方法が考えられる。この方法では、シーンレベルのマッチングを行う必要があり、物体の組み合わせではなく周辺環境に含まれる事物の総合的な認識を行う必要がある。
One possible method for supporting the user in selecting element content is for the user to take a picture of the surrounding environment using the user terminal 1, and for the content providing system to select element content that matches the surrounding environment from among multiple element contents based on the surrounding image (still image or video image) of the surrounding environment. This method requires scene-level matching, and requires comprehensive recognition of things contained in the surrounding environment, rather than a combination of objects.
このようなマッチングを行う技術として、例えば、画像とサウンドの組み合わせを学習した認識器に、周辺環境が撮影された画像を入力することで、周辺環境に合ったサウンドを提供する技術がある。この技術では、例えばインターネット上で公開されている動画像に基づいて、画像とサウンドの組み合わせが学習される。
One example of a technology that performs this type of matching is one that provides sounds that match the surrounding environment by inputting images of the surrounding environment into a recognizer that has been trained to combine images and sounds. With this technology, image and sound combinations are learned based on video images that are publicly available on the Internet, for example.
また、ユーザによるコンテンツの選択をサポートする技術として、所望の画像の内容を記述したテキストに基づいて生成されたクエリ画像の特徴量と、検索対象となる被検索画像の特徴量とを比較し、クエリ画像に類似する被検索画像を所望の画像として出力する技術がある(例えば特許文献1を参照)。
Also, as a technology to support user content selection, there is a technology that compares the features of a query image generated based on text describing the contents of the desired image with the features of searched images that are the subject of the search, and outputs searched images that are similar to the query image as the desired image (see, for example, Patent Document 1).
しかし、インターネットに公開された大量のデータを用いた学習により取得された汎用認識器では、ある作品の世界観に応じた多様な種類のコンテンツの中から、周辺環境に合ったコンテンツを選択することは難しい。作品の世界観に応じたコンテンツなどといった部分集合と画像の相関を学習させるには転移学習などの新たな手段が必要であり、教師データとなるデータをさまざまな作品ごとに収集することは難しい。
However, it is difficult for a general-purpose recognizer obtained by learning from the large amount of data available on the Internet to select content that matches the surrounding environment from the diverse types of content that correspond to the worldview of a particular work. New methods such as transfer learning are required to learn the correlation between images and subsets of content that correspond to the worldview of a work, and it is difficult to collect training data for each of the various works.
ある作品のシーンが現実空間のどのような環境と合っているか、どのような視点で判断すべきかについては多様な解釈が許容されるべきである。
Diverse interpretations should be allowed when it comes to determining what kind of real-world environment a scene from a work corresponds to, and from what perspective it should be judged.
図3は、本技術における周辺画像と要素コンテンツのマッチングの例を示す図である。
Figure 3 shows an example of matching a surrounding image with element content using this technology.
本技術においては、図3に示すように、ある作品Aの世界観に応じた要素コンテンツには、当該要素コンテンツに合った環境の様子を示す文章である環境記述テキストが紐づけられる。本技術のコンテンツ提供システムは、図3の矢印で示すように、汎用認識器を用いて、周辺画像と環境記述テキストとの類似度を評価し、当該類似度に基づいて周辺環境に合った要素コンテンツを選択することができる。
In this technology, as shown in Figure 3, element content corresponding to the worldview of a certain work A is linked to environmental description text, which is a sentence that shows the state of the environment that matches that element content. As shown by the arrow in Figure 3, the content provision system of this technology uses a general-purpose recognizer to evaluate the similarity between the surrounding image and the environmental description text, and can select element content that matches the surrounding environment based on that similarity.
図4は、本技術における要素コンテンツの選択の流れを示す図である。
Figure 4 shows the flow of element content selection in this technology.
図4に示すように、ユーザは、ユーザ端末1を用いて自身の周辺環境の撮影を行い、周辺画像を認識器11に入力する。認識器11は、例えば、インターネットに公開された大量の画像とテキストの相関を機械学習させた認識器である。周辺画像が入力されると、認識器11は、ある作品の世界観に応じた複数の要素コンテンツにそれぞれ紐づけられた環境記述テキストと周辺画像との類似度を評価する。
As shown in FIG. 4, a user takes a picture of his/her surrounding environment using the user terminal 1, and inputs the surrounding image to the recognizer 11. The recognizer 11 is, for example, a recognizer that has undergone machine learning to detect correlations between a large amount of images and text published on the Internet. When the surrounding image is input, the recognizer 11 evaluates the similarity between the surrounding image and environmental description text that is linked to multiple element contents that correspond to the worldview of a certain work.
コンテンツ提供システムは、紐づけられた環境記述テキストと周辺画像の類似度が高い順に要素コンテンツが並べられたランキングを生成し、ユーザに提示する。図4の例では、ある作品を構成するシーンA乃至シーンFを体験できるようにまとめられた要素コンテンツ群が順に提示される。
The content providing system generates a ranking in which element contents are arranged in order of the similarity between the associated environmental description text and the surrounding image, and presents this to the user. In the example of Figure 4, a group of element contents that have been put together to allow the user to experience scenes A through F that make up a certain work are presented in order.
ユーザは、提示されたランキングを見て、自身がいる場所で視聴したい要素コンテンツ群を選択することができる。各シーンを体験可能な要素コンテンツ群が単純に並べられたリストが提示される場合に比べて、根拠があるリスト(ランキング)が提示されるため、ユーザによる要素コンテンツの選択が容易になる。
Users can look at the presented rankings and select the group of elemental content they wish to view in their own location. Compared to a case where a list is presented in which a simple arrangement of elemental content groups that can be used to experience each scene is presented, a list (ranking) with evidence is presented, making it easier for users to select elemental content.
ユーザは、所望の要素コンテンツを選択する際、例えば、主観テキストを入力することができる。主観テキストは、要素コンテンツが周辺環境に合っているとなぜ思ったのか、ユーザがいる場所で要素コンテンツを視聴したときにどのように感じたかといったような、周辺環境自体や周辺環境と要素コンテンツの組み合わせに対するユーザ主観の文章である。
When selecting a desired element content, the user can, for example, input subjective text. The subjective text is a sentence that expresses the user's subjective opinion about the surrounding environment itself or the combination of the surrounding environment and the element content, such as why the user thought the element content matched the surrounding environment, or how the user felt when viewing the element content in the user's location.
主観テキストは、認識器11の追加学習や、クリエイタが環境記述テキストを記述する際のサポートに用いられる。
The subjective text is used for additional training of the recognizer 11 and to support the creator when writing the environmental description text.
図5は、要素コンテンツを登録する際のクリエイタツールの画面の例を示す図である。
Figure 5 shows an example of the creator tool screen when registering element content.
図5の例では、作品を構成するシーンごとに、要素コンテンツ群が登録される。要素コンテンツは1つずつ登録されるようにしてもよい。
In the example of FIG. 5, a group of element contents is registered for each scene that constitutes the work. Element contents may also be registered one by one.
要素コンテンツを登録する際、図5に示すように、コンテンツ画像のサムネイル画像Th11、スケープ(シーン)のタイトル、要素コンテンツのファイル名などを示すテキストT11、および、環境記述テキストを入力するためのテキストボックスTB1が、クリエイタ端末2に表示される。
When registering element content, as shown in FIG. 5, a thumbnail image Th11 of the content image, text T11 indicating the title of the scape (scene), the file name of the element content, etc., and a text box TB1 for inputting environmental description text are displayed on the creator terminal 2.
図5の例では、スケープのタイトルとして「はじまりの町」が表示されている。コンテンツサウンドのファイル名として「town.mp3」が表示され、コンテンツ画像のファイル名として「town.jpg」が表示されている。また、環境記述テキストとして「多くの人が行き交う駅のコンコース」が、テキストボックスTB1に入力されている。
In the example in Figure 5, "The Town of Beginnings" is displayed as the title of the scape. "town.mp3" is displayed as the file name of the content sound, and "town.jpg" is displayed as the file name of the content image. Additionally, "A station concourse with many people coming and going" has been entered in text box TB1 as the environmental description text.
このように、環境記述テキストは、要素コンテンツを登録する際に、例えばクリエイタにより入力されて、当該要素コンテンツに紐づけられて登録される。
In this way, the environment description text is entered, for example, by the creator when registering element content, and is registered in association with that element content.
・空間コンテンツの再生準備の第1の流れ(既に配置された要素コンテンツを変更する例)
図6と図7を参照して、ユーザが空間コンテンツの再生準備を行う第1の流れについて説明する。 First flow of preparation for playing back spatial content (example of changing already placed element content)
A first flow in which the user prepares to play back spatial content will be described with reference to FIG. 6 and FIG.
図6と図7を参照して、ユーザが空間コンテンツの再生準備を行う第1の流れについて説明する。 First flow of preparation for playing back spatial content (example of changing already placed element content)
A first flow in which the user prepares to play back spatial content will be described with reference to FIG. 6 and FIG.
図6のAに示すように、例えば、ユーザ端末1に表示された画面の右上部分には、再生準備を開始するための編集ボタンB1が表示される。なお、図6のAの画面においては、簡略化のため、エリアやピンだけが図示され、ワールドの範囲を示すマップの図示は省略されている。図6のAにおいて、白いピンは、ユーザの目的地を示す。実際には、編集ボタンB1、エリア、ピンなどは、マップに重畳されて表示される。その他の図においても同様である。
As shown in FIG. 6A, for example, an edit button B1 for starting preparation for playback is displayed in the upper right part of the screen displayed on the user terminal 1. Note that, for simplification, the screen in FIG. 6A only illustrates areas and pins, and the map showing the range of the world is omitted. In FIG. 6A, the white pin indicates the user's destination. In reality, the edit button B1, area, pin, etc. are displayed superimposed on the map. The same applies to the other figures.
図6のAに示すように、ユーザは、現実空間においてエリアA1内にいる状態で、編集ボタンB1を押下することで、空間コンテンツの再生準備を開始することができる。
As shown in A of FIG. 6, the user can start preparing to play back spatial content by pressing edit button B1 while in area A1 in real space.
編集ボタンB1が押下されると、図6のBに示すように、例えば、編集ボタンB1の代わりに、要素コンテンツの変更を完了させるための保存ボタンB2が表示される。また、例えば、エリアA1において提供されているコンテンツテキストの右側に、エリアA1に既に配置された要素コンテンツを変更するための変更ボタンB3が表示される。
When the edit button B1 is pressed, for example, a save button B2 for completing the changes to the element content is displayed in place of the edit button B1, as shown in FIG. 6B. Also, for example, a change button B3 for changing the element content already placed in area A1 is displayed to the right of the content text provided in area A1.
ユーザにより変更ボタンB3が押下されると、図6のCに示すように、ある作品の世界観に応じた複数の要素コンテンツが並べられたリストが表示される。図6のCのリストにおいては、コンテンツ画像のサムネイル画像とコンテンツテキストの組み合わせが、作品を構成するシーンごとに並べられて配置されている。
When the user presses the change button B3, a list is displayed in which multiple element contents corresponding to the worldview of a certain work are arranged, as shown in FIG. 6C. In the list in FIG. 6C, combinations of thumbnail images of content images and content text are arranged according to the scenes that make up the work.
図6のCの例では、各コンテンツテキストの右側に、各要素コンテンツ群を、エリアA1に配置される要素コンテンツ群として選択するための選択ボタンB5a乃至B5dが表示されている。リストの上側には、周辺画像との類似度に基づくランキングを提示させるためのボタンB4が表示される。
In the example of FIG. 6C, selection buttons B5a to B5d are displayed to the right of each content text to select each element content group as the element content group to be placed in area A1. Above the list, button B4 is displayed to present a ranking based on the similarity with surrounding images.
リストが表示されている際、画面の下側には、エリアA1に既に配置されているコンテンツ画像のサムネイル画像とコンテンツテキストが表示され、コンテンツテキストの右側には、要素コンテンツの変更を中止するためのキャンセルボタンB6が表示される。
When the list is displayed, thumbnail images and content text of the content images already placed in area A1 are displayed at the bottom of the screen, and a cancel button B6 for canceling changes to the element content is displayed to the right of the content text.
ユーザによりボタンB4が押下されると、ユーザ端末1が周辺環境(ユーザの一人称視点画像)の撮影を開始し、図7のDに示すように、周辺画像P1がユーザ端末1の画面に表示される。周辺画像P1の下側には、周辺画像を取得するための撮影ボタンB7が表示される。
When the user presses button B4, the user terminal 1 starts capturing an image of the surrounding environment (the user's first-person perspective image), and as shown in FIG. 7D, a surrounding image P1 is displayed on the screen of the user terminal 1. A capture button B7 for acquiring the surrounding image is displayed below the surrounding image P1.
ユーザにより撮影ボタンB7が押下されると、現在の周辺環境が撮影された周辺画像P1が取得され、各要素コンテンツ群に紐付けられた環境記述テキストと周辺画像P1との類似度が評価される。その後、類似度に基づく各要素コンテンツ群のランキングが生成され、図7のEに示すように、当該ランキングが表示される。
When the user presses the capture button B7, a surrounding image P1 of the current surrounding environment is acquired, and the similarity between the surrounding image P1 and the environmental description text linked to each element content group is evaluated. After that, a ranking of each element content group based on the similarity is generated, and the ranking is displayed as shown in FIG. 7E.
このランキングにおいては、リストと同様に、コンテンツ画像のサムネイル画像とコンテンツテキストの組み合わせがシーンごとに並べられて配置される。図7のEの例では、各コンテンツテキストの右側に、各要素コンテンツ群を、エリアA1に配置される要素コンテンツ群として選択するための選択ボタンB11a乃至B11dが表示されている。
In this ranking, similar to the list, combinations of thumbnail images of content images and content text are arranged by scene. In the example of FIG. 7E, selection buttons B11a to B11d are displayed to the right of each content text to select each element content group as the element content group to be arranged in area A1.
ユーザは、ランキングにおいて並べられて表示されている複数の要素コンテンツ群の中から、所望の要素コンテンツ群を選択することができる。図7のEに示すように、ユーザは、例えば選択ボタンB11aを押下することで、周辺画像に最も類似した環境記述テキストに紐付けられた要素コンテンツ群をエリアA1に配置することができる。言い換えると、ユーザは、エリアA1に既に配置された要素コンテンツ群を、ランキングの中から選択した要素コンテンツ群に変更することができる。
The user can select a desired element content group from among the multiple element content groups displayed in the ranking. As shown in FIG. 7E, the user can place in area A1 the element content group linked to the environmental description text that is most similar to the surrounding image, for example, by pressing selection button B11a. In other words, the user can change the element content group already placed in area A1 to the element content group selected from the ranking.
ユーザにとっては、マップを見てエリアの様子を想像しながら要素コンテンツを選択するよりも、現地でエリア(周辺環境)の様子を見ながら要素コンテンツを選択する方が、当該エリアに合った要素コンテンツを選択しやすい。
Users find it easier to select element content that suits an area by looking at the area (surrounding environment) on-site and selecting element content, rather than by looking at a map and imagining what the area looks like.
類似度が最も高いテキストに紐づけられた要素コンテンツ群(最も上位の要素コンテンツ群)が、エリアA1に配置される要素コンテンツ群として選択されなかった場合、ユーザにとっては、選択した要素コンテンツ群に紐づけられた環境記述テキストと周辺画像P1との類似度が最も高いと言える。したがって、当該環境記述テキストと周辺画像P1を学習データとして認識器11の再学習を行うことで、認識器11の精度を向上させることができる。
If the element content group linked to the text with the highest similarity (the highest-ranking element content group) is not selected as the element content group to be placed in area A1, the user can say that the similarity between the environmental description text linked to the selected element content group and the surrounding image P1 is the highest. Therefore, the accuracy of the recognizer 11 can be improved by re-training the recognizer 11 using the environmental description text and the surrounding image P1 as training data.
ユーザは、ランキングから所望の要素コンテンツ群を見つけられなかった場合、ボタンB4を再度押下し、周辺画像を撮り直すこともできる。
If the user cannot find the desired group of elemental content from the rankings, he or she can press button B4 again to take another image of the surrounding area.
なお、周辺画像の撮影状況が考慮された要素コンテンツのランキングが提示され、その要素コンテンツの中から、周辺環境に合った要素コンテンツが選択されるようにしてもよい。例えば周辺画像が夜に撮影された場合、夜にだけ提供される要素コンテンツのランキングが提示されたり、夜にだけ提供される要素コンテンツがランキングの上位に提示されたりする。周辺画像の撮影状況は、例えば、周辺画像の撮影時刻や周辺画像自体に基づいてユーザ端末1により特定される。例えば夜にだけ提供されるといった要素コンテンツの再生条件の一部は、クリエイタにより要素コンテンツが登録される際に決定される。要素コンテンツの再生条件に関する文章が、環境記述テキストに含まれるようにしてもよい。
In addition, a ranking of element contents taking into consideration the shooting conditions of the surrounding image may be presented, and element contents suitable for the surrounding environment may be selected from the element contents. For example, if the surrounding image was taken at night, a ranking of element contents provided only at night may be presented, or element contents provided only at night may be presented at the top of the ranking. The shooting conditions of the surrounding image may be identified by the user terminal 1 based on, for example, the shooting time of the surrounding image or the surrounding image itself. Some of the playback conditions of the element content, such as being provided only at night, may be determined by the creator when the element content is registered. A sentence regarding the playback conditions of the element content may be included in the environment description text.
・空間コンテンツの再生準備の第2の流れ(要素コンテンツを新たに配置する例)
図8と図9を参照して、ユーザが空間コンテンツの再生準備を行う第2の流れについて説明する。 Second flow of preparation for playing spatial content (example of newly arranging element content)
A second flow in which the user prepares to play back spatial content will be described with reference to FIG. 8 and FIG.
図8と図9を参照して、ユーザが空間コンテンツの再生準備を行う第2の流れについて説明する。 Second flow of preparation for playing spatial content (example of newly arranging element content)
A second flow in which the user prepares to play back spatial content will be described with reference to FIG. 8 and FIG.
図8のAに示すように、ユーザは、現実空間において、既に要素コンテンツが配置されたエリア外にいる状態で、編集ボタンB1を押下することで、空間コンテンツの再生準備を開始することができる。
As shown in A of FIG. 8, when the user is outside an area in real space where element content has already been placed, the user can start preparations for playing back spatial content by pressing the edit button B1.
編集ボタンB1が押下されると、図8のBに示すように、ある作品の世界観に応じた複数の要素コンテンツ群が並べられたリストが表示される。
When the edit button B1 is pressed, a list is displayed in which multiple groups of element content according to the worldview of a certain work are arranged, as shown in Figure 8B.
リストの上側に表示されたボタンB4がユーザにより押下されると、ユーザ端末1が周辺環境の撮影を開始し、図8のCに示すように、周辺画像P1がユーザ端末1の画面に表示される。
When the user presses button B4 displayed at the top of the list, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 8C.
周辺画像P1の下側に表示された撮影ボタンB7がユーザにより押下されると、周辺画像P1が取得され、各要素コンテンツ群に紐付けられた環境記述テキストと周辺画像P1との類似度が評価される。その後、類似度に基づく各要素コンテンツ群のランキングが生成され、図9のDに示すように、当該ランキングが表示される。
When the user presses the capture button B7 displayed below the surrounding image P1, the surrounding image P1 is acquired and the similarity between the environmental description text linked to each element content group and the surrounding image P1 is evaluated. After that, a ranking of each element content group based on the similarity is generated and the ranking is displayed as shown in Figure 9D.
図9のDに示すように、ユーザは、例えば選択ボタンB11aを押下することで、周辺画像に最も類似した環境記述テキストに紐付けられた要素コンテンツ群を、ユーザの現在位置を含む新規のエリアに配置することができる。例えば、ユーザの現在位置を中心とする所定の大きさの円形の領域に対して、要素コンテンツが配置される。
As shown in FIG. 9D, by pressing, for example, the selection button B11a, the user can place a group of element contents linked to the environmental description text most similar to the surrounding image in a new area including the user's current location. For example, the element contents are placed in a circular area of a predetermined size centered on the user's current location.
ユーザにとっては、マップを見てエリアの様子を想像しながら要素コンテンツを配置するよりも、現地でエリア(周辺環境)の様子を見ながら要素コンテンツを配置する方が、当該エリアに合った要素コンテンツを配置しやすい。
It is easier for users to place element content that suits a given area by viewing the area (surrounding environment) on-site and placing the element content, rather than by looking at a map and imagining what the area looks like.
ユーザにより例えば選択ボタンB11aが押下されると、図9のEに示すように、要素コンテンツ群が新たに配置されたエリアA11がマップ上に表示され、マップの下側には、エリアA11に配置されたコンテンツ画像のサムネイル画像とコンテンツテキストが表示される。なお、図6と図7を参照して説明したように、ユーザは、コンテンツテキストの右側に配置された変更ボタンB3を押下することで、エリアA11に配置された要素コンテンツ群を変更することができる。
When the user presses, for example, the Select button B11a, the area A11 in which the element content group has been newly placed is displayed on the map as shown in FIG. 9E, and thumbnail images of the content images placed in area A11 and the content text are displayed below the map. Note that, as described with reference to FIG. 6 and FIG. 7, the user can change the element content group placed in area A11 by pressing the Change button B3 located to the right of the content text.
・空間コンテンツの再生準備の第3の流れ(過去に撮影された周辺画像を使用する例)
図10と図11を参照して、ユーザが空間コンテンツの再生準備を行う第3の流れについて説明する。 Third flow of preparation for playing spatial content (example of using surrounding images captured in the past)
A third flow in which the user prepares to play back spatial content will be described with reference to FIG. 10 and FIG.
図10と図11を参照して、ユーザが空間コンテンツの再生準備を行う第3の流れについて説明する。 Third flow of preparation for playing spatial content (example of using surrounding images captured in the past)
A third flow in which the user prepares to play back spatial content will be described with reference to FIG. 10 and FIG.
上述したように、既に配置された要素コンテンツ群を変更したり、要素コンテンツ群を新たに配置したりする際、図10のAに示すように、あるワールドにおいて体験可能な作品の世界観に応じた複数の要素コンテンツ群が並べられたリストが表示される。
As described above, when changing an already placed group of elemental content or placing a new group of elemental content, a list is displayed showing multiple groups of elemental content that correspond to the worldview of the work that can be experienced in a certain world, as shown in A of Figure 10.
リストの上側に表示されたボタンB4がユーザにより押下されると、ユーザ端末1が周辺環境の撮影を開始し、図10のBに示すように、周辺画像P1がユーザ端末1の画面に表示される。
When the user presses button B4 displayed at the top of the list, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 10B.
図10のBの例では、周辺画像P1の下側に表示された撮影ボタンB7の右側に、ボタンB21が表示されている。ボタンB21がユーザにより押下されると、図10のCに示すように、ユーザが現在いるエリア内において過去に撮影された周辺画像が並べられたリストが表示される。
In the example of FIG. 10B, a button B21 is displayed to the right of the capture button B7 displayed below the surrounding image P1. When the user presses the button B21, a list of surrounding images previously captured within the area where the user is currently located is displayed, as shown in FIG. 10C.
図10のCの例では、破線で囲んで示す領域#11には、ユーザが現在いるエリア内において、ユーザ自身がユーザ端末1を用いて過去に撮影した周辺画像が並べられて表示される。また、破線で囲んで示す領域#12には、ユーザが現在いるエリア内において、他のユーザが過去に撮影した周辺画像が並べられて表示される。
In the example of FIG. 10C, area # 11 enclosed by a dashed line displays surrounding images that the user has taken in the past using the user terminal 1 within the area in which the user is currently located. Area # 12 enclosed by a dashed line displays surrounding images that other users have taken in the past within the area in which the user is currently located.
なお、他のユーザにより過去に撮影された周辺画像は、サーバ3に集積されており、SNS(Social Network Service)に投稿された画像や、他のシステムから取得された画像などを含んでいてもよい。
In addition, surrounding images previously taken by other users are accumulated on server 3 and may include images posted on SNS (Social Network Service) and images obtained from other systems.
ユーザは、画面上に表示された複数の周辺画像の中から、所望の周辺画像を選択することができる。例えば現実空間では雨が降っていても、ユーザは、晴天時に撮影された画像を周辺画像として選択することができる。
The user can select the desired surrounding image from multiple surrounding images displayed on the screen. For example, even if it is raining in the real world, the user can select an image taken on a sunny day as the surrounding image.
ユーザにより1つの周辺画像が選択されると、図11のDに示すように、ユーザにより選択された周辺画像P11が画面の上側に表示され、周辺画像P11の下側には、周辺画像P11に対して他のユーザが入力した主観テキストT21が表示される。
When a surrounding image is selected by the user, the surrounding image P11 selected by the user is displayed at the top of the screen, as shown in FIG. 11D, and subjective text T21 entered by another user for the surrounding image P11 is displayed below the surrounding image P11.
主観テキストT21の下側には、周辺画像P11に対するユーザの主観テキストを入力するためのテキストボックスTB11が表示される。ユーザは、周辺画像P11から得た感想をテキストボックスTB11に入力することができる。
Below the subjective text T21, a text box TB11 is displayed for inputting the user's subjective text about the surrounding image P11. The user can input their impressions of the surrounding image P11 in the text box TB11.
テキストボックスTB11の下側には、ユーザにより入力された主観テキストをサーバ3に送信するための送信ボタンB31が表示される。
Below the text box TB11, a send button B31 is displayed for sending the subjective text entered by the user to the server 3.
送信ボタンB31が押下されると、テキストボックスTB11に入力されたテキストが、周辺画像P11に対する主観テキストとしてサーバ3に送信される。サーバ3に送信された主観テキストに基づいて、環境記述テキストが生成されるようにしてもよい。例えば、サーバ3に送信された主観テキストが、そのまま環境記述テキストとして、最終的にユーザにより選択された要素コンテンツに紐づけられるようにしてもよい。
When the send button B31 is pressed, the text entered in the text box TB11 is sent to the server 3 as subjective text for the surrounding image P11. Environmental description text may be generated based on the subjective text sent to the server 3. For example, the subjective text sent to the server 3 may be linked directly as environmental description text to the element content ultimately selected by the user.
主観テキストが送信されるとともに、各要素コンテンツ群に紐付けられた環境記述テキストと周辺画像P11との類似度が評価される。その後、類似度に基づく各要素コンテンツ群のランキングが生成され、図11のEに示すように、当該ランキングが表示される。
The subjective text is transmitted, and the similarity between the environmental description text linked to each element content group and the surrounding image P11 is evaluated. After that, a ranking of each element content group based on the similarity is generated, and the ranking is displayed as shown in FIG. 11E.
図11のEに示すように、ユーザは、例えば選択ボタンB11aを押下することで、周辺画像に最も類似した環境記述テキストに紐付けられた要素コンテンツ群を、ユーザが現在いるエリアに配置したり、ユーザの現在位置を含む新規のエリアに配置したりすることができる。
As shown in FIG. 11E, by pressing, for example, a selection button B11a, the user can place a group of element contents linked to the environmental description text that is most similar to the surrounding image in the area where the user is currently located, or in a new area that includes the user's current location.
・主観テキストを送信する例
図12は、要素コンテンツを選択せずに主観テキストを送信する第1の流れの例を示す図である。 Example of Transmitting Subjective Text FIG. 12 is a diagram showing an example of a first flow in which subjective text is transmitted without selecting element content.
図12は、要素コンテンツを選択せずに主観テキストを送信する第1の流れの例を示す図である。 Example of Transmitting Subjective Text FIG. 12 is a diagram showing an example of a first flow in which subjective text is transmitted without selecting element content.
図12のAに示すように、ユーザがエリアA1内にいる場合、ユーザに対して、エリアA1に配置された要素コンテンツ群が提供される。図12のAの例では、ユーザ端末1の画面において、ユーザに対して提供されているコンテンツテキストの右側に、シェアボタンB41が表示される。
As shown in A of FIG. 12, when the user is in area A1, a group of element contents arranged in area A1 is provided to the user. In the example of A of FIG. 12, a share button B41 is displayed to the right of the content text provided to the user on the screen of the user terminal 1.
要素コンテンツが提供されている状態で、ユーザによりシェアボタンB41が押下されると、ユーザ端末1が周辺環境の撮影を開始し、図12のBに示すように、周辺画像P1がユーザ端末1の画面に表示される。
When the user presses the share button B41 while element content is being provided, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 12B.
周辺画像P1の下側に表示された撮影ボタンB7がユーザにより押下されると、周辺画像P1が取得され、図12のCに示すように、取得された周辺画像P1の少なくとも一部が画面の上側に表示される。周辺画像P1の下側には、エリアA1と要素コンテンツの組み合わせに対するユーザの主観テキストを入力するためのテキストボックスTB21が表示される。ユーザは、例えば、エリアA1において要素コンテンツを視聴して得た感想をテキストボックスTB21に入力することができる。
When the user presses the capture button B7 displayed below the peripheral image P1, the peripheral image P1 is acquired, and at least a part of the acquired peripheral image P1 is displayed at the top of the screen, as shown in FIG. 12C. A text box TB21 is displayed below the peripheral image P1 for inputting the user's subjective text regarding the combination of area A1 and element content. For example, the user can input their impressions of viewing the element content in area A1 in text box TB21.
テキストボックスTB21の下側には、ユーザにより入力された主観テキストをサーバ3に送信するための送信ボタンB42が表示される。
Below the text box TB21, a send button B42 is displayed for sending the subjective text entered by the user to the server 3.
送信ボタンB42が押下されると、テキストボックスTB21に入力された主観テキストが、周辺画像P1、エリアA1の位置情報(ユーザの現在位置の情報)、エリアA1において提供された要素コンテンツを示す情報などとともにサーバ3に送信される。
When the send button B42 is pressed, the subjective text entered in the text box TB21 is sent to the server 3 together with the surrounding image P1, location information of area A1 (information on the user's current location), information indicating the element content provided in area A1, and the like.
なお、要素コンテンツ群にコンテンツサウンドが含まれる場合、コンテンツサウンドを音声として含み、ユーザの周辺環境が撮影された動画像が、周辺画像P1の代わりにサーバ3に送信されるようにしてもよい。
If the element content group includes a content sound, a video image of the user's surrounding environment that includes the content sound as audio may be transmitted to the server 3 instead of the surrounding image P1.
また、送信ボタンB42が押下されると、テキストボックスTB21に入力された主観テキストがSNSに投稿されるようにしてもよい。この場合、テキストボックスTB21に、作品自体(ワールド)や作品を構成するシーンを示すハッシュタグやURLが自動で入力されるようにしてもよい。主観テキストがSNSに投稿されたとしても、ハッシュタグやURLに基づいて、コンテンツ提供サービスのユーザにより投稿された主観テキストを追跡することが可能となる。
In addition, when the send button B42 is pressed, the subjective text entered in the text box TB21 may be posted to an SNS. In this case, a hashtag or URL indicating the work itself (world) or a scene that constitutes the work may be automatically entered in the text box TB21. Even if the subjective text is posted to an SNS, it is possible to track the subjective text posted by users of the content providing service based on the hashtag or URL.
図13は、要素コンテンツを選択せずに主観テキストを送信する第2の流れの例を示す図である。
FIG. 13 shows an example of a second flow for sending subjective text without selecting element content.
図13のAに示すように、ユーザがエリアA1内にいる場合、図12のAを参照して説明したように、ユーザに対して、エリアA1に配置された要素コンテンツ群が提供される。
As shown in A of FIG. 13, when the user is in area A1, the group of element contents arranged in area A1 is provided to the user as described with reference to A of FIG. 12.
要素コンテンツ群が提供されている状態で、ユーザによりシェアボタンB41が押下されると、図13のBに示すように、エリアA1と要素コンテンツの組み合わせに対するユーザの主観テキストを入力するためのテキストボックスTB22が表示される。ユーザは、例えば、エリアA1において要素コンテンツを視聴して得た感想をテキストボックスTB22に入力することができる。
When a group of element contents is provided and the user presses the share button B41, a text box TB22 is displayed in which the user can enter subjective text about the combination of area A1 and element content, as shown in FIG. 13B. For example, the user can enter their impressions of viewing the element content in area A1 in text box TB22.
テキストボックスTB22の下側には、ユーザにより入力された主観テキストをサーバ3に送信するための送信ボタンB43が表示される。
Below the text box TB22, a send button B43 is displayed for sending the subjective text entered by the user to the server 3.
送信ボタンB43が押下されると、テキストボックスTB22に入力された主観テキストが、エリアA1の位置情報(ユーザの現在位置の情報)や、その時の時刻などの情報、エリアA1において提供された要素コンテンツを示す情報などとともにサーバ3に送信される。
When the send button B43 is pressed, the subjective text entered in the text box TB22 is sent to the server 3 along with location information in area A1 (information about the user's current location), information such as the current time, and information indicating the element content provided in area A1.
以上のように、本技術のコンテンツ提供システムにおいては、要素コンテンツに紐付けられた環境記述テキストと、ユーザにより入力された、ユーザの周辺環境に関する周辺データとの類似度が評価され、類似度に基づいて、複数の要素コンテンツの中から周辺環境に対応する要素コンテンツが選択される。ユーザの周辺環境に関する周辺データは、周辺環境が撮影された周辺画像や、周辺環境の音が集音された周辺音声データを含む。
As described above, in the content provision system of this technology, the similarity between the environmental description text linked to the element content and the surrounding data about the user's surrounding environment input by the user is evaluated, and an element content corresponding to the surrounding environment is selected from among multiple element contents based on the similarity. The surrounding data about the user's surrounding environment includes surrounding images captured of the surrounding environment and surrounding audio data captured of sounds in the surrounding environment.
類似度に基づく要素コンテンツの選択は、例えば、類似度に基づく要素コンテンツのランキングを見たユーザの操作に応じて行われる。
The selection of element content based on similarity is performed, for example, in response to a user's operation after viewing a ranking of element content based on similarity.
本技術において、汎用認識器は、ユーザにより入力された周辺画像(周辺音声データ)と、要素コンテンツに紐づけられた環境記述テキストとの類似度を評価すればよい。ある作品の世界観に応じた複数の要素コンテンツが、多様な種類のコンテンツを含むとしても、汎用認識器に入力されるデータの種類は画像とテキストである。したがって、本技術のコンテンツ提供システムは、汎用認識器を用いて、多様な種類のコンテンツを含む複数の要素コンテンツの中から、ユーザの周辺環境に合った要素コンテンツを精度よく選択し、ユーザに提示することが可能となる。
In this technology, the general-purpose recognizer only needs to evaluate the similarity between the surrounding image (surrounding sound data) input by the user and the environmental description text linked to the element content. Even if multiple element contents corresponding to the worldview of a certain work contain various types of content, the types of data input to the general-purpose recognizer are images and text. Therefore, the content provision system of this technology uses the general-purpose recognizer to accurately select element content that matches the user's surrounding environment from multiple element contents containing various types of content, and can present it to the user.
クリエイタが環境記述テキストを登録する際には、要素コンテンツと環境記述テキストとの相関についてのフィードバックが得られ、ユーザが再生準備を行う際には、周辺画像と環境記述テキストの相関についてのフィードバックが得られる。これらのフィードバックを教師データとする転移学習を行うことで、複数の要素コンテンツの中から、ユーザの周辺環境により合った要素コンテンツを選択できる認識器を取得することも可能となる。
When a creator registers environmental description text, feedback is obtained about the correlation between the element content and the environmental description text, and when a user prepares for playback, feedback is obtained about the correlation between the surrounding images and the environmental description text. By performing transfer learning using this feedback as training data, it is also possible to obtain a recognizer that can select element content from multiple element contents that best suits the user's surrounding environment.
・各機器の構成
図14は、ユーザ端末1の構成例を示すブロック図である。 Configuration of Each Device FIG. 14 is a block diagram showing an example of the configuration of theuser terminal 1.
図14は、ユーザ端末1の構成例を示すブロック図である。 Configuration of Each Device FIG. 14 is a block diagram showing an example of the configuration of the
図14に示すように、ユーザ端末1は、入力部51、カメラ52、位置検出部53、制御部54、通信部55、表示部56、およびスピーカ57により構成される。
As shown in FIG. 14, the user terminal 1 is composed of an input unit 51, a camera 52, a position detection unit 53, a control unit 54, a communication unit 55, a display unit 56, and a speaker 57.
入力部51は、表示部56に重畳して設けられたタッチパネル、スイッチ、ボタン、センサなどにより構成される。入力部51は、ユーザの操作の入力を受け付け、ユーザの操作に応じた信号を制御部54に供給する。ユーザの操作が音声コマンドを用いて入力される場合や、周辺データとして周辺音声データが用いられる場合、入力部51は、ユーザの音声や周辺環境の音を集音するマイクロフォンにより構成されるようにしてもよい。
The input unit 51 is composed of a touch panel, switches, buttons, sensors, etc. superimposed on the display unit 56. The input unit 51 accepts input of user operations and supplies signals corresponding to the user operations to the control unit 54. When the user operations are input using voice commands or when peripheral voice data is used as the peripheral data, the input unit 51 may be composed of a microphone that collects the user's voice and sounds from the surrounding environment.
カメラ52は、ユーザの周辺環境を撮影し、周辺画像を取得する。カメラ52は、取得した周辺画像を制御部54に供給する。
The camera 52 captures the user's surrounding environment and acquires surrounding images. The camera 52 supplies the acquired surrounding images to the control unit 54.
位置検出部53は、例えばGNSS(Global Navigation Satellite System)などの任意の測位方式の測位デバイスにより構成される。位置検出部53は、ユーザ(ユーザ端末1)の現在位置を検出(測位)し、検出結果を制御部54に供給する。
The position detection unit 53 is composed of a positioning device using any positioning method, such as GNSS (Global Navigation Satellite System). The position detection unit 53 detects (measures) the current position of the user (user terminal 1) and supplies the detection result to the control unit 54.
ユーザ端末1の現在位置は、位置検出部53による検出の他、ユーザが別途所持している、ユーザ端末1と異なる他のデバイスにより検出されるようにしてもよい。そのような場合、ユーザ端末1の通信部55は、他のデバイスで検出されたユーザ端末1の現在位置の検出結果を、他のデバイスから受信(取得)する。
The current location of the user terminal 1 may be detected by the location detection unit 53, or may be detected by another device other than the user terminal 1 that is carried by the user. In such a case, the communication unit 55 of the user terminal 1 receives (acquires) the detection result of the current location of the user terminal 1 detected by the other device from the other device.
制御部54は、画像取得部71、類似度評価部72、表示制御部73、設定部74、再生制御部75、および主観テキスト取得部76により構成される。
The control unit 54 is composed of an image acquisition unit 71, a similarity evaluation unit 72, a display control unit 73, a setting unit 74, a playback control unit 75, and a subjective text acquisition unit 76.
画像取得部71は、カメラ52により撮影された周辺画像を取得する。また、画像取得部71は、位置検出部53により検出されたユーザの現在位置に基づいて、当該現在位置においてユーザにより過去に撮影された周辺画像を、ユーザ端末1の記憶部(不図示)から取得する。画像取得部71は、ユーザの現在位置に基づいて、当該現在位置において他のユーザにより過去に撮影された周辺画像を、通信部55を介してサーバ3から取得する。
The image acquisition unit 71 acquires surrounding images captured by the camera 52. Furthermore, based on the user's current location detected by the position detection unit 53, the image acquisition unit 71 acquires surrounding images previously captured by the user at the current location from the storage unit (not shown) of the user terminal 1. Based on the user's current location, the image acquisition unit 71 acquires surrounding images previously captured by other users at the current location from the server 3 via the communication unit 55.
画像取得部71は、取得した周辺画像を類似度評価部72に供給する。
The image acquisition unit 71 supplies the acquired surrounding images to the similarity evaluation unit 72.
類似度評価部72は、例えば認識器11(図4)を有する。画像取得部71から供給された周辺画像と、各要素コンテンツに紐づけられた環境記述テキストとを、認識器11に入力することで、周辺画像と環境記述テキストの類似度を評価する。類似度評価部72は、類似度に基づいて、要素コンテンツのランキングを生成し、表示制御部73と設定部74に供給する。
The similarity evaluation unit 72 has, for example, the recognizer 11 (Figure 4). The surrounding image supplied from the image acquisition unit 71 and the environmental description text linked to each element content are input to the recognizer 11, thereby evaluating the similarity between the surrounding image and the environmental description text. The similarity evaluation unit 72 generates a ranking of the element content based on the similarity, and supplies it to the display control unit 73 and the setting unit 74.
表示制御部73は、表示部56を制御して、類似度評価部72から供給されたランキングを表示させる。また、表示制御部73は、ユーザが、要素コンテンツが配置されたエリアに入った場合、コンテンツ画像を表示部56に表示させる。
The display control unit 73 controls the display unit 56 to display the rankings supplied from the similarity evaluation unit 72. In addition, when the user enters an area in which element content is arranged, the display control unit 73 causes the display unit 56 to display a content image.
設定部74は、ユーザの操作に応じて、ユーザの現在位置を含む新規のエリアに要素コンテンツを配置したり、既に配置された要素コンテンツを変更したりして、エリア内にユーザが入った場合に要素コンテンツが提供されるように設定を行う。設定部74が、類似度評価部72から供給されたランキングに基づいて、類似度が最も高い環境記述テキストに紐づけられた要素コンテンツを自動で選択して、要素コンテンツの設定を行うことも可能である。
The setting unit 74, in response to user operations, places element content in a new area including the user's current location or changes already placed element content, and sets the element content so that it is provided when the user enters the area. The setting unit 74 can also automatically select element content linked to the environmental description text with the highest similarity based on the ranking supplied from the similarity evaluation unit 72, and set the element content.
要素コンテンツが配置されることで形成されるスケープに関する情報(エリアの位置、提供される要素コンテンツなどの情報)は、例えばユーザ端末1の記憶部やサーバ3に保存される。
Information about the scape formed by arranging element content (information about the location of the area, the element content to be provided, etc.) is stored, for example, in the memory unit of the user terminal 1 or in the server 3.
再生制御部75は、ユーザが、要素コンテンツが配置されたエリアに入った場合、コンテンツサウンドをスピーカ57から出力させる。表示制御部73と再生制御部75は、ユーザが、要素コンテンツが配置されたエリアに入った場合、要素コンテンツをユーザに提供するコンテンツ提供部として機能する。
When the user enters an area in which element content is placed, the playback control unit 75 outputs the content sound from the speaker 57. The display control unit 73 and the playback control unit 75 function as a content providing unit that provides the element content to the user when the user enters an area in which element content is placed.
主観テキスト取得部76は、ユーザの操作に応じて、ユーザにより入力される主観テキストを取得し、取得した主観テキストを通信部55を介してサーバ3に送信する。
The subjective text acquisition unit 76 acquires the subjective text input by the user in response to the user's operation, and transmits the acquired subjective text to the server 3 via the communication unit 55.
通信部55は、ネットワークを介してサーバ3などの外部の装置と通信する。すなわち、通信部45は、制御部54から供給された情報を外部の装置に送信したり、外部の装置から送信されてきた情報を受信して制御部54に供給したりする。
The communication unit 55 communicates with external devices such as the server 3 via the network. That is, the communication unit 45 transmits information provided by the control unit 54 to the external device, and receives information provided from the external device and provides it to the control unit 54.
表示部56は、例えば有機EL(Electro Luminescence)パネルや液晶パネルなどにより構成され、表示制御部73による制御に従って各種の画面やコンテンツ画像を表示する。
The display unit 56 is composed of, for example, an organic EL (Electro Luminescence) panel or a liquid crystal panel, and displays various screens and content images according to the control of the display control unit 73.
スピーカ57は、再生制御部75による制御に従ってコンテンツサウンドを出力する。なお、ユーザ端末1に有線または無線により接続され、利用者の耳に装着可能なインナーイヤーヘッドホン、ヘッドホン、ウェアラブルデバイスに設けられたスピーカユニットなどの外部の装置からコンテンツサウンドが出力されるようにしてもよい。そのような場合、再生制御部75は、コンテンツサウンドを示すサウンドデータを外部の装置に供給して出力させる。
The speaker 57 outputs the content sound according to the control of the playback control unit 75. The content sound may be output from an external device such as inner-ear headphones that can be worn on the user's ears, headphones, or a speaker unit provided on a wearable device that is connected to the user terminal 1 by wire or wirelessly. In such a case, the playback control unit 75 supplies sound data representing the content sound to the external device to output it.
なお、ユーザ端末1の構成の一部がサーバ3やクラウドなどの外部の装置に設けられるようにしてもよい。例えば、類似度評価部72や設定部74がサーバ3に設けられてもよい。この場合、ユーザ端末1は、例えば、周辺画像をサーバ3に送信し、周辺画像と環境記述テキストの類似度に基づく要素コンテンツのランキングをサーバ3から取得して表示する。また、ユーザ端末1は、例えば、ユーザの操作を示す情報をサーバ3に送信し、サーバ3は、例えば、ユーザの操作に応じて、エリア内にユーザが入った場合に要素コンテンツが提供されるように設定を行う。
Note that a part of the configuration of the user terminal 1 may be provided in an external device such as the server 3 or a cloud. For example, the similarity evaluation unit 72 and the setting unit 74 may be provided in the server 3. In this case, the user terminal 1, for example, transmits a surrounding image to the server 3, and obtains and displays a ranking of element contents based on the similarity between the surrounding image and the environmental description text from the server 3. In addition, the user terminal 1, for example, transmits information indicating a user operation to the server 3, and the server 3, for example, performs settings in response to the user operation so that element contents are provided when the user enters an area.
図15は、クリエイタ端末2の構成例を示す図である。
FIG. 15 shows an example of the configuration of a creator terminal 2.
図15に示すように、クリエイタ端末2は、制作部81、テキスト取得部82、および登録部83により構成される。
As shown in FIG. 15, the creator terminal 2 is composed of a production unit 81, a text acquisition unit 82, and a registration unit 83.
制作部81は、クリエイタの操作に応じて、空間コンテンツや要素コンテンツを制作し、登録部83に供給する。
The production unit 81 produces spatial content and element content in response to the creator's operations and supplies them to the registration unit 83.
テキスト取得部82は、クリエイタにより入力された環境記述テキストを取得し、登録部83に供給する。
The text acquisition unit 82 acquires the environment description text entered by the creator and supplies it to the registration unit 83.
登録部83は、制作部81により供給された要素コンテンツと、テキスト取得部82から供給された環境記述テキストとを紐づけてサーバ3に登録する。
The registration unit 83 links the element content provided by the production unit 81 with the environmental description text provided by the text acquisition unit 82 and registers them on the server 3.
・各機器の動作
次に、図16のフローチャートを参照して、以上のような構成を有するユーザ端末1が行う処理について説明する。図16の処理は、例えば、ユーザが再生準備を行う際に実行される処理である。 Operation of Each Device Next, a process performed by theuser terminal 1 having the above-described configuration will be described with reference to the flowchart in Fig. 16. The process in Fig. 16 is executed, for example, when the user prepares for playback.
次に、図16のフローチャートを参照して、以上のような構成を有するユーザ端末1が行う処理について説明する。図16の処理は、例えば、ユーザが再生準備を行う際に実行される処理である。 Operation of Each Device Next, a process performed by the
ステップS1において、制御部54は、ユーザによる編集モードの選択を受け付ける。制御部54は、例えば編集ボタンB1(図6のA)や変更ボタンB3(図6のB)の押下を、編集モードの選択として受け付ける。
In step S1, the control unit 54 accepts the selection of an edit mode by the user. For example, the control unit 54 accepts pressing of the edit button B1 (A in FIG. 6) or the change button B3 (B in FIG. 6) as the selection of an edit mode.
ステップS2において、制御部54は、ユーザにより周辺画像撮影モードが選択されたか否かを判定する。例えば、ボタンB4(図6のC)が押下された後、撮影ボタンB7(図7のD)が押下された場合、周辺画像撮影モードが選択されたと判定される。
In step S2, the control unit 54 determines whether or not the user has selected the peripheral image capture mode. For example, if the capture button B7 (D in FIG. 7) is pressed after the button B4 (C in FIG. 6) is pressed, it is determined that the peripheral image capture mode has been selected.
周辺画像撮影モードが選択されたとステップS2において判定された場合、ステップS3において、カメラ52は、周辺画像を撮影する。
If it is determined in step S2 that the peripheral image capture mode has been selected, in step S3, the camera 52 captures a peripheral image.
一方、周辺画像撮影モードが選択されていないとステップS2において判定された場合、ステップS4において、制御部54は、ユーザにより周辺画像選択モードが選択されたか否かを判定する。例えば、ボタンB4(図10のA)が押下された後、ボタンB21(図10のB)が押下された場合、周辺画像選択モードが選択されたと判定される。
On the other hand, if it is determined in step S2 that the peripheral image capture mode has not been selected, then in step S4, the control unit 54 determines whether or not the peripheral image selection mode has been selected by the user. For example, if button B4 (A in FIG. 10) is pressed and then button B21 (B in FIG. 10) is pressed, it is determined that the peripheral image selection mode has been selected.
周辺画像選択モードが選択されたとステップS4において判定された場合、ステップS5において、画像取得部71は、既に撮影された周辺画像を取得し、表示制御部73は、過去に(既に)撮影された周辺画像のリストを表示部56に表示させる。
If it is determined in step S4 that the surrounding image selection mode has been selected, in step S5, the image acquisition unit 71 acquires surrounding images that have already been captured, and the display control unit 73 causes the display unit 56 to display a list of surrounding images that have been captured in the past (already).
ステップS6において、制御部54は、過去に撮影された周辺画像のリストの中から、ユーザによる所望の周辺画像の選択を受け付ける。
In step S6, the control unit 54 accepts the user's selection of a desired surrounding image from a list of surrounding images captured in the past.
一方、周辺画像選択モードが選択されていないとステップS4において判定された場合、ステップS7において、表示制御部73は、ある作品の世界観に応じた複数の要素コンテンツ(複数の要素コンテンツ群)のリストを表示部56に表示させる。
On the other hand, if it is determined in step S4 that the peripheral image selection mode has not been selected, in step S7, the display control unit 73 causes the display unit 56 to display a list of multiple element contents (multiple groups of element contents) that correspond to the worldview of a certain work.
ステップS8において、設定部74は、要素コンテンツのリストの中から、ユーザによる所望の要素コンテンツの選択を受け付ける。設定部74は、ユーザにより選択された要素コンテンツを、複数の要素コンテンツの中から選択する選択部として機能し、選択した要素コンテンツを、ユーザがいる現在位置を含むエリアに配置する。要素コンテンツが配置された後、処理は終了となる。
In step S8, the setting unit 74 accepts the user's selection of a desired element content from the list of element contents. The setting unit 74 functions as a selection unit that selects the element content selected by the user from among multiple element contents, and places the selected element content in an area that includes the user's current location. After the element content has been placed, the process ends.
ステップS3において周辺画像が撮影された後、および、ステップS6において周辺画像が選択された後、処理はステップS9に進む。ステップS9において、制御部54は、位置検出部53により検出されたユーザの現在位置に基づいて、ユーザがエリア内にいるか否かを判定する。
After the surrounding image is captured in step S3 and after the surrounding image is selected in step S6, the process proceeds to step S9. In step S9, the control unit 54 determines whether the user is within the area based on the user's current position detected by the position detection unit 53.
ユーザがエリア内にいないとステップS9において判定された場合、ステップS10において、設定部74は、ユーザの現在位置に基づいて、ユーザの現在位置を含む新規のエリアを生成する。
If it is determined in step S9 that the user is not within the area, in step S10, the setting unit 74 generates a new area that includes the user's current location based on the user's current location.
一方、ユーザがエリア内にいるとステップS9において判定された場合、ステップS10の処理がスキップされ、処理はステップS11に進む。
On the other hand, if it is determined in step S9 that the user is within the area, step S10 is skipped and processing proceeds to step S11.
ステップS11において、類似度評価部72は、周辺画像と、各要素コンテンツに紐づけられた環境記述テキストとの類似度を評価する。
In step S11, the similarity evaluation unit 72 evaluates the similarity between the surrounding image and the environmental description text associated with each element content.
ステップS12において、類似度評価部72は、類似度に基づいて、要素コンテンツのランキングを生成する。
In step S12, the similarity evaluation unit 72 generates a ranking of the element contents based on the similarity.
ステップS13において、設定部74は、要素コンテンツを自動で設定するか否かを判定する。要素コンテンツを自動で設定するか否かは、例えば、再生準備を開始する前にあらかじめユーザにより決定される。
In step S13, the setting unit 74 determines whether or not to automatically set the element content. Whether or not to automatically set the element content is determined in advance by the user, for example, before starting preparations for playback.
要素コンテンツを自動で設定するとステップS13において判定された場合、ステップS14において、設定部74は、ユーザの現在位置を含むエリアに、周辺画像との類似度が最も高い環境記述テキストが紐づけられた要素コンテンツを配置する(当該エリアにユーザが入った場合に要素コンテンツが提供されるように設定を行う)。ステップS14において要素コンテンツが設定された後、処理は終了となる。
If it is determined in step S13 that the element content is to be set automatically, in step S14, the setting unit 74 places the element content associated with the environmental description text that has the highest similarity to the surrounding image in the area including the user's current location (setting is performed so that the element content is provided when the user enters that area). After the element content is set in step S14, the process ends.
一方、要素コンテンツを自動で設定しないとステップS13において判定された場合、ステップS15において、表示制御部73は、要素コンテンツのランキングを表示部56に表示させる。
On the other hand, if it is determined in step S13 that the element content is not to be set automatically, in step S15, the display control unit 73 causes the display unit 56 to display the rankings of the element content.
ステップS16において、設定部74は、要素コンテンツのランキングの中から、ユーザによる所望の要素コンテンツの選択を受け付ける。設定部74は、ユーザにより選択された要素コンテンツを、ユーザがいる現在位置を含むエリアに配置し、処理は終了となる。
In step S16, the setting unit 74 accepts the user's selection of a desired element content from the element content rankings. The setting unit 74 places the element content selected by the user in an area including the user's current location, and the process ends.
次に、図17のフローチャートを参照して、クリエイタ端末2が行う処理について説明する。
Next, the processing performed by the creator terminal 2 will be explained with reference to the flowchart in FIG. 17.
ステップS21において、制作部81は、クリエイタの操作に応じて要素コンテンツを制作する。
In step S21, the production unit 81 produces element content in response to the creator's operations.
ステップS22において、登録部83は、制作された要素コンテンツをサーバ3に登録する。
In step S22, the registration unit 83 registers the created element content on the server 3.
ステップS23において、テキスト取得部82は、クリエイタによる環境記述テキストの入力を受け付け、登録部83は、クリエイタにより入力された環境記述テキストと要素コンテンツを紐づけて登録する。
In step S23, the text acquisition unit 82 accepts the input of the environment description text by the creator, and the registration unit 83 links the environment description text input by the creator with the element content and registers it.
以上の処理により、本技術のコンテンツ提供システムは、多様な種類のコンテンツを含む複数の要素コンテンツの中から、環境記述テキストの内容とユーザの周辺環境が合致した要素コンテンツをランキングの形式でユーザに提示することができる。ユーザは、ランキングの上位に並べられた要素コンテンツを確認することで、全ての要素コンテンツを確認しなくても所望の要素コンテンツを容易に見つけて配置することが可能となる。
By using the above process, the content provision system of this technology can present to the user, in the form of a ranking, element content that matches the contents of the environmental description text and the user's surrounding environment from among multiple element content containing a wide variety of content. By checking the element content that is ranked at the top of the ranking, the user can easily find and place the desired element content without having to check all the element content.
したがって、本技術のコンテンツ提供システムは、周辺環境に合った要素コンテンツをユーザに提供することができる。
Therefore, the content provision system of this technology can provide users with element content that matches the surrounding environment.
<2.第2の実施の形態>
第2の実施の形態においては、ユーザが要素コンテンツを選択することなく、ユーザ端末1が自動的に要素コンテンツを配置する。第2の実施の形態において、ユーザは、ワールド内を自由に散策しながら、複数のエリアに要素コンテンツを配置することができる。 2. Second embodiment
In the second embodiment, theuser terminal 1 automatically places the element contents without the user selecting the element contents. In the second embodiment, the user can place element contents in multiple areas while freely wandering around the world.
第2の実施の形態においては、ユーザが要素コンテンツを選択することなく、ユーザ端末1が自動的に要素コンテンツを配置する。第2の実施の形態において、ユーザは、ワールド内を自由に散策しながら、複数のエリアに要素コンテンツを配置することができる。 2. Second embodiment
In the second embodiment, the
図18と図19を参照して、ユーザが空間コンテンツの再生準備を行う第4の流れについて説明する。図18と図19においては、ユーザが、ユーザ端末1としての例えばスマートフォンを用いて空間コンテンツの再生準備を行う例について説明する。
The fourth flow in which a user prepares to play spatial content will be described with reference to Figs. 18 and 19. Figs. 18 and 19 describe an example in which a user prepares to play spatial content using, for example, a smartphone as a user terminal 1.
空間コンテンツの再生準備は、例えば、ワールド内にまだ要素コンテンツが配置されていない状態で開始される。図18のAに示すように、例えば、ユーザ端末1に表示された画面の右上部分には、要素コンテンツを配置するための自動生成ボタンB101が表示される。
The preparation for playing spatial content begins, for example, when no element content has yet been placed in the world. As shown in A of FIG. 18, for example, an automatic generation button B101 for placing element content is displayed in the upper right portion of the screen displayed on the user terminal 1.
図18のAに示すように、ユーザは、ワールド内を散策している途中で要素コンテンツを配置したい場所を見つけた場合、自動生成ボタンB101を押下することができる。
As shown in A of FIG. 18, when the user is exploring the world and finds a place where they want to place element content, they can press the auto-generate button B101.
自動生成ボタンB101が押下されると、ユーザ端末1が周辺環境の撮影を開始し、図18のBに示すように、周辺画像P1がユーザ端末1の画面に表示される。
When the automatic generation button B101 is pressed, the user terminal 1 starts capturing images of the surrounding environment, and a surrounding image P1 is displayed on the screen of the user terminal 1, as shown in FIG. 18B.
周辺画像P1の下側に表示された撮影ボタンB7がユーザにより押下されると、周辺画像P1が取得され、各要素コンテンツに紐付けられた環境記述テキストと周辺画像P1との類似度が評価される。その後、類似度に基づく各要素コンテンツのランキングが生成され、図18のCに示すように、周辺画像P1との類似度が最も高い要素コンテンツが新たに配置されたエリアA101がマップ上に表示される。
When the user presses the capture button B7 displayed below the surrounding image P1, the surrounding image P1 is acquired and the similarity between the environmental description text linked to each element content and the surrounding image P1 is evaluated. After that, a ranking of each element content based on the similarity is generated, and an area A101 in which the element content with the highest similarity to the surrounding image P1 has been newly placed is displayed on the map, as shown in FIG. 18C.
要素コンテンツがエリアA101に配置された後、ユーザに対して、当該要素コンテンツがユーザ端末1により提供される。マップの下側には、ユーザに対して提供されているコンテンツ画像とコンテンツテキストが表示される。
After the element content is placed in area A101, the element content is provided to the user by the user terminal 1. The content image and content text provided to the user are displayed below the map.
エリアA101に要素コンテンツが配置された後、図19のDに示すように、ユーザは、エリアA101外に移動し、要素コンテンツを配置したい場所をさらに見つけた場合、自動生成ボタンB101を押下し、周辺画像の撮影を行うことができる。
After the element content has been placed in area A101, as shown in FIG. 19D, if the user moves outside area A101 and finds another location where they want to place the element content, they can press the auto-generate button B101 and take a picture of the surrounding area.
自動生成ボタンB101の押下と周辺画像の撮影をユーザが繰り返すことで、要素コンテンツが次々と配置され、図19のEに示すように、例えば4つのエリアA101乃至A104に要素コンテンツが配置される。
As the user repeatedly presses the automatic generation button B101 and takes surrounding images, element contents are arranged one after another, and as shown in FIG. 19E, element contents are arranged in, for example, four areas A101 to A104.
図20は、ユーザが空間コンテンツの再生準備を行う第5の流れについて説明する。図20においては、ユーザが、ユーザ端末1としての例えばウェアラブルカメラ101を用いて空間コンテンツの再生準備を行う例について説明する。
FIG. 20 describes a fifth flow in which a user prepares to play spatial content. In FIG. 20, an example is described in which a user prepares to play spatial content using, for example, a wearable camera 101 as a user terminal 1.
ウェアラブルカメラ101を装着したユーザは、ワールド内を散策している途中で要素コンテンツを配置したい場所を見つけた場合、図20のAの左側に示すように、ハンドジェスチャなどの操作を行うことができる。
When a user wearing the wearable camera 101 is walking around the world and finds a place where they want to place element content, they can perform operations such as hand gestures, as shown on the left side of A in Figure 20.
ハンドジェスチャが行われると、ウェアラブルカメラ101は、ユーザのハンドジェスチャに応じて、ウェアラブルカメラ101が周辺環境の撮影を開始し、周辺画像を取得する。その後、ウェアラブルカメラ101は、各要素コンテンツに紐付けられた環境記述テキストと周辺画像との類似度を評価し、類似度に基づく各要素コンテンツのランキングを生成する。
When a hand gesture is made, the wearable camera 101 starts capturing images of the surrounding environment in response to the user's hand gesture, and acquires a surrounding image. The wearable camera 101 then evaluates the similarity between the surrounding image and the environment description text associated with each element content, and generates a ranking of each element content based on the similarity.
ウェアラブルカメラ101は、周辺画像P1との類似度が最も高い要素コンテンツを、図20のAの白抜き矢印の先に示すように、ユーザの現在位置を含むエリアA101に自動的に配置する。
The wearable camera 101 automatically places the element content that has the highest similarity to the surrounding image P1 in an area A101 that includes the user's current location, as shown by the white arrow in A of Figure 20.
要素コンテンツがエリアA101に配置された後、ユーザに対して、当該要素コンテンツがユーザ端末1により提供される。
After the element content is placed in area A101, the element content is provided to the user by user terminal 1.
エリアA101に要素コンテンツが配置された後、ユーザは、エリアA101外に移動し、要素コンテンツを配置したい場所をさらに見つけた場合、図20のBの左側に示すように、ハンドジェスチャなどの操作をさらに行うことができる。
After element content has been placed in area A101, if the user moves outside area A101 and finds another place where he or she wants to place element content, the user can perform further operations such as hand gestures, as shown on the left side of B in Figure 20.
移動とハンドジェスチャをユーザが繰り返すことで、要素コンテンツが次々と配置され、図20の白抜き矢印の先に示すように、例えば4つのエリアA101乃至A104に要素コンテンツが配置される。
As the user repeats movements and hand gestures, element content is placed one after another, and as shown by the white arrows in Figure 20, element content is placed in, for example, four areas A101 to A104.
図21のフローチャートを参照して、第2の実施の形態においてユーザ端末1が行う処理について説明する。図21の処理は、例えば、ユーザが再生準備を行う際に実行される処理である。
The process performed by the user terminal 1 in the second embodiment will be described with reference to the flowchart in FIG. 21. The process in FIG. 21 is executed, for example, when the user prepares for playback.
ステップS101において、制御部54は、ユーザによるスケープ生成の指示を受け付ける。ユーザ端末1が例えばスマートフォンにより構成される場合、スケープ生成の指示は、自動生成ボタンB101(図18のA)、撮影ボタンB7(図18のB)などのボタンや音声コマンドを用いて入力される。ユーザ端末1が例えばウェアラブルデバイスにより構成される場合、スケープ生成の指示は、ウェアラブルデバイスに対するタップや音声コマンドを用いて入力される。ユーザ端末1が例えばウェアラブルカメラにより構成される場合、スケープ生成の指示は、ハンドジェスチャや音声コマンドを用いて入力される。
In step S101, the control unit 54 accepts an instruction to generate a scape from the user. If the user terminal 1 is, for example, a smartphone, the instruction to generate a scape is input using a button such as the automatic generation button B101 (A in FIG. 18) or the capture button B7 (B in FIG. 18), or a voice command. If the user terminal 1 is, for example, a wearable device, the instruction to generate a scape is input using a tap on the wearable device or a voice command. If the user terminal 1 is, for example, a wearable camera, the instruction to generate a scape is input using a hand gesture or a voice command.
ステップS102において、カメラ52は、周辺画像を撮影する。
In step S102, the camera 52 captures an image of the surroundings.
ステップS103において、制御部54は、位置検出部53により検出されたユーザの現在位置に基づいて、ユーザがエリア内にいるか否かを判定する。
In step S103, the control unit 54 determines whether the user is within the area based on the user's current location detected by the location detection unit 53.
ユーザがエリア内にいないとステップS103において判定された場合、ステップS104において、設定部74は、ユーザの現在位置に基づいて、ユーザの現在位置を含む新規のエリアを生成する。
If it is determined in step S103 that the user is not within the area, in step S104, the setting unit 74 generates a new area that includes the user's current location based on the user's current location.
一方、ユーザがエリア内にいるとステップS103において判定された場合、ステップS104の処理がスキップされ、処理はステップS105に進む。
On the other hand, if it is determined in step S103 that the user is within the area, the process of step S104 is skipped and the process proceeds to step S105.
ステップS105において、類似度評価部72は、周辺画像と、各要素コンテンツに紐づけられた環境記述テキストとの類似度を評価する。
In step S105, the similarity evaluation unit 72 evaluates the similarity between the surrounding image and the environmental description text associated with each element content.
ステップS106において、類似度評価部72は、類似度に基づいて、要素コンテンツのランキングを生成する。
In step S106, the similarity evaluation unit 72 generates a ranking of the element contents based on the similarity.
ステップS107において、設定部74は、ユーザの現在位置を含むエリアに、周辺画像との類似度が最も高い環境記述テキストが紐づけられた要素コンテンツを配置する(当該エリアにユーザが入った場合に要素コンテンツが提供されるように設定を行う)。
In step S107, the setting unit 74 places the element content associated with the environmental description text that has the highest similarity to the surrounding image in the area including the user's current location (setting is performed so that the element content is provided when the user enters that area).
以上の処理により、本技術のコンテンツ提供システムは、多様な種類のコンテンツを含む複数の要素コンテンツの中から、環境記述テキストの内容とユーザの周辺環境が合致した要素コンテンツを選択して配置することができる。ユーザは、スケープ生成の指示をユーザ端末1に入力するだけで要素コンテンツを配置することができ、自由に歩き回りながら要素コンテンツを気軽に配置することができる。
By using the above process, the content providing system of this technology can select and place element content that matches the contents of the environmental description text and the user's surrounding environment from among multiple element content containing a wide variety of content. The user can place element content simply by inputting a command to generate the scape into the user terminal 1, and can easily place element content while walking around freely.
なお、本技術のコンテンツ提供システムは、汎用認識器を用いて、環境記述テキストと周辺画像の類似度を精度よく評価することができるため、ユーザは、ユーザ端末1により配置された要素コンテンツをあまり変更しなくても、作品を構成する各シーンを違和感なく体験することができる。
The content provision system of this technology uses a general-purpose recognizer to accurately evaluate the similarity between the environmental description text and the surrounding image, so the user can experience each scene that makes up the work without feeling out of place, even if they do not make many changes to the element content placed by the user terminal 1.
<3.コンテンツ提供システムで取得されるデータを学習に利用する例>
図22は、コンテンツ提供システムで取得されるデータの例を示す図である。 3. Example of using data acquired from the content provision system for learning
FIG. 22 is a diagram showing an example of data acquired by the content providing system.
図22は、コンテンツ提供システムで取得されるデータの例を示す図である。 3. Example of using data acquired from the content provision system for learning
FIG. 22 is a diagram showing an example of data acquired by the content providing system.
コンテンツ提供システムは、コンテンツ提供サービスを提供する一連の処理において、例えば、図22に示すように、ユーザ情報、ユーザにより選択された要素コンテンツに関する情報、ユーザの位置情報、地図情報、周辺画像に関する情報、ユーザの生体情報、ユーザの行動情報、エリアへのユーザの侵入履歴、および3rd Party DBを取得することができる。
In a series of processes for providing a content provision service, the content provision system can acquire, for example, user information, information about element content selected by the user, user location information, map information, information about surrounding images, user biometric information, user behavior information, user entry history into an area, and a 3rd Party DB, as shown in FIG. 22.
ユーザ情報には、年齢、性別、居住地、職業などのデモグラフィックや、コンテンツ提供サービスのアカウントIDが含まれる。ユーザにより選択された要素コンテンツに関する情報には、ワールドのID、スケープ(シーンや要素コンテンツ)のID、および、要素コンテンツ(シーン)に紐づけられた環境記述テキスト(マッチング用のテキスト)が含まれる。
User information includes demographic information such as age, gender, place of residence, and occupation, as well as the account ID for the content providing service. Information about the elemental content selected by the user includes the world ID, the scape (scene and elemental content) ID, and the environmental description text (matching text) associated with the elemental content (scene).
ユーザの位置情報には、エリアの座標、エリアの代わりに要素コンテンツが配置されるオブジェクトの座標、視点方位が含まれる。地図情報には、ユーザの周囲にあるビルなどの地図POI(Point of Interest)を示す情報、地図POIに付随したフロア情報や店舗名などの情報が含まれる。
The user's location information includes the coordinates of the area, the coordinates of the object on which element content is placed in place of the area, and the viewpoint direction. The map information includes information indicating map POIs (Points of Interest) such as buildings around the user, as well as floor information and store names associated with the map POIs.
周辺画像に関する情報には、ユーザにより周辺画像として入力された画像のID、当該画像の撮影時刻、当該画像の取得時刻、当該画像の取得元、ユーザにより入力された主観テキスト、主観テキストの入力時刻が含まれる。3rd Party DBには、例えば、ファンクラブへのユーザの入会情報、コンテンツやグッズなどといった物品の購入履歴を示す購買情報、および、ターゲティング広告に関する情報が含まれる。
Information about the surrounding images includes the ID of the image input by the user as the surrounding image, the time the image was taken, the time the image was acquired, the source from which the image was acquired, the subjective text entered by the user, and the time the subjective text was entered. The 3rd Party DB includes, for example, information about the user's membership in a fan club, purchasing information indicating the purchase history of items such as content and merchandise, and information about targeted advertising.
図23は、学習に利用されるデータの例を示す図である。
Figure 23 shows an example of data used for learning.
図23に示すように、例えば、ユーザ情報、ファンクラブへの入会情報や購買情報を含む消費活動情報、ユーザの位置情報、および、ユーザにより選択された要素コンテンツに関する情報が、特定の場所に基づくユーザのコンテンツ選択とユーザの特性との相関の学習に用いられる。
As shown in FIG. 23, for example, user information, consumer activity information including fan club membership information and purchasing information, user location information, and information regarding element content selected by the user are used to learn the correlation between the user's content selection based on a specific location and the user's characteristics.
例えば、ユーザ情報、消費活動情報、地図情報、および、ユーザにより選択された要素コンテンツに関する情報が、特定の地図POIに基づくユーザのコンテンツ選択とユーザの特性との相関の学習に用いられる。
For example, user information, consumption activity information, map information, and information about elemental content selected by the user are used to learn correlations between the user's content selections based on specific map POIs and the user's characteristics.
例えば、ユーザ情報、消費活動情報、周辺画像に関する情報、および、ユーザにより選択された要素コンテンツに関する情報が、特定の周辺画像に基づくユーザのコンテンツ選択とユーザの特性との相関の学習に用いられる。
For example, user information, consumer activity information, information about surrounding images, and information about elemental content selected by the user are used to learn the correlation between the user's content selection based on specific surrounding images and the user's characteristics.
例えば、周辺画像に関する情報、周辺画像と環境記述テキストのマッチング結果、ユーザにより入力された主観テキスト、および、ユーザにより選択された要素コンテンツに関する情報が、周辺画像と主観テキストの相関の学習に用いられる。
For example, information about the surrounding images, the matching results between the surrounding images and the environmental description text, the subjective text entered by the user, and information about the element content selected by the user are used to learn the correlation between the surrounding images and the subjective text.
例えば、周辺画像と主観テキストの相関の学習結果、および、ユーザにより選択された要素コンテンツに関する情報が、主観テキストとコンテンツの相関の学習に用いられる。
For example, the results of learning the correlation between surrounding images and subjective text, and information about element content selected by the user, are used to learn the correlation between subjective text and content.
例えば、特定の周辺画像に基づくユーザのコンテンツ選択とユーザ特性との相関の学習結果、および、主観テキストとコンテンツの相関の学習結果が、コンテンツと周辺画像を結びつけるテキスト(環境記述テキスト)の学習に用いられる。これらのデータを用いた環境記述テキストの学習結果は、クリエイタが環境記述テキストを入力する際のサポートに用いられてもよい。例えば、クリエイタが環境記述テキストを入力しなくても、環境記述テキストの学習により取得された学習モデルに要素コンテンツを入力することで、要素コンテンツが提供されるべき(要素コンテンツに合った)周辺環境の様子が記述された環境記述テキストを取得することも可能である。
For example, the learning results of the correlation between a user's content selection based on a specific peripheral image and user characteristics, and the learning results of the correlation between subjective text and content, are used to learn text (environment description text) that links content and peripheral images. The learning results of the environment description text using these data may be used to support creators when inputting environment description text. For example, even if the creator does not input the environment description text, it is possible to obtain an environment description text that describes the appearance of the surrounding environment in which the element content should be provided (matching the element content) by inputting element content into a learning model obtained by learning the environment description text.
<コンピュータについて>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。 <About computers>
The above-mentioned series of processes can be executed by hardware or software. When the series of processes is executed by software, the program constituting the software is installed from a program recording medium into a computer incorporated in dedicated hardware or a general-purpose personal computer.
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。 <About computers>
The above-mentioned series of processes can be executed by hardware or software. When the series of processes is executed by software, the program constituting the software is installed from a program recording medium into a computer incorporated in dedicated hardware or a general-purpose personal computer.
図24は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
FIG. 24 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
CPU (Central Processing Unit) 501, ROM (Read Only Memory) 502, and RAM (Random Access Memory) 503 are interconnected by a bus 504.
バス504には、さらに、入出力インタフェース505が接続される。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。
Further connected to the bus 504 is an input/output interface 505. Connected to the input/output interface 505 are an input unit 506 consisting of a keyboard, mouse, etc., and an output unit 507 consisting of a display, speakers, etc. Also connected to the input/output interface 505 are a storage unit 508 consisting of a hard disk or non-volatile memory, a communication unit 509 consisting of a network interface, etc., and a drive 510 that drives removable media 511.
以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505及びバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。
In a computer configured as described above, the CPU 501, for example, loads a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executes the program, thereby performing the above-mentioned series of processes.
CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。
The programs executed by the CPU 501 are provided, for example, by being recorded on removable media 511, or via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and are installed in the storage unit 508.
コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
The program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or it may be a program in which processing is performed in parallel or at the required timing, such as when called.
なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
In this specification, a system refers to a collection of multiple components (devices, modules (parts), etc.), regardless of whether all the components are in the same housing. Therefore, multiple devices housed in separate housings and connected via a network, and a single device in which multiple modules are housed in a single housing, are both systems.
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
The effects described in this specification are merely examples and are not limiting, and other effects may also exist.
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
The embodiment of this technology is not limited to the above-mentioned embodiment, and various modifications are possible without departing from the gist of this technology.
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
For example, this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
In addition, each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
Furthermore, when one step includes multiple processes, the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。 <Examples of configuration combinations>
The present technology can also be configured as follows.
本技術は、以下のような構成をとることもできる。 <Examples of configuration combinations>
The present technology can also be configured as follows.
(1)
コンテンツに紐付けられた第1のテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価する類似度評価部と、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する選択部と
を備える情報処理装置。
(2)
前記類似度評価部は、前記第1のテキストと前記周辺データを入力とし、前記類似度を出力とする認識器を用いて前記類似度を評価する
(1)に記載の情報処理装置。
(3)
紐づけられた前記第1のテキストと前記周辺データの前記類似度が高い順に前記コンテンツが並べられたランキングを表示する表示制御部をさらに備え、
前記選択部は、前記ユーザの操作に応じて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
前記(1)または(2)に記載の情報処理装置。
(4)
前記選択部は、複数の前記コンテンツの中から、前記類似度が最も高い前記第1のテキストに紐づけられた前記コンテンツを、前記周辺環境に対応する前記コンテンツとして選択する
前記(1)または(2)に記載の情報処理装置。
(5)
前記周辺データは、前記ユーザにより所定の機器が用いられて現在の前記周辺環境において取得されたデータである
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記周辺データは、過去の前記周辺環境に関するデータである
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(7)
過去の前記周辺環境に関する前記周辺データは、前記ユーザまたは他のユーザにより所定の機器が用いられて過去の前記周辺環境において取得されたデータである
前記(6)に記載の情報処理装置。
(8)
前記コンテンツが配置されたエリアに前記ユーザが入った場合、前記コンテンツを前記ユーザに提供するコンテンツ提供部をさらに備える
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記選択部は、前記ユーザが前記エリア内にいる場合、前記エリアに既に配置された前記コンテンツを、前記周辺環境に対応する前記コンテンツに変更する
前記(8)に記載の情報処理装置。
(10)
前記選択部は、前記ユーザが前記エリア内にいない場合、前記ユーザの現在位置を含む新規エリアを生成し、前記周辺環境に対応する前記コンテンツを前記新規エリアに配置する
前記(8)または(9)に記載の情報処理装置。
(11)
前記周辺データは、前記周辺環境が撮影された画像と前記周辺環境の音が集音された音声データとを含む
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記コンテンツは、動画像とサウンドのうちの少なくともいずれかにより構成される
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記選択部は、前記周辺データが取得された時刻と状況のうちの少なくともいずれかに基づいて、前記コンテンツを選択する
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記第1のテキストは、前記コンテンツを制作したクリエイタにより入力される
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
少なくとも前記周辺環境に対する前記ユーザの主観の文章を示す第2のテキストを取得する主観テキストを取得する取得部をさらに備える
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(16)
前記第1のテキストは、前記第2のテキストに基づいて生成される
前記(15)に記載の情報処理装置。
(17)
コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
情報処理方法。
(18)
前記テキストは、前記コンテンツを制作したクリエイタにより入力され、
前記クリエイタにより前記テキストが前記コンテンツに紐づけられて登録されるとき、前記コンテンツと前記テキストの相関を示す情報を取得する
前記(17)に記載の情報処理方法。
(19)
コンピュータに、
コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
処理を実行させるためのプログラム。 (1)
a similarity evaluation unit that evaluates a similarity between a first text associated with the content and surrounding data related to the user's surrounding environment input by the user;
and a selection unit that selects the content corresponding to the surrounding environment from among the plurality of contents based on the similarity.
(2)
The information processing device according to any one of the preceding claims, wherein the similarity evaluation unit evaluates the similarity using a recognizer that receives the first text and the peripheral data as input and outputs the similarity.
(3)
a display control unit that displays a ranking in which the contents are arranged in descending order of the degree of similarity between the associated first text and the associated peripheral data;
The information processing device according to (1) or (2), wherein the selection unit selects the content corresponding to the surrounding environment from among a plurality of the contents in response to an operation by the user.
(4)
The information processing device according to (1) or (2), wherein the selection unit selects, from among the plurality of pieces of content, the piece of content associated with the first text having the highest similarity as the piece of content corresponding to the surrounding environment.
(5)
The information processing device according to any one of (1) to (4), wherein the peripheral data is data acquired in the current peripheral environment by the user using a predetermined device.
(6)
The information processing device according to any one of (1) to (4), wherein the surrounding data is data relating to the surrounding environment in the past.
(7)
The information processing device according to (6), wherein the surrounding data relating to the surrounding environment in the past is data acquired in the surrounding environment in the past by the user or another user using a predetermined device.
(8)
The information processing device according to any one of (1) to (7), further comprising a content providing unit that provides the content to the user when the user enters an area in which the content is located.
(9)
The information processing device according to (8), wherein, when the user is within the area, the selection unit changes the content already arranged in the area to the content corresponding to the surrounding environment.
(10)
The information processing device according to (8) or (9), wherein the selection unit, when the user is not within the area, generates a new area including the user's current location and places the content corresponding to the surrounding environment in the new area.
(11)
The information processing device according to any one of (1) to (10), wherein the surrounding data includes images of the surrounding environment and audio data of sounds collected from the surrounding environment.
(12)
The information processing device according to any one of (1) to (11), wherein the content is composed of at least one of a moving image and a sound.
(13)
The information processing device according to any one of (1) to (12), wherein the selection unit selects the content based on at least one of a time and a situation in which the peripheral data was acquired.
(14)
The information processing device according to any one of (1) to (13), wherein the first text is input by a creator who produced the content.
(15)
The information processing device according to any one of (1) to (13), further comprising an acquisition unit for acquiring a subjective text that acquires a second text indicating a subjective sentence of the user with respect to at least the surrounding environment.
(16)
The information processing device according to (15), wherein the first text is generated based on the second text.
(17)
Evaluating a similarity between a text associated with the content and surrounding data related to the user's surrounding environment input by the user;
selecting the content corresponding to the surrounding environment from among the plurality of contents based on the degree of similarity.
(18)
the text is entered by a creator who created the content;
The information processing method according to (17), further comprising obtaining information indicating a correlation between the content and the text when the creator registers the text in association with the content.
(19)
On the computer,
Evaluating a similarity between a text associated with the content and surrounding data related to the user's surrounding environment input by the user;
a program for executing a process of selecting the content corresponding to the surrounding environment from among a plurality of the contents based on the similarity.
コンテンツに紐付けられた第1のテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価する類似度評価部と、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する選択部と
を備える情報処理装置。
(2)
前記類似度評価部は、前記第1のテキストと前記周辺データを入力とし、前記類似度を出力とする認識器を用いて前記類似度を評価する
(1)に記載の情報処理装置。
(3)
紐づけられた前記第1のテキストと前記周辺データの前記類似度が高い順に前記コンテンツが並べられたランキングを表示する表示制御部をさらに備え、
前記選択部は、前記ユーザの操作に応じて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
前記(1)または(2)に記載の情報処理装置。
(4)
前記選択部は、複数の前記コンテンツの中から、前記類似度が最も高い前記第1のテキストに紐づけられた前記コンテンツを、前記周辺環境に対応する前記コンテンツとして選択する
前記(1)または(2)に記載の情報処理装置。
(5)
前記周辺データは、前記ユーザにより所定の機器が用いられて現在の前記周辺環境において取得されたデータである
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記周辺データは、過去の前記周辺環境に関するデータである
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(7)
過去の前記周辺環境に関する前記周辺データは、前記ユーザまたは他のユーザにより所定の機器が用いられて過去の前記周辺環境において取得されたデータである
前記(6)に記載の情報処理装置。
(8)
前記コンテンツが配置されたエリアに前記ユーザが入った場合、前記コンテンツを前記ユーザに提供するコンテンツ提供部をさらに備える
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記選択部は、前記ユーザが前記エリア内にいる場合、前記エリアに既に配置された前記コンテンツを、前記周辺環境に対応する前記コンテンツに変更する
前記(8)に記載の情報処理装置。
(10)
前記選択部は、前記ユーザが前記エリア内にいない場合、前記ユーザの現在位置を含む新規エリアを生成し、前記周辺環境に対応する前記コンテンツを前記新規エリアに配置する
前記(8)または(9)に記載の情報処理装置。
(11)
前記周辺データは、前記周辺環境が撮影された画像と前記周辺環境の音が集音された音声データとを含む
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記コンテンツは、動画像とサウンドのうちの少なくともいずれかにより構成される
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記選択部は、前記周辺データが取得された時刻と状況のうちの少なくともいずれかに基づいて、前記コンテンツを選択する
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記第1のテキストは、前記コンテンツを制作したクリエイタにより入力される
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
少なくとも前記周辺環境に対する前記ユーザの主観の文章を示す第2のテキストを取得する主観テキストを取得する取得部をさらに備える
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(16)
前記第1のテキストは、前記第2のテキストに基づいて生成される
前記(15)に記載の情報処理装置。
(17)
コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
情報処理方法。
(18)
前記テキストは、前記コンテンツを制作したクリエイタにより入力され、
前記クリエイタにより前記テキストが前記コンテンツに紐づけられて登録されるとき、前記コンテンツと前記テキストの相関を示す情報を取得する
前記(17)に記載の情報処理方法。
(19)
コンピュータに、
コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
処理を実行させるためのプログラム。 (1)
a similarity evaluation unit that evaluates a similarity between a first text associated with the content and surrounding data related to the user's surrounding environment input by the user;
and a selection unit that selects the content corresponding to the surrounding environment from among the plurality of contents based on the similarity.
(2)
The information processing device according to any one of the preceding claims, wherein the similarity evaluation unit evaluates the similarity using a recognizer that receives the first text and the peripheral data as input and outputs the similarity.
(3)
a display control unit that displays a ranking in which the contents are arranged in descending order of the degree of similarity between the associated first text and the associated peripheral data;
The information processing device according to (1) or (2), wherein the selection unit selects the content corresponding to the surrounding environment from among a plurality of the contents in response to an operation by the user.
(4)
The information processing device according to (1) or (2), wherein the selection unit selects, from among the plurality of pieces of content, the piece of content associated with the first text having the highest similarity as the piece of content corresponding to the surrounding environment.
(5)
The information processing device according to any one of (1) to (4), wherein the peripheral data is data acquired in the current peripheral environment by the user using a predetermined device.
(6)
The information processing device according to any one of (1) to (4), wherein the surrounding data is data relating to the surrounding environment in the past.
(7)
The information processing device according to (6), wherein the surrounding data relating to the surrounding environment in the past is data acquired in the surrounding environment in the past by the user or another user using a predetermined device.
(8)
The information processing device according to any one of (1) to (7), further comprising a content providing unit that provides the content to the user when the user enters an area in which the content is located.
(9)
The information processing device according to (8), wherein, when the user is within the area, the selection unit changes the content already arranged in the area to the content corresponding to the surrounding environment.
(10)
The information processing device according to (8) or (9), wherein the selection unit, when the user is not within the area, generates a new area including the user's current location and places the content corresponding to the surrounding environment in the new area.
(11)
The information processing device according to any one of (1) to (10), wherein the surrounding data includes images of the surrounding environment and audio data of sounds collected from the surrounding environment.
(12)
The information processing device according to any one of (1) to (11), wherein the content is composed of at least one of a moving image and a sound.
(13)
The information processing device according to any one of (1) to (12), wherein the selection unit selects the content based on at least one of a time and a situation in which the peripheral data was acquired.
(14)
The information processing device according to any one of (1) to (13), wherein the first text is input by a creator who produced the content.
(15)
The information processing device according to any one of (1) to (13), further comprising an acquisition unit for acquiring a subjective text that acquires a second text indicating a subjective sentence of the user with respect to at least the surrounding environment.
(16)
The information processing device according to (15), wherein the first text is generated based on the second text.
(17)
Evaluating a similarity between a text associated with the content and surrounding data related to the user's surrounding environment input by the user;
selecting the content corresponding to the surrounding environment from among the plurality of contents based on the degree of similarity.
(18)
the text is entered by a creator who created the content;
The information processing method according to (17), further comprising obtaining information indicating a correlation between the content and the text when the creator registers the text in association with the content.
(19)
On the computer,
Evaluating a similarity between a text associated with the content and surrounding data related to the user's surrounding environment input by the user;
a program for executing a process of selecting the content corresponding to the surrounding environment from among a plurality of the contents based on the similarity.
1 ユーザ端末, 2 クリエイタ端末, 3 サーバ, 11 認識器, 51 入力部, 52 カメラ, 53 位置検出部, 54 制御部, 55 通信部, 56 表示部, 57 スピーカ, 71 画像取得部, 72 類似度評価部, 73 表示制御部73 設定部, 75 再生制御部, 76 主観テキスト取得部, 81 制作部, 82 テキスト取得部, 83 登録部
1 User terminal, 2 Creator terminal, 3 Server, 11 Recognizer, 51 Input unit, 52 Camera, 53 Position detection unit, 54 Control unit, 55 Communication unit, 56 Display unit, 57 Speaker, 71 Image acquisition unit, 72 Similarity evaluation unit, 73 Display control unit, 73 Setting unit, 75 Playback control unit, 76 Subjective text acquisition unit, 81 Production unit, 82 Text acquisition unit, 83 Registration unit
Claims (19)
- コンテンツに紐付けられた第1のテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価する類似度評価部と、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する選択部と
を備える情報処理装置。 a similarity evaluation unit that evaluates a similarity between a first text associated with the content and surrounding data related to the user's surrounding environment input by the user;
and a selection unit that selects the content corresponding to the surrounding environment from among the plurality of contents based on the similarity. - 前記類似度評価部は、前記第1のテキストと前記周辺データを入力とし、前記類似度を出力とする認識器を用いて前記類似度を評価する
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the similarity evaluation unit evaluates the similarity using a recognizer that receives the first text and the peripheral data as input and outputs the similarity. - 紐づけられた前記第1のテキストと前記周辺データの前記類似度が高い順に前記コンテンツが並べられたランキングを表示する表示制御部をさらに備え、
前記選択部は、前記ユーザの操作に応じて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
請求項1に記載の情報処理装置。 a display control unit that displays a ranking in which the contents are arranged in descending order of the degree of similarity between the associated first text and the associated peripheral data;
The information processing device according to claim 1 , wherein the selection unit selects the content corresponding to the surrounding environment from among a plurality of the contents in response to an operation by the user. - 前記選択部は、複数の前記コンテンツの中から、前記類似度が最も高い前記第1のテキストに紐づけられた前記コンテンツを、前記周辺環境に対応する前記コンテンツとして選択する
請求項1に記載の情報処理装置。 The information processing device according to claim 1 , wherein the selection unit selects, from among the plurality of pieces of content, the piece of content associated with the first text having the highest similarity as the piece of content corresponding to the surrounding environment. - 前記周辺データは、前記ユーザにより所定の機器が用いられて現在の前記周辺環境において取得されたデータである
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the peripheral data is data acquired in the current peripheral environment by the user using a predetermined device. - 前記周辺データは、過去の前記周辺環境に関するデータである
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the surrounding data is data relating to the surrounding environment in the past. - 過去の前記周辺環境に関する前記周辺データは、前記ユーザまたは他のユーザにより所定の機器が用いられて過去の前記周辺環境において取得されたデータである
請求項6に記載の情報処理装置。 The information processing apparatus according to claim 6 , wherein the surrounding data relating to the surrounding environment in the past is data acquired in the surrounding environment in the past by the user or another user using a predetermined device. - 前記コンテンツが配置されたエリアに前記ユーザが入った場合、前記コンテンツを前記ユーザに提供するコンテンツ提供部をさらに備える
請求項1に記載の情報処理装置。 The information processing device according to claim 1 , further comprising a content providing unit that provides the content to the user when the user enters an area in which the content is located. - 前記選択部は、前記ユーザが前記エリア内にいる場合、前記エリアに既に配置された前記コンテンツを、前記周辺環境に対応する前記コンテンツに変更する
請求項8に記載の情報処理装置。 The information processing device according to claim 8 , wherein, when the user is in the area, the selection unit changes the content already arranged in the area to the content corresponding to the surrounding environment. - 前記選択部は、前記ユーザが前記エリア内にいない場合、前記ユーザの現在位置を含む新規エリアを生成し、前記周辺環境に対応する前記コンテンツを前記新規エリアに配置する
請求項8に記載の情報処理装置。 The information processing device according to claim 8 , wherein the selection unit, when the user is not within the area, generates a new area including a current position of the user, and places the content corresponding to the surrounding environment in the new area. - 前記周辺データは、前記周辺環境が撮影された画像と前記周辺環境の音が集音された音声データとを含む
請求項1に記載の情報処理装置。 The information processing device according to claim 1 , wherein the surrounding data includes images of the surrounding environment and audio data of sounds of the surrounding environment. - 前記コンテンツは、動画像とサウンドのうちの少なくともいずれかにより構成される
請求項1に記載の情報処理装置。 The information processing device according to claim 1 , wherein the content is composed of at least one of a moving image and a sound. - 前記選択部は、前記周辺データが取得された時刻と状況のうちの少なくともいずれかに基づいて、前記コンテンツを選択する
請求項1に記載の情報処理装置。 The information processing device according to claim 1 , wherein the selection unit selects the content based on at least one of a time and a situation in which the peripheral data was acquired. - 前記第1のテキストは、前記コンテンツを制作したクリエイタにより入力される
請求項1に記載の情報処理装置。 The information processing device according to claim 1 , wherein the first text is input by a creator who created the content. - 少なくとも前記周辺環境に対する前記ユーザの主観の文章を示す第2のテキストを取得する主観テキストを取得する取得部をさらに備える
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , further comprising: an acquisition unit for acquiring a subjective text that acquires a second text indicating a subjective sentence of the user with respect to at least the surrounding environment. - 前記第1のテキストは、前記第2のテキストに基づいて生成される
請求項15に記載の情報処理装置。 The information processing apparatus according to claim 15 , wherein the first text is generated based on the second text. - コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
情報処理方法。 Evaluating a similarity between a text associated with the content and surrounding data related to the user's surrounding environment input by the user;
selecting the content corresponding to the surrounding environment from among the plurality of contents based on the degree of similarity. - 前記テキストは、前記コンテンツを制作したクリエイタにより入力され、
前記クリエイタにより前記テキストが前記コンテンツに紐づけられて登録されるとき、前記コンテンツと前記テキストの相関を示す情報を取得する
請求項17に記載の情報処理方法。 the text is entered by a creator who created the content;
The information processing method according to claim 17 , further comprising obtaining information indicating a correlation between the content and the text when the creator registers the text in association with the content. - コンピュータに、
コンテンツに紐付けられたテキストと、ユーザにより入力された、前記ユーザの周辺環境に関する周辺データとの類似度を評価し、
前記類似度に基づいて、複数の前記コンテンツの中から前記周辺環境に対応する前記コンテンツを選択する
処理を実行させるためのプログラム。 On the computer,
Evaluating a similarity between a text associated with the content and surrounding data related to the user's surrounding environment input by the user;
a program for executing a process of selecting the content corresponding to the surrounding environment from among a plurality of the contents based on the similarity.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023-012553 | 2023-01-31 | ||
JP2023012553 | 2023-01-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024161991A1 true WO2024161991A1 (en) | 2024-08-08 |
Family
ID=92146549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2024/001049 WO2024161991A1 (en) | 2023-01-31 | 2024-01-17 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024161991A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017198799A (en) * | 2016-04-26 | 2017-11-02 | トヨタ自動車株式会社 | Information collection system |
WO2020255767A1 (en) * | 2019-06-20 | 2020-12-24 | ソニー株式会社 | Information processing system, information processing method, and recording medium |
JP2022138750A (en) * | 2021-03-11 | 2022-09-26 | 株式会社リコー | Question-answering system, information processing apparatus, information processing method, and program |
-
2024
- 2024-01-17 WO PCT/JP2024/001049 patent/WO2024161991A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017198799A (en) * | 2016-04-26 | 2017-11-02 | トヨタ自動車株式会社 | Information collection system |
WO2020255767A1 (en) * | 2019-06-20 | 2020-12-24 | ソニー株式会社 | Information processing system, information processing method, and recording medium |
JP2022138750A (en) * | 2021-03-11 | 2022-09-26 | 株式会社リコー | Question-answering system, information processing apparatus, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110203B (en) | Resource information pushing method, server, resource information display method and terminal | |
CN111201539B (en) | Method, medium and computer system for determining matching scenarios of user behavior | |
CN103608811B (en) | For the context-aware applications model of the equipment connected | |
US11670055B1 (en) | Facial expression tracking during augmented and virtual reality sessions | |
JP6684883B2 (en) | Method and system for providing camera effects | |
CN110140138A (en) | The determination of the content-data of local device, transimission and storage | |
CN107257338B (en) | media data processing method, device and storage medium | |
US20140316894A1 (en) | System and method for interfacing interactive systems with social networks and media playback devices | |
JP5527423B2 (en) | Image processing system, image processing method, and storage medium storing image processing program | |
CN107533685A (en) | Personalized context suggestion engine | |
TWI617930B (en) | Method and system for sorting a search result with space objects, and a computer-readable storage device | |
WO2012135048A2 (en) | Systems and methods for capturing event feedback | |
JP6046874B1 (en) | Information processing apparatus, information processing method, and program | |
CN104067275A (en) | Sequencing electronic files | |
CN109754316A (en) | Products Show method, Products Show system and storage medium | |
WO2018135334A1 (en) | Information processing device and information processing method, and computer program | |
CN113360738A (en) | Content evaluation method, system, and computer-readable recording medium | |
JP2008198135A (en) | Information delivery system, information delivery device and information delivery method | |
WO2024161991A1 (en) | Information processing device, information processing method, and program | |
US20180316972A1 (en) | Information processing device, method, and program | |
TWI806207B (en) | Method and system for initiating a location-based topic | |
Bousbahi et al. | Mobile augmented reality adaptation through smartphone device based hybrid tracking to support cultural heritage experience | |
JP6958795B1 (en) | Information processing methods, computer programs and information processing equipment | |
JP5444409B2 (en) | Image display system | |
CN112041787A (en) | Electronic device for outputting response to user input using application and method of operating the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 24749945 Country of ref document: EP Kind code of ref document: A1 |