WO2023157782A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2023157782A1
WO2023157782A1 PCT/JP2023/004681 JP2023004681W WO2023157782A1 WO 2023157782 A1 WO2023157782 A1 WO 2023157782A1 JP 2023004681 W JP2023004681 W JP 2023004681W WO 2023157782 A1 WO2023157782 A1 WO 2023157782A1
Authority
WO
WIPO (PCT)
Prior art keywords
importance
free
viewpoint
viewing
viewpoint content
Prior art date
Application number
PCT/JP2023/004681
Other languages
English (en)
French (fr)
Inventor
勇斗 横山
智博 大井
遼 深澤
正行 井上
和典 淺山
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023157782A1 publication Critical patent/WO2023157782A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • 3D video content that allows you to freely change your viewpoint, such as video content shot with volumetric video technology and video content that allows you to view virtual spaces such as 3D games and metaverses (hereinafter referred to as free viewpoint content) ) is becoming widespread.
  • the present disclosure proposes an information processing device, an information processing method, and a program that can prevent a viewer from overlooking a highlight scene.
  • an information processing apparatus acquires at least one of information related to a user viewing free-viewpoint content and information related to the free-viewpoint content. and a generation unit that generates viewing time and viewing position of the free-viewpoint content based on at least one of information related to the user and information related to the free-viewpoint content.
  • FIG. 1 is a block diagram showing a schematic configuration example of an information processing system according to an embodiment
  • FIG. It is a functional block diagram showing an example of functional composition of an information processing system concerning one embodiment.
  • 4 is a flowchart showing an example of schematic operation of an information processing system according to an embodiment
  • FIG. 7 is a diagram showing an example of an operation flow when calculating highlight time according to one embodiment
  • FIG. 7 is a diagram showing an example of an operation flow when calculating a highlight position according to one embodiment
  • FIG. 7 is a diagram for explaining an example of calculation of the positional importance of event data according to one embodiment
  • FIG. 5 is a diagram for explaining an example of calculation of temporal density of event data according to one embodiment
  • FIG. 10 is a diagram for explaining an example of calculation of locational density of event data according to an embodiment
  • FIG. 7 is a diagram for explaining a calculation example of positional importance in viewing importance according to one embodiment
  • FIG. 11 is a diagram for explaining a calculation example of heat map importance obtained from a heat map according to one embodiment
  • FIG. 10 is a diagram for explaining a calculation example of the degree of importance obtained from the number of viewers (hereinafter referred to as the degree of importance of the number of viewers) according to one embodiment
  • FIG. 10 is a diagram for explaining an example of a highlight viewpoint determination flow according to an embodiment (No. 1);
  • FIG. 11 is a diagram for explaining an example of a highlight viewpoint determination flow according to an embodiment (No. 2);
  • FIG. 11 is a diagram for explaining an example of a highlight viewpoint determination flow according to an embodiment (No. 3);
  • FIG. 12 is a diagram for explaining an example of a highlight viewpoint determination flow according to an embodiment (No. 4);
  • FIG. 12 is a diagram for explaining an example of a highlight viewpoint determination flow according to an embodiment (No. 5);
  • FIG. 5 is a diagram showing an example of a display screen of free viewpoint content according to one embodiment;
  • 1 is a hardware configuration diagram showing an example of an information processing device that executes various processes according to the present disclosure;
  • Free-viewpoint content in which the viewpoint can be freely changed, can be viewed from various viewpoints using an HMD (Head Mounted Display), a personal computer, a smartphone, a tablet terminal, or the like. With regard to such free-viewpoint content, in the future, there will be requests such as those who want to see some important scenes rather than the whole, or want to create a digest video of important scenes such as a compilation. is expected.
  • HMD Head Mounted Display
  • the technology cultivated for 2D content since it is to generate a digest video from free-viewpoint content.
  • the viewpoint position cannot be freely moved in two-dimensional content, the generation of the digest video involves only estimating the time of interest and not estimating the position.
  • the digest video in this description may be video content whose length is shorter than the temporal length of the original video content.
  • the time zone, viewpoint position, and viewing direction to be viewed from the free viewpoint content, that is, the scene to be the highlight is estimated, and provided to the viewer so that the viewer can find the scene to be the highlight. To make it possible to suppress overlooking.
  • the free-viewpoint content targeted in this embodiment includes, for example, the movement of objects (humans, objects, etc.) captured from the real space into the virtual space using volumetric video technology or the HawkEye (registered trademark) system. It may be 3D video content, such as 3D video content, 3D games, Metaverse, avatar animation, etc., in which movements of objects (avatars or objects) are created in virtual space.
  • 3D video content such as 3D video content, 3D games, Metaverse, avatar animation, etc.
  • the content is not limited to these, and various types of content can be used as long as they three-dimensionally represent the positions and movements of objects such as people and objects.
  • an example of free-viewpoint content generated from photographed data of a sport such as soccer will be taken.
  • Free-viewpoint content can be broadly classified into two types: “viewing a 360° video from the inside of a sphere” and “viewing a 3D model from various directions”. Both are called free-viewpoint contents, but they differ greatly in terms of usage and creation flow.
  • a case where "a 3D model is viewed from various directions” is adopted as free-viewpoint content, but the present disclosure is not limited to this, and "a 360-degree video is viewed from the inside of a sphere.”
  • Various free-viewpoint contents may be employed, such as “things to do”.
  • free-viewpoint content is not limited to content generated from sports photography data, and may include the following elements.
  • - Motion generated in any way e.g. differentiated movements of players or balls
  • Manually or automatically generated event data e.g. player A shot at coordinate X, scored, etc.
  • Meta information such as venue and date
  • FIG. 1 is a block diagram showing a schematic configuration example of an information processing system according to this embodiment.
  • an information processing system 1 includes a server 100, a database (DB) 110, and one or more user terminals 120a, 120b, . ) are connected via a network 130 .
  • DB database
  • user terminals 120a, 120b, . are connected via a network 130 .
  • the server 100 is, for example, an example of an information processing apparatus according to the present disclosure, and provides a service for viewing free-viewpoint content to users (also called viewers or users).
  • the server 100 may be composed of one server, or may be composed of a plurality of servers.
  • the server 100 may be composed of one or more cloud servers arranged on the network 130 .
  • the database 110 stores information related to free-viewpoint content such as free-viewpoint content to be provided to users and meta information of this free-viewpoint content, as well as information related to users viewing free-viewpoint content such as viewing histories collected from users. also accumulate. Note that the database 110 may be a part of the server 100 or may be configured separately from the server 100 .
  • the user terminal 120 is, for example, an information processing device for a user to view and use free-viewpoint content provided directly from the database 110 or via the server 100.
  • the user terminal 120 is an HMD, personal computer, smartphone, tablet terminal. and so on.
  • the network 130 is, for example, a wired or wireless LAN (Local Area Network) (including WiFi), a WAN (Wide Area Network), the Internet, a mobile communication system (4G (4th Generation Mobile Communication System), 4G-LTE (Long Term Evolution ), 5G, etc.).
  • LAN Local Area Network
  • WAN Wide Area Network
  • the Internet a mobile communication system (4G (4th Generation Mobile Communication System), 4G-LTE (Long Term Evolution ), 5G, etc.).
  • FIG. 2 is a functional block diagram showing a functional configuration example of the information processing system according to this embodiment.
  • the information processing system 1 includes functional elements such as an event importance calculation unit 101, a movement importance calculation unit 102, a viewing importance calculation unit 103, a sights information generation unit 104, a sights information generation unit 104, and a sights information generation unit 104.
  • a viewpoint determination unit 105 a content database 111 , a viewing history database 112 , a content viewing unit 121 , and a highlight using unit 122 are provided.
  • the event importance calculation unit 101, the movement importance calculation unit 102, the viewing importance calculation unit 103, the highlight information generation unit 104, and the highlight viewpoint determination unit 105 are mounted on the server 100, for example, and the contents database 111 and The viewing history database 112 may be implemented in the database 110 , and the content viewing section 121 and the highlight utilization section 122 may be implemented in the user terminal 120 .
  • one or more functional elements including the highlight viewpoint determination unit 105 may be implemented in the user terminal 120 .
  • the content database 111 stores information related to free-viewpoint content, including one or more free-viewpoint content and meta-event information (also called event data) extracted from each free-viewpoint content.
  • the meta-event information may be a label indicating how the avatar or object is moving at that time, which is linked to the free-viewpoint content. For example, information such as player A jumping/shooting/scoring at point X, and labels such as actor B speaking "good morning" at point Y are event data. is linked to the time axis of the free viewpoint content.
  • the extraction of event data from free-viewpoint content can be manual or automatic.
  • the operator manually creates event data indicating information about an event occurring in the free-viewpoint content using, for example, a support system.
  • event data automatically, for example, free-viewpoint content is input to an analysis application such as a trained model that has been prepared in advance, and as a result, the free-viewpoint content is linked to the time axis.
  • the above event data is output.
  • the event data extracted in this manner is stored in the content database 111 in association with the free-viewpoint content, for example.
  • the content viewing unit 121 includes, for example, an input unit, a processing unit, and a display unit, and reproduces the video of the free-viewpoint content provided directly from the database 110 or via the server 100 to the user.
  • the user inputs from the input unit of the user terminal 120 a designation of the free viewpoint content that the user wants to view or an instruction to start viewing. Also, while viewing the free-viewpoint content, the user inputs an instruction regarding the viewpoint position and the viewing direction in the virtual space developed by the free-viewpoint content through the input unit.
  • the processing unit acquires the free-viewpoint content directly from the database 110 or from the server 100 when the designation of the free-viewpoint content to be viewed or the instruction to start viewing is input. Then, the processing unit renders the free viewpoint content within the angle of view based on the viewpoint position and viewing direction input to the input unit, thereby generating a video to be provided to the user.
  • the image generated in this manner is presented to the user by being displayed on the display unit.
  • the viewing history database 112 accumulates information related to users viewing free-viewpoint content, including the user's viewing history for each free-viewpoint content.
  • the accumulated viewing history may be for each user, for each category to which the user belongs (age, gender, hobbies/preferences, etc.), or for all users without discrimination.
  • each viewing history may include information (including viewing time information, viewing position information, and reaction information, which will be described later) indicating which scene (position and time) in the free viewpoint content the user has viewed.
  • the viewing history may include user-related information (age, gender, hobbies/preferences, etc.).
  • Event Importance Calculator 101 calculates the importance of events in the free-viewpoint content (hereinafter also referred to as event importance).
  • the motion importance calculation unit 102 calculates the importance of the movement of objects in the free viewpoint content (hereinafter also referred to as motion importance). Note that the movement of avatars and objects may be one of the elements that make up the free viewpoint content.
  • the viewing importance calculation unit 103 calculates the importance (hereinafter also referred to as viewing importance) of the free-viewpoint content based on the user's viewing history.
  • the highlight information generation unit 104 is based on the importance calculated by one or more of the event importance calculation unit 101, the movement importance calculation unit 102, and the viewing importance calculation unit 103. Based on this, information (hereinafter also referred to as highlight information) for specifying the highlight scene in the free viewpoint content is generated.
  • the highlight information to be generated may include, for example, information indicating the position (for example, coordinates) and time (hereinafter also referred to as highlight position/time) of the scene that is the highlight.
  • the highlight time may be viewing time that indicates a length shorter than the time length of the original free-viewpoint content.
  • the highlight viewpoint determination unit 105 determines the optimum viewpoint position and viewing direction (hereinafter also referred to as highlight viewpoint) for rendering the highlight scene specified by the highlight information generation unit 104. to decide.
  • the highlight use unit 122 Based on the highlight information provided from the highlight information generation unit 104, the highlight use unit 122 presents information for specifying the highlight scene to the user and the image of the highlight scene to the user. At that time, the highlight utilization unit 122 may generate a video to be presented to the user by rendering the free viewpoint content based on the viewpoint position and the viewing direction acquired from the highlight viewpoint determination unit 105, or may determine the highlight viewpoint. By presenting the viewpoint position and the viewing direction acquired from the unit 105 to the user, it is possible to present to the user at what time and at what position the scene is the highlight.
  • target free-viewpoint content and event data associated therewith are acquired from the content database 111 (step S101). 102 respectively.
  • the server 100 may extract event data from the free-viewpoint content when the free-viewpoint content is acquired from the content database 111 . In that case, the event data may not be stored in the content database 111 .
  • the event importance calculation unit 101 calculates the event importance from the input free viewpoint content and event data (step S102), and inputs the calculated event importance to the highlight information generation unit 104.
  • the movement importance calculation unit 102 calculates the movement importance from the input free viewpoint content and event data (step S103), and inputs the calculated movement importance to the highlight information generation unit 104. Note that step S102 and step S103 may be executed in parallel.
  • the viewing history of the free-viewpoint content stored in the viewing history database 112 is acquired (step S104) and input to the viewing importance calculation unit 103.
  • the viewing history database 112 may accumulate viewing histories of free-viewpoint content by specific or unspecified users as needed.
  • the viewing importance calculation unit 103 calculates the viewing importance from the input viewing history (step S105), and inputs the calculated viewing importance to the highlight information generating unit 104.
  • the sights information generation unit 104 generates sights information indicating the position (for example, coordinates) and time of the scene to be viewed based on one or more of the input event importance, movement importance, and viewing importance. (Step S ⁇ b>106 ), the generated highlight information is input to the highlight viewpoint determination unit 105 .
  • the highlight viewpoint determination unit 105 determines the appropriate viewing position and direction from the position of the scene to be viewed included in the highlight information and the positional relationship between the shielding objects in the free viewpoint content in this scene. A viewpoint is determined (step S107).
  • the highlight information and highlight viewpoint obtained as described above are transmitted to the user terminal 120 via the network 130 together with the free viewpoint content (step S108), and are used in the user terminal 120 for viewing the free viewpoint content.
  • a digest video of the free-viewpoint content may be created using the highlight information and the highlight viewpoint in the user terminal 120 and played back to the user.
  • step S109 the server 100 determines whether or not to end this operation (step S109), and if it ends (YES in step S109), this operation ends. On the other hand, if not finished (NO in step S109), the operation returns to step S101, and the subsequent operations are executed.
  • the position and time of the highlight scene, and the viewpoint position and viewing direction for viewing this scene are determined, and the user stays in Tokyo.
  • FIG. 4 shows an example of an operation flow when calculating the highlight time according to this embodiment
  • FIG. 5 shows an example of an operation flow when calculating the highlight position according to this embodiment.
  • the appropriate calculation method for each element may vary depending on the type of material used to create the free-viewpoint content. In the following description, for the sake of clarity, the case of using free-viewpoint content based on sports such as soccer will continue to be taken as an example.
  • Event Importance Calculation Flow Example First, the event importance calculation flow shown in step S102 of FIG. 3 will be described with an example.
  • the positional importance hereinafter also referred to as positional importance
  • the temporal importance hereinafter referred to as (also called temporal importance) are calculated respectively. Therefore, the event importance according to this embodiment can include the positional importance and temporal importance of event data.
  • FIG. 6 is a diagram for explaining a calculation example of the positional importance of event data according to this embodiment.
  • FIG. 6 shows, as an example, events occurring within 5 seconds (e.g., corresponding to a unit time, which will be described later) from a certain time t in a soccer game.
  • the virtual space of the free-viewpoint content is represented by a two-dimensional plane, but it may actually be a three-dimensional space.
  • the virtual space VS of the free-viewpoint content is divided into a plurality of grid-like (cube-like in the case of a three-dimensional space) regions (hereinafter also referred to as grids).
  • grids a total of 6 grids (I, 1) to (III, 2) of 2 rows and 3 columns consisting of 2 rows (1) to (2) and 3 columns (I) to (III) ).
  • a time slot may be each period when the time axis of the content from the attendant's viewpoint is divided by a predetermined time (hereinafter also referred to as unit time).
  • the event importance calculation unit 101 obtains the geographical density of event data for each grid (hereinafter also referred to as event density) in each time slot, and sets the value in the range of 0 to 1. By normalizing, the positional importance of event data at a certain time (time slot) and a certain point (grid) is calculated (see step S302 in FIG. 5). At that time, a weight preset for each event data may be multiplied. This is because the degree of importance of event data may differ depending on the content used as the subject, such as the type of sports and concerts.
  • the temporal importance of event data is, for example, the density of event data for each time slot (hereinafter also referred to as temporal density) and the locational density of event data (hereinafter also referred to as locational density). It is calculated by summing the two elements.
  • the temporal density of event data is calculated, for example, based on the density of event data for each time slot.
  • FIG. 7 is a diagram for explaining a calculation example of the temporal density of event data according to this embodiment.
  • slot #A contains player x's dribble (event data x) as event data.
  • slot #B includes a ball lineout (event data y) as event data
  • slot #C includes a kick by player a (event data a) as event data. , a header by a player b (event data b), a shoot by a player c (event data c), and a catch by a player d (event data d).
  • slot #C since the number of event data included in slot #C (4) is greater than the number of event data included in other slots #A and #B (1), slot #C is highly likely to be a highlight.
  • the event importance calculation unit 101 obtains the temporal density of event data in each time slot and normalizes the value within the range of 0 to 1 (see step S201 in FIG. 4).
  • Event Data Location Density The event data location density is calculated, for example, based on the density of event data for each grid in each time slot.
  • FIG. 8 is a diagram for explaining a calculation example of the positional density of event data according to this embodiment.
  • FIG. 8 shows a case (A) in which four players a1 to d1 are attacking and defending in front of the goal in the grid (I, 1) in the upper left corner in a certain time slot, and a grid in the center of the ground ( In II, 1) and (II, 2), four players a2 to d2 simply move leftward (B).
  • the number of event data included in the time slot shown in (A) and the number of event data included in the time slot shown in (B) are both four, and the number of event data generated in each scene. are the same, but in the scene of (A), the intervals of the positions in the virtual space to which each event data is associated are closer than in the scene of (B).
  • the number of event data contained in one grid is greater in scene (A) than in scene (B), so scene (A) (time slot) is the highlight. Highly probable.
  • the event importance calculation unit 101 obtains the positional density of event data in each grid for each time slot, and normalizes the value within the range of 0 to 1 (step S202).
  • temporal importance of event data is obtained, for example, by summing the temporal density and positional density calculated as described above and normalizing the summed value within the range of 0 to 1. (See step S203 in FIG. 4). At that time, the temporal density and the positional density may be multiplied by preset weights. This is because the degree of importance of an event can vary depending on the content used as the subject, such as the type of sports or a concert. For example, in soccer or basketball, a scene with a high density is likely to be an important scene, but in American football or theater, a scene with a low density is likely to be an important scene. is.
  • the motion importance calculation flow shown in step S103 of FIG. 3 will be described with an example.
  • the positional importance and temporal importance in the free viewpoint content are calculated based on the motion density, speed, acceleration, etc. of the object included in the free viewpoint content. Therefore, the motion importance according to this embodiment can include the positional importance and temporal importance of the movement of the object, as well as the event importance.
  • the positional importance of motion is determined by the density of objects in each grid (hereinafter also referred to as object density) in each time slot (see step S303 in FIG. 5), and the velocity and acceleration of objects in each grid. , etc. (hereinafter also referred to as a motion parameter) (see step S304 in FIG. 5).
  • the motion parameter is not limited to the average, and may be variously modified such as the median value, standard deviation, integrated value, and the like.
  • the motion importance calculation unit 102 normalizes the object density and the motion parameter in the range of 0 to 1, sums the normalized values, and normalizes the summed values again.
  • the positional importance of the motion of the object for each grid in each time slot is calculated (see step S305 in FIG. 5).
  • each of the object density and the motion parameter may be multiplied by a preset weight. This is because, in the same way as the temporal importance of event data, the importance of movement of objects can vary depending on the type of sports, concerts, and other subject content.
  • the temporal importance of motion is, for example, the average object density of all grids (hereinafter also referred to as object density average) for each time slot (see step S204 in FIG. 4) and the average motion parameter of all grids (hereinafter referred to as , motion parameter average) (see step S205 in FIG. 4) and (see step S206 in FIG. 4).
  • object density averages and/or motion parameter averages are not limited to averages, and may be modified in various ways such as median values, standard deviations, and integrated values.
  • the values calculated in the above-described positional importance calculation may be used as the object density and motion parameter of each grid for each time slot.
  • the motion importance calculation unit 102 averages the object density and the motion parameter of all the grids calculated for each time slot in the positional importance calculation.
  • Object density averages and motion parameter averages may be calculated.
  • each of the object density and the motion parameter may be multiplied by a preset weight. This is because, like the positional importance, the importance of the movement of the object may vary depending on the content, such as the type of sport or the concert.
  • the user When viewing free-viewpoint content, the user inputs various operations from the user terminal 120, such as seeking to a desired scene and controlling the viewpoint position and viewing direction when viewing.
  • the scene is highly likely to be a highlight scene, and the viewpoint position and viewing direction set by many users for each scene are highly likely to be the optimal viewpoint position and viewing direction for viewing that scene. .
  • viewing time information information related to seek operation when the free viewpoint content is viewed by a specified or unspecified user
  • viewing position information information related to viewpoint position and viewing direction operation
  • viewing histories it is possible to calculate the importance of each scene (time slot) and the optimum viewpoint position and viewing direction for each scene based on the accumulated viewing history.
  • the viewing history according to the present embodiment includes, in addition to the viewing time information and the viewing position information, information related to the user's voice and reaction while viewing the free-viewpoint content (hereinafter also referred to as reaction information).
  • reaction information information related to the user's voice and reaction while viewing the free-viewpoint content
  • the content viewing unit 121 has a function of inputting the voice uttered by the user during viewing, and a function of performing voice chat or text chat between users (hereinafter also referred to as an intention expression tool). to be installed.
  • Reaction information collected from a specified or unspecified user during viewing of a specific free-viewpoint content by means of an intention expression tool is accumulated in the viewing history database 112 as part of the viewing history associated with the free-viewpoint content.
  • the viewing history including the reaction information may be collected in a situation where highlight information or the like is not provided via the highlight utilization unit 122, or may be collected in a situation where highlight information or the like is provided.
  • the viewing importance according to this embodiment can include positional importance and temporal importance, as well as event importance and movement importance.
  • FIG. 9 is a diagram for explaining a calculation example of positional importance in viewing importance according to the present embodiment.
  • a heat map of the viewing history is generated based on the viewing history accumulated in the viewing history database 112 .
  • the darker the hatching the more users are viewing the area in a certain time slot.
  • the viewing importance calculation unit 103 uses, for example, a heat map created based on the viewing history to calculate the concentration of the viewing history in each grid in a certain time slot (see step S306 in FIG. 5), The difference between the concentration of the viewing history at the position where the viewing history is most concentrated (for example, the grid) and the average concentration of the viewing history at the other positions (grid) is the position of the specified position (grid) The degree of importance is calculated (see step S307 in FIG. 5).
  • temporal importance of viewing importance is calculated based on the importance obtained from, for example, a heat map of viewing history for each time slot, the number of viewers for each time slot, and reaction information for each time slot. obtain.
  • FIG. 10 is a diagram for explaining a calculation example of the degree of importance obtained from the heat map (hereinafter also referred to as heat map importance) according to the present embodiment.
  • heat map importance the degree of importance obtained from the heat map (hereinafter also referred to as heat map importance) according to the present embodiment.
  • the viewing importance calculation unit 103 calculates the degree of concentration of the viewing position of each grid for each time slot, and uses the maximum value among the calculated degrees of concentration as an index of the degree of importance of the time slot. Then, the viewing importance calculation unit 103 normalizes the importance index determined for each time slot in the range of 0 to 1, thereby calculating the heat map importance of each time slot (step S207 in FIG. 4). reference).
  • FIG. 11 is a diagram for explaining a calculation example of the degree of importance obtained from the number of viewers (hereinafter referred to as the degree of importance of the number of viewers) according to this embodiment. As shown in FIG. 11, by analyzing the viewing history accumulated in the viewing history database 112, it is possible to identify the transition of the number of viewers along the time axis of the free viewpoint content.
  • the viewing position on the time axis can be moved by the user operating a seek bar or the like displayed as a UI (user interface) on the display unit of the user terminal 120, many users view without seeking.
  • a time slot with a high number of viewers ie, a time slot with a large number of viewers
  • the viewing importance calculation unit 103 normalizes the number of viewers for each time slot within the range of 0 to 1, thereby calculating the importance of the number of viewers in each time slot (see step S208 in FIG. 4). .
  • Reaction information collected by the manifestation of intention tool includes the voice uttered by the user during viewing (which may include volume, content, etc.), and the communication between users using the voice chat function and text chat function of the manifestation of intention tool. Contents exchanged may be included. Therefore, the viewing importance calculation unit 103 calculates the reaction importance based on the voice, contents, etc. collected as reaction information.
  • the voices input by the voice chat function or the voices simply leaked by the user may be recorded, and the degree of importance of the reaction may be calculated from the amount of change in volume.
  • the difference between the maximum volume and the minimum volume for each time slot is calculated, and the calculated difference is normalized within the range of 0-1.
  • a time slot with a large value after normalization is regarded as a time slot corresponding to a highlight scene, and the average of the values (after normalization) calculated for all users is calculated as the reaction importance (step S209 in FIG. 4). reference).
  • the viewing importance calculation unit 103 calculates the temporal density of the intention (reaction information) transmitted by the user using the intention expression tool, and normalizes it in the range of 0 to 1 to obtain the reaction importance. It may be calculated (see step S210 in FIG. 4).
  • Temporal importance in the viewing importance is obtained by summing at least one of the heat map importance, audience number importance, and reaction importance calculated as described above. It is obtained by normalizing the value in the range of 0 to 1 (see step S211 in FIG. 4). At that time, the heat map importance, the audience number importance, and the reaction importance may be multiplied by preset weights.
  • the sights information generating unit 104 may generate sights information including the time (time slot) and position (grid) of the sights scene by adding up the six degrees of importance.
  • the highlight information generation unit 104 may calculate the highlight time by adding the temporal importance of the event data, the temporal importance of the movement of the object, and the temporal importance of the viewing history ( (see step S212 in FIG. 4).
  • the highlight information generation unit 104 may also calculate the highlight position by adding the positional importance of the event data, the positional importance of the movement of the object, and the positional importance of the viewing history (see step S308 in FIG. 5).
  • each of the six degrees of importance may be multiplied by a preset weight. This is because, for example, if the amount of viewing information accumulated is small, there is a high possibility that a correct value cannot be obtained for the viewing importance, and depending on the free-viewpoint content, the event importance and the motion importance are biased. This is because there may be Further, the position of the grid here may be, for example, a reference position set in advance with respect to the grid, such as the coordinates of the center of the grid or the coordinates of any one of the four corners of the grid.
  • 12 to 16 are diagrams for explaining an example flow for determining a highlight viewpoint according to this embodiment.
  • objects OB11 to OB14 and highlight position P1 exist at the positions illustrated in FIG. . . . OB4 and the highlight position P2 exist at the positions illustrated in FIG. 13, the area where the highlight position P1 is blocked by the objects OB1 to OB4 in the frame N (that is, the blind spot area; hereinafter also referred to as the shielded area).
  • the shielded area is a hatched area in FIG. 14
  • a hatched area in FIG. 15 is an area where the highlight position P2 is blocked by the objects OB1 to OB4 in the frame N+1. Note that the number of objects may be increased or decreased between frames.
  • the hidden area in each frame is calculated geometrically and mathematically using straight line equations from the positional relationship between the highlight position and the object, or the highlight position as used in SLAM (Simultaneous Localization and Mapping). It can be obtained by various methods, such as a method of generating a RAY having a collision determination from the base and measuring it.
  • a large change in the viewpoint position while viewing a certain scene may give the viewer discomfort such as sickness, and may also be a factor in lowering the quality of the video.
  • the viewpoint position set in frame N based on the blocked region shown in FIG. 14 is included in the blocked region of frame N+1 shown in FIG.
  • the user may experience discomfort such as motion sickness.
  • the highlight viewpoint determination unit 105 superimposes a shielded area on a plurality of consecutive frames included in a highlight scene, so that the area ( 16) is specified, the highlight viewpoints C1 and C2 are set in the specified region, and the best highlight viewpoints (viewpoint position and viewing direction) for viewing the highlight positions P1 and P2 are selected. to decide.
  • the virtual space is expressed in two dimensions for the sake of simplification, but the viewpoint position can be determined by the same method even in the case of three dimensions.
  • the highlight viewpoint determination unit 105 may notify the highlight utilization unit 122 of all of the one or more highlight viewpoints C1 and C2 specified as described above, or may notify the highlight viewpoint utilization unit 122 of the specified highlight viewpoints C1 and C2.
  • one optimal highlight viewpoint may be determined based on the positional relationship of the objects, the distance from the highlight positions P1 and P2, and the like, and the determined highlight viewpoint may be notified to the highlight utilization unit 122.
  • the highlight viewpoint determination unit 105 may determine, as one highlight viewpoint, the viewpoint position with the shortest distance from the immediately previous viewpoint position among the one or more highlight viewpoints C1 and C2 determined as the next viewpoint positions. good.
  • the highlight information and highlight viewpoints generated or determined as described above are transmitted to the user terminal 120 together with the free viewpoint content (step S108 in FIG. 3). It is used by the highlight utilization unit 122 .
  • Various forms are conceivable for using the highlight information and the highlight viewpoint. Some examples are given below.
  • the highlight utilization unit 122 can automatically generate a digest video in which highlight scenes are extracted from the free-viewpoint content by setting a threshold for the importance of scenes that can be specified from the highlight information. It is possible. At this time, by allowing the user to adjust the threshold value, the highlight utilization unit 122 can also generate a different digest video for each user.
  • the user terminal 120 may render the free viewpoint content based on the highlight information and the highlight viewpoint to generate a digest video.
  • the highlight utilization unit 122 is implemented in the server 100
  • the server 100 renders the free-viewpoint content based on the highlight information and the highlight viewpoint, generates a digest video, and distributes the generated digest video to the network. 130 to the user terminal 120 and played back to the user in the content viewing unit 121 of the user terminal 120 .
  • FIG. 17 is a diagram showing an example of a display screen of free-viewpoint content according to this embodiment.
  • the information that "it is better to see from this viewpoint” is arranged as an object 402 at the corresponding position (proposed viewpoint position) in the free viewpoint content, and is displayed to the user via the display screen 401.
  • the information "the highlight point is at this time” may be provided to the user as a tag 404 attached to a seek bar 403 displayed as a UI on the display screen 401.
  • the parameters for obtaining the degree of importance for example, event density, temporal density and positional density of event data and their total value, object density and motion parameter, their total value, time Index of importance determined for each slot, number of viewers for each time slot, difference between maximum and minimum volume for each time slot, temporal density of reaction information, heat map importance, number of viewers importance and reaction
  • the value obtained by summing at least one of the degrees of importance is normalized in the range of 0 to 1, but the present invention is not limited to this, and various normalization methods may be employed.
  • various indicators representing the movement of an object such as angular velocity and angular acceleration, may be used to calculate the movement importance, in addition to the velocity and acceleration of the object.
  • the method of calculating importance is not limited to the methods exemplified in the above embodiments, and may be modified in various ways, for example, designed according to the target free-viewpoint content or user.
  • the sights use unit 122 uses all of the sights information (sights location and sights viewpoint) and the sights viewpoint has been exemplified.
  • the information used by the highlight utilization unit 122 and/or the information transmitted to the highlight utilization unit 122 may be part of the highlight information (highlight position and highlight viewpoint) and the highlight viewpoint. .
  • the system side or the user side may be able to select which information is not used.
  • the highlight viewpoint determination unit 105 may determine the highlight viewpoint so that the viewpoint is as close as possible to the viewpoint used by the viewer (for example, the previous viewpoint position and viewing direction). As a result, frequent and large changes in the viewpoint position can be suppressed, so that the induction of 3D motion sickness and motion sickness can be reduced.
  • FIG. 18 is a hardware configuration diagram showing an example of a computer 1000 that implements at least one function of the server 100 and the user terminal 120.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • HDD 1400 is a recording medium that records a program for executing each operation according to the present disclosure, which is an example of program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device via the communication interface 1500, and transmits data generated by the CPU 1100 to another device.
  • the input/output interface 1600 includes the I/F section 18 described above, and is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium.
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk)
  • magneto-optical recording media such as MO (Magneto-Optical disk)
  • tape media magnetic recording media
  • magnetic recording media semiconductor memories, etc. is.
  • the CPU 1100 of the computer 1000 executes a program loaded on the RAM 1200 to Implement at least one function.
  • the HDD 1400 also stores programs and the like according to the present disclosure.
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the present technology can also take the following configuration.
  • an acquisition unit that acquires at least one of information related to a user viewing free-viewpoint content and information related to the free-viewpoint content; a generation unit that generates viewing time and viewing position of the free-viewpoint content based on at least one of information related to the user and information related to the free-viewpoint content; Information processing device.
  • the generation unit generates the viewing time indicating a length shorter than the time length of the free viewpoint content.
  • the viewpoint position is set within an area in which the viewing position is not blocked by the one or more objects when the viewing position is viewed from the viewpoint position;
  • the information processing device described.
  • the determination unit determines one or more viewpoint positions as the next viewpoint position, and determines the viewpoint position having the shortest distance from the previous viewpoint position among the determined one or more viewpoint positions as the next viewpoint position.
  • (9) further comprising a degree-of-importance calculation unit that calculates the degree of importance of the free-viewpoint content for each time zone based on information related to the free-viewpoint content;
  • the information processing apparatus according to any one of (1) to (8), wherein the generation unit generates viewing time and viewing position based on the degree of importance.
  • the information processing apparatus according to (9), wherein the importance includes a first importance for each position in the virtual space represented by the free viewpoint content and a second importance for each time zone.
  • the importance calculation unit calculates the importance by adding the first importance and the second importance.
  • the importance calculation unit multiplies the first importance and the second importance by preset weights, and sums the first importance and the second importance multiplied by the weights.
  • the information processing apparatus wherein the degree of importance is calculated by doing so.
  • the information processing device (14)
  • the information related to the free-viewpoint content includes event data indicating events occurring in the free-viewpoint content, movement of one or more objects included in the free-viewpoint content, and viewing history of the free-viewpoint content. including at least one any one of (9) to (13) above, wherein the importance calculation unit calculates the importance using at least one of the event data, the movement of the one or more objects, and the viewing history
  • the information processing device according to .
  • the importance calculation unit calculates a third importance based on each of at least two of the event data, the movement of the one or more objects, and the viewing history, and sums the calculated third importance.
  • the importance calculation unit calculates the event data, the one or more The importance is calculated by multiplying the weight set for each movement of the object and the viewing history, and summing the third importance multiplied by the weight.
  • the information related to the free-viewpoint content includes event data indicating an event occurring in the free-viewpoint content, movement of one or more objects included in the free-viewpoint content, viewing history of the free-viewpoint content, and the free-viewpoint content.
  • the information processing apparatus according to any one of (1) to (17) above, including at least one of meta information assigned to viewpoint content.
  • An information processing method executed in an information processing device that provides a viewing service of free-viewpoint content to a user terminal connected via a predetermined network comprising: obtaining at least one of information related to a user viewing the free-viewpoint content or information related to the free-viewpoint content; generating a viewing time and a viewing position of the free-viewpoint content based on at least one of information related to the user and information related to the free-viewpoint content.
  • information processing system 100 server 110 database 120, 120a, 120b, ... user terminal 130 network 101 event importance calculation unit 102 movement importance calculation unit 103 viewing importance calculation unit 104 highlight information generation unit 105 highlight viewpoint determination unit 111 content database 112 viewing history database 121 content viewing unit 122 highlight using unit 401 display screen 402 object 403 seek bar 404 tag

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Processing Or Creating Images (AREA)

Abstract

実施形態に係る情報処理装置は、自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得する取得部と、前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する生成部と、を備える。

Description

情報処理装置、情報処理方法及びプログラム
 本開示は、情報処理装置、情報処理方法及びプログラムに関する。
 近年、ボリュメトリック映像技術で撮影された映像コンテンツや、3Dゲームやメタバースなどの仮想空間内を視聴できる映像コンテンツなど、視点を自由に変更することができる3次元映像コンテンツ(以下、自由視点コンテンツともいう)が広く普及してきている。
特開2018-182566号公報 特開2012-39550号公報 国際公開第2018/079166号
 例えば、サッカーや野球等のスポーツ、演劇やミュージカル等の舞台、コンサートや野外フェス等の演奏会など、長時間のイベントを映像化した長尺の自由視点コンテンツにおいては、視聴者はコンテンツ内のどの時間のどのシーンが見どころであるかを知ることが困難である。そのため、視聴者が見るべきシーンを見逃してしまうなどの課題が存在した。
 そこで本開示では、視聴者が見どころであるシーンを見逃してしまうことを抑制することが可能な情報処理装置、情報処理方法及びプログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得する取得部と、前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する生成部と、を備える。
一実施形態に係る情報処理システムの概略構成例を示すブロック図である。 一実施形態に係る情報処理システムの機能構成例を示す機能ブロック図である。 一実施形態に係る情報処理システムの概略動作例を示すフローチャートである。 一実施形態に係る見どころ時間を計算する際の動作フロー例を示す図である。 一実施形態に係る見どころ位置を計算する際の動作フロー例を示す図である。 一実施形態に係るイベントデータの位置的重要度の計算例を説明するための図である。 一実施形態に係るイベントデータの時間的密度の計算例を説明するための図である。 一実施形態に係るイベントデータの位置的密度の計算例を説明するための図である。 一実施形態に係る視聴重要度における位置的重要度の計算例を説明するための図である。 一実施形態に係るヒートマップから求まるヒートマップ重要度の計算例を説明するための図である。 一実施形態に係る視聴者数から求まる重要度(以下、視聴者数重要度)の計算例を説明するための図である。 一実施形態に係る見どころ視点の決定フロー例を説明するための図である(その1)。 一実施形態に係る見どころ視点の決定フロー例を説明するための図である(その2)。 一実施形態に係る見どころ視点の決定フロー例を説明するための図である(その3)。 一実施形態に係る見どころ視点の決定フロー例を説明するための図である(その4)。 一実施形態に係る見どころ視点の決定フロー例を説明するための図である(その5)。 一実施形態に係る自由視点コンテンツの表示画面の一例を示す図である。 本開示に係る各種処理を実行する情報処理装置一例を示すハードウエア構成図である。
 以下に、本開示の一実施形態について図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  0.はじめに
  1.一実施形態
   1.1 システム構成例
   1.2 機能構成例
   1.3 動作フロー例
   1.4 動作フローの詳細例
    1.4.1 イベント重要度計算フロー例
    1.4.2 動き重要度計算フロー例
    1.4.3 視聴重要度計算フロー例
    1.4.4 見どころ情報生成フロー例
    1.4.5 見どころ視点決定フロー例
   1.5 見どころ情報及び見どころ視点の利用例
    1.5.1 ダイジェスト映像の生成
    1.5.2 視聴位置(視点位置)のサジェスチョン
    1.5.3 コーチング目的のプレイダイジェスト映像の生成
    1.5.4 メタ情報の活用
   1.6 まとめ
   1.7 変形例
    1.7.1 重要度計算部の変形例
    1.7.2 見どころ情報及び見どころ視点の組み合わせ変形例
    1.7.3 リモートの場合の変形例
    1.7.4 見どころ視点の俯瞰固定
    1.7.5 3D酔い/映像酔いの軽減
  2.ハードウエア構成
 0.はじめに
 視点を自由に変更することができる自由視点コンテンツは、HMD(Head Mounted Display)、パーソナルコンピュータ、スマートフォン、タブレット端末などを用いて様々な視点から視聴することが可能である。このような自由視点コンテンツに対しては、今後、全体を見るのではなく一部の重要なシーンを見たいや、総集編のような重要なシーンのダイジェスト動画を作成したいなどの要望が生じることが予測される。
 従来、2次元の映像コンテンツに対しては、ダイジェスト動画を作成するなどの取り組みが存在したが、これまで長尺の自由視点コンテンツを利用するシーンはあまり存在しなかった。そのため、従来では、自由視点コンテンツからダイジェスト動画を作成する試みがなされていなかった。
 また、対象コンテンツが2次元から3次元に変化することで、2次元コンテンツでは利用できたが3次元コンテンツでは使えなくなった要素や、3次元コンテンツとなることで新しく使えるようになった要素が存在することも、自由視点コンテンツからダイジェスト動画を作成することの障害となっていた。
(使えなくなった要素の例)
・撮影カメラの移動方向
・映像中の画素変化
・シーンの切り替え
(新たに使えるようになった要素の例)
・視聴者の視点移動
・視聴者の視聴時間
・人等のオブジェクトの3次元位置情報
・コンテンツ中に発生したイベントの情報
 このように、2次元コンテンツで培われた技術をそのまま利用して自由視点コンテンツからダイジェスト映像を生成することは不可能であった。例えば、2次元コンテンツでは視点位置を自由に移動させることができないため、ダイジェスト映像の生成では見どころとなる時間の推定のみが行われ、位置の推定が行われていなかった。また、2次元映像中のオブジェクトの動きの情報だけでは見どころとなるシーン(時間帯、位置等)を正確に推定することは困難であった。なお、本説明におけるダイジェスト映像とは、元々の映像コンテンツの時間的長さよりも短い長さの映像コンテンツであってよい。
 これに対し、自由視点コンテンツから見どころとなるシーンを抽出するためには、時間の推定に加えて、見どころとなる位置の推定と、推定された位置をどの方向から観るかという視聴位置の推定とを行う必要がある。そのため、自由視点コンテンツの視聴では視聴者が自らの意思により視点を操作するが、適切に操作できないと肝心な場面を見逃してしまう可能性があり、「どこ見ればいいかわからない」という利用者が多数存在し得る。
 そこで、以下の実施形態では、自由視点コンテンツから見るべき時間帯並びに視点位置及び視聴方向、つまり見どころとなるシーンを推定し、それを視聴者に提供することで、視聴者が見どころであるシーンを見逃してしまうことを抑制することを可能とする。
 1.一実施形態
 以下に、本開示の一実施形態に係る情報処理装置、情報処理方法及びプログラムを、図面を参照して詳細に説明する。
 本実施形態で対象とする自由視点コンテンツは、例えば、ボリュメトリック映像技術やHawkEye(登録商標)システムを用いて現実空間から仮想空間内に取り込まれたオブジェクト(ヒトやモノ等)の動きを含む3次元映像コンテンツや、3Dゲームやメタバースやアバターアニメーションなど、仮想空間内にオブジェクト(アバターやモノ)の動きが作り込まれた3次元映像コンテンツ等であってよい。ただし、これらに限定されず、3次元的にヒトやモノなどのオブジェクトの位置や動きが表現されたものであれば、種々のコンテンツを対象とすることが可能である。なお、以下の説明では、明確化のため、サッカーなどのスポーツの撮影データから生成された自由視点コンテンツを例に挙げる。
 なお、自由視点コンテンツには、大別して、「360°動画を球体の内側から視聴するもの」と、「3Dモデルを様々な方向から見るもの」との2種類がある。両者は同じ自由視点コンテンツと呼ばれるものであるが、利用形態や作成フローなどが大きく異なる。以下の実施形態では、自由視点コンテンツとして「3Dモデルを様々な方向から見るもの」が採用された場合を例示するが、本開示はこれに限定されず、「360°動画を球体の内側から視聴するもの」など、種々の自由視点コンテンツが採用されてよい。
 また、スポーツの撮影データから生成されたコンテンツに限られず、自由視点コンテンツには、以下のような要素が含まれ得る。
・任意の方法で生成されたモーション(例えば、選手やボールの区別された動き)
・手動又は自動で生成されたイベントデータ(例えば、A選手が座標Xでシュートした、得点が入った等)
・会場や日時といったメタ情報
 1.1 システム構成例
 図1は、本実施形態に係る情報処理システムの概略構成例を示すブロック図である。図1に示すように、本実施形態に係る情報処理システム1は、サーバ100と、データベース(DB)110と、1台以上のユーザ端末120a、120b、…(以下、個々のユーザ端末を区別しない場合、その符号を120とする)とが、ネットワーク130を介して接続された構成を備える。
 サーバ100は、例えば、本開示に係る情報処理装置の一例であり、ユーザ(視聴者又は利用者ともいう)へ自由視点コンテンツを視聴するためのサービスを提供する。なお、サーバ100は、1台のサーバで構成されてもよいし、複数台のサーバで構成されてもよい。また、サーバ100は、ネットワーク130上に配置された1以上のクラウドサーバにより構成されてもよい。
 データベース110は、ユーザへ提供する自由視点コンテンツやこの自由視点コンテンツのメタ情報など、自由視点コンテンツに関連する情報の他、ユーザから収集した視聴履歴など、自由視点コンテンツを視聴するユーザに関連する情報も蓄積する。なお、データベース110は、サーバ100の一部であってもよいし、サーバ100とは別の構成であってもよい。
 ユーザ端末120は、例えば、データベース110から直接又はサーバ100を経由して提供される自由視点コンテンツをユーザが視聴・利用するための情報処理装置であり、例えば、HMD、パーソナルコンピュータ、スマートフォン、タブレット端末などであってよい。
 ネットワーク130は、例えば、有線又は無線LAN(Local Area Network)(WiFiを含む)やWAN(Wide Area Network)やインターネットや移動通信システム(4G(4th Generation Mobile Communication System)、4G-LTE(Long Term Evolution)、5G等を含む)などの相互通信可能な種々のネットワークであってよい。
 1.2 機能構成例
 図2は、本実施形態に係る情報処理システムの機能構成例を示す機能ブロック図である。図2に示すように、情報処理システム1は、その機能要素として、イベント重要度計算部101と、動き重要度計算部102と、視聴重要度計算部103と、見どころ情報生成部104と、見どころ視点決定部105と、コンテンツデータベース111と、視聴履歴データベース112と、コンテンツ視聴部121と、見どころ利用部122とを備える。
 上記構成において、イベント重要度計算部101、動き重要度計算部102、視聴重要度計算部103、見どころ情報生成部104及び見どころ視点決定部105は、例えば、サーバ100に実装され、コンテンツデータベース111及び視聴履歴データベース112は、データベース110に実装され、コンテンツ視聴部121及び見どころ利用部122は、ユーザ端末120に実装されてよい。
 ただし、これに限定されず、例えば、イベント重要度計算部101、動き重要度計算部102、視聴重要度計算部103、見どころ情報生成部104及び見どころ視点決定部105のうち、見どころ情報生成部104及び/又は見どころ視点決定部105を含む1以上の機能要素は、ユーザ端末120に実装されてもよい。
 (コンテンツデータベース111)
 コンテンツデータベース111は、1以上の自由視点コンテンツと、各自由視点コンテンツから抽出されたメタイベント情報(イベントデータともいう)とを含む、自由視点コンテンツに関連する情報を格納する。メタイベント情報(イベントデータ)は、自由視点コンテンツに紐づけられた、アバターやオブジェクトがその時点でどのような動きをしているのかというラベルであってもよい。例えば、選手Aが地点Xにおいてジャンプをしている/シュートをしている/得点を決めた等の情報や、役者Bが地点Yにおいて「おはよう」という発話を行った、などのラベルがイベントデータとして自由視点コンテンツの時間軸に紐づけられる。
 自由視点コンテンツからのイベントデータの抽出は、手動であってもよいし、自動であってもよい。手動でイベントデータを抽出する場合、オペレータは、例えば、自由視点コンテンツ内で発生したイベントに関する情報を示すイベントデータを例えば支援システム等を利用して手作業で作成する。一方、自動でイベントデータを抽出する場合、例えば、予め用意しておいた学習済みモデルなどの解析用アプリケーションに自由視点コンテンツが入力され、その結果として自由視点コンテンツの時間軸に紐づけられた1以上のイベントデータが出力される。このようにして抽出されたイベントデータは、例えば、自由視点コンテンツに関連付けられてコンテンツデータベース111に格納される。
 (コンテンツ視聴部121)
 コンテンツ視聴部121は、例えば、入力部と処理部と表示部とを含み、データベース110から直接又はサーバ100を経由して提供される自由視点コンテンツの映像をユーザへ向けて再生する。
 例えば、ユーザは、視聴したい自由視点コンテンツの指定や視聴開始の指示をユーザ端末120の入力部から入力する。また、自由視点コンテンツの視聴中、ユーザは、自由視点コンテンツで展開されている仮想空間内での視点位置や視聴方向に関する指示を入力部を介して入力する。処理部は、視聴対象の自由視点コンテンツの指定や視聴開始の指示が入力されると、データベース110から直接又はサーバ100から自由視点コンテンツを取得する。そして、処理部は、入力部に入力された視点位置や視聴方向に基づいて画角内の自由視点コンテンツをレンダリングすることで、ユーザへ提供する映像を生成する。このようにして生成された映像は、表示部に表示されることでユーザに提示される。
 (視聴履歴データベース112)
 視聴履歴データベース112は、自由視点コンテンツごとのユーザの視聴履歴を含む、自由視点コンテンツを視聴するユーザに関連する情報を蓄積する。蓄積される視聴履歴は、ユーザごとであってもよいし、ユーザが属するカテゴリ(年代、性別、趣味・嗜好等)ごとであってもよいし、ユーザを区別しない全体であってもよい。また、各視聴履歴には、ユーザが自由視点コンテンツにおけるどのシーン(位置及び時間)を視聴したかを示す情報(後述する視聴時間情報、視聴位置情報及びリアクション情報を含む)が含まれてよい。さらに、視聴履歴には、ユーザに関する情報(年代、性別、趣味・嗜好等)が含まれてもよい。
 (イベント重要度計算部101)
 イベント重要度計算部101は、その詳細な動作については後述するが、自由視点コンテンツ内のイベントに関する重要度(以下、イベント重要度ともいう)を計算する。
 (動き重要度計算部102)
 動き重要度計算部102は、その詳細な動作については後述するが、自由視点コンテンツ内のオブジェクトの動きに関する重要度(以下、動き重要度ともいう)を計算する。なお、アバターやオブジェクトの動きとは、自由視点コンテンツを構成する要素の一つであってよい。
 (視聴重要度計算部103)
 視聴重要度計算部103は、その詳細な動作については後述するが、自由視点コンテンツに対するユーザの視聴履歴に基づいた重要度(以下、視聴重要度ともいう)を計算する。
 (見どころ情報生成部104)
 見どころ情報生成部104は、その詳細な動作については後述するが、イベント重要度計算部101、動き重要度計算部102及び視聴重要度計算部103のうちの1つ以上で計算された重要度に基づいて、自由視点コンテンツ内の見どころとなるシーンを特定するための情報(以下、見どころ情報ともいう)を生成する。生成される見どころ情報には、例えば、見どころとなるシーンの位置(例えば、座標)や時間(以下、見どころ位置・時間ともいう)を示す情報が含まれ得る。見どころ時間は、元々の自由視点コンテンツの時間的長さよりも短い長さを示す視聴時間であってよい。
 (見どころ視点決定部105)
 見どころ視点決定部105は、その詳細な動作については後述するが、見どころ情報生成部104で特定された見どころとなるシーンをレンダリングするのに最適な視点位置及び視聴方向(以下、見どころ視点ともいう)を決定する。
 (見どころ利用部122)
 見どころ利用部122は、見どころ情報生成部104から提供された見どころ情報に基づくことで、ユーザに対して見どころとなるシーンを特定するための情報や、見どころとなるシーンの映像をユーザに提示する。その際、見どころ利用部122は、見どころ視点決定部105から取得した視点位置及び視聴方向に基づいて自由視点コンテンツをレンダリングすることで、ユーザに提示する映像を生成してもよいし、見どころ視点決定部105から取得した視点位置及び視聴方向をユーザに提示することで、どの時間のどの位置のシーンが見どころであるかをユーザに提示してもよい。
 1.3 動作フロー例
 次に、本実施形態に係る情報処理システム1の概略動作例を図3を用いて説明する。
 図3に示すように、本動作ではまず、コンテンツデータベース111から対象の自由視点コンテンツ及びこれに関連付けられているイベントデータが取得され(ステップS101)、イベント重要度計算部101及び動き重要度計算部102それぞれに入力される。なお、サーバ100は、コンテンツデータベース111から自由視点コンテンツを取得した際に、自由視点コンテンツからイベントデータを抽出してもよい。その場合、コンテンツデータベース111には、イベントデータが格納されていなくてもよい。
 イベント重要度計算部101は、入力された自由視点コンテンツ及びイベントデータからイベント重要度を計算し(ステップS102)、計算されたイベント重要度を見どころ情報生成部104へ入力する。
 一方、動き重要度計算部102は、入力された自由視点コンテンツ及びイベントデータから動き重要度を計算し(ステップS103)、計算された動き重要度を見どころ情報生成部104へ入力する。なお、ステップS102とステップS103とは、並行して実行されてよい。
 また、ステップS101~S103の動作と並行して、視聴履歴データベース112に蓄積されている自由視点コンテンツの視聴履歴が取得され(ステップS104)、視聴重要度計算部103に入力される。視聴履歴データベース112には、特定又は不特定のユーザによる自由視点コンテンツの視聴履歴が随時蓄積されてよい。
 視聴重要度計算部103は、入力された視聴履歴から視聴重要度を計算し(ステップS105)、計算された視聴重要度を見どころ情報生成部104へ入力する。
 見どころ情報生成部104は、入力されたイベント重要度、動き重要度及び視聴重要度のうちの1つ以上に基づいて、見るべきシーンの位置(例えば、座標)及び時間を示す見どころ情報を生成し(ステップS106)、生成された見どころ情報を見どころ視点決定部105へ入力する。
 見どころ視点決定部105は、見どころ情報に含まれる見るべきシーンの位置と、このシーンにおける自由視点コンテンツ内の遮蔽物との位置関係から、どの位置からどの方向へ視聴するのが適切かを示す見どころ視点を決定する(ステップS107)。
 以上のようにして得られた見どころ情報及び見どころ視点は、自由視点コンテンツと共にネットワーク130を介してユーザ端末120へ送信され(ステップS108)、ユーザ端末120において自由視点コンテンツの視聴に利用される。例えば、ユーザ端末120において見どころ情報及び見どころ視点を用いて自由視点コンテンツのダイジェスト映像が作成され、ユーザに向けて再生されてもよい。
 その後、例えば、サーバ100において本動作を終了するか否かが判定され(ステップS109)、終了する場合(ステップS109のYES)、本動作が終了される。一方、終了しない場合(ステップS109のNO)、本動作がステップS101へ戻り、以降の動作が実行される。
 なお、上記で例示した動作では、見どころとなるシーンの位置及び時間と、このシーンを視聴する際の視点位置及び視聴方向を決定してユーザに滞京したが、自由視点コンテンツの特性や視聴形態によっては、これらすべての情報をユーザに提供する必要はなく、1以上の情報がユーザへ提供されて自由視点コンテンツの視聴に利用されてもよい。
 1.4 動作フローの詳細例
 つづいて、上述した動作フローにおける各ステップの詳細について、図4及び図5に示す動作フロー例を参照しつつ説明する。図4は、本実施形態に係る見どころ時間を計算する際の動作フロー例を示し、図5は、本実施形態に係る見どころ位置を計算する際の動作フロー例を示している。なお、以下の動作例は、自由視点コンテンツの制作に用いた題材の種類によって各要素の適切な計算方法が変わるものであってよい。以下の説明では、明確化のため、引き続き、サッカーなどのスポーツを題材とした自由視点コンテンツを利用する場合を例に挙げる。
 1.4.1 イベント重要度計算フロー例
 まず、図3のステップS102に示すイベント重要度の計算フローについて、例を挙げて説明する。イベント重要度の計算フローでは、自由視点コンテンツに含まれるイベントデータを基に、自由視点コンテンツ内の位置的な重要度(以下、位置的重要度ともいう)と、時間的な重要度(以下、時間的重要度ともいう)とがそれぞれ計算される。したがって、本実施形態に係るイベント重要度には、イベントデータの位置的重要度と時間的重要度とが含まれ得る。
 (位置的重要度計算例)
 まず、イベントデータの位置的重要度の計算例について説明する。図6は、本実施形態に係るイベントデータの位置的重要度の計算例を説明するための図である。なお、図6には、例として、サッカーの試合において、ある時間tから5秒(例えば、後述の単位時間に相当)以内に起こったイベントが示されているものとする。また、本説明では、明確化のため、自由視点コンテンツの仮想空間を2次元平面で表現するが、実際には3次元空間であってよい。
 図6に示すように、本実施形態では、自由視点コンテンツの仮想空間VSがグリッド状(3次元空間であれば、キューブ状)の複数の領域(以下、グリッドともいう)に分割される。図6に示す例では、(1)~(2)の2行と(I)~(III)の3列とからなる2行3列の計6つのグリッド(I,1)~(III,2)に分割されている。
 イベント重要度の計算では、以上のように分割されたグリッド(I,1)~(III,2)ごとに、時間スロットごとのイベントデータの地理的密度が計算される(図5のステップS301参照)。時間スロットとは、侍従視点コンテンツの時間軸を所定の時間(以下、単位時間ともいう)ごとに区切った場合の各期間であってよい。
 図6に示す例では、左上隅のグリッド(I,1)においてゴール前の攻防が行われている。そのため、複数の選手a~dがグリッド(I,1)内に密集して短時間に多くの行動を行っている。一方で、それ以外のグリッド(II,1)~(III,2)では、ボールを伴う攻防が行われておらず、選手が例えば単純に移動しているか待機しているかの状態であるため、選手間の距離が疎で、各選手の動きは少ない。
 このようなシーンでは、左上隅のグリッド(I,1)におけるイベントの地理的密度が高くなることから、このグリッド(I,1)が見どころである蓋然性が高い。
 このような考え方のもと、イベント重要度計算部101は、各時間スロットにおける、グリッドごとのイベントデータの地理的密度(以下、イベント密度ともいう)を求め、その値を0~1の範囲で正規化することで、ある時間(時間スロット)、ある地点(グリッド)におけるイベントデータの位置的重要度を計算する(図5のステップS302参照)。その際、イベントデータごとに予め設定しておいた重みが乗算されてもよい。これは、スポーツの種類やコンサートなど、題材としたコンテンツによってイベントデータの重要度に差が生じ得るためである。
 (時間的重要度計算例)
 次に、イベントデータの時間的重要度の計算例について説明する。イベントデータの時間的重要度は、例えば、時間スロットごとにおける、イベントデータの密度(以下、時間的密度ともいう)と、イベントデータの位置的な密度(以下、位置的密度ともいう)との2つの要素を合算することで計算される。
 ・イベントデータの時間的密度
 イベントデータの時間的密度は、例えば、時間スロットごとのイベントデータの密集度に基づいて計算される。図7は、本実施形態に係るイベントデータの時間的密度の計算例を説明するための図である。
 図7に示す例では、自由視点コンテンツの時間軸を例えばスロット#A~#Cを含む複数の時間スロットに分割した場合に、スロット#Aにはイベントデータとしてある選手xのドリブル(イベントデータxとする)が含まれ、スロット#Bにはイベントデータとしてボールのラインアウト(イベントデータyとする)が含まれ、スロット#Cにはイベントデータとしてある選手aによるキック(イベントデータaとする)と、ある選手bによるヘディング(イベントデータbとする)と、ある選手cによるシュート(イベントデータcとする)と、ある選手dによるキャッチ(イベントデータdとする)とが含まれている。
 このような例では、スロット#Cに含まれるイベントデータの数(4つ)が、他のスロット#A及び#Bに含まれるイベントデータの数(1つ)よりも大きいことから、スロット#Cが見どころである蓋然性が高い。
 このような考え方のもと、イベント重要度計算部101は、各時間スロットにおけるイベントデータの時間的密度を求め、その値を0~1の範囲で正規化する(図4のステップS201参照)。
 ・イベントデータの位置的密度
 イベントデータの位置的密度は、例えば、時間スロットごとにおけるグリッドごとのイベントデータの密集度に基づいて計算される。図8は、本実施形態に係るイベントデータの位置的密度の計算例を説明するための図である。
 図8には、ある時間スロットにおいて、左上隅のグリッド(I,1)にて4人の選手a1~d1がゴール前の攻防を行っている場合(A)と、グラウンドの中央上のグリッド(II,1)及び(II,2)にて4人の選手a2~d2が左方向へ単純に移動している場合(B)とが示されている。(A)に示される時間スロットに含まれるイベントデータの数と、(B)に示される時間スロットに含まれるイベントデータの数とは共に4つであり、それぞれのシーンで発生したイベントデータの数は同じであるが、(B)のシーンよりも(A)のシーンの方が、各イベントデータが関連付けられている仮想空間内の位置の間隔が近い。
 このような例では、1つのグリッド内に含まれるイベントデータの数が、(B)のシーンよりも(A)のシーンの方が大きいため、(A)のシーン(時間スロット)が見どころである蓋然性が高い。
 このような考え方のもと、イベント重要度計算部101は、時間スロットごとに、各グリッドにおけるイベントデータの位置的密度を求め、その値を0~1の範囲で正規化する(図4のステップS202参照)。
 ・時間的重要度
 イベントデータの時間的重要度は、例えば、以上のように算出した時間的密度及び位置的密度を合算し、合算後の値を0~1の範囲で正規化することで求められる(図4のステップS203参照)。その際、時間的密度及び位置的密度それぞれに予め設定しておいた重みが乗算されてもよい。これは、スポーツの種類やコンサートなど、題材としたコンテンツによってイベントの重要度に差が生じ得るためである。例えば、サッカーやバスケットボールなどでは密度が大きい方が重要なシーンである可能性が高いと考えられるが、アメリカンフットボールや演劇などでは密度が低い方が重要なシーンである可能性が高いと考えられるためである。
 その他、イベントデータに基づいた重要度の算出では、イベントごとに異なる重みが設定されて乗算されてもよい。これは、例えば、「ただジャンプしている」というイベントよりも「シュートしている」といったイベントの方が見どころである可能性が高く、このように、コンテンツごと、イベントごとに重要度が変化する可能性があるためである。
 1.4.2 動き重要度計算フロー例
 次に、図3のステップS103に示す動き重要度の計算フローについて、例を挙げて説明する。動き重要度の計算フローでは、自由視点コンテンツに含まれるオブジェクトの動きの密度、速度、加速度等を基に、自由視点コンテンツ内の位置的重要度と時間的重要度とがそれぞれ計算される。したがって、本実施形態に係る動き重要度には、イベント重要度と同様に、オブジェクトの動きの位置的重要度と時間的重要度とが含まれ得る。
 (位置的重要度計算例)
 まず、動きの位置的重要度の計算例について説明する。動きの位置的重要度は、例えば、時間スロットごとにおける、各グリッド内のオブジェクトの密度(以下、オブジェクト密度ともいう)(図5のステップS303参照)と、各グリッド内でのオブジェクトの速度や加速度等の平均(以下、動きパラメータともいう)(図5のステップS304参照)との2つの要素を合算することで計算される。動きパラメータは平均に限定されず、中央値や標準偏差や積算値など、種々変形されてよい。
 例えば、サッカーであれば、重要なシーンであるほど、選手やボールが密集して激しく動いていると考えられる。そのため、このようなシーンでは、オブジェクト密度や動きパラメータが大きな値になると予想される。そこで、動き重要度計算部102は、オブジェクト密度と動きパラメータとをそれぞれ0~1の範囲で正規化し、正規化され得た値を合算し、再度、合算後の値を正規化することで、各時間スロットにおけるグリッドごとのオブジェクトの動きに関する位置的重要度を算出する(図5のステップS305参照)。その際、オブジェクト密度及び動きパラメータそれぞれに予め設定しておいた重みが乗算されてもよい。これは、イベントデータの時間的重要度と同様に、スポーツの種類やコンサートなど、題材としたコンテンツによってオブジェクトの動きの重要度に差が生じ得るためである。
 (時間的重要度計算例)
 次に、動きの時間的重要度の計算例について説明する。動きの時間的重要度は、例えば、時間スロットごとにおける、全グリッドのオブジェクト密度の平均(以下、オブジェクト密度平均ともいう)(図4のステップS204参照)と、全グリッドの動きパラメータの平均(以下、動きパラメータ平均ともいう)(図4のステップS205参照)との2つの要素を合算することで計算される(図4のステップS206参照)。オブジェクト密度平均及び/又は動きパラメータ平均は、平均に限定されず、中央値や標準偏差や積算値など、種々変形されてよい。
 なお、時間的重要度の計算において、時間スロットごとにおける各グリッドのオブジェクト密度と動きパラメータとは、上述した位置的重要度の計算において算出された値が流用されてもよい。その場合、動き重要度計算部102は、位置的重要度の計算において時間スロットごとに算出された全グリッドのオブジェクト密度と動きパラメータとをそれぞれ平均化することで、時間スロットごとにおける、全グリッドのオブジェクト密度平均と動きパラメータ平均とを算出してよい。その際、オブジェクト密度及び動きパラメータそれぞれに予め設定しておいた重みが乗算されてもよい。これは、位置的重要度と同様に、スポーツの種類やコンサートなど、題材としたコンテンツによってオブジェクトの動きの重要度に差が生じ得るためである。
 1.4.3 視聴重要度計算フロー例
 次に、図3のステップS105に示す視聴重要度の計算フローについて、例を挙げて説明する。
 自由視点コンテンツを視聴する際、ユーザは見たいシーンへのシークや視聴する際の視点位置及び視聴方向の制御などの各種操作をユーザ端末120から入力することになるが、多くのユーザが視聴したシーンは見どころとなるシーンである可能性が高く、また、各シーンで多くのユーザが設定した視点位置及び視聴方向はそのシーンを視聴する際の最適な視点位置及び視聴方向である可能性が高い。
 そこで、自由視点コンテンツが特定又は不特定のユーザにより視聴された際のシーク操作に関する情報(以下、視聴時間情報ともいう)や視点位置及び視聴方向の操作に関する情報(以下、視聴位置情報ともいう)を視聴履歴として収集しておくことで、蓄積された視聴履歴に基づいて各シーン(時間スロット)の重要度やそのシーンでの最適な視点位置及び視聴方向を計算することが可能となる。
 また、本実施形態に係る視聴履歴には、視聴時間情報及び視聴位置情報の他に、自由視点コンテンツを視聴中にユーザが発した音声やリアクションなどに関する情報(以下、リアクション情報ともいう)が含まれてもよい。これは、盛り上がりのある瞬間には、視聴者の発する歓声がそれ以外の場面よりも大きくなっている可能性が高く、また、ボイスチャットやテキストチャットなどが行われている場合は、そこでの会話も活発になる可能性が高いためである。
 そこで、本実施形態では、コンテンツ視聴部121が、視聴中にユーザが発した音声を入力する機能や、ユーザ間でボイスチャットやテキストチャットなどを行うための機能(以下、意思表示ツールともいう)を搭載する。特定の自由視点コンテンツを視聴中に特定又は不特定のユーザから意思表示ツールにより収集されたリアクション情報は、当該自由視点コンテンツに関連付けられた視聴履歴の一部として視聴履歴データベース112に蓄積される。なお、リアクション情報を含む視聴履歴は、見どころ利用部122を介した見どころ情報等の提供が行われていない状況で収集されてもよいし、見どころ情報等の提供が行われている状況で収集されてもよい。
 本実施形態に係る視聴重要度には、イベント重要度及び動き重要度と同様に、位置的重要度と時間的重要度とが含まれ得る。
 (位置的重要度計算例)
 まず、位置的重要度の計算例について説明する。図9は、本実施形態に係る視聴重要度における位置的重要度の計算例を説明するための図である。図9に示すように、視聴重要度における位置的重要度の計算では、視聴履歴データベース112に蓄積された視聴履歴に基づいて、視聴履歴のヒートマップが生成される。なお、図9では、ある時間スロットにおいて多くのユーザが視聴している領域ほど、濃いハッチングが付与されている。
 ある時間スロットにおいて、特定の位置を視聴しているユーザが多い場合は、仮想空間VS内が満遍なく視聴されている場合よりも、重要な視聴位置があると予想される。そこで、視聴重要度計算部103は、例えば、視聴履歴に基づいて作成したヒートマップを用いて、ある時間スロットにおける各グリッド内の視聴履歴の集中度を計算し(図5のステップS306参照)、視聴履歴が最も集中している位置(例えば、グリッド)の視聴履歴の集中度と、その他の位置(グリッド)の視聴履歴の集中度の平均値との差を、特定した位置(グリッド)の位置的重要度として計算する(図5のステップS307参照)。
 (時間的重要度計算例)
 次に、時間的重要度の計算例について説明する。視聴重要度における時間的重要度は、例えば、時間スロットごとにおける視聴履歴のヒートマップと、時間スロットごとの視聴者数と、時間スロットごとのリアクション情報とのそれぞれから求まる重要度に基づいて計算され得る。
 ・ヒートマップから求まる重要度(ヒートマップ重要度)
 図10は、本実施形態に係るヒートマップから求まる重要度(以下、ヒートマップ重要度ともいう)の計算例を説明するための図である。図10に示すように、時間スロットごとのヒートマップを作成した場合、(A)に示すように、ユーザによる視聴場所(グリッド)が集中しているシーンは、(B)のように、視聴場所が広い領域に分散しているシーンよりも、試合が盛り上がっている可能性が高い。そこで、視聴重要度計算部103は、時間スロットごとに各グリッドの視聴位置の集中度を算出し、算出された集中度のうちの最大値を、当該時間スロットの重要度の指標とする。そして、視聴重要度計算部103は、時間スロットごとに決定した重要度の指標を0~1の範囲で正規化することで、各時間スロットにおけるヒートマップ重要度を計算する(図4のステップS207参照)。
 ・視聴者数から求まる重要度(視聴者数重要度)
 図11は、本実施形態に係る視聴者数から求まる重要度(以下、視聴者数重要度)の計算例を説明するための図である。図11に示すように、視聴履歴データベース112に蓄積された視聴履歴を解析することで、自由視点コンテンツの時間軸に沿った視聴者数の推移を特定することが可能である。
 例えば、ユーザ端末120の表示部にUI(ユーザインタフェース)として表示されたシークバーなどをユーザが操作することで時間軸上の視聴位置が移動可能である場合、多くのユーザがシークせずに視聴している時間帯(すなわち、視聴者数が多い時間スロット)は、試合が盛り上がっている時間帯である可能性が高い。そこで、視聴重要度計算部103は、時間スロットごとの視聴者数を0~1の範囲で正規化することで、各時間スロットにおける視聴者数重要度を計算する(図4のステップS208参照)。
 ・リアクション情報から求まる重要度(リアクション重要度)
 意思表示ツールで収集されるリアクション情報には、視聴中にユーザが発した音声(音量や内容等を含み得る)や、意思表示ツールにおけるボイスチャット機能やテキストチャット機能などを利用してユーザ間でやり取りされた内容等が含まれ得る。そこで、視聴重要度計算部103は、リアクション情報として収集された音声や内容等に基づいて、リアクション重要度を計算する。
 例えば、視聴中にユーザが発した音声に関しては、ボイスチャット機能にて入力された音声や単にユーザが漏らした音声を録音し、その音量の変化量からリアクション重要度が算出されてもよい。
 具体的には、例えば、全ユーザに関し、時間スロットごとの最大音量と最小音量との差を算出し、算出された差を0~1の範囲で正規化する。そして、正規化後の値が大きい時間スロットを見どころのシーンに相当する時間帯とみなし、全ユーザに関して算出された値(正規化後)の平均をリアクション重要度として計算する(図4のステップS209参照)。
 なお、意思表示ツールがスタンプやライクなどの単純なメッセージを発信する機能を備える場合、ユーザはこの機能を用いて自身の感情を表すことも考えられる。また、スタンプやライクなどの単純なメッセージを発信する機能以外にも、テキストチャットなど、視聴者が能動的に自身の意見を発信する機能を意思表示ツールが備えることも考えられる。そこで、視聴重要度計算部103は、意思表示ツールを用いてユーザが発信した意思(リアクション情報)の時間的密度を計算し、それを0~1の範囲で正規化することでリアクション重要度が算出されてもよい(図4のステップS210参照)。
 ・時間的重要度
 視聴重要度における時間的重要度は、以上のようにして計算されたヒートマップ重要度、視聴者数重要度及びリアクション重要度のうちの少なくとも1つを合算し、合算後の値を0~1の範囲で正規化することで求められる(図4のステップS211参照)。その際、ヒートマップ重要度、視聴者数重要度及びリアクション重要度それぞれに予め設定しておいた重みが乗算されてもよい。
 1.4.4 見どころ情報生成フロー例
 図3のステップS106に示す見どころ情報の生成では、以上のようにして取得されたイベント重要度(位置的重要度及び時間的重要度)、動き重要度(位置的重要度及び時間的重要度)及び視聴重要度(位置的重要度及び時間的重要度)の計6つの重要度に基づいて、見どころ情報が生成される。
 例えば、見どころ情報生成部104は、上記6つの重要度を合算することで、見どころとなるシーンの時間(時間スロット)と位置(グリッド)とを含む見どころ情報を生成してもよい。例えば、見どころ情報生成部104は、イベントデータの時間的重要度と、オブジェクトの動きの時間的重要度と、視聴履歴の時間的重要度を合算することで、見どころ時間を計算してもよい(図4のステップS212参照)。また、見どころ情報生成部104は、イベントデータの位置的重要度と、オブジェクトの動きの位置的重要度と、視聴履歴の位置的重要度を合算することで、見どころ位置を計算してもよい(図5のステップS308参照)。
 その際、6つの重要度それぞれに予め設定しておいた重みが乗算されてもよい。これは、例えば、視聴重要度は蓄積されている視聴情報の数が少ない場合は正しい値が求まらない可能性が高いことや、自由視点コンテンツによってはイベント重要度と動き重要度とに偏りがある可能性があるためである。また、ここでいうグリッドの位置とは、例えば、グリッドにおける中心の座標や四隅のうちの何れかの座標など、グリッドに対して予め設定しておいた基準となる位置であってよい。
 1.4.5 見どころ視点決定フロー例
 上述した見どころ情報の生成までの流れでは、見どころとなるシーンの位置(グリッド)、つまり「どこを見るべきか」を求めた。しかしながら、自由視点コンテンツでは、視点、つまり「どこから見るべきか」を決定する必要もある。そこで、図3のステップS107では、見どころ情報におけるシーンの位置(グリッド)と、そのシーンでの自由視点コンテンツ内の遮蔽物(オブジェクト(建造物などを含んでよい)等)の位置との関係から、見どころ位置を視聴するのに最適な見どころ視点(視点位置及び視聴方向)の決定を行う。
 図12~図16は、本実施形態に係る見どころ視点の決定フロー例を説明するための図である。
 例えば、ある時間スロット(これをフレームNとする)において、オブジェクトOB11~OB14及び見どころ位置P1が図12に例示する位置に存在し、次の時間スロット(これをフレームN+1とする)において、オブジェクトOB1~OB4及び見どころ位置P2が図13に例示する位置に存在する場合、フレームNで見どころ位置P1がオブジェクトOB1~OB4によって遮蔽されてしまう領域(すなわち、死角となる領域。以下、遮蔽領域ともいう)は図14においてハッチングされた領域となり、フレームN+1で見どころ位置P2がオブジェクトOB1~OB4による遮蔽領域は図15においてハッチングされた領域となる。なお、フレーム間でオブジェクトの数は増減してもよい。
 各フレームにおける遮蔽領域は、見どころ位置とオブジェクトとの位置関係から直線の方程式などを用いて幾何的・数学的に算出する方法や、SLAM(Simultaneous Localization and Mapping)等で用いられるような、見どころ位置から当たり判定を持つRAYを発生させて計測する方法など、種々の方法で求めることができる。
 ここで、あるシーンを視聴中に視点位置が大きく変動することは、視聴者に酔いなどの不快感を与える可能性があり、また、映像のクオリティを低下させる要因ともなる。例えば、図14に示す遮蔽領域に基づいてフレームNで設定した視点位置が、図15に示すフレームN+1の遮蔽領域に含まれていると、頻繁に視点位置の変更が発生し得ることとなり、視聴者に映像酔いなどの不快感を与えてしまう可能性が存在する。
 そこで、図16に例示されるように、見どころ視点決定部105は、見どころとなるシーンに含まれる連続する複数のフレームについて遮蔽領域を重畳することで、この複数のフレームにおいて遮蔽領域とならない領域(図16においてハッチングされていない領域)を特定し、特定された領域内に見どころ視点C1、C2を設定して、見どころ位置P1及びP2を視聴するのに最適な見どころ視点(視点位置及び視聴方向)を決定する。
 なお、本説明では、簡略化のため、仮想空間を2次元で表現したが、3次元である場合も同様の手法で視点位置を決定することができる。
 見どころ視点決定部105は、以上のようにして特定された1以上の見どころ視点C1、C2の全てを見どころ利用部122へ通知してもよいし、特定された複数の見どころ視点C1、C2の中からオブジェクトの位置関係や見どころ位置P1及びP2からの距離等に基づいて最適な見どころ視点を1つ決定し、決定された見どころ視点を見どころ利用部122へ通知してもよい。若しくは、見どころ視点決定部105は、次の視点位置として決定した1以上の見どころ視点C1、C2のうち、直前の視点位置からの距離が最も短い視点位置を、1つの見どころ視点として決定してもよい。
 1.5 見どころ情報及び見どころ視点の利用例
 以上のようにして生成又は決定された見どころ情報及び見どころ視点は、自由視点コンテンツと共にユーザ端末120へ送信され(図3のステップS108)、ユーザ端末120の見どころ利用部122で利用される。見どころ情報及び見どころ視点の利用としては様々な形態が考えられる。以下にそのいくつかを例示する。
 1.5.1 ダイジェスト映像の生成
 見どころ情報及び見どころ視点に基づくことで、例えば、「あるシーンがどの程度重要か」、「そのシーンを見るにはどこからどこを見るのが適切か」という情報を特定することが可能である。そこで、見どころ利用部122は、見どころ情報から特定可能なシーンの重要度に対して閾値を設定することで、自由視点コンテンツから見どころとなるシーンが抽出されたダイジェスト映像を自動的に生成することが可能である。その際、ユーザによる閾値の調整を可能とすることで、見どころ利用部122は、ユーザごとに異なるダイジェスト映像を生成することも可能となる。
 なお、見どころ利用部122がユーザ端末120に実装されている場合は、ユーザ端末120において見どころ情報及び見どころ視点に基づいて自由視点コンテンツのレンダリングが行われてダイジェスト映像が生成されてよい。一方、見どころ利用部122がサーバ100に実装されている場合は、サーバ100において見どころ情報及び見どころ視点に基づいて自由視点コンテンツのレンダリングが行われてダイジェスト映像が生成され、生成されたダイジェスト映像がネットワーク130を介してユーザ端末120に送信され、ユーザ端末120のコンテンツ視聴部121においてユーザへ向けて再生されてよい。
 1.5.2 視聴位置(視点位置)のサジェスチョン
 また、見どころ情報及び見どころ視点に基づくことで、例えば、「この視点から見るのが良い」、「見どころポイントはこの時間にある」という情報を特定することも可能である。これらの情報は、例えばタグのような形態でユーザに提供されてもよい。図17は、本実施形態に係る自由視点コンテンツの表示画面の一例を示す図である。
 図17に示すように、例えば、「この視点から見るのが良い」という情報は、自由視点コンテンツ内の該当位置(提案する視点位置)にオブジェクト402として配置され、表示画面401を介してユーザに提供されてもよい。また、図17に示すように、例えば、「見どころポイントはこの時間にある」という情報は、表示画面401にUIとして表示されるシークバー403に付随するタグ404としてユーザに提供されてもよい。
 このように、例えば、「この視点から見るのが良い」、「見どころポイントはこの時間にある」という情報をユーザへ提供することで、より円滑・高速でクオリティの高い視聴体験をユーザに提供することが可能となる。
 なお、ユーザによっては、自身で視聴時間や視聴位置を選択したい場合もあるため、見どころ利用部122からの提案を利用するか否かをユーザによって選択できてもよい。
 このように、情報処理システム1側で強制的に視聴時間や視聴位置を制御しない構成とすることで、ユーザが3D酔いや画面酔いなどの不快感を持つことを抑制することが可能となる。
 1.5.3 コーチング目的のプレイダイジェスト映像の生成
 例えば、イベント重要度計算部101においてイベントデータから重要度(位置的重要度及び/又は時間的重要度)を算出する際、アバターごとに異なる重みを付与可能な構成とすることで、特定の選手や役者等が写っているシーンを抜粋してダイジェスト映像を生成することが可能となる。そして、このようにして生成されたダイジェスト映像は、例えば、スポーツや演劇のコーチング目的に用いることが好適であると考えられる。なお、特定の選手や役者等に対する重みの設定は、例えば、ユーザ端末120の入力部からイベント重要度計算部101に対して設定できるように構成されてもよい。
 1.5.4 メタ情報の活用
 自由視点コンテンツの対象を演劇やコンサートなどとした場合、台本や歌詞などをイベントデータやメタデータとして用いることができるため、見どころ情報の生成や見どころ位置の決定の際に、歌詞のサビや作劇上のクライマックスの情報を考慮するように構成することも可能である。
 1.6 まとめ
 以上のように、本実施形態によれば、イベントデータ、オブジェクトの動き、視聴履歴に基づいて、自由視点コンテンツにおけるどのシーンが見どころであるかや、どこから見るのが適切かを特定することが可能となるため、見どころであるシーンのユーザへの提案や見どころとなるシーンのダイジェスト映像の自動生成などを実行することが可能となる。それにより、視聴者が見どころであるシーンを見逃してしまうことを抑制することが可能となる。
 1.7 変形例
 次に、上述した実施形態の変形例について、いくつか例を挙げて説明する。
 1.7.1 重要度計算部の変形例
 上述した実施形態では、各種重要度を求める際(例えば、動き重要度における時間的重要度の計算)に平均値(例えば、オブジェクト密度の平均や全グリッドの動きパラメータの平均)を使用していたが、これに限定されず、上述したように、例えば、中央値や標準偏差や積算値などが用いられてもよい。
 また、上述した実施形態では、重要度を求める際のパラメータ(例えば、イベント密度、イベントデータの時間的密度及び位置的密度並びにそれらを合算した値、オブジェクト密度及び動きパラメータそれらを合算した値、時間スロットごとに決定した重要度の指標、時間スロットごとの視聴者数、時間スロットごとの最大音量と最小音量との差、リアクション情報の時間的密度、ヒートマップ重要度、視聴者数重要度及びリアクション重要度のうちの少なくとも1つを合算した値)を0~1の範囲で正規化していたが、これに限定されず、種々の正規化手法が採用されてもよい。
 さらに、動き重要度の算出には、オブジェクトの速度や加速度のみならず、角速度や角加速度など、オブジェクトの動きを表す種々の指標が使用されてもよい。
 このように、重要度の計算手法は、上記実施形態で例示した手法に限定されず、例えば、対象の自由視点コンテンツやユーザなどに応じて設計されるなど、種々変形されてもよい。
 1.7.2 見どころ情報及び見どころ視点の組み合わせ変形例
 上述した実施形態では、見どころ利用部122が見どころ情報(見どころ位置及び見どころ視点)と見どころ視点との全てを利用する場合を例示したが、これに限定されず、見どころ利用部122が利用する情報及び/又は見どころ利用部122へ送信される情報は、見どころ情報(見どころ位置及び見どころ視点)と見どころ視点とのうちの一部であってもよい。その際、システム側又はユーザ側でどの情報を使用しないかを選択できてもよい。
 1.7.3 リモートの場合の変形例
 コンサートや演劇などをコンテンツ化して自由視点コンテンツとして利用する場合にも、上記した実施形態を適用することが可能であるが、その際には、イベント重要度の重みを他の重要度の重みよりも大きくしたり、台本などの自然言語的なメタ情報を計算に加えたりすることで、より見どころのあるシーンのダイジェスト映像や示唆をユーザに提供することが可能となる。
 1.7.4 見どころ視点の俯瞰固定
 サッカーや野球などのスポーツの映像には、テレビ番組などで定番とされる俯瞰視点が存在する。そのため、スポーツを自由視点コンテンツの対象とした場合、見どころ視点が俯瞰や固定カメラなどの特定の視点に固定されてもよい。
 1.7.5 3D酔い/映像酔いの軽減
 自由視点コンテンツを視聴する際、急激な視点の変更は視聴者の3D酔いや映像酔いを誘発する恐れがある。すなわち、上述した実施形態では、自由視点コンテンツから得られた情報(イベントデータ、オブジェクトの動き、視聴履歴)を用いて見どころ視点を計算したが、この場合、視聴者が自身の視聴動作と見どころ視点の利用とを併用した場合、視点位置が頻繁に大きく変更し、3D酔いや映像酔いが誘発されてしまう可能性がある。そこで、見どころ視点決定部105は、視聴者が利用している視点(例えば、直前の視点位置及び視聴方向)になるべく近い位置の視点となるように、見どころ視点を決定してもよい。それにより、視点位置が頻繁に大きく変更されることを抑制できるため、3D酔いや映像酔いの誘発を軽減することが可能となる。
 2.ハードウエア構成
 上述してきた実施形態及びその変形例に係るサーバ100及びユーザ端末120のうちの少なくとも1つは、例えば図18に示すような構成のコンピュータ1000によって実現され得る。図18は、サーバ100及びユーザ端末120のうちの少なくとも1つの機能を実現するコンピュータ1000の一例を示すハードウエア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インタフェース1500、及び入出力インタフェース1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウエアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る各動作を実行するためのプログラムを記録する記録媒体である。
 通信インタフェース1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインタフェースである。例えば、CPU1100は、通信インタフェース1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インタフェース1600は、上述したI/F部18を含む構成であり、入出力デバイス1650とコンピュータ1000とを接続するためのインタフェースである。例えば、CPU1100は、入出力インタフェース1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インタフェース1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が上述の実施形態に係るサーバ100/ユーザ端末120として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、サーバ100/ユーザ端末120のうちの少なくとも1つの機能を実現する。また、HDD1400には、本開示に係るプログラム等が格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 さらに、上述した各実施形態は、それぞれ単独で使用されてもよいし、他の実施形態と組み合わせて使用されてもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得する取得部と、
 前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する生成部と、
 を備える情報処理装置。
(2)
 前記生成部は、前記自由視点コンテンツの時間的長さよりも短い長さを示す前記視聴時間を生成する
 前記(1)に記載の情報処理装置。
(3)
 前記視聴時間及び前記視聴位置を所定のネットワークを介して外部へ出力する出力部をさらに備える
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記視聴時間及び前記視聴位置に基づいて前記自由視点コンテンツのダイジェスト映像を生成する利用部をさらに備える
 前記(1)~(3)の何れか1つに記載の情報処理装置。
(5)
 前記視聴位置の映像を生成する際に使用される前記自由視点コンテンツ内の視点位置及び視聴方向を決定する決定部をさらに備える
 前記(1)~(4)の何れか1つに記載の情報処理装置。
(6)
 前記決定部は、前記視点位置から前記視聴位置を見た際に前記視聴位置が前記自由視点コンテンツ内の1以上のオブジェクトで遮蔽されない領域内に前記視点位置を設定する
 前記(5)に記載の情報処理装置。
(7)
 前記決定部は、連続する複数のフレームにおいて、前記視点位置から前記視聴位置を見た際に前記視聴位置が前記1以上のオブジェクトで遮蔽されない領域内に前記視点位置を設定する
 前記(6)に記載の情報処理装置。
(8)
 前記決定部は、次の視点位置として1以上の視点位置を決定し、決定された前記1以上の視点位置のうち直前の視点位置からの距離が最も短い視点位置を、次の視点位置に決定する
 前記(5)~(7)の何れか1つに記載の情報処理装置。
(9)
 前記自由視点コンテンツに関連する情報に基づいて前記自由視点コンテンツの時間帯ごとの重要度を計算する重要度計算部をさらに備え、
 前記生成部は、前記重要度に基づいて視聴時間及び視聴位置を生成する
 前記(1)~(8)の何れか1つに記載の情報処理装置。
(10)
 前記重要度は、前記自由視点コンテンツが表現する仮想空間における位置ごとの第1重要度と、前記時間帯ごとの第2重要度とを含む
 前記(9)に記載の情報処理装置。
(11)
 前記重要度計算部は、前記第1重要度と前記第2重要度とを合算することで、前記重要度を計算する
 前記(10)に記載の情報処理装置。
(12)
 前記重要度計算部は、前記第1重要度及び前記第2重要度に対して予め設定された重みを乗算し、前記重みが乗算された前記第1重要度及び前記第2重要度を合算することで、前記重要度を計算する
 前記(11)に記載の情報処理装置。
(13)
 前記重要度計算部は、前記自由視点コンテンツが表現する仮想空間を複数の領域に分割し、分割された前記領域ごとに前記第1重要度を計算する
 前記(10)~(12)の何れか1つに記載の情報処理装置。
(14)
 前記自由視点コンテンツに関連する情報は、前記自由視点コンテンツ内で発生したイベントを示すイベントデータ、前記自由視点コンテンツに含まれる1以上のオブジェクトの動き、及び、前記自由視点コンテンツの視聴履歴のうちの少なくとも1つを含み、
 前記重要度計算部は、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴のうちの少なくとも1つを用いて前記重要度を計算する
 前記(9)~(13)の何れか1つに記載の情報処理装置。
(15)
 前記重要度計算部は、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴のうちの少なくとも2つそれぞれに基づいて第3重要度を計算し、計算された第3重要度を合算することで、前記重要度を計算する
 前記(14)に記載の情報処理装置。
(16)
 前記重要度計算部は、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴のうちの少なくとも2つそれぞれに基づいて計算された前記第3重要度に対し、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴ごとに設定された重みを乗算し、前記重みが乗算された前記第3重要度を合算することで、前記重要度を計算する
 前記(15)に記載の情報処理装置。
(17)
 前記ユーザに関連する情報は、年代、性別、趣味及び嗜好のうちの少なくとも1つを含む
 前記(1)~(16)の何れか1つに記載の情報処理装置。
(18)
 前記自由視点コンテンツに関連する情報は、前記自由視点コンテンツ内で発生したイベントを示すイベントデータ、前記自由視点コンテンツに含まれる1以上のオブジェクトの動き、前記自由視点コンテンツの視聴履歴、及び、前記自由視点コンテンツに付与されたメタ情報のうちの少なくとも1つを含む
 前記(1)~(17)の何れか1つに記載の情報処理装置。
(19)
 所定のネットワークを介して接続されたユーザ端末へ自由視点コンテンツの視聴サービスを提供する情報処理装置において実行される情報処理方法であって、
 前記自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得し、
 前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する
 ことを含む情報処理方法。
(20)
 所定のネットワークを介して接続されたユーザ端末へ自由視点コンテンツの視聴サービスを提供する情報処理装置が備えるプロセッサを機能させるためのプログラムであって、
 前記自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得する処理と、
 前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する処理と、
 を前記プロセッサに実行させるためのプログラム。
 1 情報処理システム
 100 サーバ
 110 データベース
 120、120a、120b、… ユーザ端末
 130 ネットワーク
 101 イベント重要度計算部
 102 動き重要度計算部
 103 視聴重要度計算部
 104 見どころ情報生成部
 105 見どころ視点決定部
 111 コンテンツデータベース
 112 視聴履歴データベース
 121 コンテンツ視聴部
 122 見どころ利用部
 401 表示画面
 402 オブジェクト
 403 シークバー
 404 タグ

Claims (20)

  1.  自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得する取得部と、
     前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する生成部と、
     を備える情報処理装置。
  2.  前記生成部は、前記自由視点コンテンツの時間的長さよりも短い長さを示す前記視聴時間を生成する
     請求項1に記載の情報処理装置。
  3.  前記視聴時間及び前記視聴位置を所定のネットワークを介して外部へ出力する出力部をさらに備える
     請求項1に記載の情報処理装置。
  4.  前記視聴時間及び前記視聴位置に基づいて前記自由視点コンテンツのダイジェスト映像を生成する利用部をさらに備える
     請求項1に記載の情報処理装置。
  5.  前記視聴位置の映像を生成する際に使用される前記自由視点コンテンツ内の視点位置及び視聴方向を決定する決定部をさらに備える
     請求項1に記載の情報処理装置。
  6.  前記決定部は、前記視点位置から前記視聴位置を見た際に前記視聴位置が前記自由視点コンテンツ内の1以上のオブジェクトで遮蔽されない領域内に前記視点位置を設定する
     請求項5に記載の情報処理装置。
  7.  前記決定部は、連続する複数のフレームにおいて、前記視点位置から前記視聴位置を見た際に前記視聴位置が前記1以上のオブジェクトで遮蔽されない領域内に前記視点位置を設定する
     請求項6に記載の情報処理装置。
  8.  前記決定部は、次の視点位置として1以上の視点位置を決定し、決定された前記1以上の視点位置のうち直前の視点位置からの距離が最も短い視点位置を、次の視点位置に決定する
     請求項5に記載の情報処理装置。
  9.  前記自由視点コンテンツに関連する情報に基づいて前記自由視点コンテンツの時間帯ごとの重要度を計算する重要度計算部をさらに備え、
     前記生成部は、前記重要度に基づいて視聴時間及び視聴位置を生成する
     請求項1に記載の情報処理装置。
  10.  前記重要度は、前記自由視点コンテンツが表現する仮想空間における位置ごとの第1重要度と、前記時間帯ごとの第2重要度とを含む
     請求項9に記載の情報処理装置。
  11.  前記重要度計算部は、前記第1重要度と前記第2重要度とを合算することで、前記重要度を計算する
     請求項10に記載の情報処理装置。
  12.  前記重要度計算部は、前記第1重要度及び前記第2重要度に対して予め設定された重みを乗算し、前記重みが乗算された前記第1重要度及び前記第2重要度を合算することで、前記重要度を計算する
     請求項11に記載の情報処理装置。
  13.  前記重要度計算部は、前記自由視点コンテンツが表現する仮想空間を複数の領域に分割し、分割された前記領域ごとに前記第1重要度を計算する
     請求項10に記載の情報処理装置。
  14.  前記自由視点コンテンツに関連する情報は、前記自由視点コンテンツ内で発生したイベントを示すイベントデータ、前記自由視点コンテンツに含まれる1以上のオブジェクトの動き、及び、前記自由視点コンテンツの視聴履歴のうちの少なくとも1つを含み、
     前記重要度計算部は、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴のうちの少なくとも1つを用いて前記重要度を計算する
     請求項9に記載の情報処理装置。
  15.  前記重要度計算部は、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴のうちの少なくとも2つそれぞれに基づいて第3重要度を計算し、計算された第3重要度を合算することで、前記重要度を計算する
     請求項14に記載の情報処理装置。
  16.  前記重要度計算部は、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴のうちの少なくとも2つそれぞれに基づいて計算された前記第3重要度に対し、前記イベントデータ、前記1以上のオブジェクトの動き及び前記視聴履歴ごとに設定された重みを乗算し、前記重みが乗算された前記第3重要度を合算することで、前記重要度を計算する
     請求項15に記載の情報処理装置。
  17.  前記ユーザに関連する情報は、年代、性別、趣味及び嗜好のうちの少なくとも1つを含む
     請求項1に記載の情報処理装置。
  18.  前記自由視点コンテンツに関連する情報は、前記自由視点コンテンツ内で発生したイベントを示すイベントデータ、前記自由視点コンテンツに含まれる1以上のオブジェクトの動き、前記自由視点コンテンツの視聴履歴、及び、前記自由視点コンテンツに付与されたメタ情報のうちの少なくとも1つを含む
     請求項1に記載の情報処理装置。
  19.  所定のネットワークを介して接続されたユーザ端末へ自由視点コンテンツの視聴サービスを提供する情報処理装置において実行される情報処理方法であって、
     前記自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得し、
     前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する
     ことを含む情報処理方法。
  20.  所定のネットワークを介して接続されたユーザ端末へ自由視点コンテンツの視聴サービスを提供する情報処理装置が備えるプロセッサを機能させるためのプログラムであって、
     前記自由視点コンテンツを視聴するユーザに関連する情報又は前記自由視点コンテンツに関連する情報のうち少なくとも1つを取得する処理と、
     前記ユーザに関連する情報及び前記自由視点コンテンツに関連する情報のうちの前記少なくとも1つに基づいて前記自由視点コンテンツの視聴時間及び視聴位置を生成する処理と、
     を前記プロセッサに実行させるためのプログラム。
PCT/JP2023/004681 2022-02-21 2023-02-13 情報処理装置、情報処理方法及びプログラム WO2023157782A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-024472 2022-02-21
JP2022024472 2022-02-21

Publications (1)

Publication Number Publication Date
WO2023157782A1 true WO2023157782A1 (ja) 2023-08-24

Family

ID=87578218

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/004681 WO2023157782A1 (ja) 2022-02-21 2023-02-13 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2023157782A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009864A1 (ja) * 2014-07-18 2016-01-21 ソニー株式会社 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
JP2016119577A (ja) * 2014-12-22 2016-06-30 三星電子株式会社Samsung Electronics Co.,Ltd. ダイジェスト生成装置、ダイジェスト生成方法及びプログラム
JP2017139725A (ja) * 2016-02-03 2017-08-10 パナソニックIpマネジメント株式会社 映像表示方法及び映像表示装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009864A1 (ja) * 2014-07-18 2016-01-21 ソニー株式会社 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
JP2016119577A (ja) * 2014-12-22 2016-06-30 三星電子株式会社Samsung Electronics Co.,Ltd. ダイジェスト生成装置、ダイジェスト生成方法及びプログラム
JP2017139725A (ja) * 2016-02-03 2017-08-10 パナソニックIpマネジメント株式会社 映像表示方法及び映像表示装置

Similar Documents

Publication Publication Date Title
US20200222803A1 (en) Virtual playbook with user controls
CN112423855B (zh) 电竞赛事中的缩放vr参与和观看
US20210170281A1 (en) System and Method for Replaying Video Game Streams
US10828570B2 (en) System and method for visualizing synthetic objects within real-world video clip
JP7362806B2 (ja) 情報処理装置、情報処理装置の制御方法、情報処理システム及びプログラム
US20190267041A1 (en) System and method for generating probabilistic play analyses from sports videos
US20180301169A1 (en) System and method for generating a highlight reel of a sporting event
JP5667943B2 (ja) コンピュータ実行画像処理方法および仮想再生ユニット
US20120028706A1 (en) Compositing multiple scene shots into a video game clip
JPWO2019230225A1 (ja) 画像処理装置、画像処理方法、プログラム
CN114746159B (zh) 人工智能(ai)控制的相机视角生成器和ai广播员
US20120028707A1 (en) Game animations with multi-dimensional video game data
US10864447B1 (en) Highlight presentation interface in a game spectating system
CN114746158B (zh) 人工智能(ai)控制的相机视角生成器和ai广播员
US10363488B1 (en) Determining highlights in a game spectating system
US20220203234A1 (en) Data display overlays for esport streams
US11875567B2 (en) System and method for generating probabilistic play analyses
EP4347070A1 (en) Simulating crowd noise for live events through emotional analysis of distributed inputs
WO2022098487A1 (en) In-game visualization of spectator feedback
WO2023157782A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20230199420A1 (en) Real-world room acoustics, and rendering virtual objects into a room that produce virtual acoustics based on real world objects in the room
US20210275930A1 (en) Spectating support apparatus, spectating support method, and spectating support program
AU2017254824A1 (en) Frameworks and methodologies configured to enable generation and delivery of 3d virtual renderings representative of context-specific recorded movement data
US20240149165A1 (en) Optimized player positioning system in virtual experiences
JP7333958B2 (ja) ゲーム装置、ゲーム装置のプログラム、ゲーム装置の制御方法、及び、ゲームシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23756307

Country of ref document: EP

Kind code of ref document: A1