WO2012105196A1 - 関心度推定装置および関心度推定方法 - Google Patents

関心度推定装置および関心度推定方法 Download PDF

Info

Publication number
WO2012105196A1
WO2012105196A1 PCT/JP2012/000508 JP2012000508W WO2012105196A1 WO 2012105196 A1 WO2012105196 A1 WO 2012105196A1 JP 2012000508 W JP2012000508 W JP 2012000508W WO 2012105196 A1 WO2012105196 A1 WO 2012105196A1
Authority
WO
WIPO (PCT)
Prior art keywords
saliency
interest
area
degree
correlation
Prior art date
Application number
PCT/JP2012/000508
Other languages
English (en)
French (fr)
Inventor
幸太郎 坂田
前田 茂則
竜 米谷
宏彰 川嶋
高嗣 平山
隆司 松山
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/701,540 priority Critical patent/US9538219B2/en
Priority to JP2012535534A priority patent/JP5841538B2/ja
Priority to CN201280001532.6A priority patent/CN102934458B/zh
Publication of WO2012105196A1 publication Critical patent/WO2012105196A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/04Diagnosis, testing or measuring for television systems or their details for receivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data

Definitions

  • the present invention relates to an interest level estimation apparatus and an interest level estimation method for estimating the interest level of a viewer (hereinafter also referred to as “user”) with respect to a displayed video.
  • Patent Document 1 As a conventional method for estimating the degree of interest, the method described in Patent Document 1 is known.
  • the number of blinks, the reaction time, the saccade speed and duration, the positional deviation of the line of sight, and the like are analyzed by investigating the content viewing state and eye movement by the user. Then, the degree of interest in the content of the viewer is calculated using each analysis result as a calculation element. Further, based on the calculation result and other calculation results stored in the data storage device, the degree of interest of the viewer to the specific content is calculated.
  • the degree of interest is merely estimated using the number of blinks during video viewing as a feature amount, and the degree of interest of the viewer is estimated with high accuracy depending on the configuration of the video. There was a problem that it was not possible.
  • an object of the present invention is to solve the above-described conventional problems, and to accurately estimate the viewer's interest in the video displayed on the screen.
  • an interest level estimation apparatus is an interest level estimation apparatus that estimates a user's level of interest in an image displayed on a screen, and detects the user's line-of-sight direction. And a saliency information acquisition unit that acquires saliency information about a saliency area that is a region where the saliency is remarkable in the video, and a saliency area identified from the acquired saliency information. And a user reaction analysis unit that estimates the degree of interest of the user with respect to the video so that the degree of interest increases as the calculated correlation increases.
  • an interest level estimation method for estimating a user's level of interest in an image displayed on a screen, wherein the user's line-of-sight direction
  • FIG. 1 is a block diagram showing a functional configuration of an interest level estimation apparatus according to an embodiment of the present invention.
  • FIG. 2 is a flowchart showing the processing operation of the interest level estimation apparatus in the embodiment of the present invention.
  • FIG. 3 is a conceptual diagram of a saliency structure in the embodiment of the present invention.
  • FIG. 4A is a diagram for explaining the types of saliency patterns in the embodiment of the present invention.
  • FIG. 4B is a diagram for explaining the types of saliency patterns in the embodiment of the present invention.
  • FIG. 4C is a diagram for explaining the types of saliency patterns in the embodiment of the present invention.
  • FIG. 4D is a diagram for explaining the types of saliency patterns in the embodiment of the present invention.
  • FIG. 4A is a diagram for explaining the types of saliency patterns in the embodiment of the present invention.
  • FIG. 4B is a diagram for explaining the types of saliency patterns in the embodiment of the present invention.
  • FIG. 4C is a diagram
  • FIG. 4E is a diagram for explaining the types of salient patterns in the embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of a time series of saliency patterns in the embodiment of the present invention.
  • FIG. 6A is a diagram illustrating an installation example of an imaging device that captures an image acquired in the gaze direction detection processing in the embodiment of the present invention.
  • FIG. 6B is a diagram illustrating an installation example of an imaging device that captures an image acquired in the gaze direction detection processing according to the embodiment of the present invention.
  • FIG. 6C is a diagram illustrating an installation example of an imaging device that captures an image acquired in the visual line direction detection processing according to the embodiment of the present invention.
  • FIG. 7 is a flowchart showing a flow of gaze direction detection processing in the embodiment of the present invention.
  • FIG. 8 is a diagram for explaining processing for detecting the face direction in the gaze direction detection processing according to the embodiment of the present invention.
  • FIG. 9 is a diagram for explaining calculation of the line-of-sight direction reference plane in the embodiment of the present invention.
  • FIG. 10 is a diagram for explaining the detection of the center of the black eye in the embodiment of the present invention.
  • FIG. 11 is a diagram for explaining detection of the center of the black eye in the embodiment of the present invention.
  • FIG. 12 is a diagram for explaining the line-of-sight movement and its components in the embodiment of the present invention.
  • FIG. 13 is a diagram for explaining the relationship between the saliency variation and the gaze response in the embodiment of the present invention.
  • FIG. 14 is a diagram showing evaluation criteria associated with each of a plurality of salient patterns in the embodiment of the present invention.
  • FIG. 15A is a diagram for describing an evaluation criterion associated with a saliency pattern according to the embodiment of the present invention.
  • FIG. 15B is a diagram for describing an evaluation criterion associated with a saliency pattern according to the embodiment of the present invention.
  • FIG. 15C is a diagram for describing an evaluation criterion associated with a saliency pattern according to the embodiment of the present invention.
  • FIG. 15D is a diagram for describing an evaluation criterion associated with a saliency pattern according to the embodiment of the present invention.
  • FIG. 15E is a diagram for describing an evaluation criterion associated with a saliency pattern according to the embodiment of the present invention.
  • Video producers are generally intended to give viewers some impression through specific people or things in the video. Therefore, the video producer tries to set an area on the screen where the viewer's attention is to be drawn. That is, a video producer often produces a video so that the video includes a region (hereinafter, referred to as a “significant region”) where the attractiveness (ease of visual attention) is significant.
  • the video producer when the content of the video is a drama, the video producer produces the video so that the display area of the leading actor is a remarkable area.
  • the video producer produces the video so that the display area of the product to be advertised becomes a remarkable area.
  • an interest level estimation apparatus is an interest level estimation apparatus that estimates a user's interest level with respect to a video displayed on a screen, and a gaze detection unit that detects the user's gaze direction;
  • a saliency information acquisition unit that acquires saliency information related to a saliency area, which is an area that is conspicuous in the video, and a saliency area identified from the acquired saliency information and the detected gaze direction
  • a user response analysis unit that calculates a correlation and estimates the degree of interest of the user for the video so that the degree of interest increases as the calculated correlation increases.
  • the degree of interest of the user with respect to the video can be estimated based on the correlation between the saliency area in the video and the user's line-of-sight direction. That is, since the interest level can be estimated in consideration of the characteristics of the video, it is possible to estimate the interest level more accurately than when the interest level is simply estimated based on the line-of-sight direction. In particular, when the degree of interest in the video is high, the fact that the correlation between the saliency area and the line-of-sight direction becomes high can be used, so that the degree of interest can be estimated with higher accuracy.
  • a high correlation is evaluated for each of a plurality of saliency patterns classified based on at least one of the number of saliency areas and movement. And at least one evaluation criterion is associated in advance, and the user reaction analysis unit calculates the correlation according to an evaluation criterion corresponding to a saliency pattern identified from the saliency information.
  • the correlation between the saliency area and the line-of-sight direction can be calculated according to an evaluation criterion suitable for the saliency pattern. Therefore, it is possible to estimate the interest level with higher accuracy.
  • the plurality of saliency patterns include a static pattern indicating that a position of a saliency area does not change
  • the static pattern includes: The number of occurrences of saccades in the saliency area is associated as the at least one evaluation criterion, and the user reaction analysis unit is detected when the saliency pattern identified from the saliency information is a static pattern. The correlation is calculated so that the correlation increases as the number of occurrences of saccades in the saliency area specified from the line-of-sight direction increases.
  • the correlation can be calculated based on the number of occurrences of saccades in the saliency area.
  • the saccade in the saliency area is a line-of-sight movement for acquiring information from the saliency area. Therefore, it is possible to estimate the degree of interest more accurately by calculating the correlation so that the correlation increases as the number of occurrences of saccades in the salient region increases.
  • the saliency information acquisition unit acquires the saliency information from a tag attached to a signal indicating the video.
  • the saliency information can be easily acquired from the tag.
  • the saliency information acquisition unit acquires the saliency information by analyzing the video based on physical characteristics of an image.
  • the saliency information can be acquired by analyzing the video. Therefore, even when a video with unknown saliency information is input, the saliency information of the video can be acquired, and the degree of interest in the video can be accurately estimated.
  • the saliency area is an area of an object related to audio information attached to the video.
  • the interest level can be estimated with higher accuracy.
  • the object is a speaker's face or mouth.
  • the interest level can be estimated with higher accuracy.
  • the saliency area is an area in which text corresponding to the voice information is displayed.
  • the interest level can be estimated with higher accuracy.
  • the saliency area is an area of a moving object.
  • the interest level can be estimated with higher accuracy.
  • the object is a person.
  • the interest level can be estimated with higher accuracy.
  • the object is an animal.
  • the interest level can be estimated with higher accuracy.
  • the correlation is a temporal synchronization level.
  • the temporal synchronization degree can be calculated as the correlation, the degree of interest can be estimated with higher accuracy.
  • the correlation is a spatial similarity.
  • the degree of interest can be estimated with higher accuracy.
  • the user reaction analysis unit may calculate a time difference between the appearance timing of the saliency area and the occurrence timing of the saccade of the line of sight with respect to the saliency area.
  • the user reaction analysis unit estimates the interest level so that the interest level increases as the time difference decreases.
  • the time difference between the appearance timing of the saliency area and the saccade generation timing with respect to the saliency area can be calculated as a value representing the low correlation between the saliency area and the line-of-sight direction. Therefore, the correlation can be calculated more appropriately, and the degree of interest can be estimated with higher accuracy.
  • the user reaction analysis unit is configured to determine a timing at which the saliency area moves on the screen at a predetermined speed or higher, and a saccade of a line of sight with respect to the saliency area.
  • the time difference from the occurrence timing is calculated as a value representing the low correlation, and the interest level is estimated so that the interest level increases as the time difference decreases.
  • the time difference between the movement timing of the saliency area and the occurrence timing of the saccade can be calculated as a value representing the low correlation between the saliency area and the line-of-sight direction. Therefore, the correlation can be calculated more appropriately, and the degree of interest can be estimated with higher accuracy.
  • the user reaction analysis unit is configured to determine a gaze position on the screen identified from the moving speed of the saliency area on the screen and the gaze direction.
  • the speed difference with the moving speed is calculated as a value representing the low correlation, and the user reaction analysis unit estimates the degree of interest so that the degree of interest increases as the speed difference decreases.
  • the speed difference between the movement speed of the saliency area and the movement speed of the gaze position can be calculated as a value representing a low correlation between the saliency area and the line-of-sight direction. Therefore, the correlation can be calculated more appropriately, and the degree of interest can be estimated with higher accuracy.
  • the user reaction analysis unit based on the number of saliency areas in the video, the area of each saliency area, and the number of occurrences of saccades of line of sight, Calculate the correlation.
  • the correlation can be appropriately calculated based on the number of saliency areas in the video, the area of each saliency area, and the number of occurrences of line-of-sight saccades.
  • the interest level estimation device may be configured as an integrated circuit.
  • the interest level estimation method is an interest level estimation method for estimating a user's level of interest with respect to a video displayed on a screen, and a gaze detection step of detecting the user's gaze direction;
  • a saliency information acquisition step of acquiring saliency information relating to a saliency area, which is an area where saliency is prominent in the video, and a saliency area identified from the acquired saliency information and the detected gaze direction A correlation calculating step of calculating a correlation; and an interest level estimating step of estimating the interest level of the user with respect to the video so that the higher the calculated correlation is, the higher the interest level is.
  • the present invention can also be realized as a program that causes a computer to execute each step included in the interest level estimation method.
  • a program can be distributed via a non-temporary recording medium such as a CD-ROM (Compact Disc Only Memory) or a transmission medium such as the Internet.
  • FIG. 1 is a block diagram showing a functional configuration of an interest level estimation apparatus according to an embodiment of the present invention.
  • the interest level estimation device 100 estimates the interest level of the user (viewer) for the video displayed on the screen.
  • the degree-of-interest estimation apparatus 100 includes a gaze detection unit 101, a saliency information acquisition unit 102, and a user reaction analysis unit 103.
  • Gaze detection unit 101 detects the user's gaze direction. That is, the gaze detection unit 101 detects the direction in which the user is looking.
  • the gaze detection unit 101 further calculates a gaze coordinate series that is a movement locus of the user's gaze position on the screen based on the gaze direction detected as described above.
  • the line-of-sight detection unit 101 uses the line-of-sight direction and the user's position to calculate the intersection point between the straight line extending from the user in the line-of-sight direction and the screen as the gaze position.
  • the line-of-sight detection unit 101 calculates a time series of coordinates indicating the gaze position calculated in this way as a gaze coordinate series. That is, the line-of-sight detection unit 101 calculates a temporal change in the line-of-sight direction.
  • the user position may be detected by using a pressure detected by a pressure sensor installed on the floor surface in front of the screen.
  • the saliency information acquisition unit 102 acquires saliency information related to a saliency area. For example, the saliency information acquisition unit 102 acquires saliency information by analyzing a video. Further, for example, the saliency information acquisition unit 102 may acquire saliency information from a tag attached to a signal indicating a video. A tag is information added to a signal indicating video or an area in which the information is stored. This tag is sometimes called a header or header information.
  • the remarkable area is an area where the attractiveness in the video is remarkable. That is, the saliency area is an area in the video that is likely to attract visual attention from the user.
  • the saliency information includes, for example, information indicating the position of the saliency area. Further, the saliency information may include information related to saliency fluctuation, which is a temporal change pattern of the saliency area.
  • the user reaction analysis unit 103 calculates the correlation between the saliency area specified from the acquired saliency information and the detected gaze direction. In other words, the user reaction analysis unit 103 calculates a value representing the height or low correlation between the salient region in the video and the detected gaze direction.
  • the user reaction analysis unit 103 calculates, for example, a temporal synchronization degree between the saliency area and the line-of-sight direction as a correlation. Further, the user reaction analysis unit 103 may calculate, for example, the spatial similarity between the saliency area and the line-of-sight direction as a correlation. Note that the user reaction analysis unit 103 may calculate the correlation based on both the temporal synchronization degree and the spatial similarity degree.
  • the user reaction analysis unit 103 estimates the degree of interest of the user with respect to the video so that the degree of interest increases as the calculated correlation increases.
  • FIG. 2 is a flowchart showing the processing operation of the interest level estimation apparatus in the embodiment of the present invention.
  • the saliency information acquisition unit 102 acquires saliency information including information indicating the position of the saliency area in the video and information related to saliency fluctuation that is a temporal change pattern of the saliency area (S11).
  • the gaze detection unit 101 detects the gaze direction of the user (S12). Here, the gaze detection unit 101 calculates a gaze coordinate series based on the detected gaze direction.
  • the user reaction analysis unit 103 calculates a correlation between the saliency area specified from the saliency information acquired by the saliency information acquisition unit 102 and the gaze direction detected by the gaze detection unit 101 (S13).
  • the user reaction analysis unit 103 calculates a correlation between the saliency variation and the gaze change detected by the gaze detection unit 101 (S14).
  • the user reaction analysis unit 103 estimates the degree of interest in the video based on the calculated correlation (S15). Specifically, the user reaction analysis unit 103 estimates the degree of interest in the user's video so that the degree of interest increases as the calculated correlation increases.
  • step S11 and the process of step S12 and S13 may be performed in parallel.
  • the process of step S11 and the process of step S12 and S13 may be performed in reverse order. That is, the process of step S11 may be performed after the processes of steps S12 and S13. Moreover, the process of step S13 does not need to be performed.
  • the degree-of-interest estimation apparatus 100 estimates the degree of interest of the user with respect to the video displayed on the screen.
  • FIG. 3 is a conceptual diagram of a saliency structure in the embodiment of the present invention.
  • the remarkable area is an area where it is easy to draw visual attention in each frame included in the video ((a) in FIG. 3).
  • the saliency and position of the saliency area change with time.
  • the spatio-temporal volume of the saliency area with such a change is called a saliency flow.
  • a plurality of saliency flows existing in the video are collectively referred to as a saliency structure of the video ((b) of FIG. 3).
  • the saliency area is obtained by calculating a saliency map for each frame included in the video.
  • the saliency map is obtained by a calculation method described in a non-patent document “Itti, L. and Koch, C .: Computational modeling of visual attention. Nature Reviews Neuroscience, 2 (3), pp. 194-203.” it can.
  • the saliency information acquisition unit 102 identifies the saliency area by analyzing the video based on the physical characteristics of the image.
  • the physical characteristics of the image are, for example, brightness, color, or brightness.
  • a typical example of the salient area is the area of the moving object.
  • the moving object may be a person.
  • the moving object may be an animal.
  • an object area closely related to the audio information attached to the video can be cited.
  • the object is, for example, a speaker's face or mouth in the video.
  • the saliency area may be an area in which text corresponding to audio information is displayed.
  • the saliency information acquisition unit 102 obtains a saliency flow by clustering the saliency areas included in each frame based on the temporal relationship.
  • the saliency flow has the saliency, centroid position, and area of the saliency area that changes with time as attributes.
  • the saliency information acquisition unit 102 segments the saliency flow into a state series including a “dynamic state where the position changes with time” and a “static state where the position does not change with time”.
  • the saliency structure has multiple saliency flows.
  • the saliency structure can be classified into a plurality of saliency patterns (Saliency Patterns) based on at least one of the number of saliency areas and movement.
  • FIG. 4A to FIG. 4E are diagrams for explaining the types of salient patterns in the embodiment of the present invention.
  • Each graph in FIGS. 4A to 4E shows a temporal change in the position of the salient region.
  • the vertical axis indicates the position on the screen, and the horizontal axis indicates time.
  • the plurality of saliency patterns include a single static pattern (ss: single-static) (FIG. 4A), a single dynamic pattern (sd: single-dynamic) (FIG. 4B), and a plurality of static patterns (ms : Multi-static) (FIG. 4C), multiple static dynamic patterns (msd: multi-static / dynamic) (FIG. 4D), and multiple dynamic patterns (md: multi-dynamic) (FIG. 4E)
  • ss single-static
  • sd single-dynamic
  • ms : Multi-static FIG. 4C
  • multiple static dynamic patterns msd: multi-static / dynamic
  • FIG. 4E multi-dynamic
  • the saliency structure is segmented into series consisting of these saliency patterns.
  • some of a plurality of flows are in a dynamic state and the rest are in a static state.
  • FIG. 5 is a diagram showing an example of a time series of saliency patterns in the embodiment of the present invention. Specifically, FIG. 5A is a graph showing the time transition of the position of the saliency area. Here, for the convenience of explanation, the position of the saliency area is represented in one dimension.
  • FIG. 5 is a graph which shows the time transition of the state of each remarkable flow.
  • Each bar graph shows one salient flow condition. Specifically, the white portion of the bar graph indicates that the saliency flow is in a static state (static). The hatched portion of the bar graph indicates that the saliency flow is in a dynamic state (dynamic).
  • (C) of FIG. 5 is a graph which shows the time transition of a remarkable pattern.
  • the saliency pattern is a plurality of static patterns (ms) and then transitions to a plurality of dynamic patterns (md).
  • the saliency information acquiring unit 102 identifies the saliency area by analyzing the video. Therefore, even when a video with unknown saliency information is input, the saliency information of the video can be acquired, and the degree of interest in the video can be accurately estimated.
  • the saliency information acquisition unit 102 determines a saliency pattern based on the number and movement of the specified saliency areas. Information indicating the position of the saliency area specified in this way and information indicating the saliency pattern correspond to saliency information.
  • the saliency information acquisition unit 102 does not necessarily analyze the video.
  • the saliency information acquisition unit 102 may acquire saliency information from a tag attached to a signal indicating a video. Thereby, the saliency information acquiring unit 102 can easily acquire the saliency information.
  • the tag needs to include information on the salient region obtained by analyzing the video in advance. Further, the tag may include information related to the saliency area input in advance by the video producer.
  • the line-of-sight direction is the direction of the user's face (hereinafter referred to as “face direction”) and the direction of the black eye portion in the eye relative to the user's face direction (hereinafter referred to as “black eye direction”).
  • face direction the direction of the user's face
  • black eye direction the direction of the black eye portion in the eye relative to the user's face direction
  • the line-of-sight detection unit 101 does not necessarily calculate the line-of-sight direction based on the combination of the face direction and the black-eye direction.
  • the gaze detection unit 101 may calculate the gaze direction based on the eyeball center and the iris (black eye) center. That is, the line-of-sight detection unit 101 may calculate a three-dimensional vector connecting the three-dimensional position of the center of the eyeball and the three-dimensional position of the center of the iris (black eye) as the line-of-sight direction.
  • FIGS. 6A to 6C are diagram showing an installation example of an imaging device (camera) that captures an image acquired in the line-of-sight direction detection process in the embodiment of the present invention.
  • the imaging device is installed in the vicinity of the screen so that a user located in front of the screen included in the display device can be imaged.
  • FIG. 7 is a flowchart showing a flow of gaze direction detection processing in the embodiment of the present invention.
  • the line-of-sight detection unit 101 acquires an image obtained by capturing an image of a user whose imaging device is in front of the screen (S501). Subsequently, the line-of-sight detection unit 101 detects a face area from the acquired image (S502). Next, the line-of-sight detection unit 101 applies the face part feature point areas corresponding to the respective reference face orientations to the detected face area, and cuts out the area image of each face part feature point (S503).
  • the line-of-sight detection unit 101 calculates the degree of correlation between the clipped region image and the template image held in advance (S504). Subsequently, the line-of-sight detection unit 101 obtains a weighted sum obtained by weighting and adding the angle indicated by each reference face direction according to the calculated ratio of correlation degrees, and the user's face corresponding to the detected face area The direction is detected (S505).
  • FIG. 8 is a diagram for explaining the process of detecting the face direction in the gaze direction detection process according to the embodiment of the present invention.
  • the line-of-sight detection unit 101 stores face part feature point regions from a face part region database (DB) that stores face part feature point regions corresponding to each reference face direction. Is read. Subsequently, as shown in FIG. 8B, the line-of-sight detection unit 101 applies the facial part feature point area to the face area of the photographed image for each reference face direction, and the facial part feature point area image. For each reference face orientation.
  • DB face part region database
  • the line-of-sight detection unit 101 calculates the degree of correlation between the clipped region image and the template image held in the face part region template DB for each reference face direction. Further, the line-of-sight detection unit 101 calculates a weight for each reference face direction according to the degree of correlation indicated by the correlation degree calculated in this way. For example, the line-of-sight detection unit 101 calculates, as a weight, the ratio of the correlation degree of each reference face direction to the sum of the correlation degrees of the reference face direction.
  • the line-of-sight detection unit 101 calculates a sum of values obtained by multiplying the angle indicated by the reference face direction by the calculated weight, and sets the calculation result as the user's face direction. To detect.
  • the weight for the reference face direction +20 degrees is “0.85”
  • the weight for the front direction is “0.14”
  • the weight for ⁇ 20 degrees is “0.01”.
  • the line-of-sight detection unit 101 calculates the degree of correlation for the facial part feature point region image, but the present invention is not limited to this.
  • the line-of-sight detection unit 101 may calculate the degree of correlation for an image of the entire face area.
  • a method for detecting the face orientation there is a method of detecting facial part feature points such as eyes, nose and mouth from the face image and calculating the facial orientation from the positional relationship of the facial part feature points.
  • the facial part feature point positions in the left and right cameras using the principle of stereo vision based on images taken by two cameras.
  • the line-of-sight detection unit 101 detects the three-dimensional positions of the left and right eyes of the user using the stereo image captured by the imaging device, and calculates the reference direction of the line-of-sight using the detected three-dimensional positions of the left and right eyes. (S506). Subsequently, the line-of-sight detection unit 101 detects the three-dimensional position of the center of the left and right black eyes of the user using the stereo image captured by the imaging device (S507). Then, the line-of-sight detection unit 101 detects the black-eye direction using the line-of-sight direction reference plane and the three-dimensional position of the left and right black-eye centers (S508).
  • the line-of-sight detection unit 101 detects the user's line-of-sight direction using the detected face direction and black-eye direction of the user (S509).
  • the line-of-sight detection unit 101 first calculates the line-of-sight direction reference plane. Subsequently, the line-of-sight detection unit 101 detects the three-dimensional position of the center of the black eye. Finally, the line-of-sight detection unit 101 detects the black eye direction.
  • FIG. 9 is a diagram for explaining the calculation of the line-of-sight direction reference plane in the embodiment of the present invention.
  • the line-of-sight direction reference plane is a plane that serves as a reference when detecting the direction of the black eye, and is the same as the plane of symmetry of the face as shown in FIG. It should be noted that the position of the eyes is less affected by facial expressions and has fewer false detections than other face parts such as the corners of the eyes, mouth corners, or eyebrows. Therefore, the line-of-sight detection unit 101 calculates the line-of-sight direction reference plane, which is a left-right symmetric plane of the face, using the three-dimensional position of the eye.
  • the line-of-sight detection unit 101 uses the face detection module and the face component detection module in each of two images (stereo images) captured by a stereo camera that is an imaging device, to determine the left and right eye regions. To detect. Then, the line-of-sight detection unit 101 measures the three-dimensional position of each of the right and left eyes using a positional shift (parallax) between images of the detected eye area. Further, as shown in FIG. 9, the line-of-sight detection unit 101 calculates, as the line-of-sight direction reference plane, a vertical bisector with a line segment whose end point is the detected three-dimensional position of the left and right eyes.
  • FIG 10 and 11 are diagrams for explaining the detection of the center of the black eye in the embodiment of the present invention.
  • the line-of-sight detection unit 101 detects the center of the black eye when detecting the black eye direction. I do.
  • the line-of-sight detection unit 101 detects the positions of the corners of the eyes and the eyes from the captured image. Then, the line-of-sight detection unit 101 detects, as a black eye region, a region having a low luminance from a region including the corners of the eyes and the eyes as shown in FIG. Specifically, the line-of-sight detection unit 101 detects, for example, an area where the luminance is equal to or less than a predetermined threshold and is larger than a predetermined size as a black eye area.
  • the line-of-sight detection unit 101 sets a black-eye detection filter composed of a first area and a second area as shown in FIG. 11 at an arbitrary position in the black-eye area. Then, the line-of-sight detection unit 101 searches for the position of the black eye detection filter that maximizes the inter-region variance between the luminance of the pixels in the first region and the luminance of the pixels in the second region, and the position indicated by the search result Is detected as the center of the black eye. Finally, the line-of-sight detection unit 101 detects the three-dimensional position of the center of the black eye using the shift in the position of the center of the black eye in the stereo image, as described above.
  • the gaze detection unit 101 detects the black eye direction using the calculated gaze direction reference plane and the detected three-dimensional position of the center of the black eye. It is known that there is almost no individual difference in the diameter of the eyeball of an adult. For example, in the case of Japanese, it is about 24 mm. Accordingly, if the position of the center of the black eye when the reference direction (for example, the front) is known is known, it can be converted and calculated in the direction of the black eye by obtaining the displacement from there to the current center position of the black eye.
  • the reference direction for example, the front
  • the gaze detection unit 101 When the user faces the front, using the fact that the midpoint of the center of the left and right black eyes exists on the center of the face, that is, the gaze direction reference plane, the gaze detection unit 101 The black eye direction is detected by calculating the distance from the reference direction of the line of sight.
  • the line-of-sight detection unit 101 uses an eyeball radius R and the distance d between the midpoint of the line segment connecting the left and right black eye centers and the line-of-sight direction reference plane, as shown in Equation (1):
  • the left-right rotation angle ⁇ with respect to the face direction is detected as the black eye direction.
  • the gaze detection unit 101 detects the black eye direction using the gaze direction reference plane and the three-dimensional position of the black eye center. Then, the line-of-sight detection unit 101 detects the user's line-of-sight direction in the real space using the detected face direction and the black-eye direction.
  • the line-of-sight detection unit 101 does not necessarily need to detect the line-of-sight direction by the method described above.
  • the line-of-sight detection unit 101 may detect the line-of-sight direction using a corneal reflection method.
  • the corneal reflection method is a method for measuring eye movement based on the position of a corneal reflection image (Purkinje image) that appears brightly when the cornea is irradiated with point light source illumination. Since the center of the eyeball rotation and the center of the convex surface of the cornea do not coincide with each other, when the cornea is a convex mirror and the reflection point of the light source is collected by a convex lens or the like, the light collection point moves with the rotation of the eyeball. The eye movement is measured by photographing this point with an imaging device.
  • a corneal reflection image Purkinje image
  • interest for a video can be defined in the sense of “direct attention” to the video. Attention is defined as a processing resource. The amount of processing resources required for a task varies depending on the difficulty level. “Turn attention” can be expressed as allocation of processing resources to a task.
  • the phenomenon of “turning attention” to a video can be considered as an allocation of processing resources to a video viewing task. This is known as Kahneman's “capacity model for attention”. Further, if the parameter of interest level is described using the concept of processing resources, the interest level is the number of processing resources allocated to the video viewing task.
  • the control process is a process consciously performed by humans, and requires processing resources for driving.
  • the gaze movement performed as a control process in the video viewing task is called intrinsic gaze movement.
  • the line of sight movement performed as an automatic process is called extrinsic line of sight movement.
  • processing resources corresponding to the degree of interest of the user are allocated to the video viewing task. Control processing is driven according to the processing resources, and intrinsic gaze movement occurs.
  • the extrinsic visual line movement is generated as an automatic process by the visual stimulus of the video (significant flow).
  • this exogenous gaze movement can be suppressed.
  • the line-of-sight movement generated in this way is physically observed as a gaze coordinate series on an actual display device.
  • the user reaction analysis unit 103 estimates the amount of processing resources allocated to the video viewing task from the physically observed gaze movement and determines the degree of interest in the video. presume.
  • FIG. 12 is a diagram for explaining the line-of-sight movement and its components in the embodiment of the present invention.
  • Eye movements during video viewing are classified into the following four types of eye movements.
  • the first type of line-of-sight movement is an information acquisition movement (PA: Pursuing Acquisition) from a moving object.
  • the second type of line-of-sight movement is information acquisition movement (FA) from a stationary object.
  • the third type of line-of-sight movement is an intentional object switching movement (NC: eNdogenous Change).
  • the fourth type of gaze movement is an extrinsic object switching movement (XC: eXogenous Change).
  • the line-of-sight movement during video viewing has dynamics inside, and is configured by a combination of simple line-of-sight movements (components) as shown in FIG.
  • the following four simple line-of-sight movements are used as constituent elements to express the line-of-sight movement during video viewing.
  • the first component is sliding eye movement (P: Pursuit).
  • the sliding eye movement is a movement in which the eyeball moves slowly following the movement of the moving object.
  • the second component is fixation movement (F).
  • Fixation movement means that the eyeball does not move in order to keep watching a stationary object.
  • the third component is an endogenous saccade (NS: eNdogenous Saccade).
  • the saccade is a quick eye movement performed in order to capture an object reflected in a peripheral retina having a low resolution in the fovea of the retina having a high resolution.
  • Endogenous saccades are conscious saccades of saccades.
  • the fourth component is an exogenous saccade (XS: eXogenous Saccade).
  • XS exogenous saccade
  • An exogenous saccade is an unconscious saccade of saccades.
  • the line-of-sight detection unit 101 detects the above-described line-of-sight movement from the gaze coordinate series as a pre-stage of interest level estimation. That is, the line-of-sight detection unit 101 segments the gaze coordinate series into time intervals in which a single line-of-sight movement can occur. Specifically, the line-of-sight detection unit 101 segments the gaze coordinate series based on the flow of the gaze target, and further segments based on whether the corresponding flow state is static or dynamic. Then, the line-of-sight detection unit 101 merges time intervals in which gaze movement between two flows having a high correlation occurs in order to treat a remarkable flow group showing a high correlation as a single target.
  • FIG. 13 is a diagram for explaining the relationship between the saliency variation and the gaze response in the embodiment of the present invention. Specifically, FIG. 13A shows a temporal shift in each frame when the degree of interest is high and a temporal shift in each frame when the degree of interest is low. FIG. 13B shows a spatial shift in each frame when the degree of interest is high and a spatial shift in each frame when the degree of interest is low.
  • the temporal shift and the spatial shift of the gaze movement expected to occur corresponding to the saliency change in the frame become small.
  • the degree of interest in the video is low, the temporal shift and the spatial shift between the saliency fluctuation and the gaze response increase in the frame.
  • the user reaction analysis unit 103 calculates a value representing at least one of these temporal deviation and spatial deviation as a value representing a low correlation between the salient region and the line-of-sight direction. To do.
  • this time lag there is a time difference between the appearance timing of a saliency area and the occurrence timing of a line-of-sight saccade with respect to the saliency area.
  • the time shift there is a time difference between the timing at which the saliency area moves on the screen at a predetermined speed or more and the generation timing of the line-of-sight saccade with respect to the saliency area.
  • the temporal shift and the spatial shift there is a speed difference between the moving speed of the saliency area on the screen and the moving speed of the gaze position on the screen specified from the line-of-sight direction.
  • whether or not the line-of-sight movement is a saccade can be determined, for example, based on whether or not the value indicating the degree of change in the line-of-sight direction exceeds a threshold value.
  • the timing at which the gaze position moves at a predetermined speed or higher may be detected as the saccade generation timing.
  • the degree of interest in the video is estimated as follows.
  • FIG. 14 is a diagram showing evaluation criteria associated with each of a plurality of salient patterns in the embodiment of the present invention.
  • each of the plurality of saliency patterns is associated with at least one evaluation criterion for evaluating the height of the correlation in advance.
  • Information indicating the correspondence between the saliency pattern and the evaluation criterion may be held in, for example, a storage unit (memory) not shown.
  • the storage unit is provided in the interest level estimation device 100, for example. Further, the storage unit may be provided in an external device connected to the interest level estimation device 100.
  • the user reaction analysis unit 103 refers to the information as shown in FIG. 14 to calculate the correlation according to the evaluation standard corresponding to the saliency pattern specified from the acquired saliency information.
  • FIG. 15A to FIG. 15E are diagrams for explaining the evaluation criteria associated with the saliency pattern in the embodiment of the present invention.
  • FIG. 14 and FIG. 15A when the degree of interest of the user with respect to the video is high, it is expected that FA is observed as a line-of-sight motion in single-static. Further, as shown in FIGS. 14 and 15B, when the degree of interest of the user with respect to the video is high, it is expected that PA is observed as a line-of-sight movement in single-dynamic. Further, as shown in FIGS. 14 and 15C, when the user's degree of interest in the video is high, it is expected that FA and NS are observed as eye movements in multi-static. Further, as shown in FIGS.
  • the number of saccades, the stroke length of the saccades, and the target flow area are associated as evaluation criteria.
  • the number of saccades is the number of occurrences of saccades detected when the remarkable pattern is single-static.
  • the saccade is detected, for example, by comparing a value indicating a change rate in the line-of-sight direction with a threshold value. Specifically, for example, the number of times that the gaze position moves at a predetermined speed or more in the saliency area on the screen is detected as the number of saccades.
  • the saccade stroke length is a value indicating the amount of change in the line-of-sight direction due to the saccade. Specifically, the stroke length of the saccade corresponds to the amount of movement of the gaze position on the screen by the saccade, for example.
  • the target flow area corresponds to the area of the remarkable area.
  • an average value of the areas of the saliency areas is used as the target flow area.
  • the target flow area may be a median value, a maximum value, a minimum value, or the like of the area of the saliency area.
  • the speed difference between the target flow and the eye movement corresponds to the speed difference between the moving speed of the saliency area and the moving speed of the gaze position.
  • the moving speed means the magnitude and direction of the moving vector.
  • the movement speed of the object corresponds to the movement speed of the saliency area.
  • an evaluation criterion associated with single-static and the occurrence frequency of NS are associated as evaluation criteria.
  • NS occurrence frequency corresponds to the number of occurrences of saccades between multiple salient areas. That is, the occurrence frequency of NS corresponds to the number of occurrences of a saccade that moves the gaze position from one saliency area to another saliency area.
  • the evaluation criteria associated with single-static For multi-static / dynamic, the evaluation criteria associated with single-static, the evaluation criteria associated with single-dynamic, the occurrence frequency of NS, and the ratio of PA and FA correspond as evaluation criteria. It is attached.
  • an evaluation criterion associated with single-dynamic and the occurrence frequency of NS are associated as evaluation criteria.
  • the user reaction analysis unit 103 calculates an evaluation value (vector) E according to these evaluation criteria associated with the saliency pattern.
  • This evaluation value E corresponds to the correlation between the saliency area and the line-of-sight direction, and is a value that quantitatively indicates the height of the correlation.
  • the user reaction analysis unit 103 increases the correlation as the number of occurrences of saccades in the saliency area increases.
  • the correlation is calculated so as to increase.
  • the user reaction analysis unit 103 can calculate the correlation based on the number of occurrences of saccades in the saliency area.
  • the saccade in the saliency area is a line-of-sight movement for acquiring information from the saliency area. Therefore, the user reaction analysis unit 103 estimates the degree of interest more accurately by calculating the correlation between the saliency area and the line-of-sight direction so that the correlation increases as the number of occurrences of saccades in the saliency area increases. It becomes possible.
  • the user reaction analysis unit 103 causes the saliency area so that the correlation increases as the amount of change in the line-of-sight direction due to the saccade in the saliency area (saccade stroke length) increases. And the direction of gaze direction are calculated. In this case, it is preferable that the user reaction analysis unit 103 normalizes the amount of change in the line-of-sight direction using the size (for example, area) of the saliency area.
  • the interest level estimation apparatus 100 can estimate the interest level with higher accuracy.
  • the user response analysis unit 103 determines whether the saliency area moves on the screen and the gaze direction. The correlation is calculated so that the correlation is higher as the speed difference from the moving speed of the gaze position on the specified screen is smaller. In this case, it is preferable that the user reaction analysis unit 103 normalizes the speed difference using the moving speed of the saliency area.
  • the interest level estimation apparatus 100 can estimate the interest level with higher accuracy.
  • NS occurrence frequency is added to the evaluation criteria for a remarkable pattern with multiple flows. That is, when the saliency pattern is a plurality of patterns (multi-static, multi-dynamic, or multi-static / dynamic), the user reaction analysis unit 103 moves the gaze position from one saliency area to another saliency area. The correlation is calculated so that the correlation increases as the number of occurrences of the saccade that moves the saccade increases. In this case, it is preferable that the user reaction analysis unit 103 normalizes the number of occurrences of saccades using the number of saliency areas.
  • the interest level estimation apparatus 100 can estimate the interest level with higher accuracy.
  • the distribution of the evaluation value E for each remarkable pattern at the time of high interest (H) and the distribution at the time of low interest (L) are learned in advance.
  • the user reaction analysis unit 103 uses the posterior probabilities P (H
  • the user reaction analysis unit 103 estimates the degree of interest in the video by comparing the posterior probabilities P (H
  • the degree-of-interest estimation apparatus As described above, according to the degree-of-interest estimation apparatus according to the present embodiment, information on a saliency area that easily draws a user's visual attention from a video and a saliency variation that is a temporal change pattern is acquired, and the saliency By estimating the degree of interest in the video based on the correlation between the change and the gaze response, the degree of interest in the video can be accurately estimated when the video is displayed on the screen.
  • the degree of interest of the user with respect to the video can be estimated based on the correlation between the salient region in the video and the user's line-of-sight direction. That is, since the interest level can be estimated in consideration of the characteristics of the video, it is possible to estimate the interest level more accurately than when the interest level is simply estimated based on the line-of-sight direction. In particular, when the degree of interest in the video is high, the fact that the correlation between the saliency area and the line-of-sight direction becomes high can be used, so that the degree of interest can be estimated with higher accuracy.
  • the interest level estimation apparatus it is possible to estimate the user's level of interest in the video without measuring the user's skin potential or the like. Therefore, it is possible to easily estimate the degree of interest and to suppress an increase in the burden on the user.
  • the interest level estimation apparatus it is possible to calculate the correlation between the saliency area and the line-of-sight direction according to the evaluation criterion suitable for the saliency pattern. Therefore, it is possible to estimate the interest level with higher accuracy.
  • interest with respect to a video is defined as meaning “attention to the video”, but “interest” in the present invention can be replaced with the term “concentration”. it can.
  • the present invention can also be said to be an invention for estimating the degree of user concentration on the video.
  • the interest level estimation device 100 estimates the interest level, but the term “estimation” can be replaced with “calculation”. That is, the interest level estimation device that estimates the interest level may be replaced with an interest level calculation device that calculates the interest level.
  • the degree of interest estimated by the degree-of-interest estimation apparatus 100 is used to appropriately display information to be presented to the user, for example.
  • the display device displays information to be presented to the user at the center of the screen. Thereby, the display apparatus can suppress that the user misses the displayed information.
  • the display device displays or does not display information to be presented to the user at the end of the screen. Thereby, the display apparatus can suppress giving a user discomfort.
  • the brightness of the display device may be adjusted based on the interest level estimated by the interest level estimation apparatus 100. For example, the brightness of the display device may be displayed so that the brightness is lower when the degree of interest is low than when the degree of interest is high. In this case, the power consumption of the display device can be reduced, which can contribute to energy saving.
  • the user reaction analysis unit 103 uses the saliency pattern to calculate the correlation between the saliency area and the line-of-sight direction, but the saliency pattern is not necessarily used.
  • the user reaction analysis unit 103 may calculate the correlation between the saliency area and the line-of-sight direction based on the number of occurrences of saccades in the saliency area regardless of the saliency pattern.
  • the degree-of-interest estimation apparatus 100 can estimate the degree of interest in consideration of the characteristics of the video. Therefore, the degree of interest is estimated with higher accuracy than when the degree of interest is simply estimated based on the gaze direction. It becomes possible.
  • the plurality of salient patterns are classified based on both the number of salient areas and the movement, but may be classified based on only one of the number of salient areas and the movement. That is, the plurality of saliency patterns may be classified based on at least one of the number of saliency areas and movement.
  • the above interest level estimation device is specifically a computer system including a microprocessor, a ROM (Read Only Memory), a RAM (Randam Access Memory), a hard disk unit, a display unit, a keyboard, a mouse, and the like. is there.
  • a computer program is stored in the ROM or the hard disk unit.
  • the interest level estimation apparatus achieves its function by the microprocessor operating according to the computer program expanded in the RAM.
  • the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
  • the interest level estimation device is not limited to a computer system including all of a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like, but may be a computer system including a part of them. Good.
  • a part or all of the constituent elements constituting the above interest level estimation device may be configured by one system LSI (Large Scale Integration).
  • the system LSI is a super multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, a ROM, a RAM, and the like. .
  • a computer program is stored in the ROM.
  • the system LSI achieves its functions by the microprocessor operating according to the computer program loaded in the RAM.
  • system LSI may be called IC, LSI, super LSI, or ultra LSI depending on the degree of integration.
  • method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • a part or all of the constituent elements constituting the above-described interest level estimation device may be configured from an IC card that can be attached to and removed from the interest level estimation device or a single module.
  • the IC card or the module is a computer system including a microprocessor, a ROM, a RAM, and the like.
  • the IC card or the module may include the super multifunctional LSI described above.
  • the IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
  • the present invention may be a method in which the operation of a characteristic component included in the interest level estimation device described above is used as a step. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
  • the present invention also provides a non-transitory recording medium that can read the computer program or the digital signal, such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD ( It may be recorded on a Blu-ray Disc (registered trademark), a semiconductor memory, or the like. Further, the present invention may be the computer program or the digital signal recorded on these recording media.
  • a non-transitory recording medium that can read the computer program or the digital signal, such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD ( It may be recorded on a Blu-ray Disc (registered trademark), a semiconductor memory, or the like.
  • the present invention may be the computer program or the digital signal recorded on these recording media.
  • the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
  • the present invention may also be a computer system including a microprocessor and a memory.
  • the memory may store the computer program, and the microprocessor may operate according to the computer program.
  • the program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like, and executed by another independent computer system. It is good.
  • the present invention is useful as an interest level estimation device that estimates the interest level of a user with respect to a displayed video, and can be applied to, for example, a user interface device or a video display device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 画面に表示された映像に対するユーザの関心度を推定する関心度推定装置(100)は、ユーザの視線方向を検出する視線検出部(101)と、映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得部(102)と、取得された顕著性情報から特定される顕著領域と、検出された視線方向との相関を算出し、算出された相関が高いほど関心度が高くなるように、映像に対するユーザの関心度を推定するユーザ反応分析部(103)とを備える。

Description

関心度推定装置および関心度推定方法
 本発明は、表示されている映像に対する視聴者(以下、「ユーザ」ともいう)の関心度を推定する関心度推定装置および関心度推定方法に関する。
 情報爆発時代を迎え、情報が溢れかえるとともに、人々の関心も多様化し、従来の画一的な情報提示では、ユーザの心をつかむことは困難になりつつある。潜在的に関心のある情報をさりげなく顕在化するような、パーソナライズした情報提示が望まれる。
 例えば、表示装置としてテレビに着目すると、近年のテレビ放送のデジタル化に伴い、チャンネル数は急激に増加している。また、インターネット配信によるネットコンテンツも急増している。その結果、ユーザは、大量のコンテンツの中からコンテンツを選択できるようになっている。しかし、大量のコンテンツの中からユーザ自身が視聴したい番組を選択することは非常に困難である。そのため、ユーザの興味や関心に合わせた番組推薦システムに関する研究が盛んに行われている。
 こうしたユーザの興味や関心に合わせてコンテンツを提示するためには、普段からユーザが視聴している各コンテンツにどの程度の関心を持っているのかを把握しておく必要がある。つまり、視聴映像に対するユーザの関心度の推定が必要となる。
 従来の関心度を推定する方法としては、特許文献1に記載の方法が知られている。特許文献1に記載の方法では、ユーザによるコンテンツの視聴状況や眼球運動を調査することにより、瞬目回数、反応時間、サッケードの速度および継続時間、ならびに視線の位置的な偏差等を解析する。そして、それぞれの解析結果を計算要素として、その視聴者のコンテンツへの関心の程度を算出する。また、その計算結果と、データ格納装置に格納された他の計算結果とをもとに、特定のコンテンツへの視聴者の関心の程度を算出する。
特開2006-20131号公報
 しかしながら、特許文献1に記載の方法では、単に映像視聴時の瞬目回数等を特徴量として関心度を推定するだけであり、映像の構成によっては高精度に視聴者の関心度を推定することができないという課題があった。
 そこで、本発明は、前記従来の課題を解決するものであって、画面に表示された映像に対する視聴者の関心度を精度良く推定することを目的とする。
 上記目的を達成するために、本発明の一態様に係る関心度推定装置は、画面に表示された映像に対するユーザの関心度を推定する関心度推定装置であって、前記ユーザの視線方向を検出する視線検出部と、前記映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得部と、取得された前記顕著性情報から特定される顕著領域と検出された前記視線方向との相関を算出し、算出された前記相関が高いほど関心度が高くなるように、前記映像に対する前記ユーザの関心度を推定するユーザ反応分析部とを備える。
 また、上記目的を達成するために、本発明の一態様に係る関心度推定方法は、画面に表示された映像に対するユーザの関心度を推定する関心度推定方法であって、前記ユーザの視線方向を検出する視線検出ステップと、前記映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得ステップと、取得された前記顕著性情報から特定される顕著領域と検出された前記視線方向との相関を算出する相関算出ステップと、算出された前記相関が高いほど関心度が高くなるように、前記映像に対する前記ユーザの関心度を推定する関心度推定ステップとを含む。
 本発明によれば、画面に表示された映像に対する視聴者の関心度を精度良く推定することができる。
図1は、本発明の実施の形態における関心度推定装置の機能構成を示すブロック図である。 図2は、本発明の実施の形態における関心度推定装置の処理動作を示すフローチャートである。 図3は、本発明の実施の形態における顕著構造の概念図である。 図4Aは、本発明の実施の形態における顕著パターンの種類を説明するための図である。 図4Bは、本発明の実施の形態における顕著パターンの種類を説明するための図である。 図4Cは、本発明の実施の形態における顕著パターンの種類を説明するための図である。 図4Dは、本発明の実施の形態における顕著パターンの種類を説明するための図である。 図4Eは、本発明の実施の形態における顕著パターンの種類を説明するための図である。 図5は、本発明の実施の形態における顕著パターンの時系列の一例を示す図である。 図6Aは、本発明の実施の形態における視線方向検出処理において取得される画像を撮像する撮像装置の設置例を示す図である。 図6Bは、本発明の実施の形態における視線方向検出処理において取得される画像を撮像する撮像装置の設置例を示す図である。 図6Cは、本発明の実施の形態における視線方向検出処理において取得される画像を撮像する撮像装置の設置例を示す図である。 図7は、本発明の実施の形態における視線方向検出処理の流れを示すフローチャートである。 図8は、本発明の実施の形態における視線方向検出処理において顔向きを検出する処理を説明するための図である。 図9は、本発明の実施の形態における視線方向基準面の算出について説明するための図である。 図10は、本発明の実施の形態における黒目中心の検出について説明するための図である。 図11は、本発明の実施の形態における黒目中心の検出について説明するための図である。 図12は、本発明の実施の形態における視線運動とその構成要素とを説明するための図である。 図13は、本発明の実施の形態における顕著性変動と注視反応との関係を説明するための図である。 図14は、本発明の実施の形態における複数の顕著パターンの各々に対応付けられた評価基準を示す図である。 図15Aは、本発明の実施の形態における顕著パターンに対応付けられた評価基準を説明するための図である。 図15Bは、本発明の実施の形態における顕著パターンに対応付けられた評価基準を説明するための図である。 図15Cは、本発明の実施の形態における顕著パターンに対応付けられた評価基準を説明するための図である。 図15Dは、本発明の実施の形態における顕著パターンに対応付けられた評価基準を説明するための図である。 図15Eは、本発明の実施の形態における顕著パターンに対応付けられた評価基準を説明するための図である。
 映像製作者は、一般的に、映像中の特定の人物やモノを通して、視聴者に何らかの印象を与えることを意図している。したがって、映像製作者は、視聴者の注意を引きたい領域を画面上に設定しようとする。つまり、映像製作者は、映像中に誘目性(視覚的注意の引きやすさ)が顕著な領域(以下、「顕著領域」という)が含まれるように、映像を製作することが多い。
 例えば、映像の内容がドラマである場合、映像製作者は、主演俳優の表示領域が顕著領域となるように映像を製作する。また、映像の内容が広告である場合、映像製作者は、広告対象となる商品の表示領域が顕著領域となるように映像を製作する。
 このことから、映像製作者が設定した、視聴者の注意を引きたい領域に、視聴者が視覚的注意を向けるということは、視聴者が映像製作者の意図通りの視聴行動をとっていることを意味する。つまり、映像中の顕著領域に視覚的注意が向けられていれば、その映像に対する視聴者の関心度が高いと推定することができる。
 そこで、本発明の一態様に係る関心度推定装置は、画面に表示された映像に対するユーザの関心度を推定する関心度推定装置であって、前記ユーザの視線方向を検出する視線検出部と、前記映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得部と、取得された前記顕著性情報から特定される顕著領域と検出された前記視線方向との相関を算出し、算出された前記相関が高いほど関心度が高くなるように、前記映像に対する前記ユーザの関心度を推定するユーザ反応分析部とを備える。
 この構成によれば、映像内の顕著領域とユーザの視線方向との相関に基づいて、映像に対するユーザの関心度を推定することができる。つまり、映像の特性を考慮して関心度を推定できるので、単に視線方向に基づいて関心度を推定する場合よりも、精度良く関心度を推定することが可能となる。特に、映像に対する関心度が高い場合に顕著領域と視線方向との相関が高くなることを利用することができるので、より高精度に関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、顕著領域の数および動きのうちの少なくとも一方に基づいて分類される複数の顕著パターンの各々には、相関の高さを評価するための少なくとも1つの評価基準があらかじめ対応付けられており、前記ユーザ反応分析部は、前記顕著性情報から特定される顕著パターンに対応する評価基準に従って前記相関を算出する。
 この構成によれば、顕著パターンに適した評価基準に従って、顕著領域と視線方向との相関を算出することができる。したがって、より精度良く関心度を推定することが可能となる。
 また、本発明の別の一態様に係る関心度推定装置において、前記複数の顕著パターンは、顕著領域の位置が変化しない状態であることを示す静的パターンを含み、前記静的パターンには、顕著領域内におけるサッケードの発生回数が前記少なくとも1つの評価基準として対応付けられており、前記ユーザ反応分析部は、前記顕著性情報から特定される顕著パターンが静的パターンである場合に、検出された前記視線方向から特定される、前記顕著領域内におけるサッケードの発生回数が多いほど前記相関が高くなるように、前記相関を算出する。
 この構成によれば、顕著パターンが静的パターンの場合に、顕著領域内のサッケードの発生回数に基づいて相関を算出することができる。顕著領域内におけるサッケードは、ユ顕著領域から情報を獲得するための視線運動である。したがって、この顕著領域内におけるサッケードの発生回数が多いほど相関が高くなるように相関を算出することにより、より精度良く関心度を推定することが可能となる。
 また、本発明の別の一態様に係る関心度推定装置において、前記顕著性情報取得部は、前記映像を示す信号に付与されたタグから前記顕著性情報を取得する。
 この構成によれば、タグから顕著性情報を容易に取得することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記顕著性情報取得部は、画像の物理的な特徴に基づいて前記映像を解析することにより前記顕著性情報を取得する。
 この構成によれば、映像を解析することにより顕著性情報を取得することができる。したがって、顕著性情報が不明な映像が入力された場合であっても、その映像の顕著性情報を取得することができ、その映像に対する関心度を精度良く推定することが可能となる。
 また、本発明の別の一態様に係る関心度推定装置において、前記顕著領域は、前記映像に付随した音声情報に関連するオブジェクトの領域である。
 この構成によれば、ユーザの関心度に対する関係性が大きい領域が顕著領域となるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記オブジェクトは、話者の顔または口である。
 この構成によれば、ユーザの関心度に対する関係性が大きい領域が顕著領域となるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記顕著領域は、前記音声情報に対応するテキストが表示される領域である。
 この構成によれば、ユーザの関心度に対する関係性が大きい領域が顕著領域となるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記顕著領域は、移動するオブジェクトの領域である。
 この構成によれば、ユーザの関心度に対する関係性が大きい領域が顕著領域となるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記オブジェクトは、人である。
 この構成によれば、ユーザの関心度に対する関係性が大きい領域が顕著領域となるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記オブジェクトは、動物である。
 この構成によれば、ユーザの関心度に対する関係性が大きい領域が顕著領域となるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記相関は、時間的な同期度である。
 この構成によれば、時間的な同期度を相関として算出することができるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記相関は、空間的な類似度である。
 この構成によれば、空間的な類似度を相関として算出することができるので、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記ユーザ反応分析部は、前記顕著領域の出現タイミングと、前記顕著領域に対する視線のサッケードの発生タイミングとの時間差を、前記相関の低さを表す値として算出し、前記ユーザ反応分析部は、前記時間差が小さいほど関心度が高くなるように、前記関心度を推定する。
 この構成によれば、顕著領域の出現タイミングと、顕著領域に対するサッケードの発生タイミングとの時間差を、顕著領域と視線方向との相関の低さを表す値として算出することができる。したがって、より適切に相関を算出することができ、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記ユーザ反応分析部は、前記顕著領域が所定の速度以上で前記画面上を移動するタイミングと、前記顕著領域に対する視線のサッケードの発生タイミングとの時間差を、前記相関の低さを表す値として算出し、前記時間差が小さいほど関心度が高くなるように、前記関心度を推定する。
 この構成によれば、顕著領域の移動タイミングとサッケードの発生タイミングとの時間差を、顕著領域と視線方向との相関の低さを表す値として算出することができる。したがって、より適切に相関を算出することができ、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、前記ユーザ反応分析部は、前記顕著領域の前記画面上の移動速度と、前記視線方向から特定される前記画面上の注視位置の移動速度との速度差を、前記相関の低さを表す値として算出し、前記ユーザ反応分析部は、前記速度差が小さいほど関心度が高くなるように、前記関心度を推定する。
 この構成によれば、顕著領域の移動速度と注視位置の移動速度との速度差を、顕著領域と視線方向との相関の低さを表す値として算出することができる。したがって、より適切に相関を算出することができ、より精度良く関心度を推定することができる。
 また、本発明の別の一態様に係る関心度推定装置において、ユーザ反応分析部は、前記映像内の顕著領域の数、各顕著領域の面積、および視線のサッケードの発生回数に基づいて、前記相関を算出する。
 この構成によれば、映像内の顕著領域の数、各顕著領域の面積、および視線のサッケードの発生回数に基づいて、適切に相関を算出することができる。
 また、本発明の別の一態様に係る関心度推定装置は、集積回路として構成されてもよい。
 また、本発明の一態様に係る関心度推定方法は、画面に表示された映像に対するユーザの関心度を推定する関心度推定方法であって、前記ユーザの視線方向を検出する視線検出ステップと、前記映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得ステップと、取得された前記顕著性情報から特定される顕著領域と検出された前記視線方向との相関を算出する相関算出ステップと、算出された前記相関が高いほど関心度が高くなるように、前記映像に対する前記ユーザの関心度を推定する関心度推定ステップとを含む。
 これによれば、上記関心度推定装置と同様の効果を奏することができる。
 なお、本発明は、関心度推定方法に含まれる各ステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムは、CD-ROM(Compact Disc Read Only Memory)等の非一時的な記録媒体あるいはインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
 以下本発明の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示す。つまり、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置および接続形態、ステップ、ステップの順序などは、本発明の一例であり、本発明を限定する主旨ではない。本発明は、請求の範囲の記載に基づいて特定される。したがって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素は、本発明の課題を達成するために必ずしも必要ではないが、より好ましい形態を構成する構成要素として説明される。
 (実施の形態)
 図1は、本発明の実施の形態における関心度推定装置の機能構成を示すブロック図である。
 関心度推定装置100は、画面に表示された映像に対するユーザ(視聴者)の関心度を推定する。
 図1に示すように、関心度推定装置100は、視線検出部101と、顕著性情報取得部102と、ユーザ反応分析部103とを備える。
 視線検出部101は、ユーザの視線方向を検出する。つまり、視線検出部101は、ユーザが見ている方向を検出する。
 本実施の形態では、さらに、視線検出部101は、上記のようにして検出された視線方向に基づいて、画面上におけるユーザの注視位置の移動軌跡である注視座標系列を算出する。具体的には、視線検出部101は、視線方向とユーザの位置とを利用して、ユーザから視線方向に伸びる直線と画面との交点を注視位置として算出する。そして、視線検出部101は、このように算出された注視位置を示す座標の時系列を注視座標系列として算出する。つまり、視線検出部101は、視線方向の時間変化を算出する。
 なお、ユーザの位置は、例えば、ステレオカメラなどによって撮影されたステレオ画像におけるユーザ像の視差を利用して検出されればよい。また例えば、ユーザ位置は、画面の前方の床面に設置された圧力センサによって検出される圧力を利用して検出されてもよい。
 顕著性情報取得部102は、顕著領域(Saliency Area)に関する顕著性情報を取得する。例えば、顕著性情報取得部102は、映像を解析することにより顕著性情報を取得する。また例えば、顕著性情報取得部102は、映像を示す信号に付与されたタグから顕著性情報を取得してもよい。タグとは、映像を示す信号に付加される情報、あるいはその情報が格納される領域である。このタグは、ヘッダあるいはヘッダ情報と呼ばれることもある。
 なお、顕著領域とは、映像中の誘目性が顕著な領域である。つまり、顕著領域とは、映像中の、ユーザから視覚的な注意を引きやすい領域である。
 顕著性情報は、例えば、顕著領域の位置を示す情報を含む。また、顕著性情報は、顕著領域の時間変化パターンである顕著性変動に関する情報を含んでもよい。
 ユーザ反応分析部103は、取得された顕著性情報から特定される顕著領域と、検出された視線方向との相関を算出する。すなわち、ユーザ反応分析部103は、映像中の顕著領域と検出された視線方向との相関の高さまたは低さを表す値を算出する。
 具体的には、ユーザ反応分析部103は、例えば、顕著領域と視線方向との時間的な同期度を相関として算出する。また、ユーザ反応分析部103は、例えば、顕著領域と視線方向との空間的な類似度を相関として算出してもよい。なお、ユーザ反応分析部103は、時間的な同期度と空間的な類似度との両方に基づいて相関を算出してもよい。
 ユーザ反応分析部103は、このように算出された相関が高いほど関心度が高くなるように、映像に対するユーザの関心度を推定する。
 次に、以上のように構成された関心度推定装置100における各種動作について説明する。
 図2は、本発明の実施の形態における関心度推定装置の処理動作を示すフローチャートである。
 まず、顕著性情報取得部102は、映像中の顕著領域の位置を示す情報と、その顕著領域の時間変化パターンである顕著性変動に関する情報とを含む顕著性情報を取得する(S11)。
 視線検出部101は、ユーザの視線方向を検出する(S12)ここでは、視線検出部101は、検出された視線方向に基づいて注視座標系列を算出する。
 そして、ユーザ反応分析部103は、顕著性情報取得部102が取得した顕著性情報から特定される顕著領域と、視線検出部101が検出した視線方向との相関を算出する(S13)。
 そして、ユーザ反応分析部103は、顕著性変動と視線検出部101が検出した視線変化との相関を算出する(S14)。ユーザ反応分析部103は、算出された相関に基づいて、当該映像に対する関心度を推定する(S15)。具体的には、ユーザ反応分析部103は、算出された相関が高いほど関心度が高くなるように、ユーザの映像に対する関心度を推定する。
 なお、ステップS11の処理と、ステップS12およびS13の処理とは、並行して行われてもよい。また、ステップS11の処理と、ステップS12およびS13の処理とは逆順で行われてもよい。つまり、ステップS11の処理が、ステップS12およびS13の処理の後に行われてもよい。また、ステップS13の処理は行われなくてもよい。
 以上のように、関心度推定装置100は、画面に表示された映像に対するユーザの関心度を推定する。
 以下に、上記の関心度推定装置100の処理動作について、図面を用いてさらに詳細に説明する。
 <1、顕著性情報取得>
 まず、顕著性情報取得処理の詳細について説明する。ここでは、顕著性情報取得部102が、映像を解析することにより、顕著性情報を取得する場合について説明する。
 図3は、本発明の実施の形態における顕著構造の概念図である。
 顕著領域は、映像に含まれる各フレームにおいて視覚的注意を引きやすい領域である(図3の(a))。映像において、顕著領域の顕著度と位置とは、時間変化に伴って変化する。
 このような変化を伴う顕著領域の時空間ボリュームを、顕著フロー(Saliency Flow)と呼ぶ。そして、映像中に存在する複数の顕著フローをまとめて、映像の顕著構造(Saliency Structure)と呼ぶことにする(図3の(b))。
 顕著領域は、映像に含まれる各フレームに対して顕著性マップ(Saliency Map)を計算することによって得られる。顕著性マップは、非特許文献「Itti,L. and Koch,C.:Computational modeling of visual attention.Nature Reviews Neuroscience,2(3),pp.194-203.」に記載されている算出方法により取得できる。
 つまり、ここでは、顕著性情報取得部102は、画像の物理的な特徴に基づいて映像を解析することにより、顕著領域を特定する。画像の物理的な特徴とは、例えば、輝度、色あるいは明度などである。
 顕著領域の典型的な例として、移動するオブジェクトの領域をあげることができる。移動するオブジェクトは、人であるとよい。移動するオブジェクトは、動物であってもよい。
 また、顕著領域の他の例として、映像に付随した音声情報と関連の深いオブジェクトの領域をあげることもできる。ここでオブジェクトは、例えば、映像中の話者の顔または口である。さらに、顕著領域は、音声情報に対応するテキストが表示される領域であってもよい。
 顕著性情報取得部102は、こういった各フレームに含まれる顕著領域を、さらに時間方向の隣接関係に基づいてクラスタリングすることによって、顕著フローを得る。顕著フローは、時間変化する顕著領域の顕著度、重心位置、および面積を属性として持つ。
 そして、顕著性情報取得部102は、顕著フローを「位置が時間変化するダイナミックな状態」と「位置が時間変化しないスタティックな状態」とからなる状態系列に分節化する。
 顕著構造は、複数の顕著フローを持っている。顕著構造は、顕著領域の数および動きの少なくとも一方に基づいて、複数の顕著パターン(Saliency Pattern)に分類することができる。
 図4A~図4Eは、本発明の実施の形態における顕著パターンの種類を説明するための図である。図4A~図4Eの各グラフは、顕著領域の位置の時間変化を示す。各グラフにおいて、縦軸は画面上の位置を示し、横軸は時間を示す。
 ここでは、複数の顕著パターンには、単数静的パターン(ss:single-static)(図4A)と、単数動的パターン(sd:single-dynamic)(図4B)と、複数静的パターン(ms:multi-static)(図4C)と、複数静止動的パターン(msd:multi-static/dynamic)(図4D)と、複数動的パターン(md:multi-dynamic)(図4E)との5種類の顕著パターンが含まれる。
 顕著構造は、これらの顕著パターンからなる系列へと分節化する。なお、multi-static/dynamicでは、複数のフローのうちいくつかがdynamicな状態で、残りがstaticな状態となる。
 図5は、本発明の実施の形態における顕著パターンの時系列の一例を示す図である。具体的には、図5の(a)は、顕著領域の位置の時間推移を示すグラフである。ここでは、説明の便宜のため、顕著領域の位置は、1次元で表わされている。
 図5の(b)は、各顕著フローの状態の時間推移を示すグラフである。各棒グラフは、1つの顕著フローの状態を示す。具体的には、棒グラフの白抜き部分は、顕著フローが静的状態(static)であることを示す。また、棒グラフのハッチング部分は、顕著フローが動的状態(dynamic)であることを示す。
 図5の(c)は、顕著パターンの時間推移を示すグラフである。ここでは、はじめは、顕著パターンが複数静的パターン(ms)であり、次に複数動的パターン(md)に推移することが示されている。
 以上のように、顕著性情報取得部102は、映像を解析することにより顕著領域を特定する。したがって、顕著性情報が不明な映像が入力された場合であっても、その映像の顕著性情報を取得することができ、その映像に対する関心度を精度良く推定することが可能となる。
 そして、顕著性情報取得部102は、特定された顕著領域の数および動きに基づいて、顕著パターンを決定する。このように特定された顕著領域の位置を示す情報および顕著パターンを示す情報が顕著性情報に相当する。
 なお、顕著性情報取得部102は、必ずしも映像を解析する必要はない。例えば、顕著性情報取得部102は、映像を示す信号に付与されたタグから顕著性情報を取得してもよい。これにより、顕著性情報取得部102は、容易に顕著性情報を取得することができる。
 なおこの場合、タグには、例えば、あらかじめ映像を解析することにより得られた顕著領域に関する情報が含まれる必要がある。また、タグには、映像製作者があらかじめ入力した顕著領域に関する情報が含まれてもよい。
 <2、視線方向の検出>
 次に、視線方向を検出する視線方向検出処理(S12)の詳細について説明する。
 本実施の形態において、視線方向は、ユーザの顔の向き(以下、「顔向き」と記載)と、ユーザの顔向きに対する目の中の黒目部分の方向(以下、「黒目方向」と記載)との組み合わせを基に計算される。そこで、視線検出部101は、まず人物の3次元の顔向きを推定する。次に、視線検出部101は、黒目方向の推定を行う。最後に、視線検出部101は、顔向きおよび黒目方向の2つを統合して視線方向を計算する。
 なお、視線検出部101は、必ずしも、顔向きと黒目方向との組み合わせを基に視線方向を計算しなくてもよい。例えば、視線検出部101は、眼球中心と虹彩(黒目)中心とに基づいて視線方向を計算してもよい。つまり、視線検出部101は、眼球中心の3次元位置と虹彩(黒目)中心の3次元位置とを結ぶ3次元ベクトルを視線方向として計算してもよい。
 図6A~図6Cの各々は、本発明の実施の形態における視線方向検出処理において取得される画像を撮像する撮像装置(カメラ)の設置例を示す図である。図6A~図6Cに示すように、撮像装置は、表示装置が備える画面の前方に位置するユーザを撮像可能なように、画面の近傍に設置される。
 図7は、本発明の実施の形態における視線方向検出処理の流れを示すフローチャートである。
 まず、視線検出部101は、撮像装置が画面の前方に存在するユーザを撮像した画像を取得する(S501)。続いて、視線検出部101は、取得された画像から顔領域の検出を行う(S502)。次に、視線検出部101は、検出された顔領域に対し、各基準顔向きに対応した顔部品特徴点の領域を当てはめ、各顔部品特徴点の領域画像を切り出す(S503)。
 そして、視線検出部101は、切り出された領域画像と、あらかじめ保持されたテンプレート画像の相関度を計算する(S504)。続いて、視線検出部101は、各基準顔向きが示す角度を、計算された相関度の比に応じて重み付けして加算した重み付け和を求め、これを検出した顔領域に対応するユーザの顔向きとして検出する(S505)。
 図8は、本発明の実施の形態における視線方向検出処理において顔向きを検出する処理を説明するための図である。
 視線検出部101は、図8の(a)に示すように、各基準顔向きに対応した顔部品特徴点の領域を記憶している顔部品領域データベース(DB)から、顔部品特徴点の領域を読み出す。続いて、視線検出部101は、図8の(b)に示すように、撮影された画像の顔領域に対し顔部品特徴点の領域を基準顔向きごとに当てはめ、顔部品特徴点の領域画像を基準顔向きごとに切り出す。
 そして、視線検出部101は、図8の(c)に示すように、切り出された領域画像と、顔部品領域テンプレートDBに保持されたテンプレート画像との相関度を基準顔向きごとに計算する。また、視線検出部101は、このように計算された相関度が示す相関度合いの高さに応じて、基準顔向きごとの重みを算出する。例えば、視線検出部101は、基準顔向きの相関度の総和に対する各基準顔向きの相関度の比を重みとして算出する。
 続いて、視線検出部101は、図8の(d)に示すように、基準顔向きが示す角度に、算出された重みを乗算した値の総和を計算し、計算結果をユーザの顔向きとして検出する。
 図8の(d)の例では、基準顔向き+20度に対する重みが「0.85」、正面向きに対する重みが「0.14」、-20度に対する重みが「0.01」であるので、視線検出部101は、顔向きを16.8度(=20×0.85+0×0.14+(-20)×0.01)と検出する。
 なお、図8では、視線検出部101は、顔部品特徴点の領域画像を対象として相関度を計算したが、これには限らない。例えば、視線検出部101は、顔領域全体の画像を対象として相関度を計算してもよい。
 また、顔向きを検出するその他の方法としては、顔画像から目・鼻・口などの顔部品特徴点を検出し、顔部品特徴点の位置関係から顔向きを計算する方法がある。
 顔部品特徴点の位置関係から顔向きを計算する方法としては、1つのカメラから得られた顔部品特徴点に最も一致するように、あらかじめ用意した顔部品特徴点の3次元モデルを回転・拡大縮小してマッチングし、得られた3次元モデルの回転量から顔向きを計算する方法がある。
 また、顔部品特徴点の位置関係から顔向きを計算する他の方法としては、2台のカメラにより撮影された画像を基にステレオ視の原理を用いて、左右のカメラにおける顔部品特徴点位置の画像上のずれから各顔部品特徴点の3次元位置を計算し、得られた顔部品特徴点の位置関係から顔向きを計算する方法がある。具体的には、例えば、両目および口の3次元座標点で張られる平面の法線方向を顔向きとして検出する方法などがある。
 図7のフローチャートの説明に戻る。
 視線検出部101は、撮像装置によって撮像されたステレオ画像を用いて、ユーザの左右の目頭の3次元位置を検出し、検出した左右の目頭の3次元位置を用いて視線方向基準面を算出する(S506)。続いて、視線検出部101は、撮像装置によって撮像されたステレオ画像を用いて、ユーザの左右の黒目中心の3次元位置を検出する(S507)。そして、視線検出部101は、視線方向基準面と左右の黒目中心の3次元位置とを用いて、黒目方向を検出する(S508)。
 そして、視線検出部101は、検出されたユーザの顔向きと黒目方向とを用いて、ユーザの視線方向を検出する(S509)。
 次に、黒目方向を検出する方法の詳細について、図9~図11を用いて説明する。
 本実施の形態では、視線検出部101は、まず、視線方向基準面を算出する。続いて、視線検出部101は、黒目中心の3次元位置を検出する。そして最後に、視線検出部101は、黒目方向を検出する。
 まず、視線方向基準面の算出について説明する。
 図9は、本発明の実施の形態における視線方向基準面の算出について説明するための図である。
 視線方向基準面とは、黒目方向を検出する際に基準となる面のことであり、図9に示すように顔の左右対称面と同一である。なお、目頭の位置は、目尻、口角、または眉など他の顔部品に比べて、表情による変動が少なく、また誤検出が少ない。そこで、視線検出部101は、顔の左右対称面である視線方向基準面を目頭の3次元位置を用いて算出する。
 具体的には、視線検出部101は、撮像装置であるステレオカメラで撮像した2枚の画像(ステレオ画像)のそれぞれにおいて、顔検出モジュールと顔部品検出モジュールとを用いて、左右の目頭領域を検出する。そして、視線検出部101は、検出した目頭領域の画像間の位置のずれ(視差)を利用して、左右の目頭それぞれの3次元位置を計測する。さらに、視線検出部101は、図9に示すように、検出した左右の目頭の3次元位置を端点とする線分の垂直二等分面を視線方向基準面として算出する。
 次に、黒目中心の検出に関して説明する。
 図10および図11は、本発明の実施の形態における黒目中心の検出について説明するための図である。
 対象物からの光が瞳孔を通って網膜に届き電気信号に変換され、その電気信号が脳に伝達されることにより、人は対象物を視覚的に認識する。したがって、瞳孔の位置を用いれば、視線方向を検出することができる。しかし、日本人の虹彩は、黒または茶色であるので、画像処理によって瞳孔と虹彩とを判別することが難しい。そこで、本実施の形態では、瞳孔の中心と黒目(瞳孔および虹彩の両方を含む)の中心とがほぼ一致することから、視線検出部101は、黒目方向を検出する際に、黒目中心の検出を行う。
 視線検出部101は、まず、撮影された画像から目尻と目頭との位置を検出する。そして、視線検出部101は、図10のような、目尻と目頭とを含む領域から輝度が小さい領域を、黒目領域として検出する。具体的には、視線検出部101は、例えば、輝度が所定閾値以下なる領域であって、所定の大きさよりも大きい領域を黒目領域として検出する。
 次に、視線検出部101は、図11のような、第1領域と第2領域とからなる黒目検出フィルタを黒目領域の任意の位置に設定する。そして、視線検出部101は、第1領域内の画素の輝度と第2領域内の画素の輝度との領域間分散が最大となるような黒目検出フィルタの位置を探索し、探索結果が示す位置を黒目中心として検出する。最後に、視線検出部101は、上記と同様に、ステレオ画像における黒目中心の位置のずれを利用して、黒目中心の3次元位置を検出する。
 さらに、黒目方向の検出について説明する。
 視線検出部101は、算出した視線方向基準面と、検出した黒目中心の3次元位置とを用いて、黒目方向を検出する。成人の眼球直径は、ほとんど個人差がないことが知られており、例えば日本人の場合約24mmである。したがって、基準となる方向(例えば正面)を向いたときの黒目中心の位置が分かっていれば、そこから現在の黒目中心の位置までの変位を求めることで黒目方向に変換算出することができる。
 ユーザが正面を向いたときは、左右の黒目中心の中点が顔の中心、すなわち視線方向基準面上に存在することを利用して、視線検出部101は、左右の黒目中心の中点と視線方向基準面との距離を算出することにより、黒目方向を検出する。
 具体的には、視線検出部101は、眼球半径Rと左右の黒目中心を結んだ線分の中点と視線方向基準面との距離dとを用いて、式(1)に示すように、顔向きに対する左右方向の回転角θを黒目方向として検出する。
Figure JPOXMLDOC01-appb-M000001
 以上のように、視線検出部101は、視線方向基準面と黒目中心の3次元位置とを用いて、黒目方向を検出する。そして、視線検出部101は、検出された顔向きと黒目方向とを用いて、実空間におけるユーザの視線方向を検出する。
 なお、視線方向の検出方法は、角膜反射法、EOG(Electrooculography)法、サーチコイル法および強膜反射法など多種多様な方法がある。したがって、視線検出部101は、必ずしも上述した方法によって視線方向を検出する必要はない。例えば、視線検出部101は、角膜反射法を用いて、視線方向を検出してもよい。
 角膜反射法は、点光源照明を角膜に照射した際に明るく現れる角膜反射像(プルキニエ像)の位置をもとに、眼球運動を計測する手法である。眼球回転中心と角膜の凸面の中心とが一致しないため、角膜を凸面鏡とし光源の反射点を凸レンズなどで集光すると、この集光点は眼球の回転にともなって移動する。この点を撮像装置で撮影することで、眼球運動を計測するものである。
 <3、視線運動の検出と分類>
 次に、上記のようにして検出された視線データ(注視座標系列)から視線運動を検出し、分類する方法について説明する。
 ところで、映像に対する「関心」は、映像に対して「注意を向ける」という意味で定義できる。注意は処理資源として定義される。あるタスクに対して要求される処理資源量は、その難易度に応じて異なる。「注意を向ける」ことは、タスクに対する処理資源の割り当てとして表現できる。
 すなわち、映像に対して「注意を向ける」という現象は、映像視聴タスクに対する処理資源の割り当てとして考えることができる。このことは、カーネマン(Kahneman)の「注意の容量モデル」として知られている。また、処理資源という概念を用いて関心度というパラメータを説明すると、関心度とは映像視聴タスクに対して割り当てられる処理資源の多寡である。
 一方、人間が行う情報処理は、意識的な制御処理と無意識的な自動処理とに分類できる。制御処理は、人間が意識的に行う処理であり、駆動にあたっては処理資源を必要とする。映像視聴タスクにおいて制御処理として行われる視線運動を内因性視線運動と呼ぶ。また、自動処理として行われる視線運動を外因性視線運動と呼ぶ。
 ここで、関心度が視線運動に及ぼす影響を以下のようにモデル化する。
 まず、ユーザの意図などの心理的要因や疲労などの生理的要因に基づいて、ユーザの関心度に応じた処理資源が映像視聴タスクに割り当てられる。この処理資源に応じて制御処理が駆動され、内因性視線運動が発生する。一方で、映像(顕著フロー)が持つ視覚刺激によって、自動処理として外因性視線運動が発生する。ただし、既に内因性視線運動が発生している場合には、この外因性視線運動は抑制されうる。このようにして発生した視線運動が、実際の表示装置上での注視座標系列として物理的に観測されることになる。ユーザ反応分析部103は、この「処理資源消費-視線運動駆動」の逆問題として、物理的に観測された視線運動から、映像視聴タスクに割り当てられた処理資源量を見積り、映像に対する関心度を推定する。
 図12は、本発明の実施の形態における視線運動とその構成要素とを説明するための図である。
 人間は、映像視聴において、対象が持つ視覚情報の獲得と対象の切り替えとを繰り返し行う。対象(顕著フロー)が持つ状態や視線運動が引き起こされる要因を考慮し、ここでは、映像視聴時の視線運動として、以下の4種類の視線運動に分類する。
 1種類目の視線運動は、動く対象からの情報獲得運動(PA:Pursuing Acquisition)である。2種類目の視線運動は、静止対象からの情報獲得運動(FA:Fixation Acquisition)である。3種類目の視線運動は、意図的な対象切り替え運動(NC:eNdogenous Change)である。4種類目の視線運動は、外因的な対象切り替え運動(XC:eXogenous Change)である。
 一般的に、人間は、情報の獲得を、ある点の注視および注視点の移動の組み合わせによって実現している。すなわち映像視聴時における視線運動は、内部にダイナミクスを持っており、図12に示すように単純な視線運動(構成要素)の組み合わせによって構成される。ここでは、以下の4つの単純な視線運動を構成要素として、映像視聴時の視線運動を表現する。
 1つ目の構成要素は、滑動性眼球運動(P:Pursuit)である。滑動性眼球運動とは、眼球が、動いている対象の動きに追従してゆっくり動く運動である。
 2つ目の構成要素は、固視運動(F:Fixation)である。固視運動とは、静止対象をじっと見続けるために、眼球が動かないことを示す。
 3つ目の構成要素は、内因性サッケード(NS:eNdogenous Saccade)である。サッケードとは、解像度が低い周辺網膜に映った対象を、解像度が高い網膜中心窩で捉えるために行われるすばやい眼球運動である。そして、内因性サッケードとは、サッケードのうちの意識的なサッケードである。
 4つ目の構成要素は、外因性サッケード(XS:eXogenous Saccade)である。外因性サッケードとは、サッケードのうちの無意識的なサッケードである。
 ここで、視線検出部101は、関心度推定の前段階として、注視座標系列から上述の視線運動を検出する。すなわち、視線検出部101は、注視座標系列を単独の視線運動が発生しうる時区間へと分節化する。具体的には、視線検出部101は、注視座標系列を注視対象のフローに基づいて分節化し、対応するフローの状態がstaticかdynamicのいずれであるかに基づいてさらに分節化する。そして、視線検出部101は、高い相関を示す顕著フロー群を単一の対象と扱うために、相関が高い2フロー間の注視移動が起こっている時区間を併合する。
 <4、顕著性変動と注視反応との相関分析(関心度推定)>
 次に、顕著性変動と注視反応の相関分析による関心度推定の詳細について説明する。
 図13は、本発明の実施の形態における顕著性変動と注視反応との関係を説明するための図である。具体的には、図13の(a)は、関心度が高い場合の各フレームにおける時間的なずれと、関心度が低い場合の各フレームにおける時間的なずれとを示す。また、図13の(b)は、関心度が高い場合の各フレームにおける空間的なずれと、関心度が低い場合の各フレームにおける空間的なずれとを示す。
 映像に対する関心度が高い場合には、そのフレームにおいて顕著性変動とそれに対応して生じると期待される視線運動の時間的なずれおよび空間的なずれは小さくなる。一方で、映像に対する関心度が低い場合には、そのフレームにおいて顕著性変動と注視反応との時間的なずれおよび空間的なずれは大きくなる。
 つまり、これらの時間的なずれおよび空間的なずれは、顕著領域と視線方向との相関の低さを示す。そこで、本実施の形態では、ユーザ反応分析部103は、これらの時間的なずれおよび空間的なずれの少なくとも一方を表す値を、顕著領域と視線方向との相関の低さを表す値として算出する。
 この時間的なずれの一例としては、顕著領域の出現タイミングと、その顕著領域に対する視線のサッケードの発生タイミングとの時間差がある。また、時間的なずれの他の一例としては、顕著領域が所定の速度以上で画面上を移動するタイミングと、その顕著領域に対する視線のサッケードの発生タイミングとの時間差がある。また、時間的なずれおよび空間的なずれの一例としては、顕著領域の画面上の移動速度と、視線方向から特定される画面上の注視位置の移動速度との速度差がある。
 なお、視線運動がサッケードであるか否かは、例えば、視線方向の変化度を示す値が閾値を超えるか否かにより判定することができる。具体的には、注視位置が所定速度以上で移動したタイミングが、サッケードの発生タイミングとして検出されればよい。
 このような特性に注目し、下記のように映像に対する関心度を推定する。
 図14は、本発明の実施の形態における複数の顕著パターンの各々に対応付けられた評価基準を示す図である。
 図14に示すように、複数の顕著パターンの各々には、相関の高さを評価するための少なくとも1つの評価基準があらかじめ対応付けられている。このような顕著パターンと評価基準との対応関係を示す情報は、例えば、図示されていない記憶部(メモリ)に保持されればよい。この場合、記憶部は、例えば、関心度推定装置100に備えられる。また、記憶部は、関心度推定装置100と接続された外部デバイスに備えられてもよい。
 ユーザ反応分析部103は、図14に示すような情報を参照することにより、取得された顕著性情報から特定される顕著パターンに対応する評価基準に従って相関を算出する。
 以下に、評価基準について具体的に説明する。
 図15A~図15Eは、本発明の実施の形態における顕著パターンに対応付けられた評価基準を説明するための図である。
 図14および図15Aに示すように、映像に対するユーザの関心度が高い場合には、single-staticでは、FAが視線運動として観測されることが期待される。また、図14および図15Bに示すように、映像に対するユーザの関心度が高い場合には、single-dynamicでは、PAが視線運動として観測されることが期待される。また、図14および図15Cに示すように、映像に対するユーザの関心度が高い場合には、multi-staticでは、FAおよびNSが視線運動として観測されることが期待される。また、図14および図15Dに示すように、映像に対するユーザの関心度が高い場合には、multi-static/dynamicでは、FA、PA、およびNSが視線運動として観測されることが期待される。また、図14および図15Eに示すように、映像に対するユーザの関心度が高い場合には、multi-dynamicでは、PAおよびNSが視線運動として観測されることが期待される。
 そこで、図14に示すように、single-staticには、サッケード数と、サッケードのストローク長と、対象フロー面積とが、評価基準として対応付けられている。
 ここで、サッケード数とは、顕著パターンがsingle-staticのときに検出されるサッケードの発生回数である。サッケードは、例えば、視線方向の変化率を示す値を閾値と比較することにより検出される。具体的には例えば、画面上の顕著領域内において注視位置が所定速度以上で移動した回数が、サッケード数として検出される。
 また、サッケードのストローク長とは、サッケードによる視線方向の変化量を示す値である。具体的には、サッケードのストローク長は、例えば、サッケードによる画面上の注視位置の移動量に相当する。
 対象フロー面積は、顕著領域の面積に相当する。顕著フローを構成する顕著領域の面積が変化している場合には、対象フロー面積は、例えば、顕著領域の面積の平均値が用いられる。また、対象フロー面積は、顕著領域の面積の中央値、最大値、あるいは最小値などであってもよい。
 single-dynamicには、対象フローおよび視線運動の速度差と、対象の運動速度とが評価基準として対応付けられている。
 対象フローおよび視線運動の速度差とは、顕著領域の移動速度と注視位置の移動速度との速度差に相当する。ここで移動速度とは、移動ベクトルの大きさおよび方向を意味する。また、対象の運動速度とは、顕著領域の移動速度に相当する。
 multi-staticには、single-staticに対応付けられた評価基準と、NSの発生頻度とが、評価基準として対応付けられている。
 NSの発生頻度とは、複数の顕著領域間におけるサッケードの発生回数に相当する。つまり、NSの発生頻度とは、ある一の顕著領域から他の一の顕著領域に注視位置を移動させるサッケードの発生回数に相当する。
 multi-static/dynamicには、single-staticに対応付けられた評価基準と、single-dynamicに対応付けられた評価基準と、NSの発生頻度と、PAおよびFAの比率とが、評価基準として対応付けられている。
 multi-dynamicには、single-dynamicに対応付けられた評価基準と、NSの発生頻度とが評価基準として対応付けられている。
 そして、ユーザ反応分析部103は、顕著パターンに対応付けられたこれらの評価基準に従って、評価値(ベクトル)Eを算出する。この評価値Eは、顕著領域と視線方向との相関に相当し、相関の高さを定量的に示す値である。
 FAでは、ユーザが対象をどれだけ積極的にスキャンしていたかの指標として、1)対象の内部でどれだけサッケードが起こっていたか、2)どの程度の大きさのサッケードが発生したかが評価される。
 つまり、顕著パターンが、静的パターン(single-static、multi-static、またはmulti-static/dynamic)である場合に、ユーザ反応分析部103は、顕著領域内におけるサッケードの発生回数が多いほど相関が高くなるように相関を算出する。
 これにより、ユーザ反応分析部103は、顕著パターンが静的パターンの場合に、顕著領域内のサッケードの発生回数に基づいて相関を算出することができる。顕著領域内におけるサッケードは、顕著領域から情報を獲得するための視線運動である。したがって、ユーザ反応分析部103は、この顕著領域内におけるサッケードの発生回数が多いほど相関が高くなるように、顕著領域と視線方向との相関を算出することにより、より精度良く関心度を推定することが可能となる。
 さらに、顕著パターンが、静的パターンである場合に、ユーザ反応分析部103は、顕著領域内におけるサッケードによる視線方向の変化量(サッケードのストローク長)が大きいほど相関が高くなるように、顕著領域と視線方向との相関を算出する。この場合、ユーザ反応分析部103は、顕著領域の大きさ(例えば面積など)を用いて、視線方向の変化量を正規化することが好ましい。
 これにより、顕著領域内の広い領域から情報を獲得するための視線運動が行われている場合に算出される相関が高くなる。したがって、関心度推定装置100は、より精度良く関心度を推定することが可能となる。
 PAでは、ユーザが対象にどれだけ同期して追従できていたかの指標として、3)対象フローと視線運動との速度差が評価される。つまり、顕著パターンが、動的パターン(single-dynamic、multi-dynamic、またはmulti-static/dynamic)である場合に、ユーザ反応分析部103は、顕著領域の画面上の移動速度と、視線方向から特定される画面上の注視位置の移動速度との速度差が小さいほど相関が高くなるように相関を算出する。この場合、ユーザ反応分析部103は、顕著領域の移動速度を用いて、速度差を正規化することが好ましい。
 これにより、顕著領域の動きに追随して顕著領域から情報を獲得するための視線運動が行われている場合に算出される相関が高くなる。したがって、関心度推定装置100は、より精度良く関心度を推定することが可能となる。
 複数のフローが存在する顕著パターンに対しては、NSの発生頻度が評価基準に加えられる。つまり、顕著パターンが複数パターン(multi-static、multi-dynamic、またはmulti-static/dynamic)である場合に、ユーザ反応分析部103は、ある一の顕著領域から他の一の顕著領域に注視位置を移動させるサッケードの発生回数が多いほど相関が高くなるように相関を算出する。この場合、ユーザ反応分析部103は、顕著領域の数を用いて、サッケードの発生回数を正規化することが好ましい。
 これにより、より多くの顕著領域から情報を獲得するための視線運動が行われている場合に算出される相関が高くなる。したがって、関心度推定装置100は、より精度良く関心度を推定することが可能となる。
 各顕著パターンに対する評価値Eの、高関心度時(H)における分布と低関心度時(L)における分布とは、あらかじめ学習される。この学習結果を用いて、ユーザ反応分析部103は、新たに獲得された評価値E*の後に高関心度時および低関心度時となる確率を、事後確率P(H|E*)およびP(L|E*)として算出することができる。ユーザ反応分析部103は、このように算出された事後確率P(H|E*)およびP(L|E*)を比較することで、映像に対する関心度を推定する。
 以上のように、本実施の形態に係る関心度推定装置によれば、映像からユーザの視覚的注意を引きやすい顕著領域と、その時間変化パターンである顕著性変動に関する情報を取得し、顕著性変動と注視反応の相関に基づき、映像に対する関心度を推定することにより、画面に映像が表示されている際に、その映像への関心度を精度良く推定することができる。
 つまり、本実施の形態に係る関心度推定装置によれば、映像内の顕著領域とユーザの視線方向との相関に基づいて、映像に対するユーザの関心度を推定することができる。つまり、映像の特性を考慮して関心度を推定できるので、単に視線方向に基づいて関心度を推定する場合よりも、精度良く関心度を推定することが可能となる。特に、映像に対する関心度が高い場合に顕著領域と視線方向との相関が高くなることを利用することができるので、より高精度に関心度を推定することができる。
 また、本実施の形態に係る関心度推定装置によれば、ユーザの皮膚電位などを測定しなくても、映像に対するユーザの関心度を推定することができる。したがって、簡易に関心度を推定することができるとともに、ユーザの負担が増大することを抑制することもできる。
 また、本実施の形態に係る関心度推定装置によれば、顕著パターンに適した評価基準に従って、顕著領域と視線方向との相関を算出することができる。したがって、より精度良く関心度を推定することが可能となる。
 なお、上記実施の形態において、映像に対する「関心」とは、映像に対して「注意を向ける」という意味で定義しているが、本発明における「関心」は「集中」という用語で置き換えることができる。すなわち、本発明は、映像に対するユーザの集中度を推定する発明ということもできる。
 また、上記実施の形態において、関心度推定装置100は、関心度を推定していたが、「推定」という用語は、「算出」と置き換えることもできる。つまり、関心度を推定する関心度推定装置は、関心度を算出する関心度算出装置と置き換えられても構わない。
 なお、上記関心度推定装置100により推定された関心度は、例えば、ユーザに提示すべき情報を適切に表示するために利用される。例えば、関心度が低い場合に、表示装置は、ユーザに提示すべき情報を画面の中央部に表示する。これにより、表示装置は、ユーザが表示された情報を見逃すことを抑制することができる。一方、関心度が高い場合には、表示装置は、ユーザに提示すべき情報を、画面の端部に表示する、または表示しない。これにより、表示装置は、ユーザに不快感を与えることを抑制することができる。
 また、上記関心度推定装置100により推定された関心度に基づいて表示装置の輝度が調整されてもよい。例えば、関心度が低い場合に、関心度が高い場合よりも輝度が低くなるように、表示装置の輝度が表示されてもよい。この場合、表示装置の消費電力を低減することができ、省エネルギー化に貢献することができる。
 以上、本発明の一態様に係る関心度推定装置について、実施の形態およびその変形例に基づいて説明したが、本発明は、これらの実施の形態またはその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態またはその変形例に施したもの、あるいは異なる実施の形態またはその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 例えば、上記実施の形態において、ユーザ反応分析部103は、顕著パターンを利用して顕著領域と視線方向との相関を算出していたが、必ずしも顕著パターンが利用される必要はない。例えば、ユーザ反応分析部103は、顕著パターンに関係なく、顕著領域内におけるサッケードの発生回数に基づいて、顕著領域と視線方向との相関を算出してもよい。この場合であっても、関心度推定装置100は、映像の特性を考慮して関心度を推定できるので、単に視線方向に基づいて関心度を推定する場合よりも、精度良く関心度を推定することが可能となる。
 また、上記実施の形態において、複数の顕著パターンは、顕著領域の数および動きの両方に基づいて分類されていたが、顕著領域の数および動きの一方だけに基づいて分類されても構わない。つまり、複数の顕著パターンは、顕著領域の数および動きのうちの少なくとも一方に基づいて分類されればよい。
 さらに、本発明は、以下のように変形することもできる。
 (1)上記の関心度推定装置は、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Randam Access Memory)、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ROMまたは前記ハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記RAMに展開された前記コンピュータプログラムに従って動作することにより、関心度推定装置は、その機能を達成する。ここで、コンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。なお、関心度推定装置は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどの全てを含むコンピュータシステムに限らず、これらの一部から構成されているコンピュータシステムであってもよい。
 (2)上記の関心度推定装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記RAMに展開された前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 (3)上記の関心度推定装置を構成する構成要素の一部または全部は、関心度推定装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAM、などから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)本発明は、上記に示す関心度推定装置が備える特徴的な構成部の動作をステップとする方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD―ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc(登録商標))、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラムまたは前記デジタル信号であるとしてもよい。
 また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
 また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムに従って動作するとしてもよい。
 また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 (5)上記実施の形態および上記変形例をそれぞれ組み合わせるとしてもよい。
 本発明は、表示された映像に対するユーザの関心度を推定する関心度推定装置として有用であり、例えば、ユーザインタフェース装置あるいは映像表示装置に適用することができる。
 100 関心度推定装置
 101 視線検出部
 102 顕著性情報取得部
 103 ユーザ反応分析部

Claims (20)

  1.  画面に表示された映像に対するユーザの関心度を推定する関心度推定装置であって、
     前記ユーザの視線方向を検出する視線検出部と、
     前記映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得部と、
     取得された前記顕著性情報から特定される顕著領域と検出された前記視線方向との相関を算出し、算出された前記相関が高いほど関心度が高くなるように、前記映像に対する前記ユーザの関心度を推定するユーザ反応分析部とを備える
     関心度推定装置。
  2.  顕著領域の数および動きのうちの少なくとも一方に基づいて分類される複数の顕著パターンの各々には、相関の高さを評価するための少なくとも1つの評価基準があらかじめ対応付けられており、
     前記ユーザ反応分析部は、前記顕著性情報から特定される顕著パターンに対応する評価基準に従って前記相関を算出する
     請求項1に記載の関心度推定装置。
  3.  前記複数の顕著パターンは、顕著領域の位置が変化しない状態であることを示す静的パターンを含み、
     前記静的パターンには、顕著領域内におけるサッケードの発生回数が前記少なくとも1つの評価基準として対応付けられており、
     前記ユーザ反応分析部は、前記顕著性情報から特定される顕著パターンが静的パターンである場合に、検出された前記視線方向から特定される、前記顕著領域内におけるサッケードの発生回数が多いほど前記相関が高くなるように、前記相関を算出する
     請求項2に記載の関心度推定装置。
  4.  前記顕著性情報取得部は、前記映像を示す信号に付与されたタグから前記顕著性情報を取得する
     請求項1~3のいずれか1項に記載の関心度推定装置。
  5.  前記顕著性情報取得部は、画像の物理的な特徴に基づいて前記映像を解析することにより前記顕著性情報を取得する
     請求項1~3のいずれか1項に記載の関心度推定装置。
  6.  前記顕著領域は、前記映像に付随した音声情報に関連するオブジェクトの領域である
     請求項1~5のいずれか1項に記載の関心度推定装置。
  7.  前記オブジェクトは、話者の顔または口である
     請求項6に記載の関心度推定装置。
  8.  前記顕著領域は、前記音声情報に対応するテキストが表示される領域である
     請求項6に記載の関心度推定装置。
  9.  前記顕著領域は、移動するオブジェクトの領域である
     請求項1~8のいずれか1項に記載の関心度推定装置。
  10.  前記オブジェクトは、人である
     請求項9に記載の関心度推定装置。
  11.  前記オブジェクトは、動物である
     請求項9に記載の関心度推定装置。
  12.  前記相関は、時間的な同期度である
     請求項1~11のいずれか1項に記載の関心度推定装置。
  13.  前記相関は、空間的な類似度である
     請求項1~12のいずれか1項に記載の関心度推定装置。
  14.  前記ユーザ反応分析部は、前記顕著領域の出現タイミングと、前記顕著領域に対する視線のサッケードの発生タイミングとの時間差を、前記相関の低さを表す値として算出し、
     前記ユーザ反応分析部は、前記時間差が小さいほど関心度が高くなるように、前記関心度を推定する
     請求項1~13のいずれか1項に記載の関心度推定装置。
  15.  前記ユーザ反応分析部は、
     前記顕著領域が所定の速度以上で前記画面上を移動するタイミングと、前記顕著領域に対する視線のサッケードの発生タイミングとの時間差を、前記相関の低さを表す値として算出し、
     前記時間差が小さいほど関心度が高くなるように、前記関心度を推定する
     請求項1~14のいずれか1項に記載の関心度推定装置。
  16.  前記ユーザ反応分析部は、前記顕著領域の前記画面上の移動速度と、前記視線方向から特定される前記画面上の注視位置の移動速度との速度差を、前記相関の低さを表す値として算出し、
     前記ユーザ反応分析部は、前記速度差が小さいほど関心度が高くなるように、前記関心度を推定する
     請求項1~15のいずれか1項に記載の関心度推定装置。
  17.  前記ユーザ反応分析部は、前記映像内の顕著領域の数、各顕著領域の面積、および視線のサッケードの発生回数に基づいて、前記相関を算出する
     請求項1~16のいずれか1項に記載の関心度推定装置。
  18.  前記関心度推定装置は、集積回路として構成されている
     請求項1~17のいずれか1項に記載の関心度推定装置。
  19.  画面に表示された映像に対するユーザの関心度を推定する関心度推定方法であって、
     前記ユーザの視線方向を検出する視線検出ステップと、
     前記映像中の誘目性が顕著な領域である顕著領域に関する顕著性情報を取得する顕著性情報取得ステップと、
     取得された前記顕著性情報から特定される顕著領域と検出された前記視線方向との相関を算出する相関算出ステップと、
     算出された前記相関が高いほど関心度が高くなるように、前記映像に対する前記ユーザの関心度を推定する関心度推定ステップとを含む
     関心度推定方法。
  20.  請求項19に記載の関心度推定方法をコンピュータに実行させるためのプログラム。
PCT/JP2012/000508 2011-02-04 2012-01-26 関心度推定装置および関心度推定方法 WO2012105196A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/701,540 US9538219B2 (en) 2011-02-04 2012-01-26 Degree of interest estimating device and degree of interest estimating method
JP2012535534A JP5841538B2 (ja) 2011-02-04 2012-01-26 関心度推定装置および関心度推定方法
CN201280001532.6A CN102934458B (zh) 2011-02-04 2012-01-26 兴趣度估计装置以及兴趣度估计方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-023271 2011-02-04
JP2011023271 2011-02-04

Publications (1)

Publication Number Publication Date
WO2012105196A1 true WO2012105196A1 (ja) 2012-08-09

Family

ID=46602422

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/000508 WO2012105196A1 (ja) 2011-02-04 2012-01-26 関心度推定装置および関心度推定方法

Country Status (4)

Country Link
US (1) US9538219B2 (ja)
JP (1) JP5841538B2 (ja)
CN (1) CN102934458B (ja)
WO (1) WO2012105196A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071664A (ja) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd 画像処理装置及び画像処理方法
JPWO2012105196A1 (ja) * 2011-02-04 2014-07-03 パナソニック株式会社 関心度推定装置および関心度推定方法
JP2014183380A (ja) * 2013-03-18 2014-09-29 Nintendo Co Ltd 情報処理プログラム、情報処理装置、情報処理システム、パノラマ動画表示方法、および、制御データのデータ構造
JP2017028402A (ja) * 2015-07-17 2017-02-02 日本放送協会 映像評価装置、及びプログラム
JP2017140107A (ja) * 2016-02-08 2017-08-17 Kddi株式会社 集中度の推定装置
JP6420876B1 (ja) * 2017-07-26 2018-11-07 楽天株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
DE102019128839A1 (de) 2018-10-29 2020-04-30 Aisin Seiki Kabushiki Kaisha Gerät zur Bestimmung des visuellen Bestätigungsziels
US10642353B2 (en) 2017-07-19 2020-05-05 Fujitsu Limited Non-transitory computer-readable storage medium, information processing apparatus, and information processing method
CN111316313A (zh) * 2017-11-06 2020-06-19 松下知识产权经营株式会社 整理辅助系统、整理辅助方法以及程序
US10803506B2 (en) 2016-06-15 2020-10-13 Sk Planet Co., Ltd. Interest information analysis method using scroll pattern and apparatus using the same
WO2021095278A1 (ja) * 2019-11-14 2021-05-20 株式会社スワローインキュベート 画像処理方法、画像処理装置、及び画像処理プログラム
WO2021157530A1 (ja) * 2020-02-03 2021-08-12 マルコムホールディングス株式会社 対話ユーザの感情情報の提供装置
JP7481398B2 (ja) 2022-07-04 2024-05-10 ソフトバンク株式会社 判定装置、プログラム、及び判定方法

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9190110B2 (en) 2009-05-12 2015-11-17 JBF Interlude 2009 LTD System and method for assembling a recorded composition
US11232458B2 (en) 2010-02-17 2022-01-25 JBF Interlude 2009 LTD System and method for data mining within interactive multimedia
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
US11558672B1 (en) * 2012-11-19 2023-01-17 Cox Communications, Inc. System for providing new content related to content currently being accessed
KR101354248B1 (ko) * 2012-12-14 2014-01-23 현대자동차주식회사 광고제품 정보 제공 시스템 및 방법
CA2902983A1 (en) * 2013-03-06 2014-09-12 Arthur J. Zito, Jr. Multi-media presentation system
US9881058B1 (en) 2013-03-14 2018-01-30 Google Inc. Methods, systems, and media for displaying information related to displayed content upon detection of user attention
EP2972678A4 (en) * 2013-03-15 2016-11-02 Interaxon Inc CLOTHING COMPUTER APPARATUS AND ASSOCIATED METHOD
WO2015013685A1 (en) 2013-07-25 2015-01-29 Convida Wireless, Llc End-to-end m2m service layer sessions
CN103455580A (zh) * 2013-08-26 2013-12-18 华为技术有限公司 一种推荐信息的方法和装置
US20160210276A1 (en) * 2013-10-24 2016-07-21 Sony Corporation Information processing device, information processing method, and program
US10165176B2 (en) * 2013-10-31 2018-12-25 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems
US9958939B2 (en) * 2013-10-31 2018-05-01 Sync-Think, Inc. System and method for dynamic content delivery based on gaze analytics
US9653115B2 (en) 2014-04-10 2017-05-16 JBF Interlude 2009 LTD Systems and methods for creating linear video from branched video
US9736503B1 (en) * 2014-09-12 2017-08-15 Google Inc. Optimizing timing of display of a mid-roll video advertisement based on viewer retention data
US9792957B2 (en) 2014-10-08 2017-10-17 JBF Interlude 2009 LTD Systems and methods for dynamic video bookmarking
US11412276B2 (en) 2014-10-10 2022-08-09 JBF Interlude 2009 LTD Systems and methods for parallel track transitions
WO2016118848A1 (en) * 2015-01-22 2016-07-28 Clearstream. Tv, Inc. Video advertising system
JP2016191845A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN104834896A (zh) * 2015-04-03 2015-08-12 惠州Tcl移动通信有限公司 一种信息采集方法及其终端
US9916861B2 (en) 2015-06-17 2018-03-13 International Business Machines Corporation Editing media on a mobile device before transmission
US10460765B2 (en) 2015-08-26 2019-10-29 JBF Interlude 2009 LTD Systems and methods for adaptive and responsive video
US11336928B1 (en) * 2015-09-24 2022-05-17 Amazon Technologies, Inc. Predictive caching of identical starting sequences in content
KR102147230B1 (ko) 2015-12-16 2020-08-25 그레이스노트, 인코포레이티드 동적 비디오 오버레이
US11164548B2 (en) 2015-12-22 2021-11-02 JBF Interlude 2009 LTD Intelligent buffering of large-scale video
KR102102453B1 (ko) * 2016-01-08 2020-04-20 주식회사 아이플래테아 시청률 산출 서버, 시청률 산출 방법, 및 시청률 산출 리모트 장치
US11856271B2 (en) 2016-04-12 2023-12-26 JBF Interlude 2009 LTD Symbiotic interactive video
WO2017196670A1 (en) 2016-05-13 2017-11-16 Vid Scale, Inc. Bit depth remapping based on viewing parameters
CN106101376B (zh) * 2016-05-26 2021-01-05 努比亚技术有限公司 一种消息推送装置、方法及移动终端
WO2017205789A1 (en) * 2016-05-27 2017-11-30 Pelz Jeff B System and method for eye tracking
US11503314B2 (en) 2016-07-08 2022-11-15 Interdigital Madison Patent Holdings, Sas Systems and methods for region-of-interest tone remapping
CN106203372A (zh) * 2016-07-19 2016-12-07 奇酷互联网络科技(深圳)有限公司 基于眼睛的活体检测方法、装置和终端设备
EP3488615A1 (en) * 2016-07-22 2019-05-29 VID SCALE, Inc. Systems and methods for integrating and delivering objects of interest in video
US20180310066A1 (en) * 2016-08-09 2018-10-25 Paronym Inc. Moving image reproduction device, moving image reproduction method, moving image distribution system, storage medium with moving image reproduction program stored therein
WO2018035133A1 (en) 2016-08-17 2018-02-22 Vid Scale, Inc. Secondary content insertion in 360-degree video
JP6996514B2 (ja) * 2016-10-26 2022-01-17 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2018097947A2 (en) 2016-11-03 2018-05-31 Convida Wireless, Llc Reference signals and control channels in nr
CN108124167A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 一种播放处理方法、装置和设备
US11050809B2 (en) 2016-12-30 2021-06-29 JBF Interlude 2009 LTD Systems and methods for dynamic weighting of branched video paths
US10070154B2 (en) * 2017-02-07 2018-09-04 Fyusion, Inc. Client-server communication for live filtering in a camera view
EP3583780B1 (en) 2017-02-17 2023-04-05 InterDigital Madison Patent Holdings, SAS Systems and methods for selective object-of-interest zooming in streaming video
US11272237B2 (en) 2017-03-07 2022-03-08 Interdigital Madison Patent Holdings, Sas Tailored video streaming for multi-device presentations
US9832372B1 (en) * 2017-03-18 2017-11-28 Jerry L. Conway, Sr. Dynamic vediotelphony systems and methods of using the same
US11328260B2 (en) * 2017-07-19 2022-05-10 Mitsubishi Electric Corporation Behavior visualization device and behavior visualization method
CN109276228B (zh) * 2017-07-21 2020-12-25 成都集思鸣智科技有限公司 一种检测大脑功能的系统及其装置
US10496162B2 (en) * 2017-07-26 2019-12-03 Microsoft Technology Licensing, Llc Controlling a computer using eyegaze and dwell
CN107285148A (zh) * 2017-08-07 2017-10-24 浙江新再灵科技股份有限公司 基于电梯场景的兴趣区域判断系统及方法
TWI642030B (zh) * 2017-08-09 2018-11-21 宏碁股份有限公司 視覺效用分析方法及相關眼球追蹤裝置與系統
US10904615B2 (en) * 2017-09-07 2021-01-26 International Business Machines Corporation Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed
CN107613289B (zh) * 2017-10-19 2019-02-05 何翔 一种基于眨眼检测的视频内容分析方法及装置
DE102018127756A1 (de) * 2017-11-15 2019-05-16 Omron Corporation Fahrerüberwachungsvorrichtung, verfahren und programm
JP6463826B1 (ja) * 2017-11-27 2019-02-06 株式会社ドワンゴ 動画配信サーバ、動画配信方法及び動画配信プログラム
US10257578B1 (en) 2018-01-05 2019-04-09 JBF Interlude 2009 LTD Dynamic library display for interactive videos
US20190253751A1 (en) * 2018-02-13 2019-08-15 Perfect Corp. Systems and Methods for Providing Product Information During a Live Broadcast
US10382829B1 (en) * 2018-03-23 2019-08-13 Rovi Guides, Inc. Systems and methods for prompting a user to view an important event in a media asset when the user is using another application
US10440440B1 (en) 2018-03-23 2019-10-08 Rovi Guides, Inc. Systems and methods for prompting a user to view an important event in a media asset presented on a first device when the user is viewing another media asset presented on a second device
CN108563778B (zh) * 2018-04-24 2022-11-04 北京市商汤科技开发有限公司 一种关注信息的处理方法及装置、存储介质、电子设备
US11507619B2 (en) 2018-05-21 2022-11-22 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US10965985B2 (en) 2018-05-21 2021-03-30 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US11601721B2 (en) * 2018-06-04 2023-03-07 JBF Interlude 2009 LTD Interactive video dynamic adaptation and user profiling
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
WO2020068251A1 (en) 2018-09-27 2020-04-02 Convida Wireless, Llc Sub-band operations in unlicensed spectrums of new radio
US11416964B2 (en) * 2018-10-26 2022-08-16 Samsung Electronics Co., Ltd. Method and device for adjusting resolution of HMD apparatus
CN111259702B (zh) * 2018-12-03 2023-05-26 株式会社理光 一种用户兴趣的估计方法及装置
US20200288204A1 (en) * 2019-03-05 2020-09-10 Adobe Inc. Generating and providing personalized digital content in real time based on live user context
WO2020209491A1 (en) * 2019-04-11 2020-10-15 Samsung Electronics Co., Ltd. Head-mounted display device and operating method of the same
CN110248241B (zh) * 2019-06-11 2021-06-04 Oppo广东移动通信有限公司 视频处理方法及相关装置
US11490047B2 (en) 2019-10-02 2022-11-01 JBF Interlude 2009 LTD Systems and methods for dynamically adjusting video aspect ratios
US10997625B1 (en) * 2019-12-11 2021-05-04 Cloudinary Ltd. System, device, and method for determining predicted annoyance level of multimedia content
US11245961B2 (en) 2020-02-18 2022-02-08 JBF Interlude 2009 LTD System and methods for detecting anomalous activities for interactive videos
US11882337B2 (en) 2021-05-28 2024-01-23 JBF Interlude 2009 LTD Automated platform for generating interactive videos
US11934477B2 (en) 2021-09-24 2024-03-19 JBF Interlude 2009 LTD Video player integration within websites
US20230156300A1 (en) * 2021-11-15 2023-05-18 Comcast Cable Communications, Llc Methods and systems for modifying content
CN114298921A (zh) * 2021-12-10 2022-04-08 苏州创捷传媒展览股份有限公司 一种基于客观内容驱动的评估观众视觉注意效果的方法
US11949967B1 (en) * 2022-09-28 2024-04-02 International Business Machines Corporation Automatic connotation for audio and visual content using IOT sensors

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006020131A (ja) * 2004-07-02 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 関心度測定装置および関心度測定方法
WO2010070882A1 (ja) * 2008-12-16 2010-06-24 パナソニック株式会社 情報表示装置及び情報表示方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4789235A (en) * 1986-04-04 1988-12-06 Applied Science Group, Inc. Method and system for generating a description of the distribution of looking time as people watch television commercials
FR2683648B1 (fr) * 1991-11-12 1996-12-13 Apple Computer Procede de choix d'objets dans une sequence d'images mobiles et piste d'essai de reussite correspondante.
US5886683A (en) * 1996-06-25 1999-03-23 Sun Microsystems, Inc. Method and apparatus for eyetrack-driven information retrieval
US7120880B1 (en) 1999-02-25 2006-10-10 International Business Machines Corporation Method and system for real-time determination of a subject's interest level to media content
WO2001058160A1 (de) * 2000-02-01 2001-08-09 Swisscom Mobile Ag System und verfahren zur verbreitung von bildobjekten
US6873314B1 (en) * 2000-08-29 2005-03-29 International Business Machines Corporation Method and system for the recognition of reading skimming and scanning from eye-gaze patterns
GB2378340A (en) * 2001-07-31 2003-02-05 Hewlett Packard Co Generation of an image bounded by a frame or of overlapping images
US7274741B2 (en) * 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US7233684B2 (en) * 2002-11-25 2007-06-19 Eastman Kodak Company Imaging method and system using affective information
KR100763900B1 (ko) * 2004-08-28 2007-10-05 삼성전자주식회사 사용자 시선정보에 기반한 텔레비전 프로그램 녹화/재생방법 및 그 장치
US7690011B2 (en) * 2005-05-02 2010-03-30 Technology, Patents & Licensing, Inc. Video stream modification to defeat detection
US7595809B2 (en) * 2005-05-11 2009-09-29 Hewlett-Packard Development Company, L.P. Method and system for determining an occlusion cost for concurrently presenting one or more images in a shared viewing region
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
WO2007056373A2 (en) * 2005-11-04 2007-05-18 Eyetracking, Inc. Characterizing dynamic regions of digital media data
US20070157260A1 (en) * 2005-12-29 2007-07-05 United Video Properties, Inc. Interactive media guidance system having multiple devices
US8446509B2 (en) * 2006-08-09 2013-05-21 Tenebraex Corporation Methods of creating a virtual window
US8295683B2 (en) * 2007-04-23 2012-10-23 Hewlett-Packard Development Company, L.P. Temporal occlusion costing applied to video editing
US20090003712A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Video Collage Presentation
JP5089470B2 (ja) 2008-04-09 2012-12-05 本田技研工業株式会社 関心度推定装置および方法
US8079054B1 (en) * 2008-04-14 2011-12-13 Adobe Systems Incorporated Location for secondary content based on data differential
CA2651464C (en) * 2008-04-30 2017-10-24 Crim (Centre De Recherche Informatique De Montreal) Method and apparatus for caption production
JP5413002B2 (ja) * 2008-09-08 2014-02-12 ソニー株式会社 撮像装置および方法、並びにプログラム
JP5224149B2 (ja) * 2008-09-08 2013-07-03 ソニー株式会社 画像処理装置および方法、撮像装置、並びにプログラム
KR101644421B1 (ko) * 2008-12-23 2016-08-03 삼성전자주식회사 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법
JP4775671B2 (ja) * 2008-12-26 2011-09-21 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8808195B2 (en) * 2009-01-15 2014-08-19 Po-He Tseng Eye-tracking method and system for screening human diseases
US8464288B2 (en) * 2009-01-21 2013-06-11 The Nielsen Company (Us), Llc Methods and apparatus for providing personalized media in video
US8539359B2 (en) * 2009-02-11 2013-09-17 Jeffrey A. Rapaport Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
US8332255B2 (en) * 2009-11-09 2012-12-11 Palo Alto Research Center Incorporated Sensor-integrated mirror for determining consumer shopping behavior
US8830164B2 (en) * 2009-12-14 2014-09-09 Panasonic Intellectual Property Corporation Of America User interface device and input method
US8487959B1 (en) * 2010-08-06 2013-07-16 Google Inc. Generating simulated eye movement traces for visual displays
US9213405B2 (en) * 2010-12-16 2015-12-15 Microsoft Technology Licensing, Llc Comprehension and intent-based content for augmented reality displays
US9538219B2 (en) * 2011-02-04 2017-01-03 Panasonic Intellectual Property Corporation Of America Degree of interest estimating device and degree of interest estimating method
AU2011204946C1 (en) * 2011-07-22 2012-07-26 Microsoft Technology Licensing, Llc Automatic text scrolling on a head-mounted display
US9442565B2 (en) * 2011-08-24 2016-09-13 The United States Of America, As Represented By The Secretary Of The Navy System and method for determining distracting features in a visual display

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006020131A (ja) * 2004-07-02 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 関心度測定装置および関心度測定方法
WO2010070882A1 (ja) * 2008-12-16 2010-06-24 パナソニック株式会社 情報表示装置及び情報表示方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012105196A1 (ja) * 2011-02-04 2014-07-03 パナソニック株式会社 関心度推定装置および関心度推定方法
JP5841538B2 (ja) * 2011-02-04 2016-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 関心度推定装置および関心度推定方法
JP2014071664A (ja) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd 画像処理装置及び画像処理方法
JP2014183380A (ja) * 2013-03-18 2014-09-29 Nintendo Co Ltd 情報処理プログラム、情報処理装置、情報処理システム、パノラマ動画表示方法、および、制御データのデータ構造
JP2017028402A (ja) * 2015-07-17 2017-02-02 日本放送協会 映像評価装置、及びプログラム
JP2017140107A (ja) * 2016-02-08 2017-08-17 Kddi株式会社 集中度の推定装置
US10803506B2 (en) 2016-06-15 2020-10-13 Sk Planet Co., Ltd. Interest information analysis method using scroll pattern and apparatus using the same
US10642353B2 (en) 2017-07-19 2020-05-05 Fujitsu Limited Non-transitory computer-readable storage medium, information processing apparatus, and information processing method
JP6420876B1 (ja) * 2017-07-26 2018-11-07 楽天株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
JP2019028566A (ja) * 2017-07-26 2019-02-21 楽天株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
CN111316313A (zh) * 2017-11-06 2020-06-19 松下知识产权经营株式会社 整理辅助系统、整理辅助方法以及程序
DE102019128839A1 (de) 2018-10-29 2020-04-30 Aisin Seiki Kabushiki Kaisha Gerät zur Bestimmung des visuellen Bestätigungsziels
US10977506B2 (en) 2018-10-29 2021-04-13 Aisin Seiki Kabushiki Kaisha Apparatus for determining visual confirmation target
WO2021095278A1 (ja) * 2019-11-14 2021-05-20 株式会社スワローインキュベート 画像処理方法、画像処理装置、及び画像処理プログラム
JP2021081788A (ja) * 2019-11-14 2021-05-27 株式会社スワローインキュベート 画像処理方法、画像処理装置、及び画像処理プログラム
WO2021157530A1 (ja) * 2020-02-03 2021-08-12 マルコムホールディングス株式会社 対話ユーザの感情情報の提供装置
JP2021125734A (ja) * 2020-02-03 2021-08-30 マルコムホールディングス株式会社 対話ユーザの感情情報の提供装置
GB2607800A (en) * 2020-02-03 2022-12-14 Marucom Holdings Inc Dialogue user emotion information providing device
JP7316664B2 (ja) 2020-02-03 2023-07-28 マルコムホールディングス株式会社 対話ユーザの感情情報の提供装置
GB2607800B (en) * 2020-02-03 2024-05-22 Marucom Holdings Inc Dialogue user emotion information providing device
JP7481398B2 (ja) 2022-07-04 2024-05-10 ソフトバンク株式会社 判定装置、プログラム、及び判定方法

Also Published As

Publication number Publication date
JPWO2012105196A1 (ja) 2014-07-03
CN102934458A (zh) 2013-02-13
JP5841538B2 (ja) 2016-01-13
CN102934458B (zh) 2016-06-29
US9538219B2 (en) 2017-01-03
US20130091515A1 (en) 2013-04-11

Similar Documents

Publication Publication Date Title
JP5841538B2 (ja) 関心度推定装置および関心度推定方法
US10517521B2 (en) Mental state mood analysis using heart rate collection based on video imagery
JP5602155B2 (ja) ユーザインタフェース装置および入力方法
Dorr et al. Variability of eye movements when viewing dynamic natural scenes
Coutrot et al. Face exploration dynamics differentiate men and women
JP5460691B2 (ja) 注視対象判定装置及び注視対象判定方法
JP4622702B2 (ja) 映像監視装置
US20160191995A1 (en) Image analysis for attendance query evaluation
WO2013018267A1 (ja) 提示制御装置、及び提示制御方法
US20150313530A1 (en) Mental state event definition generation
US20120243751A1 (en) Baseline face analysis
Ghosh et al. Real time eye detection and tracking method for driver assistance system
JP2016521411A (ja) 頭部及び眼球追跡
JP5225870B2 (ja) 情動分析装置
US20170105668A1 (en) Image analysis for data collected from a remote computing device
Larsson et al. Head movement compensation and multi-modal event detection in eye-tracking data for unconstrained head movements
CN113544749A (zh) 用于在增强现实装置上显示内容的设备和方法
JP2017522104A (ja) 目状態決定システム
JP6221292B2 (ja) 集中度判定プログラム、集中度判定装置、および集中度判定方法
Heinrich et al. Video based actigraphy and breathing monitoring from the bedside table of shared beds
Ma et al. VIP: A unifying framework for computational eye-gaze research
KR101877873B1 (ko) 공포 심리 분석 시스템 및 방법
KR102327578B1 (ko) 웨어러블 디바이스를 이용한 객체 및 상황 정보 제공장치 및 방법
Manousos et al. Contactless detection of facial signs related to stress: A preliminary study
EP4213105A1 (en) Gaze estimation system and method thereof

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280001532.6

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2012535534

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12742532

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13701540

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12742532

Country of ref document: EP

Kind code of ref document: A1