WO2021171900A1 - 推定装置、推定方法、及び、推定システム - Google Patents

推定装置、推定方法、及び、推定システム Download PDF

Info

Publication number
WO2021171900A1
WO2021171900A1 PCT/JP2021/003195 JP2021003195W WO2021171900A1 WO 2021171900 A1 WO2021171900 A1 WO 2021171900A1 JP 2021003195 W JP2021003195 W JP 2021003195W WO 2021171900 A1 WO2021171900 A1 WO 2021171900A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
type
information
reliability
unit
Prior art date
Application number
PCT/JP2021/003195
Other languages
English (en)
French (fr)
Inventor
隆 杉本
功 上田
和寛 持永
優斗 松下
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US17/800,149 priority Critical patent/US20230069920A1/en
Priority to JP2022503189A priority patent/JP7466087B2/ja
Priority to EP21760506.2A priority patent/EP4113435A4/en
Publication of WO2021171900A1 publication Critical patent/WO2021171900A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • H04H60/377Scene
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/47Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising genres
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present disclosure relates to an estimation device, an estimation method, and an estimation system.
  • Patent Document 1 there is a technique for classifying scenes by analyzing the features of images included in moving image data (see Patent Document 1).
  • the present disclosure provides an estimation device that suppresses errors in estimating the type of content.
  • the estimation device in the present disclosure includes an acquisition unit that acquires the first content to which the first time is associated and the second content to which the second time is associated with a predetermined time before the first time.
  • the first type information indicating the type of the first content and the second content
  • the first determination unit that acquires the second type information indicating the type, and the first type information and the second type information are used to calculate the reliability information indicating the reliability of the first type information. It includes a calculation unit and an output unit that outputs specific information that specifies the type of the first content derived from the first type information by using the reliability information calculated by the first calculation unit.
  • the estimation device includes not only the first content that is the target of estimation of the content type, but also the second content that is associated with a time that is a predetermined time before the time associated with the first content.
  • the information indicating the type of the first content is output as the estimation result in consideration of the type of. Therefore, it is possible to suppress an error in the estimation as compared with the case where the type of the first content is estimated only from the first content. In this way, the estimation device can suppress errors in estimating the type of content.
  • the first type information includes a first probability which is a probability that the first content is classified into a predetermined type
  • the second type information includes the second content being classified into the predetermined type.
  • the first calculation unit may calculate the reliability information including the second probability, which is a probability, and includes the average value of the first probability and the second probability as the reliability.
  • the estimation device estimates the type of the first content by using the reliability calculated by using the average value of the probabilities that the first content and the second content are classified into each of the plurality of types. ..
  • the estimation device controls so that the type with a high probability that both the first content and the second content are classified is the estimation result of the type of the first content. In this way, the estimation device can further suppress errors in estimating the type of content.
  • the second content includes a plurality of contents different from the first content
  • the first calculation unit includes the probability that each of the plurality of contents is classified into the predetermined type and the first.
  • the reliability information including the moving average value with the probability as the reliability may be calculated.
  • the estimation device performs the above control using a relatively new second content by using a moving average for the second content (that is, a plurality of contents).
  • the accuracy of type estimation can be improved.
  • the estimation device can further suppress errors in estimating the type of content.
  • the second content includes a plurality of contents different from the first content
  • the first calculation unit includes the probability that each of the plurality of contents is classified into the predetermined type and the first.
  • the reliability information may be calculated including the weighted moving average value whose weight is increased as the time associated with the content is newer among the plurality of contents.
  • the estimation device uses a relatively new content among the second contents by using a weighted moving average for the second content (that is, a plurality of contents), and increases the weight of the relatively new content. Since the above control is performed, the accuracy of estimating the type of the first content can be improved. In this way, the estimation device can further suppress errors in estimating the type of content. It should be noted that a weighted average in which the first content is included in the second content and the weight of the relatively new content is greatly increased may be used.
  • the estimation device further applies a second process for determining the type of the content, which is different from the first process, to the first content and the second content, respectively.
  • the second determination unit that acquires the third type information indicating the type of the first content and the fourth type information indicating the type of the second content, the third type information, and the fourth type information.
  • a second calculation unit that calculates the second reliability information of the third type information based on the relationship with the third type information, and the output unit is the reliability information calculated by the first calculation unit.
  • the type of the first content derived from at least one of the first type information and the third type information is specified.
  • the specific information to be used may be output.
  • the estimation device considers the types of the first content and the second content determined by the second process in addition to the types of the first content and the second content determined by the first process. , The information indicating the type of the first content is output as the estimation result. Therefore, it is possible to suppress an error in the estimation as compared with the case where the type of the first content is estimated using only the first processing. In this way, the estimation device can suppress errors in estimating the type of content.
  • the first process includes a process of acquiring the type information output by inputting the content into the recognition model constructed by machine learning
  • the second process is the type by analyzing the characteristics of the content. It may include a process of acquiring information.
  • the estimation device determines the type of content by using the determination of the type of content using the recognition model and the determination of the type of content using the analysis of the characteristics of the content. As a result, the estimation device can suppress an error in estimating the type of content.
  • the second processing includes detection processing of a human eye line included in the video of the content that is the target of the second processing, detection processing of the movement of an object included in the video of the content that is the target of the second processing, and so on. At least one of the detection process of a specific sound included in the sound of the content to be the second process and the pattern detection process of the object included in the video of the content to be the second process may be included. ..
  • the estimation device includes the content to be the target of the second processing, the detection process of the human eye line included in the content, the detection process of the movement of the object included in the content, and the content.
  • the type of content is determined by using at least one of the sound detection process and the pattern detection process for the object included in the content. As a result, the estimation device can more easily suppress an error in estimating the type of content.
  • the second determination unit may further control to prohibit the execution of the first process by the first determination unit according to the characteristics of the content analyzed in the second process.
  • the estimation device when the content type is determined by analysis, the estimation device reduces the amount of information processing of the CPU and consumes it by not performing the type determination using the recognition model. Power can also be reduced.
  • the first acquisition step of acquiring the first content associated with the first time and the second time associated with the second time prior to the first time are associated.
  • the type of the first content is obtained by applying the second acquisition step of acquiring the content, which is performed before the first acquisition step, and the first process for determining the type of the content to the first content.
  • the estimation system in the present disclosure includes a content server that owns the content, an estimation device, and a presentation device that presents the content, and the estimation device is associated with the first time.
  • An acquisition unit that acquires content and second content associated with a second time that is a predetermined time before the first time from the content server via a communication line, and the first content and the second content.
  • the first calculation unit that calculates the reliability information indicating the reliability of the first type information by using the first type information and the second type information, and the first calculation unit.
  • the presenting device includes an output unit that outputs specific information that identifies the type of the first content derived from the first type information using the reliability information calculated by the calculation unit, and the presenting device is the estimation device.
  • the specific information is acquired from the user via a communication line, and the presentation of the content is controlled by using the acquired specific information.
  • a recording medium such as a system, an apparatus, an integrated circuit, a computer program or a computer-readable CD-ROM, and the system, the apparatus, the integrated circuit, the computer program. And may be realized by any combination of recording media.
  • the estimation device of the present disclosure can suppress errors in estimating the type of content.
  • FIG. 1 is an explanatory diagram showing an example of the appearance of the device including the estimation device according to the first embodiment.
  • FIG. 2 is a block diagram showing a functional configuration of the estimation device according to the first embodiment.
  • FIG. 3 is an explanatory diagram showing an example of training data used for learning for type determination by the determination unit according to the first embodiment.
  • FIG. 4 is an explanatory diagram showing type determination by the determination unit according to the first embodiment.
  • FIG. 5 is an explanatory diagram showing an example of type information showing the result of the past type determination according to the first embodiment.
  • FIG. 6 is a flow chart showing a type determination process by the estimation device according to the first embodiment.
  • FIG. 7 is a block diagram showing a functional configuration of the estimation device according to the second embodiment.
  • FIG. 8 is an explanatory diagram showing an example of a feature used for determining the type by the determination unit according to the second embodiment.
  • FIG. 9 is an explanatory diagram showing an example of conditions used for type determination by the determination unit according to the second embodiment.
  • FIG. 10 is a flow chart showing a process executed by the estimation device according to the second embodiment.
  • FIG. 11 is a block diagram showing a functional configuration of the estimation device according to the third embodiment.
  • FIG. 12 is an explanatory diagram showing a transition regarding the type change according to the fourth embodiment.
  • FIG. 13 is a first flow chart showing a process executed by the output unit according to the fourth embodiment.
  • FIG. 14 is a second flow chart showing a process executed by the output unit according to the fourth embodiment.
  • FIG. 15 is a third flow chart showing a process executed by the output unit according to the fourth embodiment.
  • FIG. 16 is a fourth flow chart showing a process executed by the output unit according to the fourth embodiment.
  • FIG. 17 is a fifth flow chart showing a process executed by the output unit according to the fourth embodiment.
  • FIG. 18 is an explanatory diagram showing a functional configuration of an estimation system according to a modified example of each embodiment.
  • FIG. 1 is an explanatory diagram showing an example of the appearance of the television receiver 1 provided with the estimation device 10 according to the present embodiment.
  • the television receiver 1 shown in FIG. 1 receives a broadcast wave including content including sound and video, and presents the sound and video contained in the content.
  • the television receiver 1 includes a tuner (not shown), a speaker 5, and a screen 6, and outputs a sound obtained from a signal included in the broadcast wave through the tuner by the speaker 5 and is included in the broadcast wave.
  • the image obtained from the signal via the tuner is displayed on the screen 6.
  • the content includes at least data and signals of a certain time length including video.
  • the content may be data of a certain time length including sound and video, and may further include meta information.
  • the time length of the content is a time corresponding to one frame of the video or more, and a time of several seconds to several hours or less.
  • the meta information may include SI (Service Information) information.
  • estimation device 10 is provided in the television receiver 1 as an example, but the present invention is not limited to this, and the estimation device 10 may be provided in a recorder that receives broadcast waves and stores contents. ..
  • the estimation device 10 acquires the broadcast wave received by the television receiver 1 and estimates which of the predetermined plurality of types the content obtained from the signal included in the broadcast wave is.
  • the estimation device 10 may simply output information indicating the estimation result, or may control the television receiver 1 based on the information indicating the estimation result.
  • the plurality of predetermined types of content include, for example, sports, music or talk.
  • the estimation device 10 changes the acoustic effect of the speaker 5 by controlling the speaker 5 included in the television receiver 1 based on the type obtained as the estimation result. For example, when the type of content is estimated to be "sports", the estimation device 10 makes the sound spread relatively large, and also produces an effect that makes the viewer feel wrapped in the sound. Control. Further, when the type of content is estimated to be "music”, the estimation device 10 controls so as to produce an effect in which the sound spread is relatively large and the vocal voice is emphasized. Further, when the type of content is estimated to be "talk”, the estimation device 10 controls so as to produce an effect that makes it easier for the viewer to hear the voice of the performer.
  • FIG. 2 is a block diagram showing a functional configuration of the estimation device 10 according to the present embodiment.
  • the estimation device 10 includes an acquisition unit 11, a determination unit 12, a storage unit 13, a calculation unit 14, and an output unit 15.
  • the functional unit included in the estimation device 10 can be realized by the CPU (Central Processing Unit) executing a predetermined program using the memory.
  • the acquisition unit 11 is a functional unit that acquires content.
  • the acquisition unit 11 sequentially acquires the contents acquired by the television receiver 1.
  • a time is associated with the content acquired by the acquisition unit 11, and an example of the associated time is the time when the content is broadcast.
  • the acquisition unit 11 provides the acquired content to the determination unit 12.
  • the content acquired by the acquisition unit 11 is at least the target content (corresponding to the first content) which is the content to be estimated by the type and the content associated with the time before the target content by a predetermined time.
  • Reference content (corresponding to the second content) is included.
  • a predetermined time can be adopted as a time that can be used as a cycle of human life, in other words, a time that is a unit for human beings to repeat similar actions in life.
  • the predetermined time is, for example, 1 minute, 1 hour, 1 day, 1 week, 1 month, 1 year, etc., and may be a time increased or decreased by about 10% from that time.
  • the content before a predetermined time from the reference content may be included in the reference content. That is, the reference content may be one or more, and in that case, the content associated with the time advanced to the past by N times the predetermined time (N is a natural number) from the time associated with the target content is displayed. It becomes reference content.
  • a predetermined time a time corresponding to one frame of the content (for example, 1/60 second when the frame rate is 60 fps) can be used.
  • the content related to the frame immediately before the target content is the reference content.
  • the predetermined time is one day.
  • the determination unit 12 is a functional unit that performs processing for determining the type of content.
  • the determination unit 12 applies the first process for determining the type of the content to the target content and the reference content, respectively, so that the first type information indicating the type of the target content and the first type indicating the type of the reference content are indicated. Acquire two types of information.
  • the determination unit 12 is also referred to as a first determination unit.
  • An example of the process performed by the determination unit 12 is a process of determining the type of content using a recognition model constructed by machine learning (a process using so-called AI (Artificial Intelligence)), and this case will be described as an example. However, it is not limited to this.
  • the determination unit 12 has a recognition model constructed by appropriate machine learning, and uses the content type information output by inputting the content acquired by the acquisition unit 11 into the recognition model as the determination result. ..
  • the recognition model is a recognition model for recognizing the type of content.
  • the recognition model is a recognition model constructed in advance by machine learning using teacher data including one or more pairs of one content and one type of the content.
  • the recognition model is, for example, a neural network model, more specifically, a convolutional neural network model (CNN (Convolutional Neural Network)).
  • CNN convolutional Neural Network
  • the recognition model is determined by determining the coefficient (weight) of the filter of the convolutional layer based on the features such as images or sounds contained in the content by machine learning based on the teacher data. Will be built.
  • the storage unit 13 is a storage device that temporarily stores type information indicating the result of determination by the determination unit 12. Specifically, the storage unit 13 stores the second type information of the reference content. The stored second type information is read out by the calculation unit 14.
  • the calculation unit 14 is a functional unit that calculates the reliability information of the first type information by using the first type information and the second type information.
  • the calculation unit 14 acquires the first type information of the target content from the determination unit 12, and also acquires the second type information of the reference content from the storage unit 13. Then, the calculation unit 14 calculates the reliability information of the first type information by using the first type information and the second type information.
  • the reliability information is an index indicating how reliable the first type information calculated by the calculation unit 14 is as information indicating the type of the content acquired by the acquisition unit 11. High or low reliability may be referred to as "high reliability" or "low reliability", respectively.
  • the output unit 15 is a functional unit that outputs the estimation result of the target content. Specifically, the output unit 15 uses the reliability information calculated by the calculation unit 14 to output specific information that specifies the type of the target content derived from the first type information as the estimation result. If the target content does not correspond to the predetermined type, specific information indicating the default type is generated and output. The specific information of the default type is specific information indicating that it does not correspond to any of a plurality of predetermined types.
  • the output of the specific information by the output unit 15 includes simply outputting the specific information and controlling the television receiver 1 using the specific information.
  • the output unit 15 controls the speaker 5 so as to produce an acoustic effect corresponding to the type of content specified by the specific information.
  • the first type information may include the first probability which is the probability that the target content is classified into a predetermined type.
  • the second type information may include a second probability which is a probability that the reference content is classified into the above-mentioned predetermined type.
  • the calculation unit 14 may calculate the reliability information including the average value of the first probability and the second probability as the reliability.
  • the reference content may include a plurality of contents different from the target content.
  • the calculation unit 14 may calculate the reliability information including the moving average value of the probability of being classified into a predetermined type for each of the plurality of contents and the first probability as the reliability.
  • the calculation unit 14 determines the time associated with the content among the plurality of contents with respect to the probability of being classified into a predetermined type for each of the plurality of contents and the first probability.
  • the reliability information may be calculated including the weighted moving average value having a larger weight as the newer the value.
  • the estimation device uses the first content and the second content separated by the predetermined time that are used as the cycle of human life. Determine the type. Since the time of the human life cycle is separated, it is highly probable that the first content and the second content are of the same type. Therefore, the estimation accuracy of the first content type can be improved.
  • FIG. 3 is an explanatory diagram showing an example of training data used for learning for type determination by the determination unit 12 according to the present embodiment.
  • the training data shown in FIG. 3 is teacher data in which one content and one type information are associated with each other.
  • content including an image showing a player playing soccer is associated with "sports" as a type of content.
  • teacher data # 2 content including an image showing a singer singing at a concert is associated with "music" as a type of content.
  • teacher data # 3 content including an image showing a performer having a dialogue is associated with "talk" as a type of content.
  • the teacher data may include thousands to tens of thousands or more contents in addition to the three contents specifically shown in FIG.
  • the content type is any one of a plurality of predetermined types.
  • the predetermined plurality of types are, for example, "sports", “music”, and “talk” will be described as an example, but the present invention is not limited to this.
  • the recognition model constructed by machine learning using the teacher data shown in FIG. 3 is a type information indicating the type of the content based on the characteristics of the image and sound of the content when the unknown content is input. Is output.
  • the output type information may be (1) information that specifies which type of the predetermined content is among a plurality of predetermined types, and (2) the content is classified into each of the plurality of predetermined types.
  • the information may include reliability, which is a probability of occurrence.
  • FIG. 4 is an explanatory diagram showing the type determination by the determination unit 12 according to the present embodiment.
  • the content 31 shown in FIG. 4 is an example of the content acquired by the acquisition unit 11.
  • the content 31 is an image showing a player playing soccer, but is different from the image included in the content of the teacher data # 1 of FIG.
  • the determination unit 12 determines the type of the content 31 by applying the determination process to the content 31. Two examples of the type information shown by the determination unit 12 as the result of the determination are shown in (a) and (b).
  • (A) of FIG. 4 is an example of type information for specifying which type of the content is among a plurality of predetermined types, and corresponds to the above (1).
  • the type information shown in FIG. 4A indicates that the content 31 is a type of "sports”.
  • FIG. 4B is an example of type information including reliability, which is the probability that the content is classified into each of a plurality of predetermined types, and corresponds to the above (2).
  • the type information shown in FIG. 4B is classified into “sports”, "music”, and “talk” in which the type information of the content 31 is "0.6 / 0.3 / 0.1" (that is, it is classified into “sports", “music”, and “talk”. It is shown that the probabilities of being performed are 0.6, 0.3 and 0.1, respectively, and so on.
  • the reliability indicates the degree of agreement for each type. It may be represented by either binary (eg 0 or 1).
  • FIG. 5 is an explanatory diagram showing an example of type information showing the result of the past type determination according to the present embodiment.
  • the calculation unit 14 calculates the type of the target content together with the reliability based on the type information provided by the determination unit 12.
  • the storage unit 13 stores the type information determined by the determination unit 12 for the past contents.
  • the calculation unit 14 acquires the type information of the content associated with the time before the time associated with the target content by a predetermined time.
  • the estimation device 10 calculates the reliability information of the target content as follows. That is, when the time associated with the target content is "February 2, 2020 19:00", the calculation unit 14 performs the time "2020 2" which is a predetermined time (that is, one day) before the above time.
  • the content type information 41 associated with "19:00 on the 1st of the month” is read from the storage unit 13. Then, the calculation unit 14 calculates the average value of the type information of the target content (see FIG. 4) and the type information 41 of the reference content for each type as the reliability information of the target content.
  • the type information of the target content is "0.6 / 0.3 / 0.1" and the type information of the reference content is "0.7 / 0.2 / 0.1", so the calculation is performed.
  • Part 14 calculates the reliability information of the target content as "0.65 / 0.25 / 0.1" by taking the average value for each type.
  • the reliability information of the target contents is calculated as follows. That is, for the target content similar to the above, the content type information 41 and 42 are read from the storage unit 13. Then, the calculation unit 14 calculates the average value of the type information of the target content (see FIG. 4) and the type information 41 and 42 of the reference content for each type as the reliability information of the target content.
  • the calculation unit 14 calculates the reliability information of the target content as "0.63 / 0.27 / 0.1" by taking the average value for each type.
  • FIG. 6 is a flow chart showing a type determination process by the estimation device 10 according to the present embodiment.
  • step S101 the acquisition unit 11 acquires the target content.
  • the storage unit 13 already stores the type information of the reference content associated with the second time before the target content by a predetermined time.
  • the type information of the reference content is stored as a determination result (see step S102) by the determination unit 12 when a series of processes shown in FIG. 6 is executed before the execution of the step S101. be.
  • step S102 the determination unit 12 executes the process of determining the type of the target content acquired by the acquisition unit 11 in step S102.
  • the determination unit 12 provides the calculation unit 14 with type information including reliability for each of the plurality of types of the target content. Further, the determination unit 12 further stores the above type information in the storage unit 13.
  • the type information stored in the storage unit 13 can be used as the type information of the reference content when the series of processes shown in FIG. 6 is executed next (see step S103).
  • step S103 the calculation unit 14 reads from the storage unit 13 the type information of the content (corresponding to the second content) that is a predetermined time before the content acquired in step S101.
  • step S104 the calculation unit 14 determines the reliability (corresponding to the reliability information) for each type of the target content from the type information of the target content calculated in step S102 and the type information of the reference content read in step S103. calculate.
  • step S105 the output unit 15 determines whether or not at least one of the reliabilitys included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S105), the process proceeds to step S106, and if not (No in step S105), the process proceeds to step S107.
  • step S106 the output unit 15 generates specific information indicating the type having the maximum reliability among the types included in the reliability information.
  • step S107 the output unit 15 generates specific information indicating the default type.
  • step S108 the output unit 15 outputs the specific information generated in step S106 or S107.
  • the estimation device 10 can suppress an error in estimating the type of content.
  • FIG. 7 is a block diagram showing a functional configuration of the estimation device 10A according to the present embodiment.
  • the estimation device 10A includes an acquisition unit 11, determination units 12 and 22, storage units 13 and 23, calculation units 14 and 24, and an output unit 15A.
  • the functional unit included in the estimation device 10A can be realized by the CPU (Central Processing Unit) executing a predetermined program using the memory.
  • the acquisition unit 11 is a functional unit that acquires content, as in the acquisition unit 11 of the first embodiment.
  • the acquisition unit 11 provides the acquired content to the determination unit 12 and the determination unit 22.
  • the determination unit 12 is a functional unit that performs processing (corresponding to the first processing) for determining the type of content.
  • the determination unit 12 corresponds to the first determination unit.
  • the first process is a process of determining the type of content using a recognition model constructed by machine learning (a process using so-called AI).
  • the determination unit 12 has a recognition model 16 constructed by appropriate machine learning, and determines the type information of the content, which is output by inputting the content acquired by the acquisition unit 11 into the recognition model 16.
  • the recognition model 16 is the same as the description in the first embodiment.
  • the storage unit 13 is a storage device that temporarily stores type information, like the storage unit 13 in the first embodiment.
  • the calculation unit 14 is a functional unit that calculates the reliability information of the first type information by using the first type information and the second type information.
  • the calculation unit 14 provides the calculated reliability information to the output unit 15A.
  • the determination unit 22 is a functional unit that performs processing (corresponding to the second processing) for determining the type of content. By applying the second process to each of the target content and the reference content, the determination unit 22 acquires the third type information indicating the type of the target content and the fourth type information indicating the type of the reference content.
  • the determination unit 22 corresponds to the second determination unit.
  • the second process is a process different from the first process executed by the determination unit 12, and is a process of acquiring type information by analyzing the features of the content (that is, features such as video, sound, and meta information). ..
  • the determination unit 22 has an analysis unit 26 for executing the second process.
  • the analysis unit 26 is a functional unit that determines the type of content by analyzing the content.
  • the analysis unit 26 executes a process of analyzing features in the video data, sound data, and meta information of the content. Specifically, the analysis unit 26 detects a human eye line included in the content image, detects the movement of an object included in the content image, detects a specific sound included in the content sound, and performs the analysis unit 26. , At least one of the pattern detection processes of the object included in the video of the content is executed.
  • Well-known image recognition technology and sound recognition technology can be used for the analysis of video data and sound data.
  • the analysis unit 26 determines the type of the content based on the detection of predetermined information or data in the video, sound, or meta information of the content.
  • the analysis unit 26 may use a determination process for determining whether or not a condition (also referred to as an exclusive condition) indicating that the content does not correspond to the type is satisfied for each of the plurality of types of the content. ..
  • a condition also referred to as an exclusive condition
  • the estimation device can more easily suppress an error in the estimation of the content type by using the condition that the content does not correspond to a certain type. The specific processing will be described later.
  • the storage unit 23 is a storage device that temporarily stores type information.
  • the storage unit 23 stores the type information indicating the result of the determination by the determination unit 22, and includes the second type information of the reference content.
  • the identification information stored in the storage unit 23 and the identification information stored in the storage unit 13 are common in that they are the identification information of the reference content, but whether the determined subject is the determination unit 12 or not. , Or the determination unit 22 is different.
  • the second type information stored in the storage unit 23 is read out by the calculation unit 24.
  • the calculation unit 24 is a functional unit that calculates the reliability information of the first type information by using the first type information and the second type information.
  • the calculation unit 24 acquires the first type information of the target content from the determination unit 22, and also acquires the second type information of the reference content from the storage unit 23. Then, the calculation unit 24 calculates the reliability information of the first type information by using the first type information and the second type information.
  • the reliability information is an index indicating how reliable the first type information calculated by the calculation unit 24 is as information indicating the type of the content acquired by the acquisition unit 11.
  • the output unit 15A is a functional unit that outputs the estimation result of the target content, like the output unit 15 in the first embodiment. Specifically, the output unit 15A is derived from at least one of the first type information and the third type information by using the reliability information calculated by the calculation unit 14 and the reliability information calculated by the calculation unit 24. Outputs specific information that identifies the type of target content.
  • the output unit 15A is set. , Specific information indicating the default type may be output.
  • FIG. 8 is an explanatory diagram showing an example of features used for determining the type by the determination unit 22 according to the present embodiment.
  • FIG. 8 shows the characteristics that can be detected in the video or sound of the content for each of the plurality of types of the content.
  • the determination unit 22 determines that the type of the target content corresponds to the detected feature. Is determined to be.
  • the determination unit 22 analyzes the motion vector as a feature that the motion is relatively fast, that is, a feature that the motion vector between temporally continuous images is relatively large.
  • the content is a sport type.
  • the determination unit 22 can determine that the content is a sport type content when the analysis unit 26 detects the image pattern of the uniform.
  • the determination unit 22 can determine the content of the music type when the analysis unit 26 detects the pattern of music (predetermined rhythm, predetermined melody) as a feature related to the pattern in the sound.
  • the determination unit 22 can determine the content of the music type when the analysis unit 26 detects the image pattern of the musical instrument as a feature related to the pattern in the image.
  • the determination unit 22 detects that the line of sight of the person who is the performer of the content is the line of sight of the camera (that is, the performer is looking at the camera). , It can be determined that the content is of the type of talk.
  • the determination unit 22 is a type of talk. It can be judged as the content of.
  • FIG. 9 is an explanatory diagram showing an example of conditions used for type determination by the determination unit 22 according to the present embodiment.
  • the condition shown in FIG. 9 is an example of an exclusive condition indicating that the content does not correspond to the type for each of the plurality of types of the content.
  • the determination unit 22 sports when the feature that the motion is not detected as the feature related to the motion vector is not detected and the image pattern of the uniform is not detected as the feature related to the pattern in the image. It can be determined that the content is not of a type.
  • the determination unit 22 can determine that the content is not of the music type when the sound is not detected as a characteristic of the pattern in the sound.
  • the determination unit 22 can determine that the content is not a talk type content when the performer's camera line of sight is not detected as a feature related to the line of sight and when a violent movement is detected as a feature related to the motion vector.
  • FIG. 10 is a flow chart showing a process executed by the estimation device 10A according to the present embodiment.
  • step S201 the determination unit 12 acquires the type information (first type information and second type information).
  • the process of step S201 corresponds to the process of steps S101 to S102 of FIG.
  • step S202 the calculation unit 14 calculates the reliability information of the content.
  • the process of step S202 corresponds to the process of steps S103 to S104 of FIG.
  • step S203 the determination unit 22 acquires type information (third type information and fourth type information).
  • the process of step S203 corresponds to executing the process of steps S101 to S102 of FIG. 6 by the determination unit 22.
  • step S204 the calculation unit 24 acquires the reliability information of the content.
  • the process of step S204 corresponds to executing the process of steps S103 to S104 of FIG. 6 by the calculation unit 24.
  • step S205 the output unit 15A has at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S202 and the reliability included in the reliability information calculated by the calculation unit 24 in step S204. Determine if it is greater than or equal to the threshold. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S205), the process proceeds to step S206, and if not (No in step S205), the process proceeds to step S207.
  • step S206 the output unit 15A generates specific information indicating the type having the maximum reliability among the types included in the reliability information.
  • step S207 the output unit 15A generates specific information indicating that it does not correspond to any of a plurality of predetermined types.
  • step S208 the output unit 15A outputs the specific information generated in step S206 or S207.
  • the estimation device 10A makes a judgment using both the recognition model and the analysis, and then the content is based on the result with the higher reliability. By estimating, it is possible to suppress an error in estimating the type of content.
  • FIG. 11 is a block diagram showing a functional configuration of the estimation device 10B according to the present embodiment.
  • the estimation device 10B includes an acquisition unit 11, a determination unit 12, a storage unit 13, a calculation unit 14A, an output unit 15, and an analysis unit 27.
  • the functional unit included in the estimation device 10B can be realized by the CPU (Central Processing Unit) executing a predetermined program using the memory.
  • the acquisition unit 11 is a functional unit that acquires content, as in the acquisition unit 11 of the first embodiment.
  • the acquisition unit 11 provides the acquired content to the determination unit 12 and the analysis unit 27.
  • the determination unit 12 is a functional unit that performs processing (corresponding to the first processing) for determining the type of content.
  • the determination unit 12 corresponds to the first determination unit.
  • the first process is a process of determining the type of content using a recognition model constructed by machine learning (a process using so-called AI).
  • the determination unit 12 has a recognition model 16 constructed by appropriate machine learning, and determines the type information of the content, which is output by inputting the content acquired by the acquisition unit 11 into the recognition model 16.
  • the recognition model 16 is the same as the description in the first embodiment.
  • the storage unit 13 is a storage device that temporarily stores type information, like the storage unit 13 in the first embodiment.
  • the calculation unit 14A is a functional unit that calculates the reliability information of the first type information by using the first type information and the second type information as in the calculation unit 14 in the first embodiment. When calculating the reliability information of the first type information, the calculation unit 14A calculates the reliability information in consideration of the analysis result of the analysis unit 27. The calculation unit 14A provides the calculated reliability information to the output unit 15.
  • the calculation unit 14A may adjust the reliability based on the similarity of the image information between the target content and the reference content.
  • the calculation unit 14A has the spatial frequency (that is, on the spatial axis) of the color (pixel value), position, and color (pixel value) of the image of the target content and the reference content analyzed by the analysis unit 27. (Frequency when the pixel value of is regarded as a wave), brightness, or saturation similarity is acquired. Then, when the acquired similarity is equal to or higher than a predetermined value, the reliability may be increased.
  • the calculation unit 14A may adjust the reliability by using the meta information of the target content or by comparing the meta information of the target content and the reference content. Specifically, the calculation unit 14A may increase the reliability information of the type that matches the program information included in the meta information in the calculated type information of the target content. For example, when the calculated target content type information is "0.6 / 0.3 / 0.1" and the program information is "baseball broadcast", it is "1.2 / 0.3". The reliability of each sport type may be doubled, such as "/0.1".
  • the output unit 15 is a functional unit that outputs the estimation result of the target content, similarly to the output unit 15 of the first embodiment.
  • the analysis unit 27 is a functional unit that determines the type of content by analyzing the video, sound, meta information, and the like of the content. Specifically, the analysis unit 27 executes a process of analyzing features in the video, sound, and meta information of the content, and provides the analysis result to the calculation unit 14A.
  • the video analysis process of the content may include analysis of the color (pixel value), position, spatial frequency of the color (pixel value), brightness, or saturation similarity of the image.
  • the analysis process of the video of the content may include the detection of scene switching.
  • the type determination process by the estimation device 10B is the same as the type determination process of the estimation device 10 in the first embodiment, detailed description thereof will be omitted.
  • the type determination process by the estimation device 10B differs from the type determination process by the estimation device 10 in that the process related to the calculation of the reliability in step S104 (see FIG. 6) includes the above process.
  • the determination unit 22 may control to prohibit the execution of the first process by the determination unit 12 according to the characteristics of the content analyzed in the second process. For example, when the determination unit 22 has a feature that the frame rate of the content is 24 fps or a feature that the sound of the content is composed of a dolby sound (5.1 ch), the first process by the determination unit 12 is performed. It may be controlled not to execute, that is, to prohibit. In this case, the determination unit 22 may further generate type information indicating that the content is a type of movie.
  • FIG. 12 is an explanatory diagram showing a transition related to the type change according to this modification.
  • a graph is shown in which the vertical axis is the range (audible range), the horizontal axis is the number of sound channels, each type of content is a vertex, and the transition between types is an edge.
  • the transition means that the specific information output by the output unit 15 changes from the previously output specific information to the newly determined specific information.
  • the estimation device of this modification determines the specific information in consideration of the specific information output last time and outputs the determined specific information.
  • the output unit 15 transitions to the music type when the highly reliable type information indicating the sports type or the music type is acquired from the determination unit 12 and the calculation unit 14. .
  • the previously output specific information indicates the default type and the highly reliable type information indicating the talk type is acquired, the transition is made to the talk type.
  • the specific information output last time indicates the default type, if the reliability acquired from the calculation unit 14 is relatively low, the default type is maintained.
  • the output unit 15 transitions to the music type when the highly reliable type information indicating the music type is acquired from the determination unit 12 and the calculation unit 14.
  • the previously output specific information indicates the sport type
  • highly reliable type information indicating the talk type is acquired from the determination unit 12 and the calculation unit 14
  • the reliability acquired from the calculation unit 14 is compared. If the target is low, transition to the default type.
  • the specific information output last time indicates a sports type
  • highly reliable type information indicating the sports type is acquired from the determination unit 12 and the calculation unit 14, the sports type is maintained.
  • the output unit 15 transitions to the sports type when the highly reliable type information indicating the sports type is acquired from the determination unit 12 and the calculation unit 14.
  • highly reliable type information indicating the talk type is acquired from the determination unit 12 and the calculation unit 14 when the specific information output last time indicates the music type, or the reliability acquired from the calculation unit 14 is relatively high. If it is low, transition to the default type.
  • the specific information output last time indicates the music type, if highly reliable type information indicating the music type is acquired from the determination unit 12 and the calculation unit 14, the music type is maintained.
  • the output unit 15 acquires highly reliable type information indicating the sports type or the music type from the determination unit 12 and the calculation unit 14, or the calculation unit 14 If the reliability obtained from is relatively low, transition to the default type.
  • the specific information output last time indicates the talk type, if the type information indicating the talk type is acquired from the determination unit 12 and the calculation unit 14, the talk type is maintained.
  • FIG. 13 is a first flow diagram showing a process executed by the output unit 15 according to this modification.
  • the process shown in FIG. 13 corresponds to the process surrounded by the broken line frame SA in FIG. 6, that is, the processes of steps S105 to S108.
  • step S301 the output unit 15 branches the process according to the specific information output last time. If the previously output specific information indicates the default type, step S302 is executed, if the previously output specific information indicates the sport type, step S303 is executed, and the previously output specific information indicates the music type. If it is indicated, step S304 is executed, and if the specific information output last time indicates the talk type, step S305 is executed.
  • step S302 the output unit 15 executes the process related to the transition from the default type to another type.
  • step S303 the output unit 15 executes a process related to the transition from the sport type to another type.
  • step S304 the output unit 15 executes a process related to the transition from the music type to another type.
  • step S305 the output unit 15 executes the process related to the transition from the talk type to another type.
  • step S306 the output unit 15 outputs the specific information generated in steps S302 to S305.
  • FIG. 14 is a second flow chart showing a process executed by the output unit 15 according to this modification.
  • the process shown in FIG. 14 is a process included in step S302, and is a process executed by the output unit 15 when the specific information output last time by the output unit 15 is the default type.
  • step S311 the output unit 15 determines whether or not at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S311), the process proceeds to step S312, and if not (No in step S311), the process proceeds to step S322.
  • step S312 the output unit 15 determines whether or not the exclusion condition (see FIG. 9) is satisfied with respect to the reliability information calculated by the calculation unit 14 in step S104. If it is determined that the exclusion condition is satisfied (Yes in step S312), the process proceeds to step S322, and if not (No in step S312), the process proceeds to step S313.
  • step S313 the output unit 15 determines whether or not a scene switch has occurred. Whether or not the scene switching has occurred can be determined from the analysis result by the analysis unit 27. If scene switching occurs (Yes in step S313), the process proceeds to step S315, and if not (No in step S313), the process proceeds to step S314.
  • step S314 the output unit 15 determines whether or not the counter is equal to or greater than the set value. If it is determined that the counter is equal to or higher than the set value (Yes in step S314), the process proceeds to step S315, and if not (No in step S314), the process proceeds to step S321.
  • step S315 the output unit 15 sets the type to "music" or "talk”. At this time, when the type obtained as a result of the determination by the determination unit 12 is "music" or “sports", the output unit 15 sets the type to "music” and obtains it as a result of the determination by the determination unit 12. When the type is "default”, the output unit 15 sets the type to "default”.
  • step S321 the output unit 15 executes counter increment processing.
  • the counter increment process is a process of counting the number of times the process of this step is continuously executed each time the series of processes shown in this figure is repeatedly executed.
  • the counter value is initialized to 1, and when the present step is reached in the next series of processes, the counter value is incremented by 1 to become 2. The same shall apply hereinafter.
  • step S322 the output unit 15 sets the type to "default”.
  • step S315 or S322 After completing the process of step S315 or S322, the process proceeds to step S106 (FIG. 13).
  • FIG. 15 is a third flow diagram showing a process executed by the output unit 15 according to this modification.
  • the process shown in FIG. 15 is a process included in step S303, and is a process executed by the output unit 15 when the specific information output last time by the output unit 15 is a sport type.
  • step S331 the output unit 15 determines whether or not the type of the determination result by the determination unit 12 is "sports". If it is determined that the type is "sports" (Yes in step S331), the process proceeds to step S332, and if not (No in step S331), the process proceeds to step S341.
  • step S332 the output unit 15 determines whether or not at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S332), the process proceeds to step S333, and if not (No in step S332), the process proceeds to step S351.
  • step S333 the output unit 15 determines whether or not the exclusion condition (see FIG. 9) is satisfied with respect to the reliability information calculated by the calculation unit 14 in step S104. If it is determined that the exclusion condition is satisfied (Yes in step S333), the process proceeds to step S351, and if not (No in step S333), the process proceeds to step S334.
  • step S334 the output unit 15 sets the type to "sports".
  • step S341 the output unit 15 determines whether or not the type of the determination result by the determination unit 12 is "music". If it is determined that the type is "sports" (Yes in step S341), the process proceeds to step S342, and if not (No in step S341), the process proceeds to step S351.
  • step S342 the output unit 15 determines whether or not at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S342), the process proceeds to step S343, and if not (No in step S342), the process proceeds to step S351.
  • step S343 the output unit 15 sets the type to "music".
  • step S351 the output unit 15 determines whether or not scene switching has occurred. Whether or not the scene switching has occurred can be determined from the analysis result by the analysis unit 27. If scene switching occurs (Yes in step S351), the process proceeds to step S354, and if not (No in step S351), the process proceeds to step S352.
  • step S352 the output unit 15 determines whether or not the counter is equal to or greater than the set value. If it is determined that the counter is equal to or higher than the set value (Yes in step S352), the process proceeds to step S354, and if not (No in step S352), the process proceeds to step S353.
  • step S353 the output unit 15 executes counter increment processing.
  • step S354 the output unit 15 sets the type to "default”.
  • step S106 the process proceeds to step S106 (FIG. 13).
  • FIG. 16 is a fourth flow chart showing a process executed by the output unit 15 according to this modification.
  • the process shown in FIG. 16 is a process included in step S304, and is a process executed by the output unit 15 when the specific information output last time by the output unit 15 is a music type.
  • step S361 the output unit 15 determines whether or not the type of the determination result by the determination unit 12 is "music". If it is determined that the type is "music" (Yes in step S361), the process proceeds to step S362, and if not (No in step S361), the process proceeds to step S371.
  • step S362 the output unit 15 determines whether or not at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S362), the process proceeds to step S363, and if not (No in step S362), the process proceeds to step S381.
  • step S363 the output unit 15 sets the type to "music".
  • step S371 the output unit 15 determines whether or not the type of the determination result by the determination unit 12 is "sports". If it is determined that the type is "sports" (Yes in step S371), the process proceeds to step S372, and if not (No in step S371), the process proceeds to step S381.
  • step S372 the output unit 15 determines whether or not at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S372), the process proceeds to step S373, and if not (No in step S372), the process proceeds to step S381.
  • step S373 the output unit 15 determines whether or not the exclusion condition (see FIG. 9) is satisfied with respect to the reliability information calculated by the calculation unit 14 in step S104. If it is determined that the exclusion condition is satisfied (Yes in step S373), the process proceeds to step S381, and if not (No in step S373), the process proceeds to step S374.
  • step S374 the output unit 15 determines whether or not a scene switch has occurred. Whether or not the scene switching has occurred can be determined from the analysis result by the analysis unit 27. If the scene switching occurs (Yes in step S374), the process proceeds to step S376, and if not (No in step S374), the process proceeds to step S375.
  • step S375 the output unit 15 determines whether or not the counter is equal to or greater than the set value. If it is determined that the counter is equal to or higher than the set value (Yes in step S375), the process proceeds to step S376, and if not (No in step S375), the process proceeds to step S377.
  • step S376 the output unit 15 sets the type to "sports".
  • step S377 the output unit 15 executes counter increment processing.
  • step S381 the output unit 15 determines whether or not a scene switch has occurred. Whether or not the scene switching has occurred can be determined from the analysis result by the analysis unit 27. If scene switching occurs (Yes in step S381), the process proceeds to step S384, and if not (No in step S381), the process proceeds to step S382.
  • step S382 the output unit 15 determines whether or not the counter is equal to or greater than the set value. If it is determined that the counter is equal to or greater than the set value (Yes in step S382), the process proceeds to step S384, and if not (No in step S382), the process proceeds to step S383.
  • step S383 the output unit 15 executes counter increment processing.
  • step S384 the output unit 15 sets the type to "default”.
  • step S106 the processing of steps S363, S384, S376 or S378 is completed.
  • FIG. 17 is a fifth flow chart showing a process executed by the output unit 15 according to this modification.
  • the process shown in FIG. 17 is a process included in step S305, and is a process executed by the output unit 15 when the specific information output last time by the output unit 15 is a talk type.
  • step S401 the output unit 15 determines whether or not the type of the determination result by the determination unit 12 is "talk". If it is determined that the type is "talk" (Yes in step S401), the process proceeds to step S402, and if not (No in step S401), the process proceeds to step S411.
  • step S402 the output unit 15 determines whether or not at least one of the reliability included in the reliability information calculated by the calculation unit 14 in step S104 is equal to or higher than the threshold value. If it is determined that at least one of the above is equal to or greater than the threshold value (Yes in step S402), the process proceeds to step S403, and if not (No in step S402), the process proceeds to step S411.
  • step S403 the output unit 15 determines whether or not the exclusion condition (see FIG. 9) is satisfied with respect to the reliability information calculated by the calculation unit 14 in step S104. If it is determined that the exclusion condition is satisfied (Yes in step S403), the process proceeds to step S411, and if not (No in step S403), the process proceeds to step S404.
  • step S404 the output unit 15 sets the type to "talk".
  • step S411 the output unit 15 determines whether or not a scene switch has occurred. Whether or not the scene switching has occurred can be determined from the analysis result by the analysis unit 27. If scene switching occurs (Yes in step S411), the process proceeds to step S414, and if not (No in step S411), the process proceeds to step S412.
  • step S412 the output unit 15 determines whether or not the counter is equal to or greater than the set value. If it is determined that the counter is equal to or higher than the set value (Yes in step S412), the process proceeds to step S414, and if not (No in step S412), the process proceeds to step S413.
  • step S413 the output unit 15 executes counter increment processing.
  • step S414 the output unit 15 sets the type to "default”.
  • step S404 or S414 After finishing the process of step S404 or S414, the process proceeds to step S106 (FIG. 13).
  • the output unit 15 appropriately transitions the type information.
  • FIG. 18 is an explanatory diagram showing a functional configuration of the estimation system 2 according to a modified example of each embodiment.
  • the estimation system 2 includes a content server 50, an estimation device 10D, and a television receiver 51.
  • the content server 50, the estimation device 10D, and the television receiver 51 are communicably connected by the network N.
  • the network N includes a carrier network of a mobile phone, a telephone line network using a telephone line or an optical fiber, a LAN (including a wired or wireless LAN), and the like, and also includes a network in which a plurality of these are connected.
  • the television receiver 51 corresponds to a presenting device for presenting content.
  • the content server 50 has content whose type is estimated by the estimation system 2, and supplies the content to the estimation device 10D through the network N.
  • the estimation device 10D acquires content from the content server 50, and estimates which type of content the acquired content is among a plurality of predetermined types. Further, the estimation device 10D provides the television receiver 51 with information indicating the estimation result through the network N.
  • the function of the estimation device 10D is the same as that of the estimation device of each of the above-described embodiments and the above-described modification.
  • the television receiver 51 acquires content from the content server 50, and presents the video and sound of the acquired content on the screen 6 and the speaker 5. Further, the specific information output as the estimation result of the content type is acquired from the estimation device 10D, and the presentation of the content is controlled based on the acquired specific information. For example, the television receiver 51 controls the speaker 5 based on the acquired specific information to change the sound effect when presenting the content. As a result, the same effects as those of the above-described embodiment and the above-described modification are obtained.
  • the estimation device of each of the above-described embodiments and the above-described modification is not only the first content that is the target of estimation of the content type, but also a predetermined time before the time associated with the first content. Considering the type of the second content associated with the time, the information indicating the type of the first content is output as the estimation result. Therefore, it is possible to suppress an error in the estimation as compared with the case where the type of the first content is estimated only from the first content. In this way, the estimation device can suppress errors in estimating the type of content.
  • the estimation device estimates the type of the first content by using the reliability calculated by using the average value of the probabilities that the first content and the second content are classified into each of the plurality of types. As a result, if the type with a high probability that the first content is classified and the type with a high probability that the second content is classified are the same, a higher value is calculated as the reliability related to the type. As a result, the estimation device controls so that the type with a high probability that both the first content and the second content are classified is the estimation result of the type of the first content. In this way, the estimation device can further suppress errors in estimating the type of content.
  • the estimation device performs the above control using a relatively new content among the second contents by using the moving average for the second content (that is, a plurality of contents), the estimation of the type of the first content is performed.
  • the accuracy can be improved. In this way, the estimation device can further suppress errors in estimating the type of content.
  • the estimation device uses a weighted moving average for the second content (that is, a plurality of contents) to use a relatively new content among the second contents and to perform the above control by increasing the weight of the relatively new content. Therefore, the accuracy of estimating the type of the first content can be improved. In this way, the estimation device can further suppress errors in estimating the type of content. It should be noted that a weighted average in which the first content is included in the second content and the weight of the relatively new content is greatly increased may be used.
  • the estimation device considers the types of the first content and the second content determined by the second process in addition to the types of the first content and the second content determined by the first process, and the first content.
  • the information indicating the type of is output as the estimation result. Therefore, it is possible to suppress an error in the estimation as compared with the case where the type of the first content is estimated using only the first processing. In this way, the estimation device can suppress errors in estimating the type of content.
  • the estimation device determines the type of content by using the determination of the type of content using the recognition model and the determination of the type of content using the analysis of the characteristics of the content. As a result, the estimation device can suppress an error in estimating the type of content.
  • the estimation device detects the human eye line detection process included in the content, the motion detection process of the object included in the content, and the sound detection process included in the content for the content targeted for the second process. , And at least one of the pattern detection processes for the objects included in the content is used to determine the type of content. As a result, the estimation device can more easily suppress an error in estimating the type of content.
  • the estimation device reduces the amount of information processing of the CPU and also reduces the power consumption by not determining the type using the recognition model when the content type is determined by analysis. be able to.
  • This disclosure is applicable to an estimation device that estimates the type of content.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

推定装置(10)は、第一時刻が紐付けられている第一コンテンツと、第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを取得する取得部(11)と、第一コンテンツと第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、第一コンテンツの種別を示す第一種別情報と、第二コンテンツの種別を示す第二種別情報とを取得する判定部(12)と、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度を示す信頼度情報を算出する算出部(14)と、算出部(14)が算出した信頼度情報を用いて、第一種別情報から導き出される第一コンテンツの種別を特定する特定情報を出力する出力部(15)とを備える。

Description

推定装置、推定方法、及び、推定システム
 本開示は、推定装置、推定方法、及び、推定システムに関する。
 従来、動画像データに含まれる画像の特徴を分析することで、シーンを分類する技術がある(特許文献1参照)。
特開2006-277232号公報
 しかし、画像の特徴の分析のみでは、コンテンツの種別の推定に誤りが生ずることがあるという問題がある。
 そこで、本開示は、コンテンツの種別の推定における誤りを抑制する推定装置を提供する。
 本開示における推定装置は、第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを取得する取得部と、前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備える。
 上記態様によれば、推定装置は、コンテンツの種別の推定の対象である第一コンテンツだけでなく、第一コンテンツに紐付けられている時刻より所定時間前の時刻が紐付けられた第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一コンテンツのみから第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
 また、前記第一種別情報は、前記第一コンテンツが所定の種別に分類される確率である第一確率を含み、前記第二種別情報は、前記第二コンテンツが前記所定の種別に分類される確率である第二確率を含み、前記第一算出部は、前記第一確率と、前記第二確率との平均値を信頼度として含む前記信頼度情報を算出してもよい。
 上記態様によれば、推定装置は、第一コンテンツおよび第二コンテンツが複数の種別それぞれに分類される確率の平均値を用いて算出される信頼度を用いて、第一コンテンツの種別を推定する。これにより、第一コンテンツが分類される確率が高い種別と、第二コンテンツが分類される確率が高い種別とが同じであると、その種別に係る信頼度としてより高い値が算出される。これにより、推定装置は、第一コンテンツおよび第二コンテンツがともに分類される確率が高い種別が、第一コンテンツの種別の推定結果となるように制御する。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。
 また、前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、前記第一算出部は、前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率との移動平均値を前記信頼度として含む前記信頼度情報を算出してもよい。
 上記態様によれば、推定装置は、第二コンテンツ(つまり複数のコンテンツ)について移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用いて上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。
 また、前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、前記第一算出部は、前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率とについて、前記複数のコンテンツのうちコンテンツに紐付けられている時刻がより新しいほど重みを大きくした加重移動平均値を前記信頼度として含む前記信頼度情報を算出してもよい。
 上記態様によれば、推定装置は、第二コンテンツ(つまり複数のコンテンツ)について加重移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用い、かつ、比較的新しいものの重みを大きく上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。なお、第二コンテンツに第一コンテンツを含めて比較的新しいものの重みを大きく付けた加重平均を用いてもよい。
 また、前記推定装置は、さらに、コンテンツの種別を判定するための第二処理であって前記第一処理とは異なる第二処理を、前記第一コンテンツと前記第二コンテンツとのそれぞれに適用することで、前記第一コンテンツの種別を示す第三種別情報と、前記第二コンテンツの種別を示す第四種別情報とを取得する第二判定部と、前記第三種別情報と前記第四種別情報との関係に基づいて、前記第三種別情報の第二信頼度情報を算出する第二算出部と、を備え、前記出力部は、前記第一算出部が算出した前記信頼度情報である第一信頼度情報と、前記第二算出部が算出した前記第二信頼度情報とを用いて、前記第一種別情報および前記第三種別情報の少なくとも一方から導き出される前記第一コンテンツの種別を特定する前記特定情報を出力してもよい。
 上記態様によれば、推定装置は、第一処理により判定された第一コンテンツと第二コンテンツの種別に加えて、第二処理により判定された第一コンテンツと第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一処理のみを用いて第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
 また、前記第一処理は、機械学習によって構築された認識モデルにコンテンツを入力することで出力される種別情報を取得する処理を含み、前記第二処理は、コンテンツの特徴を解析することで種別情報を取得する処理を含んでもよい。
 上記態様によれば、推定装置は、認識モデルを用いたコンテンツの種別の判定と、コンテンツの特徴の解析を用いたコンテンツの種別の判定とを用いて、コンテンツの種別の判定をする。これにより、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
 また、前記第二処理は、前記第二処理の対象であるコンテンツの映像に含まれる人間の目線の検出処理、前記第二処理の対象であるコンテンツの映像に含まれる物体の動きの検出処理、前記第二処理の対象であるコンテンツの音に含まれる特定の音の検出処理、および、前記第二処理の対象であるコンテンツの映像に含まれる物体のパターン検出処理のいずれかを少なくとも含んでもよい。
 上記態様によれば、推定装置は、当該第二処理の対象であるコンテンツについて、当該コンテンツに含まれる人間の目線の検出処理、当該コンテンツに含まれる物体の動きの検出処理、当該コンテンツに含まれる音の検出処理、および、当該コンテンツに含まれる物体についてのパターン検出処理のいずれかを少なくとも用いて、コンテンツの種別の判定をする。これにより、推定装置は、より容易に、コンテンツの種別の推定における誤りを抑制することができる。
 また、前記第二判定部は、さらに、前記第二処理で解析した前記コンテンツの特徴に応じて、前記第一判定部による前記第一処理の実行を禁止する制御をしてもよい。
 上記態様によれば、推定装置は、解析によるコンテンツ種別の判定が行われたときに、認識モデルを用いた種別の判定を行わないようにすることで、CPUの情報処理量を削減し、消費電力も削減することができる。
 また、本開示における推定方法は、第一時刻が紐付けられている第一コンテンツを取得する第一取得ステップと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツを取得する、前記第一取得ステップよりも前に行う第二取得ステップと、前記第一コンテンツに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報を取得する第一判定ステップと、前記第二コンテンツに前記第一処理を適用することで、前記第二コンテンツの種別を示す第二種別情報を取得する、前記第一取得ステップよりも前に行う第二判定ステップと、前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出ステップと、前記第一算出ステップで算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力ステップと、を含む。
 上記態様によれば、上記推定装置と同様の効果を奏する。
 また、本開示における推定システムは、コンテンツを保有しているコンテンツサーバと、推定装置と、前記コンテンツを提示する提示装置とを備え、前記推定装置は、第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを、前記コンテンツサーバから通信回線を介して取得する取得部と、前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備え、前記提示装置は、前記推定装置から通信回線を介して前記特定情報を取得し、取得した前記特定情報を用いて前記コンテンツの提示を制御する。
 上記態様によれば、上記推定装置と同様の効果を奏する。
 なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
図1は、実施の形態1に係る推定装置を備える装置の外観の一例を示す説明図である。 図2は、実施の形態1に係る推定装置の機能構成を示すブロック図である。 図3は、実施の形態1に係る判定部による種別判定のための学習に用いられる訓練データの一例を示す説明図である。 図4は、実施の形態1に係る判定部による種別判定を示す説明図である。 図5は、実施の形態1に係る過去の種別判定の結果を示す種別情報の一例を示す説明図である。 図6は、実施の形態1に係る推定装置による種別判定処理を示すフロー図である。 図7は、実施の形態2に係る推定装置の機能構成を示すブロック図である。 図8は、実施の形態2に係る判定部による種別の判定に用いられる特徴の例を示す説明図である。 図9は、実施の形態2に係る判定部による種別判定に用いられる条件の例を示す説明図である。 図10は、実施の形態2に係る推定装置が実行する処理を示すフロー図である。 図11は、実施の形態3に係る推定装置の機能構成を示すブロック図である。 図12は、実施の形態4に係る種別変更に関する遷移を示す説明図である。 図13は、実施の形態4に係る出力部が実行する処理を示す第一のフロー図である。 図14は、実施の形態4に係る出力部が実行する処理を示す第二のフロー図である。 図15は、実施の形態4に係る出力部が実行する処理を示す第三のフロー図である。 図16は、実施の形態4に係る出力部が実行する処理を示す第四のフロー図である。 図17は、実施の形態4に係る出力部が実行する処理を示す第五のフロー図である。 図18は、各実施の形態の変形例に係る推定システムの機能構成を示す説明図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
 (実施の形態1)
 本実施の形態において、コンテンツの種別の推定における誤りを抑制する推定装置などについて説明する。
 図1は、本実施の形態に係る推定装置10を備えるテレビジョン受像機1の外観の一例を示す説明図である。図1に示されるテレビジョン受像機1は、音および映像を含むコンテンツを含む放送波を受信して、コンテンツに含まれる音および映像を提示する。テレビジョン受像機1は、チューナ(不図示)とスピーカ5と画面6とを備え、放送波に含まれる信号からチューナを介して得られた音をスピーカ5により出力するとともに、放送波に含まれる信号からチューナを介して得られた画像を画面6に表示する。なお、コンテンツは、少なくとも映像を含むある時間長のデータや信号を含んでいる。また、コンテンツは、音および映像を含むある時間長のデータであってもよく、さらにメタ情報を含んでもよい。コンテンツの時間長は、映像の1フレームに相当する時間以上であり、かつ、数秒~数時間以下の時間である。メタ情報は、SI(Service Information)情報を含んでもよい。
 なお、推定装置10がテレビジョン受像機1に備えられる場合を例として説明するが、これに限られず、推定装置10は、放送波を受信してコンテンツを記憶する録画機に備えられてもよい。
 推定装置10は、テレビジョン受像機1が受信した放送波を取得し、放送波に含まれる信号から得られるコンテンツが、所定の複数の種別のうちのどの種別のコンテンツであるかを推定する。推定装置10は、推定結果を示す情報を単に出力してもよいし、推定結果を示す情報に基づいてテレビジョン受像機1を制御してもよい。
 コンテンツの予め定められた複数の種別には、例えばスポーツ、ミュージックまたはトークなどが含まれる。
 例えば、推定装置10は、推定結果として得られる種別に基づいてテレビジョン受像機1が備えるスピーカ5を制御することで、スピーカ5による音響効果を変化させる。推定装置10は、例えば、コンテンツの種別を「スポーツ」と推定した場合には、音の広がりを比較的大きくし、また、視聴者が音に包まれる感じを抱くような効果を演出するように制御する。また、推定装置10は、コンテンツの種別を「ミュージック」と推定した場合には、音の広がりを比較的大きくし、また、ボーカルの声が強調されるような効果を演出するように制御する。また、推定装置10は、コンテンツの種別を「トーク」と推定した場合には、視聴者が出演者の声を聞き取りやすいような効果を演出するように制御する。
 図2は、本実施の形態に係る推定装置10の機能構成を示すブロック図である。
 図2に示されるように、推定装置10は、取得部11と、判定部12と、記憶部13と、算出部14と、出力部15とを備える。なお、推定装置10が備える機能部は、CPU(Central Processing Unit)がメモリを用いて所定のプログラムを実行することで実現され得る。
 取得部11は、コンテンツを取得する機能部である。取得部11は、テレビジョン受像機1が取得するコンテンツを順次に取得する。取得部11が取得するコンテンツには、時刻が紐付けられており、紐付けられる時刻の一例は、当該コンテンツが放送される時刻である。取得部11は、取得したコンテンツを判定部12に提供する。
 取得部11が取得するコンテンツは、少なくとも、種別の推定の対象となるコンテンツである対象コンテンツ(第一コンテンツに相当)と、その対象コンテンツより所定時間前の時刻に紐付けられているコンテンツである参照コンテンツ(第二コンテンツに相当)が含まれる。
 所定時間は、人間の生活の周期として用いられ得る時間、言い換えれば、人間が生活において同じような行動を繰り返す単位となる時間として予め定められた時間を採用することができる。所定時間は、例えば、1分、1時間、1日、1週間、1カ月および1年などであり、その時間から10%程度増減した時間としてもよい。また、参照コンテンツより所定時間前のコンテンツも参照コンテンツに含めてもよい。つまり、参照コンテンツは、1以上あってもよく、その場合、対象コンテンツに紐付けられた時刻から所定時間のN倍(Nは自然数)の時間だけ過去へ進んだ時刻に紐付けられたコンテンツが参照コンテンツになる。
 また、所定時間としてコンテンツの1フレームに相当する時間(例えばフレームレートが60fpsである場合には1/60秒)を用いることもできる。この場合、対象コンテンツの直前のフレームに係るコンテンツが参照コンテンツである。以降では、所定時間が1日である場合を例として説明する。
 判定部12は、コンテンツの種別を判定するための処理を行う機能部である。判定部12は、コンテンツの種別を判定するための第一処理を対象コンテンツと参照コンテンツとのそれぞれに適用することで、対象コンテンツの種別を示す第一種別情報と、参照コンテンツの種別を示す第二種別情報とを取得する。なお、判定部12を第一判定部ともいう。
 判定部12が行う処理の一例は、機械学習により構築された認識モデルを用いてコンテンツの種別を判定する処理(いわゆるAI(Artificial Intelligence)を用いた処理)であり、この場合を例として説明するが、これに限られない。判定部12は、適切な機械学習によって構築された認識モデルを保有しており、取得部11が取得したコンテンツを認識モデルに入力することで出力される、当該コンテンツの種別情報を判定結果とする。
 認識モデルは、コンテンツの種別を認識するための認識モデルである。認識モデルは、1つのコンテンツと、その1つのコンテンツの種別との組を1以上含む教師データを用いて機械学習により予め構築された認識モデルである。認識モデルは、例えば、ニューラルネットワークモデル、より具体的には、畳み込みニューラルネットワークモデル(CNN(Convolutional Neural Network))である。認識モデルが畳み込みニューラルネットワークモデルである場合、教師データに基づく機械学習によって、コンテンツに含まれる画像または音等の特徴に基づいて畳み込み層のフィルタの係数(重み)が決定されることで認識モデルが構築される。
 記憶部13は、判定部12による判定の結果を示す種別情報を一時的に記憶している記憶装置である。記憶部13には、具体的には、参照コンテンツの第二種別情報が格納されている。格納された第二種別情報は、算出部14によって読み出される。
 算出部14は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部14は、判定部12から対象コンテンツの第一種別情報を取得し、また、記憶部13から参照コンテンツの第二種別情報を取得する。そして、算出部14は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する。ここで、信頼度情報とは、算出部14が算出する第一種別情報が、取得部11が取得したコンテンツの種別を示す情報としてどの程度信頼できるかを示す指標である。信頼度が高いまたは低いことを、それぞれ「高信頼」または「低信頼」と表現することもある。
 出力部15は、対象コンテンツの推定結果を出力する機能部である。具体的には、出力部15は、算出部14が算出した信頼度情報を用いて、第一種別情報から導き出される対象コンテンツの種別を特定する特定情報を、推定の結果として出力する。なお、対象コンテンツが予め定められた種別に該当しない場合には、デフォルト種別を示す特定情報を生成して出力する。デフォルト種別の特定情報は、予め定められた複数の種別のいずれにも該当しないことを示す特定情報である。
 なお、出力部15が特定情報を出力することは、単に特定情報を出力することも含まれるし、特定情報を用いてテレビジョン受像機1を制御することも含まれる。例えば、出力部15は、特定情報により特定されるコンテンツの種別に対応する音響効果を演出するようにスピーカ5を制御する。
 例えば、判定部12について、第一種別情報は、対象コンテンツが所定の種別に分類される確率である第一確率を含んでいてもよい。また、第二種別情報は、参照コンテンツが上記所定の種別に分類される確率である第二確率を含んでいてもよい。この場合、算出部14は、第一確率と、第二確率との平均値を信頼度として含む信頼度情報を算出してもよい。なお、参照コンテンツが複数存在する場合には、上記において、複数の参照コンテンツそれぞれについての複数の第二確率が、上記「複数の第二確率」として用いられる。
 また、参照コンテンツは、対象コンテンツとは異なる複数のコンテンツを含んでいてもよい。その場合、算出部14は、複数のコンテンツのそれぞれについての所定の種別に分類される確率と、第一確率との移動平均値を信頼度として含む信頼度情報を算出してもよい。
 また、上記場合には、算出部14は、複数のコンテンツのそれぞれについての所定の種別に分類される確率と、第一確率とについて、複数のコンテンツのうちコンテンツに紐付けられている時刻がより新しいほど重みを大きくした加重移動平均値を信頼度として含む信頼度情報を算出してもよい。
 上記のように、所定時間として人間の生活の周期として用いられ得る時間を用いると、推定装置は、人間の生活の周期として用いられる所定時間を隔てた第一コンテンツと第二コンテンツとを用いて種別の判定をする。人間の生活の周期の時間を隔てているので、第一コンテンツと第二コンテンツとが同じ種別である蓋然性が比較的高い。そのため、第一コンテンツの種別の推定精度を上昇させることができる。
 以降において、機械学習に用いられる訓練データおよび判定処理について詳細に説明する。
 図3は、本実施の形態に係る判定部12による種別判定のための学習に用いられる訓練データの一例を示す説明図である。
 図3に示される訓練データは、1つのコンテンツと1つの種別情報とが対応付けられた教師データである。
 例えば、図3に示される教師データ#1では、サッカーをプレイしている選手を示す画像を含むコンテンツと、コンテンツの種別としての「スポーツ」とが対応付けられている。
 また、教師データ#2では、コンサートで歌唱している歌手を示す画像を含むコンテンツと、コンテンツの種別としての「ミュージック」とが対応付けられている。
 また、教師データ#3では、対話をしている出演者を示す画像を含むコンテンツと、コンテンツの種別としての「トーク」とが対応付けられている。
 教師データには、図3に具体的に示される3つのコンテンツの他にも、数千~数万以上のコンテンツが含まれ得る。また、コンテンツの種別は、所定の複数の種別のうちのいずれかの種別である。ここでは、所定の複数の種別は、例えば「スポーツ」、「ミュージック」および「トーク」の3つである場合を例として説明するが、これに限られない。
 図3に示される教師データを用いた機械学習により構築された認識モデルは、未知のコンテンツが入力された場合に、そのコンテンツの画像および音の特徴に基づいて、そのコンテンツの種別を示す種別情報を出力する。
 出力される種別情報は、(1)コンテンツが所定の複数の種別のうちのどの種別であるかを特定する情報であってもよいし、(2)コンテンツが所定の複数の種別それぞれに分類される確率である信頼度を含む情報であってもよい。
 図4は、本実施の形態に係る判定部12による種別判定を示す説明図である。
 図4に示されるコンテンツ31は、取得部11が取得したコンテンツの一例である。コンテンツ31は、サッカーをプレイしている選手を示す画像であるが、図3の教師データ#1のコンテンツに含まれる画像とは異なる。
 判定部12は、コンテンツ31に対して判定処理を適用することで、コンテンツ31の種別を判定する。判定部12が判定の結果として示す種別情報の2つの例が、(a)および(b)に示されている。
 図4の(a)は、コンテンツが所定の複数の種別のうちのどの種別であるかを特定する種別情報の例であり、上記(1)に対応する。
 図4の(a)に示される種別情報は、コンテンツ31が「スポーツ」の種別であることを示している。
 図4の(b)は、コンテンツが所定の複数の種別それぞれに分類される確率である信頼度を含む種別情報の例であり、上記(2)に対応する。
 図4の(b)に示される種別情報は、コンテンツ31の種別情報が「0.6/0.3/0.1」である、(つまり「スポーツ」、「ミュージック」および「トーク」に分類される確率がそれぞれ0.6、0.3および0.1である、以下同様)ことを示している。
 なお、ここでは上記のように信頼度として確率(より具体的には0から1までの範囲に含まれる数値)を用いる場合を例に説明するが、信頼度は、種別ごとの一致度を示す2値(例えば0または1)のいずれかで表現されてもよい。
 図5は、本実施の形態に係る過去の種別判定の結果を示す種別情報の一例を示す説明図である。
 算出部14は、判定部12により提供された種別情報に基づいて、対象コンテンツの種別を信頼度とともに算出する。
 記憶部13には、過去のコンテンツについて判定部12により判定された種別情報が格納されている。算出部14は、記憶部13に格納されている種別情報のうち、対象コンテンツに紐付けられている時刻より所定時間前の時刻に紐付けられているコンテンツの種別情報を取得する。
 例えば、推定装置10は、1つの参照コンテンツを用いる場合には、以下のように対象コンテンツの信頼度情報を算出する。すなわち、対象コンテンツに紐付けられている時刻が「2020年2月2日 19:00」であるときには、算出部14は、上記時刻の所定時間(つまり1日)前である時刻「2020年2月1日 19:00」に紐付けられているコンテンツの種別情報41を記憶部13から読み出す。そして、算出部14は、対象コンテンツの種別情報(図4参照)と、参照コンテンツの種別情報41との種別ごとの平均値を、対象コンテンツの信頼度情報として算出する。
 この例では、対象コンテンツの種別情報が「0.6/0.3/0.1」であり、参照コンテンツの種別情報が「0.7/0.2/0.1」であるので、算出部14は、種別ごとの平均値をとることで、対象コンテンツの信頼度情報を「0.65/0.25/0.1」と算出する。
 また、推定装置10は、2つの参照コンテンツを用いる場合には、以下のように対象コンテンツの信頼度情報を算出する。すなわち、上記と同様の対象コンテンツに対して、コンテンツの種別情報41および42を記憶部13から読み出す。そして、算出部14は、対象コンテンツの種別情報(図4参照)と、参照コンテンツの種別情報41および42との種別ごとの平均値を、対象コンテンツの信頼度情報として算出する。
 この例では、算出部14は、種別ごとの平均値をとることで、対象コンテンツの信頼度情報を「0.63/0.27/0.1」と算出する。
 図6は、本実施の形態に係る推定装置10による種別判定処理を示すフロー図である。
 ステップS101において、取得部11は、対象コンテンツを取得する。なお、このとき、記憶部13には、対象コンテンツより所定時間前の第二時刻が紐付けられた参照コンテンツの種別情報がすでに格納されているとする。参照コンテンツの種別情報は、例えば、このステップS101が実行されるより前に図6に示される一連の処理が実行されたときに判定部12が判定の結果(ステップS102参照)として格納したものである。
 ステップS102において、判定部12は、ステップS102で取得部11が取得した対象コンテンツの種別の判定の処理を実行する。判定部12は、判定の処理の結果として、対象コンテンツに関して複数の種別それぞれについての信頼度を含む種別情報を算出部14に提供する。また、判定部12は、上記種別情報をさらに記憶部13に格納する。記憶部13に格納した種別情報は、次に図6に示される一連の処理が実行されるときに、参照コンテンツの種別情報として用いられ得る(ステップS103参照)。
 ステップS103において、算出部14は、ステップS101で取得したコンテンツより所定時間前のコンテンツ(第二コンテンツに相当)の種別情報を記憶部13から読み出す。
 ステップS104において、算出部14は、ステップS102で算出した対象コンテンツの種別情報と、ステップS103で読み出した参照コンテンツの種別情報とから、対象コンテンツの種別ごとの信頼度(信頼度情報に相当)を算出する。
 ステップS105において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS105でYes)には、ステップS106に進み、そうでない場合(ステップS105でNo)には、ステップS107に進む。
 ステップS106において、出力部15は、信頼度情報に含まれる種別のうち、信頼度が最大である種別を示す特定情報を生成する。
 ステップS107において、出力部15は、デフォルト種別を示す特定情報を生成する。
 ステップS108において、出力部15は、ステップS106またはS107で生成した特定情報を出力する。
 図6に示される一連の処理により、推定装置10は、コンテンツの種別の推定における誤りを抑制することができる。
 (実施の形態2)
 本実施の形態において、コンテンツの種別の推定における誤りを抑制する推定装置について、実施の形態1とは異なる構成を説明する。なお、実施の形態1における構成要素と同じものについては、実施の形態1と同じ符号を付し、詳細な説明を省略する。
 図7は、本実施の形態に係る推定装置10Aの機能構成を示すブロック図である。
 図7に示されるように、推定装置10Aは、取得部11と、判定部12および22と、記憶部13および23と、算出部14および24と、出力部15Aとを備える。なお、推定装置10Aが備える機能部は、CPU(Central Processing Unit)がメモリを用いて所定のプログラムを実行することで実現され得る。
 取得部11は、実施の形態1の取得部11と同様に、コンテンツを取得する機能部である。取得部11は、取得したコンテンツを、判定部12と判定部22とに提供する。
 判定部12は、コンテンツの種別を判定するための処理(第一処理に相当)を行う機能部である。判定部12は第一判定部に相当する。第一処理は、機械学習により構築された認識モデルを用いてコンテンツの種別を判定する処理(いわゆるAIを用いた処理)である。判定部12は、適切な機械学習によって構築された認識モデル16を保有しており、取得部11が取得したコンテンツを認識モデル16に入力することで出力される、当該コンテンツの種別情報を判定結果とする。認識モデル16については実施の形態1における説明と同様である。
 記憶部13は、実施の形態1における記憶部13と同様、種別情報を一時的に記憶している記憶装置である。
 算出部14は、実施の形態1における算出部14と同様、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部14は、算出した信頼度情報を出力部15Aに提供する。
 判定部22は、コンテンツの種別を判定するための処理(第二処理に相当)を行う機能部である。判定部22は、第二処理を対象コンテンツと参照コンテンツとのそれぞれに適用することで、対象コンテンツの種別を示す第三種別情報と、参照コンテンツの種別を示す第四種別情報とを取得する。判定部22は第二判定部に相当する。第二処理は、判定部12が実行する第一処理とは異なる処理であり、コンテンツの特徴(つまり、映像、音およびメタ情報などの特徴)を解析することで種別情報を取得する処理である。判定部22は、第二処理を実行するための解析部26を有する。
 解析部26は、コンテンツを解析することで、コンテンツの種別を判定する機能部である。解析部26は、コンテンツの映像データ、音データおよびメタ情報における特徴を解析する処理を実行する。具体的には、解析部26は、コンテンツの映像に含まれる人間の目線の検出処理、コンテンツの映像に含まれる物体の動きの検出処理、コンテンツの音に含まれる特定の音の検出処理、および、コンテンツの映像に含まれる物体のパターン検出処理のいずれかを少なくとも実行する。映像データおよび音データの解析には、周知の画像認識技術、音認識技術(音声認識技術)が用いられ得る。解析部26は、コンテンツの映像、音またはメタ情報に所定の情報またはデータが検出されることに基づいてコンテンツの種別を判定する。また、解析部26は、さらに、コンテンツの複数の種別それぞれについて、コンテンツが当該種別に該当しないことを示す条件(排他条件ともいう)が満たされるか否かを判定する判定処理を用いてもよい。これにより、推定装置は、コンテンツがある種別に該当しない条件を用いて、より容易に、コンテンツの種別の推定における誤りを抑制することができる。具体的な処理については後で説明する。
 記憶部23は、種別情報を一時的に記憶している記憶装置である。記憶部23には、判定部22による判定の結果を示す種別情報が格納されており、参照コンテンツの第二種別情報が含まれている。記憶部23に格納されている識別情報と、記憶部13に格納されている識別情報とは、参照コンテンツの識別情報であるという点では共通であるが、判定した主体が判定部12であるか、または、判定部22であるかが異なる。記憶部23に格納された第二種別情報は、算出部24によって読み出される。
 算出部24は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部24は、判定部22から対象コンテンツの第一種別情報を取得し、また、記憶部23から参照コンテンツの第二種別情報を取得する。そして、算出部24は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する。ここで、信頼度情報とは、算出部24が算出する第一種別情報が、取得部11が取得したコンテンツの種別を示す情報としてどの程度信頼できるかを示す指標である。
 出力部15Aは、実施の形態1における出力部15と同様、対象コンテンツの推定結果を出力する機能部である。具体的には、出力部15Aは、算出部14が算出した信頼度情報と、算出部24が算出した信頼度情報とを用いて、第一種別情報および第三種別情報の少なくとも一方から導き出される対象コンテンツの種別を特定する特定情報を出力する。
 なお、算出部14が算出した信頼度情報と、算出部24が算出した信頼度情報とを用いて、第一種別情報および第三種別情報のいずれの信頼度も低い場合は、出力部15Aは、デフォルト種別を示す特定情報を出力してもよい。
 図8は、本実施の形態に係る判定部22による種別の判定に用いられる特徴の例を示す説明図である。
 図8には、コンテンツの複数の種別それぞれについて、そのコンテンツの映像または音に検出され得る特徴が示されている。判定部22は、解析部26により対象コンテンツの映像または音を解析することで、図8に示されている特徴が検出された場合に、対象コンテンツの種別が、検出された特徴に対応する種別であると判定する。
 図8に示されるように、例えば、判定部22は、動きベクトルに関する特徴として、動きが比較的速いという特徴、つまり、時間的に連続する画像間における動きベクトルが比較的大きいという特徴を解析部26が検出した場合に、スポーツ種別のコンテンツと判定できる。
 また、判定部22は、画像におけるパターンに関する特徴として、ユニフォームの画像パターンを解析部26が検出した場合に、スポーツ種別のコンテンツと判定できる。
 また、判定部22は、音におけるパターンに関する特徴として、音楽(所定のリズム、所定のメロディ)のパターンを解析部26が検出した場合に、ミュージックの種別のコンテンツと判定できる。
 また、判定部22は、画像におけるパターンに関する特徴として、楽器の画像パターンを解析部26が検出した場合に、ミュージックの種別のコンテンツと判定できる。
 また、判定部22は、目線に関する特徴として、コンテンツの出演者である人間の目線がカメラ目線である(つまり、出演者がカメラに目線を向けている)ことを解析部26が検出した場合に、トークの種別のコンテンツと判定できる。
 また、判定部22は、動きベクトルに関する特徴として、動きがほぼないという特徴、つまり、時間的に連続する画像間における動きベクトルが極めて小さいという特徴を解析部26が検出した場合に、トークの種別のコンテンツと判定できる。
 図9は、本実施の形態に係る判定部22による種別判定に用いられる条件の例を示す説明図である。図9に示される条件は、コンテンツの複数の種別それぞれについて、コンテンツが当該種別に該当しないことを示す排他条件の一例である。
 図9に示されるように、例えば、判定部22は、動きベクトルに関する特徴として動きが検出されないという特徴が検出されない場合、かつ、画像におけるパターンに関する特徴としてユニフォームの画像パターンが検出されない場合に、スポーツ種別のコンテンツではないと判定できる。
 また、判定部22は、音におけるパターンの特徴として音が検出されない場合に、ミュージックの種別のコンテンツではないと判定できる。
 また、判定部22は、目線に関する特徴として出演者のカメラ目線が検出されない場合、かつ、動きベクトルに関する特徴として激しい動きが検出された場合にトークの種別のコンテンツではないと判定できる。
 図10は、本実施の形態に係る推定装置10Aが実行する処理を示すフロー図である。
 図10に示されるように、ステップS201において、判定部12は、種別情報(第一種別情報および第二種別情報)を取得する。ステップS201の処理は、図6のステップS101~S102の処理に相当する。
 ステップS202において、算出部14は、コンテンツの信頼度情報を算出する。ステップS202の処理は、図6のステップS103~S104の処理に相当する。
 ステップS203において、判定部22は、種別情報(第三種別情報および第四種別情報)を取得する。ステップS203の処理は、判定部22により図6のステップS101~S102の処理を実行することに相当する。
 ステップS204において、算出部24は、コンテンツの信頼度情報を取得する。ステップS204の処理は、算出部24により図6のステップS103~S104の処理を実行することに相当する。
 ステップS205において、出力部15Aは、ステップS202で算出部14が算出した信頼度情報に含まれる信頼度と、ステップS204で算出部24が算出した信頼度情報に含まれる信頼度との少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS205でYes)には、ステップS206に進み、そうでない場合(ステップS205でNo)には、ステップS207に進む。
 ステップS206において、出力部15Aは、上記信頼度情報に含まれる種別のうち、信頼度が最大である種別を示す特定情報を生成する。
 ステップS207において、出力部15Aは、予め定められた複数の種別のいずれにも該当しないことを示す特定情報を生成する。
 ステップS208において、出力部15Aは、ステップS206またはS207で生成した特定情報を出力する。
 図10に示される一連の処理により、推定装置10Aは、認識モデルを用いた判定と、解析を用いた判定との両方の判定をしたうえで、信頼度が高い方の結果に基づいてコンテンツの推定をすることにより、コンテンツの種別の推定における誤りを抑制することができる。
 (実施の形態3)
 本実施の形態において、コンテンツの種別の推定における誤りを抑制する推定装置について、実施の形態1および2とは異なる構成を説明する。なお、実施の形態1における構成要素と同じものについては、実施の形態1と同じ符号を付し、詳細な説明を省略する。
 図11は、本実施の形態に係る推定装置10Bの機能構成を示すブロック図である。
 図11に示されるように、推定装置10Bは、取得部11と、判定部12と、記憶部13と、算出部14Aと、出力部15と、解析部27とを備える。なお、推定装置10Bが備える機能部は、CPU(Central Processing Unit)がメモリを用いて所定のプログラムを実行することで実現され得る。
 取得部11は、実施の形態1の取得部11と同様に、コンテンツを取得する機能部である。取得部11は、取得したコンテンツを、判定部12と解析部27とに提供する。
 判定部12は、コンテンツの種別を判定するための処理(第一処理に相当)を行う機能部である。判定部12は第一判定部に相当する。第一処理は、機械学習により構築された認識モデルを用いてコンテンツの種別を判定する処理(いわゆるAIを用いた処理)である。判定部12は、適切な機械学習によって構築された認識モデル16を保有しており、取得部11が取得したコンテンツを認識モデル16に入力することで出力される、当該コンテンツの種別情報を判定結果とする。認識モデル16については実施の形態1における説明と同様である。
 記憶部13は、実施の形態1における記憶部13と同様、種別情報を一時的に記憶している記憶装置である。
 算出部14Aは、実施の形態1における算出部14と同様、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部14Aは、第一種別情報の信頼度情報を算出する際に、解析部27の解析結果を加味して信頼度情報を算出する。算出部14Aは、算出した信頼度情報を出力部15に提供する。
 具体的には、算出部14Aは、対象コンテンツと参照コンテンツとの画像情報の類似性に基づいて信頼度を調整してもよい。具体的には、算出部14Aは、解析部27によって解析された、対象コンテンツと参照コンテンツとの画像の色(画素値)、位置、色(画素値)の空間周波数(つまり、空間軸上での画素値を波ととらえた場合の周波数)、輝度、または、彩度の類似度を取得する。そして、取得した類似度が所定以上である場合に、信頼度を上昇させるようにしてもよい。
 また、算出部14Aは、対象コンテンツのメタ情報を用いて、または、対象コンテンツと参照コンテンツとのメタ情報を比較することで、信頼度を調整してもよい。具体的には、算出部14Aは、算出した対象コンテンツの種別情報において、メタ情報に含まれる番組情報と一致する種別の信頼度情報を上昇させるようにしてもよい。例えば、算出した対象コンテンツの種別情報が「0.6/0.3/0.1」である場合に、番組情報が「野球中継」であった場合には、「1.2/0.3/0.1」というように、スポーツ種別の信頼度を2倍にしてもよい。
 出力部15は、実施の形態1の出力部15と同様に、対象コンテンツの推定結果を出力する機能部である。
 解析部27は、コンテンツの映像、音およびメタ情報などを解析することで、コンテンツの種別を判定する機能部である。解析部27は、具体的には、コンテンツの映像、音およびメタ情報における特徴を解析する処理を実行し、その解析結果を算出部14Aに提供する。コンテンツの映像の解析処理には、画像の色(画素値)、位置、色(画素値)の空間周波数、輝度、または、彩度の類似度の解析が含まれ得る。また、コンテンツの映像の解析処理には、シーン切り替えの検出が含まれ得る。
 推定装置10Bによる種別判定処理は、実施の形態1における推定装置10の種別判定処理と同様であるので、詳細な説明を省略する。推定装置10Bによる種別判定処理において、推定装置10による種別判定処理と異なるのは、ステップS104(図6参照)の信頼度の算出に係る処理に上記の処理が含まれることである。
 なお、判定部22は、第二処理で解析したコンテンツの特徴に応じて、判定部12による第一処理の実行を禁止する制御をしてもよい。例えば、判定部22は、コンテンツのフレームレートが24fpsであるという特徴、又は、コンテンツの音がドルビー音(5.1ch)で構成されているという特徴がある場合に、判定部12による第一処理を実行しない、つまり、禁止する制御をしてもよい。この場合、判定部22は、さらに、当該コンテンツが映画の種別であることを示す種別情報を生成してもよい。
 (実施の形態3の変形例)
 本変形例において、コンテンツの種別の推定における誤りを抑制する推定装置について、実施の形態1、2および3とは異なる構成を説明する。なお、実施の形態1における構成要素と同じものについては、実施の形態1と同じ符号を付し、詳細な説明を省略する。
 図12は、本変形例に係る種別変更に関する遷移を示す説明図である。図12では、縦軸を音域(可聴音域)とし、横軸を音のチャネル数として、コンテンツの種別それぞれを頂点とし、種別間の遷移を辺としたグラフを示している。ここで、遷移とは、出力部15が出力する特定情報が、前回に出力した特定情報から、新たに決定した特定情報に変わることである。
 本変形例の推定装置は、出力部15が特定情報を決定するときに、前回に出力した特定情報などを考慮して、特定情報を決定し、決定した特定情報を出力する。
 図12を参照しながら、特定情報により特定される種別の遷移の例を説明する。
 例えば、出力部15は、前回出力した特定情報がデフォルト種別を示すときに、判定部12および算出部14からスポーツ種別またはミュージック種別を示す高信頼の種別情報を取得した場合、ミュージック種別へ遷移させる。同様に、前回出力した特定情報がデフォルト種別を示すときにトーク種別を示す高信頼の種別情報を取得した場合、トーク種別へ遷移させる。前回出力した特定情報がデフォルト種別を示すときに、算出部14から取得した信頼度が比較的低い場合、デフォルト種別を維持させる。
 また、出力部15は、前回出力した特定情報がスポーツ種別を示すときに、判定部12および算出部14からミュージック種別を示す高信頼の種別情報を取得した場合、ミュージック種別へ遷移させる。同様に、前回出力した特定情報がスポーツ種別を示すときに、判定部12および算出部14からトーク種別を示す高信頼の種別情報を取得した場合、または、算出部14から取得した信頼度が比較的低い場合、デフォルト種別へ遷移させる。前回出力した特定情報がスポーツ種別を示すときに、判定部12および算出部14からスポーツ種別を示す高信頼の種別情報を取得した場合、スポーツ種別を維持させる。
 また、出力部15は、前回出力した特定情報がミュージック種別を示すときに、判定部12および算出部14からスポーツ種別を示す高信頼の種別情報を取得した場合、スポーツ種別へ遷移させる。同様に、前回出力した特定情報がミュージック種別を示すときに判定部12および算出部14からトーク種別を示す高信頼の種別情報を取得した場合、または、算出部14から取得した信頼度が比較的低い場合、デフォルト種別へ遷移させる。前回出力した特定情報がミュージック種別を示すときに、判定部12および算出部14からミュージック種別を示す高信頼の種別情報を取得した場合、ミュージック種別を維持させる。
 また、出力部15は、前回出力した特定情報がトーク種別を示すときに、判定部12および算出部14からスポーツ種別またはミュージック種別を示す高信頼の種別情報を取得した場合、または、算出部14から取得した信頼度が比較的低い場合、デフォルト種別へ遷移させる。同様に、前回出力した特定情報がトーク種別を示すときに、判定部12および算出部14からトーク種別を示す種別情報を取得した場合、トーク種別を維持させる。
 本変形例に係る出力部15の処理を以下で詳しく説明する。
 図13は、本変形例に係る出力部15が実行する処理を示す第一のフロー図である。図13に示される処理は、図6の破線枠SAで囲まれた処理、つまりステップS105~ステップS108の処理に相当する。
 ステップS301において、出力部15は、前回に出力した特定情報により処理を分岐させる。前回に出力した特定情報がデフォルト種別を示す場合にはステップS302を実行し、前回に出力した特定情報がスポーツ種別を示す場合にはステップS303を実行し、前回に出力した特定情報がミュージック種別を示す場合にはステップS304を実行し、前回に出力した特定情報がトーク種別を示す場合にはステップS305を実行する。
 ステップS302において、出力部15は、デフォルト種別から他の種別への遷移に係る処理を実行する。
 ステップS303において、出力部15は、スポーツ種別から他の種別への遷移に係る処理を実行する。
 ステップS304において、出力部15は、ミュージック種別から他の種別への遷移に係る処理を実行する。
 ステップS305において、出力部15は、トーク種別から他の種別への遷移に係る処理を実行する。
 ステップS306において、出力部15は、ステップS302~S305で生成した特定情報を出力する。
 以降において、ステップS302~S305それぞれについて詳しく説明する。
 図14は、本変形例に係る出力部15が実行する処理を示す第二のフロー図である。図14に示される処理は、ステップS302に含まれる処理であり、出力部15が前回に出力した特定情報がデフォルト種別である場合に出力部15が実行する処理である。
 ステップS311において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS311でYes)には、ステップS312に進み、そうでない場合(ステップS311でNo)には、ステップS322に進む。
 ステップS312において、出力部15は、ステップS104で算出部14が算出した信頼度情報について、排他条件(図9参照)が満たされるか否かを判定する。排他条件が満たされると判定した場合(ステップS312でYes)には、ステップS322に進み、そうでない場合(ステップS312でNo)には、ステップS313に進む。
 ステップS313において、出力部15は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部27による解析結果から判断され得る。シーン切り替えが発生した場合(ステップS313でYes)には、ステップS315に進み、そうでない場合(ステップS313でNo)には、ステップS314に進む。
 ステップS314において、出力部15は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合(ステップS314でYes)にはステップS315に進み、そうでない場合(ステップS314でNo)にはステップS321に進む。
 ステップS315において、出力部15は、種別を「ミュージック」または「トーク」に設定する。このとき、判定部12による判定の結果として得られる種別が「ミュージック」または「スポーツ」であるときには、出力部15は、種別を「ミュージック」に設定し、判定部12による判定の結果として得られる種別が「デフォルト」であるときには、出力部15は、種別を「デフォルト」に設定する。
 ステップS321において、出力部15は、カウンタのインクリメント処理を実行する。ここで、カウンタのインクリメント処理とは、本図に示される一連の処理を繰り返し実行するときに、繰り返すたびに本ステップの処理を連続して実行した回数をカウントする処理である。初めて本ステップに到達したときにはカウンタ値が1に初期化され、次の一連の処理でも本ステップに到達した場合には、カウンタ値が1加算されて2になる。以降でも同様とする。
 ステップS322において、出力部15は、種別を「デフォルト」に設定する。
 ステップS315またはS322の処理を終えたら、ステップS106(図13)に進む。
 図15は、本変形例に係る出力部15が実行する処理を示す第三のフロー図である。図15に示される処理は、ステップS303に含まれる処理であり、出力部15が前回に出力した特定情報がスポーツ種別である場合に出力部15が実行する処理である。
 ステップS331において、出力部15は、判定部12による判定結果の種別が「スポーツ」であるか否かを判定する。種別が「スポーツ」であると判定した場合(ステップS331でYes)にはステップS332に進み、そうでない場合(ステップS331でNo)には、ステップS341に進む。
 ステップS332において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS332でYes)には、ステップS333に進み、そうでない場合(ステップS332でNo)には、ステップS351に進む。
 ステップS333において、出力部15は、ステップS104で算出部14が算出した信頼度情報について、排他条件(図9参照)が満たされるか否かを判定する。排他条件が満たされると判定した場合(ステップS333でYes)には、ステップS351に進み、そうでない場合(ステップS333でNo)には、ステップS334に進む。
 ステップS334において、出力部15は、種別を「スポーツ」に設定する。
 ステップS341において、出力部15は、判定部12による判定結果の種別が「ミュージック」であるか否かを判定する。種別が「スポーツ」であると判定した場合(ステップS341でYes)にはステップS342に進み、そうでない場合(ステップS341でNo)には、ステップS351に進む。
 ステップS342において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS342でYes)には、ステップS343に進み、そうでない場合(ステップS342でNo)には、ステップS351に進む。
 ステップS343において、出力部15は、種別を「ミュージック」に設定する。
 ステップS351において、出力部15は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部27による解析結果から判断され得る。シーン切り替えが発生した場合(ステップS351でYes)には、ステップS354に進み、そうでない場合(ステップS351でNo)には、ステップS352に進む。
 ステップS352において、出力部15は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合(ステップS352でYes)にはステップS354に進み、そうでない場合(ステップS352でNo)にはステップS353に進む。
 ステップS353において、出力部15は、カウンタのインクリメント処理を実行する。
 ステップS354において、出力部15は、種別を「デフォルト」に設定する。
 ステップS334、S354またはS343の処理を終えたら、ステップS106(図13)に進む。
 図16は、本変形例に係る出力部15が実行する処理を示す第四のフロー図である。図16に示される処理は、ステップS304に含まれる処理であり、出力部15が前回に出力した特定情報がミュージック種別である場合に出力部15が実行する処理である。
 ステップS361において、出力部15は、判定部12による判定結果の種別が「ミュージック」であるか否かを判定する。種別が「ミュージック」であると判定した場合(ステップS361でYes)にはステップS362に進み、そうでない場合(ステップS361でNo)には、ステップS371に進む。
 ステップS362において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS362でYes)には、ステップS363に進み、そうでない場合(ステップS362でNo)には、ステップS381に進む。
 ステップS363において、出力部15は、種別を「ミュージック」に設定する。
 ステップS371において、出力部15は、判定部12による判定結果の種別が「スポーツ」であるか否かを判定する。種別が「スポーツ」であると判定した場合(ステップS371でYes)にはステップS372に進み、そうでない場合(ステップS371でNo)には、ステップS381に進む。
 ステップS372において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS372でYes)には、ステップS373に進み、そうでない場合(ステップS372でNo)には、ステップS381に進む。
 ステップS373において、出力部15は、ステップS104で算出部14が算出した信頼度情報について、排他条件(図9参照)が満たされるか否かを判定する。排他条件が満たされると判定した場合(ステップS373でYes)には、ステップS381に進み、そうでない場合(ステップS373でNo)には、ステップS374に進む。
 ステップS374において、出力部15は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部27による解析結果から判断され得る。シーン切り替えが発生した場合(ステップS374でYes)には、ステップS376に進み、そうでない場合(ステップS374でNo)には、ステップS375に進む。
 ステップS375において、出力部15は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合(ステップS375でYes)にはステップS376に進み、そうでない場合(ステップS375でNo)にはステップS377に進む。
 ステップS376において、出力部15は、種別を「スポーツ」に設定する。
 ステップS377において、出力部15は、カウンタのインクリメント処理を実行する。
 ステップS378において、出力部15は、種別を「ミュージック」に設定する。
 ステップS381において、出力部15は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部27による解析結果から判断され得る。シーン切り替えが発生した場合(ステップS381でYes)には、ステップS384に進み、そうでない場合(ステップS381でNo)には、ステップS382に進む。
 ステップS382において、出力部15は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合(ステップS382でYes)にはステップS384に進み、そうでない場合(ステップS382でNo)にはステップS383に進む。
 ステップS383において、出力部15は、カウンタのインクリメント処理を実行する。
 ステップS384において、出力部15は、種別を「デフォルト」に設定する。
 ステップS363、S384、S376またはS378の処理を終えたら、ステップS106(図13)に進む。
 図17は、本変形例に係る出力部15が実行する処理を示す第五のフロー図である。図17に示される処理は、ステップS305に含まれる処理であり、出力部15が前回に出力した特定情報がトーク種別である場合に出力部15が実行する処理である。
 ステップS401において、出力部15は、判定部12による判定結果の種別が「トーク」であるか否かを判定する。種別が「トーク」であると判定した場合(ステップS401でYes)には、ステップS402に進み、そうでない場合(ステップS401でNo)には、ステップS411に進む。
 ステップS402において、出力部15は、ステップS104で算出部14が算出した信頼度情報に含まれる信頼度の少なくとも1つが閾値以上であるか否かを判定する。上記少なくとも1つが閾値以上であると判定した場合(ステップS402でYes)には、ステップS403に進み、そうでない場合(ステップS402でNo)には、ステップS411に進む。
 ステップS403において、出力部15は、ステップS104で算出部14が算出した信頼度情報について、排他条件(図9参照)が満たされるか否かを判定する。排他条件が満たされると判定した場合(ステップS403でYes)には、ステップS411に進み、そうでない場合(ステップS403でNo)には、ステップS404に進む。
 ステップS404において、出力部15は、種別を「トーク」に設定する。
 ステップS411において、出力部15は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部27による解析結果から判断され得る。シーン切り替えが発生した場合(ステップS411でYes)には、ステップS414に進み、そうでない場合(ステップS411でNo)には、ステップS412に進む。
 ステップS412において、出力部15は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合(ステップS412でYes)にはステップS414に進み、そうでない場合(ステップS412でNo)にはステップS413に進む。
 ステップS413において、出力部15は、カウンタのインクリメント処理を実行する。
 ステップS414において、出力部15は、種別を「デフォルト」に設定する。
 ステップS404またはS414の処理を終えたら、ステップS106(図13)に進む。
 以上の一連の処理により、出力部15は、種別情報を適切に遷移させる。
 (各実施の形態の変形例)
 図18は、各実施の形態の変形例に係る推定システム2の機能構成を示す説明図である。
 図18に示されるように、推定システム2は、コンテンツサーバ50と、推定装置10Dと、テレビジョン受像機51とを備える。上記のコンテンツサーバ50と、推定装置10Dと、テレビジョン受像機51とは、ネットワークNによって通信可能に接続されている。ネットワークNは、携帯電話のキャリアネットワーク、電話回線又は光ファイバを利用した電話回線ネットワーク、LAN(有線又は無線LANを含む)などを含み、これらが複数接続されたネットワークも含む。テレビジョン受像機51は、コンテンツを提示する提示装置に相当する。
 コンテンツサーバ50は、推定システム2により種別が推定されるコンテンツを保有しており、ネットワークNを通じて推定装置10Dに供給する。
 推定装置10Dは、コンテンツサーバ50からコンテンツを取得し、取得したコンテンツが、所定の複数の種別のうちのどの種別のコンテンツであるかを推定する。また、推定装置10Dは、推定の結果を示す情報をテレビジョン受像機51にネットワークNを通じて提供する。推定装置10Dの機能は、上記各実施の形態および上記変形例の推定装置と同様である。
 テレビジョン受像機51は、コンテンツサーバ50からコンテンツを取得し、取得したコンテンツの映像および音を画面6およびスピーカ5により提示する。また、推定装置10Dから、コンテンツの種別の推定結果として出力された特定情報を取得し、取得した特定情報に基づいてコンテンツの提示を制御する。例えば、テレビジョン受像機51は、取得した特定情報に基づいて、スピーカ5を制御することで、コンテンツを提示する際の音響効果を変化させる。これにより、上記実施の形態および上記変形例と同様の効果を奏する。
 以上のように、上記各実施の形態および上記変形例の推定装置は、コンテンツの種別の推定の対象である第一コンテンツだけでなく、第一コンテンツに紐付けられている時刻より所定時間前の時刻が紐付けられた第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一コンテンツのみから第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
 また、推定装置は、第一コンテンツおよび第二コンテンツが複数の種別それぞれに分類される確率の平均値を用いて算出される信頼度を用いて、第一コンテンツの種別を推定する。これにより、第一コンテンツが分類される確率が高い種別と、第二コンテンツが分類される確率が高い種別とが同じであると、その種別に係る信頼度としてより高い値が算出される。これにより、推定装置は、第一コンテンツおよび第二コンテンツがともに分類される確率が高い種別が、第一コンテンツの種別の推定結果となるように制御する。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。
 また、推定装置は、第二コンテンツ(つまり複数のコンテンツ)について移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用いて上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。
 また、推定装置は、第二コンテンツ(つまり複数のコンテンツ)について加重移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用い、かつ、比較的新しいものの重みを大きく上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。なお、第二コンテンツに第一コンテンツを含めて比較的新しいものの重みを大きく付けた加重平均を用いてもよい。
 また、推定装置は、第一処理により判定された第一コンテンツと第二コンテンツの種別に加えて、第二処理により判定された第一コンテンツと第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一処理のみを用いて第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
 また、推定装置は、認識モデルを用いたコンテンツの種別の判定と、コンテンツの特徴の解析を用いたコンテンツの種別の判定とを用いて、コンテンツの種別の判定をする。これにより、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。
 また、推定装置は、当該第二処理の対象であるコンテンツについて、当該コンテンツに含まれる人間の目線の検出処理、当該コンテンツに含まれる物体の動きの検出処理、当該コンテンツに含まれる音の検出処理、および、当該コンテンツに含まれる物体についてのパターン検出処理のいずれかを少なくとも用いて、コンテンツの種別の判定をする。これにより、推定装置は、より容易に、コンテンツの種別の推定における誤りを抑制することができる。
 また、推定装置は、解析によるコンテンツ種別の判定が行われたときに、認識モデルを用いた種別の判定を行わないようにすることで、CPUの情報処理量を削減し、消費電力も削減することができる。
 以上のように、本開示における技術の例示として、実施の形態等を説明した。そのために、添付図面および詳細な説明を提供した。
 したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記実装を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 本開示は、コンテンツの種別を推定する推定装置に適用可能である。
 1、51  テレビジョン受像機
 2  推定システム
 5  スピーカ
 6  画面
 10、10A、10B、10D  推定装置
 11  取得部
 12、22  判定部
 13、23  記憶部
 14、14A、24  算出部
 15、15A  出力部
 16  認識モデル
 26、27  解析部
 31  コンテンツ
 41、42  種別情報
 50  コンテンツサーバ
 N  ネットワーク

Claims (10)

  1.  第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを取得する取得部と、
     前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、
     前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、
     前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備える、
     推定装置。
  2.  前記第一種別情報は、前記第一コンテンツが所定の種別に分類される確率である第一確率を含み、
     前記第二種別情報は、前記第二コンテンツが前記所定の種別に分類される確率である第二確率を含み、
     前記第一算出部は、
     前記第一確率と、前記第二確率との平均値を信頼度として含む前記信頼度情報を算出する、
     請求項1に記載の推定装置。
  3.  前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、
     前記第一算出部は、
     前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率との移動平均値を前記信頼度として含む前記信頼度情報を算出する、
     請求項2に記載の推定装置。
  4.  前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、
     前記第一算出部は、
     前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率とについて、前記複数のコンテンツのうちコンテンツに紐付けられている時刻がより新しいほど重みを大きくした加重移動平均値を前記信頼度として含む前記信頼度情報を算出する、
     請求項2に記載の推定装置。
  5.  前記推定装置は、さらに、
     コンテンツの種別を判定するための第二処理であって前記第一処理とは異なる第二処理を、前記第一コンテンツと前記第二コンテンツとのそれぞれに適用することで、前記第一コンテンツの種別を示す第三種別情報と、前記第二コンテンツの種別を示す第四種別情報とを取得する第二判定部と、
     前記第三種別情報と前記第四種別情報との関係に基づいて、前記第三種別情報の第二信頼度情報を算出する第二算出部と、を備え、
     前記出力部は、
     前記第一算出部が算出した前記信頼度情報である第一信頼度情報と、前記第二算出部が算出した前記第二信頼度情報とを用いて、前記第一種別情報および前記第三種別情報の少なくとも一方から導き出される前記第一コンテンツの種別を特定する前記特定情報を出力する
     請求項1~4のいずれか1項に記載の推定装置。
  6.  前記第一処理は、機械学習によって構築された認識モデルにコンテンツを入力することで出力される種別情報を取得する処理を含み、
     前記第二処理は、コンテンツの特徴を解析することで種別情報を取得する処理を含む
     請求項5に記載の推定装置。
  7.  前記第二処理は、前記第二処理の対象であるコンテンツの映像に含まれる人間の目線の検出処理、前記第二処理の対象であるコンテンツの映像に含まれる物体の動きの検出処理、前記第二処理の対象であるコンテンツの音に含まれる特定の音の検出処理、および、前記第二処理の対象であるコンテンツの映像に含まれる物体のパターン検出処理のいずれかを少なくとも含む
     請求項5または6に記載の推定装置。
  8.  前記第二判定部は、さらに、前記第二処理で解析した前記コンテンツの特徴に応じて、前記第一判定部による前記第一処理の実行を禁止する制御をする
     請求項5~7のいずれか1項に記載の推定装置。
  9.  第一時刻が紐付けられている第一コンテンツを取得する第一取得ステップと、
     前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツを取得する、前記第一取得ステップよりも前に行う第二取得ステップと、
     前記第一コンテンツに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報を取得する第一判定ステップと、
     前記第二コンテンツに前記第一処理を適用することで、前記第二コンテンツの種別を示す第二種別情報を取得する、前記第一取得ステップよりも前に行う第二判定ステップと、
     前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出ステップと、
     前記第一算出ステップで算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力ステップと、を含む
     推定方法。
  10.  コンテンツを保有しているコンテンツサーバと、推定装置と、前記コンテンツを提示する提示装置とを備え、
     前記推定装置は、
     第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを、前記コンテンツサーバから通信回線を介して取得する取得部と、
     前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、
     前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、
     前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備え、
     前記提示装置は、
     前記推定装置から通信回線を介して前記特定情報を取得し、取得した前記特定情報を用いて前記コンテンツの提示を制御する
     推定システム。
PCT/JP2021/003195 2020-02-27 2021-01-29 推定装置、推定方法、及び、推定システム WO2021171900A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/800,149 US20230069920A1 (en) 2020-02-27 2021-01-29 Estimation device, estimation method, and estimation system
JP2022503189A JP7466087B2 (ja) 2020-02-27 2021-01-29 推定装置、推定方法、及び、推定システム
EP21760506.2A EP4113435A4 (en) 2020-02-27 2021-01-29 ESTIMATION DEVICE, ESTIMATION METHOD AND ESTIMATION SYSTEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020031540 2020-02-27
JP2020-031540 2020-02-27

Publications (1)

Publication Number Publication Date
WO2021171900A1 true WO2021171900A1 (ja) 2021-09-02

Family

ID=77491321

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003195 WO2021171900A1 (ja) 2020-02-27 2021-01-29 推定装置、推定方法、及び、推定システム

Country Status (4)

Country Link
US (1) US20230069920A1 (ja)
EP (1) EP4113435A4 (ja)
JP (1) JP7466087B2 (ja)
WO (1) WO2021171900A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023129558A1 (en) * 2021-12-28 2023-07-06 Vizio, Inc. Systems and methods for media boundary detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163710A (ja) * 2004-12-06 2006-06-22 Nec Corp 番組情報蓄積装置及び方法並びに番組情報蓄積用プログラム
JP2006277232A (ja) 2005-03-29 2006-10-12 Kddi Corp 動画像データの分類装置
JP2011223287A (ja) * 2010-04-09 2011-11-04 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
EP2916557A1 (en) * 2014-03-05 2015-09-09 Samsung Electronics Co., Ltd Display apparatus and control method thereof
US20180032845A1 (en) * 2016-07-26 2018-02-01 Viisights Solutions Ltd. Video content contextual classification

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140052696A1 (en) 2012-08-20 2014-02-20 United Video Properties, Inc. Systems and methods for visual categorization of multimedia data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163710A (ja) * 2004-12-06 2006-06-22 Nec Corp 番組情報蓄積装置及び方法並びに番組情報蓄積用プログラム
JP2006277232A (ja) 2005-03-29 2006-10-12 Kddi Corp 動画像データの分類装置
JP2011223287A (ja) * 2010-04-09 2011-11-04 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
EP2916557A1 (en) * 2014-03-05 2015-09-09 Samsung Electronics Co., Ltd Display apparatus and control method thereof
US20180032845A1 (en) * 2016-07-26 2018-02-01 Viisights Solutions Ltd. Video content contextual classification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4113435A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023129558A1 (en) * 2021-12-28 2023-07-06 Vizio, Inc. Systems and methods for media boundary detection

Also Published As

Publication number Publication date
EP4113435A1 (en) 2023-01-04
EP4113435A4 (en) 2023-07-26
US20230069920A1 (en) 2023-03-09
JPWO2021171900A1 (ja) 2021-09-02
JP7466087B2 (ja) 2024-04-12

Similar Documents

Publication Publication Date Title
CN109862393B (zh) 视频文件的配乐方法、系统、设备及存储介质
US10789972B2 (en) Apparatus for generating relations between feature amounts of audio and scene types and method therefor
US11758228B2 (en) Methods, systems, and media for modifying the presentation of video content on a user device based on a consumption of the user device
CN110602550A (zh) 一种视频处理方法、电子设备及存储介质
US20150160728A1 (en) Electronic device
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
RU2764125C1 (ru) Способ оценки качества видео и аппарат, устройство и носитель данных
US20210327458A1 (en) Apparatus That Identifies A Scene Type and Method for Identifying a Scene Type
US7203558B2 (en) Method for computing sense data and device for computing sense data
CN110677707A (zh) 交互视频的生成方法、生成装置、设备及可读介质
JP5620474B2 (ja) アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム
WO2021171900A1 (ja) 推定装置、推定方法、及び、推定システム
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
CN111149172B (zh) 情绪管理方法、设备及计算机可读存储介质
US11813523B2 (en) Automatic triggering of a gameplay recording using visual and acoustic fingerprints
US20240155192A1 (en) Control device, control method, and recording medium
JP7486871B1 (ja) シーン抽出システム、シーン抽出方法及びシーン抽出プログラム
CN115881063A (zh) 音乐生成方法、装置及存储介质
US20240127777A1 (en) Method and apparatus for generating music file, and electronic device and storage medium
US20230199251A1 (en) Online show rendition system, laughter analysis device, and laughter analysis method
CN110708595A (zh) 基于人工智能的交互视频生成方法、装置、设备及介质
CN114425164A (zh) 一种处理方法及处理装置
CN115359409A (zh) 视频拆分方法、装置、计算机设备和存储介质
CN117524236A (zh) 一种语音转换方法、语音转换系统和电子装置
CN117577122A (zh) 一种数据处理方法、装置及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21760506

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022503189

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021760506

Country of ref document: EP

Effective date: 20220927