WO2012164818A1 - 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 - Google Patents

興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 Download PDF

Info

Publication number
WO2012164818A1
WO2012164818A1 PCT/JP2012/002788 JP2012002788W WO2012164818A1 WO 2012164818 A1 WO2012164818 A1 WO 2012164818A1 JP 2012002788 W JP2012002788 W JP 2012002788W WO 2012164818 A1 WO2012164818 A1 WO 2012164818A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
interest
unit
candidate
fine structure
Prior art date
Application number
PCT/JP2012/002788
Other languages
English (en)
French (fr)
Inventor
小沼 知浩
亮一 川西
朋幸 苅部
上野山 努
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201280002327.1A priority Critical patent/CN103053173B/zh
Priority to US13/809,480 priority patent/US9031384B2/en
Priority to JP2013517829A priority patent/JP5723446B2/ja
Publication of WO2012164818A1 publication Critical patent/WO2012164818A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the present invention relates to a technique for extracting an interest section of interest of a user from AV content using an audio signal of the AV content.
  • an interest section a section in which a user is interested (hereinafter referred to as an interest section) from AV content photographed by the user.
  • the user operates the controller (for example, pressing the input button of the controller) to determine the start time of the interest section while viewing the contents of the AV content, and then operates the controller again.
  • a moving image editing device and a moving image photographing device that can extract an interest interval by determining an end time of the interest interval.
  • video editing by a video editing device for example, there is editing using a PC and video editing software.
  • the present invention has been made in view of the above-described reasons, and an object thereof is to specify a section of interest with high accuracy.
  • an interest interval specifying device is based on an audio signal included in a moving image file and specifies an interest interval of a user that is presumed to be interested in the moving image file.
  • An area specifying device wherein an interest area candidate extracting means for extracting an interest area candidate that is a candidate for the interested area in the moving image file, and determining whether or not the interested area candidate includes a specific fine structure
  • the fine structure determining means and the fine structure determining means determine that the fine structure is included, the specific section that includes the fine structure and is shorter than the interesting section candidate is specified, and the interesting section is specified. It is characterized by comprising an interest section specifying means.
  • the interest interval specifying device can specify the interest interval with high accuracy.
  • the figure which shows the outline of the video equipment which loads the section of interest extraction device The figure which shows the calculation method of feature quantity vector Diagram showing an example of a feature vector Diagram showing an example of an anchor model Diagram showing an example of likelihood vector Block diagram showing a functional configuration example of a video device equipped with an interest section extraction device Block diagram showing a functional configuration example of an interest section extraction device
  • Conceptual diagram about fine structure judgment and hierarchy expansion Flow chart showing interest interval extraction operation of interest interval extraction device Block diagram showing a configuration example of an interest section identification device Block diagram showing a configuration example of an interest section identification device
  • the position of the start point and the end point of the voice is confirmed based on the shape of the sound wave by visual observation.
  • a phoneme having almost no power such as an unvoiced consonant comes to the beginning, Since it is difficult to appear in the shape of the sound wave, it is difficult to determine the start and end points. Also, in a high noise environment, the start and end points are hidden by noise, making it difficult to specify.
  • the input for specifying the time is performed, the sound information at the time of the input is acquired, the time of the input is included, There is an apparatus for extracting a section having a sound similar to the sound information acquired before and after that.
  • the acquired sound information also includes the characteristics of the sound in a certain section before and after the user's interest.
  • the section of interest is extended when the characteristics of the sound of the predetermined period and the characteristics indicated by the acquired sound information are more than a certain value. Then, the same determination is performed for the next predetermined period, and the interest section at the time when it is determined that the predetermined period is not similar is extracted.
  • this method does not always extract the interval of interest accurately. This is because when this method is used, the section of interest is expanded in units of a predetermined period, so the characteristics of the section of interest and the characteristics of the sound that are similar to each other by less than half of the predetermined period to be expanded. If there is not, the predetermined period is not included in the interest section. In this case, for example, an interest section where the conversation is interrupted or the conversation suddenly starts is extracted.
  • the unvoiced sound is located at the beginning or end of the specified interest section, it is difficult to detect as a feature of the sound even though the unvoiced sound is emitted. There were times when the part I wanted was not included.
  • the predetermined period to be extended is shortened and extended.
  • the predetermined period is shortened, there is no range of sound characteristics that can be acquired from the predetermined period.
  • the inventors have a problem that it becomes difficult to extract a period of interest as a period, and it is difficult to extract an interest interval of a certain length, and there is a problem that processing for extension may be considerably increased. Noticed.
  • the inventors of the present invention are particularly interested in extending the interest interval every certain period of time and including such silent sounds in the interest interval. We found that it can be solved by analyzing the beginning and end of the section in detail. Thereby, while avoiding the situation where the predetermined period which should be included in an interest area originally is not included, it can prevent that an interest area becomes redundant.
  • an interest section extracting device which is an embodiment of an interest section specifying device according to the present invention, will be described with reference to the drawings.
  • the interest section extraction apparatus uses a feature vector that represents a feature quantity of an audio signal using each of a plurality of types of anchor models Ar for each first unit section (10 msec) of an audio signal included in a moving image file.
  • a likelihood vector whose component is the likelihood for is generated.
  • the interested section extracting apparatus calculates a frequency vector (second unit section frequency vector) for each second unit section (1s) longer than the first unit section using the likelihood vector included in the second unit section. To do.
  • the frequency vector is a vector representing the sound characteristics of the second unit section.
  • the interest section extraction device repeatedly determines whether each frequency vector is similar whether the second unit section including the designated time designated by the user is similar to the second unit section in front and behind the second unit section.
  • the interest interval extraction device automatically discriminates a fine temporal structure (also referred to as a fine structure) included in the interest interval candidate and analyzes only the necessary portions (mainly near the start point and end point of the interest interval candidate). By doing so, the interest interval is precisely extracted.
  • a fine temporal structure also referred to as a fine structure
  • the fine time structure is a structure in which sounds having different properties are included within a predetermined period.
  • it is a structure in which at least two likelihood vectors that are separated from each other by a predetermined distance or more exist in each second unit section. The fact that sounds having different properties are included is because there is a high possibility that there will be a change in sound during the predetermined period.
  • FIG. 1 it is assumed that a moving image file is taken of an athletic meet scene. Then, it is assumed that the user wants to edit only a scene within a predetermined length of time from before and after the start time of the student race from the moving image file.
  • the interested section extracting device extracts a part of the section including the designated time as an interested section candidate.
  • an interest interval is extracted with a second unit interval (1 sec) that is 100 times the first unit interval as a standard unit.
  • the 10th length of the first unit interval is 10 times longer than that in the first unit interval.
  • the interest section extraction device extracts a rough interest section candidate in the second unit section, and then strictly determines the interest section in a finer third unit section.
  • Moving Image File includes an audio signal and a plurality of image data continuous in the time axis direction.
  • the audio signal is time series data in which the amplitude value of the sound is recorded as a digital signal (or an analog signal converted into a digital signal), and the amplitude value can be arranged along the time axis.
  • it can be expressed by a waveform as shown in FIG.
  • Feature Quantity Vector A feature quantity vector is obtained by converting an audio signal for a unit time into a mel frequency cepstrum sequence vector.
  • the audio signal is represented by a waveform as shown in FIG.
  • a feature vector is calculated for each first unit section in the audio signal.
  • the first unit section is a section from time T n to T n + 1 in FIG. 2A, and specifically, it is assumed to be 10 msec as an example.
  • the audio signal in the first unit section is converted into the power spectrum S ( ⁇ ) (see FIG. 2B).
  • the power spectrum is obtained by converting the amplitude value (power) of a predetermined unit section (here, the first unit section) into a frequency component.
  • the horizontal axis of the power spectrum S ( ⁇ ) shown in FIG. 2B is the actual frequency.
  • the horizontal axis of the power spectrum S ( ⁇ ) is converted from the actual frequency ⁇ to the mel frequency (see FIG. 2C).
  • the feature vector which is a vector composed of 26 mel frequency cepstrum coefficients MFCC (Mel-Frequency Cepstrum Coefficients) is calculated from the power spectrum whose horizontal axis is converted to the mel frequency.
  • Anchor Model represents the characteristics of each of the 1024 types of sound elements that are used as references when calculating likelihood. An anchor model is created for each sound element, and each anchor model is composed of a plurality of parameters.
  • GMM Global System Mixture Model
  • the anchor model will be described with reference to FIG.
  • the anchor model is represented by a feature quantity appearance probability function b Ar (M) corresponding to each of 1024 types of sound elements.
  • the feature quantity appearance probability function b Ar (M) is a probability function indicating the probability that each anchor model Ar exists.
  • the likelihood is calculated using the 26th-order vector (feature quantity vector) M of MFCC as an argument. Note that FIG. 4 does not clearly indicate which anchor model corresponds to which sound element.
  • the likelihood Lr calculated for the component is used as a component. Therefore, the likelihood vector F is expressed by a 1024-dimensional vector. Note that the feature vector M is generated for each first unit section of the audio signal extracted by the sound extraction device 102 as described in the section ⁇ 2-3>.
  • FIG. 5 shows an example of likelihood vector.
  • FIG. 5 shows likelihood vectors Fm and Fn calculated using the anchor model Ar for each of the 1024 types of sound elements.
  • the right side of FIG. 5 is the likelihood vector Fm, and the left side is the likelihood vector Fn.
  • the vertical axis represents the likelihood of the audio signal with respect to the anchor model, and the horizontal axis represents the type of the anchor model Ar.
  • the likelihood vector Fn is the likelihood corresponding to the nth first unit interval from time 0 (reference time) (that is, the interval from time (10 ⁇ (n ⁇ 1)) msec to time (10 ⁇ n) msec).
  • FIG. 2A reference time
  • the likelihood vector Fm corresponds to the m-th first unit interval from time 0 (reference time) (that is, the interval from time (10 ⁇ (m ⁇ 1)) msec to time (10 ⁇ m) msec).
  • reference time that is, the interval from time (10 ⁇ (m ⁇ 1)) msec to time (10 ⁇ m) msec.
  • FIG. 6 is a block diagram illustrating a functional configuration example of the video editing apparatus 100. As shown in FIG.
  • the video editing apparatus 100 includes an input device 101, a sound extraction device 102, a content storage device 103, an interest interval extraction device 104, an interest interval storage device 105, an output device 106, an anchor, A model creation device 108, an interface device 109, and a sound data storage device 130 are provided.
  • the input device 101 is composed of a disk drive device or the like, and has a function of reading a moving image file from the recording medium 110 and storing it in the content storage device 103 when the recording medium 110 is loaded.
  • the recording medium 110 is a medium having a function of storing various data, and is, for example, an optical disk, a flexible disk, an SD card, a flash memory, or the like.
  • the sound extraction device 102 has a function of acquiring a moving image file stored in the content storage device 103, extracting an audio signal from the acquired moving image file, and inputting the audio signal to the interested section extraction device 104. Note that the sound extraction device 102 performs a decoding process on the encoded audio signal to generate the audio signal shown in FIG.
  • the content storage device 103 is configured by a hard disk device or the like, and has a function of storing a moving image file acquired from the input device 110.
  • the interest section extraction device 104 extracts the interest section from the moving image file stored in the content storage device 103 based on the designated time acquired from the interface device 109 and the audio signal input from the sound extraction device 102, and extracts the extracted interest. It has a function of storing interest interval data indicating an interval in the interest interval storage device 105. Details of the interested section extracting apparatus 104 will be described later.
  • the interest section storage device 105 is constituted by a hard disk device or the like, and has a function of storing the interest section data acquired from the interest section extraction device 104.
  • the interest section data is composed of information (video file ID) for specifying the video file stored in the content storage device 103 and information indicating the time (time zone) on the playback time axis of the video file.
  • the sound data storage device 130 is composed of a hard disk device or the like, and has a function of storing sound data used when the anchor model creation device 108 creates an anchor model Ar that represents the characteristics of each of a plurality of types of sound elements.
  • the sound data is composed of audio signals obtained by extracting from a plurality of moving image files and performing decoding processing separately from the moving image file from which the interest section is extracted. Note that the sound data may include an audio signal of a moving image file that is a target for extracting an interest section.
  • the output device 106 has a function of outputting video data to the display device 120 to display the video. Further, the output device 106 acquires interest interval data from the interest interval storage device 105, selects a plurality of image data constituting a part of the moving image content from the content storage device 103 based on the acquired interest interval data, and selects
  • the display device 120 also has a function of displaying a digest video in which the plurality of pieces of image data are connected.
  • the display device 120 is a display having a function of displaying video, and may be a display attached to the video editing device 100 or an external display.
  • the anchor model creation device 108 has a function of creating an anchor model Ar from the sound data stored in the sound data storage device 130.
  • the anchor model creation device 108 has a function of outputting the created anchor model Ar to the interest section extraction device 104. Details of the anchor model creation device 108 will be described later.
  • the interface device 109 includes an operation unit (not shown) such as a keyboard, and has a function of receiving an input operation from a user and transmitting input information to each unit of the video editing device 100.
  • the interface device 109 notifies the interested section extracting device 104 of information on the designated time received from the user and information on the length of the interested section, and creates the number of anchor models to be created.
  • the device 108 is notified.
  • Interest section extraction device 104 From here, the detail of the interested area extraction apparatus 104 is demonstrated.
  • the section of interest extraction device 104 is composed of a processor (not shown) and a memory (not shown), and the processor executes the program read into the memory, thereby realizing each configuration shown in FIG. .
  • FIG. 7 is a block diagram illustrating a functional configuration example of the interested section extracting apparatus 104.
  • the interest interval extraction device 104 includes a feature vector generation unit 201, a likelihood vector generation unit 202, an anchor model storage unit 203, a likelihood vector buffer 204, and a frequency vector / variance generation unit 205.
  • Each configuration will be described below.
  • ⁇ 3-2-1> Feature Vector Generation Unit 201 The feature vector generation unit 201 has a function of generating a feature vector from the input audio signal.
  • the feature vector generation unit 201 performs acoustic analysis for each first unit interval on the audio signal input from the sound extraction device 102, and outputs the power spectrum S ( ⁇ ) Is calculated. Then, the feature vector generation unit 201 generates a feature vector M (M (1), M (2),..., M (25), M (26)) from the calculated power spectrum S ( ⁇ ). To do. As shown in FIG. 3, the feature vector generation unit 201 generates 100 feature vectors per second.
  • Anchor model storage unit 203 The anchor model storage unit 203 is realized by a hard disk device or the like, and has a function of storing the anchor model Ar created by the anchor model creation device 108.
  • Likelihood vector generation unit 202 calculates a likelihood Lr for the feature quantity vector M using the anchor model Ar of each sound element stored in the anchor model storage unit 203, and uses the calculated likelihood Lr as each component. It has a function to generate likelihood vector F. The likelihood vector generation unit 202 also has a function of storing the generated likelihood vector F in the likelihood vector buffer 204.
  • Likelihood vector buffer 204 The likelihood vector buffer 204 is configured by a partial area of the memory, and has a function of storing the likelihood vector F generated by the likelihood vector generation unit 202.
  • Frequency vector / variance generator 205 has a function of generating a frequency vector NF for each second unit interval (every 1 sec) of the audio signal.
  • the second unit section corresponds to a set of a plurality of continuous first unit sections (100 in this embodiment, as described above).
  • the frequency vector NF corresponds to the normalized cumulative likelihood of the likelihood vector included in the second unit interval.
  • the frequency vector / variance generation unit 205 accumulates (adds) the value of each component for each component of all likelihood vectors included in the second unit interval. Then, the frequency vector is calculated by normalizing each component obtained by accumulation.
  • normalization means that the norm of the frequency vector is 1.
  • FIG. 9 is a schematic diagram illustrating an example of the frequency vector NF.
  • the frequency vector / variance generation unit 205 starts / ends generation of the frequency vector NF according to the instruction from the interested section candidate extraction unit 207.
  • the frequency vector / dispersion generation unit 205 calculates the third unit interval frequency vector calculated using the third unit interval (100 msec) as a unit by the same procedure as that performed in the second unit interval, and obtains 10 Is used to calculate the variance in each second unit interval.
  • the variance ⁇ is calculated by the following formula (1).
  • n is the number of third unit interval frequency vectors, and is 10 here.
  • X i is each third unit interval frequency vector.
  • C is the vector centroid of the third unit interval frequency vector, and is calculated by the following equation (2).
  • Frequency vector buffer 206 The frequency vector buffer 206 has a function of storing the frequency vector generated by the frequency vector / dispersion generation unit 205 in association with information indicating the second unit section to be calculated.
  • Designated time acquisition unit 209 The specified time acquisition unit 209 has a function of acquiring specified time information related to the specified time from the interface device 109 and transmitting the specified time information to the section extension reference index calculation unit 208 and the interested section candidate extraction unit 207.
  • Section extension reference index calculation unit 208 receives the specified time information from the specified time acquisition unit 210 and includes the second unit section that is in front of or behind the time axis of the second unit section including the specified time in the interested section candidate.
  • the section extension reference index calculation unit 208 also has a function of transmitting the calculated reference vector NF0, threshold Rth, and maximum variance value ⁇ max to the section of interest extraction unit 207.
  • the section extension reference index calculation unit 208 acquires the frequency vector NF corresponding to the second unit section including the designated time from the frequency vector buffer 206.
  • the section extension reference index calculation unit 208 also acquires, from the frequency vector buffer 206, the frequency vectors NF of a plurality of second unit sections connected to the second unit section including the specified time.
  • a plurality of second unit sections connected to the second unit section including the specified time are set as four second unit sections before and after the second unit section including the specified time.
  • the section expansion reference index calculation unit 208 calculates the reference vector NF0 by taking the average of the nine acquired frequency vectors (NF1 to NF9). That is, the section extension reference index calculation unit 208 adds the normalized cumulative likelihoods constituting the frequency vector for each anchor model, and divides by the number of frequency vectors (9) using the added value. Is generated as a reference vector NF.
  • the section expansion reference index calculation unit 208 further calculates the Euclidean distance between the plurality of frequency vectors NF1 to NF9 and the reference vector NF0 used when generating the reference vector NF0, and the distance between the reference vector NF0.
  • the Euclidean distance between the frequency vector NF and the reference vector NF0 that is the farthest is calculated as the threshold value Rth that is used to determine whether or not it belongs to the interested section candidate.
  • the section extension reference index calculation unit 208 further determines the maximum variance value ⁇ max among the variance values corresponding to the second unit sections in the reference section calculated by the frequency vector / variance generation unit 205. Determine as.
  • FIG. 11 is a conceptual diagram showing the reference vector NF0, each frequency vector NF, and the threshold value Rth using the concept of the frequency vector space.
  • small circles indicate frequency vectors NF (corresponding to the frequency vectors NF1 to NF9 in the reference section shown in FIG. 10) used for calculating the reference vector NF0.
  • the center of the shaded portion in a circle is the reference vector NF0. If the frequency vector of another second unit section is included in the shaded portion, the second unit section is the second unit section included in the interested section candidate.
  • the section extension reference index calculation unit 208 transmits the generated reference vector NF0, threshold Rth, and maximum variance value ⁇ max to the interested section candidate extraction unit 207.
  • Interest section candidate extraction unit 207 includes the frequency buffer stored in the frequency vector buffer 206, the specified time received from the specified time acquisition unit 209, the reference vector NF0 and the threshold value Rth received from the section expansion reference index calculation unit 208, Based on the above, it has a function of extracting an interest section candidate as a candidate of an interest section.
  • one time before each of the times T3 and T4 when the Euclidean distance between the frequency vector NF and the reference vector NF0 exceeds the threshold Rth input from the section expansion reference index calculation unit 208 corresponds to an interesting section candidate.
  • the frequency vector at time T3 and the frequency vector at time T1, or the frequency vector at time T4 and the frequency vector at time T2 are clearly different.
  • An example in which the Euclidean distance from the reference vector of the frequency vector of T4 exceeds the threshold value Rth is shown.
  • FIG. 12B shows the relationship between the threshold value Rth in the frequency vector space and the Euclidean distance.
  • the frequency vector NF of the interested section candidate is present inside the sphere having the radius Rth centered on the reference vector NF0 in the frequency vector space shown in FIG.
  • the interested section candidate extraction unit 207 calculates the Euclidean distance between the frequency vector NF and the reference vector NF0 at the target time while going back from the specified time T0, and the calculated Euclidean distance is a threshold value. It is determined whether or not Rth is exceeded (that is, whether or not the second unit section including the target time is not included in the interested section candidate). Similarly, although not shown in FIG. 13, the interested section candidate extraction unit 207 performs the same processing in the time axis forward direction, and whether or not the second unit section including the target time is included in the interested section candidate. Will be judged.
  • the interested section candidate extraction unit 207 When the calculated Euclidean distance exceeds the threshold (Rth), the interested section candidate extraction unit 207 notifies the frequency vector / dispersion generation unit 205 of a frequency vector creation end instruction.
  • the interested section candidate extraction unit 207 acquires and acquires the frequency vector of the second unit section immediately before in the time axis direction of the current interested section candidate (referred to as a temporary interested section candidate). It is determined whether the Euclidean distance between the frequency vector NF and the reference vector NF0 exceeds the threshold value Rth. If it is equal to or less than the threshold value Rth, whether or not the second unit section is included in the temporary interest section candidate and the second unit section immediately before the new temporary interest section candidate is included in the new temporary interest section candidate repeat. When the threshold value Rth is exceeded, the starting point of the current provisional interesting section candidate is set as the starting point of the interested section candidate. Note that, at the first time point, the reference section becomes a temporary interesting section candidate.
  • the interested section candidate extraction unit 207 acquires the frequency vector of the second unit section that is one behind in the time axis direction of the temporary interested section candidate, and the distance between the acquired frequency vector NF and the reference vector NF0. Whether or not exceeds a threshold value Rth. If it is equal to or less than the threshold value Rth, the second unit section is included in the temporary interest section candidate, and the determination whether the second unit section immediately after the new temporary interest section candidate is included in the temporary interest section candidate is repeated. . When the threshold value Rth is exceeded, the end point of the current temporary interest section candidate is set as the end point of the interest section candidate.
  • the interested section candidate extracting unit 207 transmits the interested section candidates extracted in this way to the fine structure determining unit 210.
  • the interest section candidate extraction unit 207 determines whether or not the second unit section to be determined is included in the temporary interest section candidate when extending the temporary interest section candidate, and at the same time, the target time and the specified time T0. It is also determined whether or not the length between is shorter than the length le of the preset interest interval. The Euclidean distance does not exceed the threshold value Rth (included in the interest interval candidate), and the length between the target time and the specified time T0 is shorter than the preset interest interval length le (that is, the interest interval).
  • the second unit section including the target time is an interesting section candidate.
  • the interested area candidate extraction part 207 makes the temporary interested area candidate at that time a interested area candidate.
  • Fine structure determination unit 210 includes a first second unit section (hereinafter referred to as a start point candidate Stc) and a last second unit section (hereinafter referred to as an end point candidate Etc) of the interest section candidates obtained by the interest section candidate extraction unit 207. A function of determining whether or not there is a fine structure.
  • the fine structure determination unit 210 has a function of determining whether or not there is a fine structure in the second unit section immediately before the candidate for interest section when it is determined that the start point candidate has no fine structure, and an end point When it is determined that the candidate does not have a fine structure, it has a function of determining whether or not there is a fine structure in the second unit section immediately after the candidate of interest section. Then, the fine structure determining unit 210 transmits the determination result of the presence / absence of the fine structure (including information on which second unit section has the fine structure if there is a fine structure) to the hierarchy extending unit 211. It has the function to do.
  • the fine structure determination unit 210 compares the variances ⁇ stc and ⁇ etc of the start point candidate Stc and the end point candidate Etc of the interest interval transmitted from the interest interval candidate extraction unit 207 with the maximum variance value ⁇ max. The fine structure determination unit 210 determines that the start point candidate Stc has a fine structure if ⁇ stc> ⁇ max. If ⁇ etc> ⁇ max, it is determined that the termination candidate Etc has a fine structure.
  • the fine structure determination unit 210 determines whether or not there is a fine structure in the second unit section immediately before the candidate for interest section. Similarly, if ⁇ etc ⁇ ⁇ max, the fine structure determination unit 210 determines whether or not there is a fine structure in the second unit section immediately after the candidate of interest section.
  • FIG. 15 is a conceptual diagram of fine structure determination, and shows a specific example of fine structure determination using this.
  • FIG. 15 in order from the top, (a) a waveform example of a sound included in an audio signal, (b) a variance value example of each second unit section, (c) a frequency vector example for each second unit section, ( d) A second unit section, (e) an enlarged sound waveform example in the start point candidate and an end point candidate, (f) a frequency vector example in the third unit section, and (g) a third unit section.
  • ⁇ max 0.1.
  • the variance ⁇ stc of the starting point candidate Stc is 0.25, which is larger than ⁇ max, so that it is determined that there is a fine structure. Further, since the dispersion ⁇ etc of the terminal Etc is 0.03 and smaller than ⁇ max, it is determined that there is no fine structure. Further, (e) to (g) of FIG. 15 schematically represent the state of the frequency vector of each third unit section, which is a unit section shorter than the second unit section. In the starting point candidate Stc, a fine time structure (a structure having frequency vectors having different characteristics between different third unit sections) is present in the lower layer, and thus the value of variance is large.
  • each third unit section included in the second unit section of the termination candidate Etc has a small variance (0.03) because it shows a gradual change but does not include a fine time structure.
  • the fine structure determination unit 211 determines whether or not there is a fine structure immediately after the end point candidate Etc, that is, in the second unit section immediately after the interested section candidate. Then, it is determined whether or not the variance exceeds the maximum variance value.
  • Hierarchy extension unit 211 When the fine structure determining unit 211 determines that there is a fine structure, the hierarchy extending unit 211 uses the second unit section determined to have a fine structure as a lower hierarchy and is a unit smaller than the first unit section.
  • start point candidate Stc or the second unit interval immediately before the start point candidate Stc the start point of the interest interval candidate becomes the start point of the interest interval, and the end point portion (end point candidate) If it is determined that there is no fine structure in the second unit section immediately after Etc or the end point candidate Etc), the end point of the interested section candidate becomes the end point of the interested section.
  • the hierarchy expanding unit 211 divides the second unit section determined to have a fine structure into third unit sections, and calculates respective third unit section frequency vectors.
  • the hierarchy expanding unit 211 uses the third unit interval frequency vector to determine whether the Euclidean distance from the reference vector NF0 of the third unit interval frequency vector exceeds the threshold Rth from the third unit interval frequency vector on the reference interval side. Determine whether or not.
  • the interested section is determined with the end point of the third unit section immediately before the third unit section corresponding to the time determined to exceed the threshold Rth or the end point as the true start point or end point of the interested section.
  • the hierarchy expansion will be described with reference to FIG.
  • the second unit section of the starting point candidate Stc determined to have a fine structure by the fine structure determination unit 210 is divided into third unit sections, and the third method is used in the same manner as the method obtained in the second unit section.
  • the temporary interest section candidate is expanded from the third unit section on the reference section side depending on whether or not the Euclidean distance of the frequency vector exceeds the threshold value Rth, and the threshold value Rth The place beyond the true start or end point.
  • Anchor model creation device 108 The anchor model creation device 108 will be described with reference to FIG. FIG. 14 is a functional block diagram showing a functional configuration and peripheral devices of the anchor model creation device 108.
  • the anchor model creation device 108 has a function of creating an anchor model based on sound data stored in the sound data storage device 130 and recording the written anchor model in the anchor model storage unit 204.
  • the anchor model creation device 108 includes a feature vector generation unit 301, a feature vector classification unit 302, and an anchor model generation unit 303.
  • the anchor model creation device 108 includes a memory (not shown) and a processor (not shown), and the processor executes programs read into the memory, thereby realizing each configuration shown in FIG. . That is, the anchor model creation device 108 realizes a feature vector generation unit 301, a feature vector classification unit 302, and an anchor model generation unit 303 as shown in FIG.
  • Feature Vector Generation Unit 301 Similar to the feature vector generation unit 201 described in ⁇ 3-2-1>, the feature vector generation unit 301 divides the sound data acquired from the sound data storage device 130 into first unit sections, and the first unit An acoustic analysis is performed for each section to calculate a power spectrum S ( ⁇ ), and the calculated power spectrum S ( ⁇ ) is converted into a mel cepstrum to generate a feature vector M.
  • the feature vector generation unit 301 also has a function of transmitting the generated feature vector M to the feature vector classification unit 302.
  • Feature vector classification unit 302 has a function of clustering (classifying) the feature vectors generated by the feature vector generation unit 301.
  • Anchor model generation unit 303 The anchor model generation unit 303 has a function of calculating a feature quantity appearance probability function b Ar (M) corresponding to each anchor model Ar based on the cluster feature quantity vector of each cluster.
  • the anchor model storage unit 203 stores each anchor model Ar expressed by the calculated feature quantity appearance probability function.
  • the sound extraction device 102 extracts an audio signal included in a moving image file designated by the user from the content recording device 103 (arrow P1) and inputs it to the feature vector generation unit 201 (arrow P2).
  • the feature vector generation unit 201 generates a feature vector from the input audio signal and inputs it to the likelihood vector generation unit 202 (arrow P3).
  • the likelihood vector generation unit 202 generates a likelihood vector F for each first unit interval from the input feature quantity vector and the anchor model Ar acquired from the anchor model storage unit 203 (arrow P4), It is stored in the likelihood vector buffer 204 in association with time information indicating the first unit section that is the calculation target (arrow P5, step S1601).
  • the frequency vector / variance generation unit 205 acquires a plurality of likelihood vectors F (likelihood vectors for the second unit interval) stored in the likelihood vector buffer 204 (arrow P6), and the frequency vector NF Is generated.
  • the frequency vector / dispersion generation unit 205 stores the generated frequency vector NF in the frequency vector buffer 206 (arrow P7, step S1602). This process ends when a frequency vector generation end instruction is notified from the interested section candidate extraction unit 207, and resumes when a frequency vector generation start instruction is notified (arrow P9).
  • the section extension reference index calculation unit 208 acquires a plurality of frequency vectors NF including the frequency vector NF corresponding to the specified time from the frequency vector buffer 206 (arrow P11), and receives information on the specified time from the specified time acquisition unit 209. Obtain (arrow P12), and calculate the reference vector NF0, threshold Rth, and maximum variance ⁇ max. Then, the section extension reference index calculation unit 208 inputs the generated reference vector NF0, threshold value Rth, and maximum variance value ⁇ max to the interested section candidate extraction unit 207 (arrow P13).
  • the interested section candidate extraction unit 207 receives the frequency vector NF acquired from the frequency vector buffer 206 (arrow P8), the reference vector NF0, the threshold value Rth, and the maximum variance value ⁇ max input from the section expansion reference index calculation unit 208 (arrow P13). Then, using the information on the designated time input from the designated time acquisition unit 209 (arrow P15), it is determined whether or not the second unit section including the target time belongs to the temporary interest section candidate. At this time, the interested section candidate extraction unit 207 shifts the time by the second unit section from the designated time T0, and the length between the target time and the designated time T0 is longer than the length le of the preset interested section.
  • the second unit section including the target time is set as the candidate for the interest section. It inputs into the fine structure determination part 210 (arrow P16, step S1603).
  • the fine structure determination unit 210 determines whether or not the variance ⁇ stc of the start point candidate Stc input from the interest interval candidate extraction unit 207 exceeds the maximum variance ⁇ max obtained from the interval expansion reference index calculation unit 208 (step S1604).
  • the fine structure determination unit 210 notifies the hierarchy extending unit 211 that the starting point candidate Stc has a fine structure (arrow P17). Then, in response to this, the hierarchy extending unit 211 determines the true start point of the interest interval by dividing the start point candidate Stc into the third unit interval (100 msec) and calculating the respective frequency vectors (step S1605). ).
  • the fine structure determination unit 210 determines that the second unit interval (one preceding the interested interval candidates) immediately before the starting point candidate Stc. It is determined whether or not there is a fine structure in the second unit section (step S1606).
  • the fine structure determination unit 210 has a fine structure in the second unit interval immediately before the start point candidate Stc. A message to that effect is transmitted to the hierarchy expansion unit 211 (arrow P17). In response to this, the hierarchy expanding unit 211 divides the second unit section immediately before the start point candidate Stc into third unit sections (100 msec) and calculates the respective frequency vectors. A true start point is determined (step S1605).
  • the hierarchical extension unit indicates that the starting point portion of the interested interval candidate has no fine structure. 211 (arrow P17).
  • the hierarchy expanding unit 211 determines the starting point of the interested section candidate as the starting point of the interested section (step S1608).
  • the interested section extracting apparatus executes the same processing on the end point side of the interested section candidates for the determination of the presence or absence of the fine structure.
  • the fine structure determination unit 210 determines whether or not the variance ⁇ etc of the end point candidate Etc input from the interest interval candidate extraction unit 207 exceeds the maximum variance ⁇ max obtained from the interval expansion reference index calculation unit 208 (step S1609).
  • the fine structure determination unit 210 notifies the hierarchical extension unit 211 that the end point candidate Etc has a fine structure (arrow P17).
  • the hierarchy expanding unit 211 determines the true end point of the interest interval by dividing the end point candidate Etc into the third unit interval (100 msec) and calculating the respective frequency vectors (step S1610). ).
  • the fine structure determination unit 210 determines the second unit interval (one previous to the interest interval candidate) immediately before the end point candidate Etc. It is determined whether or not there is a fine structure in the second unit section (step S1611).
  • the fine structure determination unit 210 determines that the fine structure is present in the second unit interval immediately after the end point candidate Etc. A message to that effect is transmitted to the hierarchy expansion unit 211 (arrow P21). In response to this, the hierarchy expanding unit 211 divides the second unit section immediately before the end point candidate Etc into third unit sections (100 msec) and calculates the respective frequency vectors. A true end point is determined (step S1612).
  • step S1611 determines whether the variance of the second unit interval immediately after the end point candidate Etc has no fine structure. 211 (arrow P17). In response to this, the hierarchy expanding unit 211 determines the end point of the interested section candidate as the end point of the interested section (step S1613).
  • the hierarchy expansion unit 211 records the interest interval data indicating the interest interval based on the determined start point and end point in the interest interval storage device 105 (arrow P18), and the interest interval extraction device selects the interest corresponding to one specified time. Finish extracting the section.
  • the interest interval extraction device extracts the interest interval candidates that are candidates for the interest interval, and then uses the start point portion and the end point portion of the interest interval candidate to determine the interest interval candidates. By determining the start point and end point of the interest section in a finer time unit (third unit section) than the (second unit section), it is possible to obtain a more appropriate interest section than the extraction of the interest section using only the second unit section. Extraction is possible.
  • the interest section extraction device according to the present invention has been described according to the above embodiment, the present invention is not limited to this. Hereinafter, various modifications included as the idea of the present invention will be described.
  • the fine structure determination unit 210 determines whether or not there is a fine structure in the start point candidate and the second unit section immediately before it, and the end point candidate and the second unit section after it. Judgment is made.
  • the target on which the fine structure determination unit 210 determines whether or not there is a fine structure is not limited to these four second unit sections, and may be determined over the entire interest section candidate.
  • the interest interval extraction device may extract an interest interval using a technique as described below.
  • the interested section candidate extracting unit 207 may determine whether or not audio is included in the audio signal and extract the interested section.
  • Whether or not speech is included in the audio signal of the second unit interval is determined by setting a specific anchor model indicating speech in the anchor model and setting the likelihood for the anchor model in advance (for example, , 0.8, etc.).
  • the hierarchy extending unit 211 sets the second unit interval not the third unit interval, but the likelihood vector of the first unit interval from the reference vector NF0 to the threshold value.
  • An interest section may be extracted by determining whether or not it is within Rth. When voice is included, the start point and the end point of the interest section can be determined more precisely by analyzing in more detail.
  • the frequency vectors in the second unit section and the third unit section are vectors whose components are the normalized cumulative likelihood of each component of the likelihood vector included in each section.
  • the frequency vector is not particularly limited as long as it represents the characteristics of the audio signal in the section.
  • the frequency vector is a vector having components other than the normalized cumulative likelihood. Also good.
  • each component of the likelihood vector included in the unit interval is accumulated, and the accumulated likelihood corresponding only to the top k (k is plural, for example, 10) anchor models having the highest accumulated likelihood is normalized. It may be a vector.
  • the frequency vector may be a vector having the accumulated likelihood as a component without normalizing the accumulated value.
  • the interested section candidate extracting unit 207 determines whether or not the length of time from the specified time to the target time is within a predetermined length. This is for preventing the interested section from being longer than the predetermined length. If it is a measure and the length of the interest section need not be limited, this determination process may be omitted.
  • whether or not there is a fine structure is determined based on whether or not the dispersion exceeds a predetermined threshold.
  • whether or not there is a fine structure may be calculated using a method other than this as long as it can be determined whether or not there are multiple types of sounds in the second unit section.
  • any two likelihood vectors may be selected in the second unit section, and the determination may be made based on whether or not the distance between the two likelihood vectors is a predetermined threshold or more.
  • the amount of calculation becomes enormous, and therefore it is not always necessary to determine distances for all arbitrary two likelihood vectors. For example, whether or not there is a fine structure in one second unit section, the distance between the likelihood vectors of two consecutive first unit sections is calculated from both ends of the second unit section inward. To do. And it is good also as determining whether there exists a fine structure from transition of the distance between likelihood vectors. For example, when the Euclidean distance between the likelihood vectors becomes longer in the second unit interval, and after a certain distance or more, and then shows a transition that becomes shorter again, the fine structure becomes Judge that there is. In the case of this method, the calculation of the distance between the likelihood vectors is 50 times when the first unit section is 10 mec and the second unit section is 1 s.
  • step S1604 to S1608 shown in FIG. 16 and the processing from step S1609 to S1613 may be executed in reverse timing, and these processings are performed in parallel. May be processed.
  • a plurality of designated intervals including each designated time may be extracted by receiving a plurality of designated times from the user via the interface device 109.
  • the video editing device may record the plurality of extracted interest intervals in a recording device or an external recording medium in accordance with the order of reproduction or the order in which the AV contents are recorded. You may have the function to do.
  • the AV content corresponding to each interest section may be extracted from a plurality of files.
  • they when recording a plurality of data corresponding to the plurality of interest sections, they may be recorded as a digest video integrated into one file in the order of the corresponding designated times. In that case, when there is an overlapping part between adjacent interest sections, it may be integrated so that the overlapping part is not repeated in the digest video.
  • the hierarchy expansion unit 211 may have an equivalent function, and a plurality of extracted interest intervals may be recorded in the interest interval storage device 105 according to the above-described method.
  • New sound data may be added as appropriate to the sound data stored in the sound data storage device 130 shown in the above embodiment, and the sound data of the moving image file stored in the content storage device 103 is used. You may remember.
  • the anchor model creation device 108 may create a new anchor model.
  • the anchor model Ar for each of a plurality of types of sound elements is automatically created from the sound data stored in advance in the sound data storage device 130 (an anchor model can be created without a so-called teacher).
  • an anchor model can be created without a so-called teacher.
  • the anchor model creating method is not limited to this.
  • the types of sound segments are limited to a small number (for example, several tens of types)
  • the user selects the sound corresponding to each sound segment for the sound data stored in the sound data storage device 130. It is also possible to select data, assign a type label to each, and create an anchor model of the corresponding sound segment from sound data having the same type label (create an anchor model Ar with supervision).
  • the interest interval candidate extraction unit 207 sets the length between the target time and the specified time T0 in advance, and the Euclidean distance does not exceed the threshold value Rth (included in the interest interval candidate). If it is determined that the length of the interest section is shorter than the length le (that is, the condition of the interest section is satisfied), the second unit section including the target time and serving as the start point candidate Stc and the end point candidate Etc is the interest section candidate. It was described. This is a measure to prevent the length of the interest section from becoming a certain length, but if the length of the interest section does not have to be less than or equal to a certain length, this determination (predetermined interest (Comparison processing with the section length le) may not be performed.
  • the interested section candidate extraction unit 207 assumes that the temporary interested section candidate is extended in the time axis reverse direction and then extended in the time axis forward direction.
  • the temporary interest section candidate at the time when the length exceeds le may be determined as the interest section candidate. Note that the order of expansion may be performed in the time axis forward direction before the time axis reverse direction.
  • the interested section candidate extraction unit 207 may take a configuration in which the temporary interested section candidate is alternately extended in the time axis reverse direction and the time axis forward direction in units of the second unit section. When this extension is performed, it is not necessary to alternate every second unit section, and a method of alternately extending every predetermined number (for example, five) of second unit sections may be adopted.
  • the interest interval candidate extraction unit 207 determines whether or not the Euclidean distance between the reference vector and the frequency vector of the second unit interval adjacent to the temporary interest interval candidate exceeds Rth. It has been determined whether or not to include the second unit section as a temporary interest section candidate. However, it is not always necessary to use the Euclidean distance as long as it can be determined whether or not the reference vector and the frequency vector of the second unit section are more than a certain value.
  • the reference vector and the frequency vector are regarded as the weight of the mixed distribution, and the respective mixed features are represented as the weight of the mixed distribution.
  • the mixture distribution of the second unit interval is calculated, and the amount of Cullback-Liblar information (Kullback-Leibler divergence, commonly called KL distance) in both directions of the two mixture distributions is used as the distance.
  • the configuration may be such that interest section candidates are extracted.
  • the threshold value Rth is also calculated from the nine second unit intervals using the amount of information of the Cullback / Librer.
  • the amount of information on the Cullback-Librer is generally known as a measure for differentiating two probability distributions in probability theory and information theory, and the KL distance between the frequency vector and the reference vector according to the present invention is as follows. Can be calculated.
  • the probability function b Ar (M) of each anchor model is expressed as a Gaussian distribution g Ar .
  • the feature quantity of the second unit section which is a unit for extending the section, can form one mixed distribution from the total number of anchor models (1024) and the frequency vector of the second unit section.
  • the feature amount of the second unit section can be given by the following equation (3).
  • the same expression can be made as another expression of the probabilistic feature of the reference vector.
  • Ar (g 1 ,..., G Ar ,..., G 1024 )
  • E Y means an expected value
  • Equation (7) the KL distance between the two probability distributions is defined as in Equation (7) below.
  • the KL distance shown in Equation (7) may be determined whether or not the second unit section is included in the temporary reference section candidates by using the KL distance shown in Equation (7) instead of the Euclidean distance shown in the above embodiment.
  • the KL distance is the longest from the centroid vectors (reference vectors) of the plurality of frequency vectors.
  • the KL distance (threshold KL distance) between the frequency vectors far away from each other may be used.
  • a correlation calculation between the reference vector and the frequency vector of the second unit section is performed, and the correlation value is a certain value or more (for example, 0.6 or more). If so, a method of including the second unit section in the temporary interest section candidate may be taken. Moreover, if it is the said method, it is not a reference
  • the designated time acquisition unit 209 has been configured to acquire the specified time based on the user input input to the interface device 109.
  • the method for acquiring the designated time is not limited to this.
  • the specified time acquisition unit 209 may automatically acquire the specified time T0 based on the temporal change of the feature amount of each of the plurality of image data included in the moving image file.
  • the designated time acquisition unit 209 calculates a plurality of shift feature amounts for each of a plurality of image data included in the moving image file by a general clustering method, and designates the difference from a predetermined shift feature amount difference between the image data.
  • the time T0 may be calculated. For example, paying attention to a shift feature amount representing a background image of each of a plurality of image data, a place where the difference of the shift feature amount between two adjacent image data on the time axis greatly changes to a designated time T0 automatically. It is possible to do.
  • the user may specify the time between the start point and the end point of the portion of the moving image file from which the specified time T0 is acquired.
  • not only the image data but also a point where a specific sound is detected may be detected as the designated time.
  • a voice of a specific user may be detected from a moving image file, and a timing at which the voice of the specific user is detected may be acquired as a specified time.
  • information indicating the feature amount of a specific user's voice is stored in advance, and the user's voice is detected from the audio signal of the moving image according to whether or not the feature amount is more than a predetermined value. If it is determined that there is a user's voice in a continuous period, an interesting section is extracted with the midpoint of the continuous period as a designated time.
  • the timing at which a specific object can be detected may be treated as the specified time.
  • an image feature amount indicating a specific object is stored, and a timing at which a correlation with the image feature amount detected from the image data of the moving image file is detected more than a predetermined value may be set as the designated time.
  • the length of time of each of the first unit section, the second unit section, and the third unit section in the above embodiment is an example.
  • the time length may be a length other than the number of seconds shown in the above embodiment as long as the first unit section ⁇ the third unit section ⁇ the second unit section.
  • the length of the second unit section is a common multiple of the length of the first unit section and the length of the third unit section, the processing becomes easy.
  • the hierarchy expansion unit 211 calculates the third unit interval frequency vector of the second unit interval determined to have a fine structure.
  • the third unit interval frequency vector used for calculating the variance by the generation unit 205 may be used.
  • the interest interval extraction device extracts the interest interval from the input video, but the interest interval may not be extracted and the interest interval may be specified.
  • section of interest specifying device may be configured as shown in FIG.
  • the configuration shown in FIG. 17 is further provided with an indexing unit 1700 in addition to the configuration of the section of interest extraction device 104 shown in FIG. 7 of the above embodiment.
  • the hierarchy expansion unit 1711 has substantially the same function as the hierarchy expansion unit 211. However, unlike the hierarchy expansion unit 211, the interest section is not extracted but only the interest section is specified. Specifying the interest section means specifying the start time and end time of the interest section. Then, the hierarchy expanding unit 1711 transmits information on the identified interest section to the indexing unit 1700.
  • the indexing unit 1700 is inserted between the hierarchy expansion unit 1711 and the interest section storage device 105.
  • the indexing unit 1700 assigns a start point flag serving as a start point and an end point flag serving as an end point to the corresponding moving image based on the information on the interest interval transmitted from the hierarchy expansion unit 1711. To do. When the interest section length is fixed, only the start point flag may be given to the moving image.
  • the interest section candidate is provided with information (start time and end time) of the interest section candidate in advance for the moving image input to the interest section extraction device.
  • the presence / absence may be determined, and the interest section may be extracted by the hierarchy expansion unit 211.
  • control program can be recorded on a recording medium, or can be distributed and distributed via various communication paths.
  • recording media include IC cards, hard disks, optical disks, flexible disks, ROMs, and the like.
  • the distributed and distributed control program is used by being stored in a memory or the like that can be read by the processor, and the processor executes the control program, thereby realizing various functions as shown in the embodiment. Will come to be.
  • Part or all of the constituent elements constituting the interest section extracting device shown in the above embodiment may be implemented as one or a plurality of integrated circuits (IC, LSI, etc.). Other elements may be added to the above components to form an integrated circuit (one chip).
  • LSI The name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration. Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • integrated circuit technology comes out to replace LSI's as a result of the advancement of semiconductor technology or a derivative other technology, it is naturally also possible to carry out function block integration using this technology. Biotechnology can be applied.
  • the interest interval specifying device is based on the audio signal included in the moving image file, and the user's interest interval that is assumed to be interested in the moving image file.
  • An interest section specifying device for specifying, an interest section candidate extracting means (1801) for extracting an interest section candidate as a candidate of the interest section in the video file, and a specific fine structure included in the interest section candidate
  • the fine structure judging means (1802) for judging whether or not the fine structure is judged to contain the fine structure, a specific section that includes the fine structure and is shorter than the interested section candidate is selected. It is characterized by comprising interest section specifying means (1803) for analyzing and specifying an interest section.
  • the interested section candidate extracting means 1801 shown in FIG. 18 corresponds to the interested section candidate extracting unit 207 in FIGS.
  • the fine structure determination unit 1802 corresponds to the fine structure determination unit 210 in FIGS.
  • the interest section specifying unit 1803 corresponds to the hierarchy expansion units 211 and 1711 in FIGS. 7 and 17.
  • 18 further includes a feature vector generation unit 201, a likelihood vector generation unit 202, an anchor model storage unit 203, a likelihood vector buffer 204, a frequency vector / variance generation unit illustrated in FIG. 205, a frequency vector buffer 206, a section expansion reference index calculation unit 208, and a designated time acquisition unit 209, and the connection relationship between these functional units is as shown in FIG.
  • the fine structure is as described in the above embodiment, but in other words, the sound characteristics vary more than a certain amount (in a time interval shorter (finer) than the interested interval candidate ( It can be said that there is a structure with (change).
  • the determination of the presence / absence of a fine structure is a section that has a certain common sound feature as a candidate for a section of interest, but among them, when viewed in a minute unit of time, It can be said that it is detecting that there is variation in the characteristics of the sound.
  • the interest section specifying method is based on an audio signal included in a moving image file, and the interest section specifying device that specifies a user's interested section that is estimated to be interested in the moving image file.
  • An interest section candidate extracting step for extracting an interest section candidate that is a candidate for the interested section in the moving image file, and a fine section for determining whether or not the interested section candidate includes a fine structure.
  • the interest area specifying program is a computer that performs an interest area specifying process for specifying an interest area of a user who is presumed to be interested in the moving image file based on an audio signal included in the moving image file.
  • a fine structure determining step for determining whether or not a structure is included, and a specific section that includes the fine structure and is shorter than the interested section candidate when the fine structure determining step determines that the fine structure is included.
  • an interest interval specifying step for analyzing and specifying an interest interval.
  • the interest interval specifying integrated circuit is an interest interval specifying integrated circuit that specifies a user's interest interval including a specified time based on an audio signal included in the moving image file.
  • the interested section candidate extracting means for extracting the interested section candidate as the interested section candidate
  • the fine structure determining means for determining whether or not the interested section candidate includes a fine structure
  • the fine structure determining means It is characterized by comprising an interest interval specifying means for analyzing a specific interval including the fine structure and shorter than the interested interval candidate when it is determined that a fine structure is included, and specifying the interest interval.
  • the user when extracting an interest section from a video file (AV content), the user does not carefully specify the two times of the start and end of the section. Since it is possible to specify the interest section by examining the part that becomes the start point or end point of the interest section (when it is determined that a fine structure is included), it is more precise without the input of an accurate start point or end point by the user. It is possible to specify the interest section.
  • the interest interval specifying device further stores an anchor model that expresses the characteristics of each of a plurality of types of sound elements as a reference.
  • an anchor model that expresses the characteristics of each of a plurality of types of sound elements as a reference.
  • a storage unit for each anchor model, a storage unit, a specified time acquisition unit that acquires a specified time from a user, and a feature vector indicating a feature of the audio signal in the first unit section for each first unit section of the audio signal
  • a likelihood vector generating means for obtaining a likelihood and generating a likelihood vector having each likelihood as a component, wherein the interested section candidate extracting means includes the specified time based on the likelihood vector, and
  • An interest interval candidate that is longer than the first unit interval and is a candidate for the interest interval is calculated, and the fine structure determination means is configured to determine whether the interest region candidate is included in the interval including the interest interval candidate. It is also possible to determine whether include microstructures for the first unit short specific section than the interested section candidate longer than the interval.
  • the interest section specifying device can specify the interest section without inputting the exact start point or end point of the interest section.
  • the interest interval specifying device further includes N generated from the audio signal of the second unit interval which is N times as long as the first unit interval.
  • a second unit interval frequency vector is calculated from the likelihood vectors and generated from an audio signal of a third unit interval that is M times as long as the first unit interval (1 ⁇ M ⁇ N, where N is a multiple of M).
  • the specific section is the second unit section
  • the interest section candidate extraction means calculates the interest section candidate based on the second unit section frequency vector
  • the fine structure determination means The variance is the standard It is also possible to determine whether include microstructures based on whether or not more than.
  • the interested area identification device can determine whether or not there is a fine structure by using the variance calculated using the frequency vector of the third unit section included in the second unit section, When there is a fine structure, it is possible to analyze a specific section where the fine structure is present and specify the section of interest more precisely.
  • the interest interval specifying device further includes a plurality of reference intervals for a reference interval including a plurality of continuous second unit intervals including the specified time.
  • a reference index calculation unit that calculates a reference vector based on the second unit interval frequency vector and sets the reference value to the largest value among the variances of the respective second unit intervals included in the reference interval;
  • the section candidate extraction unit determines whether the second unit section frequency vector of the second unit section adjacent to the temporary interest section candidate is more than a certain value similar to the reference vector by using the reference section as the first temporary interest section candidate. If it is determined to be similar, the second unit section is repeatedly included in the temporary interest section candidate, and the temporary interest section candidate at the time when it is determined not to be similar is used as the interest It may be determined as between candidates.
  • the interested section specifying device uses the reference vector of the reference section, so that the second unit section having a sound characteristic more similar to the second unit section than the second unit section including the specified time is used. Can be extracted as an interest section candidate.
  • the reference vector instead of the frequency vector of the second unit section corresponding to the specified time, it is possible to give a wider range of interest section candidates.
  • the reference index calculation unit further includes an Euclidean distance from the reference vector among the plurality of second unit interval frequency vectors included in the reference interval. A threshold Euclidean distance from the furthest second unit interval frequency vector to the reference vector is calculated, and the interest interval candidate extracting means sets the reference interval as the first temporary interest interval candidate and is adjacent to the temporary interest interval candidate.
  • the second unit section It is determined whether or not the Euclidean distance from the reference vector of the second unit section frequency vector of the two unit sections exceeds the threshold Euclidean distance, and when it is determined that the second unit section frequency vector does not exceed the threshold Euclidean distance, the second unit section is It is repeatedly included in the temporary interest section candidate, and the temporary interested area at the time when it is determined that the threshold Euclidean distance is exceeded.
  • Candidate may be used as the determining as the interested section candidate.
  • the reference index calculation unit may further include a KL distance from the reference vector among a plurality of second unit interval frequency vectors included in the reference interval ( A threshold KL distance is calculated from the second unit interval frequency vector having the furthest Kullback-Leiblerencedivergence) to the reference vector, and the interest interval candidate extraction means sets the reference interval as the first temporary interest interval candidate and the temporary interest interval candidate.
  • the interested section extracting device can extract the interested section candidate as the candidate of the interested section according to each index calculated based on the reference section.
  • the reliability of candidate section extraction can be improved by using the KL distance widely used as a scale indicating the difference between two probability distributions in probability theory and information theory.
  • the fine structure determining means determines whether or not there is a fine structure in the first second unit section or the last second unit section of the interested section candidate.
  • the interest section extracting means analyzes the first second unit section and determines the start point of the interest section when it is determined that the top second unit section of the interested section candidate has a fine structure.
  • the end point of the interested section may be specified by analyzing the last second unit section.
  • the interest section specifying device determines the presence / absence of the fine structure in the specific second unit section, thereby reducing the range for determining the presence / absence of the fine structure and determining the presence / absence of the fine structure in the entire candidate section.
  • the amount of calculation can be reduced as compared with the case.
  • the fine structure determining means determines that there is no fine structure in the first second unit section of the interested area candidate, It is determined whether there is a fine structure in the second unit section immediately before the candidate, and the interest section extraction means determines that there is a fine structure in the second unit section immediately before the candidate of interest section. If the second unit section immediately before the interested section candidate is analyzed to identify the starting point of the interested section, it is determined that there is no fine structure in the second unit section immediately before the interested section candidate. In this case, the starting point of the interested section candidate may be set as the starting point of the interested section.
  • the interested section extracting apparatus is not included in the interested section candidates, it can actually determine the range to be included in the interested section and determine the starting point of the interested section more accurately.
  • the fine structure determining unit determines that there is no fine structure in the last second unit section of the interested area candidate, It is determined whether there is a fine structure in the second unit section immediately after the candidate, and the interest section extraction means determines that there is a fine structure in the second unit section after the candidate of interest section. If the second unit section immediately after the interesting section candidate is analyzed to identify the end point of the interesting section, it is determined that the second unit section after the interesting section candidate has no fine structure. In this case, the end point of the interested section candidate may be set as the end point of the interested section.
  • the interested section extracting apparatus is not included in the interested section candidates, it can actually determine the range to be included in the interested section and determine the end point of the interested section more accurately.
  • the interested section extraction means has a third unit section frequency vector that exceeds the threshold Euclidean distance from the reference vector from the third unit section on the reference section side.
  • determining that the threshold Euclidean distance is not exceeded May determine the second start point or end point of the temporary interests section candidates at the time it is determined that more than away as the start point or the end point of the interest section candidate.
  • the interested section extracting device can extract the interested section more accurately by determining the starting point and the ending point of the interested section based on the third unit section finer than the second unit section.
  • the interest area extraction device further includes a determination means for determining whether or not the object for determining the fine structure is a human voice.
  • the interest section extraction unit recursively analyzes the second unit section determined to have the fine structure in units of the first unit section when the determination unit determines that the voice is a human voice. It is good.
  • the interested section specifying device determines whether or not the audio signal includes speech for the second unit section determined to have a fine structure, and when the determination is positive, By analyzing the first unit section that is finer than the unit section, it is possible to extract a more accurate interest section.
  • the fine structure determining means determines whether or not the fine structure is included for all second unit sections of the interested area candidate. Also good.
  • the interested section specifying device can determine the presence or absence of a fine structure over the entire candidate section. Therefore, more detailed analysis can be performed. For example, if there is a fine structure in the middle of the candidate section, it can be estimated that there is a scene that shows excitement in the moving image file, that is, a so-called highlight.
  • the specified time acquisition means acquires a plurality of specified times
  • the interested area extraction means corresponds to each of the plurality of specified times.
  • the interest interval extraction device may further include a recording unit that records the interest intervals corresponding to each of the plurality of designated times in an external storage device in the order of the times indicated by the plurality of designated times. Good.
  • the interested section specifying device can extract the interested section after receiving designation of a plurality of designated times. This configuration is particularly useful when there are a plurality of scenes in which the user is interested. Further, the interest section extraction device can record the data of moving image files corresponding to the extracted plurality of interest sections in a time-sequential order on the recording medium, so that the user views the video files for the recorded interest sections. In this case, it is possible to watch without discomfort.
  • the recording means integrates the integrated data obtained by integrating the interest intervals into the plurality of designated times in the order of the times indicated by the plurality of designated times. It may be recorded in a storage device.
  • the interested area specifying device can record the moving image file corresponding to a plurality of interested areas as one file (integrated data), and can record the data corresponding to the interested area recorded in the external storage device. Convenience when viewing can be improved.
  • the interest interval extracting device further includes a specific period specifying means for specifying a specific period on the reproduction time in the video file from the user,
  • the time acquisition means may acquire the specified time from within the specific period based on a temporal change in the feature amount of each image data in the specific period.
  • the interested section specifying device can acquire the designated time by itself without receiving the designation of the designated time from the user, the interest section extraction can be automated.
  • the interest interval specifying device further adds an interest interval information relating to the interest interval specified by the interest interval specifying means to the video file. It is good also as providing an information provision means.
  • the section of interest specifying device can give the information of the section of interest to the moving image file, for example, based on the information, the digest of the moving image file or the chapter used when the moving image file is created is used. can do.
  • the interested area information providing means may include a position that becomes a starting point flag and / or an end point of the interested area as the interested area information. It is very good to add an end point flag to the video file.
  • the section of interest specifying device adds the start point flag or the end point flag to the moving image file, it can be used for cueing at the time of reproduction of the moving image file to which the start point flag or the end point flag is added.
  • the interest interval specifying device further comprises an interest interval extracting means for extracting the interest interval specified by the interest interval specifying means from the video file. It is good.
  • section of interest specifying device can extract the section of interest from the moving image file, which can be used to create a digest of the moving image file.
  • the interested area specifying device further includes an acquisition means for acquiring a moving image file in which an interested area candidate is specified in advance, and the fine structure determining means Determines whether or not there is a fine structure in the first end portion or the first end portion of an interest interval candidate designated in advance, and the interest interval specifying means is acquired in advance by the acquisition means It is good also as specifying the interest area in the moving image file in which the interest area candidate is designated.
  • the interested area specifying device can correct the interested area in the moving picture in which the interested area is set when the setting of the interested area is not appropriate.
  • An interest section extraction device is an AV content editing technique as an apparatus for extracting an interest section that is a user's interest from an audio signal of AV content including voice, sound in a house, sound when going out, and the like. Can be used as
  • DESCRIPTION OF SYMBOLS 100 Video editing device 102 Sound extraction device 103 Content storage device 104 Interest section extraction device 105 Interest section storage device 106 Interest section extraction unit 108 Anchor model creation device 109 Interface device 130 Sound data storage device 201, 301 Feature vector generation unit 202 Likelihood Frequency vector generation unit 203 Anchor model storage unit 204 Likelihood vector buffer 205 Frequency vector / variance generation unit (frequency vector calculation means, variance calculation means) 206 Frequency vector buffer 207 Interest section candidate extraction section 208 Section extension reference index calculation section 209 Designated time acquisition section 210 Fine structure determination section 211 Hierarchy expansion section (interest section extraction means) 302 feature vector classification unit 303 anchor model generation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段1801と、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定手段1802と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段1803とを備える。

Description

興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
 本発明は、AVコンテンツからユーザの興味の対象となる興味区間を、AVコンテンツのオーディオ信号を用いて抽出する技術に関する。
 デジタルカメラ等の動画撮影機器において、ユーザが撮影したAVコンテンツから、ユーザが興味を示す区間(以下、興味区間と称す。)を抽出することができる機能が求められている。
 これに対して、従来から、ユーザがAVコンテンツの内容を視聴しながら、コントローラを操作(例えば、コントローラの入力釦を押下する操作)して興味区間の開始時刻を決め、その後、再度コントローラを操作して興味区間の終了時刻を決めることにより、興味区間を抽出することができる動画編集機器や動画撮影機器がある。動画編集機器による映像編集の一具体例としては、例えば、PCと動画編集ソフトを用いた編集がある。
 ところが、この動画撮影機器では、適切な興味区間を抽出しようとすると、AVコンテンツの内容を視聴しながらタイミング良くコントローラを操作する必要があり、AVコンテンツの内容を視聴しながらタイミング良くコントローラを操作する作業にある程度の熟練が必要となる。そして、興味区間の開始時刻と終了時刻を適切に決めることができない場合には、再度、AVコンテンツの内容を視聴しながらコントローラを操作する作業を繰り返すこととなり、興味区間の抽出に手間がかかることが多かった。
 そこで、従来、ユーザが指定した時刻に対して、ユーザが予めコンテンツの内容に応じて設定したオフセット時間を加えた時刻をイン点及びアウト点とする機能を備えた動画編集装置が提案されている(特許文献1参照)。この動画編集装置であれば、例えば、イン点の時刻をユーザが指定した時刻よりもオフセット時間だけ繰り上げるように設定しておけば、ユーザがイン点を指定するタイミングが遅れてしまっても、所望のイン点を興味区間に含めることができ、より適切に興味区間を抽出することができる。
 また、従来から、予め興味区間の開始時刻(イン点)における音響特徴条件と終了時刻(アウト点)における音響特徴条件とを設定しておき、これらの音響特徴条件からイン点とアウト点とを決定することにより興味区間を抽出する技術が提案されている(特許文献2参照)。
 また、動画再生の再生時刻を示すバーに併せて音の波形を表示し、動画像と共に視聴可能とすることにより、音の振幅の外形情報を基にした始点及び終点の切り出しを支援する技術が提案されている(特許文献3参照)。
 その他にも、放送コンテンツやCM素材における映像の音の頭だしを簡単にする方法として、音響、特に音声の始終点を振幅パワーの外形(包絡線)が設定した閾値を上回るか否かにより検出する技術が提案されている(特許文献4参照)。
特開2001-057660号公報 特開平3-080782号公報 特開2005-260391号公報 特許第3753384号公報
 しかしながら、上記特許文献1~4に記載された手法とは異なる手法を用いて、精度良く興味区間を特定できる手法が求められている。
 本発明は、上記事由に鑑みてなされたものであり、精度良く興味区間を特定することを目的とする。
 上記課題を解決するため、本発明に係る興味区間特定装置は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段とを備えることを特徴としている。
 本構成によれば、興味区間特定装置は、精度良く興味区間を特定することができる。
興味区間抽出装置を搭載した映像装置の概要を示す図 特徴量ベクトルの算出方法を示す図 特徴量ベクトルの一例を示す図 アンカーモデルの一例を示す図 尤度ベクトルの一例を示す図 興味区間抽出装置を搭載した映像装置の機能構成例を示すブロック図 興味区間抽出装置の機能構成例を示すブロック図 第1単位区間と第2単位区間との関係を示す図 頻度ベクトルの一例を示す図 基準ベクトルを生成するときの動作説明図 閾値を算出するときの動作説明図 基準ベクトルを説明するための図 興味区間を抽出する際の動作説明図 アンカーモデル作成装置の機能構成例を示すブロック図 微細構造判定及び階層拡張についての概念図 興味区間抽出装置の興味区間抽出動作を示すフローチャート 興味区間特定装置の一構成例を示すブロック図 興味区間特定装置の一構成例を示すブロック図
<本発明に至った経緯>
 上述の特許文献1~4について、発明者らは、以下の問題を抱えていることを知見した。
 即ち、特許文献1に記載された方法では、適切なオフセット時間の設定が必要となる。また、オフセット時間はAVコンテンツの種別によって、その長さが異なる。このため、例えば、複数のAVコンテンツそれぞれから興味区間を抽出して複数のAVコンテンツについてのダイジェストを作成したい場合には、AVコンテンツ毎にオフセット時間を設定してから興味区間を抽出する必要がある。ユーザからみれば、複数のAVコンテンツそれぞれについての適切なオフセット時間を考慮し、その設定を行うことは非常に煩雑なものがある。
 また、特許文献2に記載された方法では、AVコンテンツの内容に応じてイン点とアウト点における音響特徴条件を設定する必要があるので、複数のAVコンテンツから興味区間を抽出したい場合には、AVコンテンツそれぞれについてイン点及びアウト点における音響特徴条件を設定する必要がある。従って、興味区間の抽出対象となるAVコンテンツの数が多くなれば、この設定作業がユーザにとって大きな負担となる。
 また、特許文献3に記載された方法では、目視による音波の形状に基づく音声の始点及び終点の位置の確認となり、無声子音などパワーをほとんど持たない音韻が語頭に来た場合は、無声子音が音波の形状に表れにくいため、始終点の決定は困難となる。また、高いノイズ環境下では始終点がノイズに隠されてしまい、特定することが困難になる。
 また、特許文献4に記載された方法では、無声子音などパワーをほとんど持たない音声は、振幅のパワーの閾値による判定は困難である。また、音声を基準にした振幅のパワーの閾値設定では、音声以外の音(例えば環境音)の振幅パワーの動きを判定することは困難である。
 そこで、動画区間において、ユーザが撮影したホームビデオの中から冗長な部分を除き、ユーザが興味を持ってみられる興味区間を抽出する手法としていくつかの手法が策定されている。
 そこで、動画区間において、ユーザが撮影したホームビデオの中から冗長な部分を除き、ユーザが興味を持ってみられる興味区間を抽出する手法としていくつかの手法が策定されている。
 その一手法として、ユーザが動画を鑑賞し、ユーザが興味を覚えた時点で、その時点を特定するための入力を行い、入力された時点の音の情報を取得し、入力した時点を含み、その前後に取得した音の情報と似通った音を有する区間を抽出する装置がある。
 このとき、取得した音の情報は、ユーザが興味を覚えた時点の前後の一定区間の音の特徴も含まれている。
 そして、一定区間の前後の所定期間について、当該所定期間の音の特徴と、取得している音の情報で示される特徴とが、一定以上似通っている場合に興味区間を伸長する。そして、次の所定期間についても同様の判定を行っていき、一定以上似通っていないと判定された時点での興味区間を抽出する。
 このような手法によって、ユーザからの少ない入力で、興味区間を抽出することができる。
 しかし、この手法は、必ずしも正確に興味区間を抽出できるわけではないことに発明者らは気づいた。というのも、この手法をとる場合、興味区間を所定期間の単位で伸長していくため、その興味区間の特徴と、伸長しようとしている所定期間の中で、半分未満しか、似通った音の特徴がなかった場合には、その所定期間は興味区間に含まれないことになる。その場合、例えば、会話が途切れた、あるいは、会話が唐突に始まったような興味区間が抽出されてしまうことになる。
 特に、無声音が特定した興味区間の始端あるいは終端部分にある場合には、無声音の音が発せられているのにもかかわらず、音の特徴として検出しにくいために、本来ならば興味区間に入って欲しい部分が入らないことがあった。
 そして、そのような興味区間が抽出された場合には、その興味区間を視聴したユーザは違和感を覚えることとなる。
 このような問題を解決するために、伸長する所定期間を短くして、伸長していくことも考えられるが、所定期間を短くすると、所定期間から取得できる音の特徴に幅がないため、興味期間として伸長されにくくなってしまい、ある程度の長さの興味区間を抽出しにくくなるという問題や、伸長のための処理がかなり多くなってしまう可能性があるという問題があることに発明者らは気付いた。
 そこで、発明者らは、このような問題を解決すべく、ある程度の所定期間ごとに興味区間を伸長していくとともに、そのような無声音があっても、興味区間に含められるよう、特に、興味区間の始端や終端を子細に解析することで、解決できることを知見した。これにより、本来興味区間に含まれるべき所定期間が含まれない事態を避けるとともに、あるいは興味区間が冗長になることを防ぐことができる。

 以下、本発明に係る興味区間特定装置の一実施形態である興味区間抽出装置について図面を用いて説明する。
<実施の形態>
<1>概要
 まず、興味区間抽出の概要を説明する。
 本実施の形態に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号の第1単位区間(10msec)毎に複数種類のアンカーモデルArそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成する。そして、興味区間抽出装置は、第1単位区間よりも長い第2単位区間(1s)毎の頻度ベクトル(第2単位区間頻度ベクトル)を、第2単位区間に含まれる尤度ベクトルを用いて算出する。頻度ベクトルは、第2単位区間の音の特徴を表すベクトルとなる。興味区間抽出装置は、ユーザにより指定された指定時刻を含む第2単位区間とその前方及び後方にある第2単位区間が似ているかをそれぞれの頻度ベクトルが似ているか否かを繰り返し判定していくことにより、興味区間の候補となる興味区間候補を抽出する。このとき、興味区間抽出装置は、興味区間候補に含まれる微細な時間構造(微細構造ともいう)を自動で判別し、その必要な部分(主として興味区間候補の始点付近と終点付近)だけを解析することで、興味区間を精密に抽出する。
 ここで、微細な時間構造とは、所定期間内に、互いに異なる性質の音が含まれる構造のことである。別の言い方をすれば、各第2単位区間の中で、互いに所定以上距離が離れた尤度ベクトルが少なくとも2つ存在する構造のことである。互いに異なる性質の音が含まれるということは、その所定期間に音の変わり目がある可能性が高くなるためである。
 例えば、図1に示すように、動画ファイルが、運動会のシーンを撮影したものとする。そして、ユーザが、この動画ファイルの中から徒競走のスタート時刻前後からの所定の長さの時間内のシーンだけを切り出す編集をしたいとする。
 この場合、ユーザは徒競争のシーンの中におけるスタート時刻付近の時刻を指定すると、興味区間抽出装置は、指定時刻を含む一部の区間を興味区間候補として抽出する。
 また、本実施の形態に係る興味区間抽出装置では、興味区間として抽出しようとする区間の始点部分に発声の開始時刻等の微細な時間構造が含まれていた場合(図1の始点付近の音声)、その必要な部分だけの下部構造を解析し、特徴区間を精密に抽出する(図1の始点付近の音声の拡大部分の音声の始点部分参照)ことができる。なお、本実施の形態では、第1単位区間の100倍の第2単位区間(1sec)を標準単位として興味区間を抽出する。第2単位区間で興味区間と抽出し、その標準単位の時間の中に微細構造が含まれていると判定された場合には、その部分でのみ第1単位区間の10倍の長さの第3単位区間(100ms)を下部構造として解析する単位として、下部構造を解析し、始点あるいは終端を精密に決定する処理を行う。つまり、興味区間抽出装置は、第2単位区間で大まかな興味区間の候補を抽出した後に、より細かい第3単位区間で興味区間を厳密に定める。
 なお、本明細書においては、音全般を指す場合には、音と記載し、人の声を指す場合には、音声と記載する。
<2>データ
 では、本実施の形態に係る興味区間抽出装置で使用する各種データについて説明する。
<2-1>動画ファイル
 動画ファイルは、オーディオ信号と時間軸方向で連続する複数の画像データとから構成される。ここで、オーディオ信号は、デジタル信号(あるいは、アナログ信号からデジタル信号に変換されたもの)として、音の振幅値を記録した時系列データであり、この振幅値を時間軸に沿って値を並べれば、例えば、図2(a)に示すような波形で表現することができる。
<2-2>特徴量ベクトル
 特徴量ベクトルは単位時間分のオーディオ信号をメル周波数ケプストラム系列のベクトルに変換したものである。
 具体的に説明すると、オーディオ信号が図2(a)に示すような波形で表されたとする。本実施の形態では、オーディオ信号中の第1単位区間毎に特徴量ベクトルが算出される。ここで、第1単位区間は図2(a)における時刻TnからTn+1までの区間のことであり、具体的には一例として10msecであるとする。
 特徴量ベクトルを算出するにあたり、まず、この第1単位区間のオーディオ信号をパワースペクトラムS(ω)に変換する(図2(b)参照)。パワースペクトラムは、所定単位区間(ここでは第1単位区間)の振幅値(パワー)を周波数成分に変換したものをいう。図2(b)に示されるパワースペクトラムS(ω)の横軸は実周波数である。
 そして、パワースペクトラムS(ω)の横軸を実周波数ωからメル周波数に変換する(図2(c)参照)。
 横軸がメル周波数に変換されたパワースペクトラムから、26個のメル周波数ケプストラム係数MFCC(Mel-Frequency Cepstrum Coefficients)からなるベクトルである特徴量ベクトルを算出する。
 上述の通り特徴量ベクトルMは、第1単位区間毎(10msec毎)に算出されるので、図3に示すように、時刻0secから時刻1secまでの間では、都合100個の特徴量ベクトルが算出されることになる。なお、図3において、M(1)~M(26)は26次のメル周波数ケプストラム係数を示している。
<2-3>アンカーモデル
 本実施の形態に係るアンカーモデルは、尤度を算出する際に基準となる1024種類のサウンド素片それぞれの特徴を表現するものである。アンカーモデルは、サウンド素片ごとに作成され、各アンカーモデルは、複数のパラメータから構成される。
 本実施の形態では、GMM(Gaussian Mixture Model)を採用して、アンカーモデルAr(r=1~1024)を作成する。
 アンカーモデルについて図4を用いて説明する。図4に示すように、アンカーモデルは、1024種類のサウンド素片それぞれに対応する特徴量出現確率関数bAr(M)により表される。特徴量出現確率関数bAr(M)とは、各アンカーモデルArが存在する確率を示す確率関数である。特徴量出現確率関数bAr(M)を用いることで、MFCCの26次のベクトル(特徴量ベクトル)Mを引数として尤度が算出される。なお、図4では、どのアンカーモデルがどのサウンド素片に対応するかを明示していない。
<2-4>尤度ベクトル
 尤度ベクトルFは、複数のサウンド素片それぞれに対応するアンカーモデルAr(r=1~1024)を用いて、オーディオ信号の特徴量を表現する特徴量ベクトルMに対して算出された尤度Lrを成分とする。従って、尤度ベクトルFは、1024次元のベクトルで表現される。なお、特徴量ベクトルMは、上記<2-3>項で説明したように、音抽出装置102が抽出したオーディオ信号の第1単位区間毎に生成される。
 図5に尤度ベクトルの例を示す。図5は、1024種類のサウンド素片それぞれのアンカーモデルArを用いて算出された尤度ベクトルFm及びFnを示している。図5の右側が尤度ベクトルFmであり、左側が尤度ベクトルFnである。図5においては、縦軸にオーディオ信号のアンカーモデルに対する尤度を示し、横軸がアンカーモデルArの種類を示している。尤度ベクトルFnは、時刻0(基準時刻)からn番目の第1単位区間(即ち、時刻(10×(n-1))msecから時刻(10×n)msecの区間)に対応する尤度ベクトルである(例えば、図2(a)参照)。同様に、尤度ベクトルFmは、時刻0(基準時刻)からm番目の第1単位区間(即ち、時刻(10×(m-1))msecから時刻(10×m)msecの区間)に対応する尤度ベクトルである。
 尤度ベクトルFは、図5の尤度ベクトルFm及びFnの差異に示されるように、対象とするオーディオ信号の時間変化に応じて変化する。なお、オーディオ信号に変化がない場合には、時間が変化しても尤度ベクトルは変化しない。
<3>構成
 以下、本実施の形態に係る興味区間抽出装置104を搭載した映像編集装置100の機能構成について説明する。
<3-1>全体構成
 図6は、映像編集装置100の機能構成例を示すブロック図である。図6に示すように、映像編集装置100は、入力装置101と、音抽出装置102と、コンテンツ記憶装置103と、興味区間抽出装置104と、興味区間記憶装置105と、出力装置106と、アンカーモデル作成装置108と、インターフェース装置109と、音データ記憶装置130とを備える。
 入力装置101は、ディスクドライブ装置等で構成され、記録媒体110が装着されると、記録媒体110から動画ファイルを読み込んで、コンテンツ記憶装置103に格納する機能を有する。なお、記録媒体110は、各種データを記憶する機能を有する媒体であり、例えば、光ディスクや、フレキシブルディスク、SDカード、フラッシュメモリなどである。
 音抽出装置102は、コンテンツ記憶装置103に格納されている動画ファイルを取得し、取得した動画ファイルからオーディオ信号を抽出し、オーディオ信号を興味区間抽出装置104に入力する機能を有する。なお、音抽出装置102は、符号化されているオーディオ信号に対して復号化処理を行って、図2(a)に示すオーディオ信号を生成する。
 コンテンツ記憶装置103は、ハードディスク装置等で構成され、入力装置110から取得した動画ファイルを記憶する機能を有する。
 興味区間抽出装置104は、インターフェース装置109から取得した指定時刻と、音抽出装置102から入力されたオーディオ信号に基づきコンテンツ記憶装置103に格納されている動画ファイルから興味区間を抽出し、抽出した興味区間を示す興味区間データを興味区間記憶装置105に格納する機能を有する。興味区間抽出装置104の詳細については後述する。
 興味区間記憶装置105は、ハードディスク装置等で構成され、興味区間抽出装置104から取得した興味区間データを記憶する機能を有する。興味区間データは、コンテンツ記憶装置103に格納されている動画ファイルを特定する情報(動画ファイルのID)と、動画ファイルの再生時間軸における時間(時間帯)を示す情報とからなる。
 音データ記憶装置130は、ハードディスク装置等で構成され、アンカーモデル作成装置108が複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルArを作成する際に用いる音データを記憶する機能を有する。当該音データは、興味区間を抽出する対象となる動画ファイルとは別に複数の動画ファイルから抽出して復号処理を行って得られたオーディオ信号からなる。なお、音データは、興味区間を抽出する対象となる動画ファイルのオーディオ信号を含んでもよい。
 出力装置106は、表示装置120に映像データを出力して映像を表示させる機能を有する。また、出力装置106は、興味区間記憶装置105から興味区間データを取得し、取得した興味区間データに基づいてコンテンツ記憶装置103から動画コンテンツの一部を構成する複数の画像データを選出し、選出した複数の画像データをつなぎ合わせたダイジェスト動画を表示装置120に表示させる機能も有する。なお、表示装置120は、映像を表示する機能を有するディスプレイであり、映像編集装置100に付属のディスプレイであってもよいし、外部のディスプレイであってもよい。
 アンカーモデル作成装置108は、音データ記憶装置130に記憶されている音データからアンカーモデルArを作成する機能を有する。また、アンカーモデル作成装置108は、作成したアンカーモデルArを興味区間抽出装置104に出力する機能を有する。アンカーモデル作成装置108の詳細については後述する。
 インターフェース装置109は、キーボード等の操作部(図示せず)を備え、ユーザからの入力操作を受け付けて、入力された情報を映像編集装置100の各部に伝達する機能を有する。本実施の形態においては、インターフェース装置109は、ユーザから受け付けた指定時刻の情報や、興味区間の長さに関する情報を興味区間抽出装置104に通知し、作成すべきアンカーモデルの個数をアンカーモデル作成装置108に通知する。
<3-2>興味区間抽出装置104
 ここから興味区間抽出装置104の詳細について説明する。興味区間抽出装置104は、プロセッサ(図示せず)とメモリ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図7に示す各構成を実現している。
 図7は、興味区間抽出装置104の機能構成例を示すブロック図である。図7に示すように興味区間抽出装置104は、特徴量ベクトル生成部201と、尤度ベクトル生成部202と、アンカーモデル蓄積部203と、尤度ベクトルバッファ204と、頻度ベクトル・分散生成部205と、頻度ベクトルバッファ206と、興味区間候補抽出部207と、区間伸長基準指標計算部208と、指定時刻取得部209と、微細構造判定部210と、階層拡張部211とを備える。以下、各構成について説明する。
<3-2-1>特徴量ベクトル生成部201
 特徴量ベクトル生成部201は、入力されたオーディオ信号から特徴量ベクトルを生成する機能を有する。特徴量ベクトル生成部201は、上記<2-2>に示したように、音抽出装置102から入力されるオーディオ信号に対して、第1単位区間毎に音響分析を行い、パワースペクトラムS(ω)を算出する。そして、特徴量ベクトル生成部201は、算出したパワースペクトラムS(ω)から特徴量ベクトルM(M(1)、M(2)、・・・、M(25)、M(26))を生成する。特徴量ベクトル生成部201は、図3に示すように、1秒につき、100個の特徴量ベクトルを生成する。
<3-2-2>アンカーモデル蓄積部203
 アンカーモデル蓄積部203は、ハードディスク装置等により実現され、アンカーモデル作成装置108により作成されたアンカーモデルArを記憶する機能を有する。当該アンカーモデルArは、興味区間抽出処理の実行前には、アンカーモデル蓄積部203に記憶されているものとする。
<3-2-3>尤度ベクトル生成部202
 尤度ベクトル生成部202は、アンカーモデル蓄積部203に蓄積されている各サウンド素片のアンカーモデルArを用いて特徴量ベクトルMに対する尤度Lrを算出し、算出した尤度Lrを各成分とする尤度ベクトルFを生成する機能を有する。そして、尤度ベクトル生成部202は、生成した尤度ベクトルFを尤度ベクトルバッファ204に格納する機能も有する。
<3-2-4>尤度ベクトルバッファ204
 尤度ベクトルバッファ204は、メモリの一部の領域により構成され、尤度ベクトル生成部202が生成した尤度ベクトルFを記憶する機能を有する。
<3-2-5>頻度ベクトル・分散生成部205
 頻度ベクトル・分散生成部205は、オーディオ信号の第2単位区間毎(1sec毎)に頻度ベクトルNFを生成する機能を有する。図8に示すように、第2単位区間は複数個(本実施の形態においては、上述の通り100個)の連続する第1単位区間の集合に相当する。頻度ベクトルNFは、第2単位区間に含まれる尤度ベクトルの正規化累積尤度に相当する。具体的には、頻度ベクトル・分散生成部205は、第2単位区間に含まれる全ての尤度ベクトルの各成分について、成分毎に、その成分の値を累積(加算)する。そして、累積して得られた各成分を正規化して、頻度ベクトルを算出する。なお、ここで正規化とは、頻度ベクトルのノルムを1にすることである。図9は、頻度ベクトルNFの一例を示す模式図である。
 頻度ベクトル・分散生成部205は、興味区間候補抽出部207からの指示に従い、頻度ベクトルNFの生成を開始/終了する。
 また、頻度ベクトル・分散生成部205は第2単位区間で行ったのと同様の手順により、第3単位区間(100msec)を単位として計算した第3単位区間頻度ベクトルを算出し、得られる10個の第3単位区間頻度ベクトルを用いて、各第2単位区間における分散を計算する。
 なお、分散σは、以下の数式(1)により算出される。
Figure JPOXMLDOC01-appb-M000001
 上式において、nは、第3単位区間頻度ベクトルの個数であり、ここでは、10となる。また、Xiは、各第3単位区間頻度ベクトルである。そして、Cは、それらの第3単位区間頻度ベクトルのベクトル重心であり、以下の数式(2)により算出される。
Figure JPOXMLDOC01-appb-M000002
<3-2-6>頻度ベクトルバッファ206
 頻度ベクトルバッファ206は、頻度ベクトル・分散生成部205が生成した頻度ベクトルを、算出対象の第2単位区間を示す情報と対応付けて記憶する機能を有する。
<3-2-7>指定時刻取得部209
 指定時刻取得部209は、インターフェース装置109から、指定時刻に関する指定時刻情報を取得し、当該指定時刻情報を、区間伸長基準指標計算部208と、興味区間候補抽出部207に伝達する機能を有する。
<3-2-8>区間伸長基準指標計算部208
 区間伸長基準指標計算部208は、指定時刻取得手段210から指定時刻情報を受け付けて、指定時刻を含む第2単位区間の時間軸前方又は時間軸後方にある第2単位区間を興味区間候補に含めるか否かを決定するための基準指標となる基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを算出する機能を有する。また、区間伸長基準指標計算部208は、算出した基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを興味区間抽出部207に伝達する機能も有する。
 具体的には、区間伸長基準指標計算部208は、頻度ベクトルバッファ206から、指定時刻を含む第2単位区間に対応する頻度ベクトルNFを取得する。また、区間伸長基準指標計算部208は、頻度ベクトルバッファ206から、指定時刻を含む第2単位区間に連なる複数の第2単位区間の頻度ベクトルNFも取得する。図10の例では、指定時刻を含む第2単位区間に連なる複数の第2単位区間を、指定時刻を含む第2単位区間の前後4つの第2単位区間としている。区間伸長基準指標計算部208は、取得した9つの頻度ベクトル(NF1~NF9)の平均をとることで、基準ベクトルNF0を算出する。つまり、区間伸長基準指標計算部208は、頻度ベクトルを構成する各正規化累積尤度をアンカーモデルごとに合算し、合算した値を使用した頻度ベクトルの個数(9個)で割って得られる値を成分とする基準ベクトルNFを生成する。
 区間伸長基準指標計算部208は、更に、基準ベクトルNF0を生成する際に用いた複数の頻度ベクトルNF1~NF9と基準ベクトルNF0との間のユークリッド距離を算出し、基準ベクトルNF0との間の距離が最も遠い頻度ベクトルNFと基準ベクトルNF0との間のユークリッド距離を興味区間候補に属するか否かの判断に用いる閾値Rthとして算出する。
 そして、区間伸長基準指標計算部208は、更に、頻度ベクトル・分散生成部205で計算した基準区間の中の各第2単位区間に対応する分散の値の中で最大のものを最大分散値σmaxとして決定する。
 図11は、基準ベクトルNF0及び各頻度ベクトルNF、そして、閾値Rthを頻度ベクトル空間の概念を用いて示した概念図である。図11において、小さな○は、それぞれ、基準ベクトルNF0の算出に用いた頻度ベクトルNF(図10に示す基準区間内の各頻度ベクトルNF1~NF9に対応)を示している。また、円状になっている斜線部分の中心が基準ベクトルNF0である。この斜線部分内に他の第2単位区間の頻度ベクトルが入るのであれば、その第2単位区間は、興味区間候補に含まれる第2単位区間であることになる。
 その後、区間伸張基準指標計算部208は、生成した基準ベクトルNF0、閾値Rth及び最大分散値σmaxを興味区間候補抽出部207に伝達する。
<3-2-9>興味区間候補抽出部207
 興味区間候補抽出部207は、頻度ベクトルバッファ206に記憶されている頻度バッファと、指定時刻取得部209から受け付けた指定時刻と、区間伸長基準指標計算部208から受け付けた基準ベクトルNF0及び閾値Rthとに基づき、興味区間の候補となる興味区間候補を抽出する機能を有する。
 図12(a)の例では、頻度ベクトルNFと基準ベクトルNF0との間のユークリッド距離が区間伸張基準指標計算部208から入力される閾値Rthを超える時刻T3とT4とのそれぞれ1つ手前(基準区間側)の2つの時刻T1、T2の間の区間が、興味区間候補に相当することになる。図12(a)の例では、時刻T3の頻度ベクトルと時刻T1の頻度ベクトル、あるいは、時刻T4の頻度ベクトルと時刻T2の頻度ベクトルとは明らかに異なるものとなっており、このため、時刻T3、T4の頻度ベクトルの基準ベクトルからのユークリッド距離が閾値Rthを超えることになった例を示している。
 頻度ベクトル空間における閾値Rthと、ユークリッド距離との関係を図12(b)に示す。興味区間候補の頻度ベクトルNFは、図12(b)に示す頻度ベクトル空間における基準ベクトルNF0を中心とした半径Rthの球の内側に存在することになる。
 興味区間候補抽出部207は、図13に示すように、指定時刻T0から時刻を遡りながら、対象時刻における頻度ベクトルNFと基準ベクトルNF0との間のユークリッド距離を算出し、算出したユークリッド距離が閾値Rthを超えるか否か(つまり、対象時刻を含む第2単位区間が興味区間候補に含まれなくなるか否か)を判定していく。同様に興味区間候補抽出部207は、図13には示していないが、時間軸順方向にも同様の処理を実行し、対象時刻を含む第2単位区間が興味区間候補に含まれるか否かを判定していく。
 興味区間候補抽出部207は、算出したユークリッド距離が閾値(Rth)を超えると、頻度ベクトル・分散生成部205に対して頻度ベクトル作成終了指示を通知する。
 具体的に説明すると、興味区間候補抽出部207は、現時点での興味区間候補(仮興味区間候補と呼称する)の時間軸方向で1つ前の第2単位区間の頻度ベクトルを取得し、取得した頻度ベクトルNFと、基準ベクトルNF0との間のユークリッド距離が閾値Rthを超えるか否かを判定する。閾値Rth以下である場合には、その第2単位区間を仮興味区間候補に含め、新たな仮興味区間候補の1つ前の第2単位区間が新たな仮興味区間候補に含まれるかの判定を繰り返す。閾値Rthを超える場合には、現在の仮興味区間候補の始点を興味区間候補の始点とする。なお、最初の時点では基準区間が仮興味区間候補となる。
 同様に、興味区間候補抽出部207は、仮興味区間候補の時間軸方向で1つ後ろの第2単位区間の頻度ベクトルを取得し、取得した頻度ベクトルNFと、基準ベクトルNF0との間の距離が閾値Rthを超えるか否かを判定する。閾値Rth以下である場合には、その第2単位区間を仮興味区間候補に含め、新たな仮興味区間候補の1つ後の第2単位区間が仮興味区間候補に含まれるかの判定を繰り返す。閾値Rthを超える場合には、現在の仮興味区間候補の終点を興味区間候補の終点とする。
 そして、興味区間候補抽出部207は、このようにして抽出した興味区間候補を微細構造判定部210に伝達する。
 なお、興味区間候補抽出部207は、仮興味区間候補の伸長にあたって、判定対象の第2単位区間が仮興味区間候補に含まれるか否かを判定するとともに、同時に当該対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いか否かも判断する。そして、ユークリッド距離が閾値Rthを超えず(興味区間候補に含まれる)且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短い(つまり、興味区間の条件を具備している)と判断すると対象時刻を含む第2単位区間の集合が興味区間候補となる。なお、興味区間の長さleよりも長くなった場合には、興味区間候補抽出部207は、その時点での仮興味区間候補を興味区間候補とする。
<3-2-10>微細構造判定部210
 微細構造判定部210は、興味区間候補抽出部207により得られた興味区間候補の最初の第2単位区間(以下、始点候補Stcと呼称する)と最後の第2単位区間(以下、終点候補Etcと呼称する)とに微細構造があるか否かを判定する機能を有する。また、微細構造判定部210は、始点候補に微細構造がないと判定された場合に、興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定する機能と、終点候補に微細構造がないと判定された場合に、興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定する機能を有する。そして、微細構造判定部210は、微細構造の有無の判定結果(微細構造があった場合には、どの第2単位区間に微細構造が存在するかの情報を含む)を階層拡張部211に伝達する機能を有する。
 具体的には、微細構造判定部210は、興味区間候補抽出部207から伝達された興味区間の始点候補Stc及び終点候補Etcの分散σstc及びσetcそれぞれと、最大分散値σmaxとを比較する。微細構造判定部210は、σstc > σmaxならば、始点候補Stcに微細構造があると判断する。また、σetc > σmaxならば、終端候補Etcに微細構造があると判断する。
 また、微細構造判定部210は、σstc ≦ σmaxならば、興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定する。同様に、微細構造判定部210は、σetc ≦ σmaxならば、興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定する。
 図15は、微細構造判定の概念図であり、これを用いて微細構造判定の一具体例を示す。図15においては、その上段から順に、(a)オーディオ信号に含まれる音の波形例、(b)第2単位区間それぞれの分散値例、(c)第2単位区間それぞれの頻度ベクトル例、(d)第2単位区間、(e)始点候補及び終点候補における拡大した音の波形例、(f)第3単位区間における頻度ベクトル例、(g)第3単位区間、を示している。σmaxは、区間伸長基準指標計算部208で既に計算されており、ここでは、σmax=0.1であったとする。図12の(b)分散に示すように始点候補Stcの分散σstcは0.25であり、σmaxよりも大きいので微細構造ありと判定する。また、終端Etcの分散σetcは0.03でありσmaxよりも小さいので微細構造はないと判定する。また、図15の(e)~(g)では第2単位区間よりも短い単位区間である各第3単位区間の頻度ベクトルの状態を模式的に表現している。始点候補Stcでは下部階層に微細な時間構造(異なる第3単位区間の間で互いに特徴の異なる頻度ベクトルを有する構造)が存在するため分散の値が大きいことを示している。
 図12の例では、終端候補Etcの第2単位区間に含まれる各第3単位区間は緩やかな変化が認められるものの微細な時間構造が含まれていないため分散が小さい(0.03)ことを示している。なお、図15においては示していないが、微細構造判定部211は、この場合、終点候補Etcの直後、即ち興味区間候補の1つ後ろの第2単位区間に微細構造があるか否か、即ち、分散が最大分散値を超えるか否かの判定を行う。
<3-2-11>階層拡張部211
 階層拡張部211は、微細構造判定部211において、微細構造があると判定された場合に、微細構造があると判定された第2単位区間を、下部階層として、第1単位区間よりも細かい単位である第3単位区間に分割(階層拡張)して、興味区間の真の始点及び終点を決定し、当該決定に基づく興味区間を示す興味区間データを興味区間記憶装置105に記録する機能を有する。始点部分(始点候補Stcまたは始点候補Stcの1つ前の第2単位区間)に微細構造がないと判定された場合には、興味区間候補の始点が興味区間の始点となり、終点部分(終点候補Etcまたは終点候補Etcの1つ後の第2単位区間)に微細構造がないと判定された場合には、興味区間候補の終点が興味区間の終点となる。
 具体的には、階層拡張部211は、微細構造があると判定された第2単位区間を第3単位区間に分割してそれぞれの第3単位区間頻度ベクトルを算出する。階層拡張部211は、当該第3単位区間頻度ベクトルを用いて、基準区間側の第3単位区間頻度ベクトルから、その第3単位区間頻度ベクトルの基準ベクトルNF0からのユークリッド距離が閾値Rthを超えるか否かを判定する。そして、閾値Rthを超えると判定された時刻に対応する第3単位区間の1つ前の第3単位区間の終点を又は終点を興味区間の真の始点または終点として、興味区間を決定する。
 図15を用いて階層拡張を説明する。微細構造判定部210で微細構造があると判定された始点候補Stcの第2単位区間に対して、第3単位区間に分割し、第2単位区間で求めた方法と同様の方法で、第3単位区間の頻度ベクトルを計算する。算出された第3単位区間の頻度ベクトルについて、基準区間側の第3単位区間から、その頻度ベクトルのユークリッド距離が閾値Rthを超えるか否かによって、仮興味区間候補を伸長していき、閾値Rthを超えたところを真の始点または終点とする。図15では、(e)及び(f)に示すように、後ろから6つめの第3単位区間で閾値を越えたと判定し、後ろから5つ目までを興味区間とする興味区間の始点を正確に検出できた例を示している。
<3-3>アンカーモデル作成装置108
 図14を用いて、アンカーモデル作成装置108について説明する。図14は、アンカーモデル作成装置108の機能構成及び周辺機器を示す機能ブロック図である。アンカーモデル作成装置108は、音データ記憶装置130に記憶されている音データに基づいてアンカーモデルを作成し、作詞したアンカーモデルをアンカーモデル蓄積部204に記録する機能を有する。
 図14に示すようにアンカーモデル作成装置108は、特徴量ベクトル生成部301と、特徴量ベクトル分類部302と、アンカーモデル生成部303とを備える。
 アンカーモデル作成装置108は、メモリ(図示せず)とプロセッサ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図18に示す各構成を実現している。即ち、アンカーモデル作成装置108は、図18に示すように、特徴量ベクトル生成部301と、特徴量ベクトル分類部302と、アンカーモデル生成部303とを実現している。
<3-3-1>特徴量ベクトル生成部301
 特徴量ベクトル生成部301は、<3-2-1>で説明した特徴量ベクトル生成部201と同様に、音データ記憶装置130から取得した音データを第1単位区間に分割し、第1単位区間毎に音響分析を行ってパワースペクトラムS(ω)を算出し、算出したパワースペクトラムS(ω)からメルケプストラムに変換し、特徴量ベクトルMを生成する機能を有する。特徴量ベクトル生成部301は、生成した特徴量ベクトルMを特徴量ベクトル分類部302に伝達する機能も有する。
<3-3-2>特徴量ベクトル分類部302
 特徴量ベクトル分類部302は、特徴量ベクトル生成部301が生成した特徴量ベクトルを、クラスタリング(分類)する機能を有する。
 特徴量ベクトル分類部302は、インターフェース装置109から入力されるアンカーモデルArの個数Kに基づいて、K-means法により複数の特徴量ベクトルMをK個のクラスタに分離し、各クラスタを表す代表的な特徴量ベクトル(以下、クラスタ特徴量ベクトルと称す。)を算出する。この各クラスタが各アンカーモデルArに対応することになる。なお、本実施の形態では、K=1024である。
<3-3-3>アンカーモデル生成部303
 アンカーモデル生成部303は、各クラスタのクラスタ特徴量ベクトルに基づいて、各アンカーモデルArに対応する特徴量出現確率関数bAr(M)を算出する機能を有する。そして、算出した特徴量出現確率関数で表現される各アンカーモデルArをアンカーモデル蓄積部203に蓄積する機能を有する。
<動作>
 以下、本実施の形態に係る興味区間抽出装置の動作を図16に示すフローチャート及び図7に示す機能ブロック図を参照しながら説明する。
 まず、音抽出装置102が、コンテンツ記録装置103からユーザが指定した動画ファイルに含まれるオーディオ信号を抽出して(矢印P1)、特徴量ベクトル生成部201に入力する(矢印P2)。
 次に、特徴量ベクトル生成部201は、入力されたオーディオ信号から特徴量ベクトルを生成して尤度ベクトル生成部202に入力する(矢印P3)。
 続いて、尤度ベクトル生成部202は、入力される特徴量ベクトルとアンカーモデル蓄積部203から取得した(矢印P4)アンカーモデルArとから第1単位区間毎に尤度ベクトルFを生成して、算出対象となっている第1単位区間を示す時間情報に対応付けて尤度ベクトルバッファ204に格納する(矢印P5、ステップS1601)。
 更に、頻度ベクトル・分散生成部205が、尤度ベクトルバッファ204に格納されている複数の尤度ベクトルF(第2単位区間分の尤度ベクトル)を取得して(矢印P6)、頻度ベクトルNFを生成する。そして、頻度ベクトル・分散生成部205は、生成した頻度ベクトルNFを頻度ベクトルバッファ206に格納する(矢印P7、ステップS1602)。この処理は、興味区間候補抽出部207から頻度ベクトル生成終了指示が通知されると終了し、頻度ベクトル生成開始指示が通知されると再開する(矢印P9)。
 一方、区間伸長基準指標計算部208は、頻度ベクトルバッファ206から指定時刻に対応する頻度ベクトルNFを含む複数の頻度ベクトルNFを取得するとともに(矢印P11)指定時刻取得部209から指定時刻の情報を取得し(矢印P12)、基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを算出する。そして、区間伸長基準指標計算部208は、生成した基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを興味区間候補抽出部207に入力する(矢印P13)。
 興味区間候補抽出部207は、頻度ベクトルバッファ206から取得した(矢印P8)頻度ベクトルNFと、区間伸長基準指標計算部208から入力される(矢印P13)基準ベクトルNF0及び閾値Rth及び最大分散値σmaxと、指定時刻取得部209から入力される(矢印P15)指定時刻の情報とを用いて、対象時刻を含む第2単位区間が仮興味区間候補に属するか否かを判断する。このとき、興味区間候補抽出部207は、指定時刻T0から第2単位区間ずつ時刻をずらしながら、対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いか否かを判断し、対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いと判断すると対象時刻を含む第2単位区間を興味区間候補とし微細構造判定部210に入力する(矢印P16、ステップS1603)。
 微細構造判定部210は、興味区間候補抽出部207から入力された始点候補Stcの分散σstcと区間伸長基準指標計算部208から得た最大分散σmaxを超えるか否かを判定する(ステップS1604)。
 始点候補Stcの分散がσstc > σmaxを満たすならば(ステップS1604のYES)、微細構造判定部210は、始点候補Stcに微細構造がある旨を階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、始点候補Stcを第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の始点を決定する(ステップS1605)。
 一方、始点候補Stcの分散がσstc > σmaxを満たさないならば(ステップS1604のNO)、微細構造判定部210は、始点候補Stcの1つ前の第2単位区間(興味区間候補の1つ前の第2単位区間)に微細構造があるか否かを判定する(ステップS1606)。
 始点候補Stcの1つ前の第2単位区間の分散がσmaxを超えるならば(ステップS1606のYES)、微細構造判定部210は、始点候補Stcの1つ前の第2単位区間に微細構造がある旨を階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、始点候補Stcの1つ前の第2単位区間を第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の始点を決定する(ステップS1605)。
 一方、始点候補Stcの1つ前の第2単位区間の分散がσmaxを超えていないならば(ステップS1606のNO)、興味区間候補の始点部分には、微細構造がない旨を、階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、興味区間候補の始点を興味区間の始点として決定する(ステップS1608)。
 興味区間抽出装置は、微細構造の有無の判定等について、同様の処理を興味区間候補の終点側においても実行する。
 微細構造判定部210は、興味区間候補抽出部207から入力された終点候補Etcの分散σetcと区間伸長基準指標計算部208から得た最大分散σmaxを超えるか否かを判定する(ステップS1609)。
 終点候補Etcの分散がσetc > σmaxを満たすならば(ステップS1609のYES)、微細構造判定部210は、終点候補Etcに微細構造がある旨を階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、終点候補Etcを第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の終点を決定する(ステップS1610)。
 一方、終点候補Etcの分散がσetc > σmaxを満たさないならば(ステップS1609のNO)、微細構造判定部210は、終点候補Etcの1つ前の第2単位区間(興味区間候補の1つ前の第2単位区間)に微細構造があるか否かを判定する(ステップS1611)。
 終点候補Etcの1つ前の第2単位区間の分散がσmaxを超えるならば(ステップS1611のYES)、微細構造判定部210は、終点候補Etcの1つ後の第2単位区間に微細構造がある旨を階層拡張部211に伝達する(矢印P21)。そして、階層拡張部211は、これを受けて、終点候補Etcの1つ前の第2単位区間を第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の終点を決定する(ステップS1612)。
 一方、終点候補Etcの1つ後の第2単位区間の分散がσmaxを超えていないならば(ステップS1611のNO)、興味区間候補の終点部分には、微細構造がない旨を、階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、興味区間候補の終点を興味区間の終点として決定する(ステップS1613)。
 そして、階層拡張部211は、決定した始点及び終点に基づく興味区間を示す興味区間データを興味区間記憶装置105に記録し(矢印P18)、興味区間抽出装置は、1つの指定時刻に対応する興味区間の抽出を終える。
<まとめ>
 上述したように、興味区間抽出装置は、興味区間の候補となる興味区間候補を抽出した後に、その興味区間候補の始点部分と終点部分を、興味区間の候補を決定するために用いた時間単位(第2単位区間)よりも、細かい時間単位(第3単位区間)で興味区間の始点と終点を決定することで、第2単位区間だけを用いた興味区間の抽出よりも適切な興味区間の抽出を行える。また、興味区間の決定の際には、始点部分や終点部分における分散を算出することによって微細構造の有無を判定し、微細構造がある場合にのみ第3単位区間での興味区間の始点と終点を決定しているので、第3単位区間での興味区間の始点と終点の決定をする必要がない場合にはその演算を行わないことで演算量を低減することを可能としている。
<変形例>
 上記実施の形態に従って、本発明に係る興味区間抽出装置について説明してきたが、本発明はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
 (1)上記実施の形態においては、微細構造判定部210は、始点候補とその1つ前の第2単位区間、終点候補とその1つ後の第2単位区間に微細構造があるか否かの判定を行っている。しかし、微細構造判定部210が、微細構造があるか否かの判定を行う対象はこれらの4つの第2単位区間に限るものではなく、興味区間候補全域に渡って判定することとしてもよい。
 興味区間の途中に微細構造があるか否かの判定を行うことによって、例えば、その興味区間中の動画において、最も盛り上がりを見せるシーンの特定などを行うことができる。
 (2)上記実施の形態においては、特に記載していなかったが、興味区間抽出装置は、以下に示すような手法を用いての興味区間の抽出を行ってもよい。
 例えば、興味区間候補抽出部207は、オーディオ信号に音声が含まれるかどうかの判定を行って、興味区間を抽出することとしてもよい。
 第2単位区間のオーディオ信号に音声が含まれるか否かは、例えば、アンカーモデルに音声を示す特定のアンカーモデルを設定しておき、そのアンカーモデルに対する尤度が予め定めておいた閾値(例えば、0.8など)を超えるか否かによって判定する。
 このとき、階層拡張部211は、オーディオ信号が音声であると判定された場合には、その第2単位区間を第3単位区間ではなく、第1単位区間の尤度ベクトルが基準ベクトルNF0から閾値Rth内にあるか否かを判定しての興味区間の抽出を行ってもよい。音声が含まれている場合には、より細かく解析することで、より厳密に興味区間の始点終点を決定することができる。
 (3)上記実施の形態において、第2単位区間及び第3単位区間における頻度ベクトルは、それぞれの区間に含まれる尤度ベクトルの各成分の正規化累積尤度を成分とするベクトルであるとした。しかし、頻度ベクトルは、その区間におけるオーディオ信号の特徴を表すものであればよく、特に、頻出する音の成分を特定できるものであれば、正規化累積尤度以外を成分とするベクトルであってもよい。例えば、単位区間に含まれる尤度ベクトルの各成分を累積し、累積尤度の高い上位k個(kは複数であり、例えば、10)のアンカーモデルのみに対応する累積尤度を正規化したベクトルであってもよい。あるいは、頻度ベクトルは、累積した値を正規化することなく、そのまま累積した尤度を成分とするベクトルであってもよい。
 (4)興味区間候補抽出部207は、指定時刻から対象時刻までの時間の長さが所定の長さ以内かどうかを判断したが、これは、興味区間を所定の長さ以上にしないための措置であり、興味区間の長さを限定せずともよい場合には、この判断処理を省略してもよい。
 (5)上記実施の形態においては、微細構造があるか否かを、分散が所定の閾値を超えるか否かに基づいて判定することとした。しかし、微細構造があるか否かは、第2単位区間内に、複数種類の音があるか否かを判定できるのであれば、これ以外の手法を用いて算出されてもよい。
 例えば、第2単位区間内において、任意の2つの尤度ベクトルを選択し、その2つの尤度ベクトル間の距離が所定の閾値以上離れているか否かによって、判定してもよい。
 このとき、全ての任意の2つの尤度ベクトルについて距離の判定をすると演算量が膨大になるため、必ずしも全ての任意の2つの尤度ベクトルについて距離の判定をする必要はない。例えば、一つの第2単位区間につて微細構造があるか否かを、その第2単位区間の両端から内側に向けて、順に連続する2つの第1単位区間の尤度ベクトル間の距離を算出する。そして、尤度ベクトル間の距離の推移から微細構造があるか否かを判定することとしてもよい。例えば、第2単位区間内において、尤度ベクトル間のユークリッド距離が長くなっていき、一定以上離れた後で、そのあとで、再び短くなっていくというような推移を見せた場合に微細構造があると判定する。この手法の場合だと、尤度ベクトル間の距離の算出は、第1単位区間が10mecで第2単位区間が1sであるとした場合には、50回で済むことになる。
 (6)上記実施の形態において、図16に示すステップS1604~S1608までの処理と、ステップS1609~S1613までの処理とは、実行タイミングが逆になってもよく、また、これらの処理は同時に並行して処理されてもよい。
 (7)上記実施の形態においては、特に記載していないが、インターフェース装置109を介して、ユーザから複数の指定時刻を受けつけ、各指定時刻を含む複数の興味区間を抽出することとしてもよい。
 また、映像編集装置は、興味区間抽出装置は、抽出された複数の興味区間について、その再生順、あるいは、AVコンテンツが録画された順にしたがって、具備している記録装置あるいは外部の記録媒体に記録する機能を備えていてもよい。また、その際に、各興味区間に対応するAVコンテンツは、複数のファイルから抽出したものであってもよい。また、それらの複数の興味区間に対応する複数のデータの記録の際には、それらをその対応する指定時刻の順で1つのファイルに統合したダイジェスト映像として記録することとしてもよい。その際には、隣り合う興味区間同士で、重複する部分がある場合には、ダイジェスト映像にその重複部分が繰り返されないように統合するとよい。
 また、同等の機能を階層拡張部211が備え、上述の手法にしたがって、抽出した複数の興味区間を興味区間記憶装置105に記録することとしてもよい。
 (8)上記実施の形態に示した音データ記憶装置130に記憶される音データは、適宜新たな音データが追加されてよく、また、コンテンツ記憶装置103に記憶された動画ファイルの音データを記憶してもよい。
 そして、新たな音データの追加に伴い、アンカーモデル作成装置108は新たなアンカーモデルを作成してもよい。
 (9)また、上記実施の形態では、音データ記憶装置130に予め蓄積されている音データから自動的に複数種類のサウンド素片それぞれのアンカーモデルArを作成する(いわゆる教師無しでアンカーモデルを作成する)例について説明したが、アンカーモデル作成手法は、これに限定されるものではない。例えば、サウンド素片の種類が少数(例えば、数十種類)に限定されている場合には、音データ記憶装置130に蓄積されている音データについて、ユーザが各サウンド素片それぞれに対応する音データを選択し、それぞれに種別ラベルを付与し、種別ラベルが同一な音データから対応するサウンド素片のアンカーモデルを作成する(いわゆる教師ありでアンカーモデルArを作成する)こととしてもよい。
 (10)上記実施の形態においては、興味区間候補抽出部207は、ユークリッド距離が閾値Rthを超えず(興味区間候補に含まれる)且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短い(つまり、興味区間の条件を具備している)と判断すると対象時刻を含み、始点候補Stc及び終点候補Etcとする第2単位区間が興味区間候補となる旨を記載した。これは、興味区間の長さがある一定上の長さになることを防ぐための措置であるが、興味区間の長さを一定以下にしなくともよいのであれば、当該判断(予め定めた興味区間の長さleとの比較処理)は行わなくともよい。
 また、上記実施の形態においては、仮興味区間候補がleよりも長き場合の処理について詳細に記載していないが、これは例えば、以下のような構成としてもよい。
 例えば、興味区間候補抽出部207は、仮興味区間候補を時間軸逆方向に伸長していき、その後に、時間軸順方向に伸長していく構成をとっていたとして、仮興味区間候補の長さがleを超えた時点での仮興味区間候補を興味区間候補として決定することとしてもよい。なお、伸長の順は時間軸順方向が時間軸逆方向よりも先に行われてもよい。
 あるいは、興味区間候補抽出部207は、仮興味区間候補を第2単位区間単位で時間軸逆方向と時間軸順方向とで交互に伸長していく構成をとってもよい。この伸長を行う際には、第2単位区間単位に交互でなくともよく、一定数(例えば、5個)の第2単位区間毎に交互に伸長する手法をとってもよい。
 (11)上記実施の形態においては、興味区間候補抽出部207は、基準ベクトルと仮興味区間候補に隣接する第2単位区間の頻度ベクトル間のユークリッド距離が、Rthを超えるか否かに応じて、当該第2単位区間を仮興味区間候補に含めるか否かを判定していた。しかし、これは、基準ベクトルと第2単位区間の頻度ベクトルが一定以上似ているか否かを判定できれば、必ずしもユークリッド距離を用いる必要はない。
 例えば、基準ベクトルと第2単位区間の頻度ベクトルと、アンカーモデルの確率分布から、基準ベクトル、頻度ベクトルを混合分布の重みとみなし、それぞれの特徴を表現する、基準混合分布と今まさに比較対象となっている第2単位区間の混合分布を計算し、2つの混合分布の両方向のカルバック・ライブラー情報量(Kullback-Leibler divergence、俗にKL距離と呼称されることもある)を距離として利用し、興味区間候補を抽出する構成としてもよい。この際、閾値Rthもカルバック・ライブラー情報量を用いて、9つの第2単位区間から計算しておく。
 なお、カルバック・ライブラー情報量は、確率論や情報理論において2つの確率分布の差異を図る尺度として一般に知られており、本発明に係る頻度ベクトルと基準ベクトル間のKL距離は以下のようにして算出できる。
 まず、一つ一つのアンカーモデルの確率関数bAr(M)をガウス分布gArと表現する。
 次に区間を伸長する単位である第2単位区間の特徴量は、アンカーモデルの全数(1024個)と第2単位区間の頻度ベクトルとから一つの混合分布を構成することができる。具体的には、第2単位区間の頻度ベクトルHS(HS=(α1,…,αAr,…,α1024))を、1024個のアンカーモデルAr(Ar=(g1,…,gAr,…,g1024))に対する重みと捉えることで、当該第2単位区間の特徴量は、以下の式(3)で与えることができる。
Figure JPOXMLDOC01-appb-M000003
 一方、基準ベクトルの確率的特徴の別表現として、同様の表現ができる。即ち、基準ベクトルC(C=(μ1,…,μAr,…,μ1024))を、1024個のアンカーモデルAr(Ar=(g1,…,gAr,…,g1024))に対する重みと捉えることで、基準ベクトルの確率的特徴の別表現は、以下の式(4)で与えることができる。
Figure JPOXMLDOC01-appb-M000004
 すると、この2つの混合分布GS及びGCを用いて、GSからGCに対するカルバック・ライブラー情報量は以下の式(5)で与えることができる。
Figure JPOXMLDOC01-appb-M000005
 なお、上記式(5)においてEYは期待値を意味する。
 また、GCからGSに対するカルバック・ライブラー情報量は以下の式(6)で与えることができる。
Figure JPOXMLDOC01-appb-M000006
 そして、式(5)と式(6)の両方向のカルバック・ライブラー情報量を求め、二つの確率分布間のKL距離を、以下の式(7)のように定義する。
Figure JPOXMLDOC01-appb-M000007
 上記実施の形態に示したユークリッド距離の換わりに、この式(7)に示されるKL距離を用いて、第2単位区間を仮基準区間候補に含めるか否かの判定を行ってもよい。このとき、閾値Rth(閾値ユークリッド距離)の代わりには、基準区間に含まれる複数の第2単位区間の頻度ベクトルの中で、それら複数の頻度ベクトルの重心ベクトル(基準ベクトル)から、最もKL距離が遠い頻度ベクトルとの間のKL距離(閾値KL距離)を用いればよい。
 また、その他にも、ユークリッド距離を用いない手法としては、例えば、基準ベクトルと第2単位区間の頻度ベクトルとの相関演算を行って、その相関値が一定値以上(例えば、0.6以上)であれば、当該第2単位区間を仮興味区間候補に含めるというような手法をとってもよい。また、当該手法であれば、基準ベクトルではなく、指定時刻を含む第2単位区間の頻度ベクトルと、その第2単位区間(または仮興味区間候補)に隣接する第2単位区間の頻度ベクトルとの間の相関値を用いて、興味区間候補を抽出する構成としてもよい。
 (12)上記実施の形態においては、指定時刻取得手段209は、インターフェース装置109に入力されたユーザ入力に基づく指定時刻を取得する構成を示した。しかし、指定時刻の取得方法はこれに限定されるものではない。
 例えば、指定時刻取得部209が、動画ファイルに含まれる複数の画複データそれぞれの特徴量の時間変化に基づいて、自動的に指定時刻T0を取得するものであってもよい。
 ここにおいて、指定時刻取得部209は、動画ファイルに含まれる複数の画像データそれぞれについて一般的なクラスタリング手法により複数のシフト特徴量を算出し、各画像データ間における所定のシフト特徴量の差分から指定時刻T0を算出するようにすればよい。例えば、複数の画像データそれぞれの背景画像を表すシフト特徴量に着目し、時間軸上で隣接する2つの画像データ間の当該シフト特徴量の差分が大きく変化するところを自動的に指定時刻T0とすることが考えられる。また、このとき、動画ファイルのどの部分から指定時刻T0を取得するのかについて、当該部分の始点と終点との時刻をユーザが指定してもよい。
 あるいは、画像データに限らず、特定の音が検出される点を指定時刻として検出することとしてもよい。例えば、特定の音として、特定のユーザの声を動画ファイルから検出して、その特定のユーザの声を検出したタイミングを指定時刻として取得することとしてもよい。これは、特定のユーザの声の特徴量を示す情報を予め記憶しておき、動画のオーディオ信号から、この特徴量に所定以上類似するか否かに応じて、ユーザの声の検出を行う。なお、連続する期間でユーザの声があると判定された場合には、その連続する期間の中点を指定時刻として、興味区間の抽出を行う。
 また、この特定の音に換えて、特定のオブジェクトが検出できるタイミングを指定時刻として扱ってもよい。この場合、特定のオブジェクトを示す画像特徴量を記憶しておき、動画ファイルの画像データから検出される画像特徴量との相関が一定以上検出されるタイミングを指定時刻とすればよい。
 (13)上記実施の形態における第1単位区間、第2単位区間、第3単位区間それぞれの時間の長さは一例である。その時間長は、第1単位区間<第3単位区間<第2単位区間となっていれば、上記実施の形態に示した秒数以外の長さであってもよい。なお、このとき、第2単位区間の長さは、第1単位区間の長さと第3単位区間の長さとの公倍数になっていると処理が容易になる。
 (14)上記実施の形態においては、階層拡張部211は、微細構造があると判定された第2単位区間の第3単位区間頻度ベクトルを算出することとしたが、これは、頻度ベクトル・分散生成部205が分散を算出するのに用いた第3単位区間頻度ベクトルを利用してもよい。
 (15)上記実施の形態においては、興味区間抽出装置は、入力された動画から興味区間を抽出することとしたが、興味区間の抽出を行わず、興味区間の特定に留めることとしてもよい。
 即ち、本発明に係る興味区間特定装置は、図17に示すような構成をとってもよい。図17に示す構成は、上記実施の形態の図7に示した興味区間抽出装置104の構成に加え、更に、インデキシング部1700を備える。
 図17において、図7に示した構成と同等の機能を有するものについては、同じ名称及び符号を付与している。
 階層拡張部1711は、階層拡張部211と略同等の機能を備える。ただし、階層拡張部211と異なり、興味区間を抽出するのではなく、興味区間を特定するにとどめる。興味区間の特定とは、興味区間の開始時刻と終了時刻とを特定することを意味する。そして、階層拡張部1711は、特定した興味区間の情報をインデキシング部1700に伝達する。
 インデキシング部1700は、階層拡張部1711と、興味区間記憶装置105との間に、挿入される。インデキシング部1700は、階層拡張部1711から伝達された興味区間の情報に基づき、対応する動画に対して、興味区間の情報で示される興味区間の始点となる始点フラグ及び終点となる終点フラグを付与する。なお、興味区間長が固定の場合は、動画に対して付与するのは、始点フラグのみでもよい。
 これにより、動画に対して、興味区間の始点フラグ、終点フラグが付与されることにより、動画の再生時にこのフラグを基準点とする、頭出し再生を実行できるようになる。このような手法でも、ユーザにとっても無駄な動画を視聴する時間を短縮することができる。
 (16)上記実施の形態においては、ユーザから指定時刻を受け付けて、興味区間候補を定めて、その中に微細構造があるか否かを判定した上で、真の興味区間を抽出する構成を示した。しかしながら、本発明はこれに限定されるものではない。
 興味区間候補は、予め興味区間抽出装置に対して入力される動画に興味区間候補の情報(開始時刻と終了時刻)が付与されており、この予め指定されている興味区間候補について、微細構造の有無を判定して、階層拡張部211による興味区間の抽出を実行することとしてもよい。
 これにより、例えば、予めチャプターの設定がされている動画についても、そのチャプターの開始点や終了点が適切でない場合の修正等を容易に行うことができる。動画編集の技術を有しないユーザが動画に対して手動でチャプタリングを実行した場合には、チャプターの開始点、終了点などは正確性に欠けることが多いため、そのような動画を興味区間抽出装置に入力すると、そのチャプターの修正が容易にでき、有用である。
 (17)上述の実施形態で示した通信に係る動作、興味区間抽出処理等(図16参照)を映像編集機器等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。
 (18)上記実施の形態で示した興味区間抽出装置を構成する構成要素の一部又は全部は、1又は複数の集積回路(IC、LSIなど)として実装されることとしても良く、画像管理装置の構成要素に更に他の要素を加えて集積回路化(1チップ化)されることとしてもよい。
 ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
<補足>
 上記実施の形態に従って、本発明の一実施形態に係る興味区間特定装置について説明したが、本発明の実施の形態はこれに限るものではない。以下に、本発明の一実施形態と、その奏する効果について説明する。
 (a)図18に示すように、本発明に係る興味区間特定装置は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段(1801)と、前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段(1802)と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段(1803)とを備えることを特徴としている。
 図18に示す興味区間候補抽出手段1801は、図7及び図17における興味区間候補抽出部207に相当する。また、微細構造判定手段1802は、図7及び図17における微細構造判定部210に相当する。そして、興味区間特定手段1803は、図7及び図17における階層拡張部211、1711に相当する。また、図18に示す興味区間特定装置は、更に、図7に示す特徴量ベクトル生成部201、尤度ベクトル生成部202、アンカーモデル蓄積部203、尤度ベクトルバッファ204、頻度ベクトル・分散生成部205、頻度ベクトルバッファ206、区間伸張基準指標計算部208、指定時刻取得部209を含んで構成されてよく、これらの各機能部の接続関係は、図7に示す通りである。
 また、微細構造とは、上記実施の形態に示した通りであるが、別の言い方をすれば、興味区間候補よりも短い(細かい)時間区間の中で、音の特徴に一定以上のばらつき(変化)がある構造と言える。また、別の言い方をすれば、微細構造の有無の判定とは、興味区間候補としては、ある程度共通した音の特徴を有する区間でありながら、その中でも、微細な時間単位でみた場合には、音の特徴にばらつきがあることを検出することであるとも言える。
 また、本発明に係る興味区間特定方法は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定ステップと、前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
 また、本発明に係る興味区間特定プログラムは、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定ステップと、前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
 また、本発明に係る興味区間特定集積回路は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を特定する興味区間特定集積回路であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定手段と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段とを備えることを特徴としている。
 これにより、動画ファイルにおける興味区間を特定できるので、例えば、動画ファイルの再生時におけるスキップ再生や、ダイジェストの作成等に利用することができ、動画ファイルの中でもユーザにとって興味を覚えると推測される部分のみを視聴させることができる。
 また、本構成によれば、動画ファイル(AVコンテンツ)から興味区間を抽出する際に、区間の始端、終端の2つの時刻をユーザが注意深く指定するのではなく、興味区間特定装置が、例えば、興味区間の始点又は終点となる部分(微細構造が含まれると判定された場合)を精査して、興味区間を特定することができるので、ユーザによる正確な始点または終点の入力なしに、より精密に興味区間を特定することができる。
 (b)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積しているアンカーモデル蓄積手段と、ユーザから指定時刻を取得する指定時刻取得手段と、オーディオ信号の第1単位区間毎に、当該第1単位区間におけるオーディオ信号の特徴量を示す特徴量ベクトルの、前記アンカーモデル各々に対する尤度を求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段とを備え、前記興味区間候補抽出手段は、前記尤度ベクトルに基づいて、前記指定時刻を含み、前記第1単位区間よりも長い、前記興味区間の候補となる興味区間候補を算出し、前記微細構造判定手段は、前記興味区間候補を含む区間における前記第1単位区間よりも長く前記興味区間候補よりも短い特定区間について微細構造が含まれるか否かを判定することとしてもよい。
 これにより、ユーザが動画に対して興味を覚えたタイミングで受け付けた入力に基づいて、興味区間を特定することができる。興味を覚えたタイミングだけの入力でく、興味区間特定装置は、正確な興味区間の始点あるいは終点の入力でなくとも、興味区間を特定できる。
 (c)また、上記(b)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記第1単位区間のN倍の長さの第2単位区間のオーディオ信号から生成されるN個の尤度ベクトルから第2単位区間頻度ベクトルを算出し、前記第1単位区間のM倍(1<M<N、NはMの倍数)の長さの第3単位区間のオーディオ信号から生成されるM個の尤度ベクトルから第3単位区間頻度ベクトルを算出する頻度ベクトル算出手段と、前記第2単位区間に含まれる第3単位区間の第3単位区間頻度ベクトルの分散を算出する分散算出手段とを備え、前記特定区間は、前記第2単位区間であり、前記興味区間候補抽出手段は、前記興味区間候補を前記第2単位区間頻度ベクトルに基づいて算出し、前記微細構造判定手段は、前記分散が基準値を超えるか否かに基づいて微細構造が含まれるか否かを判定することとしてもよい。
 これにより、興味区間特定装置は、第2単位区間に含まれる第3単位区間の頻度ベクトルを用いて算出された分散を用いることで、微細構造があるか否かを判定することができるので、微細構造がある場合に、微細構造がある特定区間を解析して、より精密に興味区間を特定することができる。
 (d)また、上記(c)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記指定時刻を含む複数の連続する第2単位区間からなる基準区間について、当該基準区間の複数の第2単位区間頻度ベクトルに基づいて基準ベクトルを算出し、前記基準値を前記基準区間に含まれる各第2単位区間それぞれの分散のうち最も大きい値とする基準指標計算部を備え、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルが前記基準ベクトルに一定以上似ているか否かを判定し、似ていると判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、似ていないと判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。
 これにより、興味区間特定装置は、基準区間の基準ベクトルを用いることで、指定時刻を含む第2単位区間ではなく、当該第2単位区間にある程度以上似ている音の特徴を有する第2単位区間を興味区間候補として抽出することができる。指定時刻に対応する第2単位区間の頻度ベクトルではなく、基準ベクトルを用いることで、興味区間候補の抽出に幅を持たせることができる。
 (e)また、上記(d)に示す興味区間特定装置において、前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからユークリッド距離が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値ユークリッド距離を算出し、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのユークリッド距離が前記閾値ユークリッド距離を超えるか否かを判定し、前記閾値ユークリッド距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。
 (f)また、上記(e)に示す興味区間特定装置において、前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからKL距離(Kullback-Leibler divergence)が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値KL距離を算出し、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのKL距離が前記閾値KL距離を超えるか否かを判定し、前記閾値KL距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値KL距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。
 これにより、興味区間抽出装置は、基準区間に基づいて算出された各指標に従って、興味区間の候補となる興味区間候補を抽出することができる。KL距離を用いる構成の場合、確率論、情報理論において、2つの確率分布の差異を示す尺度として広範に使用されるKL距離を用いることで、興味区間候補抽出の信頼性を高めることができる。
 (g)また、上記(f)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間又は最後の第2単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の先頭の第2単位区間に微細構造があると判定された場合に、前記先頭の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の最後の第2単位区間に微細構造があると判定された場合に、前記最後の第2単位区間を解析して興味区間の終点を特定することとしてもよい。
 これにより、興味区間特定装置は、特定の第2単位区間について微細構造の有無を判定することにより、微細構造の有無を判定する範囲を小さくして、候補区間全域で微細構造の有無を判定する場合よりも演算量を低減することができる。
 (h)また、上記(f)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の1つ前の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ前の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の1つ前の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の始点を前記興味区間の始点とすることとしてもよい。
 これにより、興味区間抽出装置は、興味区間候補には入っていないものの、実際には興味区間に含めるべき範囲を特定して、より正確に興味区間の始点を決定することができる。
 (i)また、上記(f)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の最後の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の1つ後の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ後の第2単位区間を解析して興味区間の終点を特定し、前記興味区間候補の1つ後の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の終点を前記興味区間の終点とすることとしてもよい。
 これにより、興味区間抽出装置は、興味区間候補には入っていないものの、実際には興味区間に含めるべき範囲を特定して、より正確に興味区間の終点を決定することができる。
 (j)また、上記(d)に示す興味区間特定装置において、微細構造があると判定された第2単位区間が前記興味区間候補に含まれる場合には前記興味区間候補から当該第2単位区間を除いた区間を第2仮興味区間候補とし、微細構造があると判定された第2単位区間が前記興味区間候補に含まれない場合には前記興味区間候補を第2仮興味区間候補とし、前記興味区間抽出手段は、微細構造があると判定された第2単位区間について、前記基準区間側の第3単位区間から、その第3単位区間頻度ベクトルが前記基準ベクトルから前記閾値ユークリッド距離を超えるか否かを判定して、前記閾値ユークリッド距離を超えないと判定された場合に、当該第3単位区間を前記第2仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での第2仮興味区間候補の始点又は終点を前記興味区間候補の始点又は終点として決定することとしてもよい。
 これにより、興味区間抽出装置は、第2単位区間よりも細かい第3単位区間を基準に興味区間の始点と終点を決定することで、より正確に興味区間を抽出することができる。
 (k)また、上記(d)に示す興味区間特定装置において、前記興味区間抽出装置は、更に、前記微細構造を判定する対象が人の声であるか否かを判別する判別手段を備え、前記興味区間抽出手段は、前記判別手段が人の声であると判別した場合に、前記微細構造があると判定された第2単位区間を前記第1単位区間の単位で再帰的に解析することとしてもよい。
 これにより、興味区間特定装置は、微細構造があると判定された第2単位区間について、そのオーディオ信号に音声が含まれるか否かの判定を行い、肯定的な判定をした場合に、第3単位区間よりも細かい第1単位区間での解析を行って、より正確な興味区間の抽出を行える。
 (l)また、上記(b)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の全ての第2単位区間について前記微細構造が含まれるか否かを判定することとしてもよい。
 これにより、興味区間特定装置は、候補区間全域に渡って、微細構造の有無を判定することができる。したがって、より細やかな解析を行うことができる。例えば、候補区間の中途に微細構造があった場合には、その部分には、動画ファイルにおいて盛り上がりを見せるシーン、所謂ハイライトがあると推定したりすることができる。
 (m)また、上記(b)に示す興味区間特定装置において、前記指定時刻取得手段は、複数の指定時刻を取得し、前記興味区間抽出手段は、前記複数の指定時刻それぞれに対応する興味区間を抽出し、前記興味区間抽出装置は、更に、前記複数の指定時刻それぞれに対応する興味区間を前記複数の指定時刻で示される時刻の順で外部記憶装置に記録する記録手段を備えることとしてもよい。
 これにより、興味区間特定装置は、複数の指定時刻の指定を受けた上での興味区間の抽出を行うことができる。当該構成は、ユーザが興味を示すシーンが複数ある場合などに、特に有用となる。また、興味区間抽出装置は、抽出した複数の興味区間に対応する動画ファイルのデータを時系列順に記録媒体に記録することができるので、この記録された興味区間分の動画ファイルをユーザが視聴する際に、違和感なく視聴することができる。
 (n)また、上記(m)に示す興味区間特定装置において、前記記録手段は、前記複数の指定時刻それぞれに興味区間を前記複数の指定時刻で示される時刻の順に統合した統合データを前記外部記憶装置に記録することとしてもよい。
 これにより、興味区間特定装置は、複数の興味区間に対応する部分の動画ファイルを1つのファイル(統合データ)にして記録することができ、外部記憶装置に記録された興味区間に対応するデータを視聴する際の利便性を向上させることができる。
 (o)また、上記(b)に示す興味区間特定装置において、前記興味区間抽出装置は、更に、ユーザから前記動画ファイルにおける再生時間上の特定期間を指定する特定期間指定手段を備え、前記指定時刻取得手段は、前記特定期間における画像データそれぞれの特徴量の時間変化に基づいて、当該特定期間内から前記指定時刻を取得することとしてもよい。
 これにより、興味区間特定装置は、ユーザから指定時刻の指定を受け付けることなく、自身で指定時刻を取得することができるので、興味区間抽出の自動化を実現することができる。
 (p)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間に係る興味区間情報を前記動画ファイルに付与する興味区間情報付与手段を備えることとしてもよい。
 これにより、興味区間特定装置は、動画ファイルに対して興味区間の情報を付与することができるので、例えば、当該情報に基づいて、動画ファイルのダイジェストの作成や、動画ファイル作成時のチャプタとして利用することができる。
 (q)また、上記(a)に示す興味区間特定装置において、前記興味区間情報付与手段は、前記興味区間情報として興味区間の始点となる位置に始点フラグおよび/または興味区間の終点となる位置に終点フラグを前記動画ファイルに付与することとてもよい。
 これにより、興味区間特定装置は、動画ファイルに対して、始点フラグまたは終点フラグを付与するので、始点フラグや、終点フラグが付与された動画ファイルの再生時の頭出し等に利用できる。
 (r)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画ファイルから抽出する興味区間抽出手段を備えることとしてもよい。
 これにより、興味区間特定装置は、興味区間を動画ファイルから抽出できるので、動画ファイルのダイジェストの作成等に利用できる。
 (s)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、予め興味区間候補が指定されている動画ファイルを取得する取得手段を備え、前記微細構造判定手段は、予め指定されている興味区間候補について、その始端部分、または、終端部分の第1区間に微細構造があるか否かを判定し、前記興味区間特定手段は、前記取得手段が取得した予め興味区間候補が指定されている動画ファイルにおける興味区間を特定することとしてもよい。
 これにより、興味区間特定装置は、興味区間が設定されている動画において、その興味区間の設定が適切でない場合などに、修正ができる。
 本発明に係る興味区間抽出装置は、音声、家屋内の音、外出時の音などを含むAVコンテンツのオーディオ信号からユーザの興味の対象となる興味区間を抽出する装置として、AVコンテンツの編集技術として活用することができる。
100 映像編集装置
102 音抽出装置
103 コンテンツ記憶装置
104 興味区間抽出装置
105 興味区間記憶装置
106 興味区間抽出部
108 アンカーモデル作成装置
109 インターフェース装置
130 音データ記憶装置
201、301 特徴量ベクトル生成部
202 尤度ベクトル生成部
203 アンカーモデル蓄積部
204 尤度ベクトルバッファ
205 頻度ベクトル・分散生成部(頻度ベクトル算出手段、分散算出手段)
206 頻度ベクトルバッファ
207 興味区間候補抽出部
208 区間伸張基準指標計算部
209 指定時刻取得部
210 微細構造判定部
211 階層拡張部(興味区間抽出手段)
302 特徴量ベクトル分類部
303 アンカーモデル生成部

Claims (22)

  1.  動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、
     前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、
     前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、
     前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段と
     を備えることを特徴とする興味区間特定装置。
  2.  前記興味区間特定装置は、更に、
     基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積しているアンカーモデル蓄積手段と、
     ユーザから指定時刻を取得する指定時刻取得手段と、
     オーディオ信号の第1単位区間毎に、当該第1単位区間におけるオーディオ信号の特徴量を示す特徴量ベクトルの、前記アンカーモデル各々に対する尤度を求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段とを備え、
     前記興味区間候補抽出手段は、前記尤度ベクトルに基づいて、前記指定時刻を含み、前記第1単位区間よりも長い、前記興味区間の候補となる興味区間候補を算出し、
     前記微細構造判定手段は、前記興味区間候補を含む区間における前記第1単位区間よりも長く前記興味区間候補よりも短い特定区間について微細構造が含まれるか否かを判定する
     をことを特徴とする請求項1記載の興味区間特定装置。
  3.  前記興味区間特定装置は、更に、
     前記第1単位区間のN倍の長さの第2単位区間のオーディオ信号から生成されるN個の尤度ベクトルから第2単位区間頻度ベクトルを算出し、前記第1単位区間のM倍(1<M<N、NはMの倍数)の長さの第3単位区間のオーディオ信号から生成されるM個の尤度ベクトルから第3単位区間頻度ベクトルを算出する頻度ベクトル算出手段と、
     前記第2単位区間に含まれる第3単位区間の第3単位区間頻度ベクトルの分散を算出する分散算出手段とを備え、
     前記特定区間は、前記第2単位区間であり、
     前記興味区間候補抽出手段は、前記興味区間候補を前記第2単位区間頻度ベクトルに基づいて算出し、
     前記微細構造判定手段は、前記分散が基準値を超えるか否かに基づいて微細構造が含まれるか否かを判定する
     ことを特徴とする請求項2記載の興味区間特定装置。
  4.  前記興味区間特定装置は、更に、前記指定時刻を含む複数の連続する第2単位区間からなる基準区間について、当該基準区間の複数の第2単位区間頻度ベクトルに基づいて基準ベクトルを算出し、前記基準値を前記基準区間に含まれる各第2単位区間それぞれの分散のうち最も大きい値とする基準指標計算部を備え、
     前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルが前記基準ベクトルに一定以上似ているか否かを判定し、一定以上似ていると判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、一定以上似ていないと判定された時点での仮興味区間候補を前記興味区間候補として決定する
     ことを特徴とする請求項3記載の興味区間特定装置。
  5.  前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからユークリッド距離が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値ユークリッド距離を算出し、
     前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのユークリッド距離が前記閾値ユークリッド距離を超えるか否かを判定し、前記閾値ユークリッド距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定する
     ことを特徴とする請求項4記載の興味区間特定装置。
  6.  前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間又は最後の第2単位区間に微細構造があるか否かを判定し、
     前記興味区間特定手段は、前記興味区間候補の先頭の第2単位区間に微細構造があると判定された場合に、前記先頭の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の最後の第2単位区間に微細構造があると判定された場合に、前記最後の第2単位区間を解析して興味区間の終点を特定する
     ことを特徴とする請求項5記載の興味区間特定装置。
  7.  前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定し、
     前記興味区間特定手段は、前記興味区間候補の1つ前の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ前の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の1つ前の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の始点を前記興味区間の始点とする
     ことを特徴とする請求項6記載の興味区間特定装置。
  8.  前記微細構造判定手段は、前記興味区間候補の最後の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定し、
     前記興味区間特定手段は、前記興味区間候補の1つ後の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ後の第2単位区間を解析して興味区間の終点を特定し、前記興味区間候補の1つ後の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の終点を前記興味区間の終点とする
     ことを特徴とする請求項6記載の興味区間特定装置。
  9.  微細構造があると判定された第2単位区間が前記興味区間候補に含まれる場合には前記興味区間候補から当該第2単位区間を除いた区間を第2仮興味区間候補とし、微細構造があると判定された第2単位区間が前記興味区間候補に含まれない場合には前記興味区間候補を第2仮興味区間候補とし、
     前記興味区間特定手段は、微細構造があると判定された第2単位区間について、前記基準区間側の第3単位区間から、その第3単位区間頻度ベクトルが前記基準ベクトルから前記閾値ユークリッド距離を超えるか否かを判定して、前記閾値ユークリッド距離を超えないと判定された場合に、当該第3単位区間を前記第2仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での第2仮興味区間候補の始点又は終点を前記興味区間候補の始点又は終点として決定する
     ことを特徴とする請求項6に記載の興味区間特定装置。
  10.  前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからKL距離(Kullback-Leibler divergence)が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値KL距離を算出し、
     前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのKL距離が前記閾値KL距離を超えるか否かを判定し、前記閾値KL距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値KL距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定する
     ことを特徴とする請求項4記載の興味区間特定装置。
  11.  前記興味区間特定装置は、更に、
     前記微細構造を判定する対象が人の声であるか否かを判別する判別手段を備え、
     前記興味区間特定手段は、前記判別手段が人の声であると判別した場合に、前記微細構造があると判定された第2単位区間を前記第1単位区間の単位で再帰的に解析する
     ことを特徴とする請求項4記載の興味区間特定装置。
  12.  前記微細構造判定手段は、前記興味区間候補の全ての第2単位区間について前記微細構造が含まれるか否かを判定する
     ことを特徴とする請求項4記載の興味区間特定装置。
  13.  前記指定時刻取得手段は、複数の指定時刻を取得し、
     前記興味区間特定手段は、前記複数の指定時刻それぞれに対応する興味区間を抽出し、
     前記興味区間特定装置は、更に、
     前記複数の指定時刻それぞれに対応する興味区間を前記複数の指定時刻で示される時刻の順で外部記憶装置に記録する記録手段を備える
     ことを特徴とする請求項2記載の興味区間特定装置。
  14.  前記記録手段は、前記複数の指定時刻それぞれに興味区間を前記複数の指定時刻で示される時刻の順に統合した統合データを前記外部記憶装置に記録する
     ことを特徴とする請求項13記載の興味区間特定装置。
  15.  前記興味区間特定装置は、更に、
     ユーザから前記動画ファイルにおける再生時間上の特定期間を指定する特定期間指定手段を備え、
     前記指定時刻取得手段は、前記特定期間における画像データそれぞれの特徴量の時間変化に基づいて、当該特定期間内から前記指定時刻を取得する
     ことを特徴とする請求項2記載の興味区間特定装置。
  16.  前記興味区間特定装置は、更に、
     前記興味区間特定手段が特定した興味区間に係る興味区間情報を前記動画ファイルに付与する興味区間情報付与手段を備える
     ことを特徴とする請求項1記載の興味区間特定装置。
  17.  前記興味区間情報付与手段は、前記興味区間情報として興味区間の始点となる位置に始点フラグおよび/または興味区間の終点となる位置に終点フラグを前記動画ファイルに付与する
     ことを特徴とする請求項16記載の興味区間特定装置。
  18.  前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画ファイルから抽出する興味区間抽出手段を備える
     ことを特徴とする請求項1記載の興味区間特定装置。
  19.  前記興味区間特定装置は、更に、予め興味区間候補が指定されている動画ファイルを取得する取得手段を備え、
     前記微細構造判定手段は、予め指定されている興味区間候補について、その始端部分、または、終端部分の第1区間に微細構造があるか否かを判定し、
     前記興味区間特定手段は、前記取得手段が取得した予め興味区間候補が指定されている動画ファイルにおける興味区間を特定する
     ことを特徴とする請求項1記載の興味区間特定装置。
  20.  動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置による興味区間特定方法であって、
     前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、
     前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定ステップと、
     前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップと
     を含むことを特徴とする興味区間特定方法。
  21.  動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、
     前記興味区間特定処理は、
     前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、
     前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定ステップと、
     前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップと
     を含むことを特徴とする興味区間特定プログラム。
  22.  動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を特定する興味区間特定集積回路であって、
     前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、
     前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、
     前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段と
     を備えることを特徴とする興味区間特定集積回路。
PCT/JP2012/002788 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 WO2012164818A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280002327.1A CN103053173B (zh) 2011-06-02 2012-04-24 兴趣区间确定装置、兴趣区间确定方法及兴趣区间确定集成电路
US13/809,480 US9031384B2 (en) 2011-06-02 2012-04-24 Region of interest identification device, region of interest identification method, region of interest identification program, and region of interest identification integrated circuit
JP2013517829A JP5723446B2 (ja) 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-124498 2011-06-02
JP2011124498 2011-06-02

Publications (1)

Publication Number Publication Date
WO2012164818A1 true WO2012164818A1 (ja) 2012-12-06

Family

ID=47258696

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/002788 WO2012164818A1 (ja) 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

Country Status (4)

Country Link
US (1) US9031384B2 (ja)
JP (1) JP5723446B2 (ja)
CN (1) CN103053173B (ja)
WO (1) WO2012164818A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323531A (zh) * 2014-06-30 2016-02-10 三亚中兴软件有限责任公司 视频会议热点场景的检测方法和装置
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
US10127943B1 (en) 2017-03-02 2018-11-13 Gopro, Inc. Systems and methods for modifying videos based on music
CN109473123B (zh) * 2018-12-05 2022-05-31 百度在线网络技术(北京)有限公司 语音活动检测方法及装置
CN110516083B (zh) * 2019-08-30 2022-07-12 京东方科技集团股份有限公司 相册管理方法、存储介质及电子设备
US11144764B1 (en) * 2020-09-30 2021-10-12 Cbs Interactive Inc. Systems, methods, and storage media for selecting video portions for a video synopsis of streaming video content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2008124551A (ja) * 2006-11-08 2008-05-29 Matsushita Electric Ind Co Ltd ダイジェスト作成装置
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
WO2011132410A1 (ja) * 2010-04-22 2011-10-27 パナソニック株式会社 アンカーモデル適応装置、集積回路、AV(Audio Video)デバイス、オンライン自己適応方法、およびそのプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2960939B2 (ja) 1989-08-24 1999-10-12 日本電信電話株式会社 シーン抽出処理方法
EP0977172A4 (en) 1997-03-19 2000-12-27 Hitachi Ltd METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO
JP3955418B2 (ja) 1999-08-17 2007-08-08 株式会社日立国際電気 動画像編集装置
US7286749B2 (en) * 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
KR100612842B1 (ko) * 2004-02-28 2006-08-18 삼성전자주식회사 앵커 샷 결정방법 및 결정장치
JP2005260391A (ja) 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 動画像表示装置、動画像表示方法、動画像表示プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4962783B2 (ja) * 2007-08-31 2012-06-27 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
CN101359365B (zh) * 2008-08-07 2011-04-13 电子科技大学中山学院 一种基于最大类间方差和灰度信息的虹膜定位方法
JP5092000B2 (ja) * 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
CN102782750B (zh) * 2011-01-05 2015-04-01 松下电器(美国)知识产权公司 兴趣区间抽取装置、兴趣区间抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2008124551A (ja) * 2006-11-08 2008-05-29 Matsushita Electric Ind Co Ltd ダイジェスト作成装置
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
WO2011132410A1 (ja) * 2010-04-22 2011-10-27 パナソニック株式会社 アンカーモデル適応装置、集積回路、AV(Audio Video)デバイス、オンライン自己適応方法、およびそのプログラム

Also Published As

Publication number Publication date
US20130108244A1 (en) 2013-05-02
CN103053173A (zh) 2013-04-17
CN103053173B (zh) 2016-09-07
US9031384B2 (en) 2015-05-12
JP5723446B2 (ja) 2015-05-27
JPWO2012164818A1 (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
JP5723446B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
RU2494566C2 (ru) Устройство и способ управления отображением
US7945439B2 (en) Information processing apparatus, information processing method, and computer program
US10134440B2 (en) Video summarization using audio and visual cues
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
US8200061B2 (en) Signal processing apparatus and method thereof
KR101265960B1 (ko) 하이라이트 추출 장치 및 그 방법
EP2573763B1 (en) Audio classification device, method, program
US20030160944A1 (en) Method for automatically producing music videos
US8930190B2 (en) Audio processing device, audio processing method, program and integrated circuit
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
JPH10136297A (ja) デジタルビデオデータから索引付け情報を抽出する方法と装置
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
US8942540B2 (en) Interesting section extracting device, interesting section extracting method
US7243062B2 (en) Audio segmentation with energy-weighted bandwidth bias
JP2011013731A (ja) 情報処理装置、情報処理方法、およびプログラム
US9113269B2 (en) Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム
CN118018798A (zh) 基于人工智能模型的语音、视频训练方法和相关装置
JP2003271177A (ja) 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム
WO2009119272A1 (en) Video processing apparatus and method
JP2014206667A (ja) 音声出力装置、音声出力方法
Baillie A study of audio-based sports video indexing techniques

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280002327.1

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 13809480

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12793512

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013517829

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12793512

Country of ref document: EP

Kind code of ref document: A1