WO2013157190A1 - 音声処理装置、音声処理方法、プログラムおよび集積回路 - Google Patents

音声処理装置、音声処理方法、プログラムおよび集積回路 Download PDF

Info

Publication number
WO2013157190A1
WO2013157190A1 PCT/JP2013/001568 JP2013001568W WO2013157190A1 WO 2013157190 A1 WO2013157190 A1 WO 2013157190A1 JP 2013001568 W JP2013001568 W JP 2013001568W WO 2013157190 A1 WO2013157190 A1 WO 2013157190A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
section
boundary
feature
scene
Prior art date
Application number
PCT/JP2013/001568
Other languages
English (en)
French (fr)
Inventor
小沼 知浩
上野山 努
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201380001357.5A priority Critical patent/CN103534755B/zh
Priority to JP2013548126A priority patent/JP6039577B2/ja
Priority to US14/113,481 priority patent/US8930190B2/en
Publication of WO2013157190A1 publication Critical patent/WO2013157190A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Definitions

  • the present invention relates to a technique for detecting a change point of a feature such as frequency from an audio signal.
  • a technique for detecting a change point between scenes (hereinafter referred to as a scene change point) using audio information such as sound pressure and frequency in AV content has attracted attention.
  • the AV contents photographed by the user are rich in variety of contents according to the user's taste, and as a result, the scene change points to be detected are also diverse. It is difficult to cover the scene change points to be detected using only a specific method for this wide variety of scene change points, and there are scene change points that are difficult to detect even using the above-mentioned conventional method Do.
  • an object of the present invention is to provide an audio processing apparatus capable of detecting a scene change point which has been difficult to detect by the conventional method.
  • a speech processing apparatus comprises: feature calculation means for calculating a section feature representing a feature of an audio signal for each unit section of a predetermined time length of an input audio signal; Boundary calculation means for calculating boundary information on a boundary between another section and a similar section consisting of a plurality of unit sections similar to the section feature including the unit section, for each of the unit sections; Calculating a priority of each of the boundaries indicated by and determining whether each of the boundaries is a scene change point based on the priority.
  • the voice processing apparatus of the present invention it is possible to detect the boundary of similar sections set for each of a plurality of unit sections as a scene change point.
  • Block diagram showing an example of the functional configuration of a video viewing device provided with an audio processing device
  • Block diagram showing an example of functional configuration of the voice processing device A diagram showing an example of a reference section used to calculate a reference vector Diagram showing reference vectors, frequency vectors and thresholds using the concept of vector space
  • Flow chart showing operation of voice processing apparatus Flow chart showing section extension reference index calculation processing
  • AV content is composed of sections of various lengths according to the granularity of capturing a scene.
  • AV content is obtained by shooting a party, and is composed of the scene shown in FIG.
  • FIG.1 (b) assumes that the audio signal in the scene is expressed.
  • the party has a scene 10 of toasts and a scene 20 of subsequent meals, and the scene 20 of meals further talks to the scene 21 which is mainly eating and to the main It comprises a scene 22.
  • the scene 20 is a transitional scene which changes from the scene 21 which is eating mainly to the scene 22 which is mainly talking.
  • the transition point in the transient scene is the boundary of a section (similar section) where voice information is similar to other section, for example, a similar section in the first half of the scene and a similar section in the second half of the scene. It was found that it could be detected as a boundary with
  • the similar section in the audio signal can be obtained by comparing the audio information of a reference position (reference position) in the section with the audio information before and after that. Therefore, the similar section in the transient scene can be obtained by designating one point of the transient scene as the reference position.
  • a method of selecting the detected change points and suppressing the number of change points to be indexed can be considered.
  • Embodiment 1 ⁇ 1-1.
  • Overview> 1 shows an outline of a voice processing apparatus according to an embodiment of the present invention.
  • the audio processing apparatus first calculates, for unit sections obtained by dividing an audio signal included in a moving image file into predetermined time lengths, feature quantities representing the features of the audio signal in each unit section.
  • the speech processing device calculates, for each unit section, the boundary between the section similar to the unit section and another section based on the calculated similarity of the feature amount.
  • the speech processing device calculates the boundary degree for each calculated boundary, and detects a scene change point based on the boundary degree.
  • the speech processing device outputs the detected scene change point as index information.
  • the boundary degree is the number of boundaries indicating the same time.
  • the scene desired by the user and the other scenes are calculated under the assumption that boundaries indicating the same time are calculated from unit sections belonging to the same scene desired by the user. It is possible to preferentially detect the change point of. ⁇ 1-2.
  • Data> data used in the speech processing apparatus according to the present embodiment will be described.
  • ⁇ Video file> The moving image file is composed of an audio signal X (t) and a plurality of image data.
  • the audio signal X (t) is time series data of amplitude values, and can be expressed by a waveform as shown in FIG. FIG.
  • the feature quantity vector M represents the feature of the audio signal X (t), and in the present embodiment, the mel frequency of the audio signal divided into each first unit interval is assumed as the feature quantity vector M.
  • the cepstral coefficient MFCC (Mel-Frequency Cepstrum Coefficients) is used.
  • the first unit section is a section of a predetermined length (for example, 10 msec) on the time axis of the audio signal X (t), and a section from time T n to T n + 1 in FIG. It is.
  • the feature amount vector M is calculated for each first unit section. Therefore, as shown in FIG. 3, 100 feature quantity vectors M are generated from the audio signal from time 0 sec to time 1 sec.
  • FIG. 3 is an example of the feature quantity vector M calculated for each first unit section from time 0 sec to time 1 sec.
  • a mixed normal distribution model (GMM, Gaussian Mixture Model) is adopted, and each anchor model Ar is configured of parameters defining a normal distribution.
  • the anchor model is created for each of a plurality of types (1024 types in this embodiment) of sound segments, and a feature quantity appearance probability function b Ar (M corresponding to each of the plurality of types of sound segments Is represented by.
  • the likelihood vector F is a vector having as a component the likelihood L r for each of a plurality of types of sound segments of the audio signal X (t) calculated based on the anchor model A r .
  • FIG. 5 is a diagram showing likelihood vectors F in two first unit intervals.
  • FIG. 5A shows, for example, a likelihood vector corresponding to the n-th first unit section (section from time (10 ⁇ n) msec to time (10 ⁇ (n + 1)) msec counting from time 0).
  • Fn is shown
  • FIG. 5B corresponds to, for example, the m-th first unit interval (interval from time (10 ⁇ m) msec to time (10 ⁇ (m + 1)) msec) counting from time 0
  • the likelihood vector Fm (n ⁇ m) the likelihood vector
  • the frequency vector NF is a vector that represents a feature of each second unit section of the audio signal, and in particular, is a vector that represents the appearance frequency of each sound segment related to the second unit section of the audio signal.
  • the second unit section is a section of a predetermined length (for example, 1 sec) on the time axis of the audio signal X (t), and as shown in FIG. 6, a plurality of continuous first unit sections. It corresponds to the length.
  • the frequency vector NF normalizes the normalized cumulative likelihood of the likelihood vector F included in the second unit section, that is, the cumulative value of each component of the likelihood vector F included in the second unit section It is
  • normalization means setting the norm of the frequency vector NF to one.
  • FIG. 7 is a schematic view showing an example of the frequency vector NF.
  • the boundary information is information on the boundary of the similar section calculated in every second unit section of the audio signal and the similar section whose frequency vector is similar.
  • the speech processing apparatus calculates, as boundary information, the time at the beginning of the similar section and the time at the end of the similar section.
  • FIG. 8 is an example of boundary information calculated in the present embodiment. For example, from the 0-th second unit section (a section between time 0 and 1s), it is shown that boundary information indicating 0s as the start time and 10s as the end time is calculated.
  • the boundary degree is the number of boundary information indicating the same time.
  • the boundary information indicating 0s at the start time or the end time is the 0th second unit section (a section between time 0 to 1s) and the first second unit section (time 1 to 2s). Since there are three pieces of boundary information calculated from the interval between and the second second unit interval (a interval between time 2 to 3s), the boundary degree of time 0s is 3.
  • FIG. 9 is an example of a graph showing time on the horizontal axis and the calculated degree of boundary on the vertical axis.
  • FIG. 10 is a block diagram showing an example of a functional configuration of the video viewing device 100.
  • the video viewing device 100 includes an input device 101, a content storage device 102, an audio extraction device 103, an audio processing device 104, an index storage device 105, an output device 106, an anchor model creation device 107, an audio data storage device. And an interface device 109.
  • the input device 101 is realized by a disk drive device or the like, and when the recording medium 120 is loaded, reads the moving image file from the recording medium 120 and stores the acquired moving image file in the content storage device 102.
  • the recording medium 120 is a medium having a function of storing various data, and is, for example, an optical disc, a flexible disc, an SD card, a flash memory, or the like.
  • the content storage device 102 is realized by, for example, a hard disk device, and stores the moving image file acquired from the recording medium 120 by the input device 101.
  • a moving image file is stored with a unique ID attached to each moving image file.
  • the audio extraction device 103 extracts an audio signal from the moving image file stored in the content storage device 102, and inputs the extracted audio signal to the audio processing device 104.
  • the speech extraction apparatus 103 performs a decoding process on the encoded audio signal to generate an audio signal X (t) as shown in FIG.
  • the voice extraction device 103 is realized by, for example, a processor that executes a program.
  • the speech processing unit 104 detects a scene change point based on the audio signal X (t) input from the speech extraction unit 103, and stores index information including the detected scene change point in the index storage unit 105. Details of the functional configuration of the voice processing device 104 will be described later.
  • the index storage device 105 is realized by, for example, a hard disk device, and stores index information input from the voice processing device 104.
  • the index information includes the ID of the moving image file and the time (the time of the scene change point) in the moving image file.
  • the output device 106 acquires index information from the index storage device 105, and outputs video data (a part of a moving image file stored in the content storage device 102) corresponding to the acquired index information to the display device 130.
  • the output device 106 adds information on a user interface (UI: User Interface) such as a progress bar with a mark at the time corresponding to the index information, to the video data output to the display device 130, for example.
  • UI User Interface
  • the voice extraction device 103 is realized by, for example, a processor that executes a program.
  • the anchor model creation device 107 creates an anchor model Ar based on the audio signal stored in the voice data storage device 108, and outputs the created anchor model Ar to the voice processing device 104. Details of the functional configuration of the anchor model creation device 107 will be described later.
  • the audio signal used when the anchor model creating unit 107 creates anchor models A r from another of the plurality of video files and video files to be subjected to detection of a scene change point is obtained in advance extracted Audio signal.
  • the audio data storage device 108 is realized by, for example, a hard disk device, and stores in advance audio data used when the anchor model creation device 107 creates the anchor model Ar .
  • the interface device 109 includes an operation unit (not shown) such as a keyboard, receives an input operation from the user, and outputs the operation information of the progress bar to the output device 106.
  • the number K of anchor models to be created is an anchor model The creation device 107 is notified.
  • the voice processing device 104 includes a memory (not shown) and a processor (not shown), and the processor executes the program written in the memory to realize the configuration shown in FIG.
  • FIG. 11 is a block diagram showing an example of a functional configuration of the speech processing apparatus 104.
  • the speech processing device 104 includes a feature quantity vector generation unit 201, a likelihood vector generation unit 202, a likelihood vector buffer 203, a frequency vector generation unit 204, a frequency vector buffer 205, and an interval extension reference index calculation unit 206. And a boundary information calculation unit 207, an index generation unit 208, and an anchor model storage unit 209. Each component will be described below.
  • the feature quantity vector generation unit 201 generates a feature quantity vector M for each first unit interval based on the audio signal X (t) input from the speech extraction apparatus 103.
  • the feature quantity vector generation unit 201 calculates the power spectrum S ( ⁇ ) of the audio signal X (t) in the first unit section (see FIG. 2B).
  • the power spectrum S ( ⁇ ) is obtained by converting the audio signal X (t) from the time axis to the frequency axis and squaring each frequency component.
  • the feature quantity vector generation unit 201 calculates a mel frequency spectrum S ( ⁇ mel ) obtained by converting the frequency axis of the power spectrum S ( ⁇ ) into a mel frequency axis (see FIG. 2C).
  • the feature quantity vector generation unit 201 calculates a mel frequency cepstrum from the mel frequency spectrum S ( ⁇ mel ), and sets a predetermined number (26 in the present embodiment) of components as the feature quantity vector M.
  • Anchor model storage unit 209 is constituted by a part of the area of the memory and stores the anchor model A r created by an anchor model creating unit 107.
  • the anchor model storage unit 209 before the execution of each processing of the audio processing device 104 stores in advance the anchor model A r.
  • Likelihood vector generation unit 202 by using the anchor model A r stored in the feature vector M and the anchor model storage unit 209 is generated by the feature vector generating unit 201, the audio signal X (t), sound The likelihood L r for each segment is calculated, and a likelihood vector F having each likelihood as a component is generated for each first unit section.
  • the likelihood vector buffer 203 is configured of a partial area of the memory, and stores the likelihood vector F generated by the likelihood vector generation unit 202.
  • the frequency vector generation unit 204 generates a frequency vector NF for each second unit interval based on the likelihood vector F stored in the likelihood vector buffer 203.
  • the frequency vector buffer 205 is configured by a partial area of the memory, and stores the frequency vector NF generated by the frequency vector generation unit 204.
  • the section extension reference index calculation unit 206 calculates, for each of the second unit sections, a reference section, a reference vector S, and a threshold value Rth, which are reference indices of section extension processing to be described later.
  • the section extension reference index calculation unit 206 acquires the frequency vector of the reference section from the frequency vector buffer 205 using the plurality of second unit sections in the vicinity of the second unit section to be processed as the reference section, and acquires the plurality of acquired frequency vectors
  • the center of gravity is calculated as a reference vector S.
  • FIG. 12 shows an example of calculation of the reference vector S using the frequency vectors (NF1 to NF9) of the reference section in a case where a total of nine sections in the vicinity of the second unit section to be processed are set as the reference section.
  • the section extension reference index calculation unit 206 further calculates Euclidean distances between the plurality of frequency vectors NF used when generating the reference vector S and the reference vector S, and Euclidean distances between the reference vector S and the reference vector S.
  • the Euclidean distance between the frequency vector NF having the largest value of i and the reference vector S is calculated as the threshold value Rth used to determine whether or not it belongs to the similar section.
  • FIG. 13 is a diagram showing the reference vector S, each frequency vector NF, and the threshold value Rth using the concept of vector space.
  • white circles respectively indicate frequency vectors NF (corresponding to the frequency vectors NF1 to NF9 in the reference section shown in FIG. 12) used for calculation of the reference vector S, and a hatched area having a circular shape
  • a black circle at the center of indicates the reference vector S.
  • the length of the arrow from the reference vector S to each frequency vector NF indicates the Euclidean distance between the frequency vector NF and the reference vector S, and the maximum distance is the threshold value Rth.
  • the boundary information calculation unit 207 calculates, for the second unit section, a similar section including sections similar to the frequency vector, and specifies the time of the start end and the time of the end of the similar section.
  • the boundary information calculation unit 207 uses the frequency vector NF stored in the frequency vector buffer 205, the second unit section to be processed, and the reference index calculated by the section extension reference index calculation unit 206 (reference section, reference vector S And the threshold value Rth), and outputs the identified start time and end time as boundary information to the index generation unit 208.
  • the boundary information calculation unit 207 sets the reference interval calculated by the interval extension reference index calculation unit 206 as the initial value of the similar interval.
  • the boundary information calculation unit 207 determines whether or not to include the target section in the similar section with the second unit section immediately before the similar section as the target section while going backward in the time axis reverse direction, as shown in FIG. Go. Specifically, the boundary information calculation unit 207 calculates the Euclidean distance between the frequency vector NF and the reference vector S in the target section, and when the calculated Euclidean distance is less than or equal to the threshold Rth, the target section is similar. Include in the section. The boundary information calculation unit 207 repeats the above processing, and specifies the time of the beginning of the similar section when the calculated Euclidean distance first exceeds the threshold value Rth.
  • the above process is referred to as an interval extension process because each similar interval is extended one by one.
  • the boundary information calculation unit 207 also performs section extension processing in the forward direction of the time axis to specify the end time of the similar section.
  • the boundary information calculation unit 207 determines whether or not the target section is included in the similar section at the time of section extension processing, and at the same time, the length of the similar section is shorter than the length le of the similar section set in advance. Also judge. If the calculated Euclidean distance does not exceed the threshold value Rth and the length of the similar section is shorter than the upper limit le of the length of the similar section set in advance, the boundary information calculation unit 207 selects the target section as the similar section. Include in If the length of the similar section is equal to or more than the upper limit le of the length of the similar section, the boundary information calculation unit 207 calculates the boundary information of the similar section at that time. The upper limit le of the length of the similar section uses a value set in advance.
  • the boundary information calculation unit 207 calculates boundary information for each second unit section (see FIG. 8).
  • FIG. 15 is a block diagram showing an example of a functional configuration of the index generation unit 208.
  • the index generation unit 208 includes a voting unit 301, a threshold calculation unit 302, and a boundary determination unit 303. Each component will be described below.
  • the voting unit 301 calculates, for each time indicated by the boundary information calculated by the boundary information calculation unit 207, the number of pieces of boundary information indicating the same time as the boundary degree.
  • the voting unit 301 votes each of the boundary information input from the boundary information calculation unit 207 at the time indicated by the input boundary information (by adding 1 to the boundary degree KK i corresponding to the time i), Calculate the boundary level.
  • the voting unit 301 votes at both the start time and the end time specified by one piece of boundary information.
  • the boundary determination unit 303 uses the boundary degree KK i for each time calculated by the voting unit 301 and the threshold value TH calculated by the threshold calculation unit 302 to set a time satisfying the condition of the following equation (4) as a scene change point It is determined that the index information is output to the index storage unit 105 as index information.
  • the audio processing device 104 generates index information of a moving image file according to the configuration from ⁇ 3-2-1> to ⁇ 3-2-9>. Description of the configuration of the video viewing device 100 of FIG. 8 will be continued.
  • the anchor model creation device 107 is configured of a memory (not shown) and a processor (not shown), and the processor executes the program written in the memory to realize the configuration shown in FIG.
  • FIG. 16 is a block diagram showing the functional configuration and peripheral devices of the anchor model creating device.
  • anchor model generation device 107 includes feature amount vector generation unit 401, feature amount vector classification unit 402, and anchor model generation unit 403, and based on voice data stored in voice data storage device 108. It has a function of creating an anchor model and storing the created anchor model in the anchor model storage unit 209. Each component will be described below.
  • the feature amount vector generation unit 401 generates a feature amount vector M for each of the first unit intervals based on the audio data stored in the audio data storage device 108.
  • the feature quantity vector classification unit 402 clusters (classifies) the feature quantity vectors generated by the feature quantity vector generation unit 401.
  • the feature quantity vector classification unit 402 classifies a plurality of feature quantity vectors M into K clusters by the K-means method based on the number K of anchor models Ar input from the interface device 109.
  • K 1024.
  • FIG. 17 is a flowchart showing the operation of the speech processing apparatus 104. As shown in the figure, the audio processing device receives an audio signal (step S1701).
  • the speech processing device 104 generates a section feature (a feature amount vector, a likelihood vector and a frequency vector) representing the feature for each second unit section of the audio signal, using the input audio signal (Step S1702).
  • the generation of the section feature includes feature quantity vector generation processing by the feature quantity vector generation unit 201, likelihood vector generation processing by the likelihood vector generation unit 202, and frequency vector generation processing by the frequency vector generation unit 204.
  • the voice processing apparatus 104 selects one second unit section to be processed, and calculates the section extension reference index executed by the section extension reference index calculating unit 206 in step S1703.
  • the boundary information calculation process performed by the boundary information calculation unit 207 is performed.
  • the voice processing device 104 performs loop processing until the processing in step S1703 and step S1704 is performed on all the second unit sections.
  • the index generation unit 208 of the speech processing apparatus 104 performs index generation processing (step S1705).
  • the speech processing device 104 outputs the index information generated by the index generation unit 208 to the index storage device (step S1706).
  • FIG. 18 is a flowchart showing details of reference index calculation processing executed by the section extension reference index calculation unit 206 in step S1703 in FIG. As shown in FIG. 18, in the reference index calculation process, the section extension reference index calculation unit 206 receives the second unit section to be processed and the frequency vector held in the frequency vector buffer 205 (step S1801).
  • the section extension reference index calculation unit 206 sets a second unit section to be processed and a second unit section of nine sections in total of four sections before and after the second unit section as a reference section (step S1802).
  • the section expansion reference index calculation unit 206 calculates the centroid of the frequency vector (NF1 to NF9) in the reference section input by the frequency vector buffer 205, and sets it as a reference vector S (step S1803).
  • the section extension reference index calculation unit 206 determines Euclidean distances D (S, NF1),..., D (S, NF9) between the reference vector S and the frequency vectors (NF1 to NF9) in the reference section.
  • the calculated and calculated maximum value of the Euclidean distance is set as the threshold value Rth (step S1804).
  • section extension reference index calculating unit 206 outputs the calculated reference index to the boundary information calculating unit 207 (step S1805).
  • FIG. 19 is a flowchart showing details of the boundary information calculation process performed by the boundary information calculation unit 207 of step S1704 in FIG. As shown in FIG. 19, in the boundary information calculation process, the boundary information calculation unit 207 sets the second unit section to be processed, the reference index calculated by the section extension reference index calculation unit 206, and the length of the similar section set in advance. The upper limit of frequency and the frequency vector held in the frequency vector buffer 205 are input (step S1901).
  • the boundary information calculation unit 207 sets the reference interval input from the interval expansion reference index calculation unit 206 as the initial value of the similar interval (step S1902).
  • the boundary information calculation unit 207 executes the processing of steps S1903 to S1906 on the initial value of the similar section set in step S1902, and performs section extension processing in the direction opposite to the time axis of the audio signal.
  • the boundary information calculation unit 207 sets the second unit section immediately before the similar section on the time axis of the audio signal as the target section (step S1903).
  • the boundary information calculation unit 207 calculates the Euclidean distance D (NF, S) between the frequency vector NF of the target section input from the frequency vector buffer 205 and the reference vector S input by the section extension reference index calculation unit 206.
  • the calculated Euclidean distance D (NF, S) is compared with the threshold value Rth input from the section extension reference index calculation unit 206 (step S1904).
  • step S1904 If the calculated Euclidean distance D (NF, S) is shorter than the threshold value Rth (step S1904: YES), the boundary information calculation unit 207 updates the similar section so as to include the target section (step S1905).
  • the boundary information calculation unit 207 compares the length of the similar section with the upper limit le of the length of the similar section (step S1906), and the length of the similar section is shorter than the upper limit le. For example (step S1906: YES), the process returns to step S1803, and if the length of the similar section is equal to or more than the upper limit le (step S1906: NO), the process proceeds to step S1911.
  • step S1904 NO
  • the boundary information calculation unit 207 ends the section expansion processing in the time axis reverse direction of the audio signal and proceeds to step S1907
  • the process advances to step S1910 to perform period extension processing in the time axis forward direction of the audio signal.
  • the section extension process in the forward direction of the time axis is the same process as the section extension process in the reverse direction of the time axis except that the second unit section immediately after the similar section in step S1907 is the target section.
  • the boundary information calculation unit 207 calculates boundary information including the time of the start and the time of the end of the similar section at the time when the section expansion process in the reverse direction of the time axis and the area expansion process in the forward direction of the time axis are finished (step S1911). .
  • the boundary information calculation unit 207 outputs the calculated boundary information to the index generation unit 208 (step S1912).
  • FIG. 20 is a flow chart showing the operation of index generation processing executed by the index generation unit 208 in step S1705 in FIG. As shown in FIG. 20, in the index generation process, the index generation unit 208 receives the boundary information calculated by the boundary information calculation unit 207 (step S2001).
  • the voting unit 301 votes at the time indicated by the boundary information to calculate the boundary degree (step S2002).
  • the threshold calculation unit 302 calculates a threshold using the boundary degree calculated by the voting unit 301 (step S2003).
  • the boundary determination unit 303 detects a scene change point using the boundary degree calculated by the voting unit 301 and the threshold value calculated by the threshold calculation unit 302, and generates index information in which the detected scene change point is indexed (see FIG. Step S2004).
  • the boundary determination unit 303 outputs the generated index information to the index storage unit 105 (step S2005).
  • the speech processing apparatus calculates and calculates a section feature (a feature amount vector, a likelihood vector and a frequency vector) indicating a feature in a unit section of the audio signal for each unit section of a predetermined time length of the audio signal.
  • a scene change point is detected from the boundary of similar sections consisting of similar sections of the section feature.
  • the audio processing device can detect even a scene change point at which audio information changes gradually.
  • the speech processing device calculates the number of pieces of boundary information indicating the same boundary for each boundary as the priority (boundary degree) with respect to the boundary information calculated for each unit section, and only the boundary of the priority exceeding the threshold Is indexed as a scene change point.
  • the speech processing apparatus can preferentially detect boundaries calculated from many unit sections (second unit sections) as scene change points desired by the user. Furthermore, in order to sort out the change points to be indexed, the user can easily search for a desired scene.
  • Second Embodiment differs from the first embodiment in two points.
  • the boundary degree is a calculation method of the boundary degree.
  • the number of boundaries indicating the same time is calculated as the boundary degree.
  • the maximum value of the boundary change degree in the boundary information indicating the same time is calculated as the boundary degree.
  • the boundary change degree indicates how much the section feature (feature amount vector, likelihood vector and frequency vector) changes in the similar section as the boundary information of the similar section by the boundary information calculation unit. Calculated as an indicator.
  • index information Another point that is different from the first embodiment is index information.
  • the first embodiment only the time of the scene change point is used as the index information.
  • classification information in which scene change points are classified by sound environment information is added to index information.
  • the sound environment information is information representing the feature of the audio signal at the scene change point, and is calculated by the boundary information calculation unit as the boundary information of the similar section using the section feature in the similar section.
  • FIG. 21 is a block diagram showing an example of a functional configuration of the speech processing apparatus 110 according to the second embodiment.
  • the speech processing device 110 includes a boundary information calculation unit 211 instead of the boundary information calculation unit 207 in comparison with the speech processing device 104 according to the first embodiment, and an index generation unit 212 instead of the index generation unit 208.
  • the boundary information calculation unit 211 In addition to the function of the boundary information calculation unit 207, the boundary information calculation unit 211 further uses, as boundary information, the feature of the audio signal near the second unit section to be processed and the change of the feature of the audio signal at the boundary of the similar section It has a boundary change degree indicating a degree, and a function of calculating sound environment information indicating a representative sound environment in a similar section.
  • the boundary information calculation unit 211 sets the reference vector S calculated at the time of extending a section in the section extension process in the reverse direction of the time axis as the start change degree Din (the boundary change at the start of the similar section). And Euclidean distance between the frequency vector NF and the frequency vector NF, which exceeds the threshold Rth. That is, the Euclidean distance between the reference vector S and the frequency vector NF of the second unit section immediately before the similar section is used.
  • the boundary information calculation unit 211 uses the second unit section at the start of the similar section instead. As the degree), Euclidean distance between the reference vector S and the frequency vector NF of the second unit section immediately after the similar section is used.
  • the boundary information calculation unit 211 uses the reference vector S as sound environment information.
  • the boundary information calculation unit 211 calculates, as boundary information, the time at the beginning of the similar section, the change in the start, the time at the end, the change in the end, and the sound environment information.
  • FIG. 23 is a block diagram showing an example of a functional configuration of the index generation unit 212.
  • the index generation unit 212 includes a boundary degree calculation unit 311 instead of the voting unit 301 in comparison with the index generation unit 208 according to the first embodiment, and the sound environment classification unit 312 further includes a boundary determination unit 303 and index storage. It is inserted between the devices 105.
  • the boundary degree calculation unit 311 calculates, as the boundary degree, the maximum value of the boundary change degree of the boundary information for each time indicated by the boundary information calculated by the boundary information calculation unit 211. More specifically, the boundary calculating unit 311 as a boundary of the time T i, the maximum value of the terminal change degree time start change degree and termination at the boundary information of Ti in the boundary information of the start time is Ti calculate.
  • the boundary degree calculation unit 311 associates the sound environment information of the boundary information given the maximum value of the boundary change degree with the sound environment information of the boundary (time).
  • the sound environment classification unit 312 divides the sound environment information associated with the time determined as a scene change point by the boundary determination unit 303 into a plurality of groups (for example, 3 groups) using, for example, the K-means method. Classify.
  • the sound environment classification unit 312 adds the classification information of the classification result to the index information, and outputs the index information with the classification information to the index storage unit 105.
  • FIG. 24 shows a specific example of index information to which classification information is added.
  • the speech processing apparatus uses, as the boundary degree, the maximum value of the boundary change degree indicating the degree of change of the feature of the audio signal in the similar section. Changes in the characteristics of the audio signal often appear as the subject in the video file moves. That is, the voice processing apparatus according to the present embodiment can preferentially detect a scene in which the subject is moving by using the maximum value of the boundary change degree as the boundary degree.
  • the speech processing apparatus assigns classification information in which scene change points are classified according to sound environment information to index information.
  • the image viewing apparatus can provide various user interface functions to the user by using the classification information.
  • the video viewing device may have a configuration in which the scene change point can be displayed on the progress bar in a form that can distinguish the classification for each classification (for example, color classification for each classification, changing the shape of a mark for each classification).
  • the user can grasp the rough scene configuration of the AV content by looking at the progress bar, and can search the target scene more intuitively.
  • the video viewing device may be configured to highlight on the progress bar the scene change points of the same classification as the scene change points of the currently viewed scene. This configuration allows the user to quickly skip to a scene similar to the one currently being viewed.
  • the speech processing device calculates, as the boundary degree, the number of pieces of boundary information indicating the same boundary or the maximum value of the boundary change degree in the boundary information indicating the same boundary. It is not limited. For example, an accumulated value of boundary change degrees in boundary information indicating the same boundary may be used. According to this configuration, the speech processing device can calculate the boundary of the scene which is calculated from more unit intervals (second unit interval) and in which the change of the feature is large in the same scene with priority. Become.
  • the boundary information calculation unit calculates both the start time and the end time of the similar section as the boundary information, but may calculate only the start time. Only the end time may be calculated. In the configuration in which the boundary information calculation unit calculates only the time of the start, there is no need to perform interval extension processing in the forward direction of the time axis, and in the configuration where only the time of the end is calculated, the interval extension process in the reverse direction of the time axis There is no need to do it.
  • the threshold calculation unit calculates the threshold using Equation (3), but the calculation method of the threshold is not limited to this. For example, one obtained by changing the coefficient k of the equation (5) shown below between 0 and 3 may be used.
  • the scene change point detected using the first threshold TH1 smaller than the second threshold is, for example, a larger scene such as the scene 21 and the scene 22 included in the scene 20 in FIG. It can be estimated as the border of a small scene included in.
  • a scene change point detected using the second threshold TH2 larger than the first threshold is larger including a smaller scene, for example, a scene 20 including the scene 21 and the scene 22 in FIG. It can be estimated as a scene boundary.
  • the threshold value calculation unit and the boundary determination unit function as a scene structure estimation unit that estimates the hierarchical structure of the scene in the audio signal.
  • the boundary determination unit detects the time of the boundary degree exceeding the threshold input from the threshold calculation unit as a scene change point, the present invention is not limited to this.
  • the boundary determination unit may detect, for example, a predetermined number N (N is a positive integer) of times in descending order of boundary degree as a scene change point.
  • the boundary determination unit detects a predetermined number N (N is a positive integer) of times as the first scene change point in descending order of boundary degree, and the predetermined number M (M is an integer greater than N) in descending order of boundary degree Time may be detected as a second scene change point.
  • the first scene change point can be estimated as the boundary of a large scene including a smaller scene, for example, a scene 20 including the scene 21 and the scene 22 in FIG.
  • the second scene change point can be estimated as the boundary of a small scene included in a larger scene, such as the scene 21 and the scene 22 included in the scene 20 in FIG.
  • the boundary determination unit functions as a scene structure estimation unit that estimates the hierarchical structure of the scene in the audio signal.
  • the boundary information calculation unit may calculate similar intervals every N second unit intervals, where N is a positive integer.
  • the boundary information calculation unit may obtain a plurality of second unit sections specified by the user from the interface device or the like, and calculate similar sections of the plurality of second unit sections specified by the user.
  • the reference section used for the section extension reference index calculation processing performed by the section extension reference index calculating unit is nine sections in total in the vicinity of the second unit section to be processed, It is not something that can be done.
  • the reference section may be, for example, a total of N sections (N is an integer of 2 or more) near the second unit section to be processed.
  • the similar section calculated in the boundary information calculation unit is a relatively wide section.
  • the scene change point detected in the index generation unit indicates the boundary of a large scene including a smaller scene, such as a scene 20 including the scene 21 and the scene 22 in FIG.
  • the similar section calculated in the boundary information calculation unit becomes a relatively narrow section.
  • the scene change point detected in the index generation unit indicates the boundary of a small scene included in a larger scene, such as scene 21 and scene 22 included in scene 20 in FIG. Be done.
  • the section extension reference index calculation unit, the boundary information calculation unit, and the index generation unit first detect a scene change point when N is large, and then detect a scene change point when N is small. It is also good.
  • the section expansion reference index calculation unit, the boundary information calculation unit, and the index generation unit can detect the boundary of a large scene in an audio signal and the boundary of a small scene included in the large scene. That is, according to this configuration, the section extension reference index calculation unit, the boundary information calculation unit, and the index generation unit function as a scene structure estimation unit that estimates the hierarchical structure of the scene in the audio signal.
  • the reference vector is described as the centroid of the frequency vector of the second unit section included in the reference section, but the reference vector is not limited to this.
  • it may be a vector whose component is the median of the components of the frequency vector of the second unit section included in the reference section, or when the number of second unit sections included in the reference section is as large as 100.
  • a vector having the mode of the component of the frequency vector as the component may be used as the reference vector.
  • the boundary information calculation unit is configured such that the Euclidean distance between the frequency vector in the target section and the reference vector S does not exceed the threshold Rth, and the length of the similar section is preset. If it is determined that the length is shorter than the upper limit le of the length of the similar section, the target section is included in the similar section. This is a measure to prevent the length of the similar section from becoming a certain length or more, but if the length of the similar section is not limited, the comparison process between the length of the similar section and the upper limit le is The target section may be included in the similar section without being performed.
  • the upper limit le of the length of the similar section is a value set in advance, it is not limited to this.
  • the upper limit le of the length of the similar section may use, for example, a value designated by the user via the interface.
  • the order of the section extension processing may be performed before the time axis forward direction before the time axis reverse direction, or the similar section may be performed in the second unit interval unit in the time axis reverse direction and time axis It may be configured to extend alternately in the forward direction.
  • extension is performed alternately, it is not necessary to alternate in units of second unit sections, and a method may be employed in which extension is performed alternately every fixed number (for example, five) of second unit sections.
  • the boundary information calculation unit converts the target section into the similar section depending on whether the Euclidean distance between the reference vector and the frequency vector of the target section exceeds the threshold value Rth. It was judged whether to include in. However, it is not necessary to use the Euclidean distance if it can be determined whether the reference vector and the frequency vector are similar to each other by a certain amount or more.
  • the Kullback-Leibler divergence in both directions of two mixture distributions may be configured to extract similar sections by using as a distance).
  • the threshold value Rth may also be calculated using the Kullback-Leibler information amount.
  • the Kullback-Leibler information amount is generally known as a measure to determine the difference between two probability distributions in probability theory and information theory, and the KL distance between the frequency vector and the reference vector according to an embodiment of the present invention is It can be calculated as follows.
  • one mixed distribution is configured using the frequency vector NF and the probability distribution defined by each anchor model.
  • the frequency vector NF ( ⁇ 1 ,..., ⁇ r ,..., ⁇ 1024 ) is a weight for the probability distribution (b A1 ,..., B Ar ,..., B A1024 ) defined by each anchor model.
  • the mixed distribution G NF can be given by the following equation (6).
  • the Kalbach-Leibler information amount from G NF to G S can be given by the following equation (8).
  • X is a set of all arguments of the mixed distributions G NF and G S.
  • Whether the target section is included in the similar section may be determined using the KL distance shown in the equation (10) instead of the Euclidean distance shown in the above embodiment.
  • the threshold Rth is the frequency at which the KL distance between the plurality of frequency vectors and the reference vector is the largest among the frequency vectors of the plurality of second unit sections included in the reference section instead of the Euclidean distance.
  • the KL distance between the vectors may be used.
  • correlation operation calculation of cosine similarity or Pearson's correlation coefficient, etc.
  • the target section may be included in the similar section.
  • the frequency vector in the second unit section is a vector having the normalized cumulative likelihood of each component of the likelihood vector included in each section as a component
  • the frequency vector is It may be any vector as long as it can indicate the feature of the audio signal in the section, and in particular, it can be a vector having other than the normalized cumulative likelihood as a component, as long as it can identify the component of the frequently appearing sound.
  • each component of the likelihood vector included in the unit section is accumulated, and the accumulated likelihood corresponding to only the top k (a plurality of k, for example, 10) anchor models having high accumulated likelihood is normalized. It may be a vector.
  • the frequency vector may be a vector whose component is the likelihood accumulated as it is without normalizing the accumulated value, or a vector whose component is the average value of the respective likelihoods.
  • the present invention is not limited to this as long as it represents a feature in the first unit section of the audio signal.
  • the frequency characteristic of an audio signal such as a power spectrum may be used, or the time series itself of the amplitude of the audio signal may be used as a feature amount.
  • the MFCC 26 dimension is used, but this is because a suitable result is obtained by making it 26 dimensions by experiment, and the feature amount vector of the present invention is not limited to 26 dimensions. .
  • anchor models Ar of each of a plurality of types of sound segments classified using clustering from sound data stored in advance in the sound data storage device are created (a so-called anchor model
  • an anchor model creation method is not limited to this.
  • the user selects sound data corresponding to each of the sound segments, applies a type label to each, and corresponds to sound from sound data having the same type label.
  • An anchor model of a segment may be created (a so-called supervised anchor model Ar is created).
  • the length of time of each of the first unit section and the second unit section in the above-described embodiment is an example.
  • the time length may be a length other than that shown in the above-described embodiment as long as the first unit section ⁇ the second unit section. In this case, if the length of the second unit section is a multiple of the length of the first unit section, the process is simplified.
  • the likelihood vector buffer, the frequency vector buffer, and the anchor model storage unit are configured by a part of the memory, but in the case of a storage device that can be read and written by the speech processing device It is not this limitation.
  • a storage device that can be read and written by the speech processing device It is not this limitation.
  • it may be a hard disk or a flexible disk, or may be an externally connected storage device.
  • the anchor model creation device 107 may create a new anchor model.
  • the audio processing apparatus has been described as a component of the video viewing apparatus, but it may be a component of the audio editing apparatus.
  • the image display apparatus may be an image display apparatus that acquires a moving image file including an audio signal from an external device and outputs image data corresponding to a scene change point of a detection result as a thumbnail image.
  • the moving image file is acquired from the recording medium, but the acquiring means is not limited to the method using the recording medium. For example, it may be acquired from wireless or wired broadcasting, from a network, etc. Even if the audio processing device is provided with an audio input device such as a microphone and the scene change point is detected from the audio signal input by the audio input device Good.
  • the present invention can also be realized as a video viewing system including the audio processing device of the above embodiment connected to a network and the audio processing device and one or more terminals connected to the network.
  • one terminal transmits a moving image file to an audio processing device, and the audio processing device detects a scene change point of the moving image file received and transmits the detected scene change point to the terminal.
  • the function of the audio processing device may be divided, and the terminal may include a part of the divided functions.
  • a terminal provided with part of the divided functions is referred to as a client, and an apparatus provided with the remaining functions is referred to as a server.
  • 25 to 27 are diagrams showing an example of the configuration of a video viewing system in which the functions of the audio processing device are divided.
  • the video viewing system comprises a client 2600 and a server 2700.
  • the client 2600 includes a content storage device 102, an audio extraction device 103, an audio processing device 2602, and a transmission / reception device 2604.
  • the content storage device 102 and the voice extraction device 103 are the same as the content storage device 102 and the voice extraction device 103 in the above embodiment.
  • the voice processing device 2602 has a function of part of the voice processing device 104 in the above embodiment, specifically, a function of generating a frequency vector from an audio signal.
  • the transmission / reception device 2604 has a function of transmitting the frequency vector generated by the voice processing device 2602 to the server 2700, and a function of receiving index information from the server 2700.
  • the server 2700 includes an index storage unit 105, a voice processing unit 2702, and a transmission / reception unit 2704.
  • the index storage unit 105 is similar to the index storage unit 105 in the above embodiment.
  • the voice processing device 2702 has a function of part of the voice processing device 104 in the above embodiment, specifically, a function of generating index information from a frequency vector.
  • the transmission / reception device 2704 has a function of receiving a frequency vector from the client 2600 and a function of transmitting index information stored in the index storage device 105 to the client 2600.
  • FIG. 26 is a diagram showing an example of a functional configuration of the audio processing device 2602 included in the client 2600.
  • the speech processing device 2602 includes a feature quantity vector generation unit 201, a likelihood vector generation unit 202, a likelihood vector buffer 203, a frequency vector generation unit 204, and an anchor model storage unit 209.
  • Each component has the same function as that of the component with the same name and the same symbol in the above embodiment.
  • FIG. 27 is a diagram showing an example of a functional configuration of the audio processing device 2702 provided in the server 2700.
  • the speech processing device 2702 comprises a frequency vector buffer 205, a segment expansion reference index calculator 206, a boundary information calculator 207 and an index generator 208.
  • Each component has the same function as that of the component with the same name and the same symbol in the above embodiment.
  • the communication in the video viewing system is limited to the frequency vector and the index information. Therefore, the amount of communication can be reduced as compared with the case of transmitting a moving image file without dividing the audio processing device.
  • the server receives from the client a thumbnail image or the like corresponding to the generated index information, and distributes the corresponding thumbnail image together with the generated index information to other terminals in the network. You may provide a function.
  • the video viewing system can perform streaming distribution in which only scenes that are of interest to the user are extracted.
  • (21) Machine language or high-level language for causing the processor of the speech processing apparatus and various circuits connected to the processor to execute the reference index calculation process, the boundary information calculation process, and the index generation process described in the above embodiment It is also possible to record a control program consisting of program codes on a recording medium or distribute it via various communication paths.
  • Such recording media include an IC card, a hard disk, an optical disk, a flexible disk, a ROM, a flash memory and the like.
  • the control program distributed and distributed is used by being stored in a memory or the like that can be read by a processor, and the processor executes the control program to realize each function as shown in each embodiment. Will be
  • the processor may execute the control program directly, or may compile and execute or execute by the interpreter.
  • Each functional component (feature unit section detection unit, section extension reference index calculation unit, interest section extraction unit, etc.) described in the above embodiment may be realized as a circuit that executes the function. It may be realized by executing a program by one or more processors. Further, the audio processing device of the above-described embodiment may be configured as a package of an IC, an LSI, or other integrated circuits. This package is incorporated into various devices and used, and thereby the various devices realize each function as shown in each embodiment.
  • Each functional block such as the feature unit section detection unit, the section expansion reference index calculation unit, and the interest section extraction unit is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all. Although an LSI is used here, it may be called an IC, a system LSI, a super LSI, or an ultra LSI depending on the degree of integration. Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • a programmable field programmable gate array FPGA
  • a reconfigurable processor that can reconfigure connection and setting of circuit cells in the LSI may be used.
  • the speech processing apparatus calculates feature for each unit section, which represents a feature of a unit section of the input audio signal.
  • a boundary calculation means for calculating boundary information on the boundary between another similar section and a similar section consisting of a plurality of similar unit sections including the corresponding unit section, and the priority of each of the boundaries indicated by the boundary information is calculated
  • determining means for determining whether each of the boundaries is a scene change point based on the priority.
  • the speech processing apparatus detects, as a scene change point, one selected from among boundaries of similar sections similar in section feature (feature amount vector, likelihood vector and frequency vector).
  • the speech processing apparatus can detect a change point in a transient scene by setting the boundary of the similar section as a scene change point.
  • the speech processing apparatus can easily search for a desired scene change point by indexing the selected boundary as a scene change point.
  • the determination unit may calculate the number of pieces of boundary information indicating the same boundary as the priority.
  • the audio processing device is configured to calculate the user's desired scene and another scene under the assumption that boundaries indicating the same time are calculated from unit sections belonging to the same scene desired by the user. It is possible to preferentially detect the change point of.
  • the boundary calculation means further changes, as the boundary information, a degree of change of the feature of the audio signal between the similar section and another section.
  • a degree may be calculated, and the determination means may calculate, as the priority, an accumulated value of the degree of change of boundary information indicating the same boundary.
  • the audio processing device can preferentially detect both the boundary of the scene having a change in the feature of the audio signal and the boundary calculated from many unit sections.
  • the boundary calculation means further changes, as the boundary information, a degree of change of the feature of the audio signal between the similar section and another section.
  • a degree may be calculated, and the determination means may calculate, as the priority, the maximum value of the degree of change of boundary information indicating the same boundary.
  • the audio processing device can preferentially detect the boundary of the scene having a change in the feature of the audio signal.
  • the boundary calculation means further uses, as the boundary information, a section feature of the unit section included in the similar section, the sound environment of the similar section.
  • the sound environment information may be calculated, and the scene change point may be classified using the sound environment information, and the classification unit may add classification information of a classification result to the scene change point.
  • the video display apparatus or the like that uses the output of the audio processing apparatus can provide various user interface functions to the user based on the classification information.
  • the voice processing apparatus further includes threshold calculation means for calculating a threshold based on the priority, and the determination means uses the time of the boundary of priority exceeding the threshold. It may be detected as the scene change point.
  • the audio processing device can calculate the threshold adaptively for each audio signal. As a result, it becomes possible to detect scene change points with stable accuracy for all audio signals.
  • the boundary calculation means may calculate, as the boundary information, the time of the beginning of the similar section.
  • the boundary calculation unit may calculate the time of the end of the similar section as the boundary information.
  • the speech processing apparatus when obtaining the similar section for each unit section, the speech processing apparatus only needs to obtain the boundary in either the time axis forward direction or the time axis reverse direction, and the amount of calculation is reduced.
  • the unit section is a second unit section, and the second unit section includes a plurality of continuous first unit sections, and further, a plurality of types of sound elements.
  • a model storage unit storing in advance a probability model representing the features of each piece; and a likelihood vector having the likelihood for each of the sound segments of the audio signal as a component using the probability model;
  • Likelihood vector generation means for generating each unit interval, wherein the interval feature is generated using likelihood vectors of a plurality of first unit intervals included in the second unit interval, and each of the sound segments It may be a frequency vector indicating the appearance frequency of
  • the speech processing device generates the likelihood vector and the frequency vector based on the probability model representing the sound segment to generate the sound in each first unit section and each second unit section of the audio signal.
  • the degree to which the components of the segment are included can be expressed by the likelihood vector and the frequency vector.
  • the speech processing apparatus further includes feature quantity vector generation means for calculating a feature quantity vector indicating a frequency characteristic in the first unit section of the audio signal, wherein the likelihood vector generation means May generate the likelihood vector using the feature quantity vector and the probability model.
  • the voice processing apparatus can detect a scene change point using the frequency characteristic of the audio signal.
  • the speech processing apparatus is characterized by: feature calculation means for calculating, for each unit section, a section feature representing a feature of a unit section of an input audio signal; The audio signal from among the boundaries indicated by the boundary information calculation means for calculating the boundary information on the boundary between the similar interval consisting of a plurality of similar unit intervals including the unit interval and the other interval, and the boundary indicated by the boundary information And a scene structure estimation unit that detects a boundary of a first scene included in a scene represented by the symbol and a boundary of a second scene included in the first scene.
  • the speech processing apparatus estimates the hierarchical structure of scenes in the audio signal, so that the user can easily search for a desired scene based on the estimated hierarchical structure.
  • a voice processing apparatus and a voice processing method detect a scene change point from an audio signal such as an AV content including a voice, a sound in the house, a sound at the time of going out, etc. It is possible to easily search for, or to perform emphasis reproduction (trick reproduction or filter processing) of a scene of interest, which is useful for an audio editing apparatus, a moving image editing apparatus, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereophonic System (AREA)

Abstract

 AVコンテンツにおけるオーディオ信号から、音声特徴の変化点を検出する音声処理装置を提供する。上記課題を解決するために、音声処理装置は、入力されたオーディオ信号の所定時間長の単位区間ごとに、前記オーディオ信号の特徴を表現する区間特徴を計算する特徴計算手段と、複数の前記単位区間それぞれに対して、当該単位区間を含む前記区間特徴の類似する複数の前記単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定手段を備える。

Description

音声処理装置、音声処理方法、プログラムおよび集積回路
 本発明は、オーディオ信号から周波数などの特徴の変化点を検出する技術に関する。
 デジタルカメラなどを用いてユーザが撮影したAVコンテンツについて、ユーザにとって不要なシーンをスキップしてユーザの所望するシーンだけを視聴することを可能にする機能が求められている。
 そこで、AVコンテンツにおける音圧や周波数などの音声情報を用いて、シーンとシーンの間の変化点(以降、シーン変化点と呼ぶ)を検出する技術が注目されている。
 例えば、AVコンテンツのフレーム毎に音声情報を特徴量として定量化し、フレーム間の特徴量の変化が閾値を超えるフレームをシーン変化点として検出する手法が提案されている(特許文献1参照)。
特開平5-20367号公報
 ところで、ユーザが撮影したAVコンテンツは、ユーザの趣向により内容がバラエティに富み、その結果、検出すべきシーン変化点も多岐にわたるものである。この多岐にわたるシーン変化点に対して特定の手法のみを用いて検出すべきシーン変化点を網羅することは困難であり、上記従来の手法を用いても検出することが困難なシーン変化点が存在する。
 そこで、本発明は、従来の手法では検出することが困難であったシーン変化点を検出することを可能とした音声処理装置を提供することを目的とする。
 上記課題を解決するために本発明に係る音声処理装置は、入力されたオーディオ信号の所定時間長の単位区間ごとに、前記オーディオ信号の特徴を表現する区間特徴を計算する特徴計算手段と、複数の前記単位区間それぞれに対して、当該単位区間を含む前記区間特徴の類似する複数の前記単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定手段とを備えることを特徴とする。
 本発明に係る音声処理装置によれば、複数の単位区間それぞれに対して設定される類似区間の境界をシーン変化点として検出することが可能である。
AVコンテンツを構成するシーンとオーディオ信号の具体例を示す図 特徴量ベクトルの算出方法を示す図 特徴量ベクトルの一例を示す図 アンカーモデルの一例を示す図 2つの第1単位区間における尤度ベクトルの例を示す図 第1単位区間と第2単位区間との関係を示す図 頻度ベクトルの一例を示す図 境界情報計算部の計算する境界情報の一例を示す図 横軸に時刻、縦軸に境界度を示したグラフ 音声処理装置を備える映像視聴装置の機能構成例を示すブロック図 音声処理装置の機能構成例を示すブロック図 基準ベクトルの算出に用いる基準区間の一例を示す図 基準ベクトル、頻度ベクトルおよびしきい値をベクトル空間の概念を用いて示した図 類似区間の時間軸逆方向の区間伸長処理を示す模式図 インデクス生成部の機能構成例を示すブロック図 アンカーモデル作成装置の機能構成例を示すブロック図 音声処理装置の動作を示すフローチャート 区間伸長基準指標計算処理を示すフローチャート 境界情報計算処理を示すフローチャート インデクス生成処理を示すフローチャート 音声処理装置の機能構成例を示すブロック図 境界情報計算部の計算する境界情報の一例を示す図 インデクス生成部の機能構成例を示すブロック図 インデクス生成部の生成するインデクス情報の一例を示す図 映像視聴システムの構成例を示すブロック図 映像視聴システムにおけるクライアントの構成例を示すブロック図 映像視聴システムにおけるサーバの構成例を示すブロック図
<本発明を想到するに至った経緯>
 AVコンテンツは、シーンを捉える粒度により様々な長さの区間から構成される。例えば、AVコンテンツが、パーティを撮影したものであり、図1(a)に示すシーンで構成されているとする。そして、図1(b)は、そのシーンにおけるオーディオ信号を表現しているとする。図に示すように、パーティには、乾杯のシーン10およびそれに続く食事のシーン20が存在し、食事のシーン20は、さらに、おもに食事をしているシーン21、および、おもに歓談をしているシーン22から構成される。シーン20は、おもに食事をしているシーン21からおもに歓談しているシーン22へ移り変わっていく過渡シーンである。
 このような過渡シーンは、音声情報の変化が緩やかであり、従来のようにフレーム間の音声情報の変化量を用いて、シーン内の変化点を検出することは困難である。
 しかしながら、このような過渡シーン内のある程度の長さを持った区間の両端では音声情報の変化量が蓄積するため、両端のそれぞれが過渡シーン内の別々のシーンに属していることを検出できるという性質がある。本発明者らは、この性質に着目し、過渡シーン内の変化点が、音声情報が類似する区間(類似区間)と他の区間の境界、例えば、シーン前半の類似区間とシーン後半の類似区間との境界として検出できることを見出した。
 オーディオ信号において類似区間は、その区間内のある基準となる位置(基準位置)の音声情報とその前後の音声情報とを比較していくことにより求められる。従って、過渡シーン内の類似区間は、基準位置として過渡シーンの1点を指定することで求められる。
 ところで、オーディオ信号内のどの位置に存在するかを事前に知ることができない過渡シーン内の類似区間を求めるためには、オーディオ信号の随所を基準位置として指定する必要がある。しかしながら、基準位置を多く設定すると、設定した基準位置の数に応じて求まる境界(変化点)の数が多くなる。
 ユーザの所望するシーン数に対して検出される変化点の数が多いと、ユーザが所望するシーンを視聴するまでの動作が煩雑化してしまう。すなわち、ユーザは、膨大な数の変化点の中から所望するシーンの開始となる変化点を検索する必要が出てくる。つまり、ユーザは、変化点の数の増加により、所望するシーンを容易に視聴できるという効果を得ることができなくなる可能性がある。
 この課題を解決する一手法として、検出された変化点を選別して、インデクス化する変化点の数を抑制する方法が考えられる。
 本発明者らは、上述した経緯により本発明を想到したものである。以下、本発明の実施形態について、図面を参照しながら詳細に説明する。

<実施の形態1>
<1-1.概要>
 本発明の一の実施の形態に係る音声処理装置の概要を示す。
 本実施の形態に係る音声処理装置は、まず、動画ファイルに含まれるオーディオ信号を所定時間長に分割した単位区間について、単位区間それぞれにおけるオーディオ信号の特徴を表現する特徴量を算出する。
 次に、音声処理装置は、単位区間それぞれに対して、算出した特徴量の類似性に基づいて、当該単位区間と類似している区間と他の区間との境界を算出する。
 そして、音声処理装置は、算出した境界ごとに境界度を算出し、境界度に基づいてシーン変化点を検出する。
 最後に、音声処理装置は、検出したシーン変化点をインデクス情報として出力する。
 本実施の形態において、境界度は、同一の時刻を示す境界の数である。本実施の形態の音声処理装置は、ユーザが所望する同一のシーンに属する単位区間からは、同一の時刻を示す境界が算出されるという仮定の下で、ユーザの所望するシーンと他のシーンとの変化点を優先的に検出することが可能となる。

<1-2.データ>
 ここで、本実施の形態に係る音声処理装置で使用するデータについて説明する。
<動画ファイル>
 動画ファイルは、オーディオ信号X(t)と複数の画像データとから構成される。オーディオ信号X(t)は、振幅値の時系列データであり、図2(a)に示すような波形で表現することができる。図2(a)は、横軸に時間、縦軸に振幅をとった、オーディオ信号の波形例である。
<特徴量ベクトル>
 特徴量ベクトルMは、オーディオ信号X(t)の特徴を表現するものであり、本実施の形態では、特徴量ベクトルMを示すものとして、第1単位区間毎に分割されたオーディオ信号のメル周波数ケプストラム係数MFCC(Mel-Frequency Cepstrum Coefficients)を用いる。ここで、第1単位区間は、オーディオ信号X(t)の時間軸における所定の長さ(例えば、10msec)の区間であり、図2(a)における時刻TnからTn+1までの区間である。
 この特徴量ベクトルMは、第1単位区間毎に算出される。従って、図3に示すように、時刻0secから時刻1secまでの間のオーディオ信号から100個の特徴量ベクトルMが生成されることになる。なお、図3は、時刻0secから時刻1secまでの間の各第1単位区間に対して算出される特徴量ベクトルMの一例である。
<アンカーモデル>
 アンカーモデルAr(r=1,2,…,K)は、複数種類のサウンド素片となる音声データから生成される特徴量ベクトルを用いて作成される確率モデルであり、各種サウンド素片それぞれの特徴を表現するものである。即ち、アンカーモデルは各種サウンド素片に対応して作成される。本実施の形態では、混合正規分布モデル(GMM, Gaussian Mixture Model)を採用し、各アンカーモデルArは、正規分布を規定するパラメータで構成される。
 図4に示すように、アンカーモデルは、複数種類(本実施の形態では1024種類)のサウンド素片毎に作成され、複数種類のサウンド素片それぞれに対応する特徴量出現確率関数bAr(M)により表される。特徴量出現確率関数bAr(M)は、各アンカーモデルArが規定する正規分布の確率密度関数であり、特徴量ベクトルMを引数としてオーディオ信号X(t)のサウンド素片それぞれに対する尤度Lr=bAr(M)を算出する。
<尤度ベクトル>
 尤度ベクトルFは、上記アンカーモデルArに基づいて算出されるオーディオ信号X(t)の複数種類のサウンド素片それぞれに対する尤度Lrを成分とするベクトルである。
 図5は、2つの第1単位区間における尤度ベクトルFを示す図である。図5(a)は、例えば、時刻0から数えてn番目の第1単位区間(時刻(10×n)msecから時刻(10×(n+1))msecの間の区間)に対応する尤度ベクトルFnを示し、図5(b)は、例えば、時刻0から数えてm番目の第1単位区間(時刻(10×m)msecから時刻(10×(m+1))msecの間の区間)に対応する尤度ベクトルFmを示している(n<m)。
<頻度ベクトル>
 頻度ベクトルNFは、オーディオ信号の第2単位区間毎の特徴を表現するベクトルであり、特に、オーディオ信号の第2単位区間に係る各サウンド素片の出現頻度を表現するベクトルである。ここで、第2単位区間は、オーディオ信号X(t)の時間軸における所定の長さ(例えば、1sec)の区間であり、図6に示すように、複数個の連続する第1単位区間の長さに相当する。
 頻度ベクトルNFは、具体的には、第2単位区間に含まれる尤度ベクトルFの正規化累積尤度、つまり、第2単位区間に含まれる尤度ベクトルFの各成分の累積値を正規化したものである。なお、ここで正規化とは、頻度ベクトルNFのノルムを1にすることである。図7は、頻度ベクトルNFの一例を示す模式図である。
<境界情報>
 境界情報は、オーディオ信号の第2単位区間毎に計算される当該第2単位区間と頻度ベクトルが類似する類似区間の境界に関する情報である。本実施の形態の音声処理装置は、境界情報として、類似区間の始端の時刻および類似区間の終端の時刻を計算する。図8は、本実施の形態で計算する境界情報の一例である。例えば、0番目の第2単位区間(時刻0~1sの間の区間)からは、始端時刻として0s、終端時刻として10sを示す境界情報が算出されたことを示している。
<境界度>
 上述したように、境界度は、同一の時刻を示す境界情報の数である。例えば、図8において、始端時刻または終端時刻で0sを示す境界情報は、0番目の第2単位区間(時刻0~1sの間の区間)、1番目の第2単位区間(時刻1~2sの間の区間)、および、2番目の第2単位区間(時刻2~3sの間の区間)から計算される境界情報の3つであるから、時刻0sの境界度は3となる。図9は、横軸に時刻、縦軸に計算された境界度を示したグラフの一例である。
<1-3.構成>
 以下、本実施の形態に係る音声処理装置104を備える映像視聴装置100の機能構成について説明する。
<映像視聴装置100>
 図10は、映像視聴装置100の機能構成例を示すブロック図である。図に示すように、映像視聴装置100は、入力装置101、コンテンツ記憶装置102、音声抽出装置103、音声処理装置104、インデクス記憶装置105、出力装置106、アンカーモデル作成装置107、音声データ蓄積装置108およびインタフェース装置109を備える。
<入力装置101>
 入力装置101は、ディスクドライブ装置などで実現され、記録媒体120が装着されると、記録媒体120から動画ファイルを読み込んで、取得した動画ファイルをコンテンツ記憶装置102に格納する。なお、記録媒体120は、各種データを記憶する機能を有する媒体であり、例えば、光ディスクや、フレキシブルディスク、SDカード、フラッシュメモリなどである。
<コンテンツ記憶装置102>
 コンテンツ記憶装置102は、例えば、ハードディスク装置などで実現され、入力装置101が記録媒体120から取得した動画ファイルを格納している。動画ファイルは、動画ファイルそれぞれに固有のIDが付されて格納される。
<音声抽出装置103>
 音声抽出装置103は、コンテンツ記憶装置102に格納されている動画ファイルからオーディオ信号を抽出し、抽出したオーディオ信号を音声処理装置104に入力する。なお、音声抽出装置103は、符号化されているオーディオ信号に対して復号化処理を行って、図2(a)に示すようなオーディオ信号X(t)を生成する。なお、音声抽出装置103は、例えば、プログラムを実行するプロセッサ等により実現される。
<音声処理装置104>
 音声処理装置104は、音声抽出装置103から入力されるオーディオ信号X(t)に基づいてシーン変化点の検出を行い、検出したシーン変化点からなるインデクス情報をインデクス記憶装置105に格納する。音声処理装置104の機能構成の詳細については後述する。
<インデクス記憶装置105>
 インデクス記憶装置105は、例えば、ハードディスク装置などから実現され、音声処理装置104から入力されるインデクス情報を記憶する。インデクス情報は、動画ファイルのIDおよび動画ファイルにおける時刻(シーン変化点の時刻)からなる。
<出力装置106>
 出力装置106は、インデクス記憶装置105からインデクス情報を取得し、取得したインデクス情報に対応する映像データ(コンテンツ記憶装置102に格納されている動画ファイルの一部)を表示装置130に出力する。出力装置106は、表示装置130に出力される映像データに、例えば、インデクス情報に対応する時刻に目印を付けたプログレスバーなどのユーザインタフェース(UI:User Interface)に関する情報を付与し、インタフェース装置109に入力されるユーザからの操作に応じて、スキップなどの再生制御を行う。
 なお、音声抽出装置103は、例えば、プログラムを実行するプロセッサ等により実現される。
<アンカーモデル作成装置107>
 アンカーモデル作成装置107は、音声データ蓄積装置108に記憶されているオーディオ信号に基づいてアンカーモデルArを作成し、作成したアンカーモデルArを音声処理装置104に出力する。アンカーモデル作成装置107の機能構成の詳細については後述する。
 なお、アンカーモデル作成装置107がアンカーモデルArを作成するときに用いられるオーディオ信号は、シーン変化点を検出する対象となる動画ファイルとは別の複数の動画ファイルから、予め抽出して得られたオーディオ信号である。
<音声データ蓄積装置108>
 音声データ蓄積装置108は、例えば、ハードディスク装置などで実現され、アンカーモデル作成装置107がアンカーモデルArを作成するときに用いられる音声データをあらかじめ記憶している。
<インタフェース装置109>
 インタフェース装置109は、キーボードなどの操作部(図示せず)を備え、ユーザからの入力操作を受け付けて、プログレスバーの操作情報などを出力装置106に、作成すべきアンカーモデルの個数Kをアンカーモデル作成装置107に通知する。
<音声処理装置104(詳細)>
 音声処理装置104は、メモリ(図示せず)およびプロセッサ(図示せず)から構成され、プロセッサがメモリに書き込まれたプログラムを実行することにより、図11に示す構成を実現している。
 図11は、音声処理装置104の機能構成例を示すブロック図である。図に示すように、音声処理装置104は、特徴量ベクトル生成部201、尤度ベクトル生成部202、尤度ベクトルバッファ203、頻度ベクトル生成部204、頻度ベクトルバッファ205、区間伸長基準指標計算部206、境界情報計算部207、インデクス生成部208およびアンカーモデル蓄積部209を備える。以下、各構成について説明する。
<特徴量ベクトル生成部201>
 特徴量ベクトル生成部201は、音声抽出装置103から入力されたオーディオ信号X(t)に基づいて、第1単位区間毎に、特徴量ベクトルMを生成する。
 以下、オーディオ信号X(t)から特徴量ベクトルMを生成するまでの概要を述べる。
 まず、特徴量ベクトル生成部201は、第1単位区間のオーディオ信号X(t)のパワースペクトラムS(ω)を算出する(図2(b)参照)。パワースペクトラムS(ω)は、オーディオ信号X(t)を時間軸から周波数軸に変換し、各周波数成分を二乗したものである。
 次に、特徴量ベクトル生成部201は、パワースペクトラムS(ω)の周波数軸をメル周波数軸に変換したメル周波数スペクトラムS(ωmel)を算出する(図2(c)参照)。
 最後に、特徴量ベクトル生成部201は、メル周波数スペクトラムS(ωmel)からメル周波数ケプストラムを算出し、所定数(本実施の形態では26個)の成分を特徴量ベクトルMとする。
<アンカーモデル蓄積部209>
 アンカーモデル蓄積部209は、メモリの一部の領域により構成され、アンカーモデル作成装置107により作成されたアンカーモデルArを記憶している。本実施の形態では、アンカーモデル蓄積部209は、音声処理装置104の各処理の実行前に、あらかじめアンカーモデルArを記憶している。
<尤度ベクトル生成部202>
 尤度ベクトル生成部202は、特徴量ベクトル生成部201により生成される特徴量ベクトルMおよびアンカーモデル蓄積部209に蓄積されているアンカーモデルArを用いて、オーディオ信号X(t)の、サウンド素片それぞれに対する尤度Lrを算出し、各尤度を成分とする尤度ベクトルFを第1単位区間毎に生成する。
<尤度ベクトルバッファ203>
 尤度ベクトルバッファ203は、メモリの一部の領域により構成され、尤度ベクトル生成部202により生成される尤度ベクトルFを記憶する。
<頻度ベクトル生成部204>
 頻度ベクトル生成部204は、尤度ベクトルバッファ203で記憶されている尤度ベクトルFに基づいて、第2単位区間毎に頻度ベクトルNFを生成する。
<頻度ベクトルバッファ205>
 頻度ベクトルバッファ205は、メモリの一部の領域により構成され、頻度ベクトル生成部204により生成される頻度ベクトルNFを記憶する。
<区間伸長基準指標計算部206>
 区間伸長基準指標計算部206は、第2単位区間それぞれに対して、後述する区間伸長処理の基準指標となる基準区間、基準ベクトルS及びしきい値Rthを算出する。
 区間伸長基準指標計算部206は、処理対象の第2単位区間近傍の複数の第2単位区間を基準区間として、頻度ベクトルバッファ205から基準区間の頻度ベクトルを取得し、取得した複数の頻度ベクトルの重心を基準ベクトルSとして算出する。図12に、処理対象の第2単位区間近傍の合計9区間を基準区間とした場合における、基準区間の頻度ベクトル(NF1~NF9)を用いた、基準ベクトルSの算出例を示す。
 区間伸長基準指標計算部206は、更に、基準ベクトルSを生成する際に用いた複数の頻度ベクトルNFと基準ベクトルSとの間のユークリッド距離をそれぞれ算出し、基準ベクトルSとの間のユークリッド距離が最も大きい頻度ベクトルNFと基準ベクトルSとの間のユークリッド距離を類似区間に属するか否かの判断に用いるしきい値Rthとして算出する。
 図13は、基準ベクトルS、各頻度ベクトルNF、および、しきい値Rthをベクトル空間の概念を用いて示した図である。図13において、白丸印は、それぞれ、基準ベクトルSの算出に用いた頻度ベクトルNF(図12に示す基準区間内の各頻度ベクトルNF1~NF9に対応)を示し、円状になっているハッチ領域の中心の黒丸印が基準ベクトルSを示している。基準ベクトルSから各頻度ベクトルNFへの矢印の長さが、頻度ベクトルNFと基準ベクトルSとの間のユークリッド距離を示し、その最大距離がしきい値Rthとなる。
<境界情報計算部207>
 図11に戻り、境界情報計算部207は、第2単位区間に対して、頻度ベクトルの類似する区間からなる類似区間を算出し、類似区間の始端の時刻および終端の時刻を特定する。境界情報計算部207は、頻度ベクトルバッファ205に記憶されている頻度ベクトルNF、処理対象の第2単位区間、および、区間伸長基準指標計算部206により算出された基準指標(基準区間、基準ベクトルSとしきい値Rth)を入力とし、特定した始端の時刻および終端の時刻を境界情報としてインデクス生成部208へ出力する。
 まず、境界情報計算部207は、類似区間の初期値として、区間伸長基準指標計算部206で算出した基準区間を設定する。境界情報計算部207は、図14に示すように、時間軸逆方向へ遡りながら、類似区間の直前の第2単位区間を対象区間として、対象区間を類似区間に含めるか否かについて判定していく。具体的には、境界情報計算部207は、対象区間における頻度ベクトルNFと基準ベクトルSとの間のユークリッド距離を算出し、算出したユークリッド距離がしきい値Rth以下の場合に、対象区間を類似区間に含める。境界情報計算部207は、上記処理を繰り返し、算出したユークリッド距離がしきい値Rthを最初に超えた時点における類似区間の始端の時刻を特定する。
 上記処理は、1区間ずつ類似区間を伸長していくので、区間伸長処理と呼称する。境界情報計算部207は、時間軸順方向についても区間伸長処理を行い、類似区間の終端の時刻を特定する。
 境界情報計算部207は、区間伸長処理にあたって、対象区間が類似区間に含まれるか否かを判定するとともに、同時に類似区間の長さが予め設定された類似区間の長さleよりも短いか否かも判断する。算出したユークリッド距離がしきい値Rthを超えず、かつ、類似区間の長さが予め設定された類似区間の長さの上限leよりも短い場合、境界情報計算部207は、対象区間を類似区間に含める。類似区間の長さが類似区間の長さの上限le以上になった場合には、境界情報計算部207は、その時点での類似区間の境界情報を算出する。なお、類似区間の長さの上限leは、あらかじめ設定された値を用いる。
 境界情報計算部207は、第2単位区間ごとに境界情報を算出する(図8参照)。
<インデクス生成部208>
 インデクス生成部208は、境界情報計算部207で算出された境界情報に基づいて、シーン変化点を検出し、検出したシーン変化点をインデクス化したインデクス情報をインデクス記憶装置105に出力する。図15は、インデクス生成部208の機能構成例を示すブロック図である。図15に示すように、インデクス生成部208は、投票部301、閾値計算部302および境界判定部303を備える。以下、各構成について説明する。
<投票部301>
 投票部301は、境界情報計算部207で計算された境界情報の示す時刻ごとに、同一時刻を示す境界情報の数を境界度として算出する。投票部301は、境界情報計算部207から入力される境界情報それぞれに対して、入力された境界情報の示す時刻に投票(時刻iに対応する境界度KKiに1を加算)することにより、境界度を算出する。なお、投票部301は、1つの境界情報で指定される始端の時刻および終端の時刻の両方に投票を行う。
<閾値計算部302>
 閾値計算部302は、投票部301により算出された時刻ごとの境界度の平均μおよび標準偏差σを用いて、閾値Thを算出する。境界情報の示す時刻がTi(i=1,2,3,…,N)、それに対応する境界度がKKi(i=1,2,3,…,N)であった場合、平均値μ、標準偏差σおよび閾値THは、以下の式(1)、(2)および(3)で与えられる。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
<境界判定部303>
 境界判定部303は、投票部301で算出された時刻ごとの境界度KKiおよび閾値計算部302で算出された閾値THを用いて、以下の式(4)の条件を満たす時刻をシーン変化点と判定し、インデクス情報としてインデクス記憶装置105に出力する。
Figure JPOXMLDOC01-appb-M000004
 音声処理装置104は、上記<3-2-1>から<3-2-9>までの構成により、動画ファイルのインデクス情報を生成する。図8の映像視聴装置100の構成について説明を続ける。
<アンカーモデル作成装置107(詳細)>
 アンカーモデル作成装置107は、メモリ(図示せず)およびプロセッサ(図示せず)から構成され、プロセッサがメモリに書き込まれたプログラムを実行することにより、図16に示す構成を実現している。
 図16は、アンカーモデル作成装置の機能構成および周辺機器を示すブロック図である。図16に示すように、アンカーモデル作成装置107は、特徴量ベクトル生成部401、特徴量ベクトル分類部402およびアンカーモデル生成部403を備え、音声データ蓄積装置108に記憶されている音声データに基づいてアンカーモデルを作成し、作成したアンカーモデルをアンカーモデル蓄積部209に記憶する機能を有する。以下、各構成について説明する。
<特徴量ベクトル生成部401>
 特徴量ベクトル生成部401は、音声データ蓄積装置108に記憶されている音声データに基づいて、第1単位区間毎に、特徴量ベクトルMを生成する。
<特徴量ベクトル分類部402>
 特徴量ベクトル分類部402は、特徴量ベクトル生成部401により生成された特徴量ベクトルを、クラスタリング(分類)する。
 特徴量ベクトル分類部402は、インタフェース装置109から入力されるアンカーモデルArの個数Kに基づいて、K-means法により複数の特徴量ベクトルMをK個のクラスタに分類する。なお、本実施の形態では、K=1024である。
<アンカーモデル生成部403>
 アンカーモデル生成部403は、特徴量ベクトル分類部402により分類されたK個のクラスタそれぞれの平均および分散を算出し、アンカーモデルAr(r=1,2,…,K)としてアンカーモデル蓄積部209に記憶する。
<1-4.動作>
 以下、本実施の形態に係る音声処理装置104の動作について図面を参照しながら説明する。
<音声処理装置全体の動作>
 図17は、音声処理装置104の動作を示すフローチャートである。図に示すように、音声処理装置はオーディオ信号を入力とする(ステップS1701)。
 次に、音声処理装置104は、入力されたオーディオ信号を用いて、オーディオ信号の第2単位区間毎の特徴を表現した区間特徴(特徴量ベクトル、尤度ベクトルおよび頻度ベクトル)を生成する(ステップS1702)。
 区間特徴の生成には、特徴量ベクトル生成部201による特徴量ベクトル生成処理、尤度ベクトル生成部202による尤度ベクトル生成処理、および、頻度ベクトル生成部204による頻度ベクトル生成処理が含まれる。
 頻度ベクトルの生成を終了すると、次に、音声処理装置104は、処理対象となる第2単位区間を1つ選択し、ステップS1703の区間伸長基準指標計算部206で実行される区間伸長基準指標計算処理およびステップS1704の境界情報計算部207で実行される境界情報計算処理を行う。音声処理装置104は、全ての第2単位区間に対して、ステップS1703およびステップS1704の処理を実行するまでループ処理を行う。
 ループ処理が終了すると、音声処理装置104のインデクス生成部208は、インデクス生成処理を行う(ステップS1705)。
 最後に、音声処理装置104は、インデクス生成部208の生成したインデクス情報をインデクス記憶装置に出力する(ステップS1706)。
<基準指標計算処理>
 図18は、図17におけるステップS1703の区間伸長基準指標計算部206で実行される基準指標計算処理の詳細を示すフローチャートである。図18に示すように、基準指標計算処理において、区間伸長基準指標計算部206は、処理対象の第2単位区間および頻度ベクトルバッファ205で保持する頻度ベクトルを入力とする(ステップS1801)。
 区間伸長基準指標計算部206は、処理対象の第2単位区間および当該第2単位区間前後4区間の計9区間の第2単位区間を基準区間として設定する(ステップS1802)。
 次に、区間伸長基準指標計算部206は、頻度ベクトルバッファ205により入力される基準区間内の頻度ベクトル(NF1~NF9)の重心を算出し、基準ベクトルSとする(ステップS1803)。
 続いて、区間伸長基準指標計算部206は、基準ベクトルSと基準区間内の頻度ベクトル(NF1~NF9)との間のユークリッド距離D(S,NF1),~,D(S,NF9)をそれぞれ算出し、算出したユークリッド距離の最大値をしきい値Rthとする(ステップS1804)。
 最後に、区間伸長基準指標計算部206は、算出した基準指標を境界情報計算部207へ出力する(ステップS1805)。
<境界情報計算処理>
 図19は、図17におけるステップS1704の境界情報計算部207で実行される境界情報計算処理の詳細を示すフローチャートである。図19に示すように、境界情報計算処理において、境界情報計算部207は、処理対象の第2単位区間、区間伸長基準指標計算部206で算出される基準指標、あらかじめ設定される類似区間の長さの上限および頻度ベクトルバッファ205で保持する頻度ベクトルを入力とする(ステップS1901)。
 境界情報計算部207は、区間伸長基準指標計算部206から入力された基準区間を類似区間の初期値とする(ステップS1902)。
 次に、境界情報計算部207は、ステップS1902で設定した類似区間の初期値に対して、ステップS1903~S1906の処理を実行して、オーディオ信号の時間軸逆方向の区間伸長処理を行う。
 境界情報計算部207は、オーディオ信号の時間軸で類似区間の直前の第2単位区間を対象区間とする(ステップS1903)。
 境界情報計算部207は、頻度ベクトルバッファ205から入力された対象区間の頻度ベクトルNFと、区間伸長基準指標計算部206により入力された基準ベクトルSとの間のユークリッド距離D(NF,S)を算出し、算出したユークリッド距離D(NF,S)と区間伸長基準指標計算部206から入力されたしきい値Rthとの比較を行う(ステップS1904)。
 境界情報計算部207は、算出したユークリッド距離D(NF,S)がしきい値Rthよりも短い場合(ステップS1904:Yes)、対象区間を含むように類似区間を更新する(ステップS1905)。
 境界情報計算部207は、類似区間を更新したあと、類似区間の長さが、類似区間の長さの上限leとの比較を行い(ステップS1906)、類似区間の長さが上限leよりも短ければ(ステップS1906:Yes)、ステップS1803に戻り、類似区間の長さが上限le以上ならば(ステップS1906:No)、ステップS1911に進む。
 境界情報計算部207は、算出したユークリッド距離D(NF,S)がしきい値Rth以上の場合(ステップS1904:No)、オーディオ信号の時間軸逆方向の区間伸長処理を終了してステップS1907~S1910へ進み、オーディオ信号の時間軸順方向の区間伸長処理を行う。
 時間軸順方向の区間伸長処理は、ステップS1907の類似区間の直後の第2単位区間を対象区間とすること除いて、時間軸逆方向の区間伸長処理と同じ処理なので、説明を省略する。
 境界情報計算部207は、時間軸逆方向の区間伸長処理および時間軸順方向の区間伸長処理を終了した時点における類似区間の始端の時刻および終端の時刻からなる境界情報を計算する(ステップS1911)。
 最後に、境界情報計算部207は、計算した境界情報をインデクス生成部208に出力する(ステップS1912)。
<インデクス生成処理>
 図20は、図17におけるステップS1705のインデクス生成部208で実行されるインデクス生成処理の動作を示すフローチャートである。図20に示すように、インデクス生成処理において、インデクス生成部208は、境界情報計算部207で計算される境界情報を入力とする(ステップS2001)。
 投票部301は、境界情報計算部207から境界情報が入力されると、境界情報の示す時刻に投票して境界度を算出する(ステップS2002)。
 ステップS1902の投票処理が終了すると、閾値計算部302は、投票部301により算出された境界度を用いて閾値を算出する(ステップS2003)。
 境界判定部303は、投票部301で算出された境界度および閾値計算部302で算出された閾値を用いてシーン変化点を検出し、検出したシーン変化点をインデクス化したインデクス情報を生成する(ステップS2004)。
 境界判定部303は、生成したインデクス情報をインデクス記憶装置105に出力する(ステップS2005)。
<1-5.まとめ>
 本実施の形態の音声処理装置は、オーディオ信号の所定時間長の単位区間ごとに、オーディオ信号の単位区間における特徴を示す区間特徴(特徴量ベクトル、尤度ベクトルおよび頻度ベクトル)を算出し、算出した区間特徴の類似する区間からなる類似区間の境界からシーン変化点を検出する。
 この構成により、音声処理装置は、音声情報が緩やかに変化するシーン変化点をであっても検出することが可能である。
 また、音声処理装置は、単位区間ごとに算出し境界情報に対して、境界ごとに同一の境界を示す境界情報の数を優先度(境界度)として算出し、閾値を超える優先度の境界のみをシーン変化点としてインデクス化する。
 この構成により、音声処理装置は、多くの単位区間(第2単位区間)から算出される境界を、優先的に、ユーザの所望するシーン変化点として検出することが可能となる。さらに、インデクス化する変化点を選別するため、ユーザは、所望するシーンを検索することが容易になる。
<実施の形態2>
 実施の形態2では、実施の形態1と比較して、2つの点で異なっている。
 1つは、境界度の算出方法である。実施の形態1では、同一の時刻を示す境界の数を境界度として計算した。実施の形態2では、境界度として、同一の時刻を示す境界情報における境界変化度の最大値を計算する。ここで、境界変化度は、境界情報計算部により、類似区間の境界情報として、当該類似区間内で、区間特徴(特徴量ベクトル、尤度ベクトルおよび頻度ベクトル)がどの程度変化しているかを示す指標として計算される。
 実施の形態1と比較して、異なっているもう1つの点は、インデクス情報である。実施の形態1では、インデクス情報に、シーン変化点の時刻のみを用いた。実施の形態2では、シーン変化点を音環境情報で分類した分類情報を、インデクス情報に付加する。ここで、音環境情報は、シーン変化点におけるオーディオ信号の特徴を表現する情報であり、境界情報計算部により、類似区間の境界情報として、当該類似区間における区間特徴を用いて計算される。
 以下、本実施の形態に係る音声処理装置について説明する。実施の形態1と同じ構成要素については同じ符号を用い、説明を省略する。
<2-1.構成>
 図21は、実施の形態2に係る音声処理装置110の機能構成例を示すブロック図である。音声処理装置110は、実施の形態1の音声処理装置104と比較して、境界情報計算部207の代わりに境界情報計算部211を備え、インデクス生成部208の代わりにインデクス生成部212を備える。
<境界情報計算部211>
 境界情報計算部211は、境界情報計算部207の機能に加え、境界情報として、さらに、処理対象の第2単位区間近傍におけるオーディオ信号の特徴と、類似区間の境界におけるオーディオ信号の特徴の変化の度合いを示す境界変化度、および、類似区間における代表的な音環境を示す音環境情報を計算する機能を有する。
 本実施の形態において、境界情報計算部211は、始端変化度Din(類似区間の始端における境界変化度)として、時間軸逆方向の区間伸長処理において、区間を伸長する際に計算した基準ベクトルSと頻度ベクトルNFとのユークリッド距離のうち、しきい値Rthを超えたものを用いる。すなわち、基準ベクトルSと類似区間直前の第2単位区間の頻度ベクトルNFとのユークリッド距離を用いる。なお、類似区間直前の第2単位区間が存在しない場合は、類似区間開始の第2単位区間を代わりに用いる
 同様に、境界情報計算部211は、終端変化度Dout(類似区間の始端における境界変化度)として、基準ベクトルSと類似区間直後の第2単位区間の頻度ベクトルNFとのユークリッド距離を用いる。
 また、境界情報計算部211は、音環境情報として、基準ベクトルSを用いる。
 図22に示すように、境界情報計算部211は、境界情報として、類似区間の始端の時刻、始端変化度、終端の時刻、終端変化度、および、音環境情報を計算する。
<インデクス生成部212>
 図23は、インデクス生成部212の機能構成例を示すブロック図である。インデクス生成部212は、実施の形態1のインデクス生成部208と比較して、投票部301の代わりに境界度計算部311を備え、さらに、音環境分類部312が、境界判定部303とインデクス記憶装置105の間に挿入される。
<境界度計算部311>
 境界度計算部311は、境界情報計算部211で計算された境界情報の示す時刻ごとに、境界情報の境界変化度の最大値を境界度として算出する。より具体的には、境界度計算部311は、時刻Tiの境界度として、始端の時刻がTiの境界情報における始端変化度および終端の時刻がTiの境界情報における終端変化度の最大値を算出する。
 また、境界度計算部311は、境界変化度の最大値を与えた境界情報の音環境情報を境界(時刻)の音環境情報と対応付ける。
<音環境分類部312>
 音環境分類部312は、境界判定部303で、シーン変化点と判定された時刻に対応付けられた音環境情報を、例えば、K-means法を用いて複数のグループ(例えば、3グループ)に分類する。音環境分類部312は、分類結果の分類情報をインデクス情報に付与し、分類情報付のインデクス情報をインデクス記憶装置105に出力する。図24に、分類情報の付与されたインデクス情報の具体例を示す。
<2-2.まとめ>
 本実施の形態の音声処理装置は、境界度として、類似区間内におけるオーディオ信号の特徴の変化の度合いを示す境界変化度の最大値を用いている。オーディオ信号の特徴の変化は、動画ファイルにおける被写体に動きに伴って出現することが多い。つまり、本実施の形態の音声処理装置は、境界度として境界変化度の最大値を用いることで、被写体に動きあるシーンを優先して検出することが可能である。
 本実施の形態の音声処理装置は、シーン変化点を音環境情報で分類した分類情報をインデクス情報に付与している。映像視聴装置は、分類情報を利用することで、多彩なユーザインタフェース機能をユーザに提供することが可能となる。
 例えば、映像視聴装置は、シーン変化点を分類ごとに区別できる形(例えば、分類ごとに色分けする、分類ごとに目印の形状を変化させる)でプログレスバーに表示する構成が考えられる。この構成により、ユーザは、プログレスバーを見ることで、AVコンテンツの大まかなシーン構成を把握することが可能となり、目的のシーンをより直観的に検索することが可能となる。
 また、映像視聴装置は、現在視聴しているシーンのシーン変化点と同じ分類のシーン変化点をプログレスバー上で強調表示する構成が考えられる。この構成により、ユーザは、現在視聴しているシーンに類似するシーンまで、素早くスキップすることが可能となる。
<3.変形例>
 上記実施の形態に従って、本発明に係る音声処理装置について説明してきたが、本発明はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
 (1)上記実施の形態において、音声処理装置は、境界度として、同一の境界を示す境界情報の数、または、同一の境界を示す境界情報における境界変化度の最大値を計算したがこれに限られるものではない。例えば、同一の境界を示す境界情報における境界変化度の累積値を用いてもよい。この構成によると、音声処理装置は、より多くの単位区間(第2単位区間)から算出され、かつ、同一シーン内で特徴の変化が大きいシーンの境界を、優先して検出することが可能となる。
 (2)上記実施の形態において、境界情報計算部は、境界情報として、類似区間の始端の時刻および終端の時刻の両方を計算しているが、始端の時刻のみを計算してもよいし、終端の時刻のみを計算してもよい。なお、境界情報計算部は、始端の時刻のみを計算する構成では、時間軸順方向の区間伸長処理を行う必要がなく、終端の時刻のみを計算する構成では、時間軸逆方向の区間伸長処理を行う必要がなくなる。
 (3)上記実施の形態において、閾値計算部は、式(3)を用いて閾値の計算を行うとしたが、閾値の計算方法はこの限りではない。例えば、以下に示す式(5)の係数kを0~3の間で変化させたものを用いてもよい。
Figure JPOXMLDOC01-appb-M000005
 また、閾値計算部は、複数の閾値を計算し、境界判定部は、複数の閾値それぞれに対してシーン変化点を計算してもよい。例えば、閾値計算部は、係数k=0として第1の閾値TH1を計算し、境界判定部は、第1の閾値TH1に対するシーン変化点を検出する。その後、閾値計算部は、係数k=2として第2の閾値TH2を計算し、境界判定部は、第2の閾値TH2に対するシーン変化点を検出するとしてもよい。
 ここで、第2の閾値よりも小さい第1の閾値TH1を用いて検出されたシーン変化点は、例えば、図1におけるシーン20の中に含まれるシーン21およびシーン22のように、より大きいシーンに含まれる小さいシーンの境界と推定することができる。逆に、第1の閾値よりも大きい第2の閾値TH2を用いて検出されたシーン変化点は、例えば、図1におけるシーン21およびシーン22を含むシーン20のように、より小さいシーンを含む大きいシーンの境界と推定することができる。
 つまり、複数の閾値それぞれに対してシーン変化点を検出する構成により、閾値計算部および境界判定部は、オーディオ信号におけるシーンの階層構造を推定するシーン構造推定部として機能する。
 (4)上記実施の形態において、境界判定部は、閾値計算部から入力される閾値を超える境界度の時刻をシーン変化点として検出するとしたが、この限りではない。境界判定部は、例えば、境界度の高い順に所定数N(Nは正整数)の時刻をシーン変化点として検出してもよい。さらに、上記所定数Nは、オーディオ信号の長さに応じて決定してもよい。例えば、境界判定部は、10分の長さのオーディオ信号の場合には、N=10とし、20分の長さのオーディオ信号の場合には、N=20としてもよい。
 また、境界判定部は、境界度の高い順に所定数N(Nは正整数)の時刻を第1のシーン変化点として検出し、境界度の高い順に所定数M(MはNよりおおきい整数)の時刻を第2のシーン変化点として検出してもよい。
 この場合、第1のシーン変化点は、例えば、図1におけるシーン21およびシーン22を含むシーン20のように、より小さいシーンを含む大きいシーンの境界と推定することができる。また、第2のシーン変化点は、図1におけるシーン20の中に含まれるシーン21およびシーン22のように、より大きいシーンに含まれる小さいシーンの境界と推定することができる。
 つまり、上記第1のシーン変化点と第2のシーン変化点とを検出する構成によると、境界判定部は、オーディオ信号におけるシーンの階層構造を推定するシーン構造推定部として機能する。
 (5)上述の実施の形態において、類似区間(および境界情報)は、第2単位区間ごとに算出するとしたが、この限りではない。例えば、境界情報計算部は、Nを正整数として、第2単位区間N個おきに類似区間を算出してもよい。また、境界情報計算部は、インタフェース装置などからユーザの指定する第2単位区間を複数取得し、ユーザの指定する複数の第2単位区間それぞれの類似区間を算出するとしてもよい。
 (6)上述の実施の形態において、区間伸長基準指標計算部の実施する区間伸長基準指標算出処理に用いる基準区間は、処理対象の第2単位区間近傍の合計9区間としたが、これに限られるものではない。基準区間は、例えば、処理対象の第2単位区間近傍の合計N区間(Nは2以上の整数)であってもよい。
 ここで、Nが大きいと境界情報計算部において計算される類似区間は、比較的広い区間になる。その結果、インデックス生成部において検出されるシーン変化点は、例えば、図1におけるシーン21およびシーン22を含むシーン20のように、より小さいシーンを含む大きいシーンの境界を示すと推定される。逆に、Nが小さいと境界情報計算部において計算される類似区間は、比較的狭い区間になる。その結果、インデックス生成部において検出されるシーン変化点は、例えば、図1におけるシーン20の中に含まれるシーン21およびシーン22のように、より大きいシーンに含まれる小さいシーンの境界を示すと推定される。
 これを踏まえ、区間伸長基準指標計算部、境界情報計算部およびインデックス生成部は、まず、Nが大きい場合におけるシーン変化点を検出し、その後、Nが小さい場合におけるシーン変化点を検出する構成としてもよい。この構成によると、区間伸長基準指標計算部、境界情報計算部およびインデックス生成部は、オーディオ信号における大きなシーンの境界と、その大きなシーンに含まれる小さなシーンの境界とを検出することができる。つまり、この構成によれば、区間伸長基準指標計算部、境界情報計算部およびインデックス生成部は、オーディオ信号におけるシーンの階層構造を推定するシーン構造推定部として機能する。
 (7)上述の実施の形態において、基準ベクトルは、基準区間に含まれる第2単位区間の頻度ベクトルの重心として説明したが、基準ベクトルはこれに限られるものではない。例えば、基準区間に含まれる第2単位区間の頻度ベクトルの成分毎の中央値を成分とするベクトルでもよいし、基準区間に含まれる第2単位区間の数が100個など多い場合には、各頻度ベクトルの成分の最頻値を成分とするベクトルを基準ベクトルとしてもよい。
 (8)上述の実施形態においては、境界情報計算部は、対象区間における頻度ベクトルと基準ベクトルSの間のユークリッド距離がしきい値Rthを超えず、かつ、類似区間の長さがあらかじめ設定された類似区間の長さの上限leよりも短いと判断すると対象区間を類似区間に含ませる旨を記載した。これは、類似区間の長さがある一定以上の長さになることを防ぐための措置であるが、類似区間の長さに制限がなければ、類似区間の長さと上限leとの比較処理は行わずに対象区間を類似区間に含ませてもよい。
 また、上述の実施の形態では、類似区間の長さの上限leは、あらかじめ設定された値を用いるとしたが、この限りではない。類似区間の長さの上限leは、例えば、インタフェースを介してユーザが指定した値を用いてもよい。
 (9)上述の実施の形態においては、類似区間を時間軸逆方向に伸長していき、その後に、時間軸順方向に伸長していく構成についてのみ説明したが、例えば、以下のような構成としてもよい。
 例えば、境界情報計算部は、区間伸長処理の順は時間軸順方向が時間軸逆方向よりも先に行われてもよいし、類似区間を第2単位区間単位で時間軸逆方向と時間軸順方向とで交互に伸長していく構成をとってもよい。交互に伸長を行う際には、第2単位区間単位に交互でなくともよく、一定数(例えば、5個)の第2単位区間毎に交互に伸長する手法をとってもよい。
 (10)上記実施の形態においては、境界情報計算部は、基準ベクトルと対象区間の頻度ベクトルとの間のユークリッド距離が、しきい値Rthを超えるか否かに応じて、対象区間を類似区間に含めるか否かを判定していた。しかし、これは、基準ベクトルと頻度ベクトルが一定以上似ているか否かを判定できれば、必ずしもユークリッド距離を用いる必要はない。
 例えば、基準ベクトルおよび頻度ベクトルの各成分を対応するアンカーモデルの規定する確率分布の重みとする混合分布について、2つの混合分布の両方向のカルバック・ライブラー情報量(Kullback-Leibler divergence、相対エントロピーと呼称されることもある)を距離として利用し、類似区間を抽出する構成としてもよい。この際、しきい値Rthもカルバック・ライブラー情報量を用いて計算するとよい。
 なお、カルバック・ライブラー情報量は、確率論や情報理論において2つの確率分布の差異を図る尺度として一般に知られており、本発明の一実施形態に係る頻度ベクトルと基準ベクトル間のKL距離は以下のようにして算出できる。
 まず、頻度ベクトルNFと各アンカーモデルの規定する確率分布を用いて一つの混合分布を構成する。具体的には、頻度ベクトルNF=(α1,…,αr,…,α1024)を、各アンカーモデルの規定する確率分布(bA1,…,bAr,…,bA1024)に対する重みと捉えることで、混合分布GNFは、以下の式(6)で与えることができる。
Figure JPOXMLDOC01-appb-M000006
 一方、基準ベクトルでも同様に混合分布を構成する。即ち、基準ベクトルS=(μ1,…,μr,…,μ1024)を、各アンカーモデルの規定する確率分布(bA1,…,bAr,…,bA1024)に対する重みと捉えることで、混合分布GSは、以下の式(7)で与えることができる。
Figure JPOXMLDOC01-appb-M000007
 すると、この2つの混合分布GNF及びGSを用いて、GNFからGSに対するカルバック・ライブラー情報量は以下の式(8)で与えることができる。
Figure JPOXMLDOC01-appb-M000008
 上記式(8)においてXは混合分布GNF及びGSの引数全体の集合である。
 また、GSからGNFに対するカルバック・ライブラー情報量は以下の式(9)で与えることができる。
Figure JPOXMLDOC01-appb-M000009
 式(8)と式(9)の間に対称性はないので、二つの確率分布間のKL距離は、以下の式(10)から算出される。
Figure JPOXMLDOC01-appb-M000010
 上記実施の形態に示したユークリッド距離の代わりに、この式(10)に示されるKL距離を用いて、対象区間を類似区間に含めるか否かの判定を行ってもよい。このとき、しきい値Rthは、ユークリッド距離の代わりに、基準区間に含まれる複数の第2単位区間の頻度ベクトルのうち、それら複数の頻度ベクトルと基準ベクトルとの間のKL距離が最大の頻度ベクトルとの間のKL距離を用いればよい。
 また、その他にも、ユークリッド距離を用いない手法としては、例えば、基準ベクトルと対象区間の頻度ベクトルとの相関演算(コサイン類似度やピアソンの相関係数の算出など)を行って、その相関値が一定値以上(例えば、0.6以上)であれば、対象区間を類似区間に含めるというような手法をとってもよい。
 (11)上述の実施形態では、第2単位区間における頻度ベクトルは、それぞれの区間に含まれる尤度ベクトルの各成分の正規化累積尤度を成分とするベクトルであるとしたが、頻度ベクトルは、その区間におけるオーディオ信号の特徴を表すものであればよく、特に、頻出する音の成分を特定できるものであれば、正規化累積尤度以外を成分とするベクトルであってもよい。例えば、単位区間に含まれる尤度ベクトルの各成分を累積し、累積尤度の高い上位k個(kは複数であり、例えば、10)のアンカーモデルのみに対応する累積尤度を正規化したベクトルであってもよい。あるいは、頻度ベクトルは、累積した値を正規化することなく、そのまま累積した尤度を成分とするベクトルや、各尤度の平均値を成分とするベクトルであってもよい。
 (12)上述の実施形態では、特徴量ベクトルとしてMFCCを用いるとしたが、オーディオ信号の第1単位区間における特徴を表現するものであればこれに限られるものではない。例えば、パワースペクトラムなどのオーディオ信号の周波数特性を用いてもよいし、オーディオ信号の振幅の時系列そのものを特徴量として用いてもよい。
 また、上述の実施形態では、MFCC26次元を用いるとしているが、これは実験により26次元とすることで好適な結果得られたためであり、本発明の特徴量ベクトルを26次元に制限するものではない。
 (13)上述の実施形態では、音データ記憶装置に予め蓄積されている音データからクラスタリングを用いて分類した複数種類のサウンド素片それぞれのアンカーモデルArを作成する(いわゆる教師無しでアンカーモデルを作成する)例について説明したが、アンカーモデル作成手法は、これに限定されるものではない。例えば、音データ記憶装置に蓄積されている音データについて、ユーザが各サウンド素片それぞれに対応する音データを選択し、それぞれに種別ラベルを付与し、種別ラベルが同一な音データから対応するサウンド素片のアンカーモデルを作成する(いわゆる教師ありでアンカーモデルArを作成する)こととしてもよい。
 (14)上述の実施形態における第1単位区間、第2単位区間それぞれの時間の長さは一例である。その時間長は、第1単位区間<第2単位区間となっていれば、上記実施の形態に示した以外の長さであってもよい。なお、このとき、第2単位区間の長さは、第1単位区間の長さの倍数になっていると処理が簡易になる。
 (15)上述の実施形態では、尤度ベクトルバッファ、頻度ベクトルバッファ、および、アンカーモデル蓄積部は、メモリの一部により構成されるとしたが、音声処理装置が読み書き可能な記憶装置であればこの限りではない。例えば、ハードディスクやフレキシブルディスクであってもよいし、外部接続の記憶装置であってもよい。
 (16)上述の実施形態に示した音データ記憶装置に記憶される音声データは、適宜新たな音声データが追加されてよく、また、コンテンツ記憶装置に記憶された動画ファイルの音データを記憶してもよい。
 そして、新たな音データの追加に伴い、アンカーモデル作成装置107は新たなアンカーモデルを作成してもよい。
 (17)上述の実施形態では、映像視聴装置の構成要素として音声処理装置を説明したが、音声編集装置の構成要素としても良い。また、外部装置からオーディオ信号を含む動画ファイルを取得して、検出結果のシーン変化点に対応する画像データをサムネイル画像として出力する画像表示装置であってもよい。
 (18)上述の実施形態では、記録媒体から動画ファイルを取得することとしたが、取得の手段は記録媒体を用いる方法に限らない。例えば、無線又は有線の放送や、ネットワークなどから取得してもよいし、音声処理装置がマイクなどの音声入力装置を備え、音声入力装置により入力されたオーディオ信号からシーン変化点を検出してもよい。
 (19)本発明は、上記実施形態の音声処理装置をネットワークに接続し、当該音声処理装置および当該ネットワークに接続される1以上の端末からなる映像視聴システムとして実現することも可能である。
 このような映像視聴システムでは、例えば、ある1つの端末が音声処理装置に動画ファイルを送信し、音声処理装置が受信した動画ファイルのシーン変化点を検出して端末に送信する。
 この構成により、シーン変化点の検出などの編集機能を持たない端末でも、編集の施された(シーン変化点の検出された)映像を再生することが可能である。
 また、上記映像視聴システムにおいて、音声処理装置の機能を分割して、分割された機能の一部を端末が備えてもよい。ここでは、分割された機能の一部を備える端末をクライアントと称し、残る機能を備える装置をサーバと称する。
 図25~27は、音声処理装置の機能を分割した映像視聴システムの構成の一例を示す図である。
 図25に示すように、映像視聴システムは、クライアント2600およびサーバ2700から成る。
 クライアント2600は、コンテンツ記憶装置102、音声抽出装置103、音声処理装置2602、および送受信装置2604を備える。
 コンテンツ記憶装置102および音声抽出装置103は、上記実施形態におけるコンテンツ記憶装置102および音声抽出装置103と同様である。
 音声処理装置2602は、上記実施形態における音声処理装置104の一部の機能、具体的には、オーディオ信号から頻度ベクトルを生成する機能を有する。
 送受信装置2604は、音声処理装置2602の生成した頻度ベクトルをサーバ2700に送信する機能、および、サーバ2700からインデクス情報を受信する機能を有する。
 サーバ2700は、インデクス記憶装置105、音声処理装置2702、および送受信装置2704を備える。
 インデクス記憶装置105は、上記実施の形態におけるインデクス記憶装置105と同様である。
 音声処理装置2702は、上記実施形態における音声処理装置104の一部の機能、具体的には、頻度ベクトルからインデクス情報を生成する機能を有する。
 送受信装置2704は、クライアント2600から頻度ベクトルを受信する機能、および、インデクス記憶装置105に記憶されるインデクス情報をクライアント2600に送信する機能を有する。
 図26は、クライアント2600の備える音声処理装置2602の機能構成の一例を示す図である。図に示すように、音声処理装置2602は、特徴量ベクトル生成部201、尤度ベクトル生成部202、尤度ベクトルバッファ203、頻度ベクトル生成部204、およびアンカーモデル蓄積部209を備える。各構成部は、上記実施形態の同名同符号の構成部と同様の機能を有する。
 図27は、サーバ2700の備える音声処理装置2702の機能構成の一例を示す図である。図に示すように、音声処理装置2702は、頻度ベクトルバッファ205、区間伸長基準指標計算部206、境界情報計算部207およびインデクス生成部208を備える。各構成部は、上記実施形態の同名同符号の構成部と同様の機能を有する。
 この構成によると、映像視聴システム内の通信は、頻度ベクトルおよびインデクス情報に限られる。従って、音声処理装置を分割せずに動画ファイルを送信する場合と比較して、通信量を減らすことが可能となる。
 また、上記映像視聴システムにおいて、サーバは、生成したインデクス情報に対応するサムネイル画像などをクライアントから受信して、ネットワーク内の他の端末に対して、生成したインデクス情報と共に対応するサムネイル画像を配信する機能を備えてもよい。
 この構成によれば、ネットワーク内の他の端末においてクライアントに保存されている動画ファイルを視聴する場合に、他の端末のユーザは、配信されたサムネイル画像に基づいて、興味のあるシーンのみを選択して視聴することが可能である。つまり、この構成により、映像視聴システムは、ユーザにとって興味のあるシーンのみを抽出したストリーミング配信を行うことができる。
 (20)上述の各実施形態及び各変形例を、部分的に組み合せてもよい。
 (21)上述実施形態で示した基準指標算出処理、境界情報計算処理、インデクス生成処理を、音声処理装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
 (22)上述の実施形態で示した各機能構成要素(特徴単位区間検出部、区間伸長基準指標計算部、興味区間抽出部等)は、その機能を実行する回路として実現されてもよいし、1又は複数のプロセッサによりプログラムを実行することで実現されてもよい。また、上述の実施形態の音声処理装置は、IC、LSIその他の集積回路のパッケージとして構成されるものとしてもよい。このパッケージは各種装置に組み込まれて利用に供され、これにより各種装置は、各実施形態で示したような各機能を実現するようになる。
 なお、特徴単位区間検出部、区間伸長基準指標計算部、興味区間抽出部等の各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

<6-2.補足>
 以下、更に本発明の一実施形態としての音声処理装置の構成及びその変形例と効果について説明する。
 (A)本発明の一実施形態の音声処理装置は、入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算手段と、複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定手段とを備える。
 音声処理装置は、この構成により、区間特徴(特徴量ベクトル、尤度ベクトルおよび頻度ベクトル)の類似する類似区間の境界の中から選出したものをシーン変化点として検出する。音声処理装置は、類似区間の境界をシーン変化点とすることで、過渡シーンにおける変化点を検出することが可能である。また、音声処理装置は、境界を選別したものをシーン変化点としてインデクス化することで、ユーザは容易に所望するシーン変化点を検索することが可能となる。
 (B)上記実施形態(A)の音声処理装置において、前記判定手段は、前記優先度として、同一の境界を示す境界情報の数を計算するとしてもよい。
 この構成によると、音声処理装置は、ユーザが所望する同一のシーンに属する単位区間からは、同一の時刻を示す境界が算出されるという仮定の下で、ユーザの所望するシーンと他のシーンとの変化点を優先的に検出することが可能となる。
 (C)上記実施形態(A)の音声処理装置において、前記境界計算手段は、前記境界情報として、さらに、前記類似区間と他の区間との間のオーディオ信号の特徴の変化の度合いを示す変化度を計算し、前記判定手段は、前記優先度として、同一の境界を示す境界情報の前記変化度の累積値を計算するとしてもよい。
 この構成によると、音声処理装置は、オーディオ信号の特徴に変化のあるシーンの境界および多くの単位区間から計算される境界の両方を優先的に検出することが可能である。
 (D)上記実施形態(A)の音声処理装置において、前記境界計算手段は、前記境界情報として、さらに、前記類似区間と他の区間との間のオーディオ信号の特徴の変化の度合いを示す変化度を計算し、前記判定手段は、前記優先度として、同一の境界を示す境界情報の前記変化度の最大値を計算するとしてもよい。
 この構成によると、音声処理装置は、オーディオ信号の特徴に変化のあるシーンの境界を優先して検出することが可能である。
 (E)上記実施形態(D)の音声処理装置において、前記境界計算手段は、前記境界情報として、さらに、前記類似区間に含まれる前記単位区間の区間特徴を用いて、当該類似区間の音環境を表現する音環境情報を計算し、さらに、前記音環境情報を用いて、前記シーン変化点を分類し、分類結果の分類情報を前記シーン変化点に付与する分類手段を備えるとしてもよい。
 この構成によると、音声処理装置の出力を利用する映像表示装置などは、分類情報に基づいて、多彩なユーザインタフェース機能をユーザに提供することが可能となる。
 (F)上記実施形態(A)の音声処理装置は、さらに、前記優先度に基づいて、閾値を計算する閾値計算手段を備え、前記判定手段は、前記閾値を超える優先度の境界の時刻を前記シーン変化点として検出するとしてもよい。
 この構成によると、音声処理装置は、各オーディオ信号に対して、適応的に閾値を計算することが可能となる。その結果、あらゆるオーディオ信号に対して、安定した精度でシーン変化点を検出することが可能となる。
 (G)上記実施形態(A)の音声処理装置において、前記境界計算手段は、前記境界情報として、前記類似区間の始端の時刻を計算するとしてもよい。
 また、上記実施形態(B)の音声処理装置において、前記境界計算手段は、前記境界情報として、前記類似区間の終端の時刻を計算するとしてもよい。
 この構成によると、音声処理装置は、単位区間ごとに類似区間を求める際に、時間軸順方向もしくは時間軸逆方向のいずれか一方のみの境界を求めればよく、計算量が削減される。
 (H)上記実施形態(A)の音声処理装置において、前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶しているモデル記憶手段と、前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成手段とを備え、前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルであるとしてもよい。
 この構成によると、音声処理装置は、サウンド素片を表現する確率モデルに基づいて、尤度ベクトルおよび頻度ベクトルを生成することで、オーディオ信号の各第1単位区間および各第2単位区間にサウンド素片の成分がどの程度含まれているかを尤度ベクトルおよび頻度ベクトルで表現することができる。
 (I)上記実施形態(H)の音声処理装置は、さらに、オーディオ信号の前記第1単位区間における周波数特性を示す特徴量ベクトルを算出する特徴量ベクトル生成手段を備え、前記尤度ベクトル生成手段は、前記特徴量ベクトルおよび前記確率モデルを用いて前記尤度ベクトルを生成するとしてもよい。
 この構成によると、音声処置装置は、オーディオ信号の周波数特性を用いて、シーン変化点を検出することができる。
 (J)本発明の一実施形態の音声処理装置は、入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算手段と、複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、前記境界情報の示す境界の中から、前記オーディオ信号によって表現されるシーンに含まれる第1のシーンの境界と、当該第1のシーンに含まれる第2のシーンの境界とを検出するシーン構造推定手段とを備えることを特徴とする。
 音声処理装置は、オーディオ信号におけるシーンの階層構造を推定するので、ユーザは、推定された階層構造に基づき、所望するシーンを容易に検索することが可能となる。
 本発明に係る音声処理装置および音声処理方法は、音声、家中の音、外出時の音などを含むAVコンテンツなどのオーディオ信号からシーン変化点を検出することにより、ユーザが興味の対象とするシーンを容易に検索したり、興味の対象とするシーンの強調再生(トリック再生やフィルタ処理)などを行うことが可能となり、音声編集装置や動画編集装置などに有用である。
 100 映像視聴装置
 101 入力装置
 102 コンテンツ記憶装置
 103 音声抽出装置
 104 音声処理装置
 105 インデクス記憶装置
 106 出力装置
 107 アンカーモデル作成装置
 108 音声データ蓄積装置
 109 インタフェース装置
 201 特徴量ベクトル生成部
 202 尤度ベクトル生成部
 203 尤度ベクトルバッファ
 204 頻度ベクトル生成部
 205 頻度ベクトルバッファ
 206 区間伸長基準指標計算部
 207,211 境界情報計算部
 208,212 インデクス生成部
 209 アンカーモデル蓄積部
 301 投票部
 302 閾値計算部
 303 境界判定部
 311 境界度計算部
 312 音環境分類部
 401 特徴量ベクトル生成部
 402 特徴量ベクトル分類部
 403 アンカーモデル生成部

Claims (17)

  1.  入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算手段と、
     複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、
     前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定手段と
     を備えることを特徴とする音声処理装置。
  2.  前記判定手段は、前記優先度として、同一の境界を示す境界情報の数を計算する
     ことを特徴とする請求項1記載の音声処理装置。
  3.  前記境界計算手段は、前記境界情報として、さらに、前記類似区間と他の区間との間のオーディオ信号の特徴の変化の度合いを示す変化度を計算し、
     前記判定手段は、前記優先度として、同一の境界を示す境界情報の前記変化度の累積値を計算する
     ことを特徴とする請求項1記載の音声処理装置。
  4.  前記境界計算手段は、前記境界情報として、さらに、前記類似区間と他の区間との間のオーディオ信号の特徴の変化の度合いを示す変化度を計算し、
     前記判定手段は、前記優先度として、同一の境界を示す境界情報の前記変化度の最大値を計算する
     ことを特徴とする請求項1記載の音声処理装置。
  5.  前記境界計算手段は、前記境界情報として、さらに、前記類似区間に含まれる前記単位区間の区間特徴を用いて、当該類似区間の音環境を表現する音環境情報を計算し、
     さらに、前記音環境情報を用いて、前記シーン変化点を分類し、分類結果の分類情報を前記シーン変化点に付与する分類手段
     を備えることを特徴とする請求項4記載の音声処理装置。
  6.  さらに、前記優先度に基づいて、閾値を計算する閾値計算手段を備え、
     前記判定手段は、前記閾値を超える優先度の境界の時刻を前記シーン変化点として検出する
     ことを特徴とする請求項1に記載の音声処理装置。
  7.  前記判定手段は、前記優先度の高い順に、所定数の前記境界を前記シーン変化点として検出する
     ことを特徴とする請求項1に記載の音声処理装置。
  8.  前記判定手段は、前記所定数を前記オーディオ信号の長さに応じて決定する
     ことを特徴とする請求項7に記載の音声処理装置。
  9.  前記境界計算手段は、前記境界情報として、前記類似区間の始端の時刻を計算する
     ことを特徴とする請求項1記載の音声処理装置。
  10.  前記境界計算手段は、前記境界情報として、前記類似区間の終端の時刻を計算する
     ことを特徴とする請求項1記載の音声処理装置。
  11.  前記境界計算手段は、前記オーディオ信号の全単位区間に対して、前記境界情報を計算する
     ことを特徴とする請求項1記載の音声処理装置。
  12.  前記単位区間を第2単位区間とし、前記第2単位区間は、複数の連続する第1単位区間からなり、
     さらに、複数種類のサウンド素片それぞれの特徴を表現する確率モデルをあらかじめ記憶しているモデル記憶手段と、
     前記確率モデルを用いて、前記オーディオ信号の前記サウンド素片それぞれに対する尤度を成分とする尤度ベクトルを、前記第1単位区間ごとに生成する尤度ベクトル生成手段とを備え、
     前記区間特徴は、前記第2単位区間に含まれる複数の第1単位区間の尤度ベクトルを用いて生成され、前記サウンド素片それぞれの出現頻度を示す頻度ベクトルである
     ことを特徴とする請求項1記載の音声処理装置。
  13.  さらに、オーディオ信号の前記第1単位区間における周波数特性を示す特徴量ベクトルを算出する特徴量ベクトル生成手段を備え、
     前記尤度ベクトル生成手段は、前記特徴量ベクトルおよび前記確率モデルを用いて前記尤度ベクトルを生成する
     ことを特徴とする請求項12記載の音声処理装置。
  14.  入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算手段と、
     複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算手段と、
     前記境界情報の示す境界の中から、前記オーディオ信号によって表現されるシーンに含まれる第1のシーンの境界と、当該第1のシーンに含まれる第2のシーンの境界とを検出するシーン構造推定手段と
     を備えることを特徴とする音声処理装置。
  15.  入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算ステップと、
     複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算ステップと、
     前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定ステップと
     を含むことを特徴とする音声処理方法。
  16.  コンピュータ読取可能な非一時的な記録媒体に記録され、オーディオ信号からシーン変化点を検出するシーン変化点検出処理を実行するプログラムであって、
     前記シーン変化点検出処理は、
      入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算ステップと、
      複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算ステップと、
      前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定ステップと
     を含むことを特徴とするプログラム。
  17.  入力されたオーディオ信号の単位区間の特徴を表現する区間特徴を単位区間ごとに計算する特徴計算部と、
     複数の単位区間それぞれに対して、当該単位区間を含む区間特徴の類似する複数の単位区間からなる類似区間と他の区間との境界に関する境界情報を計算する境界計算部と、
     前記境界情報で示される境界それぞれの優先度を計算し、前記優先度に基づいて、前記境界それぞれがシーン変化点であるか否かを判定する判定部と
     を備えることを特徴とする集積回路。
PCT/JP2013/001568 2012-04-20 2013-03-11 音声処理装置、音声処理方法、プログラムおよび集積回路 WO2013157190A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201380001357.5A CN103534755B (zh) 2012-04-20 2013-03-11 声音处理装置、声音处理方法、程序及集成电路
JP2013548126A JP6039577B2 (ja) 2012-04-20 2013-03-11 音声処理装置、音声処理方法、プログラムおよび集積回路
US14/113,481 US8930190B2 (en) 2012-04-20 2013-03-11 Audio processing device, audio processing method, program and integrated circuit

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-096332 2012-04-20
JP2012096332 2012-04-20

Publications (1)

Publication Number Publication Date
WO2013157190A1 true WO2013157190A1 (ja) 2013-10-24

Family

ID=49383165

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/001568 WO2013157190A1 (ja) 2012-04-20 2013-03-11 音声処理装置、音声処理方法、プログラムおよび集積回路

Country Status (4)

Country Link
US (1) US8930190B2 (ja)
JP (1) JP6039577B2 (ja)
CN (1) CN103534755B (ja)
WO (1) WO2013157190A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN104469487B (zh) * 2014-12-31 2019-02-12 优酷网络技术(北京)有限公司 一种场景切换点的检测方法及装置
US10922551B2 (en) 2017-10-06 2021-02-16 The Nielsen Company (Us), Llc Scene frame matching for automatic content recognition
CN109981970B (zh) * 2017-12-28 2021-07-27 深圳市优必选科技有限公司 一种确定拍摄场景的方法、装置和机器人
ES2901638T3 (es) * 2018-05-17 2022-03-23 Fraunhofer Ges Forschung Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo
US11475887B2 (en) * 2018-10-29 2022-10-18 Spotify Ab Systems and methods for aligning lyrics using a neural network
CN110136735B (zh) * 2019-05-13 2021-09-28 腾讯音乐娱乐科技(深圳)有限公司 一种音频修复方法、设备及可读存储介质
EP3944100A1 (en) * 2020-07-20 2022-01-26 Mimi Hearing Technologies GmbH Method of selecting a suitable content for subjective preference judgement
US11144764B1 (en) * 2020-09-30 2021-10-12 Cbs Interactive Inc. Systems, methods, and storage media for selecting video portions for a video synopsis of streaming video content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147697A (ja) * 1999-11-19 2001-05-29 Matsushita Electric Ind Co Ltd 音響データ分析方法及びその装置
WO2008143345A1 (ja) * 2007-05-23 2008-11-27 Nec Corporation コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
WO2011033597A1 (ja) * 2009-09-19 2011-03-24 株式会社 東芝 信号分類装置
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520367A (ja) 1991-07-15 1993-01-29 Hitachi Ltd インデツクス作成方式
EP1073272B1 (en) * 1999-02-15 2011-09-07 Sony Corporation Signal processing method and video/audio processing device
JP2004056739A (ja) 2002-07-24 2004-02-19 Fuji Photo Film Co Ltd ディジタルカメラ
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US8478587B2 (en) * 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147697A (ja) * 1999-11-19 2001-05-29 Matsushita Electric Ind Co Ltd 音響データ分析方法及びその装置
WO2008143345A1 (ja) * 2007-05-23 2008-11-27 Nec Corporation コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
WO2011033597A1 (ja) * 2009-09-19 2011-03-24 株式会社 東芝 信号分類装置
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路

Also Published As

Publication number Publication date
CN103534755B (zh) 2017-03-01
US8930190B2 (en) 2015-01-06
US20140043543A1 (en) 2014-02-13
CN103534755A (zh) 2014-01-22
JP6039577B2 (ja) 2016-12-07
JPWO2013157190A1 (ja) 2015-12-21

Similar Documents

Publication Publication Date Title
WO2013157190A1 (ja) 音声処理装置、音声処理方法、プログラムおよび集積回路
US8948515B2 (en) Method and system for classifying one or more images
US10679063B2 (en) Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
US9436875B2 (en) Method and apparatus for semantic extraction and video remix creation
US10134440B2 (en) Video summarization using audio and visual cues
US8583647B2 (en) Data processing device for automatically classifying a plurality of images into predetermined categories
US9189137B2 (en) Method and system for browsing, searching and sharing of personal video by a non-parametric approach
US8867891B2 (en) Video concept classification using audio-visual grouplets
US9143742B1 (en) Automated aggregation of related media content
US20140245463A1 (en) System and method for accessing multimedia content
US8892497B2 (en) Audio classification by comparison of feature sections and integrated features to known references
US20130089304A1 (en) Video concept classification using video similarity scores
JP6945639B2 (ja) 画像処理方法及び装置
Hoover et al. Putting a face to the voice: Fusing audio and visual signals across a video to determine speakers
JP2011215963A (ja) 電子機器、画像処理方法及びプログラム
JP5723446B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
Moreira et al. Multimodal data fusion for sensitive scene localization
JP5620474B2 (ja) アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム
JP5658285B2 (ja) 興味区間抽出装置、興味区間抽出方法
JP5908924B2 (ja) 音声処理装置、方法、プログラムおよび集積回路
KR101804679B1 (ko) 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법
Hoover et al. Using audio-visual information to understand speaker activity: Tracking active speakers on and off screen
CN115810209A (zh) 一种基于多模态特征融合网络的说话人识别方法和装置
Cricri et al. Multi-sensor fusion for sport genre classification of user generated mobile videos
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2013548126

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14113481

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13778914

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13778914

Country of ref document: EP

Kind code of ref document: A1