WO2013176329A1 - 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 - Google Patents

오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 Download PDF

Info

Publication number
WO2013176329A1
WO2013176329A1 PCT/KR2012/004537 KR2012004537W WO2013176329A1 WO 2013176329 A1 WO2013176329 A1 WO 2013176329A1 KR 2012004537 W KR2012004537 W KR 2012004537W WO 2013176329 A1 WO2013176329 A1 WO 2013176329A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
fingerprint
matching
audio signal
frames
Prior art date
Application number
PCT/KR2012/004537
Other languages
English (en)
French (fr)
Inventor
조훈영
이재형
쉐이커 디르찬드라
Original Assignee
(주)엔써즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엔써즈 filed Critical (주)엔써즈
Priority to US13/639,834 priority Critical patent/US8886635B2/en
Priority to SG2013005004A priority patent/SG187583A1/en
Priority to JP2014516896A priority patent/JP5813221B2/ja
Priority to CN201280002116.8A priority patent/CN103548076B/zh
Priority to EP12844656.4A priority patent/EP2685450B1/en
Publication of WO2013176329A1 publication Critical patent/WO2013176329A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Definitions

  • the present invention relates to an apparatus and method for recognizing content using an audio signal, and more particularly, to an apparatus and method for providing content information that is matched based on a fingerprint of an input audio signal.
  • the technique of recognizing audio or video using a fingerprint uses a method of generating a feature vector of a frame while performing a matching using the same by dividing a given audio or video signal into a frame unit. Because of the large amount of computation, the fingerprint generation and matching takes time and causes a load on resources on the network. In order to solve this problem, it is possible to reduce the amount of fingerprints to be generated or to simplify the matching process.
  • Republic of Korea Patent Publication No. 10-0456408 (published Nov. 10, 2004) relates to "audio gene generation method and audio data retrieval method", comprising: a time division step of dividing an audio signal at regular time intervals; A frequency conversion step of calculating a magnitude of a signal of frequencies included in each time interval or in a plurality of time intervals; Calculating a difference in the magnitude of the signal between adjacent frequency sections by dividing the frequency domain into predetermined sections; A slope calculation step of obtaining a difference of said calculated value between adjacent time intervals; A quantization step of quantizing to 1 when the slope is greater than or equal to 0 when less than 0; Disclosed is an audio gene generating method having an audio gene generating step of generating an audio gene by storing the quantized values.
  • this technique has a limitation in that a large amount of calculation and a complicated fingerprint extraction process incur a load and excessive time to produce a result.
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide an apparatus and method for recognizing a content using an audio signal that can provide results quickly and maintain matching accuracy and reliability.
  • the present invention can provide a quick matching result while maintaining accuracy by dividing an input audio signal into a plurality of frames while variably configuring a frame movement length, which is an interval between starting points of frames, for a section having a large amount of information. It is an object to provide an apparatus and method.
  • the present invention provides a content recognition apparatus using an audio signal, to form a frame having a predetermined frame length for the input audio signal and to generate a frame-specific feature vector for each frame
  • a query fingerprint extracting unit which extracts a query fingerprint by generating the query fingerprint
  • a reference fingerprint database storing a reference fingerprint to be compared with a query fingerprint and content information corresponding to the reference fingerprint
  • a fingerprint matching unit configured to determine a reference fingerprint matched with the query fingerprint, wherein the query fingerprint extracting unit forms a frame while varying a frame movement length, which is an interval between start points of adjacent frames, in a partial section.
  • the frame movement length may be configured to be shorter than the frame length so that adjacent frames overlap each other.
  • the query fingerprint extractor may be configured to form a frame by making the frame movement length in a portion shorter than the preset frame movement length.
  • the query fingerprint extractor may be configured to determine the partial section based on a preset time section.
  • the query fingerprint extractor may be configured to detect a time section having a signal-to-noise ratio higher than a threshold and determine the partial section based on the detected time section.
  • the query fingerprint extractor may be configured to generate a feature vector for each frame for each of the frames corresponding to the determined partial section.
  • the query fingerprint extractor may be further configured to generate a frame-specific feature vector for frames to be included in the determined partial section based on the frame-specific feature vector of the frame corresponding to the start and end positions of the partial section. have.
  • the frame corresponding to the start position of the partial section may be a frame including the start position last, and the frame corresponding to the end position of the partial section may be a frame including the end position for the first time.
  • a frame-specific feature vector of frames corresponding to the start and end positions of the partial section is generated, and the frame-specific feature vector of the frames to be included in the partial section is generated by linear interpolation based on the generated frame-specific vector.
  • the frame-specific feature vectors of the frames corresponding to the start position and the end position of the partial interval are formed in binary numbers, and by comparing the respective bits of the frame-specific feature vectors formed in the binary numbers and arranging binary numbers in different bits. It may be configured to generate a frame-specific feature vector of frames to be included in some sections.
  • the fingerprint matching unit may determine reference fingerprints including a frame feature vector matching any one of the frame feature vectors constituting the query fingerprint, and include the identifiers of the determined reference fingerprints in a matching candidate group.
  • a first matching unit which performs first order matching;
  • a second matching unit configured to perform secondary matching on reference fingerprints corresponding to identifiers included in the matching candidate group.
  • the first matching unit may determine a reference fingerprint including one of the frame feature vectors constituting the query fingerprint and a frame feature vector having a hamming distance of less than or equal to a threshold as a matching reference fingerprint.
  • the first matching unit sequentially compares the frame-specific feature vectors constituting the query fingerprint with the frame-specific feature vectors of the reference fingerprint and sequentially compares the subsequent frames when a matching frame is detected. It may be omitted and configured to perform a comparison for the next reference fingerprint.
  • the second matching unit may reconstruct the frame-specific feature vector by excluding the frames that are not a predetermined frame movement length among the frame-specific feature vectors constituting the query fingerprint, and then reconstruct the feature-specific feature vector with reference fingerprints. You can also make comparisons.
  • the apparatus may further include a recognition result providing unit providing content information corresponding to the reference fingerprint determined by the fingerprint matching unit.
  • the content recognizing apparatus using the audio signal may be included in the client terminal.
  • the reference fingerprint database may be configured to receive and store reference fingerprint and content information from a reference fingerprint server.
  • an interface providing unit for providing a user interface for allowing a user to input an audio signal.
  • the content information corresponding to the reference fingerprint determined by the fingerprint matching unit may be configured to be transmitted to the reference fingerprint server.
  • the query fingerprint extractor extracts a query fingerprint for each section by generating a feature vector for each frame included in the corresponding section on a predetermined interval unit, and the fingerprint matching unit is matched with the query fingerprint.
  • the reference fingerprint may be determined, but the query fingerprint extractor may continuously extract the query fingerprint for each section in units of the preset interval until the reference fingerprint matched by the fingerprint matching unit is determined.
  • the query fingerprint by forming frames having a predetermined frame length for the input audio signal and generating a feature vector for each frame for each frame Extracting the first step; And a second step of determining a reference fingerprint matched with the query fingerprint, wherein the first step includes forming a frame while varying a frame moving length, which is an interval between a starting point of an adjacent frame, in a partial interval.
  • primary matching is performed by determining reference fingerprints matching any one of the frame-specific feature vectors constituting the query fingerprint, and including identifiers of the determined reference fingerprints in a matching candidate group.
  • Step 2-1 And performing a second-to-second matching on reference fingerprints corresponding to the identifiers included in the matching candidate group.
  • the input audio signal is divided into a plurality of frames while the frame movement length, which is the interval between the starting points of the frames, is variably configured for a section having a large amount of information, thereby providing a fast matching result while maintaining accuracy.
  • the present invention uses the frames generated for the variable interval in the first matching, but in the first matching includes the reference fingerprints having frames matched for each frame as a plurality of matching candidate group, and included in the matching candidate group in the second matching
  • the present invention uses the frames generated for the variable interval in the first matching, but in the first matching includes the reference fingerprints having frames matched for each frame as a plurality of matching candidate group, and included in the matching candidate group in the second matching
  • FIG. 1 is a view showing the configuration of an embodiment of a content recognizing apparatus 100 using an audio signal according to the present invention.
  • FIG. 2 is a diagram for describing a method of forming a frame in the query fingerprint extractor 10 and forming a feature vector for each frame.
  • FIG. 3 is a diagram for describing a case in which the frame movement length is changed in a predetermined section.
  • FIG. 4 is a diagram for describing a process of generating a frame fingerprint by an adjacent frame fingerprint.
  • FIG. 5 is a diagram for describing another method of generating a frame fingerprint by an adjacent frame fingerprint.
  • FIG. 6 is a diagram illustrating a configuration of the fingerprint matching unit 30.
  • FIG. 7 is a diagram for describing an operation of the first matching unit 31.
  • FIG. 8 is a view for explaining the connection and arrangement of the content recognizing apparatus 100.
  • FIG. 9 is a flowchart illustrating a content recognition method performed in the content recognizing apparatus 100 according to the present invention.
  • FIG. 1 is a view showing the configuration of an embodiment of a content recognizing apparatus 100 using an audio signal according to the present invention.
  • the content recognizing apparatus 100 (hereinafter, referred to as a content recognizing apparatus) using an audio signal according to the present embodiment includes a query fingerprint extractor 10, a reference fingerprint database 20, and a fingerprint matcher. 30 and a recognition result providing unit 40.
  • the query fingerprint extractor 10 forms a plurality of frames having a predetermined frame length with respect to the input audio signal and generates a feature vector for each frame for each frame. That is, a function of extracting a fingerprint to be compared is performed.
  • the plurality of frames are formed while varying the frame shift size, which is an interval between the start points of adjacent frames, in some intervals.
  • fingerprint refers to feature data representing characteristics of data such as audio data, image data, or moving image data, and may also be referred to as fingerprint data, DNA data, or genetic data.
  • fingerprint data As a technique for extracting such a fingerprint and comparing the data using the same, various methods have been proposed by the prior art, and if such a fingerprint is used, it is possible to easily determine whether or not the data is identical. Recently widely used in the back.
  • a fingerprint is generated using various characteristic data (eg, frequency, amplitude, etc.) representing the characteristic of the audio signal, and in the case of an image or video signal, various characteristic data (eg, The fingerprint may be generated using motion vector information, color information, etc. of the frame.
  • the present invention is not intended for the method of generating such a fingerprint itself, and any form of fingerprint generation / extraction method according to the prior art may be used as it is, and thus the detailed description thereof will be omitted.
  • Korean Patent Application No. 10-2007-0044251 filed by the present applicant (Method and Apparatus for Generating Audio Fingerprint Data and Method and Apparatus for Comparing Audio Data Using the Same), No. 10-2007-0054601 (Determining the Sameness of Video Data Identical section detection method and apparatus), 10-2007-0060978 (method and system for clustering video data among identical video data), 10-2007-0071633 (video data search using video data cluster) Service providing method and apparatus), 10-2007-0091587 (method and apparatus for setting and providing advertisement data using video data cluster), and 10-2008-0051688 (video processing method and apparatus) , A method of generating a fingerprint of image or video data and a method of comparing data using such a fingerprint are described. It said, that such a fingerprint generation and extraction method of the present applicant may be used in the invention. In short, the present invention can use a fingerprint generation / extraction technique known in the art as it is, regardless of how the fingerprint is extracted.
  • FIG. 2 is a diagram for describing a method of forming a frame in the query fingerprint extractor 10 and forming a feature vector for each frame.
  • a frame having a frame length of a predetermined size with respect to an input audio signal is formed with a starting point of the frame spaced apart by a predetermined frame moving length.
  • the horizontal axis of the audio signal may be a time axis. If the frame feature vector for each frame T n is F (T 1 ), then the final fingerprint for a given audio signal can be viewed as a set of these frame feature vectors, as shown at the bottom of FIG. T 1 ), F (T 2 ), F (T 3 ), ...., F (T n-1 ), F (T n )). In this case, the frame feature vectors may be finally generated as a binary vector in binary form.
  • the present invention is characterized in that the frame movement length is changed for a predetermined section of the audio signal.
  • FIG. 3 is a diagram illustrating a case in which the frame movement length is changed in a predetermined section.
  • the frame movement length is changed from a preset frame movement length in a certain section A through B of the audio signal. It can be seen that it is shortened.
  • the frame is formed by moving the starting point of the frame by the preset frame moving length in units of the preset frame size from the initial position of the audio signal, and the predetermined starting point of the frame is changed by shortening the predetermined frame moving length for a specific section. While moving, form a frame and extract the feature vector for each frame with respect to the formed frame.
  • the frame movement length is shorter than the preset movement length, but the movement length may be longer than the preset movement length. In this way, the movement length of the frame is changed in some sections in order to generate more or less frames in consideration of this point in particular sections of the audio signal often contain more or less information than other sections.
  • a fingerprint including more information can be generated by increasing the number of generated frames.
  • the analysis can be performed more loosely on the corresponding section. For this, the number of frames generated can be reduced.
  • Increasing the number of frames i.e., shortening the moving length of the frame increases the number of feature vectors per frame, which is very useful for fast matching N candidate groups in the fingerprint matching unit, particularly the primary matching unit, as described below. Can be used. This point will be described later with reference to the matching unit 30.
  • the frame movement length is preferably formed such that frames adjacent to each other overlap each other based on the time axis of the audio signal, which means that the frame movement length is shorter than the frame length.
  • the present invention is also applicable when the frame moving length is equal to or larger than the frame length.
  • the length of the frame movement is changed or shortened can be determined based on the following criteria.
  • a specific time interval can be set and the frame movement length can be shortened for this time interval.
  • the preset frame movement length may be set to 20 ms, and the frame movement length may be 5 ms for a section from the start point of the audio signal for 2 seconds and from the end point to 2 seconds before.
  • an intermediate section of the audio signal for example, 2 seconds to 4 seconds may be set as a section for shortening the frame moving length.
  • a method of designating a front and rear section including an intermediate value of the entire time of the audio signal may be used.
  • the frame is moved while the frame is moved to the corresponding time interval by the preset frame movement length, and when the time interval is reached, the starting point is shortened by the shorter frame movement length. While forming a frame.
  • the process of forming a frame and generating a feature vector for each frame is repeated while moving the starting point of the frame by the length of the frame movement.
  • the signal to noise ratio may be used to determine a section for varying the frame movement length. Since the section with the high signal-to-noise ratio can be considered to contain more information, the signal-to-noise ratio is calculated in advance for the audio signal in units of time intervals, the time interval with the signal-to-noise ratio higher than the threshold is determined, and the frame moves for the time interval You can also make it shorter. Calculating the signal-to-noise ratio itself is well known by the prior art, so the detailed description is omitted.
  • the query fingerprint extractor 10 generates a query fingerprint for the input audio signal by generating a frame-specific feature vector for each frame while forming frames.
  • the specific process of generating the feature vector for each frame may use the conventional technology as it is.
  • the following method can be used.
  • FFT fast Fourier transform
  • N filters the power spectrum or magnitude spectrum is calculated from the N filters.
  • FFT fast Fourier transform
  • one filter plays a role of extracting only signal components within a specific frequency range.
  • the energy value is calculated by a conventional signal processing method for the signal components extracted from each filter, N-th order filter bank energy is generated. This value can be used as a feature vector for each frame.
  • the query fingerprint extractor 10 may use a method of using a surrounding frame fingerprint instead of directly generating a frame-by-frame fingerprint for the frames to be included in the section for shortening the frame moving length.
  • frames belonging to sections A to B that is, frames belonging to a section in which a moving section for each frame is shortened, for example, are ten
  • these ten frame feature vectors are linearly interpolated by an adjacent frame fingerprint. Can be generated by linear interpolation.
  • FIG. 4 is a diagram for describing a process of generating a frame fingerprint by an adjacent frame fingerprint.
  • the A to B sections of the audio signal are sections in which the length of the frame movement is shortened, L frames are formed therebetween, and a feature vector for each frame needs to be generated for each frame.
  • the frame feature vector for the L frames calculates the frame feature vector for the previous frame including the start position of the A-B section and the next frame including the end position of the A-B section for the first time.
  • T n , T n + L Based on these values, linear interpolation can be applied to generate frame feature vectors for L frames, respectively. For example, if the value of Tn is 1, the value of Tn + L is 10, and 8 frames are included, the value of the feature vector of each frame is 2,3,4,5,6,7,8, by linear interpolation. It can be determined by 9.
  • FIG. 5 is a diagram for describing another method of generating a frame fingerprint by an adjacent frame fingerprint.
  • the method of FIG. 5 is similar to the method of FIG. 4 but is characterized by generating a feature vector for frames to be included in a section having a shorter moving length by bit comparison.
  • the frame feature vector can be finally generated in binary form by the method described above. By comparing the frame feature vector of adjacent frames bit by bit to find the non-matching bits, the binary number where possible for these bits.
  • bit flipping feature vectors for frames to be included between A and B sections may be generated. For example, if the number of bits is different from each other, 2 R frame feature vectors may be generated, and thus 2 R frames may be inserted in the A to B intervals. In this case, the frame movement length in the period A to B is determined by R.
  • the reference fingerprint database 20 stores a reference fingerprint to be compared with the query fingerprint and content information corresponding to the reference fingerprint. That is, fingerprints that are a reference to be compared with a query fingerprint and content information thereof are stored, and as described above, when the query fingerprint is extracted by the query fingerprint extractor 10, the fingerprint matching described later will be described.
  • the unit 30 compares the query fingerprint with the reference fingerprints stored in the reference fingerprint database 20 to determine a matching reference fingerprint.
  • the content information includes an identifier (ID) of the content and may include a name, copyright holder, length, image quality information, file name, description data, and the like of the content.
  • ID identifier
  • the reference fingerprint database 20 may be configured to receive the reference fingerprint and the content information from an external separate reference fingerprint server through a network.
  • the fingerprint matching unit 30 determines a reference fingerprint matched to the query fingerprint.
  • the query fingerprint is extracted from the query fingerprint extractor 10, and the fingerprint matching unit 30 compares the query fingerprint with the reference fingerprint stored in the reference fingerprint database 20 to match. A reference fingerprint is determined.
  • FIG. 6 is a diagram illustrating a configuration of the fingerprint matching unit 30.
  • the fingerprint matching unit 30 includes a primary matching unit 31 and a secondary matching unit 32.
  • the first matching unit 31 first selects reference fingerprints matching the query fingerprint, for example, in an N-Best manner, to configure a plurality of matching candidate groups first, and the second matching unit 32 includes a reference fingerprint included in the matching candidate group. By performing a precise analysis on the target, more accurate matching results are provided.
  • the first matching unit 31 may use a method of determining whether there is at least one fingerprint matched in units of frames in order to select a plurality of matching candidate groups.
  • FIG. 7 is a diagram for describing an operation of the first matching unit 31.
  • a reference fingerprint to be compared with a query fingerprint is selected from the reference fingerprint database 20, and a feature-by-frame feature vector of the i-th frame of the query fingerprint and the j-th frame of the selected reference fingerprint is compared. For example, it is determined whether the Hamming Distance is equal to or less than a preset threshold (S100, S110, S120).
  • the i th frame of the query fingerprint and the j th frame of the selected reference fingerprint may be sequentially selected from the first frame. That is, the Hamming distance is determined by sequentially increasing i and j from the first frame of the query fingerprint and the selected reference fingerprint.
  • the reference fingerprint is added to the matching candidate group (S130), and the comparison of the remaining frames of the reference fingerprint is skipped and the next reference fingerprint is selected to repeat the process as shown in FIG.
  • the reference fingerprint is immediately added to the matching candidate group and the reference fingerprint By omitting the comparison of the remaining frames, it is possible to determine N matching candidate groups at high speed.
  • This method may be less accurate because it compares the feature vectors for each frame, but as described above, in the section in which the frame length is shortened by the query fingerprint extractor 10, more frames are generated so that the accuracy can be maintained as much as possible. Will be.
  • adding a matching reference fingerprint to the matching candidate group means including an identifier (ID) of the corresponding reference fingerprint in the matching candidate group.
  • the above-described method has been described as a method of comparing the frames sequentially from the first frame as an example, but it is not necessary to use such a method, and it is possible to use a method of randomly selecting a frame or a method of selecting a middle frame and moving back and forth. It may be. Importantly, if any one of the matching frames is found in the frame-by-frame comparison, the corresponding reference fingerprint is skipped for the remaining frames, thereby enabling fast matching while maintaining accuracy.
  • the second matching unit 32 performs secondary matching on the reference fingerprints and the query fingerprints included in the matching candidate group.
  • the second matching unit 32 compares the reference fingerprints corresponding to the identifiers of the reference fingerprints included in the matching candidate group determined by the first matching unit 31 with the query fingerprint to obtain a final matching result. Perform the function to create.
  • the matching method used by the second matching unit 32 to perform the second matching is to obtain a more accurate result than the first matching performed by the first matching unit 31.
  • the query fingerprint extraction is performed as described above.
  • quadratic matching is performed except for feature vectors of frames generated by varying (shortening) the frame movement length.
  • the final matching result is calculated by reconstructing the query fingerprint only with feature vectors of frames having a predetermined frame movement length and comparing the result with the reference fingerprints included in the matching candidate group.
  • the matching method performed by the second matching unit 32 may use any conventionally known method, and this method itself is not a direct object of the present invention, and thus a detailed description thereof will be omitted.
  • the recognition result providing unit 40 will be described with reference to FIG. 1 again.
  • the recognition result providing unit 40 performs a function of providing content information corresponding to the reference fingerprint finally determined by the fingerprint matching unit 30 through the above-described process.
  • the content information may include various information such as a content identifier, a content name, a copyright holder, a content length, and quality information corresponding to a reference fingerprint determined to be matched as described above. It is stored at 20.
  • FIG. 8 is a view for explaining the connection and arrangement of the content recognizing apparatus 100.
  • the content recognizing apparatus 100 may be provided in the client terminal 300, and the client terminal 300 may be connected to the reference fingerprint server 200 through a network such as the Internet or a mobile communication network.
  • the client terminal 300 may be a computer or a mobile communication terminal such as, for example, a smartphone.
  • the reference fingerprint server 200 may include a fingerprint generator 210 and a fingerprint database 220 for each content group.
  • the fingerprint generation unit 210 performs a function of generating a fingerprint for all audio signals that are the targets of fingerprint generation, and the fingerprints generated by the content group together with the content information corresponding to each fingerprint. It is stored in the fingerprint database 220.
  • the fingerprint database 220 for each content group groups and stores the fingerprints and the content information generated by the fingerprint generator 210 in groups. Storing by group may use various criteria, such as grouping corresponding to specific contents. For example, all fingerprints and content information corresponding to the song "AAA" may be grouped.
  • the grouping may be performed by setting by the administrator of the reference fingerprint server 200 for each content.
  • the reference fingerprint server 200 constructs a grouped fingerprint database and transmits the grouped fingerprint database to the client terminal 300 side, and the reference fingerprint database in the content recognizing apparatus 100 of the client terminal 300. 20 will be received and stored.
  • the recognition result is provided to the user through the recognition result providing unit 40 and the result is transmitted to the reference fingerprint server 200.
  • the reference fingerprint server 200 may determine whether a specific user actually hears and recognizes an audio signal for the grouped content for each grouped content. Therefore, when applied to the advertising method, the specific users to recognize the specific content and the result can be aggregated on the server side has the advantage that it can be useful for advertising effects or events.
  • the content recognizing apparatus 100 may further include an interface provider (not shown).
  • the interface provider performs a function of providing a user interface that allows a user to input an audio signal while providing a recognition result to the user.
  • an audio signal recognition start button may be provided through a user interface so that when the user clicks the button, the audio signal may be acquired by a voice input means such as a microphone for a predetermined time.
  • content information may be provided to the user in the form of, for example, "a recognized audio signal is a song called bbb of singer aaa.”
  • the query fingerprint extractor 10 extracts an input audio signal for each frame with respect to a plurality of frames configured by a predetermined frame length and a frame movement length.
  • the query fingerprint is extracted by generating.
  • a predetermined time interval is set, the query fingerprint is extracted in the time interval unit, and the matching is performed. If the matching fails within the interval, the extraction and matching is performed while increasing the time interval. You can also proceed.
  • the input audio signal may be divided into N 1 , N 2 , and N 3 .. N K intervals.
  • N is much larger than the frame length described above.
  • the query fingerprint extraction and matching as described above can be performed first in the section of N 1 for this time section. If the matching fails, the query fingerprint extraction and matching can be performed in the next section N 2 . If the matching is successful while the matching is successful, the process is terminated. If the matching is not successful, the query fingerprint extraction and matching are repeated as described above with respect to the frames of the corresponding interval while continuously moving to the next interval.
  • the size of each time interval is the same, but may be different.
  • the query fingerprint extracted from N 1 may be used together when performing the query fingerprint extraction and matching in the interval of N 2 .
  • FIG. 9 is a flowchart illustrating a content recognition method performed in the content recognizing apparatus 100 according to the present invention described with reference to FIGS. 1 to 8.
  • the query fingerprint extractor 10 extracts a query fingerprint in the same manner as described above (S1000).
  • the first matching unit 21 of the fingerprint matching unit 20 preferentially performs the first matching (S1100).
  • the first matching unit 21 determines the N matching candidate groups as described above.
  • the second matching unit 22 of the fingerprint matching unit 20 performs secondary matching on reference fingerprints included in the matching candidate group (S1200) and generates a final matching result as a recognition result (S1300). ).
  • the present invention can be applied to the video signal as it is. This is because the video signal differs only from the method of generating the feature vector when compared to the audio signal, and the methods of configuring the frame can be applied to the video signal.
  • the content recognizing apparatus 100 is described as being integrally included in the client terminal 300, but each component of the content recognizing apparatus 100 may be distributed and disposed on a network.
  • each component of the content recognizing apparatus 100 may be distributed and disposed on a network.
  • the query fingerprint extractor 10 and the interface provider may be included in the client terminal 300, and other components may be distributed and arranged as independent servers on the network.
  • the reference fingerprint database and the fingerprint matching unit may be arranged in separate servers, or only these two elements may be bundled and arranged in one server. In addition, these two elements may be disposed in the reference fingerprint server 200.
  • the content recognizing apparatus 100 may be physically configured as one device or within one device, but may be distributed and arranged on a network.

Abstract

본 발명은 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법에 관한 것으로서, 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 쿼리 핑거프린트 추출부; 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 레퍼런스 핑거프린트 데이터베이스; 및 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 핑거프린트 매칭부를 포함하되, 상기 쿼리 핑거프린트 추출부는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공한다. 본 발명에 의하면, 신속하게 결과를 제공하면서도 매칭의 정확성 및 신뢰도를 유지할 수 있는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공할 수 있다.

Description

오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
본 발명은 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법에 관한 것으로서, 보다 상세하게는 입력되는 오디오 신호의 핑거프린트에 기초하여 매칭되는 콘텐츠 정보를 제공할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.
네트워크 및 인터넷 기술의 발달과 스마트폰과 같은 이동 통신 단말기의 급속한 보급에 따라 오디오나 비디오를 이용한 다양한 서비스가 네트워크를 통해 제공되고 있다. 또한, 이와 함께 오디오나 비디오에 대해 동일성 여부를 판별하기 위한 방법으로서 핑거프린트를 이용하는 방법 또한 널리 사용되고 있으며 핑거프린트를 이용하여 네트워크를 통해 다양한 오디오나 비디오를 인식하는 기술들도 제안되고 있다.
핑거프린트를 이용하여 오디오나 비디오를 인식하는 기술은 주어진 오디오 또는 비디오 신호를 프레임 단위로 분할하면서 프레임의 특징 벡터를 생성하여 이들을 이용하여 매칭을 수행하는 방법을 사용하는데 종래의 핑거프린트 생성 및 매칭 방법은 연산량이 방대하여 핑거프린트 생성 및 매칭에 시간이 소요되며 네트워크 상의 자원에 부하를 야기시킨다는 문제점이 있다. 이를 해소하기 위하여 생성하는 핑거프린트의 양을 줄이거나 매칭 과정을 단순화할 수는 있으나 이러한 경우에는 매칭의 정확성이 저하된다는 문제점이 발생하게 된다.
대한민국 등록특허공보 제10-0456408호(2004.11.10. 공개)는 "오디오유전자 생성 방법 및 오디오 데이터 검색 방법"에 관한 것으로서, 오디오 신호를 일정한 시간 간격으로 분할하는 시간분할단계와; 시간 간격마다 또는 다수의 시간간격에 포함되는 주파수들의 신호의 크기를 계산하는 주파수변환단계와; 주파수 영역을 일정구간으로 분할하여 인접 주파수구간 사이의 신호의 크기의 차를 계산하는 차계산단계와; 인접 시간간격 사이의 상기 계산값의 차를 구하는 기울기 계산단계와; 상기 기울기가 0 이상인 경우 1로, 0 미만인 경우 0으로 양자화하는 양자화단계와; 상기 양자화된 값들을 저장하여 오디오유전자를 생성하는 오디오유전자 생성단계를 갖는 오디오유전자 생성방법에 대하여 개시하고 있다.
그러나 이러한 기술은 연산량이 방대하고 핑거프린트 추출 과정이 복잡하여 부하를 유발하는 동시에 결과 산출시까지의 시간이 과도하게 소요된다는 한계점을 가지고 있다.
따라서, 부하를 유발하지 않고 빠른 시간내에 정확한 결과를 제공할 수 있는 핑거프린트 추출 및 매칭 방법의 개발이 요망된다고 할 수 있다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 신속하게 결과를 제공하면서도 매칭의 정확성 및 신뢰도를 유지할 수 있는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공하는 것을 목적으로 한다.
특히 본 발명은 입력되는 오디오 신호를 복수개의 프레임으로 분할하면서 프레임들의 시작점 사이의 간격인 프레임 이동 길이를 많은 정보량을 가지고 있는 구간에 대해서 가변적으로 구성함으로서 정확성을 유지하면서도 신속한 매칭 결과를 제공할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 바와 같은 목적을 달성하기 위하여 본 발명은, 오디오 신호를 이용한 콘텐츠 인식 장치에 있어서, 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 쿼리 핑거프린트 추출부; 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 레퍼런스 핑거프린트 데이터베이스; 및 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 핑거프린트 매칭부를 포함하되, 상기 쿼리 핑거프린트 추출부는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치를 제공한다.
여기에서, 상기 프레임 이동 길이는, 인접 프레임들이 서로 겹치도록 프레임 길이보다 짧도록 구성할 수 있다.
또한, 상기 쿼리 핑거프린트 추출부는, 일부 구간에서의 프레임 이동 길이를 미리 설정된 프레임 이동 길이보다 짧게 하여 프레임을 형성하도록 구성할 수도 있다.
또한, 상기 쿼리 핑거프린트 추출부는, 미리 설정된 시간 구간에 기초하여 상기 일부 구간을 결정하도록 구성할 수도 있다.
또한 상기 쿼리 핑거프린트 추출부는, 신호대잡음비가 임계치보다 높은 값을 갖는 시간 구간을 검출하고 검출된 시간 구간에 기초하여 상기 일부 구간을 결정하도록 구성할 수도 있다.
또한, 상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 해당하는 프레임들 각각에 대하여 프레임별 특징 벡터를 생성하도록 구성할 수도 있다.
또한, 상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 포함될 프레임들에 대한 프레임별 특징 벡터를, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임의 프레임별 특징 벡터에 기초하여 생성하도록 할 수도 있다.
또한, 상기 일부 구간의 시작 위치에 상응하는 프레임은 상기 시작 위치를 마지막으로 포함하는 프레임이고, 상기 일부 구간의 종료 위치에 상응하는 프레임은 상기 종료 위치를 처음으로 포함하는 프레임일 수 있다.
또한, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터를 생성하고, 생성된 프레임별 특징 벡터에 기초하여 선형 내삽법에 의해 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하도록 구성할 수 있다.
또한, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터는 이진수로 형성되고, 상기 이진수로 형성된 프레임별 특징 벡터의 각각의 비트를 비교하여 상이한 비트들에 가능한 이진수를 배열함으로써 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하도록 구성할 수도 있다.
또한, 상기 핑거프린트 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제1 매칭부; 및 상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2 매칭부를 포함하도록 구성할 수도 있다.
또한, 상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 해밍 거리가 임계치 이하인 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트를 매칭되는 레퍼런스 핑거프린트로 판별하도록 할 수도 있다.
또한, 상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터를 순차적으로 레퍼런스 핑거프린트의 프레임별 특징 벡터들과 순차적으로 비교하면서 매칭되는 프레임이 검출된 경우 이후의 프레임에 대한 비교를 생략하고 다음 레퍼런스 핑거프린트에 대한 비교를 수행하도록 구성할 수도 있다.
또한, 제2 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터들 중에서 미리 설정된 프레임 이동 길이가 아닌 프레임들을 제외하여 프레임별 특징 벡터를 재구성하고 재구성된 프레임별 특징 벡터를 레퍼런스 핑거프린트들과 비교하도록 할 수도 있다.
또한, 상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보를 제공하는 인식 결과 제공부를 더 포함하도록 구성할 수도 있다.
또한, 상기 오디오 신호를 이용한 콘텐츠 인식 장치는 클라이언트 단말기 내에 포함될 수 있다.
또한, 상기 레퍼런스 핑거프린트 데이터베이스는 레퍼런스 핑거프린트 서버로부터 레퍼런스 핑거프린트 및 콘텐츠 정보를 수신하여 저장하도록 구성할 수도 있다.
또한, 사용자가 오디오 신호를 입력할 수 있도록 하는 사용자 인터페이스를 제공하는 인터페이스 제공부를 더 포함하도록 구성할 수도 있다.
또한, 상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보는 상기 레퍼런스 핑거프린트 서버로 전송되도록 구성할 수도 있다.
또한, 상기 쿼리 핑거프린트 추출부는 미리 설정된 구간 단위로 해당 구간에 포함되는 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 구간별 쿼리 핑거프린트를 추출하고, 상기 핑거프린트 매칭부는 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하되, 상기 핑거프린트 매칭부에서 매칭되는 레퍼런스 핑거프린트가 판별될 때까지 쿼리 핑거프린트 추출부가 상기 미리 설정된 구간 단위로 구간별 쿼리 핑거프린트를 연속적으로 추출하도록 구성할 수도 있다.
본 발명의 다른 측면에 의하면, 오디오 신호를 이용한 콘텐츠 인식 방법에 있어서, 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 제1 단계; 및 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 제2 단계를 포함하되, 상기 제1 단계는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 방법을 제공한다.
여기에서, 상기 제2 단계는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제2-1 단계; 및 상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2-2 단계를 포함하도록 구성할 수 있다.
본 발명에 의하면, 신속하게 결과를 제공하면서도 매칭의 정확성 및 신뢰도를 유지할 수 있는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공할 수 있다.
본 발명에 의하면, 입력되는 오디오 신호를 복수개의 프레임으로 분할하면서 프레임들의 시작점 사이의 간격인 프레임 이동 길이를 많은 정보량을 가지고 있는 구간에 대해서 가변적으로 구성함으로서 정확성을 유지하면서도 신속한 매칭 결과를 제공할 수 있다.
또한 본 발명은 가변적 구간에 대해 생성되는 프레임들을 1차 매칭에 사용하되 1차 매칭에서는 프레임별로 매칭되는 프레임들을 갖는 레퍼런스 핑거프린트들을 복수개의 매칭 후보군으로 포함시키고, 2차 매칭에서 매칭 후보군에 포함된 레퍼런스들에 대해 정밀 비교를 수행하는 2단계의 매칭 방법을 사용하므로 신속성과 정확성을 갖는 콘텐츠 인식 장치 및 방법을 제공할 수 있다.
도 1은 본 발명에 의한 오디오 신호를 이용한 콘텐츠 인식 장치(100)의 일실시예의 구성을 나타낸 도면이다.
도 2는 쿼리 핑거프린트 추출부(10)에서 프레임을 형성하고 프레임별로 특징 벡터를 형성하는 방법을 설명하기 위한 도면이다.
도 3은 프레임 이동 길이를 일정 구간에서 변동시키는 경우를 설명하기 위한 도면이다.
도 4는 인접 프레임 핑거프린트에 의해 프레임 핑거프린트를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 인접 프레임 핑거프린트에 의해 프레임 핑거프린트를 생성하는 또 다른 방법을 설명하기 위한 도면이다.
도 6은 핑거프린트 매칭부(30)의 구성을 나타낸 도면이다.
도 7은 제1 매칭부(31)의 동작을 설명하기 위한 도면이다.
도 8은 콘텐츠 인식 장치(100)의 연결 및 배치 상태를 설명하기 위한 도면이다.
도 9는 본 발명에 의한 콘텐츠 인식 장치(100)에서 수행되는 콘텐츠 인식 방법을 나타낸 흐름도이다.
이하, 첨부 도면을 참조하여 본 발명에 의한 실시예를 상세하게 설명하기로 한다.
도 1은 본 발명에 의한 오디오 신호를 이용한 콘텐츠 인식 장치(100)의 일실시예의 구성을 나타낸 도면이다.
도 1을 참조하면, 본 실시예에 의한 오디오 신호를 이용한 콘텐츠 인식 장치(100, 이하 콘텐츠 인식 장치라 한다)는 쿼리 핑거프린트 추출부(10), 레퍼런스 핑거프린트 데이터베이스(20), 핑거프린트 매칭부(30) 및 인식 결과 제공부(40)를 포함한다.
쿼리 핑거프린트 추출부(10)는 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이(frame length)를 갖는 복수개의 프레임을 형성하고 각각의 프레임별로 프레임별 특징 벡터(feature vector)를 생성함으로써 쿼리(query) 즉, 비교 대상이 되는 핑거프린트(fingerprint)를 추출하는 기능을 수행한다. 여기에서 복수개의 프레임들은 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이(shift size)를 일부 구간에서 변동시키면서 형성된다.
한편, 여기에서 핑거프린트(fingerprint)라 함은, 오디오 데이터, 이미지 데이터 또는 동영상 데이터 등과 같은 데이터의 특징을 나타내는 특징 데이터를 의미하는 것으로서, 지문 데이터, DNA 데이터 또는 유전자 데이터라고도 한다. 이러한 핑거프린트를 추출하고 이를 이용하여 데이터를 비교하는 기술로서는, 종래 기술에 의하여 여러 가지 방식이 제안되어 있으며, 이러한 핑거프린트를 활용하면 데이터의 동일성 여부를 쉽게 판별할 수 있으므로 저작권 관리(DRM) 분야 등에서 최근 폭넓게 사용되고 있다.
예컨대, 오디오 신호인 경우 오디오 신호의 특징을 나타내는 각종 특징 데이터(예컨대, 주파수, 진폭 등)를 이용하여 핑거프린트를 생성하며, 이미지나 동영상 신호인 경우 이미지나 동영상 신호의 여러 가지 특징 데이터(예컨대, 프레임의 모션 벡터 정보, 색상 정보 등)를 이용하여 핑거프린트를 생성할 수 있다. 본 발명은 이러한 핑거프린트를 생성하는 방법 자체를 목적으로 하는 것은 아니며 종래의 기술에 의한 어떠한 형태의 핑거프린트 생성/추출 방법을 그대로 사용할 수 있으므로 이에 대해서는 상세한 설명은 생략한다.
본 출원인이 출원한 대한민국 특허출원번호 제10-2007-0044251호(오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 및 장치), 제10-2007-0054601호(동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및 장치), 제10-2007-0060978호(동영상 데이터들을 서로 동일성이 있는 동영상 데이터들끼리 클러스터링하는 방법 및 시스템), 제10-2007-0071633호(동영상 데이터 클러스터를 이용한 동영상 데이터 검색 서비스 제공 방법 및 장치), 제10-2007-0091587호(동영상 데이터 클러스터를 이용한 광고 데이터 설정 및 제공 방법 및 장치), 및 제10-2008-0051688호(동영상 처리 방법 및 그 장치)에 의하면, 오디오, 이미지 또는 비디오 데이터의 핑거프린트를 생성하는 방법과 이러한 핑거프린트를 이용하여 데이터를 비교하는 방법에 대해서 기재되어 있으며, 이러한 본 출원인의 핑거프린트 생성 및 추출 방법을 본 발명에 사용할 수도 있음은 물론이다. 요컨대, 본 발명은 핑거프린트를 추출하는 방식이 어떠한 것인가에 관계 없이 종래 알려져 있는 핑거프린트 생성/추출 기술을 그대로 사용할 수 있다.
도 2는 쿼리 핑거프린트 추출부(10)에서 프레임을 형성하고 프레임별로 특징 벡터를 형성하는 방법을 설명하기 위한 도면이다.
도 2를 참조하면, 입력되는 오디오 신호에 대해서 소정 크기의 프레임 길이를 갖는 프레임을 소정의 프레임 이동 길이만큼 프레임의 시작점이 간격을 두면서 형성하고 있음을 알 수 있다. 오디오 신호의 가로축은 시간(time) 축일 수 있다. 각각의 프레임(Tn)에 대한 프레임 특징 벡터를 F(T1)이라고 하면 주어진 오디오 신호에 대한 최종 핑거프린트는 도 2의 하단에 나타낸 바와 같이 이들 프레임 특징 벡터들의 집합으로 볼 수 있다(F(T1),F(T2),F(T3),....,F(Tn-1),F(Tn)). 이 때 프레임 특징 벡터들은 최종적으로 이진수 형태의 바이너리 벡터(binary vector)로 생성될 수 있다. 여기에서 본 발명은 프레임 이동 길이를 오디오 신호의 일정 구간에 대해서 변동시키는 것을 일특징으로 한다.
도 3은 프레임 이동 길이를 일정 구간에서 변동시키는 경우를 설명하기 위한 도면으로서, 도 3을 참조하면, 오디오 신호의 일정 구간(A~B)에서 프레임 이동 길이가 미리 설정된 프레임 이동 길이보다 변동 즉, 단축되어 있음을 알 수 있다.
즉, 오디오 신호의 처음 위치에서부터 미리 설정된 프레임 크기 단위로 미리 설정된 프레임 이동 길이만큼 프레임의 시작점을 이동하면서 프레임을 형성하다가 특정 구간에 대해서는 미리 설정되어 있던 프레임 이동 길이를 변동 즉, 단축시켜서 프레임의 시작점을 이동시키면서 프레임을 형성하고 형성된 프레임에 대해서 프레임별 특징 벡터를 추출한다.
도 3에서 프레임 이동 길이는 미리 설정된 이동 길이보다 짧아지는 것으로 나타내었으나 이동 길이는 미리 설정된 이동 길이보다 길어기도록 할 수도 있다. 이와 같이 프레임의 이동 길이를 일부 구간에서 변동시키는 것은 오디오 신호의 특정 구간은 다른 구간에 비하여 보다 많거나 적은 정보량을 포함하는 경우가 많은데 이러한 점을 고려하여 프레임들을 보다 많이 또는 적게 생성하기 위함이다.
예컨대 특정 구간이 다른 구간에 비하여 많은 정보를 포함한다면 해당 구간에 대해서는 보다 상세한 분석이 필요할 것이고 이를 위해서는 생성되는 프레임의 갯수를 증가시키면 보다 많은 정보를 포함하는 핑거프린트를 생성할 수 있게 된다. 한편 특정 구간의 정보가 적은 경우라면 해당 구간에 대해서는 보다 느슨하게 분석을 수행할 수 있는데 이를 위해서 생성되는 프레임의 갯수를 감소시킬 수 있게 된다.
프레임의 갯수를 증가시키게 되면 즉, 프레임의 이동 길이를 짧게 하면 프레임별 특징 벡터의 갯수가 늘어나게 되므로 후술하는 바와 같이 핑거프린트 매칭부 특히 1차 매칭부에서 N개의 후보군을 고속으로 매칭하는데 매우 유용하게 사용될 수 있다. 이 점에 대해 상세한 것은 매칭부(30)를 참조하여 후술한다.
한편, 프레임 이동 길이는 도 2 및 도 3에 나타낸 바와 같이 서로 인접하는 프레임들이 오디오 신호의 시간 축을 기준으로 서로 겹치도록 형성되는 것이 바람직한데 이는 결국 프레임 이동 길이를 프레임 길이보다 짧게 한다는 것을 의미한다. 물론, 프레임 이동 길이를 프레임 길이와 같게 하거나 더 크게 하는 경우에도 본 발명은 적용 가능하다.
한편, 프레임 이동 길이를 오디오 신호의 어떠한 구간에 대해서 변동 예컨대 짧게 할 것인가는 예컨대 다음과 같은 기준에 의하여 결정할 수 있다.
우선, 특정 시간 구간을 설정하고 이 시간 구간에 대해서 프레임 이동 길이를 짧게 하도록 할 수 있다. 예컨대, 미리 설정되는 프레임 이동 길이를 20ms라고 설정하고, 오디오 신호의 시작점부터 2초간, 종료점부터 2초 이전까지의 구간에 대해서는 프레임 이동 길이를 5ms로 할 수 있다. 다른 방법으로는 오디오 신호의 중간 구간 예컨대 2초~4초 사이를 프레임 이동 길이를 짧게 할 구간으로 설정할 수 있다. 이와 같이 시간 구간을 지정하는 방식 이외에 오디오 신호의 전체 시간의 중간값을 포함하여 전후 구간을 지정하는 등의 방식을 사용할 수도 있다.
또한, 사용자로부터 프레임 이동 길이를 짧게 할 구간을 입력받아서 설정하는 방법도 가능하다.
이와 같이 시간 구간이 설정되면 해당 시간 구간까지 프레임을 미리 설정된 프레임 이동 길이만큼 이동하면서 프레임을 형성하다가 설정된 시간 구간에 도달하는 경우 그 시점부터는 프레임 이동 길이를 짧게 하여 시작점을 단축된 프레임 이동 길이만큼 이동하면서 프레임을 형성한다. 설정된 시간 구간이 종료되면 다시 원래 설정되었던 프레임 이동 길이만큼씩 프레임의 시작점을 이동시키면서 프레임을 형성하고 프레임별 특징 벡터를 생성하는 과정을 반복한다.
한편, 프레임 이동 길이를 변동시킬 구간을 결정하는 것은 신호대잡음비(S/N ratio)를 이용할 수도 있다. 신호대잡음비가 높은 구간은 보다 많은 정보량을 포함하는 것으로 볼 수 있으므로 오디오 신호에 대해 미리 일정 시간 구간 단위로 신호대잡음비를 계산하고 임계치보다 높은 신호대잡음비를 갖는 시간 구간을 결정하고 해당 시간 구간에 대해서 프레임 이동 길이를 짧게 하도록 할 수도 있다. 신호대잡음비를 계산하는 것 자체는 종래 기술에 의해 널리 알려져 있으므로 상세 설명은 생략한다.
이러한 과정을 통해 쿼리 핑거프린트 추출부(10)는 프레임들을 형성하면서 각각의 프레임들에 대해 프레임별 특징 벡터를 생성함으로써 입력 오디오 신호에 대한 쿼리 핑거프린트를 생성하게 된다. 여기에서 프레임별로 특징 벡터를 생성하는 구체적인 과정은 종래의 기술을 그대로 이용할 수 있다.
예컨대, 다음과 같은 방법을 사용할 수 있다. 즉, 입력되는 오디오 신호에 대해 고속 퓨리에 변환(Fast Fourier Transformation, FFT)을 수행하여 주파수 영역의 스펙트럼을 계산하고 이로부터 파워 스펙트럼(power spectrum) 또는 크기 스펙트럼(magnitude spectrum)을 계산한 뒤 N개의 필터로 구성된 필터 뱅크(filter bank)를 통과시킨다. 여기에서 하나의 필터는 특정 주파수 범위 내의 신호 성분만을 추출하는 역할을 수행하게 되는데 각각의 필터에서 추출된 신호 성분에 대해 통상의 신호 처리 방법에 의해 에너지 값을 계산하면 N차의 필터뱅크 에너지가 생성되는데 이값을 프레임별 특징 벡터로 사용할 수 있다.
한편, 쿼리 핑거프린트 추출부(10)는 앞서 설명한 바와 같이 프레임 이동 길이를 짧게 하는 구간에 포함될 프레임들에 대해서는 프레임별 핑거프린트를 직접 생성하는 대신 주변의 프레임 핑거프린트를 이용하는 방법을 사용할 수 있다.
도 3을 참조하면, A~B 구간에 속하는 프레임들, 즉 프레임별 이동 구간이 짧아지는 구간에 속하는 프레임들이 예컨대 10개라고 가정하면, 이들 10개의 프레임 특징 벡터들은 인접 프레임 핑거프린트에 의해 선형 내삽법(linear interpolation)에 의해 생성될 수 있다.
도 4는 인접 프레임 핑거프린트에 의해 프레임 핑거프린트를 생성하는 과정을 설명하기 위한 도면이다.
도 4를 참조하면 오디오 신호의 A~B 구간이 프레임 이동 길이가 짧아지는 구간이고 이들 사이에 L개의 프레임이 형성되며 이들 각각의 프레임에 대해 프레임별 특징 벡터를 생성해야 한다. 이 때, L개의 프레임에 대한 프레임 특징 벡터는 A~B 구간의 시작 위치를 마지막으로 포함하는 이전 프레임과 A~B 구간의 종료 위치를 처음으로 포함하는 다음 프레임에 대해 프레임 특징 벡터를 계산하고(Tn, Tn+L) 이들 값을 기초로 선형 내삽법(linear interpolation)을 적용하여 L개의 프레임에 대한 프레임 특징 벡터를 각각 생성할 수 있게 된다. 예컨대, Tn의 값이 1이고 Tn+L의 값이 10이고 8개의 프레임이 포함된다면 각각의 프레임의 특징 벡터의 값은 선형 내삽법에 의해 2,3,4,5,6,7,8,9로 결정할 수 있다.
이와 같은 방법을 사용하면 프레임의 갯수를 증가시켜서 보다 많은 정보량을 갖는 신호 구간에 대한 보다 정밀한 분석을 가능하게 하면서도 연산량을 크게 증가시키지 않는다는 장점을 갖는다.
도 5는 인접 프레임 핑거프린트에 의해 프레임 핑거프린트를 생성하는 또 다른 방법을 설명하기 위한 도면이다.
도 5의 방법은 도 4의 방법과 유사하지만 이동 길이가 짧아지는 구간에 포함될 프레임들에 대한 특징 벡터를 비트 비교에 의해 생성하는 것을 특징으로 한다. 프레임 특징 벡터는 앞서 설명한 바와 같은 방법을 통해 최종적으로 이진수 형태로 최종 생성될 수 있는데 인접하는 프레임들의 프레임 특징 벡터를 서로 비트별로 비교하여 일치하지 않는 비트들을 찾아낸 후 이 비트들에 대해 가능한 경우의 이진수를 대입(Bit Flipping)함으로써 A~B 구간 사이에 포함될 프레임들에 대한 특징 벡터들을 생성할 수 있다. 예컨대 서로 다른 비트수가 R개이면 2R개의 프레임 특징 벡터를 생성할 수 있고 따라서 2R개의 프레임을 A~B 구간에 삽입할 수 있다. 이 경우 A~B 구간에서의 프레임 이동 길이는 R에 의해 결정되게 된다.
다시 도 1을 참조하여 콘텐츠 인식 장치(100)의 다른 구성들에 대하여 설명한다.
레퍼런스 핑거프린트 데이터베이스(20)는 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 기능을 수행한다. 즉, 쿼리 핑거프린트와 비교할 대상이 되는 레퍼런스로서의 핑거프린트들과 이들에 대한 콘텐츠 정보를 저장하고 있다가 전술한 바와 같이 쿼리 핑거프린트 추출부(10)에서 쿼리 핑거프린트가 추출되면 후술하는 핑거프린트 매칭부(30)에서 쿼리 핑거프린트와 레퍼런스 핑거프린트 데이터베이스(20)에 저장된 레퍼런스 핑거프린트를 비교하여 매칭되는 레퍼런스 핑거프린트를 판별하게 된다.
여기에서 콘텐츠 정보라 함은 콘텐츠의 식별자(ID)를 포함하며 콘텐츠의 이름, 저작권자, 길이, 화질 정보, 파일 이름, 설명 데이터 등과 기타 관련 데이터를 포함할 수 있다.
레퍼런스 핑거프린트 데이터베이스(20)는 네트워크를 통해 외부의 별도 레퍼런스 핑거프린트 서버로부터 레퍼런스 핑거프린트와 콘텐츠 정보를 수신하도록 구성할 수도 있다.
한편 핑거프린트 매칭부(30)는 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 기능을 수행한다. 전술한 바와 같이 쿼리 핑거프린트 추출부(10)에서 쿼리 핑거프린트가 추출되며 핑거프린트 매칭부(30)는 이러한 쿼리 핑거프린트와 레퍼런스 핑거프린트 데이터베이스(20)에 저장되어 있는 레퍼런스 핑거프린트를 비교하여 매칭되는 레퍼런스 핑거프린트를 판별한다.
도 6은 핑거프린트 매칭부(30)의 구성을 나타낸 도면으로서, 도 6을 참조하면 핑거프린트 매칭부(30)는 1차 매칭부(31)와 2차 매칭부(32)를 포함한다.
제1 매칭부(31)는 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트들을 예컨대 N-Best 방식으로 골라서 복수개의 매칭 후보군을 우선적으로 구성하고 제2 매칭부(32)는 매칭 후보군에 포함된 레퍼런스 핑거프린트를 대상으로 정밀 분석을 수행함으로써 보다 정확한 매칭 결과를 제공하게 된다.
제1 매칭부(31)는 복수개의 매칭 후보군을 선별하기 위하여 프레임 단위로 매칭되는 핑거프린트가 하나라도 존재하는지를 판별하는 방법을 사용할 수 있다.
도 7은 제1 매칭부(31)의 동작을 설명하기 위한 도면이다.
도 7을 참조하면, 우선 레퍼런스 핑거프린트 데이터베이스(20)로부터 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트를 선택하고 쿼리 핑거프린트의 i번째 프레임과 선택된 레퍼런스 핑거프린트의 j번째 프레임의 프레임별 특징 벡터를 비교하여 예컨대 해밍 거리(Hamming Distance)가 미리 설정해 둔 임계치 이하인지를 판단한다(S100, S110, S120).
여기에서 쿼리 핑거프린트의 i번째 프레임과 선택된 레퍼런스 핑거프린트의 j번째 프레임은 맨 처음 프레임부터 순차적으로 선택할 수 있다. 즉, 쿼리 핑거프린트와 선택된 레퍼런스 핑거프린트의 처음 프레임부터 i와 j를 순차적으로 증가시키면서 해밍 거리를 판단한다.
예컨대, 쿼리 핑거프린트의 첫번째 프레임(i=1)을 선택하고 레퍼런스 핑거프린트의 첫번째 프레임(j=1)을 선택하여 해당 프레임들의 프레임별 특징 벡터의 해밍거리가 임계치 이하인지를 판단한다(S120).
임계치 이하인 경우 해당 레퍼런스 핑거프린트를 매칭 후보군에 추가시키고(S130) 해당 레퍼런스 핑거프린트의 나머지 프레임들에 대한 비교는 건너뛰고 다음 레퍼런스 핑거프린트를 선택하여 도 7과 같은 과정을 반복한다.
임계치 이하가 아닌 경우 j를 1 증가시켜서 레퍼런트 핑거프린트의 다음 프레임(j=2)과 쿼리 핑거프린트의 첫번째 프레임(i=1)의 프레임별 특징 벡터의 해밍 거리가 임계치 이하인지를 판단하는 과정을 반복한다. 이 과정중에서 임계치 이하인 경우가 발견되면 앞서 설명한 바와 같이 해당 레퍼런스 핑거프린트를 매칭 후보군에 추가하고 나머지 다음 프레임들에 대한 비교를 생략하고 다음 레퍼런스 핑거프린트를 선택하게 된다.
만약 해당 레퍼런스 핑거프린트의 마지막 프레임까지 해밍 거리가 임계치 이하인 경우가 발견되지 않는 경우에는 i를 1 증가시켜 쿼리 핑거프린트의 다음 프레임을 선택하고 다시 j=1로 하여 앞서 설명한 바와 같은 과정을 반복한다.
이와 같은 과정을 거치면 주어진 쿼리 핑거프린트의 프레임 중 어느 하나라도 레퍼런스 핑거프린트에 매칭되는(즉 해밍거리가 임계치 이하인) 프레임이 발견되는 경우 해당 레퍼런스 핑거프린트를 즉시 매칭 후보군에 추가하고 해당 레퍼런스 핑거프린트의 나머지 프레임들에 대한 비교를 생략함으로써 고속으로 N개의 매칭 후보군들을 판별할 수 있게 된다.
이러한 방법은 프레임별 특징 벡터를 비교하는 것이므로 정확도가 떨어질 수 있으나 앞서 설명한 바와 같이 쿼리 핑거프린트 추출부(10)에서 프레임 이동 길이를 짧게 하는 구간에서는 프레임이 보다 많은 갯수로 생성되므로 정확도를 최대한 유지할 수 있게 된다.
한편 여기에서 매칭되는 레퍼런스 핑거프린트를 매칭 후보군에 추가한다는 의미는 해당 레퍼런스 핑거프린트의 식별자(ID)를 매칭 후보군에 포함시킨다는 의미이다.
또한 앞서 설명한 방법은 프레임들을 맨 처음 프레임부터 순차적으로 비교하는 방법을 예로서 설명하였으나 반드시 이러한 방법을 사용할 필요는 없으며 랜덤하게 프레임을 선택하는 방법이나 중간 프레임부터 선택해서 앞뒤 프레임으로 이동하는 방법을 사용할 수도 있다. 중요한 것은 프레임 단위로 비교해서 매칭되는 프레임이 어느 하나가 발견되면 해당 레퍼런스 핑거프린트에 대해서는 나머지 프레임에 대한 비교를 생략함으로써 정확도를 유지한 채 고속 매칭을 가능하게 한다는 점이다.
이와 같은 과정을 통해 N개의 매칭 후보군이 결정되면, 제2 매칭부(32)는 해당 매칭 후보군에 포함된 레퍼런스 핑거프린트들과 쿼리 핑거프린트들에 대해 2차 매칭을 수행한다.
제2 매칭부(32)는 앞서 설명한 바와 같이 제1 매칭부(31)에 의해 결정된 매칭 후보군에 포함된 레퍼런스 핑거프린트들의 식별자에 상응하는 레퍼런스 핑거프린트들과 쿼리 핑거프린트를 비교하여 최종 매칭 결과를 생성하는 기능을 수행한다.
제2 매칭부(32)가 2차 매칭을 수행하기 위해 사용하는 매칭 방법은 제1 매칭부(31)에서 수행한 1차 매칭보다 정확한 결과를 얻기 위한 것으로서 이 때 앞서 설명한 바와 같이 쿼리 핑거프린트 추출부(10)에서 프레임 이동 길이를 변동(단축)시키면서 생성했던 프레임들의 특징 벡터들은 제외하고 2차 매칭을 수행한다.
즉, 미리 설정된 프레임 이동 길이를 갖는 프레임들의 특징 벡터로만 쿼리 핑거프린트를 재구성하고 이를 매칭 후보군에 포함된 레퍼런스 핑거프린트들과 정밀 비교함으로써 최종 매칭 결과를 산출하게 된다.
한편, 제2 매칭부(32)에서 수행하는 매칭 방법은 종래의 알려진 모든 방법을 사용할 수 있으며 이 방법 자체는 본 발명의 직접적인 목적은 아니므로 이에 대한 상세 설명은 생략한다.
다시 도 1을 참조하여 인식 결과 제공부(40)에 대하여 설명한다.
인식 결과 제공부(40)는 앞서 설명한 바와 같은 과정을 통해 핑거프린트 매칭부(30)에서 최종적으로 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보를 제공하는 기능을 수행한다. 여기서 콘텐츠 정보는 앞서 설명한 바와 같이 매칭되는 것으로 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 식별자, 콘텐츠 이름, 저작권자, 콘텐츠 길이, 화질 정보 등과 같은 다양한 정보를 포함할 수 있으며 이들은 전술한 바와 같이 레퍼런스 핑거프린트 데이터베이스(20)에 저장되어 있다.
도 8은 콘텐츠 인식 장치(100)의 연결 및 배치 상태를 설명하기 위한 도면이다.
도 8을 참조하면 콘텐츠 인식 장치(100)는 클라이언트 단말기(300) 내에 구비될 수 있으며, 클라이언트 단말기(300)는 인터넷이나 이동 통신망 등과 같은 네트워크를 통해 레퍼런스 핑거프린트 서버(200)와 연결될 수 있다.
클라이언트 단말기(300)는 컴퓨터나 예컨대 스마트폰 등과 같은 이동 통신 단말기일 수 있다.
레퍼런스 핑거프린트 서버(200)는 도 8에 나타낸 바와 같이 핑거프린트 생성부(210)와 콘텐츠 그룹별 핑거프린트 데이터베이스(220)를 포함할 수 있다.
핑거프린트 생성부(210)는 핑거프린트 생성 대상이 되는 모든 오디오 신호들에 대해 핑거프린트를 생성하는 기능을 수행하며 여기에서 생성된 핑거프린트들은 각각의 핑거프린트에 대응하는 콘텐츠 정보와 함께 콘텐츠 그룹별 핑거프린트 데이터베이스(220)에 저장된다.
콘텐츠 그룹별 핑거프린트 데이터베이스(220)는 핑거프린트 생성부(210)에서 생성된 핑거프린트들과 콘텐츠 정보를 그룹별로 그룹화해서 저장한다. 그룹별로 저장하는 것은 다양한 기준을 사용할 수 있는데 예컨대 특정 콘텐츠들에 대응하여 그룹화할 수 있다. 예컨대, "AAA"라는 노래에 대응되는 모든 핑거프린트들과 콘텐츠 정보를 그룹화할 수 있다.
다른 방법으로는, 콘텐츠별로 레퍼펀스 핑거프린트 서버(200)의 관리자에 의해 설정하도록 함으로써 그룹화를 수행할 수도 있다.
이와 같이 레퍼런스 핑거프린트 서버(200)는 그룹화된 핑거프린트 데이터베이스를 구축하여 두고 클라이언트 단말기(300)측으로 그룹화된 핑거프린트 데이터베이스를 전송하고 클라이언트 단말기(300)의 콘텐츠 인식 장치(100)내의 레퍼런스 핑거프린트 데이터베이스(20)를 이를 수신하여 저장하게 된다.
이와 같이 구성함으로써 클라이언트 단말기(300)에서 인식이 완료(즉, 매칭이 완료)되면 인식 결과를 인식 결과 제공부(40)를 통해 사용자에게 제공하는 동시에 그 결과를 레퍼런스 핑거프린트 서버(200)로 전송하도록 구성할 수도 있다. 이러한 경우 레퍼런스 핑거프린트 서버(200)는 그룹화된 콘텐츠별로 특정 사용자가 그룹화된 콘텐츠에 대해 오디오 신호를 실제 듣고 인식을 수행했는지를 판별할 수 있게 된다. 따라서 이를 광고 방법에 적용하면 특정 사용자들이 특정한 콘텐츠를 인식하도록 하고 그 결과를 서버측에서 집계할 수 있으므로 광고 효과나 이벤트 등에 유용하게 사용할 수 있는 장점이 있다.
한편, 도 1을 다시 참조하면 콘텐츠 인식 장치(100)는 인터페이스 제공부(미도시)를 더 포함할 수 있다. 인터페이스 제공부는 사용자가 오디오 신호를 입력할 수 있도록 하면서 인식 결과를 사용자에게 제공할 수 있도록 하는 사용자 인터페이스를 제공하는 기능을 수행한다.
예컨대, 사용자 인터페이스를 통해 오디오 신호 인식 시작 버튼을 제공해서 사용자가 해당 버튼을 클릭하는 경우 오디오 신호를 마이크 등의 음성 입력 수단에 의해 일정 시간 동안 획득하도록 할 수 있다. 또한 사용자 인터페이스를 통해 인식(매칭)이 완료된 경우 콘텐츠 정보를 예컨대 "인식된 오디오 신호는 가수 aaa의 bbb라는 곡입니다" 등과 같은 형태로 사용자에게 제공할 수 있다.
한편, 도 1 내지 도 8에서 설명한 바와 같이, 쿼리 핑거프린트 추출부(10)는 입력되는 오디오 신호를 소정의 프레임 길이와 프레임 이동 길이에 의해 구성되는 복수개의 프레임들에 대해 각각의 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출한다.
이 때, 이러한 쿼리 핑거프린트를 추출할 때 일정 시간 구간을 설정해 두고 시간 구간 단위로 쿼리 핑거프린트를 추출하고 매칭을 수행한 후, 그 구간내에서 매칭에 실패한 경우 시간 구간을 늘려가면서 추출 및 매칭을 진행할 수도 있다.
예컨대, 시간 구간 단위를 N초라 하면, 입력 오디오 신호는 N1, N2, N3..NK의 구간으로 분할될 수 있다. 이 때 N은 앞서 설명한 프레임 길이보다는 훨씬 큰 값이다. 이러한 시간 구간에 대해서 우선 N1의 구간에서 앞서 설명한 바와 같은 쿼리 핑거프린트 추출 및 매칭을 수행하고, 매칭에 실패한 경우 다음 구간 N2에 대해서 쿼리 핑거프린트 추출 및 매칭을 수행할 수 있다. 이를 반복하면서 매칭에 성공하면 과정을 종료하고 매칭에 계속 실패하면 계속적으로 다음 구간으로 이동하면서 해당 구간의 프레임들에 대해 앞서 설명한 바와 같이 쿼리 핑거프린트 추출 및 매칭을 반복하게 된다.
여기에서 각각의 시간 구간의 크기는 동일하게 하는 것이 바람직하지만 다르게 할 수도 있음은 물론이다.
또한 예컨대 N2의 구간에서 쿼리 핑거프린트 추출 및 매칭을 수행할 때 N1에서 추출된 쿼리 핑거프린트를 함께 사용할 수도 있음은 물론이다.
도 9는 도 1 내지 도 8에서 설명한 본 발명에 의한 콘텐츠 인식 장치(100)에서 수행되는 콘텐츠 인식 방법을 나타낸 흐름도이다.
도 9를 참조하면, 우선 쿼리 핑거프린트 추출부(10)에서 앞서 설명한 바와 같은 방법으로 쿼리 핑거프린트를 추출한다(S1000). 쿼리 핑거프린트가 추출되면 핑거프린트 매칭부(20)의 제1 매칭부(21)가 우선적으로 1차 매칭을 수행한다(S1100). 제1 매칭부(21)에서 1차 매칭의 결과는 전술한 바와 같이 N개의 매칭 후보군을 판별하게 된다.
다음으로 핑거프린트 매칭부(20)의 제2 매칭부(22)는 매칭 후보군에 포함된 레퍼런스 핑거프린트들에 대해 2차 매칭을 수행하고(S1200) 최종 매칭 결과를 인식 결과로서 생성하게 된다(S1300).
이상에서 본 발명에 의한 바람직한 실시예를 설명하였으나 본 발명은 이들 실시예에 한정되는 것이 아님은 물론이다.
예컨대, 상기의 실시예들에서는 오디오 신호에 대해서 쿼리 핑거프린트를 추출하고 매칭하는 것으로만 설명하였으나 본 발명은 비디오 신호에 대해서도 그대로 적용할 수 있음은 물론이다. 비디오 신호는 오디오 신호와 비교할 때 특징 벡터를 생성하는 방법에서만 차이가 있을 뿐 앞서 설명한 프레임을 구성하는 방법들은 비디오 신호에 대해서도 그대로 적용될 수 있기 때문이다.
또한, 도 7에서 프레임을 비교할 때 해밍 거리를 비교하는 방법을 예로서 설명하였으나 해밍 거리 이외의 다른 종래의 방법을 사용할 수도 있음은 물론이다.
또한, 도 8에서 콘텐츠 인식 장치(100)는 클라이언트 단말기(300) 내에 일체로 포함되어 있는 것으로 설명하였으나 콘텐츠 인식 장치(100)의 각각의 구성 요소들은 네트워크 상에서 분산되어 배치될 수도 있다. 예컨대, 쿼리 핑거프린트 추출부(10)와 인터페이스 제공부(미도시)만을 클라이언트 단말기(300) 내에 포함되도록 하고 다른 구성 요소들은 네트워크 상에서 독립된 서버로서 분산하여 배치할 수도 있다. 예컨대, 레퍼런스 핑거프린트 데이터베이스와 핑거프린트 매칭부를 각각 별도의 서버에 배치할 수도 있고 이들 2 요소만을 묶어서 하나의 서버에 배치할 수도 있다. 또한, 이들 2 요소를 레퍼런스 핑거프린트 서버(200) 내에 배치할 수도 있다. 중요한 것은 콘텐츠 인식 장치(100)는 물리적으로 하나의 장치로 또는 하나의 장치내에 구성될 수도 있지만 네트워크 상에서 분산되어 배치될 수도 있다는 점이다.

Claims (22)

  1. 오디오 신호를 이용한 콘텐츠 인식 장치에 있어서,
    입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 쿼리 핑거프린트 추출부;
    쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 레퍼런스 핑거프린트 데이터베이스; 및
    상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 핑거프린트 매칭부
    를 포함하되,
    상기 쿼리 핑거프린트 추출부는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  2. 제1항에 있어서,
    상기 프레임 이동 길이는, 인접 프레임들이 서로 겹치도록 프레임 길이보다 짧은 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  3. 제1항에 있어서,
    상기 쿼리 핑거프린트 추출부는, 일부 구간에서의 프레임 이동 길이를 미리 설정된 프레임 이동 길이보다 짧게 하여 프레임을 형성하는 것을 특징을 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  4. 제3항에 있어서,
    상기 쿼리 핑거프린트 추출부는, 미리 설정된 시간 구간에 기초하여 상기 일부 구간을 결정하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  5. 제3항에 있어서,
    상기 쿼리 핑거프린트 추출부는, 신호대잡음비가 임계치보다 높은 값을 갖는 시간 구간을 검출하고 검출된 시간 구간에 기초하여 상기 일부 구간을 결정하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  6. 제4항 또는 제5항에 있어서,
    상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 해당하는 프레임들 각각에 대하여 프레임별 특징 벡터를 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  7. 제4항 또는 제5항에 있어서,
    상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 포함될 프레임들에 대한 프레임별 특징 벡터를, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임의 프레임별 특징 벡터에 기초하여 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  8. 제7항에 있어서,
    상기 일부 구간의 시작 위치에 상응하는 프레임은 상기 시작 위치를 마지막으로 포함하는 프레임이고,
    상기 일부 구간의 종료 위치에 상응하는 프레임은 상기 종료 위치를 처음으로 포함하는 프레임인 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  9. 제8항에 있어서,
    상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터를 생성하고, 생성된 프레임별 특징 벡터에 기초하여 선형 내삽법에 의해 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  10. 제8항에 있어서,
    상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터는 이진수로 형성되고, 상기 이진수로 형성된 프레임별 특징 벡터의 각각의 비트를 비교하여 상이한 비트들에 가능한 이진수를 배열함으로써 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  11. 제1항에 있어서,
    상기 핑거프린트 매칭부는,
    상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제1 매칭부; 및
    상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2 매칭부;
    를 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  12. 제11항에 있어서,
    상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 해밍 거리가 임계치 이하인 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트를 매칭되는 레퍼런스 핑거프린트로 판별하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  13. 제11항에 있어서,
    상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터를 순차적으로 레퍼런스 핑거프린트의 프레임별 특징 벡터들과 순차적으로 비교하면서 매칭되는 프레임이 검출된 경우 이후의 프레임에 대한 비교를 생략하고 다음 레퍼런스 핑거프린트에 대한 비교를 수행하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  14. 제11항에 있어서,
    제2 매칭부는,
    상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터들 중에서 미리 설정된 프레임 이동 길이가 아닌 프레임들을 제외하여 프레임별 특징 벡터를 재구성하고 재구성된 프레임별 특징 벡터를 레퍼런스 핑거프린트들과 비교하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  15. 제1항에 있어서,
    상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보를 제공하는 인식 결과 제공부를 더 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  16. 제1항에 있어서,
    상기 오디오 신호를 이용한 콘텐츠 인식 장치는 클라이언트 단말기 내에 포함되는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  17. 제16항에 있어서,
    상기 레퍼런스 핑거프린트 데이터베이스는 레퍼런스 핑거프린트 서버로부터 레퍼런스 핑거프린트 및 콘텐츠 정보를 수신하여 저장하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  18. 제1항에 있어서,
    사용자가 오디오 신호를 입력할 수 있도록 하는 사용자 인터페이스를 제공하는 인터페이스 제공부
    를 더 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  19. 제17항에 있어서,
    상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보는 상기 레퍼런스 핑거프린트 서버로 전송되는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  20. 제1항에 있어서,
    상기 쿼리 핑거프린트 추출부는 미리 설정된 구간 단위로 해당 구간에 포함되는 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 구간별 쿼리 핑거프린트를 추출하고, 상기 핑거프린트 매칭부는 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하되,
    상기 핑거프린트 매칭부에서 매칭되는 레퍼런스 핑거프린트가 판별될 때까지 쿼리 핑거프린트 추출부가 상기 미리 설정된 구간 단위로 구간별 쿼리 핑거프린트를 연속적으로 추출하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
  21. 오디오 신호를 이용한 콘텐츠 인식 방법에 있어서,
    입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 제1 단계; 및
    상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 제2 단계
    를 포함하되,
    상기 제1 단계는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 방법.
  22. 제21항에 있어서,
    상기 제2 단계는,
    상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제2-1 단계; 및
    상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2-2 단계
    를 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 방법.
PCT/KR2012/004537 2012-05-23 2012-06-08 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 WO2013176329A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US13/639,834 US8886635B2 (en) 2012-05-23 2012-06-08 Apparatus and method for recognizing content using audio signal
SG2013005004A SG187583A1 (en) 2012-05-23 2012-06-08 Apparatus and method for recognizing content using audio signal
JP2014516896A JP5813221B2 (ja) 2012-05-23 2012-06-08 オーディオ信号を用いたコンテンツ認識装置及び方法
CN201280002116.8A CN103548076B (zh) 2012-05-23 2012-06-08 利用音频信号来识别内容的装置和方法
EP12844656.4A EP2685450B1 (en) 2012-05-23 2012-06-08 Device and method for recognizing content using audio signals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0054659 2012-05-23
KR1020120054659A KR101315970B1 (ko) 2012-05-23 2012-05-23 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2013176329A1 true WO2013176329A1 (ko) 2013-11-28

Family

ID=48670993

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/004537 WO2013176329A1 (ko) 2012-05-23 2012-06-08 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

Country Status (7)

Country Link
EP (1) EP2685450B1 (ko)
JP (1) JP5813221B2 (ko)
KR (1) KR101315970B1 (ko)
CN (1) CN103548076B (ko)
HK (1) HK1175358A2 (ko)
SG (1) SG187583A1 (ko)
WO (1) WO2013176329A1 (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9094714B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for on-screen graphics detection
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
KR101494309B1 (ko) 2013-10-16 2015-02-23 강릉원주대학교산학협력단 디지털 컨텐츠를 위한 비대칭형 핑거프린트 정합 시스템 및 그 제공방법
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
NL2012567B1 (en) * 2014-04-04 2016-03-08 Teletrax B V Method and device for generating improved fingerprints.
KR102255152B1 (ko) * 2014-11-18 2021-05-24 삼성전자주식회사 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램
AU2015355209B2 (en) * 2014-12-01 2019-08-29 Inscape Data, Inc. System and method for continuous media segment identification
GB2534027B8 (en) * 2014-12-30 2017-12-06 Audio Analytic Ltd Sound capturing and identifying devices
BR112017016123A2 (pt) 2015-01-30 2018-04-17 Inscape Data Inc servidor de correspondência para identificação de conteúdo de vídeo que é exibido por um sistema de televisão, método executado por computador, e produto de programa informático concretamente incorporado a um meio de armazenamento de leitura por máquina permanente de um dispositivo de informática
CN107949849B (zh) 2015-04-17 2021-10-08 构造数据有限责任公司 缩减大数据集中数据密度的系统和方法
US10997236B2 (en) 2015-04-27 2021-05-04 Samsung Electronics Co., Ltd. Audio content recognition method and device
AU2016291674B2 (en) 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
EP3323245B1 (en) 2015-07-16 2021-08-25 Inscape Data, Inc. Detection of common media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
KR101634609B1 (ko) * 2015-07-17 2016-06-29 주식회사 디지워크 영상 음성 데이터 처리 방법 및 이를 실행하는 단말 장치
KR101970383B1 (ko) * 2015-10-30 2019-04-18 주식회사 엘지유플러스 단말 및 단말의 컨텐츠 제작 방법
KR101647012B1 (ko) * 2015-11-13 2016-08-23 주식회사 비글컴퍼니 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법
KR101981924B1 (ko) * 2015-11-30 2019-08-30 한국전자통신연구원 미디어 콘텐츠 식별 방법
US20170371963A1 (en) * 2016-06-27 2017-12-28 Facebook, Inc. Systems and methods for identifying matching content
US20190020913A9 (en) * 2016-06-27 2019-01-17 Facebook, Inc. Systems and methods for identifying matching content
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
WO2018157251A1 (en) 2017-03-01 2018-09-07 Soltare Inc. Systems and methods for detection of a target sound
BR112019019430A2 (pt) 2017-04-06 2020-04-14 Inscape Data Inc sistema, método e produto de programa de computador
KR102037221B1 (ko) * 2017-11-06 2019-10-29 주식회사 아이티밥 오디오 핑거프린트 매칭 방법
KR102037220B1 (ko) * 2017-11-06 2019-10-29 주식회사 아이티밥 오디오 핑거프린트 매칭 시스템
KR102494591B1 (ko) * 2018-09-18 2023-02-03 삼성전자주식회사 전자 장치, 그 제어 방법 및 전자 시스템
CN111462736B (zh) * 2019-01-17 2023-04-14 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
US11317128B1 (en) * 2020-10-23 2022-04-26 Synamedia Limited Systems, methods, and devices for media content tamper protection and detection
KR102611105B1 (ko) * 2021-11-16 2023-12-07 한국전자통신연구원 콘텐츠 내 음악 식별 장치 및 방법

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002011123A2 (en) * 2000-07-31 2002-02-07 Shazam Entertainment Limited Method for search in an audio database
KR100456408B1 (ko) 2004-02-06 2004-11-10 (주)뮤레카 오디오유전자 생성방법 및 오디오데이터 검색방법
KR20070044251A (ko) 2005-10-24 2007-04-27 삼성전자주식회사 금형장치와 금형용 히터 카트리지
KR20070054601A (ko) 2004-06-07 2007-05-29 캠브리지 엔터프라이즈 리미티드 홀로그래픽 센서를 이용한 분석물을 탐지하기 위한 방법
KR20070060978A (ko) 2005-12-09 2007-06-13 한국전자통신연구원 지상파 dmb 비디오, 오디오, 부가 데이터의 제한수신부호화 장치 및 그 방법과 그를 이용한 제한수신 시스템
KR20070091587A (ko) 2006-03-06 2007-09-11 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100811835B1 (ko) * 2006-10-25 2008-03-10 주식회사 에스원 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상검색방법
KR20080051688A (ko) 2006-12-06 2008-06-11 주식회사 에이디피엔지니어링 기판 테이블 및 이를 가진 기판 합착장치
KR100893123B1 (ko) * 2007-05-07 2009-04-10 (주)엔써즈 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치
US20090157391A1 (en) * 2005-09-01 2009-06-18 Sergiy Bilobrov Extraction and Matching of Characteristic Fingerprints from Audio Signals

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4256393B2 (ja) * 2001-08-08 2009-04-22 日本電信電話株式会社 音声処理方法及びそのプログラム
JP3798991B2 (ja) * 2002-02-25 2006-07-19 日本電信電話株式会社 音声信号検索方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体
JP3744464B2 (ja) 2002-05-20 2006-02-08 ソニー株式会社 信号記録再生装置及び方法、信号再生装置及び方法、並びにプログラム及び記録媒体
GB2391322B (en) * 2002-07-31 2005-12-14 British Broadcasting Corp Signal comparison method and apparatus
US20030191764A1 (en) * 2002-08-06 2003-10-09 Isaac Richards System and method for acoustic fingerpringting
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
AU2003264774A1 (en) * 2002-11-01 2004-05-25 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
JP4408205B2 (ja) * 2003-05-16 2010-02-03 東芝テック株式会社 話者認識装置
WO2005050620A1 (en) * 2003-11-18 2005-06-02 Koninklijke Philips Electronics N.V. Matching data objects by matching derived fingerprints
KR20050073064A (ko) * 2004-01-08 2005-07-13 (주)뮤레카 오디오데이터 인식을 이용한 광고방법
KR100480315B1 (ko) * 2004-06-03 2005-04-07 (주)뮤레카 오디오 유전자 생성 및 검색을 이용한 저작권 관리시스템및 관리방법
EP1761895A1 (en) * 2004-06-16 2007-03-14 Koninklijke Philips Electronics N.V. Searching for a scaling factor for watermark detection
KR100692395B1 (ko) * 2004-11-01 2007-03-09 (주)뮤레카 오디오 유전자 생성을 통한 방송내용 분석시스템 및분석방법
KR100930869B1 (ko) 2007-05-17 2009-12-10 주식회사 코난테크놀로지 오디오 식별을 통한 성인물 동영상 검열 시스템 및 방법
KR100888804B1 (ko) * 2007-06-04 2009-03-13 (주)엔써즈 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
JP5337241B2 (ja) * 2009-06-05 2013-11-06 株式会社東芝 映像編集装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002011123A2 (en) * 2000-07-31 2002-02-07 Shazam Entertainment Limited Method for search in an audio database
KR100456408B1 (ko) 2004-02-06 2004-11-10 (주)뮤레카 오디오유전자 생성방법 및 오디오데이터 검색방법
KR20070054601A (ko) 2004-06-07 2007-05-29 캠브리지 엔터프라이즈 리미티드 홀로그래픽 센서를 이용한 분석물을 탐지하기 위한 방법
US20090157391A1 (en) * 2005-09-01 2009-06-18 Sergiy Bilobrov Extraction and Matching of Characteristic Fingerprints from Audio Signals
KR20070044251A (ko) 2005-10-24 2007-04-27 삼성전자주식회사 금형장치와 금형용 히터 카트리지
KR20070060978A (ko) 2005-12-09 2007-06-13 한국전자통신연구원 지상파 dmb 비디오, 오디오, 부가 데이터의 제한수신부호화 장치 및 그 방법과 그를 이용한 제한수신 시스템
KR20070091587A (ko) 2006-03-06 2007-09-11 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100811835B1 (ko) * 2006-10-25 2008-03-10 주식회사 에스원 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상검색방법
KR20080051688A (ko) 2006-12-06 2008-06-11 주식회사 에이디피엔지니어링 기판 테이블 및 이를 가진 기판 합착장치
KR100893123B1 (ko) * 2007-05-07 2009-04-10 (주)엔써즈 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치

Also Published As

Publication number Publication date
JP5813221B2 (ja) 2015-11-17
EP2685450A1 (en) 2014-01-15
EP2685450A4 (en) 2015-11-11
HK1175358A2 (en) 2013-06-28
SG187583A1 (en) 2013-12-30
JP2014520287A (ja) 2014-08-21
KR101315970B1 (ko) 2013-10-08
CN103548076A (zh) 2014-01-29
CN103548076B (zh) 2015-11-25
EP2685450B1 (en) 2020-04-22

Similar Documents

Publication Publication Date Title
WO2013176329A1 (ko) 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
RU2422891C2 (ru) Система и способ для ускорения поисков в базе данных для множественных синхронизированных потоков данных
KR100893671B1 (ko) 멀티미디어 콘텐트의 해시들의 생성 및 매칭
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2015068947A1 (ko) 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
WO2010117213A2 (en) Apparatus and method for providing information related to broadcasting programs
BR112014023865B1 (pt) Método para a identificação de um segmento de áudio candidato a partir de uma chamada telefônica de saída, método para a criação de um bitmap ternário de um banco de dados de áudio a partir de uma chamada de saída e método para a criação de uma representação compacta ponderada de um conjunto de dados
BR0007250A (pt) Método e aparelho de autenticação de assinaturas e métodos de aprendizado eletrônico e de comparação das mesmas com representações previamente armazenadas
WO2010000163A1 (zh) 提取视频摘要的方法、系统及设备
WO2016175564A1 (ko) 오디오 컨텐츠 인식 방법 및 장치
WO2023282520A1 (ko) 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2021132802A1 (en) Apparatus for video searching using multi-modal criteria and method thereof
CN108933730A (zh) 信息推送方法和装置
WO2020253115A1 (zh) 基于语音识别的产品推荐方法、装置、设备和存储介质
WO2015088155A1 (en) Interactive system, server and control method thereof
WO2015133856A1 (ko) 정답 키워드 제공 방법 및 장치
WO2015020256A1 (ko) 직접 반응 광고 검출 및 분류 시스템 및 방법
CN103594083A (zh) 通过电视伴音自动识别电视节目的技术
WO2024091080A1 (ko) 동영상 자동 생성 방법 및 동영상 자동 생성 서버
CN111159464B (zh) 一种音频片段的检测方法及相关设备
CN108877779A (zh) 用于检测语音尾点的方法和装置
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN114596878A (zh) 一种音频检测方法、装置、存储介质及电子设备
WO2019225793A1 (ko) Ai 영상학습 플랫폼 기반 vod 서비스 시스템
WO2018056488A1 (ko) 디지털 동영상 특징값 추출 시스템 및 방법, 및 상기 특징값을 이용한 디지털 동영상 유사도 판단 시스템 및 방법

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2014516896

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13639834

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12844656

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE