KR100893123B1 - Method and apparatus for generating audio fingerprint data and comparing audio data using the same - Google Patents

Method and apparatus for generating audio fingerprint data and comparing audio data using the same Download PDF

Info

Publication number
KR100893123B1
KR100893123B1 KR1020070044251A KR20070044251A KR100893123B1 KR 100893123 B1 KR100893123 B1 KR 100893123B1 KR 1020070044251 A KR1020070044251 A KR 1020070044251A KR 20070044251 A KR20070044251 A KR 20070044251A KR 100893123 B1 KR100893123 B1 KR 100893123B1
Authority
KR
South Korea
Prior art keywords
data
audio
audio data
frame
comparison
Prior art date
Application number
KR1020070044251A
Other languages
Korean (ko)
Other versions
KR20080098878A (en
Inventor
김길연
조선옥
Original Assignee
(주)엔써즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엔써즈 filed Critical (주)엔써즈
Priority to KR1020070044251A priority Critical patent/KR100893123B1/en
Publication of KR20080098878A publication Critical patent/KR20080098878A/en
Application granted granted Critical
Publication of KR100893123B1 publication Critical patent/KR100893123B1/en

Links

Images

Abstract

본 발명은 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 및 장치에 관한 것으로서, 오디오 데이터로부터 오디오 핑거프린트 데이터를 생성하는 오디오 핑거프린트 데이터 생성 방법에 있어서, 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계; The present invention relates to an audio fingerprint data generating method and apparatus and method for comparing the audio data using the same and an apparatus, for generating an audio fingerprint data for generating the audio fingerprint data from the audio data generation method, the audio data of at least one dividing in the first frame; 상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하는 단계; Extracting characteristic data for each of the divided first frame; 상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성하는 단계; Generating a feature distribution data representing a distribution characteristic of the characteristic data for each of the divided first frame; 상기 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할하는 단계; Dividing the audio data into at least one second frame; 상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하는 단계; The method comprising using a feature distribution data generated with respect to the first frame, the generated audio fingerprint data for each of the second frame; 및 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터의 집합에 의해 상기 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 생성하는 단계를 포함하는 오디오 핑거프린트 데이터 생성 방법 및 이를 이용한 장치와 이를 이용한 오디오 데이터 비교 방법을 제공한다. And said second frame to compare the audio data by a set of audio fingerprint data for each using the same, and audio fingerprint data generating method and apparatus using the same, comprising the step of generating an audio fingerprint data for all the audio data there is provided a method.
오디오 데이터, 오디오 핑거프린트, 히스토그램 Audio data, the audio fingerprint, the histogram

Description

오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 및 장치{METHOD AND APPARATUS FOR GENERATING AUDIO FINGERPRINT DATA AND COMPARING AUDIO DATA USING THE SAME} Generation of the audio fingerprint data, and an apparatus and a method and apparatus using this comparison audio data {METHOD AND APPARATUS FOR GENERATING AUDIO FINGERPRINT DATA AND COMPARING AUDIO DATA USING THE SAME}

도 1은 본 발명에 의한 오디오 핑거프린트 데이터 생성 방법 및 이를 이용한 오디오 데이터 비교 방법을 수행하기 위한 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100)와 다른 구성 요소간의 결합 관계를 나타낸 구성도, Figure 1 is a schematic view showing a coupling relationship between the present invention generates an audio fingerprint data by the method and using the same audio fingerprint generated for performing the audio data comparison method and the audio data comparison device 100 and other components,

도 2는 본 발명에 의한 오디오 핑거프린트 데이터 생성 방법 및 이를 이용한 오디오 데이터 비교 방법의 전체 과정을 개략적으로 설명하기 위한 도면, Figure 2 is a view for schematically explaining the entire process of the method of generating an audio fingerprint data comparison method and the audio data using the same according to the present invention,

도 3은 본 발명의 바람직한 일 실시예에 따른 오디오 핑거프린트 데이터 생성 방법의 전체 과정을 나타낸 흐름도, 3 is a flowchart showing the whole process of generating an audio fingerprint data, the method according to an embodiment of the present invention,

도 4는 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 방법을 설명하기 위한 도면, Figure 4 is a view for explaining a method for dividing the audio data into at least one first frame,

도 5는 MFCC 방법에 의하여 특징 벡터를 추출하는 과정을 설명하기 위한 도면, 5 is a view for explaining a process of extracting a feature vector by the MFCC methods,

도 6은 코드북을 생성하는 과정을 설명하기 위한 도면, Figure 6 is a view for explaining a process of generating a code book,

도 7은 코드북 구성의 일예를 나타낸 도면, Figure 7 is a view showing an example of a codebook structure,

도 8은 본 발명에 의한 오디오 핑거프린트 생성 과정을 참고적으로 설명하기 위한 도면, 8 is a view for explaining a reference audio fingerprint generation process according to the present inventive,

도 9는 특징 분포 데이터로부터 제2 프레임별 오디오 핑거프린트 데이터를 구성하는 방법의 일예를 나타낸 도면, 9 is a view showing an example of how to configure a second frame-by-frame an audio fingerprint data from the feature distribution data,

도 10은 본 발명에 의한 오디오 핑거프린트 데이터를 이용하여 오디오 데이터를 비교하는 방법의 일실시예를 나타낸 흐름도, Figure 10 is a flow diagram illustrating one embodiment of a method for comparing the audio data using the audio fingerprint data according to the present invention,

도 11은 오디오 데이터를 적어도 하나 이상의 세그먼트로 분할하는 과정을 설명하기 위한 도면, 11 is a view for explaining a process of dividing the audio data into at least one segment,

도 12는 적어도 하나 이상의 원본 오디오 데이터들을 포함하는 오디오 데이터베이스와 비교 대상 외도 데이터를 비교하는 경우의 전체 흐름도, 12 is a flow chart of the whole when compared to the comparison target Cheating data and audio database that includes one or more source audio data,

도 13은 임계치를 설정하는 방법의 일예를 설명하기 위한 도면이다. 13 is a view for explaining an example of a method for setting a threshold.

<도면의 주요 부분에 대한 부호의 설명> <Description of the Related Art>

10 : 오디오 데이터 입력 장치 10: audio data input device

20 : 오디오 핑거프린트 데이터 생성부 20: audio fingerprint data generating unit

30 : 오디오 데이터 비교 서버 30: Comparison audio data server

40 : 오디오 데이터베이스 40: Audio Database

본 발명은 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 및 장치에 관한 것으로서, 보다 상세하게는 오디오 데이터로부터 오디오 데이터의 특징을 나타내는 오디오 핑거프린트 데이터를 생성하고, 이를 이용하여 오디오 데이터들 간의 동일성 여부를 신속하고 용이하게 판별할 수 있는 방법 및 장치에 관한 것이다. The present invention relates to a method of generating an audio fingerprint data, and an apparatus and method for comparing the audio data, and the device using the same, more particularly, to generating an audio fingerprint data indicating a feature of the audio data from the audio data, and by using this audio data It relates to a method and apparatus for the identity between whether to quickly and easily determined.

오디오 핑거프린트(audio finger print)라 함은, 일반적으로 오디오 데이터의 특징을 설명할 수 있는 데이터를 의미하는 것으로서, 주파수 변환 등의 방법에 의하여 오디오 데이터를 여러 가지 방법으로 분석하여 생성하고, 이를 이용하여 오디오 데이터의 무단 도용 여부를 판별하거나 오디오 핑거프린트에 의해 오디오 데이터를 검색하는 등의 방법에 사용되고 있다. Audio fingerprint (audio finger print) shall mean, in general, as meaning the data that describes the characteristics of the audio data, by a method such as frequency conversion and generated by analyzing the audio data in several ways, using this and it is used in ways such as to determine whether the unauthorized use of the audio data, or search the audio data by the audio fingerprint.

이러한 오디오 핑거프린트를 생성하는 종래의 방법으로는 여러 가지 방식이 제안되어 있으나, 종래의 오디오 핑거프린트 생성 방식은 검색하고자 하는 검색 대상 오디오 데이터의 양이 많아질 경우(약 10000개 이상) 오디오 데이터의 핑거프린트를 생성하는 속도가 현저하게 느려지는 단점이 있어서, 많은 양의 오디오 데이터를 비교하는 경우에는 적절치 않다는 문제점이 있었다. By conventional methods to produce these audio fingerprint of a number of ways it has been proposed. However, if the amount of searches that conventional audio fingerprint generation approach to Search for audio data increases Quality (about 10,000 or more) audio data in the disadvantage of slowing down the speed to generate a fingerprint remarkably, there was a problem there does inadequate when compared to the large amount of audio data.

또한, 국내특허등록 제10-0456408호에는 이진 특징(binary feature)을 사용하는 오디오 유전자 추출 방식이 개시되어 있으나, 이는 데이터베이스 내의 각 오디오 데이터의 매 프레임마다 스펙트럼의 에너지를 32개의 주파수 대역별로 0 또는 1의 값으로 표현하고, 이 값을 검색 테이블 값에 (오디오 신호 ID, 해당 프레임 i) 로 추가 등록한 뒤, 임의의 수 초 구간의 입력 오디오에 대해 동일한 방식으로 32비트 패턴을 추출하여 이 테이블을 검색하는 방식으로서, 검색 테이블의 각 엔트리에 등록된 (오디오 신호 ID, 프레임 index)의 개수가 가변적이어서 충분한 검색 속도를 보장할 수 없다는 단점이 있으며, 또한 바이너리 특징벡터 추출방식이 고정적이어서 입력 신호에 발생한 손상에 상대적으로 취약한 단점이 있다. Also, Korean Patent Registration No. 10-0456408 discloses a binary characteristic (binary feature), but the gene has an audio extraction method disclosed to be used, which for each frame of each of the audio data in the database of the spectral energy per frequency band 0 to 32 or du registered represented by a value of one, and add this value to the lookup table values ​​in (audio signal ID, the frame i), this table to extract a 32-bit pattern in the same manner with respect to the input audio any number of second sections of the a mechanism for detecting, and a disadvantage that the number of the (audio signal ID, frame index) registered in the respective entries of the look-up table that variable is then possible to ensure a sufficient search speed, and the fixed and then the input signal is a binary feature vector extraction method there are relatively vulnerable to damage resulting disadvantages.

본 발명은 상기한 바와 같은 문제점을 감안하여 안출된 것으로서, 종래의 오디오 핑거프린트 생성 방식에 비하여 속도가 현저하게 개선되며 생성 방법이 상대적으로 간편한 오디오 핑거프린트 데이터 생성 방법 및 장치를 제공하는 것을 목적으로 한다. The present invention been made in view of the problems as described above, and the speed is significantly improved compared to the conventional audio fingerprint generation method object of the present invention is to provide an easy-to-use audio fingerprint data generating method and apparatus in a method for generating relative do.

또한, 본 발명은 오디오 데이터를 분석하여 오디오 데이터의 특징 데이터의 분포 특성 데이터를 이용하여 오디오 핑거프린트 데이터를 생성하므로, 종래의 방법에 비하여 오디오 데이터의 특징을 보다 정밀하게 반영할 수 있는 오디오 핑거프린트 데이터 생성 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다. In addition, the present invention is generated audio fingerprint data, by analyzing the audio data by using the distribution characteristic data of the characteristic data of the audio data, the audio fingers that can be accurately reflected than the characteristics of audio data compared to the conventional method Print to provide a data generation method and apparatus to another object.

또한, 본 발명은 상기한 바와 같은 오디오 핑거프린트 데이터 생성 방법 및 장치에 의하여 생성되는 오디오 핑거프린트 데이터를 갖는 오디오 데이터들을 비교함에 있어서, 종래의 방식에 비하여 신속하고 정확한 비교 결과를 얻을 수 있으며 동일성 여부의 판단 오차를 현저하게 감소시킬 수 있는 오디오 데이터 비교 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다. In addition, the present invention whether in comparing the audio data having the audio fingerprint data generated by the audio fingerprint data generating method and apparatus as described above, to obtain a rapid and accurate comparison result compared to the conventional method, and identity and that the determination of which can significantly reduce the error provides audio data comparison method and a device to another object.

또한, 본 발명은 오디오 핑거프린트 데이터를 세그먼트로 나누어서 세그먼트별로 비교 판단할 수 있으므로 원본 오디오 데이터와 비교 대상 오디오 데이터가 부분적으로 동일한 경우에도 적용할 수 있고, 또한 부분적으로 동일한 경우 부분적으로 동일한 위치도 검출할 수 있는 오디오 데이터 비교 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다. In addition, the present invention can be compared to determine for each segment by dividing the audio fingerprint data to the segment can be the same when comparing the target audio data and the original audio data is the same in part, also in part, detecting also the same location in the same case part, to provide an audio data comparison method and a device capable of another object.

또한, 본 발명은 비디오 신호 및 오디오 신호가 포함되어 있는 동영상 데이터로부터 오디오 신호를 추출하여 오디오 신호에 대한 오디오 핑거프린트 데이터를 생성 및 비교함으로써 오디오 데이터 뿐 아니라 동영상 데이터의 무단 복사 및 도용 여부를 간편하게 판별할 수 있으며, 나아가 동영상 데이터의 일부만을 편집하여 도용하는 경우에도 손쉽게 적용할 수 있는 오디오 데이터 비교 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다. Also, determine the present invention is easily copied and stolen if the video data as well as audio data, by extracting an audio signal from the video data that includes a video signal and an audio signal generation and compares the audio fingerprint data for an audio signal can, and to provide a further method to compare the audio data that can be easily applied when shaving to edit only a portion of the video data and device to another purpose.

상기한 바와 같은 목적을 달성하기 위한 본 발명은, 오디오 데이터로부터 오디오 핑거프린트 데이터를 생성하는 오디오 핑거프린트 데이터 생성 방법에 있어서, 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계; The present invention for achieving the object as described above, the method comprising: in the generated audio fingerprint data, a method of generating an audio fingerprint data from the audio data, dividing the audio data into at least one first frame; 상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하는 단계; Extracting characteristic data for each of the divided first frame; 상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성하는 단계; Generating a feature distribution data representing a distribution characteristic of the characteristic data for each of the divided first frame; 상기 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할하는 단계; Dividing the audio data into at least one second frame; 상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하는 단계; The method comprising using a feature distribution data generated with respect to the first frame, the generated audio fingerprint data for each of the second frame; 및 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터의 집합에 의해 상기 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 생성하는 단계를 포함하는 오디오 핑거프린트 데이터 생성 방법을 제공한다. And it provides a second frame of each generated audio finger print data includes generating an audio fingerprint data for all the audio data by a set of audio fingerprint data method for.

여기에서, 상기 오디오 데이터는 비디오 신호 및 오디오 신호가 포함된 동영상 데이터로부터 추출된 것일 수 있다. Here, the audio data may be extracted from video data that includes a video signal and an audio signal.

또한, 상기 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계 이전에, 상기 오디오 데이터를 소정 주파수 대역으로 정규화하는 단계를 더 포함할 수 있다. Further, prior to the step of dividing the audio data into at least one first frame, the method may further include the step of: normalizing the audio data in a predetermined frequency band.

또한, 상기 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계는, 분할되는 하나의 프레임과 인접하는 다음 시간 간격의 프레임이 서로 공통되는 부분을 갖도록 분할할 수 있다. In addition, dividing the audio data into at least one first frame, there is a frame in the next time interval adjacent to the one frame to be divided can be divided so as to have a portion common to each other.

또한, 상기 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할하는 단계는, 분할되는 하나의 프레임과 인접하는 다음 시간 간격의 프레임이 서로 공통되는 부분을 갖도록 분할할 수 있다. In addition, dividing the audio data into at least one second frame, the frame in the next time interval adjacent to the one frame to be divided can be divided so as to have a portion common to each other.

또한, 상기 제2 프레임 각각의 길이는 상기 제1 프레임 각각의 길이 보다 긴 것일 수 있다. Also, the second frame, each length may be longer than the length of each of the first frame.

또한, 상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하는 단계는, 상기 분할된 제1 프레임들 각각에 대하여, MFCC(Mel Frequency Cepstral Coefficient), PLPC(Perceptual Linear Prediction Coefficient) 또는 LPC(Linear Prediction Coefficient) 중에서 적어도 어느 하나 이상의 조합을 사용하여 특징 벡터를 추출하도록 구성할 수 있다. Further, the step of extracting characteristic data for each of the divided first frame, for each of the divided first frame, MFCC (Mel Frequency Cepstral Coefficient), PLPC (Perceptual Linear Prediction Coefficient) or LPC (Linear Prediction Coefficient) using at least one or more combinations among which can be configured to extract a feature vector.

또한, 상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성하는 단계는, 특징 벡터들을 적어도 하나 이상의 그룹들로 그룹화하고 각각의 그룹에 대한 인덱스값을 저장하고 있는 코드북을 참조하여, 상기 분할된 제1 프레임들 각각에 대하여 인덱스값을 산출함으로써 특징 분포 데이터를 생성할 수 있다. Further, the step of generating a feature distribution data representing a distribution characteristic of the characteristic data for each of the divided first frame has, at least are grouped into one or more groups the feature vectors and storing the index values ​​for each group, and refer to the code book to that, it is possible to generate the feature distribution data by calculating an index value for each of the divided first frame.

여기에서, 상기 코드북은 상기 그룹별로 특징 벡터들의 평균값을 가지며, 상기 분할된 제1 프레임들 각각에 대한 특징 벡터들과 상기 각 그룹별 특징 벡터들의 평균값과의 거리에 의해 인덱스값을 산출하는 것일 수 있다. Here, the codebook may be to have a mean value of feature vectors for each said group, calculating the index value by the distance of the mean value and of the feature vector and the respective group-specific feature vector for said division of the first frame, respectively have.

또한, 상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하는 단계에 있어서, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터는, 상기 각각의 제2 프레임들에 포함되는 제1 프레임들 각각에 대한 특징 분포 데이터의 빈도를 계산함으로써 생성될 수 있다. Further, by using the feature distribution data generated with respect to the first frame and the second in the step of generating an audio fingerprint data for the frame, respectively, an audio fingerprint data for each of the second frame , it may be generated by computing a frequency distribution of the feature data for each of a first frame is included in a second frame of the above.

본 발명의 다른 측면에 의하면, 오디오 데이터로부터 오디오 핑거프린트 데이터를 생성하는 오디오 핑거프린트 데이터 생성 장치에 있어서, 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하고, 상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하고, 상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성하고, 상기 오디오 데 이터를 적어도 하나 이상의 제2 프레임들로 분할하고, 상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하고, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터의 집합에 의해 상기 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 생성하는 오디오 핑 According to another aspect of the present invention, in the audio fingerprint data generating device for generating the audio fingerprint data from the audio data, the audio data is divided into at least one first frame, each of the divided first frame extracting feature data to, and to generate a feature distribution data for each of the divided first frame representing the distribution characteristic of the characteristic data, dividing the audio data into at least one or more second frames wherein using the feature distribution data generated with respect to the first frame, the second frame to generate the audio fingerprint data for each, and the second frame, the entirety of the audio data by a set of audio fingerprint data for each audio mapping to generate an audio fingerprint data for 프린트 데이터 생성부를 포함하는 오디오 핑거프린트 데이터 생성 장치를 제공할 수 있다. Generating print data that can provide audio fingerprint data generating apparatus comprising: a.

본 발명의 또 다른 측면에 의하면, 상기한 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와 원본 오디오 데이터의 동일성 여부를 비교하는 오디오 데이터 비교 방법에 있어서, 상기 원본 오디오 데이터를 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계; According to still another aspect of the present invention, in comparison with the audio data and the audio data comparison method for comparing the identity if the original audio data having the audio fingerprint data produced by the method described above, the comparison of the original audio data dividing the at least one or more segments to correspond to the size of the target audio data; 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계; Calculating a distance between the comparison-object audio data of the audio fingerprint data and the at least one segment, each audio fingerprint data segment; 상기 세그먼트별로 산출된 거리의 최대값을 결정하는 단계; Determining a maximum value of the distance calculated by said segments; 및 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 원본 오디오 데이터와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계를 포함하는 오디오 데이터 비교 방법을 제공한다. And by comparing the magnitude of the maximum value and the threshold value, wherein if the maximum value is greater than the threshold value, the comparison-object audio data is the determination that there is original audio data and the identity, and has the comparison when the maximum value is less than a threshold target audio data provides an audio data comparison method includes determining that there is no audio data and the original identity.

여기에서, 상기 원본 오디오 데이터를 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계는, 분할되는 하나의 세그먼트와 인접하는 다음 시간 간격의 세그먼트가 서로 공통되는 부분을 갖도록 분할할 수 있다. Here, the step of dividing the original audio data to the at least one segment so as to correspond to the magnitude of the comparison-object audio data is adjacent to the one segment which is split the next time interval segment to be divided to have portions that are common to each other can.

또한, 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계는, 상기 각각의 세그먼트에 대하여 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계; Further, the resolution agent of the comparison target audio step of data calculated by each segment, the distance between the audio fingerprint data and the at least one segment, each audio fingerprint data of the target of the comparison with respect to the segments of the respective audio data 2 frames calculating in response to frame-by-frame distance between the audio fingerprint data and the frame-by-frame an audio fingerprint data for each of the divided second frame of each segment for each in sequence; 및 상기 각각의 세그먼트 별로 상기 계산된 거리의 합을 산출하는 단계를 포함할 수 있다. And it may include the step of calculating the sum of the distances calculated by each segment of each.

또한, 상기 각각의 세그먼트에 대하여 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계는, 상기 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터와, 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터를 순차적으로 대응 비교하여 제2 프레임별로 최소값을 구하고, 제2 프레임별로 구한 최소값들의 합을 각 세그 Further, the divided second of a frame of each of the segments and the frame-by-frame an audio fingerprint data for each divide a second frame of the frame-by-frame an audio fingerprint data for each of the comparison-object audio data with respect to each of the segments calculating in response to the distance between the sequentially informs the segments of the respectively generated by the feature distribution data constituting a frame-by-frame an audio fingerprint data for the second frame of each of the comparison-object audio data the frequency data and, each by the frequency data generated by the segments making up the frame-by-frame an audio fingerprint data for the divided second frames each feature distribution data of the comparison in order corresponding to obtain the minimum value by the second frame , the sum of the minimum value determined by each second frame of each segment 먼트별로 산출할 수 있다. It can be calculated for each treatment.

또한, 상기 산출된 합을 제2 프레임의 갯수로 나누는 단계를 더 포함할 수 있다. And, the method may further includes dividing the sum by the calculated total number of the second frame.

또한, 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 원본 오디오 데이터와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계는, 상기 최대값이 임계치보다 큰 경우, 상기 원본 오디오 데이터의 크기와 상기 비교 대상 오디오 데이터의 크기를 비교하여 상기 비교 대상 오디오 데이터의 크기가 상기 원본 오디오 데이터의 크기와 동일한 경우에는 상기 비교 대상 오디오는 상기 원본 오디오 데이터와 완전히 동일한 것으로 결정하고, 상기 비교 대상 오디오 데이터의 크기가 상기 원본 오디오 데이터의 크기보다 작은 경우에는 상기 비교 대상 오디오는 상기 In addition, the comparing the size of the maximum value and the threshold value, if the if the maximum value is greater than the threshold, and the comparison-object audio data is the determination that there is original audio data and the identity, wherein the maximum value is smaller than the threshold value, the comparing the target audio data and determining that there is no the original audio data and the identity, if said maximum value is greater than the threshold, the comparator compares the size of the size and the comparison-object audio data of the original audio data with the audio data, If the size equal to the size of the original audio data, the comparison-object audio is a target of the comparison is determined to be completely identical with the original audio data, if the size of the comparison-object audio data is smaller than the size of the original audio data audio the 원본 오디오 데이터와 부분적으로 동일한 것으로 결정할 수 있다. It may be determined to be the same as the original audio data and partial.

본 발명의 또 다른 측면에 의하면, 상기한 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와 원본 오디오 데이터의 동일성 여부를 비교하는 오디오 데이터 비교 장치에 있어서, 상기 원본 오디오 데이터를 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하고, 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하고, 상기 세그먼트별로 산출된 거리의 최대값을 결정하고, 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 원본 오디오 데이터와 동일성이 있는 것으로 결정하고, 상기 최대값이 According to still another aspect of the present invention, in the comparing the identity if the comparison target audio data and the original audio data having the audio fingerprint data produced by the method described above the audio data comparison device, the comparison of the original audio data divided into one or more segments to correspond to the size of the target audio data and calculating for each segment a distance between the comparison-object audio data of the audio fingerprint data and the at least one segment, each audio fingerprint data, and each said segment by determining the maximum value of the calculated distance, and comparing the magnitude of the maximum value and the threshold value, wherein if the maximum value is greater than the threshold, and the comparison-object audio data is the determination that there is original audio data and the identity, the maximum this value 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 오디오 데이터 비교부를 포함하는 오디오 데이터 비교 장치를 제공할 수 있다. Is smaller than the threshold value, the comparison-object audio data may provide an audio data comparison device including the audio data compared to determine that there is no audio data and the original identity.

본 발명의 또 다른 측면에 의하면, 상기한 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와, 상기한 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 원본 오디오 데이터들로 구성된 오디오 데이터의 동일성 여부를 비교하는 오디오 데이터 비교 방법에 있어서, 상기 오디오 데이터베이스에 포함된 원본 오디오 데이터들 각각을 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계; According to still another aspect of the present invention, in which an audio fingerprint data produced by the method described above compared with the audio data and the audio data are configured having an audio fingerprint data produced by the aforementioned methods with the original audio data in the case of audio data comparison method for comparing the identity or not, the method comprising dividing at least one or more segments corresponding to the original audio data included in each of the audio database, the size of the comparison-object audio data; 상기 각각의 원본 오디오 데이터들에 대하여, 각 원본 오디오 데이터의 각각의 세그먼트의 오디오 핑거프린트 데이터와 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계; The method comprising with respect to each of said original audio data, calculates the distance between the original audio data of the respective segment of audio fingerprint data and the comparison-object audio data, the audio fingerprint of the data segment; 상기 모든 원본 오디오 데이터들의 모든 세그먼트에 대하여, 상기 산출된 거리의 최대값을 결정하는 단계; Further comprising: for all segments of all of the original audio data, determining a maximum value of the calculated distance; 및 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 오디오 데이터베이스의 원본 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 오디오 데이터베이스의 모든 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계를 포함하는 오디오 데이터 비교 방법을 제공한다. And wherein the maximum value and by comparing the threshold size, the case the maximum value is greater than the threshold value, and determines that the comparison-object audio data that has at least one and the identity of the original audio data of the audio database, the maximum value If less than the threshold, the comparison target audio data and provides the audio data comparison comprises determining that do not have all the original audio data and the identity of the audio database.

여기에서, 상기 오디오 데이터베이스에 포함된 원본 오디오 데이터들 각각을 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계는, 분할되는 하나의 세그먼트와 인접하는 다음 시간 간격의 세그먼트가 서로 공통되는 부분을 갖도록 분할할 수 있다. Here, the next time interval segment adjacent to a segment comprising: dividing the original audio data each included in the audio database with at least one segment so as to correspond to the magnitude of the comparison-object audio data, which are divided from each other to have in common can be divided.

또한, 상기 각각의 원본 오디오 데이터들에 대하여, 각 원본 오디오 데이터의 각각의 세그먼트의 오디오 핑거프린트 데이터와 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계는, 상기 각각의 원본 오디오 데이터들의 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계; Also, the method comprising: with respect to each of said original audio data, calculates the distance between each of the source audio data, each segment the audio fingerprint data and the comparison-object audio data to an audio fingerprint data of the segment, the respective for each segment of original audio data, and the comparison-object audio data segmented second frames each frame-by-frame an audio fingerprint data and the divided for each segment, the second frame of frame-by-frame an audio fingers for each of the calculating in response to the distance between the printing data sequentially; 및 상기 각각의 원본 오디오 데이터들에 대하여, 상기 각각의 세그먼트 별로 상기 계산된 거리의 합을 산출하는 단계를 포함할 수 있다. And it may include the step of: with respect to each of said original audio data, calculating a sum of said calculated distance for each segment of each.

또한, 상기 각각의 원본 오디오 데이터들의 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계는, 상기 각각의 원본 오디오 데이터들의 상기 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터와, 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터를 순차적으로 대응 비교하여 제2 프레 In addition, for each segment of each of said original audio data, to each of the divided second frame of a frame-by-frame an audio fingers each of the segments with the print data for each of the divided second frame of the comparison-object audio data step of the of frame-to-frame distance between the audio fingerprint data corresponding to the sequential calculation, specific for each segment in the of the respective original audio data frame for each of the comparison the second frame of the target audio data the resulting frequency by a and the frequency data generated by the feature distribution data constituting the audio fingerprint data, the feature histogram data making up the frame-by-frame an audio fingerprint data for each of the divided second frame of the respective segment the data compare in sequence corresponding to the second frame 별로 최소값을 구하고, 제2 프레임별로 구한 최소값들의 합을 각 세그먼트별로 산출할 수 있다. By obtaining the minimum value, it is possible to calculate the sum of the second frame obtained by the minimum value for each segment.

여기에서, 상기 산출된 합을 제2 프레임의 갯수로 나누는 단계를 더 포함할 수 있다. Here, the method may further includes dividing the sum by the calculated total number of the second frame.

또한, 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 오디오 데이터베이스의 원본 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 오디오 데이터베이스의 모든 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계는, 상기 최대값이 임계치보다 큰 경우, 상기 최대값을 갖는 원본 오디오 데이터의 크기와 상기 비교 대상 오디오 데이터의 크기를 비교하여 상기 비교 대상 오디오 데이터의 크기가 상기 최대값을 갖는 원본 오디오 데이터의 크기와 동일한 경우에는 상기 비교 대상 오디오는 상기 최대값을 갖는 원본 오디오 데이터와 완전히 동일한 것으로 결정하고, 상 In addition, the comparing the size of the maximum value and the threshold value, if the maximum value is greater than the threshold value, and determines that the comparison-object audio data that has at least one and the identity of the original audio data of the audio database, the maximum value is smaller than the threshold value, when the comparison-object audio data and determining that there is no all original audio data and the identity of the audio database, the maximum value is greater than the threshold value, the size of the original audio data having the maximum value and compares the magnitude of the comparison target audio data when the size of the comparison-object audio data equal to the size of the original audio data having the maximum value, the comparison-object audio is determined to be completely identical to the original audio data having the maximum value and the 기 비교 대상 오디오 데이터의 크기가 상기 최대값을 갖는 원본 오디오 데이터의 크기보다 작은 경우에는 상기 비교 대상 오디오는 상기 최대값을 갖는 원본 오디오 데이터와 부분적으로 동일한 것으로 결정할 수 있다. If the size of the group compare to the audio data is smaller than the size of the original audio data having the maximum value, the comparison-object audio can be determined to be the same in part and the original audio data having the maximum value.

본 발명의 또 다른 측면에 의하면, 상기한 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와, 상기한 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 원본 오디오 데이터들로 구성된 오디오 데이터의 동일성 여부를 비교하는 오디오 데이터 비교 장치에 있어서, 상기 오디오 데이터베이스에 포함된 원본 오디오 데이터들 각각을 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하고, 상기 각각의 원본 오디오 데이터들에 대하여, 각 원본 오디오 데이터의 각각의 세그먼트의 오디오 핑거프린트 데이터와 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하고, 상기 모든 원본 오디오 데이터들의 모든 세그먼트에 대하여, 상기 According to still another aspect of the present invention, in which an audio fingerprint data produced by the method described above compared with the audio data and the audio data are configured having an audio fingerprint data produced by the aforementioned methods with the original audio data in the case of audio data comparison device for comparing the identity, whether the original audio data each included in the audio database, divided into one or more segments to correspond to the magnitude of the comparison-object audio data, to each of the original audio data for calculating the distance between each of the respective segment of the original audio data, the audio fingerprint data and the comparison-object audio data, the audio fingerprint of the data segment, and for all the segments of all of the original audio data, wherein 산출된 거리의 최대값을 결정하고, 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 오디오 데이터베이스의 원본 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 오디오 데이터베이스의 모든 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 오디오 데이터 비교부를 포함하는 오디오 데이터 비교 장치를 제공한다. By determining the maximum value of the calculated distance, and comparing the magnitude of the maximum value and the threshold value, it is at least either the identity of the original audio data in the case wherein the maximum value is greater than the threshold value, the comparison-object audio data is the audio database If determined to be in, and the said maximum value is smaller than the threshold value, the comparison-object audio data provides an audio data comparison device including the audio data comparator determines that not all of the original audio data and the identity of the audio database.

이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. Next, it will be described in detail a preferred embodiment of the invention with reference to the accompanying drawings.

도 1은 본 발명에 의한 오디오 핑거프린트 데이터 생성 방법 및 이를 이용한 오디오 데이터 비교 방법을 수행하기 위한 오디오 핑거프린트 생성 및 오디오 데이 터 비교 장치(100)와 다른 구성 요소간의 결합 관계를 나타낸 구성도이다. 1 is a configuration diagram showing a coupling relationship between a method of generating an audio fingerprint data according to the present invention and the audio fingerprint generated for performing the audio data comparison method using the same, and audio data comparison device 100 and other components in FIG.

도 1을 참조하면, 본 발명에 의한 오디오 핑거프린트 데이터 생성 방법 및 이를 이용한 오디오 데이터 비교 방법을 수행하기 위한 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100)는, 오디오 핑거프린트 데이터 생성부(20), 오디오 데이터 비교 서버(30) 및 오디오 데이터베이스(40)를 포함한다. 1, the audio fingerprint generated and the audio data comparison unit 100, an audio fingerprint data generator 20 for performing an audio fingerprint data generation method and the audio data compared using the same method according to the invention includes audio data compared to the server 30 and the audio database 40. 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100)는, 오디오 데이터 입력 장치(10)와 결합하여 이들로부터 오디오 데이터를 입력받는다. Audio fingerprint generated and the audio data comparison unit 100, receives the audio data from these in conjunction with the audio data input device 10.

오디오 데이터 입력 장치(10)는 예컨대, 인터넷의 웹페이지, PC 및 모바일 단말기일 수 있으며, 오디오 데이터 또는 비디오 데이터 및 오디오 데이터가 포함된 동영상 데이터를 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100)로 전송한다. To an audio data input device 10 is, for example, Web pages on the Internet, PC and mobile device may be the audio data or the video data and the video data to an audio fingerprint generated with audio data and audio data comparison device 100 send. 여기서, 오디오 데이터 입력 장치(10)는 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100)로 오디오 데이터 또는 동영상 데이터를 전송하기 위한 기능을 수행할 수 있는 모든 수단을 의미하며 도 1에 도시한 것에 한정되는 것은 아니다. Here, the audio data input device 10 is limited to those shown in and Fig. 1 refers to any means capable of performing the function for transmitting audio data or video data to an audio fingerprint generated and the audio data comparison device 100 it is not. 예컨대, 오디오 데이터 입력장치(10) 중의 인터넷의 웹페이지의 경우에는 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100) 내에 인터넷상의 웹페이지에 포함되어 있는 오디오 데이터 또는 동영상 데이터를 자동으로 추출하는 로봇을 포함시키고, 이러한 로봇에 의해 오디오 데이터 또는 동영상 데이터를 오디오 핑거프린트 생성 및 오디오 데이터 비교 장치(100)로 전송할 수 있다. For example, the audio data input unit 10 for a web page on the Internet of the audio fingerprint generated and the audio data comparison unit 100, a robot which automatically extracts the audio data or the video data included in the web page on the Internet in the It may include and transmit the audio data or video data by such a robot to the audio fingerprint generated and the audio data comparison unit 100. the

오디오 핑거프린트 데이터 생성부(20)는 오디오 데이터 입력 장치(10)로부터 오디오 데이터 또는 동영상 데이터를 입력받아 이로부터 오디오 데이터의 특징을 나타내는 오디오 핑거프린트 데이터를 생성하는 역할을 수행한다. Audio fingerprint data generating section 20 receives the audio data or video data from the audio data input unit 10 serves to generate an audio fingerprint data indicating a feature of the audio data therefrom. 오디오 핑거프린트 데이터 생성부(20)는, 원본 오디오 데이터들에 대해서는 미리 오디오 핑거프린트 데이터를 생성하여 두고 이들을 오디오 데이터베이스(40)로 전송하여 저장하도록 하며, 원본 오디오 데이터들과 비교할 비교 대상 오디오 데이터에 대해서는 오디오 핑거프린트 데이터를 생성하여 이를 오디오 데이터 비교 서버(30)로 전송하여 오디오 데이터 비교 서버(30)에서 오디오 데이터베이스(40) 내에 저장되어 있는 원본 오디오 데이터들의 오디오 핑거프린트 데이터와 비교하여 동일성 여부를 비교할 수 있도록 한다. To, compare to the audio data to be compared with the original audio data and the audio fingerprint data generating unit 20 is placed to create a pre audio fingerprint data for the original audio data to store them and transfer it to the audio database 40 for the identity whether to generate an audio fingerprint data compared audio and transmits it to the data comparison server (30) and audio data compared to server 30 is stored in the audio database 40, an audio fingerprint data of the original audio data in so that you can compare. 여기에서, 오디오 핑거프린트 데이터 생성부(20)는 입력되는 데이터가 비디오 데이터 및 오디오 데이터가 포함되어 있는 동영상 데이터인 경우에는, 이 동영상 데이터로부터 오디오 데이터만을 추출하는 수단을 포함할 수 있으며, 이러한 수단에 의하여 동영상 데이터로부터 오디오 데이터만을 추출하고 추출된 오디오 데이터에 대한 오디오 핑거프린트 데이터를 생성하여 이를 오디오 데이터베이스(40)로 전송한다. Here, when an audio fingerprint data generator 20 is input data is video data that includes video data and audio data, may comprise a means to extract only audio data from the video data, this means by extracting only the audio data from the video data and generating an audio fingerprint data for the extracted audio data and transmits it to the audio database 40. 오디오 핑거프린트 데이터의 구체적인 생성 방법에 대해서는 후술한다. It will be given later of a detailed method for generating an audio fingerprint data.

오디오 데이터베이스(40)는 오디오 핑거프린트 데이터 생성부(20)에서 생성된 원본 오디오 데이터에 대한 오디오 핑거프린트 데이터를 저장한다. The audio database 40 stores the audio fingerprint data for the original audio data generated by the audio fingerprint data generator 20. 또한 필요한 경우 원본 오디오 데이터 자체도 저장한다. And also it stores the original audio data itself if necessary.

오디오 데이터 비교 서버(30)는 오디오 핑거프린트 데이터 생성부(20)에 의해 생성된 오디오 핑거프린트 데이터를 갖는 오디오 데이터들을 서로 비교하여 이들의 일치 여부를 판별하는 역할을 수행하기 위한 것으로서, 원본 오디오 데이터들 에 대하여 미리 생성된 오디오 핑거프린트 데이터들을 저장하는 오디오 데이터베이스(40)와 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터를 비교하여 이들의 일치 여부를 판별한다. Audio data comparison server 30 serves to play a role in determining their match by comparing the audio data having the audio fingerprint data generated by the audio fingerprint data generating part 20 to each other, the original audio data the comparison of pre-produced audio fingers compared to the audio database 40 for storing print data, audio fingers of the target audio data by the print data to the discriminates thereof match.

도 2는 본 발명에 의한 오디오 핑거프린트 데이터 생성 방법 및 이를 이용한 오디오 데이터 비교 방법의 전체 과정을 개략적으로 설명하기 위한 도면이다. 2 is a view for schematically explaining the entire process of the method of generating an audio fingerprint data according to the present invention and how audio data compared using the same.

도 2를 참조하면, 우선, 도 1의 오디오 핑거프린트 데이터 생성부(20)에 의해 원본 오디오 데이터들에 대한 오디오 핑거프린트 데이터를 미리 생성해 두고(S201), 생성된 원본 오디오 데이터들의 오디오 핑거프린트 데이터들을 오디오 데이터베이스(40)에 저장한다(S203). 2, the first, also are previously generated audio fingerprint data for the original audio data by the audio fingerprint data generating part 20 of 1 (S201), audio of the generated original audio data fingerprint and stores the data in the audio database (40) (S203).

다음으로, 오디오 핑거프린트 데이터 생성부(20)는 오디오 데이터 입력 장치(10)로부터 비교 대상이 되는 비교 대상 오디오 데이터를 입력받고(S205), 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터를 생성하고(S207), 생성된 비교 대상 오디오 핑거프린트 데이터를 오디오 데이터 비교 서버(30)로 전송된다. Next, the audio fingerprint data generating section 20 generates an audio fingerprint data of the audio data input unit receives the comparison-object audio data to be compared from (10) (S205), the comparison-object audio data (S207 ), and it transmits the generated audio fingerprint comparison target data to the audio data compared to the server (30).

다음으로, 오디오 데이터 비교 서버(30)는 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 오디오 데이터베이스(40)에 포함되어 있는 원본 오디오 데이터의 오디오 핑거프린트 데이터들을 비교하여 비교 대상 오디오 데이터가 오디오 데이터베이스(40)에 포함되어 있는 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는지를 판별하게 된다(S209). Next, the audio data compared to server 30 compares the target audio data to the audio database (40 compares the comparison target audio data to an audio fingerprint data and audio fingerprint data of the original audio data included in the audio database (40) ) the determination is that at least any one of the identity of the audio data included in (S209). 여기에서, 오디오 데이터베이스(40)에 포함되어 있는 오디오 데이터들과 비교한다는 것은, 오디오 데이터베이스(40)에 포함되어 있는 모든 오디오 데이터들과 비교하여 비교 대상 오디오 데이터가 오디오 데이터베이스(40)에 포함되어 있는 오디오 데이터들 중의 적어도 어느 하나와 동일성이 있는지의 여부를 판별하는 경우와, 오디오 데이터베이스(40)에 포함되어 있는 어느 하나의 오디오 데이터와 비교하여 이와 동일성이 있는지의 여부를 판별하는 경우를 포함하는 의미이다. Here, the audio is that compared with the audio data contained in the database (40), which compares the target audio data compared to all of the audio data contained in the audio database 40 is included in the audio database (40) means including audio data in at least any case of one and in the case of identity is determined whether or not, as compared with any one of the audio data included in the audio database 40 to determine whether or not there is this sameness of to be.

도 3은 본 발명의 바람직한 일 실시예에 따른 오디오 핑거프린트 데이터 생성 방법의 전체 과정을 나타낸 흐름도이다. 3 is a flowchart showing the whole process of generating an audio fingerprint data, the method according to an embodiment of the present invention.

도 3을 참조하면, 우선 오디오 핑거프린트 데이터를 생성할 대상 데이터가 비디오 데이터를 포함하는 동영상 데이터인 경우 이로부터 오디오 데이터만을 추출한다(S301). Referring to Figure 3, first, it extracts only the audio data from it if the target data to generate the audio fingerprint data is video data, including video data (S301). 이는 본 발명과는 직접적인 관련은 없는 과정으로서, 동영상 데이터로부터 오디오 데이터를 추출하는 기술은 공지의 기술 중 어느 것을 사용하여도 무방하다. This is not a process is directly related to the present invention, a technique for extracting audio data from the video data may be used any of the known techniques. 물론, 오디오 핑거프린트 데이터를 생성할 대상 데이터가 오디오 데이터인 경우에는 상기 단계(S301)은 생략할 수 있다. Of course, if the target data to generate the audio fingerprint data is an audio data, the step (S301) may be omitted.

다음으로, 추출된 오디오 데이터를 소정 주파수 대역으로 정규화한다(S303). Next, the normalization of the audio data extracted in a predetermined frequency band (S303). 정규화는 소정의 샘플링 주파수에 의해 샘플링 변환에 의해 이루어질 수 있으며, 이는 입력되는 오디오 데이터들은 예컨대 8kHz, 11kHz, 16kHz, 22kHz, 44kHz등의 여러가지 형태의 주파수를 사용할 수 있으므로 이들을 특정 주파수 대역으로 정규화할 필요가 있기 때문이다. Normalization may be made by the sampling conversion by a predetermined sampling frequency, which is the audio data that is input are for example 8kHz, 11kHz, 16kHz, 22kHz, it may use the frequency different in the form of, such as 44kHz necessary to normalize them to the specific frequency band that is because. 정규화는 예컨대 16kHz로 정규화할 수 있는데, 16kHz 이상의 샘플링 주파수에는 고주파에 해당하는 오디오 신호 성분이 포함되어 있어 이를 처리할 신호의 양이 많아지게 되며, 이로 인해 오디오 핑거프린트 데이터 생성 속도가 저하될 수 있기 때문이다. Be normalized, for example may be may be normalized to 16kHz, 16kHz or more of the sampling frequency, contains an audio signal component corresponding to the high frequency and becomes large, the amount of the signal to process it, which is an audio fingerprint data generation speed decreases because of the Because.

다음으로, 정규화된 오디오 데이터를 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할한다(S305). Next, divide the normalized audio data, the audio data into at least one first frame (S305). 제1 프레임들이란 오디오 데이터를 일정 시간의 길이를 갖는 복수개의 프레임들을 의미하는 것으로서, '제1' 프레임이라는 용어는 후술하는 '제2' 프레임과 다른 시간 간격을 갖는다는 점을 구별하기 위한 것이다. A first frame that is intended to distinguish the fact that as meaning a plurality of frames of audio data having a length of a predetermined time, the term "first" frame has a different time interval and the "second" frame described later . 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 방법은 도 4를 참조하여 설명한다. How to divide the audio data into at least one first frame it will be described with reference to FIG. 도 4를 참조하면, 전체 오디오 데이터를 4개의 서브 프레임 시간 간격 마다 하나의 프레임으로 구성하고, 하나의 프레임은 하나의 서브 프레임 시간 간격마다 이동되어 구성되어 있음을 알 수 있다. 4, the whole audio data for each of the four sub-frame time period composed of one frame, one frame can be seen that the configuration is moved for each one sub-frame time period. 도 4에서, f 0 은 첫 번째 프레임, f 1 은 두 번째 프레임, f 2 는 세 번째 프레임을 각각 나타내고, 각각의 프레임은 4개의 서브 프레임으로 구성되어 있다. In Figure 4, f 0 is the first frame, the second frame f 1, f 2 denotes a three time frames, each frame is composed of four sub-frames. 또한, f 1 은 f 0 에 비하여 하나의 서브 프레임 시간 간격 만큼 이동되어 있으며, f 2 는 f 1 에 비하여 하나의 서브 프레임 시간 간격 만큼 이동되어 있음을 알 수 있다. Further, f 1 it is moved by a subframe time interval, and compared to f 0, f 2 It can be seen that it is shifted by one sub-frame time period than the f 1. 물론, 도 4의 경우에서와는 달리 하나의 프레임이 서로 겹치는 부분이 없도록 분할하는 것도 가능하지만, 도 4의 경우와 같이 분할되는 각 프레임들이 인접하는 다음 프레임과 서로 공통되는 부분을 갖도록 분할하는 것이 같은 길이의 오디오 데이터에 대하여 보다 정밀한 오디오 핑거프린트 데이터를 생성할 수 있으므로 바람직하다. Of course, in the case of 4 than on can also be divided so that this one frame overlap each other, unlike, but also the case of 4, such that the partition division having the following frame and another common part for each of the frames are adjacent to be as length with respect to the audio data, it is preferable because it can generate a more precise audio fingerprint data.

다음으로, 상기와 같이 분할된 제1 프레임들 각각에 대하여 오디오 데이터의 특징을 나타내는 특징 데이터를 추출한다(S307). Next, the extracting feature data indicating a feature of the audio data for each of the first frame division as described above (S307). 특징 데이터를 추출한다는 것은 오디오 데이터 자체의 고유 특징을 나타내는 특징 데이터를 오디오 데이터로부터 추출한다는 것으로서, 예컨대 분할된 제1 프레임 각각에 대하여, 종래 기술에서 사용되고 있는 MFCC(Mel Frequency Cepstral Coefficient), PLPC(Perceptual Linear Prediction Coefficient) 또는 LPC(Linear Prediction Coefficient) 중에서 적어도 어느 하나 이상의 조합을 사용하여 특징 벡터를 추출하는 방법을 사용할 수 있다. That the extracted feature data is as that extracts characteristic data representing the unique characteristic of the audio data itself from the audio data, for example, dividing the first with respect to the frame, respectively, MFCC used in the prior art (Mel Frequency Cepstral Coefficient), PLPC (Perceptual at least by using one or more combinations from the Linear Prediction Coefficient) or LPC (Linear Prediction Coefficient) it can be used a method of extracting the feature vector.

예컨대, 종래 기술의 MFCC 방식에 의해 특징 벡터를 추출하는 과정을 개략적으로 설명하면 다음과 같다. For example, when an overview of the process of extracting the feature vector by the MFCC system of the prior art as follows. 아날로그 음성 신호는 A/D 변환을 거쳐서 디지털 음성 신호 x(n)로 변환된다. Analog speech signal is via the A / D converted into a digital audio signal x (n). 디지털 음성 신호는 고대역 통과 특성을 갖는 디지털 프리엠퍼시스 필터(pre-emphasis filter)를 거치게 되는데, 이 필터를 사용하는 이유는 첫째로 인간의 외이/중이의 주파수 특성을 모델링하기 위하여 고대역 필터링을 수행하기 위함이다. Digital audio signal that will go through a digital pre-emphasis filter (pre-emphasis filter) having a band pass characteristic, the band filter and to model the frequency response of the human ear / am just because the first to use this filter It is to perform. 이는 인간의 입술에서의 방사에 의하여 20dB/decade로 감쇄되는 것을 보상하게 되어 음성 신호로부터 성도 특성만을 얻게 된다. This is to compensate for the attenuation to be 20dB / decade by radiation in the human lips are only Chengdu characteristics obtained from the audio signal. 둘째, 청각 시스템이 1 kHz이상의 스펙트럼 영역에 대하여 민감하다는 사실을 어느 정도 보상하게 된다. Second, the fact that the auditory system is sensitive to at least 1 kHz spectral region to some extent compensated for. 이러한 프리엠퍼시스 필터의 특성 H(z)는 다음과 같으며, a는 0.95~0.98 범위의 값을 사용할 수 있다. These characteristics of the pre-emphasis filter H (z) is as follows, a can be a value from the range of 0.95 ~ 0.98.

H(z) = 1 - az -1 H (z) = 1 - az -1

프리엠퍼시스 필터에 의해 프리엠퍼시스된 신호는 해밍 윈도우(hamming window)를 씌워서 블록 단위의 프레임으로 나누어진다. M. free pre-emphasis signal by the pre-emphasis filter ssuiwoseo a Hamming window (hamming window) is divided into a frame on a block-by-block basis. 이후부터의 처리는 모두 프레임 단위로 이루어진다. Processing of the after is achieved both on a frame-by-frame basis. 프레임의 크기는 보통 20 ms이며 프레임 이동은 10 ms가 흔히 사용된다. The size of the frame is typically 20 ms and 10 ms frame is moved is often used. 한 프레임의 음성 신호는 FFT(Fast Fourier Transform)를 이용하여 주파수 영역으로 변환된다. Audio signal of one frame is converted into the frequency domain using the (Fast Fourier Transform) FFT. 주파수 대역을 여러 개의 필터 뱅크로 나누고 각 뱅크에서의 에너지를 구한다. Dividing the frequency band into several filter bank obtains the energy in each bank. 밴드 에너지에 로그를 취한 후 분산 코사인 변환(discrete cosine transform, DCT)를 하면 최종적인 MFCC가 얻어진다. After taking the log to the energy band when a dispersion cosine transform (discrete cosine transform, DCT) to obtain a final MFCC. 필터 뱅크의 모양 및 중심 주파수의 설정 방법은 귀의 청각적 특성(달팽이관에서의 주파수 특성)을 고려하여 결정된다. Shape and setting of the center frequency of a filter bank is determined in consideration of the ear auditory characteristics (frequency characteristics in the cochlea). 도 5를 참조하면, 도 5에서는 삼각형 모양의 필터를 사용하였으며 중심주파수는 1kHz 까지는 선형적으로 위치하고 그 이상에서는 멜(mel) 척도로 분포하는 20개의 뱅크로 이루어져 있다. Referring to Figure 5, Figure 5, consists of a bank 20, which distribution in the melt (mel) scale was used as the filter center frequency of the triangular shape is ever located in a linear up to 1kHz and more. MFCC 계수는 예컨대 c 1 ~c 12 까지의 12개를 사용할 수 있으며 이와는 별도로 구한 프레임 로그 에너지가 추가적으로 사용되어 특징벡터는 13차 벡터를 구할 수 있다. MFCC coefficients c 1, for example c ~ available 12 to 12, and contrast, is obtained using a separate log frame energy further characteristic vector can be found that 13 primary vector. 여기에 이전 MFCC 프레임과의 차이를 고려한 1차 차분(DELTA) 13차와 1차 차분(DELTA) 간의 차이을 고려한 2차 차분(ACCELERATION) 13차를 합쳐 39차원의 특징벡터를 구할 수 있다. Here the combined first differences (DELTA) 13 primary and first secondary difference (ACCELERATION) 13 between the primary consideration chayieul difference (DELTA) considering the difference from the preceding frame MFCC can be obtained in the 39-dimensional feature vector.

이와 같은 방식에 의하여, 제1 프레임별로 특징 데이터(특징 벡터)가 추출되면, 분할된 제1 프레임들 각각에 대하여 추출한 특징 데이터를 이용하여 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성한다(S309). Thus, by such a way, when the first frame feature data (feature vector) is extracted by, and generates a characteristic distribution data by using the extracted feature data representing the distribution characteristic of the characteristic data for each of the divided first frame (S309 ).

특징 분포 데이터라 함은, 특징 데이터가 분포되어 있는 특성을 나타내는 데이터로서, 이러한 특징 분포 데이터는 미리 생성해 둔 코드북(codebook)을 참조하여 생성할 수 있다. The term feature distribution data, as data indicating the characteristic feature that the data is distributed, such feature distribution data may be generated with reference to the codebook (codebook) which had been pre-generated. 여기서, 코드북은 다수의 오디오 데이터들의 특징 벡터들을 미리 추출하여 이들이 벡터 공간에 분포시키고, 벡터 공간 상에서 특징 벡터들을 그룹화하고 각각의 그룹에 포함되어 있는 특징 벡터들의 평균값을 계산하여 이 평균값과 각 그룹에 대한 인덱스값을 저장하고 있는 데이터로 구성된다. Here, the codebook to the average value and each group in advance to extract the feature vectors of a plurality of audio data, and they are distributed in a vector space, by grouping feature vectors on the vector space, and calculates the average value of feature vectors included in each group to consist of data that store the index value.

도 6은 이러한 코드북을 생성하는 과정을 설명하기 위한 도면으로서, 설명의 편의를 위하여 2차원의 특징 벡터에 대한 코드북을 생성하는 경우를 예로 들어 설명한다. Figure 6 illustrates a case of generating a codebook for the two-dimensional feature vector diagrams for explaining the process of creating such a code book, for convenience of description as an example.

도 6을 참조하면, 2차원의 벡터 공간에 미리 획득해 놓은 다수의 오디오 데이터들에 대한 특징 벡터들을 분포시키고 이들 특징 벡터들을 그룹화한다. Referring to Figure 6, the distribution and grouping of these feature vectors of feature vectors for a plurality of audio data is preloaded to obtain the vector space in two dimensions. 그룹화하는 기준은 벡터 공간상에서 서로 인접하는 특징 벡터들을 묶는 방법을 사용할 수 있으며, 예컨대 공지의 기술인 케이-민(k-Mean) 알고리즘, LBG(Linde-Buzo-Gray) 등의 방법을 사용할 수 있다. Based on that group is available for Group By the feature vectors adjacent to each other on the vector space, such as a known technology, K - can be used Min (k-Mean) algorithm, LBG (Linde-Buzo-Gray) and a method of. 도 6에는 총 7개로 묶인 그룹들이 도시되어 있으며, 각 그룹별로 그룹에 속한 특징 벡터들의 평균값을 구할 수 있다. Figure 6 is shown that a total of seven groups bound can be determined an average value of feature vectors in the group for each group. 각 그룹별로 평균값을 구하면, 도 7과 같은 형태의 코드북을 구성할 수 있다. Ask an average value for each group, it is possible to configure the shape codebook of the same and Fig. 도 7을 참조하면, 코드북은 각 그룹의 인덱스와 평균값으로 구성되어 있음을 알 수 있다. 7, the codebook can be seen that it is composed of index and the average value of each group. 여기서, 코드북은 예컨대 64차, 128차 또는 256차 등이 될 수 있으며, 차수가 증가할수록 즉, 그룹의 개수가 증가할수록 코드북을 보다 정밀하게 구성할 수 있고, 결과적으로 특징 벡터의 분포 특징 데이터 또한 정밀하게 구할 수 있다. Here, the code book, for example, and the like can be 64th, 128 cars or 256 difference, as the order increases In other words, with increasing the number of groups can be formed by a codebook with a higher precision, as a result, distribution of feature data of the feature vector also It can be precisely determined.

이와 같이 미리 생성해 둔 코드북을 참조하면, 분할된 제1 프레임들 각각에 대한 특징 데이터(특징 벡터)들이 속해야 하는 그룹의 인덱스값을 산출할 수 있다. Referring to the code book which has been thus pre-generated, it is possible to calculate the index value of the group to the feature data (feature vector) for each of the divided first frames belong. 특징 벡터가 속해야 하는 그룹을 찾는 것은, 제1 프레임들 각각의 특징 벡터와 코드북의 각 그룹의 평균값간의 거리를 계산하여 최소값을 갖는 그룹을 특징 벡터가 속해야 하는 그룹으로 결정하는 방법을 사용할 수 있으며, 속해야 할 그룹이 결정되면 그 그룹의 인덱스값을 특징 벡터에 대한 특징 분포 데이터로서 생성하게 된다. Finding a group in which the feature vectors belong, a and 1-frames can be used for each feature vector and a method for calculating a distance between the average value for each group of the codebook determined as the group to the group having the minimum value belong to the feature vectors, When the group to be part of crystals it is generated an index value of the group as the feature distribution data of the characteristic vector.

다음으로, 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할한다(S311). Next, the split audio data into at least one second frame (S311). 오디오 데이터를 제2 프레임들로 분할하는 것은 앞서 단계(S305)에서 설명한 바와 같은 방식에 의하여 분할할 수 있다. It is to divide the audio data into the second frame can be divided by the same manner as described in step (S305) above. 다만, 여기에서 분할되는 제2 프레임들 각각의 길이는 제1 프레임보다 큰 값을 갖는다는 점에서 차이가 있다. However, the second frame length each of which is divided here is different in that it has a value greater than the first frame. 예컨대, 하나의 제1 프레임의 프레임 길이가 20ms이고, 하나의 제1 프레임이 4개의 서브 프레임으로 구성되는 경우 하나의 서브 프레임 길이는 5ms이다. For example, assuming that a frame length of a first frame of 20ms, is a case where a first frame is composed of four sub-frames of one sub-frame length is 5ms. 이 경우, 하나의 제2 프레임의 전체 길이를 4s로 하면 하나의 제2 프레임에는 200개의 제1 프레임이 포함된다. In this case, when the entire length of a second frame to the 4s has a second housing 200 it includes the first frame. 제2 프레임의 서브 프레임은 예컨대 1s 단위로 구성할 수 있으며 이 경우 하나의 제2 프레임과 인접하는 다음 프레임은 1s 단위로 간격을 두고 겹치는 부분을 갖게 된다. The can be configured as a subframe for example 1s the unit of two frames, in which case the next frame and the adjacent one of the second frame comes to have an overlapping portion at a distance to the unit 1s.

이와 같이, 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할한 후, 각 제2 프레임들에 대하여 제2 프레임별 오디오 핑거프린트 데이터를 생성한다(S313). In this way, it generates a second frame-by-frame an audio fingerprint data with respect to, the respective second frame after dividing the audio data into at least one second frame (S313). 여기서, i번째 제2 프레임에 대한 오디오 핑거프린트 데이터를 h i 라고 정의하면, h i 는 (i,o 1 ,o 2 ,o 3 ,...o L )로 정의할 수 있다. When here, is defined as an audio fingerprint data for the i-th second frame h i, h i is defined as (i, o 1, o 2 , o 3, ... o L). 여기서, i는 제2 프레임의 번 호(순서)를 나타내며, L은 앞서 설명한 바와 같은 코드북의 차수를 의미한다. Here, i denotes the number (order) of the second frame, L denotes the order of the code book as described above. o 1 ,o 2 ,o 3 ,...o L 은 각각 1~L 범위의 코드북의 그룹의 인덱스가 하나의 제2 프레임에 포함되어 있는 제1 프레임들의 특징 분포 데이터 중에서 몇 번 나타났는가를 나타내는 빈도 데이터를 의미한다. o 1, o 2, o 3 , ... o L is a few times indicating Did receive from each one to feature distribution data of the first frame in the group index of the codebook of the L range is included in a second frame of the It means the frequency data.

예컨대, 상기 단계(S305)에서 오디오 데이터를 T개의 제1 프레임으로 분할한 경우, 각각의 제1 프레임에 대한 특징 데이터를 f 1 ,f 2 ,f 3 ...f T 라 할 수 있고, 이들에 대한 특징 분포 데이터는 각각 c 1 ,c 2 ,c 3 ,...c T 라고 할 수 있다. For example, when dividing the audio data in the above step (S305) to the T first frame, the feature data for each of a first frame f 1, f 2, f 3 ... f T can be referred to, these feature distribution data for each c 1, c 2, c 3 , ... may be referred to as T c. 여기서, c 1 ,c 2 ,c 3 ,...c T 는 각각 앞서 설명한 바와 같이 코드북의 인덱스값으로서 L차의 코드북인 경우 0~L-1 범위의 값을 갖는다. Here, c 1, c 2, c 3, ... c T has a value L when the codebook of order 0 ~ L-1 range as the index value of the codebook, as described above, respectively. 이 경우, o 1 은 하나의 제2 프레임에 포함되는 제1 프레임들의 특징 분포 데이터 중에서 코드북의 첫번째 인덱스값이 해당하는 값이 몇 번 나타났는가를 나타내는 빈도 데이터를 의미한다. In this case, the o 1 means the frequency data indicating Did the displayed value to the first value of the index of the codebook from the feature distribution data of the one frame several times included in a second frame. 예컨대, 하나의 제2 프레임이 10개의 제1 프레임들로 구성되어 있는 경우, 이들 10개의 제1 프레임들 각각의 특징 분포 데이터(c 1 ,c 2 ,...c 10 )들 중에서 코드북의 첫번째 인덱스가 몇 번 포함되어 있는지를 카운트함으로써 o 1 을 구할 수 있고 같은 방식으로 두번째 인덱스가 몇번 포함되어 있는지를 카운트함으로써 o 2 를 구할 수 있게 된다. For example, in the case where the first one of the second frame is composed of a first frame 10, from among these 10 first frame of each of the feature histogram data (c 1, c 2, ... c 10) codebook o 1 to be obtained by counting how many times that it contains the index, and it is possible to obtain the o 2 by counting how many times that it includes a second index in the same way.

이와 같은 방식에 의하여, i번째 제2 프레임에 대한 o 1 ,o 2 ,o 3 ,...o L 을 구하고, (t,o 1 ,o 2 ,o 3 ,...o L )과 같은 형태로 i번째 제2 프레임에 대한 오디오 핑거프린트 데이터(h i )를 구할 수 있다. By this way, to obtain a o 1, o 2, o 3 , ... o L for the i-th second frame, such as (t, o 1, o 2 , o 3, ... o L) It can be obtained audio fingerprint data (h i) for the i-th second frame in the form.

이와 같이 각각의 제2 프레임들에 대하여 오디오 핑거프린트 데이터를 구한 후, 제2 프레임들 전체의 오디오 핑거프린트 데이터에 의해 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 생성한다(S315). Thus, to produce the audio fingerprint data for the entire audio data by each of the second and then the obtained audio fingerprint data with respect to the frame, the second frame of the entire audio data of the fingerprint (S315). 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 H라고 하면, H={h 1 ,h 2 ,h 3 ....h N }으로 정의할 수 있다. If the audio fingerprint data for the entire audio data as H, may be defined as H = {h 1, h 2 , h 3 .... h N}. 여기서 N은 제2 프레임의 갯수에 해당한다. Where N corresponds to the number of the second frame.

도 8은 도 3 내지 도 7을 참조하여 설명한 오디오 핑거프린트 생성 과정을 참고적으로 설명하기 위한 도면이다. 8 is a view for explaining the audio fingerprint generation process described above with reference to Figs. 3 to 7 by reference.

도 8을 참조하면, 우선 오디오 데이터 전체를 적어도 하나 이상의 제1 프레임들로 분할하고(S501), 분할된 제1 프레임들 중 맨 처음의 프레임으로부터 순차적으로 앞서 설명한 방법에 의하여 특징 데이터를 추출한다(도 3의 단계 S307). Figure 8, the first dividing the whole audio data into at least one first frame (S501), extracts the characteristic data by the method described above in order from the first frame of the divided first frame ( step S307) of FIG. 제1 프레임들 각각에 대해 특징 데이터가 추출되면, 코드북을 참조하여 특징 데이터들에 대한 특징 분포 데이터를 생성한다(도 3의 단계 S309, S803). When the first frame for each characteristic data is extracted, with reference to the code book and generates a characteristic distribution data for the feature data (step S309 in Fig. 3, S803).

제1 프레임들 각각에 대한 특징 분포 데이터가 생성되면, 적어도 하나 이상의 제1 프레임을 포함하는 제2 프레임들 각각에 대하여 제2 프레임별 오디오 핑거프린트 데이터를 생성한다(도 3의 단계 S313, S805). The first when the frames feature distribution data for each are generated, and at least produce a second frame-by-frame an audio fingerprint data As compared to the second frame each including one or more of the first frame (step S313, S805 in Fig. 3) . 앞서 설명한 바와 같이, 제2 프레임별 오디오 핑거프린트 데이터는 특징 데이터의 분포 특성을 나타내는 특징 분포 데이터의 빈도 데이터들로 구성되며, 이들은 도 8에 나타낸 바와 같이 히스토 그램(histogram) 형태로 표현할 수 있으므로, 본 발명에 의한 오디오 핑거프린트 데이터 생성 방법은 히스토그램 기반의 오디오 핑거프린트 데이터 생성 방법이라고 부를 수도 있을 것이다. As previously explained, the second frame-by-frame an audio fingerprint data feature consists of a data-characteristic frequency data of distribution data indicating the distribution characteristics, all of which are as shown in Fig histogram can be represented as (histogram) shape , an audio fingerprint data generating method according to the present invention may be called as generation method an audio fingerprint based on the data of the histogram.

도 9는 전술한 오디오 핑거프린트 데이터 생성 과정에 있어서 특징 분포 데이터로부터 제2 프레임별 오디오 핑거프린트 데이터를 구성하는 방법의 일예를 나타낸 것이다. 9 illustrates an example of how to configure a second frame-by-frame an audio fingerprint data from the feature histogram data in the above-described audio data, the fingerprint generation process.

도 9에서, 오디오 데이터에 대한 제1 프레임의 개수를 12개라고 가정하면, 오디오 데이터에 대한 특징 분포 데이터는 도 9에 나타낸 바와 같이 12개의 제1 프레임의 특징 분포 데이터의 집합으로 정의될 수 있다. It can be in Figure 9, assuming that 12 the number of the first frame of the audio data, the feature histogram data is defined as a set of 12 of first frame feature distribution data of the as shown in Fig. 9 for the audio data, . 도 9의 경우에서 인덱스의 수 즉, 코드북에서 그룹화해놓은 그룹의 수는 4개라고 가정하였으며, 이 경우 각 특징 분포 데이터는 도시한 바와 같이 1~4 범위의 숫자 중 어느 하나의 값을 가진다. Be an index in the case of 9 That is, the number of grouping in the code book haenoteun group was assumed to be four, in this case, each feature distribution data which has a value of one of a number of the range 1-4 as shown.

하나의 제2 프레임이 4개씩의 제1 프레임을 포함하고, 하나의 제2 프레임은 하나의 제1 프레임만큼의 시간 간격 만큼 슬라이딩 이동되어 구성되는 것으로 가정하면, 제2 프레임은 총 9개(h 1 ~h 9 )로 구성할 수 있다. Assuming that one of the second frames contains four each first frame, a second frame is composed is moved sliding by a time interval as a first frame, the second frame is a total of nine (h It may be composed of 1 ~ 9 h). 각각의 제2 프레임별 오디오 핑거프린트 데이터 h i 는 {i,o 1 ,o 2 ,o 3 ,o 4 }의 5개의 데이터로 표현되는데, 여기서 맨 앞의 i는 제2 프레임의 번호이며, o 1 ,o 2 ,o 3 ,o 4 Each of the second frame-by-frame an audio fingerprint data, h i is {i, o 1, o 2, o 3, o 4} a is represented by the five data, in which the front of the i is the number of the second frame, o 1, o 2, o 3, o 4 는 각각 전술한 바와 같이 제2 프레임 하나에 포함된 제1 프레임들의 특징 분포 데이터가 몇 번 나타났는지를 나타내는 빈도 데이터이다. Is the frequency data indicating the characteristic natneunji distribution data of the first frame included in the second frame one a few times, as described above, respectively.

예컨대, 도 9에서 h 1 은 {1,1,2,1,0}의 5개의 데이터로 표현되는데, 여기서 맨 앞의 1은 제2 프레임 번호로서 첫번째의 제2 프레임임을 나타내는 데이터이고, 그 다음의 1은 c 1 ~c 4 까지의 최초 4개의 제1 프레임들의 특징 분포 데이터(2,3,2,1)중에서 인덱스 1의 값이 1번 나타났다는 것을 나타내는 데이터이다. For example, h 1 in Fig. 9 is represented by the five data in {1,1,2,1,0}, where one of the front is the first data indicating that the second frame of a second frame number, and then 1 is data representing that the value of the index number 1 1 was characterized in the distribution data (2,3,2,1) of the first four frames of the first c ~ c 1 to 4. 마찬가지로, h 1 의 세번쩨 데이터인 2는 c 1 ~c 4 까지의 최초 4개의 제1 프레임들의 특징 분포 데이터(2,3,2,1)중에서 인덱스 2의 값이 2번 나타났다는 것을 나타내며, h 1 의 네번쩨 데이터인 1은 c 1 ~c 4 까지의 최초 4개의 제1 프레임들의 특징 분포 데이터(2,3,2,1)중에서 인덱스 3의 값이 1번 나타났다는 것을 나타내며, h 1 의 다섯번쩨 데이터인 0은 c 1 ~c 4 까지의 최초 4개의 제1 프레임들의 특징 분포 데이터(2,3,2,1)중에서 인덱스 4의 값이 0번 나타났다는 것을 나타내는 데이터들이다. Likewise, three data jje 2 h of 1 indicates that the value of the index 2 were twice from feature distribution data (2,3,2,1) of the first four frames of the first c ~ c 1 to 4, beonjje data in one of four h 1 indicates that the c ~ c was first characterized in the distribution data (2,3,2,1) of the first frame 4. the first four to the value of the index number 3 1, 1 h of five times jje data of 0 ~ c c 1, the value of the index 4 in a feature histogram data (2,3,2,1) of the first four frames of the first to fourth data are shown that were 0.

이와 같은 방식에 의하여, h 1 의 오디오 핑거프린트 데이터를 구할 수 있고, 마찬가지 방식에 의하여 h 2 ~h 9 각각에 대한 제2 프레임별 오디오 핑거프린트 데이터를 구할 수 있고, 따라서 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 구성할 수 있다. By this way, it is possible to obtain an audio fingerprint data of h 1, and to obtain the second frame-by-frame an audio fingerprint data for h 2 ~ h 9 respectively by the same manner, and thus the audio of the entire audio data you can configure the fingerprint data.

이하에서는, 전술한 바와 같은 방법에 의해 생성된 오디오 핑거프린트 데이 터를 이용하여 오디오 데이터를 비교하여 동일성 여부를 판단하는 방법에 대하여 설명한다. Hereinafter, using the audio fingerprint data produced by the same method described above will be described with respect to the method for determining whether identity as compared to audio data.

도 10은 본 발명에 의한 오디오 핑거프린트 데이터를 이용하여 오디오 데이터를 비교하는 방법의 일실시예를 나타낸 흐름도이다. 10 is a flow diagram illustrating one embodiment of a method for comparing the audio data using the audio fingerprint data according to the present invention.

우선, 오디오 데이터들을 비교하기에 앞서서, 도 1 내지 도 9를 참조하여 설명한 바와 같은 방식에 의하여 오디오 데이터들에 대한 오디오 핑거프린트 데이터를 생성해 둔다. First, prior to comparing the audio data, 1 through 9 keeps, by the same way as described generates an audio fingerprint data for the audio data. 원본 오디오 데이터들에 대해서는 미리 오디오 핑거프린트 데이터를 각각 생성하여 오디오 데이터베이스(40, 도 1 참조)에 저장하여 두고, 이들과 비교할 비교 대상이 되는 비교 대상 오디오 데이터에 대해서도 오디오 핑거프린트 데이터를 생성하고 이를 오디오 데이터 비교 서버(30)로 전송하며, 오디오 데이터 비교 서버(30)는 비교 대상 오디오 데이터에 대해 생성된 오디오 핑거프린트 데이터와 오디오 데이터베이스(40)에 저장되어 있는 원본 오디오 데이터들에 대한 오디오 핑거프린트 데이터들을 다음의 과정에 의해 비교하게 된다. Generating a preview audio fingerprint data for the original audio data, respectively to place and stored in the audio database 40 (see FIG. 1), even in comparison with the audio data to be compared to compare with those generated audio fingerprint data, and this transfer audio data compared to server 30, and the audio data compared to server 30 compares the destination audio fingers for audio audio fingerprint data generated for the data and the original audio data stored in audio database (40) print is the data compared by the following procedure. 물론, 오디오 데이터베이스(40)에 저장되어 있는 원본 오디오 데이터들을 비교하는 것도 가능하며, 오디오 데이터베이스(40)에 따로 저장하지 않고 오디오 데이터 비교 서버(30)에서 2 이상의 오디오 데이터들을 바로 비교하는 방법도 가능하다. Of course, it is also possible to compare the original audio data stored in audio database (40), and can be a way to directly compare two or more audio data from an audio database 40, the audio data compared to server 30 without stored separately in Do.

도 10을 참조하면, 우선 원본 오디오 데이터를 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트(segment)로 분할한다(S1001). 10, is divided into at least one segment (segment) first so as to correspond to the original audio data size in audio data to be compared (S1001). 도 11을 참조하면, 비교 대상 오디오 데이터의 크기와 원본 오디오 데이터의 크기가 같은 (a)의 경우에는 원본 오디오 데이터를 복수개의 개의 세그먼트로 분할할 필요가 없으며, 이러한 경우는 하나의 세그먼트만 존재한다. 11, if the comparison target of the audio data, such as the size of the size of the original audio data (a), it is not necessary to divide the original audio data into a plurality of segments, in this case, is present in only one segment . 그러나, (b)의 경우와 같이 원본 오디오 데이터의 크기가 비교 대상 오디오 데이터보다 큰 경우에는 도 11에 나타낸 바와 같이 하나의 세그먼트의 크기가 비교 대상 오디오 데이터의 크기에 상응하도록 원본 오디오 데이터를 k 1 ,k 2 ,k 3 ..의 복수개의 세그먼트로 분할할 수 있다. However, (b) the original audio data to match the size of the original audio data are compared. One segment is compare to the audio data size, as shown in FIG. 11, large case than the audio data size such as a k 1 for can be divided into a plurality of segments in the k 2, k 3 ... 이 때, 세그먼트의 분할은, 전술한 제1 프레임 및 제2 프레임 분할시 설명했던 바와 마찬가지로, 분할되는 하나의 세그먼트와 인접하는 다음 시간 간격의 세그먼트가 서로 공통되는 부분을 갖도록 분할하는 것이 보다 정교한 비교가 가능하므로 바람직하다. At this time, the division of the segments is, above the first frame and a second frame, similarly as that explained time division, partition division is sophisticated comparison than that having the following time section segments are common to each other in the gap adjacent to one of the segments it is possible therefore preferred. 세그먼트의 수가 많을 수록 보다 좁은 구간별로 오디오 핑거프린트 데이터를 비교할 수 있으므로 보다 정교한 비교가 가능하게 된다. Because the more the number of segments can compare the audio fingerprint data by a narrower interval is a more sophisticated comparison possible.

다음으로, 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기와 같이 분할된 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 각각 산출한다(S1003). Is then calculated, each segment by segment compared the distance between the target audio data of the audio fingerprint data and the at least one segment, each audio fingerprint data divided as described above (S1003). 오디오 핑거프린트 데이터 간의 거리를 계산하는 것은 다음과 같은 방식에 의해 수행될 수 있다. Calculating the distance between the audio fingerprint data may be carried out by the following manner.

전술한 바와 같이, 본 발명에 의하여 생성된 오디오 핑거프린트 데이터는 제2 프레임별 오디오 핑거프린트의 집합 H={h 1 ,h 2 ,h 3 ....h N }으로 구성되며(여기서, N은 제2 프레임의 개수), 각 제2 프레임별 오디오 핑거프린트 데이터(h i )는 h i= (i,o 1 ,o 2 ,o 3 ,...o L )로 정의할 수 있다. As described above, the audio fingerprint data generated by the present invention is composed of a second set of frame-by-frame an audio fingerprint H = {h 1, h 2 , h 3 .... h N} ( where, N may be defined as the number of the second frame), the respective second frame-by-frame an audio fingerprint data (h i) is h i = (i, o 1 , o 2, o 3, ... o L). 여기서, i는 제2 프레임의 순번을 나타내 며, L은 앞서 설명한 바와 같은 코드북의 차수를 의미하고, o 1 ,o 2 ,o 3 ,...o L 은 각각 제2 프레임에 포함된 제1 프레임들의 특징 분포 데이터(즉, 코드북의 인덱스값)이 각 인덱스별로 하나의 제2 프레임에서 몇 번 나타났는가를 나타내는 빈도 데이터를 의미한다. Here, i represents the order of the said second frame, L means a degree of the same code book described above, o 1, o 2, o 3, ... o L is first included in each second frame the frequency distribution characteristic of the frame data (that is, the value of the codebook index) indicating how many times Did displayed in one second frame of each index refers to the data.

이 경우, 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터를 H={h 1 ,h 2 ,h 3 ....h N }라 하고, 원본 오디오 데이터의 k번째 세그먼트의 오디오 핑거프린트 데이터를 H k ={h k 1 ,h k 2 ,h k 3 ....h k N }라 하면, 이들간의 거리는 다음과 같은 수식에 의해 계산할 수 있다. In this case, the comparison-object audio fingerprint of the audio data, data H = {h 1, h 2 , h 3 .... h N} d, and the audio fingerprint data of the k-th segment of original audio data, H k = Assuming that {h k 1, h k 2 , h k 3 .... h k N}, the distance between them can be calculated by the following formula.

수식 1. Formula 1.

Figure 112007033934531-pat00001

이 수식이 의미하는 것은, 비교하고자 하는 두 개의 오디오 핑거프린트 데이터의 거리는, 비교하고자 하는 두 개의 오디오 핑거프린트 데이터 각각을 구성하는 제2 프레임별 오디오 핑거프린트 데이터를 제2 프레임별로 맨 처음부터 마지막까지 순차적으로 대응시키면서 제2 프레임별 오디오 핑거프린트 데이터간의 거리(d)를 구하여 이를 합산한다는 것이다. This formula will mean, two streets of the audio fingerprint data and the second frame-by-frame audio fingerprint data constituting the two audio fingerprint data, respectively to be compared from the beginning by the second frame to be compared to the last while sequentially corresponding to obtain a distance (d) between the second frame-by-frame an audio fingerprint data is that summing them. 여기에서, 제2 프레임별 오디오 핑거프린트 데이터간의 거리(d)는 다음과 같은 수식에 의하여 계산할 수 있다. Here, the distance between the frame-by-frame an audio fingerprint data (d) can be calculated by the following formula.

수식 2 Formula 2

Figure 112007033934531-pat00002
(여기서, D는 제2 프레임의 개수이며, L은 코드북의 차수) (Wherein, D is a number of the second frame, L is the order of the code book)

상기 수식이 의미하는 것은, 대응되는 제2 프레임별 오디오 핑거프린트 데이터를 구성하는 특징 분포 데이터(코드북의 인덱스값)이 하나의 제2 프레임에서 나타난 빈도를 나타내는 빈도 데이터(o l )를 맨 처음부터 마지막까지 순차적으로 대응시키면서 최소값을 산출하여 이들의 합을 구한 후 프레임의 개수로 나눈다는 것이다. The formula is meant to, constituting the second frame-by-frame an audio fingerprint data corresponding to features distribution data (index value of the code book) is one of the (o l) the frequency representing the frequency indicated in the second frame of data from the top while corresponding to the end in order to, after calculating the minimum value obtained by dividing their sum by the number of frames. 여기서, 프레임의 개수로 나누는 과정은 생략할 수 있다. Here, the process of dividing by the number of frames may be omitted.

예컨대, h i ={3,2,3,5,3,7,9,23}이고, h k i ={3,4,5,2,23,56,3,2}라고 가정하면, 맨 앞의 데이터는 프레임의 번호이므로 이를 제외하고 두번째 값부터 순차적으로 대응시켜 최소값을 구하면, 2,3,2,3,7,3,2를 얻을 수 있고 이들의 합을 구하면 22이며, 이를 제2 프레임의 갯수로 나누면 원본 오디오 데이터와 비교 대상 오디오 데이터의 i번째 제2 프레임들의 오디오 핑거프린트 데이터 사이의 거리를 구할 수 있다. Assuming, for example, h i = {3,2,3,5,3,7,9,23} and, h k i = {3,4,5,2,23,56,3,2} , Go the previous data because the number of frames and exclude them from the second value to correspond sequentially ask the minimum value, to obtain a 2,3,2,3,7,3,2 and 22 and ask for their sum, this second dividing by the number of frames can be determined the distance between the original audio data and the comparison-object audio data i-th second frame of the audio fingerprint of the data. 이와 같이 각 제2 프레임별로 거리를 구한 후, 상기 수식 1에 의하여 제2 프레임별 거리의 합을 계산하면 비교하고자 하는 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 원본 오디오 데이터의 k번째 세그먼트의 오디오 핑거프린트 데이터간의 거리를 구할 수 있게 된다. After thus obtaining the distance of each second frame and the formula by one second frame-to-frame distance compare to the audio data of the audio fingerprint data and the audio fingers of the k-th segment of the original audio data to be compared when calculating the sum of it is possible to obtain the distance between the print data. 이와 같은 과정을 모든 세그먼트에 대해 반복하여 수행함으로써, 원본 오디오 데이터의 모든 세그먼트의 오디오 핑거프 린트 데이터와 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 계산할 수 있다. By performing the above process is repeated for every segment, it is possible to calculate the distance between the audio fingerprint data to compare to the audio data and the audio finger print data of all the segments of original audio data for each segment.

이와 같이 모든 세그먼트에 대해 세그먼트 별로 거리가 계산되면, 이들중의 최대값을 결정한다(S1005). When the distance is calculated for each segment for all segments in this manner, and determines the maximum value of these (S1005).

최대값이 결정되면, 최대값과 미리 설정해 둔 임계치의 크기를 비교하여(S1007), 비교 대상 오디오 데이터가 원본 오디오 데이터와 동일성이 있는지의 여부를 판단하게 된다. If the maximum value is determined by comparing the magnitude of the threshold-based pre-set to the maximum value (S1007), compared to the target audio data is to determine whether the original audio data and identity. 동일성이 있다는 것은 비교 대상 오디오 데이터가 원본 오디오 데이터와 완전히 동일하거나 포함되어 있다(부분 동일)는 것을 의미한다. The fact that this identity is compared to the target audio data is completely the same as or included with the original audio data (equal parts) means.

비교 결과 최대값이 임계치보다 큰 경우, 완전 동일 또는 일부 동일 여부를 판별하기 위해서, 원본 오디오 데이터와 비교 대상 오디오 데이터의 크기를 비교한다(S1009). Comparison result when the maximum value is greater than a threshold, and to determine the complete or part of the same identical or not, comparing the size of the comparison-object audio data and the original audio data (S1009). 비교 결과, 비교 대상 오디오 데이터의 크기가 원본 오디오 데이터의 크기와 동일한 경우에는 비교 대상 오디오는 원본 오디오 데이터와 완전히 동일한 것으로 결정하고(S1011), 비교 대상 오디오 데이터의 크기가 원본 오디오 데이터의 크기보다 작은 경우에는 비교 대상 오디오는 원본 오디오 데이터와 부분적으로 동일한 것으로 결정한다(S1013). The result of comparison, when the size of the comparison-object audio data equal to the size of the original audio data, compare to the audio and determined to be completely identical to the original audio data (S1011), the magnitude of the comparison-object audio data is smaller than the size of the original audio data case, the comparison-object audio is determined to be equal to the original audio data and in part (S1013).

한편, 상기 단계(S1007)에서 최대값이 임계치보다 작은 경우에는 비교 대상 오디오 데이터는 원본 오디오 데이터와 동일성이 없는 것으로 결정한다(S1015). On the other hand, if the maximum value is less than a threshold in the step (S1007), the comparison target audio data is determined to have no identity with the original audio data (S1015).

한편, 도 10 내지 도 11을 참조하여 설명한 본 발명에 의한 오디오 핑거프린트 데이터를 이용하여 오디오 데이터를 비교하는 방법의 일실시예는 적어도 하나 이상의 원본 오디오 데이터들을 포함하는 오디오 데이터베이스와 비교하는 경우에도 거의 그대로 적용할 수 있다. On the other hand, one embodiment of a method for comparing the audio data using the audio fingerprint data according to the present invention described above with reference to Figures 10 to 11 cases are almost even when compared with the audio database, comprising at least one or more of the original audio data you can still apply. 오디오 데이터베이스 전체와 비교하는 경우, 오디오 데이터베이스에 포함되어 있는 각각의 오디오 데이터에 대하여 도 10 내지 도 11을 참조하여 설명한 과정을 반복하여 수행하며, 이러한 과정을 도 12의 흐름도에 나타내었다. When compared to the entire audio database, performing repeatedly the process described with reference to FIGS. 10 to 11 for each of the audio data included in the audio database, showing this process in the flowchart of FIG. 도 12의 흐름도는 도 10의 흐름도와 비교할 때, 오디오 데이터베이스에 포함되어 있는 모든 오디오 데이터들 각각에 대하여 도 10 내지 도 11의 과정을 반복 수행한다는 점에서 차이가 있다. Flow chart of Figure 12 is different in that it repeatedly performs a process in FIG. 10 as compared to the flow diagram of all the audio data in FIG. 10 to FIG. 11 for each included in the audio database.

따라서, 도 12의 흐름도에서, 원본 오디오 데이터를 복수개의 세그먼트로 분할하는 것은 오디오 데이터베이스에 포함된 모든 원본 오디오 데이터들 각각에 대해서 수행하며(S1201, 도 10의 단계 S1001 참조), 각각의 원본 오디오 데이터들에 대하여 세그먼트별로 오디오 핑거프린트 데이터간의 거리를 산출한다(S1203, 도 10의 단계 S1003 참조). Thus, in the flow chart of Figure 12, splitting the original audio data into a plurality of segments and carried out for each of all of the original audio data included in the audio database (reference S1201, the step of Figure 10 S1001), each of the original audio data to calculate a distance between the audio fingerprint data segment by segment with respect to the (reference S1203, step S1003 in Fig. 10).

또한, 단계(S1205)에서 거리의 최대값을 결정하는 것은, 모든 오디오 데이터의 및 모든 세그먼트 별로 구한 거리로부터 최대값을 결정한다. Further, determining the maximum value for the distance at step (S1205), determines a maximum value from the distance calculated for each and every segment of all of the audio data. 또한, 단계(S1209)에서 파일 크기를 비교하는 것은, 오디오 데이터베이스에 포함된 오디오 데이터들 중에서 상기 결정된 최대값을 갖는 원본 오디오 데이터와 비교 대상 오디오 데이터의 크기를 비교하고, 크기가 동일한 경우에는 비교 대상 오디오 데이터는 오디오 데이터베이스에 포함된 오디오 데이터들 중 적어도 어느 하나와 완전히 동일한 것으로 결정하고(S1213), 원본 오디오 데이터의 크기가 비교 대상 오디오 데이터보다 큰 경우에는 비교 대상 오디오 데이터는 오디오 데이터베이스에 포함된 오디오 데이터들 중 적어도 어느 하나와 부분적으로 동일한 것으로 결정한다(S1211). In addition, to compare the size of the file in the step (S1209), compared to the size of the comparison-object audio data and the original audio data having the maximum value of the determined from among the audio data included in the audio database and, if the same size is compared. the audio data if it is determined that the very same at least any one of the audio data included in the audio database (S1213), the size of the original audio data is larger than the comparison-object audio data, compare to the audio data is the audio contained in the audio database, at least either one of the data and in part the same as that determined (S1211).

한편, 상기 단계(S1207)에서 최대값이 임계치보다 작은 경우에는 비교 대상 오디오 데이터는 오디오 데이터베이스에 포함된 모든 오디오 데이터와 동일성이 없는 것으로 결정한다(S1215). On the other hand, when the maximum value is less than a threshold in the step (S1207), the comparison target audio data is determined to have no identity with any audio data included in the audio database (S1215).

다음으로, 도 10 및 도 12에서의 임계값을 결정하기 위한 방법의 일예를 설명한다. Next, an example of a method for determining the threshold value in Fig. 10 and 12.

도 13은 앞서 살펴 본 바와 같은 원본 오디오 데이터와 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터간의 거리의 최대값의 분포도로서, 오디오 데이터베이스에 포함되어 있는 원본 오디오 데이터들의 집합의 갯수를 Q개라고 하고, 비교 대상 오디오 데이터 들 중에서 오디오 데이터베이스에 포함된 오디오 데이터가 P개, 비교 대상 오디오 데이터들 중에서 오디오 데이터베이스에 포함되지 않는 오디오 데이터들이 R개라고 할 때, P개의 비교 대상 오디오 데이터 및 R개의 비교 대상 오디오 데이터와 오디오 데이터베이스에 포함된 원본 오디오 데이터들의 오디오 핑거프린트 데이터간의 거리의 최대값에 대한 분포도는 도 13의 S1, S2로 각각 나타난다. 13 is a distribution diagram of the maximum value of the distance between the audio fingerprint data to compare to the audio data and the original audio data as the look ahead, and that Q the number of sets of the original audio data included in the audio database, dog, comparison target audio data among when the audio data contained in the audio database is to say P dogs, compared with the audio data from among audio data is not included in the audio database that R stars, P comparisons with the audio data and the R compare with audio data and the distribution of the maximum value of the distance between the original audio data, the audio fingerprint of the data contained in the audio database are shown, respectively S1, S2 of Fig.

이 때 임계치(Th)는 다음과 같은 수식에 의해 결정할 수 있다. At this time, the threshold (Th) may be determined by the following formula.

수식 3. Formula 3.

Th Th = μ 1 - α·σ 1 = Μ 1 - α · σ 1

여기서, μ 1 은 S1 곡선의 평균값이며, σ 1 은 S1 곡선의 표준편차이고, α 는 상수로서 통계적 특성에 의해 적절한 값을 사용할 수 있다. Here, μ 1 is the average value of the curve S1, σ 1 is the standard deviation of the curve S1, α may be an appropriate value by the statistical characteristics as a constant. 예컨대, α 는 1~7 사이의 실수값을 사용할 수 있다. For example, α may be a real number of 1-7. 상기 임계치를 결정하는 수식은 예시적인 것이며, 오디오 데이터베이스와 비교 대상 오디오 데이터들의 분포 특성에 따라 기타 다른 여러 가지 통계적 방법을 사용하여 결정할 수 있음은 물론이다. Formula for determining the threshold value will be illustrative, and can be determined using the number of other statistical methods, as well as according to the distribution characteristic of the audio database and the comparison-object audio data.

이상에서, 본 발명의 바람직한 실시예를 참조하여 본 발명의 구성을 설명하였으나 본 발명이 상기의 실시예들에 한정되는 것이 아님은 물론이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 첨부한 특허청구범위 및 도면 전체를 참조하여 파악되는 본 발명의 범위 내에서 여러 가지의 변형, 수정 및 개선 실시가 가능하다는 점은 자명할 것이다. Above, but with reference to a preferred embodiment of the present invention illustrating the arrangement of the present invention but not to the present invention is not limited to the above embodiments, of course, and those skilled in the art within the scope of the present invention it is identified with reference to the claims and the accompanying drawings that it is a number of variations, modifications, and improvements of the embodiments possible will be apparent. 예컨대, 본 발명은 오디오 데이터에 대해 적용한 실시예를 참고하여 설명하였으나, 전술한 바와 같이 오디오 및 비디오 신호가 포함되어 있는 동영상 데이터의 경우에도 그대로 적용할 수 있다. For example, the invention has been described with reference to embodiments applied to the audio data, it can be directly applied to the case of the video data containing the audio and video signals as described above. 즉, 동영상 데이터로부터 오디오 신호를 추출하여 오디오 신호에 대해 오디오 핑거프린트를 생성하고 이들을 비교함으로써 동영상 데이터의 동일성 여부도 손쉽게 판별할 수 있다. That is, it extracts the audio signal from the video data by generating the audio fingerprint to the audio signal and comparing them it is possible to determine with ease whether or not the identity of the video data.

본 발명에 의하면, 종래의 오디오 핑거프린트 생성 방식에 비하여 속도가 현저하게 개선되며 생성 방법이 상대적으로 간편한 오디오 핑거프린트 데이터 생성 방법 및 장치를 제공할 수 있다. According to the present invention, speed is significantly improved compared to the conventional audio fingerprint generation technique, and it is possible to provide an easy-to-use audio fingerprint data generating method and apparatus in a method for generating relative.

또한, 본 발명에 의하면, 오디오 데이터를 분석하여 오디오 데이터의 특징 데이터의 분포 특성 데이터를 이용하여 오디오 핑거프린트 데이터를 생성하므로, 종래의 방법에 비하여 오디오 데이터의 특징을 보다 정밀하게 반영할 수 있는 오디오 핑거프린트 데이터 생성 방법 및 장치를 제공할 수 있다. Further, according to the present invention, since the analysis of the audio data to generate an audio fingerprint data by using the distribution characteristic data of the characteristic data of the audio data, the audio can be accurately reflected than the characteristics of audio data compared to the conventional method finger can provide a print data generating method and apparatus.

또한, 본 발명에 의하면, 상기한 바와 같은 오디오 핑거프린트 데이터 생성 방법 및 장치에 의하여 생성되는 오디오 핑거프린트 데이터를 갖는 오디오 데이터들을 비교함에 있어서, 종래의 방식에 비하여 신속하고 정확한 비교 결과를 얻을 수 있으며 동일성 여부의 판단 오차를 현저하게 감소시킬 수 있는 오디오 데이터 비교 방법 및 장치를 제공할 수 있다. According to the present invention, in comparing the audio data having the audio fingerprint data generated by the audio fingerprint data generating method and apparatus as described above, to obtain a rapid and accurate comparison result compared to the conventional manner, and It may provide the audio data comparison method and a device which can significantly reduce the error in determining the identity or not.

또한, 본 발명에 의하면, 오디오 핑거프린트 데이터를 세그먼트로 나누어서 세그먼트별로 비교 판단할 수 있으므로 원본 오디오 데이터와 비교 대상 오디오 데이터가 부분적으로 동일한 경우에도 적용할 수 있고, 또한 부분적으로 동일한 경우 부분적으로 동일한 위치도 검출할 수 있는 오디오 데이터 비교 방법 및 장치를 제공할 수 있다. According to the present invention, can be determined by dividing the audio fingerprint data into segments comparison segment may be the same when comparing the target audio data and the original audio data is the same in part, but also the case in part the same as in part the same position as It may also provide audio data comparison method and apparatus capable of detecting.

또한, 본 발명에 의하면, 비디오 신호 및 오디오 신호가 포함되어 있는 동영상 데이터로부터 오디오 신호를 추출하여 오디오 신호에 대한 오디오 핑거프린트 데이터를 생성 및 비교함으로써 오디오 데이터 뿐 아니라 동영상 데이터의 무단 복 사 및 도용 여부를 간편하게 판별할 수 있으며, 나아가 동영상 데이터의 일부만을 편집하여 도용하는 경우에도 손쉽게 적용할 수 있는 오디오 데이터 비교 방법 및 장치를 제공할 수 있다. Further, whether or not according to the present invention, unauthorized copying and theft, as well as audio data, video data, extracts the audio signal by generating and comparing the audio fingerprint data for the audio signal from the video data that includes a video signal and an audio signal the can be easily determined, and further can provide the audio data even easier compared to a method and apparatus that can be applied if the theft by editing only a portion of the video data.

Claims (25)

  1. 오디오 데이터로부터 오디오 핑거프린트 데이터를 생성하는 오디오 핑거프린트 데이터 생성 방법에 있어서, In the generated audio fingerprint data for generating the audio fingerprint data from the audio data generation method,
    오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계; Dividing the audio data into at least one first frame;
    상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하는 단계; Extracting characteristic data for each of the divided first frame;
    상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성하는 단계; Generating a feature distribution data representing a distribution characteristic of the characteristic data for each of the divided first frame;
    상기 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할하는 단계; Dividing the audio data into at least one second frame;
    상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하는 단계; The method comprising using a feature distribution data generated with respect to the first frame, the generated audio fingerprint data for each of the second frame; And
    상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터의 집합에 의해 상기 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 생성하는 단계 By a set of audio fingerprint data for each of the second frame to produce the audio fingerprint data for all the audio data
    를 포함하는 오디오 핑거프린트 데이터 생성 방법. How to Create an audio fingerprint data including.
  2. 제1항에 있어서, According to claim 1,
    상기 오디오 데이터는 비디오 신호 및 오디오 신호가 포함된 동영상 데이터로부터 추출된 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. The audio data is a video signal and a method of generating an audio fingerprint data, characterized in that cut out from the video data contained in the audio signal.
  3. 제1항에 있어서, According to claim 1,
    상기 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계 이전에, 상기 오디오 데이터를 소정 주파수 대역으로 정규화하는 단계를 더 포함하는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. Step prior to generating the audio fingerprint data method further comprising the steps of: normalizing the audio data in a predetermined frequency band for dividing the audio data into at least one first frame.
  4. 제1항에 있어서, According to claim 1,
    상기 오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하는 단계는, 분할되는 하나의 프레임과 인접하는 다음 시간 간격의 프레임이 서로 공통되는 부분을 갖도록 분할하는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. Step, division method generated audio fingerprint data, characterized in that for dividing the next frame of the time interval and the adjacent one of the frame so as to have a portion common to each other for dividing the audio data into at least one first frame.
  5. 제1항에 있어서, According to claim 1,
    상기 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할하는 단계는, 분할되는 하나의 프레임과 인접하는 다음 시간 간격의 프레임이 서로 공통되는 부분을 갖도록 분할하는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. Step, division method generated audio fingerprint data, characterized in that for dividing the next frame of the time interval and the adjacent one of the frame so as to have a portion common to each other for dividing the audio data into at least one second frame.
  6. 제1항에 있어서, According to claim 1,
    상기 제2 프레임 각각의 길이는 상기 제1 프레임 각각의 길이 보다 긴 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. The second frame length of each of the method of generating the first frame audio fingerprint data, characterized in that is longer than each length.
  7. 제1항에 있어서, According to claim 1,
    상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하는 단계는, 상기 분할된 제1 프레임들 각각에 대하여, MFCC(Mel Frequency Cepstral Coefficient), PLPC(Perceptual Linear Prediction Coefficient) 또는 LPC(Linear Prediction Coefficient) 중에서 적어도 어느 하나 이상의 조합을 사용하여 특징 벡터를 추출하는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. Extracting characteristic data for each of the divided first frame, wherein for each of the divided first frame, MFCC (Mel Frequency Cepstral Coefficient), PLPC (Perceptual Linear Prediction Coefficient) or LPC (Linear Prediction Coefficient at least one method of generating an audio fingerprint data, characterized in that for extracting the feature vectors using at least one combination among).
  8. 제7항에 있어서, The method of claim 7,
    상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성하는 단계는, 특징 벡터들을 적어도 하나 이상의 그룹들로 그룹화하고 각각의 그룹에 대한 인덱스값을 저장하고 있는 코드북을 참조하여, 상기 분할된 제1 프레임들 각각에 대하여 인덱스값을 산출함으로써 특징 분포 데이터를 생성하는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. Generating a feature distribution data representing a distribution characteristic of the characteristic data for each of the divided first frame is a codebook that is, at least grouped into one or more groups the feature vectors and storing the index values ​​for each group reference, the divided first frame of each method of generating an audio fingerprint data, characterized in that to generate the feature distribution data by calculating an index value with respect to the.
  9. 제8항에 있어서, The method of claim 8,
    상기 코드북은 상기 그룹별로 특징 벡터들의 평균값을 가지며, 상기 분할된 제1 프레임들 각각에 대한 특징 벡터들과 상기 각 그룹별 특징 벡터들의 평균값과의 거리에 의해 인덱스값을 산출하는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. The codebook audio characterized in that has a mean value of feature vectors for each said group, calculating the index value by the distance of the mean value and of the feature vector and the respective group-specific feature vector for said division of the first frame, respectively how to create fingerprint data.
  10. 제8항에 있어서, The method of claim 8,
    상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하는 단계에 있어서, Using the feature distribution data generated with respect to said first frame, for generating an audio fingerprint data for each of the second frames,
    상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터는, 상기 각각의 제2 프레임들에 포함되는 제1 프레임들 각각에 대한 특징 분포 데이터의 빈도를 계산함으로써 생성되는 것을 특징으로 하는 오디오 핑거프린트 데이터 생성 방법. The second frame audio fingerprint data for each is generated a first frame of the feature distribution of the audio fingerprint data, characterized in that that would be produced by calculating the rate of data for each included in the second frame of the respective Way.
  11. 오디오 데이터로부터 오디오 핑거프린트 데이터를 생성하는 오디오 핑거프린트 데이터 생성 장치에 있어서, In the audio fingerprint data generating device for generating the audio fingerprint data from the audio data,
    오디오 데이터를 적어도 하나 이상의 제1 프레임들로 분할하고, 상기 분할된 제1 프레임들 각각에 대하여 특징 데이터를 추출하고, 상기 분할된 제1 프레임들 각각에 대하여 상기 특징 데이터의 분포 특징을 나타내는 특징 분포 데이터를 생성 하고, 상기 오디오 데이터를 적어도 하나 이상의 제2 프레임들로 분할하고, 상기 제1 프레임들에 대하여 생성된 특징 분포 데이터를 이용하여, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터를 생성하고, 상기 제2 프레임들 각각에 대한 오디오 핑거프린트 데이터의 집합에 의해 상기 오디오 데이터 전체에 대한 오디오 핑거프린트 데이터를 생성하는 오디오 핑거프린트 데이터 생성부 Dividing the audio data into at least one first frame, and the extracted feature data with respect to the divided first frame, respectively, and for each of the divided first frame representing the distribution characteristic of the characteristic data characterized in distribution generating the data, using the feature distribution data generated with respect to the first frame, dividing the audio data into at least one second frame, and generating the audio fingerprint data for each of the second frame and the second audio finger by a set of frames of audio fingerprint data for each generated audio fingerprint data for the whole of the audio data, the print data generating unit
    를 포함하는 오디오 핑거프린트 데이터 생성 장치. Audio fingerprint data generation device comprising a.
  12. 제1항 내지 제10항 중 어느 한 항의 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와 원본 오디오 데이터의 동일성 여부를 비교하는 오디오 데이터 비교 방법에 있어서, The method of claim 1 to claim 10, wherein any one of the way the audio data, the audio comparison method for comparing the identity finger whether the comparison target audio data and the original audio data with the print data generated by the one,
    상기 원본 오디오 데이터를 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계; Dividing the original audio data to the at least one segment so as to correspond to the magnitude of the comparison-object audio data;
    상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계; Calculating a distance between the comparison-object audio data of the audio fingerprint data and the at least one segment, each audio fingerprint data segment;
    상기 세그먼트별로 산출된 거리의 최대값을 결정하는 단계; Determining a maximum value of the distance calculated by said segments; And
    상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 원본 오디오 데이터와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계 And the comparing the size of the maximum value and the threshold value, if the if the maximum value is greater than the threshold, and the comparison-object audio data is the determination that there is original audio data and the identity, wherein the maximum value is smaller than the threshold value, the comparison target the audio data and determining that there is the original audio data and identity
    를 포함하는 오디오 데이터 비교 방법. Audio data comparator comprises a.
  13. 제12항에 있어서, 13. The method of claim 12,
    상기 원본 오디오 데이터를 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계는, 분할되는 하나의 세그먼트와 인접하는 다음 시간 간격의 세그먼트가 서로 공통되는 부분을 갖도록 분할하는 것을 특징으로 하는 오디오 데이터 비교 방법. Dividing the original audio data to the at least one segment so as to correspond to the magnitude of the comparison-object audio data, it characterized in that the partition adjacent to the one segment is divided, and then to have a portion of the time interval segments that are common to each other audio data comparison method.
  14. 제12항에 있어서, 13. The method of claim 12,
    상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계는, Calculating a distance between the comparison-object audio data of the audio fingerprint data and the at least one segment, each audio fingerprint data for each segment,
    상기 각각의 세그먼트에 대하여 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계; With respect to the segments of the respective between the comparison object segmented second frames each frame-by-frame an audio fingerprint data and the frame-by-frame an audio fingerprint data for each of the divided second frame of each of segments for the audio data, a step of calculating a distance corresponding to the sequence; And
    상기 각각의 세그먼트 별로 상기 계산된 거리의 합을 산출하는 단계 Calculating a sum of the distance calculated by the segments of the respective
    를 포함하는 것을 특징으로 하는 오디오 데이터 비교 방법. How to compare the audio data, comprising a step of including.
  15. 제14항에 있어서, 15. The method of claim 14,
    상기 각각의 세그먼트에 대하여 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계는, With respect to the segments of the respective between the comparison object segmented second frames each frame-by-frame an audio fingerprint data and the frame-by-frame an audio fingerprint data for each of the divided second frame of each of segments for the audio data, is the distance of the step of calculating corresponding in sequence,
    상기 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터와, 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터를 순차적으로 대응 비교하여 제2 프레임별로 최소값을 구하고, 제2 프레임별로 구한 최소값들의 합을 각 세그먼트별로 산출하는 것을 특징으로 하는 오디오 데이터 비교 방법. Relative to the respective segment, the comparison-object audio data, the second frames and the frequency data generated by the feature distribution data constituting a frame-by-frame an audio fingerprint data for each of the respective segments divided with a second frame of the the by respective comparison frame-by-frame an audio fingers sequentially to the frequency data generated by the feature distribution data constituting the printing data corresponding to obtain the minimum value by the second frame, calculating a sum of the second frame by the determined minimum value for each segment audio data comparison method which comprises.
  16. 제15항에 있어서, 16. The method of claim 15,
    상기 산출된 합을 제2 프레임의 갯수로 나누는 단계를 더 포함하는 것을 특징으로 하는 오디오 데이터 비교 방법. How to compare the audio data, it characterized in that the method further includes dividing the sum by the calculated total number of the second frame.
  17. 제12항에 있어서, 13. The method of claim 12,
    상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 원본 오디오 데이터와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계는, And the comparing the size of the maximum value and the threshold value, if the if the maximum value is greater than the threshold, and the comparison-object audio data is the determination that there is original audio data and the identity, wherein the maximum value is smaller than the threshold value, the comparison target the audio data and determining that there is no audio data and the original identity is
    상기 최대값이 임계치보다 큰 경우, 상기 원본 오디오 데이터의 크기와 상기 비교 대상 오디오 데이터의 크기를 비교하여 상기 비교 대상 오디오 데이터의 크기가 상기 원본 오디오 데이터의 크기와 동일한 경우에는 상기 비교 대상 오디오는 상기 원본 오디오 데이터와 완전히 동일한 것으로 결정하고, 상기 비교 대상 오디오 데이터의 크기가 상기 원본 오디오 데이터의 크기보다 작은 경우에는 상기 비교 대상 오디오는 상기 원본 오디오 데이터와 부분적으로 동일한 것으로 결정하는 것을 특징으로 하는 오디오 데이터 비교 방법. When the maximum value is greater than the threshold value, the size and the comparison target by comparing the size of the audio data when the size of the comparison-object audio data equal to the size of the original audio data includes the comparison target audio in the original audio data is the determined to be completely identical to the original audio data, if the size of the comparison-object audio data is smaller than the size of the original audio data, the comparison-object audio is audio data, characterized in that it is determined that the same partially and the original audio data comparison.
  18. 제1항 내지 제10항 중 어느 한 항의 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와 원본 오디오 데이터의 동일성 여부를 비교하는 오디오 데이터 비교 장치에 있어서, The method of claim 1 to claim 10, wherein the audio data comparison device for comparing the identity if the original audio data and the comparison-object audio data having the audio fingerprint data generated by any one of the method of,
    상기 원본 오디오 데이터를 상기 비교 대상 오디오 데이터의 크기에 상응하 도록 적어도 하나 이상의 세그먼트로 분할하고, 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터와 상기 적어도 하나 이상의 세그먼트 각각의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하고, 상기 세그먼트별로 산출된 거리의 최대값을 결정하고, 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 원본 오디오 데이터와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 오디오 데이터 비교부 The distance between the source the audio data comparison, and divided into at least one or more segments to and corresponding to the size of the target audio data and the comparison-object audio data of the audio fingerprint data and the at least one segment, each audio fingerprint data, calculating for each segment and determines a maximum value of the distance calculated by said segment, the maximum value and compared to a threshold size, in the comparison with the audio data which the original audio data and the identity, if said maximum value is greater than a threshold value determined to be, and when the maximum value is smaller than the threshold value, the comparison-object audio data is audio data comparison unit that determines that there is no audio data and the original identity
    를 포함하는 오디오 데이터 비교 장치. Audio data comparison apparatus including a.
  19. 제1항 내지 제10항 중 어느 한 항의 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와 원본 오디오 데이터들로 구성된 오디오 데이터베이스의 동일성 여부를 비교하는 오디오 데이터 비교 방법에 있어서, The method of claim 1 to claim 10, wherein any one of the way the audio data, the audio comparison method for comparing the identity finger whether the comparison target audio data and the audio database consisting of the original audio data with the print data generated by the one,
    상기 오디오 데이터베이스에 포함된 원본 오디오 데이터들 각각을 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계; Dividing the at least one or more segments corresponding to the original audio data included in each of the audio database, the size of the comparison-object audio data;
    상기 각각의 원본 오디오 데이터들에 대하여, 각 원본 오디오 데이터의 각각의 세그먼트의 오디오 핑거프린트 데이터와 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계; The method comprising with respect to each of said original audio data, calculates the distance between the original audio data of the respective segment of audio fingerprint data and the comparison-object audio data, the audio fingerprint of the data segment;
    상기 모든 원본 오디오 데이터들의 모든 세그먼트에 대하여, 상기 산출된 거리의 최대값을 결정하는 단계; Further comprising: for all segments of all of the original audio data, determining a maximum value of the calculated distance; And
    상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 오디오 데이터베이스의 원본 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 오디오 데이터베이스의 모든 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계 And the comparing the size of the maximum value and the threshold value, if the maximum value is greater than the threshold value, and determines that the comparison-object audio data that has at least one and the identity of the original audio data of the audio database, the maximum threshold value If it is smaller compared to the target audio data and determining that there is no any original audio data and the identity of the audio database
    를 포함하는 오디오 데이터 비교 방법. Audio data comparator comprises a.
  20. 제19항에 있어서, 20. The method of claim 19,
    상기 오디오 데이터베이스에 포함된 원본 오디오 데이터들 각각을 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하는 단계는, 분할되는 하나의 세그먼트와 인접하는 다음 시간 간격의 세그먼트가 서로 공통되는 부분을 갖도록 분할하는 것을 특징으로 하는 오디오 데이터 비교 방법. Dividing the at least one or more segments to correspond to the original audio data each included in the audio database, the size of the comparison-object audio data, partial segments are common to each other in an adjacent one of the segments is divided next time interval audio data comparison method, characterized in that the partition to have.
  21. 제19항에 있어서, 20. The method of claim 19,
    상기 각각의 원본 오디오 데이터들에 대하여, 각 원본 오디오 데이터의 각각의 세그먼트의 오디오 핑거프린트 데이터와 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하는 단계는, The method comprising with respect to each of said original audio data, calculates the distance between the original audio data of the respective segment of audio fingerprint data and the comparison-object audio data to an audio fingerprint data of each segment,
    상기 각각의 원본 오디오 데이터들의 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계; For each segment of each of said original audio data, the frame for each of the divided second frame of a frame-by-frame an audio fingers each of the segments with the print data for each of the divided second frame of the comparison-object audio data calculating in response to the distance between the specific audio fingerprint data in sequence; And
    상기 각각의 원본 오디오 데이터들에 대하여, 상기 각각의 세그먼트 별로 상기 계산된 거리의 합을 산출하는 단계 With respect to each of said original audio data, the method comprising: calculating a sum of the distance calculated by the segments of the respective
    를 포함하는 것을 특징으로 하는 오디오 데이터 비교 방법. How to compare the audio data, comprising a step of including.
  22. 제21항에 있어서, 22. The method of claim 21,
    상기 각각의 원본 오디오 데이터들의 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들과 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들 사이의 거리를 순차적으로 대응하여 계산하는 단계는, For each segment of each of said original audio data, the frame for each of the divided second frame of a frame-by-frame an audio fingers each of the segments with the print data for each of the divided second frame of the comparison-object audio data calculating in response to the distance between the specific audio fingerprint data are sequentially,
    상기 각각의 원본 오디오 데이터들의 상기 각각의 세그먼트에 대하여, 상기 비교 대상 오디오 데이터의 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터와, 상기 각 세그먼트의 분할된 제2 프레임들 각각에 대한 프레임별 오디오 핑거프린트 데이터들을 구성하는 특징 분포 데이터들에 의해 생성된 빈도 데이터를 순차적으로 대응 비교하여 제2 프레임별로 최소값을 구하고, 제2 프레임별로 구한 최소값들의 합을 각 세그먼트별로 산출하는 것을 특징으로 하는 오디오 데이터 비교 방법. For each segment in the of the respective original audio data, and the comparison-object a second frame in the frequency data and, each produced by the feature distribution data constituting a frame-by-frame an audio fingerprint data for each of the audio data obtaining a second frame the minimum value by using the frequency data generated by the feature distribution data constituting a frame-by-frame an audio fingerprint data for each of the divided second frame segment compared sequentially corresponds, a minimum value obtained by the second frame how to compare the audio data, characterized in that for calculating the sum of each segment.
  23. 제22항에 있어서, 23. The method of claim 22,
    상기 산출된 합을 제2 프레임의 갯수로 나누는 단계를 더 포함하는 것을 특징으로 하는 오디오 데이터 비교 방법. How to compare the audio data, it characterized in that the method further includes dividing the sum by the calculated total number of the second frame.
  24. 제19항에 있어서, 20. The method of claim 19,
    상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 오디오 데이터베이스의 원본 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 상기 비교 대상 오디오 데이터는 상기 오디오 데이터베이스의 모든 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 단계는, And the comparing the size of the maximum value and the threshold value, if the maximum value is greater than the threshold value, and determines that the comparison-object audio data that has at least one and the identity of the original audio data of the audio database, the maximum threshold value If you are smaller compared to the target audio data and determining that there is no any original audio data and the identity of the audio database,
    상기 최대값이 임계치보다 큰 경우, 상기 최대값을 갖는 원본 오디오 데이터의 크기와 상기 비교 대상 오디오 데이터의 크기를 비교하여 상기 비교 대상 오디오 데이터의 크기가 상기 최대값을 갖는 원본 오디오 데이터의 크기와 동일한 경우 에는 상기 비교 대상 오디오는 상기 최대값을 갖는 원본 오디오 데이터와 완전히 동일한 것으로 결정하고, 상기 비교 대상 오디오 데이터의 크기가 상기 최대값을 갖는 원본 오디오 데이터의 크기보다 작은 경우에는 상기 비교 대상 오디오는 상기 최대값을 갖는 원본 오디오 데이터와 부분적으로 동일한 것으로 결정하는 것을 특징으로 하는 오디오 데이터 비교 방법. When the maximum value is greater than a threshold, compared to the size of the size and the comparison-object audio data of the original audio data having the maximum value of the magnitude of the comparison-object audio data equal to the size of the original audio data having the maximum value case, the comparison-object audio when the size of the crystal, and the comparison-object audio data to be completely identical to the original audio data having the maximum value is smaller than the size of the original audio data having the maximum value is compared to the target audio is the how to compare the audio data, characterized in that for determining to be equal to the original audio data and the part having the maximum value.
  25. 제1항 내지 제10항 중 어느 한 항의 방법에 의하여 생성된 오디오 핑거프린트 데이터를 갖는 비교 대상 오디오 데이터와 원본 오디오 데이터들로 구성된 오디오 데이터베이스의 동일성 여부를 비교하는 오디오 데이터 비교 장치에 있어서, The method of claim 1 to claim 10, wherein any one of audio data comparison device for comparing the comparison-object identity if the audio data and the audio database consisting of the original audio data having the audio fingerprint data produced by the method of claim one,
    상기 오디오 데이터베이스에 포함된 원본 오디오 데이터들 각각을 상기 비교 대상 오디오 데이터의 크기에 상응하도록 적어도 하나 이상의 세그먼트로 분할하고, 상기 각각의 원본 오디오 데이터들에 대하여, 각 원본 오디오 데이터의 각각의 세그먼트의 오디오 핑거프린트 데이터와 상기 비교 대상 오디오 데이터의 오디오 핑거프린트 데이터 사이의 거리를 세그먼트별로 산출하고, 상기 모든 원본 오디오 데이터들의 모든 세그먼트에 대하여, 상기 산출된 거리의 최대값을 결정하고, 상기 최대값과 임계치의 크기를 비교하여, 상기 최대값이 임계치보다 큰 경우에는 상기 비교 대상 오디오 데이터가 상기 오디오 데이터베이스의 원본 오디오 데이터 중의 적어도 어느 하나와 동일성이 있는 것으로 결정하고, 상기 최대값이 임계치보다 작은 경우에는 Dividing the original audio data each included in the audio database with at least one segment so as to correspond to the magnitude of the comparison-object audio data, and with respect to each of said original audio data, the audio of a respective segment of each of the original audio data calculating the distance between the fingerprint data and the comparison-object audio data to an audio fingerprint data of each segment, and wherein with respect to all the segments of all of the original audio data, and determining the maximum value of the calculated distance, the maximum value and the threshold value by comparison of the size, if the maximum value is greater than the threshold value, and determines that the comparison-object audio data that has at least one and the identity of the original audio data of the audio database, when the maximum value is smaller than the threshold value, 기 비교 대상 오디오 데이터는 상기 오디오 데이터베이스의 모든 원본 오디오 데이터와 동일성이 없는 것으로 결정하는 오디오 데이터 비교부 Group compared with the audio data is the audio data to determine that there is no any original audio data and the identity of the audio database comparison unit
    를 포함하는 오디오 데이터 비교 장치. Audio data comparison apparatus including a.
KR1020070044251A 2007-05-07 2007-05-07 Method and apparatus for generating audio fingerprint data and comparing audio data using the same KR100893123B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070044251A KR100893123B1 (en) 2007-05-07 2007-05-07 Method and apparatus for generating audio fingerprint data and comparing audio data using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070044251A KR100893123B1 (en) 2007-05-07 2007-05-07 Method and apparatus for generating audio fingerprint data and comparing audio data using the same

Publications (2)

Publication Number Publication Date
KR20080098878A KR20080098878A (en) 2008-11-12
KR100893123B1 true KR100893123B1 (en) 2009-04-10

Family

ID=40286098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070044251A KR100893123B1 (en) 2007-05-07 2007-05-07 Method and apparatus for generating audio fingerprint data and comparing audio data using the same

Country Status (1)

Country Link
KR (1) KR100893123B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101315970B1 (en) * 2012-05-23 2013-10-08 (주)엔써즈 Apparatus and method for recognizing content using audio signal
US8886635B2 (en) 2012-05-23 2014-11-11 Enswers Co., Ltd. Apparatus and method for recognizing content using audio signal
WO2016024734A1 (en) * 2014-08-14 2016-02-18 주식회사 비글컴퍼니 Audio signal processing system and method for searching for sound source of broadcast content
KR101608849B1 (en) 2014-08-14 2016-04-04 주식회사 비글컴퍼니 Audio signal processing system and method for searching sound source used broadcast contents
KR101647012B1 (en) * 2015-11-13 2016-08-23 주식회사 비글컴퍼니 Apparatus and method for searching music including noise environment analysis of audio stream

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110010084A (en) * 2010-11-26 2011-01-31 (주)엔써즈 Method and system for providing contents related service using fingerprint data
KR101382356B1 (en) * 2013-07-05 2014-04-10 대한민국 Apparatus for forgery detection of audio file
KR20150133527A (en) 2014-05-20 2015-11-30 삼성전자주식회사 Method for data deduplication
KR101672123B1 (en) * 2015-03-02 2016-11-03 한국방송공사 Apparatus and method for generating caption file of edited video

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060033867A (en) * 2003-06-23 2006-04-20 소니 픽쳐스 엔터테인먼트, 인크. Fingerprinting of data
KR20060047451A (en) * 2004-04-22 2006-05-18 삼성전자주식회사 Method for determining variable length of frame for preprocessing of a speech signal and method and apparatus for preprocessing a speech signal using the same
JP2007065659A (en) 2005-09-01 2007-03-15 Seet Internet Ventures Inc Extraction and matching of characteristic fingerprint from audio signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060033867A (en) * 2003-06-23 2006-04-20 소니 픽쳐스 엔터테인먼트, 인크. Fingerprinting of data
KR20060047451A (en) * 2004-04-22 2006-05-18 삼성전자주식회사 Method for determining variable length of frame for preprocessing of a speech signal and method and apparatus for preprocessing a speech signal using the same
JP2007065659A (en) 2005-09-01 2007-03-15 Seet Internet Ventures Inc Extraction and matching of characteristic fingerprint from audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
송원식 외 2명, '다중 레벨 양자화 기법을 적용한 오디오 핑거프린트 추출방법' ,한국음향학회지 제25권 제4호 pp. 151-158 ,2006.05.02.

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101315970B1 (en) * 2012-05-23 2013-10-08 (주)엔써즈 Apparatus and method for recognizing content using audio signal
WO2013176329A1 (en) * 2012-05-23 2013-11-28 (주)엔써즈 Device and method for recognizing content using audio signals
US8886635B2 (en) 2012-05-23 2014-11-11 Enswers Co., Ltd. Apparatus and method for recognizing content using audio signal
WO2016024734A1 (en) * 2014-08-14 2016-02-18 주식회사 비글컴퍼니 Audio signal processing system and method for searching for sound source of broadcast content
KR101608849B1 (en) 2014-08-14 2016-04-04 주식회사 비글컴퍼니 Audio signal processing system and method for searching sound source used broadcast contents
KR101647012B1 (en) * 2015-11-13 2016-08-23 주식회사 비글컴퍼니 Apparatus and method for searching music including noise environment analysis of audio stream

Also Published As

Publication number Publication date
KR20080098878A (en) 2008-11-12

Similar Documents

Publication Publication Date Title
US5027408A (en) Speech-recognition circuitry employing phoneme estimation
Pitz et al. Vocal tract normalization equals linear transformation in cepstral space
Arik et al. Deep voice: Real-time neural text-to-speech
US5937384A (en) Method and system for speech recognition using continuous density hidden Markov models
EP2793223B1 (en) Ranking representative segments in media data
US8842844B2 (en) Segmenting audio signals into auditory events
KR100873396B1 (en) Comparing audio using characterizations based on auditory events
US5638486A (en) Method and system for continuous speech recognition using voting techniques
JP2691109B2 (en) Speech coding apparatus having a speaker dependent prototypes generated from non-user reference data
CN1277248C (en) Speech recognition system
AU2002242265B2 (en) Method for time aligning audio signals using characterizations based on auditory events
NL1021593C2 (en) A method for determining the degree of acoustic confusion, and a system therefor.
JP5218052B2 (en) Language model generation system, the language model generating method and language model generation program
Grézl et al. Adaptation of multilingual stacked bottle-neck neural network structure for new language
US5327521A (en) Speech transformation system
JP5059115B2 (en) Particular method of speech keywords, device and speech recognition system
Renals et al. Indexing and retrieval of broadcast news
EP1410380A2 (en) Automatic identification of sound recordings
WO1997008685A2 (en) Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
JP2008516289A (en) Method and apparatus for extracting a melody underlying the speech signal
CN104246796B (en) Multi-mode matching object recognition program
JP2007047818A (en) Method and apparatus for speech recognition using optimized partial mixture tying of probability
EP0535146A1 (en) Continuous speech processing system.
JP2000505914A (en) In the speech recognition apparatus, a method for applying a hidden Markov sound model in multiple languages
Hazen et al. Segment-based automatic language identification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130218

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140327

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160304

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170406

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180404

Year of fee payment: 10