KR101600355B1

KR101600355B1 - 오디오 동기화 방법 및 그 장치

Info

Publication number: KR101600355B1
Application number: KR1020090090228A
Authority: KR
Inventors: 김병준; 최낙진; 최인용
Original assignee: 삼성전자주식회사
Priority date: 2009-09-23
Filing date: 2009-09-23
Publication date: 2016-03-07
Also published as: KR20110032638A

Abstract

시간 도메인 상에서 참조 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 오디오 프레임들을 생성하고, 그 오디오 프레임들을 주파수 도메인으로 변환한 후, 그 주파수 도메인으로 변환된 오디오 프레임들 각각을 구성하는 주파수 샘플들 중에서 그 주파수 샘플들의 크기들에 기초하여 결정된 일부 주파수 샘플들과 녹음 오디오간의 비교 결과에 따라 참조 오디오와 녹음 오디오를 동기화하는 오디오 동기화 방법이 개시되어 있다.

Description

오디오 동기화 방법 및 그 장치{Method and apparatus for synchronizing audios}

본 발명은 오디오들의 동기화 방법 및 그 장치에 관한 것이다.

오디오 재생 기기를 통하여 재생되는 오디오의 음질 평가를 위해서 많은 방법들이 제안되고 있다.

하나의 예로서, 원본 오디오를 오디오 재생 기기를 통하여 재생한 후에 그 재생되는 오디오를 녹음기를 통하여 녹음한 후에, 그 녹음된 오디오를 원본 오디오와 비교함으로써, 녹음된 오디오의 음질을 평가하는 방법이 이용될 수 있다.

이때, 녹음된 오디오는 원본 오디오가 재생되기 이전부터 녹음이 시작될 수 있는데 이 경우에는 원본 오디오가 녹음되기 이전에 일정 시간 동안 잡음이 먼저 녹음될 수 있다. 또한, 원본 오디오가 재생된 이후에 녹음이 시작된 경우에는 재생되는 원본 오디오 중에 일부만이 녹음될 수도 있다. 한편, 원본 오디오가 오디오 재생 기기 및 녹음기를 통하여 녹음되는 동안 기기의 특성들에 의하여 왜곡이 발생하여 원본 오디오와 비교할때 녹음 오디오의 시간상의 시작 위치가 변경될 수도 있다.

따라서, 녹음된 오디오를 이용하여 오디오 재생 기기에서 재생되는 오디오의 음질을 평가하기 위해서는 그 녹음된 오디오와 원본 오디오 상호간에 대응되는 시간상의 위치를 검색하여 동기화하는 과정이 먼저 수행되어야 한다.

본 발명의 일실시예의 목적은 오디오들의 동기화 방법 및 그 장치를 제공하는 것이다.

상기 목적을 달성하기 위한 본 발명의 일실시예에 따른 복수개의 오디오 데이터들로 구성된 참조 오디오와 소정의 기기로부터 출력되는 상기 참조 오디오를 녹음하여 생성된 녹음 오디오간의 동기화 방법은 시간 도메인 상에서 상기 참조 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 오디오 프레임들을 생성하는 단계; 상기 오디오 프레임들을 주파수 도메인으로 변환하는 단계; 및 상기 변환된 오디오 프레임들 각각을 구성하는 주파수 샘플들 중에서 상기 주파수 샘플들의 크기들에 기초하여 결정된 일부 주파수 샘플들과 상기 녹음 오디오간의 비교 결과에 따라 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 단계를 포함한다.

바람직하게는 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 단계는 상기 변환된 오디오 프레임들에 걸쳐서 상기 오디오 프레임들 각각을 구성하는 주파수 샘플들의 크기의 평균값 및 평균 변화량을 주파수별로 계산하는 단계; 상기 계산 결과에 기초하여, 상기 변환된 오디오 프레임들 각각에서 대표 샘플을 결정하는 단계; 및 상기 대표 샘플 및 상기 대표 샘플에 인접하는 인접 샘플들과 상기 녹음 오디오간의 교차 상관관계(correlation)에 기초하여, 상기 동기화를 수행하는 단계를 포함한다.

바람직하게는 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 단계는 상기 소정의 기기의 전달 함수(transfer function) 및 상기 참조 오디오에 기초하여 가상 출력 오디오를 생성하는 단계; 상기 가상 출력 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 가상 오디오 프레임들을 생성하는 단계; 상기 가상 오디오 프레임들을 주파수 도메인으로 변환하는 단계; 상기 변환된 가상 오디오 프레임들 각각을 구성하는 가상 주파수 샘플들의 크기들에 기초하여 대표 주파수를 결정하는 단계; 및 상기 참조 오디오에서 상기 대표 주파수에 대응되는 대표 샘플 및 상기 대표 샘플에 인접하는 인접 샘플들과 상기 녹음 오디오간의 교차 상관관계에 기초하여, 상기 동기화를 수행하는 단계를 포함한다.

바람직하게는 상기 참조 오디오가 상기 복수개의 오디오 데이터들 중에서 시간 도메인 상에서 가장 앞에 위치하는 오디오 데이터의 시작 지점을 식별하기 위한 시작 식별 신호를 더 포함할 때, 상기 동기화를 수행하는 단계는 (a) 상기 참조 오디오의 상기 시작 식별 신호에 기초하여 결정된 시작 추정 지점에서부터 상기 녹음 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 녹음 오디오 프레임들을 생성한 후, 상기 녹음 오디오 프레임들을 주파수 도메인으로 변환하는 단계; (b) 상기 오디오 프레임들 각각에서의 상기 대표 샘플 및 상기 인접 샘플들과 상기 녹음 오디오 프레임들 각각에서 상기 대표 주파수에 대응되는 대표 녹음 샘플 및 상기 대표 샘플에 인접하는 인접 녹음 샘플들간의 교차 상관관계를 계산하는 단계; (c) 상기 시작 추정 지점을 하나의 시간샘플 단위로 이동하면서 (a) 단계 및 (b) 단계를 반복 수행하는 단계; 및 (d) 상기 교차 상관관계가 최대 값을 가지는 녹음 오디오 프레임들에서의 시작 추정 지점의 시간 도메인상의 위치에 기초하여 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 단계를 포함한다.

또한, 상기 목적을 달성하기 위한 본 발명의 일실시예에 따른 복수개의 오디오 데이터들로 구성된 참조 오디오와 소정의 기기로부터 출력되는 상기 참조 오디오를 녹음하여 생성된 녹음 오디오간의 동기화 장치는 시간 도메인 상에서 상기 참조 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 오디오 프레임들을 생성하는 오디오 프레임 생성부; 상기 오디오 프레임들을 주파수 도메인으로 변환하는 주파수 변환부; 상기 변환된 오디오 프레임들 각각을 구성하는 주파수 샘플들 중에서 상기 주파수 샘플들의 크기들에 기초하여 결정된 일부 주파수 샘플들과 상기 녹음 오디오를 비교하는 비교부; 및 상기 비교 결과에 따라 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 동기화부를 포함한다.

이하에서는 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 일실시예에 따른 오디오 동기화 장치를 설명하기 위하여 도시한 흐름도이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 오디오 동기화 장치는 오디오 프레임 생성부(110), 주파수 변환부(120), 비교부(130) 및 동기화부(140)를 포함한다.

오디오 프레임 생성부(110)는 시간 도메인 상에서 참조 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 오디오 프레임들을 생성한다.

이때, 참조 오디오는 음질 테스트를 위한 복수개의 오디오 데이터들로 구성 될 수 있다. 예컨대, 참조 오디오는 오디오 데이터 A, 오디오 데이터 B 및 오디오 데이터 C와 같이 3개의 오디오 데이터로 구성될 수 있다. 또한, 다른 실시예에서는 시간 도메인상에서 오디오 데이터 A, 오디오 데이터 B 및 오디오 데이터 C 중에서 제일 앞에 위치하는 오디오 데이터 A의 시작 지점에 시작 식별 신호가 부가될 수도 있다. 여기서, 시작 식별 신호는 오디오 데이터가 시작되는 지점을 식별하기 위한 신호를 말한다. 또 다른 실시예에서는, 오디오 데이터 A의 시작 지점으로부터 소정 개수의 시간 샘플 앞에 시작 식별 신호가 위치할 수도 있다.

한편, 후술하는 바와 같이 오디오 프레임 생성부(110)는 시간 도메인상에서 녹음 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 녹음 오디오 프레임들을 생성할 수도 있다. 이때, 하나의 녹음 오디오는 복수개의 녹음 오디오 데이터들로 구성되고, 복수개의 녹음 오디오 데이터들은 참조 오디오에서의 복수개의 오디오 데이터들에 대응된다. 다른 실시예에서는, 복수개의 녹음 오디오 데이터들 중에서 제일 앞에 위치하는 녹음 오디오 데이터의 시작 지점에 시작 식별 신호가 위치할 수 있다.

이하에서는 도 2를 참조하여 오디오 프레임 생성부(110)가 오디오 프레임들을 생성하는 동작에 대하여 설명한다.

도 2는 본 발명의 일실시예에 따른 오디오 프레임 생성부의 동작을 설명하기 위하여 도시한 도면이다.

도 2는 시간 도메인 상에서 참조 오디오를 구성하는 시간 샘플들의 크기들(amplitudes)을 도시한 도면이다. 도 2에 도시된 참조 오디오는 N개의 시간 샘플 들 단위로 하나의 오디오 프레임을 생성한다. 도 2를 참조하면, 참조 오디오를 구성하는 시간 샘플들 중에서 첫 번째 시간 샘플(210)을 시작 지점으로 하여 N개의 시간 샘플들 단위로 오디오 프레임들이 생성될 수도 있고, 두 번째 시간 샘플(220)을 시작 지점으로 하여 N개의 시간 샘플들 단위로 오디오 프레임들이 생성될 수도 있다. 즉, 오디오 프레임들은 반드시 첫 번째 시간 샘플(210)을 시작 지점으로 하여 생성될 필요는 없다. 일반적으로는 참조 오디오에서 첫 번째 시간 샘플(210)을 시작 지점으로 하여 N개의 시간 샘플들이 하나의 오디오 프레임으로 구성되지만, 첫 번째 시간 샘플(210)이 잡음인 경우 등과 같이 특별한 경우에는 두 번째 이후의 시간 샘플들 중 하나를 시작 지점으로 하여 N개의 시간 샘플들이 하나의 오디오 프레임을 구성할 수도 있다. 바람직하게는, 하나의 오디오 프레임은 512개의 시간 샘플들로 구성될 수 있다.

주파수 변환부(120)는 오디오 프레임들을 주파수 도메인으로 변환한다.

비교부(130)는 변환된 오디오 프레임들 각각을 구성하는 주파수 샘플들 중에서 주파수 샘플들의 크기들에 기초하여 결정된 일부 주파수 샘플들과 녹음 오디오를 비교한다.

이때, 참조 오디오에서의 일부 주파수 샘플들과 녹음 오디오에서의 일부 주파수 샘플들이 비교된다. 비교부(130)의 구체적인 동작에 대해서는 후술한다.

동기화부(140)는 그 비교 결과에 따라 참조 오디오와 녹음 오디오를 동기화한다.

도 3은 본 발명의 일실시예에 따른 오디오 동기화 장치의 동작을 설명하기 위하여 도시한 흐름도이다.

도 3에서는 중복되는 설명을 피하기 위하여 오디오 프레임 생성부(110) 및 주파수 변환부(120)에 의하여 참조 오디오로부터 복수개의 오디오 프레임들이 생성된 후, 그 생성된 오디오 프레임들이 주파수 도메인으로 변환되는 과정이 수행되었다고 가정하고, 그 이후의 과정에 대하여 설명한다.

단계 310에서는, 비교부(130)는 주파수 도메인으로 변환된 오디오 프레임들에 걸쳐서 그 오디오 프레임들 각각을 구성하는 주파수 샘플들의 크기의 평균값 및 평균 변화량을 주파수별로 계산한다.

여기서, 주파수 도메인으로 변환된 오디오 프레임들은 오디오 프레임 생성부(110)가 참조 오디오에서 첫 번째 시간 샘플(210)을 시간 도메인상의 시작 지점으로 하여 N개 시간 샘플 단위로 분할하여 오디오 프레임들을 생성하고, 주파수 변환부(120)가 그 생성된 오디오 프레임들을 주파수 도메인으로 변환함으로써 생성된 것으로 가정한다.

이때, 주파수 도메인으로 변환된 오디오 프레임들 각각은 동일한 개수의 주파수에 대응되는 주파수 샘플들을 가지는데, 각각의 주파수는 주파수 도메인으로 변환된 오디오 프레임들에 걸쳐서 동일한 값을 가지게 된다. 예컨대, 첫 번째 오디오 프레임이 500Hz~4kHz까지 250Hz 간격으로 위치하는 15개의 주파수에 대응되는 주파수 샘플들로 구성된다면, 후속하는 모든 오디오 프레임들 역시 500Hz~4kHz까지 250Hz 간격으로 위치하는 15개의 주파수에 대응되는 주파수 샘플들로 구성된다. 이하에서는 주파수 도메인으로 변환된 오디오 프레임들이 500Hz~4kHz까지 250Hz 간격 으로 15개의 주파수에 대응되는 주파수 샘플들로 구성된다고 가정한 후 설명한다.

먼저, 주파수 도메인으로 변환된 모든 오디오 프레임들에 걸쳐서 그 15개의 주파수별로 각각의 주파수에 대응되는 주파수 샘플의 크기를 추출한다. 예컨대, 오디오 프레임들의 전체 개수가 50개라고 한다면 그 50개의 오디오 프레임들 각각에서 500Hz에 대응되는 주파수 샘플들을 크기를 추출함으로써 500Hz에 대응되는 50개의 주파수 샘플들의 크기들을 추출하고, 그 다음 주파수인 750Hz에 해당하는 50개의 주파수 샘플들의 크기들을 추출하는 방식으로 50개의 오디오 프레임들에 걸쳐서 500Hz에서부터 4kHz까지에 대응되는 주파수 샘플들의 크기들을 추출한다. 이때, 주파수 샘플들은 시간 도메인상에서의 시간 샘플들이 주파수 도메인으로 변환되어 생성된 것이다.

다음으로, 그 50개의 오디오 프레임들에 걸쳐서 추출된 주파수 샘플들의 크기의 평균값을 그 15개의 주파수별로 계산하고, 그 50개의 오디오 프레임들에 걸쳐서 추출된 주파수 샘플들의 크기의 평균 변화량을 그 15개의 주파수별로 계산한다.

예컨대, 500Hz에 대응되는 주파수 샘플 크기 평균값은 50개의 오디오 프레임들 각각에서 추출된 500Hz에 대응되는 50개의 주파수 샘플들의 크기들을 모두 합산 한 후에, 그 합산 결과를 오디오 프레임들의 전체 개수인 50으로 나눔으로써 계산된다. 또한, 500Hz에 대응되는 주파수 샘플 크기 평균 변화량은 50개의 오디오 프레임들 각각에서 추출된 500Hz에 대응되는 50개의 주파수 샘플들의 크기들에 대한 표준 편차를 계산함으로써 얻어진다. 이와 같은 방식으로 상기 15개의 주파수별로 주파수 샘플 크기 평균값과 주파수 샘플 크기 평균 변화량을 계산할 수 있다.

단계 320에서는, 비교부(130)는 그 계산 결과에 기초하여, 그 주파수 도메인으로 변환된 오디오 프레임들 각각에서 대표 샘플을 결정한다.

이때, 대표 샘플은 단계 310에서 주파수별로 계산된 주파수 샘플 크기 평균값들과 주파수 샘플 평균 변화량들에 기초하여 사용자가 지정한 기준에 따라 결정된다. 이하에서는 대표 샘플을 결정하는 기준에 대한 실시예들에 대하여 설명한다.

첫 번째 방법은, 주파수 도메인으로 변환된 오디오 프레임들 각각에서의 주파수들을 2개의 주파수 대역으로 구분한 후에 그 2개의 주파수 대역 각각에서 후보 샘플을 검출한 후에, 최종적으로 그 2개의 후보 샘플들 중에서 대표 샘플을 결정하는 방법이다.

예컨대, 전술한 예에서 주파수 도메인으로 변환된 오디오 프레임들 각각에서 500Hz~4kHz까지의 15개의 주파수들 중에서 500Hz부터 1kHz까지의 주파수들을 제1 주파수 대역으로 구분하고, 1kHz부터 4kHz까지의 주파수들을 제2 주파수 대역으로 구분할 수 있다. 이와 같이 주파수 대역을 제1 주파수 대역과 제2 주파수 대역으로 구분하는 이유는, 일반적으로 주파수 도메인으로 변환된 오디오 프레임들에서 주파수 샘플들이 제1 주파수 대역 및 제2 주파수 대역에 집중적으로 분포하기 때문에, 제1 주파수 대역 및 제2 주파수 대역에 대해서만 처리를 수행하기 위한 것이다. 따라서, 다른 실시예에서는 제1 주파수 대역 및 제2 주파수 대역의 수치적인 범위가 변경될 수 있다.

다음으로, 단계 310에서 15개의 주파수 별로 계산된 주파수 샘플 크기 평균 변화량에 기초하여, 제1 주파수 대역에 포함되는 주파수들 중에서 가장 큰 값의 주 파수 샘플 크기 평균 변화량을 가지는 주파수를 제1 후보 주파수로 결정하고, 50개의 오디오 프레임들 각각에서 제1 후보 주파수에 대응되는 주파수 샘플을 제1 후보 샘플로 결정한다. 또한, 단계 310에서 15개의 주파수 별로 계산된 주파수 샘플 크기 평균 변화량에 기초하여, 제2 주파수 대역에 포함되는 주파수들 중에서 가장 큰 값의 주파수 샘플 크기 평균 변화량을 가지는 주파수를 제2 후보 주파수로 결정하고, 50개의 오디오 프레임들 각각에서 제2 후보 주파수에 대응되는 주파수 샘플을 제2 후보 샘플로 결정한다.

이와 같이 제1 후보 샘플과 제2 후보 샘플이 결정되면, 제1 후보 주파수에서의 주파수 샘플 크기 평균값과 제2 후보 주파수에서의 주파수 샘플 크기 평균값을 비교하여, 보다 큰 값의 주파수 샘플 크기 평균값을 가지는 주파수를 대표 주파수로 결정한 후에 50개의 오디오 프레임들 각각에서 그 대표 주파수에 대응되는 주파수 샘플을 대표 샘플로서 결정하게 된다. 이때, 제1 후보 샘플과 제2 후보 샘플 중 하나가 대표 샘플로서 결정된다.

두 번째 방법은, 주파수 도메인으로 변환된 50개의 오디오 프레임들에 걸쳐서 15개의 주파수 별로 계산된 주파수 샘플 크기 평균 변화량에 기초하여, 15개의 주파수들 중에서 소정의 임계치 이상의 주파수 샘플 크기 평균 변화량을 가지는 주파수들을 후보 주파수들로 결정하고, 그 후보 주파수들 중에서 가장 큰 값의 주파수 샘플 크기 평균값을 가지는 주파수를 대표 주파수로 결정한 후, 그 50개의 오디오 프레임들 각각에서 그 대표 주파수에 대응되는 주파수 샘플을 대표 샘플로서 결정하는 방법이다.

한편, 지금까지는 설명의 편의를 위하여 오디오 프레임들의 개수가 50개이고 오디오 프레임 각각이 15개의 주파수를 가진다고 가정하였으나, 본 발명은 이에 한정되지 않고 오디오 프레임들의 개수는 50개 이하이거나 50개 이상일 수 있고, 오디오 프레임 각각이 가지는 주파수도 15개 이상으로 구성될 수 있다.

단계 330에서는, 비교부(130)는 그 대표 샘플 및 그 대표 샘플에 인접하는 인접 샘플들과 녹음 오디오간의 교차 상관관계(correlation)를 계산한다.

이때, 인접 샘플들의 개수는 사용자가 미리 결정할 수 있다. 예컨대, 대표 샘플의 주파수로부터 좌측 및 우측으로 2개씩 인접하는 주파수에 해당하는 주파수 샘플들을 인접 샘플들로 결정할 수 있는데, 이에 한정되지는 않는다.

한편, 참조 오디오에서의 대표 샘플 및 인접 샘플들과 녹음 오디오가 비교되기 위해서는, 녹음 오디오를 시간 도메인 상에서 소정 개수의 시간 샘플 단위로 분할하여 녹음 오디오 프레임들을 생성한 후, 그 생성된 녹음 오디오 프레임들을 주파수 도메인으로 변환되는 과정이 수행되어야 한다.

이때, 도 2에서 설명한바와 같이 녹음 오디오를 구성하는 시간 샘플들 중에서 첫 번째 시간 샘플을 시작 추정 지점으로 하여 N개의 시간 샘플들 단위로 오디오 프레임들이 생성될 수도 있고, 두 번째 이후의 시간 샘플들 중 하나를 시작 추정 지점으로 하여 N개의 시간 샘플들 단위로 오디오 프레임들이 생성될 수도 있다.

단계 330에서는, 녹음 오디오를 구성하는 시간 샘플들 중에서 첫 번째 시간 샘플을 시작 추정 지점으로 하여 N개의 시간 샘플들 단위로 녹음 오디오 프레임들을 생성함으로써 제1 녹음 프레임 집합을 생성하고, 그 시작 추정 지점을 하나의 시간 샘플 단위로 이동하면서 제2 녹음 프레임 집합 내지 제K 녹음 프레임 집합을 생성할 수 있다. 이때, 제1 녹음 프레임 집합 내지 제K 녹음 프레임 집합 각각은 하나의 녹음 오디오에 대하여 시작 추정 지점만을 달리하여 생성된 녹음 프레임들로 구성된 집합이다.

이와 같이 제1 녹음 프레임 집합 내지 제K 녹음 프레임 집합이 생성되면, 그 제1 녹음 프레임 집합 내지 제K 녹음 프레임 집합 중에서 참조 오디오에서의 대표 샘플 및 인접 샘플들과의 교차 상관관계가 최대 값을 가지는 녹음 프레임 집합을 결정한다. 이때, 제1 녹음 프레임 집합 내지 제K 녹음 프레임 집합 각각에 포함된 녹음 오디오 프레임들에서 전술한 대표 주파수에 대응되는 대표 녹음 샘플 및 그 대표 녹음 샘플에 인접하는 인접 녹음 샘플들과 참조 오디오에서의 대표 샘플 및 인접 샘플들이 비교되어, 교차 상관관계가 계산된다. 예컨대, 대표 주파수가 1kHz라고 한다면 제1 녹음 프레임 집합에 포함된 녹음 오디오 프레임들 각각에서 1kHz에 대응되는 주파수 샘플이 대표 녹음 샘플이 되고 그에 인접하는 0.5kHz, 0.75kHz, 1.25kHz 및 1.5kHz에 대응되는 주파수 샘플들이 인접 녹음 샘플들이 되고, 참조 오디오에서 0.5kHz, 0.75kHz, 1.25kHz, 1kHz 및 1.5kHz에 대응되는 주파수 샘플들이 대표 샘플 및 인접 샘플들이 되는데, 이와 같이 녹음 오디오와 참조 오디오 각각에서 0.5kHz, 0.75kHz, 1.25kHz, 1kHz 및 1.5kHz에 대응되는 주파수 샘플들간의 교차 상관 관계가 계산된다.

단계 340에서는, 동기화부(140)는 그 계산 결과에 기초하여 동기화를 수행한다.

이때, 동기화는 제1 녹음 프레임 집합 내지 제K 녹음 프레임 집합 중에서 참조 오디오의 대표 샘플 및 인접 샘플들과의 교차 상관관계가 최대 값을 가지는 녹음 프레임 집합을 결정한 후, 그 결정된 녹음 프레임 집합의 시작 추정 지점을 최종적으로 녹음 오디오의 시작 지점으로서 결정하는 방식으로 수행된다.

이와 같이 본 발명의 일실시예는 참조 오디오에서의 일부 샘플들과 녹음 오디오의 일부 샘플들에 대해서만 연산을 수행하기 때문에, 보다 적은 연산으로도 효과적으로 동기화를 수행할 수 있는 효과가 있다.

도 3의 예에서는 참조 오디오를 재생할 기기의 왜곡 특성을 고려하지 않았으나, 이하에서는 도 4를 참조하여 참조 오디오를 재생할 기기의 왜곡 특성을 나타내는 기기의 전달 함수에 기초하여 참조 오디오와 녹음 오디오를 동기화하는 방법에 대하여 설명한다.

도 4는 본 발명의 다른 실시예에 따른 오디오 동기화 장치의 동작을 설명하기 위하여 도시한 도면이다.

도 4에서는 중복되는 설명을 피하기 위하여 도 3의 단계 310까지의 과정이 수행되었다고 가정하고, 설명을 진행하도록 한다.

단계 410에서는, 비교부(130)가 소정 기기의 전달 함수(transfer function) 및 참조 오디오에 기초하여 가상 출력 오디오를 생성한다.

이때, 기기의 전달 함수란 주파수 도메인 상에서 소정의 기기에 입력되는 오디오의 크기 대비 그 소정의 기기가 출력하는 오디오의 크기에 대한 비율을 말한다.

예컨대, 일반적으로 1kHz 내지 4kHz의 주파수에 대응되는 오디오가 입력되었을 때 그 입력되는 오디오의 크기 대 출력되는 오디오의 크기의 비율은 1kHz 이하의 주파수에 대응되는 오디오가 입력되었을 때 그 입력되는 오디오의 크기 대 출력되는 오디오의 크기의 비율에 비하여 큰 값을 가진다. 이와 같은 전달 함수를 가지는 오디오 기기에게는 1kHz 내지 4kHz의 주파수에 대응되는 오디오인 제1 오디오와 1kHz 이하의 주파수에 대응되는 제2 오디오가 동일한 크기로 입력되더라도, 제1 오디오를 제2 오디오보다 더 큰 크기로 출력하게 된다. 다만, 이와 같은 전달 함수의 특성은 기기의 종류마다 달라질 수 있다.

따라서, 단계 410에서는 참조 오디오가 소정의 기기에 입력되었을 때 출력될 오디오를 그 소정의 기기의 전달 함수와 참조 오디오를 이용하여 가상으로 계산함으로써, 가상 출력 오디오를 생성하게 된다.

단계 420에서는, 오디오 프레임 생성부(110)가 그 가상 출력 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 가상 오디오 프레임들을 생성한다.

단계 430에서는, 주파수 변환부(120)가 그 가상 오디오 프레임들을 주파수 도메인으로 변환한다.

단계 440에서는, 비교부(130)가 그 주파수 도메인으로 변환된 가상 오디오 프레임들 각각을 구성하는 가상 주파수 샘플들의 크기들에 기초하여 대표 주파수를 결정한다.

이하에서는 대표 주파수를 결정하는 두 가지 방법에 대하여 설명한다.

첫 번째 방법은, 주파수 도메인으로 변환된 가상 오디오 프레임들 각각에서 의 주파수들을 2개의 주파수 대역으로 구분한 후에 그 2개의 주파수 대역 각각에서 후보 주파수를 검출한 후에, 최종적으로 그 2개의 후보 주파수들 중에서 대표 주파수를 결정하는 방법이다.

예컨대, 가상 오디오 프레임들 각각이 500Hz~4kHz까지 250Hz 간격으로 15개의 주파수를 가진다고 가정하면, 500Hz부터 1kHz까지의 주파수들을 제1 주파수 대역으로 구분하고, 1kHz부터 4kHz까지의 주파수들을 제2 주파수 대역으로 구분할 수 있다.

다음으로, 복수개의 가상 오디오 프레임들에 걸쳐서 그 15개의 주파수 별로 주파수 샘플 크기 평균 변화량을 계산한 후에, 그 계산 결과에 기초하여 제1 주파수 대역에 포함되는 주파수들 중에서 가장 큰 값의 주파수 샘플 크기 평균 변화량을 가지는 주파수를 제1 후보 주파수로 결정한다. 또한, 제2 주파수 대역에 포함되는 주파수들 중에서 가장 큰 값의 주파수 샘플 크기 평균 변화량을 가지는 주파수를 제2 후보 주파수로 결정한다.

이와 같이 제1 후보 주파수와 제2 후보 주파수가 결정되면, 가상 오디오 프레임들에 걸쳐서 제1 후보 주파수에서의 주파수 샘플 크기 평균값과 제2 후보 주파수에서의 주파수 샘플 크기 평균값을 계산한 후, 그 계산 결과에 기초하여 보다 큰 값의 주파수 샘플 크기 평균값을 가지는 주파수를 대표 주파수로 결정한다.

두 번째 방법은, 주파수 도메인으로 변환된 가상 오디오 프레임들에 걸쳐서 15개의 주파수 별로 계산된 주파수 샘플 크기 평균 변화량에 기초하여, 15개의 주파수들 중에서 소정의 임계치 이상의 주파수 샘플 크기 평균 변화량을 가지는 주파 수들을 후보 주파수들로 결정하고, 그 후보 주파수들 중에서 가장 큰 값의 주파수 샘플 크기 평균값을 가지는 주파수를 대표 주파수로 결정하는 방법이다.

다만, 지금까지는 설명의 편의를 위하여 가상 오디오 프레임 각각이 15개의 주파수를 가진다고 가정하였으나, 본 발명은 이에 한정되지 않고 오디오 프레임 각각이 가지는 주파수는 15개 이상으로 구성될 수 있다.

단계 450에서는, 비교부(130)가 참조 오디오의 오디오 프레임들 각각에서의 대표 주파수에 대응되는 대표 샘플 및 그 대표 샘플에 인접하는 인접 샘플들과 녹음 오디오간의 교차 상관관계를 계산한다.

단계 460에서는, 동기화부(140)가 그 계산 결과에 기초하여 동기화를 수행한다.

단계 450 및 단계 460에 대해서는 도 5를 참조하여 상세히 설명한다.

도 5는 본 발명의 또 다른 실시예에 따른 오디오 동기화 장치의 동작을 설명하기 위하여 도시한 도면이다.

도 5의 실시예에서는 단계 440까지의 과정이 수행되었다고 가정하고, 단계 450 및 단계 460에 대한 구체적인 실시예에 대하여 설명한다. 또한, 도 5의 실시예에서는 참조 오디오가 복수개의 오디오 데이터들을 포함하고, 그와 같은 복수개의 오디오 데이터들 중에서 시간 도메인 상에서 가장 앞에 위치하는 오디오 데이터의 시작 지점에는 시작 식별 신호가 위치한다고 가정한다.

단계 510에서는, 참조 오디오의 시작 식별 신호에 기초하여 결정된 시작 추정 지점에서부터 녹음 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 녹음 오 디오 프레임들을 생성한다.

예컨대, 참조 오디오의 시작 식별 신호가 시간 도메인 상에서 참조 오디오의 30번째 시간 샘플의 위치에 존재한다면, 녹음 오디오의 시작 추정 지점은 시간 도메인 상에서 녹음 오디오의 30번째 시간 샘플의 위치로 결정될 수 있다.

다만, 다른 실시예에서는 녹음 오디오의 시작 추정 지점이 참조 오디오의 시작 식별 신호의 위치보다 소정의 임계치만큼 앞이나 뒤에 위치하는 지점으로 결정될 수도 있다. 예컨대, 참조 오디오에서 시작 식별 신호가 시간 도메인 상에서 참조 오디오의 30번째 시간 샘플의 위치에 존재한다면, 녹음 오디오에서의 시작 추정 지점은 원칙적으로 30번째 시간 샘플의 위치로 결정되어야 하지만, 녹음 오디오에서의 시작 추정 지점이 30번째 시간 샘플로부터 10개의 시간 샘플만큼 앞의 위치인 20번째 시간 샘플로 결정될 수도 있다.

이는, 녹음 오디오에 왜곡이 없다면 참조 오디오에서의 시작 식별 신호들의 위치와 동일한 위치에서 녹음 오디오 데이터들이 시작되겠지만, 일반적으로 녹음 오디오에 왜곡이 있기 때문에 녹음 오디오 데이터들의 시작 지점이 오디오 데이터들의 시작 식별 신호의 위치보다 앞이나 뒤에 위치할 수 있기 때문이다.

단계 520에서는, 그 녹음 오디오 프레임들을 주파수 도메인으로 변환한다.

단계 530에서는, 참조 오디오의 오디오 프레임들 각각에서의 대표 샘플 및 인접 샘플들과 녹음 오디오의 녹음 오디오 프레임들 각각에서 그 대표 주파수에 대응되는 대표 녹음 샘플 및 그 대표 샘플에 인접하는 인접 녹음 샘플들간의 교차 상관 관계를 계산한다.

단계 540에서는, 시작 추정 지점을 하나의 시간샘플 단위로 이동하면서 녹음 오디오 프레임들을 생성하는 단계(단계 510)와 주파수 도메인으로 변환하는 단계(단계 520)를 반복적으로 수행한다.

예컨대, 전술한 예에서 녹음 오디오의 시작 추정 지점이 시간 도메인 상에서 녹음 오디오의 30번째 시간 샘플의 위치로 결정되면, 그 30번째 시간 샘플을 시작 추정 지점으로 하여 N개의 시간 샘플들 단위로 녹음 오디오 프레임들을 생성함으로써 제1 녹음 프레임 집합을 생성하고, 그 시작 추정 지점을 하나의 시간 샘플 단위로 이동하면서 제2 녹음 프레임 집합 내지 제K 녹음 프레임 집합을 생성할 수 있다.

단계 550에서는, 그 교차 상관관계가 최대 값을 가지는 녹음 프레임 집합의 시작 추정 지점의 시간 도메인 상에서의 위치에 기초하여 참조 오디오와 녹음 오디오를 동기화한다.

즉, 제1 녹음 프레임 집합 내지 제K 녹음 프레임 집합 중에서 참조 오디오의 대표 샘플 및 인접 샘플들과의 교차 상관관계가 최대 값을 가지는 녹음 프레임 집합을 결정한 후, 그 결정된 녹음 프레임 집합의 시간 도메인 상의 시작 추정 지점을 참조 오디오의 시작 식별 신호에 대응되는 시작 지점으로서 결정함으로써, 참조 오디오와 녹음 오디오간의 동기화를 완료한다. 이때, 녹음 오디오에 포함된 복수개의 녹음 오디오 데이터들 중에서 두 번째 이후의 녹음 오디오 데이터들의 시작 지점들은 참조 오디오에서의 시작 식별 신호에서부터 두 번째 이후의 오디오 데이터들 각각의 시작 지점들까지의 거리들에 기초하여 자동적으로 결정된다.

예컨대, 참조 오디오의 시작 식별 신호가 참조 오디오의 30번째 시간 샘플의 위치에 존재하고, 참조 오디오의 두 번째 오디오 데이터 및 세 번째 오디오 데이터 각각의 시작 지점이 130번째 시간 샘플의 위치와 260번째 시간 샘플의 위치에 존재한다면, 녹음 오디오의 두 번째 녹음 오디오 데이터와 세 번째 녹음 오디오 데이터의 시작 지점들은 각각 첫번째 녹음 오디오 데이터의 시작 지점으로부터 100개의 시간 샘플만큼 떨어진 위치와 230개의 시간 샘플만큼 떨어진 위치로 결정될 수 있다.

지금까지 단계 510 내지 단계 550을 통하여 녹음 오디오에 포함된 복수개의 녹음 오디오 데이터들 중에서 첫번째 녹음 오디오 데이터의 시작 지점을 참조 오디오의 시작 식별 신호와 동기화함으로써, 녹음 오디오와 참조 오디오를 동기화하는 방법에 대하여 설명하였다. 하지만, 다른 실시예에서는 녹음 오디오에 포함된 복수개의 녹음 오디오 데이터들 중에서 첫번째 녹음 오디오 데이터의 시작 지점을 참조 오디오의 시작 식별 신호와 동기화한 후에, 두 번째 이후의 녹음 오디오 데이터들의 시작 지점들도 각각 별개로 참조 오디오에 포함된 두 번째 이후의 오디오 데이터들의 시작 지점들과 동기화할 수도 있다.

여기서, 동기화를 수행하기 위하여 녹음 오디오의 두번째 이후의 녹음 오디오 데이터들의 시작 추정 지점들을 결정할 때, 시작 추정 지점을 결정하고자 하는 녹음 오디오 데이터의 바로 앞에 위치하는 녹음 오디오 데이터의 시작 지점과 그 시작 지점에 대응되는 참조 오디오에서의 시작 지점간의 오차가 이용될 수 있다. 예컨대, 두번째 녹음 오디오 데이터의 시작 추정 지점은 첫번째 녹음 오디오 데이 터의 시작 지점과 참조 오디오에서의 첫번째 오디오 데이터의 시작 지점인 시작 식별 신호의 오차 비율을 이용하여 결정될 수 있고, 세번째 녹음 오디오 데이터의 시작 추정 지점은 두번째 녹음 오디오 데이터의 시작 지점과 참조 오디오에서의 두번째 오디오 데이터의 시작 지점의 오차 비율을 이용하여 결정될 수 있다.

이는, 기기의 특성에 따라 발생한 왜곡이 첫 번째 녹음 오디오 데이터 뿐만 아니라 두 번째 이후의 녹음 오디오 데이터들에게도 영향을 주기 때문에 두 번째 이후의 녹음 오디오 데이터들의 시작 추정 지점들을 결정할 때에도 이와 같은 왜곡을 반영하기 위하여 오차 비율을 연속적으로 갱신하면서 시작 추정 지점들을 결정하는 것이다.

예컨대, 참조 오디오의 시작 식별 신호가 100번째 시간 샘플의 위치에 존재하고, 녹음 오디오의 첫번째 녹음 오디오 데이터의 시작 지점이 110번째 시간 샘플의 위치에 존재한다면, 첫번째 오차 비율은 110/100이 되어 1.1이 된다. 이때, 만일 참조 오디오에 포함된 두 번째 오디오 데이터의 시작 지점이 200번째 시간 샘플의 위치에 존재한다면, 두번째 녹음 오디오 데이터의 시작 추정 지점은 220번째 시간 샘플의 위치(200×1.1)가 된다. 또한, 두번째 녹음 오디오 데이터의 시작 추정 지점이 220번째 시간 샘플의 위치였지만, 최종적으로 두번째 녹음 오디오 데이터의 시작 지점이 230번째 시간 샘플의 위치로 결정되었다면, 두번째 오차 비율은 230/200이 되어 1.15가 된다. 이때, 만일 참조 오디오에 포함된 세 번째 오디오 데이터의 시작 지점이 300번째 시간 샘플의 위치에 존재한다면 세번째 녹음 오디오 데이터의 시작 추정 지점은 345번째 시간 샘플의 위치(300×1.15)가 될 것이다.

이와 같은 방식으로 녹음 오디오의 두번째 이후의 녹음 오디오 데이터들의 시작 추정 지점들이 결정되면, 그 시작 추정 지점들로부터 하나의 시간샘플 단위로 이동하면서 복수개의 녹음 프레임 집합을 생성하고, 그 생성된 각각의 녹음 프레임 집합과 참조 오디오에서의 오디오 프레임들간의 주파수 도메인상에서의 교차 상관 관계에 기초하여 두번째 이후의 녹음 오디오 데이터들의 시작 지점들을 최종적으로 결정함으로써, 참조 오디오와 녹음 오디오간의 동기화를 완료한다.이때, 각각의 녹음 프레임 집합은 이동되는 시작 추정 지점으로부터 N개의 시간 샘플들 단위로 분할되어 생성된 녹음 오디오 프레임들로 구성된다.

도 6은 본 발명의 일실시예에 따른 오디오 동기화 방법을 설명하기 위하여 도시한 흐름도이다.

단계 610에서는, 시간 도메인 상에서 참조 오디오를 소정 개수의 시간 샘플들 단위로 분할하여 복수개의 오디오 프레임들을 생성한다.

단계 620에서는, 그 오디오 프레임들을 주파수 도메인으로 변환한다.

단계 630에서는, 그 주파수 도메인으로 변환된 오디오 프레임들 각각을 구성하는 주파수 샘플들 중에서 그 주파수 샘플들의 크기들에 기초하여 결정된 일부 주파수 샘플들과 녹음 오디오간의 비교 결과에 따라 참조 오디오와 녹음 오디오를 동기화한다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등) 및, 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)를 포함한다. 또한, 본 발명의 실시예들에 대한 컴퓨터에서 실행될 수 있는 프로그램은 캐리어 웨이브를 통하여 전송(예를 들면, 인터넷을 통한 전송)될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 발명의 일실시예에 따른 오디오 동기화 장치를 설명하기 위하여

도시한 흐름도이다.

도 2는 본 발명의 일실시예에 따른 오디오 프레임 생성부의 동작을 설명하기

위하여 도시한 도면이다.

도 3은 본 발명의 일실시예에 따른 오디오 동기화 장치의 동작을 설명하기

위하여 도시한 흐름도이다.

도 4는 본 발명의 다른 실시예에 따른 오디오 동기화 장치의 동작을 설명하

기 위하여 도시한 도면이다.

도 5는 본 발명의 또 다른 실시예에 따른 오디오 동기화 장치의 동작을 설명

하기 위하여 도시한 도면이다.

Claims

복수의 오디오 데이터들로 구성된 참조 오디오와 오디오 재생 기기로부터 출력되는 상기 참조 오디오를 녹음하여 생성된 녹음 오디오간의 동기화 방법에 있어서,

시간 도메인 상에서 상기 참조 오디오를 기설정된 개수의 시간 샘플들 단위로 분할하여 복수의 참조 오디오 프레임들을 생성하는 단계;

상기 복수의 참조 오디오 프레임들을 주파수 도메인으로 변환하는 단계; 및

상기 변환된 참조 오디오 프레임들을 상기 녹음 오디오와 동기화하는 단계; 를 포함하고,

상기 동기화하는 단계는,

상기 녹음 오디오를 기설정된 개수의 시간 샘플들 단위로 분할하여 시작 추정 지점이 다른 복수의 녹음 프레임 집합을 생성하는 단계;

상기 변환된 복수의 참조 오디오 프레임들 중 대표 샘플을 결정하고, 상기 결정된 대표 샘플 및 인접 샘플들과 상기 복수의 녹음 프레임 집합간의 교차 상관 관계를 계산하는 단계; 및

상기 교차 상관 관계가 최대값을 갖는 녹음 프레임 집합을 결정하고, 상기 결정된 녹음 프레임 집합의 시작 추정 지점을 상기 녹음 오디오의 시작 지점으로 결정하는 단계; 를 포함하는 것을 특징으로 하는 오디오 동기화 방법.
제1항에 있어서,

상기 동기화하는 단계는,

상기 변환된 복수의 참조 오디오 프레임들에 걸쳐서 상기 복수의 참조 오디오 프레임들 각각을 구성하는 주파수 샘플들의 크기의 평균 변화량을 주파수 별로 계산하는 단계;

상기 계산된 평균 변화량에 기초하여, 임계치 이상의 평균 변화량을 갖는 주파수들을 후보 주파수들로 결정하는 단계; 및

상기 후보 주파수들 중 최대값의 주파수 샘플 크기의 평균값을 가지는 주파수를 대표 주파수로 결정하고, 상기 변환된 복수의 참조 오디오 프레임들 중 상기 대표 주파수에 대응되는 주파수 샘플을 대표 샘플로 결정하는 단계; 를 포함하는 것을 특징으로 하는 오디오 동기화 방법.
제1항에 있어서,

상기 동기화하는 단계는

상기 오디오 재생 기기의 전달 함수(transfer function) 및 상기 참조 오디오에 기초하여 가상 출력 오디오를 생성하는 단계;

상기 가상 출력 오디오를 기설정된 개수의 시간 샘플들 단위로 분할하여 복수의 가상 오디오 프레임들을 생성하는 단계;

상기 가상 오디오 프레임들을 주파수 도메인으로 변환하는 단계;

상기 변환된 가상 오디오 프레임들 각각을 구성하는 가상 주파수 샘플들의 크기들에 기초하여 대표 주파수를 결정하는 단계; 및

상기 참조 오디오에서 상기 대표 주파수에 대응되는 대표 샘플 및 상기 대표 샘플에 인접하는 인접 샘플들과 상기 녹음 오디오간의 교차 상관관계에 기초하여, 상기 동기화를 수행하는 단계; 를 포함하는 것을 특징으로 하는 오디오 동기화 방법.
제3항에 있어서,

상기 참조 오디오가 상기 복수의 오디오 데이터들 중에서 시간 도메인 상에서 가장 앞에 위치하는 오디오 데이터의 시작 지점을 식별하기 위한 시작 식별 신호를 더 포함할 때,

상기 동기화를 수행하는 단계는 (a) 상기 참조 오디오의 상기 시작 식별 신호에 기초하여 결정된 시작 추정 지점에서부터 상기 녹음 오디오를 기설정된 개수의 시간 샘플들 단위로 분할하여 녹음 오디오 프레임들을 생성한 후, 상기 녹음 오디오 프레임들을 주파수 도메인으로 변환하는 단계;

(b) 상기 오디오 프레임들 각각에서의 상기 대표 샘플 및 상기 인접 샘플들과 상기 녹음 오디오 프레임들 각각에서 상기 대표 주파수에 대응되는 대표 녹음 샘플 및 상기 대표 샘플에 인접하는 인접 녹음 샘플들간의 교차 상관관계를 계산하는 단계;

(c) 상기 시작 추정 지점을 하나의 시간샘플 단위로 이동하면서 (a) 단계 및 (b) 단계를 반복 수행하는 단계; 및

(d) 상기 교차 상관관계가 최대 값을 가지는 녹음 오디오 프레임들에서의 시작 추정 지점의 시간 도메인상의 위치에 기초하여 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 단계를 포함하는 것을 특징으로 하는 오디오 동기화 방법.
복수의 오디오 데이터들로 구성된 참조 오디오와 오디오 재생 기기로부터 출력되는 상기 참조 오디오를 녹음하여 생성된 녹음 오디오를 동기화하는 오디오 동기화 장치에 있어서,

시간 도메인 상에서 상기 참조 오디오를 기설정된 개수의 시간 샘플들 단위로 분할하여 복수의 참조 오디오 프레임들을 생성하는 오디오 프레임 생성부;

상기 복수의 참조 오디오 프레임들을 주파수 도메인으로 변환하는 주파수 변환부;

상기 변환된 복수의 참조 오디오 프레임들 각각을 구성하는 주파수 샘플들 중에서 상기 주파수 샘플들의 크기들에 기초하여 대표 샘플들을 결정하고, 상기 결정된 대표 샘플들과 상기 녹음 오디오를 비교하는 비교부; 및

상기 비교 결과에 따라 상기 참조 오디오와 상기 녹음 오디오를 동기화하는 동기화부; 를 포함하고,

상기 오디오 프레임 생성부는, 상기 녹음 오디오를 기설정된 개수의 시간 샘플들 단위로 분할하여 시작 추정 지점이 다른 복수의 녹음 프레임 집합을 생성하고,

상기 비교부는, 상기 결정된 대표 샘플들 및 인접하는 샘플들과 상기 복수의 녹음 프레임 집합 간의 교차 상관 관계를 계산하고,

상기 동기화부는, 상기 교차 상관 관계가 최대값을 갖는 녹음 프레임 집합을 결정하고, 상기 결정된 녹음 프레임 집합의 시작 추정 지점을 상기 녹음 오디오의 시작 지점으로 결정하는 것을 특징으로 하는 오디오 동기화 장치.