KR20100138182A

KR20100138182A - 오디오 변속처리 방법 및 장치

Info

Publication number: KR20100138182A
Application number: KR1020090056589A
Authority: KR
Inventors: 정지년; 김이길; 구명완
Original assignee: 주식회사 케이티
Priority date: 2009-06-24
Filing date: 2009-06-24
Publication date: 2010-12-31

Abstract

오디오 변속처리 장치는 입력되는 오디오 신호를 임의의 배속으로 재생하기 위해 프레임을 합성 시, 합성하고자 하는 프레임의 중첩영역에서의 상관도가 문턱 값 이상인 경우에는 중첩합산을 수행하는 대신 추출된 프레임을 이미 생성된 합성신호에 연결하는 방법을 사용한다.

오디오, 변속, 배속, OLA, SOLA, 중첩합산, 상관도

Description

오디오 변속처리 방법 및 장치{Method and apparatus for time scale modification of audio}

본 발명은 오디오 변속처리 방법 및 장치에 관한 것이다.

동기식 오버랩 가산법(Synchronized OverLap Add, 이하 'SOLA'라 칭함)은 오디오 신호의 변속 재생을 위해 널리 사용되는 알고리즘으로, 오디오 신호를 중첩된 프레임간의 중첩합산(Overlap Add)에 의해 구성되었다고 보고, 임의의 배속 상황에서 입력되는 신호로부터 프레임을 추출 시 합성할 신호 간격을 토대로 프레임간 간격을 신축 또는 확장하여 추출한다. 여기서, 변동되는 프레임간 간격은 프레임간 중첩영역의 차이가 최소가 되도록 결정된다. 예를 들어, 중첩 합산할 m번째 프레임은 대응되는 입력 신호에서의 위치를 기준으로 앞뒤 [-△, +△] 구간에서 m-1번째 프레임과의 중첩합산이 최소가 되는 위치에서 추출된다.

한편, SOLA 기반의 오디오 변속처리 기술은 청각적으로 신호의 손상이 적은 방법이나, 프레임간 자기상관도(auto-correlation)가 낮은 경우 음질의 저하를 피할 수 없다. 특히 여러 가지 소리가 섞여 있어 피치가 일정하지 않은 경우 음질 저하가 더욱 크게 나타날 수 있다.

본 발명이 이루고자 하는 기술적 과제는 오디오 신호 왜곡을 최소화하는 오디오 변속처리 방법 및 장치를 제공하는 것이다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 오디오 변속처리 시스템의 오디오 변속처리 방법은,

변속 율을 토대로 입력신호에서의 검색 기준점을 산출하는 단계; 이전 단계에서 생성된 합성신호와 중첩영역에서 최고 상관도를 보이는 프레임을 상기 입력신호로부터 추출하기 위한 최적위치를 상기 검색 기준점을 중심으로 설정된 검색범위 내에서 선택하는 단계; 상기 최고 상관도가 제1 문턱 값보다 작으면, 상기 입력신호로부터 추출한 프레임에서 상기 합성신호와 중첩되는 영역을 제외한 나머지 영역의 신호를 상기 합성신호에 연결하여 상기 합성신호를 갱신하는 단계; 및 상기 최고 상관도가 상기 제1 문턱 값 이상이면, 상기 입력신호로부터 추출한 프레임과 상기 합성신호를 중첩합산하여 상기 합성신호를 갱신하는 단계를 포함한다.

또한, 본 발명의 다른 특징에 따른 오디오 변속장치는,

입력되는 오디오 신호를 저장하는 버퍼부; 변속 율을 토대로 설정된 검색범위 내에서 상기 버퍼부에서 추출되는 프레임이 상기 이전 단계에서 생성된 합성신호와 최고 상관도를 보이는 최적위치를 선택하고, 상기 최고 상관도와 제1 문턱 값을 비교한 결과를 토대로 합성방법을 선택하는 판단부; 및 상기 합성방법으로 연결 방법이 선택되면 상기 버퍼부로부터 추출한 프레임에서 상기 합성신호와 중첩되는 영역을 제외한 나머지 영역의 신호를 상기 합성신호에 연결하여 상기 합성신호를 갱신하고, 상기 합성방법으로 중첩합산이 선택되면 상기 버퍼부로부터 추출한 프레임과 상기 합성신호의 중첩합산을 통해 상기 합성신호를 갱신하는 프레임 합성부를 포함한다.

본 발명의 실시 예에 따르면, 복수의 음원이 혼재된 오디오 신호에 대해 변속처리 시의 왜곡 정도를 최소화하는 효과가 있다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이제 아래에서는 본 발명의 실시 예에 따른 오디오 변속처리 방법 및 장치에 대하여 도면을 참고로 하여 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 오디오 변속처리 장치를 도시한 개략적인 블록도이다.

도 1을 참조하면, 오디오 변속처리 장치는 버퍼부(110), 판단부(120), 프레임 합성부(130) 및 출력부(140)를 포함한다.

버퍼부(110)는 입력되는 오디오 신호를 이진화된 데이터 형태로 저장한다.

판단부(120)는 버퍼부(110)에 저장된 입력 신호로부터 프레임을 추출하기 위한 검색 기준점(init_pos)을 설정한다. 여기서, 검색 기준점은 입력 신호 상에서 프레임의 최적위치를 결정하기 위한 기준이 되는 위치로서, 변속 율(1/α)을 토대로 합성신호에서의 프레임 간의 간격(GT)을 참고하여 산출된다. 한편, 본 발명의 실시 예에서는 합성신호에서의 프레임 간의 간격(GT)은 변속 율(1/α)을 토대로 계산된 값이다.

다음의 수학식 1은 합성에 사용할 프레임 수가 M개일 때 m번째 프레임을 추출하기 위한 검색 기준점(init_pos_m)을 산출하는 방법을 나타낸다.

Init_pos_m = m ⅹ GS (m = [0, M-1])

GS = GT / α

검색 기준점이 산출되면, 판단부(120)는 검색 기준점을 중심으로 일정 구간([init_pos_m-△, init_pos_m+△])을 검색범위로 설정하고, 이전 단계에서 생성된 합성신호와 중첩영역에서의 상관도가 최고가 되도록 프레임을 추출하기 위한 최적 위치(matched_pos_m)를 검색범위 내에서 선택한다.

그리고, 검색범위 내에서 산출된 최고 상관도를 문턱 값(θ)과 비교하여 신호합성방법을 선택한다. 즉, 최고 상관도가 문턱 값 이상인 경우 예를 들어, 최적위치에서 추출된 프레임과 합성신호 간의 중첩영역에서의 신호 차가 일정 값 이하이거나 유사도가 일정 값 이상인 경우에는 중첩합산(OverLap Add, 이하 'OLA'라 칭함)을 합성방법으로 선택하고, 최고 상관도가 문턱 값보다 작은 경우에는 OLA를 수행하지 않고 합성신호에 새로 추출하는 프레임을 연결하는 방법을 합성방법으로 선택한다.

프레임 합성부(130)는 판단부(120)에서 합성방법으로 OLA를 선택하면, 최적위치(matched_pos_m)를 새로운 프레임을 추출할 시작위치(start_pos_m)로 결정하고, 시작위치(start_pos_m)로부터 기 설정된 길이의 프레임을 추출한다. 그리고, 추출된 프레임과 이전 단계에서 생성된 합성신호를 OLA를 통해 합성한 합성신호를 출력한다.

반면에, 합성방법으로 연결방법이 선택되면, 프레임 합성부(130)는 입력신호로부터 프레임을 추출하는 시작위치(start_pos_m)를 다음의 수학식 2와 같이 산출된다.

start_pos_m = start_pos_m-1 + GT

위 수학식 2를 보면, 현재 단계에서 추출하는 프레임의 시작위치(start_pos_m)은 이전 단계에서 추출된 프레임의 시작위치(start_pos_m-1)로부터 합성신호에서의 프레임간 간격(GT)만큼 떨어진 지점이 된다.

위 수학식 2를 통해 프레임의 시작위치(start_pos_m)가 산출되면, 프레임 합성부(130)는 시작위치(start_pos_m)부터 기 설정된 길이만큼의 프레임을 추출한다. 그리고, 추출된 프레임을 이전 단계에서 생성된 합성신호에 연결하여 합성신호를 갱신한다. 여기서, 연결방법을 통해 합성신호를 갱신하는 경우, 프레임 합성부(130)는 현재 단계에서 추출된 프레임 중에서 이전 단계에서 생성된 합성신호와 중첩되는 부분을 제외한 나머지 부분을 이전 단계에서 생성된 합성신호에 연결한다.

한편, 프레임 합성부(130)는 판단부(120)에서 합성방법으로 연결방법을 선택한 경우에도, 산출된 프레임의 시작위치(start_pos_m)가 현재 단계에서의 검색 기준점(init_pos_m)과 문턱 값(φ) 이상 차이가 나면, 최적위치(matched_pos_m)를 시작위치(start_pos_m)로 하여 프레임을 추출하고, 이를 이전 단계에서 생성된 합성신호와 OLA를 통해 합성한다.

출력부(140)는 프레임 합성부(130)에서 합성된 신호를 응용 목적에 따라 특정 형식으로 인코딩 하여 출력하거나, 아날로그 신호로 변환하여 스피커를 통해 출력한다.

한편, 본 발명의 실시 예에서 상관도는 중첩되는 영역의 신호 차가 낮을수록 또는 중첩영역의 신호가 유사할수록 높게 나타나며, 정규화 교차상관도(normal cross-correlation), 교차평균진폭차이함수(cross-Average Magnitude Difference Function, cross-AMDF) 등을 사용하여 산출하는 것이 가능하다. 한편, 본 발명의 실시 예에서는 검색 시의 계산 효율을 위해 비교 대상이 되는 합성신호나 중첩 위치를 샘플링하여 검색을 수행할 수도 있다.

도 2는 본 발명의 실시 예에 따른 오디오 변속처리 방법을 도시한 흐름도이다.

도 2를 참조하면, 오디오 변속처리 장치는 판단부(120)를 통해 버퍼부(110)에 저장된 입력 신호로부터 현재 단계의 프레임을 추출하기 위한 검색 기준점(init_pos)을 산출하고, 이를 토대로 검색범위를 설정한다(S101). 여기서, 판단부(120)는 변속 율(1/α)을 토대로, 합성신호에서의 프레임 간의 간격(GT)을 참조하여 검색 기준점을 산출하고, 검색 기준점을 중심으로 일정 구간([init_pos_m-△, init_pos_m+△])을 검색범위로 설정한다.

이후, 판단부(120)는 이전 단계에서 생성된 합성신호와 중첩영역에서의 상관도가 최고가 되도록 프레임을 추출하기 위한 최적위치(matched_posm)를 검색범위 내에서 선택하고(S102), 검색범위 내에서 산출된 최고 상관도를 문턱 값(θ)과 비교한다(S103). 그리고, 비교 결과에 따라 최고 상관도가 문턱 값(θ) 이상인 경우에는 합성방법으로 OLA를 선택하고, 최고 상관도가 문턱 값(θ)보다 작은 경우에는 합성방법으로 연결방법을 선택한다.

또한, 오디오 변속처리 장치는 프레임 합성부(130)를 통해 합성방법에 따라 현재 단계에서 입력신호로부터 프레임을 추출할 시작위치(start_pos)를 결정한다. 즉, 프레임 합성부(130)는 합성방법으로 OLA가 선택되면 S102 단계에서 선택한 최적위치를 시작위치로 결정하고(S104), 합성방법으로 연결방법이 선택되는 경우에는 이전 단계에서 프레임을 추출한 시작위치로부터 합성신호에서의 프레임간 간격(GT)만큼 떨어진 위치를 시작위치로 산출한다(S105).

이후, 프레임 합성부(130)는 합성방법으로 OLA가 선택된 경우에는 버퍼부(110)에 저장된 입력신호 중에서 시작지점부터 기 설정된 길이의 프레임을 추출하고, 추출된 프레임과 이전 단계에서 생성된 합성신호를 OLA를 통해 합성한다(S106).

반면에, 합성방법으로 연결방법이 선택된 경우, 프레임 합성부(130)는 S105 단계에서 산출된 시작위치를 현재 단계의 프레임을 추출하기 위한 검색 기준점(init_pos)과 비교한다(S107). 그리고, 두 지점 간의 차이가 문턱 값(φ) 이상이면, S102 단계에서 선택한 최적위치를 시작위치로 하여 입력신호로부터 프레임을 추출하고, 이를 이전 단계에서 생성된 합성신호와 OLA를 통해 합성한다(S104, S106). 반면에, 두 지점 간의 차이가 문턱 값(φ)보다 작은 경우에는 S105 단계에서 산출된 시작위치부터 프레임을 추출하고, 이를 이전 단계에서 생성된 합성신호에 연결하여 합성한다(S108). 여기서, 연결방법을 통해 합성신호를 갱신하는 경우, 프레임 합성부(130)는 현재 단계에서 추출된 프레임 중에서 이전 단계에서 생성된 합성신호와 중첩되는 부분을 제외한 나머지 부분을 이전 단계에서 생성된 합성신호에 연결한다.

전술한 바와 같이 합성신호를 생성하면, 오디오 변속처리 장치는 출력부(140)를 통해 합성신호를 응용 목적에 따라 특정 형식으로 인코딩 하여 출력하거나, 아날로그 신호로 변환하여 스피커를 통해 출력한다(S109).

도 3은 본 발명의 실시 예에 따른 고속 재생을 위한 합성신호 생성의 일 예를 도시한 것이고, 도 4는 저속 재생을 위한 합성신호 생성의 일 예를 도시한 것이다.

도 3 및 도 4를 참조하면, m번째 프레임은 합성신호와 연결방법으로 합성하고, (m+1)번째 프레임은 OLA를 통해 합성한다.

우선, 검색 지점(init_pos_m)을 중심으로 설정된 검색범위 내에서 (m-1)번째 프레임까지 합성한 합성신호와 m번째 프레임의 최고 상관도가 문턱 값(θ)보다 작다고 가정하면, m번째 프레임의 입력신호에서의 시작위치(start_pos_m)는 (m-1)번째 프레임의 검색 기준점으로부터 합성신호의 프레임 간 간격(GT)만큼 떨어진 위치가 된다. 이에 따라 오디오 변속처리 장치는 버퍼부(110)에 저장된 입력신호 중에서 설정된 시작위치(start_pos_m)부터 기 설정된 크기만큼의 신호를 m번째 프레임으로 추출한다. 그리고, m번째 프레임 중 (m-1)번째 프레임까지 합성된 합성신호와 중첩되는 영역을 제외한 나머지 신호들을 합성신호에 연결하여 합성신호를 갱신한다.

반면에, 다음 단계에서는 검색범위 내에서 (m+1)번째 프레임과 m번째 프레임 까지 합성한 합성신호간의 최고 상관도가 문턱 값(θ) 이상이라고 가정하면, (m+1)번째 프레임의 입력신호에서의 시작위치(start_pos_m+1)는 검색범위 내에서 최고 상관도를 보이는 최적위치(matched_pos_m+1)가 된다. 이에 따라, 오디오 변속처리 장치는 버퍼부(110)에 저장된 입력신호 중에서 설정된 시작위치(start_pos_m+1)부터 기 설정된 크기만큼의 신호를 (m+1)번째 프레임으로 추출한다. 그리고, (m+1)번째 프레임을 m번째 프레임까지 합성된 합성신호와 OLA를 통해 합성하여 합성신호를 갱신한다.

도 5 내지 도 8은 본 발명의 실시 예에 따른 오디오 변속처리 방법을 적용한 경우의 합성신호의 왜곡 정도를 기존의 SOLA 알고리즘을 적용한 경우와 비교하여 도시한 것이다.

여기서, 도 5 및 도 6은 각각 개그프로의 오디오 신호에 대해 2배속 및 0.8배속으로 변속처리하고 합성신호의 왜곡 정도를 측정한 예이다. 또한, 도 7 및 도 8은 각각 뉴스의 오디오 신호에 대해 2배속 및 0.8배속으로 변속처리하고 합성신호의 왜곡 정도를 측정한 예이다.

한편, 도 5 내지 도 6에서는 입력되는 오디오 신호와 원본 신호와 길이가 다르므로 신호대잡음비(signal to noise ratio, SNR)를 이용하여 합성신호의 왜곡 정도를 측정하는 대신, 중첩영역에서의 신호 차를 이용하여 왜곡 정도를 측정하였다. 여기서, 왜곡 정도는 {1 - (중첩 영역 간의 정규화 교차상관도)}으로 정의된다. 또한, 각 그래프의 X축은 합성에 사용되는 프레임의 번호이고, Y축은 중첩영역에서의 왜곡 정도를 나타내며, 각 점은 해당 프레임의 왜곡 정도를 나타내고 왜곡 경향을 보기 위해 각 점의 전 후 10 프레임 동안의 평균값을 산출하고 이를 선으로 이어 표현하였다.

도 5 및 도 6을 참조하면, 기존의 SOLA 알고리즘을 사용하는 경우 전반부에서의 왜곡 정도가 높게 나타남을 알 수 있다. 이는, 개그프로의 경우 전반부에 사회자의 멘트, 배경음악, 박수소리가 혼재하여 신호의 자기상관도가 낮기 때문이다. 반면에, 본 발명의 실시 예에 따른 오디오 변속처리 방법을 적용한 경우에는 기존의 SOLA 알고리즘을 사용한 경우에 비해 전반부에서의 음질 향상 효과가 뛰어남을 알 수 있다.

한편, 도 7 및 도 8을 참조하면, 배경 음과 아나운서의 멘트가 오디오 신호 전반에 걸쳐 혼재되어 있어 왜곡 정도가 균일하고, 본 발명의 실시 예에 따른 오디오 변속처리 방법을 적용한 경우의 음질 향상 효과가 전반에 걸쳐 균일하게 나타난다.

다음의 표 1은 도 5 내지 도 6에서 측정된 왜곡 정도의 평균값을 나타낸 것이다.

표 1. 중첩영역에서의 왜곡 정도 평균값

표 1을 보면, 복수의 음원이 혼재하는 오디오 신호에 대해 본 발명의 실시 예에 따른 오디오 변속처리 방법을 적용한 경우가 기존의 SOLA 알고리즘을 적용한 경우에 비해 향상된 음질의 오디오 신호를 생성함을 알 수 있다.

한편, 본 발명의 실시 예에 따른 오디오 변속처리 방법은 오디오 압축 기술에도 적용하는 것이 가능하다. 이 경우, 압축 시에는 압축할 오디오 신호를 본 발명의 실시 예에 따른 오디오 변속처리 방법을 통해 고속 재생 시와 동일하게 합성하고, 이를 인코딩 한다. 그리고, 이렇게 압축된 오디오 신호를 재생 시에는 압축된 오디오 신호를 디코딩하고, 디코딩 된 신호를 본 발명의 실시 예에 따른 오디오 변속처리 방법을 사용하여 저속 배속 시와 동일하게 디코딩 된 신호의 길이를 확장한다. 이러한 압축 방법은 기존의 오디오 압축 방법과 결합되어 더 높은 효율의 압축을 가능하게 하는 효과가 있으며, 동일한 크기로 압축하더라도 다른 변속처리 알고리즘을 사용하는 경우에 비해 향상된 음질의 신호로 압축할 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

도 3은 본 발명의 실시 예에 따른 고속 재생을 위한 합성신호 생성의 일 예를 도시한 것이다.

도 4는 본 발명의 실시 예에 따른 저속 재생을 위한 합성신호 생성의 일 예를 도시한 것이다.

Claims

오디오 변속처리 시스템의 오디오 변속처리 방법에 있어서,

변속 율을 토대로 입력신호에서의 검색 기준점을 산출하는 단계;

이전 단계에서 생성된 합성신호와 중첩영역에서 최고 상관도를 보이는 프레임을 상기 입력신호로부터 추출하기 위한 최적위치를 상기 검색 기준점을 중심으로 설정된 검색범위 내에서 선택하는 단계;

상기 최고 상관도가 제1 문턱 값보다 작으면, 상기 입력신호로부터 추출한 프레임에서 상기 합성신호와 중첩되는 영역을 제외한 나머지 영역의 신호를 상기 합성신호에 연결하여 상기 합성신호를 갱신하는 단계; 및

상기 최고 상관도가 상기 제1 문턱 값 이상이면, 상기 입력신호로부터 추출한 프레임과 상기 합성신호를 중첩합산하여 상기 합성신호를 갱신하는 단계

를 포함하는 오디오 변속처리 방법.
제 1항에 있어서,

상기 갱신하는 단계는,

상기 입력신호에서 상기 이전 단계에서의 프레임 시작위치로부터 상기 합성신호에 포함된 프레임 간의 간격만큼 떨어진 위치와 상기 검색 기준점 간의 차이 값을 제2 문턱 값과 비교하는 단계;

상기 차이 값이 상기 제2 문턱 값보다 작으면, 상기 이전 단계에서의 프레임 시작위치로부터 상기 합성신호에 포함된 프레임 간의 간격만큼 떨어진 위치를 현재 단계에서의 프레임 시작위치로 선택하는 단계; 및

상기 현재 단계에서의 프레임 시작위치부터 기 설정된 길이만큼 추출한 프레임에서 상기 합성신호와 중첩되는 영역을 제외한 나머지 영역의 신호를 상기 합성신호에 연결하는 단계

를 포함하는 오디오 변속처리 방법.
제 2항에 있어서,

상기 차이 값이 상기 제2 문턱 값 이상이면, 상기 최적위치를 상기 현재 단계에서의 프레임 시작위치로 선택하는 단계; 및

상기 현재 단계에서의 프레임 시작위치부터 기 설정된 길이만큼 추출된 프레임과 상기 합성신호를 중첩합산을 통해 합성하는 단계

를 더 포함하는 오디오 변속처리 방법.
제 1항에 있어서,

상기 중첩합산하여 상기 합성신호를 갱신하는 단계는,

상기 최적위치를 현재 프레임의 시작위치로 선택하는 단계; 및

상기 최적위치부터 기 설정된 길이만큼 추출된 프레임과 상기 합성신호를 중첩합산을 통해 합성하는 단계

를 포함하는 오디오 변속처리 방법.
입력되는 오디오 신호를 저장하는 버퍼부;

변속 율을 토대로 설정된 검색범위 내에서 상기 버퍼부에서 추출되는 프레임이 상기 이전 단계에서 생성된 합성신호와 최고 상관도를 보이는 최적위치를 선택하고, 상기 최고 상관도와 제1 문턱 값을 비교한 결과를 토대로 합성방법을 선택하는 판단부; 및

상기 합성방법으로 연결방법이 선택되면 상기 버퍼부로부터 추출한 프레임에서 상기 합성신호와 중첩되는 영역을 제외한 나머지 영역의 신호를 상기 합성신호에 연결하여 상기 합성신호를 갱신하고, 상기 합성방법으로 중첩합산이 선택되면 상기 버퍼부로부터 추출한 프레임과 상기 합성신호의 중첩합산을 통해 상기 합성신호를 갱신하는 프레임 합성부

를 포함하는 오디오 변속처리 장치.
제 5항에 있어서,

상기 판단부는,

상기 최고 상관도가 상기 제1 문턱 값 이상이면 상기 중첩합산을 상기 합성방법으로 선택하고, 상기 최고 상관도가 상기 제1 문턱 값보다 작으면 상기 연결방법을 상기 합성방법으로 선택하는 것을 특징으로 하는 오디오 변속처리 장치.
제 6항에 있어서,

상기 프레임 합성부는,

상기 이전 단계에서의 프레임 시작위치로부터 상기 합성신호에 포함된 프레임 간의 간격만큼 떨어진 위치와 상기 검색범위 내의 검색 기준점 간의 차이값이 제2 문턱 값 이상이면, 상기 중첩합산을 통해 상기 합성신호를 갱신하는 것을 특징으로 하는 오디오 변속처리 장치.
제 7항에 있어서,

상기 프레임 합성부는,

상기 연결방법을 통해 상기 합성신호를 갱신하는 경우에는 상기 이전 단계에서의 프레임 시작위치로부터 상기 합성신호에 포함된 프레임 간의 간격만큼 떨어진 위치를 현재 단계에서의 프레임 시작위치로 선택하고,

상기 중첩합산을 통해 상기 합성신호를 갱신하는 경우에는 상기 최적위치를 상기 현재 단계에서의 프레임 시작위치로 선택하는 것을 특징으로 하는 오디오 변속처리 장치.
제 8항에 있어서,

상기 프레임 합성부는,

상기 버퍼부로부터 상기 현재 단계에서의 프레임 시작위치로부터 기 설정된 길이만큼의 프레임을 추출하여 상기 합성신호의 갱신에 사용하는 것을 특징으로 하는 오디오 변속처리 장치.