KR101152616B1

KR101152616B1 - 오디오 신호 배속 재생 방법 및 그 장치

Info

Publication number: KR101152616B1
Application number: KR1020090125957A
Authority: KR
Inventors: 김이길; 정지년; 구명완
Original assignee: 주식회사 케이티
Priority date: 2009-12-17
Filing date: 2009-12-17
Publication date: 2012-06-05
Also published as: KR20110069286A

Abstract

오디오 신호 배속 재생 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 오디오 신호 배속 재생 방법은 유사도를 계산하기 위한 검색 창함수 크기 및 검색 간격을 설정하는 단계; 상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 검색 구간별로 기준 데이터와의 유사도를 계산하는 단계; 계산된 상기 유사도들로부터 기 설정된 개수의 상위 우선 순위를 갖는 상위 유사도를 검출하는 단계; 검출된 상기 상위 유사도에 해당하는 검색 구간에서 검색 범위를 일정 부분 확장하고, 확장된 검색 범위에서 상기 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 단계; 및 재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간 데이터를 이용하여 상기 오디오 신호의 배속 재생을 수행하는 단계를 포함할 수 있다.

오디오, 배속 재생, OLA(Overlap and Add), 우선 순위, 재검색, 검색 간격

Description

오디오 신호 배속 재생 방법 및 그 장치{METHOD FOR VARIABLE PLAYBACK SPEED OF AUDIO SIGNAL AND APPARATUS THEREOF}

본 발명은 오디오 신호 배속 재생에 관한 것으로서, 보다 상세하게는 중첩가산법(OLA: Overlap and Add) 방식에서 음성처리 기술을 이용하여 임의의 배속으로 오디오 재생 시 발생하는 음색(pitch)의 왜곡을 최소화하고 재생품질을 좋게 유지하면서 오디오 데이터를 고속으로 음성 처리할 수 있는 오디오 신호 배속 재생 방법 및 그 장치에 관한 것이다.

일반적으로 음성의 재생속도를 빠르게 하면 남성의 목소리 톤이 여성처럼 가늘게 바뀌고 반대로 속도를 느리게 하면 여성의 목소리가 남성처럼 굵은 저음으로 변하는 현상이 일어나게 되는데, 이를 음색(pitch)의 왜곡현상이라고 한다.

사용자의 이해를 방해하는 이러한 왜곡현상을 줄이기 위해 목소리의 톤은 그대로 유지하면서 화자가 단지 말을 빨리 하는 것처럼 느끼게 해주는 기술이 필요하게 되었고, 음성처리 분야에서는 이러한 시도가 과거부터 꾸준히 연구 되어왔다.

배속 재생 기술은 크게 주파수 영역(frequency domain)에서 음성을 처리하는 phase vocoder와 시간 영역(time domain)에서 처리하는 OLA(Overlap and Add) 계열 방식이 대표적인 방법이며, 이중 OLA 계열의 PSOLA(Pitch Synchronous Overlap and Add), WSOLA(Waveform Similarity Based Overlap and Add) 등이 좋은 성능으로 많이 사용되고 있다. 현재는 PSOLA보다는 빠른 연산속도와 고품질의 배속 재생을 제공하는 WSOLA 방식이 최근 대부분의 배속재생 서비스에 이용되고 있다.

하지만 오늘날 인터넷의 발달과 함께 멀티미디어 데이터는 기하급수적으로 늘어나고 있으며 점점 대용량화 되고 있고, 더구나 동영상이나 음악을 스트리밍하는 웹 기반의 포털 서비스들이 등장함에 따라 다수의 사용자가 한정된 멀티미디어 컨텐츠를 동시 이용하고자 하는 경우가 발생하고 있다.

이러한 대용량, 멀티 스트리밍 데이터에 포함된 오디오 신호에 대하여 배속 재생 서비스를 하고자 할 때에 서버에서의 음성처리는 고부하로 인한 전체적인 속도저하를 피할 수 없으며 모바일과 같은 휴대형 단말장치에서는 저 성능의 연산처리능력으로 인하여 아무리 WSOLA 방식을 이용한다고 해도 대용량의 데이터를 실시간 처리 할 수 없는 문제점이 있다.

WSOLA 방식에서 처리속도를 증가시키기 위해, 검색 창함수의 유사도 구간 검색 간격을 증가시킬 수 있지만, 검색 창함수의 유사도 검색 간격을 증가시킬수록 배속 재생 품질은 저하되는 단점이 있다. 또한, 오디오 신호의 샘플링 주파수가 낮을 경우에는 유사도 검색 간격을 조금만 증가시켜도 배속 재생 품질이 급격히 저하되는 현상이 발생한다. 이러한 이유로 WSOLA 방식에서 오디오 신호에 따라 배속 재생 품질이 크게 저하되지 않는 선에서 자동적이 아닌 수동적인 방법으로 검색 간격을 증가시켜 왔고 처리속도 향상도 그에 따라 제한적일 수 밖에 없다.

따라서, 처리속도를 향상시키면서 배속 재생 품질이 저하되는 것을 방지할 수 있는 방법의 필요성이 대두된다.

상기와 같은 문제점을 해결하기 위하여 창안된 본 발명의 실시예에 따른 목적은, 배속 재생 품질 저하를 방지하면서 처리 속도를 향상시킬 수 있는 오디오 신호 배속 재생 방법 및 그 장치를 제공하는데 있다.

바람직하게, 본 발명은 오디오 신호의 샘플링 주파수에 따라 검색 간격을 설정하고, 유사도가 높은 검색 창함수 구간을 확장한 후 최소 검색 간격으로 유사도를 재계산하여 최대 유사도를 갖는 구간을 검색함으로써, 배속 재생 품질 저하를 방지하면서 처리 속도를 향상시킬 수 있다.

또한, 본 발명의 실시예에 따른 다른 목적은, 컴퓨터, 휴대용 단말장치(예를 들어, 핸드폰, mp3 플레이어, 어학학습장치 등)와 같은 독립형(standalone) 형태의 멀티미디어 음성 재생기기, 서버 형태의 웹 기반 동영상 및 오디오 스트리밍 서비스(예를 들어, 이러닝 서비스, 동영상 및 음악 포털 서비스)에서의 실시간 및 초고속 음성처리가 가능한 오디오 신호 배속 재생 방법 및 그 장치를 제공하는데 있다.

상기 목적을 달성하기 위한, 본 발명의 한 관점에 따른 오디오 신호 배속 재생 방법은 유사도를 계산하기 위한 검색 창함수 크기 및 검색 간격을 설정하는 단계; 상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 검색 구간별로 기준 데이터와의 유사도를 계산하는 단계; 계산된 상기 유사도들로부터 기 설정된 개수의 상위 우선 순위를 갖는 상위 유사도를 검출하는 단계; 검출된 상기 상위 유사도에 해당하는 검색 구간에서 검색 범위를 일정 부분 확장하고, 확장된 검색 범위에서 상 기 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 단계; 및 재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간 데이터를 이용하여 상기 오디오 신호의 배속 재생을 수행하는 단계를 포함할 수 있다.

바람직하게, 상기 재계산하는 단계는 상기 상위 유사도에 해당하는 검색 구간의 전후로 상기 검색 간격 만큼씩 확장한 후, 확장된 검색 범위에서 상기 검색 창함수를 상기 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산할 수 있다.

바람직하게, 상기 설정하는 단계는 재생되는 상기 오디오 신호로부터 샘플링 주파수 정보를 추출하고, 추출된 상기 샘플링 주파수 정보를 기초로 상기 검색 창함수 크기 및 상기 검색 간격을 설정할 수 있다.

바람직하게, 상기 설정하는 단계는 샘플링 주파수별로 기 설정된 상위 우선 순위 개수들로부터 추출된 상기 샘플링 주파수 정보에 해당하는 상위 우선 순위 개수를 설정하고, 설정된 상기 검색 창함수 크기 및 상기 상위 우선 순위 개수를 통해 상기 검색 간격을 설정할 수 있다.

나아가, 상기 오디오 신호로부터 배속 재생 정보를 추출하는 단계를 더 포함하고, 상기 계산하는 단계는 상기 배속 재생 정보에 의해 설정되는 검색 범위에서 상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 상기 검색 구간별 유사도를 계산할 수 있다.

여기서, 상기 제1 검색 간격은 최소 검색 간격인 것이 바람직하다.

바람직하게, 본 발명의 오디오 신호 배속 재생 방법은 동기중첩가산법(SOLA: synchronized overlap and add)과 파형유사도 기반 중첩가산법(WSOLA: waveform similarity based overlap and add)을 포함하는 중첩가산법(OLA) 방식의 배속 재생 방법일 수 있다.

바람직하게, 상기 검출하는 단계는 계산된 상기 유사도들로부터 최대 유사도를 검출할 수 있다.

본 발명의 한 관점에 따른 오디오 신호 배속 재생 장치는 유사도를 계산하기 위한 검색 창함수 크기 및 검색 간격을 설정하는 설정부; 상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 검색 구간별로 기준 데이터와의 유사도를 계산하는 제1 계산부; 계산된 상기 유사도들로부터 기 설정된 개수의 상위 우선 순위를 갖는 상위 유사도를 검출하는 검출부; 검출된 상기 상위 유사도에 해당하는 검색 구간에서 검색 범위를 일정 부분 확장하고, 확장된 검색 범위에서 상기 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 제2 계산부; 및 재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간 데이터를 이용하여 상기 오디오 신호의 배속 재생을 수행하는 수행부를 포함할 수 있다.

상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.

본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하에서는, 본 발명의 일 실시 예에 따른 오디오 신호 배속 재생 방법 및 그 장치를 첨부된 도 1 내지 도 11을 참조하여 상세히 설명한다.

본 발명은 OLA 방식에서 오디오 신호의 샘플링 주파수에 따라 검색 창함수(window) 크기(또는 넓이) 및 검색 간격을 설정하고, 검색 창함수를 검색 간격 단위로 이동시켜 검색 구간별 유사도를 계산한 후 기 설정된 개수의 상위 우선 순위의 유사도를 갖는 검색 구간에 대해 검색 범위를 일정 부분 확장하여 확장된 검색 범위에서 최소 유사도 검색 간격으로 유사도를 재계산함으로써, 배속 재생 품질이 저하되는 것을 방지하고 처리 속도를 향상시키고자 하는 것을 그 요지로 한다.

여기서, 창함수는 디지털 신호처리(DSP: Digital Signal Processing) 분야에서 많이 쓰이는 용어로 당업자에게 있어서 자명하겠지만 간략하게 설명하면, 창함수란 시간축상에서 무한한 신호를 구간화하여 유한하게 만들어 시스템내에서 연산처리하기 위한 창의 함수로서, 일반적으로 창의 모양에 따라 함수의 정의가 달라지며 대표적으로 해밍, 해닝, 구형창 등이 있다.

음성이나 영상같은 디지털 신호의 파형은 시간축상의 무한한 길의의 파형을 나타내는데, 이런 무한한 길이의 파형을 창함수를 통하여 유한구간으로 제한하여만 디지털 시스템내에서　연산처리 할 수 있게 된다. 즉, 디지털 신호에 창을 씌워서 창으로 지나가는 신호를 시스템이　연산처리 할 수 있게 된다.

이런 창함수의 크기는 시간축 상의 창의 구간(길이)을 의미한다.

도 1은 일반적인 WSOLA 방식의 유사도 구간 검색 방법을 나타낸 것이다.

도 1에 도시된 바와 같이, 시간축 상의 일정 구간 (t-1)에서 (t+1)까지의 오디오 신호(a)와 배속 스케일 α만큼 증가 또는 축소된 구간 α(t-1)에서 α(t+1) 사이 구간의 오디오 신호(b) 중에서 유사도(correlation)가 가장 높은 구간을 잘라내어 재구성(c)하면 배속에 맞게 스케일링된 오디오 신호를 만들어 낼 수 있다.

여기서, 유사도 구간을 검색할 때 일반적으로 α(t-1)에서 α(t+1) 사이 구간을 모두 검색하는 방식이 일반적인 방법이지만, 도 1b와 같이 검색 간격(step size) Δ을 1이상 넓히게 되면 그 만큼 검색시간은 반비례해서 줄어들게 된다.

하지만, 검색 간격이 넓어지면 유사도가 가장 높은 구간이 중간에 빠질 수 있기 때문에 배속 재생 품질이 떨어지게 된다.

본 발명은 이와 같은 배속 재생 품질과 처리 속도 모두를 만족시킬 수 있는 방법 및 장치를 제공하는 것이다. 본 발명의 상세한 설명에서 WSOLA 방식에 대해서만 설명하지만, 이에 한정되는 것은 아니며, OLA 방식을 사용하는 모든 방식 예를 들어, 음색 동기 중첩가산법(PSOLA: pitch synchronized overlap and add)과 파형유사도 기반 중첩가산법(WSOLA: waveform similarity based overlap and add) 등을 포함하는 모든 방식에 적용할 수 있다는 것은 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.

도 2는 본 발명의 일 실시예에 따른 오디오 신호 배속 재생 장치를 나타낸 것이다.

도 2를 참조하면, 오디오 신호 배속 재생 장치는 추출부(210), 설정부(220), 제1 계산부(230), 검출부(240), 제2 계산부(250) 및 수행부(260)를 포함한다.

본 발명에 따른 오디오 신호 배속 재생 장치에 대해 1) 샘플링 주파수에 따라 재계산되는 검색 구간의 상위 우선 순위 개수가 자동 설정되는 경우와, 2) 샘플링 주파수에 관계없이 재계산되는 검색 구간의 개수가 최대 유사도로 설정되는 경우로 나누어 설명한다.

1) 샘플링 주파수에 따라 재계산되는 검색 구간의 상위 우선 순위 개수가 자동 설정되는 경우에 대해 설명한다.

추출부(210)는 재생되는 오디오 신호로부터 샘플링 주파수 정보, 나아가 배속 재생 정보를 추출한다.

여기서, 오디오 신호로부터 샘플링 주파수 정보, 배속 재생 정보를 추출하는 방법은 다양할 수 있으며 그 방법 또한 당업자에게 자명하기에 생략한다.

설정부(220)는 추출부(210)에 의해 추출된 샘플링 주파수 정보를 기초로 유사도를 계산하기 위한, 검색 창함수 크기(또는 넓이)를 설정하고, 샘플링 주파수별로 기 설정된 상위 우선 순위 개수들로부터 해당 샘플링 주파수 정보에 해당하는 상위 우선 순위 개수를 설정한다.

이때, 검색 창함수 크기가 샘플링 주파수 정보에 따라 설정되는 이유는 샘플링 주파수가 높으면 검색 창함수 구간이 좁아도 많은 수의 샘플링된 오디오 신호가 구간 안에 들어오고, 반대로 샘플링 주파수가 낮으면 검색 창함수의 구간을 더 넓게 잡아야 분석이 가능한 충분한 오디오 신호를 얻을 수 있기 때문이다.

나아가, 설정부(220)는 설정된 검색 창함수 크기 및 상위 우선 순위 개수를 이용하여 유사도 검색 간격(Δ)을 설정하고, 추출부(210)에 의해 추출된 배속 재생 정보를 이용하여 유사도를 검색하기 위한 검색 범위를 설정할 수 있다.

여기서, 설정부(220)에 의해 설정되는 검색 간격은, 배속 재생에 따른 검색 범위에서 최대 유사도 구간을 검색하는데 걸리는 시간이 최소가 되도록 설정되는 것이 바람직하며, 이 값은 샘플링 주파수별로 기 설정된 상위 우선 순위 개수와 검색 창함수 크기에 따른 검색 시간 및 배속 재생 품질 등을 고려하여 설정될 수도 있다.

즉, 설정부(220)에 의해 설정되는 검색 간격은 제2 계산부(250)에 의해 확장되는 만큼 예를 들어, 검색 구간의 좌우로 (Δ/2)만큼 확장하는 경우와 Δ만큼 확장하는 경우에 따라 검색 시간이 달라질 수 있기 때문에 이 또한 고려하여 검색 간격을 설정할 수도 있다.

예를 들어, 검색 창함수의 크기가 x라고 하고, 검색 간격을 Δ라고 하면, 검색 창함수 하나에 해당하는 검색 시간은 x가 되며, k만큼의 상위 우선 순위 유사도 재검색을 하는 경우의 검색 시간은 (x/Δ)+k×x가 되는데, 수학적으로 이 공식의 분수형태의 1차 미분방정식의 근이 최소 검색 시간을 갖기에, 검색 간격 Δ는 아래 <수학식 1>과 같이 k와 x값으로부터 구할 수 있다.

계산부는 설정부(220)에 의해 설정된 검색 범위에서 검색 창함수를 설정된 검색 간격 단위로 이동시켜 재생되는 오디오 신호의 기 설정된 기준 데이터와 해당 검색 창함수에 포함된 오디오 신호 데이터의 유사도(correlation)를 계산한다.

여기서, 오디오 신호의 기준 데이터는 중첩 유사도를 계산하기 위한　기준 프레임(창 또는 윈도우)으로, 스케일링 되기 전의 프레임(기준 프레임)이라고 부를 수 있으며, 중첩가산법(OLA)에서는 일반적으로 이 프레임과 인접한 프레임들 간의 중첩 길이를 변속율에 따라서 재조정하여 중첩한다. 이 내용은 디지털 오디오 신호의 시간스케일수정(TSM: time-scale modification) 방식인 중첩가산법(OLA)에 대한 내용으로, 이 기술 분야에 종사하는 당업자라면 누구나 알 수 있기에 상세한 설명은 생략한다.

검출부(240)는 제1 계산부(230)에 의해 계산된 검색 구간별 유사도 중에서 설정부(220)에 의해 설정된 상위 우선 순위 개수의 상위 유사도를 검출한다.

즉, 도 3a에 도시된 일 예와 같이, 제1 계산부(230)에 의해 검색 범위 α(t-1)에서 α(t+1)까지 설정된 검색 간격(Δ)으로 검색 창함수를 이동시켜 유사도를 계산하고, 도 3b에 도시된 일 예와 같이, 설정부(220)에 의해 설정된 상위 우선 순위 개수가 3개인 경우, 검출부(240)는 계산된 유사도들 중 그 값의 크기가 큰 순서로 1, 2, 3번째(1^st, 2^nd, 3^rd) 상위 유사도를 검출하고, 도 3c에 도시된 일 예와 같이, 설정부(220)에 의해 설정된 상위 우선 순위 개수가 2개인 경우, 검출부(240)는 계산된 유사도들 중 그 값의 크기가 큰 순서로 1, 2번째(1^st, 2^nd) 상위 유사도를 검출한다.

제2 계산부(250)는 검출부(240)에 의해 검출된 상위 유사도에 해당하는 검색 구간에서 검색 구간별로 해당 검색 범위를 일정 부분 확장하고, 확장된 검색 범위 각각에서 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산한다.

이때, 상위 유사도에 해당하는 검색 구간에서 확장되는 검색 범위는 해당 검색 구간의 전후로 검색 간격(Δ)만큼 확장될 수도 있고, 해당 검색 구간의 전후로 검색 간격의 절반만큼 확장될 수도 있는데, 확장 범위는 검색 시간과 최대 유사도가 존재할 수 있는 구간 등을 고려하여 설정될 수 있다.

또한, 제1 검색 간격은 유사도를 계산할 수 있는 최소 검색 간격인 것이 바람직하나, 이에 한정하지 않고 상황에 따라 그 값이 달라질 수 있으며, 그 값은 설 정부(220)에 의해 설정된 검색 간격에 비해 그 값이 작은 것이 바람직하다.

예를 들어, 설정부(220)에 의해 설정된 상위 우선 순위 개수가 1개이고, 확장 범위가 해당 검색 구간의 전후로 검색 간격(Δ)만큼 확장된다 가정하면, 도 4에 도시된 일 예와 같이, 제2 계산부(250)는 최대 유사도를 갖는 검색 구간이 a에서 b까지 일 때, 검색 범위를 (a-Δ)에서 (b+Δ)까지 확장하고, 검색 간격을 제1 검색 간격(Δ₁)으로 조정한 후 제1 검색 간격으로 검색 창함수를 이동시켜 검색 구간별 유사도를 재계산한다.

수행부(260)는 재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간 데이터를 이용하여 오디오 신호의 배속 재생을 수행한다.

예컨대, 도 4에 도시된 바와 같이, 수행부(260)는 제2 계산부(250)에 의해 재계산된 유사도들 중에서 최대 유사도를 갖는 검색 구간 즉, (a+Δ)에서 (b+Δ)까지의 구간에 포함된 오디오 신호 데이터를 이용하여 오디오 신호 배속 재생을 수행한다.

2) 샘플링 주파수에 관계없이 재계산되는 검색 구간의 개수가 최대 유사도로 설정되는 경우에 대해 설명한다. 즉, 상기 1)에서 설정되는 상위 우선 순위가 최대 유사도로 고정된 경우에 대한 것이다.

추출부(210)는 재생되는 오디오 신호로부터 샘플링 주파수 정보 나아가 배속 재생 정보를 추출한다.

설정부(220)는 추출부(210)에 의해 추출된 샘플링 주파수 정보를 기초로 유사도를 계산하기 위한, 검색 창함수 크기(또는 넓이)를 설정하고, 추출부(210)에 의해 추출된 배속 재생 정보를 이용하여 검색 범위를 설정하며, 설정된 검색 창함수 크기를 기초로 검색 범위에서의 검색 간격(Δ)을 설정한다.

제1 계산부(230)는 설정부(220)에 의해 설정된 검색 범위에서 검색 창함수를 설정된 검색 간격 단위로 이동시켜 재생되는 오디오 신호의 기 설정된 기준 데이터와 해당 검색 창함수에 포함된 오디오 신호 데이터의 유사도(correlation)를 계산한다.

검출부(240)는 제1 계산부(230)에 의해 계산된 검색 구간별 유사도 중에서 최대 유사도를 검출한다. 즉, 상기 1)에서의 상위 우선 순위 중에서 최대값을 갖는 유사도를 검출한다.

제2 계산부(250)는 검출부(240)에 의해 검출된 최대 유사도에 해당하는 검색 구간에서 유사도를 재계산하기 위한 검색 범위를 일정 부분 예를 들어, 해당 검색 구간의 전후로 검색 간격만큼 확장하고, 확장된 검색 범위에서 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 해당 검색 범위에서의 검색 구간별 유사도를 재계산한다.

물론, 해당 검색 구간에서 확장되는 검색 범위를 검색 구간의 전후로 검색 간격(Δ)만큼 확장될 수도 있지만, 상황에 따라 해당 검색 구간의 전후로 검색 간격의 절반(Δ/2)만큼 확장될 수도 있으며, 이렇듯 재계산을 위한 검색 구간의 확장 범위는 상황에 따라 달라질 수 있다.

수행부(260)는 제2 계산부(250)에 의해 재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간의 오디오 신호 데이터를 이용하여 오디오 신호의 배속 재생을 수행한다.

이와 같이, 본 발명의 일 실시예에 따른 오디오 신호 배속 재생 장치는 오디오 신호의 샘플링 주파수와 재계산에 필요한 상위 유사도의 검색 구간 개수에 따라 검색 창함수의 검색 간격을 설정하고, 설정된 검색 간격에 따라 계산된 유사도들 중 상위 우선 순위 개수의 유사도 또는 최대 유사도에 해당하는 검색 구간에 대해 검색 범위를 일부 확장하여 기 설정된 제1 검색 간격 예를 들어, 최소 검색 간격으로 검색 구간별 유사도를 재계산함으로써, 배속 재생 품질을 유지하면서 최대 유사도를 갖는 검색 구간을 검색하는데 걸리는 시간을 최소화할 수 있다.

즉, 본 발명은 검색 간격을 넓혀서 1차로 유사도를 계산하고, 유사도가 높은 검색 구간에 대해 검색 범위를 일부 확장한 후 검색 간격을 줄여 2차로 유사도를 정밀하게 재계산함으로써, 최대 유사도를 갖는 검색 구간에 대한 검색 정확도를 높일 수 있고, 특정 상위 우선 순위에 해당하는 검색 구간만을 재검색하기 때문에 전체 검색 시간을 줄일 수 있다.

이렇듯 본 발명에 따른 장치는 검색 시간의 최소화와 배속 재생 품질을 유지할 수 있기 때문에 컴퓨터, 휴대용 단말장치 예를 들어, 핸드폰, mp3 플레이어, 어학학습장치 등과 같은 독립형(standalone) 형태의 멀티미디어 음성 재생기기, 서버 형태의 웹 기반 동영상 및 이러닝 서비스, 동영상 및 음악 포털 서비스 등을 포함 하는 오디오 스트리밍 서비스에서의 실시간 및 초고속 음성 처리가 가능하도록 할 수 있다.

따라서, 검색 시간 최소화로 인한 속도 개선을 통해 다수의 사용자가 한정된 멀티미디어 컨텐츠를 동시 이용하고자 하는 경우나 대용량, 멀티 스트리밍 데이터에 포함된 오디오 신호에 대하여 배속 재생 서비스를 하고자 하는 경우에 발생할 수 있는 고부하로 인한 전체적인 속도저하를 피할 수 있으며, 저 성능의 연산처리능력을 갖는 모바일과 같은 휴대형 단말장치에서는 대용량의 데이터를 실시간 처리 할 수도 있다.

도 5는 본 발명에 따른 상위 우선 순위 개수에 따른 검색 간격과 검색 시간의 상관관계를 실험적 분석을 통하여 나타낸 것이다.

여기서, k 값이 0일 때는 검색 범위 확장에 따른 유사도 재계산이 없을 때이고, k 값이 1일 때는 최대 유사도를 갖는 검색 구간에 대해서만 검색 범위 확장에 따른 유사도 재계산을 하는 경우이며, k 값이 2, 3일 때는 유사도 크기가 상위 두 개 검색 구간, 세 개 검색 구간에 대해서 검색 범위 확장에 따른 유사도 재계산을 하는 경우에 대한 것이다.

도 5를 통해 알 수 있듯이, 기존 방식인 k가 0인 경우를 보면 검색 간격이 높아지면서 즉, 검색 간격이 1, 2 방향으로 높아지면서 검색 시간(elapsed time)은 줄어들지만 전체적인 평균 유사도(average correlation)가 줄어들기 때문에 유사도가 떨어지면서 배속 재생 품질 또한 급격히 저하되는 것을 알 수 있다. 반면, 상 위 우선 순위 구간에 대해 정밀하게 재검색하는 경우(k=1,k=2,k=3 일 때)를 보면 기존 방식(k=0인 경우)에 비해 검색 간격이 높아지더라도 평균 유사도가 높은 것을 알 수 있다.

또한, k가 1인 경우가 k가 2, 3인 경우에 비해 검색 시간과 평균 유사도가 더 높은 것을 알 수 있다.

물론, 상위 우선 순위 구간을 재검색하는 경우(k=1,k=2,k=3 일 때)라도 도 5에 도시된 바와 같이, 같은 검색시간에서 평균 유사도가 항상 높은 것은 아니며, 검색 간격이 넓어질수록 검색 시간이 줄어들기 때문에 그래프는 오른쪽에서 왼쪽으로 포물선처럼 내려오다가 어느 지점에 이르러서는 최소 검색 시간을 찍고 다시 검색 시간이 증가하는 방향 즉, 그래프의 오른쪽으로 다시 증가하면서 평균 유사도 또한 낮아지는 것을 알 수 있다.

따라서, 최소 검색 시간을 알 수 있다면 항시 동일 검색 시간에서 최고의 유사도를 갖는 검색 간격을 알아낼 수 있고 이로 인해 더 이상 수동적인 검색간격 설정은 필요 없게 된다. 여기서, 최소 검색 시간은 샘플링 주파수, 검색 창함수 크기, 재검색 확장 범위 등에 따라 달라질 수 있기 때문에 이런 변수들을 고려하고, 이런 변수들을 고려하여 검색 간격을 샘플링 주파수와 상위 우선 순위 개수에 따라 기 설정할 수 있다.

도 6은 본 발명의 일 실시예에 따른 오디오 신호 배속 재생 방법에 대한 동작 흐름도를 나타낸 것으로, 재검색되는 검색 구간이 적어도 하나 이상 자동으로 설정되는 경우에 대한 것이다.

도 6을 참조하면, 오디오 신호 배속 재생 방법은 재생되는 오디오 신호로부터 샘플링 주파수 정보 및 배속 재생 정보를 추출한다(S610).

추출된 샘플링 주파수 정보를 이용하여 검색 창함수 크기(또는 넓이)를 설정하고, 샘플링 주파수별로 기 설정된 상위 우선 순위 개수로부터 단계 S610에서 추출된 샘플링 주파수 정보에 해당하는 상위 우선 순위 개수를 설정한다(S620).

설정된 검색 창함수 크기 및 상위 우선 순위 개수를 기초로 유사도를 검색하기 위한 검색 구간들 간의 검색 간격을 설정한다(S630).

여기서, 검색 간격은 검색 창함수 크기 및 상위 우선 순위 개수를 고려하여 검색 시간이 최소가 되면서 배속 재생 품질을 유지할 수 있도록 설정되는 것이 바람직하다.

검색 간격이 설정되면, 검색 창함수를 추출된 배속 재생 정보에 의해 설정되는 검색 범위에서 검색 간격만큼 이동시켜 검색 구간별로 기 설정된 오디오 신호의 기준 데이터와의 유사도를 계산한다(S640).

검색 구간별로 계산된 유사도들 중 단계 S620에서 설정된 상위 우선 순위 개수에 해당하는 상위 유사도를 검출한다(S650).

여기서, 상위 유사도는 계산된 유사도 값들 중 그 값의 크기가 큰 순서로 검출되는 것은 자명하다.

검출된 상위 유사도에 해당하는 검색 구간 각각에 대해 유사도를 재검색하기 위해, 검색 범위를 일정 부분 확장하고, 확장된 검색 범위 각각에 대해 검색 간격 을 기 설정된 제1 검색 간격으로 설정한 후 검색 창함수를 제1 검색 간격으로 이동시켜 해당 검색 범위 각각에서의 검색 구간별 유사도를 재계산한다(S660, S670).

이때, 상위 유사도에 해당하는 검색 구간에서 확장되는 확장 범위는 해당 검색 구간의 전후로 검색 간격만큼 확장하거나 그 보다 작은 간격만큼 확장할 수도 있다.

여기서, 제1 검색 간격은 최소 검색 간격인 1인 것이 바람직하지만, 이에 한정하지 않고 상황에 따라 2, 3 등과 같은 다른 값이 될 수도 있다.

단계 S670에 의해 재계산된 유사도들 중에서 최대 유사도를 검출하고, 최대 유사도를 갖는 검색 구간의 데이터를 이용하여 오디오 신호의 배속 재생을 수행한다(S680, S690).

이런 본 발명에 따른 오디오 신호의 배속 재생 방법은 OLA 방식의 모든 방식 예를 들어, PSOLA(pitch synchronized overlap and add) 방식과 WSOLA(waveform similarity based overlap and add) 방식에 의한 배속 재생 방법일 수 있다.

도 7은 본 발명의 다른 일 실시예에 따른 오디오 신호 배속 재생 방법에 대한 동작 흐름도를 나타낸 것으로, 재검색되는 검색 구간이 샘플링 주파수에 따라 변경되지 않고 최대 유사도에 해당하는 검색 구간만을 재검색하는 경우에 대한 것이다.

도 7을 참조하면, 오디오 신호 배속 재생 방법은 재생되는 오디오 신호로부 터 샘플링 주파수 정보 및 배속 재생 정보를 추출한다(S710).

추출된 샘플링 주파수 정보를 이용하여 검색 창함수 크기(또는 넓이) 및 검색 간격을 설정한다(S720).

이때, 검색 간격은 샘플링 주파수 정보 또는 검색 창함수 크기를 기초로 설정될 수 있으며, 이런 검색 간격은 샘플링 주파수별로 기 설정되거나 검색 창함수 크기별로 기 설정될 수도 있다.

검색 간격이 설정되면, 검색 창함수를 추출된 배속 재생 정보에 의해 설정되는 검색 범위에서 검색 간격만큼 이동시켜 검색 구간별로 재생되는 오디오 신호의 기 설정된 기준 데이터와의 유사도를 계산한다(S730).

검색 구간별로 계산된 유사도들 중 그 값이 가장 큰 최대 유사도를 검출한다(S740).

검출된 최대 유사도에 해당하는 검색 구간에 대한 유사도를 재검색하기 위해, 해당 검색 구간을 포함하는 검색 범위를 일정 부분 확장하고, 확장된 검색 범위에 대해 검색 간격을 기 설정된 제1 검색 간격으로 설정한 후 검색 창함수를 제1 검색 간격으로 이동시켜 해당 검색 범위에서의 검색 구간별 유사도를 재계산한다(S750, S760).

이때, 최대 유사도에 해당하는 검색 구간에서 확장되는 확장 범위는 해당 검색 구간의 전후로 설정된 검색 간격만큼 확장하거나 그 보다 작은 간격만큼 확장할 수도 있다.

단계 S760에 의해 재계산된 유사도들 중에서 최대 유사도를 검출하고, 최대 유사도를 갖는 검색 구간의 데이터를 이용하여 오디오 신호의 배속 재생을 수행한다(S770, S780).

도 8은 본 발명에 따른 배속 재생 장치에서 사용되는 방식과 종래 다른 방법들과의 성능 비교를 위한 방식들을 나타낸 것으로, DTW(Dynamic Time Warping) 방식(a)과 CDTW(Continuous Dynamic Time Warping) 방식(b)을 나타낸 것이다.

일반적으로 재생시간이 다른 두 개의 오디오 신호의 유사성 비교는 DTW 방식을 많이 사용한다. DTW 방식은 도 8a에 도시된 것과 같이 두 개의 신호간 모든 대응점의 거리(all pair-wise distances)의 합이 적을 수록 두 신호가 유사하다고 판단하는 방식이고, CDTW 방식은 도 8b에 도시된 것과 같이 시간축 상에서 일정한(uniform) 간격을 보간법(interpolation)을 이용한 샘플링 간격으로 만들어 주고 거리를 계산하기 때문에 오디오와 같이 연속적인(sequential) 신호의 경우 DTW에 비해 더 좋은 유사도 비교 성능을 보여준다.

따라서, 본 발명에 따른 방식과 기존 다른 방식들에 대해 CDTW 방식을 이용하여 성능을 검증할 수 있는데, 이에 대해 도 9를 참조하여 설명한다.

도 9는 본 발명에 따른 방법과 기존 방법의 차이를 CDTW 비교를 통해 나타낸 것으로, 도 9a는 기존 WSOLA 방식에 대한 CDTW를 나타낸 것이고, 도 9b는 검색구간을 넓혔지만 순위구간 재 검색이 없는 경우에 대한 CDTW를 나타낸 것이며, 도 9c는 본 발명에 따른 방법에 대한 CDTW를 나타낸 것이다.

도 9를 통해 알 수 있듯이, 본 발명에 따른 방법에 대한 CDTW 거리(distance)가 다른 방식의 CDTW 거리 즉, 도 9a와 도 9b에 도시된 CDTW 거리에 비해 그 값이 작은 것을 알 수 있으며, 이를 통해 본 발명에 따른 방식이 다른 방식에 비해 유사도가 제일 높다는 것을 실험적으로 증명한 결과라고 할 수 있다.

도 10은 본 발명에 따른 상위 우선 순위 개수에 따라 배속 재생 음성 처리의 증가속도를 비교한 것으로, 도 10a는 상위 우선 순위 개수(k)에 따른 예상 증가 속도를 나타낸 것이고, 도 10b는 상위 우선 순위 개수(k)에 따른 실제 실험적으로 구한 증가 속도를 나타낸 것이다.

본 발명에 따른 방법은 샘플링 주파수에 따라 실제 증가속도를 예측할 수 있는데, 이는 상술한 바와 같이 최소 검색 시간과 그에 따른 검색 간격을 1차 미분방정식을 이용해 도출해 낼 수 있기 때문이다.

보통 HPC(High Performance Computing)에서 나타내는 속도증가의 지표인 Speed up은 기존처리시간/빨라진 처리시간으로, 기존에 비해 몇 배가 빨라졌는가를 나타내는 지표인데, 이 경우 예상 증가 속도(speed up)는

이 된다.

도 10을 통해 알 수 있듯이, k 값에 따른 예상 증가 속도와 실제 실험적으로 구한 증가 속도가 거의 일치하고 있는 것을 알 수 있으며, 이를 통해 본 발명에 따른 방법이 유사도 증가에 따른 배속 재생 품질이 향상되는 것 뿐만 아니라 실제 처리 속도도 몇 배 이상 빨라지는 효과가 있는 것을 알 수 있다.

도 11은 본 발명에 따른 k 값이 1인 경우 샘플링 주파수별 배속 재생 음성 처리의 예상 증가 속도와 실제 실험적으로 구한 증가 속도를 나타낸 것으로, 도 11a는 샘플링 주파수가 44.1[KHz]에 대한 것이고, 도 11b는 샘플링 주파수가 16[KHz]에 대한 것이다.

44.1[KHz]와 16[KHz]는 일반적으로 mp3 인코딩할 때 많이 사용하는 샘플링 주파수로서, 샘플링 주파수가 16[KHz]일 때는 증가 속도가 6배 정도, 샘플링 주파수가 44.1[KHz]일 때는 증가 속도가 10배 정도인 것을 알 수 있으며, 샘플링 주파수가 늘어날수록 증가 속도가 더 빨라지는 것을 알 수 있다.

이와 같이, 본 발명에 따른 오디오 신호 배속 재생 방법 및 그 장치는 샘플링 주파수 정보에 따라 설정되는 검색 간격으로 검색 범위에 대한 검색 범위별 유사도를 1차로 계산하고, 상위 우선 순위 개수에 해당하는 검색 구간 또는 최대 유사도에 해당하는 검색 구간을 일정 범위 확장한 후 최소 검색 간격으로 검색 범위별 유사도를 2차로 재계산함으로써, 배속 재생 품질을 유지하면서 최대 유사도를 갖는 검색 구간을 검색하는데 걸리는 시간을 최소화할 수 있다.

이를 통해, 본 발명은 컴퓨터, 휴대용 단말장치 예를 들어, 핸드폰, mp3 플레이어, 어학학습장치 등과 같은 독립형(standalone) 형태의 멀티미디어 음성 재생기기, 서버 형태의 웹 기반 동영상 및 이러닝 서비스, 동영상 및 음악 포털 서비스 등을 포함하는 오디오 스트리밍 서비스에서의 실시간 및 초고속 음성 처리가 가능 하도록 할 수 있으며, 나아가 다수의 사용자가 한정된 멀티미디어 컨텐츠를 동시 이용하고자 하는 경우나 대용량, 멀티 스트리밍 데이터에 포함된 오디오 신호에 대하여 배속 재생 서비스를 하고자 하는 경우에 발생할 수 있는 고부하로 인한 전체적인 속도저하를 피할 수 있고, 저 성능의 연산처리능력을 갖는 모바일과 같은 휴대형 단말장치에서는 대용량의 데이터를 실시간 처리 할 수도 있다.

본 발명에 의한, 오디오 신호 배속 재생 방법 및 그 장치는 본 발명의 기술적 사상의 범위 내에서 다양한 형태로 변형, 응용 가능하며 상기 실시 예에 한정되지 않는다. 또한, 상기 실시 예와 도면은 발명의 내용을 상세히 설명하기 위한 목적일 뿐, 발명의 기술적 사상의 범위를 한정하고자 하는 목적은 아니며, 이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 상기 실시 예 및 첨부된 도면에 한정되는 것은 아님은 물론이며, 후술하는 청구범위뿐만이 아니라 청구범위와 균등 범위를 포함하여 판단되어야 한다.

도 3은 본 발명에 따른 유사도 구간 검색 간격에 따른 시간과 유사도 사이의 관계에 대한 일 예시도를 나타낸 것이다.

도 4는 검색 구간 확장 후 제1 검색 간격에 따른 시간과 유사도 사이의 관계에 대한 일 예시도를 나타낸 것이다.

도 6은 본 발명의 일 실시예에 따른 오디오 신호 배속 재생 방법에 대한 동작 흐름도를 나타낸 것이다.

도 7은 본 발명의 다른 일 실시예에 따른 오디오 신호 배속 재생 방법에 대한 동작 흐름도를 나타낸 것이다.

<도면의 주요 부분에 대한 부호의 설명>

210: 추출부

220: 설정부

230: 제1 계산부

240: 검출부

250: 제2 계산부

260: 수행부

Claims

오디오 신호의 유사도를 계산하기 위한 검색 창함수 크기 및 검색 간격을 설정하는 단계;

상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 검색 구간별로 기준 데이터와의 유사도를 계산하는 단계;

계산된 상기 유사도들로부터 기 설정된 개수의 상위 우선 순위를 갖는 상위 유사도를 검출하는 단계;

검출된 상기 상위 유사도에 해당하는 검색 구간에서 검색 범위를 일정 부분 확장하고, 확장된 검색 범위에서 상기 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 단계; 및

재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간 데이터를 이용하여 상기 오디오 신호의 배속 재생을 수행하는 단계

를 포함하는 오디오 신호 배속 재생 방법.
제1항에 있어서,

상기 재계산하는 단계는

상기 상위 유사도에 해당하는 검색 구간의 전후로 상기 검색 간격 만큼씩 확장한 후, 확장된 검색 범위에서 상기 검색 창함수를 상기 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 것을 특징으로 하는 오디오 신호 배속 재생 방법.
제1항 또는 제2항에 있어서,

상기 설정하는 단계는

재생되는 상기 오디오 신호로부터 샘플링 주파수 정보를 추출하고, 추출된 상기 샘플링 주파수 정보를 기초로 상기 검색 창함수 크기 및 상기 검색 간격을 설정하는 것을 특징으로 하는 오디오 신호 배속 재생 방법.
제3항에 있어서,

상기 설정하는 단계는

샘플링 주파수별로 기 설정된 상위 우선 순위 개수들로부터 추출된 상기 샘플링 주파수 정보에 해당하는 상위 우선 순위 개수를 설정하고, 설정된 상기 검색 창함수 크기 및 상기 상위 우선 순위 개수를 통해 상기 검색 간격을 설정하는 것을 특징으로 하는 오디오 신호 배속 재생 방법.
제1항 또는 제2항에 있어서,

상기 오디오 신호로부터 배속 재생 정보를 추출하는 단계

를 더 포함하고,

상기 계산하는 단계는

상기 배속 재생 정보에 의해 설정되는 검색 범위에서 상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 상기 검색 구간별 유사도를 계산하는 것을 특징으로 하는 오디오 신호 배속 재생 방법.
제1항 또는 제2항에 있어서,

상기 제1 검색 간격은

최소 검색 간격인 것을 특징으로 하는 오디오 신호 배속 재생 방법.
삭제
제1항 또는 제2항에 있어서,

상기 검출하는 단계는

계산된 상기 유사도들로부터 최대 유사도를 검출하는 것을 특징으로 하는 오디오 신호 배속 재생 방법.
오디오 신호의 유사도를 계산하기 위한 검색 창함수 크기 및 검색 간격을 설정하는 설정부;

상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 검색 구간별로 기준 데이터와의 유사도를 계산하는 제1 계산부;

계산된 상기 유사도들로부터 기 설정된 개수의 상위 우선 순위를 갖는 상위 유사도를 검출하는 검출부;

검출된 상기 상위 유사도에 해당하는 검색 구간에서 검색 범위를 일정 부분 확장하고, 확장된 검색 범위에서 상기 검색 창함수를 기 설정된 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 제2 계산부; 및

재계산된 유사도들 중 최대 유사도에 해당하는 검색 구간 데이터를 이용하여 상기 오디오 신호의 배속 재생을 수행하는 수행부

를 포함하는 오디오 신호 배속 재생 장치.
제9항에 있어서,

상기 제2 계산부는

상기 최대 유사도에 해당하는 검색 구간의 전후로 상기 검색 간격 만큼씩 확장한 후, 확장된 검색 범위에서 상기 검색 창함수를 상기 제1 검색 간격으로 이동시켜 검색 구간별 유사도를 재계산하는 것을 특징으로 하는 오디오 신호 배속 재생 장치.
제9항 또는 제10항에 있어서,

재생되는 상기 오디오 신호로부터 샘플링 주파수 정보를 추출하는 추출부

를 더 포함하고,

상기 설정부는

상기 추출부에 의해 추출된 상기 샘플링 주파수 정보를 기초로 상기 검색 창함수 크기 및 상기 검색 간격을 설정하는 것을 특징으로 하는 오디오 신호 배속 재생 장치.
제11항에 있어서,

상기 추출부는

상기 오디오 신호로부터 배속 재생 정보를 추출하고,

상기 제1 계산부는

상기 배속 재생 정보에 의해 설정되는 검색 범위에서 상기 검색 창함수를 상기 검색 간격 단위로 이동시켜 상기 검색 구간별 유사도를 계산하는 것을 특징으로 하는 오디오 신호 배속 재생 장치.
제9항 또는 제10항에 있어서,

상기 검출부는

계산된 상기 유사도들로부터 최대 유사도를 검출하는 것을 특징으로 하는 오디오 신호 배속 재생 장치.