KR101334366B1

KR101334366B1 - 오디오 배속 재생 방법 및 장치

Info

Publication number: KR101334366B1
Application number: KR1020060136805A
Authority: KR
Inventors: 조재연
Original assignee: 삼성전자주식회사
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2013-11-29
Also published as: US20080162151A1; US8306812B2; KR20080061747A

Abstract

최적으로 결정된 프레임의 크기를 이용하여 낮은 연산량으로 오디오 속도를 제어하는 오디오 배속 재생 방법 및 장치가 개시되어 있다. 본 발명은 재생되는 오디오 신호로부터 샘플링 주파수 및 재생 배속 정보를 추출하는 과정, 추출된 오디오 샘플링 주파수 및 오디오 재생 배속 정보에 따라 입력 및 출력프레임의 크기와 프레임간 오버랩 구간의 크기를 결정하는 과정, 결정된 입력 및 출력 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 상기 오디오 재생 배속에 따라 프레임간의 오버랩 및 가산을 다르게 수행하는 과정을 포함한다.

Description

오디오 배속 재생 방법 및 장치{Method and apparatus for varying audio playback speed}

도 1은 본 발명에 따른 오디오 배속 재생 장치를 도시한 것이다.

도 2는 본 발명에 따른 오디오 배속 재생 방법을 보이는 흐름도이다.

도 3a는 느린 재생에 있어서 오버랩 및 가산 처리 방법을 보이는 개념도이다.

도 3b는 빠른 재생에 있어서 오버랩 및 가산 처리 방법을 보이는 개념도이다.

본 발명은 디지털 오디오 재생 시스템에 관한 것이며, 특히 최적으로 결정된 프레임의 크기를 이용하여 낮은 연산량으로 오디오 속도를 제어하는 오디오 배속 재생 방법 및 장치에 관한 것이다.

통상적으로 디지털 오디오 재생 기기 또는 휴대용 멀티미디어 기기는 오디오 재생 속도를 제어하기 위해 SOLA(Synchronized OverLap-and-Add) 또는 WSOLA(Waveform Similarity OverLap-and-Add)과 같은 시간축 변환 방식을 이용한 다. 이중에서 도 1을 참조하여 SOLA 방식의 예를 설명한다. SOLA 방식은 합성하고자 하는 프레임을 앞서 합성한 신호와의 상호 상관 함수가 최대가 되는 위치에 평균 중첩 가산하는 것이다.

입력 음성 신호 x(n)으로 부터 재생 배속의 비례상수 α= Sa/Ss에 의해 시간축 변환된 신호y(n)을 만드는 경우의 예를 들어보자. 여기서 길이가 N인 프레임이 주어질 때, Sa는 분석 구간의 프레임간 간격이고 Ss는 합성 구간의 프레임간 간격이다. 따라서 α가 1보다 작다는 것은 음성 신호의 재생 속도가 느려지는 것이고, α가 1보다 크다는 것은 음성 신호의 재생 속도가 빠르다는 것을 의미한다.

음성 신호 x(n)에서 매 분석 구간 Sa 마다 N개의 샘플로 구성된 프레임들을 가지고 매 Ss마다 합성 신호 y(n)을 합성하는 데 사용한다면 분석 구간 Sa과 합성 구간 Ss사이에는 Ss = Sa/α 와 같은 식이 성립한다.

우선, SOLA는 x(n)에서 y(n)으로 첫번째 프레임을 복사한다. 그리고 m번째 입력 신호(x(mSa+j)(0≤j≤N-1))는 프레임별로 인접한 시간축 변환 신호(y(mSs+j))에서 동기가 맞추어져서 더해진다. 현재 프레임과 이전 프레임간의 상호 상관(cross-correlation)을 최대화시키기 위해 현재 프레임이 이동된다. 그러므로 SOLA는 프레임 내에서 가변적인 중첩 영역(overlap region)을 허용하며, 이는 입력 신호의 피치에 영향을 주지 않고 입력 신호의 시간축을 변환한다. 프레임들을 중첩 영역에서 합칠 때 가중치 함수(weighting function)를 이용한다. m번째 프레임에서 SOLA의 정규화된 상호 상관(normalized cross-correlation) 계수(Rm)는 허용되는 범위의 프레임 배치 옵셋(k)에 대해서 수학 식 1과 같이 구해진다.

여기서 x(n)은 시간축 변환을 위한 입력 신호를 나타내며, y(n)은 시간축 변환된 신호를 나타낸다. 그리고 m은 프레임 순서를 나타내며, N은 프레임 샘플 개수이고, L은 x(n)과 y(n)의 중첩(overlapping)되는 영역의 길이를 나타낸다.

따라서 Rm이 정해지면, 시간축 변환된 y(n)은 수학식 2와 같이 갱신된다.

여기서 Lm은 정해진 Rm이 포함되는 두 신호간의 중첩 영역을 나타내며, f(j)는 0≤f(j)≤1 이 되도록 하는 가중 함수(weighting function)를 나타낸다.

그러나 SOLA 또는 WSOLA 방식은 오디오 재생 속도 제어에 있어 상호도를 계산하는 과정에서 많은 계산량을 필요로 하기 때문에 제한된 하드웨어 리소스를 사용하는 디지털 오디오 재생기기에서 적용하기에는 어려움이 있었다.

본 발명이 이루고자 하는 기술적 과제는 멀티미디어 데이터를 재생할 시 빠르고 느린 오디오 속도를 프레임간 오버랩 및 가산을 통해 피치와 음색의 변화 없이 빠르고 효율적으로 조절하는 오디오 배속 재생 방법에 관한 것이다.

본 발명이 이루고자하는 다른 기술적 과제는 최적으로 결정된 프레임의 크기 를 이용하여 낮은 연산량으로 오디오 속도를 조절하는 오디오 배속 재생 장치에 관한 것이다.

상기의 기술적 과제를 해결하기 위하여, 본 발명은 재생되는 오디오 신호로부터 샘플링 주파수 및 재생 배속 정보를 추출하는 과정;

상기 추출된 오디오 샘플링 주파수 및 오디오 재생 배속 정보에 따라 입력 및 출력 프레임의 크기와 프레임간 오버랩 구간의 크기를 결정하는 과정;

상기 결정된 입력 및 출력 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 상기 오디오 재생 배속에 따라 프레임간의 오버랩 및 가산을 다르게 수행하는 과정을 포함하며,

상기 오디오 재생 배속값이 소정 이하일 경우 제1프레임과 제2프레임간의 중첩 구간은 제1프레임의 뒤의 일부분을 카피한 샘플값과 제2프레임의 앞의 일부분을 카피한 샘플값이 각각 증가하고 감소하면서 더해지고,

상기 오디오 재생 배속이 소정 이상일 경우 프레임간의 중첩 구간은 제1프레임의 뒷부분의 샘플값과 제2프레임의 앞부분의 샘플값이 각각 감소하고 증가하면서 더해지는 것임을 특징으로 한다.

상기의 기술적 과제를 해결하기 위하여, 본 발명은 오디오 배속 재생 장치에 있어서,

오디오 파일로부터 오디오 헤더 정보와 오디오 데이터를 분리하는 오디오 디코더부;

사용자로부터 오디오 배속 명령을 수신하는 사용자 인터페이스부;

상기 오디오 디코더부에서 부분된 헤더 정보로부터 샘플링 주파수를 검출하고, 상기 오디오 샘플링 주파수 및 상기 오디오 배속 정보에 따라 입력 및 출력 프레임의 크기와 프레임간 오버랩 구간의 크기를 결정하는 제어부;

상기 제어부에서 결정된 입력 및 출력 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 재생 배속값에 따라 프레임간의 오버랩 및 가산을 다르게 수행하는 배속 재생 처리부를 포함하는 것을 특징으로 한다.

이하 첨부된 도면을 참조로하여 본 발명의 바람직한 실시예를 설명하기로 한다.

도 1의 오디오 배속 재생 장치는 오디오 디코더(110), 사용자 인터페이스부(120), 배속 재생 처리부(130), 제어부(140)로 구성된다.

오디오 디코더(110)는 입력되는 오디오 파일로부터 오디오 헤더 정보와 오디오 데이터를 분리한다.

사용자 인터페이스부(120)는 사용자가 기기에 각종 제어 명령을 입력하기 위한 제어 패널을 포함하며, 특히, 사용자로부터 오디오 배속 정보를 수신한다.

제어부(140)는 오디오 디코더(110)에서 추출된 헤더 정보로부터 샘플링 주파수를 검출하고, 사용자 인터페이스부(120)로부터 배속 정보를 수신한다. 그리고 제어부(140)는 그 오디오 샘플링 주파수 및 오디오 배속 정보에 따라 입출력 프레임의 크기와 프레임간 오버랩 구간의 크기를 결정한다.

배속 재생 처리부(130)는 제어부(140)에서 결정된 입출력 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 재생 배속값에 따라 프레임간의 오버랩 및 가산을 서로 다른 방식으로 수행한다.

본 발명은 SOLA와 같이 탐색의 과정이 없고, 재생 배속은 0.5에서 2.0 사이의 실수이며, 그 실수 범위 내에서 연속값이 아닌 이산값에 해당한다.

먼저, 사용자 인터페이스를 통해 원하는 배속 정보를 읽어온다(210 과정).

이어서, 입력되는 오디오 파일로부터 헤더 정보와 오디오 데이터를 분리한다. 이때 오디오 파일은 다중 채널의 오디오 신호 또는 모노 채널의 오디오 신호를 포함한다. 옵션에 따라서 다중 채널의 오디오 신호가 입력될 경우 그 다중 채널의 오디오 신호를 모노 채널의 오디오 신호로 변환한다.

이어서, 오디오 신호의 헤더 정보로부터 샘플링 주파수를 추출한다(220 과정).

이어서, 추출된 배속 정보와 샘플링 주파수를 이용하여 입/출력 프레임과 오버래핑 구간의 크기를 결정한다(230). 이때 입/출력 프레임과 오버래핑 구간의 크기는 샘플링 개수로 결정된다.

재생 속도가 빨라질수록 피치 변화에 따른 귀의 분별력이 상대적으로 떨어지므로 입력 프레임의 크기는 피치의 특성이 변화지 않는 정도로 결정한다. 예를 들면, 샘플링 주파수(Fs)가 44100 Hz 인 음성 신호를 2배속으로 재생한다고 하면 유의한(meaningful) 최대 피치 주기는 대략 1/60초이므로 오버래핑 구간의 크기는 44100/60 = 735보다 커야 한다. 이때 만일 오버래핑 구간의 크기를 800 샘플로 한다면, 입력 프레임의 크기는 1600 샘플로 결정하고, 출력 프레임의 크기는 800샘플로 결정한다.

한편, 재생 속도가 정상 속도에 가까울수록 입력 프레임의 크기는 에코 현상이 발생하지 않는 범위 내에서 크게 설정하여 오버래핑의 횟수를 줄인다. 입력 프레임의 크기가 너무 클 경우에는 서로 다른 음소가 겹치는 현상이 발생하므로 입력 프레임의 크기는 유의한 음소(phoneme)들의 최소 길이보다 작게 정하여 에코 현상(echo effect)을 방지한다.

또한 입력 프레임의 크기와 오버랩핑 구간의 크기 사이에는 수학식 3와 같은 관계식이 성립한다.

오버래핑 구간의 크기 = (｜1-α｜/α) x 입력 프레임의 크기

여기서 α는 배속값이다.

오버래핑 구간의 크기는 유의한 최대 피치 주기보다 커야한다.

이어서, 오디오 데이터를 입력 프레임 크기의 샘플개수 만큼 버퍼로 읽어온다(240 과정).

이어서, 프레임 개수(n)를 "1"로 셋팅한다(242 과정).

이어서, 오디오 데이터를 입력 프레임 크기의 샘플개수 만큼 버퍼로 읽어온다(250 과정).

이어서, 배속 정보로부터 배속을 체크한다(260 과정).

이때 배속이 1보다 크면 결정된 오버래핑 구간의 크기를 적용하여 빠른 재생을 위한 오버랩 및 가산 처리를 수행한다(270 과정).

또한 배속이 1보다 적으면 결정된 오버래핑 구간의 크기를 적용하여 느린 재생을 위한 오버랩 및 가산 처리를 수행한다(280 과정).

이어서, 빠른 재생 및 느린 재생에 대한 오버랩 및 가산 처리된 결과치 또는 정상 재생 처리된 결과치를 출력 프레임 크기의 샘플 만큼 버퍼에 라이트한다(290 과정).

이어서, 프레임 개수(n)를 "1"증가 시킨다(292 과정).

이어서, 현재 프레임이 마지막 번째 프레임인가를 체크한다(294 과정). 이때 현재 프레임이 마지막 번째 프레임이면 배속 제어 처리를 종료하고, 현재 프레임이 마지막 번째 프레임이 아니면 250 과정부터 294 과정을 반복 처리한다.

결국, 재생 속도가 정상 속도에 가까우면 입력 프레임의 크기를 늘려서 오버래핑의 횟수를 줄이고, 반대로 재생 속도가 정상 속도에서 멀어지면 입력 프레임의 크기를 줄인다. 또한 본 발명의 오디오 배속 제어 방법은 다중 채널의 오디오 신호가 입력될 경우 다중 채널의 오디오 신호를 모노 채널의 오디오 신호로 변환한 후 재생 속도를 변환시켜 각 다중 채널의 스피커로 출력한다. 또한 2배속 이상의 빠른 재생 속도의 제어는 210 과정에서 294 과정을 반복함으로써 구현될 수 있다.

도 3a는 도 2의 느린 재생에 있어서 오버랩 및 가산 처리 방법을 보이는 개념도이다.

도 3a는 각각 0.8배속, 0.75배속, 0.5배속에서 각 입력 프레임들(A, B...)간 의 오버랩 및 가산을 처리하는 방식을 보여준다.

도 3a를 참조하면, 출력 프레임은 입력 프레임 구간과 오버랩 구간을 포함한다. 입력 프레임(A)과 입력 프레임(B)이 오버랩 되는 구간(B_F,A_E)은 입력 프레임(B)의 앞의 일부분을 카피한 샘플값을 점차 감소시키고 입력 프레임(A)의 뒤의 일부분을 카피한 샘플값을 증가시켜 합성된다. 다른 실시 예로, 느린 재생에 있어서 오버랩 및 가산 방식은 A번째 프레임의 전체 영역 중에서 끝 부분의 일부 영역과 B번째 프레임의 전체 영역 중에서 앞 부분의 일부 영역의 샘플들을 추출하여 가중치를 둔 평균값을 계산하고 그 계산한 평균값을 A프레임 및 B프레임 사이에 존재하는 공간에 삽입하여 합성한다.

도 3a와 같은 오버랩 및 가산 처리 방식은 입력 프레임(A)에서 입력 프레임(B)으로 연결될 때 음이 끊어지는 현상이 줄어들고 연속성이 유지된다. 이때 오버랩 구간의 증감은 선형, 사인 윈도우(sine window), 해밍 윈도우(hamming window), 해닝 윈도우(hanning window)등을 알맞게 선택하여 적용한다. 또한 느린 재생이라 하더라도 그 속도가 정상 속도에 가까우면 입력 프레임의 크기를 크게 하여 오버랩 횟수를 줄인다. 그러나 그 오버랩 구간의 크기는 처리하는 오디오 신호의 음소(phoneme) 길이보다 적게 함으로써 부자연스러운 현상을 피할 수 있다. 이때 음소는 통상적으로 복수개의 피치 주기를 포함한다. 다른 실시 예로 전체 오버랩 구간에 샘플값의 증감을 적용하는 대신에 프레임 오버랩 구간의 일부분에 샘플값의 증감을 적용할 수 있다.

도 3b는 도 2의 빠른 재생에 있어서 오버랩 및 가산 처리 방법을 보이는 개념도이다.

도 3b는 각각 1.33배속, 2배속에서 각 입력 프레임들(A, B...)간의 오버랩 및 가산을 처리하는 방식을 보여준다.

입력 프레임(A)과 입력 프레임(B)이 오버랩되는 구간은 입력 프레임(B)의 뒷부분의 샘플값을 점차 감소시키고 입력 프레임(A)의 앞부분의 샘플값을 점차 증가시켜 합성된다. 이때 오버랩 구간은 피치의 한 주기 이상은 포함할 정도로 되어야 부자연스러운 현상을 피할 수 있다.

본 발명은 상술한 실시 예에 한정되지 않으며, 본 발명의 사상내에서 당업자에 의한 변형이 가능함은 물론이다.

또한 본 발명은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

상술한 바와 같이 본 발명에 의하면, 휴대폰, PDA, DTV등에서 멀티미디어 데 이터를 재생할 시 샘플링 주파수와 재생 배속에 따라 최적의 프레임 크기를 결정하고 배속에 따라 프레임간의 오버랩 및 가산을 서로 다르게 적용함으로써 오디오 속도를 피치와 음색의 변화 없이 빠르고 효율적으로 조절할 수 있다.

Claims

오디오 배속 재생 방법에 있어서,

재생되는 오디오 신호로부터 샘플링 주파수 및 재생 배속 정보를 추출하는 과정;

상기 추출된 오디오 샘플링 주파수 및 오디오 재생 배속 정보에 따라 입력 및 출력 프레임의 크기와 프레임간 오버랩 구간의 크기를 결정하는 과정;

상기 결정된 입력 및 출력 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 상기 오디오 재생 배속 정보에 따라 프레임간의 오버랩 및 가산을 다르게 수행하는 과정을 포함하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 입력 프레임의 크기는 샘플링 주파수와 피치 주기를 재생 배속값에 따라 곱하는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 입력 프레임의 크기는 음소들의 최소 길이보다 작게 결정하는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 오버랩 구간의 크기는 (｜1-배속값｜/배속값) × 입력 프레임의 샘플 개수로 결정되는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 프레임간의 오버랩 구간은 오디오 신호의 음소 길이 보다 작게 설정하는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 프레임간 오버랩 구간은 피치의 한 주기보다 크게 설정하는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 오디오 재생 배속값이 1 보다 적을 경우 제1프레임과 제2프레임간의 중첩 구간은 제1프레임의 뒤의 일부분을 카피한 샘플값과 제2프레임의 앞의 일부분을 카피한 샘플값이 각각 증가하고 감소하면서 더해지는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 오디오 재생 배속이 1 보다 클 경우 프레임간의 중첩 구간은 제1프레임의 뒷부분의 샘플값과 제2프레임의 앞부분의 샘플값이 각각 감소하고 증가하면서 더해지는 것임을 특징으로 하는 오디오 배속 재생 방법.
제1항에 있어서, 상기 오버랩 구간에서 샘플값의 증감은 선형 또는 비 선형 함수를 적용하는 것임을 특징으로 하는 오디오 배속 재생 방법.
삭제
제1항에 있어서, 상기 오버랩 및 가산 수행 과정은 다중 채널의 오디오 신호는 모노 신호로 변환하여 각 채널의 스피커로 출력하는 과정을 더 구비하는 것을 특징으로 하는 오디오 배속 재생 방법.
오디오 배속 재생 장치에 있어서,

오디오 파일로부터 오디오 헤더 정보와 오디오 데이터를 분리하는 오디오 디코더부;

사용자로부터 오디오 배속 정보를 수신하는 사용자 인터페이스부;

상기 오디오 디코더부에서 분리된 오디오 헤더 정보로부터 샘플링 주파수를 검출하고, 상기 오디오 샘플링 주파수 및 상기 사용자 인터페이스부에서 수신된 오디오 배속 정보에 따라 입력 및 출력 프레임의 크기와 프레임간 오버랩 구간의 크기를 결정하는 제어부;

상기 제어부에서 결정된 입력 및 출력 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 재생 배속값에 따라 프레임간의 오버랩 및 가산을 다르게 수행하는 배속 재생 처리부를 포함하는 오디오 배속 재생 장치.
오디오 배속 재생 방법을 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록 매체에 있어서,

재생되는 오디오 신호로부터 샘플링 주파수 및 재생 배속 정보를 추출하는 과정;

상기 추출된 오디오 샘플링 주파수 및 오디오 재생 배속 정보에 따라 입력 및 출력 프레임의 크기와 프레임간 오버랩 구간의 크기를 결정하는 과정;

상기 결정된 프레임의 크기 및 오버랩 구간의 크기를 바탕으로 상기 오디오 재생 배속 정보에 따라 프레임간의 오버랩 및 가산을 다르게 수행하는 코드를 포함하는 기록 매체.