KR102212225B1

KR102212225B1 - 오디오 보정 장치 및 이의 오디오 보정 방법

Info

Publication number: KR102212225B1
Application number: KR1020130157926A
Authority: KR
Inventors: 전상배; 이교구; 성두용; 허훈; 김선민; 김정수; 손상모
Original assignee: 삼성전자주식회사; 서울대학교산학협력단
Priority date: 2012-12-20
Filing date: 2013-12-18
Publication date: 2021-02-05
Also published as: US20150348566A1; US9646625B2; CN104885153A; KR20140080429A

Abstract

오디오 보정 장치 및 이의 오디오 보정 방법이 제공된다, 본 오디오 보정 방법은 오디오 데이터를 입력받고, 오디오 데이터의 하모닉 성분을 분석하여 온셋(onset) 정보를 검출하며, 검출된 온셋 정보를 바탕으로 오디오 데이터의 피치(pitch) 정보를 검출하고, 검출된 온셋 정보 및 피치 정보를 바탕으로 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하며, 레퍼런스 오디오 데이터와 정렬된 오디오 데이터를 레퍼런스 오디오 데이터와 일치하도록 보정할 수 있다.

Description

오디오 보정 장치 및 이의 오디오 보정 방법{Apparatus and Method for correcting Audio data}

본 발명은 오디오 보정 장치 및 이의 오디오 보정 방법에 관한 것으로 더욱 상세하게는 오디오 데이터의 온셋 정보와 피치 정보를 검출하여 레퍼런스 오디오 데이터의 온셋 정보와 피치 정보에 맞게 보정하는 오디오 보정 장치 및 이의 오디오 보정 방법에 관한 것이다.

노래를 잘 부르지 못하는 일반인이 노래를 부를 경우, 일반인이 부른 노래를 악보에 맞추어 보정하는 기술이 존재한다. 특히, 기존에는 사람이 부른 노래를 보정하기 위하여 사람이 부른 노래의 피치(pitch)를 악보의 피치에 맞게 보정하는 기술이 존재하였다.

그러나, 사람이 부른 노래나 현악기를 연주할 때 발생하는 연주음은 각 음이 서로 연결되어 있는 소프트-온셋을 포함하고 있다. 즉, 사람이 부른 노래나 현악기를 연주할 때 발생하는 연주음의 경우, 각 음의 시작점인 온셋을 검색하지 않고 피치만을 보정할 경우, 중간에 음이 유실되거나 잘못된 음에서 피치가 보정되는 문제점이 발생할 수 있다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 오디오 데이터의 온셋 및 피치를 검출하여 레퍼런스 오디오 데이터의 온셋 및 피치에 맞게 보정할 수 있는 오디오 보정 장치 및 이의 오디오 보정 방법을 제공함에 있다.

상술한 문제점을 해결하기 위한 본 발명의 일 실시예에 따른, 오디오 보정 방법은 오디오 데이터를 입력받는 단계; 상기 오디오 데이터의 하모닉 성분을 분석하여 온셋(onset) 정보를 검출하는 단계; 상기 검출된 온셋 정보를 바탕으로 상기 오디오 데이터의 피치(pitch) 정보를 검출하는 단계; 상기 검출된 온셋 정보 및 피치 정보를 바탕으로 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하는 단계; 및 상기 레퍼런스 오디오 데이터와 정렬된 오디오 데이터를 상기 레퍼런스 오디오 데이터와 일치하도록 보정하는 단계;를 포함한다.

그리고, 상기 온셋 정보를 검출하는 단계는, 상기 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하고, 상기 캡스트럼 분석된 오디오 데이터의 하모닉 성분을 분석하여 상기 온셋 정보를 검출할 수 있다.

또한, 상기 온셋 정보를 검출하는 단계는, 상기 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하는 단계; 이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하는 단계; 상기 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 산출하는 단계; 상기 복수의 하모닉 성분에 대한 캡스트럼 계수를 합하여 검출 함수(detection function)을 생성하는 단계; 상기 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하는 단계; 및 상기 온셋 후보군 중 인접한 복수의 온셋을 제거하여 온셋 정보를 검출하는 단계;를 포함할 수 있다.

그리고, 상기 산출하는 단계는, 이전 프레임의 하모닉 성분이 존재하는 경우, 캡스트럼 계수가 높게 나타나며, 이전 프레임의 하모닉 성분이 존재하지 않는 경우, 캡스트럼 계수가 낮게 나타날 수 있다.

또한, 상기 피치 정보를 검출하는 단계는, 커렌트로피(correntropy) 피치 검출 방법을 이용하여 검출된 온셋 성분들 사이의 피치 정보를 검출할 수 있다.

그리고, 상기 정렬하는 단계는, 동적 시간 정합(dynamic time warping) 기법을 이용하여 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬할 수 있다.

또한, 상기 정렬하는 단계는, 상기 레퍼런스 오디오 데이터에 대한 상기 오디오 데이터의 온셋 보정 비율과 피치 보정 비율을 산출하는 단계;를 포함할 수 있다.

그리고, 상기 보정하는 단계는, 상기 산출된 온셋 보정 비율 및 피치 보정 비율에 따라 상기 오디오 데이터를 보정할 수 있다.

또한, 상기 보정하는 단계는, SOLA 알고리즘을 이용하여 상기 오디오 데이터의 포먼트(formant)를 보존하여 상기 오디오 데이터를 보정할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 오디오 보정 장치는, 오디오 데이터를 입력받는 입력부; 상기 오디오 데이터의 하모닉 성분을 분석하여 온셋(onset) 정보를 검출하는 온셋 검출부; 상기 검출된 온셋 정보를 바탕으로 상기 오디오 데이터의 피치(pitch) 정보를 검출하는 피치 검출부; 상기 검출된 온셋 정보 및 피치 정보를 바탕으로 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하는 정렬부; 및 상기 레퍼런스 오디오 데이터와 정렬된 오디오 데이터를 상기 레퍼런스 오디오 데이터와 일치하도록 보정하는 보정부;를 포함할 수 있다.

그리고, 상기 온셋 검출부는, 상기 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하고, 상기 캡스트럼 분석된 오디오 데이터의 하모닉 성분을 분석하여 상기 온셋 정보를 검출할 수 있다.

또한, 상기 온셋 검출부는, 상기 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하는 캡스트럼 분석부; 이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하는 선택부; 상기 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 산출하는 계수 산출부; 상기 복수의 하모닉 성분에 대한 캡스트럼 계수를 합하여 검출 함수(detection function)을 생성하는 함수 생성부; 상기 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하는 온셋 후보군 추출부; 및 상기 온셋 후보군 중 인접한 복수의 온셋을 제거하여 온셋 정보를 검출하는 온셋 정보 검출부;를 포함할 수 있다.

그리고, 상기 계수 산출부는, 이전 프레임의 하모닉 성분이 존재하는 경우, 캡스트럼 계수가 높게 나타나며, 이전 프레임의 하모닉 성분이 존재하지 않는 경우, 캡스트럼 계수가 낮게 나타날 수 있다.

또한, 상기 피치 검출부는, 커렌트로피(correntropy) 피치 검출 방법을 이용하여 검출된 온셋 성분들 사이의 피치 정보를 검출할 수 있다.

그리고, 상기 정렬부는, 동적 시간 정합(dynamic time warping) 기법을 이용하여 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬할 수 있다.

또한, 상기 정렬부는, 상기 레퍼런스 오디오 데이터에 대한 상기 오디오 데이터의 온셋 보정 비율과 피치 보정 비율을 산출할 수 있다.

그리고, 상기 보정부는, 상기 산출된 온셋 보정 비율 및 피치 보정 비율에 따라 상기 오디오 데이터를 보정할 수 있다.

또한, 상기 보정부는, SOLA 알고리즘을 이용하여 상기 오디오 데이터의 포먼트를 보존하여 상기 오디오 데이터를 보정할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 오디오 보정 장치의 온셋 검출 방법은, 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하는 단계; 이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하는 단계; 상기 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 산출하는 단계; 상기 복수의 하모닉 성분에 대한 캡스트럼 계수를 합하여 검출 함수(detection function)을 생성하는 단계; 상기 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하는 단계; 및 상기 온셋 후보군 중 인접한 복수의 온셋을 제거하여 온셋 정보를 검출하는 단계;를 포함한다.

상술한 본 발명의 다양한 실시예에 의해, 사람이 부른 노래나 현악기의 연주음과 같이 온셋이 뚜렷이 구별되지 않는 오디오 데이터에서도 온셋 검출이 가능하여 더욱 정확한 오디오 보정이 가능해 질 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른, 오디오 보정 방법을 설명하기 위한 흐름도,
도 2는 본 발명의 일 실시예에 따른, 온셋 정보 검출 방법을 설명하기 위한 흐름도,
도 3a 내지 도 3d는 본 발명의 일 실시예에 따른, 온셋 정보를 검출하는 동안 생성되는 오디오 데이터를 도시한 그래프,
도 4는 본 발명의 일 실시예에 따른, 피치 정보 검출 방법을 설명하기 위한 흐름도,
도 5a 및 도 5b는 본 발명의 일 실시예에 따른, 커렌트로피 피치 검출 방법을 설명하기 위한 그래프,
도 6a 내지 도 6d는 본 발명의 일 실시예에 따른, 동적 시간 정합 방법을 설명하기 위한 도면,
도 7은 본 발명의 일 실시예에 따른, 오디오 데이터의 타임 스트레칭 보정 방법을 설명하기 위한 도면, 그리고,
도 8은 본 발명의 일 실시예에 따른, 오디오 보정 장치의 구성을 간략히 도시한 블럭도이다.

이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른, 오디오 보정 장치(800)의 오디오 보정 방법을 설명하기 위한 흐름도이다.

우선, 오디오 보정 장치(800)는 오디오 데이터를 입력받는다(S110). 이때, 오디오 데이터는 사람이 부른 노래 또는 악기가 연주한 연주음 등이 포함된 데이터일 수 있다.

오디오 보정 장치(800)는 하모닉 성분을 분석하여 온셋 정보를 검출한다(S120). 온셋이라 함은 일반적으로 음악적 노트가 시작하는 지점을 의미한다. 그러나, 사람의 목소리에 대한 온셋은 글리산도, 포르타멘토, 이음줄과 같이 온셋이 뚜렷하지 않은 경우가 발생한다. 따라서, 본 발명의 일 실시예에서는 사람이 부른 노래에 포함된 온셋은 모음이 시작하는 지점을 의미할 수 있다.

특히, 오디오 보정 장치(800)는 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하고, 캡스트럼 분석된 오디오 데이터의 하모닉 성분을 분석하여 온셋 정보를 검출하는 HCR(Harmonic Cepstrum Regularity) 방법을 이용하여 온셋 정보를 검출할 수 있다.

오디오 보정 장치(800)가 하모닉 성분을 분석하여 온셋 정보를 검출하는 방법에 대해서는 도 2를 참조하여 상세히 설명하기로 한다.

우선, 오디오 보정 장치(800)는 입력된 오디오 데이터의 캡스트럼 분석(Cepstral analysis)을 수행한다(S121). 구체적으로, 오디오 보정 장치(800)는 입력된 오디오 데이터에 대해 프리엠퍼시스(Pre-emphasis)와 같은 전처리 과정을 수행할 수 있다. 그리고, 오디오 보정 장치(800)는 입력된 오디오 데이터를 고속 퓨리에 변환(fast Fourier transform:FFT)을 수행한다. 그리고, 오디오 보정 장치(800)는 변환된 오디오 데이터를 로그화하고, 로그화된 오디오 데이터를 다시 이산 코사인 변환(discrete cosine transform: DCT)를 수행하여 캡스트럼 분석을 수행할 수 있다.

그리고, 오디오 보정 장치(800)는 현재 프레임의 하모닉 성분을 선택한다(S122). 구체적으로, 오디오 보정 장치(800)는 이전 프레임의 피치 정보를 검출하고, 검출된 이전 프레임의 피치 정보를 이용하여 현재 프레임의 하모닉 성분인 하모닉 파주수(harmonic quefrency)를 선택할 수 있다.

그리고, 오디오 보정 장치(800)는 현재 프레임의 하모닉 성분과 이전 프레임 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 산출한다(S123). 이때, 이전 프레임의 하모닉 성분이 존재하는 경우, 오디오 보정 장치(800)는 캡스트럼 계수가 높게 산출하며, 이전 프레임의 하모닉 성분이 존재하지 않는 경우, 오디오 보정 장치(800)는 캡스트럼 계수가 낮게 산출할 수 있다.

그리고, 오디오 보정 장치(800)는 복수의 하모닉 성분에 대한 캡스트럼 계수를 합하여 검출 함수(detection function)을 생성한다(S124). 구체적으로, 오디오 보정 장치(800)는 도 3a에 도시된 바와 같은 음성 신호를 포함하는 오디오 데이터를 입력받는다. 그리고, 오디오 보정 장치(800)는 캡스트럼 분석을 통해 도 3b에 도시된 바와 같은 복수의 하모닉 파주수를 검출할 수 있다. 그리고, 오디오 보정 장치(800)는 도 3b와 같은 하모닉 파주수를 바탕으로 S123 단계를 거쳐 도 3c에 도시된 바와 같은 복수의 하모닉 성분의 캡스트럼 계수를 산출할 수 있다. 그리고, 도 3c에 도시된 복수의 하모닉 성분의 캡스트럼 계수를 합하여 도 3d에 도시된 바와 같은 검출 함수(detection function)를 생성할 수 있다.

그리고, 오디오 보정 장치(800)는 생성된 검출 함수의 피크를 검출하여 온셋 후보군을 추출한다(S125). 구체적으로, 하모닉 성분이 존재하다가 다른 하모닉 성분이 나타나면, 즉, 온셋이 발생하는 지점에는 캡스트럼 계수가 급격하게 변한다. 따라서, 오디오 보정 장치(800)는 복수의 하모닉 성분의 캡스트럼의 합인 검출 함수의 급격하게 변화된 지점인 피크 지점을 추출할 수 있다. 이때, 추출된 피크 지점은 온셋 후보군으로 설정할 수 있다.

그리고, 오디오 보정 장치(800)는 온셋 후보군 사이에서 온셋 정보를 검출한다(S126). 구체적으로, S125 단계에서 추출된 온셋 후보군들 중에는 인접한 구간에 복수의 온셋 후보군들이 추출될 수 있다. 인접한 구간에서 추출된 복수의 온셋 후보군들은 사람의 목소리가 떨리거나 다른 잡음이 들어왔을 때 발생될 수 있는 온셋들이다. 따라서, 오디오 보정 장치(800)는 인접한 구간의 복수의 온셋 후보군 중 하나를 제외한 나머지를 제거하고, 하나의 온셋 후보군만을 온셋 정보를 검출할 수 있다.

상술한 바와 같이 캡스트럼 분석을 통해 온셋을 검출함으로써, 사람이 부른 노래나 현악기와 같이 온셋이 뚜렷이 구별되지 않은 오디오 데이터에서도 정확한 온셋 검출이 가능하다.

아래의 표 1은 HCR 방법을 이용하여 온셋을 검출한 결과를 나타내는 도면이다.

Source	Precision	Recall	F-measure
Male 1	0.57	0.87	0.68
Male 2	0.69	0.92	0.79
Male 3	0.62	1.00	0.76
Male 4	0.60	0.90	0.72
Male 5	0.67	0.91	0.77
Female 1	0.46	0.87	0.60
Female 2	o.63	0.79	0.70

상술한 바와 같이 다양한 소스의 F-measure가 0.60 ~ 0.79가 산출됨을 알 수 있다. 즉, 종래의 다양한 알고리즘에 의해 검출된 F-measure가 0.19 ~ 0.56임을 비추어 보았을 때, 본원 발명과 같은 HCR 방법을 이용하여 온셋을 검출함으로써 더욱 정확한 온셋 검출이 가능해 질 수 있다.

다시, 도 1에 대해 설명하면, 오디오 보정 장치(800)는 검출된 온셋 정보를 바탕으로 피치 정보를 검출한다(S130). 특히, 오디오 보정 장치(800)는 커렌트로피(correntropy) 피치 검출 방법을 이용하여 검출된 온셋 성분들 사이의 피치 정보를 검출할 수 있다. 오디오 보정 장치(800)가 커렌트로피 피치 검출 방법을 이용하여 온셋 성분들 사이의 피치 정보를 검출하는 실시예는 도 4를 참조하여 설명하기로 한다.

우선, 오디오 보정 장치(800)는 온셋 사이의 신호를 분할한다(S131). 구체적으로, 오디오 보정 장치(800)는 S120 단계에서 검출된 온셋을 바탕으로 복수의 온셋 사이의 신호를 분할할 수 있다.

그리고, 오디오 보정 장치(800)는 입력된 신호에 감마톤 필터링(Gammatone filtering)을 수행한다(S132). 구체적으로, 오디오 보정 장치(800)는 입력된 신호에 64 개의 감마톤 필터를 적용한다. 이때, 복수의 감마톤 필터는 대역폭에 따라 주파수가 분할된다. 또한, 필터의 가운데 주파수는 동일한 간격으로 나눠져 있으며, 대역폭은 80Hz부터 4000Hz 사이로 정할 수 있다.

그리고, 오디오 보정 장치(800)는 입력된 신호에 대한 커렌트로피 함수를 생성한다(S133). 일반적으로 커렌트로피의 경우에는 종래의 auto-correlation보다 고차원의 통계량을 구할 수 있다. 따라서, 사람의 목소리를 다루는 경우, 종래의 auto-correlation보다 frequency resolution이 높다. 한편, 오디오 보정 장치(800)는 아래의 수학식 1과 같은 커렌트로피 함수를 구할 수 있다.

이때, k(*,*)는 양의 값을 가지면서 대칭의 특성을 가지는 커널 함수(kernel function)일 수 있다. 이때, 커널 함수는 가우시안 커널(gaussian kernel)을 사용할 수 있다. 가우시안 커널의 수식과 가우시안 커널을 대입한 커렌트로피 함수는 아래의 수학식 2와 수학식 3과 같을 수 있다.

그리고, 오디오 보정 장치(800)는 커렌트로피 함수의 피크를 검출한다(S134). 구체적으로, 커렌트로피를 계산하면, 오디오 보정 장치(800)는 입력된 오디오 데이터에 대하여 auto-correlation보다 frequency resolution이 높게 나오고 해당 신호의 주파수보다 날카로운 피크를 검출할 수 있다. 이때, 오디오 보정 장치(800)는 산출된 피크들 중에서 기설정된 경계값 이상의 주파수를 인풋 음성 신호의 피치로 측정할 수 있다. 더욱 구체적으로 설명하면, 도 5a는 노멀라이즈된 커렌트로피 함수를 도시한 결과이다. 이때, 70 프레임의 커렌트로피를 검출하면 도 5b에 도시된 바와 같다. 이때, 도 5b에서 검출된 두 개의 피크 사이의 주파수 값이 해당 프레임의 음정을 의미할 수 있다.

그리고, 오디오 보정 장치(800)는 검출된 피치를 바탕으로 피치 시퀀스를 검출한다(S135). 구체적으로, 오디오 보정 장치(800)는 복수의 온셋에 대한 피치 정보를 검출하여 온셋마다 검출된 피치 시퀀스를 검출할 수 있다.

한편, 상술한 실시예에서는 커렌트로피 피치 검출 방법을 이용하여 피치를 검출하였으나, 이는 일 실시예에 불과할 뿐, 다른 방법(예를 들어, auto-correlation 방법)을 이용하여 오디오 데이터의 피치를 검출할 수 있다.

다시, 도 1에 대해 설명하면, 오디오 보정 장치(800)는 오디오 데이터를 레퍼런스 오디오 데이터와 정렬한다(S140). 이때, 레퍼런스 오디오 데이터는 입력된 오디오 데이터가 보정하고자 하는 오디오 데이터일 수 있다.

특히, 오디오 보정 장치(800)는 동적 시간 정합(dynamic time warping: DTW) 방법을 이용하여 오디오 데이터와 레퍼런스 오디오 데이터를 정합할 수 있다. 구체적으로, 동적 시간 정합 방법은 두 개의 시퀀스 간의 유사성을 비교하여 최적의 정합 경로(warping path)를 찾는 알고리즘이다.

구체적으로, 오디오 보정 장치(800)는 도 6a에 도시된 바와 같이, S120 단계 및 S130 단계를 거쳐 입력된 오디오 데이터에 대한 시퀀스 X를 검출할 수 있으며, 레퍼런스 오디오 데이터에 대한 시퀀스 Y를 획득할 수 있다. 그리고, 오디오 보정 장치(800)는 시퀀스 X와 시퀀스 Y의 유사도를 비교하여 도 6b에 도시된 바와 같은 코스트 메트릭스(cost metrix)를 산출할 수 있다.

특히, 본 발명의 일 실시예에 따른, 오디오 보정 장치(800)는 도 6c에 도시된 점선과 같은 피치 정보에 대한 최적 경로 및 도 6d에 도시된 점선과 같은 온셋 정보에 대한 최적 경로를 검출할 수 있다. 이에 의해, 종래와 같이 피치 정보에 대한 최적 경로만을 검출하는 것보다 더욱 정확한 정합이 가능해 질 수 있게 된다.

이때, 오디오 보정 장치(800)는 최적 경로를 산출하는 동안 레퍼런스 오디오 데이터에 대한 오디오 데이터의 온셋 보정 비율과 피치 보정 비율을 산출할 수 있다. 이때, 온셋 보정 비율은 입력된 오디오 데이터의 시간의 길이를 보정하는 비율(time stretching ratio)일 수 있으며, 피치 보정 비율은 입력된 오디오 데이터의 주파수를 보정하는 비율(pitch shifting ratio)일 수 있다.

다시, 도 1에 대해 설명하면, 오디오 보정 장치(800)는 입력된 오디오 데이터를 보정한다(S150). 이때, 오디오 보정 장치(800)는 S140 단계에서 산출한 온셋 보정 비율 및 피치 보정 비율을 이용하여 입력된 오디오 데이터를 레퍼런스 오디오 데이터와 일치하도록 보정할 수 있다.

특히, 오디오 보정 장치(800)는 페이즈 보코더(phase vocoder)를 이용하여 오디오 데이터의 온셋 정보를 보정할 수 있다. 구체적으로, 페이즈 보코더는 분석(analysis), 수정(modification) 및 합성(synthesis)을 통해 오디오 데이터의 온셋 정보를 보정할 수 있다. 특히, 페이즈 보코더에서의 온셋 정보 보정은 분석 홉사이즈(analysis hopsize)와 합성 홉사이즈(systhesis hopsize)를 다르게 설정함으로써, 입력된 오디오 데이터의 시간을 늘리거나 줄일 수 있게 된다.

또한, 오디오 보정 장치(800)는 페이즈 보코더를 이용하여 오디오 데이터의 피치 정보를 보정할 수 있다. 이때, 오디오 보정 장치(800)는 리샘플링을 통해 타임 스케일을 변화시킬 경우 발생하는 피치의 변화를 이용하여 오디오 데이터의 피치 정보를 보정할 수 있다. 구체적으로, 오디오 보정 장치(800)는 도 7a에 도시된 바와 같은 입력 오디오 데이터(151)에 타임 스트레칭(time stretching)(152)을 수행한다. 이때, 타임 스트레칭의 비율은 분석 홉 사이즈를 합성 홉 사이즈에 나눈 값과 같다. 그리고, 오디오 보정 장치(800)는 다시 리샘플링(153)을 통해 오디오 데이터를 출력(154)한다. 이때, 리샘플링 비율은 합성 홉 사이즈를 분석 홉 사이즈로 나눈 값과 같다.

또한, 오디오 보정 장치(800)는 리샘플링을 통해 피치를 보정할 경우, 포먼트(formant)가 변경되는 현상을 방지하기 위해, 리샘플링 후에도 포먼트가 유지되도록 기설정된 값인 정합 계수인 P를 입력 오디오 데이터에 미리 곱할 수 있다. 이때, 정합 계수 P는 아래와 같은 수학식 4에 의해 산출될 수 있다.

이때, A(k)는 포먼트 인벨로프(formant envelope)이다.

또한, 일반적인 페이즈 보코더의 경우, 링잉(ringing)과 같은 왜곡이 발생할 수 있다. 이는 주파수 축으로 페이즈의 불연속성을 보정해줌으로써, 발생하는 시간 축의 페이즈 불연속성으로 인해 생기는 문제이다. 이러한 문제점을 제거하기 위하여, 오디오 보정 장치(800)는 SOLA(synchronized overlap add) 알고리즘을 이용하여 오디오 데이터의 포먼트를 보존하여 오디오 데이터를 보정할 수 있다. 구체적으로, 오디오 보정 장치(800)는 초기의 몇 프레임에 대해 페이즈 보코더를 수행한 후, 입력 오디오 데이터와 페이즈 보코더 수행된 데이터를 동기화함으로써, 시간 축에서 발생하는 불연속성을 제거할 수 있게 된다.

상술한 바와 같은 오디오 보정 방법에 의해, 사람이 부른 노래나 현악기의 연주음과 같이 온셋이 뚜렷이 구별되지 않는 오디오 데이터에서도 온셋 검출이 가능하여 더욱 정확한 오디오 보정이 가능해 질 수 있게 된다.

이하에서는 도 8을 참조하여 오디오 보정 장치(800)에 대해 더욱 상세히 설명하도록 한다. 도 8에 도시된 바와 같이, 오디오 보정 장치(800)는 입력부(810), 온셋 검출부(820), 피치 검출부(830), 정렬부(840) 및 보정부(850)를 포함한다. 이때, 오디오 보정 장치(800)는 스마튼 폰, 스마트 TV, 태블릿 PC 등과 같은 다양한 전자 기기로 구현될 수 있다.

입력부(810)는 오디오 데이터를 입력받는다. 이때, 오디오 데이터는 사람이 부른 노래나 현악기의 연주음일 수 있다.

온셋 검출부(820)는 입력된 오디오 데이터의 하모닉 성분을 분석하여 온셋을 검출한다. 구체적으로, 온셋 검출부(820)는 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하고, 캡스트럼 분석된 오디오 데이터의 하모닉 성분을 분석하여 온셋 정보를 검출할 수 있다. 특히, 온셋 검출부(820)는 도 2에서 설명한 바와 같이, 우선 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행한다. 그리고, 온셋 검출부(820)는 이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하며, 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 산출한다. 그리고, 온셋 검출부(820)는 복수의 하모닉 성분에 대한 캡스트럼 계수를 합하여 검출 함수(detection function)을 생성한다. 그리고, 온셋 검출부(820)는 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하고, 온셋 후보군 중 인접한 복수의 온셋을 제거하여 온셋 정보를 검출할 수 있다.

피치 검출부(830)는 검출된 온셋 정보를 바탕으로 상기 오디오 데이터의 피치(pitch) 정보를 검출한다. 이때, 피치 검출부(830)는 커렌트로피 피치 검출 방법을 이용하여 온셋 성분들 사이의 피치 정보를 검출할 수 있으나, 이는 일 실시예에 불과할 뿐, 다른 방법을 이용하여 피치 정보를 검출할 수 있다.

정렬부(840)는 검출된 온셋 정보 및 피치 정보를 바탕으로 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬한다. 이때, 정렬부(840)는 동적 시간 정합(dynamic time warping) 기법을 이용하여 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬할 수 있다. 이때, 정렬부(840)는 레퍼런스 오디오 데이터에 대한 오디오 데이터의 온셋 보정 비율 및 피치 보정 비율을 산출할 수 있다.

보정부(850)는 레퍼런스 오디오 데이터와 정렬된 오디오 데이터를 레퍼런스 오디오 데이터와 일치하도록 보정한다. 특히, 보정부(850)는 산출된 온셋 보정 비율 및 피치 보정 비율에 따라 오디오 데이터를 보정할 수 있다. 그리고, 보정부(850)는 온셋 및 피치 보정시 발생할 수 있는 포먼트의 변경을 방지하기 위해, SOLA 알고리즘을 이용하여 오디오 데이터를 보정할 수 있다.

상술한 바와 같은 오디오 보정 장치(800)에 의해, 사람이 부른 노래나 현악기의 연주음과 같이 온셋이 뚜렷이 구별되지 않는 오디오 데이터에서도 온셋 검출이 가능하여 더욱 정확한 오디오 보정이 가능해 질 수 있게 된다.

특히, 오디오 보정 장치(800)가 스마트 폰과 같은 사용자 단말로 구현되는 경우, 다양한 시나리오로 본 발명을 적용할 수 있다. 예를 들어, 사용자는 자신이 부르고자 하는 노래를 선택할 수 있다. 오디오 보정 장치(800)는 사용자에 의해 선택된 노래의 레퍼런스 미디 데이터를 획득한다. 그리고, 사용자에 의해 녹음 버튼이 선택되면, 오디오 보정 장치(800)는 악보를 디스플레이하여 사용자가 더욱 정확히 노래를 부를 수 있도록 안내할 수 있다. 사용자의 노래에 대한 녹음이 완료되면, 오디오 보정 장치(800)는 도 1 내지 도 8에서 설명한 바와 같이, 사용자의 노래를 보정한다. 그리고, 사용자에 의해 다시 듣기 명령이 입력되면, 오디오 보정 장치(800)는 보정된 노래를 재생할 수 있다. 또한, 오디오 보정 장치(800)는 사용자에게 코러스/리버브 등과 같은 효과를 제공할 수 있다. 이때, 오디오 보정 장치(800)는 녹음이 완료된 후 보정이 완료된 사용자의 노래에 코러스/리버브 등과 같은 효과를 제공할 수 있다. 그리고, 수정이 완료되면, 오디오 보정 장치(800)는 사용자 명령에 따라 노래를 재생하거나 SNS 등을 통해 다른 사람에게 공유할 수 있다.

한편, 상술한 다양한 실시 예에 따른 오디오 보정 장치(800)의 오디오 보정 방법은 프로그램으로 구현되어 오디오 보정 장치(800)에 제공될 수 있다. 특히, 모바일 디바이스(100)의 센싱 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110: 입력부 120: 온셋 검출부
130: 피치 검출부 140: 정렬부
150: 보정부

Claims

오디오 데이터를 입력받는 단계;
상기 입력된 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하는 단계;
상기 캡스트럼 분석된 오디오 데이터의 하모닉 성분을 분석하는 단계;
상기 분석된 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 바탕으로 검출 함수(detection function)를 생성하는 단계;
상기 생성된 검출 함수를 바탕으로 상기 입력된 오디오 데이터의 온셋(onset) 정보를 검출하는 단계;
상기 검출된 온셋 정보를 바탕으로 상기 오디오 데이터의 피치(pitch) 정보를 검출하는 단계;
상기 검출된 온셋 정보 및 피치 정보를 바탕으로 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하는 단계; 및
상기 레퍼런스 오디오 데이터와 정렬된 오디오 데이터를 상기 레퍼런스 오디오 데이터와 일치하도록 보정하는 단계;를 포함하는 오디오 보정 방법.
삭제
제1항에 있어서,
상기 온셋 정보를 검출하는 단계는,
이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하는 단계;
상기 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 상기 캡스트럼 계수(cepstral coefficient)를 산출하는 단계;
상기 복수의 하모닉 성분에 대한 상기 캡스트럼 계수를 합하여 상기 검출 함수(detection function)를 생성하는 단계;
상기 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하는 단계;
상기 온셋 후보군 중 인접한 복수의 온셋을 제거하여 상기 온셋 정보를 검출하는 단계;를 포함하는 오디오 보정 방법.
제3항에 있어서,
상기 산출하는 단계는,
이전 프레임의 하모닉 성분이 존재하는 경우, 캡스트럼 계수가 높게 나타나며, 이전 프레임의 하모닉 성분이 존재하지 않는 경우, 캡스트럼 계수가 낮게 나타나는 것을 특징으로 하는 오디오 보정 방법.
제1항에 있어서,
상기 피치 정보를 검출하는 단계는,
커렌트로피(correntropy) 피치 검출 방법을 이용하여 검출된 온셋 성분들 사이의 피치 정보를 검출하는 것을 특징으로 하는 오디오 보정 방법.
제1항에 있어서,
상기 정렬하는 단계는,
동적 시간 정합(dynamic time warping) 기법을 이용하여 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하는 것을 특징으로 하는 오디오 보정 방법.
제6항에 있어서,
상기 정렬하는 단계는,
상기 레퍼런스 오디오 데이터에 대한 상기 오디오 데이터의 온셋 보정 비율과 피치 보정 비율을 산출하는 단계;를 포함하는 것을 특징으로 하는 오디오 보정 방법.
제7항에 있어서,
상기 보정하는 단계는,
상기 산출된 온셋 보정 비율 및 피치 보정 비율에 따라 상기 오디오 데이터를 보정하는 것을 특징으로 하는 오디오 보정 방법.
제1항에 있어서,
상기 보정하는 단계는,
SOLA 알고리즘을 이용하여 상기 오디오 데이터의 포먼트를 보존하여 상기 오디오 데이터를 보정하는 것을 특징으로 하는 오디오 보정 방법.
오디오 데이터를 입력받는 입력부;
상기 오디오 데이터의 하모닉 성분을 분석하여 온셋(onset) 정보를 검출하는 온셋 검출부;
상기 검출된 온셋 정보를 바탕으로 상기 오디오 데이터의 피치(pitch) 정보를 검출하는 피치 검출부;
상기 검출된 온셋 정보 및 피치 정보를 바탕으로 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하는 정렬부; 및
상기 레퍼런스 오디오 데이터와 정렬된 오디오 데이터를 상기 레퍼런스 오디오 데이터와 일치하도록 보정하는 보정부;를 포함하고,
상기 온셋 검출부는,
상기 오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하고,
상기 캡스트럼 분석된 오디오 데이터의 상기 하모닉 성분을 분석하고,
상기 분석된 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 바탕으로 검출 함수(detection function)를 생성하고,
상기 생성된 검출 함수를 바탕으로 상기 온셋 정보를 검출하는 오디오 보정 장치.
삭제
제10항에 있어서,
상기 온셋 검출부는,
이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하는 선택부;
상기 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 상기 캡스트럼 계수(cepstral coefficient)를 산출하는 계수 산출부;
상기 복수의 하모닉 성분에 대한 상기 캡스트럼 계수를 합하여 상기 검출 함수(detection function)를 생성하는 함수 생성부;
상기 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하는 온셋 후보군 추출부;
상기 온셋 후보군 중 인접한 복수의 온셋을 제거하여 온셋 정보를 검출하는 온셋 정보 검출부;를 포함하는 오디오 보정 장치.
제12항에 있어서,
상기 계수 산출부는,
이전 프레임의 하모닉 성분이 존재하는 경우, 캡스트럼 계수가 높게 나타나며, 이전 프레임의 하모닉 성분이 존재하지 않는 경우, 캡스트럼 계수가 낮게 나타나는 것을 특징으로 하는 오디오 보정 장치.
제10항에 있어서,
상기 피치 검출부는,
커렌트로피(correntropy) 피치 검출 방법을 이용하여 검출된 온셋 성분들 사이의 피치 정보를 검출하는 것을 특징으로 하는 오디오 보정 장치.
제10항에 있어서,
상기 정렬부는,
동적 시간 정합(dynamic time warping) 기법을 이용하여 상기 오디오 데이터를 레퍼런스 오디오 데이터와 비교하여 정렬하는 것을 특징으로 하는 오디오 보정 장치.
제15항에 있어서,
상기 정렬부는,
상기 레퍼런스 오디오 데이터에 대한 상기 오디오 데이터의 온셋 보정 비율과 피치 보정 비율을 산출하는 것을 특징으로 하는 오디오 보정 장치.
제16항에 있어서,
상기 보정부는,
상기 산출된 온셋 보정 비율 및 피치 보정 비율에 따라 상기 오디오 데이터를 보정하는 것을 특징으로 하는 오디오 보정 장치.
제10항에 있어서,
상기 보정부는,
SOLA 알고리즘을 이용하여 상기 오디오 데이터의 포먼트를 보존하여 상기 오디오 데이터를 보정하는 것을 특징으로 하는 오디오 보정 장치.
오디오 보정 장치의 온셋 검출 방법에 있어서,
오디오 데이터에 대한 캡스트럼 분석(cepstral analysis)을 수행하는 단계;
이전 프레임의 피치 성분을 이용하여 현재 프레임의 하모닉 성분을 선택하는 단계;
상기 현재 프레임의 하모닉 성분과 상기 이전 프레임의 하모닉 성분을 이용하여 복수의 하모닉 성분에 대한 캡스트럼 계수(cepstral coefficient)를 산출하는 단계;
상기 복수의 하모닉 성분에 대한 캡스트럼 계수를 합하여 검출 함수(detection function)을 생성하는 단계;
상기 검출 함수의 피크(peak)를 검출하여 온셋 후보군을 추출하는 단계; 및
상기 온셋 후보군 중 인접한 복수의 온셋을 제거하여 온셋 정보를 검출하는 단계;를 포함하는 온셋 검출 방법.