KR101448633B1

KR101448633B1 - 오디오 신호 처리 방법 및 장치

Info

Publication number: KR101448633B1
Application number: KR1020080010032A
Authority: KR
Inventors: 김연정; 김기수; 권준호
Original assignee: 엘지전자 주식회사
Priority date: 2008-01-31
Filing date: 2008-01-31
Publication date: 2014-10-08
Also published as: KR20090084073A

Abstract

본 발명은 방송 신호 등으로 수신한 오디오 신호를 처리할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것으로서, 오디오 신호를 수신하는 단계; 상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별 단계; 및, 상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별 단계를 포함한다.

음악, 음성

Description

오디오 신호 처리 방법 및 장치{METHOD FOR PROCESSING AN AUDIO SIGNAL AND APPARATUS FOR IMPLEMENTING THE SAME}

본 발명은 오디오 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 방송 신호 등으로 수신한 오디오 신호를 처리할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.

일반적으로, 디지털 방송 신호를 수신하면서, 비디오 또는 오디오를 재생하는데 그치지 않고, 녹화 또는 녹음하여 저장할 수 있는 기능까지 플레이어에서 제공하고 있다. 이와 같이 오디오를 재생하거나 저장하는 데 있어서, 사용자는 오디오 신호 중에서 음악 구간 또는 비음악 구간(음성 구간)만을 선택하여 추출하는 것을 원할 수 있는데, 이러한 요구에 따라 음성 및 음악 구간을 구분하기 위한 방법으로서, ZCR(Zero Crossing Rate), 에너지(Energy), 피치(Pitch), 멜-캡스트럼(Mel-Cepstrum) 등의 방식이 제안되어 왔다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 음악 구간인지 또는 비음악 구간인지를 임시적인 방식으로 식별하여, 음악 구간 또는 비음악 구간의 특성이 뚜렷한 구간에 대해서 식별을 완료한 후, 식별되지 않는 구간에 대해서는 보다 정밀한 방식으로 식별할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는데 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은 오디오 신호를 수신하는 단계; 상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별 단계; 및, 상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별 단계를 포함한다.

본 발명에 따르면, 상기 제1 특성 정보는, 채널간 에너지 차이 정보일 수 있다.

본 발명에 따르면, 상기 제1 식별 단계는, 상기 채널간 에너지 차이가 임계값을 초과하는 지속시간이 긴 경우에는, 해당 구간을 음악 구간으로 식별하고, 상기 채널간 에너지 차이가 상기 임계값에 미달하는 지속시간이 긴 경우에는, 해당 구간을 비음악 구간으로 식별하고, 상기 채널간 에너지 차이가 상기 임계값에 미달하거나 초과하는 지속시간이 짧은 경우, 해당 구간을 보류 구간으로 식별할 수 있다.

본 발명에 따르면, 상기 제2 특성 정보는, 정규화된 에너지 변화 정보일 수 있다.

본 발명에 따르면, 상기 제2 식별 단계는, 상기 정규화된 에너지 변화가 임계값에 미달하는 지속시간이 긴 경우에는, 해당 구간을 음악 구간으로 식별하고, 상기 정규화된 에너지 변화가 임계값을 초과하는 지속시간이 긴 경우에는, 해당 구간을 비음악 구간으로 식별하고, 상기 정규화된 에너지 변화가 상기 임계값에 미달하거나 초과하는 지속시간이 짧은 경우, 해당 구간을 보류 구간으로 식별할 수 있다.

본 발명에 따르면, 상기 제1 식별 단계의 결과 및 상기 제2 단계 식별 단계의 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별 단계를 더 포함할 수 있다.

본 발명에 따르면, 상기 제3 특성 정보는, 임계값 거리 정보에 해당하는 것일 수 있다.

본 발명에 따르면, 상기 임계값 거리 정보는, 채널별 에너지 차이에서 임계값을 뺀 제1 수치, 정규화된 에너지 변화에서 임계값을 뺀 제2 수치, 및 상기 제1 수치에서 상기 제2 수치를 뺀 값 중 하나에 해당할 수 있다.

본 발명에 따르면, 상기 임계값 거리 정보가, 상기 제1 수치에서 상기 제2 수치를 뺀 값인 경우, 상기 임계값 거리가 양수인 경우에, 상기 보류 구간을 음악 구간으로 식별하고, 상기 임계값 거리가 음수인 경우에, 상기 보류 구간을 비음악 구간으로 식별하는 것일 수 있다.

본 발명에 따르면, 음악 구간의 길이를 근거로 하여, 제3 식별 단계의 결과를 보정하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하는 오디오 수신부; 상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별부; 및, 상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별부를 포함하는 오디오 신호 처리 장치가 제공된다.

본 발명에 따르면, 상기 제1 식별 단계의 결과 및 상기 제2 단계 식별 단계의 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별부를 더 포함할 수 있다.

본 발명에 따르면, 음악 구간의 거리를 근거로 하여, 제3 식별 단계의 결과 를 보정하는 보정부를 더 포함할 수 있다.

본 발명의 일 측면에 따르면, 음악 구간인지 또는 비음악 구간인지를 임시적인 방식으로 식별함으로써, 음악 구간 또는 비음악 구간의 특성이 뚜렷한 구간에 대해서 식별을 완료한 후, 식별되지 않는 구간에 대해서는 보다 정밀한 방식으로 식별할 수 있기 때문에, 음악구간 및 비음악 구간의 검출 효율이 높아지는 효과가 있다.

본 발명의 다른 측면에 따르면, 보다 정밀한 방식으로 식별하기 때문에, 검출 정확도가 높아지는 효과가 있다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다. 도 1을 참조하면, 오디오 신호 처리 장치(100)는 수신부(110), 제1 식별부(120), 제2 식별부(130), 제3 식별부(140), 보정부(150)를 포함한다.

수신부(110)는 방송 신호, 광 디스크 등을 통해 오디오 신호를 수신한다. 제1 식별부(120)는 오디오 신호의 제1 특성 정보를 근거로 하여, 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별한다. 여기서 제1 특성 정보는, 채널간 에너지 차이 정보일 수 있다. 제2 식별부(130)는 제2 특성 정보를 근거로 하여, 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별한다. 여기서 제2 특성 정보는 정규화된 에너지 변화 정보일 수 있다. 제3 식별부(140)는, 제1 식별부(120)가 식별한 제1 식별 결과, 및 제2 식별부(130)가 식별한 제2 식별 결과를 근거로 하여, 오디오 신호에 보류 구간이 존재하는지 여부를 판단한다. 만약, 오디오 신호에 보류 구간이 존재하는 경우, 오디오 신호의 제3 특징 정보를 근거로 하여, 해당 보류 구간이 음악 구간인지 비음악 구간인지를 식별한다. 여기서 제3 특징 정보는 임계값 거리 정보일 수 있다. 보정부(150)는 음악 구간의 길이를 근거로 제3 식별부(140)의 식별결과를 보정한다. 이하, 제1 식별부(120), 제2 식별부(130), 제3 식별부(140), 보정부(150)가 수행하는 구체적인 과정에 관해서는 도 2 내지 도 4와 함께 후술하고자 한다.

도 2 내지 도 4는 본 발명의 실시예에 따른 오디오 신호 처리 방법의 순서를 보여주는 도면이다. S110 단계는, 앞서 설명된 수신부(110)에 의해 수행될 수 있고, S120 단계 내지 S180 단계는, 앞서 설명된 제1 식별부(120)에 의해, S210 단계 내지 S270 단계는, 제2 식별부(130)에 의해, S310 단계 내지 S370 단계는 제3 식별부(140)에 의해, S410 단계 내지 S420 단계는 보정부(150)에 의해 수행될 수 있지만, 본 발명은 이에 한정되지 아니한다.

우선, 도2를 참조하면, 방송 신호 또는 광 디스크 등을 통해 오디오 신호를 수신한다. 오디오 신호 PCM 파형의 일 예가 도 5에 도시되어 있다. 그런 다음, 오디오 신호를 분석하여 채널간 에너지 차이를 추정한다(S120 단계). 채널간 에너지 차이란, 왼쪽 채널 및 오른쪽 채널간의 에너지 차이를 말한다. 일반적으로 음성 신호은 모노 채널로 생성되는 반면에, 음악 신호는 스테레오 채널로 생성되기 때문에, 음악 구간일 경우에, 좌우 채널간 에너지 차이가 커지게 된다. 도 6은 오디오 신호의 채널간 에너지 차이 분포에 관한 특성을 설명하기 위한 도면이다. 도 6을 참조하면, 음악의 경우 채널간 에너지 차이가 상대적으로 높은 영역(300~700)에 주로 분포한데에 비해, 비음악의 경우 채널간 에너지 차이가 상대적으로 낮은 영역(0~100)에 매우 높게 분포하고 있다. 배경음악과 비음악이 합쳐진 신호에서는, 채널간 에너지 차이가 높은 영역에도 분포하고 낮은 영역에도 분포하고 있다. 이와 같이 음악 신호와 비음악 신호는 채널간 에너지 차이가 각기 다른 특성을 갖는다. 따라서, S120 단계에서 추정한 채널간 에너지 차이를 근거로 임계값을 초과하는지 미달하는지 여부를 판단한다(S130 단계). 특정 구간이 채널간 에너지 차이가 임계값을 초과하는 지속시간이 큰 경우(S130 단계의 '예'). 해당 구간을 음악 구간으로 식별한다(S150 단계). 그리고 채널간 에너지 차이가 임계값에 미달하는 지속시간이 큰 경우(S140 단계의 '예'), 해당 구간을 비음악 구간으로 식별한다(S160 단계). 만약, 채널간 에너지 차이가 임계값의 초과하거나 미달하는 지속시간이 작은 경우(S130 단계 및 S140 단계의 '아니오'), 해당 구간을 보류 구간으로 식별한다(S170 단계).

도 7은 제1 식별 결과의 일 예를 나타낸 도면이다. 도 7의 (A)에는 각 프레임별 채널별 에너지 차이 및 임계값(cv)이 도시되어 있고, 도 7의 (B)에는 각 프레임별 식별 결과가 도시되어 있다. 도 7을 참조하면, 프레임 인덱스가 0에서 약 1300사이의 구간, 약 3600에서 약 4100 사이의 구간 등에서는, 대체적으로 채널별 에너지 차이가 임계값을 초과하는 지속시간이 대체적으로 긴 편이고, 프레임 인덱스가 약 1300에서 약 3600사이의 구간에는, 대체적으로 채널별 에너지 차이가 임계값에 미달하는 지속시간이 대체적으로 긴 편이다. 도 7의 (B)를 참조하면, 각 프레임 별로 '(a) 음악 구간', '(b) 비음악 구간', '(c) 보류 구간'으로 각각 식별된 결과를 나타내고 있다. 프레임 인덱스가 0에서 800 사이의 구간에서는 대체적으로 (a) 음악 구간으로 식별되었고, 프레임 인덱스가 약 1300에서 3300사이의 구간에서는 대체적으로 (b) 비음악 구간으로 식별되었음을 알 수 있다. 한편, 프레임 인덱스가 800에서 1300 사이의 구간에서는, 임계값을 초과하거나 미달하는 지속시간이 짧아서 대체적으로 (c) 보류 구간으로 식별되었음을 알 수 있다. 도 7에 나타난 오디오 신호의 각 프레임이 실제적으로 어느 구간에 해당하는지에 대한 정보가 도 7의 (B)의 상단에 표시되어 있다. MU는 음악구간, AD는 광고구간, SP는 음성구간, LO는 로고송과 같은 짧은 음악 구간을 의미한다. 제1 식별결과와 실제정보와 비교하면, 실제로 음악 구간(MU)에서는 대체적으로 (a) 음악 구간으로 식별하고, 실제 로 광고 구간(AD)에서는 대체적으로 (c) 보류 구간으로 식별하고, 실제로 음성 구간(SP)에서는 대체적으로 (b) 비음악 구간으로 식별되었음을 알 수가 있다. 반대로 말하면, 제1 식별 결과, 대체적으로 실제와 부합하게 식별되었지만, 정밀하게는 식별되지 못한 것을 알 수 있다. 이는 옛날 노래나 라이브 공연의 음악인 경우, 녹음시 좌우 채널 분리가 안되어 녹음되는 경우가 있고, 또한, 랩이나 타악기 성분도 좌우 채널의 구분 없이 녹음되는 경우가 있으며, 이러한 성분이 곡 중간중간 강하게 발생하는 경우에는, 이 부분이 음악인데도 불구하고 비음악으로 식별될 수 있다. 이러한, 음악과 음성이 섞여 있는 경우에는, 음악은 항상 흐르는 경우가 일반적이지만, 음성의 경우 말 사이사이 쉬는 구간이 있기 때문에 짧은 가군으로 분석하는 경우, 음악의 특성과 음성에 가까운 특성이 번갈아가면서 나오게 된다. 이와 같이 대략적으로 식별된 결과를 제1 식별결과로서 출력한다(S180 단계).

다음 도 3을 참조하면, 정규화된 에너지 변화를 추정한다(S210 단계). 일반적으로, 음성은 말을 하는 구간과 말 사이에 쉬는 구간 사이의 에너지 변동이 큰 반면, 음악은 악기 등의 에너지가 어느 정도 크기를 갖고 연이어 진행되기 때문에, 에너지의 변화 정도가 작게 나타난다. 따라서 정규화된 에너지 변화의 특성 지속 시간이 임계값을 초과하는지 아니면 미달하는지에 따라 음악 구간인지 여부를 구분할 수 있다. 도 8은 오디오 신호의 정규화된 에너지 변화에 관한 특성을 설명하기 위한 도면으로서, 정규화된 에너지 변화에 관한 히스토그램이 표시되어 있다. 음악인 경우, 에너지 변화가 작은 구간(약 0.05에서 0.4)에 주로 분포하는 데 비해, 비음악인 경우, 에너지 변화가 큰 구간(약 0.4에서 약 1)에 주로 분포하는 것을 알 수 있다. 이는 음성의 경우, 말을 하는 구간과 말을 쉬는 구간의 에너지 변동이 큰 반면에, 음악은 에너지가 어느 정도 크기를 가지고 연이어 진행되면서 음성에 비해 에너지 변화의 정도가 작게 나타나는 것이다. 따라서 정규화된 에너지 변화가 특정 임계값에 비해 큰 경우, 음악이 아닌 것(예: 음성)에 가까운 특성을 가진다고 볼 수 있고, 작은 경우에는 음악에 가까운 특성을 지닌다고 볼 수 있다. 이러한 특성을 이용하여 S220 단계 이후의 식별 과정이 진행된다.

S210 단계에서 정규화된 에너지 변화가 임계값에 미달하는 지속시간이 큰 경우(S220 단계의 '예'), 해당 구간을 음악 구간을 식별한다(S240 단계). 그리고 임계값을 초과하는 지속시간이 큰 경우(S230 단계의 '예'), 해당 구간을 비음악 구간으로 식별한다(S250 단계). 만약, 임계값을 미달하거나 초과하는 지속시간이 짧은 경우(S130 단계의 '아니오' 및 , S140 단계의 '아니오')는, 해당 구간을 보류 구간으로 식별한다(S170 단계).

도 9는 제2 식별 결과의 일 예를 나타낸 도면이다. 우선 도 9의 (A)를 참조하면, 정규화된 에너지 변화의 평균이 프레임 인덱스별로 나타나있고, 중간의 임계값(cv)이 도시되어 있다. 프레임 인덱스가 0에서 약 800사이, 약 4200에서 약 5800사이 구간 등 에서는 대체적으로 임계값에 미달하는 지속시간이 대체적으로 긴 편이다. 약 1200에서 약 3300사이, 약 5800에서 약 7800사이 구간 등에서는 대체적으로 임계값을 초과하는 지속시간이 대체적으로 긴 편이다. 약 800에서 1200 사이 구간에서는 임계값을 초과하거나 미달하는 지속시간이 대체적으로 짧은 편인 것을 알 수 있다. 도 9의 (A)에 표시된 정규화된 에너지 변화의 평균을 이용한 식별결과가 도 9의 (B)에 도시되어 있다. 도 9의 (B)를 참조하면, 정규화된 에너지 변화가 임계값에 미달하는 지속시간이 긴 경우에는 (a) 음악 구간으로 식별되고, 임계값을 초과하는 지속시간이 긴 경우에는 (b) 비음악 구간으로 식별되며, 임계값을 초과하거나 미달하는 지속시간이 짧은 경우에는 (c) 보류 구간으로 식별되었음을 알 수 있다. 이와 같이 대략적으로 식별된 결과를 제2 식별결과로서 출력한다(S270 단계).

다음, 도 4를 참조하면, S180 단계에서 출력된 제1 식별결과, 및 S270 단계에서 출력된 제2 식별결과를 취합한다(S310 단계). 예를 들어, 다음 테이블 1에 나타난 바와 같이 취합 결과를 결정할 수 있다. 구체적으로 제1 식별결과와 제2 식별결과 중 하나가 보류인 경우(case 1 및 case 2의 경우), 그 나머지 결과를 취합 결과로서 결정할 수 있다. 제2 식별결과가 제1 식별결과와 상반되는 경우(case 3 및 case 4), 보류 구간으로 결정할 수 있다. case 3에서 '강한 음악'이란, 음악이라고 분류하는 것보다 더 긴 기준 시간 동안 특징이 유지되는 경우를 의미하고, '강한 비음악'도 마찬가지이다.

[table 1]

	제1 식별결과	제2 식별결과	취합 결과
case 1	음악 or 비음악	보류	음악 or 비음악
case 2	보류	음악 or 비음악	음악 or 비음악
case 3	비음악	강한 음악	보류
case 4	음악	강한 비음악	보류
case 5	보류	보류	보류

한편, 제1 식별결과 및 제2 식별결과가 모두 보류인 경우(case 5), 해당 구간은 보류로 결정할 수 있다.

위와 같이 S310 단계에서 제1 식별결과 및 제2 식별결과를 취합한 결과, 보류 구간이 존재하지 않는 경우(S320 단계의 '아니오'), 절차를 종료하고, 반면에 보류 구간이 존재하는 경우(S320 단계의 '예'), 그 보류구간에 해당하는 오디오 신호의 임계값 거리 정보를 추정한다(S330 단계). 여기서 임계값 거리(Threshold Distance)란, 채널별 에너지 차이(및/또는 정규화된 에너지 변화)가 임계값에서 어느 정도 벗어나 있는지에 대한 정도를 의미한다. 즉, 임계값 거리는, 1) 채널별 에너지 차이에서 임계값을 뺀 제1 수치, 2) 정규화된 에너지 변화에서 임계값을 뺀 제2 수치, 및 3) 상기 제1 수치에서 상기 제2 수치를 뺀 값 중 하나에 해당할 수 있다. 음악 구간의 경우, 상기 1) 값은 양수, 상기 2) 값은 음수, 따라서 상기 3) 값은 양수(양수-음수)가 된다. 비음악의 경우, 상기 1) 값은 음수, 상기 2) 값은 양수, 따라서 상기 3)값은 음수(음수-양수)가 된다. 임계값 거리가 양수인지 음수인지에 따라 보류 구간이 음성 구간인지 비음성 구간인지를 결정할 수 있다.

만약, 임계값 거리가 상기 1) 또는 3)에 해당한다면, 임계값 거리가 양수인 경우에(S340 단계의 '예'), 보류 구간을 음악 구간으로 식별하고(S350 단계), 반대로, 임계값 거리가 음수인 경우에(S340 단계의 '아니오'), 보류 구간을 비음악 구간으로 식별한다(S360 단계). 제3 식별 결과의 일 예 및, 그 보정 결과를 나타낸 도면이 도 10에 도시되어 있다. 도 10의 (A)를 참조하면, 임계값 거리가 상기 3)에 해당하는 수치인 경우, 임계값 거리가 프레임 인덱스별로 나타나 있고, 도 10의 (B)에는 임계값 거리를 근거로 결정한 제3 식별 결과가 나타나 있다. 프레임 인덱스가 3500인 구간의 경우, 도 7에 따르면, 제1 식별결과, 미세한 차이로 '보류/비 음악'이고, 도 9에 따르면, 제2 식별결과, '음악'으로 분류되었다. 따라서, [제1 식별결과=보류/비음악], [제2 식별결과=음악]을 테이블 1에 따라 취합해보면, [보류]라는 결과가 나왔다. 그러나 도 10에서는 프레임 인덱스 3500구간에서 임계값 거리가 양수이기 때문에, 해당 구간은 제3 식별결과 [음악 구간]으로 결정되었으며, 이는 사실[MU]과 부합되는 것을 알 수 있다.

이와 같이 제3 식별의 대상이 되는 구간은, 짧은 시간 내에 특헝 변화가 크기 때문에, 가능한 제1 식별 및 제2 식별 과정에서 결정되고 남은 부분에 대해 평균이라는 통계적 특성을 적용하여 결정하게 된다. 이때, 평균을 취하는 구간 경계는, 제1 식별과정 및 제2 식별과정을 통해 선택이 보류되었던 구간뿐만 아니라, 에너지가 특정 값 이하를 가져서 무음(silence)이라 판단되는 구간일 수 있다. 이와 같이 S310 내지 S360 과정을 통해 결정한 제3 식별결과를 출력한다(S370 단계).

오디오 신호의 음악 구간의 길이를 추정한다(S410 단계). 그런 다음, 음악 구간의 길이를 근거로 하여, S370 단계에서 출력된 제3 식별결과를 보정한다. 구체적으로, 음악 성분 지속성에 따라 연결해야할 부분과 연결하지 않고 버려야할 부분에 대한 처리를 진행한다. 예를 들어, 짧은 비음악 구간이 발생했는데, 앞의 음악 구간과 뒤의 음악 구간의 특성이 유사하며, 두 구간의 길이를 따로 할 때보다 묶을 경우에 음악 한 곡의 길이(대략 1.5~5분)에 부합하는 경우, 그 세 구간의 길이는 같은 음악으로 판정하여 하나로 묶어서 처리하는 것이다. 도 10의 (C)에 제3 식별결과를 보정한 결과가 표시되어 있다. 도 10의 (B)에서의 제3 식별결과, 프레임 인덱스 800에서 1200사이인 경우, 음악 구간과 비음악 구간이 반복하여 나타났지만, 도 10의 (C)의 에서는, 음악 길이를 고려하여 이 구간이 비음악 구간으로 보정되었음을 알 수 있다.

무음 구간(silence)의 경우는, 구간 구분에 유용한 정보로 쓰이지만, 음악 중간 중간에 극적 효과를 위해서 의도적으로 무음이 들어가는 경우도 있다. 이 경우 무음이 발생하기 전후 수 초(sec)의 데이터를 분석하여 서서히 감소하였는지 아닌지를 판단하여 구분할 수 있다. 일반적으로, 음악의 한곡과 다른 곡 사이에 들어가는 무음은 앞 곡이 서서히 작아지는 형태(fade out)가 되는 반면에, 곡 중간에 극적 효과를 위한 무음은 급격한 형태가 될 수 있기 때문에, 이러한 특성을 이용하여 판단할 수 있는 것이다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

본 발명은 방송 수신기, 오디오 플레이어 등에 적용될 수 있다.

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 2 내지 도 4는 본 발명의 실시예에 따른 오디오 신호 처리 방법의 순서도.

도 5는 오디오 신호 PCM 파형의 일 예.

도 6은 오디오 신호의 채널간 에너지 차이 분포에 관한 특성을 설명하기 위한 도면.

도 7은 제1 식별 결과의 일 예를 나타낸 도면.

도 8은 오디오 신호의 정규화된 에너지 변화에 관한 특성을 설명하기 위한 도면.

도 9는 제2 식별 결과의 일 예를 나타낸 도면.

도 10은 제3 식별 결과의 일 예 및, 그 보정 결과를 나타낸 도면.

Claims

오디오 신호 처리 방법에 있어서,

오디오 신호를 수신하는 단계;

상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별 단계;

상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별 단계; 및

상기 제1 식별 단계의 결과 및 상기 제2 단계 식별 단계의 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1 항에 있어서,

상기 제1 특성 정보는 채널간 에너지 차이 정보인 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
제 1 항에 있어서,

상기 제2 특성 정보는, 정규화된 에너지 변화 정보인 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
삭제
제 1 항에 있어서,

상기 제3 특성 정보는, 임계값 거리 정보에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 7 항에 있어서,

상기 임계값 거리 정보는, 채널별 에너지 차이에서 임계값을 뺀 제1 수치, 정규화된 에너지 변화에서 임계값을 뺀 제2 수치, 및 상기 제1 수치에서 상기 제2 수치를 뺀 값 중 하나에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 8 항에 있어서,

상기 임계값 거리 정보가, 상기 제1 수치에서 상기 제2 수치를 뺀 값인 경우, 상기 임계값 거리가 양수인 경우에, 상기 보류 구간을 음악 구간으로 식별하고, 상기 임계값 거리가 음수인 경우에, 상기 보류 구간을 비음악 구간으로 식별하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1 항에 있어서,

음악 구간의 길이를 근거로 하여, 제3 식별 단계의 결과를 보정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
오디오 신호 처리 장치에 있어서,

오디오 신호를 수신하는 오디오 수신부;

상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별부;

상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별부; 및

상기 제1 식별부 및 제2 식별부에 의해 수행되는 식별 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별부를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
삭제
제 11 항에 있어서,

음악 구간의 거리를 근거로 하여, 제3 식별부에 의해 수행되는 식별 결과를 보정하는 보정부를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.