KR101448633B1 - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR101448633B1
KR101448633B1 KR1020080010032A KR20080010032A KR101448633B1 KR 101448633 B1 KR101448633 B1 KR 101448633B1 KR 1020080010032 A KR1020080010032 A KR 1020080010032A KR 20080010032 A KR20080010032 A KR 20080010032A KR 101448633 B1 KR101448633 B1 KR 101448633B1
Authority
KR
South Korea
Prior art keywords
section
audio signal
music
identifying
characteristic information
Prior art date
Application number
KR1020080010032A
Other languages
English (en)
Other versions
KR20090084073A (ko
Inventor
김연정
김기수
권준호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020080010032A priority Critical patent/KR101448633B1/ko
Publication of KR20090084073A publication Critical patent/KR20090084073A/ko
Application granted granted Critical
Publication of KR101448633B1 publication Critical patent/KR101448633B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

본 발명은 방송 신호 등으로 수신한 오디오 신호를 처리할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것으로서, 오디오 신호를 수신하는 단계; 상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별 단계; 및, 상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별 단계를 포함한다.
Figure R1020080010032
음악, 음성

Description

오디오 신호 처리 방법 및 장치{METHOD FOR PROCESSING AN AUDIO SIGNAL AND APPARATUS FOR IMPLEMENTING THE SAME}
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 방송 신호 등으로 수신한 오디오 신호를 처리할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.
일반적으로, 디지털 방송 신호를 수신하면서, 비디오 또는 오디오를 재생하는데 그치지 않고, 녹화 또는 녹음하여 저장할 수 있는 기능까지 플레이어에서 제공하고 있다. 이와 같이 오디오를 재생하거나 저장하는 데 있어서, 사용자는 오디오 신호 중에서 음악 구간 또는 비음악 구간(음성 구간)만을 선택하여 추출하는 것을 원할 수 있는데, 이러한 요구에 따라 음성 및 음악 구간을 구분하기 위한 방법으로서, ZCR(Zero Crossing Rate), 에너지(Energy), 피치(Pitch), 멜-캡스트럼(Mel-Cepstrum) 등의 방식이 제안되어 왔다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 음악 구간인지 또는 비음악 구간인지를 임시적인 방식으로 식별하여, 음악 구간 또는 비음악 구간의 특성이 뚜렷한 구간에 대해서 식별을 완료한 후, 식별되지 않는 구간에 대해서는 보다 정밀한 방식으로 식별할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은 오디오 신호를 수신하는 단계; 상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별 단계; 및, 상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별 단계를 포함한다.
본 발명에 따르면, 상기 제1 특성 정보는, 채널간 에너지 차이 정보일 수 있다.
본 발명에 따르면, 상기 제1 식별 단계는, 상기 채널간 에너지 차이가 임계값을 초과하는 지속시간이 긴 경우에는, 해당 구간을 음악 구간으로 식별하고, 상기 채널간 에너지 차이가 상기 임계값에 미달하는 지속시간이 긴 경우에는, 해당 구간을 비음악 구간으로 식별하고, 상기 채널간 에너지 차이가 상기 임계값에 미달하거나 초과하는 지속시간이 짧은 경우, 해당 구간을 보류 구간으로 식별할 수 있다.
본 발명에 따르면, 상기 제2 특성 정보는, 정규화된 에너지 변화 정보일 수 있다.
본 발명에 따르면, 상기 제2 식별 단계는, 상기 정규화된 에너지 변화가 임계값에 미달하는 지속시간이 긴 경우에는, 해당 구간을 음악 구간으로 식별하고, 상기 정규화된 에너지 변화가 임계값을 초과하는 지속시간이 긴 경우에는, 해당 구간을 비음악 구간으로 식별하고, 상기 정규화된 에너지 변화가 상기 임계값에 미달하거나 초과하는 지속시간이 짧은 경우, 해당 구간을 보류 구간으로 식별할 수 있다.
본 발명에 따르면, 상기 제1 식별 단계의 결과 및 상기 제2 단계 식별 단계의 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별 단계를 더 포함할 수 있다.
본 발명에 따르면, 상기 제3 특성 정보는, 임계값 거리 정보에 해당하는 것일 수 있다.
본 발명에 따르면, 상기 임계값 거리 정보는, 채널별 에너지 차이에서 임계값을 뺀 제1 수치, 정규화된 에너지 변화에서 임계값을 뺀 제2 수치, 및 상기 제1 수치에서 상기 제2 수치를 뺀 값 중 하나에 해당할 수 있다.
본 발명에 따르면, 상기 임계값 거리 정보가, 상기 제1 수치에서 상기 제2 수치를 뺀 값인 경우, 상기 임계값 거리가 양수인 경우에, 상기 보류 구간을 음악 구간으로 식별하고, 상기 임계값 거리가 음수인 경우에, 상기 보류 구간을 비음악 구간으로 식별하는 것일 수 있다.
본 발명에 따르면, 음악 구간의 길이를 근거로 하여, 제3 식별 단계의 결과를 보정하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하는 오디오 수신부; 상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별부; 및, 상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별부를 포함하는 오디오 신호 처리 장치가 제공된다.
본 발명에 따르면, 상기 제1 식별 단계의 결과 및 상기 제2 단계 식별 단계의 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별부를 더 포함할 수 있다.
본 발명에 따르면, 음악 구간의 거리를 근거로 하여, 제3 식별 단계의 결과 를 보정하는 보정부를 더 포함할 수 있다.
본 발명의 일 측면에 따르면, 음악 구간인지 또는 비음악 구간인지를 임시적인 방식으로 식별함으로써, 음악 구간 또는 비음악 구간의 특성이 뚜렷한 구간에 대해서 식별을 완료한 후, 식별되지 않는 구간에 대해서는 보다 정밀한 방식으로 식별할 수 있기 때문에, 음악구간 및 비음악 구간의 검출 효율이 높아지는 효과가 있다.
본 발명의 다른 측면에 따르면, 보다 정밀한 방식으로 식별하기 때문에, 검출 정확도가 높아지는 효과가 있다.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다. 도 1을 참조하면, 오디오 신호 처리 장치(100)는 수신부(110), 제1 식별부(120), 제2 식별부(130), 제3 식별부(140), 보정부(150)를 포함한다.
수신부(110)는 방송 신호, 광 디스크 등을 통해 오디오 신호를 수신한다. 제1 식별부(120)는 오디오 신호의 제1 특성 정보를 근거로 하여, 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별한다. 여기서 제1 특성 정보는, 채널간 에너지 차이 정보일 수 있다. 제2 식별부(130)는 제2 특성 정보를 근거로 하여, 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별한다. 여기서 제2 특성 정보는 정규화된 에너지 변화 정보일 수 있다. 제3 식별부(140)는, 제1 식별부(120)가 식별한 제1 식별 결과, 및 제2 식별부(130)가 식별한 제2 식별 결과를 근거로 하여, 오디오 신호에 보류 구간이 존재하는지 여부를 판단한다. 만약, 오디오 신호에 보류 구간이 존재하는 경우, 오디오 신호의 제3 특징 정보를 근거로 하여, 해당 보류 구간이 음악 구간인지 비음악 구간인지를 식별한다. 여기서 제3 특징 정보는 임계값 거리 정보일 수 있다. 보정부(150)는 음악 구간의 길이를 근거로 제3 식별부(140)의 식별결과를 보정한다. 이하, 제1 식별부(120), 제2 식별부(130), 제3 식별부(140), 보정부(150)가 수행하는 구체적인 과정에 관해서는 도 2 내지 도 4와 함께 후술하고자 한다.
도 2 내지 도 4는 본 발명의 실시예에 따른 오디오 신호 처리 방법의 순서를 보여주는 도면이다. S110 단계는, 앞서 설명된 수신부(110)에 의해 수행될 수 있고, S120 단계 내지 S180 단계는, 앞서 설명된 제1 식별부(120)에 의해, S210 단계 내지 S270 단계는, 제2 식별부(130)에 의해, S310 단계 내지 S370 단계는 제3 식별부(140)에 의해, S410 단계 내지 S420 단계는 보정부(150)에 의해 수행될 수 있지만, 본 발명은 이에 한정되지 아니한다.
우선, 도2를 참조하면, 방송 신호 또는 광 디스크 등을 통해 오디오 신호를 수신한다. 오디오 신호 PCM 파형의 일 예가 도 5에 도시되어 있다. 그런 다음, 오디오 신호를 분석하여 채널간 에너지 차이를 추정한다(S120 단계). 채널간 에너지 차이란, 왼쪽 채널 및 오른쪽 채널간의 에너지 차이를 말한다. 일반적으로 음성 신호은 모노 채널로 생성되는 반면에, 음악 신호는 스테레오 채널로 생성되기 때문에, 음악 구간일 경우에, 좌우 채널간 에너지 차이가 커지게 된다. 도 6은 오디오 신호의 채널간 에너지 차이 분포에 관한 특성을 설명하기 위한 도면이다. 도 6을 참조하면, 음악의 경우 채널간 에너지 차이가 상대적으로 높은 영역(300~700)에 주로 분포한데에 비해, 비음악의 경우 채널간 에너지 차이가 상대적으로 낮은 영역(0~100)에 매우 높게 분포하고 있다. 배경음악과 비음악이 합쳐진 신호에서는, 채널간 에너지 차이가 높은 영역에도 분포하고 낮은 영역에도 분포하고 있다. 이와 같이 음악 신호와 비음악 신호는 채널간 에너지 차이가 각기 다른 특성을 갖는다. 따라서, S120 단계에서 추정한 채널간 에너지 차이를 근거로 임계값을 초과하는지 미달하는지 여부를 판단한다(S130 단계). 특정 구간이 채널간 에너지 차이가 임계값을 초과하는 지속시간이 큰 경우(S130 단계의 '예'). 해당 구간을 음악 구간으로 식별한다(S150 단계). 그리고 채널간 에너지 차이가 임계값에 미달하는 지속시간이 큰 경우(S140 단계의 '예'), 해당 구간을 비음악 구간으로 식별한다(S160 단계). 만약, 채널간 에너지 차이가 임계값의 초과하거나 미달하는 지속시간이 작은 경우(S130 단계 및 S140 단계의 '아니오'), 해당 구간을 보류 구간으로 식별한다(S170 단계).
도 7은 제1 식별 결과의 일 예를 나타낸 도면이다. 도 7의 (A)에는 각 프레임별 채널별 에너지 차이 및 임계값(cv)이 도시되어 있고, 도 7의 (B)에는 각 프레임별 식별 결과가 도시되어 있다. 도 7을 참조하면, 프레임 인덱스가 0에서 약 1300사이의 구간, 약 3600에서 약 4100 사이의 구간 등에서는, 대체적으로 채널별 에너지 차이가 임계값을 초과하는 지속시간이 대체적으로 긴 편이고, 프레임 인덱스가 약 1300에서 약 3600사이의 구간에는, 대체적으로 채널별 에너지 차이가 임계값에 미달하는 지속시간이 대체적으로 긴 편이다. 도 7의 (B)를 참조하면, 각 프레임 별로 '(a) 음악 구간', '(b) 비음악 구간', '(c) 보류 구간'으로 각각 식별된 결과를 나타내고 있다. 프레임 인덱스가 0에서 800 사이의 구간에서는 대체적으로 (a) 음악 구간으로 식별되었고, 프레임 인덱스가 약 1300에서 3300사이의 구간에서는 대체적으로 (b) 비음악 구간으로 식별되었음을 알 수 있다. 한편, 프레임 인덱스가 800에서 1300 사이의 구간에서는, 임계값을 초과하거나 미달하는 지속시간이 짧아서 대체적으로 (c) 보류 구간으로 식별되었음을 알 수 있다. 도 7에 나타난 오디오 신호의 각 프레임이 실제적으로 어느 구간에 해당하는지에 대한 정보가 도 7의 (B)의 상단에 표시되어 있다. MU는 음악구간, AD는 광고구간, SP는 음성구간, LO는 로고송과 같은 짧은 음악 구간을 의미한다. 제1 식별결과와 실제정보와 비교하면, 실제로 음악 구간(MU)에서는 대체적으로 (a) 음악 구간으로 식별하고, 실제 로 광고 구간(AD)에서는 대체적으로 (c) 보류 구간으로 식별하고, 실제로 음성 구간(SP)에서는 대체적으로 (b) 비음악 구간으로 식별되었음을 알 수가 있다. 반대로 말하면, 제1 식별 결과, 대체적으로 실제와 부합하게 식별되었지만, 정밀하게는 식별되지 못한 것을 알 수 있다. 이는 옛날 노래나 라이브 공연의 음악인 경우, 녹음시 좌우 채널 분리가 안되어 녹음되는 경우가 있고, 또한, 랩이나 타악기 성분도 좌우 채널의 구분 없이 녹음되는 경우가 있으며, 이러한 성분이 곡 중간중간 강하게 발생하는 경우에는, 이 부분이 음악인데도 불구하고 비음악으로 식별될 수 있다. 이러한, 음악과 음성이 섞여 있는 경우에는, 음악은 항상 흐르는 경우가 일반적이지만, 음성의 경우 말 사이사이 쉬는 구간이 있기 때문에 짧은 가군으로 분석하는 경우, 음악의 특성과 음성에 가까운 특성이 번갈아가면서 나오게 된다. 이와 같이 대략적으로 식별된 결과를 제1 식별결과로서 출력한다(S180 단계).
다음 도 3을 참조하면, 정규화된 에너지 변화를 추정한다(S210 단계). 일반적으로, 음성은 말을 하는 구간과 말 사이에 쉬는 구간 사이의 에너지 변동이 큰 반면, 음악은 악기 등의 에너지가 어느 정도 크기를 갖고 연이어 진행되기 때문에, 에너지의 변화 정도가 작게 나타난다. 따라서 정규화된 에너지 변화의 특성 지속 시간이 임계값을 초과하는지 아니면 미달하는지에 따라 음악 구간인지 여부를 구분할 수 있다. 도 8은 오디오 신호의 정규화된 에너지 변화에 관한 특성을 설명하기 위한 도면으로서, 정규화된 에너지 변화에 관한 히스토그램이 표시되어 있다. 음악인 경우, 에너지 변화가 작은 구간(약 0.05에서 0.4)에 주로 분포하는 데 비해, 비음악인 경우, 에너지 변화가 큰 구간(약 0.4에서 약 1)에 주로 분포하는 것을 알 수 있다. 이는 음성의 경우, 말을 하는 구간과 말을 쉬는 구간의 에너지 변동이 큰 반면에, 음악은 에너지가 어느 정도 크기를 가지고 연이어 진행되면서 음성에 비해 에너지 변화의 정도가 작게 나타나는 것이다. 따라서 정규화된 에너지 변화가 특정 임계값에 비해 큰 경우, 음악이 아닌 것(예: 음성)에 가까운 특성을 가진다고 볼 수 있고, 작은 경우에는 음악에 가까운 특성을 지닌다고 볼 수 있다. 이러한 특성을 이용하여 S220 단계 이후의 식별 과정이 진행된다.
S210 단계에서 정규화된 에너지 변화가 임계값에 미달하는 지속시간이 큰 경우(S220 단계의 '예'), 해당 구간을 음악 구간을 식별한다(S240 단계). 그리고 임계값을 초과하는 지속시간이 큰 경우(S230 단계의 '예'), 해당 구간을 비음악 구간으로 식별한다(S250 단계). 만약, 임계값을 미달하거나 초과하는 지속시간이 짧은 경우(S130 단계의 '아니오' 및 , S140 단계의 '아니오')는, 해당 구간을 보류 구간으로 식별한다(S170 단계).
도 9는 제2 식별 결과의 일 예를 나타낸 도면이다. 우선 도 9의 (A)를 참조하면, 정규화된 에너지 변화의 평균이 프레임 인덱스별로 나타나있고, 중간의 임계값(cv)이 도시되어 있다. 프레임 인덱스가 0에서 약 800사이, 약 4200에서 약 5800사이 구간 등 에서는 대체적으로 임계값에 미달하는 지속시간이 대체적으로 긴 편이다. 약 1200에서 약 3300사이, 약 5800에서 약 7800사이 구간 등에서는 대체적으로 임계값을 초과하는 지속시간이 대체적으로 긴 편이다. 약 800에서 1200 사이 구간에서는 임계값을 초과하거나 미달하는 지속시간이 대체적으로 짧은 편인 것을 알 수 있다. 도 9의 (A)에 표시된 정규화된 에너지 변화의 평균을 이용한 식별결과가 도 9의 (B)에 도시되어 있다. 도 9의 (B)를 참조하면, 정규화된 에너지 변화가 임계값에 미달하는 지속시간이 긴 경우에는 (a) 음악 구간으로 식별되고, 임계값을 초과하는 지속시간이 긴 경우에는 (b) 비음악 구간으로 식별되며, 임계값을 초과하거나 미달하는 지속시간이 짧은 경우에는 (c) 보류 구간으로 식별되었음을 알 수 있다. 이와 같이 대략적으로 식별된 결과를 제2 식별결과로서 출력한다(S270 단계).
다음, 도 4를 참조하면, S180 단계에서 출력된 제1 식별결과, 및 S270 단계에서 출력된 제2 식별결과를 취합한다(S310 단계). 예를 들어, 다음 테이블 1에 나타난 바와 같이 취합 결과를 결정할 수 있다. 구체적으로 제1 식별결과와 제2 식별결과 중 하나가 보류인 경우(case 1 및 case 2의 경우), 그 나머지 결과를 취합 결과로서 결정할 수 있다. 제2 식별결과가 제1 식별결과와 상반되는 경우(case 3 및 case 4), 보류 구간으로 결정할 수 있다. case 3에서 '강한 음악'이란, 음악이라고 분류하는 것보다 더 긴 기준 시간 동안 특징이 유지되는 경우를 의미하고, '강한 비음악'도 마찬가지이다.
[table 1]
제1 식별결과 제2 식별결과 취합 결과
case 1 음악 or 비음악 보류 음악 or 비음악
case 2 보류 음악 or 비음악 음악 or 비음악
case 3 비음악 강한 음악 보류
case 4 음악 강한 비음악 보류
case 5 보류 보류 보류
한편, 제1 식별결과 및 제2 식별결과가 모두 보류인 경우(case 5), 해당 구간은 보류로 결정할 수 있다.
위와 같이 S310 단계에서 제1 식별결과 및 제2 식별결과를 취합한 결과, 보류 구간이 존재하지 않는 경우(S320 단계의 '아니오'), 절차를 종료하고, 반면에 보류 구간이 존재하는 경우(S320 단계의 '예'), 그 보류구간에 해당하는 오디오 신호의 임계값 거리 정보를 추정한다(S330 단계). 여기서 임계값 거리(Threshold Distance)란, 채널별 에너지 차이(및/또는 정규화된 에너지 변화)가 임계값에서 어느 정도 벗어나 있는지에 대한 정도를 의미한다. 즉, 임계값 거리는, 1) 채널별 에너지 차이에서 임계값을 뺀 제1 수치, 2) 정규화된 에너지 변화에서 임계값을 뺀 제2 수치, 및 3) 상기 제1 수치에서 상기 제2 수치를 뺀 값 중 하나에 해당할 수 있다. 음악 구간의 경우, 상기 1) 값은 양수, 상기 2) 값은 음수, 따라서 상기 3) 값은 양수(양수-음수)가 된다. 비음악의 경우, 상기 1) 값은 음수, 상기 2) 값은 양수, 따라서 상기 3)값은 음수(음수-양수)가 된다. 임계값 거리가 양수인지 음수인지에 따라 보류 구간이 음성 구간인지 비음성 구간인지를 결정할 수 있다.
만약, 임계값 거리가 상기 1) 또는 3)에 해당한다면, 임계값 거리가 양수인 경우에(S340 단계의 '예'), 보류 구간을 음악 구간으로 식별하고(S350 단계), 반대로, 임계값 거리가 음수인 경우에(S340 단계의 '아니오'), 보류 구간을 비음악 구간으로 식별한다(S360 단계). 제3 식별 결과의 일 예 및, 그 보정 결과를 나타낸 도면이 도 10에 도시되어 있다. 도 10의 (A)를 참조하면, 임계값 거리가 상기 3)에 해당하는 수치인 경우, 임계값 거리가 프레임 인덱스별로 나타나 있고, 도 10의 (B)에는 임계값 거리를 근거로 결정한 제3 식별 결과가 나타나 있다. 프레임 인덱스가 3500인 구간의 경우, 도 7에 따르면, 제1 식별결과, 미세한 차이로 '보류/비 음악'이고, 도 9에 따르면, 제2 식별결과, '음악'으로 분류되었다. 따라서, [제1 식별결과=보류/비음악], [제2 식별결과=음악]을 테이블 1에 따라 취합해보면, [보류]라는 결과가 나왔다. 그러나 도 10에서는 프레임 인덱스 3500구간에서 임계값 거리가 양수이기 때문에, 해당 구간은 제3 식별결과 [음악 구간]으로 결정되었으며, 이는 사실[MU]과 부합되는 것을 알 수 있다.
이와 같이 제3 식별의 대상이 되는 구간은, 짧은 시간 내에 특헝 변화가 크기 때문에, 가능한 제1 식별 및 제2 식별 과정에서 결정되고 남은 부분에 대해 평균이라는 통계적 특성을 적용하여 결정하게 된다. 이때, 평균을 취하는 구간 경계는, 제1 식별과정 및 제2 식별과정을 통해 선택이 보류되었던 구간뿐만 아니라, 에너지가 특정 값 이하를 가져서 무음(silence)이라 판단되는 구간일 수 있다. 이와 같이 S310 내지 S360 과정을 통해 결정한 제3 식별결과를 출력한다(S370 단계).
오디오 신호의 음악 구간의 길이를 추정한다(S410 단계). 그런 다음, 음악 구간의 길이를 근거로 하여, S370 단계에서 출력된 제3 식별결과를 보정한다. 구체적으로, 음악 성분 지속성에 따라 연결해야할 부분과 연결하지 않고 버려야할 부분에 대한 처리를 진행한다. 예를 들어, 짧은 비음악 구간이 발생했는데, 앞의 음악 구간과 뒤의 음악 구간의 특성이 유사하며, 두 구간의 길이를 따로 할 때보다 묶을 경우에 음악 한 곡의 길이(대략 1.5~5분)에 부합하는 경우, 그 세 구간의 길이는 같은 음악으로 판정하여 하나로 묶어서 처리하는 것이다. 도 10의 (C)에 제3 식별결과를 보정한 결과가 표시되어 있다. 도 10의 (B)에서의 제3 식별결과, 프레임 인덱스 800에서 1200사이인 경우, 음악 구간과 비음악 구간이 반복하여 나타났지만, 도 10의 (C)의 에서는, 음악 길이를 고려하여 이 구간이 비음악 구간으로 보정되었음을 알 수 있다.
무음 구간(silence)의 경우는, 구간 구분에 유용한 정보로 쓰이지만, 음악 중간 중간에 극적 효과를 위해서 의도적으로 무음이 들어가는 경우도 있다. 이 경우 무음이 발생하기 전후 수 초(sec)의 데이터를 분석하여 서서히 감소하였는지 아닌지를 판단하여 구분할 수 있다. 일반적으로, 음악의 한곡과 다른 곡 사이에 들어가는 무음은 앞 곡이 서서히 작아지는 형태(fade out)가 되는 반면에, 곡 중간에 극적 효과를 위한 무음은 급격한 형태가 될 수 있기 때문에, 이러한 특성을 이용하여 판단할 수 있는 것이다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 발명은 방송 수신기, 오디오 플레이어 등에 적용될 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성도.
도 2 내지 도 4는 본 발명의 실시예에 따른 오디오 신호 처리 방법의 순서도.
도 5는 오디오 신호 PCM 파형의 일 예.
도 6은 오디오 신호의 채널간 에너지 차이 분포에 관한 특성을 설명하기 위한 도면.
도 7은 제1 식별 결과의 일 예를 나타낸 도면.
도 8은 오디오 신호의 정규화된 에너지 변화에 관한 특성을 설명하기 위한 도면.
도 9는 제2 식별 결과의 일 예를 나타낸 도면.
도 10은 제3 식별 결과의 일 예 및, 그 보정 결과를 나타낸 도면.

Claims (13)

  1. 오디오 신호 처리 방법에 있어서,
    오디오 신호를 수신하는 단계;
    상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별 단계;
    상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별 단계; 및
    상기 제1 식별 단계의 결과 및 상기 제2 단계 식별 단계의 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 제1 특성 정보는 채널간 에너지 차이 정보인 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 제2 특성 정보는, 정규화된 에너지 변화 정보인 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 삭제
  6. 삭제
  7. 제 1 항에 있어서,
    상기 제3 특성 정보는, 임계값 거리 정보에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  8. 제 7 항에 있어서,
    상기 임계값 거리 정보는, 채널별 에너지 차이에서 임계값을 뺀 제1 수치, 정규화된 에너지 변화에서 임계값을 뺀 제2 수치, 및 상기 제1 수치에서 상기 제2 수치를 뺀 값 중 하나에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  9. 제 8 항에 있어서,
    상기 임계값 거리 정보가, 상기 제1 수치에서 상기 제2 수치를 뺀 값인 경우, 상기 임계값 거리가 양수인 경우에, 상기 보류 구간을 음악 구간으로 식별하고, 상기 임계값 거리가 음수인 경우에, 상기 보류 구간을 비음악 구간으로 식별하는 것을 특징으로 하는 오디오 신호 처리 방법.
  10. 제 1 항에 있어서,
    음악 구간의 길이를 근거로 하여, 제3 식별 단계의 결과를 보정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  11. 오디오 신호 처리 장치에 있어서,
    오디오 신호를 수신하는 오디오 수신부;
    상기 오디오 신호의 제1 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제1 식별부;
    상기 오디오 신호의 제2 특성 정보를 근거로 하여, 상기 오디오 신호의 각 구간이 음악 구간, 비음악 구간, 및 보류 구간 중 어느 구간에 해당하는지 여부를 식별하는 제2 식별부; 및
    상기 제1 식별부 및 제2 식별부에 의해 수행되는 식별 결과를 근거로 하여, 상기 오디오 신호에 보류 구간이 존재하는 경우, 상기 오디오 신호의 제3 특성 정보를 근거로 하여, 상기 보류 구간이 음악 구간, 및 비음악 구간 중 어느 구간에 해당하는지 여부를 식별하는 제3 식별부를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  12. 삭제
  13. 제 11 항에 있어서,
    음악 구간의 거리를 근거로 하여, 제3 식별부에 의해 수행되는 식별 결과를 보정하는 보정부를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
KR1020080010032A 2008-01-31 2008-01-31 오디오 신호 처리 방법 및 장치 KR101448633B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080010032A KR101448633B1 (ko) 2008-01-31 2008-01-31 오디오 신호 처리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080010032A KR101448633B1 (ko) 2008-01-31 2008-01-31 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090084073A KR20090084073A (ko) 2009-08-05
KR101448633B1 true KR101448633B1 (ko) 2014-10-08

Family

ID=41204683

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080010032A KR101448633B1 (ko) 2008-01-31 2008-01-31 오디오 신호 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101448633B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284308A (ja) * 2005-05-26 2005-10-13 Kddi Corp オーディオ情報分類装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284308A (ja) * 2005-05-26 2005-10-13 Kddi Corp オーディオ情報分類装置

Also Published As

Publication number Publication date
KR20090084073A (ko) 2009-08-05

Similar Documents

Publication Publication Date Title
KR100472904B1 (ko) 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
US20050131688A1 (en) Apparatus and method for classifying an audio signal
EP1968043B1 (en) Musical composition section detecting method and its device, and data recording method and its device
JP4300697B2 (ja) 信号処理装置及び方法
US8068719B2 (en) Systems and methods for detecting exciting scenes in sports video
Kennedy et al. Pitch-based emphasis detection for characterization of meeting recordings
US20060224616A1 (en) Information processing device and method thereof
JP3757719B2 (ja) 音響データ分析方法及びその装置
US7962330B2 (en) Apparatus and method for automatic dissection of segmented audio signals
Venkatesh et al. Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast
US9336796B2 (en) Method and apparatus for detecting speech/non-speech section
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
CN101355673B (zh) 信息处理装置和信息处理方法
KR101448633B1 (ko) 오디오 신호 처리 방법 및 장치
JP2018013742A (ja) 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム
EP1542206A1 (en) Apparatus and method for automatic classification of audio signals
Ibrahim et al. Primary-ambient source separation for upmixing to surround sound systems
CN105632523A (zh) 调节音频数据的音量输出值的方法和装置及终端
JP2004334160A (ja) 特徴量抽出装置
US20070192089A1 (en) Apparatus and method for reproducing audio data
WO2002041634A3 (en) Summarization and/or indexing of programs
CN113611330A (zh) 一种音频检测方法、装置、电子设备及存储介质
Nitanda et al. Audio signal segmentation and classification using fuzzy c‐means clustering
CN111009258A (zh) 一种单声道说话人分离模型、训练方法和分离方法
US8370356B2 (en) Music search system, music search method, music search program and recording medium recording music search program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
GRNT Written decision to grant