KR101808810B1 - 음성/무음성 구간 검출 방법 및 장치 - Google Patents

음성/무음성 구간 검출 방법 및 장치 Download PDF

Info

Publication number
KR101808810B1
KR101808810B1 KR1020130144979A KR20130144979A KR101808810B1 KR 101808810 B1 KR101808810 B1 KR 101808810B1 KR 1020130144979 A KR1020130144979 A KR 1020130144979A KR 20130144979 A KR20130144979 A KR 20130144979A KR 101808810 B1 KR101808810 B1 KR 101808810B1
Authority
KR
South Korea
Prior art keywords
signal
channel
voice
audio signal
interval
Prior art date
Application number
KR1020130144979A
Other languages
English (en)
Other versions
KR20150061669A (ko
Inventor
장인선
임우택
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130144979A priority Critical patent/KR101808810B1/ko
Priority to US14/172,998 priority patent/US9336796B2/en
Publication of KR20150061669A publication Critical patent/KR20150061669A/ko
Application granted granted Critical
Publication of KR101808810B1 publication Critical patent/KR101808810B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

음성/무음성 구간 검출 방법 및 장치를 제공한다. 음성/무음성 구간 검출 장치는 스테레오 오디오 신호에서 상기 스테레오 오디오 신호의 채널간 관계 정보를 획득하는 획득부, 상기 채널간 관계 정보를 기초로 상기 스테레오 오디오 신호의 각 요소를 센터채널 성분과 서라운드 성분으로 분류하는 분류부, 상기 센터채널 성분인 요소들로 구성된 센터채널 신호와 상기 서라운드 성분인 요소들로 구성된 서라운드채널 신호 간의 프레임별 에너지 비율 값 및 상기 스테레오 오디오 신호를 기초로 생성된 모노 신호와 상기 스테레오 오디오 신호 간의 프레임별 에너지 비율 값을 계산하는 계산부 및 상기 에너지 비율 값들을 비교하여 상기 스테레오 오디오 신호에서 음성 구간과 무음성 구간을 판단하는 판단부를 포함할 수 있다.

Description

음성/무음성 구간 검출 방법 및 장치{METHOD AND APPARATUS FOR DETECTING SPEECH/NON-SPEECH SECTION}
본 발명의 실시예들은 음성, 음악, 음향 효과 및 잡음 등이 혼재되어 있는 미디어 컨텐츠에서 음성/무음성 구간을 검출하는 방법 및 그 장치에 관한 것이다.
종래에는 미디어 컨텐츠에서 음성 구간(speech section)과 음성이 아닌 구간(non-speech section)을 검출하기 위하여 다양한 음성 활성도 측정(Voice Activity Detection) 방법이 사용되어 왔다.
일 예로, 한국공개특허공보 특1999-0039422호(공개일 1999년 6월 5일) "G.729 음성 부호화기를 위한 음성 활성도 측정 방법"에는 음성 프레임을 음성정보가 포함된 실음성 구간과 묵음 구간으로 구분하고, 실음성 구간을 다시 유성음과 무성음으로 구분하여 각각 부호화한 후 LPC 파라메터 추출 과정에서 얻어진 음성 프레임의 에너지를 문턱값과 비교하여 음성의 활성도를 측정하는 것이 개시되어 있다.
또한, 한국공개특허공보 제10-2013-0085731호(공개일 2013년 7월 30일) "음성 영역 검출 방법 및 그 장치"에는 음성 프레임 간의 자기 상관값을 이용하여 음성 데이터 내의 음성 구간과 묵음 구간을 판별하는 것이 개시되어 있다.
그러나, 이러한 종래의 방법들은 단순히 임계치를 이용하여 음성 구간을 검출하므로 에러가 발생할 수 있으며, 잡음이 섞이면서 특징 벡터들이 크게 변함에 따라 정확한 음성 구간의 검출이 어려운 단점이 있다. 또한, 종래의 방법들은 음성과 묵음을 판별하는 것이기 때문에 음악 및 음향 효과 등이 공존하는 미디어 컨텐츠에 적용하는 것은 무리가 있다.
한편, 음성과 음악을 구분하는 기술은 대부분 음성 인식 시스템의 성능 향상을 위한 전처리 기술로 개발되고 있다. 기존의 음성/음악 분류 방법을 살펴보면 음악의 주요 특성이라고 생각될 수 있는 시간에 따른 리듬 변화를 이용하여 음성과 음악을 구분하는 방법들이 제안되어 있다. 그러나, 이러한 방법들은 대체로 음악은 음성의 변화에 비해 상대적으로 느리며 비교적 일정한 간격으로 변한다는 원리를 사용하였기 때문에, 음악의 종류에 따라 템포가 빨라지거나 악기가 달리지는 것에 따라 그 성능이 크게 변할 수밖에 없다.
이외에 음성 및 음악 데이터베이스(DB: database)를 활용하여 통계적으로 음성/음악 분류 특성을 갖는 특징 벡터를 추출하고 이를 기반으로 학습(training)한 분류기(Classifier)를 이용하여 음성/음악을 분류하는 방법들이 연구되고 있다. 그러나, 이러한 방법들은 높은 성능의 음성/음악 분류를 위해 학습 단계가 필수적이며, 학습을 위해 많은 양의 데이터를 확보하고 이를 기반으로 통계적 특징 벡터를 추출해야 하므로 데이터 확보, 유효 특징 벡터 추출 및 학습 시간에 따른 많은 수고와 시간이 필요하다.
본 발명의 기술적 과제는 사전 학습(training) 없이 오디오 신호에서 음성/무음성 구간을 검출할 수 있는 음성/무음성 구간 검출 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 적은 계산량과 메모리 소요(cost)로도 오디오 신호에서 정확하게 음성/무음성 구간을 검출할 수 있는 음성/무음성 구간 검출 방법 및 장치를 제공함에 있다.
본 발명의 일 양태에 따르면, 음성/무음성 구간 검출 장치는 스테레오 오디오 신호에서 상기 스테레오 오디오 신호의 채널간 관계 정보를 획득하는 획득부, 상기 채널간 관계 정보를 기초로 상기 스테레오 오디오 신호의 각 요소를 센터채널 성분과 서라운드 성분으로 분류하는 분류부, 상기 센터채널 성분인 요소들로 구성된 센터채널 신호와 상기 서라운드 성분인 요소들로 구성된 서라운드채널 신호 간의 프레임별 에너지 비율 값 및 상기 스테레오 오디오 신호를 기초로 생성된 모노 신호와 상기 스테레오 오디오 신호 간의 프레임별 에너지 비율 값을 계산하는 계산부 및 상기 에너지 비율 값들을 비교하여 상기 스테레오 오디오 신호에서 음성 구간과 무음성 구간을 판단하는 판단부를 포함할 수 있다.
일 측면에 따르면, 상기 채널간 관계 정보는 상기 스테레오 오디오 신호의 채널간 레벨 차이에 대한 정보와 채널간 위상 차이에 대한 정보를 포함할 수 있다.
다른 측면에 따르면, 상기 채널간 관계 정보는 상기 스테레오 오디오 신호의 채널간 상호연관성 정보를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 센터채널 신호는 상기 센터채널 성분인 요소들을 이용하여 역스펙트로그램(inverse spectrogram)을 수행함으로써 생성되고, 상기 서라운드채널 신호는 상기 서라운드 성분인 요소들을 이용하여 역스펙트로그램을 수행함으로써 생성될 수 있다.
또 다른 측면에 따르면, 상기 판단부는 상기 센터채널 신호의 프레임별 에너지 값을 기초로 상기 음성 구간으로서 검출한 구간에서의 에너지 값이 상기 임계값 보다 큰 경우 상기 검출한 구간을 음성 구간으로 판단할 수 있다.
본 발명의 다른 양태에 따르면, 음성/무음성 구간 검출 장치에 의한 음성/무음성 구간 검출 방법은 스테레오 오디오 신호에서 상기 스테레오 오디오 신호의 채널간 관계 정보를 획득하는 단계, 상기 채널간 관계 정보를 기초로 센터채널 성분인 요소들로 구성된 센터채널 신호와 서라운드 성분인 요소들로 구성된 서라운드채널 신호를 생성하는 단계, 상기 센터채널 신호와 상기 서라운드채널 신호 간의 프레임별 에너지 비율 값 및 상기 스테레오 오디오 신호를 기초로 생성된 모노 신호와 상기 스테레오 오디오 신호 간의 프레임별 에너지 비율 값을 계산하는 단계 및 상기 에너지 비율 값들을 비교하여 상기 스테레오 오디오 신호에서 음성 구간과 무음성 구간을 검출하는 단계를 포함할 수 있다.
음성 및 음악에 대한 DB 확보, 통계적 유효 특징 추출 및 사전 학습(training) 등의 시간적, 인적 수고 없이도 오디오 신호에서 음성/무음성 구간을 검출할 수 있다.
오디오 채널 간 특성 및 채널 별 신호의 특성 분석을 위한 간단한 계산량 및 적은 메모리 소요로도 정확한 음성/무음성 구간 검출이 가능하며, 음향 편집 장치, 데이터 검색 방법의 전처리 등에 적용되어 해당 장치의 서비스 품질을 향상 시킬 수 있다.
도 1은 본 발명의 일실시예에 있어서, 음성/무음성 구간 검출 장치를 나타내는 블록도이다.
도 2는 본 발명의 일실시예에 따른 음성/무음성 구간 검출 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 음성/무음성 구간에 대한 판별 기준을 나타내는 의사 코드이다.
도 4는 본 발명의 일실시예에 있어서, 음성/무음성 구간 검출 방법을 나타내는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "~부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일실시예에 있어서, 음성/무음성 구간 검출 장치를 나타내는 블록도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 음성/무음성 구간 검출 장치(100)는 획득부(110), 분류부(120), 계산부(130) 및 판단부(140)를 포함한다.
획득부(110)는 오디오 신호에서 상기 오디오 신호의 채널간 관계 정보를 획득한다. 이를 위하여 획득부(110)는 오디오 신호를 입력 받을 수 있다. 상기 오디오 신호는 일 예로, 복수개의 채널을 포함하는 스테레오 신호일 수 있다. 상기 채널간 관계 정보는 상기 오디오 신호의 채널간 레벨 차이(ILD: Inter-channel Level Difference)에 대한 정보와 채널간 위상 차이(IPD: Inter-channel Phase Difference)에 대한 정보를 포함할 수 있다. 또한, 필요에 따라 상기 채널간 관계 정보는 상기 오디오 신호의 채널간 상호연관성(ICC: Inter-Channel Correlation) 정보를 더 포함할 수 있다.
채널간 관계 정보는 STFT(Short Time Fourier Transform)된 좌채널 신호와 우채널 신호를 복소수 스펙트로그램(spectrogram) 행렬로 보았을 때, 특정 프레임 및 주파수 값을 가지는 하나의 요소(element)에 대해 계산된다. 획득부(110)는 오디오 신호의 각 요소 별로 ILD, IPD 등을 추출함으로써 채널간 관계 정보를 획득할 수 있다.
분류부(120)는 획득부(110)에서 획득한 채널간 관계 정보를 기초로 오디오 신호의 각 요소를 센터채널 성분과 서라운드 성분으로 분류한다. 일 예로, 분류부(120)는 각 요소마다의 ILD, IPD가 특정 임계치보다 작으면 센터 채널 성분으로 판단하고, 크면 서라운드 성분으로 판단함으로써 상기 각 요소를 분류할 수 있다. 이후, 분류부(120)는 센터채널 성분인 요소들과 서라운드 성분인 요소들을 각각 모아 역 스펙트로그램(inverse spectrogram)을 수행함으로써 센터채널 신호와 서라운드채널 신호를 생성함으로써 오디오 신호를 센터채널 신호와 서라운드채널 신호로 분리한다.
계산부(130)는 분류부(120)로부터 출력된 센터채널 신호와 서라운드채널 신호 간의 프레임별 에너지 비율 값을 계산하고, 상기 오디오 신호를 기초로 생성된 모노 신호와 상기 오디오 신호 간의 프레임별 에너지 비율 값을 계산한다. 이를 위하여 계산부(130)는 센터채널 신호와 서라운드채널 신호의 프레임별 에너지 값을 각각 계산하고, 상기 센터채널 신호와 상기 서라운드 채널 신호의 프레임별 에너지 값을 기초로 상기 센터채널 신호와 상기 서라운드채널 신호 간의 프레임별 에너지 비율 값을 계산하는 한편, 상기 오디오 신호를 기초로 모노 신호를 생성하고 상기 모노 신호와 상기 오디오 신호의 프레임별 에너지 값을 각각 계산한 후 상기 모노 신호와 상기 오디오 신호의 프레임별 에너지 값을 기초로 상기 모노 신호와 상기 오디오 신호 간의 프레임별 에너지 비율 값을 계산할 수 있다.
판단부(140)는 계산부(130)에서 계산된 에너지 비율 값들을 비교하여 오디오 신호에서 음성 구간과 무음성 구간을 판단한다. 일 예로, 판단부(140)는 상기 센터채널 신호와 서라운드채널 신호 간의 에너지 비율 값이 상기 모노 신호와 상기 오디오 신호의 프레임별 에너지 값 보다 큰 경우 해당 구간을 일차적으로 음성 구간으로서 검출할 수 있다. 여기서, 상기 모노 신호와 상기 오디오 신호의 프레임별 에너지 값은 임계치 설정을 위한 이득값이 부가된 후 상기 센터채널 신호와 서라운드채널 신호 간의 에너지 비율 값과 비교될 수 있다. 그리고, 판단부(140)는 계산부(130)에서 계산된 센터채널 신호의 프레임별 에너지 값을 기초로 상기 음성 구간으로서 검출한 구간에서의 에너지 값이 상기 임계값 보다 큰 경우 상기 검출한 구간을 음성 구간으로 판단할 수 있다.
도 2는 본 발명의 일실시예에 따른 음성/무음성 구간 검출 과정을 설명하기 위한 도면이고, 도 3은 본 발명의 일실시예에 따른 음성/무음성 구간에 대한 판별 기준을 나타내는 의사 코드이다.
먼저 도 2를 참조하면, 스테레오 신호는 획득부(110)로 입력될 수 있다. 그러면, 획득부(110)는 입력된 스테레오 신호에서 복수 채널 간의 관계 정보로 채널간 레벨 차이(ILD)와 채널 간 위상 차이(IPD) 정보를 추출함으로써 채널 분포 파라미터를 획득한다(210). 음성/무음성 구간 판단에는 경우에 따라 채널 간 상호연관성(ICC) 정보 등 채널 간의 정보를 표현하는 데 사용될 수 있는 다양한 파라미터가 활용될 수 있다. 상기 채널 분포 파라미터는 STFT(Short Time Fourier Transform)된 좌채널 신호와 우채널 신호를 복소수 스펙트로그램 행렬로 보았을 때, 특정 프레임 및 주파수 값을 가지는 하나의 요소에 대해 계산된다. 이후, 획득부(110)는 각 요소에 따른 ILD, IPD 등을 출력하고, 출력된 요소 별 ILD, IPD는 분류부(120)에 입력된다.
분류부(120)는 각 요소에 대해 ILD, IPD가 특정 임계치보다 작으면 센터 채널 성분으로 분류하고, 특정 임계치보다 크면 서라운드 성분으로 분류한다(220). 이후, 센터채널인 요소들과 서라운드 성분인 요소들을 각각 모아 역 스펙트로그램을 수행함으로써 센터채널 신호(S_center)와 서라운드채널 신호(S_surround)를 구성한 후 출력한다. 그러면, 계산부(130)는 센터채널 신호(S_center)와 서라운드채널 신호(S_surround)의 프레임별 에너지 값을 계산하고, 계산된 프레임별 에너지의 비율 값을 다음의 수학식 1을 이용하여 계산한다(230).
Figure 112013108077775-pat00001
여기서, ER_CL[i], ER_CR[i]은 각각 i-번째 프레임에서의 센터채널 신호와 좌서라운드(Left Surround) 신호 간의 에너지 비율 값 및 센터채널 신호와 우서라운드(Right Surround) 신호 간의 에너지 비율 값을 나타낸다. E(.)는 에너지 값을 계산하는 함수이며, LS_surround와 RS_surround는 각각 서라운드채널 신호의 좌채널 신호 및 우채널 신호를 나타낸다.
한편, 계산부(130)는 스테레오 신호를 입력 받아 모노 신호를 생성한다. 그리고, 생성한 모노 신호와 스테레오 신호의 프레임별 에너지 값을 계산하고, 계산된 프레임별 에너지의 비율 값을 다음의 수학식 2를 이용하여 계산한다(240).
Figure 112013108077775-pat00002
여기서, ER_ML[i], ER_MR[i]은 i-번째 프레임에서의 각각 모노 신호(M)와 스테레오 신호 내 좌채널 신호(L) 간의 에너지 비율 값 및 모노 신호(M)와 스테레오 신호 내 우채널 신호의(R) 간의 에너지 비율 값을 나타낸다. E(.)는 에너지 값을 계산하는 함수이며, 다음의 수학식 3과 같이 계산된다.
Figure 112013108077775-pat00003
여기서, k는 샘플 인덱스이며, N은 프레임 길이이다.
또한, 계산부(130)는 다음의 수학식 4를 이용하여 센터채널 신호(S_center)의 프레임별로 에너지 값을 계산한다(250).
Figure 112013108077775-pat00004
여기서, E_C[i]는 i-번째 프레임에서의 센터채널 신호의 에너지 값을 나타낸다.
판단부(140)는 우선 입력받은 에너지 비율 값(ER_CL, ER_ML, ER_CR, ER_MR)을 비교하여 음성/무음성 구간을 검출한다. 일반적으로, 음성과 같이 사용자에게 중요 정보를 주는 음원은 센터채널에 위치한다. 따라서, 판단부(140)는 ER_CL이 ER_ML 보다 크거나 ER_CR이 ER_MR 보다 큰 경우 해당 구간을 음성 구간으로 판단할 수 있다(260).
일 예로, 실제 방송 컨텐츠 제작 시 오디오는 모노 혹은 스테레오 마이크를 사용하여 현장 녹음되며, 녹화 후 프로듀서가 녹화본을 보며 음악 추가 및 효과음 증폭 등 스튜디오에서의 믹싱 작업을 수행함으로써 프로그램이 제작된다. 현장 녹화에서는 붐 마이크 등 초지향성 혹은 지향성 마이크를 사용하여 배우의 목소리를 중심으로 녹음하므로, 음성 신호는 방송 컨텐츠 내 센터 채널에 분포하게 된다.
스튜디오에서는 현장 녹화 오디오에 스테레오 음악 및 음향 효과를 추가한다. 그러므로, 음성에 해당하는 프레임에서는 센터채널 신호와 서라운드채널 신호 간의 에너지 비율이 모노 신호와 스테레오 신호 간의 에너지 비율에 비해 크다. 반면, 음악 등 스튜디오에서의 믹싱 작업을 통해 추가된 음성이 아닌 신호의 경우에는 센터채널 신호와 서라운드채널 신호 간의 에너지 비율이 모노 신호와 스테레오 신호 간의 에너지 비율에 비해 작게 된다. 이는 생방송으로 제작되는 뉴스 프로그램도 마찬가지이다. 판단부(140)는 이를 기준으로 일차적으로 음성 구간 여부를 판별하며, 음성 구간으로 판별된 경우 센터채널 음상에 위치하는 음성의 활성 정도를 좀 더 정확하게 판단하고자 프레임 별 에너지 값을 계산하여 특정 프레임에서의 에너지 값이 임계값 보다 큰 경우 경우 음성 구간으로 판단하고, 임계값 보다 작은 경우 무음성 구간으로 판단할 수 있다.
음성/무음성 구간 판별 기준의 의사 코드(pseudo code)는 도 3과 같다. 도 3에서 알파(alpha)는 에너지 비율 임계치 설정을 위한 이득값을 나타내고, 베타(beta)는 프레임별 에너지의 임계값을 나타낸다. 판단부(140)는 도 3의 판별 기준에 따라 음성 구간 여부를 판단하고 그 결과를 출력할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 음성/무음성 구간 검출 방법을 나타내는 흐름도이다.
음성/무음성 구간 검출 장치는 오디오 신호에서 음성 구간과 무음성 구간을 검출하기 위하여 먼저 오디오 신호에서 ILD, IPD 등을 추출함으로써 상기 오디오 신호의 채널간 관계 정보를 획득한다(410). 여기서, 상기 오디오 신호는 복수개의 채널을 포함하는 스테레오 신호일 수 있다. 음성/무음성 구간 검출 장치는 필요에 따라 상기 채널간 관계 정보로서 채널간 상호연관성 정보를 추출할 수도 있다.
이후, 음성/무음성 구간 검출 장치는 추출된 채널간 관계 정보를 기초로 오디오 신호의 각 요소를 센터채널 성분과 서라운드 성분으로 분류하여 센터채널 성분인 요소들로 구성된 센터채널 신호(S_center)와 서라운드 성분인 요소들로 구성된 서라운드채널 신호(S_surround)를 생성한다(420). 이 때, 상기 센터채널 신호(S_center)와 상기 서라운드채널 신호(S_surround)는 각각 센터채널 성분인 요소들을 이용하여 역스펙트로그램(inverse spectrogram)을 수행하고 상기 서라운드 성분인 요소들을 이용하여 역스펙트로그램을 수행함으로써 생성될 수 있다.
센터채널 신호(S_center)와 서라운드채널 신호(S_surround)가 생성되면, 음성/무음성 구간 검출 장치는 센터채널 신호와 서라운드채널 신호 간의 프레임별 에너지 비율 값(ER_CL, ER_CR) 및 상기 오디오 신호를 기초로 생성된 모노 신호와 상기 오디오 신호 간의 프레임별 에너지 비율 값(ER_ML, ER_MR)을 계산한다.
구체적으로, 음성/무음성 구간 검출 장치는 센터채널 신호(S_center)와 서라운드채널 신호(S_surround)의 프레임별 에너지 값을 각각 계산하고, 계산한 프레임별 에너지 값들을 기초로 상기 센터채널 신호와 상기 서라운드채널 신호 간의 프레임별 에너지 비율 값(ER_CL, ER_CR)을 계산할 수 있다(430). 또한, 상기 오디오 신호를 기초로 생성된 모노 신호와 상기 오디오 신호의 프레임별 에너지 값을 각각 계산하고, 계산한 프레임별 에너지 값들을 기초로 상기 모노 신호와 상기 오디오 신호 간의 프레임별 에너지 비율 값(ER_ML, ER_MR)을 계산할 수 있다(440).
상술한 과정을 통해 각 신호들 간의 에너지 비율 값들(ER_CL, ER_CR, ER_ML, ER_MR)이 계산되면, 음성/무음성 구간 검출 장치는 상기 에너지 비율 값들(ER_CL, ER_CR, ER_ML, ER_MR)을 비교하여 일차적으로 오디오 신호에서 음성 구간과 무음성 구간을 검출한다(450). 그리고, 센터채널 신호의 프레임별 에너지 값(E_C)을 기초로 음성 구간으로서 검출한 구간에서의 에너지 값이 상기 임계값 보다 큰 경우 상기 검출한 구간을 음성 구간으로 판단하고, 상기 검출한 구간에서의 에너지 값이 상기 임계값 이하인 경우 상기 검출한 구간을 비음성 구간으로 판단한다(460).
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (12)

  1. 스테레오 오디오 신호에서 상기 스테레오 오디오 신호의 채널간 관계 정보를 획득하는 획득부;
    상기 채널간 관계 정보를 기초로 상기 스테레오 오디오 신호의 각 요소를 센터채널 성분과 서라운드 성분으로 분류하는 분류부;
    상기 센터채널 성분인 요소들로 구성된 센터채널 신호와 상기 서라운드 성분인 요소들로 구성된 서라운드채널 신호 간의 프레임별 에너지 비율 값 및 상기 스테레오 오디오 신호를 기초로 생성된 모노 신호와 상기 스테레오 오디오 신호 간의 프레임별 에너지 비율 값을 계산하는 계산부; 및
    상기 에너지 비율 값들을 비교하여 상기 스테레오 오디오 신호에서 음성 구간과 무음성 구간을 판단하는 판단부
    를 포함하는 음성/무음성 구간 검출 장치.
  2. 제1항에 있어서,
    상기 채널간 관계 정보는,
    상기 스테레오 오디오 신호의 채널간 레벨 차이에 대한 정보와 채널간 위상 차이에 대한 정보를 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 장치.
  3. 제2항에 있어서,
    상기 채널간 관계 정보는,
    상기 스테레오 오디오 신호의 채널간 상호연관성 정보를 더 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 장치.
  4. 제1항에 있어서,
    상기 센터채널 신호는 상기 센터채널 성분인 요소들을 이용하여 역스펙트로그램(inverse spectrogram)을 수행함으로써 생성되고, 상기 서라운드채널 신호는 상기 서라운드 성분인 요소들을 이용하여 역스펙트로그램을 수행함으로써 생성되는 것을 특징으로 하는 음성/무음성 구간 검출 장치.
  5. 제1항에 있어서,
    상기 판단부는,
    상기 센터채널 신호의 프레임별 에너지 값을 기초로 상기 음성 구간으로서 검출한 구간에서의 에너지 값이 임계값 보다 큰 경우 상기 검출한 구간을 음성 구간으로 판단하는 것을 특징으로 하는 음성/무음성 구간 검출 장치.
  6. 음성/무음성 구간 검출 장치에 의한 음성/무음성 구간 검출 방법에 있어서,
    스테레오 오디오 신호에서 상기 스테레오 오디오 신호의 채널간 관계 정보를 획득하는 단계;
    상기 채널간 관계 정보를 기초로 센터채널 성분인 요소들로 구성된 센터채널 신호와 서라운드 성분인 요소들로 구성된 서라운드채널 신호를 생성하는 단계;
    상기 센터채널 신호와 상기 서라운드채널 신호 간의 프레임별 에너지 비율 값 및 상기 스테레오 오디오 신호를 기초로 생성된 모노 신호와 상기 스테레오 오디오 신호 간의 프레임별 에너지 비율 값을 계산하는 단계; 및
    상기 에너지 비율 값들을 비교하여 상기 스테레오 오디오 신호에서 음성 구간과 무음성 구간을 검출하는 단계
    를 포함하는 음성/무음성 구간 검출 방법.
  7. 제6항에 있어서,
    상기 채널간 관계 정보는,
    상기 스테레오 오디오 신호의 채널간 레벨 차이에 대한 정보와 채널간 위상 차이에 대한 정보를 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 방법.
  8. 제7항에 있어서,
    상기 채널간 관계 정보는,
    상기 스테레오 오디오 신호의 채널간 상호연관성 정보를 더 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 방법.
  9. 제6항에 있어서,
    상기 획득하는 단계 이후에,
    상기 채널간 관계 정보를 기초로 상기 스테레오 오디오 신호의 각 요소를 센터채널 성분과 서라운드 성분으로 분류하는 단계를 더 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 방법.
  10. 제6항에 있어서,
    상기 생성하는 단계는,
    상기 센터채널 성분인 요소들을 이용하여 역스펙트로그램(inverse spectrogram)을 수행함으로써 상기 센터채널 신호를 생성하는 단계; 및
    상기 서라운드 성분인 요소들을 이용하여 역스펙트로그램을 수행함으로써 상기 서라운드채널 신호를 생성하는 단계
    를 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 방법.
  11. 제6항에 있어서,
    상기 계산하는 단계는,
    상기 센터채널 신호와 상기 서라운드채널 신호의 프레임별 에너지 값을 각각 계산하고 상기 센터채널 신호와 상기 서라운드 채널 신호의 프레임별 에너지 값을 기초로 상기 센터채널 신호와 상기 서라운드채널 신호 간의 프레임별 에너지 비율 값을 계산하는 단계; 및
    상기 스테레오 오디오 신호를 기초로 생성된 모노 신호와 상기 스테레오 오디오 신호의 프레임별 에너지 값을 각각 계산하고 상기 모노 신호와 상기 스테레오 오디오 신호의 프레임별 에너지 값을 기초로 상기 모노 신호와 상기 스테레오 오디오 신호 간의 프레임별 에너지 비율 값을 계산하는 단계
    를 포함하는 것을 특징으로 하는 음성/무음성 구간 검출 방법.
  12. 제6항에 있어서,
    상기 검출하는 단계는,
    상기 센터채널 신호의 프레임별 에너지 값을 기초로 상기 음성 구간으로서 검출한 구간에서의 에너지 값이 임계값 보다 큰 경우 상기 검출한 구간을 음성 구간으로 판단하고 상기 검출한 구간에서의 에너지 값이 상기 임계값 이하인 경우 상기 검출한 구간을 비음성 구간으로 판단하는 것을 포함하는 음성/무음성 구간 검출 방법.
KR1020130144979A 2013-11-27 2013-11-27 음성/무음성 구간 검출 방법 및 장치 KR101808810B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130144979A KR101808810B1 (ko) 2013-11-27 2013-11-27 음성/무음성 구간 검출 방법 및 장치
US14/172,998 US9336796B2 (en) 2013-11-27 2014-02-05 Method and apparatus for detecting speech/non-speech section

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130144979A KR101808810B1 (ko) 2013-11-27 2013-11-27 음성/무음성 구간 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20150061669A KR20150061669A (ko) 2015-06-05
KR101808810B1 true KR101808810B1 (ko) 2017-12-14

Family

ID=53183360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130144979A KR101808810B1 (ko) 2013-11-27 2013-11-27 음성/무음성 구간 검출 방법 및 장치

Country Status (2)

Country Link
US (1) US9336796B2 (ko)
KR (1) KR101808810B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102561371B1 (ko) * 2016-07-11 2023-08-01 삼성전자주식회사 디스플레이장치와, 기록매체
CN106601271B (zh) * 2016-12-16 2020-05-22 河北在途科技有限公司 一种语音异常信号检测系统
US10764676B1 (en) * 2019-09-17 2020-09-01 Amazon Technologies, Inc. Loudspeaker beamforming for improved spatial coverage
US11664037B2 (en) 2020-05-22 2023-05-30 Electronics And Telecommunications Research Institute Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
CN112489681A (zh) * 2020-11-23 2021-03-12 瑞声新能源发展(常州)有限公司科教城分公司 节拍识别方法、装置及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CN1879146B (zh) * 2003-11-05 2011-06-08 皇家飞利浦电子股份有限公司 用于语音到文本的转录系统的错误检测
KR100636317B1 (ko) 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
JP4580210B2 (ja) 2004-10-19 2010-11-10 ソニー株式会社 音声信号処理装置および音声信号処理方法
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JPWO2008132850A1 (ja) * 2007-04-25 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
KR100925256B1 (ko) 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
KR20130014895A (ko) 2011-08-01 2013-02-12 한국전자통신연구원 음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법
KR101327664B1 (ko) 2012-01-20 2013-11-13 세종대학교산학협력단 음성 영역 검출 방법 및 그 장치

Also Published As

Publication number Publication date
KR20150061669A (ko) 2015-06-05
US20150149166A1 (en) 2015-05-28
US9336796B2 (en) 2016-05-10

Similar Documents

Publication Publication Date Title
Rouvier et al. An open-source state-of-the-art toolbox for broadcast news diarization
EP2702589B1 (en) Efficient content classification and loudness estimation
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
KR100725018B1 (ko) 음악 내용 자동 요약 방법 및 그 장치
Hu et al. Pitch‐based gender identification with two‐stage classification
KR101808810B1 (ko) 음성/무음성 구간 검출 방법 및 장치
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009511954A (ja) モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
Hebbar et al. Robust speech activity detection in movie audio: Data resources and experimental evaluation
KR20160013592A (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN105719660A (zh) 一种基于量化特性的语音篡改定位检测方法
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
KR20170124854A (ko) 음성/비음성 구간 검출 장치 및 방법
KR101382356B1 (ko) 오디오파일의 위변조 검출장치
Kahrizi et al. Long-term spectral pseudo-entropy (ltspe): a new robust feature for speech activity detection
Hübschen et al. Bitrate and tandem detection for the amr-wb codec with application to network testing
Pop et al. On forensic speaker recognition case pre-assessment
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
EP3956890B1 (en) A dialog detector
Ahmed et al. Text-independent speaker recognition based on syllabic pitch contour parameters

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant