KR101327664B1 - 음성 영역 검출 방법 및 그 장치 - Google Patents

음성 영역 검출 방법 및 그 장치 Download PDF

Info

Publication number
KR101327664B1
KR101327664B1 KR1020120006750A KR20120006750A KR101327664B1 KR 101327664 B1 KR101327664 B1 KR 101327664B1 KR 1020120006750 A KR1020120006750 A KR 1020120006750A KR 20120006750 A KR20120006750 A KR 20120006750A KR 101327664 B1 KR101327664 B1 KR 101327664B1
Authority
KR
South Korea
Prior art keywords
cross
value
voice
correlation
section
Prior art date
Application number
KR1020120006750A
Other languages
English (en)
Other versions
KR20130085731A (ko
Inventor
김무영
이명석
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020120006750A priority Critical patent/KR101327664B1/ko
Publication of KR20130085731A publication Critical patent/KR20130085731A/ko
Application granted granted Critical
Publication of KR101327664B1 publication Critical patent/KR101327664B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

본 발명은 음성 영역 검출 방법 및 그 장치에 관한 것이다. 본 발명에 따르면, 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서, 음성 데이터를 입력받는 단계와, 상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계, 및 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법을 제공한다.
상기 음성 영역 검출 방법 및 그 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.

Description

음성 영역 검출 방법 및 그 장치{Method for voice activity detection and apparatus for thereof}
본 발명은 음성 영역 검출 방법 및 그 장치에 관한 것으로서, 보다 상세하게는 인접 프레임 간의 상관 관계를 이용하여 음성 영역과 묵음 영역을 판별할 수 있는 음성 영역 검출 방법 및 그 장치에 관한 것이다.
기존에 음성 데이터로부터 음성 영역을 검출하는 방법에 관하여 다양하게 개시되어 있다. 그 중에서 특허공개 제1999-0039422호는 G.729 음성 부호화기를 위한 음성 활성도 측정 방법에 관한 것이다. 이는 음성 프레임의 에너지를 문턱값과 비교하여 묵음 구간 및 실 음성 구간으로 구분하는 구성을 포함한다.
그런데, 이러한 종래의 방법에 따르면, 단순히 문턱값을 이용하여 음성 영역을 검출하므로 에러가 발생할 수 있으며, 잡음이 섞이면서 특징 벡터들이 크게 변하여 정확한 음성 영역의 검출이 어려운 단점이 있다.
본 발명은 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 음성 영역 검출 방법 및 그 장치를 제공하는데 목적이 있다.
본 발명은, 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서, 음성 데이터를 입력받는 단계와, 상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계, 및 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법을 제공한다.
여기서, 상기 음성 영역 검출 방법의 일 실시예에서는, 복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 단계, 및 상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 단계를 더 포함할 수 있다. 이러한 일 실시예의 경우, 상기 음성 구간 및 묵음 구간을 판별하는 단계는, 상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별할 수 있다.
또한, 상기 음성 영역 검출 방법의 다른 실시예의 경우, 상기 음성 구간 및 묵음 구간을 판별하는 단계는, 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하는 단계와, 상기 합산된 값을 기 설정된 임계치와 비교하는 단계, 및 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별할 수 있다.
그리고, 상기 제1 상호상관 값
Figure 112012005605609-pat00001
과 상기 제2 상호상관 값
Figure 112012005605609-pat00002
은 아래의 수학식들로 연산될 수 있다.
Figure 112012005605609-pat00003
Figure 112012005605609-pat00004
여기서, Si(n)은 상기 현재 프레임의 자기상관 값, Si -1(n)은 상기 이전 프레임의 자기상관 값, Si +1(n)은 상기 이후 프레임의 자기상관 값을 나타낸다.
그리고, 본 발명은, 음성 데이터를 획득하는 데이터 입력부와, 상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 상관 값 연산부, 및 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 구간 판별부를 포함하는 음성 영역 검출 장치를 제공한다.
여기서, 상기 음성 영역 검출 장치의 일 실시예에서는, 복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 훈련 데이터 연산부, 및 상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 DB부를 더 포함할 수 있다. 이러한 일 실시예의 경우, 상기 구간 판별부는, 상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별할 수 있다.
또한, 상기 음성 영역 검출 장치의 다른 실시예의 경우, 상기 구간 판별부는, 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하고, 상기 합산된 값을 기 설정된 임계치와 비교하여, 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별할 수 있다.
본 발명에 따른 음성 영역 검출 방법 및 그 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
도 1은 본 발명의 실시예에 따른 음성 영역 검출 장치의 구성도이다.
도 2는 도 1의 장치를 이용한 음성 영역 검출 방법을 나타내는 흐름도이다.
도 3은 도 2의 일 실시예를 위한 흐름도이다.
도 4는 도 2의 다른 실시예를 위한 흐름도이다.
도 5는 도 4에 대응되는 개념도이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
본 발명은 음성 영역 검출 장치 및 방법에 관한 것으로서 배경 잡음에 강인한 음성 영역 검출 알고리즘을 제공한다.
도 1은 본 발명의 실시예에 따른 음성 영역 검출 장치의 구성도이다. 상기 음성 영역 검출 장치(100)는 데이터 입력부(110), 상관 값 연산부(120), 구간 판별부(130), 훈련 데이터 연산부(140), DB부(150)를 포함한다.
도 2는 도 1의 장치를 이용한 음성 영역 검출 방법을 나타내는 흐름도이다. 이하에서는 본 발명에 따른 음성 영역 검출 방법에 관하여 상세히 설명한다.
먼저, 상기 데이터 입력부(110)에서는 음성 영역 검출 대상에 해당되는 테스트용 음성 데이터를 입력받는다(S210). 이러한 데이터 입력부(110)는 음성 수집모듈(미도시)로부터 미리 획득된 음성 데이터를 전송받아 입력받거나, 직접 음성 데이터를 수집하여 입력받을 수 있다. 상기 음성 데이터는 시간 흐름에 따라 복수의 프레임들로 구분될 수 있다.
이후, 상기 상관 값 연산부(120)에서는 상기 획득된 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값, 그리고 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 각각 연산한다(S220).
여기서, 자기 상관이란 Auto-Correlation을 의미하고, 상호 상관이란 Cross-Correlation을 의미한다. 자기 상관 함수는 음성 신호의 하모닉(Harmonic; 고조파)을 확인할 수 있는 방법에 해당된다.
이러한 S220 단계에 따른 제1 상호상관 값(
Figure 112012005605609-pat00005
)과, 제2 상호상관 값(
Figure 112012005605609-pat00006
)의 연산은 아래의 수학식 1 및 수학식 2를 사용한다.
Figure 112012005605609-pat00007
Figure 112012005605609-pat00008
이러한 수학식 1 및 수학식 2에서, Si(n)는 상기 현재 프레임의 자기상관 값이고, Si -1(n)은 상기 이전 프레임의 자기상관 값이며, Si +1(n)은 상기 이후 프레임의 자기상관 값을 나타낸다. 그리고, n은 시간축의 인덱스 값으로서 1에서 N 사이의 정수 값을 갖는다.
상기 수학식 1,2에 의해 구해지는 제1 상호상관 값과, 제2 상호상관 값은 모두 0과 1 사이의 값(0≤
Figure 112012005605609-pat00009
≤1, 0≤
Figure 112012005605609-pat00010
≤1)을 갖는다. 여기서, 0에 가까울수록 묵음 영역에 해당될 확률이 높고, 1에 가까울수록 음성 영역에 해당될 확률이 높다.
이후, 상기 구간 판별부(130)에서는 상기 수학식 1,2를 통해 연산된 제1 상호상관 값(
Figure 112012005605609-pat00011
)과, 제2 상호상관 값(
Figure 112012005605609-pat00012
)을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별한다(S230).
여기서, 음성 구간 및 묵음 구간의 판단의 목적은 음성 데이터로부터 음성 부분만을 추출하여 다양한 용도의 시스템에 사용하기 위한 것이다. 음성의 추출의 성능이 높을수록 시스템의 오류를 줄이고 시스템의 운용 효율 및 신뢰도를 높일 수 있다.
이하에서는 상기 음성 구간 및 묵음 구간을 판별하기 위한 서로 다른 두 방법의 실시예를 설명한다.
그 일 실시예의 경우는, 별도의 음성 훈련 데이터들로부터 각 구간 별 상호상관 값의 데이터 범위를 학습한 다음, 실제 테스트를 위한 음성 데이터의 프레임별 상호상관 값을 기 학습된 데이터와 대조하여, 음성 데이터 내의 전체 프레임에 대해 해당 프레임이 음성 구간인지 묵음 구간인지 판별하는 방식이다.
다른 실시예의 경우는, 상기와 같은 훈련 데이터가 필요 없이, 단순히 수학식 1,2에 의한 상호상관의 합산된 값을 기 설정된 임계치와 비교하여, 음성 데이터 내의 해당 프레임이 음성 구간인지 묵음 구간인지 판별하는 방법이다.
도 3은 도 2의 일 실시예를 위한 흐름도이다. 먼저, 도 3을 참조로 하여 상기 일 실시예에 대하여 상세히 설명하면 다음과 같다. 이러한 일 실시예의 경우 상기 음성 영역 검출 장치(100)는 상기 훈련 데이터 연산부(140), DB부(150)의 구성을 필요로 한다.
우선, 상기 훈련 데이터 연산부(140)에서는 복수의 음성 훈련 데이터들에 대하여, 상기 제1 상호상관 값과 상기 제2 상호상관 값을 수학식 1,2를 사용하여 연산한다(S310).
여기서, 음성 훈련 데이터란 전체 프레임에 대하여 음성 구간 및 묵음 구간에 대한 정보가 미리 확보된 데이터를 의미한다. 훈련 데이터를 1개만 사용해도 되지만, 오류율을 낮추기 위해서는 여려 개의 훈련 데이터를 통해 상호상관 값을 구하여 결과에 반영하는 것이 유리하다.
여기서, 임의 훈련 데이터의 프레임에 대해 상호상관 값이 계산된 결과 예는 표 1을 참조한다. 표 1은 설명의 편의상 4개의 프레임에 대한 결과만 나타낸 것이다.
제1 상호상관 값 제2 상호상관 값 구간
0.9 0.8 음성
0.1 0.2 묵음
0.7 0.4 묵음
0.7 0.5 음성
이러한 표 1과 같은 데이터들을 모두 취합하면 음성 구간에 해당되는 개별 상호상관 값들, 묵음 구간에 해당되는 개별 상호상관 값들을 획득할 수 있다. 이러한 모델의 학습에는 통계적 방식이 사용될 수 있는데, 예를 들면 GMM(Gaussian mixture model; 가우시안 혼합 모델) 방식이 적용될 수 있다. 물론, 본 발명이 반드시 이에 한정되는 것은 아니다.
이후, 상기 DB부(150)에서는 상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들, 그리고 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 저장한다(S320).
즉, 사전에 학습을 위해 사용되는 상기 음성 훈련 데이터들은 전체 프레임에 대해 이미 음성 구간과 묵음 구간을 알고 있는 데이터에 해당된다. 이러한 점을 이용하여, 음성 구간에 해당되는 제1 상호상관 값의 범위와 제2 상호상관 값의 범위, 그리고 묵음 구간에 해당되는 제1 상호상관 값의 범위와 제2 상호상관 값의 범위를 미리 획득하여 저장할 수 있다. 이렇게 저장된 정보는 앞서 S230 단계 시에 참고 데이터로 활용된다.
이에 따라, 본 발명의 일 실시예에서 상기 음성 구간 및 묵음 구간을 판별할 때(S230)에는, S220 단계 시에 테스트용 음성 데이터에 대해 획득된 값을, S320 단계 시에 훈련 데이터에 대해 저장된 값들과 비교함으로써, 음성 구간 및 묵음 구간을 검출한다.
다시 말해서, 일 실시예에서 상기 구간 판별부(130)는 테스트용 음성 데이터 내의 프레임에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을, 상기 DB부(150) 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교함으로써, 테스트용 음성 데이터 내의 프레임들에 대하여 음성 구간 및 묵음 구간을 판별 및 구분할 수 있게 된다.
이와는 달리, 상기 다른 실시의 경우, 상기 음성 영역 검출 장치(100)는 상기 훈련 데이터 연산부(140), DB부(150)의 구성이 전혀 필요 없이 음성 구간 및 묵음 구간을 판별할 수 있다.
도 4는 도 2의 다른 실시예를 위한 흐름도이다. 도 5는 도 4에 대응되는 개념도이다. 도 4 및 도 5를 참조로 하여 상기 일 실시예에 대하여 상세히 설명하면 다음과 같다.
먼저, 상기 구간 판별부(130)는 앞서 S220 단계에서 구하여진 제1 상호상관 값 (
Figure 112012005605609-pat00013
)과 상기 제2 상호상관 값 (
Figure 112012005605609-pat00014
)을 수학식 3과 같이 서로 합산한다(S410).
Figure 112012005605609-pat00015
이렇게 합산된 값은 0과 2 사이의 값(0≤
Figure 112012005605609-pat00016
≤2)을 갖는다. 이후, 상기 합산된 값(
Figure 112012005605609-pat00017
)을 0과 1 사이의 값으로 정규화한다(S420). 이러한 정규화 과정은 이후 임계치와의 비교 시에 계산의 용이성 및 정확도를 위한 과정이다.
다음, 상기 정규화된 값을 기 설정된 임계치(Threshold)와 비교한다(S430). 물론, 상기 임계치는 0과 1 사이의 임의의 값을 갖는다.
만약, 상기 정규화된 값이 임계치 이상이면 해당 프레임을 상기 음성 구간으로 판별한다(S440). 또한, 상기 정규화된 값이 임계치 미만이면 상기 묵음 구간으로 판별한다(S450).
이러한 다른 실시예의 경우, 훈련 데이터를 학습시키는 과정이 전혀 불필요하므로 연산 과정이 간소화되고 연산 속도가 빨라지는 이점이 있다.
이상과 같은 본 발명의 실시예에 따른 음성 영역 검출 방법 및 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 음성 영역 검출 장치 110: 데이터 입력부
120: 상관 값 연산부 130: 구간 판별부
140: 훈련 데이터 연산부 150: DB부

Claims (10)

  1. 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서,
    음성 데이터를 입력받는 단계;
    상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계; 및
    상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법.
  2. 청구항 1에 있어서,
    복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 단계; 및
    상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 단계를 더 포함하는 음성 영역 검출 방법.
  3. 청구항 2에 있어서,
    상기 음성 구간 및 묵음 구간을 판별하는 단계는,
    상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 음성 영역 검출 방법.
  4. 청구항 1에 있어서,
    상기 음성 구간 및 묵음 구간을 판별하는 단계는,
    상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하는 단계;
    상기 합산된 값을 기 설정된 임계치와 비교하는 단계; 및
    상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별하는 음성 영역 검출 방법.
  5. 청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
    상기 제1 상호상관 값
    Figure 112012005605609-pat00018
    과 상기 제2 상호상관 값
    Figure 112012005605609-pat00019
    은 아래의 수학식들로 연산되는 음성 영역 검출 방법:
    Figure 112012005605609-pat00020

    Figure 112012005605609-pat00021

    여기서, Si(n)은 상기 현재 프레임의 자기상관 값, Si -1(n)은 상기 이전 프레임의 자기상관 값, Si +1(n)은 상기 이후 프레임의 자기상관 값을 나타낸다.
  6. 음성 데이터를 입력받는 데이터 입력부;
    상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 상관 값 연산부; 및
    상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 구간 판별부를 포함하는 음성 영역 검출 장치.
  7. 청구항 6에 있어서,
    복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 훈련 데이터 연산부; 및
    상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 DB부를 더 포함하는 음성 영역 검출 장치.
  8. 청구항 7에 있어서,
    상기 구간 판별부는,
    상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 음성 영역 검출 장치.
  9. 청구항 6에 있어서,
    상기 구간 판별부는,
    상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하고, 상기 합산된 값을 기 설정된 임계치와 비교하여, 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별하는 음성 영역 검출 장치.
  10. 청구항 6 내지 청구항 9 중 어느 한 항에 있어서,
    상기 제1 상호상관 값
    Figure 112012005605609-pat00022
    과 상기 제2 상호상관 값
    Figure 112012005605609-pat00023
    은 아래의 수학식들로 연산되는 음성 영역 검출 장치:
    Figure 112012005605609-pat00024

    Figure 112012005605609-pat00025

    여기서, Si(n)은 상기 현재 프레임의 자기상관 값, Si -1(n)은 상기 이전 프레임의 자기상관 값, Si +1(n)은 상기 이후 프레임의 자기상관 값을 나타낸다.
KR1020120006750A 2012-01-20 2012-01-20 음성 영역 검출 방법 및 그 장치 KR101327664B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120006750A KR101327664B1 (ko) 2012-01-20 2012-01-20 음성 영역 검출 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120006750A KR101327664B1 (ko) 2012-01-20 2012-01-20 음성 영역 검출 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20130085731A KR20130085731A (ko) 2013-07-30
KR101327664B1 true KR101327664B1 (ko) 2013-11-13

Family

ID=48995839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120006750A KR101327664B1 (ko) 2012-01-20 2012-01-20 음성 영역 검출 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101327664B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101808810B1 (ko) 2013-11-27 2017-12-14 한국전자통신연구원 음성/무음성 구간 검출 방법 및 장치
US20230037541A1 (en) * 2021-07-29 2023-02-09 Xinapse Co., Ltd. Method and system for synthesizing speeches by scoring speeches

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832526A (ja) * 1994-07-18 1996-02-02 Kokusai Electric Co Ltd 音声検出器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832526A (ja) * 1994-07-18 1996-02-02 Kokusai Electric Co Ltd 音声検出器

Also Published As

Publication number Publication date
KR20130085731A (ko) 2013-07-30

Similar Documents

Publication Publication Date Title
US11610394B2 (en) Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium
US10957339B2 (en) Speaker recognition method and apparatus, computer device and computer-readable medium
US12035106B2 (en) Machine learning model capability assessment
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
US9934793B2 (en) Method for determining alcohol consumption, and recording medium and terminal for carrying out same
CN110738138A (zh) 基于循环神经网络的水声通信信号调制模式识别方法
KR101666521B1 (ko) 입력 신호의 피치 주기 검출 방법 및 그 장치
CN107133135B (zh) 一种基于统计学与声音定位的键盘按键检测方法
CN105913849A (zh) 一种基于事件检测的说话人分割方法
CN104810025A (zh) 音频相似度检测方法及装置
CN113053365B (zh) 语音分离方法、装置、设备和存储介质
RU2011147567A (ru) Способ и устройство для обработки сигнала и машиночитаемый носитель информации
CN106205637B (zh) 音频信号的噪声检测方法与装置
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
JP2014105075A (ja) 故障個所推定装置
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN111868823A (zh) 一种声源分离方法、装置及设备
KR101327664B1 (ko) 음성 영역 검출 방법 및 그 장치
WO2020061346A1 (en) Methods and apparatuses for tracking weak signal traces
CN104732984B (zh) 一种快速检测单频提示音的方法及系统
JP2018013742A (ja) 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム
CN115588439B (zh) 一种基于深度学习的声纹采集装置的故障检测方法及装置
US20210199533A1 (en) Positioning method for specific sound source
CN112750458B (zh) 一种触屏声音检测方法和装置
CN112131541A (zh) 一种基于振动信号的身份验证方法和系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161101

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171027

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee