KR101327664B1 - 음성 영역 검출 방법 및 그 장치 - Google Patents
음성 영역 검출 방법 및 그 장치 Download PDFInfo
- Publication number
- KR101327664B1 KR101327664B1 KR1020120006750A KR20120006750A KR101327664B1 KR 101327664 B1 KR101327664 B1 KR 101327664B1 KR 1020120006750 A KR1020120006750 A KR 1020120006750A KR 20120006750 A KR20120006750 A KR 20120006750A KR 101327664 B1 KR101327664 B1 KR 101327664B1
- Authority
- KR
- South Korea
- Prior art keywords
- cross
- value
- voice
- correlation
- section
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
본 발명은 음성 영역 검출 방법 및 그 장치에 관한 것이다. 본 발명에 따르면, 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서, 음성 데이터를 입력받는 단계와, 상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계, 및 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법을 제공한다.
상기 음성 영역 검출 방법 및 그 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
상기 음성 영역 검출 방법 및 그 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
Description
본 발명은 음성 영역 검출 방법 및 그 장치에 관한 것으로서, 보다 상세하게는 인접 프레임 간의 상관 관계를 이용하여 음성 영역과 묵음 영역을 판별할 수 있는 음성 영역 검출 방법 및 그 장치에 관한 것이다.
기존에 음성 데이터로부터 음성 영역을 검출하는 방법에 관하여 다양하게 개시되어 있다. 그 중에서 특허공개 제1999-0039422호는 G.729 음성 부호화기를 위한 음성 활성도 측정 방법에 관한 것이다. 이는 음성 프레임의 에너지를 문턱값과 비교하여 묵음 구간 및 실 음성 구간으로 구분하는 구성을 포함한다.
그런데, 이러한 종래의 방법에 따르면, 단순히 문턱값을 이용하여 음성 영역을 검출하므로 에러가 발생할 수 있으며, 잡음이 섞이면서 특징 벡터들이 크게 변하여 정확한 음성 영역의 검출이 어려운 단점이 있다.
본 발명은 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 음성 영역 검출 방법 및 그 장치를 제공하는데 목적이 있다.
본 발명은, 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서, 음성 데이터를 입력받는 단계와, 상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계, 및 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법을 제공한다.
여기서, 상기 음성 영역 검출 방법의 일 실시예에서는, 복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 단계, 및 상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 단계를 더 포함할 수 있다. 이러한 일 실시예의 경우, 상기 음성 구간 및 묵음 구간을 판별하는 단계는, 상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별할 수 있다.
또한, 상기 음성 영역 검출 방법의 다른 실시예의 경우, 상기 음성 구간 및 묵음 구간을 판별하는 단계는, 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하는 단계와, 상기 합산된 값을 기 설정된 임계치와 비교하는 단계, 및 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별할 수 있다.
여기서, Si(n)은 상기 현재 프레임의 자기상관 값, Si -1(n)은 상기 이전 프레임의 자기상관 값, Si +1(n)은 상기 이후 프레임의 자기상관 값을 나타낸다.
그리고, 본 발명은, 음성 데이터를 획득하는 데이터 입력부와, 상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 상관 값 연산부, 및 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 구간 판별부를 포함하는 음성 영역 검출 장치를 제공한다.
여기서, 상기 음성 영역 검출 장치의 일 실시예에서는, 복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 훈련 데이터 연산부, 및 상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 DB부를 더 포함할 수 있다. 이러한 일 실시예의 경우, 상기 구간 판별부는, 상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별할 수 있다.
또한, 상기 음성 영역 검출 장치의 다른 실시예의 경우, 상기 구간 판별부는, 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하고, 상기 합산된 값을 기 설정된 임계치와 비교하여, 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별할 수 있다.
본 발명에 따른 음성 영역 검출 방법 및 그 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
도 1은 본 발명의 실시예에 따른 음성 영역 검출 장치의 구성도이다.
도 2는 도 1의 장치를 이용한 음성 영역 검출 방법을 나타내는 흐름도이다.
도 3은 도 2의 일 실시예를 위한 흐름도이다.
도 4는 도 2의 다른 실시예를 위한 흐름도이다.
도 5는 도 4에 대응되는 개념도이다.
도 2는 도 1의 장치를 이용한 음성 영역 검출 방법을 나타내는 흐름도이다.
도 3은 도 2의 일 실시예를 위한 흐름도이다.
도 4는 도 2의 다른 실시예를 위한 흐름도이다.
도 5는 도 4에 대응되는 개념도이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
본 발명은 음성 영역 검출 장치 및 방법에 관한 것으로서 배경 잡음에 강인한 음성 영역 검출 알고리즘을 제공한다.
도 1은 본 발명의 실시예에 따른 음성 영역 검출 장치의 구성도이다. 상기 음성 영역 검출 장치(100)는 데이터 입력부(110), 상관 값 연산부(120), 구간 판별부(130), 훈련 데이터 연산부(140), DB부(150)를 포함한다.
도 2는 도 1의 장치를 이용한 음성 영역 검출 방법을 나타내는 흐름도이다. 이하에서는 본 발명에 따른 음성 영역 검출 방법에 관하여 상세히 설명한다.
먼저, 상기 데이터 입력부(110)에서는 음성 영역 검출 대상에 해당되는 테스트용 음성 데이터를 입력받는다(S210). 이러한 데이터 입력부(110)는 음성 수집모듈(미도시)로부터 미리 획득된 음성 데이터를 전송받아 입력받거나, 직접 음성 데이터를 수집하여 입력받을 수 있다. 상기 음성 데이터는 시간 흐름에 따라 복수의 프레임들로 구분될 수 있다.
이후, 상기 상관 값 연산부(120)에서는 상기 획득된 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값, 그리고 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 각각 연산한다(S220).
여기서, 자기 상관이란 Auto-Correlation을 의미하고, 상호 상관이란 Cross-Correlation을 의미한다. 자기 상관 함수는 음성 신호의 하모닉(Harmonic; 고조파)을 확인할 수 있는 방법에 해당된다.
이러한 수학식 1 및 수학식 2에서, Si(n)는 상기 현재 프레임의 자기상관 값이고, Si -1(n)은 상기 이전 프레임의 자기상관 값이며, Si +1(n)은 상기 이후 프레임의 자기상관 값을 나타낸다. 그리고, n은 시간축의 인덱스 값으로서 1에서 N 사이의 정수 값을 갖는다.
상기 수학식 1,2에 의해 구해지는 제1 상호상관 값과, 제2 상호상관 값은 모두 0과 1 사이의 값(0≤≤1, 0≤≤1)을 갖는다. 여기서, 0에 가까울수록 묵음 영역에 해당될 확률이 높고, 1에 가까울수록 음성 영역에 해당될 확률이 높다.
이후, 상기 구간 판별부(130)에서는 상기 수학식 1,2를 통해 연산된 제1 상호상관 값()과, 제2 상호상관 값()을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별한다(S230).
여기서, 음성 구간 및 묵음 구간의 판단의 목적은 음성 데이터로부터 음성 부분만을 추출하여 다양한 용도의 시스템에 사용하기 위한 것이다. 음성의 추출의 성능이 높을수록 시스템의 오류를 줄이고 시스템의 운용 효율 및 신뢰도를 높일 수 있다.
이하에서는 상기 음성 구간 및 묵음 구간을 판별하기 위한 서로 다른 두 방법의 실시예를 설명한다.
그 일 실시예의 경우는, 별도의 음성 훈련 데이터들로부터 각 구간 별 상호상관 값의 데이터 범위를 학습한 다음, 실제 테스트를 위한 음성 데이터의 프레임별 상호상관 값을 기 학습된 데이터와 대조하여, 음성 데이터 내의 전체 프레임에 대해 해당 프레임이 음성 구간인지 묵음 구간인지 판별하는 방식이다.
다른 실시예의 경우는, 상기와 같은 훈련 데이터가 필요 없이, 단순히 수학식 1,2에 의한 상호상관의 합산된 값을 기 설정된 임계치와 비교하여, 음성 데이터 내의 해당 프레임이 음성 구간인지 묵음 구간인지 판별하는 방법이다.
도 3은 도 2의 일 실시예를 위한 흐름도이다. 먼저, 도 3을 참조로 하여 상기 일 실시예에 대하여 상세히 설명하면 다음과 같다. 이러한 일 실시예의 경우 상기 음성 영역 검출 장치(100)는 상기 훈련 데이터 연산부(140), DB부(150)의 구성을 필요로 한다.
우선, 상기 훈련 데이터 연산부(140)에서는 복수의 음성 훈련 데이터들에 대하여, 상기 제1 상호상관 값과 상기 제2 상호상관 값을 수학식 1,2를 사용하여 연산한다(S310).
여기서, 음성 훈련 데이터란 전체 프레임에 대하여 음성 구간 및 묵음 구간에 대한 정보가 미리 확보된 데이터를 의미한다. 훈련 데이터를 1개만 사용해도 되지만, 오류율을 낮추기 위해서는 여려 개의 훈련 데이터를 통해 상호상관 값을 구하여 결과에 반영하는 것이 유리하다.
여기서, 임의 훈련 데이터의 프레임에 대해 상호상관 값이 계산된 결과 예는 표 1을 참조한다. 표 1은 설명의 편의상 4개의 프레임에 대한 결과만 나타낸 것이다.
제1 상호상관 값 | 제2 상호상관 값 | 구간 |
0.9 | 0.8 | 음성 |
0.1 | 0.2 | 묵음 |
0.7 | 0.4 | 묵음 |
0.7 | 0.5 | 음성 |
이러한 표 1과 같은 데이터들을 모두 취합하면 음성 구간에 해당되는 개별 상호상관 값들, 묵음 구간에 해당되는 개별 상호상관 값들을 획득할 수 있다. 이러한 모델의 학습에는 통계적 방식이 사용될 수 있는데, 예를 들면 GMM(Gaussian mixture model; 가우시안 혼합 모델) 방식이 적용될 수 있다. 물론, 본 발명이 반드시 이에 한정되는 것은 아니다.
이후, 상기 DB부(150)에서는 상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들, 그리고 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 저장한다(S320).
즉, 사전에 학습을 위해 사용되는 상기 음성 훈련 데이터들은 전체 프레임에 대해 이미 음성 구간과 묵음 구간을 알고 있는 데이터에 해당된다. 이러한 점을 이용하여, 음성 구간에 해당되는 제1 상호상관 값의 범위와 제2 상호상관 값의 범위, 그리고 묵음 구간에 해당되는 제1 상호상관 값의 범위와 제2 상호상관 값의 범위를 미리 획득하여 저장할 수 있다. 이렇게 저장된 정보는 앞서 S230 단계 시에 참고 데이터로 활용된다.
이에 따라, 본 발명의 일 실시예에서 상기 음성 구간 및 묵음 구간을 판별할 때(S230)에는, S220 단계 시에 테스트용 음성 데이터에 대해 획득된 값을, S320 단계 시에 훈련 데이터에 대해 저장된 값들과 비교함으로써, 음성 구간 및 묵음 구간을 검출한다.
다시 말해서, 일 실시예에서 상기 구간 판별부(130)는 테스트용 음성 데이터 내의 프레임에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을, 상기 DB부(150) 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교함으로써, 테스트용 음성 데이터 내의 프레임들에 대하여 음성 구간 및 묵음 구간을 판별 및 구분할 수 있게 된다.
이와는 달리, 상기 다른 실시의 경우, 상기 음성 영역 검출 장치(100)는 상기 훈련 데이터 연산부(140), DB부(150)의 구성이 전혀 필요 없이 음성 구간 및 묵음 구간을 판별할 수 있다.
도 4는 도 2의 다른 실시예를 위한 흐름도이다. 도 5는 도 4에 대응되는 개념도이다. 도 4 및 도 5를 참조로 하여 상기 일 실시예에 대하여 상세히 설명하면 다음과 같다.
이렇게 합산된 값은 0과 2 사이의 값(0≤≤2)을 갖는다. 이후, 상기 합산된 값()을 0과 1 사이의 값으로 정규화한다(S420). 이러한 정규화 과정은 이후 임계치와의 비교 시에 계산의 용이성 및 정확도를 위한 과정이다.
다음, 상기 정규화된 값을 기 설정된 임계치(Threshold)와 비교한다(S430). 물론, 상기 임계치는 0과 1 사이의 임의의 값을 갖는다.
만약, 상기 정규화된 값이 임계치 이상이면 해당 프레임을 상기 음성 구간으로 판별한다(S440). 또한, 상기 정규화된 값이 임계치 미만이면 상기 묵음 구간으로 판별한다(S450).
이러한 다른 실시예의 경우, 훈련 데이터를 학습시키는 과정이 전혀 불필요하므로 연산 과정이 간소화되고 연산 속도가 빨라지는 이점이 있다.
이상과 같은 본 발명의 실시예에 따른 음성 영역 검출 방법 및 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 음성 영역 검출 장치 110: 데이터 입력부
120: 상관 값 연산부 130: 구간 판별부
140: 훈련 데이터 연산부 150: DB부
120: 상관 값 연산부 130: 구간 판별부
140: 훈련 데이터 연산부 150: DB부
Claims (10)
- 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서,
음성 데이터를 입력받는 단계;
상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계; 및
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법. - 청구항 1에 있어서,
복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 단계; 및
상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 단계를 더 포함하는 음성 영역 검출 방법. - 청구항 2에 있어서,
상기 음성 구간 및 묵음 구간을 판별하는 단계는,
상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 음성 영역 검출 방법. - 청구항 1에 있어서,
상기 음성 구간 및 묵음 구간을 판별하는 단계는,
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하는 단계;
상기 합산된 값을 기 설정된 임계치와 비교하는 단계; 및
상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별하는 음성 영역 검출 방법. - 음성 데이터를 입력받는 데이터 입력부;
상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 상관 값 연산부; 및
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 구간 판별부를 포함하는 음성 영역 검출 장치. - 청구항 6에 있어서,
복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 훈련 데이터 연산부; 및
상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 DB부를 더 포함하는 음성 영역 검출 장치. - 청구항 7에 있어서,
상기 구간 판별부는,
상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 음성 영역 검출 장치. - 청구항 6에 있어서,
상기 구간 판별부는,
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하고, 상기 합산된 값을 기 설정된 임계치와 비교하여, 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별하는 음성 영역 검출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120006750A KR101327664B1 (ko) | 2012-01-20 | 2012-01-20 | 음성 영역 검출 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120006750A KR101327664B1 (ko) | 2012-01-20 | 2012-01-20 | 음성 영역 검출 방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130085731A KR20130085731A (ko) | 2013-07-30 |
KR101327664B1 true KR101327664B1 (ko) | 2013-11-13 |
Family
ID=48995839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120006750A KR101327664B1 (ko) | 2012-01-20 | 2012-01-20 | 음성 영역 검출 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101327664B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101808810B1 (ko) | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
US20230037541A1 (en) * | 2021-07-29 | 2023-02-09 | Xinapse Co., Ltd. | Method and system for synthesizing speeches by scoring speeches |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0832526A (ja) * | 1994-07-18 | 1996-02-02 | Kokusai Electric Co Ltd | 音声検出器 |
-
2012
- 2012-01-20 KR KR1020120006750A patent/KR101327664B1/ko not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0832526A (ja) * | 1994-07-18 | 1996-02-02 | Kokusai Electric Co Ltd | 音声検出器 |
Also Published As
Publication number | Publication date |
---|---|
KR20130085731A (ko) | 2013-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11610394B2 (en) | Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium | |
US10957339B2 (en) | Speaker recognition method and apparatus, computer device and computer-readable medium | |
US12035106B2 (en) | Machine learning model capability assessment | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
US9934793B2 (en) | Method for determining alcohol consumption, and recording medium and terminal for carrying out same | |
CN110738138A (zh) | 基于循环神经网络的水声通信信号调制模式识别方法 | |
KR101666521B1 (ko) | 입력 신호의 피치 주기 검출 방법 및 그 장치 | |
CN107133135B (zh) | 一种基于统计学与声音定位的键盘按键检测方法 | |
CN105913849A (zh) | 一种基于事件检测的说话人分割方法 | |
CN104810025A (zh) | 音频相似度检测方法及装置 | |
CN113053365B (zh) | 语音分离方法、装置、设备和存储介质 | |
RU2011147567A (ru) | Способ и устройство для обработки сигнала и машиночитаемый носитель информации | |
CN106205637B (zh) | 音频信号的噪声检测方法与装置 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
JP2014105075A (ja) | 故障個所推定装置 | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
KR101327664B1 (ko) | 음성 영역 검출 방법 및 그 장치 | |
WO2020061346A1 (en) | Methods and apparatuses for tracking weak signal traces | |
CN104732984B (zh) | 一种快速检测单频提示音的方法及系统 | |
JP2018013742A (ja) | 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム | |
CN115588439B (zh) | 一种基于深度学习的声纹采集装置的故障检测方法及装置 | |
US20210199533A1 (en) | Positioning method for specific sound source | |
CN112750458B (zh) | 一种触屏声音检测方法和装置 | |
CN112131541A (zh) | 一种基于振动信号的身份验证方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20161101 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20171027 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |