KR101327664B1 - 음성 영역 검출 방법 및 그 장치 - Google Patents
음성 영역 검출 방법 및 그 장치 Download PDFInfo
- Publication number
- KR101327664B1 KR101327664B1 KR1020120006750A KR20120006750A KR101327664B1 KR 101327664 B1 KR101327664 B1 KR 101327664B1 KR 1020120006750 A KR1020120006750 A KR 1020120006750A KR 20120006750 A KR20120006750 A KR 20120006750A KR 101327664 B1 KR101327664 B1 KR 101327664B1
- Authority
- KR
- South Korea
- Prior art keywords
- cross
- value
- voice
- correlation
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
상기 음성 영역 검출 방법 및 그 장치에 따르면, 음성 데이터에 대한 인접 프레임 간의 상관 관계를 이용함으로써 잡음 섞인 환경에서 음성 영역과 묵음 영역을 정확히 검출할 수 있는 이점이 있다.
Description
도 2는 도 1의 장치를 이용한 음성 영역 검출 방법을 나타내는 흐름도이다.
도 3은 도 2의 일 실시예를 위한 흐름도이다.
도 4는 도 2의 다른 실시예를 위한 흐름도이다.
도 5는 도 4에 대응되는 개념도이다.
제1 상호상관 값 | 제2 상호상관 값 | 구간 |
0.9 | 0.8 | 음성 |
0.1 | 0.2 | 묵음 |
0.7 | 0.4 | 묵음 |
0.7 | 0.5 | 음성 |
120: 상관 값 연산부 130: 구간 판별부
140: 훈련 데이터 연산부 150: DB부
Claims (10)
- 음성 영역 검출 장치를 이용한 음성 영역 검출 방법에 있어서,
음성 데이터를 입력받는 단계;
상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 단계; 및
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 단계를 포함하는 음성 영역 검출 방법. - 청구항 1에 있어서,
복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 단계; 및
상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 단계를 더 포함하는 음성 영역 검출 방법. - 청구항 2에 있어서,
상기 음성 구간 및 묵음 구간을 판별하는 단계는,
상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 음성 영역 검출 방법. - 청구항 1에 있어서,
상기 음성 구간 및 묵음 구간을 판별하는 단계는,
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하는 단계;
상기 합산된 값을 기 설정된 임계치와 비교하는 단계; 및
상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별하는 음성 영역 검출 방법. - 음성 데이터를 입력받는 데이터 입력부;
상기 음성 데이터를 구성하는 복수의 프레임들에 대해, 현재 프레임의 자기상관 값과 이전 프레임의 자기상관 값 사이의 제1 상호상관 값과, 상기 현재 프레임의 자기상관 값과 이후 프레임의 자기상관 값 사이의 제2 상호상관 값을 연산하는 상관 값 연산부; 및
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 이용하여 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 구간 판별부를 포함하는 음성 영역 검출 장치. - 청구항 6에 있어서,
복수의 음성 훈련 데이터들에 대하여 상기 제1 상호상관 값과 상기 제2 상호상관 값을 연산하는 훈련 데이터 연산부; 및
상기 음성 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과, 상기 묵음 구간에 해당하는 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들을 DB부에 저장하는 DB부를 더 포함하는 음성 영역 검출 장치. - 청구항 7에 있어서,
상기 구간 판별부는,
상기 음성 데이터에 대해 연산된 상기 제1 상호상관 값 및 상기 제2 상호상관 값을 상기 DB부 내에 저장된 훈련 데이터들의 제1 상호상관 값들 및 제2 상호상관 값들과 비교하여, 상기 음성 데이터 내의 음성 구간 및 묵음 구간을 판별하는 음성 영역 검출 장치. - 청구항 6에 있어서,
상기 구간 판별부는,
상기 제1 상호상관 값 및 상기 제2 상호상관 값을 서로 합산하고, 상기 합산된 값을 기 설정된 임계치와 비교하여, 상기 합산된 값이 상기 임계치 미만이면 상기 묵음 구간으로 판별하고, 상기 임계치 이상이면 상기 음성 구간으로 판별하는 음성 영역 검출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120006750A KR101327664B1 (ko) | 2012-01-20 | 2012-01-20 | 음성 영역 검출 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120006750A KR101327664B1 (ko) | 2012-01-20 | 2012-01-20 | 음성 영역 검출 방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130085731A KR20130085731A (ko) | 2013-07-30 |
KR101327664B1 true KR101327664B1 (ko) | 2013-11-13 |
Family
ID=48995839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120006750A Expired - Fee Related KR101327664B1 (ko) | 2012-01-20 | 2012-01-20 | 음성 영역 검출 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101327664B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101808810B1 (ko) | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
US20230037541A1 (en) * | 2021-07-29 | 2023-02-09 | Xinapse Co., Ltd. | Method and system for synthesizing speeches by scoring speeches |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0832526A (ja) * | 1994-07-18 | 1996-02-02 | Kokusai Electric Co Ltd | 音声検出器 |
-
2012
- 2012-01-20 KR KR1020120006750A patent/KR101327664B1/ko not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0832526A (ja) * | 1994-07-18 | 1996-02-02 | Kokusai Electric Co Ltd | 音声検出器 |
Also Published As
Publication number | Publication date |
---|---|
KR20130085731A (ko) | 2013-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12035106B2 (en) | Machine learning model capability assessment | |
US11610394B2 (en) | Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
CN102568475B (zh) | 用于普通话水平测评的系统和方法 | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
US9934793B2 (en) | Method for determining alcohol consumption, and recording medium and terminal for carrying out same | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN113053365B (zh) | 语音分离方法、装置、设备和存储介质 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
US20210027769A1 (en) | Voice alignment method and apparatus | |
US20170061970A1 (en) | Speaker Dependent Voiced Sound Pattern Detection Thresholds | |
KR101666521B1 (ko) | 입력 신호의 피치 주기 검출 방법 및 그 장치 | |
CN106205637B (zh) | 音频信号的噪声检测方法与装置 | |
CN105913849A (zh) | 一种基于事件检测的说话人分割方法 | |
CN104810025A (zh) | 音频相似度检测方法及装置 | |
RU2011147567A (ru) | Способ и устройство для обработки сигнала и машиночитаемый носитель информации | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN106098079A (zh) | 音频信号的信号提取方法与装置 | |
US20220051075A1 (en) | Methods and apparatuses for tracking weak signal traces | |
CN115588439B (zh) | 一种基于深度学习的声纹采集装置的故障检测方法及装置 | |
KR101327664B1 (ko) | 음성 영역 검출 방법 및 그 장치 | |
CN104732984B (zh) | 一种快速检测单频提示音的方法及系统 | |
JP2018013742A (ja) | 音声要約作成支援装置、音声要約作成支援方法、及び音声要約作成支援プログラム | |
US20210199533A1 (en) | Positioning method for specific sound source | |
CN107871113B (zh) | 一种情感混合识别检测的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20120120 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20130417 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20131029 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20131104 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20131104 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20161101 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20161101 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20171027 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20171027 Start annual number: 5 End annual number: 5 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20190815 |