KR20070069631A - 음성 신호에서 음소를 분절하는 방법 및 그 시스템 - Google Patents
음성 신호에서 음소를 분절하는 방법 및 그 시스템 Download PDFInfo
- Publication number
- KR20070069631A KR20070069631A KR1020050131964A KR20050131964A KR20070069631A KR 20070069631 A KR20070069631 A KR 20070069631A KR 1020050131964 A KR1020050131964 A KR 1020050131964A KR 20050131964 A KR20050131964 A KR 20050131964A KR 20070069631 A KR20070069631 A KR 20070069631A
- Authority
- KR
- South Korea
- Prior art keywords
- peak
- order
- information
- determining
- extracted
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
Description
Claims (18)
- 음성 신호에서 음소를 분절하는 방법에 있어서,입력되는 음성 신호로부터 피크 정보를 추출하는 과정과,상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 과정과,상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정과,상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 과정을 포함함을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 과정은,상기 추출된 피크 정보를 근거로 상기 피크 통계치를 산출하는데 필요한 프레임의 길이를 결정하는 과정과,상기 결정된 프레임에 대해 상기 추출된 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 과정과,상기 히스토그램을 이용하여 상기 피크 통계치를 산출하는 과정을 포함함을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 과정은,상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 과정과,상기 피크 차수가 결정되면 상기 피크 통계치를 산출하는데 필요한 프레임의 길이를 결정하는 과정과,상기 결정된 프레임에 대해 상기 추출된 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 과정과,상기 히스토그램을 이용하여 상기 피크 통계치를 산출하는 과정을 포함함을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정은,상기 산출된 피크 통계치와 상기 피크 통계치 중에서 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 임계값을 비교하는 과정과,상기 임계값 이상인 피크 통계치 중에서 최대치를 결정하는 과정을 포함함을 특징으로 하는 방법.
- 제 2항에 있어서, 상기 추출된 피크 정보는,피크 차수가 1차 피크로 정의된 상태에서 추출된 것임을 특징으로 하는 방법.
- 제 3항에 있어서, 상기 피크 차수는2차 피크 또는 3차 피크 중 어느 하나인 것을 특징으로 하는 방법.
- 제 3항에 있어서, 상기 프레임의 길이는디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 방법.
- 제 3항에 있어서, 상기 피크 차수를 결정하는 과정은,시간 도메인 상의 음성 신호로부터 피크 정보를 추출하는 과정과,상기 추출된 피크 정보에 대한 피크 차수를 정의하는 과정과,상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하는 과정과,상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정하는 과정을 포함함을 특징으로 하는 방법.
- 제 8항에 있어서,상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행하는 과정을 더 포함함을 특징으로 하는 방법.
- 음성 신호에서 음소를 분절하는 시스템은,입력되는 음성 신호로부터 피크 정보를 추출하는 피크 정보 추출부와,상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 피크 통계치 산출부와,상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하고, 음소를 분절할 수 있도록 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하는 경계 결정부를 포함함을 특징으로 하는 시스템.
- 제 10항에 있어서,상기 추출된 피크 정보를 근거로 상기 피크 통계치를 산출하는데 필요한 프 레임의 길이를 결정하는 프레임 길이 결정부와,상기 결정된 프레임에 대해 상기 추출된 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 히스토그램 생성부를 더 포함함을 특징으로 하는 시스템.
- 제 11항에 있어서, 상기 피크 통계치 산출부는상기 히스토그램을 이용하여 상기 피크 통계치를 산출함을 특징으로 하는 시스템.
- 제 10항에 있어서, 상기 경계 결정부는상기 최대치 결정 시 상기 피크 통계치 산출부에서 산출된 피크 통계치와 상기 상기 피크 통계치 중에서 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 임계값을 비교하고, 상기 임계값 이상인 피크 통계치 중에서 최대치를 결정함을 특징으로 하는 시스템.
- 제 11항에 있어서, 상기 프레임의 길이는디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 시스템.
- 제 11항에 있어서,상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 피크 차수 결정부를 더 포함함을 특징으로 하는 시스템.
- 제 14항에 있어서, 상기 피크 차수는2차 피크 또는 3차 피크 중 어느 하나인 것을 특징으로 하는 시스템.
- 제 15항에 있어서, 상기 피크 차수 결정부는상기 피크 정보 추출부에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의하고, 상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정함을 특징으로 하는 시스템.
- 제 17항에 있어서, 상기 피크 차수 결정부는상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행함을 특징으로 하는 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050131964A KR100744288B1 (ko) | 2005-12-28 | 2005-12-28 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
US11/646,911 US8849662B2 (en) | 2005-12-28 | 2006-12-28 | Method and system for segmenting phonemes from voice signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050131964A KR100744288B1 (ko) | 2005-12-28 | 2005-12-28 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070069631A true KR20070069631A (ko) | 2007-07-03 |
KR100744288B1 KR100744288B1 (ko) | 2007-07-30 |
Family
ID=38195033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050131964A KR100744288B1 (ko) | 2005-12-28 | 2005-12-28 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8849662B2 (ko) |
KR (1) | KR100744288B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101005858B1 (ko) * | 2009-02-13 | 2011-01-05 | 한국과학기술원 | 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법 |
KR101022519B1 (ko) * | 2009-04-17 | 2011-03-16 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
KR101022516B1 (ko) * | 2009-04-10 | 2011-03-16 | 고려대학교 산학협력단 | 스펙트럼 피크를 이용한 음향 인식 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
WO2009055715A1 (en) * | 2007-10-24 | 2009-04-30 | Red Shift Company, Llc | Producing time uniform feature vectors of speech |
US8326610B2 (en) * | 2007-10-24 | 2012-12-04 | Red Shift Company, Llc | Producing phonitos based on feature vectors |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
IT1156544B (it) * | 1982-11-08 | 1987-02-04 | Olivetti & Co Spa | Metodo ed apparecchiatura di riconoscimento fonetico di parole |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US5170359A (en) * | 1984-07-19 | 1992-12-08 | Presearch Incorporated | Transient episode detector method and apparatus |
US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
WO1994010635A2 (en) * | 1992-11-02 | 1994-05-11 | Boston University | Neural networks with subdivision |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5862519A (en) * | 1996-04-02 | 1999-01-19 | T-Netix, Inc. | Blind clustering of data with application to speech processing systems |
DE19634492B4 (de) | 1996-08-26 | 2004-10-14 | Siemens Ag | Verfahren zum optimierten Übertragen von ATM-Zellen über Verbindungsabschnitte |
KR19980065481A (ko) * | 1997-01-10 | 1998-10-15 | 김광호 | 운율 분석 결과에 근거한 음소 분리 방법 |
JP3576800B2 (ja) * | 1997-04-09 | 2004-10-13 | 松下電器産業株式会社 | 音声分析方法、及びプログラム記録媒体 |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
KR100346790B1 (ko) * | 1999-06-23 | 2002-08-01 | 한국전자통신연구원 | 음소분할 후처리 방법 |
US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US7054810B2 (en) * | 2000-10-06 | 2006-05-30 | International Business Machines Corporation | Feature vector-based apparatus and method for robust pattern recognition |
US7299188B2 (en) * | 2002-07-03 | 2007-11-20 | Lucent Technologies Inc. | Method and apparatus for providing an interactive language tutor |
US7243063B2 (en) * | 2002-07-17 | 2007-07-10 | Mitsubishi Electric Research Laboratories, Inc. | Classifier-based non-linear projection for continuous speech segmentation |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
-
2005
- 2005-12-28 KR KR1020050131964A patent/KR100744288B1/ko active IP Right Grant
-
2006
- 2006-12-28 US US11/646,911 patent/US8849662B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101005858B1 (ko) * | 2009-02-13 | 2011-01-05 | 한국과학기술원 | 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법 |
KR101022516B1 (ko) * | 2009-04-10 | 2011-03-16 | 고려대학교 산학협력단 | 스펙트럼 피크를 이용한 음향 인식 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
KR101022519B1 (ko) * | 2009-04-17 | 2011-03-16 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
Also Published As
Publication number | Publication date |
---|---|
US8849662B2 (en) | 2014-09-30 |
KR100744288B1 (ko) | 2007-07-30 |
US20070150277A1 (en) | 2007-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
US7912709B2 (en) | Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP2005043666A (ja) | 音声認識装置 | |
WO2012036305A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
KR100744288B1 (ko) | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 | |
KR100770896B1 (ko) | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 | |
KR20070102904A (ko) | 음성 신호의 유성음화 비율 검출 장치 및 방법 | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Smolenski et al. | Usable speech processing: A filterless approach in the presence of interference | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP5621786B2 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
US8103512B2 (en) | Method and system for aligning windows to extract peak feature from a voice signal | |
KR20100094182A (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JP2006010739A (ja) | 音声認識装置 | |
JP4807261B2 (ja) | 音声処理装置およびプログラム | |
JP2001083978A (ja) | 音声認識装置 | |
Tripathi et al. | Robust vowel region detection method for multimode speech | |
JP2011158515A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction | ||
FPAY | Annual fee payment |
Payment date: 20130627 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140627 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150629 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170629 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180628 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190627 Year of fee payment: 13 |