KR100744288B1 - 음성 신호에서 음소를 분절하는 방법 및 그 시스템 - Google Patents
음성 신호에서 음소를 분절하는 방법 및 그 시스템 Download PDFInfo
- Publication number
- KR100744288B1 KR100744288B1 KR1020050131964A KR20050131964A KR100744288B1 KR 100744288 B1 KR100744288 B1 KR 100744288B1 KR 1020050131964 A KR1020050131964 A KR 1020050131964A KR 20050131964 A KR20050131964 A KR 20050131964A KR 100744288 B1 KR100744288 B1 KR 100744288B1
- Authority
- KR
- South Korea
- Prior art keywords
- peak
- order
- information
- value
- phoneme
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000001755 vocal effect Effects 0.000 title description 2
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 abstract description 27
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 230000002787 reinforcement Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (18)
- 음성 신호에서 음소를 분절하는 방법에 있어서,입력되는 음성 신호로부터 피크 정보를 추출하는 과정과,상기 추출된 피크 정보를 근거로 각 프레임당 상기 피크 정보의 분포 정도 나타내는 히스토그램을 생성하는 과정과,상기 히스토그램을 이용하여 피크 통계치를 산출하는 과정과,상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정과,상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 삭제
- 제 1항에 있어서, 상기 히스토그램을 생성하는 과정은,상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 과정과,상기 피크 차수가 결정되면 상기 피크 통계치를 산출하는데 필요한 프레임의 길이를 결정하는 과정과,상기 결정된 프레임에 대해 상기 추출된 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 제 1항에 있어서, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정은,상기 산출된 피크 통계치와 상기 피크 통계치 중에서 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 임계값을 비교하는 과정과,상기 임계값 이상인 피크 통계치 중에서 최대치를 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 제 1항에 있어서, 상기 추출된 피크 정보는,피크 차수가 1차 피크로 정의된 상태에서 추출된 것임을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 제 3항에 있어서, 상기 피크 차수는2차 피크 또는 3차 피크 중 어느 하나인 것을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 제 3항에 있어서, 상기 프레임의 길이는디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 제 3항에 있어서, 상기 피크 차수를 결정하는 과정은,시간 도메인 상의 음성 신호로부터 피크 정보를 추출하는 과정과,상기 추출된 피크 정보에 대한 피크 차수를 정의하는 과정과,상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하는 과정과,상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 제 8항에 있어서,상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행하는 과정을 더 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
- 음성 신호에서 음소를 분절하는 시스템은,입력되는 음성 신호로부터 피크 정보를 추출하는 피크 정보 추출부와,상기 추출된 피크 정보를 근거로 각 프레임당 상기 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 히스토그램 생성부와,상기 생성된 히스토그램을 이용하여 피크 통계치를 산출하는 피크 통계치 산출부와,상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하고, 음소를 분절할 수 있도록 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하는 경계 결정부를 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 제 10항에 있어서,상기 추출된 피크 정보를 근거로 상기 피크 통계치를 산출하는데 필요한 프레임의 길이를 결정하는 프레임 길이 결정부를 더 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 삭제
- 제 10항에 있어서, 상기 경계 결정부는상기 최대치 결정 시 상기 피크 통계치 산출부에서 산출된 피크 통계치와 상기 상기 피크 통계치 중에서 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 임계값을 비교하고, 상기 임계값 이상인 피크 통계치 중에서 최대치를 결정함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 제 11항에 있어서, 상기 프레임의 길이는디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 제 11항에 있어서,상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 피크 차수 결정부를 더 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 제 14항에 있어서, 상기 피크 차수는2차 피크 또는 3차 피크 중 어느 하나인 것을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 제 15항에 있어서, 상기 피크 차수 결정부는상기 피크 정보 추출부에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의하고, 상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
- 제 17항에 있어서, 상기 피크 차수 결정부는상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050131964A KR100744288B1 (ko) | 2005-12-28 | 2005-12-28 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
US11/646,911 US8849662B2 (en) | 2005-12-28 | 2006-12-28 | Method and system for segmenting phonemes from voice signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050131964A KR100744288B1 (ko) | 2005-12-28 | 2005-12-28 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070069631A KR20070069631A (ko) | 2007-07-03 |
KR100744288B1 true KR100744288B1 (ko) | 2007-07-30 |
Family
ID=38195033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050131964A KR100744288B1 (ko) | 2005-12-28 | 2005-12-28 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8849662B2 (ko) |
KR (1) | KR100744288B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
WO2009055701A1 (en) * | 2007-10-24 | 2009-04-30 | Red Shift Company, Llc | Processing of a signal representing speech |
US8396704B2 (en) * | 2007-10-24 | 2013-03-12 | Red Shift Company, Llc | Producing time uniform feature vectors |
KR101005858B1 (ko) * | 2009-02-13 | 2011-01-05 | 한국과학기술원 | 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법 |
KR101022516B1 (ko) * | 2009-04-10 | 2011-03-16 | 고려대학교 산학협력단 | 스펙트럼 피크를 이용한 음향 인식 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
KR101022519B1 (ko) * | 2009-04-17 | 2011-03-16 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980065481A (ko) * | 1997-01-10 | 1998-10-15 | 김광호 | 운율 분석 결과에 근거한 음소 분리 방법 |
JPH11184497A (ja) * | 1997-04-09 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 音声分析方法、音声合成方法および媒体 |
KR20010003502A (ko) * | 1999-06-23 | 2001-01-15 | 정선종 | 음소분할 후처리 방법 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
IT1156544B (it) * | 1982-11-08 | 1987-02-04 | Olivetti & Co Spa | Metodo ed apparecchiatura di riconoscimento fonetico di parole |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US5170359A (en) * | 1984-07-19 | 1992-12-08 | Presearch Incorporated | Transient episode detector method and apparatus |
US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
WO1994010635A2 (en) * | 1992-11-02 | 1994-05-11 | Boston University | Neural networks with subdivision |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5862519A (en) * | 1996-04-02 | 1999-01-19 | T-Netix, Inc. | Blind clustering of data with application to speech processing systems |
DE19634492B4 (de) * | 1996-08-26 | 2004-10-14 | Siemens Ag | Verfahren zum optimierten Übertragen von ATM-Zellen über Verbindungsabschnitte |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US7054810B2 (en) * | 2000-10-06 | 2006-05-30 | International Business Machines Corporation | Feature vector-based apparatus and method for robust pattern recognition |
US7299188B2 (en) * | 2002-07-03 | 2007-11-20 | Lucent Technologies Inc. | Method and apparatus for providing an interactive language tutor |
US7243063B2 (en) * | 2002-07-17 | 2007-07-10 | Mitsubishi Electric Research Laboratories, Inc. | Classifier-based non-linear projection for continuous speech segmentation |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
-
2005
- 2005-12-28 KR KR1020050131964A patent/KR100744288B1/ko active IP Right Grant
-
2006
- 2006-12-28 US US11/646,911 patent/US8849662B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980065481A (ko) * | 1997-01-10 | 1998-10-15 | 김광호 | 운율 분석 결과에 근거한 음소 분리 방법 |
JPH11184497A (ja) * | 1997-04-09 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 音声分析方法、音声合成方法および媒体 |
KR20010003502A (ko) * | 1999-06-23 | 2001-01-15 | 정선종 | 음소분할 후처리 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20070150277A1 (en) | 2007-06-28 |
KR20070069631A (ko) | 2007-07-03 |
US8849662B2 (en) | 2014-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US7567900B2 (en) | Harmonic structure based acoustic speech interval detection method and device | |
US7912709B2 (en) | Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP5949550B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2005043666A (ja) | 音声認識装置 | |
JPS6336676B2 (ko) | ||
KR100744288B1 (ko) | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 | |
KR100770896B1 (ko) | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
KR20070102904A (ko) | 음성 신호의 유성음화 비율 검출 장치 및 방법 | |
Smolenski et al. | Usable speech processing: A filterless approach in the presence of interference | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP5621786B2 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
US8103512B2 (en) | Method and system for aligning windows to extract peak feature from a voice signal | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
KR20100094182A (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
KR20080052248A (ko) | 고속 음성 인식 방법 및 시스템 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JP2006010739A (ja) | 音声認識装置 | |
JP2001083978A (ja) | 音声認識装置 | |
JP4807261B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Re-publication after modification of scope of protection [patent] | ||
FPAY | Annual fee payment |
Payment date: 20130627 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140627 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150629 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170629 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180628 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190627 Year of fee payment: 13 |