KR100770896B1 - 음성 신호에서 음소를 인식하는 방법 및 그 시스템 - Google Patents
음성 신호에서 음소를 인식하는 방법 및 그 시스템 Download PDFInfo
- Publication number
- KR100770896B1 KR100770896B1 KR1020060021352A KR20060021352A KR100770896B1 KR 100770896 B1 KR100770896 B1 KR 100770896B1 KR 1020060021352 A KR1020060021352 A KR 1020060021352A KR 20060021352 A KR20060021352 A KR 20060021352A KR 100770896 B1 KR100770896 B1 KR 100770896B1
- Authority
- KR
- South Korea
- Prior art keywords
- peak
- phoneme
- phonemes
- order
- frame
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000001755 vocal effect Effects 0.000 title description 2
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007519 figuring Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (17)
- 음성 신호에서 음소를 인식하는 방법에 있어서,입력되는 음성 신호에서 각 음소 간 경계를 결정하여 음소를 분절하는 과정과,상기 분절된 음소에서 피크 통계치 산출을 위한 프레임 길이를 결정하여 결정된 프레임 내에서 피크 통계치를 산출하는 과정과,각 음소에 대한 표준 피크 통계치를 나타낸 음소 테이블 내의 피크 통계치를 참조하여 상기 결정된 프레임의 피크 통계치와의 확률 거리를 계산하는 과정과,상기 계산 결과 최소의 확률 거리를 가지는 상기 음소 테이블의 음소를 해당 음소로 인식하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 제 1항에 있어서, 상기 결정된 프레임의 피크 통계치는 상기 결정된 프레임에서 인식하려는 음소에 대한 평균과 표준 편차를 포함하고, 상기 음소 테이블 내의 피크 통계치는 각 피크 차수별 48 개의 음소에 대한 평균과 표준편차를 포함하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 제 1항에 있어서, 상기 확률 거리는하기 수학식 3과 같이 표현되는 것임을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
(A 평균 - B 평균) / (표준편차에 대한 평균) 상기 수학식 3에서, A 평균은 상기 음소 테이블의 A 음소에 대한 평균이며, B 평균은 상기 결정된 프레임에서 구해진 평균이며, 상기 표준편차에 대한 평균은 상기 음소 테이블의 A 음소에 대한 표준편차인 A 표준편차와 상기 결정된 프레임에서 구해진 표준편차인 B 표준편차 간의 평균임. - 제 1항에 있어서,상기 분절된 음소에서 피크 정보를 추출하여 피크 차수를 결정하는 과정과,상기 피크 차수가 결정되면 상기 결정된 피크 차수에서 피크 통계치 산출을 위한 프레임 길이를 결정하는 과정을 더 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 제 4항에 있어서, 상기 피크 차수를 결정하는 과정은,시간 도메인 상의 음성 신호로부터 피크 정보를 추출하는 과정과,상기 추출된 피크 정보에 대한 피크 차수를 정의하는 과정과,상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하는 과정과,상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 제 5항에 있어서,상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행하는 과정을 더 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 제 1항에 있어서, 상기 프레임의 길이는디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 제 1항에 있어서, 상기 음소를 분절하는 과정은,입력되는 음성 신호로부터 피크 정보를 추출하는 과정과,상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 과정과,상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정과,상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 과정임을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
- 음성 신호에서 음소를 인식하는 시스템은,입력되는 음성 신호에서 각 음소 간 경계를 결정하여 음소를 분절하는 음소 분절부와,상기 분절된 음소에서 피크 통계치 산출을 위한 프레임 길이를 결정하는 프레임 길이 결정부와,상기 결정된 프레임 내에서 피크 통계치를 산출하는 피크 통계치 산출부와,각 음소에 대한 표준 피크 통계치를 나타낸 음소 테이블 내의 피크 통계치를 참조하여 상기 결정된 프레임의 피크 통계치와의 확률 거리를 계산하는 음소 확률 거리 계산부와,상기 계산 결과 최소의 확률 거리를 가지는 상기 음소 테이블의 음소를 해당 음소로 인식하는 음소 인식부를 포함함을 특징으로 하는 음성 신호에서 음소를 인 식하는 시스템.
- 제 9항에 있어서,상기 결정된 프레임의 피크 통계치는 상기 결정된 프레임에서 인식하려는 음소에 대한 평균과 표준 편차를 포함하고, 상기 음소 테이블 내의 피크 통계치는 각 피크 차수별 48 개의 음소에 대한 평균과 표준편차를 포함하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
- 제 9항에 있어서, 상기 확률 거리는하기 수학식 3과 같이 표현되는 것임을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.[수학식 3](A 평균 - B 평균) / (표준편차에 대한 평균)상기 수학식 3에서, A 평균은 상기 음소 테이블의 A 음소에 대한 평균이며, B 평균은 상기 결정된 프레임에서 구해진 평균이며, 상기 표준편차에 대한 평균은 상기 음소 테이블의 A 음소에 대한 표준편차인 A 표준편차와 상기 결정된 프레임에서 구해진 표준편차인 B 표준편차 간의 평균임.
- 제 9항에 있어서,상기 분절된 음소에서 피크 정보를 추출하여 상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 피크 차수 선택부를 더 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
- 제 12항에 있어서, 상기 피크 통계치 산출부는상기 결정된 피크 차수의 해당 프레임 내에서 피크 통계치를 산출하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
- 제 12항에 있어서, 상기 피크 차수 선택부는상기 피크 정보 추출부에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의하고, 상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정함을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
- 제 14항에 있어서, 상기 피크 차수 결정부는상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행함을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
- 제 9항에 있어서, 상기 프레임의 길이는디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
- 제 9항에 있어서, 상기 음소 분절부는,상기 입력되는 음성 신호로부터 피크 정보를 추출하여 상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하고, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하고, 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060021352A KR100770896B1 (ko) | 2006-03-07 | 2006-03-07 | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 |
US11/714,080 US7747439B2 (en) | 2006-03-07 | 2007-03-05 | Method and system for recognizing phoneme in speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060021352A KR100770896B1 (ko) | 2006-03-07 | 2006-03-07 | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070091789A KR20070091789A (ko) | 2007-09-12 |
KR100770896B1 true KR100770896B1 (ko) | 2007-10-26 |
Family
ID=38534642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060021352A KR100770896B1 (ko) | 2006-03-07 | 2006-03-07 | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7747439B2 (ko) |
KR (1) | KR100770896B1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7650628B2 (en) * | 2004-10-21 | 2010-01-19 | Escription, Inc. | Transcription data security |
JP3913772B2 (ja) * | 2005-08-24 | 2007-05-09 | 松下電器産業株式会社 | 音識別装置 |
KR101496876B1 (ko) * | 2008-02-19 | 2015-02-27 | 삼성전자주식회사 | 휴대 단말기의 소리 인식 방법 및 장치 |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
WO2019018480A1 (en) | 2017-07-20 | 2019-01-24 | Nuance Communications, Inc. | AUTOMATED MASKING SYSTEM AND METHOD |
US10468026B1 (en) | 2018-08-17 | 2019-11-05 | Century Interactive Company, LLC | Dynamic protection of personal information in audio recordings |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787395A (en) * | 1995-07-19 | 1998-07-28 | Sony Corporation | Word and pattern recognition through overlapping hierarchical tree defined by relational features |
US20030225580A1 (en) * | 2002-05-29 | 2003-12-04 | Yi-Jing Lin | User interface, system, and method for automatically labelling phonic symbols to speech signals for correcting pronunciation |
KR20040061070A (ko) * | 2002-12-30 | 2004-07-07 | 주식회사 케이티 | 음성인식시스템에서의 음성인식장치 및 그 방법 |
KR20040076035A (ko) * | 2003-02-24 | 2004-08-31 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
KR100464428B1 (ko) | 2002-08-12 | 2005-01-03 | 삼성전자주식회사 | 음성 인식 장치 |
KR20050011441A (ko) * | 2003-07-23 | 2005-01-29 | 주식회사 팬택 | Hmm 확률 보정 방법 |
KR20050090389A (ko) * | 2002-12-20 | 2005-09-13 | 인터내셔널 비지네스 머신즈 코포레이션 | 음성 인식 시스템의 작동 방법, 컴퓨터 시스템, 컴퓨터프로그램 및 컴퓨터 프로그램 제품 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US6959278B1 (en) * | 2001-04-05 | 2005-10-25 | Verizon Corporate Services Group Inc. | Systems and methods for implementing segmentation in speech recognition systems |
-
2006
- 2006-03-07 KR KR1020060021352A patent/KR100770896B1/ko active IP Right Grant
-
2007
- 2007-03-05 US US11/714,080 patent/US7747439B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787395A (en) * | 1995-07-19 | 1998-07-28 | Sony Corporation | Word and pattern recognition through overlapping hierarchical tree defined by relational features |
US20030225580A1 (en) * | 2002-05-29 | 2003-12-04 | Yi-Jing Lin | User interface, system, and method for automatically labelling phonic symbols to speech signals for correcting pronunciation |
KR100464428B1 (ko) | 2002-08-12 | 2005-01-03 | 삼성전자주식회사 | 음성 인식 장치 |
KR20050090389A (ko) * | 2002-12-20 | 2005-09-13 | 인터내셔널 비지네스 머신즈 코포레이션 | 음성 인식 시스템의 작동 방법, 컴퓨터 시스템, 컴퓨터프로그램 및 컴퓨터 프로그램 제품 |
KR20040061070A (ko) * | 2002-12-30 | 2004-07-07 | 주식회사 케이티 | 음성인식시스템에서의 음성인식장치 및 그 방법 |
KR20040076035A (ko) * | 2003-02-24 | 2004-08-31 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
KR20050011441A (ko) * | 2003-07-23 | 2005-01-29 | 주식회사 팬택 | Hmm 확률 보정 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20070091789A (ko) | 2007-09-12 |
US20070225981A1 (en) | 2007-09-27 |
US7747439B2 (en) | 2010-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
Harb et al. | Voice-based gender identification in multimedia applications | |
US7912709B2 (en) | Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal | |
US5611019A (en) | Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
KR100770896B1 (ko) | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 | |
Evangelopoulos et al. | Multiband modulation energy tracking for noisy speech detection | |
EP0128755A1 (en) | Apparatus for speech recognition | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
KR100744288B1 (ko) | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
Zhu et al. | 1-D Local binary patterns based VAD used INHMM-based improved speech recognition | |
KR20070102904A (ko) | 음성 신호의 유성음화 비율 검출 장치 및 방법 | |
Dubuisson et al. | On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
US8103512B2 (en) | Method and system for aligning windows to extract peak feature from a voice signal | |
Faycal et al. | Comparative performance study of several features for voiced/non-voiced classification | |
Jadhav et al. | Review of various approaches towards speech recognition | |
KR20080052248A (ko) | 고속 음성 인식 방법 및 시스템 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JP2006010739A (ja) | 音声認識装置 | |
Seltzer et al. | Automatic detection of corrupt spectrographic features for robust speech recognition | |
JP2012220607A (ja) | 音認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120927 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130927 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140929 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150925 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160929 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170927 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180921 Year of fee payment: 12 |