KR100391287B1 - 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 - Google Patents
압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 Download PDFInfo
- Publication number
- KR100391287B1 KR100391287B1 KR10-1999-7009488A KR19997009488A KR100391287B1 KR 100391287 B1 KR100391287 B1 KR 100391287B1 KR 19997009488 A KR19997009488 A KR 19997009488A KR 100391287 B1 KR100391287 B1 KR 100391287B1
- Authority
- KR
- South Korea
- Prior art keywords
- vocoder
- data
- energy
- residual
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000001413 cellular effect Effects 0.000 title claims description 13
- 238000012545 processing Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000010267 cellular communication Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Photoreceptors In Electrophotography (AREA)
- Steering Control In Accordance With Driving Conditions (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
Abstract
본 발명의 보코더에 기초를 둔 음성인식기는 음성 데이터를 완전히 재구성하는 일없이 LPC(linear prediction coding: 선형 예측코딩)에 기초를 둔 보코더 데이터를 이용하여 말하는 워드(발성 단어)를 인식한다. 음성인식기는 보코더 데이터의 프레임마다 적어도 하나의 에너지 추정치를 발생하고(스텝 60), 관련된 에너지 추정치를 이용하여 보코더 데이터에 있어서 워드경계(word boundary)를 검색한다(스텝 64). 워드가 발견되면(스텝 66), 이 워드와 관련된 보코더 데이터로부터 LPC 워드 파라미터를 추출하고(스텝 68), 추출된 LPC 워드 파라미터로부터 인식특징을 계산한다(스텝 70). 최후로, 이 인식특징을 이전에 저장되어 있는 다른 워드의 인식특징과 매치시킴으로써(스텝 40), 말하는 워드를 인식한다.
Description
음성인식기는 이 기술분야에서 잘 알려진 것으로, 많은 응용장치에 있어서 사용되고 있다. 예컨대, 음성인식은 이동장치를 위한 명령/제어의 응용, 컴퓨터 딕타폰(computer Dictaphone), 유아용 장난감 및 자동차 전화 등에 사용되고 있다. 이들 모든 시스템에 있어서, 음성신호는 계수화되고, 이어서 파라미터화된다. 파라미터화된 입력신호는 발음(utterance)이 알려져 있는 파라미터화된 기준신호와 비교된다. 인식된 발음은 입력신호와 가장 잘 매치하는 기준신호와 관련된 발음이다.
음성인식 시스템은, 사용자가 호출(통화)하기를 원하는 사람의 이름을 말하면, 그 음성인식 시스템이 미리 제공되어 있는 참조리스트로부터 그 이름을 인식하여 인식된 이름과 관련된 전화번호를 공급하는 음성 다이얼링 시스템에 있어서 특별한 사용을 할 수 있게 되었다. 그 후, 전화는 그 번호를 다이얼한다. 그 결과, 사용자는 그 다이얼된 번호를 확인하거나 또는 그 번호를 다이얼하기 위해 자신의 손을 이용하는 일없이 수신지와 연결된다.
음성다이얼링(voice dialing)은, 사용자가 전형적으로 자동차의 운전자이기 때문에, 연속적으로 도로에 집중해야만 하는 자동차용 이동전화에 있어서는 특히 중요하다. 운전자가 누군가에게 호출하기를 원하는 경우, 운전자 자신이 그 번호를 다이얼하기 보다는 호출해야 할 사람의 이름을 말하는 것이 훨씬 안전하다.
이제부터 참조하는 도 1은 디지탈 이동전화의 주요부를 나타내고 있다. 전형적으로, 이동전화는 마이크로폰(10), 스피커(12), 아날로그와 디지탈신호 사이에서 변환을 행하는 유니트(아날로그/디지탈 변환회로; 14), DSP-1이라고 표시되어 있는 DSP(digital signal processing: 디지탈 신호처리)칩에 실시한 보코더(16), 마이크로콘트롤러 또는 중앙처리장치(CPU)내에 실장되는 운영시스템(operating system; 18), 무선주파수 인터페이스 유니트(RF 유니트; 19) 및 안테나(20)를 포함하고 있다. 전송시에, 마이크로폰(10)은 유니트(14)에 의해 계수화된 아날로그 음성신호를 발생한다. 보코더(16)는 RF 유니트(19) 및 안테나(20)를 통해 다른 이동전화로 송신해야 할 데이터의 양을 축소하기 위해 음성표본(voice sample)을 압축한다. 수신하는 이동전화의 안테나(20)는, 수신된 신호를 RF 유니트(19)를 통해 이 수신된 신호를 음성표본으로 신장하는 보코더(16)로 공급한다. 유니트(14)는 이 음성표본을 스피커(12)가 내는 아날로그신호로 변환한다. 운영시스템(18)은 이동전화의 동작을 제어한다.
음성 다이얼링 시스템에서는, 이동전화는 계수화된 음성표본을 입력으로서 수신하는 DSP-2라고 표시되어 있는 별개의 DSP칩에 실시한 음성인식기(22)를 부가적으로 포함하고, 음성신호를 파라미터화하며, 이 파라미터화된 입력신호를 기준 음성신호와 매치시킨다. 전형적으로, 음성인식기(22)는 매치된 신호의 식별을 운영시스템(18)에 공급하거나, 혹은 전화번호가 매치된 신호와 관련이 있는 경우에는 관련된 전화번호를 공급한다.
이제부터 참조하는 도 2는 음성인식기(22)의 동작을 전체적으로 나타내고 있다. 계수화된 음성표본은 5∼20msec의 소정 길이의 프레임으로 편성되고, 이들 프레임은 인식기(22)로 공급된다(스텝 28). 각 프레임마다, 인식기(22)는 먼저 그 프레임의 에너지를 계산한다(스텝 30).
또한 이제부터 참조하는 도 3은 말하는 워드 "리차드(RICHARD)"에 대한 프레임당의 에너지를 시간의 함수로서 나타내고 있다. 에너지신호는 워드의 두 음절과 대응하여 2개의 범프(bump: 돌출부)(31,33)를 갖는다. 참조부호 35로 표시된 바와 같이 말하는 워드가 없는 경우에는, 음절 사이에서도 에너지 레벨은 현저히 낮다.
따라서, 인식기(22)는 에너지신호 내에 있어서 워드의 시작과 종료를 검색한다(도 2의 스텝 32). 워드의 시작은, 에너지신호가 소정 길이 이상의 시간동안 낮아진 후에 에너지의 현저한 상승이 시작되는 점(시점; 37)으로서 정의된다. 워드의 종료는, 에너지신호가 소정 길이 이상의 시간동안 낮은 상태로 유지된 후에 에너지의 현저한 하강이 종료되는 점(종점; 39)으로서 정의된다. 도 3에서는, 시점(37)은 약 0.37sec에서 발생하고, 종점(39)은 약 0.85sec에서 발생한다.
스텝 34에서 점검되어 워드가 발견되면, 음성인식기(22)는 그 말하는 워드의 파라미터를 생성하기 위해 LPC(linear prediction coding: 선형 예측코딩)분석을 수행한다(스텝 36). 스텝 38에서는 음성인식기(22)는 그 말하는 워드의 인식특징을 계산하고, 스텝 40에서는 음성인식기(22)는 기준 라이브러리 내의 기준 워드의 인식특징 중에서 매치를 검색한다. 또는, 음성인식기(22)는 트레이닝(training: 훈련)이라고 알려져 있는 공정에 있어서 기준 라이브러리 내에 인식특징을 저장한다.
그렇지만, 이러한 음성인식공정은 계산집약적이고, 따라서 제2의 DSP칩, DSP-2내에서 실시하지 않으면 안된다. 이것은, 이동전화에 현저한 비용을 추가하는 것으로 된다.
본 발명은 일반적으로 음성인식기에 관한 것으로, LPC 보코더 데이터를 입력으로서 이용하는 음성인식기에 관한 것이다.
도 1은 음성인식 기능을 갖춘 종래기술의 셀룰러 전화를 나타낸 블록도,
도 2는 종래기술의 LPC에 기초를 둔 음성인식방법을 설명하기 위한 플로우차트,
도 3은 말하는 워드(spoken word)의 에너지를 나타낸 그래프,
도 4는 압축된 음성 데이터구조의 개략설명도,
도 5는 본 발명의 제안된 실시예에 따라 구성되어 동작하는 보코더에 기초를 둔 음성인식기를 갖춘 셀룰러 전화를 나타낸 블록도,
도 6은 본 발명의 제안된 실시예에 따른 음성인식방법을 설명하기 위한 플로우차트,
도 7은 잔여신호로부터 추정된 말하는 워드의 에너지를 나타낸 그래프,
도 8은 본 발명의 동작을 이해하는데 유용한 잔여신호를 나타낸 그래프,
도 9는 GSM 디코더를 나타낸 블록도,
도 10은 추정 잔여신호로부터 추정된 말하는 워드의 에너지를 나타낸 그래프이다.
본 발명의 목적은, 표본화된 음성 데이터가 아니라 LPC에 기초를 둔 보코더에 의해 압축된 압축 음성 데이터를 이용하여 동작함으로써 실행해야 하는 계산의 양을 저감하는 것이 가능한 음성인식기를 제공하는데 있다. 따라서, 음성인식은 운영시스템도 실장하는 마이크로콘트롤러나 CPU에서 실행되는 것이 가능하다. 이 음성인식기는 음성신호를 분석하지 않기 때문에, 마이크로콘트롤러나 CPU는 제한된 처리전력의 것 및/또는 음성신호를 수신하지 않는 것으로 할 수 있다.
더욱이, 본 발명은 LPC에 기초를 둔 서로 다른 형식의 보코더로부터 인식에 사용하기 위해 동일한 형태의 특징 데이터를 추출할 수 있는 특징발생기를 제공한다. 따라서, 본 발명은 LPC에 기초를 둔 서로 다른 형태의 보코더에 의해 압축된 압축 음성 데이터에 동일한 인식(예컨대, 매칭 및 트레이닝)동작을 수행한다.
따라서, 본 발명의 제안된 실시예에 의하면, 음성 데이터를 완전히 재구성하는 일없이 LPC에 기초를 둔 보코더 데이터를 이용하여 말하는 워드를 인식하기 위한 방법이 제공된다. 이 보코더에 기초를 둔 인식기는 여기에 설명되는 방법을 실현한다. 이 방법은, 보코더 데이터의 프레임마다 적어도 하나의 에너지 추정치를 발생하는 스텝과, 관련된 에너지 추정치를 이용하여 보코더 데이터 내의 워드 경계(word boundary)를 검색하는 스텝을 포함한다. 워드가 발견되면, 그 워드와 관련된 보코더 데이터로부터 LPC 워드 파라미터가 추출되고, 이 추출된 LPC 워드 파라미터로부터 인식특징이 계산된다. 최후로, 이 인식특징을 미리 저장되어 있는 다른 워드의 인식특징과 매치시킴으로써, 말하는 워드를 인식한다.
부가적으로, 본 발명의 제안된 실시예에 따르면, 보코더 데이터에서 발견된 잔여 데이터(residual data)로부터 에너지를 추정한다. 이 추정은 여러 가지의 방법으로 수행할 수 있다. 한 실시예에서는, 보코더 데이터로부터 잔여 데이터를 재구성하고, 잔여 데이터의 표준(norm)으로부터 추정치를 형성한다. 다른 실시예에서는, 보코더 데이터로부터 피치이득치(pitch-gain value)를 추출하고, 이 값을 에너지 추정치로서 이용한다. 또 다른 실시예에서는, 보코더 데이터로부터 피치이득치, 지연치(lag value) 및 잔류 데이터(remnant data)를 추출한다. 잔류 데이터로부터 잔류신호를 생성하고, 그로부터 잔류 에너지 추정(remnant energy estimate)치를 생성한다. 피치이득치를 지연치에 의해 정의되는 이전의 에너지 추정치로 이용함으로써, 잔여의 비잔류 부분으로부터 비잔류 에너지추정(non-remnant energy estimate)치를 생성한다. 최후로, 두 에너지 추정치, 즉 잔류 에너지 추정치와 비잔류 에너지 추정치를 결합한다.
더욱이, 본 발명의 제안된 실시예에 따르면, 보코더 데이터는 다음의 보코더, 즉 RPE-LTP 풀 및 하프 레이트(full and half rate), QCELP 8 및 13Kbps, EVRC, LD CELP, VSELP, CS ACELP, 개선된 풀 레이트(full rate) 보코더 및 LPC10의 어느 하나로부터의 것일 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 이동전화 운영시스템, LPC에 기초를 둔 보코더 및 보코더에 기초를 둔 음성인식기를 포함하는 디지탈 셀룰러전화가 제공된다. 인식기는 워드가 발성된 때를 판단하여 말하는 워드의 인식특징을 발생시키기 위해 보코더 데이터를 처리하는 전단 프로세서와, 적어도 그 말하는 워드를 한 세트의 기준워드의 하나로서 인식하는 인식부를 포함한다.
더욱이, 본 발명의 제안된 실시예에 따르면, 전단 프로세서는 에너지 추정기, LPC 파라미터 추출기 및 인식특징 발생기를 포함하고 있다. 에너지 추정기는 음성신호의 에너지를 추정하기 위해 보코더 데이터의 일부를 형성하는 잔여정보를 이용한다. LPC 파라미터 추출기는 보코더 데이터의 LPC 파라미터를 추출한다. 인식특징 발생기는 LPC 파라미터로부터 인식특징을 발생한다.
더욱이 또, 본 발명의 제안된 실시예에 따르면, 전단 프로세서는 다중의 보코더 타입과 선택적으로 동작가능하게 할 수 있다.
많은 형태의 음성압축 알고리즘이 있고, 가장 일반적인 것은 LPC(linear prediction coding: 선형 예측코딩)에 기초를 두고 있는 것이다. 본 출원인은, 대부분의 음성인식 알고리즘이 선형 예측코딩 분석을 이용하여 음성신호를 파라미터화하고 있기 때문에, 압축된 음성신호의 성분을 음성인식기로 공급함으로써 음성인식기가 실행해야 하는 분석의 양을 현저히 저감시킬 수 있다는 사실을 알아냈다. 따라서, 본 발명은 도 5, 도 6 및 도 7을 참조하여 후술할 셀룰러 이동전화의 마이크로콘트롤러 또는 CPU에 실시한 보코더에 기초를 둔 음성인식기이다.
선형 예측분석(Linear Prediction Analysis)
다음에는 LPC에 기초를 둔 보코더(16)의 동작에 대해 간단히 설명한다. 여기서 제공되는 선형 예측코딩보다 더 완전한 설명을 포함하는 음성 코딩의 논의는, 논문 「"Speech Coding: A Tutorial Review" by Andreas S. Spanias,Proceedings of the IEEE, Vol. 82, No. 10, October 1994, pp. 1541-1582」에 있어서 찾을 수 있다.
보코더(16)는 음성신호를 일련의 프레임으로 분할한다. 각 프레임은 길이가 N이고, 전형적으로 음성신호의 20msec를 나타낸다. 각 프레임마다, 보코더(16)는 LPC분석을 행한다.
선형 예측코딩은 다음 식과 같이 음성신호 y(n)을 표현한다.
(식 1)
여기서, ai는 LPC 계수로서 알려져 있고, ε(n)은 잔여신호(residual sig nal)로서 알려져 있다. 전형적으로, 각 프레임은 p개의 LPC 계수(ai)를 갖고, 잔여신호 ε(n)은 길이가 N인 신호이다. LPC 계수와 잔여신호는 그 프레임의 파라미터를 형성한다. 전형적으로, 보코더는 더욱이 잔여신호 ε(n)을 적어도 피치와 이득치의 항으로 파라미터화한다. 또, 보코더는 켑스트럼(cepstrum)계수, MEL 켑스트럼계수, LSP(line spectral pair), 반사계수, LAR(log area ratio)계수 등의 LPC 계수로부터 쉽게 계산되는 LPC 보코더의 기술분야에서 알려진 많은 형태의 LPC 중의 어느 하나를 생성할 수 있다.
얻어진 값은 그 후 엔코드되어 이제부터 참조하는 도 4에 나타낸 프레임(52)과 같은 전형적인 음성압축 프레임을 생성한다. 음성압축 프레임(52)은 LPC 계수(ai)를 엔코드 및/또는 파라미터화한 버전 및 잔여신호 ε(n)의 엔코드한 버전을 포함한다.
보코더에 기초를 둔 음성인식기
다음에는 도 5를 참조하여 셀룰러 전화내에 있는 보코더에 기초를 둔 음성인식기(50)에 대해 설명한다. 셀룰러 전화는 도 1에 나타낸 종래기술의 전화와 동일하기 때문에, 동일한 구성요소에는 동일한 참조부호를 붙인다. 또, 보코더에 기초를 둔 음성인식기(50)의 동작을 이해하는데 유용한 도 6 및 도 7도 참조한다.
도 5의 셀룰러 전화는, 마이크로폰(10), 스피커(12), 변환유니트(14), 보코더(16), 운영시스템(18), RF 인터페이스 유니트(19) 및 안테나(20)를 포함한다. 더욱이, 도 5의 셀룰러 전화는 보코더(16)가 입력으로서 생성하는 LPC에 기초를 둔 압축 음성신호를 수신하는 보코더에 기초를 둔 음성인식기(50)를 포함하고 있다.
본 발명의 제안된 실시예에 따르면, 보코더에 기초를 둔 음성인식기(50)는 운영시스템(18)도 실장하는 CPU(51)로 표시되어 있는 장치내에 실장된다. 장치(51)는 표시되어 있는 바와 같은 CPU 또는 마이크로콘트롤러로 할 수 있다. 음성인식기(50)는 음성신호를 분석하지 않기 때문에, 음성인식기(50)는 제한된 처리전력만을 갖는 것이나 음성신호를 수신하지 않는 것도 포함하는 모든 형태의 마이크로콘트롤러 또는 CPU에도 실장가능하다.
도 6은 프레임(52)과 같은 압축 프레임에 대한 보코더에 기초를 둔 음성인식기(50)의 동작을 일반적인 형태로 나타내고 있다.
종래기술에서와 마찬가지로, 프레임의 에너지는 스텝 58에서 일단 프레임이 수신되기만 하면 판정된다. 그러나, 본 발명에서는 에너지는 표본화된 데이터가 아니라 보코더 데이터로부터 추정되고(스텝 60), 에너지 추정은 표본화된 데이터를 재구성하는 것을 포함하지 않는다.
본 발명의 출원인은, 이 기술분야에서 알려진 바와 같이 잔여신호는 성도(vo cal tract)를 통한 공기압을 묘사하는 반면, LPC 파라미터는 이 성도의 구조를 묘사하고, 따라서 일반적으로 음성볼륨(speech volume)과는 관계가 없기 때문에, 에너지를 추정하는데 잔여신호 ε(n)을 사용할 수 있음을 알아냈다. 그 결과, 잔여신호는 사람이 얼마나 시끄럽게 말하는지, 혹은 얼마나 조용히 말하는지에 대해 높은 상관성이 있다.
본 발명의 바람직한 실시예에 따르면, 에너지를 추정하는 한 방법은 프레임마다 혹은 프레임이 서브프레임으로 분할되어 있으면 서브프레임마다 잔여신호에서의 에너지를 판정하는 것이다. 수학적으로, 이것은 다음 식과 같이 표현할 수 있다.
(식 2)
여기서,는 i번째 프레임에서의 에너지이고, 잔여신호 ε(n)은 보코더 데이터로부터 재구성된 것이며, 숫자 M은 프레임이나 서브프레임에서의 표본화점의 수이다.
도 7은 발성된 워드 "리차드(RICHARD)"의 재구성된 잔여신호로부터 생성한 추정 에너지신호를 나타내고 있다. 도 7로부터 알 수 있는 바와 같이, 도 7의 추정 에너지신호는 도 3의 에너지신호의 복제물이 아니다. 그러나, 추정 에너지신호는 종래기술의 에너지신호와 높은 상관성이 있다. 참조부호 62와 63으로 각각 표시되어 있는 도 7의 신호의 시점 및 종점은 각각 약 0.37sec 및 0.85sec에 있다.
보코더 데이터로부터 에너지를 추정하는 다른 방법은, 이하에 설명되는 본 발명의 실시예에 포함되어 있다.
도 6으로 돌아가면, 보코더에 기초를 둔 음성인식기(50)는 추정된 에너지 신호에서 워드 경계(word boundary)를 검색한다(스텝 64). 필요하면, 음성인식기(50)는 워드 경계에 있어서 급격히 변화하는 LPC 파라미터의 특성(그 평균 및/또는 분산 등) 중의 어느 하나를 이용함으로써 워드 경계의 위치를 정제(refine)할 수 있다.
스텝 66에 의한 점검에 의해 워드가 발견된 경우에는, 인식기(50)는 보코더 데이터로부터 LPC 워드 파라미터를 추출한다(스텝 68). 스텝 68은, 전형적으로 음성 압축프레임(52)내로 공급된 부호화된 LPC 파라미터를 해독하는 것과, 그들을 LPC 계수로 변환하는 것을 포함한다.
다음에, 인식기(50)는 추출된 LPC 계수로부터 그 인식특징을 계산한다(스텝 70). 이들 인식특징은, LPC 계수로부터 쉽게 계산될 수 있는 켑스트럼계수, MEL 켑스트럼계수, LSP(line spectral pair), 반사계수, LAR(log area ratio)계수 등 LPC에 기초를 둔 많은 파라미터중의 어느 하나일 수 있다. 따라서, 보코더가 한 형태의 LPC 파라미터를 사용하고, 인식기(50)가 다른 형태의 LPC 파라미터를 사용하는 경우에는, 인식기(50)는 직접 또는 LPC 계수를 통해 한 형태의 LPC 파라미터로부터 다른 형태의 LPC 파라미터로 변환할 수 있다.
최후로, 인식기(50)는 스텝 70에서 생성한 인식특징을 사용하여 입력신호를 그 기준 라이브러리의 기준 워드의 하나로서 인식하거나, 혹은 새로운 기준 워드를 트레이닝하여 그 라이브러리내에 입력한다. 인식기(50)에 의해 생성된 인식특징은 종래기술에서 사용된 것과 동일할 수 있기 때문에, 이 스텝은 종래기술의 인식/트레이닝 스텝(40)과 동일하고, 따라서 그와 같이 표시되어 있다. 여기에 참고문헌으로서 포함된 책인 「Fundamentals of Speech Recognition(음성인식의 기초), by Lawrence Rabiner and Biing Hwang Juang, Prentice-Hall, 1993」에는 적당한 인식기(50)에 대해 기재되어 있다.
스텝 60∼70은 보코더 데이터로부터 인식/트레이닝 스텝에 필요한 인식특징으로 변환하는 스텝임을 인식할 수 있을 것이다. 그 각각이 음성신호에 대해 약간 다른 동작을 수행하는 LPC에 기초를 둔 많은 보코더가 있다. 스텝 60∼70은 각 형태의 보코더에 맞추어 보코더의 형태에 관계없이 동일한 인식특징을 생성할 수 있다. 따라서, 스텝 60∼70은 인식/트레이닝 스텝(40)에 대해 처리하는 "전단(front end)"을 형성한다.
본 발명은 다수의 전단 및 단일의 인식/트레이닝 유니트를 갖춘 보코더에 기초를 둔 음성인식기를 포함한다. 이것은, 각각이 서로 다른 형태의 보코더를 사용하는 다중 형태의 디지탈 셀룰러전화와 동작하도록 판매되고 있는 이동전화에 대해 특히 유용하다. 많은 전단이 있지만, 본 발명의 음성인식기는 많은 보코더 형태와 동작할 수 있다.
워드경계를 판단하는데 이용하기 위한 에너지 추정방법
미국방성 표준 1015 V.53에 기재되어 있는 LPC10으로서 알려져 있는 보코더 등과 같은 몇몇 간단한 보코더는, 피치 및 이득치만으로 잔여신호 ε(n)을 묘사한다. 이제부터 참조하는 도 8은 모두가 거의 동일한 크기의 일련의 반복하는 피크(peak; 70)를 갖는 음성신호의 잔여신호의 일례를 나타내고 있다. 피크(70) 사이의 거리는 피치(P)로 정의되고, 피크(70)의 크기는 이득(G)으로서 정의된다. 비음성신호는 이득치를 갖지만, 피치치(patch value)는 갖지 않는다.
따라서, 프레임 또는 서브프레임의 잔여신호의 에너지는 이득치(G)에 의해 추정할 수 있다. 이 예에서는, 프레임 또는 서브프레임의 에너지는 잔여신호 ε(n)을 재구성함으로써 추정되는 것이 아니라, 압축된 음성 데이터로부터 이득치(G), 잔여신호 ε(n)의 파라미터를 추출함으로써 추정된다.
GSM(Global System for Mobile Communications), TDMA(Time Division Multi ple Access) 및 CDMA(Code Division Multiple Access) 디지탈 셀룰러 통신시스템에 있어서 사용되고 있는 보코더와 같은 다른 보코더는, 현 프레임 또는 서브프레임의 잔여신호를 이전 프레임의 잔여신호의 연결된 버전과 연관시킨다. 피치이득(PG)과 승산될 때 현재의 프레임의 잔여신호가 이전의 잔여신호와 가장 근접하게 매치하는 점은 LAG치로서 알려져 있다. 이어서, 보코더는 피치이득(PG)과 승산된 이전의 잔여신호와 현재의 잔여신호의 차인 잔류 신호(remnant signal)를 결정한다. 이렇게 하여, 현재의 잔여신호는 피치이득(PG), LAG치 및 잔류 신호에 의해 특징지워진다.
후자의 형태의 보코더에서는, 현 프레임 또는 서브프레임의 에너지(i)는 잔류신호 및 잔여신호의 비잔류 부분(non-remnant portion)으로부터 다음 식에 의해 추정할 수 있다.
(식 3)
(m=1 또는 2)
여기서, Erem은 잔류 신호의 에너지 추정치이고, ELAG는 현 프레임 또는 서브프레임 뒤의프레임 또는 서브프레임인 프레임 또는 서브프레임의 에너지와 피치이득으로부터 결정되는 잔여의 비잔류 에너지이다. 전자는 비교적 간단한 동작인 잔류 신호의 재구성에 의해 또는 어떤 다른 방법에 의해 생성할 수 있다. 심벌 ┌┐ 및 └┘는 각각 상한 및 하한 연산을 나타내고, m번째 제곱근 연산을 수행할 필요는 없다.
GSM 보코더의 에너지 추정
이제 GSM 표준의 일부를 형성하는 보코더의 디코더부분을 나타내는 도 9를 참조한다. 도 9는 ETSI(European Telecommunications Standards Institute: 유럽 전기통신 표준화 협회)로부터의 I-ETS 300 036 사양서의 1992년 3월판의 34페이지에 있는 도면 Fig. 3.4와 유사하다. 디코더에 대한 상세한 설명은 여기에 참고문헌으로서 병합되어 있는 상기한 사양서에 제공되어 있다. 명확히 하기 위해, 본 발명의 에너지 및 특징계산을 이해하는데 필요한 디코더의 관점만을 이하에 제시하기로 한다.
도 9는 굵은 선으로 입력데이터를 나타내고, 얇은 선으로 내부신호를 나타내고 있다. 입력데이터는 모두 I-ETS 사양서에 있어서 정의되어 있는 값 Mcr, Xmaxcr, Xmcr, bcr, Ncr및 LARcr을 포함하고 있다.
도 9는 디코더가 RPE 디코더(80), 장기 예측기(long term predictor; 84), 단기 합성필터(short term synthesis filter; 86) 및 디엠파시스(88)를 포함하는 것을 나타내고 있다. RPE 디코더(80)는 Mcr, Xmaxcr및 Xmcr신호를 수신하여 잔류 신호(er′)를 발생한다. 장기 예측기(84)는 bcr및 Ncr신호를 이용하여 잔류 신호(er′)로부터 잔여신호(dr′)를 생성한다. 단기 합성필터(86)는 잔여신호(dr′) 및 LARcr데이터의 형태로 전송되는 단기 LPC 파라미터로부터 음성신호를 생성한다.
상술한 것과 유사한 에너지 계산이, 다음 식과 같이 잔여신호(dr′)의 제1 또는 제2표준을 취한다.
(식 4)
(m=1 또는 2)
다른 에너지 계산으로는 잔류 신호(er′) 및 장기 예측기(84)의 내부 데이터치 br′ 및 Nr′신호를 이용하는 것도 있다. 즉, 예측기(84)는 파라미터 디코더(90), 지연유니트(92), 승산기(multiplier; 94) 및 가산기(summer; 96)를 포함한다. 디코더(90)는 입력치(bcr, Ncr)를 내부 데이터치(br′, Nr′)로 변환한다(여기서, br′는 상술한 피치이득(PG)과 마찬가지의 승수이고, Nr′는 상술한 값 LAG와 마찬가지의 지연량이다). 장기 예측기(84)는 신호(dr″)를 잔류 신호(er′)에 가산한다(여기서, 신호 (dr″)는 지연유니트(92)에 의해 지연되고 승산기(94)를 통해 br′와 승산된 이전의 잔여신호 dr′(1- Nr′)이다).
에너지는 식 3을 이용하여 추정할 수 있다(여기서, Nr′ 및 br′는 LAG 및 PG치로 치환되고, FL은 40으로 설정되어 있다). 더욱이, 잔류의 에너지 추정치 (Erem)는 다음 식에 의해 계산된다.
(식 5)
이제부터 간단히 참조하는 도 10은 상기의 계산을 이용하여 추정된 에너지를 나타낸다. 참조부호 98과 99로 각각 표시되어 있는 시작 및 종료 워드경계는 종래기술에서의 경우와 동일한 위치에 발생한다.
추출된 파라미터로부터 에너지를 추정하는 다른 방법도, 상기와 같이 Nr′ 및 br′를 이용하고, FL은 40으로 설정하며, 다음 식에 따라 잔류의 에너지 추정치(Erem)를 추정한다.
(식 6)
도 9로 돌아가서, LPC 워드 파라미터는 LAR 디코더(100), 보간기(inter polator; 102), 반사계수 결정유니트(104) 및 필터(106)를 포함하고 있는 단기 합성필터(86)내에서 전송되는 데이터로부터 추출된다. 유니트 100, 102 및 104는 모두 수신된 LARcr데이터를 반사계수(rr′)로 변환한다. 여기서, 후자는 쉽게 LPC 계수로 변환된다.
도 6을 참조하여 상술한 바와 같이, 일단 LPC 계수가 추출되면, 그들은 인식/트레이닝 스텝이 필요로 하는 인식특징으로 변환된다(스텝 70).
이상 GSM 디지탈 셀룰러 통신시스템의 보코더에 대해 설명했지만, 당업자라면 본 발명을 모든 형태의 디지탈 셀룰러 통신시스템 및 모든 형태의 LPC에 기초를 둔 보코더에도 적용가능하다는 것을 인식할 수 있을 것이다. 각 형태의 보코더마다, 압축된 음성 데이터로 저장되어 있는 정보의 형태를 분석하고, 에너지 및 특징의 계산에 그것을 어떻게 이용할 것인가에 관해 판단하지 않으면 안된다. 압축된 음성 데이터에 대해서는, 각 보코더를 규정하는 표준에 상세히 기재되어 있다.
다음 표는 현재 입수가능한 몇가지의 셀룰러 통신시스템 및 이들과 함께 동작하는 보코더, 및 보코더 및/또는 시스템을 규정하는 표준을 나타내고 있다.
표
디지탈 셀룰러 통신시스템 | LPC에 기초를 둔 보코더 | 표준 |
GSM | RPE-LTP 풀 레이트RPE-LTP 하프 레이트 | I-ETS 300 036 6.1I-ETS 300 581-2ver. 4 |
CDMA | QCELP 8Kbps, 13KbpsEVRCLD CELP | IS 96 AIS 127ITU G.728 |
TDMA | VSELP | IS 54 B |
PHS, PCS | CS ACELP | ITU G.729 |
PCS-TDMA | 개선된 풀 레이트보코더 | IS 641 |
PDC(일본에서) | VSELP | RCR STD 27 |
이상 본 발명의 적절한 실시예에 대해 첨부도면을 참조하면서 설명했지만, 본 발명은 이에 한정되지 않고, 청구의 범위에 기재된 기술사상의 범주에 있어서 당업자라면 각종의 변형 및 수정을 행할 수 있는 것이다.
Claims (20)
- 음성 데이터를 완전히 재구성하는 일없이 LPC에 기초를 둔 일련의 프레임으로 구성된 보코더 데이터를 이용하여 말하는 워드를 인식하는 방법에 있어서,상기 보코더 데이터의 프레임마다 적어도 하나의 에너지 추정치를 발생하는 스텝과,관련된 에너지 추정치를 이용하여 상기 보코더 데이터에 있어서 워드경계를 검색하는 스텝,워드가 발견된 경우, 그 워드와 관련된 보코더 데이터로부터 LPC 워드 파라미터를 추출하는 스텝,상기 추출된 LPC 워드 파라미터로부터 인식특징을 계산하는 스텝 및,상기 인식특징을 미리 저장되어 있는 다른 워드의 인식특징과 매치시켜 말하는 워드를 인식하는 스텝을 구비하여 이루어진 것을 특징으로 하는 말하는 워드의 인식방법.
- 음성 데이터를 완전히 재구성하는 일없이 LPC에 기초를 둔 일련의 프레임으로 구성된 보코더 데이터를 이용하여 말하는 워드를 인식하는 준비를 행하는 방법에 있어서,상기 보코더 데이터의 프레임마다 적어도 하나의 에너지 추정치를 발생하는 스텝과,관련된 에너지 추정치를 이용하여 상기 보코더 데이터에 있어서 워드경계를 검색하는 스텝,워드가 발견된 경우, 그 워드와 관련된 보코더 데이터로부터 LPC 워드 파라미터를 추출하는 스텝 및,상기 추출된 LPC 워드 파라미터로부터 인식특징을 계산하는 스텝을 구비하여 이루어진 것을 특징으로 하는 말하는 워드의 인식을 준비하는 방법.
- 제2항에 있어서, 상기 에너지 추정치를 발생하는 스텝은, 상기 보코더 데이터에 있어서 발견된 잔여 데이터로부터 에너지를 추정하는 스텝을 포함하는 것을 특징으로 하는 말하는 워드의 인식을 준비하는 방법.
- 제3항에 있어서, 상기 에너지를 추정하는 스텝은, 상기 보코더 데이터로부터 잔여 데이터를 재구성하여 상기 잔여 데이터의 표준을 생성하는 스텝을 포함하는 것을 특징으로 하는 말하는 워드의 인식을 준비하는 방법.
- 제3항에 있어서, 상기 에너지를 추정하는 스텝은, 상기 보코더 데이터로부터 피치이득치를 추출하여 그 추출한 피치이득치를 상기 에너지 추정치로서 이용하는 것을 특징으로 하는 말하는 워드의 인식을 준비하는 방법.
- 제3항에 있어서, 상기 에너지 추정치를 발생하는 스텝은,상기 보코더 데이터로부터 피치이득치, LAG치 및 잔류 데이터를 추출하는 스텝과,상기 잔류 데이터로부터 잔류 신호를 재구성하는 스텝,상기 잔류 신호의 에너지 추정치를 발생하는 스텝,상기 피치이득치 및 상기 LAG치에 의해 정의되는 이전의 에너지 추정치를 이용하여 상기 잔여의 비잔류 부분의 에너지 추정치를 발생하는 스텝 및,상기 잔류 및 비잔류 에너지 추정치를 결합하는 스텝을 포함하는 것을 특징으로 하는 말하는 워드의 인식을 준비하는 방법.
- 제1항에 있어서, 상기 보코더 데이터는 다음의 보코더, 즉 RPE-LTP 풀 및 하프 레이트, QCELP 8 및 13Kbps, EVRC, LD CELP, VSELP, CS ACELP, 개선된 풀 레이트 보코더 및 LPC10의 어느 하나에 의해 생성되는 형태의 것인 것을 특징으로 하는 말하는 워드의 인식방법.
- 제2항에 있어서, 상기 보코더 데이터는 다음의 보코더, 즉 RPE-LTP 풀 및 하프 레이트, QCELP 8 및 13Kbps, EVRC, LD CELP, VSELP, CS ACELP, 개선된 풀 레이트 보코더 및 LPC10의 어느 하나에 의해 생성되는 형태의 것인 것을 특징으로 하는 말하는 워드의 인식을 준비하는 방법.
- 음성 데이터를 압축하여 LPC에 기초를 둔 보코더 데이터를 생성하는 LPC에 기초를 둔 보코더를 구비하고,상기 LPC에 기초를 둔 보코더 데이터를 그 입력으로서 이용하는 것을 특징으로 하는 음성인식 시스템.
- 이동전화 운영시스템과,적어도 LPC를 이용하여 음성신호를 압축하여 보코더 데이터를 생성하는 보코더 및,상기 보코더 데이터를 처리하고 또한 워드가 발성된 때를 판단하여 상기 말하는 워드의 인식특징을 발생하는 전단 프로세서와, 적어도 상기 말하는 워드를 한 세트의 기준워드의 하나로서 인식하는 인식부를 갖춘 보코더에 기초를 둔 음성인식기를 구비하여 구성된 것을 특징으로 하는 디지탈 셀룰러전화.
- 제10항에 있어서, 상기 전단 프로세서는, 음성신호의 에너지를 추정하기 위해 상기 보코더 데이터의 일부를 형성하는 잔여정보를 이용하는 에너지 추정기와,상기 보코더 데이터의 LPC 파라미터를 추출하는 LPC 파라미터 추출기 및,상기 LPC 파라미터로부터 인식특징을 발생하는 인식특징 발생기를 포함하고 있는 것을 특징으로 하는 디지탈 셀룰러전화.
- 제10항에 있어서, 상기 전단 프로세서는 다중 보코더 타입과 선택적으로 동작가능하게 되어 있는 것을 특징으로 하는 디지탈 셀룰러전화.
- 제10항에 있어서, 상기 보코더는 RPE-LTP 풀 및 하프 레이트, QCELP 8 및 13Kbps, EVRC, LD CELP, VSELP, CS ACELP, 개선된 풀 레이트 보코더 및 LPC10의 어느 하나인 것을 특징으로 하는 디지탈 셀룰러전화.
- LPC에 기초를 둔 보코더에 의해 생성된 데이터를 이용하여 동작가능하게 되어 있는 보코더에 기초를 둔 음성인식기에 있어서,상기 보코더 데이터를 처리하고 또한 워드가 발성된 때를 판단하여 상기 말하는 워드의 인식특징을 발생하는 전단 프로세서와, 적어도 상기 말하는 워드를 한 세트의 기준워드의 하나로서 인식하는 인식부를 구비하여 구성된 것을 특징으로 하는 음성인식기.
- 제14항에 있어서, 상기 전단 프로세서는, 음성신호의 에너지를 추정하기 위해 상기 보코더 데이터의 일부를 형성하는 잔여정보를 이용하는 에너지 추정기와,상기 보코더 데이터의 LPC 파라미터를 추출하는 LPC 파라미터 추출기 및,상기 LPC 파라미터로부터 인식특징을 발생하는 인식특징 발생기를 포함하고 있는 것을 특징으로 하는 음성인식기.
- 제15항에 있어서, 상기 에너지 추정기는, 상기 보코더 데이터에서 발견된 잔여 데이터로부터 에너지를 추정하는 잔여 에너지 추정기를 갖추고 있는 것을 특징으로 하는 음성인식기.
- 제16항에 있어서, 상기 잔여 에너지 추정기는, 상기 보코더 데이터로부터 잔여 데이터를 재구성하는 잔여 재구성기와, 상기 잔여 데이터의 표준을 발생시켜 상기 에너지 추정치를 발생하는 표준 발생기를 갖추고 있는 것을 특징으로 하는 음성인식기.
- 제16항에 있어서, 상기 잔여 에너지 추정기는 상기 보코더 데이터로부터 피치이득치를 추출하여 상기 에너지 추정치를 생성하는 추출기를 갖추고 있는 것을 특징으로 하는 음성인식기.
- 제16항에 있어서, 상기 잔여 에너지 추정기는,상기 보코더 데이터로부터 피치이득치, LAG치 및 잔류 데이터를 추출하는 추출기와,상기 잔류 데이터로부터 잔류 신호를 재구성하는 재구성기,상기 잔류 신호의 에너지 추정치를 발생하는 잔류 에너지 추정기,상기 피치이득치와 상기 LAG치에 의해 정의되는 이전의 에너지 추정치를 이용하여 상기 잔여의 비잔류 부분의 에너지 추정치를 발생하는 비잔류 에너지 추정기 및,상기 잔류 및 비잔류 에너지 추정치를 결합하여 상기 에너지 추정치를 생성하는 결합기를 갖추고 있는 것을 특징으로 하는 음성인식기.
- 제14항에 있어서, 상기 보코더는 RPE-LTP 풀 및 하프 레이트, QCELP 8 및 13Kbps, EVRC, LD CELP, VSELP, CS ACELP, 개선된 풀 레이트 보코더 및 LPC10의 어느 하나인 것을 특징으로 하는 음성인식기.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/002,616 US6003004A (en) | 1998-01-08 | 1998-01-08 | Speech recognition method and system using compressed speech data |
US09/002,616 | 1998-01-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010006401A KR20010006401A (ko) | 2001-01-26 |
KR100391287B1 true KR100391287B1 (ko) | 2003-07-12 |
Family
ID=21701631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-1999-7009488A KR100391287B1 (ko) | 1998-01-08 | 1998-07-22 | 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 |
Country Status (12)
Country | Link |
---|---|
US (3) | US6003004A (ko) |
EP (1) | EP1046154B1 (ko) |
JP (1) | JP2001510595A (ko) |
KR (1) | KR100391287B1 (ko) |
CN (1) | CN1125432C (ko) |
AT (1) | ATE282881T1 (ko) |
AU (1) | AU8355398A (ko) |
DE (1) | DE69827667T2 (ko) |
IL (1) | IL132449A (ko) |
RU (1) | RU99124623A (ko) |
TW (1) | TW394925B (ko) |
WO (1) | WO1999035639A1 (ko) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370504B1 (en) * | 1997-05-29 | 2002-04-09 | University Of Washington | Speech recognition on MPEG/Audio encoded files |
US6134283A (en) * | 1997-11-18 | 2000-10-17 | Amati Communications Corporation | Method and system for synchronizing time-division-duplexed transceivers |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
KR100277105B1 (ko) * | 1998-02-27 | 2001-01-15 | 윤종용 | 음성 인식 데이터 결정 장치 및 방법 |
US6223157B1 (en) * | 1998-05-07 | 2001-04-24 | Dsc Telecom, L.P. | Method for direct recognition of encoded speech data |
JP4081858B2 (ja) * | 1998-06-04 | 2008-04-30 | ソニー株式会社 | コンピュータシステム、コンピュータ端末装置、及び記録媒体 |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
US6411926B1 (en) * | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
US6792405B2 (en) * | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
US6795698B1 (en) * | 2000-04-12 | 2004-09-21 | Northrop Grumman Corporation | Method and apparatus for embedding global positioning system (GPS) data in mobile telephone call data |
US6564182B1 (en) | 2000-05-12 | 2003-05-13 | Conexant Systems, Inc. | Look-ahead pitch determination |
US6999923B1 (en) * | 2000-06-23 | 2006-02-14 | International Business Machines Corporation | System and method for control of lights, signals, alarms using sound detection |
US7203651B2 (en) * | 2000-12-07 | 2007-04-10 | Art-Advanced Recognition Technologies, Ltd. | Voice control system with multiple voice recognition engines |
US7155387B2 (en) * | 2001-01-08 | 2006-12-26 | Art - Advanced Recognition Technologies Ltd. | Noise spectrum subtraction method and system |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US7319703B2 (en) * | 2001-09-04 | 2008-01-15 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts |
US7050969B2 (en) * | 2001-11-27 | 2006-05-23 | Mitsubishi Electric Research Laboratories, Inc. | Distributed speech recognition with codec parameters |
US7079657B2 (en) * | 2002-02-26 | 2006-07-18 | Broadcom Corporation | System and method of performing digital multi-channel audio signal decoding |
US7024353B2 (en) * | 2002-08-09 | 2006-04-04 | Motorola, Inc. | Distributed speech recognition with back-end voice activity detection apparatus and method |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
FI20021936A (fi) * | 2002-10-31 | 2004-05-01 | Nokia Corp | Vaihtuvanopeuksinen puhekoodekki |
CN1302454C (zh) * | 2003-07-11 | 2007-02-28 | 中国科学院声学研究所 | 语音识别的概率加权平均缺失特征数据重建方法 |
US7558736B2 (en) * | 2003-12-31 | 2009-07-07 | United States Cellular Corporation | System and method for providing talker arbitration in point-to-point/group communication |
KR100647290B1 (ko) * | 2004-09-22 | 2006-11-23 | 삼성전자주식회사 | 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법 |
US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
US20060095261A1 (en) * | 2004-10-30 | 2006-05-04 | Ibm Corporation | Voice packet identification based on celp compression parameters |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
GB0710211D0 (en) * | 2007-05-29 | 2007-07-11 | Intrasonics Ltd | AMR Spectrography |
US20090094026A1 (en) * | 2007-10-03 | 2009-04-09 | Binshi Cao | Method of determining an estimated frame energy of a communication |
US9208796B2 (en) * | 2011-08-22 | 2015-12-08 | Genband Us Llc | Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same |
MY197063A (en) * | 2013-04-05 | 2023-05-23 | Dolby Int Ab | Companding system and method to reduce quantization noise using advanced spectral extension |
CN104683959B (zh) * | 2013-11-27 | 2018-09-18 | 深圳市盛天龙视听科技有限公司 | 即时通讯型便携式音频装置及其账号载入方法 |
KR20150096217A (ko) * | 2014-02-14 | 2015-08-24 | 한국전자통신연구원 | 디지털 데이터 압축 방법 및 장치 |
TWI631556B (zh) * | 2017-05-05 | 2018-08-01 | 英屬開曼群島商捷鼎創新股份有限公司 | 資料壓縮裝置及其資料壓縮方法 |
US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4475189A (en) * | 1982-05-27 | 1984-10-02 | At&T Bell Laboratories | Automatic interactive conference arrangement |
US4519094A (en) * | 1982-08-26 | 1985-05-21 | At&T Bell Laboratories | LPC Word recognizer utilizing energy features |
US4866777A (en) * | 1984-11-09 | 1989-09-12 | Alcatel Usa Corporation | Apparatus for extracting features from a speech signal |
US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
GB2272554A (en) * | 1992-11-13 | 1994-05-18 | Creative Tech Ltd | Recognizing speech by using wavelet transform and transient response therefrom |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5704009A (en) * | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
-
1998
- 1998-01-08 US US09/002,616 patent/US6003004A/en not_active Expired - Lifetime
- 1998-07-13 TW TW087111338A patent/TW394925B/zh not_active IP Right Cessation
- 1998-07-22 JP JP53591099A patent/JP2001510595A/ja not_active Ceased
- 1998-07-22 AT AT98933871T patent/ATE282881T1/de not_active IP Right Cessation
- 1998-07-22 RU RU99124623/09A patent/RU99124623A/ru not_active Application Discontinuation
- 1998-07-22 KR KR10-1999-7009488A patent/KR100391287B1/ko not_active IP Right Cessation
- 1998-07-22 AU AU83553/98A patent/AU8355398A/en not_active Abandoned
- 1998-07-22 DE DE69827667T patent/DE69827667T2/de not_active Expired - Lifetime
- 1998-07-22 EP EP98933871A patent/EP1046154B1/en not_active Expired - Lifetime
- 1998-07-22 IL IL13244998A patent/IL132449A/xx not_active IP Right Cessation
- 1998-07-22 CN CN98808942A patent/CN1125432C/zh not_active Expired - Fee Related
- 1998-07-22 WO PCT/IL1998/000341 patent/WO1999035639A1/en active IP Right Grant
-
1999
- 1999-10-05 US US09/412,406 patent/US6377923B1/en not_active Expired - Lifetime
-
2002
- 2002-01-22 US US10/051,350 patent/US20030018472A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
Also Published As
Publication number | Publication date |
---|---|
US20030018472A1 (en) | 2003-01-23 |
US6003004A (en) | 1999-12-14 |
CN1273662A (zh) | 2000-11-15 |
IL132449A0 (en) | 2001-03-19 |
WO1999035639A1 (en) | 1999-07-15 |
DE69827667T2 (de) | 2005-10-06 |
RU99124623A (ru) | 2001-09-27 |
JP2001510595A (ja) | 2001-07-31 |
IL132449A (en) | 2005-07-25 |
ATE282881T1 (de) | 2004-12-15 |
DE69827667D1 (de) | 2004-12-23 |
CN1125432C (zh) | 2003-10-22 |
US6377923B1 (en) | 2002-04-23 |
EP1046154B1 (en) | 2004-11-17 |
EP1046154A1 (en) | 2000-10-25 |
KR20010006401A (ko) | 2001-01-26 |
TW394925B (en) | 2000-06-21 |
AU8355398A (en) | 1999-07-26 |
EP1046154A4 (en) | 2001-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100391287B1 (ko) | 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 | |
US6411926B1 (en) | Distributed voice recognition system | |
EP1006509B1 (en) | Automatic speech/speaker recognition over digital wireless channels | |
CA2179759C (en) | Distributed voice recognition system | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
US20110099014A1 (en) | Speech content based packet loss concealment | |
US20030004720A1 (en) | System and method for computing and transmitting parameters in a distributed voice recognition system | |
EP1220197A2 (en) | Speech recognition method and system | |
WO2002103679A1 (en) | Method and apparatus for transmitting speech activity in distributed voice recognition systems | |
WO2003094152A1 (en) | Distributed voice recognition system utilizing multistream feature processing | |
US20040148160A1 (en) | Method and apparatus for noise suppression within a distributed speech recognition system | |
KR100794140B1 (ko) | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 | |
CA2297191A1 (en) | A vocoder-based voice recognizer | |
Gunawan et al. | PLP coefficients can be quantized at 400 bps | |
KR100647291B1 (ko) | 음성의 특징을 이용한 음성 다이얼링 장치 및 방법 | |
EP1119844A1 (en) | A method of speech processing and an apparatus for processing of speech | |
de Alencar et al. | On the performance of ITU-T G. 723.1 and AMR-NB codecs for large vocabulary distributed speech recognition in Brazilian Portuguese | |
Kader | EFFECT OF GSM SYSTEM ON TEXT-INDEPENDENT SPEAKER RECOGNITION PERFORMANCE. | |
WO2001031636A2 (en) | Speech recognition on gsm encoded data | |
Kaleka | Effectiveness of Linear Predictive Coding in Telephony based applications of Speech Recognition | |
KR20050054711A (ko) | 휴대폰의 음성합성을 이용한 일정 안내 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |